CN110619326B - 一种基于扫描的英语试卷作文检测识别系统及方法 - Google Patents
一种基于扫描的英语试卷作文检测识别系统及方法 Download PDFInfo
- Publication number
- CN110619326B CN110619326B CN201910590784.0A CN201910590784A CN110619326B CN 110619326 B CN110619326 B CN 110619326B CN 201910590784 A CN201910590784 A CN 201910590784A CN 110619326 B CN110619326 B CN 110619326B
- Authority
- CN
- China
- Prior art keywords
- composition
- line
- module
- text
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/225—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/243—Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于扫描的英语试卷作文检测识别系统及方法。针对学生英语试卷作文手写体英文文本检测识别,提出全新的检测识别系统。本系统共包含作文区域定位校正,作文行检测,图像去噪和文本识别四个模块。作文区域定位校正模块和作文行检测模块能够根据试卷特殊的几何背景信息快速准确检测文本行位置,图像去噪模块利用生成网络对文本行图像去除冗余字符特征和涂改噪声等,文本识别模块凭借图像重复剪切拼接的数据预处理方式以及基于CNN(Convolutional Neural Networks)+RNN(Recursive Neural Network)+CTC(Connectionist Temporal Classification)方法提高手写体字符识别准确率。本系统能够自动校正畸变的扫描英语图像,去除图像噪声,有效提高检测速度以及高粘连手写字体字符识别率。
Description
技术领域
本发明涉及OCR(Optical Character Recognition,光学字符识别)领域,具体涉及到一种基于扫描的英语试卷作文检测识别系统及方法。
背景技术
现有的网上阅卷系统都是利用OCR技术对学生考试试卷图像文件进行分析识别处理,获取文字及版面信息。即将图像中的文字进行识别,并以文本的形式返回。其中影响识别准确率的技术瓶颈是文字检测和文本识别。由于学生英语作文试卷具有多模板形式和答题线背景信息,以及学生手写字体具有多粘连,字体多样,字号字重颜色不一等特殊特点,因此采用合理高效精准的检测识别技术至关重要。
近年来,由于深度学习在图像处理领域的迅猛发展,越来越多基于深度学习的文本检测及文本识别方法取得重大突破,能够满足特定领域的识别问题。通过调研和实验发现:在检测方面,由于作文文本行之间分界不明显,行间粘连,以及作文行间会有学生涂改添加等文本信息,因此通用基于深度学习的检测方法不能准确定位文本行位置信息,在很大程度上影响后续识别;而且由于试卷图像较大,检测速度过慢。在识别方面,由于字符之间高度粘连以及字符间模式多样的涂改噪声,通用方法并不能准确识别文本信息。
综上所述,对于英语试卷文本检测识别,采用通用文本检测和识别方法并不可行。本发明将基于英语试卷作文上述的特性,提出一种合理高效高准确率的英语作文识别系统及方法。
发明内容
本发明所要解决的技术问题在于针对英语作文特性,设计合理的检测识别系统及方法,其中系统包含的功能模块结构图如图1所示。系统输入为扫描的英语作文试卷,经过作文区域定位校正,作文行检测,图像去噪,文本识别最终输出文本格式英语作文。
1.作文区域定位校正模块说明:
作文区域定位校正模块根据英语试卷作文答题区特有的几何特性完成作文答题区定位,同时能够根据几何信息校正倾斜及透视畸变的原始扫描图片,输出图像仅保留学生答题区内容,效果示例如图2所示。
2.作文行检测模块说明:
作文行检测模块根据作文区域定位校正模块的输出图片进行作文行检测,能够根据答题线水平投影信息检测每一行作文的位置信息,筛选过滤非答题空白区域以及空白行,得到含有答题信息行的坐标,根据坐标信息实现文本行切割。检测切割示例如图3所示。
3.图像去噪模块说明:
通过作文行检测模块得到切割的作文行信息,通常会包含上下行的冗余信息或者包含涂改噪声,这些噪声都会对识别产生干扰。图像去噪模块能够利用Condition-GAN网络去除这些噪声,仅保留识别的文本信息,去噪效果如示例图4所示。
4.文本识别模块说明:
根据图像去噪模块输出的文本行图片作为文本行识别模块的输入,能够将图片中的字符序列信息转换为文本格式字符序列信息,实现英语作文识别任务。
附图说明
图1为本发明的系统功能模块结构图;
图2为本发明作文区域定位及校正模块效果图;
图3为本发明作文行检测切割模块效果图;
图4为本发明作文行去噪模块效果图;
图5为本发明的识别模型数据传输流程图;
图6为本发明的VGG16网络结构图;
图7为本发明的双层BLSTM图;
图8为本发明的识别网络结构图;
具体实施方式
具体实施方式主要针对本发明提出的一种基于扫描的英语试卷作文检测识别系统所包含的各功能模块,提出了具体可行的实现方法。
步骤一、作文区域定位校正模块具体实现方法:
作文区域定位使用霍夫变换方法,通过检测图片中的直线信息,获取作文答题区域上下左右四条边界线的交点坐标信息,根据坐标信息完成透视变换和旋转校正,裁切原始图片,最终仅保留校正后的学生答题区域。
步骤二、作文行检测模块具体实现方法:
作文行检测使用图像水平方向投影方法,将原始图像二值化,然后根据水平方向统计前景像素值数量,能够获取作文答题线的垂直坐标信息,根据坐标信息将原始整体图像以文本行的形式切割,最终获取文本行图像。其中,可以根据投影数据分析,筛选过滤无需识别的空白行图片。
步骤三、图像去噪模块具体实现方法:
图像去噪使用Condition-GAN网络,将带有噪声的文本行作为输入条件,生成器将学习没有噪声的样本分布,生成没有噪声的文本行图片。在训练网络的时候,将有噪声生图片和没噪声图片以图片对的方式进行训练。
步骤四、文本识别模块具体实现方法:
1.首先对作文行图片进行切分预处理,使用一个正方形滑动窗口在作文行图片水平方向滑动,滑动窗口边长大小为作文行图片的高度值,滑动窗口的滑动步长小于滑动窗口边长2个像素,因此相邻两个滑窗重叠2个像素宽度的区域面积,能够让卷积滤波器连续转换,进而提高字符识别率。
2.文本序列识别模型采用CNN(Convolutional Neural Networks)+RNN(Recursive Neural Network)+CTC(Connectionist TemporalClassification)模式。数据流程图如示例图5所示。其中CNN网络使用VGG16模型的特征提取结构,模型结构如示例图6所示。原始图像经过VGG16网络处理,输出图像特征图,将图像特征图序列化作为RNN的输入。RNN网络使用两层BLSTM(Bidirectional LongShort-Term Memory)网络结构,模型结构如示例图7所示。通过LSTM单元学习字符间关联以及前后景关联信息。将BLSTM输出的序列信息进行解码即获取图像序列包含的文本信息。整体结构图及数据转换如示例图8所示。
本发明提出的一种基于扫描的英语试卷作文检测识别系统,能够提高阅卷效率,减少人力和时间成本。手写英语作文检测识别作为英语作文智能评阅与推荐系统的首要基础步骤,本发明可以为学生提供更好的英语学习服务,帮助学生提高英语写作水平,极大地缓解了老师们的批阅压力,节省老师们的批改时间,与此同时,为基础教育领域与人工智能技术领域的结合奠定了基础。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于扫描的英语试卷作文检测识别系统,其特征在于:主要包含作文区域定位校正模块、作文行检测模块、图像去噪模块以及文本识别模块;
所述作文区域定位校正模块具体功能描述为:根据英语试卷作文答题区特有的几何特性完成作文答题区定位,同时能够根据几何信息校正倾斜及透视畸变的原始扫描图片,输出图像仅保留学生答题区内容;
所述作文行检测模块具体功能描述为:能够根据作文区域定位校正模块的输出图片进行作文行检测,能够根据答题线投影检测每一行作文的位置信息,筛选过滤非答题空白区域以及空白行,得到含有答题信息行的坐标,根据坐标信息实现文本行切割;
所述图像去噪模块具体功能描述为:能够将作文行检测模块得到的切割的作文行信息中包含的上下行的冗余字符信息或者包含的涂改噪声利用生成网络消除,仅保留需要识别的文本信息;所述文本行识别模块具体功能描述为:能够将图片中的字符序列信息转换为文本格式字符序列信息,实现英语作文识别任务。
2.如权利要求1所述的一种基于扫描的英语试卷作文检测识别系统的功能模块具体实现方法,其特征在于:包括以下具体步骤:
步骤一、作文区域定位校正模块具体实现涉及霍夫变换方法,通过检测图片中的各方向直线信息,获取作文答题区域上下左右四条边界线的交点坐标信息,根据坐标信息完成透视变换和旋转校正,裁切原始图片,最终仅保留校正后的学生答题区域;
步骤二、作文行检测模块具体实现涉及图像投影统计方法,将原始图像二值化,然后根据水平方向统计前景像素值数量,能够获取作文答题线的垂直坐标信息,根据坐标信息将原始整体图像以作文行的形式切割,最终获取作文行图像,根据投影统计,可以同时筛选过滤空白行;
步骤三、图像去噪模块具体实现涉及生成网络方法,通过作文行检测模块得到切割的作文行信息,会包含上下行的冗余信息或者包含涂改噪声,这些噪声都会对识别产生干扰,图像去噪模块能够利用Condition-GAN网络重新生成图片,去除这些噪声,仅保留识别的文本信息;
步骤四、文本行识别模块用于实现数据预处理方式和深度学习方法,数据预处理方式为使用一个正方形滑动窗口在作文行图片水平方向滑动,滑动窗口边长大小为作文行图片的高度值,滑动窗口的滑动步长小于滑动窗口边长2个像素,因此相邻两个滑窗重叠2个像素宽度的区域面积,能够让卷积滤波器连续转换,进而提高粘连字符识别率,文本序列识别使用深度学习方法,模型基于CNN(ConvolutionalNeuralNetworks)+ RNN(RecursiveNeuralNetwork)+CTC(Connectionist TemporalClassification)模式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910590784.0A CN110619326B (zh) | 2019-07-02 | 2019-07-02 | 一种基于扫描的英语试卷作文检测识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910590784.0A CN110619326B (zh) | 2019-07-02 | 2019-07-02 | 一种基于扫描的英语试卷作文检测识别系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110619326A CN110619326A (zh) | 2019-12-27 |
CN110619326B true CN110619326B (zh) | 2023-04-18 |
Family
ID=68921712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910590784.0A Active CN110619326B (zh) | 2019-07-02 | 2019-07-02 | 一种基于扫描的英语试卷作文检测识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110619326B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639527A (zh) * | 2020-04-23 | 2020-09-08 | 平安国际智慧城市科技股份有限公司 | 英文手写文本识别方法、装置、电子设备及存储介质 |
CN111626294A (zh) * | 2020-05-27 | 2020-09-04 | 北京微智信业科技有限公司 | 一种基于自然语言语义分析的文本识别方法 |
CN113920286A (zh) * | 2020-06-22 | 2022-01-11 | 北京字节跳动网络技术有限公司 | 字符定位方法和装置 |
CN111985484B (zh) * | 2020-08-11 | 2024-09-06 | 云南电网有限责任公司电力科学研究院 | 基于cnn-lstm的温度仪表数字识别的方法及装置 |
CN112257703B (zh) * | 2020-12-24 | 2021-03-16 | 北京世纪好未来教育科技有限公司 | 图像识别方法、装置、设备和可读存储介质 |
CN112926587B (zh) * | 2021-02-19 | 2024-03-29 | 北京大米未来科技有限公司 | 一种文本识别的方法、装置、可读存储介质和电子设备 |
CN112907705B (zh) * | 2021-05-10 | 2021-08-06 | 北京世纪好未来教育科技有限公司 | 涂改图像生成方法、装置、设备及存储介质 |
CN113688927B (zh) * | 2021-08-31 | 2024-10-18 | 中国平安人寿保险股份有限公司 | 一种图片样本生成方法、装置、计算机设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009114967A1 (zh) * | 2008-03-19 | 2009-09-24 | 东莞市步步高教育电子产品有限公司 | 基于移动扫描的图像处理方法及装置 |
CN102622593A (zh) * | 2012-02-10 | 2012-08-01 | 北方工业大学 | 一种文本识别方法及系统 |
WO2018006294A1 (zh) * | 2016-07-06 | 2018-01-11 | 王楚 | 一种基于图像模式识别技术的阅卷系统、装置和方法 |
CN109076246A (zh) * | 2016-04-06 | 2018-12-21 | 英特尔公司 | 使用图像数据校正掩码的视频编码方法和系统 |
WO2019056346A1 (zh) * | 2017-09-25 | 2019-03-28 | 深圳传音通讯有限公司 | 一种利用膨胀法校正文本图像倾斜的方法及装置 |
CN109902622A (zh) * | 2019-02-26 | 2019-06-18 | 中国科学院重庆绿色智能技术研究院 | 一种用于登机牌信息验证的文字检测识别方法 |
-
2019
- 2019-07-02 CN CN201910590784.0A patent/CN110619326B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009114967A1 (zh) * | 2008-03-19 | 2009-09-24 | 东莞市步步高教育电子产品有限公司 | 基于移动扫描的图像处理方法及装置 |
CN102622593A (zh) * | 2012-02-10 | 2012-08-01 | 北方工业大学 | 一种文本识别方法及系统 |
CN109076246A (zh) * | 2016-04-06 | 2018-12-21 | 英特尔公司 | 使用图像数据校正掩码的视频编码方法和系统 |
WO2018006294A1 (zh) * | 2016-07-06 | 2018-01-11 | 王楚 | 一种基于图像模式识别技术的阅卷系统、装置和方法 |
WO2019056346A1 (zh) * | 2017-09-25 | 2019-03-28 | 深圳传音通讯有限公司 | 一种利用膨胀法校正文本图像倾斜的方法及装置 |
CN109902622A (zh) * | 2019-02-26 | 2019-06-18 | 中国科学院重庆绿色智能技术研究院 | 一种用于登机牌信息验证的文字检测识别方法 |
Non-Patent Citations (1)
Title |
---|
一种复杂版面扭曲文档图像快速校正方法;曾凡锋等;《计算机应用与软件》;20160615(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110619326A (zh) | 2019-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110619326B (zh) | 一种基于扫描的英语试卷作文检测识别系统及方法 | |
CN109902622B (zh) | 一种用于登机牌信息验证的文字检测识别方法 | |
CN110210413B (zh) | 一种基于深度学习的多学科试卷内容检测与识别系统及方法 | |
CN109241894B (zh) | 一种基于表格定位和深度学习的票据内容识别系统和方法 | |
CN109948510B (zh) | 一种文档图像实例分割方法及装置 | |
US20190019055A1 (en) | Word segmentation system, method and device | |
CN110969129B (zh) | 一种端到端税务票据文本检测与识别方法 | |
CN103310211B (zh) | 一种基于图像处理的填注标记识别方法 | |
CN113537227B (zh) | 一种结构化文本识别方法及系统 | |
CN113159014B (zh) | 基于手写题号的客观题批阅方法、装置、设备及存储介质 | |
CN111242024A (zh) | 基于机器学习识别图纸内图例及文字的方法及系统 | |
CN112446259A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN112507758A (zh) | 答题卡字符串识别方法、装置、终端和计算机存储介质 | |
CN110598686A (zh) | 发票的识别方法、系统、电子设备和介质 | |
CN111178290A (zh) | 一种签名验证方法和装置 | |
CN113705576B (zh) | 一种文本识别方法、装置、可读存储介质及设备 | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN113901952A (zh) | 一种基于深度学习的印刷体与手写体分开文字识别方法 | |
CN110298236B (zh) | 一种基于深度学习的盲文图像自动识别方法和系统 | |
CN115880566A (zh) | 一种基于视觉分析的智能阅卷系统 | |
CN113139535A (zh) | 一种ocr文档识别方法 | |
CN111832551A (zh) | 文本图像处理方法、装置、电子扫描设备和存储介质 | |
CN109147002B (zh) | 一种图像处理方法和装置 | |
CN118135584A (zh) | 一种基于深度学习的手写表单自动识别方法和系统 | |
CN114639106A (zh) | 图文识别方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 1201, B / F, headquarters economic building, Xinzhan District, Hefei City, Anhui Province, 230012 Applicant after: Anhui Qitian Network Technology Co.,Ltd. Address before: Room 1201, B / F, headquarters economic building, Xinzhan District, Hefei City, Anhui Province, 230012 Applicant before: ANHUI SEVEN DAY EDUCATION TECHNOLOGY CO.,LTD. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |