CN112766255A - 一种光学文字识别方法、装置、设备及存储介质 - Google Patents
一种光学文字识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112766255A CN112766255A CN202110069984.9A CN202110069984A CN112766255A CN 112766255 A CN112766255 A CN 112766255A CN 202110069984 A CN202110069984 A CN 202110069984A CN 112766255 A CN112766255 A CN 112766255A
- Authority
- CN
- China
- Prior art keywords
- text
- target text
- line
- target
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012015 optical character recognition Methods 0.000 title claims abstract description 52
- 230000011218 segmentation Effects 0.000 claims description 40
- 238000012937 correction Methods 0.000 claims description 21
- 238000013145 classification model Methods 0.000 claims description 18
- 102100032202 Cornulin Human genes 0.000 claims description 17
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000000750 progressive effect Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 3
- 230000003287 optical effect Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- QGZKDVFQNNGYKY-UHFFFAOYSA-N Ammonia Chemical compound N QGZKDVFQNNGYKY-UHFFFAOYSA-N 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 229910052743 krypton Inorganic materials 0.000 description 2
- DNNSSWSSYDEUBZ-UHFFFAOYSA-N krypton atom Chemical compound [Kr] DNNSSWSSYDEUBZ-UHFFFAOYSA-N 0.000 description 2
- 229910021529 ammonia Inorganic materials 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
本申请公开了一种光学文字识别方法、装置、设备及存储介质,包括:获取待检测图像的目标文本行;判断所述目标文本行的文本样式,其中,所述文本样式为印刷体文本或手写体文本;基于所述目标文本行的所述文本样式确定目标文本识别模型,并利用所述目标文本识别模型对所述目标文本行进行识别。本申请在对混合文本中的文本样式进行分类的基础上,利用不同的目标文本识别模型对印刷体文本和手写体文本进行文字识别,有效提高了光学文字识别的准确度。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种光学文字识别方法、装置、设备及存储介质。
背景技术
光学文字识别(OCR,Optical Character Recognition)是在自然光线照射的基础上,对于相机拍摄的文档图片中的文字,利用计算机技术做文字识别的过程,广泛应用于大量文字资料、档案卷宗、文案的录入和银行票据处理等领域。
现有技术中的光学文字识别大多都是针对中文印刷体文本,对于风格多样的手写体中文文字尚未有完善的识别方案,如果将识别印刷体文本中的文字的OCR识别模型直接用于识别手写体文本中的文字,识别精度会急剧下降,相应的,对于手写体和印刷体同时出现的混合文本,目前没有模型能对上述混合文本中的文字进行有效识别,其识别效果受限于模型训练的数据匮乏及其架构设计。
发明内容
有鉴于此,本发明的目的在于提供一种光学文字识别方法、装置、设备及存储介质,能够在对混合文本中的文本样式进行分类的基础上,利用不同的目标文本识别模型对印刷体文本和手写体文本进行文字识别,有效提高光学文字识别准确度。其具体方案如下:
本申请的第一方面提供了一种光学文字识别方法,包括:
获取待检测图像的目标文本行;
判断所述目标文本行的文本样式;其中,所述文本样式为印刷体文本或手写体文本;
基于所述目标文本行的所述文本样式确定目标文本识别模型,并利用所述目标文本识别模型对所述目标文本行进行识别。
可选的,所述获取待检测图像的目标文本行,包括:
利用基于语义分割网络构建的分割模型对所述待检测图像进行分割,以得到所述待检测图像的目标文本行。
可选的,所述利用基于语义分割网络构建的分割模型对所述待检测图像进行分割之后,还包括:
判断所述目标文本行中的文字是否水平对齐,如果否,则调整所述目标文本行中的所述文字至水平对齐,以得到水平对齐的所述目标文本行。
可选的,所述调整所述目标文本行中的所述文字至水平对齐,包括:
根据所述目标文本行中的所述文字的坐标点确定所述目标文本行与水平方向的夹角,并通过仿射变换将所述目标文本行中的所述文字调整至水平方向。
可选的,所述利用基于语义分割网络构建的分割模型对所述待检测图像进行分割,包括:
利用基于渐进式尺度扩展网络或DB-NET构建的分割模型对所述待检测图像进行分割。
可选的,所述判断所述目标文本行的文本样式,包括:
利用基于二分类网络构建的文本样式分类模型对所述目标文本行的文本样式进行判断。
可选的,所述基于所述目标文本行的所述文本样式确定目标文本识别模型,并利用所述目标文本识别模型对所述目标文本行进行识别,包括:
如果所述目标文本行的所述文本样式为所述印刷体文本,则将基于CRNN网络构建的文本识别模型确定为所述目标文本识别模型,并利用所述目标文本识别模型对所述目标文本行进行识别;
如果所述目标文本行的所述文本样式为所述手写体文本,则将基于CRNN+Attention机制构建的文本识别模型确定为所述目标文本识别模型,并利用所述目标文本识别模型对所述目标文本行进行识别。
可选的,所述利用所述目标文本识别模型对所述目标文本行进行识别之后,还包括:
利用文本纠错模型对所述目标文本行的识别结果进行文本纠错。
可选的,所述利用文本纠错模型对所述目标文本行的识别结果进行文本纠错,包括:
利用N-Gram模型对所述目标文本行的识别结果进行文本纠错。
本申请的第二方面提供了一种光学文字识别装置,包括:
获取模块,用于获取待检测图像的目标文本行;
判断模块,用于判断所述目标文本行的文本样式;其中,所述文本样式为印刷体文本或手写体文本;
识别模块,用于基于所述目标文本行的所述文本样式确定目标文本识别模型,并利用所述目标文本识别模型对所述目标文本行进行识别。
本申请的第三方面提供了一种电子设备,所述电子设备包括处理器和存储器;其中所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现前述光学文字识别方法。
本申请的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现前述光学文字识别方法。
本申请中,先获取待检测图像的目标文本行,然后判断所述目标文本行的文本样式,其中,所述文本样式为印刷体文本或手写体文本,最后基于所述目标文本行的所述文本样式确定目标文本识别模型,并利用所述目标文本识别模型对所述目标文本行进行识别。本申请在对混合文本中的文本样式进行分类的基础上,利用不同的目标文本识别模型对印刷体文本和手写体文本进行文字识别,有效提高了光学文字识别的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种光学文字识别方法流程图;
图2为本申请提供的一种光学文字识别方案示意图;
图3为本申请提供的一种具体的光学文字识别方法流程图;
图4为本申请提供的一种具体光学文字识别方案示意图;
图5为本申请提供的一种光学文字识别装置结构示意图;
图6为本申请提供的一种光学文字识别电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的光学文字识别大多都是针对中文印刷体文本,对于风格多样的手写体中文文字尚未有完善的识别方案,如果将识别印刷体文本中的文字的OCR识别模型直接用于识别手写体文本中的文字,识别精度会急剧下降,相应的,对于手写体和印刷体同时出现的混合文本,目前没有模型能对上述混合文本中的文字进行有效识别,其识别效果受限于模型训练的数据匮乏及其架构设计。为了克服上述技术问题,本申请提供了一种光学文字识别方案,能够在对混合文本中的文本样式进行分类的基础上,利用不同的目标文本识别模型对印刷体文本和手写体文本进行文字识别,有效提高了光学文字识别的准确度。
图1为本申请实施例提供的一种光学文字识别方法流程图。参见图1所示,该光学文字识别方法包括:
S11:获取待检测图像的目标文本行。
本实施例中,下述步骤中的识别模型仅支持单行的文字序列的识别,也即所述识别模型的识别对象均为文本行,但一般来说,一张待检测图像中的文字排列是不规则的,排版随机性较大,由于文档类型的图像中的文字行之间距离都比较相近,为了能较准确对所述待检测图像中的文字进行识别,需要检测成行的文本目标并很好的区别位置相近的文字行,也即较准确获取待检测图像的目标文本行,现有技术中从图像中提取指定区域(本实施例中为目标文本行对应的图像区域)的图像的方法较多,例如可以利用基于锚框的算法来实现,也可以利用基于语意分割的检测算法来实现,本实施例对如何获取待检测图像的目标文本行这一步骤的具体方式不进行限定。
S12:判断所述目标文本行的文本样式;其中,所述文本样式为印刷体文本或手写体文本。
本实施例中,由于印刷体和手写体不管是在文字排版上还是在书写类型上都有很大的差异,为了提高文字识别的准确度,不同的文本类型应该对应不同的文本识别模型。特别是对于混合文本行在利用模型进行识别之前,需要判断所述混合文本行中的所述目标文本行的文本样式,一般来说,所述文本样式分为印刷体文本或手写体文本。通过上述判断过程,能将混合文本行分为印刷体文本行和手写体文本行两个大类,每个大类中包含不同的所述目标文本行,便于针对不同类型的所述目标文本行,采用不同的识别模型进行文本识别。
可以理解的是,在所述混合文本行中的所述目标文本行的数量较少的情况下,可以人工判断所述目标文本行的文本样式,但当所述混合文本行中的所述目标文本行的数量巨大时,人工进行判断会耗费大量的时间成本和人力成本,此时利用基于分类算法构建的文本样式分类模型来对所述混合文本行中的所述目标文本行的文本类型进行判断及分类。
S13:基于所述目标文本行的所述文本样式确定目标文本识别模型,并利用所述目标文本识别模型对所述目标文本行进行识别。
本实施例中,基于所述目标文本行的所述文本样式(印刷体文本行或手写体文本行)确定目标文本识别模型,并利用所述目标文本识别模型对所述目标文本行进行识别。由于手写体文本的识别难度相较于印刷体文本来说相对较大,如果利用针对所述印刷体行的文本识别模型来对所述手写体文本行进行识别,识别精度达不到所述手写体文本行的要求而使得识别结果不够准确,如果利用针对所述手写体行的文本识别模型来对所述印刷体文本行进行识别,会造成资源的浪费。
为了使得识别过程更加合理化,本实施例提出针对所述印刷体文本行采用一般的文本识别模型进行文字识别,针对手写体文本行采用双路文本识别模型进行文字识别,具体可以参见图2中的处理过程。上述基于所述目标文本行的所述文本样式确定不同的文本识别模型的方式,有效解决了识别错误率比较高的技术问题。
可见,本申请实施例先获取待检测图像的目标文本行,然后判断所述目标文本行的文本样式,其中,所述文本样式为印刷体文本或手写体文本,最后基于所述目标文本行的所述文本样式确定目标文本识别模型,并利用所述目标文本识别模型对所述目标文本行进行识别。本申请实施例在对混合文本中的文本样式进行分类的基础上,利用不同的目标文本识别模型对印刷体文本和手写体文本进行文字识别,有效提高了光学文字识别的准确度。
图3为本申请实施例提供的一种具体的光学文字识别方法流程图。参见图3所示,该光学文字识别方法包括:
S21:利用基于语义分割网络构建的分割模型对所述待检测图像进行分割,以得到所述待检测图像的目标文本行。
本实施例中,通过大量实验发现,基于语意分割的检测算法相较于基于锚框的一系列算法能较好提取所述待检测图像的所述目标文本行,提取效果更符合需求的效果预期,因此本实施例中利用基于语义分割网络构建的分割模型对所述待检测图像进行分割,以得到所述待检测图像的目标文本行。其中,现有技术中的所述语义分割网络有很多,本实施例中利用基于渐进式尺度扩展网络(PSE Net)或DB-NET构建的分割模型对所述待检测图像进行分割。当然,除上述提到的语义分割网络,能达到本实施例的分割效果的分割网络都落在本方案的保护范围之内。
需要说明的是,所述分割模型需要利用海量的目标检测样本作为第一训练集对基于语义分割网络构建的空白分割模型进行训练,以得到训练后所述分割模型,其中,所述目标检测样本为包含不同类型及种类的文本行的图像,例如所述目标检测样本中包含有各式各样的手写体样本和印刷体样本。在所述目标文本行的所属领域没有相应的所述目标检测样本的情况下,可以采用公开的数据集。
更进一步的,由于自然场景拍摄文档文得到的图像,文档容易整体倾斜导致其中的文本行倾斜,文字旋转影响识别精度,因此在利用基于语义分割网络构建的分割模型对所述待检测图像进行分割之后,需要进一步判断所述目标文本行中的文字是否水平对齐,如果所述目标文本行中的文字未水平对齐,也即发生倾斜,则调整所述目标文本行中的所述文字至水平对齐,以得到水平对齐的所述目标文本行。具体的,对于文本行倾斜非水平的待检测图像的所述目标文本行进行提取时,根据所述目标文本行中的所述文字的坐标点确定所述目标文本行与水平方向的夹角,并通过仿射变换将所述目标文本行中的所述文字调整至水平方向,利用上述经过调整后得到的所述目标文本行进行文字识别,能进一步提高识别精度。
S22:利用基于二分类网络构建的文本样式分类模型对所述目标文本行的文本样式进行判断。
本实施例中,利用基于二分类网络构建的文本样式分类模型对所述目标文本行的文本样式进行判断,以确定所述目标文本行为印刷体文本行还是手写体文本行,便于后续针对不同的文本样式采用不同的文本识别模型进行识别。本实施例利用大量的分类样本作为第二训练集对基于二分类网络构建的空白文本样式分类模型进行训练,以得到训练后的所述文本样式分类模型,其中,所述分类样本为包含各式各样的印刷体文本及手写体文本的图像,所述文本样式分类模型也即为一个二分类模型,需要说明的是,所述第二训练集的构建可以建立在所述第一训练集之上,也即所述分类样本除了以搜集网络图像等形式获取,也可以将所述目标检测样本经过所述分割模型输出的所述目标文本行作为所述分类样本,以得到所述第二训练集。根据文本样式分类模型的输出结果对来区别构建不同的后续推理逻辑,这是混合识别的改进。
S23:如果所述目标文本行的所述文本样式为所述印刷体文本,则将基于CRNN网络构建的文本识别模型确定为所述目标文本识别模型,并利用所述目标文本识别模型对所述目标文本行进行识别。
S24:如果所述目标文本行的所述文本样式为所述手写体文本,则将基于CRNN+Attention机制构建的文本识别模型确定为所述目标文本识别模型,并利用所述目标文本识别模型对所述目标文本行进行识别。
本实施例中,在利用所述文本分类模型判断出所述目标文本行的文本类型后,针对不同种类的文本类型采用不同类型的文本识别模型。具体来说,对于印刷体文本行,利用一般的文本识别模型进行识别,也即如果所述目标文本行的所述文本样式为所述印刷体文本,则将基于CRNN网络构建的文本识别模型确定为所述目标文本识别模型,并利用所述目标文本识别模型对所述目标文本行进行识别。经验表明,利用CRNN网络构建的文本识别模型对所述印刷体文本行进行识别,已经能达到较好的识别效果。
相应的,对于手写体文本行,利用一种双路识别模型进行识别,也即如果所述目标文本行的所述文本样式为所述手写体文本,则将基于CRNN+Attention机制构建的文本识别模型确定为所述目标文本识别模型,并利用所述目标文本识别模型对所述目标文本行进行识别。一个通路是是基于语音识别建模的CRNN架构,卷积网络接循环神经网络,另一个通路与另外的卷积网络接注意力层模型,对两者输出最终做模型堆叠。不管是基于CRNN网络构建的文本识别模型还是基于CRNN+Attention机制构建的文本识别模型,其损失函数均为CTC(Connectionist temporal classification)。
需要说明的是,本实施例将整个模型推理分成三阶段操作,训练也是分三阶段进行,第一阶段是利用所述第一训练集对空白的分割模型进行训练,第二阶段是利用所述第二训练集对空白的文本分类模型进行训练,第三阶段为本步骤中的利用大量识别样本作为第三训练集对空白的文本识别模型进行训练。在这种情况下,对于非常需要海量训练数据的所述文本识别模型,需要合成大量文本行数据,根据以下特征,包括但不限于实际部署需求识别的文字字体、自然光照背景等一批接近真实场景的合成识别样本。由于人工区分所述识别样本的文本类型效率较低,且不能保证所有的所述识别样本都满足所述文本分类模型的数据输入格式要求,所以为了保证训练后的所述文本识别模型具有较高的识别准确度,在准备好所述合成识别样本和真实识别样本后,需要分别利用上述训练后的所述分割模型和训练后的所述文本分类模型对所述合成识别样本与所述真实识别样本进行依次处理,以得到所述第三训练集。另外,为了保证较好的识别结果,同时使得效率最大,本实施例中的所述合成识别样本与所述真实识别样本的比例为3:1。
S25:利用文本纠错模型对所述目标文本行的识别结果进行文本纠错。
本实施例中,由于一些主客观原因,所述目标文本行的识别结果可能存在语法、词法或字法上的错误,为了保证较高的识别精度,需要利用特定领域训练出的语言模型对识别结果做进一步的纠正,也即利用文本纠错模型对所述目标文本行的识别结果进行文本纠错。所述特定领域为所述待检测图像的所属领域,例如医学领域的医学报告、财务领域的票据等。本实施例中的所述文本纠错模型可以为N-Gram模型。在推理模型的基础上,根据所述目标文本识别模型推理出的每个待识别字符,记录其排序后概率和索引位的输出,利用事先根据垂直领域内语料训练好的转移概率矩阵,求解最大概率路径,实现文本纠错。
可见,本申请实施例通过对待检测图像进行语义分割得到所述待检测图像的目标文本行,然后利用二分类模型对所述目标文本行的文本类型进行分类,针对印刷体文本采用基于CRNN网络构建的文本识别模型进行识别,针对手写体文本采用基于CRNN+Attention机制构建的文本识别模型进行识别,最后利用文本纠错模型对所述目标文本行的识别结果进行文本纠错。上述步骤用深度学习技术替代传统版面规则经验以及朴素机器学习方式来识别文字,使得算法的鲁棒性更强,可以直接规避自然拍摄场景的图像像素变换导致的特征变化,让模型自主学习特征工程,解决了现有技术中识别错误率比较高的问题。另外,在自然场景中,对OCR模型的训练需要大量的样本数据、合理的模型设计以及部署合理的模型体积使OCR服务工程落地,本实施例实现并优化了上述要点。
图4为本实施例提供的一种具体的光学文字识别方案示意图,现结合图4对本方案作进一步说明。
本申请提供一种针对风格多样的手写体印刷体同时出现的混合文本文档,利用OCR技术进行识别的解决方案。对于在自然光照射的基础上拍摄的文档图片,先获取包裹一行行文本四边形的四个坐标点,如三个框,然后根据坐标点裁剪出三个图像区域,上述过程即为语义分割的过程,基于分割的检测网络可以很好的区别文字与背景,精细的提取文本区域。将上述提取到的文本区域输入二分类模型,二分类模型则将手写体与印刷体文本分开,送入不同的文本识别网络,减少模型训练求解的搜索空间。若对印刷体文本和手写体文本均采用同一套有限的参数,模型精度无法提升,这样分开类别再识别使得模型各司其职,同时能显著提高文本识别精度,在实验数据集上提升了8个点的准确率。
在图像中的文字是手写体的情况下,采用双路设计(本实施例中指CRNN+Attention)能更好的把握文字偏旁部首带有的特征,stacking的设计借助两个基分类模型的强能力来求解第一层架构的输出,最终采用朴素元模型来判断文字类别,这样能提升手写体文字识别的精度。在后处理文字纠错这一块,本实施例基于领域内语料数据,找到相邻两字最有可能的组合,将OCR输出结果纠正回更符合语料的文本,能够显著提升识别准确率2个点,尤其是将字形相似的字纠正回来,例如将“销氨”纠正为“销氪”。需要注意的是,由于领域内语料是应用场景独有的,对于某些应用场景的新生词语,其所对应的词库是独有的,而目前市面上的通用语料比较陈旧,因此该方案对合同数据,票据收据等文档类型数据识别准确度较高。
参见图5所示,本申请实施例还相应公开了一种光学文字识别装置,包括:
获取模块11,用于获取待检测图像的目标文本行;
判断模块12,用于判断所述目标文本行的文本样式;其中,所述文本样式为印刷体文本或手写体文本;
识别模块13,用于基于所述目标文本行的所述文本样式确定目标文本识别模型,并利用所述目标文本识别模型对所述目标文本行进行识别。
可见,本申请实施例先获取待检测图像的目标文本行,然后判断所述目标文本行的文本样式,其中,所述文本样式为印刷体文本或手写体文本,最后基于所述目标文本行的所述文本样式确定目标文本识别模型,并利用所述目标文本识别模型对所述目标文本行进行识别。本申请在对混合文本中的文本样式进行分类的基础上,利用不同的目标文本识别模型对印刷体文本和手写体文本进行文字识别,有效提高了光学文字识别的准确度。
在一些具体实施例中,所述获取模块11,具体包括:
分割单元,用于利用基于语义分割网络构建的分割模型对所述待检测图像进行分割,以得到所述待检测图像的目标文本行;
调整单元,用于判断所述目标文本行中的文字是否水平对齐,如果否,则调整所述目标文本行中的所述文字至水平对齐,以得到水平对齐的所述目标文本行。
在一些具体实施例中,所述判断模块12,具体用于利用基于二分类网络构建的文本样式分类模型对所述目标文本行的文本样式进行判断。
在一些具体实施例中,所述识别模块13,具体包括:
第一识别单元,用于如果所述目标文本行的所述文本样式为所述印刷体文本,则将基于CRNN网络构建的文本识别模型确定为所述目标文本识别模型,并利用所述目标文本识别模型对所述目标文本行进行识别;
第二识别单元,用于如果所述目标文本行的所述文本样式为所述手写体文本,则将基于CRNN+Attention机制构建的文本识别模型确定为所述目标文本识别模型,并利用所述目标文本识别模型对所述目标文本行进行识别。
在一些具体实施例中,所述光学文字识别装置,还包括:
纠错模块,用于利用文本纠错模型对所述目标文本行的识别结果进行文本纠错。
进一步的,本申请实施例还提供了一种电子设备。图6是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图6为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的光学文字识别方法中的相关步骤。另外,本实施例中的电子设备20具体可以为便携式计算机。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222及文本行数据223等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中海量文本行数据223的运算与处理,其可以是WindowsServer、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的光学文字识别方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223可以包括电子设备20收集到的文本行数据。
进一步的,本申请实施例还公开了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的光学文字识别方法步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的光学文字识别方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (12)
1.一种光学文字识别方法,其特征在于,包括:
获取待检测图像的目标文本行;
判断所述目标文本行的文本样式;其中,所述文本样式为印刷体文本或手写体文本;
基于所述目标文本行的所述文本样式确定目标文本识别模型,并利用所述目标文本识别模型对所述目标文本行进行识别。
2.根据权利要求1所述的光学文字识别方法,其特征在于,所述获取待检测图像的目标文本行,包括:
利用基于语义分割网络构建的分割模型对所述待检测图像进行分割,以得到所述待检测图像的目标文本行。
3.根据权利要求2所述的光学文字识别方法,其特征在于,所述利用基于语义分割网络构建的分割模型对所述待检测图像进行分割之后,还包括:
判断所述目标文本行中的文字是否水平对齐,如果否,则调整所述目标文本行中的所述文字至水平对齐,以得到水平对齐的所述目标文本行。
4.根据权利要求3所述的光学文字识别方法,其特征在于,所述调整所述目标文本行中的所述文字至水平对齐,包括:
根据所述目标文本行中的所述文字的坐标点确定所述目标文本行与水平方向的夹角,并通过仿射变换将所述目标文本行中的所述文字调整至水平方向。
5.根据权利要求3所述的光学文字识别方法,其特征在于,所述利用基于语义分割网络构建的分割模型对所述待检测图像进行分割,包括:
利用基于渐进式尺度扩展网络或DB-NET构建的分割模型对所述待检测图像进行分割。
6.根据权利要求2所述的光学文字识别方法,其特征在于,所述判断所述目标文本行的文本样式,包括:
利用基于二分类网络构建的文本样式分类模型对所述目标文本行的文本样式进行判断。
7.根据权利要求6所述的光学文字识别方法,其特征在于,所述基于所述目标文本行的所述文本样式确定目标文本识别模型,并利用所述目标文本识别模型对所述目标文本行进行识别,包括:
如果所述目标文本行的所述文本样式为所述印刷体文本,则将基于CRNN网络构建的文本识别模型确定为所述目标文本识别模型,并利用所述目标文本识别模型对所述目标文本行进行识别;
如果所述目标文本行的所述文本样式为所述手写体文本,则将基于CRNN+Attention机制构建的文本识别模型确定为所述目标文本识别模型,并利用所述目标文本识别模型对所述目标文本行进行识别。
8.根据权利要求1至7任一项所述的光学文字识别方法,其特征在于,所述利用所述目标文本识别模型对所述目标文本行进行识别之后,还包括:
利用文本纠错模型对所述目标文本行的识别结果进行文本纠错。
9.根据权利要求8所述的光学文本识别方法,其特征在于,所述利用文本纠错模型对所述目标文本行的识别结果进行文本纠错,包括:
利用N-Gram模型对所述目标文本行的识别结果进行文本纠错。
10.一种光学文字识别装置,其特征在于,包括:
获取模块,用于获取待检测图像的目标文本行;
判断模块,用于判断所述目标文本行的文本样式;其中,所述文本样式为印刷体文本或手写体文本;
识别模块,用于基于所述目标文本行的所述文本样式确定目标文本识别模型,并利用所述目标文本识别模型对所述目标文本行进行识别。
11.一种电子设备,其特征在于,所述电子设备包括处理器和存储器;其中所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至9任一项所述的光学文字识别方法。
12.一种计算机可读存储介质,其特征在于,用于存储计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至9任一项所述的光学文字识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110069984.9A CN112766255A (zh) | 2021-01-19 | 2021-01-19 | 一种光学文字识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110069984.9A CN112766255A (zh) | 2021-01-19 | 2021-01-19 | 一种光学文字识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112766255A true CN112766255A (zh) | 2021-05-07 |
Family
ID=75703196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110069984.9A Pending CN112766255A (zh) | 2021-01-19 | 2021-01-19 | 一种光学文字识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112766255A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113536771A (zh) * | 2021-09-17 | 2021-10-22 | 深圳前海环融联易信息科技服务有限公司 | 基于文本识别的要素信息提取方法、装置、设备及介质 |
CN113591862A (zh) * | 2021-07-09 | 2021-11-02 | 上海智臻智能网络科技股份有限公司 | 文本识别的方法及装置 |
CN113688834A (zh) * | 2021-07-27 | 2021-11-23 | 深圳中兴网信科技有限公司 | 车票识别方法、车票识别系统及计算机可读存储介质 |
CN114120305A (zh) * | 2021-11-26 | 2022-03-01 | 北京百度网讯科技有限公司 | 文本分类模型的训练方法、文本内容的识别方法及装置 |
CN114419636A (zh) * | 2022-01-10 | 2022-04-29 | 北京百度网讯科技有限公司 | 文本识别方法、装置、设备以及存储介质 |
CN115880704A (zh) * | 2023-02-16 | 2023-03-31 | 中国人民解放军总医院第一医学中心 | 一种病例的自动编目方法、系统、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014127197A (ja) * | 2012-12-26 | 2014-07-07 | Toshio Itabashi | スマートフォンのカメラで認識した文字を、音声で読み上げるアプリケーション・ソフト |
CN108537146A (zh) * | 2018-03-22 | 2018-09-14 | 五邑大学 | 一种印刷体与手写体混合文本行提取系统 |
CN110135346A (zh) * | 2019-05-16 | 2019-08-16 | 深圳市信联征信有限公司 | 基于深度学习的身份证自动识别方法及系统 |
CN110532400A (zh) * | 2019-09-04 | 2019-12-03 | 江苏苏宁银行股份有限公司 | 基于文本分类预测的知识库维护方法及装置 |
CN111582273A (zh) * | 2020-05-09 | 2020-08-25 | 中国工商银行股份有限公司 | 图像文本识别方法及装置 |
CN111597908A (zh) * | 2020-04-22 | 2020-08-28 | 深圳中兴网信科技有限公司 | 试卷批改方法和试卷批改装置 |
CN112016547A (zh) * | 2020-08-20 | 2020-12-01 | 上海天壤智能科技有限公司 | 基于深度学习的图像文字识别方法、系统及介质 |
-
2021
- 2021-01-19 CN CN202110069984.9A patent/CN112766255A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014127197A (ja) * | 2012-12-26 | 2014-07-07 | Toshio Itabashi | スマートフォンのカメラで認識した文字を、音声で読み上げるアプリケーション・ソフト |
CN108537146A (zh) * | 2018-03-22 | 2018-09-14 | 五邑大学 | 一种印刷体与手写体混合文本行提取系统 |
CN110135346A (zh) * | 2019-05-16 | 2019-08-16 | 深圳市信联征信有限公司 | 基于深度学习的身份证自动识别方法及系统 |
CN110532400A (zh) * | 2019-09-04 | 2019-12-03 | 江苏苏宁银行股份有限公司 | 基于文本分类预测的知识库维护方法及装置 |
CN111597908A (zh) * | 2020-04-22 | 2020-08-28 | 深圳中兴网信科技有限公司 | 试卷批改方法和试卷批改装置 |
CN111582273A (zh) * | 2020-05-09 | 2020-08-25 | 中国工商银行股份有限公司 | 图像文本识别方法及装置 |
CN112016547A (zh) * | 2020-08-20 | 2020-12-01 | 上海天壤智能科技有限公司 | 基于深度学习的图像文字识别方法、系统及介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591862A (zh) * | 2021-07-09 | 2021-11-02 | 上海智臻智能网络科技股份有限公司 | 文本识别的方法及装置 |
CN113688834A (zh) * | 2021-07-27 | 2021-11-23 | 深圳中兴网信科技有限公司 | 车票识别方法、车票识别系统及计算机可读存储介质 |
CN113536771A (zh) * | 2021-09-17 | 2021-10-22 | 深圳前海环融联易信息科技服务有限公司 | 基于文本识别的要素信息提取方法、装置、设备及介质 |
CN114120305A (zh) * | 2021-11-26 | 2022-03-01 | 北京百度网讯科技有限公司 | 文本分类模型的训练方法、文本内容的识别方法及装置 |
CN114419636A (zh) * | 2022-01-10 | 2022-04-29 | 北京百度网讯科技有限公司 | 文本识别方法、装置、设备以及存储介质 |
CN115880704A (zh) * | 2023-02-16 | 2023-03-31 | 中国人民解放军总医院第一医学中心 | 一种病例的自动编目方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112766255A (zh) | 一种光学文字识别方法、装置、设备及存储介质 | |
CN109308476B (zh) | 票据信息处理方法、系统及计算机可读存储介质 | |
CN111753767B (zh) | 一种作业自动批改的方法、装置、电子设备和存储介质 | |
CN109543690B (zh) | 用于提取信息的方法和装置 | |
CN110363194A (zh) | 基于nlp的智能阅卷方法、装置、设备及存储介质 | |
CN107688803B (zh) | 字符识别中识别结果的校验方法和装置 | |
CN107943911A (zh) | 数据抽取方法、装置、计算机设备及可读存储介质 | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
CN107729865A (zh) | 一种手写体数学公式离线识别方法及系统 | |
CN113762269B (zh) | 基于神经网络的中文字符ocr识别方法、系统及介质 | |
CN114596566B (zh) | 文本识别方法及相关装置 | |
CN113205047B (zh) | 药名识别方法、装置、计算机设备和存储介质 | |
CN111814779A (zh) | 一种票据文本识别方法、装置、设备及存储介质 | |
CN111581367A (zh) | 一种题目录入的方法和系统 | |
CN109189965A (zh) | 图像文字检索方法及系统 | |
CN111353491A (zh) | 一种文字方向确定方法、装置、设备及存储介质 | |
CN111539414B (zh) | 一种ocr图像字符识别和字符校正的方法及系统 | |
US20230134169A1 (en) | Text-based document classification method and document classification device | |
CN116645683A (zh) | 基于提示学习的签名笔迹鉴别方法、系统及存储介质 | |
CN116343237A (zh) | 基于深度学习和知识图谱的票据识别方法 | |
CN117274969A (zh) | 一种印章识别方法、装置、设备及介质 | |
CN112949523A (zh) | 从身份证影像图片中提取关键信息的方法与系统 | |
CN113111869A (zh) | 提取文字图片及其描述的方法和系统 | |
CN113537221A (zh) | 图像识别方法、装置和设备 | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210507 |