CN116740747A - 文本行的识别方法、装置、存储介质和电子设备 - Google Patents
文本行的识别方法、装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN116740747A CN116740747A CN202310640084.4A CN202310640084A CN116740747A CN 116740747 A CN116740747 A CN 116740747A CN 202310640084 A CN202310640084 A CN 202310640084A CN 116740747 A CN116740747 A CN 116740747A
- Authority
- CN
- China
- Prior art keywords
- text line
- image
- text
- binary image
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000001514 detection method Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 21
- 230000004927 fusion Effects 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000009877 rendering Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/162—Quantising the image signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/164—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
Abstract
本公开涉及一种文本行的识别方法、装置、存储介质和电子设备,涉及图像识别技术领域,该方法包括:获取待识别的文本行图像;将所述文本行图像转换为二值图像;获取所述二值图像中的二值图矩形框,以及所述文本行图像中与所述二值图矩形框对应的待定文本行框;基于所述二值图矩形框,去除所述待定文本行框中的冗余信息,得到目标文本行框;所述目标文本行框中仅包含一行文本;根据所述目标文本行框,确定所述文本行图像中的印刷体文本对应的文本行信息。这样,可以确保每个目标文本行框中仅包含一行文本,从而在根据目标文本行框进行文本识别的时候,能够准确的识别出对应的印刷体文本的文本行信息。
Description
技术领域
本公开涉及图像识别技术领域,具体地,涉及一种文本行的识别方法、装置、存储介质和电子设备。
背景技术
在教育场景下,常常需要通过识别纸质版试卷来获取电子版试卷,且在一些场景下,纸质版试卷中还会包含手写体文本,那么此时就需要将试卷中的印刷体文本识别出来。但由于拍照场景的复杂性,常常会出现拍摄的图像中文本发生弯曲的情况,也即纸面不平整。此时,将会影响印刷体文本识别的准确性。
发明内容
为了解决上述技术问题,本公开提供一种文本行的识别方法、装置、存储介质和电子设备。
根据本公开实施例的第一方面,提供一种文本行的识别方法,所述方法包括:获取待识别的文本行图像;将所述文本行图像转换为二值图像;获取所述二值图像中的二值图矩形框,以及所述文本行图像中与所述二值图矩形框对应的待定文本行框;基于所述二值图矩形框,去除所述待定文本行框中的冗余信息,得到目标文本行框;所述目标文本行框中仅包含一行文本;根据所述目标文本行框,确定所述文本行图像中的印刷体文本对应的文本行信息。
可选地,所述方法还包括:确定所述二值图矩形框中包含的连通域数量;所述基于所述二值图矩形框,去除所述待定文本行框中的冗余信息,得到目标文本行框包括:在所述连通域数量大于或等于预设数量阈值的情况下,基于所述二值图矩形框,去除所述待定文本行框中的冗余信息,得到所述目标文本行框。
可选地,所述方法还包括:在所述连通域数量小于所述预设数量阈值的情况下,将所述待定文本行框作为所述目标文本行框。
可选地,所述基于所述二值图矩形框,去除所述待定文本行框中的冗余信息,得到目标文本行框包括:对所述二值图矩形框进行外扩;根据外扩后的二值图矩形框中的背景部分,遮盖所述待定文本行框,得到所述目标文本行框。
可选地,所述获取所述二值图像中的二值图矩形框,以及所述文本行图像中与所述二值图矩形框对应的待定文本行框包括:获取所述二值图像中每个文本行所在的最小外接矩形,得到所述二值图矩形框;根据所述二值图矩形框在所述二值图像中的位置,从所述文本行图像中获取所述待定文本行框。
可选地,所述将所述文本行图像转换为二值图像包括:将所述文本行图像输入预先生成的文本行检测模型中,得到所述文本行检测模型输出的所述二值图像。
可选地,所述文本行检测模型包括:特征采样模块、通道注意力模块、特征融合模块和处理模块;所述特征采样模块,用于通过多个下采样通道,对所述文本行图像进行下采样处理,以得到多尺度的特征图;所述通道注意力模块,用于对不同尺度的特征图进行加权;所述特征融合模块,用于对多个加权后的特征图进行特征融合,得到目标特征图;所述处理模块,用于将所述目标特征图转换为所述二值图像。
可选地,所述通道注意力模块包括:池化子模块、全连接层和加权子模块;所述池化子模块,用于对所述特征图进行全局平均池化处理;所述全连接层,用于根据全局平均池化处理后的特征图,预测每个下采样通道的权重;所述加权子模块,用于针对每个下采样通道,将所述下采样通道对应的特征图与所述下采样通道对应的权重相乘,得到加权后的特征图。
可选地,所述下采样通道包括:4倍下采样通道、8倍下采样通道和16倍下采样通道。
可选地,所述文本行检测模型通过以下方式训练得到:获取样本图像以及所述样本图像对应的文本行标签;根据所述样本图像和所述文本行标签对预设训练模型进行训练,以得到所述文本行检测模型。
可选地,所述样本图像通过以下方式获取得到:从预设语料库中获取目标字符串;将所述目标字符串进行渲染,得到包含所述目标字符串的样本文本行图像;获取样本背景图像;所述样本背景图像至少包括手写体文本行图像、公式行图像、水印图像、插图中的一个或多个;根据所述样本文本行图像和所述样本背景图像,得到所述样本图像。
根据本公开实施例的第二方面,提供一种文本行的识别装置,所述装置包括:
第一获取模块,用于获取待识别的文本行图像;
转换模块,用于将所述文本行图像转换为二值图像;
第二获取模块,用于获取所述二值图像中的二值图矩形框,以及所述文本行图像中与所述二值图矩形框对应的待定文本行框;
去除模块,用于基于所述二值图矩形框,去除所述待定文本行框中的冗余信息,得到目标文本行框;所述目标文本行框中仅包含一行文本;
确定模块,用于根据所述目标文本行框,确定所述文本行图像中的印刷体文本对应的文本行信息。
可选地,所述确定模块,还用于确定所述二值图矩形框中包含的连通域数量;
所述去除模块,用于在所述连通域数量大于或等于预设数量阈值的情况下,基于所述二值图矩形框,去除所述待定文本行框中的冗余信息,得到所述目标文本行框。
可选地,所述装置还包括:
生成模块,用于在所述连通域数量小于所述预设数量阈值的情况下,将所述待定文本行框作为所述目标文本行框。
可选地,所述去除模块,用于对所述二值图矩形框进行外扩;根据外扩后的二值图矩形框中的背景部分,遮盖所述待定文本行框,得到所述目标文本行框。
可选地,所述第二获取模块,用于获取所述二值图像中每个文本行所在的最小外接矩形,得到所述二值图矩形框;根据所述二值图矩形框在所述二值图像中的位置,从所述文本行图像中获取所述待定文本行框。
可选地,所述转换模块,用于将所述文本行图像输入预先生成的文本行检测模型中,得到所述文本行检测模型输出的所述二值图像。
可选地,所述文本行检测模型包括:特征采样模块、通道注意力模块、特征融合模块和处理模块;
所述特征采样模块,用于通过多个下采样通道,对所述文本行图像进行下采样处理,以得到多尺度的特征图;
所述通道注意力模块,用于对不同尺度的特征图进行加权;
所述特征融合模块,用于对多个加权后的特征图进行特征融合,得到目标特征图;
所述处理模块,用于将所述目标特征图转换为所述二值图像。
可选地,所述通道注意力模块包括:池化子模块、全连接层和加权子模块;
所述池化子模块,用于对所述特征图进行全局平均池化处理;
所述全连接层,用于根据全局平均池化处理后的特征图,预测每个下采样通道的权重;
所述加权子模块,用于针对每个下采样通道,将所述下采样通道对应的特征图与所述下采样通道对应的权重相乘,得到加权后的特征图。
可选地,所述下采样通道包括:4倍下采样通道、8倍下采样通道和16倍下采样通道。
可选地,所述文本行检测模型通过以下方式训练得到:
获取样本图像以及所述样本图像对应的文本行标签;
根据所述样本图像和所述文本行标签对预设训练模型进行训练,以得到所述文本行检测模型。
可选地,所述样本图像通过以下方式获取得到:
从预设语料库中获取目标字符串;
将所述目标字符串进行渲染,得到包含所述目标字符串的样本文本行图像;
获取样本背景图像;所述样本背景图像至少包括手写体文本行图像、公式行图像、水印图像、插图中的一个或多个;
根据所述样本文本行图像和所述样本背景图像,得到所述样本图像。
根据本公开实施例的第三方面,提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面所提供的文本行的识别方法的步骤。
根据本公开实施例的第四方面,提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面所提供的文本行的识别方法的步骤。
通过上述技术方案,首先,获取待识别的文本行图像。其次,将所述文本行图像转换为二值图像。然后,获取所述二值图像中的二值图矩形框,以及所述文本行图像中与所述二值图矩形框对应的待定文本行框。并基于所述二值图矩形框,去除所述待定文本行框中的冗余信息,得到目标文本行框;所述目标文本行框中仅包含一行文本。最后,根据所述目标文本行框,确定所述文本行图像中的印刷体文本对应的文本行信息。通过上述方法,能够通过二值图像中的二值图矩形框,去除待定文本行框中的冗余信息,以得到仅包含一行文本的目标文本行框。之后,可以根据目标文本行框,确定文本行图像中印刷文本对应的文本行信息。这样,可以确保每个目标文本行框中仅包含一行文本,从而在根据目标文本行框进行文本识别的时候,能够准确的识别出对应的印刷体文本的文本行信息,解决了一个目标文本行框中存在多行文本而影响文本识别的准确性的问题。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种文本行的识别方法的流程图;
图2是根据一示例性实施例示出的另一种文本行的识别方法的流程图;
图3是根据一示例性实施例示出的一种文本行的识别装置的框图;
图4是根据一示例性实施例示出的另一种文本行的识别装置的框图;
图5是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
本申请的说明书和权利要求书以及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必理解为特定的顺序或先后次序。另外,在参考附图的描述中,不同附图中的同一标记表示相同的要素。
在本公开的描述中,除非另有说明,“多个”是指两个或多于两个,其它量词与之类似;“至少一项(个)”、“一项(个)或多项(个)”或其类似表达,是指的这些项(个)中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,至少一项(个)a,可以表示任意数目个a;再例如,a,b和c中的一项(个)或多项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个;“和/或”是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。字符“/”表示前后关联对象是一种“或”的关系。
下面结合附图对本发明的具体实施方式进行详细说明。
图1是根据一示例性实施例示出的一种文本行的识别方法的流程图,如图1所示,该方法可以包括以下步骤:
在步骤S101中,获取待识别的文本行图像。
其中,该文本行图像中可以是用户通过拍摄/扫描得到的图像,文本行图像中可以包括印刷体文本和手写体文本。在一些场景下,该文本行图像可以包括试卷图像,用户可以通过该文本行图像得到电子版的试卷。一些情况下,可能需要对学生做过的试卷进行识别,那么此时就需要准确的识别出试卷中的印刷体文本,过滤掉手写体的部分。因此,在本实施例中主要是针对文本行图像中的印刷体文本进行识别。
在步骤S102中,将该文本行图像转换为二值图像。
在本步骤中,可以将该文本行图像输入预先生成的文本行检测模型中,以得到该文本行检测模型输出的该二值图像(英文:Binary Image;是指将图像上的每一个像素只有两种可能的取值或灰度等级状态)。
其中,该文本行检测模型例如但不限于可以包括DBNet、ContourNet、PANNet、PSENet、Craft等网络结构。另外,考虑到在识别试卷图像的场景下,试卷中往往包含的印刷体文本行较为密集,且易出现粘连的问题,在本实施例中,优选地可以使用DBNet作为文本行检测模型的网络结构。
通过文本行检测模型,可以识别出文本行图像对应的包含印刷体文本的二值图像。在该二值图像中可以凸显出印刷体文本与背景的区别,从而便于后续对印刷体文本的识别。
在步骤S103中,获取该二值图像中的二值图矩形框,以及该文本行图像中与该二值图矩形框对应的待定文本行框。
由于拍摄场景的多样性,可能存在纸面不平整的情况,直接的影响就是拍摄的文本行图像中将会存在文本行扭曲的情况。而印刷体文本行往往具有如下特点:字体通常较小,且行内一般字号相同。适合通过取最小外接矩形操作的方式来确定文本行的文本位置。因此,在对二值图像进行进一步的文本识别的过程中,往往需要针对每行文本行取最小外接矩形(最小外接矩形指以二维坐标表示的若干二维形状(例如点、直线、多边形)的最大范围,即以给定的二维形状各顶点中的最大横坐标、最小横坐标、最大纵坐标、最小纵坐标定下边界的矩形),进而根据多个最小外接矩形来对文本行图像中的印刷体文本进行识别。
但若出现文本行扭曲的情况,由于文本行的扭曲,在取最小外接矩形时,易把上下文的文字取进最小外接矩形。这样,在进行文本识别的过程中,最小外接矩形中包含的冗余信息过多,易造成识别的错误。
因为,为了提高识别的准确性,在本实施例中首先可以获取该二值图像中的二值图矩形框,以及该文本行图像中与该二值图矩形框对应的待定文本行框。进而,根据二值图矩形框,将待定文本行框中的冗余信息进行去除,从而确保每个待定文本行框中仅包含一行文本。
示例地,在本实施例中可以获取该二值图像中每个文本行所在的最小外接矩形,得到该二值图矩形框。之后,可以根据该二值图矩形框在该二值图像中的位置,从该文本行图像中获取该待定文本行框。也即,将文本行图像中与二值图矩形框位于相同位置的矩形框作为待定文本行框。
在步骤S104中,基于该二值图矩形框,去除该待定文本行框中的冗余信息,得到目标文本行框。
其中,该目标文本行框中仅包含一行文本。
示例地,首先可以对该二值图矩形框进行外扩。具体地,可以对二值图矩形框的前景部分进行外扩,也即将包含印刷体文本的部分进行外扩。之后,根据外扩后的二值图矩形框中的背景部分,遮盖该待定文本行框,得到该目标文本行框。其中,在进行遮盖时,可以选取原文本行图像中该区域的平均RGB值,或者是其他的指定颜色,本公开对此不作具体限定。在进行遮盖后,目标文本行框中将仅包含一行文本,其余上下文多余的冗余信息将被二值图矩形框中的背景部分遮盖住。这样,通过遮盖的方式,可以将待定文本行框中的冗余信息进行去除,且处理方式简单,耗时短,能够有效的提高文本识别的准确性,并有效的提高了弯曲文本识别的鲁棒性。
在步骤S105中,根据该目标文本行框,确定该文本行图像中的印刷体文本对应的文本行信息。
在得到目标文本行框后,可以通过相关的文本识别模型,来对文本行图像中的印刷体文本进行识别,以得到文本行图像中的印刷体文本对应的文本行信息。其中,文本识别的方法可以是本领域技术人员公知的方法,本公开在此不作赘述。
采用上述方法,能够通过二值图像中的二值图矩形框,去除待定文本行框中的冗余信息,以得到仅包含一行文本的目标文本行框。之后,可以根据目标文本行框,确定文本行图像中印刷文本对应的文本行信息。这样,可以确保每个目标文本行框中仅包含一行文本,从而在根据目标文本行框进行文本识别的时候,能够准确的识别出对应的印刷体文本的文本行信息,解决了一个目标文本行框中存在多行文本而影响文本识别的准确性的问题。
在一些场景中,考虑到如果对文本行图像中的每个待定文本行框进行上述处理,对于平直的文本来说该步骤就是冗余操作,会造成不必要的耗时。因此,为了提高处理效率,如图2所示,该方法还可以包括以下步骤:
在步骤S106中,确定该二值图矩形框中包含的连通域数量。
其中,该连通域用于表征二值图矩形框中具有相同像素值并且位置相邻的像素组成的区域。而连通域的数量则可以反映该二值图矩形框中包含的文本行数量。
一般来说,若文本行是平行的,那么该二值图矩形框中应该包含黑色背景和一个白色长条(假设黑色代表背景,白色代表文本行),如果文本行弯曲程度足以使其他行被裁进来,那么此二值图矩形框则将不只有一行白色的,还会有被裁减进来的其他行的白色区域。因此,可以根据二值图矩形框中连通域的数量,来确定二值图矩形框中是否包含冗余信息的弯曲文本。
相应地,上述步骤S104中,基于该二值图矩形框,去除该待定文本行框中的冗余信息,得到目标文本行框包括:在该连通域数量大于或等于预设数量阈值的情况下,基于该二值图矩形框,去除该待定文本行框中的冗余信息,得到该目标文本行框。
示例地,若连通域的数量大于或等于预设数量阈值,则可以认为二值图矩形框中包含冗余信息。进而可以基于该二值图矩形框,去除该待定文本行框中的冗余信息,得到该目标文本行框。其中,该预设数量阈值可以根据实际需求进行预先设定,本公开对此不作具体限定。
另外,在该连通域数量小于该预设数量阈值的情况下,将该待定文本行框作为该目标文本行框。
在本步骤中,若连通域数量小于该预设数量阈值,可以认为二值图矩形框中不包含冗余信息,则可以不对其进行处理,直接将该待定文本行框作为该目标文本行框即可。
下面对上述文本行检测模型的模型结构进行详细说明,在本实施例中,该文本行检测模型例如可以包括:特征采样模块、通道注意力模块、特征融合模块和处理模块。
由于试卷图像中往往文本行较长,长宽比较大,因此在模型进行内缩时,收缩率需要调整为适合长条文本的比例。其中,收缩率为A(1-r^2)/L,A是面积,L是周长,r是可调节参数,范围是0~1,r越接近于0,收缩率越大,可以根据需求来调整r的值,示例地,r可以设为0.7。
其中,该特征采样模块,用于通过多个下采样通道,对该文本行图像进行下采样处理,以得到多尺度的特征图。
在该文本行检测模型包括DBNet结构的情况下,由于DBNet是往往检测目标的相对较大,但试卷场景中,文字普遍较小。而DBNet通常会进行5次下采样,进行32倍下采样,对于试卷图像来说,若缩小32倍,文本行特征已经不完整,损失较多,且会增加冗余操作。因此,针对试卷图像来说,可以适应性的改变下采样通道的数量。例如,该下采样通道可以包括:4倍下采样通道、8倍下采样通道和16倍下采样通道。当然,也可以根据不同的使用场景,来调整下采样通道的数量和缩小的倍数,本公开并不局限于上述场景。
该通道注意力模块,用于对不同尺度的特征图进行加权。
为了使得模型能够更加关注到每个下采样通道,从而突出重要特征,抑制不重要的特征,在本实施例中,在进行下采样处理后,还可以添加一个通道注意力模块,用于给每个下采样通道添加权重值,以使得模型识别的更加准确。
示例地,该通道注意力模块(例如可以为SE模块)可以包括:池化子模块、全连接层和加权子模块。
该池化子模块,用于对该特征图进行全局平均池化处理。
示例地,可以通过池化子模块将C*W*H(其中,W表示特征图的宽,H表示特征图的高,C表示通道数)的特征图变为C*1*1大小的特征图。
该全连接层,用于根据全局平均池化处理后的特征图,预测每个下采样通道的权重。
其中,该全连接层,还可以用于将特征图的特征维度进行下降(例如可以降低至输入的1/16),然后经过ReLu激活后再升回到原来的维度。
该加权子模块,用于针对每个下采样通道,将该下采样通道对应的特征图与该下采样通道对应的权重相乘,得到加权后的特征图。
具体地,可以将归一化后的权重加权到每个通道的特征上,也即将该下采样通道对应的特征图与该下采样通道对应的权重相乘,得到加权后的特征图。
这样,可以在不打乱网络原有的主体结构的基础上,通过增加一个通道注意力模块,使模型注意到不同下采样通道的重要性,进而突出重要的特征。
该特征融合模块,用于对多个加权后的特征图进行特征融合,得到目标特征图。
该处理模块,用于将该目标特征图转换为该二值图像。
这样,通过上述文本行检测模块即可以得到文本行图像对应的二值图像。
在一些实施例中,该文本行检测模型通过以下方式训练得到:
S1,获取样本图像以及该样本图像对应的文本行标签。
其中,该文本行标签即为样本图像中印刷体文本对应的文本信息(例如文本内容、文本位置等信息)。
S2,根据该样本图像和该文本行标签对预设训练模型进行训练,以得到该文本行检测模型。
在实际场景中,用于训练的样本图像以及对应的文本行标签往往是通过人工进行标注的,耗时耗力,成本较高,并且样本图像的数量也是十分有限的。为了解决上述问题,扩充样本图像的数量,并提高样本标签的标注效率,该样本图像通过以下方式获取得到:
首先,可以从预设语料库中获取目标字符串。
其中,可以从预设预料库中随机选取具体文字内容的字符串(如txt格式的电子书),并可以根据预设印刷体字体库,将预设语料库中的具体文字内容的字符串转换为多种不同字体的字符串,进而可以得到目标字符串。字符串的长度可以预先设定,也即可以从预设语料库中获取预设长度的字符串。另外,字符串中每个字体的字号大小也可以预先设定,本公开对此不作具体限定。
其次,可以将该目标字符串进行渲染,得到包含该目标字符串的样本文本行图像。
在一些实施方式中,为了适应试卷场景,还可以随机在每个文本行前添加大写/小写题号、ABCD等选项号。
然后,可以获取样本背景图像。
考虑到在实际的试卷场景下,往往还包括较多的背景图像,为了更加贴近应用场景,还可以获取样本背景图像,该样本背景图像至少包括手写体文本行图像、公式行图像、水印图像、插图中的一个或多个。
其中,该手写体文本行图像例如可以为模拟作答区域的包含手写体的图像。对于理科试卷来说,公式也是不可或缺的一个部分,因此也可以准备公式行图像。另外,还可以准备多个水印图像、插图等,以模拟真实试卷中所包含的因素。
最后,可以根据该样本文本行图像和该样本背景图像,得到该样本图像。
在本步骤中,可以将样本文本行图像和样本背景图像进行合成,并得到样本图像的标签,也即每一行文本行的位置坐标。
示例地,可以先确定样本背景图像的宽和高,并根据宽和高,确定样本图像的页边距。并设定样本文本行图像的行宽,也即每行印刷体文本所占的行宽,并逐行粘贴样本文本行图像。此时,可以根据粘贴样本文本行图像时的起始坐标,以及文本行的宽高得到这一行文本行的坐标位置,也即该样本图像的标签。
另外,在合成样本图像的过程中,如果仅仅贴文本行图像的话,可能会导致数据的泛化性差,因此在此过程中还可以随机插入空行、手写体的文本行或ABCD等内容。并且,在插入这些内容时,不记录坐标。这样就可以得到与拍摄/扫描的试卷相似的带标签的样本图像。
进一步地,为了更加贴近拍照场景,还可以对样本图像进行光线明暗的变换和/或添加噪音,以得到多个样本图像。
这样,使得生成样本图像具有灵活的可塑性,且具有较强的泛化性,能够极大地扩充样本图像的数量,并提高了样本图像标签的标记效率。
采用上述方法,能够通过二值图像中的二值图矩形框,去除待定文本行框中的冗余信息,以得到仅包含一行文本的目标文本行框。之后,可以根据目标文本行框,确定文本行图像中印刷文本对应的文本行信息。这样,可以确保每个目标文本行框中仅包含一行文本,从而在根据目标文本行框进行文本识别的时候,能够准确的识别出对应的印刷体文本的文本行信息,解决了一个目标文本行框中存在多行文本而影响文本识别的准确性的问题。
图3是根据一示例性实施例示出的一种文本行的识别装置的框图,如图3所示,该装置200包括:
第一获取模块201,用于获取待识别的文本行图像;
转换模块202,用于将该文本行图像转换为二值图像;
第二获取模块203,用于获取该二值图像中的二值图矩形框,以及该文本行图像中与该二值图矩形框对应的待定文本行框;
去除模块204,用于基于该二值图矩形框,去除该待定文本行框中的冗余信息,得到目标文本行框;该目标文本行框中仅包含一行文本;
确定模块205,用于根据该目标文本行框,确定该文本行图像中的印刷体文本对应的文本行信息。
可选地,该确定模块205,还用于确定该二值图矩形框中包含的连通域数量;
该去除模块204,用于在该连通域数量大于或等于预设数量阈值的情况下,基于该二值图矩形框,去除该待定文本行框中的冗余信息,得到该目标文本行框。
可选地,如图4所示,该装置200还包括:
生成模块206,用于在该连通域数量小于该预设数量阈值的情况下,将该待定文本行框作为该目标文本行框。
可选地,该去除模块204,用于对该二值图矩形框进行外扩;根据外扩后的二值图矩形框中的背景部分,遮盖该待定文本行框,得到该目标文本行框。
可选地,该第二获取模块203,用于获取该二值图像中每个文本行所在的最小外接矩形,得到该二值图矩形框;根据该二值图矩形框在该二值图像中的位置,从该文本行图像中获取该待定文本行框。
可选地,该转换模块202,用于将该文本行图像输入预先生成的文本行检测模型中,得到该文本行检测模型输出的该二值图像。
可选地,该文本行检测模型包括:特征采样模块、通道注意力模块、特征融合模块和处理模块;
该特征采样模块,用于通过多个下采样通道,对该文本行图像进行下采样处理,以得到多尺度的特征图;
该通道注意力模块,用于对不同尺度的特征图进行加权;
该特征融合模块,用于对多个加权后的特征图进行特征融合,得到目标特征图;
该处理模块,用于将该目标特征图转换为该二值图像。
可选地,该通道注意力模块包括:池化子模块、全连接层和加权子模块;
该池化子模块,用于对该特征图进行全局平均池化处理;
该全连接层,用于根据全局平均池化处理后的特征图,预测每个下采样通道的权重;
该加权子模块,用于针对每个下采样通道,将该下采样通道对应的特征图与该下采样通道对应的权重相乘,得到加权后的特征图。
可选地,该下采样通道包括:4倍下采样通道、8倍下采样通道和16倍下采样通道。
可选地,该文本行检测模型通过以下方式训练得到:
获取样本图像以及该样本图像对应的文本行标签;
根据该样本图像和该文本行标签对预设训练模型进行训练,以得到该文本行检测模型。
可选地,该样本图像通过以下方式获取得到:
从预设语料库中获取目标字符串;
将该目标字符串进行渲染,得到包含该目标字符串的样本文本行图像;
获取样本背景图像;该样本背景图像至少包括手写体文本行图像、公式行图像、水印图像、插图中的一个或多个;
根据该样本文本行图像和该样本背景图像,得到该样本图像。
采用上述装置,能够通过二值图像中的二值图矩形框,去除待定文本行框中的冗余信息,以得到仅包含一行文本的目标文本行框。之后,可以根据目标文本行框,确定文本行图像中印刷文本对应的文本行信息。这样,可以确保每个目标文本行框中仅包含一行文本,从而在根据目标文本行框进行文本识别的时候,能够准确的识别出对应的印刷体文本的文本行信息,解决了一个目标文本行框中存在多行文本而影响文本识别的准确性的问题。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种电子设备300的框图。例如,电子设备300可以被提供为一服务器。参照图5,电子设备300包括处理器322,其数量可以为一个或多个,以及存储器332,用于存储可由处理器322执行的计算机程序。存储器332中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器322可以被配置为执行该计算机程序,以执行上述的文本行的识别方法。
另外,电子设备300还可以包括电源组件326和通信组件350,该电源组件326可以被配置为执行电子设备300的电源管理,该通信组件350可以被配置为实现电子设备300的通信,例如,有线或无线通信。此外,该电子设备300还可以包括输入/输出(I/O)接口358。电子设备300可以操作基于存储在存储器332的操作系统。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的文本行的识别方法的步骤。例如,该非临时性计算机可读存储介质可以为上述包括程序指令的存储器332,上述程序指令可由电子设备300的处理器322执行以完成上述的文本行的识别方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的文本行的识别方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (14)
1.一种文本行的识别方法,其特征在于,所述方法包括:
获取待识别的文本行图像;
将所述文本行图像转换为二值图像;
获取所述二值图像中的二值图矩形框,以及所述文本行图像中与所述二值图矩形框对应的待定文本行框;
基于所述二值图矩形框,去除所述待定文本行框中的冗余信息,得到目标文本行框;所述目标文本行框中仅包含一行文本;
根据所述目标文本行框,确定所述文本行图像中的印刷体文本对应的文本行信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述二值图矩形框中包含的连通域数量;
所述基于所述二值图矩形框,去除所述待定文本行框中的冗余信息,得到目标文本行框包括:
在所述连通域数量大于或等于预设数量阈值的情况下,基于所述二值图矩形框,去除所述待定文本行框中的冗余信息,得到所述目标文本行框。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在所述连通域数量小于所述预设数量阈值的情况下,将所述待定文本行框作为所述目标文本行框。
4.根据权利要求1所述的方法,其特征在于,所述基于所述二值图矩形框,去除所述待定文本行框中的冗余信息,得到目标文本行框包括:
对所述二值图矩形框进行外扩;
根据外扩后的二值图矩形框中的背景部分,遮盖所述待定文本行框,得到所述目标文本行框。
5.根据权利要求1所述的方法,其特征在于,所述获取所述二值图像中的二值图矩形框,以及所述文本行图像中与所述二值图矩形框对应的待定文本行框包括:
获取所述二值图像中每个文本行所在的最小外接矩形,得到所述二值图矩形框;
根据所述二值图矩形框在所述二值图像中的位置,从所述文本行图像中获取所述待定文本行框。
6.根据权利要求1所述的方法,其特征在于,所述将所述文本行图像转换为二值图像包括:
将所述文本行图像输入预先生成的文本行检测模型中,得到所述文本行检测模型输出的所述二值图像。
7.根据权利要求6所述的方法,其特征在于,所述文本行检测模型包括:特征采样模块、通道注意力模块、特征融合模块和处理模块;
所述特征采样模块,用于通过多个下采样通道,对所述文本行图像进行下采样处理,以得到多尺度的特征图;
所述通道注意力模块,用于对不同尺度的特征图进行加权;
所述特征融合模块,用于对多个加权后的特征图进行特征融合,得到目标特征图;
所述处理模块,用于将所述目标特征图转换为所述二值图像。
8.根据权利要求7所述的方法,其特征在于,所述通道注意力模块包括:池化子模块、全连接层和加权子模块;
所述池化子模块,用于对所述特征图进行全局平均池化处理;
所述全连接层,用于根据全局平均池化处理后的特征图,预测每个下采样通道的权重;
所述加权子模块,用于针对每个下采样通道,将所述下采样通道对应的特征图与所述下采样通道对应的权重相乘,得到加权后的特征图。
9.根据权利要求7所述的方法,其特征在于,所述下采样通道包括:4倍下采样通道、8倍下采样通道和16倍下采样通道。
10.根据权利要求6所述的方法,其特征在于,所述文本行检测模型通过以下方式训练得到:
获取样本图像以及所述样本图像对应的文本行标签;
根据所述样本图像和所述文本行标签对预设训练模型进行训练,以得到所述文本行检测模型。
11.根据权利要求10所述的方法,其特征在于,所述样本图像通过以下方式获取得到:
从预设语料库中获取目标字符串;
将所述目标字符串进行渲染,得到包含所述目标字符串的样本文本行图像;
获取样本背景图像;所述样本背景图像至少包括手写体文本行图像、公式行图像、水印图像、插图中的一个或多个;
根据所述样本文本行图像和所述样本背景图像,得到所述样本图像。
12.一种文本行的识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取待识别的文本行图像;
转换模块,用于将所述文本行图像转换为二值图像;
第二获取模块,用于获取所述二值图像中的二值图矩形框,以及所述文本行图像中与所述二值图矩形框对应的待定文本行框;
去除模块,用于基于所述二值图矩形框,去除所述待定文本行框中的冗余信息,得到目标文本行框;所述目标文本行框中仅包含一行文本;
确定模块,用于根据所述目标文本行框,确定所述文本行图像中的印刷体文本对应的文本行信息。
13.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至11中任一项所述方法的步骤。
14.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1至11中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310640084.4A CN116740747A (zh) | 2023-05-31 | 2023-05-31 | 文本行的识别方法、装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310640084.4A CN116740747A (zh) | 2023-05-31 | 2023-05-31 | 文本行的识别方法、装置、存储介质和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116740747A true CN116740747A (zh) | 2023-09-12 |
Family
ID=87900461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310640084.4A Pending CN116740747A (zh) | 2023-05-31 | 2023-05-31 | 文本行的识别方法、装置、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116740747A (zh) |
-
2023
- 2023-05-31 CN CN202310640084.4A patent/CN116740747A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111507251B (zh) | 试题图像中作答区域的定位方法、装置、电子设备及计算机存储介质 | |
US8750619B2 (en) | Character recognition | |
CN111160352B (zh) | 一种基于图像分割的工件金属表面文字识别方法及系统 | |
CN108304814B (zh) | 一种文字类型检测模型的构建方法和计算设备 | |
JP5015540B2 (ja) | 電子透かし埋め込み装置および検出装置 | |
US20030161534A1 (en) | Feature recognition using loose gray scale template matching | |
US9824604B2 (en) | Creating assessment model for educational assessment system | |
CN111291629A (zh) | 图像中文本的识别方法、装置、计算机设备及计算机存储介质 | |
CN111178355B (zh) | 印章识别方法、装置和存储介质 | |
CN111275139A (zh) | 手写内容去除方法、手写内容去除装置、存储介质 | |
CN115812221A (zh) | 图像生成及着色方法及装置 | |
CN105701489A (zh) | 一种新型的数字提取和识别的方法及系统 | |
Meng et al. | Nonparametric illumination correction for scanned document images via convex hulls | |
CN111814716A (zh) | 印章去除方法、计算机设备和可读存储介质 | |
CN113592735A (zh) | 文本页面图像还原方法及系统、电子设备和计算机可读介质 | |
CN114283156A (zh) | 一种用于去除文档图像颜色及手写笔迹的方法及装置 | |
CN114419632A (zh) | 一种ocr训练样本生成方法、装置及系统 | |
CN111461070A (zh) | 文本识别方法、装置、电子设备及存储介质 | |
CN116740747A (zh) | 文本行的识别方法、装置、存储介质和电子设备 | |
CN116050379A (zh) | 文档对比方法及存储介质 | |
CN115909378A (zh) | 单据文本检测模型的训练方法及单据文本检测方法 | |
US10572751B2 (en) | Conversion of mechanical markings on a hardcopy document into machine-encoded annotations | |
CN112884074B (zh) | 基于决策树的图像设计方法、设备、存储介质及装置 | |
CN115188000A (zh) | 基于ocr的文本识别方法、装置、存储介质及电子设备 | |
CN115100663A (zh) | 文档图像中文字高度的分布情况估计方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |