CN116524503A - 多行文本行提取方法、装置、设备及可读存储介质 - Google Patents
多行文本行提取方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN116524503A CN116524503A CN202310267253.4A CN202310267253A CN116524503A CN 116524503 A CN116524503 A CN 116524503A CN 202310267253 A CN202310267253 A CN 202310267253A CN 116524503 A CN116524503 A CN 116524503A
- Authority
- CN
- China
- Prior art keywords
- text
- text character
- character candidate
- line
- box
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000009432 framing Methods 0.000 claims abstract description 21
- 230000001629 suppression Effects 0.000 claims abstract description 18
- 230000009466 transformation Effects 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012015 optical character recognition Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 15
- 230000008901 benefit Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/147—Determination of region of interest
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/162—Quantising the image signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19107—Clustering techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种多行文本行提取方法、装置、设备及可读存储介质,该方法包括:利用最大稳定极值区域算法从原始文本图像中提取出用于框定文本字符的第一文本字符候选框;其中,一个文本字符对应一个或多个第一文本字符候选框;通过非极大值抑制算法从与所述文本字符对应的第一文本字符候选框中确定出相关性最高的第二文本字符候选框;利用笔画宽度变换算法将同一文本行中相邻的一个或多个第二文本字符候选框连通为第三文本字符候选框;将同一文本行中所有的第三文本字符候选框合并为一个行文本框;本发明能够提取图像中的文本行。
Description
技术领域
本发明涉及图像识别领域,特别涉及一种多行文本行提取方法、装置、设备及可读存储介质。
背景技术
在许多自然图像中存在大量文本信息,文本信息对于图像理解和图像分类等应用具有重要的意义,因此技术人员需要从自然图像中识别得到文本信息的实际内容,以实现上述应用。但是在现有文本识别领域,不同自然图像的亮度、尺寸、背景等因素存在很大差异,常用的文本识别方法是由最大稳定极值区域算法(MSER算法)处理自然图像来得到自然图像中包含的文本信息。但是在实际应用中,通过最大稳定极值区域算法处理自然图像后得到的文本区域中往往包含纹理复杂的背景区域以及大量重复区域,难以进一步从文本区域中识别得到准确的文本信息。
因此,如何从自然图像中提取出准确的文本区域成为了本领域技术人员亟待解决的技术问题。
发明内容
本发明的目的在于提供一种多行文本行提取方法、装置、设备及可读存储介质,能够快速、准确地检测出多行文本行。
根据本发明的一个方面,提供了一种多行文本行提取方法,所述方法包括:
利用最大稳定极值区域算法从原始文本图像中提取出用于框定文本字符的第一文本字符候选框;其中,一个文本字符对应一个或多个第一文本字符候选框;
通过非极大值抑制算法从与所述文本字符对应的第一文本字符候选框中确定出相关性最高的第二文本字符候选框;
利用笔画宽度变换算法将同一文本行中相邻的一个或多个第二文本字符候选框连通为第三文本字符候选框;
将同一文本行中所有的第三文本字符候选框合并为一个行文本框。
可选的,所述利用最大稳定极值区域算法从原始文本图像中提取出用于框定文本字符的第一文本字符候选框;其中,一个文本字符对应一个或多个第一文本字符候选框,包括:
对所述原始文本图像进行灰度化处理,得到灰度图像;
将所述灰度图像中所有像素点的平均灰度值设置为目标灰度阈值;
将所述灰度图像中灰度值大于所述目标灰度阈值的像素点的像素值设置为1,以及将所述灰度图像中灰度值小于等于所述目标灰度阈值的像素点的像素值设置为0,以实现对所述灰度图像的二值化处理;
将像素值为1的像素点构成的区域作为最大稳定极值区域,并对所述最大稳定极值区域的文本字符进行框定以得到所述第一文本字符候选框。
可选的,所述通过非极大值抑制算法从与所述文本字符对应的第一文本字符候选框中确定出相关性最高的第二文本字符候选框,包括:
将存在部分重叠的第一文本字符候选框聚合为一个候选框集合;
获取所述候选框集合中每个第一文本字符候选框的置信度得分,将置信度得分最高的第一文本字符候选框作为当前候选框;其中,所述置信度得分为第一文本字符候选框中包含的像素图像为完整文本字符的概率;
依次遍历所述候选框集合中剩余的第一文本字符候选框,计算所述当前候选框与遍历到的目标第一文本字符候选框的重叠率,当所述重叠率大于等于预设重叠率阈值时,从所述候选框集合中剔除所述目标第一文本字符候选框,当所述重叠率小于预设重叠率阈值时,用所述目标第一文本字符候选框替换所述当前候选框以继续进行遍历,直至所述候选框集合中仅剩余一个第一文本字符候选框;
将每个候选框集合遍历后剩余的第一文本字符候选框作为与每个文本字符相关性最高的第二文本字符候选框。
可选的,所述利用笔画宽度变换算法将同一文本行中相邻的一个或多个第二文本字符候选框连通为第三文本字符候选框,包括:
按照预设降噪规则对所述第二文本字符候选框进行过滤处理,以得到过滤后的第二文本字符候选框;
获取每个过滤后的第二文本字符候选框中包含的文本字符的平均笔画宽度;
将平均笔画宽度在预设笔画宽度区间内的第二文本字符候选框作为待组合候选框;
将水平距离小于等于预设组合距离的相邻待组合候选框进行组合,以将同一文本行中相邻的一个或多个第二文本字符候选框连通为第三文本字符候选框。
可选的,所述将同一文本行中所有的第三文本字符候选框合并为一个行文本框,包括:
从所述坐标信息中获取所述第三文本字符候选框在所述原始文本图像中的纵坐标信息;
对每个第三文本字符候选框的纵坐标信息进行约束计算,以得到所述第三文本字符候选框的约束纵坐标信息;
将约束纵坐标信息相同的第三文本字符候选框合并为一个行文本框。
可选的,在所述将同一文本行中所有的第三文本字符候选框合并为一个行文本框之后,所述方法还包括:
利用光学字符识别对所述原始文本图像中的每个行文本框进行字符识别,以得到所述原始文本图像中包含的文本信息。
为了实现上述目的,本发明还提供一种多行文本行提取装置,所述装置包括:
提取模块,用于利用最大稳定极值区域算法从原始文本图像中提取出用于框定文本字符的第一文本字符候选框;其中,一个文本字符对应一个或多个第一文本字符候选框;
筛选模块,用于通过非极大值抑制算法从与所述文本字符对应的第一文本字符候选框中确定出相关性最高的第二文本字符候选框;
连通模块,用于利用笔画宽度变换算法将同一文本行中相邻的一个或多个第二文本字符候选框连通为第三文本字符候选框;
合并模块,用于将同一文本行中所有的第三文本字符候选框合并为一个行文本框。
可选的,所述装置还用于:
对所述原始文本图像进行灰度化处理,得到灰度图像;
将所述灰度图像中所有像素点的平均灰度值设置为目标灰度阈值;
将所述灰度图像中灰度值大于所述目标灰度阈值的像素点的像素值设置为1,以及将所述灰度图像中灰度值小于等于所述目标灰度阈值的像素点的像素值设置为0,以实现对所述灰度图像的二值化处理;
将像素值为1的像素点构成的区域作为最大稳定极值区域,并对所述最大稳定极值区域的文本字符进行框定以得到所述第一文本字符候选框。
为了实现上述目的,本发明还提供一种计算机设备,该计算机设备具体包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述介绍的多行文本行提取方法的步骤。
为了实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述介绍的多行文本行提取方法的步骤。
本发明提供的多行文本行提取方法、装置、设备及可读存储介质,通过最大稳定极值区域算法从原始文本图像中提取第一文本字符候选框,再通过非极大值抑制算法和笔画宽度变换算法从第一文本字符候选框中过滤掉存在阴影、噪声、非文本字符内容的候选框,留下出符合组成文本行条件的第三文本字符候选框,最后对位于相同坐标行的第三文本字符候选框进行合并得到原始文本图像中的行文本框,实现了从具有复杂纹理背景的原始文本图像中提取出清晰完整的多行文本行的功能,以便于后续对文本行进行光学字符识别来获得原始文本图像中的文本信息,具有提取文本行速度快、图像背景干扰小、提取效果好的优点,提高了提取效率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为实施例一提供的多行文本行提取方法的一种可选的流程示意图;
图2为实施例一提供的第一文本字符候选框的示意图;
图3为实施例一提供的第二文本字符候选框的示意图;
图4为实施例一提供的第三文本字符候选框的示意图;
图5为实施例一提供的行文本框的示意图;
图6为实施例一提供的计算第二文本字符候选框的水平距离的示意图;
图7为实施例二提供的多行文本行提取装置的一种可选的组成结构示意图;
图8为实施例三提供的计算机设备的一种可选的硬件架构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种多行文本行提取方法,如图1所示,该方法具体包括以下步骤:
步骤S101:利用最大稳定极值区域算法从原始文本图像中提取出用于框定文本字符的第一文本字符候选框;其中,一个文本字符对应一个或多个第一文本字符候选框。
具体的,所述原始文本图像为包含文本字符的图像,所述最大稳定极值区域算法(Maximally Stable Extremal Regions,MSER算法)是基于分水岭的思想来对图像进行斑点区域检测,可以粗略地定位出图像中的文本字符候选区域位置。通过对原始图像的阈值从0-255进行灰度处理,在递增的灰度处理过程中,文本字符所在的像素点会保持稳定,而大部分非文本字符会在灰度处理过程中会被过滤掉,所以通过MSER算法处理后的原始文本图像,如图2所示,由矩形框将图像中的符合条件的文本字符候选区域进行框定,得到了粗略的第一文本字符候选框。
步骤S102:通过非极大值抑制算法从与所述文本字符对应的第一文本字符候选框中确定出相关性最高的第二文本字符候选框。
其中,所述非极大值抑制算法(Non Maximum Suppression,NMS算法)用于剔除重叠的第一文本字符候选框,留下最具有代表性的能够完整框定文本字符的候选框,以便后续对候选框进行合并成行文本框的操作。
具体的,一个文本字符会对应至少一个第一文本字符候选框,在筛选与每个文本字符相关性最高的候选框时,需要对框定任意一个文本字符对应的若干个候选框进行聚类,得一个候选框集合,由于此时未得到原始文本图像中的文本字符,所以若想将文本字符对应的每个第一文本字符候选框的进行聚类,则需要根据第一文本字符候选框之间的重叠关系进行聚类,将彼此之间存在重叠的第一文本字符候选框聚类为一个候选框集合,并在该候选框集合中筛选出与该候选框集合对应的文本字符相关性最高的候选框作为第二文本字符候选框。如图3所示,筛选得到的第二文本字符候选框中仅包含一个文本字符。
步骤S103:利用笔画宽度变换算法将同一文本行中相邻的一个或多个第二文本字符候选框连通为第三文本字符候选框。
其中,如图4所示,所述笔画宽度变换算法(Stroke Width Transform,SWT算法)是一种识别出图像中的包含文本字符的连通域的识别算法。通过识别图像中符合笔画特征的内容,进而得到图像中的文本字符,由于在步骤S102中获得的部分第二文本字符候选框是由噪声、背景图案、无意义符号、线条构成,不属于文本字符识别的内容,在本实施例中通过设置过滤规则并利用SWT算法过滤掉非文本字符的候选框,来得到纯净的仅包含文字的第三文本字符候选框。
步骤S104:将同一文本行中所有的第三文本字符候选框合并为一个行文本框。
其中,由于在包含文本字符的原始文本图像中文本字符极少单独出现在图像中,因此,如图5所示,将方向相似、位置相近、纵坐标信息相近的第三文本字符候选框进行合并,以形成具有更强语义的文本行,以便在进行光学字符识别过程中提高文本识别的准确率。
进一步地,在所述步骤S104之后,所述方法还包括:
利用光学字符识别对所述原始文本图像中的每个行文本框进行字符识别,以得到所述原始文本图像中包含的文本信息。
在本实施例中,通过最大稳定极值区域算法从原始文本图像中提取第一文本字符候选框,再通过非极大值抑制算法和笔画宽度变换算法从第一文本字符候选框中过滤掉存在阴影、噪声、非文本字符内容的候选框,留下出符合组成文本行条件的第三文本字符候选框,最后对位于相同坐标行的第三文本字符候选框进行合并得到原始文本图像中的行文本框,实现了从具有复杂纹理背景的原始文本图像中提取出清晰完整的多行文本行的功能,以便于后续对文本行进行光学字符识别来获得原始文本图像中的文本信息,具有提取文本行速度快、图像背景干扰小、提取效果好的优点,提高了提取效率。
进一步地,所述利用最大稳定极值区域算法从原始文本图像中提取出用于框定文本字符的第一文本字符候选框,具体包括以下步骤:
步骤A1:对所述原始文本图像进行灰度化处理,得到灰度图像。
其中,灰度化处理是将原始文本图像取阈值处理,阈值从0至255依次递增,在递增过程中,图像从全白至全黑,该过程中会存在部分像素点的连通区域变化很小,甚至没有变化,说明该连通区域的像素点稳定,不是图像背景中的噪声,将该连通区域称作最大极值稳定区域。
步骤A2:将所述灰度图像中所有像素点的平均灰度值设置为目标灰度阈值。
步骤A3:将所述灰度图像中灰度值大于所述目标灰度阈值的像素点的像素值设置为1,以及将所述灰度图像中灰度值小于等于所述目标灰度阈值的像素点的像素值设置为0,以实现对所述灰度图像的二值化处理。
其中,当像素点的像素值为1时,将该像素点显示在灰度图像中,当像素点的像素值为0时,在灰度图像中不显示该像素点,由此可以实现灰度图像的二值化处理结果,从而消除原始文本图像中的部分背景噪声。
步骤A4:将像素值为1的像素点构成的区域作为最大稳定极值区域,并对所述最大稳定极值区域的文本字符进行框定以得到所述第一文本字符候选框。
其中,对所述最大稳定极值区域中的文本字符绘制矩形轮廓,由于在绘制过程中,根据角点结合的方式进行自动框定,所以会出现对一个文本字符的各个笔画进行绘制从而存在候选路况和候选框之间部分重叠的情况,因此,一个文本字符对应至少一个第一文本字符候选框。
在本实施例中,由于一些包含文本字符的原始文本图像会存在亮度不同、尺寸不同、背景纹理复杂等因素,造成文本识别苦难,识别结果不准确。所以预先通过最大稳定极值区域算法对原始文本图像进行处理,初步剔除图像中不稳定的像素点,消除图像背景中的复杂纹理或噪声像素点。在对原始文本图像进行最大稳定极值区域算法后,可以极大程度提高后续文本识别的准确度,用于处理复杂的原始文本图像起到了优良效果,进一步还可以有助于提高识别准确率和识别速度。
进一步地,所述通过非极大值抑制算法从与所述文本字符对应的第一文本字符候选框中确定出相关性最高的第二文本字符候选框,包括以下步骤:
步骤B1:将存在部分重叠的第一文本字符候选框聚合为一个候选框集合。
步骤B2:获取所述候选框集合中每个第一文本字符候选框的置信度得分,将置信度得分最高的第一文本字符候选框作为当前候选框;其中,所述置信度得分为第一文本字符候选框中包含的像素图像为完整文本字符的概率。
具体的,所述得分是根据第一文本字符候选框中包含的图像在原始文本图像中的置信度计算得到的,即第一文本字符候选框中包含的图像是文本字符的置信水平越高,得分越高。
步骤B3:依次遍历所述候选框集合中剩余的第一文本字符候选框,计算所述当前候选框与遍历到的目标第一文本字符候选框的重叠率,当所述重叠率大于等于预设重叠率阈值时,从所述候选框集合中剔除所述目标第一文本字符候选框,当所述重叠率小于预设重叠率阈值时,用所述目标第一文本字符候选框替换所述当前候选框以继续进行遍历,直至所述候选框集合中仅剩余一个第一文本字符候选框。
其中,所述当前候选框和目标第一文本字符候选框的重叠率(IOU)按照如下公式计算:
IOU=(SA∩SB)/(SA∪SB);
具体的,SA为当前候选框的面积,SB为目标第一文本字符候选框的面积。
例如:在一个候选框集合中存在5个第一文本字符候选框,获取得分最高的当前候选框A作为参照,依次计算当前候选框A和该候选框集合中的其它目标第一文本字符候选框B1、B2、B3、B4的重叠率,若当前候选框A与目标第一文本字符候选框B1的重叠率大于等于预设重叠率阈值时,说明当前候选框A可以覆盖或几乎覆盖目标第一文本字符候选框B1,所以将目标第一文本字符候选框B1从该候选框集合中剔除,再进行下一次计算,若当前候选框A与目标第一文本字符候选框B2的重叠率小于预设重叠率阈值时,说明目标第一文本字符候选框B2可以覆盖或几乎覆盖当前候选框A,将目标第一文本字符候选框B2替代当前候选框A作为当前候选框,以进行下一次计算,最后该候选框集合中仅剩下一个第一文本字符候选框,表明该第一文本字符候选框是与一个文本字符相关性最高的候选框。
步骤B4:将每个候选框集合遍历后剩余的第一文本字符候选框作为与每个文本字符相关性最高的第二文本字符候选框。
在本实施例中,由于在通过最大稳定极值区域算法处理后的原始文本图像中,会存在一个文本字符对应多个第一文本字符候选框的情况,这些候选框重叠在一个文本字符上,此时通过非极大值抑制算法对原始文本图像进行处理,可以将重叠冗余的第一文本字符候选框剔除,即删除非极大值的候选框,仅保留最具代表性的能够完整框定任意一个文本字符的候选框,以便后续对第二文本字符候选框进行下一次筛选和合并;同时减少了后续候选框合并过程中的计算量,节约计算资源,提高文本行提取效率。
进一步地,所述利用笔画宽度变换算法将同一文本行中相邻的一个或多个第二文本字符候选框连通为第三文本字符候选框,包括以下步骤:
步骤C1:按照预设降噪规则对所述第二文本字符候选框进行过滤处理,以得到过滤后的第二文本字符候选框。
其中,所述预设降噪规则是将由噪声、背景图案、无意义符号、线条等非文本支付的第二文本字符候选框剔除的规则,按照实际的原始文本图像的特征进行设置。
例如:将第二文本字符候选框中的边缘像素点的笔画宽度不在常规笔画宽度区间内的第二文本字符候选框剔除(即:第二文本字符候选框中包含的是噪声);将第二文本字符候选框中的边框的长宽比大于预设长宽比阈值的第二文本字符候选框剔除(即:第二文本字符候选框中包含的是线条);将第二文本字符候选框面积大于预设候选框面积的第二文本字符候选框剔除(即:第二文本字符候选框中包含的是大面积背景阴影)。
步骤C2:获取每个过滤后的第二文本字符候选框中包含的文本字符的平均笔画宽度。
优选的,通过OpenCV或Candy函数获取文本字符的图片边缘,进而计算得到文本字符的每个笔画的宽度,最后求得第二文本字符候选框中包含的文本字符的平均笔画宽度。
步骤C3:将平均笔画宽度在预设笔画宽度区间内的第二文本字符候选框作为待组合候选框。
步骤C4:将水平距离小于等于预设组合距离的相邻待组合候选框进行组合,以将同一文本行中相邻的一个或多个第二文本字符候选框连通为第三文本字符候选框。
其中,如图6所示,所述水平距离是指相邻两个待组合候选框左侧待组合候选框的右边框距离右侧待组合候选框的左边框之间的距离。
具体的,当相邻两个待组合候选框的水平距离小于预设组合距离时,可以认为两个待组合候选框的文本字符之间具有语义关联关系,则将两个待组合候选框进行合并处理,再判断组合后的待组合候选框与其相邻的待组合候选框的水平距离。
进一步地,在判断待组合候选框能否进行组合的过程中,如果出现中文英文混合的文本图像时,当两个待组合候选框满足以下的一个或多个条件时,即可将两个待组合候选框组合:
两个待组合候选框中所有像素值的中值的比值小于2;
两个待组合候选框的高的比值小于2;
两个待组合候选框中的像素点的颜色相同或相似。
在本实施例中,通过预设过滤规则将第二文本字符候选框中包含噪声、背景纹理、线条等不属于文本字符的第二文本字符候选框剔除,并利用笔画宽度变换算法从第二文本字符候选框中识别出包含笔画的文本字符,并将位置相近且可能具有语义关联的第二文本字符候选框进行合并得到第三文本字符候选框,使其具有更强的语义信息,还可以过滤掉许多错误框定的候选框,以使得在后续识别文本字符时,可以根据第三文本字符候选框中的文本的语义进行识别,提高识别准确度、提高算法结果的可靠性,同时提高了识别阶段的速度。
更进一步地,所述将同一文本行中所有的第三文本字符候选框合并为一个行文本框,包括以下步骤:
步骤D1:从所述坐标信息中获取所述第三文本字符候选框在所述原始文本图像中的纵坐标信息。
步骤D2:对每个第三文本字符候选框的纵坐标信息进行约束计算,以得到所述第三文本字符候选框的约束纵坐标信息。
其中,所述约束计算是指计算该第三文本字符候选框的上、下边框的纵坐标信息的平均值,以得到所述第三文本字符候选框的约束纵坐标信息。
步骤D3:将约束纵坐标信息相同的第三文本字符候选框合并为一个行文本框。
其中,当不同第三文本字符候选框的约束纵坐标信息相同时,表这些第三文本字符候选框位于原始文本图像的相同坐标行中,属于一个文本行,可以进行合并以使合并后得到的文本行框中的语义信息更强,提高算法结果的可靠性,同时提高识别阶段的速度。
在本实施例中,由于通过笔画宽度变换算法处理后得到的每个第三文本字符候选框中包含的文本字符是距离相近、语义关联的短语或句子,但是大多数第三文本字符候选框之间被标点符号分割开,造成了语义的割裂,因此,通过约束处于同一坐标行的所有第三文本字符候选框,将其合并为一个完整的行文本框,这样使得每个行文本框中的语义信息连贯,内容清晰无噪声,对于后续通过光学字符识别行文本框中的文本字符起到了更加便捷的助力。
在本实施例中,通过最大稳定极值区域算法从原始文本图像中提取第一文本字符候选框,再通过非极大值抑制算法和笔画宽度变换算法从第一文本字符候选框中过滤掉存在阴影、噪声、非文本字符内容的候选框,留下出符合组成文本行条件的第三文本字符候选框,最后对位于相同坐标行的第三文本字符候选框进行合并得到原始文本图像中的行文本框,实现了从具有复杂纹理背景的原始文本图像中提取出清晰完整的多行文本行的功能,以便于后续对文本行进行光学字符识别来获得原始文本图像中的文本信息,具有提取文本行速度快、图像背景干扰小、提取效果好的优点,提高了提取效率。
实施例二
本发明实施例提供了一种多行文本行提取装置,如图7所示,该装置具体包括以下组成部分:
提取模块701,用于利用最大稳定极值区域算法从原始文本图像中提取出用于框定文本字符的第一文本字符候选框;其中,一个文本字符对应一个或多个第一文本字符候选框;
筛选模块702,用于通过非极大值抑制算法从与所述文本字符对应的第一文本字符候选框中确定出相关性最高的第二文本字符候选框;
连通模块703,用于利用笔画宽度变换算法将同一文本行中相邻的一个或多个第二文本字符候选框连通为第三文本字符候选框;
合并模块704,用于将同一文本行中所有的第三文本字符候选框合并为一个行文本框。
其中,提取模块701,用于:
对所述原始文本图像进行灰度化处理,得到灰度图像;
将所述灰度图像中所有像素点的平均灰度值设置为目标灰度阈值;
将所述灰度图像中灰度值大于所述目标灰度阈值的像素点的像素值设置为1,以及将所述灰度图像中灰度值小于等于所述目标灰度阈值的像素点的像素值设置为0,以实现对所述灰度图像的二值化处理;
将像素值为1的像素点构成的区域作为最大稳定极值区域,并对所述最大稳定极值区域的文本字符进行框定以得到所述第一文本字符候选框。
具体的,筛选模块702,用于:
将存在部分重叠的第一文本字符候选框聚合为一个候选框集合;
获取所述候选框集合中每个第一文本字符候选框的置信度得分,将置信度得分最高的第一文本字符候选框作为当前候选框;其中,所述置信度得分为第一文本字符候选框中包含的像素图像为完整文本字符的概率;
依次遍历所述候选框集合中剩余的第一文本字符候选框,计算所述当前候选框与遍历到的目标第一文本字符候选框的重叠率,当所述重叠率大于等于预设重叠率阈值时,从所述候选框集合中剔除所述目标第一文本字符候选框,当所述重叠率小于预设重叠率阈值时,用所述目标第一文本字符候选框替换所述当前候选框以继续进行遍历,直至所述候选框集合中仅剩余一个第一文本字符候选框;
将每个候选框集合遍历后剩余的第一文本字符候选框作为与每个文本字符相关性最高的第二文本字符候选框。
进一步地,连通模块703,用于:
按照预设降噪规则对所述第二文本字符候选框进行过滤处理,以得到过滤后的第二文本字符候选框;
获取每个过滤后的第二文本字符候选框中包含的文本字符的平均笔画宽度;
将平均笔画宽度在预设笔画宽度区间内的第二文本字符候选框作为待组合候选框;
将水平距离小于等于预设组合距离的相邻待组合候选框进行组合,以将同一文本行中相邻的一个或多个第二文本字符候选框连通为第三文本字符候选框。
更进一步地,合并模块704,用于:
从所述坐标信息中获取所述第三文本字符候选框在所述原始文本图像中的纵坐标信息;
对每个第三文本字符候选框的纵坐标信息进行约束计算,以得到所述第三文本字符候选框的约束纵坐标信息;
将约束纵坐标信息相同的第三文本字符候选框合并为一个行文本框。
此外,所述装置还用于:
利用光学字符识别对所述原始文本图像中的每个行文本框进行字符识别,以得到所述原始文本图像中包含的文本信息。
实施例三
本实施例还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图8所示,本实施例的计算机设备80至少包括但不限于:可通过系统总线相互通信连接的存储器801、处理器802。需要指出的是,图8仅示出了具有组件801-802的计算机设备80,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器801(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器801可以是计算机设备80的内部存储单元,例如该计算机设备80的硬盘或内存。在另一些实施例中,存储器801也可以是计算机设备80的外部存储设备,例如该计算机设备80上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器801还可以既包括计算机设备80的内部存储单元也包括其外部存储设备。在本实施例中,存储器801通常用于存储安装于计算机设备80的操作系统和各类应用软件。此外,存储器801还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器802在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他多行文本行提取芯片。该处理器802通常用于控制计算机设备80的总体操作。
具体的,在本实施例中,处理器802用于执行存储器801中存储的多行文本行提取方法的程序,所述多行文本行提取方法的程序被执行时实现如下步骤:
利用最大稳定极值区域算法从原始文本图像中提取出用于框定文本字符的第一文本字符候选框;其中,一个文本字符对应一个或多个第一文本字符候选框;
通过非极大值抑制算法从与所述文本字符对应的第一文本字符候选框中确定出相关性最高的第二文本字符候选框;
利用笔画宽度变换算法将同一文本行中相邻的一个或多个第二文本字符候选框连通为第三文本字符候选框;
将同一文本行中所有的第三文本字符候选框合并为一个行文本框。
上述方法步骤的具体实施例过程可参见实施例一,本实施例在此不再重复赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下方法步骤:
利用最大稳定极值区域算法从原始文本图像中提取出用于框定文本字符的第一文本字符候选框;其中,一个文本字符对应一个或多个第一文本字符候选框;
通过非极大值抑制算法从与所述文本字符对应的第一文本字符候选框中确定出相关性最高的第二文本字符候选框;
利用笔画宽度变换算法将同一文本行中相邻的一个或多个第二文本字符候选框连通为第三文本字符候选框;
将同一文本行中所有的第三文本字符候选框合并为一个行文本框。
上述方法步骤的具体实施例过程可参见实施例一,本实施例在此不再重复赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种多行文本行提取方法,其特征在于,所述方法包括:
利用最大稳定极值区域算法从原始文本图像中提取出用于框定文本字符的第一文本字符候选框;其中,一个文本字符对应一个或多个第一文本字符候选框;
通过非极大值抑制算法从与所述文本字符对应的第一文本字符候选框中确定出相关性最高的第二文本字符候选框;
利用笔画宽度变换算法将同一文本行中相邻的一个或多个第二文本字符候选框连通为第三文本字符候选框;
将同一文本行中所有的第三文本字符候选框合并为一个行文本框。
2.根据权利要求1所述的多行文本行提取方法,其特征在于,所述利用最大稳定极值区域算法从原始文本图像中提取出用于框定文本字符的第一文本字符候选框;其中,一个文本字符对应一个或多个第一文本字符候选框,包括:
对所述原始文本图像进行灰度化处理,得到灰度图像;
将所述灰度图像中所有像素点的平均灰度值设置为目标灰度阈值;
将所述灰度图像中灰度值大于所述目标灰度阈值的像素点的像素值设置为1,以及将所述灰度图像中灰度值小于等于所述目标灰度阈值的像素点的像素值设置为0,以实现对所述灰度图像的二值化处理;
将像素值为1的像素点构成的区域作为最大稳定极值区域,并对所述最大稳定极值区域的文本字符进行框定以得到所述第一文本字符候选框。
3.根据权利要求1所述的多行文本行提取方法,其特征在于,所述通过非极大值抑制算法从与所述文本字符对应的第一文本字符候选框中确定出相关性最高的第二文本字符候选框,包括:
将存在部分重叠的第一文本字符候选框聚合为一个候选框集合;
获取所述候选框集合中每个第一文本字符候选框的置信度得分,将置信度得分最高的第一文本字符候选框作为当前候选框;其中,所述置信度得分为第一文本字符候选框中包含的像素图像为完整文本字符的概率;
依次遍历所述候选框集合中剩余的第一文本字符候选框,计算所述当前候选框与遍历到的目标第一文本字符候选框的重叠率,当所述重叠率大于等于预设重叠率阈值时,从所述候选框集合中剔除所述目标第一文本字符候选框,当所述重叠率小于预设重叠率阈值时,用所述目标第一文本字符候选框替换所述当前候选框以继续进行遍历,直至所述候选框集合中仅剩余一个第一文本字符候选框;
将每个候选框集合遍历后剩余的第一文本字符候选框作为与每个文本字符相关性最高的第二文本字符候选框。
4.根据权利要求1所述的多行文本行提取方法,其特征在于,所述利用笔画宽度变换算法将同一文本行中相邻的一个或多个第二文本字符候选框连通为第三文本字符候选框,包括:
按照预设降噪规则对所述第二文本字符候选框进行过滤处理,以得到过滤后的第二文本字符候选框;
获取每个过滤后的第二文本字符候选框中包含的文本字符的平均笔画宽度;
将平均笔画宽度在预设笔画宽度区间内的第二文本字符候选框作为待组合候选框;
将水平距离小于等于预设组合距离的相邻待组合候选框进行组合,以将同一文本行中相邻的一个或多个第二文本字符候选框连通为第三文本字符候选框。
5.根据权利要求1所述的多行文本行提取方法,其特征在于,所述将同一文本行中所有的第三文本字符候选框合并为一个行文本框,包括:
从所述坐标信息中获取所述第三文本字符候选框在所述原始文本图像中的纵坐标信息;
对每个第三文本字符候选框的纵坐标信息进行约束计算,以得到所述第三文本字符候选框的约束纵坐标信息;
将约束纵坐标信息相同的第三文本字符候选框合并为一个行文本框。
6.根据权利要求1-5中任意一项所述的多行文本行提取方法,其特征在于,在所述将同一文本行中所有的第三文本字符候选框合并为一个行文本框之后,所述方法还包括:
利用光学字符识别对所述原始文本图像中的每个行文本框进行字符识别,以得到所述原始文本图像中包含的文本信息。
7.一种多行文本行提取装置,其特征在于,所述装置包括:
提取模块,用于利用最大稳定极值区域算法从原始文本图像中提取出用于框定文本字符的第一文本字符候选框;其中,一个文本字符对应一个或多个第一文本字符候选框;
筛选模块,用于通过非极大值抑制算法从与所述文本字符对应的第一文本字符候选框中确定出相关性最高的第二文本字符候选框;
连通模块,用于利用笔画宽度变换算法将同一文本行中相邻的一个或多个第二文本字符候选框连通为第三文本字符候选框;
合并模块,用于将同一文本行中所有的第三文本字符候选框合并为一个行文本框。
8.根据权利要求7所述的多行文本行提取装置,其特征在于,所述装置还用于:
对所述原始文本图像进行灰度化处理,得到灰度图像;
将所述灰度图像中所有像素点的平均灰度值设置为目标灰度阈值;
将所述灰度图像中灰度值大于所述目标灰度阈值的像素点的像素值设置为1,以及将所述灰度图像中灰度值小于等于所述目标灰度阈值的像素点的像素值设置为0,以实现对所述灰度图像的二值化处理;
将像素值为1的像素点构成的区域作为最大稳定极值区域,并对所述最大稳定极值区域的文本字符进行框定以得到所述第一文本字符候选框。
9.一种计算机设备,所述计算机设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310267253.4A CN116524503A (zh) | 2023-03-14 | 2023-03-14 | 多行文本行提取方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310267253.4A CN116524503A (zh) | 2023-03-14 | 2023-03-14 | 多行文本行提取方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116524503A true CN116524503A (zh) | 2023-08-01 |
Family
ID=87389339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310267253.4A Pending CN116524503A (zh) | 2023-03-14 | 2023-03-14 | 多行文本行提取方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116524503A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409428A (zh) * | 2023-12-13 | 2024-01-16 | 南昌理工学院 | 一种试卷信息处理方法、系统、计算机及存储介质 |
-
2023
- 2023-03-14 CN CN202310267253.4A patent/CN116524503A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409428A (zh) * | 2023-12-13 | 2024-01-16 | 南昌理工学院 | 一种试卷信息处理方法、系统、计算机及存储介质 |
CN117409428B (zh) * | 2023-12-13 | 2024-03-01 | 南昌理工学院 | 一种试卷信息处理方法、系统、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670500B (zh) | 一种文字区域获取方法、装置、存储介质及终端设备 | |
US10817741B2 (en) | Word segmentation system, method and device | |
CN109933756B (zh) | 基于ocr的图像转档方法、装置、设备及可读存储介质 | |
CN110008809B (zh) | 表格数据的获取方法、装置和服务器 | |
US9070035B2 (en) | Document processing apparatus, document processing method and scanner | |
CN111340037B (zh) | 文本版面分析方法、装置、计算机设备和存储介质 | |
CN110598686B (zh) | 发票的识别方法、系统、电子设备和介质 | |
WO2011128777A2 (en) | Segmentation of textual lines in an image that include western characters and hieroglyphic characters | |
CN112487848B (zh) | 文字识别方法和终端设备 | |
CN111899292A (zh) | 文字识别方法、装置、电子设备及存储介质 | |
CN108734161B (zh) | 冠字号区域的识别方法、装置、设备及存储介质 | |
CN109508716B (zh) | 一种图像文字的定位方法及装置 | |
CN115984859B (zh) | 一种图像文字识别的方法、装置及存储介质 | |
CN111814673A (zh) | 一种修正文本检测边界框的方法、装置、设备及存储介质 | |
CN115273115A (zh) | 一种文档元素标注方法、装置、电子设备和存储介质 | |
CN111209865A (zh) | 文件内容提取方法、装置、电子设备及存储介质 | |
Malik et al. | An efficient skewed line segmentation technique for cursive script OCR | |
CN116524503A (zh) | 多行文本行提取方法、装置、设备及可读存储介质 | |
CN116597466A (zh) | 一种基于改进YOLOv5s的工程图纸文字检测识别方法及系统 | |
CN108877030B (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN112800824B (zh) | 扫描文件的处理方法、装置、设备及存储介质 | |
CN111814780A (zh) | 一种票据图像处理方法、装置、设备及存储介质 | |
CN116030472A (zh) | 文字坐标确定方法及装置 | |
CN114120305B (zh) | 文本分类模型的训练方法、文本内容的识别方法及装置 | |
CN115862044A (zh) | 用于从图像中提取目标文档部分的方法、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |