CN113177532B - 图像中文字的段落边界的识别方法、装置、设备及介质 - Google Patents
图像中文字的段落边界的识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113177532B CN113177532B CN202110587696.2A CN202110587696A CN113177532B CN 113177532 B CN113177532 B CN 113177532B CN 202110587696 A CN202110587696 A CN 202110587696A CN 113177532 B CN113177532 B CN 113177532B
- Authority
- CN
- China
- Prior art keywords
- characters
- character
- text
- image
- undetermined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000004931 aggregating effect Effects 0.000 claims abstract description 11
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 10
- 238000003709 image segmentation Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/225—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
Abstract
本申请涉及图像识别领域,揭示了一种图像中文字的段落边界的识别方法、装置、设备及介质,其中方法包括:识别获取的图像,以将所述图像中的文字进行分割;对分割后的所述文字进行位置标记,得到图像中的每一个文字的位置信息;根据所述位置信息依次选取图像的任一文字作为待定文字,以及获取与所述待定文字相邻的左边的第一文字、相邻的上边的第二文字;待定文字与第一文字、第二文字的相邻性及关联性,根据所述相邻性与关联性得到待定文字与第一文字、第二文字的连通性;将具有连通性的文字进行标记,对具有相同标记的文字进行聚合,得到聚合后的文字分段,根据文字分段确定图像中的文字的段落边界。本申请能够提高图像中文字边界的识别准确度。
Description
技术领域
本申请涉及到图像及文字识别领域,特别是涉及到一种图像中文字的段落边界的识别方法、装置、计算机设备及存储介质。
背景技术
目前的段落划分算法,是在标准的正面图像中,利用图像的信息将图像中间隔较小的区域进行连通,得到段落,该方式的受限较大,当图像为不标准的图像时,如用户拍摄的图片,受限于光线,角度,单据样式等问题,其成像结果较差,此时无法准确地对图像内的文字划分出区域,且识别的段落的准确率较低。
发明内容
本申请的主要目的为提供一种图像中文字的段落边界的识别方法、装置、计算机设备及存储介质,旨在解决目前无法准确地对图像内的文字划分出区域的问题。
为了实现上述发明目的,本申请提出一种图像中文字的段落边界的识别方法,包括:
识别获取的图像,以将所述图像中的文字进行分割;
对分割后的所述文字进行位置标记,得到图像中的每一个文字的位置信息;
根据所述位置信息依次选取图像的任一文字作为待定文字,以及获取与所述待定文字相邻的左边的第一文字、相邻的上边的第二文字;
计算所述待定文字分别与第一文字、第二文字的像素距离,根据所述像素距离确定待定文字分别与第一文字、第二文字的相邻性,基于文字语义确定所述待定文字分别与第一文字、第二文字的关联性,根据所述相邻性与关联性得到待定文字分别与第一文字、第二文字的连通性;
将具有连通性的文字进行标记,根据文字的标记对具有相同标记的文字进行聚合,得到聚合后的文字分段,根据所述文字分段确定图像中的文字的段落边界。
进一步地,所述对所述文字进行位置标记,得到图像中的每一个文字的位置信息之后,还包括:
根据所述位置信息获取图像中的第一行文字,对所述第一行文字以第一预设标号进行位置标记;
根据所述位置信息获取图像中的每一行文字的第一个文字,对所述每一行文字的第一个文字以第二预设标号进行位置标记。
进一步地,所述根据所述位置信息依次选取图像的任一文字作为待定文字,包括:
根据所述位置信息获取图像中的每一行文字的第一个文字,将所述每一行文字的第一个文字作为第一次选取的待定文字;
根据所述位置信息的顺序从每一行的剩余文字依次选取一个文字作为第二次选取的待定文字,直至完成每一行所有文字的选取。
进一步地,所述计算所述待定文字分别与第一文字、第二文字的像素距离,根据所述像素距离确定待定文字分别与第一文字、第二文字的相邻性,包括:
获取所述待定文字分别与第一文字、第二文字的像素距离;
将所述像素距离按照预设的比例进行缩放,得到缩放后的待定文字与第一文字的第一像素距离以及待定文字与第二文字的第二像素距离;
若所述第一像素距离小于预设值,确定所述待定文字与第一文字具有相邻性;
若所述第二像素距离小于预设值,确定所述待定文字与第二文字具有相邻性。
进一步地,所述将具有连通性的文字进行标记,包括:
当所述待定文字与第一文字具有连通性,将所述待定文字与第一文字以相同的标号进行标记;
当所述待定文字与第二文字具有连通性,将所述待定文字与第二文字以相同的标号进行标记;
当所述待定文字与第一文字、第二文字均具有连通性,将所述待定文字、第一文字以及第二文字均以相同的标号进行标记。
进一步地,所述识别获取的图像,以将所述图像中的文字进行分割,包括:
识别所述图像存在的文字;
获取预设的分割框,将所述分割框覆盖在每一个所述文字上,以对所述图像中的文字进行分割;所述分割框为能覆盖每一个所述文字的最小面积的矩形。
进一步地,所述根据所述文字分段确定图像中的文字的段落边界之后,还包括:
生成所述段落边界的框线;
将所述段落边界的框线叠加在所述图像的上方。
本申请还提供一种图像中文字的段落边界的识别装置,包括:
图像分割模块:用于识别获取的图像,以将所述图像中的文字进行分割;
位置标记模块:用于对分割后的所述文字进行位置标记,得到图像中的每一个文字的位置信息;
文字选取模块:用于根据所述位置信息依次选取图像的任一文字作为待定文字,以及获取与所述待定文字相邻的左边的第一文字、相邻的上边的第二文字;
连通性模块:用于计算所述待定文字分别与第一文字、第二文字的像素距离,根据所述像素距离确定待定文字分别与第一文字、第二文字的相邻性,基于文字语义确定所述待定文字分别与第一文字、第二文字的关联性,根据所述相邻性与关联性得到待定文字分别与第一文字、第二文字的连通性;
段落确定模块:用于将具有连通性的文字进行标记,根据文字的标记对具有相同标记的文字进行聚合,得到聚合后的文字分段,根据所述文字分段确定图像中的文字的段落边界。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述图像中文字的段落边界的识别方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述图像中文字的段落边界的识别方法的步骤。
本申请例提供了一种识别图像中文字的段落边界的方法,在获取图像后,识别所述图像,先将图像中的每一个文字都作为单独存在的对象进行分割,得到图像中每一个文字的位置分布,再对分割后的文字进行位置标记,得到图像中的每一个文字的位置信息,所述位置信息可以表征一个文字处于另一个文字的方位,再选定任一文字作为待定文字,以及获取与所述待定文字相邻的左边的第一文字、相邻的上边的第二文字,计算所述待定文字与第一文字、第二文字的像素距离,根根据所述像素距离确定待定文字与第一文字、第二文字的相邻性,再基于文字语义确定所述待定文字与第一文字、第二文字的关联性,根据所述相邻性与关联性得到待定文字与第一文字、第二文字的连通性,将具有连通性的文字进行标记,根据文字的标记对文字进行聚合,确定图像中的文字的分段,可以清楚地确定图像中文字的段落边界,通过距离识别与语义识别的结合提高图像中文字的段落边界识别的准确性。
附图说明
图1为本申请图像中文字的段落边界的识别方法的一实施例流程示意图;
图2为本申请图像中文字的段落边界的识别方法的另一实施例流程示意图;
图3为本申请BERT模型的一实施例示意图;
图4为本申请图像中文字的段落边界的识别装置的一实施例结构示意图;
图5为本申请计算机设备的一实施例结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种图像中文字的段落边界的识别方法,包括步骤S10-S50,对于所述图像中文字的段落边界的识别方法的各个步骤的详细阐述如下。
S10、识别获取的图像,以将所述图像中的文字进行分割。
本实施例应用于图像中的文字识别的场景,随着数字化的不断发展,各行各业都通过图像获取相关的数据,例如,上传保险保单图像,上传登机牌图像,上传体检图像等,当图像上传到平台后,需要对图像进行识别,获取图像中包含的信息,由于特定的行业所使用的纸质文档大同小异,当用户拍摄纸质文档图像后上传,获取所述图像,然后识别所获取的图像,具体的,基于OCR(Optical Character Recognition,光学字符识别)识别所述图像,将所述图像中包含的文字进行分割,本发明中,先将图像中的每一个文字都作为单独存在的对象进行分割,所述文字并非指单独的汉字,还包括英文,符号,标号等。
S20、对分割后的所述文字进行位置标记,得到图像中的每一个文字的位置信息。
本实施例中,在将所述图像中的文字进行分割,每一个文字都作为单独存在的对象进行分割后,可以得到图像中每一个文字的位置分布,基于所述图像中的文字进行分割的结果对所述文字进行位置标记,得到图像中的每一个文字的位置信息,所述位置信息包括所述文字在图像中的绝对位置信息,即每一个文字在图像中所占据的像素点的坐标,根据该坐标可以精确定位每一个文字在图像中的位置;所述位置信息还包括每一个文字在图像中的相对位置信息,所述相对位置信息为每一个文字处于相邻文字的方位,本实施例中以相邻的文字作为位置信息的标注,包括相邻的左边,或相邻的右边,或相邻的上边,或相邻的下边,例如文字A位于文字B的相邻的左边位置,进一步的,本实施例优选使用相邻的左边与相邻的上边作为文字的位置判断。S30、根据所述位置信息依次选取图像的任一文字作为待定文字,以及获取与所述待定文字相邻的左边的第一文字、相邻的上边的第二文字。
本实施例中,在得到了图像中的每一个文字的位置信息后,需要识别每一个文字与相邻的文字之间是否具有连通关系,具体的,首先根据所述位置信息选取图像的任一文字作为定位的文字,该文字定义为待定文字,然后根据所述位置信息获取与所述待定文字相邻的左边的一个文字,将其定义为第一文字,以及根据所述位置信息获取与所述待定文字相邻的上边的一个文字,将其定义为第二文字,在一种实施方式中,根据所述位置信息选取每一行中的第一个文字,将该选定的文字定义为待定文字。
S40、计算所述待定文字分别与第一文字、第二文字的像素距离,根据所述像素距离确定待定文字分别与第一文字、第二文字的相邻性,基于文字语义确定所述待定文字分别与第一文字、第二文字的关联性,根据所述相邻性与关联性得到待定文字分别与第一文字、第二文字的连通性。
本实施例中,在选定了待定文字、第一文字、第二文字后,计算所述待定文字与第一文字、第二文字的像素距离,其中,待定文字与第一文字的像素距离为D1,待定文字与第二文字的像素距离为D2,根据所述像素距离D1确定待定文字与第一文字的相邻性,根据所述像素距离D2确定待定文字与第二文字的相邻性,若所述像素距离超过某一设定值时,可以判断待定文字与第一文字、第二文字不是在同一个段落中,从而确定待定文字与第一文字、第二文字的相邻性,即确定第一文字与待定文字是否为左连通,以及第二文字与待定文字是否为上连通,依次类推,确定图像中所有单独识别出的文字之间的相邻性;进一步的,基于文字语义确定所述待定文字与第一文字的关联性,以及待定文字与第二文字的关联性,通过语义识别判断相邻字之间是否存在关联,所述语义识别可以为BERT识别;然后根据所述相邻性与关联性得到待定文字与第一文字、第二文字的连通性,当待定文字与第一文字(或第二文字)具有连通性及关联性时,确定所述待定文字与第一文字(或第二文字)具有连通性,连通性表征待定文字与第一文字、第二文字之间不仅存在位置上的相邻关系,还存在语义上的关联关系,通过上述方式,可以确定图像中每一个文字与其他文字之间的连通性。
S50、将具有连通性的文字进行标记,并对具有相同标记的文字进行聚合,得到聚合后的文字分段,根据所述文字分段确定图像中的文字的段落边界。
本实施例中,在确定了图像中各个文字之间的连通性后,将具有连通性的文字进行标记,包括,当识别到具有连通性的所有文字以同一编号进行标记,例如,将具有连通性的20个文字以同一编号(⊥)进行标记,将具有连通性的另外30个文字以另一编号(∏)进行标记,然后根据文字的标记对文字进行聚合,对具有相同标记相同编号的文字进行聚合,聚合后的文字则被确定为一段一段的文字,得到聚合后的文字分段,从而确定图像中的文字的分段,根据所述文字分段确定图像中文字的段落边界。
进一步的,本实施例中,在获取图像、将图像中的文字进行分割、对分割后的文字进行位置标记、确定图像中文字的连通性、将具有连通性的文字进行标记以及确定图像中的文字的段落边界之后,还将所述图像信息,将图像中的文字进行分割的分割信息、对分割后的文字进行位置标记的位置标记信息、确定图像中文字的连通性的连通信息、将具有连通性的文字进行标记的连通标记信息、以及确定图像中的文字的段落边界的边界信息分别作为区块信息,然后将所述区块信息进行打包,再基于所述区块生成该图像的区块链,即将所述图像的信息存储到区块链上,所述区块链上包含了所述图像的图像信息、分割信息、位置标记信息、连通信息、连通标记信息、边界信息;当对区块链中的任一信息进行修改,则需要通知区块链上的其他信息,以保持信息的一致,通过将所述图像的信息存储到区块链上,能够有效地保存图像的所有信息。
本实施例提供了一种识别图像中文字的段落边界的方法,在获取图像后,识别所述图像,先将图像中的每一个文字都作为单独存在的对象进行分割,得到图像中每一个文字的位置分布,再对分割后的文字进行位置标记,得到图像中的每一个文字的位置信息,所述位置信息可以表征一个文字处于另一个文字的方位,再选定任一文字作为待定文字,以及获取与所述待定文字相邻的左边的第一文字、相邻的上边的第二文字,计算所述待定文字与第一文字、第二文字的像素距离,根根据所述像素距离确定待定文字与第一文字、第二文字的相邻性,再基于文字语义确定所述待定文字与第一文字、第二文字的关联性,根据所述相邻性与关联性得到待定文字与第一文字、第二文字的连通性,将具有连通性的文字进行标记,根据文字的标记对文字进行聚合,确定图像中的文字的分段,可以清楚地确定图像中文字的段落边界,通过距离识别与语义识别的结合提高图像中文字的段落边界识别的准确性。
在一个实施例中,所述根据所述位置信息依次选取图像的任一文字作为待定文字,包括:
根据所述位置信息获取图像中的每一行文字的第一个文字,将所述每一行文字的第一个文字作为第一次选取的待定文字;
根据所述位置信息的顺序从每一行的剩余文字依次选取一个文字作为第二次选取的待定文字,直至完成每一行所有文字的选取。
本实施例中,在对所述文字进行位置标记,得到图像中的每一个文字的位置信息之后,根据所述位置信息依次选取图像的任一文字作为待定文字,为了有序地选取待定文字,本实施例中,将图像的左上角作为坐标原点,然后向下与向右延分别伸出坐标轴x和坐标轴y,根据每一个字的坐标对所述图像中的文字进行位置标注,通过四个坐标可以确定每一个字所占的空间,然后再通过求得该四个坐标的中心坐标,作为该字的位置信息,得到对图像中的每一个文字的位置信息,根据所述位置信息确定图像中包含的文字的行,首先,根据所述位置信息获取图像中的每一行文字的第一个文字,将所述每一行文字的第一个文字作为第一次选取的待定文字,在一种实施方式中,将图像的左上角作为坐标原点,然后向下与向右延伸出坐标轴,对所述图像中的文字进行位置标注,得到图像中的每一个文字的位置信息,根据所述位置信息确定图像中包含文字的行,然后根据所述位置信息获取图像中的每一行文字的第一个文字,将所述每一行文字的第一个文字作为第一次选取的待定文字,再根据所述位置信息的顺序从每一行的剩余文字依次选取一个文字作为第二次选取的待定文字,按照顺序依次选取每一行中的第二个文字、第三个文字,直至完成每一行所有文字的选取,从而完成图像中所有字的选取,通过并行的方式选取每一行文字中的任一文字作为待定文字,从而提高文字选取的效率,提高文字段落边界的识别效率。
在一个实施例中,所述对所述文字进行位置标记,得到图像中的每一个文字的位置信息之后,还包括:
根据所述位置信息获取图像中的第一行文字,对所述第一行文字以第一预设标号进行位置标记;
根据所述位置信息获取图像中的每一行文字的第一个文字,对所述每一行文字的第一个文字以第二预设标号进行位置标记。
本实施例中,在对所述文字进行位置标记,得到图像中的每一个文字的位置信息之后,根据所述位置信息获取图像中的第一行文字,对所述第一行文字以第一预设标号进行位置标记,以确定图像中文字的起始行位置,并且,根据所述位置信息获取图像中的每一行文字的第一个文字,对所述每一行文字的第一个文字以第二预设标号进行位置标记,以确定图像中每一行文字的起始位置,从而能够确定图像中文字的起始列位置,提高文字段落边界的识别准确度。
在一个实施例中,所述计算所述待定文字分别与第一文字、第二文字的像素距离,根据所述像素距离确定待定文字分别与第一文字、第二文字的相邻性,包括:
获取所述待定文字分别与第一文字、第二文字的像素距离;
将所述像素距离按照预设的比例进行缩放,得到缩放后的待定文字与第一文字的第一像素距离以及待定文字与第二文字的第二像素距离;
若所述第一像素距离小于预设值,确定所述待定文字与第一文字具有相邻性;
若所述第二像素距离小于预设值,确定所述待定文字与第二文字具有相邻性。
本实施例中,计算所述待定文字与第一文字、第二文字的像素距离,不直接地以文字在图像中的直接距离计算,而是获取所述待定文字分别与第一文字、第二文字的像素距离,再将所述像素距离按照预设的比例进行缩放,得到缩放后的像素距离,其中,缩放后的待定文字与第一文字的像素距离定义为第一像素距离,缩放后的待定文字与第二文字的像素距离定义为第二像素距离,若所述第一像素距离小于预设值,确定所述待定文字与第一文字具有相邻性,若所述第二像素距离小于预设值,确定所述待定文字与第二文字具有相邻性,从而快速地确定待定文字与第一文字、第二文字的相邻性,一种实施方式的缩放方法为像素距离/50,例如将待定文字与第一文字在图像中的绝对像素距离/50,得到第一像素距离,将待定文字与第二文字在图像中的绝对像素距离/50,得到第二像素距离。
在一个实施例中,如图2所示,所述步骤S50中将具有连通性的文字进行标记,包括:
S51:当所述待定文字与第一文字具有连通性,将所述待定文字与第一文字以相同的标号进行标记;
S52:当所述待定文字与第二文字具有连通性,将所述待定文字与第二文字以相同的标号进行标记;
S53:当所述待定文字与第一文字、第二文字均有连通性,将所述待定文字、第一文字以及第二文字均以相同的标号进行标记。
本实施例中,将具有连通性的文字进行标记,包括待定文字与第一文字具有连通性、待定文字与第二文字具有连通性以及待定文字与第一文字、第二文字均具有连通性等多种情况,当所述待定文字与第一文字具有连通性,将所述待定文字与第一文字以相同的标号进行标记,如当所述待定文字与第一文字具有连通性,待定文字及第一文字均以“1”标记,若所述待定文字与第一文字没有连通性,则待定文字“1”标记,第一文字以“0”标记。同样的,当所述待定文字与第二文字具有连通性,将所述待定文字与第二文字以相同的标号进行标记。而当所述待定文字与第一文字、第二文字均具有连通性,表示待定文字与第一文字、第二文字均为同一段落的内容,此时将所述待定文字、第一文字以及第二文字均以相同的标号进行标记,从而快速地对有连通性的文字进行标记,提高文字边界的生成效率。
在一个实施例中,所述识别获取的图像,以将所述图像中的文字进行分割,包括:
识别所述图像存在的文字;
获取预设的分割框,将所述分割框覆盖在每一个所述文字上,以对所述图像中的文字进行分割;所述分割框为能覆盖每一个所述文字的最小面积的矩形。
本实施例中,识别所述图像的过程中,先识别所述图像存在的文字,然后获取预设的分割框,将所述分割框覆盖在每一个所述文字上,然后通过不断地缩小分割框的面积,以选取出能覆盖每一个所述文字的最小面积的矩形作为分割框,以对所述图像中的文字进行分割,后续再根据每一个分割框的位置信息即可得到每一个文字的位置信息。
在一个实施例中,所述根据所述文字分段确定图像中的文字的段落边界之后,还包括:
生成所述段落边界的框线;
将所述段落边界的框线叠加在所述图像的上方。
本实施例中,在确定图像中的文字的分段之后,所述根据所述文字分段确定图像中的文字的段落边界,即每一段文字均划分为同一个段落,同一个段落的文字具有一个相同的段落边界,然后生成所述段落边界的框线,将所述段落边界的框线叠加在所述图像的上方,以框线形式对每一个段落进行分割,将所述段落边界以框线叠加在所述图像的上方,再输出所述图像后,能够清晰地看到图像上的文字的分段以及段落边界范围,从而更好地对图像进行识别。
在一个应用场景中,通过一个BERT模型实现上述实施例的图像中文字的段落边界的识别方法,上述BERT模型结合OCR识别的位置信息作为输入和人工构造的离散特征,对图像中的每一个字进行分类操作,每个字取预设的四种标签中概率最大的一种,预设的四种标签包括“无连通”,“仅左连通”,“仅上连通”,“左上连通”,用O,L,U,UL分别表示“无连通”,“仅左连通”,“仅上连通”,“左上连通”,然后通过标签,来判断当前字是否与左侧的字、上方的字构成一个整体,通过构建每个字与左侧和上方字的连通性,可以将整个图像进行分块,再将分块后按照左连通和上连通,进行聚合,得到各自的段落,从而确定段落边界。如图3所示是本实施例的BERT模型结合OCR识别的位置信息作为输入和人工构造的离散特征的示意图,BERT模型的输入接收了字的信息,以及该字左上角和右下角的位置坐标信息,其输出是将该字打上4类标签中的一个,从而确定该字与其左侧,上测的字的连通性。
参照图4,本申请还提供一种图像中文字的段落边界的识别装置,包括:
图像分割模块10:用于识别获取的图像,以将所述图像中的文字进行分割;
位置标记模块20:用于对分割后的所述文字进行位置标记,得到图像中的每一个文字的位置信息;
文字选取模块30:用于根据所述位置信息依次选取图像的任一文字作为待定文字,以及获取与所述待定文字相邻的左边的第一文字、相邻的上边的第二文字;
连通性模块40:用于计算所述待定文字分别与第一文字、第二文字的像素距离,根据所述像素距离确定待定文字分别与第一文字、第二文字的相邻性,基于文字语义确定所述待定文字分别与第一文字、第二文字的关联性,根据所述相邻性与关联性得到待定文字分别与第一文字、第二文字的连通性;
段落确定模块50:用于将具有连通性的文字进行标记,根据文字的标记对具有相同标记的文字进行聚合,得到聚合后的文字分段,根据所述文字分段确定图像中的文字的段落边界。
在一个实施例中,所述位置标记模块20还包括执行:
根据所述位置信息获取图像中的第一行文字,对所述第一行文字以第一预设标号进行位置标记;
根据所述位置信息获取图像中的每一行文字的第一个文字,对所述每一行文字的第一个文字以第二预设标号进行位置标记。
在一个实施例中,所述文字选取模块30还包括执行:
根据所述位置信息获取图像中的每一行文字的第一个文字,将所述每一行文字的第一个文字作为第一次选取的待定文字;
根据所述位置信息的顺序从每一行的剩余文字依次选取一个文字作为第二次选取的待定文字,直至完成每一行所有文字的选取。
在一个实施例中,所述连通性模块40还包括执行:
获取所述待定文字分别与第一文字、第二文字的像素距离;
将所述像素距离按照预设的比例进行缩放,得到缩放后的待定文字与第一文字的第一像素距离以及待定文字与第二文字的第二像素距离;
若所述第一像素距离小于预设值,确定所述待定文字与第一文字具有相邻性;
若所述第二像素距离小于预设值,确定所述待定文字与第二文字具有相邻性。
在一个实施例中,所述段落确定模块50还包括执行:
当所述待定文字与第一文字具有连通性,将所述待定文字与第一文字以相同的标号进行标记;
当所述待定文字与第二文字具有连通性,将所述待定文字与第二文字以相同的标号进行标记;
当所述待定文字与第一文字、第二文字均具有连通性,将所述待定文字、第一文字以及第二文字均以相同的标号进行标记。
在一个实施例中,所述图像分割模块10还包括执行:
识别所述图像存在的文字;
获取预设的分割框,将所述分割框覆盖在每一个所述文字上,以对所述图像中的文字进行分割;所述分割框为能覆盖每一个所述文字的最小面积的矩形。
在一个实施例中,所述段落确定模块50还包括执行:
生成所述段落边界的框线;
将所述段落边界的框线叠加在所述图像的上方。
如上所述,可以理解地,本申请中提出的所述图像中文字的段落边界的识别装置的各组成部分可以实现如上所述图像中文字的段落边界的识别方法任一项的功能。
参照图5,本申请实施例中还提供一种计算机设备,该计算机设备可以是移动终端,其内部结构可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和显示装置及输入装置。其中,该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的输入装置用于接收用户的输入。该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质。该存储介质存储有操作系统、计算机程序和数据库。该计算机设备的数据库用于存放数据。该计算机程序被处理器执行时以实现一种图像中文字的段落边界的识别方法。
上述处理器执行上述的图像中文字的段落边界的识别方法,包括:识别获取的图像,以将所述图像中的文字进行分割;对分割后的所述文字进行位置标记,得到图像中的每一个文字的位置信息;根据所述位置信息依次选取图像的任一文字作为待定文字,以及获取与所述待定文字相邻的左边的第一文字、相邻的上边的第二文字;计算所述待定文字分别与第一文字、第二文字的像素距离,根据所述像素距离确定待定文字分别与第一文字、第二文字的相邻性,基于文字语义确定所述待定文字分别与第一文字、第二文字的关联性,根据所述相邻性与关联性得到待定文字分别与第一文字、第二文字的连通性;将具有连通性的文字进行标记,根据文字的标记对具有相同标记的文字进行聚合,得到聚合后的文字分段,根据所述文字分段确定图像中的文字的段落边界。
所述计算机设备提供了一种识别图像中文字的段落边界的方法,在获取图像后,识别所述图像,先将图像中的每一个文字都作为单独存在的对象进行分割,得到图像中每一个文字的位置分布,再对分割后的文字进行位置标记,得到图像中的每一个文字的位置信息,所述位置信息可以表征一个文字处于另一个文字的方位,再选定任一文字作为待定文字,以及获取与所述待定文字相邻的左边的第一文字、相邻的上边的第二文字,计算所述待定文字与第一文字、第二文字的像素距离,根根据所述像素距离确定待定文字与第一文字、第二文字的相邻性,再基于文字语义确定所述待定文字与第一文字、第二文字的关联性,根据所述相邻性与关联性得到待定文字与第一文字、第二文字的连通性,将具有连通性的文字进行标记,根据文字的标记对文字进行聚合,确定图像中的文字的分段,可以清楚地确定图像中文字的段落边界,通过距离识别与语义识别的结合提高图像中文字的段落边界识别的准确性。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被所述处理器执行时实现一种图像中文字的段落边界的识别方法,包括步骤:识别获取的图像,以将所述图像中的文字进行分割;对分割后的所述文字进行位置标记,得到图像中的每一个文字的位置信息;根据所述位置信息依次选取图像的任一文字作为待定文字,以及获取与所述待定文字相邻的左边的第一文字、相邻的上边的第二文字;计算所述待定文字分别与第一文字、第二文字的像素距离,根据所述像素距离确定待定文字分别与第一文字、第二文字的相邻性,基于文字语义确定所述待定文字分别与第一文字、第二文字的关联性,根据所述相邻性与关联性得到待定文字分别与第一文字、第二文字的连通性;将具有连通性的文字进行标记,根据文字的标记对具有相同标记的文字进行聚合,得到聚合后的文字分段,根据所述文字分段确定图像中的文字的段落边界。
所述计算机可读存储介质提供了一种识别图像中文字的段落边界的方法,在获取图像后,识别所述图像,先将图像中的每一个文字都作为单独存在的对象进行分割,得到图像中每一个文字的位置分布,再对分割后的文字进行位置标记,得到图像中的每一个文字的位置信息,所述位置信息可以表征一个文字处于另一个文字的方位,再选定任一文字作为待定文字,以及获取与所述待定文字相邻的左边的第一文字、相邻的上边的第二文字,计算所述待定文字与第一文字、第二文字的像素距离,根根据所述像素距离确定待定文字与第一文字、第二文字的相邻性,再基于文字语义确定所述待定文字与第一文字、第二文字的关联性,根据所述相邻性与关联性得到待定文字与第一文字、第二文字的连通性,将具有连通性的文字进行标记,根据文字的标记对文字进行聚合,确定图像中的文字的分段,可以清楚地确定图像中文字的段落边界,通过距离识别与语义识别的结合提高图像中文字的段落边界识别的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。
非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围。
凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (8)
1.一种图像中文字的段落边界的识别方法,其特征在于,包括:
识别获取的图像,以将所述图像中的文字进行分割;
对分割后的所述文字进行位置标记,得到图像中的每一个文字的位置信息;
根据所述位置信息依次选取图像的任一文字作为待定文字,以及获取与所述待定文字相邻的左边的第一文字、相邻的上边的第二文字;
计算所述待定文字分别与第一文字、第二文字的像素距离,根据所述像素距离确定待定文字分别与第一文字、第二文字的相邻性,基于文字语义确定所述待定文字分别与第一文字、第二文字的关联性,根据所述相邻性与关联性得到待定文字分别与第一文字、第二文字的连通性;其中,若所述待定文字与所述第二文字的像素距离大于设定值,则所述待定文字与所述第二文字不在一个段落中;
将具有连通性的文字进行标记,根据文字的标记对具有相同标记的文字进行聚合,得到聚合后的文字分段,根据所述文字分段确定图像中的文字的段落边界;
所述对所述文字进行位置标记,得到图像中的每一个文字的位置信息之后,还包括:
根据所述位置信息获取图像中的第一行文字,对所述第一行文字以第一预设标号进行位置标记;
根据所述位置信息获取图像中的每一行文字的第一个文字,对所述每一行文字的第一个文字以第二预设标号进行位置标记;
所述根据所述位置信息依次选取图像的任一文字作为待定文字,包括:
根据所述位置信息获取图像中的每一行文字的第一个文字,将所述每一行文字的第一个文字作为第一次选取的待定文字;
根据所述位置信息的顺序从每一行的剩余文字依次选取一个文字作为第二次选取的待定文字,直至完成每一行所有文字的选取。
2.根据权利要求1所述的图像中文字的段落边界的识别方法,其特征在于,计算所述待定文字分别与第一文字、第二文字的像素距离,根据所述像素距离确定待定文字分别与第一文字、第二文字的相邻性,包括:
获取所述待定文字分别与第一文字、第二文字的像素距离;
将所述像素距离按照预设的比例进行缩放,得到缩放后的待定文字与第一文字的第一像素距离以及待定文字与第二文字的第二像素距离;
若所述第一像素距离小于预设值,确定所述待定文字与第一文字具有相邻性;
若所述第二像素距离小于预设值,确定所述待定文字与第二文字具有相邻性。
3.根据权利要求1所述的图像中文字的段落边界的识别方法,其特征在于,所述将具有连通性的文字进行标记,包括:
当所述待定文字与第一文字具有连通性,将所述待定文字与第一文字以相同的标号进行标记;
当所述待定文字与第二文字具有连通性,将所述待定文字与第二文字以相同的标号进行标记;
当所述待定文字与第一文字、第二文字均具有连通性,将所述待定文字、第一文字以及第二文字均以相同的标号进行标记。
4.根据权利要求1所述的图像中文字的段落边界的识别方法,其特征在于,所述识别获取的图像,以将所述图像中的文字进行分割,包括:
识别所述图像存在的文字;
获取预设的分割框,将所述分割框覆盖在每一个所述文字上,以对所述图像中的文字进行分割;所述分割框为能覆盖每一个所述文字的最小面积的矩形。
5.根据权利要求1所述的图像中文字的段落边界的识别方法,其特征在于,所述根据所述文字分段确定图像中的文字的段落边界之后,还包括:
生成所述段落边界的框线;
将所述段落边界的框线叠加在所述图像的上方。
6.一种图像中文字的段落边界的识别装置,其特征在于,包括:
图像分割模块:用于识别获取的图像,以将所述图像中的文字进行分割;
位置标记模块:对分割后的所述文字进行位置标记,得到图像中的每一个文字的位置信息;
文字选取模块:用于根据所述位置信息依次选取图像的任一文字作为待定文字,以及获取与所述待定文字相邻的左边的第一文字、相邻的上边的第二文字;
连通性模块:用于计算所述待定文字分别与第一文字、第二文字的像素距离,根据所述像素距离确定待定文字分别与第一文字、第二文字的相邻性,基于文字语义确定所述待定文字分别与第一文字、第二文字的关联性,根据所述相邻性与关联性得到待定文字分别与第一文字、第二文字的连通性;其中,若所述待定文字与所述第二文字的像素距离大于设定值,则所述待定文字与所述第二文字不在一个段落中;
段落确定模块:用于将具有连通性的文字进行标记,根据文字的标记对具有相同标记的文字进行聚合,得到聚合后的文字分段,根据所述文字分段确定图像中的文字的段落边界;
所述位置标记模块还包括执行:
根据所述位置信息获取图像中的第一行文字,对所述第一行文字以第一预设标号进行位置标记;
根据所述位置信息获取图像中的每一行文字的第一个文字,对所述每一行文字的第一个文字以第二预设标号进行位置标记;
所述文字选取模块还包括执行:
根据所述位置信息获取图像中的每一行文字的第一个文字,将所述每一行文字的第一个文字作为第一次选取的待定文字;
根据所述位置信息的顺序从每一行的剩余文字依次选取一个文字作为第二次选取的待定文字,直至完成每一行所有文字的选取。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述图像中文字的段落边界的识别方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述图像中文字的段落边界的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110587696.2A CN113177532B (zh) | 2021-05-27 | 2021-05-27 | 图像中文字的段落边界的识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110587696.2A CN113177532B (zh) | 2021-05-27 | 2021-05-27 | 图像中文字的段落边界的识别方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113177532A CN113177532A (zh) | 2021-07-27 |
CN113177532B true CN113177532B (zh) | 2024-04-05 |
Family
ID=76927543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110587696.2A Active CN113177532B (zh) | 2021-05-27 | 2021-05-27 | 图像中文字的段落边界的识别方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113177532B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245570A (zh) * | 2019-05-20 | 2019-09-17 | 平安科技(深圳)有限公司 | 扫描文本分段方法、装置、计算机设备和存储介质 |
US10467466B1 (en) * | 2019-05-17 | 2019-11-05 | NextVPU (Shanghai) Co., Ltd. | Layout analysis on image |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9098471B2 (en) * | 2011-12-29 | 2015-08-04 | Chegg, Inc. | Document content reconstruction |
-
2021
- 2021-05-27 CN CN202110587696.2A patent/CN113177532B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10467466B1 (en) * | 2019-05-17 | 2019-11-05 | NextVPU (Shanghai) Co., Ltd. | Layout analysis on image |
CN110245570A (zh) * | 2019-05-20 | 2019-09-17 | 平安科技(深圳)有限公司 | 扫描文本分段方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113177532A (zh) | 2021-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110390269B (zh) | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 | |
CN110348294B (zh) | Pdf文档中图表的定位方法、装置及计算机设备 | |
CN110569830B (zh) | 多语言文本识别方法、装置、计算机设备及存储介质 | |
CN109492643B (zh) | 基于ocr的证件识别方法、装置、计算机设备及存储介质 | |
CN110956171A (zh) | 铭牌自动识别方法、装置、计算机设备和存储介质 | |
CN110443239B (zh) | 文字图像的识别方法及其装置 | |
CN111428723B (zh) | 字符识别方法及装置、电子设备、存储介质 | |
CN107688789B (zh) | 文档图表抽取方法、电子设备及计算机可读存储介质 | |
WO2019169772A1 (zh) | 图片处理方法、电子装置及存储介质 | |
CN110866495A (zh) | 票据图像识别方法及装置和设备、训练方法和存储介质 | |
CN109685059B (zh) | 文字图像标注方法、装置及计算机可读存储介质 | |
CN110197238B (zh) | 一种字体类别的识别方法、系统及终端设备 | |
CN112926564B (zh) | 图片分析方法、系统、计算机设备和计算机可读存储介质 | |
CN111310426A (zh) | 基于ocr的表格版式恢复方法、装置及存储介质 | |
CN111368632A (zh) | 一种签名识别方法及设备 | |
CN113869017A (zh) | 基于人工智能的表格图像重构方法、装置、设备及介质 | |
CN117670884B (zh) | 图像标注方法、装置、设备及存储介质 | |
CN113538291B (zh) | 卡证图像倾斜校正方法、装置、计算机设备和存储介质 | |
CN113255668B (zh) | 文本识别方法、装置、电子设备、存储介质 | |
CN113177532B (zh) | 图像中文字的段落边界的识别方法、装置、设备及介质 | |
CN110909733A (zh) | 基于ocr图片识别的模版定位方法、装置和计算机设备 | |
CN110895849A (zh) | 冠字号切割定位方法、装置、计算机设备及存储介质 | |
CN115909449A (zh) | 文件处理方法、装置、电子设备、存储介质及程序产品 | |
CN115100663A (zh) | 文档图像中文字高度的分布情况估计方法及装置 | |
CN115294557A (zh) | 图像处理方法、图像处理装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |