CN116740746A - 文本识别方法、装置、计算机设备及存储介质 - Google Patents
文本识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN116740746A CN116740746A CN202310719467.0A CN202310719467A CN116740746A CN 116740746 A CN116740746 A CN 116740746A CN 202310719467 A CN202310719467 A CN 202310719467A CN 116740746 A CN116740746 A CN 116740746A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- recognized
- identified
- image text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 64
- 238000012015 optical character recognition Methods 0.000 claims abstract description 37
- 238000002372 labelling Methods 0.000 claims description 44
- 238000004590 computer program Methods 0.000 claims description 15
- 230000007797 corrosion Effects 0.000 claims description 11
- 238000005260 corrosion Methods 0.000 claims description 11
- 230000000875 corresponding effect Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000010339 dilation Effects 0.000 description 3
- 230000003628 erosive effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19013—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19153—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
Abstract
本发明涉及一种文本识别方法、装置、计算机设备及存储介质,方法包括:对待识别图像文本进行OCR处理,以得到待识别图像文本的文本块集合;利用待识别图像文本的文本块集合生成待识别图像文本的周围信息集合;将待识别图像文本的周围信息集合与已保存的模板的周围信息进行对比,以确定出待识别图像文本所属的模板类型;根据确定出的模板类型从待识别图像文本中提取出业务所需字段。本发明能够精确的识别出待识别图像文本的类型,并且在对比时,通过比较周围信息来匹配关键信息可以有更好的鲁棒性,从而为位置不是固定不变的的定制化的识别需求提供了解决方式。
Description
技术领域
本发明涉及计算机技术领域,更具体地说是文本识别方法、装置、计算机设备及存储介质。
背景技术
实际生产环境中有这样一种情景:从待识别图片中获取所需的文本信息。例如从一张身份证正面的照片获取身份证号,从机票的照片里获取航班,起飞时间等等。对于从身份证照片获取身份证号这样的问题,已经有很成熟的解决方案,例如,在填写个人信息的时候,上传身份证照片后,身份证信息填写那一栏被自动填充了。这就是服务端根据上传的身份证照片做了一个信息提取的处理。
虽然从身份证照片获取身份证号是一件很容易的事情,但是从任意图片获取任意关键信息却是一件非常困难的事情。究其原因是在身份证照片中各文本内容的位置是固定不变的,也即需要提取的字段的坐标是固定的,其识别的机制是:通过OCR识别技术对待识别身份证进行处理,得到文本块,然后再将需要提取的字段的坐标位置的文本块的文本内容识别出来即可,这种识别类型前提是知道属于身份证的类型,而且文本内容的位置是固定不变。
而在实际生活中具有各种各样的定制化的需求,例如,前提不知道输入的待识别图片属于哪种类型,而且对于属于同一类型的待识别图片其文本内容的位置不是固定不变的(文本内容可能有些许平移,旋转,放大缩小等情况),因此,对于这种需求目前没有比较可靠的识别手段。
发明内容
本发明的目的在于克服现有技术的不足,提供文本识别方法、装置、计算机设备及存储介质,旨在为前提不知道输入的待识别图片属于哪种类型,而且对于属于同一类型的待识别图片其文本内容的位置不是固定不变的的定制化的识别需求提供可靠的识别手段。
为实现上述目的,本发明采用以下技术方案:
第一方面,文本识别方法,包括:
获取待识别图像文本;
对待识别图像文本进行OCR处理,以得到待识别图像文本的文本块集合;
利用待识别图像文本的文本块集合生成待识别图像文本的周围信息集合;
将待识别图像文本的周围信息集合与已保存的模板的周围信息进行对比,以确定出待识别图像文本所属的模板类型;
根据确定出的模板类型从待识别图像文本中提取出业务所需字段。
基于第一方面,进一步技术方案为:所述利用待识别图像文本的文本块集合生成待识别图像文本的周围信息集合,包括:
获取各文本块组合单元相邻的若干个文本块,所述文本块组合单元由至少一个文本块组成;
计算各文本块组合单元与其相邻的若干个文本块的距离和角度,以得到各文本块组合单元的相对距离和相对角度信息;
将各文本块组合单元的相对距离和相对角度信息与各文本块组合单元的文本内容进行关联后并保存。
基于第一方面,进一步技术方案为:所述将待识别图像文本的周围信息集合与已保存的模板的周围信息进行对比,以确定出待识别图像文本所属的模板类型,包括:
遍历待识别图像文本的周围信息集合;
判断待识别图像文本的周围信息集合中是否存在与某一已保存的模板的周围信息的相似度达到预设值;
若是,则判定待识别图像文本属于与其相似度达到预设值的所对应的模板类型。
基于第一方面,进一步技术方案为:所述对待识别图像文本进行OCR处理,以得到待识别图像文本的文本块集合之前,还包括:
对待识别图像文本进行表格识别处理,以去除待识别图像文本中的表格框线。
基于第一方面,进一步技术方案为:所述对待识别图像文本进行表格识别处理,以去除待识别图像文本中的表格框线,包括:
利用卷积核矩阵对待识别图像文本进行像素腐蚀处理;
对像素腐蚀处理后的图像进行像素膨胀处理;
计算像素膨胀处理后的图像中水平线和垂直线的交集,以得到包含表格边界所有交点的二进制图像;
从包含表格边界所有交点的二进制图像查找出表格中每个单元格的四个顶点坐标;
根据每个单元格的四个顶点坐标去除表格中所有框线。
基于第一方面,进一步技术方案为:所述获取待识别图像文本之前,包括:
根据需求进行模板标注。
基于第一方面,进一步技术方案为:所述根据需求进行模板标注,包括:
从经过OCR处理的模板内容中选取第一标注区域和第二标注区域,所述第一标注区域为模板的至少部分不变量字段,第二标注区域为模板的至少部分变量字段;
生成第一标注区域和第二标注区域的周围信息集合并保存。
第二方面,文本识别装置,包括获取单元、OCR处理单元、周围信息生成单元、对比单元以及文本内容提取单元;
所述获取单元,用于获取待识别图像文本;
所述OCR处理单元,用于对待识别图像文本进行OCR处理,以得到待识别图像文本的文本块集合;
所述周围信息生成单元,用于利用待识别图像文本的文本块集合生成待识别图像文本的周围信息集合;
所述对比单元,用于将待识别图像文本的周围信息集合与已保存的模板的周围信息进行对比,以确定出待识别图像文本所属的模板类型;
所述文本内容提取单元,用于根据确定出的模板类型从待识别图像文本中提取出业务所需字段。
第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的文本识别方法。
第四方面,一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,使得所述处理器执行如上述的文本识别方法。
本发明与现有技术相比的有益效果是:对待识别图像文本进行OCR处理,以得到待识别图像文本的文本块集合;利用待识别图像文本的文本块集合生成待识别图像文本的周围信息集合;将待识别图像文本的周围信息集合与已保存的模板的周围信息进行对比,以确定出待识别图像文本所属的模板类型;根据确定出的模板类型从待识别图像文本中提取出业务所需字段。通过基于周围信息的对比,首先判断出待识别图像文本属于哪种模板类型,然后提取出业务所需字段,能够精确的识别出待识别图像文本的类型,并且在对比时,比较的是周围信息,即使待识别图像文本中的文本内容位置不是固定的,但周围的内容是比较固定的,比较周围信息来匹配关键信息可以有更好的鲁棒性,从而为位置不是固定不变的的定制化的识别需求提供了解决方式。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明技术手段,可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的特征及优点能够更明显易懂,以下特举较佳实施例,详细说明如下。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明具体实施例提供的文本识别方法的流程图;
图2为本发明具体实施例提供的文本识别装置的示意性框图;
图3为本发明具体实施例提供的一种计算机设备的示意性框图;
图4为本发明具体实施例中具体应用场景时的示例图一;
图5为本发明具体实施例中具体应用场景时的示例图二;
图6为本发明具体实施例中具体应用场景时的示例图三。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本发明实施例提供了一种文本识别方法,该方法旨在为前提不知道输入的待识别图片属于哪种类型,而且对于属于同一类型的待识别图片其文本内容的位置不是固定不变的定制化的识别需求提供可靠的识别手段。在介绍本发明之前,首先介绍一下目前的图像文本的识别的机制具体为何不适用上述所说的定制化的识别需求。
图4为用来预先标注的模板文件,对其标注了两个框,即“Intel”位置为第一标注框,该标注框标记的不变量字段,目的是用来确定模板的类型,“4567”位置第二标注框,该标注框标记的变量字段,目的是用来确定所需字段在哪个坐标位置去提取,标注完成后会保存标注位置的坐标信息,并存储在模板目录中。
图5为待识别的图像文件,该图像文件与图4模板文件的文本内容的位置是固定不变的(即文本内容不存在些许平移,旋转,放大缩小等情况),可以发现,对图5的图像文件识别中,首先图5中“Intel”位置的坐标与图4的“Intel”位置的坐标是重合的,因此可以确定出待识别的图像文件属于与图4同一种模板类型,确定好属于哪种模板类型后,便根据以图4保存的第二标注框的坐标信息去图5查询所需字段,显然,图5中“4567”位置的坐标与图4的“4567”位置的坐标是重合的,从而可以精确的获取到所需字段内容,即“4567”。
从图4和图5可知,对于文本内容的位置固定不变的场景,目前的识别机制是可以准确识别出所需字段的。
图6为另一个待识别的图像文件,图6的图像文件与图5的差异在于,文本内容整体发生了偏移(即是文本内容的位置非固定的情况),在这种情形下,导致ocr输出的文本框无法与相应模板(即图4)的重合,导致无法识别出图6属于哪种模板类型,以及所需字段。
通过上面的介绍,明白了目前的图像文本的识别的机制具体为何不适用上述所说的定制化的识别需求,下面通过具体实施例来介绍本发明。
如图1所示,一种文本识别方法,包括以下步骤:
S10、获取待识别图像文本。
待识别图像文本可以是合同、收据、发票、车票、协议、面单等,待识别图像文本上会包含票据类型、票据日期、票据编号等各种信息。
待识别图像文本的内容一般包括了不变量字段和变量字段,同一种类型的不同票据,其不变量字段都是相同,例如,银行的转账电子回单,其中,日期、户名以及金额等,这些都是不变量字段,而同一种类型的不同票据,其变量字段有可能部分是不同的,例如,具体日期是多少、户名具体叫什么名字,以及金额具体是多少,这些内容则是变量字段。
S20、对待识别图像文本进行OCR处理,以得到待识别图像文本的文本块集合。
OCR(OpticalCharacterRecognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。OCR技术被广泛应用在手写识别、打印识别及文本图像识别等相关领域。小到文档识别、银行卡身份证识别,大到广告、海报,极大简化了处理数据的方式。
OCR技术目前已经是成熟的技术,其具体的识别流程在此不再赘述,待识别图像文本通过OCR处理后,会得到待识别图像文本的文本块集合,文本块集合由若干个文本块组成而成,每个文本块均包括了文本内容和文本内容的坐标信息。假设每个文本块以二元组(text,pos)表示,text是文本内容,pos是文本内容的坐标。
S30、利用待识别图像文本的文本块集合生成待识别图像文本的周围信息集合。
在一实施例中,步骤S30具体包括以下步骤:S301-S303。
S301、获取各文本块组合单元相邻的若干个文本块,文本块组合单元由至少一个文本块组成。
当文本块组合单元由只有一个文本块组成时,是围绕一个文本块来建立周围信息,当文本块组合单元由两个以上的文本块组成时,则是围绕两个以上的文本块组合形成的一个整体(也可以理解成为一个组合后的文本块)来建立周围信息。
S302、计算各文本块组合单元与其相邻的若干个文本块的距离和角度,以得到各文本块组合单元的相对距离和相对角度信息。
通过OCR识别出的文本块之间是没有建立关联信息的,每个文本块相对于是独立。因此,通过计算各文本块组合单元与其相邻的若干个文本块的距离和角度,可以使各文本块组合单元与其周围相邻的文本块建立联系,建立联系之后,即使文本内容存在些许平移,旋转,放大缩小等情况,也不会出现文本内容识别不到的情况。
S303、将各文本块组合单元的相对距离和相对角度信息与各文本块组合单元的文本内容进行关联后并保存。
对于文本块经过周围信息处理后,文本块是以三元组(text,distance,angle)形式存在的,text是文本块的文本内容,distance是与相邻的若干个文本块的距离,angle是与相邻的若干个文本块的角度。
S40、将待识别图像文本的周围信息集合与已保存的模板的周围信息进行对比,以确定出待识别图像文本所属的模板类型。
通过比较已保存的模板模板周围信息某个文本块和待识别图像文本周围信息某个文本块时,主要是比较它们周围的文本块相对于它们的距离,角度,以及文本内容相似度。文本相似度由两个文本块的编辑距离,最大公共子序列,最大公共子串加权所得。最终的相似性得分又由文本相似度乘以一个随着距离差和角度差增大而衰减的函数,得出最后的相似性得分。
在一实施例中,步骤S40具体包括以下步骤:S401-S403。
S401、遍历待识别图像文本的周围信息集合;
S402、判断待识别图像文本的周围信息集合中是否存在与某一已保存的模板的周围信息的相似度达到预设值;
S403、若是,则判定待识别图像文本属于与其相似度达到预设值的所对应的模板类型。
对于步骤S401-S403,通过基于周围信息确定出待识别图像文本属于哪种模板类型之后,便于提取出业务所需字段。
S50、根据确定出的模板类型从待识别图像文本中提取出业务所需字段。
由于不同的模板所需要提取的业务所需字段是不同的,因此,当知道待识别图像文本属于是哪一种模板类型后,便清楚了需要清楚了业务所需字段,又由于各文本块是通过周围信息约束的,因此可以准确提取出模板所对应的业务所需字段。
在一实施例中,步骤S20之前,还包括以下步骤:S15。
S15、对待识别图像文本进行表格识别处理,以去除待识别图像文本中的表格框线。
由于需要识别的图像文本可能具有表格,因此,需要对表格预先进行处理,处理完成后再进行后续的OCR处理,以避免表格的框线对OCR处理造成影响。
在一实施例中,步骤S15具体包括以下步骤:S151-S155。
S151、利用卷积核矩阵对待识别图像文本进行像素腐蚀处理。
S152、对像素腐蚀处理后的图像进行像素膨胀处理。
S153、计算像素膨胀处理后的图像中水平线和垂直线的交集,以得到包含表格边界所有交点的二进制图像。
S154、从包含表格边界所有交点的二进制图像查找出表格中每个单元格的四个顶点坐标。
S155、根据每个单元格的四个顶点坐标去除表格中所有框线。
对于S151-S155,在本实施例中,利用ver和hor卷积核分别用于检测表格的垂直边缘和水平边缘,这些卷积核的维数取决于输入图像的大小。对于较小的图像(高度小于1000像素),使用较小的卷积核,而对于较大的图像,则使用较大的卷积核。具体地,将ver作为卷积核矩阵,对待识别图像文本进行erode()腐蚀操作。该操作沿着垂直方向侵蚀掉像素,有效减小图像中的水平线厚度。然后,将剩余像素沿着垂直方向进行dilate()膨胀操作,使用ver作为卷积核矩阵,这一操作增强了图像中剩余的垂直线。同样的过程也针对水平线,使用hor作为卷积核矩阵来检测水平线。再计算经过像素腐蚀处理和像素膨胀处理后的图像中水平线和垂直线的交集,即将两个二进制图像进行按位与(bitwise_and)操作,输出一个新的二进制图像,其中只有在两个输入图像都具有非零值(白色像素)的位置上才具有非零值。这样就得到了一个包含表格边界所有交点的二进制图像。通过这个交点图像,可以方便地找到表格每个单元格的四个顶点坐标,从而进一步进行表格识别、提取和处理等操作。
在一实施例中,步骤S10之前,包括以下步骤:S5。
S5、根据需求进行模板标注。
在一实施例中,步骤S5具体包括以下步骤:S6-S7。
S6、从经过OCR处理的模板内容中选取第一标注区域和第二标注区域,第一标注区域为模板的至少部分不变量字段,第二标注区域为模板的至少部分变量字段。
上文已描述不变量字段和变量字段的区别和含义,在此不再赘述,第一标注区域所选取不变量字段可根据实际情况决定,一般而言,可以选取最能反映模板类型的不变量字段。第一标注区域所选取变量字段可根据业务需求来决定。
S7、生成第一标注区域和第二标注区域的周围信息集合并保存。
通过基于周围信息来建立了第一标注区域和第二标注区域以及与其它文本块的关联,从而利于对比阶段的处理。
本发明通过基于周围信息的对比,首先判断出待识别图像文本属于哪种模板类型,然后提取出业务所需字段,能够精确的识别出待识别图像文本的类型,并且在对比时,比较的是周围信息,即使待识别图像文本中的文本内容位置不是固定的,但周围的内容是比较固定的,比较周围信息来匹配关键信息可以有更好的鲁棒性,从而为位置不是固定不变的的定制化的识别需求提供了解决方式。
图2为本发明实施例提供的文本识别装置的示意性框图;对应于上述的文本识别方法,本发明实施例还提供了一种文本识别装置100。
如图2所示,文本识别装置100,包括获取单元110、OCR处理单元120、周围信息生成单元130、对比单元140以及文本内容提取单元150。其中,获取单元110,用于获取待识别图像文本。OCR处理单元120,用于对待识别图像文本进行OCR处理,以得到待识别图像文本的文本块集合。周围信息生成单元130,用于利用待识别图像文本的文本块集合生成待识别图像文本的周围信息集合。对比单元140,用于将待识别图像文本的周围信息集合与已保存的模板的周围信息进行对比,以确定出待识别图像文本所属的模板类型。文本内容提取单元150,用于根据确定出的模板类型从待识别图像文本中提取出业务所需字段。
在一实施例中,周围信息生成单元130包括获取模块、第一计算模块以及关联保存模块。其中,获取模块,用于获取各文本块组合单元相邻的若干个文本块,所述文本块组合单元由至少一个文本块组成。第一计算模块,用于计算各文本块组合单元与其相邻的若干个文本块的距离和角度,以得到各文本块组合单元的相对距离和相对角度信息。关联保存模块,用于将各文本块组合单元的相对距离和相对角度信息与各文本块组合单元的文本内容进行关联后并保存。
在一实施例中,对比单元140包括遍历模块、判断模块以及判定模块。其中,遍历模块,用于遍历待识别图像文本的周围信息集合。判断模块,用于判断待识别图像文本的周围信息集合中是否存在与某一已保存的模板的周围信息的相似度达到预设值。判定模块,用于若是,则判定待识别图像文本属于与其相似度达到预设值的所对应的模板类型。
在一实施例中,文本识别装置100还包括表格处理单元,用于对待识别图像文本进行表格识别处理,以去除待识别图像文本中的表格框线。
在一实施例中,表格处理单元包括像素腐蚀处理模块、像素膨胀处理模块、第二计算模块、查找模块以及去除模块。像素腐蚀处理模块,用于利用卷积核矩阵对待识别图像文本进行像素腐蚀处理。像素膨胀处理模块,用于对像素腐蚀处理后的图像进行像素膨胀处理。第二计算模块,用于计算像素膨胀处理后的图像中水平线和垂直线的交集,以得到包含表格边界所有交点的二进制图像。查找模块,用于从包含表格边界所有交点的二进制图像查找出表格中每个单元格的四个顶点坐标。去除模块,用于根据每个单元格的四个顶点坐标去除表格中所有框线。
在一实施例中,文本识别装置100还包括模板标注单元,用于根据需求进行模板标注。
在一实施例中,模板标注单元包括选取模块以及生成模块。其中,选取模块,用于从经过OCR处理的模板内容中选取第一标注区域和第二标注区域,所述第一标注区域为模板的至少部分不变量字段,第二标注区域为模板的至少部分变量字段。生成模块,用于生成第一标注区域和第二标注区域的周围信息集合并保存。
上述文本识别方法可以实现为计算机程序的形式,该计算机程序可以在如图3所示的计算机设备上运行。
请参阅图3,图3是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备700可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
如图3所示,该计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述的文本识别方法步骤。
该计算机设备700可以是终端或服务器。该计算机设备700包括通过系统总线710连接的处理器720、存储器和网络接口750,其中,存储器可以包括非易失性存储介质730和内存储器740。
该非易失性存储介质730可存储操作系统731和计算机程序732。该计算机程序732被执行时,可使得处理器720执行任意一种文本识别方法。
该处理器720用于提供计算和控制能力,支撑整个计算机设备700的运行。
该内存储器740为非易失性存储介质730中的计算机程序732的运行提供环境,该计算机程序732被处理器720执行时,可使得处理器720执行任意一种文本识别方法。
该网络接口750用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备700的限定,具体的计算机设备700可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。其中,所述处理器720用于运行存储在存储器中的程序代码,以实现以下步骤:
文本识别方法,包括:
获取待识别图像文本;
对待识别图像文本进行OCR处理,以得到待识别图像文本的文本块集合;
利用待识别图像文本的文本块集合生成待识别图像文本的周围信息集合;
将待识别图像文本的周围信息集合与已保存的模板的周围信息进行对比,以确定出待识别图像文本所属的模板类型;
根据确定出的模板类型从待识别图像文本中提取出业务所需字段。
在一实施例中:所述利用待识别图像文本的文本块集合生成待识别图像文本的周围信息集合,包括:
获取各文本块组合单元相邻的若干个文本块,所述文本块组合单元由至少一个文本块组成;
计算各文本块组合单元与其相邻的若干个文本块的距离和角度,以得到各文本块组合单元的相对距离和相对角度信息;
将各文本块组合单元的相对距离和相对角度信息与各文本块组合单元的文本内容进行关联后并保存。
在一实施例中:所述将待识别图像文本的周围信息集合与已保存的模板的周围信息进行对比,以确定出待识别图像文本所属的模板类型,包括:
遍历待识别图像文本的周围信息集合;
判断待识别图像文本的周围信息集合中是否存在与某一已保存的模板的周围信息的相似度达到预设值;
若是,则判定待识别图像文本属于与其相似度达到预设值的所对应的模板类型。
在一实施例中:所述对待识别图像文本进行OCR处理,以得到待识别图像文本的文本块集合之前,还包括:
对待识别图像文本进行表格识别处理,以去除待识别图像文本中的表格框线。
在一实施例中:所述对待识别图像文本进行表格识别处理,以去除待识别图像文本中的表格框线,包括:
利用卷积核矩阵对待识别图像文本进行像素腐蚀处理;
对像素腐蚀处理后的图像进行像素膨胀处理;
计算像素膨胀处理后的图像中水平线和垂直线的交集,以得到包含表格边界所有交点的二进制图像;
从包含表格边界所有交点的二进制图像查找出表格中每个单元格的四个顶点坐标;
根据每个单元格的四个顶点坐标去除表格中所有框线。
在一实施例中:所述获取待识别图像文本之前,包括:
根据需求进行模板标注。
在一实施例中:所述根据需求进行模板标注,包括:
从经过OCR处理的模板内容中选取第一标注区域和第二标注区域,所述第一标注区域为模板的至少部分不变量字段,第二标注区域为模板的至少部分变量字段;
生成第一标注区域和第二标注区域的周围信息集合并保存。
应当理解,在本申请实施例中,处理器720可以是中央处理单元(CentralProcessingUnit,CPU),该处理器720还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域技术人员可以理解,图3中示出的计算机设备700结构并不构成对计算机设备700的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
在本发明的另一实施例中提供了一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的文本识别方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.文本识别方法,其特征在于,包括:
获取待识别图像文本;
对待识别图像文本进行OCR处理,以得到待识别图像文本的文本块集合;
利用待识别图像文本的文本块集合生成待识别图像文本的周围信息集合;
将待识别图像文本的周围信息集合与已保存的模板的周围信息进行对比,以确定出待识别图像文本所属的模板类型;
根据确定出的模板类型从待识别图像文本中提取出业务所需字段。
2.根据权利要求1所述的文本识别方法,其特征在于,所述利用待识别图像文本的文本块集合生成待识别图像文本的周围信息集合,包括:
获取各文本块组合单元相邻的若干个文本块,所述文本块组合单元由至少一个文本块组成;
计算各文本块组合单元与其相邻的若干个文本块的距离和角度,以得到各文本块组合单元的相对距离和相对角度信息;
将各文本块组合单元的相对距离和相对角度信息与各文本块组合单元的文本内容进行关联后并保存。
3.根据权利要求1所述的文本识别方法,其特征在于,所述将待识别图像文本的周围信息集合与已保存的模板的周围信息进行对比,以确定出待识别图像文本所属的模板类型,包括:
遍历待识别图像文本的周围信息集合;
判断待识别图像文本的周围信息集合中是否存在与某一已保存的模板的周围信息的相似度达到预设值;
若是,则判定待识别图像文本属于与其相似度达到预设值的所对应的模板类型。
4.根据权利要求1所述的文本识别方法,其特征在于,所述对待识别图像文本进行OCR处理,以得到待识别图像文本的文本块集合之前,还包括:
对待识别图像文本进行表格识别处理,以去除待识别图像文本中的表格框线。
5.根据权利要求4所述的文本识别方法,其特征在于,所述对待识别图像文本进行表格识别处理,以去除待识别图像文本中的表格框线,包括:
利用卷积核矩阵对待识别图像文本进行像素腐蚀处理;
对像素腐蚀处理后的图像进行像素膨胀处理;
计算像素膨胀处理后的图像中水平线和垂直线的交集,以得到包含表格边界所有交点的二进制图像;
从包含表格边界所有交点的二进制图像查找出表格中每个单元格的四个顶点坐标;
根据每个单元格的四个顶点坐标去除表格中所有框线。
6.根据权利要求1所述的文本识别方法,其特征在于,所述获取待识别图像文本之前,包括:
根据需求进行模板标注。
7.根据权利要求6所述的文本识别方法,其特征在于,所述根据需求进行模板标注,包括:
从经过OCR处理的模板内容中选取第一标注区域和第二标注区域,所述第一标注区域为模板的至少部分不变量字段,第二标注区域为模板的至少部分变量字段;
生成第一标注区域和第二标注区域的周围信息集合并保存。
8.文本识别装置,其特征在于,包括获取单元、OCR处理单元、周围信息生成单元、对比单元以及文本内容提取单元;
所述获取单元,用于获取待识别图像文本;
所述OCR处理单元,用于对待识别图像文本进行OCR处理,以得到待识别图像文本的文本块集合;
所述周围信息生成单元,用于利用待识别图像文本的文本块集合生成待识别图像文本的周围信息集合;
所述对比单元,用于将待识别图像文本的周围信息集合与已保存的模板的周围信息进行对比,以确定出待识别图像文本所属的模板类型;
所述文本内容提取单元,用于根据确定出的模板类型从待识别图像文本中提取出业务所需字段。
9.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~7中任意一项所述的文本识别方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,使得所述处理器执行如权利要求1~7任意一项所述的文本识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310719467.0A CN116740746A (zh) | 2023-06-16 | 2023-06-16 | 文本识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310719467.0A CN116740746A (zh) | 2023-06-16 | 2023-06-16 | 文本识别方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116740746A true CN116740746A (zh) | 2023-09-12 |
Family
ID=87914669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310719467.0A Pending CN116740746A (zh) | 2023-06-16 | 2023-06-16 | 文本识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116740746A (zh) |
-
2023
- 2023-06-16 CN CN202310719467.0A patent/CN116740746A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI631514B (zh) | Method and system for marking recognition based on mobile terminal | |
CN112528863A (zh) | 表格结构的识别方法、装置、电子设备及存储介质 | |
US20190304066A1 (en) | Synthesis method of chinese printed character images and device thereof | |
CN108830133B (zh) | 合同影像图片的识别方法、电子装置及可读存储介质 | |
CN110807454B (zh) | 基于图像分割的文字定位方法、装置、设备及存储介质 | |
WO2023284502A1 (zh) | 图像处理方法、装置、设备和存储介质 | |
JP2017084336A (ja) | 画像化された文書からテキストを抽出する方法及び装置 | |
CN112699775A (zh) | 基于深度学习的证件识别方法、装置、设备及存储介质 | |
CN110647882A (zh) | 图像校正方法、装置、设备及存储介质 | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN112651953B (zh) | 图片相似度计算方法、装置、计算机设备及存储介质 | |
CN113901933B (zh) | 基于人工智能的电子发票信息抽取方法、装置及设备 | |
CN111680690A (zh) | 一种文字识别方法及装置 | |
CN113033543A (zh) | 曲形文本识别方法、装置、设备及介质 | |
CN111027545A (zh) | 卡证图片标志检测方法、装置、计算机设备及存储介质 | |
EP3786844A1 (en) | Image processing system, image processing method, and program | |
TW202006597A (zh) | 影像處理系統、影像處理方法及程式產品 | |
CN113537184A (zh) | Ocr模型训练方法、装置、计算机设备、存储介质 | |
CN111652205A (zh) | 基于深度学习的文本矫正方法、装置、设备和介质 | |
US20130050765A1 (en) | Method and apparatus for document authentication using image comparison on a block-by-block basis | |
CN115797942B (zh) | 一种宣传信息交互方法及系统 | |
CN116994269A (zh) | 一种图像文档中印章相似度比对方法及对比系统 | |
CN111079749A (zh) | 一种带姿态校正的端到端商品价签文字识别方法和系统 | |
CN116524503A (zh) | 多行文本行提取方法、装置、设备及可读存储介质 | |
CN116030472A (zh) | 文字坐标确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |