CN113723347A - 信息提取的方法、装置、电子设备及存储介质 - Google Patents
信息提取的方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113723347A CN113723347A CN202111056347.4A CN202111056347A CN113723347A CN 113723347 A CN113723347 A CN 113723347A CN 202111056347 A CN202111056347 A CN 202111056347A CN 113723347 A CN113723347 A CN 113723347A
- Authority
- CN
- China
- Prior art keywords
- text
- information
- image
- target
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 135
- 238000000034 method Methods 0.000 claims abstract description 56
- 238000013507 mapping Methods 0.000 claims abstract description 54
- 239000011159 matrix material Substances 0.000 claims abstract description 47
- 238000004891 communication Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Input (AREA)
Abstract
本公开涉及一种信息提取的方法、装置、电子设备及存储介质,上述方法包括:对待处理图像进行文本识别,得到上述待处理图像中的文本行的文本信息;根据上述文本信息,将上述待处理图像与模板图像进行匹配,得到映射关系矩阵;上述模板图像与上述待处理图像的版式相同;根据上述映射关系矩阵,在上述待处理图像中确定:与上述模板图像中预设的待识别区域相对应的目标识别区域;上述待识别区域涵盖选中属性字段且具有预留空间,上述目标识别区域涵盖与上述选中属性字段相对应的目标属性字段;以及对上述目标识别区域内的文本信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果。
Description
技术领域
本公开涉及版面识别技术领域,尤其涉及一种信息提取的方法、装置、电子设备及存储介质。
背景技术
随着电子化的发展和广泛应用,很多纸质版文件、证件、票据等以扫描件的方式实现电子化存储。文字识别技术可以实现将扫描件中含有文字的部分进行文字检测,并通过文字识别模型将图片中的文字识别成可编辑的文本信息。在一些应用场景中,例如针对图像中的文字包含用于表征属性信息的键和对应属性取值的参数信息的值构成的键-值对(Key-Value Pairs)的场景,需要通过进行版面分析和处理,来输出所需要的键-值对形式的结构化信息。例如在进行身份证、发票等的文字识别时,需要提取出属性,例如为性别,和对应的参数值:女;以发票类型为航空运输电子客票行程单为例,需要从电子扫描件中提取出票价金额和合计金额的值。
在实现本公开构思的过程中,发明人发现相关技术中至少存在如下技术问题:(1)在基于预设的规则,对文本内容进行所需要内容的提取时,较难建立一个具有完备规则的文字识别模型,并且如果需要提取的字段内容与其他内容很接近时,无法进行区分;(2)此外,在文件、证件或票据等属于机器打印项的部分(例如发票上的金额部分)出现错位时或者某个属性值包含有多行信息(例如身份证中的地址内容包含有多行信息)时,这种场景下,由于文本错位打印的位置非常随机,相关技术中的版面分析方法也无法实现信息的快速且高准确率的提取。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种信息提取的方法、装置、电子设备及存储介质。
第一方面,本公开的实施例提供了一种信息提取的方法。上述方法包括:对待处理图像进行文本识别,得到上述待处理图像中的文本行的文本信息;根据上述文本信息,将上述待处理图像与模板图像进行匹配,得到映射关系矩阵;上述模板图像与上述待处理图像的版式相同;根据上述映射关系矩阵,在上述待处理图像中确定:与上述模板图像中预设的待识别区域相对应的目标识别区域;上述待识别区域涵盖选中属性字段且具有预留空间,上述目标识别区域涵盖与上述选中属性字段相对应的目标属性字段;以及对上述目标识别区域内的文本信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果。
根据本公开的实施例,上述文本信息包括:文本位置信息和文本内容信息。其中,上述根据上述文本信息,将上述待处理图像与模板图像进行匹配,得到映射关系矩阵,包括:获取模板图像中固定字段的内容信息和位置信息;根据上述固定字段的内容信息,从上述待处理图像的文本行中筛选出文本内容信息与上述内容信息一致的锚点文本行;计算上述固定字段的位置信息映射至上述锚点文本行的文本位置信息的坐标变换关系,得到映射关系矩阵。
根据本公开的一实施例,上述获取模板图像中固定字段的内容信息和位置信息,包括:从预先设置好固定字段的模板图像中提取上述固定字段的内容信息和位置信息。或者,根据本公开的另一实施例,上述获取模板图像中固定字段的内容信息和位置信息,包括:接收在上述模板图像中设置固定字段的第一设置信息;在接收到上述第一设置信息的情况下,根据上述第一设置信息来提取上述模板图像中固定字段的内容信息和位置信息。
根据本公开的实施例,上述对上述目标识别区域内的文本信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果,包括:获取与上述目标识别区域具有位置重叠关系的候选文本行的文本信息;上述文本信息包括:文本位置信息和文本内容信息;以及根据上述候选文本行的文本位置信息和文本内容信息中的至少一种信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果。
根据本公开的一实施例,上述根据上述候选文本行的文本位置信息和文本内容信息中的至少一种信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果,包括:根据上述候选文本行的文本位置信息,计算上述候选文本行与上述目标识别区域的交叠率;确定最高交叠率对应的候选文本行的文本内容信息为参数信息提取结果。或者,根据本公开的另一实施例,上述根据上述候选文本行的文本位置信息和文本内容信息中的至少一种信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果,包括:根据上述候选文本行的文本内容信息,与上述目标属性字段的语义进行格式或数值范围至少一种的正则匹配,得到参数信息提取结果。或者,根据本公开的又一实施例,上述根据上述候选文本行的文本位置信息和文本内容信息中的至少一种信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果,包括:根据上述候选文本行的文本位置信息,计算上述候选文本行与上述目标识别区域的交叠率;根据上述候选文本行的文本内容信息,确定上述候选文本行与上述目标属性字段的语义之间的匹配度;对上述交叠率和上述匹配度进行加权计算,得到候选分值;确定最高候选分值对应的候选文本行的文本内容信息为参数信息提取结果。
根据本公开的实施例,在对上述目标识别区域内的文本信息进行提取之前,还包括:确定与上述目标识别区域具有位置重叠关系的候选文本行的清晰度是否满足预设要求;在上述候选文本行的清晰度不满足预设要求的情况下,对上述候选文本行进行图像处理,得到清晰度符合预设要求的候选文本行,以对上述清晰度符合预设要求的候选文本行的文本信息进行提取;或者,在上述候选文本行的清晰度不满足预设要求的情况下,基于识别能力与上述候选文本行的清晰度匹配的图像文本识别器或识别模块,对上述候选文本行进行文本信息识别,得到上述候选文本行的文本信息,以对上述候选文本行的文本信息进行提取。
根据本公开的实施例,在对待处理图像进行文本识别之前,还包括:在上述模板图像中预先设置待识别区域。其中,在一实施例中,在上述模板图像中预先设置待识别区域,包括:接收在上述模板图像中设置待识别区域的第二设置信息,上述第二设置信息包括:区域位置和区域大小;根据上述区域位置和区域大小,生成预设的待识别区域;或者,在另一实施例中,在上述模板图像中预先设置待识别区域,包括:接收在上述模板图像中设置待识别区域的第三设置信息,上述第三设置信息包括:上述待识别区域满足的覆盖条件为涵盖选中属性字段,选中属性字段的内容;根据上述选中属性字段的内容,确定上述选中属性字段所在的目标位置;基于上述覆盖条件,生成涵盖上述目标位置且具有预留空间的待识别区域,上述预留空间的大小和方位为系统预设值或根据用户的配置得到,以确保能够涵盖错位的目标参数信息或多行目标参数信息,上述目标参数信息为待处理图像中匹配于上述目标属性字段的信息。
根据本公开的实施例,在得到上述参数信息提取结果之后,还包括:对上述参数信息提取结果的完整性进行校验;在上述参数信息提取结果的完整性校验不通过的情况下,调整上述模板图像中待识别区域的大小,或者,发出调整上述模板图像中待识别区域的提示。其中,在上述待处理图像中确定:与上述模板图像中预设的待识别区域相对应的目标识别区域,包括:在上述待处理图像中确定:与上述模板图像中调整后的待识别区域相对应的目标识别区域。
根据本公开的实施例,上述方法还包括:在上述参数信息提取结果的完整性校验通过的情况下,对上述参数信息提取结果的合理性进行校验;在上述参数信息提取结果的合理性校验通过的情况下,将上述目标属性字段和上述参数信息提取结果以键-值对的形式进行结构化输出。
第二方面,本公开的实施例提供了一种用于信息提取的装置。上述装置包括:文本识别模块、映射关系矩阵确定模块、目标识别区域确定模块和信息提取模块。上述文本识别模块用于对待处理图像进行文本识别,得到上述待处理图像中的文本行的文本信息。上述映射关系矩阵确定模块用于根据上述文本信息,将上述待处理图像与模板图像进行匹配,得到映射关系矩阵;上述模板图像与上述待处理图像的版式相同。上述目标识别区域确定模块用于根据上述映射关系矩阵,在上述待处理图像中确定:与上述模板图像中预设的待识别区域相对应的目标识别区域。上述待识别区域涵盖选中属性字段且具有预留空间,上述目标识别区域涵盖与上述选中属性字段相对应的目标属性字段。上述信息提取模块用于对上述目标识别区域内的文本信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果。
第三方面,本公开的实施例提供了一种电子设备。上述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现如上所述的信息提取的方法。
第四方面,本公开的实施例提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的信息提取的方法。
本公开实施例提供的上述技术方案至少具有如下优点的部分或全部:
针对同一个版式下的模板图像和待处理图像,由于待识别区域涵盖需要获取参数信息的选中属性字段且具有预留空间,因此基于映射关系矩阵得到的目标识别区域,能够确保覆盖到与选中属性字段相对应的目标属性字段且具有预留空间,进而可以在该目标识别区域内进行与上述目标属性字段匹配的参数信息的提取;上述提取逻辑通过结合区域位置映射和相对小范围文本信息(与全部的文本行相比)的高精度提取,不仅能够提升信息提取的效率,并且可以提升信息提取的准确率,由于待识别区域具有预留空间,使得目标识别区域内进行信息提取得到的参数信息提取结果能够涵盖错位、多行等场景下需要获取的目标参数信息,实现在文本错位、文本具有多行信息等版面识别场景下的高效率和高准确率的信息提取。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了适用于本公开实施例的信息提取的方法和装置的系统架构;
图2A示意性地示出了根据本公开一实施例的信息提取的方法的流程图;
图2B示意性地示出了根据本公开一实施例的信息提取的方法的实施场景示意图;
图3示意性地示出了根据本公开实施例的操作S202的详细实施流程图;
图4示意性地示出了根据本公开实施例的操作S204的详细实施流程图;
图5A示意性地示出了根据本公开一实施例的操作S402的详细实施流程图;
图5B示意性地示出了根据本公开另一实施例的操作S402的详细实施流程图;
图5C示意性地示出了根据本公开又一实施例的操作S402的详细实施流程图;
图6示意性地示出了根据本公开另一实施例的信息提取的方法的流程图;
图7示意性地示出了根据本公开又一实施例的信息提取的方法的流程图;
图8示意性地示出了根据本公开再一实施例的信息提取的方法的流程图;
图9示意性地示出了根据本公开实施例的用于信息提取的装置的结构框图;以及
图10示意性地示出了本公开实施例提供的电子设备的结构框图。
具体实施方式
本公开的实施例提供了一种信息提取的方法、装置、电子设备及存储介质,上述方法包括:对待处理图像进行文本识别,得到上述待处理图像中的文本行的文本信息;根据上述文本信息,将上述待处理图像与模板图像进行匹配,得到映射关系矩阵;上述模板图像与上述待处理图像的版式相同;根据上述映射关系矩阵,在上述待处理图像中确定:与上述模板图像中预设的待识别区域相对应的目标识别区域;上述待识别区域涵盖选中属性字段,上述目标识别区域涵盖与上述选中属性字段相对应的目标属性字段;以及对上述目标识别区域内的文本信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果。
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
图1示意性地示出了适用于本公开实施例的信息提取的方法和装置的系统架构。
参照图1所示,适用于本公开实施例的信息提取的方法和装置的系统架构100包括:终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有文字识别工具或者版面识别类应用,比如电子票据识别类应用、证件识别类应用等,还可以安装有其他通讯客户端应用,例如图像识别类软件、图像捕获装置、图片/视频播放类应用、阅读器应用、购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是显示屏并且支持图片/视频播放的各种电子设备,例如电子设备包括但不限于智能手机、平板电脑、笔记本电脑、台式计算机、智能手表等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所拍摄的图像或视频进行数据处理(例如版面识别或信息提取)提供服务支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的图像/视频处理请求等数据进行分析等处理,并将处理结果(例如根据用户的图像/视频处理请求生成的处理结果等)反馈给终端设备。
需要说明的是,本公开实施例所提供的信息提取的方法一般可以由服务器105或具有一定运算能力的终端设备执行,这里的终端设备可以是安装有文字识别工具或者版面识别类应用、且自身具有运算能力的终端设备101、102、103,即,上述信息提取的方法可以由服务器执行,也可以由终端设备在本地执行。相应地,本公开实施例所提供的用于信息提取的装置一般可以设置于服务器105中或上述具有一定运算能力的终端设备中。本公开实施例所提供的信息提取的方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的用于信息提取的装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面结合附图来对本公开的实施例进行详细介绍。
本公开的第一个示例性实施例提供了一种信息提取的方法。
图2A示意性地示出了根据本公开一实施例的信息提取的方法的流程图。图2B示意性地示出了根据本公开一实施例的信息提取的方法的实施场景示意图。
参照图2A所示,本公开实施例提供的信息提取的方法,包括以下操作:S201、S202、S203和S204。
在操作S201,对待处理图像进行文本识别,得到上述待处理图像中的文本行的文本信息。
在操作S202,根据上述文本信息,将上述待处理图像与模板图像进行匹配,得到映射关系矩阵;上述模板图像与上述待处理图像的版式相同。
在操作S203,根据上述映射关系矩阵,在上述待处理图像中确定:与上述模板图像中预设的待识别区域相对应的目标识别区域;上述待识别区域涵盖选中属性字段且具有预留空间,上述目标识别区域涵盖与上述选中属性字段相对应的目标属性字段。
在操作S204,对上述目标识别区域内的文本信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果。
上述操作S201~S204可以由安装有文字识别工具或者版面识别类应用、且自身具有运算能力的终端设备执行,也可以由服务器执行。
参照图2B所示,上述模板图像210与上述待处理图像220的版式相同,包括:同一个版式下的各个图像(包括模板图像和一个或多个待处理图像)之间,固定字段的内容是相同的,这里在图2B中以A1、A2、A3来示例固定字段,A1、A2、A3这3个固定字段的内容是相同的,分别对应为:姓名、性别、住址。不论各个图像图片的尺寸如何变化,固定字段的相对位置在各个图像中是固定的。也就是说,同一个版式下的同一个纸质原件,经过相同的扫描方式(例如均有倾斜或者均为正对)得到的扫描件在不同尺寸下两个图像A和图像B,RA尺寸下的图像A中固定字段的位置相对于图像A的相对位置与RB尺寸下的图像B中固定字段的位置相对于图像B的相对位置是相同的。RA与RB是两个不同的尺寸。
以票据为例,实体票据中会有固定字段,固定字段为当前版式中内容不变、且相对位置不变的字段,例如为属性字段。在票据的扫描件中,由于存储尺寸或格式的差异,会导致相同的一个票据在不同格式/尺寸下呈现不同的尺寸,而不论图片的尺寸如何变化,固定字段的内容和相对位置始终是保持不变的。对于相同版式下的模板图像和待处理图像,二者可以是具有尺寸放缩关系;在另一些场景下,待处理图像相对于模板图像可以具有诸如尺寸放缩、拉伸等至少一种变化。只要能够应用以下构思的变化场景均符合本公开的保护范围:根据待处理图像中文本行的文本信息,将待处理图像与模板图像进行匹配,得到同一个版式下的模板图像与待处理图像之间的映射关系矩阵,并基于上述映射关系矩阵确定得到目标识别区域来实现信息提取。
示例性地,在身份证对应的版式中,固定字段例如为:“姓名”、“性别”、“出生”、“住址”、“签发机关”、“有效期限”等字段;在航空运输电子客票行程单对应的版式中,固定字段例如为:“旅客姓名”、“有效身份证件号码”、“电子客票”、“签注”、“承运人”、“客票级别/客票类别”、“电子客票号码”、“票价FARM”、“合计TOTAL”、“填开日期”等。同一个版式下的模板图像和待处理图像中,这些固定字段的内容是相同的,固定字段相对于模板图像、待处理图像的相对位置是固定的。对于相同版式下的模板图像和待处理图像之间,二者的固定字段之间具有位置映射关系。
上述操作S201中,待处理图像可以是图像格式(jpg、jpeg、png等)或者与图像格式可以相互转化的其他格式(例如pdf),待处理图像的获取途径可以包括但不限于是:从网络获取、用户上传、或者从视频中截取视频帧得到等途径。通过对待处理图像进行文本识别,得到待处理图像中的文本行的文本信息。上述文本信息可以包括:文本位置信息和文本内容信息。其中,待处理图像中的文本行可以是待处理图像中的部分文本行或者全部的文本行,只要上述部分文本行涵盖用于得到映射关系矩阵的预设个数的固定字段即可。
参照图2B所示,上述操作S202中,根据待处理图像中识别的文本信息,可以将待处理图像220与相同版式下的模板图像210进行匹配,得到映射关系矩阵212。上述映射关系矩阵用于表征待处理图像与模板图像的对应字段之间(例如为固定字段之间)的位置映射关系。在一实施例中,上述映射关系矩阵用于表征从模板图像的固定字段映射至待处理图像的固定字段的位置映射关系。
参照图2B所示,上述操作S203中,模板图像210的待识别区域210z是预先设置的,上述待识别区域210z涵盖需要获取参数信息的选中属性字段且具有预留空间,这里以固定字段A3来示例选中属性字段;上述目标识别区域涵盖与选中属性字段A3相对应的目标属性字段B3。通过确定版式相同的待处理图像220(例如可以为实际证件图像、实际票据图像、实际文件图像等)与模板图像210(例如为证件模板图像、票据模板图像、文件模板图像等)之间的映射关系矩阵212,那么可以基于模板图像210预先设置的待识别区域210z,根据该映射关系矩阵212,能够在待处理图像220中得到与待识别区域210z相对应的目标识别区域220z,在图2B中,以虚线框示意文本框,以单点划线框示意待识别区域和目标识别区域。
参照图2B所示,进而能够在操作S204中,在目标识别区域220z这一小范围内对文本信息进行提取,得到用于与上述目标属性字段B3匹配的参数信息提取结果。这里的参数信息提取结果大概率符合于需要获取的目标参数信息,本实施例中例如上述目标参数信息为:“北京市××区×街道”、“××社区××单元”和“×楼×室”这三行文本信息。
示例性地,下面以航空运输电子客票行程单(后续简称为航空行程单)的信息提取过程为例来说明操作S201~S204的处理逻辑。
本实施例中,模板图像为模板航空行程单图像M,在模板航空行程单图像M中,可以只包括固定字段的信息,例如为属性字段的信息,属性字段所对应的参数值是空白的。例如,上述模板航空行程单图像M包括“旅客姓名”、“有效身份证件号码”、“电子客票”、“签注”、“承运人”、“客票级别/客票类别”、“电子客票号码”、“票价FARM”、“合计TOTAL”、“填开日期”等固定字段。在模板航空行程单图像M中,需要获取参数信息的选中属性字段为:“票价FARM”和“合计TOTAL”。上述模板航空行程单图像M中预设的待识别区域对应于两个区域Z1和Z2,分别对应涵盖模板航空行程单图像M中的“票价FARM”和“合计TOTAL”这两个字段对应的文本框且具有预留空间。
根据本公开的实施例,上述预留空间的大小和方位为系统预设值或根据用户的配置得到,以确保能够涵盖错位的目标参数信息或多行目标参数信息,上述目标参数信息为待处理图像中匹配于上述目标属性字段的信息。例如在本实施例中,上述预留空间为向右、向下以及向上进行预留,且分别对应预留(也可以理解为延伸)第一预设尺寸、第二预设尺寸、第三预设尺寸。
示例性地,待处理图像为实际扫描的用户A的航空行程单图像TA。在航空行程单图像TA中,参数字段具有取值,航空行程单图像TA中的固定字段与模板航空行程单M中的固定字段是对应的,这一对应体现在内容相同,且具有位置映射关系。
首先,实施操作S201,对航空行程单图像TA进行文本识别,得到上述航空行程单图像TA中所有文本行的文本信息。需要说明的是,这里以对航空行程单图像TA中所有区域进行文本识别,得到所有文本行的文本信息为例,在其他实施例中,可以只对航空行程单图像TA中的部分区域进行文本识别,得到部分文本行的文本信息,上述部分文本行涵盖用于得到映射关系矩阵的预设个数(例如预设个数为2个以上)的固定字段。例如所有文本行的文本信息包括:“旅客姓名”、“有效身份证件号码”、“电子客票”、“签注”、“承运人”、“客票级别/客票类别”、“电子客票号码”、“票价FARM”、“合计TOTAL”、“填开日期”等固定字段,以及“110××……(实际为18位的身份证号码信息,这里对于执行主体:终端设备或服务器而言,未识别该数值对应的属性是什么)”、“500.00”、“1000.00”、“××航空公司”等参数字段,这里虽然以固定字段和参数字段进行描述,对于执行主体(例如终端设备或服务器)而言,获取的是全部文本行的信息,在该操作S201中并未区分是属性信息还是参数信息。
然后,实施操作S202,根据文本行的文本信息,将航空行程单图像TA与模板航空行程单图像M进行匹配,得到映射关系矩阵。
接着,实施操作S203,根据上述映射关系矩阵,在航空行程单图像TA中确定:与上述模板航空行程单图像M中预设的待识别区域Z1和Z2相对应的目标识别区域TZ1和TZ2。
由于待识别区域Z1和Z2分别对应涵盖模板航空行程单图像M中的“票价FARM”和“合计TOTAL”这两个选中属性字段对应的文本框且具有预留空间(可以描述为第一预留空间),则通过映射关系矩阵运算后得到的目标识别区域TZ1和TZ2也涵盖航空行程单图像TA中“票价FARM”和“合计TOTAL”这两个目标属性字段,且具有一定的预留空间(可以描述为第二预留空间)。第二预留空间与第一预留空间之间也具有对应关系,例如为空间的放缩、区域边框的平移等。
然后,再实施操作S204,对上述航空行程单图像TA中目标识别区域TZ1和TZ2内的文本信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果。示例性的,这里仅以目标识别区域TZ1内实施操作S204为例,TZ2的情况类似,这里不一一列举。在目标识别区域TZ1内包含了三个文本框,分别是“票价FARM”、“500.00”和“验证码”,其中文本“500.00”与文本“票价FARM”之间是具有错位的,二者不在同一个水平线上。通过实施操作S204,得到参数信息提取结果为“500.00”。如此,能够快速且准确地从待处理图像中提取出需要获取的目标参数信息。
基于上述操作S201~S204,由于待识别区域涵盖需要获取参数信息的选中属性字段(例如为模板证件中的地址、模板票据中的金额)且具有预留空间,因此基于映射关系矩阵得到的目标识别区域,能够确保覆盖到与选中属性字段相对应的目标属性字段(例如为实际证件中的地址、实际票据中的金额)且具有预留空间,进而可以在该目标识别区域内进行与上述目标属性字段匹配的参数信息的提取;上述提取逻辑通过结合区域位置映射和相对小范围文本信息(与全部的文本行相比)的高精度提取,不仅能够提升信息提取的效率,并且可以提升信息提取的准确率,由于待识别区域具有预留空间,使得目标识别区域内进行信息提取得到的参数信息提取结果能够涵盖错位、多行等场景下需要获取的目标参数信息,实现在文本错位、文本具有多行信息等版面识别场景下的高效率和高准确率的信息提取。
图3示意性地示出了根据本公开实施例的操作S202的详细实施流程图。
根据本公开的实施例,上述文本信息包括:文本位置信息和文本内容信息。参照图3所示,根据上述文本信息,将上述待处理图像与模板图像进行匹配,得到映射关系矩阵的操作S202包括以下操作:S301、S302和S303。
在操作S301,获取模板图像中固定字段的内容信息和位置信息。
在操作S302,根据上述固定字段的内容信息,从上述待处理图像的文本行中筛选出文本内容信息与上述内容信息一致的锚点文本行。
在操作S303,计算上述固定字段的位置信息映射至上述锚点文本行的文本位置信息的坐标变换关系,得到映射关系矩阵。
通过基于相同版式下的模板图像和待处理图像之间固定字段的匹配来获取坐标变换关系,从而得到用于表征从模板图像的固定字段映射至待处理图像的固定字段的位置映射关系的映射关系矩阵,进而可以基于上述映射关系矩阵,在待处理图像中得到与待识别区域相对应的目标识别区域,由此来缩小目标参数信息的提取范围,以提升信息提取的效率和提取精度。
根据本公开的一实施例,上述操作S301中,获取模板图像中固定字段的内容信息和位置信息,包括:从预先设置好固定字段的模板图像中提取上述固定字段的内容信息和位置信息。
在本实施例中,模板图像中的固定字段是预先设置好的,即,对于执行主体而言,模板图像中的固定字段的内容(例如在前述实施例中,模板航空行程单图像M中的“旅客姓名”、“有效身份证件号码”、“电子客票”、“签注”、“承运人”、“客票级别/客票类别”、“电子客票号码”、“票价FARM”、“合计TOTAL”、“填开日期”等信息中的一个或多个)是事先确定的,那么在操作S301中,只需要从模板图像中提取上述固定字段的内容信息和位置信息即可。
这里提取的固定字段的内容信息和位置信息可以是一个固定字段的内容及位置信息,也可以是2个以上的固定字段的内容及位置信息。
或者,根据本公开的另一实施例,上述操作S301中,获取模板图像中固定字段的内容信息和位置信息,包括:接收在上述模板图像中设置固定字段的第一设置信息;在接收到上述第一设置信息的情况下,根据上述第一设置信息来提取上述模板图像中固定字段的内容信息和位置信息。
在本实施例中,模板图像中的固定字段,在对当前待处理图像进行信息提取时尚未确定。这种场景下,通过实时接收对模板图像中的固定字段进行设置的第一设置信息,进而可以根据第一设置信息来从模板图像中提取固定字段的内容信息和位置信息。上述第一设置信息可以包括:模板中固定字段的内容信息。例如在前述实施例中,接收到的第一设置信息为:设置模板航空行程单图像M中的“旅客姓名”、“有效身份证件号码”、“电子客票”、“签注”、“承运人”、“客票级别/客票类别”、“电子客票号码”、“票价FARM”、“合计TOTAL”、“填开日期”中的一个或多个为固定字段的信息。
图4示意性地示出了根据本公开实施例的操作S204的详细实施流程图。
根据本公开的实施例,参照图4所示,对上述目标识别区域内的文本信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果的操作S204,包括以下操作:S401和S402。
在操作S401,获取与上述目标识别区域具有位置重叠关系的候选文本行的文本信息;上述文本信息包括:文本位置信息和文本内容信息。
在操作S402,根据上述候选文本行的文本位置信息和文本内容信息中的至少一种信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果。
对于识别得到的文本行的文本信息为所有文本行的文本信息这一场景,在操作S401中可以在上述文本行的文本信息中获取候选文本行的文本信息;对于识别得到的文本行的文本信息为部分文本行的文本信息、且未识别的文本行涵盖目标识别区域中的文本行这一场景,在操作S401中,需要对目标识别区域内以及附近的文本行进行文本识别,以得到候选文本行。需要说明的是,上述候选文本行是与目标识别区域具有位置重叠关系的、且排除目标属性字段所在文本行之外的其他文本行。
例如,上述候选文本行包括:位于目标识别区域内部的除去目标属性字段所在的文本行之外的文本行;以及与目标识别区域有部分重叠的文本行。
下面参照图5A、图5B和图5C来描述操作S402的三种并列的详细实施过程。
图5A示意性地示出了根据本公开一实施例的操作S402的详细实施流程图。
根据本公开的一实施例,上述操作S402中,根据上述候选文本行的文本位置信息和文本内容信息中的至少一种信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果,包括以下操作:S511和S512。
在操作S511,根据上述候选文本行的文本位置信息,计算上述候选文本行与上述目标识别区域的交叠率。
交并比(Intersection-over-Union,IoU)用于表征候选文本行的文本框与目标识别区域的交叠率。上述交叠率的计算公式为:候选文本行的文本框与目标识别区域的交集/候选文本行的文本框与目标识别区域的并集。候选文本行的文本框根据候选文本行的文本位置信息来确定。文本位置信息例如为:文本框的四个角对应的位置坐标。
在操作S512,确定最高交叠率对应的候选文本行的文本内容信息为参数信息提取结果。
在目标识别区域内,由于与目标属性字段匹配的目标参数信息大概率是与目标识别区域的重叠度最高的,因此大部分情况下,采用最高交叠率对应的候选文本行的文本内容信息作为参数信息提取结果与目标参数信息是吻合的。
图5B示意性地示出了根据本公开另一实施例的操作S402的详细实施流程图。
根据本公开的另一实施例,参照图5B所示,上述操作S402中,根据上述候选文本行的文本位置信息和文本内容信息中的至少一种信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果,包括以下操作S521。
在操作S521,根据上述候选文本行的文本内容信息,与上述目标属性字段的语义进行格式或数值范围至少一种的正则匹配,得到参数信息提取结果。
上述目标属性字段例如为“票价FARM”,则与票价的语义进行正则匹配的文本内容应该是金额对应的数值或者格式中的至少一种,例如进行正则匹配的条件为:小数点后两位的数值。
例如,共有2个候选文本行,这些候选文本行的文本内容信息分别为“500.00”和“验证码”,通过与小数点后两位的数值这一条件进行正则匹配,则“500.00”和“验证码”二者与上述条件匹配的结果为:“500.00”,即为参数信息提取结果。
图5C示意性地示出了根据本公开又一实施例的操作S402的详细实施流程图。
根据本公开的又一实施例,参照图5C所示,上述操作S402中,根据上述候选文本行的文本位置信息和文本内容信息中的至少一种信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果,包括以下操作:S531、S532、S533和S534。
在操作S531,根据上述候选文本行的文本位置信息,计算上述候选文本行与上述目标识别区域的交叠率。
操作S531中的交叠率的计算过程可以参照上述操作S521的描述。
在操作S532,根据上述候选文本行的文本内容信息,确定上述候选文本行与上述目标属性字段的语义之间的匹配度。
示例性地,例如,共有2个候选文本行,这些候选文本行的文本内容信息分别为“500.00”和“验证码”,与目标属性字段“票价FARM”的语义之间的匹配度相对较高的为“500.00”,例如匹配度的值为2,匹配度相对较低的为“验证码”,例如匹配度的值为0.5。
在操作S533,对上述交叠率和上述匹配度进行加权计算,得到候选分值。
上述交叠率和匹配度各自分配有预设的权重,该权重的比例可以根据实际信息提取的场景进行调整。例如,在对电子版证件图像进行“地址”这一目标属性字段的目标参数值进行信息提取时,匹配度的权重可以设置为0.5~0.8,交叠率的权重可以设置为0.2~0.5;在对票据图像进行“金额”这一目标属性字段的目标参数值进行信息提取时,匹配度的权重可以设置为0.2~0.5,交叠率的权重可以设置为0.5~0.8。
在操作S534,确定最高候选分值对应的候选文本行的文本内容信息为参数信息提取结果。
本实施例中,通过结合交叠率和匹配度,从而结合位置和语义的综合情况来进行候选文本行的筛选,得到大概率与目标参数信息相吻合的参数信息提取结果。
图6示意性地示出了根据本公开另一实施例的信息提取的方法的流程图。
本公开实施例提供的信息提取的方法中,除了包括操作S201~S204之外,还包括操作S601和以下操作中的一种:S602a或S602b,参照图6所示,为了简化示意,在图6中仅示意了操作S601、S602a、S602b和S204。上述操作S601和S602a/S602b在操作S204之前执行,且在操作S203之后执行。
在操作S601,确定与上述目标识别区域具有位置重叠关系的候选文本行的清晰度是否满足预设要求。
在操作S602a,在上述候选文本行的清晰度不满足预设要求的情况下,对上述候选文本行进行图像处理,得到清晰度符合预设要求的候选文本行,以对上述清晰度符合预设要求的候选文本行的文本信息进行提取。
上述图像处理包括图像拼接、删减或修改等操作。
在操作S602b,在上述候选文本行的清晰度不满足预设要求的情况下,基于识别能力与上述候选文本行的清晰度匹配的图像文本识别器或识别模块,对上述候选文本行进行文本信息识别,得到上述候选文本行的文本信息,以对上述候选文本行的文本信息进行提取。
在上述候选文本行的清晰度满足预设要求的情况下,直接进入操作S204。
图7示意性地示出了根据本公开又一实施例的信息提取的方法的流程图。
在上述各个实施例的基础上,参照图7所示,本公开实施例提供的信息提取的方法中,在操作S201之前,还包括以下操作S701:在上述模板图像中预先设置待识别区域。
其中,在一实施例中,在上述模板图像中预先设置待识别区域的操作S701,包括:接收在上述模板图像中设置待识别区域的第二设置信息,上述第二设置信息包括:区域位置和区域大小;以及根据上述区域位置和区域大小,生成预设的待识别区域。
在另一实施例中,在上述模板图像中预先设置待识别区域的操作S701,包括:接收在上述模板图像中设置待识别区域的第三设置信息,上述第三设置信息包括:上述待识别区域满足的覆盖条件为涵盖选中属性字段,选中属性字段的内容;根据上述选中属性字段的内容,确定上述选中属性字段所在的目标位置;以及基于上述覆盖条件,生成涵盖上述目标位置且具有预留空间的待识别区域。
上述预留空间的大小和方位为系统预设值或根据用户的配置得到,以确保能够涵盖错位的目标参数信息或多行目标参数信息,上述目标参数信息为待处理图像中匹配于上述目标属性字段的信息。
图8示意性地示出了根据本公开再一实施例的信息提取的方法的流程图。
在上述各个实施例的基础上,参照图8所示,本公开实施例提供的信息提取的方法中,在实施操作S204得到上述参数信息提取结果之后,还包括以下操作:S801,和以下操作组中的一种{S802a和S803a}或{S802b}。
在操作S801,对上述参数信息提取结果的完整性进行校验。
例如,完整性校验包括:对是否符合预设的格式(小数点、字符占位数等,例如金额为小数点后两位,字符总数超过预设长度)、对语义的完整性(多行内容,××有限责任公司)等进行校验。
在操作S802a,在上述参数信息提取结果的完整性校验通过的情况下,对上述参数信息提取结果的合理性进行校验。
例如,合理性校验包括:确定上述参数信息提取结果是否在预设合理区间(某个数值范围、某个预设条件下)内;是否带有固定的后缀、前缀、或者特殊标记等。
在操作S803a,在上述参数信息提取结果的合理性校验通过的情况下,将上述目标属性字段和上述参数信息提取结果以键-值对的形式进行结构化输出。
在上述参数信息提取结果的合理性校验不通过的情况下,发出信息提取失败的提示,参照图8中操作S803b所示。
在操作S802b,在上述参数信息提取结果的完整性校验不通过的情况下,调整上述模板图像中待识别区域的大小,或者,发出调整上述模板图像中待识别区域的提示。根据本公开的实施例,调整待识别区域可以是以下调整方式中的至少一种:增大待识别区域,移动待识别区域。
在包含操作S802b的实施例中,在上述待处理图像中确定:与上述模板图像中预设的待识别区域相对应的目标识别区域,包括:在上述待处理图像中确定:与上述模板图像中调整后的待识别区域相对应的目标识别区域。
本公开的第二个示例性实施例提供了一种用于信息提取的装置。
图9示意性地示出了根据本公开实施例的用于信息提取的装置的结构框图。
参照图9所示,本公开实施例提供的用于信息提取的装置900包括:文本识别模块901、映射关系矩阵确定模块902、目标识别区域确定模块903和信息提取模块904。
上述文本识别模块901用于对待处理图像进行文本识别,得到上述待处理图像中的文本行的文本信息。
上述映射关系矩阵确定模块902用于根据上述文本信息,将上述待处理图像与模板图像进行匹配,得到映射关系矩阵;上述模板图像与上述待处理图像的版式相同。
上述目标识别区域确定模块用903于根据上述映射关系矩阵,在上述待处理图像中确定:与上述模板图像中预设的待识别区域相对应的目标识别区域。
上述待识别区域涵盖选中属性字段且具有预留空间,上述目标识别区域涵盖与上述选中属性字段相对应的目标属性字段。
上述信息提取模块904用于对上述目标识别区域内的文本信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果。
根据本公开的实施例,上述装置900除了包括上述文本识别模块901、映射关系矩阵确定模块902、目标识别区域确定模块903和信息提取模块904之外,还包括以下模块组的一种:待识别区域设置模块,{第一校验模块、第二校验模块和输出模块},{第一校验模块、第二校验模块和提示模块},或者{第一校验模块、第二校验模块和调整模块}。
或者也可以进一步包括上述模块组的组合,组合的方式为:待识别区域设置模块与以下一种进行组合:{第一校验模块、第二校验模块和输出模块};{第一校验模块、第二校验模块和提示模块},或者{第一校验模块、第二校验模块和调整模块}。
待识别区域设置模块用于在上述模板图像中预先设置待识别区域。
第一校验模块用于对上述参数信息提取结果的完整性进行校验。
第二校验模块用于在上述参数信息提取结果的完整性校验通过的情况下,对上述参数信息提取结果的合理性进行校验。
输出模块用于在上述参数信息提取结果的合理性校验通过的情况下,将上述目标属性字段和上述参数信息提取结果以键-值对的形式进行结构化输出。
调整模块用于在上述参数信息提取结果的完整性校验不通过的情况下,调整上述模板图像中待识别区域的大小。
提示模块用于在上述参数信息提取结果的完整性校验不通过的情况下,发出调整上述模板图像中待识别区域的提示。上述提示模块还用于在上述参数信息提取结果的合理性校验不通过的情况下,发出信息提取失败的提示。
上述文本识别模块901、映射关系矩阵确定模块902、目标识别区域确定模块903和信息提取模块904中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。文本识别模块901、映射关系矩阵确定模块902、目标识别区域确定模块903和信息提取模块904中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,文本识别模块901、映射关系矩阵确定模块902、目标识别区域确定模块903和信息提取模块904中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
本公开的第三个示例性实施例提供了一种电子设备。
图10示意性示出了本公开实施例提供的电子设备的结构框图。
参照图10所示,本公开实施例提供的电子设备1000包括处理器1001、通信接口1002、存储器1003和通信总线1004,其中,处理器1001、通信接口1002和存储器1003通过通信总线1004完成相互间的通信;存储器1003,用于存放计算机程序;处理器1001,用于执行存储器上所存放的程序时,实现如上所述的信息提取的方法。
本公开的第四个示例性实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的信息提取的方法。
该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (12)
1.一种信息提取的方法,其特征在于,包括:
对待处理图像进行文本识别,得到所述待处理图像中的文本行的文本信息;
根据所述文本信息,将所述待处理图像与模板图像进行匹配,得到映射关系矩阵;所述模板图像与所述待处理图像的版式相同;
根据所述映射关系矩阵,在所述待处理图像中确定:与所述模板图像中预设的待识别区域相对应的目标识别区域;所述待识别区域涵盖选中属性字段且具有预留空间,所述目标识别区域涵盖与所述选中属性字段相对应的目标属性字段;以及
对所述目标识别区域内的文本信息进行提取,得到用于与所述目标属性字段匹配的参数信息提取结果。
2.根据权利要求1所述的方法,其特征在于,所述文本信息包括:文本位置信息和文本内容信息;
其中,所述根据所述文本信息,将所述待处理图像与模板图像进行匹配,得到映射关系矩阵,包括:
获取模板图像中固定字段的内容信息和位置信息;
根据所述固定字段的内容信息,从所述待处理图像的文本行中筛选出文本内容信息与所述内容信息一致的锚点文本行;
计算所述固定字段的位置信息映射至所述锚点文本行的文本位置信息的坐标变换关系,得到映射关系矩阵。
3.根据权利要求2所述的方法,其特征在于,所述获取模板图像中固定字段的内容信息和位置信息,包括:
从预先设置好固定字段的模板图像中提取所述固定字段的内容信息和位置信息;或者;
接收在所述模板图像中设置固定字段的第一设置信息;在接收到所述第一设置信息的情况下,根据所述第一设置信息来提取所述模板图像中固定字段的内容信息和位置信息。
4.根据权利要求1所述的方法,其特征在于,其中,所述对所述目标识别区域内的文本信息进行提取,得到用于与所述目标属性字段匹配的参数信息提取结果,包括:
获取与所述目标识别区域具有位置重叠关系的候选文本行的文本信息;所述文本信息包括:文本位置信息和文本内容信息;以及
根据所述候选文本行的文本位置信息和文本内容信息中的至少一种信息进行提取,得到用于与所述目标属性字段匹配的参数信息提取结果。
5.根据权利要求4所述的方法,其特征在于,所述根据所述候选文本行的文本位置信息和文本内容信息中的至少一种信息进行提取,得到用于与所述目标属性字段匹配的参数信息提取结果,包括:
根据所述候选文本行的文本位置信息,计算所述候选文本行与所述目标识别区域的交叠率;确定最高交叠率对应的候选文本行的文本内容信息为参数信息提取结果;或者,
根据所述候选文本行的文本内容信息,与所述目标属性字段的语义进行格式或数值范围至少一种的正则匹配,得到参数信息提取结果;或者;
根据所述候选文本行的文本位置信息,计算所述候选文本行与所述目标识别区域的交叠率;根据所述候选文本行的文本内容信息,确定所述候选文本行与所述目标属性字段的语义之间的匹配度;对所述交叠率和所述匹配度进行加权计算,得到候选分值;确定最高候选分值对应的候选文本行的文本内容信息为参数信息提取结果。
6.根据权利要求1所述的方法,其特征在于,在对所述目标识别区域内的文本信息进行提取之前,还包括:
确定与所述目标识别区域具有位置重叠关系的候选文本行的清晰度是否满足预设要求;
在所述候选文本行的清晰度不满足预设要求的情况下,对所述候选文本行进行图像处理,得到清晰度符合预设要求的候选文本行,以对所述清晰度符合预设要求的候选文本行的文本信息进行提取;或者,在所述候选文本行的清晰度不满足预设要求的情况下,基于识别能力与所述候选文本行的清晰度匹配的图像文本识别器或识别模块,对所述候选文本行进行文本信息识别,得到所述候选文本行的文本信息,以对所述候选文本行的文本信息进行提取。
7.根据权利要求1所述的方法,其特征在于,在对待处理图像进行文本识别之前,还包括:在所述模板图像中预先设置待识别区域;
其中,在所述模板图像中预先设置待识别区域,包括:
接收在所述模板图像中设置待识别区域的第二设置信息,所述第二设置信息包括:区域位置和区域大小;根据所述区域位置和区域大小,生成预设的待识别区域;或者,
接收在所述模板图像中设置待识别区域的第三设置信息,所述第三设置信息包括:所述待识别区域满足的覆盖条件为涵盖选中属性字段,选中属性字段的内容;根据所述选中属性字段的内容,确定所述选中属性字段所在的目标位置;基于所述覆盖条件,生成涵盖所述目标位置且具有预留空间的待识别区域,所述预留空间的大小和方位为系统预设值或根据用户的配置得到。
8.根据权利要求1-7中任一项所述的方法,其特征在于,在得到所述参数信息提取结果之后,还包括:
对所述参数信息提取结果的完整性进行校验;
在所述参数信息提取结果的完整性校验不通过的情况下,调整所述模板图像中待识别区域的大小,或者,发出调整所述模板图像中待识别区域的提示;
其中,在所述待处理图像中确定:与所述模板图像中预设的待识别区域相对应的目标识别区域,包括:
在所述待处理图像中确定:与所述模板图像中调整后的待识别区域相对应的目标识别区域。
9.根据权利要求8所述的方法,其特征在于,还包括:
在所述参数信息提取结果的完整性校验通过的情况下,对所述参数信息提取结果的合理性进行校验;
在所述参数信息提取结果的合理性校验通过的情况下,将所述目标属性字段和所述参数信息提取结果以键-值对的形式进行结构化输出。
10.一种用于信息提取的装置,其特征在于,包括:
文本识别模块,用于对待处理图像进行文本识别,得到所述待处理图像中的文本行的文本信息;
映射关系矩阵确定模块,用于根据所述文本信息,将所述待处理图像与模板图像进行匹配,得到映射关系矩阵;所述模板图像与所述待处理图像的版式相同;
目标识别区域确定模块,用于根据所述映射关系矩阵,在所述待处理图像中确定:与所述模板图像中预设的待识别区域相对应的目标识别区域;所述待识别区域涵盖选中属性字段且具有预留空间,所述目标识别区域涵盖与所述选中属性字段相对应的目标属性字段;以及
信息提取模块,用于对所述目标识别区域内的文本信息进行提取,得到用于与所述目标属性字段匹配的参数信息提取结果。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-9中任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111056347.4A CN113723347B (zh) | 2021-09-09 | 2021-09-09 | 信息提取的方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111056347.4A CN113723347B (zh) | 2021-09-09 | 2021-09-09 | 信息提取的方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113723347A true CN113723347A (zh) | 2021-11-30 |
CN113723347B CN113723347B (zh) | 2023-11-07 |
Family
ID=78682894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111056347.4A Active CN113723347B (zh) | 2021-09-09 | 2021-09-09 | 信息提取的方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723347B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113920513A (zh) * | 2021-12-15 | 2022-01-11 | 中电云数智科技有限公司 | 基于自定义通用模板的文本识别方法及设备 |
CN114997137A (zh) * | 2022-06-16 | 2022-09-02 | 壹沓科技(上海)有限公司 | 一种文档信息抽取方法、装置、设备及可读存储介质 |
CN115082919A (zh) * | 2022-07-22 | 2022-09-20 | 平安银行股份有限公司 | 一种地址识别方法、电子设备及存储介质 |
CN116450807A (zh) * | 2023-06-15 | 2023-07-18 | 中国标准化研究院 | 一种海量数据文本信息提取方法及系统 |
CN116861865A (zh) * | 2023-06-26 | 2023-10-10 | 江苏常熟农村商业银行股份有限公司 | Excel数据处理方法、装置、设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060262976A1 (en) * | 2004-10-01 | 2006-11-23 | Hart Peter E | Method and System for Multi-Tier Image Matching in a Mixed Media Environment |
CN110490199A (zh) * | 2019-08-26 | 2019-11-22 | 北京香侬慧语科技有限责任公司 | 一种文本识别的方法、装置、存储介质及电子设备 |
CN110569850A (zh) * | 2019-08-20 | 2019-12-13 | 北京旷视科技有限公司 | 字符识别模板匹配方法、装置和文本识别设备 |
CN111476227A (zh) * | 2020-03-17 | 2020-07-31 | 平安科技(深圳)有限公司 | 基于ocr的目标字段识别方法、装置及存储介质 |
CN111783770A (zh) * | 2020-01-16 | 2020-10-16 | 北京沃东天骏信息技术有限公司 | 图像的矫正方法、装置和计算机可读存储介质 |
CN111931784A (zh) * | 2020-09-17 | 2020-11-13 | 深圳壹账通智能科技有限公司 | 票据识别方法、系统、计算机设备与计算机可读存储介质 |
CN112132016A (zh) * | 2020-09-22 | 2020-12-25 | 平安科技(深圳)有限公司 | 票据信息提取方法、装置及电子设备 |
CN112633278A (zh) * | 2020-12-31 | 2021-04-09 | 北京市商汤科技开发有限公司 | 表单处理方法、装置和系统、介质及计算机设备 |
CN112733639A (zh) * | 2020-12-28 | 2021-04-30 | 贝壳技术有限公司 | 文本信息结构化提取方法及装置 |
CN112800848A (zh) * | 2020-12-31 | 2021-05-14 | 中电金信软件有限公司 | 票据识别后信息结构化提取方法、装置和设备 |
WO2021151270A1 (zh) * | 2020-05-20 | 2021-08-05 | 平安科技(深圳)有限公司 | 图像结构化数据提取方法、装置、设备及存储介质 |
-
2021
- 2021-09-09 CN CN202111056347.4A patent/CN113723347B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060262976A1 (en) * | 2004-10-01 | 2006-11-23 | Hart Peter E | Method and System for Multi-Tier Image Matching in a Mixed Media Environment |
CN110569850A (zh) * | 2019-08-20 | 2019-12-13 | 北京旷视科技有限公司 | 字符识别模板匹配方法、装置和文本识别设备 |
CN110490199A (zh) * | 2019-08-26 | 2019-11-22 | 北京香侬慧语科技有限责任公司 | 一种文本识别的方法、装置、存储介质及电子设备 |
CN111783770A (zh) * | 2020-01-16 | 2020-10-16 | 北京沃东天骏信息技术有限公司 | 图像的矫正方法、装置和计算机可读存储介质 |
CN111476227A (zh) * | 2020-03-17 | 2020-07-31 | 平安科技(深圳)有限公司 | 基于ocr的目标字段识别方法、装置及存储介质 |
WO2021151270A1 (zh) * | 2020-05-20 | 2021-08-05 | 平安科技(深圳)有限公司 | 图像结构化数据提取方法、装置、设备及存储介质 |
CN111931784A (zh) * | 2020-09-17 | 2020-11-13 | 深圳壹账通智能科技有限公司 | 票据识别方法、系统、计算机设备与计算机可读存储介质 |
CN112132016A (zh) * | 2020-09-22 | 2020-12-25 | 平安科技(深圳)有限公司 | 票据信息提取方法、装置及电子设备 |
CN112733639A (zh) * | 2020-12-28 | 2021-04-30 | 贝壳技术有限公司 | 文本信息结构化提取方法及装置 |
CN112633278A (zh) * | 2020-12-31 | 2021-04-09 | 北京市商汤科技开发有限公司 | 表单处理方法、装置和系统、介质及计算机设备 |
CN112800848A (zh) * | 2020-12-31 | 2021-05-14 | 中电金信软件有限公司 | 票据识别后信息结构化提取方法、装置和设备 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113920513A (zh) * | 2021-12-15 | 2022-01-11 | 中电云数智科技有限公司 | 基于自定义通用模板的文本识别方法及设备 |
CN114997137A (zh) * | 2022-06-16 | 2022-09-02 | 壹沓科技(上海)有限公司 | 一种文档信息抽取方法、装置、设备及可读存储介质 |
CN115082919A (zh) * | 2022-07-22 | 2022-09-20 | 平安银行股份有限公司 | 一种地址识别方法、电子设备及存储介质 |
CN116450807A (zh) * | 2023-06-15 | 2023-07-18 | 中国标准化研究院 | 一种海量数据文本信息提取方法及系统 |
CN116450807B (zh) * | 2023-06-15 | 2023-08-11 | 中国标准化研究院 | 一种海量数据文本信息提取方法及系统 |
CN116861865A (zh) * | 2023-06-26 | 2023-10-10 | 江苏常熟农村商业银行股份有限公司 | Excel数据处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113723347B (zh) | 2023-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113723347B (zh) | 信息提取的方法、装置、电子设备及存储介质 | |
US20220253631A1 (en) | Image processing method, electronic device and storage medium | |
US20090076996A1 (en) | Multi-Classifier Selection and Monitoring for MMR-based Image Recognition | |
KR101789298B1 (ko) | 식별코드를 이용한 자필서명 검증 시스템 및 방법 | |
US11799873B2 (en) | System and method for verification of reliability and validity of crowd sourcing users | |
CN110222695B (zh) | 一种证件图片处理方法及装置、介质、电子设备 | |
CN110942061A (zh) | 文字识别方法、装置、设备和计算机可读介质 | |
CN112580108B (zh) | 签名和印章完整性验证方法及计算机设备 | |
CN110795714A (zh) | 一种身份验证方法、装置、计算机设备及存储介质 | |
CN112330331A (zh) | 基于人脸识别的身份验证方法、装置、设备及存储介质 | |
CN111859002A (zh) | 兴趣点名称生成方法及装置、电子设备和介质 | |
JP2009506394A (ja) | 混合メディア書類システムにおける方法及びマシン読み取り可能な媒体 | |
CN113313114B (zh) | 证件信息获取方法、装置、设备以及存储介质 | |
CN114140649A (zh) | 票据分类方法、票据分类装置、电子设备和存储介质 | |
CN113496115B (zh) | 文件内容比对方法和装置 | |
CN110688995A (zh) | 地图查询的处理方法,计算机可读存储介质和移动终端 | |
CN111798192A (zh) | 网络招聘方法和系统 | |
US20150117781A1 (en) | Method, apparatus and system for information identification | |
WO2022105120A1 (zh) | 图片文字检测方法、装置、计算机设备及存储介质 | |
US11593417B2 (en) | Assigning documents to entities of a database | |
CN114693218A (zh) | 配送订单处理方法、装置、电子设备和存储介质 | |
CN114637930A (zh) | 信息共享方法、装置、电子设备及计算机可读存储介质 | |
US20170169454A1 (en) | Identifying business online social presence with name and address using spatial filters | |
CN112633279A (zh) | 文本识别方法、装置和系统 | |
CN109858339B (zh) | 信息验证方法、装置、计算机设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |