CN112669515A - 票据图像识别方法、装置、电子设备和存储介质 - Google Patents

票据图像识别方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112669515A
CN112669515A CN202011580156.3A CN202011580156A CN112669515A CN 112669515 A CN112669515 A CN 112669515A CN 202011580156 A CN202011580156 A CN 202011580156A CN 112669515 A CN112669515 A CN 112669515A
Authority
CN
China
Prior art keywords
bill
image
template
reference field
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011580156.3A
Other languages
English (en)
Other versions
CN112669515B (zh
Inventor
张世伟
龚伟松
蔡悦
郭得庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zebra Laila Logistics Technology Co ltd
Original Assignee
Shanghai Zebra Laila Logistics Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zebra Laila Logistics Technology Co ltd filed Critical Shanghai Zebra Laila Logistics Technology Co ltd
Priority to CN202011580156.3A priority Critical patent/CN112669515B/zh
Publication of CN112669515A publication Critical patent/CN112669515A/zh
Application granted granted Critical
Publication of CN112669515B publication Critical patent/CN112669515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例中提供了一种票据图像识别方法、装置、电子设备和存储介质,首先通过模板匹配模型对待识别票据图像进行模板匹配处理,为待识别票据图像匹配相应的票据模板,通过参考字段识别模型获取待识别票据图像中的参考字段的位置信息,再根据匹配到的票据模板中预存的目标字段的位置信息与参考字段的位置信息之间的距离信息获取目标字段子图片,再通过文字识别模型对目标字段子图片中的文本进行识别。即使不同的票据图像的大小或者尺寸不同,本方法通过目标字段与参考字段之间的相对位置关系也能较为准确的识别出目标字段子图片,提升了票据图像的识别结果精度。

Description

票据图像识别方法、装置、电子设备和存储介质
技术领域
本申请涉及图像处理技术,具体地,涉及一种票据图像识别方法、装置、电子设备和存储介质。
背景技术
在生产生活中,票据的形式多种多样,例如,票据可以包括汇票、本票、支票、提单、存单等。每一张票据中包含有大量的票据信息,以票据中的发票为例,发票可以包括发票代码、发票号码、开票日期、购买方名称等票据信息。
同时,随着社会信息化的不断发展,在人们的日常生活和工作中常常需要对票据进行识别,以将票据上的信息输入至计算机中。
现有的票据识别技术主要是对扫描文件进行识别,扫描文件的大小和位置固定,较为容易识别。但是随着智能移动设备的普及,目前票据信息通常是以照片的形式进行传递,由于拍摄的方法存在差异,不同的票据照片的大小和尺寸可能存在不同,现有基于扫描文件进行识别的技术在对图片形式的票据进行识别时,识别效果较差。
发明内容
本申请实施例中提供了一种票据图像识别方法、装置、电子设备和存储介质,以解决现有技术对图片形式的票据识别效果较差的问题。
根据本申请实施例的第一个方面,提供了一种票据图像识别方法,所述方法包括:
通过模板匹配模型对待识别票据图像进行模板匹配处理,获得与所述待识别票据图像匹配的票据模板,其中,所述票据模板的属性信息包括距离信息,所述距离信息为目标字段与参考字段在所述票据模板上的距离;
通过参考字段识别模型对所述待识别票据图像进行处理,获得所述待识别票据图像中的参考字段的位置信息;
根据所述距离信息及所述待识别票据图像中的参考字段的位置信息获取目标字段子图片;
通过文字识别模型识别所述目标字段子图片中的文本。
在一种可选的实施方式中,在通过模板匹配模型对待识别票据图像进行模板匹配处理之前,所述方法还包括:
获取多个票据模板,并建立票据模板库;
针对每个票据模板,对所述票据模板的多个参考字段的位置信息及所述票据模板的多个目标字段的位置信息进行标记;
计算每个所述目标字段与每个所述参考字段在所述票据模板上的距离。
在一种可选的实施方式中,所述通过参考字段识别模型对所述待识别票据图像进行处理,获得所述待识别票据图像中的参考字段的位置信息,包括:
对所述待识别票据图像进行边缘检测处理,获得所述待识别票据图像的边缘特征图像,其中,所述边缘特征图像包括文本内容和表格线段;
对所述边缘特征图像进行处理,去除所述边缘特征图像中的表格线段;
截取所述边缘特征图像中的文本内容对应的图像信息,获得多个子图像;
将多个所述子图像输入至所述参考字段识别模型进行分类识别,获得多个参考字段的位置信息。
在一种可选的实施方式中,所述截取所述边缘特征图像中的文本内容对应的图像信息,获得多个子图像,包括:
对所述边缘特征图像进行膨胀处理,使相邻的文本内容形成连通域;
从所述边缘特征图像中截取与所述连通域的位置信息对应的子图像,获得多个所述子图像。
在一种可选的实施方式中,根据所述距离信息及所述待识别票据图像中的参考字段的位置信息获取目标字段子图片,包括:
根据所述目标字段与所述参考字段在所述票据模板上的距离及所述待识别票据图像中的参考字段的位置信息计算所述目标字段的位置信息;
获取与目标字段的位置信息对应的目标字段子图片。
在一种可选的实施方式中,所述方法还包括对所述参考字段识别模型进行训练的步骤,所述步骤包括:
获取多个参考字段训练样本,对所述参考字段训练样本进行标记;
将多个所述参考字段训练样本输入至深度学习图片分类模型中进行训练,获得参考字段分类结果;
根据各个所述参考字段分类结果与各个所述参考字段训练样本的标记结果计算所述深度学习图片分类模型的分类准确度;
当所述分类准确度不大于预设阈值时,调整所述深度学习图片分类模型的网络参数;
重复将多个所述参考字段训练样本输入至深度学习图片分类模型中进行训练的步骤,直至所述分类准确度大于预设阈值,完成训练,获得训练好的参考字段识别模型。
在一种可选的实施方式中,所述方法还包括对所述模板匹配模型进行训练的步骤,所述步骤包括:
获取多个模板训练样本,并对每个所述模板训练样本进行标记;
构建深度学习图片分类模型对多个所述模板训练样本进行分类识别,获得各个所述模板训练样本的模板分类结果;
根据各个所述模板分类结果与各个所述模板训练样本的标记结果计算所述深度学习图片分类模型的分类准确度;
当所述分类准确度不大于预设阈值时,调整所述深度学习图片分类模型的网络参数;
重复将多个所述模板训练样本输入至深度学习图片分类模型中进行训练的步骤,直至所述分类准确度大于预设阈值,完成训练,获得训练好的模板匹配模型。
根据本申请实施例的第二个方面,提供了一种票据图像识别装置,所述装置包括:
模板匹配模块,用于通过模板匹配模型对待识别票据图像进行模板匹配处理,获得与所述待识别票据图像匹配的票据模板,其中,所述票据模板的属性信息包括距离信息,所述距离信息为目标字段与参考字段在所述票据模板上的距离;
参考字段获取模块,用于通过参考字段识别模型对所述待识别票据图像进行处理,获得所述待识别票据图像中的参考字段的位置信息;
目标字段子图片获取模块,用于根据所述距离信息及所述待识别票据图像中的参考字段的位置信息获取目标字段子图片;
文本识别模块,用于通过文字识别模型识别所述目标字段子图片中的文本值。
根据本申请实施例的第三个方面,提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器执行时执行上述的票据图像识别方法。
根据本申请实施例的第四个方面,提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的票据图像识别方法。
本申请实施例中提供了一种票据图像识别方法、装置、电子设备和存储介质,首先通过模板匹配模型对待识别票据图像进行模板匹配处理,为待识别票据图像匹配相应的票据模板,通过参考字段识别模型获取待识别票据图像中的参考字段的位置信息,再根据匹配到的票据模板中预存的目标字段的位置信息与参考字段的位置信息之间的距离信息获取目标字段子图片,再通过文字识别模型对目标字段子图片中的文本进行识别。即使不同的票据图像的大小或者尺寸不同,本方法通过目标字段与参考字段之间的相对位置关系也能较为准确的识别出目标字段子图片,提升了票据图像的识别结果精度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的电子设备的架构图;
图2为本申请实施例提供的票据图像识别方法的流程图之一;
图3为本申请实施例提供的票据图像识别方法的流程图之二;
图4为本申请实施例提供的步骤S102的子步骤流程图;
图5为本申请实施例提供的训练参考字段识别模型步骤的流程图;
图6为本申请实施例提供的训练模板匹配模型步骤的流程图;
图7为本申请实施例提供的票据图像识别装置110的功能模块图。
图标:10-电子设备;11-处理器;12-存储器;13-总线;110-票据图像识别装置;1101-模板匹配模块;1102-参考字段获取模块;1103-模板字段获取模块;1104-文本识别模块。
具体实施方式
在实现本申请的过程中,发明人发现,现有的票据识别技术主要是对扫描文件进行识别,扫描文件的大小和位置固定,较为容易识别。但是随着智能移动设备的普及,目前票据信息通常是以照片的形式进行传递,由于拍摄的方法存在差异,不同的票据照片的大小和尺寸可能存在不同,现有基于扫描文件进行识别的技术在对图片形式的票据进行识别时,识别效果较差。
针对上述问题,本申请实施例中提供了一种票据图像识别方法、装置、电子设备和存储介质,首先通过模板匹配模型对待识别票据图像进行模板匹配处理,为待识别票据图像匹配相应的票据模板,通过参考字段识别模型获取待识别票据图像中的参考字段的位置信息,再根据匹配到的票据模板中预存的目标字段的位置信息与参考字段的位置信息之间的距离获取目标字段子图片,再通过文字识别模型对目标字段子图片中的文本进行识别。即使不同的票据图像的大小或者尺寸不同,本方法通过目标字段与参考字段之间的相对位置关系也能较为准确的识别出目标字段子图片,提升了票据图像的识别结果精度。
本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参照图1,图1为本申请实施例提供的电子设备10的架构图。在本实施例中,票据图像识别方法应用于图1中的电子设备10。在图1中,电子设备10包括:处理器11、存储器12和总线13,存储器12存储有处理器11可执行的机器可读指令,当电子设备10运行时,11处理器与存储器12之间通过总线13通信,机器可读指令被处理器11执行时执行本申请实施例提供的票据图像识别方法。电子设备10可以为具有数据分析功能的服务器或计算机等设备。
下面结合附图对本申请实施例提供的票据图像识别方法进行说明。
请参照图2,图2为本申请实施例提供的票据图像识别方法的流程图之一。在本实施例中,票据图像识别方法应用于图1中的电子设备10,该方法包括以下步骤:
步骤S101,通过模板匹配模型对待识别票据图像进行模板匹配处理,获得与待识别票据图像匹配的票据模板。
其中,所述票据模板的属性信息包括距离信息,所述距离信息为目标字段与参考字段在所述票据模板上的距离。
步骤S102,通过参考字段识别模型对待识别票据图像进行处理,获得待识别票据图像中的参考字段的位置信息。
步骤S103,根据距离信息及所述待识别票据图像中的参考字段的位置信息获取目标字段子图片;
步骤S104,通过文字识别模型识别目标字段子图片中的文本。
在上述步骤中,本申请实施例提供了一种票据图像识别方法,在识别待识别票据图像时,首先通过模板匹配模型对待识别票据图像进行模板匹配处理,为待识别票据图像匹配相应的票据模板,通过参考字段识别模型获取待识别票据图像中的参考字段的位置信息,再根据匹配到的票据模板中预存的目标字段的位置信息与参考字段的位置信息之间的距离获取目标字段子图片,最后通过文字识别模型对目标字段子图片中的文本进行识别。
由于每个票据目标中都存储有目标字段的位置信息与参考字段的位置信息之间的距离信息,即使不同的票据图像的大小或者尺寸不同,只要在获取到参考字段的位置信息后,就能通过目标字段与参考字段之间的相对位置关系较为准确的识别出目标字段子图片,既能提升票据图像的识别结果的精度,也能适用于各种不同大小的票据图像的识别。
可选地,在本实施例中,步骤S103,根据距离信息及待识别票据图像中的参考字段的位置信息获取目标字段子图片,包括:
根据所述目标字段与所述参考字段在所述票据模板上的距离及所述待识别票据图像中的参考字段的位置信息计算所述目标字段的位置信息;获取与目标字段的位置信息对应的目标字段子图片。
在本实施例中,在对票据图像进行识别时,首先获取待识别票据图像,并对待识别票据图像进行预处理,以将待识别票据图像裁剪或扩展为固定大小的图像(例如可以为1000*2000像素大小),并将该待识别票据图像输入至模板匹配模型进行模板匹配,获得与该待识别票据图像的匹配的票据模板(例如模板A),从而可以获得该票据模板(例如模板A)中的参考字段和目标字段之间的相对位置关系。
然后将待识别票据图像输入至参考字段识别模型中识别出参考字段的位置信息,并根据票据模板中的参考字段和目标字段之间的相对位置关系计算待识别票据图像中的目标字段的位置关系,从而可以从待识别票据图像中获取相应的目标字段子图片。最后将目标字段子图片输入至文字识别模型中进行文本识别,获得待识别票据图像的目标字段的文本值,完成票据图像的识别过程。
可选地,请参照图3,图3为本申请实施例提供的票据图像识别方法的流程图之二。在本实施例中,步骤S101之前,票据图像识别方法还包括:
步骤S105,获取多个票据模板,并建立票据模板库。
步骤S106,针对每个票据模板,对票据模板的多个参考字段的位置信息及票据模板的多个目标字段的位置信息进行标记。
步骤S107,计算每个目标字段与每个参考字段在票据模板上的距离。
在上述步骤中,在对待识别票据图像进行票据模板匹配之前,还需要建立票据模板库,票据模板库中包括多个票据模板,且每个票据模板都标记了该票据模板对应的参考字段的位置信息以及目标字段的位置信息。其中,参考字段可以是“发票号码”、“时间”、“发票名称”等固定字段,目标字段则为发票的具体编号、发票数额等内容。可选地,在选择参考字段时可以选择位于待识别票据图像的四个顶角附近的参考字段。
在本实施例中,属于同一个票据模板的不同的待识别票据图像的参考字段的位置和内容是相同的,目标字段的位置与参考字段的位置相对固定,但目标字段的内容不同。
在建立票据模板库之后,在为待识别票据图像匹配票据模板时,通过模板匹配模型从票据模板库中为待识别票据图像匹配相应的票据模板,从而可以获取到在待识别票据图像中参考字段的位置信息与目标字段的位置信息之间的相对距离。
可选地,请参照图4,图4为本申请实施例提供的步骤S102的子步骤流程图。在本实施例中,步骤S102包括以下子步骤:
子步骤S1021,对待识别票据图像进行边缘检测处理,获得待识别票据图像的边缘特征图像。其中,边缘特征图像包括文本内容和表格线段。
子步骤S1022,对边缘特征图像进行处理,去除边缘特征图像中的表格线段。
子步骤S1023,截取边缘特征图像中的文本内容对应的图像信息,获得多个子图像。
子步骤S1024,将多个子图像输入至参考字段识别模型进行分类识别,获得多个参考字段的位置信息。
在上述子步骤中,待识别票据图像中可能包括有表格线段以及文本内容。在通过参考字段识别模型对待识别票据进行处理时,可以先判断待识别票据图像的文本内容是否为水平方向,若不是,则旋转待识别票据图像,以使文字内容为水平方向。然后对待识别票据进行边缘检测处理,获得待识别票据图像的边缘特征图像。其中,边缘特征图像为待识别票据图像的二值图像,用于表示待识别票据图像的轮廓特征。在本实施例中,边缘特征图像中包括文本内容和表格线段。
为了降低边缘特征图像中的表格线段对后续截取子图像的影响,因此还需要将边缘特征图像中的表格线段去除。可选地,在去除表格线段时,首先可以在边缘特征图像的垂直方向上进行图像膨胀处理,即可以理解为在边缘特征图像的垂直方向进行拉伸,使得表格线段变粗;然后在边缘图像的水平方向进行图像腐蚀处理,图像腐蚀处理是将图像中的高亮区域或白色部分进行缩减细化,其运行结果图比原图的高亮区域更小。在经过垂直方向的图像膨胀处理和水平方向的腐蚀处理后,可以去除边缘特征图像中的水平线段。
而在去除边缘特征图像中的垂直线段时,首先在边缘特征图像的水平方向上进行图像膨胀处理,然后在边缘图像的垂直方向进行图像腐蚀处理,从而可以去除垂直线段。
在经常上述图像处理方法之后,即可去除边缘特征图像中的表格线段,仅保留边缘特征图像中的文本内容。然后再截取边缘特征图像中的文本内容对应的图像信息,即可获得多个子图像。
可选地,在本实施例中,子步骤S1021,截取边缘特征图像中的文本内容对应的图像信息,获得多个子图像的步骤可以包括:
对边缘特征图像进行膨胀处理,使相邻的文本内容形成连通域;从边缘特征图像中截取与连通域的位置信息对应的子图像,获得多个所述子图像。
在上述步骤中,在截取边缘特征图像时,可以先对边缘特征图像的水平方向进行图像膨胀处理,使得相邻的文本内容重叠,形成一个连通域。例如,若待识别票据图像上存在“发票号码”这一文本内容时,相邻的文字之间存在一定的间隙,在水平方向进行图像膨胀处理后,相邻的文字之间发生重叠,从而形成一个连通域。当然,在一张待识别票据图像中,在图像膨胀处理后,可能存在多个连通域。然后再从边缘特征图像中截取与连通域的位置信息对应的子图像,从而可以获得多个子图像。值得说明的是,每一个子图像对应着待识别票据图像中的其中一段文本内容。
值得说明的是,在本实施例中,截取获得的多个子图像并不全是待识别票据图像的参考字段。因此,需要将多个子图像输入至参考字段识别模型进行分类识别,从而获得相应的参考字段以及各个参考字段的位置信息。
可选地,在本实施例的一种实施方式中,在获取目标字段子图片时,可能会计算出多个目标字段的位置信息,此时,可以计算每个目标字段与参考字段对应的连通域之间重叠的部分,将重叠部分最多的目标字段识别为目标字段子图片。
可选地,请参照图5,图5为本申请实施例提供的训练参考字段识别模型步骤的流程图。在本实施例中,对参考字段识别模型进行训练的步骤包括:
步骤S201,获取多个参考字段训练样本,对参考字段训练样本进行标记。
步骤S202,将多个参考字段训练样本输入至深度学习图片分类模型中进行训练,获得参考字段分类结果。
步骤S203,根据各个参考字段分类结果与各个参考字段训练样本的标记结果计算深度学习图片分类模型的分类准确度。
步骤S204,当分类准确度不大于预设阈值时,调整深度学习图片分类模型的网络参数。
步骤S205,重复将多个参考字段训练样本输入至深度学习图片分类模型中进行训练的步骤,直至分类准确度大于预设阈值,完成训练,获得训练好的参考字段识别模型。
在上述步骤中,在训练参考字段识别模型时,首先需要获取大量属于同一票据模板的参考字段训练样本,并对每一个参考字段训练样本进行标记。例如,若参考字段训练样本所属的票据模板包括4个参考字段时,则将各个参考字段训练样本分别标记为参考字段1、参考字段2、参考字段3以及参考字段4。
将标记好的参考字段训练样本输入至深度学习图片分类模型中进行训练,输出参考字段分类结果,然后将实际输出的每个参考字段训练样本的参考字段分类结果与标记结果进行对比,并计算分类结果的准确度。例如,若输入500个参考字段训练样本,其中200个参考字段训练样本的实际输出的分类结果与标记结果相同,则此次的分类准确度为40%。
判断分类结果的准确度是否大于预设阈值,如果不大于预设阈值,则需要对深度学习图片分类模型的网络参数进行调整,并将参考字段训练样本继续输入至深度学习图片分类模型中进行训练,重复上述步骤,直至分类结果的准确度大于预设阈值,即可结束训练,结束训练时的分类模型即为训练好的参考字段识别模型。
可选地,请参照图6,图6为本申请实施例提供的训练模板匹配模型步骤的流程图。在本实施例中,对模板匹配模型进行训练的步骤包括:
步骤S301,获取多个模板训练样本,并对每个模板训练样本进行标记。
步骤S302,构建深度学习图片分类模型对多个模板训练样本进行分类识别,获得各个模板训练样本的模板分类结果。
步骤S303,根据各个模板分类结果与各个模板训练样本的标记结果计算深度学习图片分类模型的分类准确度。
步骤S304,当分类准确度不大于预设阈值时,调整深度学习图片分类模型的网络参数。
步骤S305,重复将多个模板训练样本输入至深度学习图片分类模型中进行训练的步骤,直至分类准确度大于预设阈值,完成训练,获得训练好的模板匹配模型。
上述步骤中,在训练模板匹配模型时,首先需要获取大量的不同的模板训练样本,其中,模板训练样本应当包括多个不同的票据模板。然后对每一个模板训练样本进行标记。例如,按照模板训练样本实际的票据模板的种类将模板训练样本标记为模板1、模板2、模板3、模板4等。
将标记好的模板训练样本输入至深度学习图片分类模型中进行训练,输出模板分类结果,然后将实际输出的每个模板训练样本的模板分类结果与标记结果进行对比,并计算分类结果的准确度。例如,若输入1000个模板训练样本,其中800个模板训练样本的实际输出的分类结果与标记结果相同,则此次的分类准确度为80%。
判断分类结果的准确度是否大于预设阈值,如果不大于预设阈值,则需要对深度学习图片分类模型的网络参数进行调整,并将模板训练样本继续输入至深度学习图片分类模型中进行训练,重复上述步骤,直至分类结果的准确度大于预设阈值,即可结束训练,结束训练时的分类模型即为训练好的模板匹配模型。
综上所述,本申请实施例中提供了一种票据图像识别方法,首先通过模板匹配模型对待识别票据图像进行模板匹配处理,为待识别票据图像匹配相应的票据模板,通过参考字段识别模型获取待识别票据图像中的参考字段的位置信息,再根据匹配到的票据模板中预存的目标字段的位置信息与参考字段的位置信息之间的距离获取目标字段子图片,再通过文字识别模型对目标字段子图片中的文本进行识别。即使不同的票据图像的大小或者尺寸不同,本方法通过目标字段与参考字段之间的相对位置关系也能较为准确的识别出目标字段子图片,提升了票据图像的识别结果精度。
另外,现有技术的票据照片识别系统在识别票据图像时,先固定文字参考位置,再圈定文字识别位置,需要一个强大的文字识别库,而且在识别文字参考位置时,需要识别文字内容,识别效率低。而本申请实施例则直接采用图片分类的方法直接识别参考字段的位置,无需进行文字内容的识别,识别效率更高。
可选地,请参照图7,图7为本申请实施例提供的票据图像识别装置110的功能模块图,该装置应用于图1中的电子设备10,包括:
模板匹配模块1101,用于通过模板匹配模型对待识别票据图像进行模板匹配处理,获得与所述待识别票据图像匹配的票据模板,其中,所述票据模板的属性信息包括距离信息,所述距离信息为目标字段与参考字段在所述票据模板上的距离;
参考字段获取模块1102,用于通过参考字段识别模型对所述待识别票据图像进行处理,获得所述待识别票据图像中的参考字段的位置信息;
目标字段子图片获取模块1103,用于根据所述距离信息及所述待识别票据图像中的参考字段的位置信息获取目标字段子图片;
文本识别模块1104,用于通过文字识别模型识别所述目标字段子图片中的文本值。
值得说明的是,票据图像识别装置110中各个模块的工作原理及流程可参照前述提供的票据图像识别方法,在此不再赘述。
可选地,本申请实施例还提供了一种存储介质,存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的票据图像识别方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种票据图像识别方法,其特征在于,所述方法包括:
通过模板匹配模型对待识别票据图像进行模板匹配处理,获得与所述待识别票据图像匹配的票据模板,其中,所述票据模板的属性信息包括距离信息,所述距离信息为目标字段与参考字段在所述票据模板上的距离;
通过参考字段识别模型对所述待识别票据图像进行处理,获得所述待识别票据图像中的参考字段的位置信息;
根据所述距离信息及所述待识别票据图像中的参考字段的位置信息获取目标字段子图片;
通过文字识别模型识别所述目标字段子图片中的文本。
2.根据权利要求1所述的方法,其特征在于,在通过模板匹配模型对待识别票据图像进行模板匹配处理之前,所述方法还包括:
获取多个票据模板,并建立票据模板库;
针对每个票据模板,对所述票据模板的多个参考字段的位置信息及所述票据模板的多个目标字段的位置信息进行标记;
计算每个所述目标字段与每个所述参考字段在所述票据模板上的距离。
3.根据权利要求2所述的方法,其特征在于,所述通过参考字段识别模型对所述待识别票据图像进行处理,获得所述待识别票据图像中的参考字段的位置信息,包括:
对所述待识别票据图像进行边缘检测处理,获得所述待识别票据图像的边缘特征图像,其中,所述边缘特征图像包括文本内容和表格线段;
对所述边缘特征图像进行处理,去除所述边缘特征图像中的表格线段;
截取所述边缘特征图像中的文本内容对应的图像信息,获得多个子图像;
将多个所述子图像输入至所述参考字段识别模型进行分类识别,获得多个参考字段的位置信息。
4.根据权利要求3所述的方法,其特征在于,所述截取所述边缘特征图像中的文本内容对应的图像信息,获得多个子图像,包括:
对所述边缘特征图像进行膨胀处理,使相邻的文本内容形成连通域;
从所述边缘特征图像中截取与所述连通域的位置信息对应的子图像,获得多个所述子图像。
5.根据权利要求1所述的方法,其特征在于,根据所述距离信息及所述待识别票据图像中的参考字段的位置信息获取目标字段子图片,包括:
根据所述目标字段与所述参考字段在所述票据模板上的距离及所述待识别票据图像中的参考字段的位置信息计算所述目标字段的位置信息;
获取与目标字段的位置信息对应的目标字段子图片。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括对所述参考字段识别模型进行训练的步骤,所述步骤包括:
获取多个参考字段训练样本,对所述参考字段训练样本进行标记;
将多个所述参考字段训练样本输入至深度学习图片分类模型中进行训练,获得参考字段分类结果;
根据各个所述参考字段分类结果与各个所述参考字段训练样本的标记结果计算所述深度学习图片分类模型的分类准确度;
当所述分类准确度不大于预设阈值时,调整所述深度学习图片分类模型的网络参数;
重复将多个所述参考字段训练样本输入至深度学习图片分类模型中进行训练的步骤,直至所述分类准确度大于预设阈值,完成训练,获得训练好的参考字段识别模型。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括对所述模板匹配模型进行训练的步骤,所述步骤包括:
获取多个模板训练样本,并对每个所述模板训练样本进行标记;
构建深度学习图片分类模型对多个所述模板训练样本进行分类识别,获得各个所述模板训练样本的模板分类结果;
根据各个所述模板分类结果与各个所述模板训练样本的标记结果计算所述深度学习图片分类模型的分类准确度;
当所述分类准确度不大于预设阈值时,调整所述深度学习图片分类模型的网络参数;
重复将多个所述模板训练样本输入至深度学习图片分类模型中进行训练的步骤,直至所述分类准确度大于预设阈值,完成训练,获得训练好的模板匹配模型。
8.一种票据图像识别装置,其特征在于,所述装置包括:
模板匹配模块,用于通过模板匹配模型对待识别票据图像进行模板匹配处理,获得与所述待识别票据图像匹配的票据模板,其中,所述票据模板的属性信息包括距离信息,所述距离信息为目标字段与参考字段在所述票据模板上的距离;
参考字段获取模块,用于通过参考字段识别模型对所述待识别票据图像进行处理,获得所述待识别票据图像中的参考字段的位置信息;
目标字段子图片获取模块,用于根据所述距离信息及所述待识别票据图像中的参考字段的位置信息获取目标字段子图片;
文本识别模块,用于通过文字识别模型识别所述目标字段子图片中的文本值。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1-7任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-7任一项所述的方法。
CN202011580156.3A 2020-12-28 2020-12-28 票据图像识别方法、装置、电子设备和存储介质 Active CN112669515B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011580156.3A CN112669515B (zh) 2020-12-28 2020-12-28 票据图像识别方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011580156.3A CN112669515B (zh) 2020-12-28 2020-12-28 票据图像识别方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN112669515A true CN112669515A (zh) 2021-04-16
CN112669515B CN112669515B (zh) 2022-09-27

Family

ID=75410709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011580156.3A Active CN112669515B (zh) 2020-12-28 2020-12-28 票据图像识别方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112669515B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113485618A (zh) * 2021-07-05 2021-10-08 上海商汤临港智能科技有限公司 自定义识别模板的生成方法、证件的识别方法以及装置
CN113591657A (zh) * 2021-07-23 2021-11-02 京东科技控股股份有限公司 Ocr版面识别的方法、装置、电子设备及介质
CN114092948A (zh) * 2021-11-24 2022-02-25 北京百度网讯科技有限公司 一种票据识别方法、装置、设备以及存储介质
CN114743198A (zh) * 2022-03-14 2022-07-12 中国银行股份有限公司 带表格票据识别方法及装置
CN115311663A (zh) * 2022-08-09 2022-11-08 青岛海信信息科技股份有限公司 一种ocr识别方法和设备
CN117437506A (zh) * 2023-12-20 2024-01-23 深圳兔展智能科技有限公司 训练样本生成方法、装置、计算机设备及存储介质
CN118552973A (zh) * 2024-07-25 2024-08-27 深圳市前海泽金产融科技有限公司 票据识别方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120061043A (ko) * 2012-02-24 2012-06-12 주식회사 비즈모델라인 컨텐츠 제공 방법
CN106156715A (zh) * 2015-04-24 2016-11-23 富士通株式会社 分析表格图像的布局的方法和设备
CN109934227A (zh) * 2019-03-12 2019-06-25 上海兑观信息科技技术有限公司 图像文字识别系统和方法
CN110796182A (zh) * 2019-10-15 2020-02-14 西安网算数据科技有限公司 一种少量样本的票据分类方法及系统
CN110866495A (zh) * 2019-11-14 2020-03-06 杭州睿琪软件有限公司 票据图像识别方法及装置和设备、训练方法和存储介质
CN111931784A (zh) * 2020-09-17 2020-11-13 深圳壹账通智能科技有限公司 票据识别方法、系统、计算机设备与计算机可读存储介质
CN112052857A (zh) * 2020-09-02 2020-12-08 中国银行股份有限公司 一种票据图像中目标字段的检测方法及相关装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120061043A (ko) * 2012-02-24 2012-06-12 주식회사 비즈모델라인 컨텐츠 제공 방법
CN106156715A (zh) * 2015-04-24 2016-11-23 富士通株式会社 分析表格图像的布局的方法和设备
CN109934227A (zh) * 2019-03-12 2019-06-25 上海兑观信息科技技术有限公司 图像文字识别系统和方法
CN110796182A (zh) * 2019-10-15 2020-02-14 西安网算数据科技有限公司 一种少量样本的票据分类方法及系统
CN110866495A (zh) * 2019-11-14 2020-03-06 杭州睿琪软件有限公司 票据图像识别方法及装置和设备、训练方法和存储介质
CN112052857A (zh) * 2020-09-02 2020-12-08 中国银行股份有限公司 一种票据图像中目标字段的检测方法及相关装置
CN111931784A (zh) * 2020-09-17 2020-11-13 深圳壹账通智能科技有限公司 票据识别方法、系统、计算机设备与计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张青: "文档图像的版面分析与文本行提取算法研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》, 15 February 2020 (2020-02-15), pages 40 - 43 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113485618A (zh) * 2021-07-05 2021-10-08 上海商汤临港智能科技有限公司 自定义识别模板的生成方法、证件的识别方法以及装置
CN113591657A (zh) * 2021-07-23 2021-11-02 京东科技控股股份有限公司 Ocr版面识别的方法、装置、电子设备及介质
CN113591657B (zh) * 2021-07-23 2024-04-09 京东科技控股股份有限公司 Ocr版面识别的方法、装置、电子设备及介质
CN114092948A (zh) * 2021-11-24 2022-02-25 北京百度网讯科技有限公司 一种票据识别方法、装置、设备以及存储介质
CN114092948B (zh) * 2021-11-24 2023-09-22 北京百度网讯科技有限公司 一种票据识别方法、装置、设备以及存储介质
CN114743198A (zh) * 2022-03-14 2022-07-12 中国银行股份有限公司 带表格票据识别方法及装置
CN115311663A (zh) * 2022-08-09 2022-11-08 青岛海信信息科技股份有限公司 一种ocr识别方法和设备
CN117437506A (zh) * 2023-12-20 2024-01-23 深圳兔展智能科技有限公司 训练样本生成方法、装置、计算机设备及存储介质
CN118552973A (zh) * 2024-07-25 2024-08-27 深圳市前海泽金产融科技有限公司 票据识别方法、装置、设备及存储介质
CN118552973B (zh) * 2024-07-25 2024-09-27 深圳市前海泽金产融科技有限公司 票据识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112669515B (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
CN112669515B (zh) 票据图像识别方法、装置、电子设备和存储介质
US20210383150A1 (en) Iterative recognition-guided thresholding and data extraction
US11380113B2 (en) Methods for mobile image capture of vehicle identification numbers in a non-document
US10140511B2 (en) Building classification and extraction models based on electronic forms
US9754164B2 (en) Systems and methods for classifying objects in digital images captured using mobile devices
US11657631B2 (en) Scalable, flexible and robust template-based data extraction pipeline
CN110569341B (zh) 配置聊天机器人的方法、装置、计算机设备和存储介质
CN109583299B (zh) 电子装置、证件识别方法及存储介质
CN110781877B (zh) 一种图像识别方法、设备及存储介质
EP3783524A1 (en) Authentication method and apparatus, and electronic device, computer program, and storage medium
CN110675940A (zh) 病理图像标注方法、装置、计算机设备及存储介质
CN112487848A (zh) 文字识别方法和终端设备
CN112686243A (zh) 智能识别图片文字的方法、装置、计算机设备及存储介质
CN110866457A (zh) 一种电子保单的获得方法、装置、计算机设备和存储介质
CN111414905A (zh) 一种文本检测方法、文本检测装置、电子设备及存储介质
CN111462388A (zh) 一种票据检验方法、装置、终端设备及存储介质
CN112232336A (zh) 一种证件识别方法、装置、设备及存储介质
CN105095889B (zh) 特征提取、字符识别、引擎生成、信息确定方法及装置
CN112396060A (zh) 基于身份证分割模型的身份证识别方法及其相关设备
CN111242112A (zh) 一种图像处理方法、身份信息处理方法及装置
CN110765826A (zh) 一种可移植文档格式pdf中的乱码识别方法和装置
CN114677769B (zh) 一种翻拍证件识别方法、装置、计算机设备及存储介质
Chakraborty et al. Text extraction from image using MATLAB
CN115311663A (zh) 一种ocr识别方法和设备
Khan et al. Pre-Processing Images of Public Signage for OCR Conversion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant