CN116052186A - 多模态发票自动分类识别方法、校验方法及系统 - Google Patents

多模态发票自动分类识别方法、校验方法及系统 Download PDF

Info

Publication number
CN116052186A
CN116052186A CN202310078130.6A CN202310078130A CN116052186A CN 116052186 A CN116052186 A CN 116052186A CN 202310078130 A CN202310078130 A CN 202310078130A CN 116052186 A CN116052186 A CN 116052186A
Authority
CN
China
Prior art keywords
invoice
classification
text information
field
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310078130.6A
Other languages
English (en)
Inventor
柴亚团
曹璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Rongzhi Technology Co ltd
Original Assignee
Wuxi Rongzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Rongzhi Technology Co ltd filed Critical Wuxi Rongzhi Technology Co ltd
Priority to CN202310078130.6A priority Critical patent/CN116052186A/zh
Publication of CN116052186A publication Critical patent/CN116052186A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K17/00Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations
    • G06K17/0022Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations arrangements or provisious for transferring data to distant stations, e.g. from a sensing device
    • G06K17/0025Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations arrangements or provisious for transferring data to distant stations, e.g. from a sensing device the arrangement consisting of a wireless interrogation device in combination with a device for optically marking the record carrier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种多模态发票自动分类识别方法、校验方法及系统,其可识别不同格式电子发票,可实现发票中目标字段的自动分类识别和校验,可提高识别、校验效率和准确性,识别分类方法包括:获取原始发票图像、票面的第一文本信息、第二文本信息、字段及字段属性,建立自注意力模型,若自注意力模型输出字段类别、关联对象与字段属性中的真实字段类别、关联对象内容一致,则表明能够实现发票的准确分类识别,校验方法包括上述多模态发票自动分类识别方法,还包括:对发票进行真伪进行校验;系统包括计算机系统、采集系统,计算机系统包括数据处理模块、存储模块、显示模块,采集系统包括扫描模块、二维码获取模块、拍照模块。

Description

多模态发票自动分类识别方法、校验方法及系统
技术领域
本发明涉及发票查验技术领域,具体为一种多模态发票自动分类识别方法、校验方法及系统。
背景技术
随着信息技术发展,电子发票广泛应用,目前常用的进项电子发票管理方式是将发票拍照上传至计算机系统中,然后以划分为多个区域方式或通过OCR文字识别方式按行读取待识别发票中目标区域的文本信息,获得目标文本,再将从目标文本中获得的票面信息整合成表格输出,最后财务人员根据人工查验结果判断发票票面信息是否符合规范,这种发票识别、校验方式效率慢,而且易受主观影响,准确率差,不符合财务工作高时效性要求。
发明内容
针对现有技术中存在的财务人员根据人工查验结果判断发票票面信息是否符合规范的方式效率慢、准确性差技术问题,本发明提供了一种多模态发票自动分类识别方法、校验方法,其可识别不同格式电子发票,可实现发票中目标字段的自动分类识别和校验,可提高识别、校验效率和准确性。
为实现上述目的,本发明采用如下技术方案:
一种多模态发票自动分类识别方法,其特征在于,该方法基于计算机系统实现,所述方法包括:S1、获取原始发票图像、发票二维码;
S2、基于OCR文字识别技术,获取原始发票图像中发票票面的第一文本信息,对发票二维码进行解析,获取第二文本信息,所述第一文本信息、第二文本信息均通过字段表示;
S3、对第一文本信息、第二文本信息中的字段分类,将字段划分为:关键词、数值;
S4、获取字段属性,所述字段属性包括:文本内容、相对位置、图像特征、字段类别、关联对象;
S5、将所述字段属性划分为训练集、测试集;
S6、基于训练集,对分类模型进行训练,建立分类模型,分类模型输出字段类别和关联对象,分类模型为自注意力模型;
对分类模型进行训练的步骤包括:S61、构建相对位置矩阵、图像特征矩阵、文本内容矩阵;
S62、所述文本内容矩阵、相对位置矩阵、图像特征矩阵融合,获得融合特征矩阵;
S63、将所述融合特征矩阵输入自注意力模型中对其进行训练,建立自注意力模型;
S7、基于建立的自注意力模型,输出测试集的分类结果,判断分类结果中字段类别、关联对象与测试集中的真实字段类别、关联对象内容是否一致,若是,则表明所建立的所述分类模型能够实现发票的准确分类识别,反之,则表明无法实现发票的准确分类识别。
其进一步特征在于,
步骤S1中,原始发票图像包括:统一格式的发票扫描图片、PDF格式或OFD格式发票文档转换的发票图片、相机采集发票图像;
步骤S1中,获取原始发票图像的方式包括但不限于:S11、通过扫描仪扫描获取发票扫描图片并上传至计算机系统,S12、将PDF格式、OFD格式的发票文档上传至计算机系统并解析为发票图片,S13、使用扫描枪扫描获取发票二维码并上传至计算机系统,S14,相机采集发票图像并上传至计算机系统,S15、将发票扫描图片、发票图片、相机采集发票图像转换为统一格式的原始发票图像后保存至存储器中;
进一步的,所述第一文本信息、第二文本信息包括但不限于代码、金额、开票日期、发票号码、发票验证码;
进一步的,步骤S61中,构建相对位置矩阵:使用矩形框工具获取每个字段的索引位置,基于索引位置,构建字段的坐标向量时,以所述原始发票图像的左上角为原点(0,0),设定原始发票图像的高为x轴,宽为y轴;
将索引位置的坐标向量定义为:(x1,y1,x2,y2),其中,x1表示矩形框的左上角点的横坐标,y1表示矩形框左上角点的纵坐标,x2表示矩形框右下角点的横坐标,y1表示矩形框右下角点的纵坐标;
将每个字段的索引位置的坐标向量放入第一矩阵中,形成相对位置矩阵。
进一步的,构建图像特征矩阵:S6121、基于卷积神经网络,对输入的原始发票图像进行特征提取,得到一个卷积核;
S6122、基于卷积核,采用嵌入层方式对图像编码,获取图像特征向量;
S6123、将所述图像特征向量放入第二矩阵,形成所述图像特征矩阵;
进一步的,构建文本内容矩阵:S6131、将文本信息中的字段以词语方式分割;
S6132、将所述词语输入bert预训练模型,bert预训练模型输出每个词语的词向量;
S6133、将所述词向量放入第三矩阵,形成所述文本内容矩阵;
进一步的,步骤S63中,将所述字段属性构成的融合特征矩阵作为自注意力模型的输入数据对其进行训练,并在所述自注意力模型中加入分类层进行分类:S631、使用预先定义的关联对象标签作为监督信号,通过分类层分类,输出字段的关联对象;所述关联对象包括关键字、与关键字对应关联的数值;
S632、使用预先定义的字段类别标签作为监督信号,通过分类层分类,输出字段类别。
一种多模态发票自动校验方法,其特征在于,该方法包括上述步骤S1~S7,所述方法还包括:S8,对发票进行真伪校验,S81、基于步骤S7判断后的字段类别和关联对象,截取原始发票图像中的对应目标区域;
S82、基于OCR文字识别技术,对所述目标区域进行识别,提取目标区域的第一文本信息;
S83、基于所述第一文本信息、第二文本信息对所述发票的真伪进行校验:若所述第一文本信息与第二文本信息与预先存储的相应发票票面文本信息一致,则表明所述发票为真,反之,则表明所述发票为假。
其进一步特征在于,
所述方法还包括:S9、根据业务需求,将分类识别准确的发票和/或校验真实的发票配置入库。
一种多模态发票自动分类识别与校验系统,该系统用于实现上述多模态发票自动分类识别方法以及上述多模态发票自动校验方法,所述系统包括计算机系统、采集系统,其特征在于,所述计算机系统包括数据处理模块、存储模块、显示模块,所述采集系统包括扫描模块、二维码获取模块、拍照模块,所述扫描模块、二维码获取模块、拍照模块分别与所述数据处理模块通信连接;
所述扫描模块包括扫描仪,所述扫描仪用于扫描发票并将发票扫描图片上传至数据处理模块;
所述二维码获取模块包括扫描枪,所述扫描枪用于扫描发票中的二维码并将发票二维码上传至所述数据处理模块;
所述拍照模块包括相机,所述相机用于拍摄发票图像并将发票图像发送至所述数据处理模块;
所述数据处理模块用于对发票扫描图片、相机采集发票图像、PDF格式或OFD格式发票文档进行OCR文字识别、二维码解析、文本信息解析、分类识别、真伪校验;
所述存储模块存储的内容至少包括:所述发票扫描图片、PDF格式或OFD格式发票文档、相机采集发票图像、真实发票的字段类别与关联对象、分类识别结果、发票真实性验证结果进行存储;
所述显示模块包括显示器,所述显示器显示内容至少包括:发票字段分类识别结果、发票真实性验证结果。
采用本发明上述方法可以达到如下有益效果:本申请多模态发票自动分类识别方法中,将文本信息解析为若干字段,并基于字段属性的文本内容、相对位置、图像特征构成的融合数据集(即融合特征矩阵)建立的分类模型对发票字段进行分类,分类准确率达98%,分类准确率高。另外,字段分类准确,表明采用此数据构成方法及模型获得的字段与实际发票中字段的文本内容、相对位置以及图像特征一致性较高,能够实现发票票面文本信息的自动精确识别。
本申请多模态发票自动分类识别方法中,获取了发票扫描图片、PDF格式或OFD格式发票文档、发票二维码、相机采集发票图像等不同格式的发票文档,基于这些文档的文本内容、相对位置、图像特征等字段属性构建的融合数据集建立分类模型,能够实现这些不同格式发票文档的字段分类和准确识别,因此,该多模态发票自动分类识别方法能够适用于多模态发票的自动分类识别,适用场景多,适用范围广。
本申请多模态发票自动校验方法中,基于步骤S6输出的字段类别和关联对象,截取原始发票图像中的对应目标区域,由于上述多模态发票自动分类识别方法对发票字段分类的准确率高,因此,基于此划分的目标区域也较为精确,这种将发票票面精准划分为不同目标区域并分别识别验证的方式,不仅避免了不同目标区域中字段距离较近而影响后续识别和校验准确性的问题出现,而且相比于人工查验方式,本申请校验方法有利于对发票票面每个目标区域分别进行验证,防止了漏检、误检等问题出现,大大提高了发票校验的效率和准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为目前常用的发票校验流程图;
图2为本发明多模态发票自动分类识别方法的流程图;
图3为本发明多模态发票自动校验方法的流程图;
图4为本发明多模态发票自动分类识别与校验系统的结构框图;
图5为本发明原始发票图像的结构示意图;
图6为本发明在原始发票图像中加入索引后的结构示意图。
附图说明:数据处理模块1、存储模块2、显示模块3,扫描模块4、二维码获取模块5、拍照模块6、PDF格式和/或OFD格式发票文档7。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1提供了一种目前常用的人工查验发票票面信息的流程图,步骤包括:
a1,财务人员将PDF格式电子发票转化为图片格式,将纸质发票拍照上传至计算机系统中;
a2,计算机系统根据OCR文字识别方法对其进行识别,并将识别结果反馈给财务人员;
a3、财务人员通过人工对发票关键词进行查验,并根据查验结果进行后续操作,此方法存在以下问题:
(1)当发票识别量较大时,人工对发票关键词进行查验的方式,识别效率低,耗费时间长,并且容易错收漏检,识别准确率不高;
(2)现有OCR识别技术,获取的是电子发票票面的全部文本信息,对文本信息中目标字段进行识别时,主要采用正则表达式的方式,这种识别方式对发票中布局整齐统一性要求较高,但实际应用中,发票票面中布局整齐统一性较差,存在字段结构、布局、含义不统一等现象,并且容易受拍摄角度等影响,导致目标字段识别准确性差等问题出现。
(3)发票中存在英文字母、数字、中文等多种语言格式,且票面信息多样,只采用OCR识别技术难以将不同目标字段准确分类,因此,现有的采用正则表达式识别发票目标字段的方式所适用的发票场景较少,适用范围窄。
针对现有技术中存在的上述技术问题,以下提供了一种多模态发票自动分类识别、校验系统以及应用该系统的多模态发票自动分类识别、校验方法,其中,系统包括计算机系统、采集系统,计算机系统包括数据处理模块1、存储模块2、显示模块3,采集系统包括扫描模块4、二维码获取模块5、拍照模块6,扫描模块、二维码获取模块、拍照模块分别与数据处理模块通信连接。
扫描模块4包括扫描仪,扫描仪用于扫描发票并将发票扫描图片上传至数据处理模块;二维码获取模块5包括扫描枪,扫描枪用于扫描发票中的二维码并将发票二维码上传至数据处理模块;拍照模块6包括相机,相机用于拍摄发票图像并将发票图像发送至数据处理模块;PDF格式和/或OFD格式发票文档7由财务人员转载上传至计算机系统中。
数据处理模块1用于对发票扫描图片、相机采集发票图像、PDF格式和/或OFD格式发票文档进行OCR文字识别、二维码解析、文本信息解析、分类识别、真伪校验等;存储模块2用于存储发票扫描图片、PDF格式或OFD格式发票文档、相机采集发票图像、统一格式的原始发票图像、真实发票的字段类别与关联对象、分类识别结果、发票真实性验证结果等内容;显示模块3包括显示器,通过显示器对发票字段分类识别结果、发票真实性验证结果等进行显示,以便财务人员在需求时查看。
应用上述系统进行多模态发票自动分类识别,参考图2,分类识别的具体步骤包括:
S1、将采集系统采集的发票扫描图片、PDF格式和/或OFD格式发票文档、发票二维码、相机采集发票图像上传并存储至计算机系统中,发票扫描图片、PDF格式和/或OFD格式发票文档、发票照片统一格式后作为原始发票图像,见图5;多模态发票指发票扫描图片、PDF格式和/或OFD格式发票文档、发票二维码、相机采集发票图像等不同格式发票。
通过数据处理模块对发票扫描图片、PDF格式和/或OFD格式发票文档、发票照片的格式转换为统一格式图片(即原始发票图像)后再次存储,以便于后续采用深度学习模型对其进行处理,例如采用现有的java工具实现图片格式的统一转换。
S2、基于OCR文字识别技术,识别获取原始发票图像中发票票面的第一文本信息,对发票二维码进行解析,获取第二文本信息,发票二维码是利用防伪开票子系统提供的加密功能,将发票上的主要信息(包括开票日期、发票代码、发票号码、税前金额、校验码等)经数据加密形成防伪电子密码(也称密文)打印在发票上(即密码区),通过现有的二维码解析方法则可获取到发票的主要信息,即第二文本信息。第一文本信息、第二文本信息均通过字段表示。税务局或财务人员在检验发票时,通过代码、金额、开票日期、发票验证码、金额几个方面即可检验发票真伪,因此,本申请中第一文本信息、第二文本信息应用了发票票面信息中的代码、金额、开票日期、发票号码、发票验证码。
S3、对第一文本信息、第二文本信息中的字段进行分类,将字段划分为:关键词、数值。关键词与数值可能单独存在,即关键词后面没有数值,或数值前没有对应关键词,在一些文本信息中,关键词与数值会同时存在,在本申请所应用到的第一文本信息、第二文本信息中,代码、发票验证码的字段一般只包含数值,例如代码由位于发票左上角的一个10位数的一串数字构成,例如:3100172320。金额、开票日期、发票号码一般包含关键词和数值,例如在开票日期中,关键词为:开票日期,数值为:2017年12月05日。
S4、获取字段属性,字段属性包括:文本内容、相对位置、图像特征、字段类别、关联对象;其中,文本内容、相对位置、图像特征为发票字段本身所具有的属性,字段类别为代码、金额、开票日期、发票号码、发票验证码等,关联对象指字段中关键词与数值对应关联,一个关键词对应一个数值或几个数值,若没有与关键词对应的数值,或没有与数值对应的关键词,则后续分类模型的该项输出为空。
S5、将字段属性划分为训练集、测试集;
S6、基于训练集中的字段属性,对分类模型进行训练,建立分类模型,分类模型输出字段类别和关联对象,对分类模型进行训练的步骤包括:
S61、构建相对位置矩阵、图像特征矩阵、文本内容矩阵;
构建相对位置矩阵:使用矩形框工具获取每个字段的索引位置(索引位置即每个字段在原始发票图像中的坐标),基于每个字段的索引位置,获取字段的坐标向量时,以所述原始发票图像的左上角为原点(0,0),设定原始发票图像的高为x轴,宽为y轴;
将索引位置的坐标向量定义为:(x1,y1,x2,y2),其中,x1表示矩形框的左上角点的横坐标,y1表示矩形框左上角点的纵坐标,x2表示矩形框右下角点的横坐标,y1表示矩形框右下角点的纵坐标;
将每个字段的坐标向量放入第一矩阵中,形成相对位置矩阵。
构建图像特征矩阵:S6121、基于卷积神经网络,对输入的原始发票图像进行特征提取,得到一个卷积核;
S6122、基于卷积核,采用嵌入层方式对图像编码,获取图像特征向量;
S6123、将图像特征向量放入第二矩阵,形成图像特征矩阵。
构建文本内容矩阵:S6131、将文本信息中的字段分割为词语;
S6132、将词语输入bert预训练模型,获取每个词语的词向量;
S6133、将词向量放入第三矩阵,形成文本内容矩阵。
S62、将文本内容矩阵、相对位置矩阵、图像特征矩阵融合,获得融合特征矩阵;本实施例中,将文本内容矩阵、相对位置矩阵、图像特征矩阵分别加权后相乘,获得融合特征矩阵。
S63、将融合特征矩阵输入自注意力模型中进行训练,建立自注意力模型,具体地,将字段属性构成的融合特征矩阵作为自注意力模型的输入数据对其进行训练,并在自注意力模型中加入分类层进行分类,训练步骤包括:
S631、使用预先定义的关联对象标签作为监督信号,通过分类层分类,输出字段的关联对象;
S632、使用预先定义的字段类别标签作为监督信号,通过分类层分类,输出字段类别。
S7、将测试集字段属性中的文本内容、相对位置、图像特征输入建立的分类模型中,通过训练好的自注意力模型对字段关联、分类后,输出字段类别、关联对象,若输出字段类别、关联对象与测试集字段属性中的真实字段类别、关联对象内容一致,则表明所建立的分类模型能够实现发票的准确分类识别,进入步骤S8,反之,则表明无法实现发票的准确分类识别,结束流程。
本申请自注意力模型的训练是基于发票文本信息中字段本身所具有的属性:文本内容、相对位置、图像特征训练获得的,每个字段的属性均不同,因此,采用此模型有利于获得更准确的字段分类和对象关联结果,字段的准确分类以及对象的准确关联,提高了发票识别的准确性。
另外,字段属性中,相对位置容易受图像拍摄角度等因素影响,导致最终识别结果不准确,但本申请分类识别方法中,用于模型训练的融合特征矩阵中,除包含有相对位置构成的相对位置矩阵,还包含有文本内容构成的文本内容矩阵以及由图像特征构成的图像特征矩阵,本申请自注意力模型的分类结果是基于相对文字矩阵、文本内容矩阵、图像特征矩阵综合作用训练获得的,因此,即使拍摄角度影响了相对位置的准确性,拍摄角度误差在0°~15°范围内时,采用本申请自注意力模型仍可基于文本内容、图像特征来综合确定该字段的类型和对象关联,因此,基于融合特征矩阵训练获得的自注意力模型对字段进行分类,降低了拍摄角度、布局整齐统一性等因素对字段分类以及后续识别准确性造成的影响,提高了字段分类准确性和发票中字段识别的准确性。该训练模型的分类结果不易受拍摄角度、票面布局整齐统一性等外部因素影响,也使得本申请多模态发票自动分类识别方法及系统的适用场景增多,适用范围也增大。
应用上述系统并基于上述多模态发票自动分类识别方法对发票真伪进行检验,检验方法包括上述步骤S1~S7,还包括:S8,对发票进行真伪校验,S81、基于步骤S7判断后的字段类别和关联对象,截取原始发票图像中的对应目标区域;若自注意力模型输出的字段类别和关联对象准确,则其矩形框所标注的索引位置区域则为该字段的目标区域,见图6。
S82、基于OCR文字识别技术,对目标区域进行识别,提取目标区域的第一文本信息;
S83、基于第一文本信息、第二文本信息对发票的真伪进行校验:若第一文本信息与第二文本信息与预先存储的相应发票票面文本信息一致,则表明发票为真,反之,则表明发票为假。
S9、根据业务需求,将分类识别准确的发票和/或校验真实的发票配置入库。
该校验方法中,采用机器深度学习模型对发票的真伪进行检验,检验过程中应用了准确分类后的字段和关联对象进行目标区域截取,这有利于对发票票面每个目标区域分别进行验证,相比于人工检验的方法,本申请方法防止了漏检、误检等问题出现,大大提高了发票校验的效率和准确性。另外,上述多模态发票自动分类识别方法及系统的适用场景增多,也使得该检验方法的适用场景增多、适用范围增大。
以上的仅是本申请的优选实施方式,本发明不限于以上实施例。可以理解,本领域技术人员在不脱离发明的精神和构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在发明的保护范围之内。

Claims (10)

1.一种多模态发票自动分类识别方法,其特征在于,该方法基于计算机系统实现,所述方法包括:S1、获取原始发票图像、发票二维码;
S2、基于OCR文字识别技术,获取原始发票图像中的第一文本信息,对发票二维码进行解析,获取第二文本信息,所述第一文本信息、第二文本信息均通过字段表示;
S3、对第一文本信息、第二文本信息中的字段进行分类,将字段划分为:关键词、数值;
S4、获取字段属性,所述字段属性包括:文本内容、相对位置、图像特征、字段类别、关联对象;
S5、将所述字段属性划分为训练集、测试集;
S6、基于训练集,对分类模型进行训练,建立分类模型,分类模型输出字段类别和关联对象,分类模型为自注意力模型,对分类模型进行训练的步骤包括:S61、构建相对位置矩阵、图像特征矩阵、文本内容矩阵;
S62、将所述文本内容矩阵、相对位置矩阵、图像特征矩阵融合,获得融合特征矩阵;
S63、将所述融合特征矩阵输入自注意力模型中对其进行训练,建立自注意力模型;
S7、基于建立的自注意力模型,输出测试集的分类结果,判断分类结果中字段类别、关联对象与测试集中的真实字段类别、关联对象内容是否一致,若是,则表明所建立的所述分类模型能够实现发票的准确分类识别,反之,则表明无法实现发票的准确分类识别。
2.根据权利要求1所述的多模态发票自动分类识别方法,其特征在于,步骤S1中,所述原始发票图像至少包括:统一格式的发票扫描图片、PDF格式或OFD格式发票文档转换的发票图片、相机采集发票图像;获取所述原始发票图像的方式为:通过扫描仪扫描获取发票扫描图片并上传至计算机系统;将PDF格式或OFD格式的发票文档上传至计算机系统并转换为发票图片;使用扫描枪扫描获取发票二维码并上传至计算机系统;相机采集发票图像并上传至计算机系统;将发票扫描图片、发票图片、相机采集发票图像转换为统一格式的原始发票图像后保存至存储器中。
3.根据权利要求1所述的多模态发票自动分类识别方法,其特征在于,所述第一文本信息、第二文本信息包括但不限于代码、金额、开票日期、发票号码、发票验证码。
4.根据权利要求1或3所述的多模态发票自动分类识别方法,其特征在于,构建相对位置矩阵:使用矩形框工具获取每个字段的索引位置,基于索引位置,构建字段的坐标向量时,以所述原始发票图像的左上角为原点(0,0),设定原始发票图像的高为x轴,宽为y轴;
将索引位置的坐标向量定义为:(x1,y1,x2,y2),其中,x1表示矩形框的左上角点的横坐标,y1表示矩形框左上角点的纵坐标,x2表示矩形框右下角点的横坐标,y1表示矩形框右下角点的纵坐标;
将每个字段的索引位置的坐标向量放入第一矩阵中,形成相对位置矩阵。
5.根据权利要求4所述的多模态发票自动分类识别方法,其特征在于,构建图像特征矩阵:S6121、基于卷积神经网络,对输入的原始发票图像进行特征提取,得到一个卷积核;
S6122、基于所述卷积核,采用嵌入层方式对图像编码,获取图像特征向量;
S6123、将所述图像特征向量放入第二矩阵,形成所述图像特征矩阵。
6.根据权利要求5所述的多模态发票自动分类识别方法,其特征在于,构建文本内容矩阵:S6131、将文本信息中的字段分割为词语;
S6132、将所述词语输入bert预训练模型,获取每个词语的词向量;
S6133、将所述词向量放入第三矩阵,形成所述文本内容矩阵。
7.根据权利要求6所述的多模态发票自动分类识别方法,其特征在于,将所述融合特征矩阵作为自注意力模型的输入数据对其进行训练,并在所述自注意力模型中加入分类层进行分类:S631、使用预先定义的关联对象标签作为监督信号,通过分类层分类,输出字段的关联对象;所述关联对象包括关键字、与关键字对应关联的数值;
S632、使用预先定义的字段类别标签作为监督信号,通过分类层分类,输出字段类别。
8.一种多模态发票自动校验方法,其特征在于,该校验方法包括权利要求1所述的多模态发票自动分类识别方法的步骤S1~S7,所述校验方法还包括:S8,对发票真伪进行校验,S81、基于步骤S7判断后的字段类别和/或关联对象,截取原始发票图像中的对应目标区域;
S82、基于OCR文字识别技术,对所述目标区域进行识别,提取目标区域的第一文本信息;
S83、基于所述第一文本信息、第二文本信息对所述发票的真伪进行校验:若所述第一文本信息与第二文本信息与预先存储的相应发票票面文本信息一致,则表明所述发票为真,反之,则表明所述发票为假。
9.根据权利要求8所述的多模态发票自动校验方法,其特征在于,所述方法还包括:S9、根据业务需求,将分类识别准确的发票和/或校验真实的发票配置入库。
10.一种多模态发票自动分类识别与校验系统,该系统用于实现权利要求1所述的多模态发票自动分类识别方法以及权利要求8所述的多模态发票自动校验方法,该系统包括计算机系统、采集系统,其特征在于,所述计算机系统包括数据处理模块、存储模块、显示模块,所述采集系统包括扫描模块、二维码获取模块、拍照模块,所述扫描模块、二维码获取模块、拍照模块分别与所述数据处理模块通信连接;
所述扫描模块包括扫描仪,所述扫描仪用于扫描发票并将发票扫描图片上传至数据处理模块;
所述二维码获取模块包括扫描枪,所述扫描枪用于扫描发票中的二维码并将发票二维码上传至所述数据处理模块;
所述拍照模块包括相机,所述相机用于拍摄发票图像并将该发票图像发送至所述数据处理模块;
所述数据处理模块用于对发票扫描图片、拍照模块、PDF格式或OFD格式发票文档进行OCR文字识别、二维码解析、文本信息解析、分类识别、真伪校验;
所述存储模块存储内容至少包括:所述发票扫描图片、PDF格式或OFD格式发票文档、相机采集发票图像、真实发票的字段类别与关联对象、分类识别结果、发票真实性验证结果;
所述显示模块包括显示器,所述显示器显示内容至少包括发票字段分类识别结果、发票真实性验证结果。
CN202310078130.6A 2023-01-30 2023-01-30 多模态发票自动分类识别方法、校验方法及系统 Pending CN116052186A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310078130.6A CN116052186A (zh) 2023-01-30 2023-01-30 多模态发票自动分类识别方法、校验方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310078130.6A CN116052186A (zh) 2023-01-30 2023-01-30 多模态发票自动分类识别方法、校验方法及系统

Publications (1)

Publication Number Publication Date
CN116052186A true CN116052186A (zh) 2023-05-02

Family

ID=86125386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310078130.6A Pending CN116052186A (zh) 2023-01-30 2023-01-30 多模态发票自动分类识别方法、校验方法及系统

Country Status (1)

Country Link
CN (1) CN116052186A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275038A (zh) * 2020-01-17 2020-06-12 平安医疗健康管理股份有限公司 图像文本识别方法、装置、计算机设备及计算机存储介质
CN112949415A (zh) * 2021-02-04 2021-06-11 北京百度网讯科技有限公司 图像处理方法、装置、设备和介质
EP3882814A1 (en) * 2020-03-20 2021-09-22 Accenture Global Solutions Limited Utilizing machine learning models, position-based extraction, and automated data labeling to process image-based documents
CN114419646A (zh) * 2022-01-17 2022-04-29 马上消费金融股份有限公司 图像分类方法、装置、电子设备及存储介质
CN114495113A (zh) * 2022-02-18 2022-05-13 北京百度网讯科技有限公司 文本分类方法和文本分类模型的训练方法、装置
WO2022142014A1 (zh) * 2020-12-29 2022-07-07 平安科技(深圳)有限公司 基于多模态信息融合的文本分类方法、及其相关设备
CN115240178A (zh) * 2022-06-24 2022-10-25 深源恒际科技有限公司 一种票据图像的结构化信息提取方法及系统
US20220415072A1 (en) * 2022-02-25 2022-12-29 Beijing Baidu Netcom Science Technology Co., Ltd. Image processing method, text recognition method and apparatus

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275038A (zh) * 2020-01-17 2020-06-12 平安医疗健康管理股份有限公司 图像文本识别方法、装置、计算机设备及计算机存储介质
EP3882814A1 (en) * 2020-03-20 2021-09-22 Accenture Global Solutions Limited Utilizing machine learning models, position-based extraction, and automated data labeling to process image-based documents
WO2022142014A1 (zh) * 2020-12-29 2022-07-07 平安科技(深圳)有限公司 基于多模态信息融合的文本分类方法、及其相关设备
CN112949415A (zh) * 2021-02-04 2021-06-11 北京百度网讯科技有限公司 图像处理方法、装置、设备和介质
CN114419646A (zh) * 2022-01-17 2022-04-29 马上消费金融股份有限公司 图像分类方法、装置、电子设备及存储介质
CN114495113A (zh) * 2022-02-18 2022-05-13 北京百度网讯科技有限公司 文本分类方法和文本分类模型的训练方法、装置
US20220415072A1 (en) * 2022-02-25 2022-12-29 Beijing Baidu Netcom Science Technology Co., Ltd. Image processing method, text recognition method and apparatus
CN115240178A (zh) * 2022-06-24 2022-10-25 深源恒际科技有限公司 一种票据图像的结构化信息提取方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MICKEY WILLIAMS著: "《Visual C++ 6 24学时学习教程》", 31 January 1999, 机械工业出版社, pages: 29 *
冶忠林著: "《大规模英文语义树构建技术》", 30 July 2022, 北京邮电大学出版社, pages: 7 - 8 *
胡泽枫;张学习;黎贤钊;: "基于卷积神经网络的批量发票识别系统研究", 工业控制计算机, no. 05 *

Similar Documents

Publication Publication Date Title
CN108399405B (zh) 营业执照识别方法和装置
CN109446345A (zh) 核电文件校验处理方法以及系统
CN108304815B (zh) 一种数据获取方法、装置、服务器及存储介质
CN113963147A (zh) 一种基于语义分割的关键信息提取方法及系统
CN113837151A (zh) 表格图像处理方法、装置、计算机设备及可读存储介质
Dangiwa et al. A business card reader application for iOS devices based on Tesseract
CN114445841A (zh) 纳税申报表识别方法和装置
CN113936764A (zh) 一种医疗报告单照片中敏感信息脱敏方法及系统
CN113780116A (zh) 发票分类方法、装置、计算机设备和存储介质
CN107239453B (zh) 信息写入方法和装置
CN110781811A (zh) 异常工单识别方法、装置、可读存储介质和计算机设备
CN116052186A (zh) 多模态发票自动分类识别方法、校验方法及系统
CN115761781A (zh) 一种用于工程电子档案笔记图像数据识别系统
CN116403233A (zh) 一种基于数字化档案图像定位及识别方法
CN113065559B (zh) 图像比对方法、装置、电子设备及存储介质
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质
Pattnaik et al. A Framework to Detect Digital Text Using Android Based Smartphone
CN112488110A (zh) 一种图片中局部信息精准抓取的方法和系统
CN112418265A (zh) 一种标签检测方法、装置及存储介质
CN111464743A (zh) 一种摄影构图匹配方法及系统
KR102276491B1 (ko) 시약병 특징을 이용한 영상분석 시약정보 수집 방법 및 장치
CN115063818A (zh) 一种机关公文字体类别判别方法及系统
CN115265620B (zh) 一种仪器显示数据的获取录入方法、装置和存储介质
CN115640952B (zh) 一种数据导入上传的方法及系统
KR102367110B1 (ko) 시계 등록 서비스 제공 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination