CN111223230A - 一种基于crnn算法的发票文件真伪识别方法 - Google Patents

一种基于crnn算法的发票文件真伪识别方法 Download PDF

Info

Publication number
CN111223230A
CN111223230A CN202010058430.4A CN202010058430A CN111223230A CN 111223230 A CN111223230 A CN 111223230A CN 202010058430 A CN202010058430 A CN 202010058430A CN 111223230 A CN111223230 A CN 111223230A
Authority
CN
China
Prior art keywords
invoice
information
item information
file
crnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010058430.4A
Other languages
English (en)
Inventor
薛洛良
彭飞
李燕
张高言
丁萌萌
任定一
韩沛
魏薇
张茜茜
张亮
杨静
刘颜乐
王梦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Electric Power Materials Co Ltd
Original Assignee
Henan Electric Power Materials Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Electric Power Materials Co Ltd filed Critical Henan Electric Power Materials Co Ltd
Priority to CN202010058430.4A priority Critical patent/CN111223230A/zh
Publication of CN111223230A publication Critical patent/CN111223230A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07DHANDLING OF COINS OR VALUABLE PAPERS, e.g. TESTING, SORTING BY DENOMINATIONS, COUNTING, DISPENSING, CHANGING OR DEPOSITING
    • G07D7/00Testing specially adapted to determine the identity or genuineness of valuable papers or for segregating those which are unacceptable, e.g. banknotes that are alien to a currency
    • G07D7/20Testing patterns thereon
    • G07D7/2016Testing patterns thereon using feature extraction, e.g. segmentation, edge detection or Hough-transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于CRNN算法的发票扫描件真伪识别方法,首先定位发票文件中二维码所在位置,识别二维码并对接全国增值税发票查验平台获取发票的全部真实电子文本信息,提取真实关键项信息及其数值长度,同时,通过CRNN算法获取发票文件票面信息的四项票面关键项信息及其数值长度,通过真实关键项信息数值长度与其对应票面关键项信息数值长度的比对产生验真结果,若验真结果为真,将判定票据为真,若验真结果为假,则进一步符合人工复核票据真伪;本发明能够快速、简便、准确地识别投标文件中的发票真伪,识别效率高,识别准确度高,可靠度强,极大提高了评标效率及准确性,进而保证投标结果的准确性。

Description

一种基于CRNN算法的发票文件真伪识别方法
技术领域
本发明涉及发票文件真伪识别技术领域,尤其涉及一种基于CRNN算法的发票文件真伪识别方法。
背景技术
在电网投标过程中,业绩作为重要评审项之一,一直以来都是影响专家评标效率和引发投标人质疑的重要因素。业绩的证明材料主要包括合同和发票,两者都具备且一一对应才被认定为有效业绩,目前多通过评标专家人工进行证明材料的审核。但是,在评标过程中经常会出现发票票面信息(包含物资名称、数量或金额等信息)被涂抹或模糊不清,存在发票造假嫌疑的情况发生,极大地影响了评标效率及准确性,而无法准确识别发票文件真伪,也给招标单位造成了巨大的经济损失及不良的社会影响。究其原因,主要包括以下几个方面:1、评标专家普遍存在不能准确查询识别发票真伪;2、人工审核操作繁琐且可靠性差,极易发生错误;3、发票制假技术与时俱进,假发票足以以假乱真,不通过税务系统查询,难以用肉眼区分。
对于发票验真,目前常采用的方法多为利用网站、手机、二维码专用扫描设备或识别软件等方式获取所持有的发票信息,然后与网上税务局发票查验平台采集的发票电子信息进行比对。若所持发票与查询获取显示的开票信息全部一致,则判断信息相符,若所持发票与查询获取显示的发票信息中任一项不一致则为异常发票。目前的发票识别验真方法中,最常用的就是OCR(光学字符识别)识别方法。
OCR识别方法主要包括三类:基于结构特征的识别方法、基于神经网络的识别方法和基于二维码的识别方法。
基于结构特征的OCR识别方法只需根据文字本身的形态特性进行识别,形态特性主要包括字符轮廓、笔划走向、特征点等,首先根据字符结构特征对字符进行归类分组,提取每一组的特征信息再利用特征信息的差异来完成识别,该方法容易受到噪声的干扰,对字符分割和去噪有较高的要求。
基于神经网络的OCR识别方法,通过学习机制形成决策区域,可以通过学习获得输入与输出之间的某种映射关系,对发票印刷体数字识别具有较好的识别效果,速度也比较快。
基于二维码的OCR识别方法,通过直接扫描解析票据中的二维码信息,获得发票号码、发票代码、金额、开票日期等,然后将获得的信息输入税务局发票查验平台,获得准确的票面信息,该方法因为无需识别发票所有票面信息,识别效率较高,但是对二维码图像清晰度有一定的要求。
但是,以上方法都是基于准确识别发票图像上的印刷体文字和数字的基础上进行,对于需要识别的信息不多的单张发票,识别的速度尚可,但是对于投标文件中的发票文件,经常需要批量识别几十张、上百张发票,识别信息量大,OCR识别方法在识别速度上无法满足其使用需求;同时,OCR识别方法容易受噪声、图像清晰度等干扰,且还需借助字符切割等手段,会进一步降低识别速度和准确度。
发明内容
本发明的目的是提供一种基于CRNN算法的发票文件真伪识别方法,能够快速、简便、准确地识别投标文件中的发票真伪,识别效率高,识别准确度高,可靠度强,极大提高了评标效率及准确性,进而保证投标结果的准确性,预防因投标文件真伪识别错误造成的额招标单位的经济影响及社会影响。
本发明采用的技术方案为:
一种基于CRNN算法的发票文件真伪识别方法,包括以下步骤:
A、采集发票文件中二维码位置信息;
B、识别发票文件的票面信息和真实票据信息;具体包括:
提取具有相同二维码位置信息的发票文件图像中的图像块,每个图像块对应票面一项发票单项信息,采用CRNN算法提取图像块对应的发票单项信息并构成发票文件的票面信息;
识别发票文件中的二维码,通过联网全国增值税发票查验平台获取发票文件的真实电子文本信息,即发票文件的真实票据信息;
C、分别提取票面信息中的N项票面关键项信息和真实票据信息中的N项真实关键项信息,票面关键项信息与真实关键项信息一一对应;
D、将票面关键项信息的字符长度与对应真实关键项信息的字符长度一一进行比对;若N项票面关键项信息的字符长度与N项真实关键项信息的字符长度均一致,则进入步骤E;反之,则进入步骤F;
E、发票文件为真,将发票文件的真实票据信息录入本地发票数据库;
F、发票文件存疑,由人工复核发票文件真伪。
进一步地,步骤B中,若识别发票文件图像中的二维码后通过联网全国增值税发票查验平台无法获取发票文件的真实电子文本信息,则直接进入步骤F。
进一步地,所述票面关键项信息包括票面信息中的购买方名称、货物或应税劳务、服务名称、单价及金额共四项单项信息;所述真实关键项信息包括真是票据信息中的购买方名称、货物或应税劳务、服务名称、单价及金额共四项单项信息。
进一步地,步骤B中采用CRNN算法提取图像块对应的发票单项信息的过程具体包括:
b1:对发票文件图像进行区域图像分割,获取包含发票单项信息的分割图像块;每个图像块均对应一项发票单项信息;
b2:将分割图像块输入CRNN网络的卷积层,由CRNN网络卷积层对分割图像块中的数值进行特征提取;
b3:利用CRNN网络的映射层将在卷积层提取到的特征信息表示为特征向量,获取特征序列;
b4:CRNN网络循环层对步骤b3输出的特征序列进行预测,得到每帧特征的概率分布;
b5:特征序列解码,获取分割图像块对应发票单项信息中不定长数据的识别结果;
b6:通过字符串长度计算函数计算发票单项信息识别结果的数值长度。
进一步地,所述发票文件包括发票原件、发票图片、发票扫描件或发票复印件。
本发明具有以下有益效果:
通过采用二维码识别提取真实票据信息和采集发票文件图像块提取票面信息,并将真实票据信息和票面信息中的关键项数值长度进行比对的方法,不仅操作简单,且有效保证发票信息识别的准确度,同时替代对环境干扰要求极高的传统OCR识别方法,大大提升真伪识别速度,进而提高发票文件真伪识别效率,保障评标过程的快速、简便、可靠进行。
附图说明
图1为本发明的流程图。
具体实施方式
如图1所示,本发明包括以下步骤:
A、采集发票文件中二维码位置信息;
B、识别发票文件的票面信息和真实票据信息;具体包括:
提取具有相同二维码位置信息的发票文件图像中的图像块,每个图像块对应票面一项发票单项信息,采用CRNN算法提取图像块对应的发票单项信息并构成发票文件的票面信息;
识别发票文件图像中的二维码,通过联网全国增值税发票查验平台获取发票文件的真实电子文本信息,即发票文件的真实票据信息;
C、分别提取票面信息中的N项票面关键项信息和真实票据信息中的N项真实关键项信息,票面关键项信息与真实关键项信息一一对应;
D、将票面关键项信息的字符长度与对应真实关键项信息的字符长度一一进行比对;若N项票面关键项信息的字符长度与N项真实关键项信息的字符长度均一致,则进入步骤E;反之,则进入步骤F;
E、发票文件为真,将发票文件的真实票据信息录入本地发票数据库;
F、发票文件存疑,由人工复核发票文件真伪。
为了更好地理解本发明,下面结合实施例对本发明的技术方案做进一步说明。
本发明所识别发票文件包括发票原件、发票图片、发票扫描件或发票复印件等,本实施例以投标文件中的电子版发票扫描件为例进行详细说明。
如图1所示,本发明包括以下步骤:
A、采集发票扫描件中二维码位置信息。
B、识别发票扫描件的票面信息和真实票据信息。
具体包括:
采用二维码识别仪或其他图像采集设备提取具有相同二维码位置信息的发票文件图像中的图像块,每个图像块对应票面一项发票单项信息,采用CRNN算法提取图像块对应的发票单项信息并构成发票扫描件的票面信息;
采用二维码识别仪识别发票扫描件中的二维码,通过联网对接全国增值税发票查验平台获取发票扫描件的真实电子文本信息,即发票扫描件的真实票据信息;若能够获取真实票据信息,则进入下一步,若无法获取发票扫描件的真实电子文本信息,则进入步骤F。
通过识别发票扫描件中二维码获取的真实电子文本信息中,同时包含二维码所在发票页码的信息,二维码识别仪同时还可以提供投标文件中其他包含二维码的资质业绩图像的定位、解密和查验服务,并将资质业绩识别结果反馈给查验人员,包含二维码的资质业绩图像包括营业执照、许可证书、质量体系认证证书等。
采用CRNN算法提取图像块对应的发票单项信息的过程具体包括:
b1:对发票扫描件进行区域图像分割,获取包含发票单项信息的分割图像块;每个图像块均对应一项发票单项信息;
b2:将分割图像块输入CRNN网络的卷积层,由CRNN网络卷积层对分割图像块中的数值进行特征提取;
b3:利用CRNN网络的映射层将在卷积层提取到的特征信息表示为特征向量,获取特征序列;
b4:CRNN网络循环层对步骤b3输出的特征序列进行预测,得到每帧特征的概率分布;
b5:特征序列解码,获取分割图像块对应发票单项信息中不定长数据的识别结果;
b6:通过字符串长度计算函数计算发票单项信息识别结果的数值长度。
C、分别提取票面信息中的四项票面关键项信息和真实票据信息中的四项真实关键项信息,票面关键项信息与真实关键项信息一一对应。
四项票面关键项信息包括票面信息中的购买方名称、货物或应税劳务、服务名称、单价及金额共四项单项信息。
四项真实关键项信息包括真是票据信息中的购买方名称、货物或应税劳务、服务名称、单价及金额共四项单项信息。
D、将四项票面关键项信息的字符长度分别与对应的真实关键项信息的字符长度一一进行比对;若四项票面关键项信息的字符长度与四项真实关键项信息的字符长度均一致,则进入步骤E;反之,则进入步骤F;
E、发票扫描件为真,将从全国增值税发票查验平台获取的发票扫描件的全部真实电子文本信息存入本地发票数据库,作为投标数据库基础数据;
F、发票扫描件存疑,由人工通过电话核实或网站核实等方法进一步复核发票扫描件的真伪。
通过本发明可以实现评标者对投标文件中发票真伪的快速、简便、准确查询,有效遏制投标环节发票造假等不良行为,避免给招标人造成重大损失,并形成发票数据库,作为投标人大数据库基础数据。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解,其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换,而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (5)

1.一种基于CRNN算法的发票文件真伪识别方法,其特征在于:包括以下步骤:
A、采集发票文件中二维码位置信息;
B、识别发票文件的票面信息和真实票据信息;具体包括:
提取具有相同二维码位置信息的发票文件图像中的图像块,每个图像块对应票面一项发票单项信息,采用CRNN算法提取图像块对应的发票单项信息并构成发票文件的票面信息;
识别发票文件中的二维码,通过联网全国增值税发票查验平台获取发票文件的真实电子文本信息,即发票文件的真实票据信息;
C、分别提取票面信息中的N项票面关键项信息和真实票据信息中的N项真实关键项信息,票面关键项信息与真实关键项信息一一对应;
D、将票面关键项信息的字符长度与对应真实关键项信息的字符长度一一进行比对;若N项票面关键项信息的字符长度与N项真实关键项信息的字符长度均一致,则进入步骤E;反之,则进入步骤F;
E、发票文件为真,将发票文件的真实票据信息录入本地发票数据库;
F、发票文件存疑,由人工复核发票文件真伪。
2.根据权利要求1所述的基于CRNN算法的发票文件真伪识别方法,其特征在于:步骤B中,若识别发票文件图像中的二维码后通过联网全国增值税发票查验平台无法获取发票文件的真实电子文本信息,则直接进入步骤F。
3.根据权利要求2所述的基于CRNN算法的发票文件真伪识别方法,其特征在于:所述票面关键项信息包括票面信息中的购买方名称、货物或应税劳务、服务名称、单价及金额共四项单项信息;所述真实关键项信息包括真是票据信息中的购买方名称、货物或应税劳务、服务名称、单价及金额共四项单项信息。
4.根据权利要求2所述的基于CRNN算法的发票文件真伪识别方法,其特征在于:步骤B中采用CRNN算法提取图像块对应的发票单项信息的过程具体包括:
b1:对发票文件图像进行区域图像分割,获取包含发票单项信息的分割图像块;每个图像块均对应一项发票单项信息;
b2:将分割图像块输入CRNN网络的卷积层,由CRNN网络卷积层对分割图像块中的数值进行特征提取;
b3:利用CRNN网络的映射层将在卷积层提取到的特征信息表示为特征向量,获取特征序列;
b4:CRNN网络循环层对步骤b3输出的特征序列进行预测,得到每帧特征的概率分布;
b5:特征序列解码,获取分割图像块对应发票单项信息中不定长数据的识别结果;
b6:通过字符串长度计算函数计算发票单项信息识别结果的数值长度。
5.根据权利要求1所述的基于CRNN算法的发票文件真伪识别方法,其特征在于:所述发票文件包括发票原件、发票图片、发票扫描件或发票复印件。
CN202010058430.4A 2020-01-19 2020-01-19 一种基于crnn算法的发票文件真伪识别方法 Pending CN111223230A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010058430.4A CN111223230A (zh) 2020-01-19 2020-01-19 一种基于crnn算法的发票文件真伪识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010058430.4A CN111223230A (zh) 2020-01-19 2020-01-19 一种基于crnn算法的发票文件真伪识别方法

Publications (1)

Publication Number Publication Date
CN111223230A true CN111223230A (zh) 2020-06-02

Family

ID=70832457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010058430.4A Pending CN111223230A (zh) 2020-01-19 2020-01-19 一种基于crnn算法的发票文件真伪识别方法

Country Status (1)

Country Link
CN (1) CN111223230A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111966640A (zh) * 2020-09-03 2020-11-20 深圳市小满科技有限公司 一种单据文件识别方法及其系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655996A (zh) * 2009-07-20 2010-02-24 浪潮齐鲁软件产业有限公司 一种票据快速验证真伪的方法
CN103164909A (zh) * 2011-12-14 2013-06-19 航天信息股份有限公司 税控查验系统及其方法、税控稽查系统及税控系统
CN103903171A (zh) * 2014-04-02 2014-07-02 浪潮软件集团有限公司 一种交互式网络发票真伪查验方法
CN104992495A (zh) * 2015-07-09 2015-10-21 胡昭 云智能发票查验自助终端及基于其的查验系统和方法
CN106504004A (zh) * 2016-10-11 2017-03-15 李峰 一种防伪信息采集方法、防伪信息查验方法及系统
CN109389736A (zh) * 2017-08-08 2019-02-26 航天信息股份有限公司 一种发票查验方法及装置
CN109726783A (zh) * 2018-12-28 2019-05-07 大象慧云信息技术有限公司 一种基于ocr图像识别技术的发票采集管理系统及方法
CN109741517A (zh) * 2018-12-26 2019-05-10 大象慧云信息技术有限公司 一种发票查验方法、装置和系统
CN109858373A (zh) * 2018-12-29 2019-06-07 航天信息股份有限公司 一种基于深度学习的发票识别验真方法及系统
CN110458132A (zh) * 2019-08-19 2019-11-15 河海大学常州校区 一种基于端到端的不定长文本识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655996A (zh) * 2009-07-20 2010-02-24 浪潮齐鲁软件产业有限公司 一种票据快速验证真伪的方法
CN103164909A (zh) * 2011-12-14 2013-06-19 航天信息股份有限公司 税控查验系统及其方法、税控稽查系统及税控系统
CN103903171A (zh) * 2014-04-02 2014-07-02 浪潮软件集团有限公司 一种交互式网络发票真伪查验方法
CN104992495A (zh) * 2015-07-09 2015-10-21 胡昭 云智能发票查验自助终端及基于其的查验系统和方法
CN106504004A (zh) * 2016-10-11 2017-03-15 李峰 一种防伪信息采集方法、防伪信息查验方法及系统
CN109389736A (zh) * 2017-08-08 2019-02-26 航天信息股份有限公司 一种发票查验方法及装置
CN109741517A (zh) * 2018-12-26 2019-05-10 大象慧云信息技术有限公司 一种发票查验方法、装置和系统
CN109726783A (zh) * 2018-12-28 2019-05-07 大象慧云信息技术有限公司 一种基于ocr图像识别技术的发票采集管理系统及方法
CN109858373A (zh) * 2018-12-29 2019-06-07 航天信息股份有限公司 一种基于深度学习的发票识别验真方法及系统
CN110458132A (zh) * 2019-08-19 2019-11-15 河海大学常州校区 一种基于端到端的不定长文本识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111966640A (zh) * 2020-09-03 2020-11-20 深圳市小满科技有限公司 一种单据文件识别方法及其系统

Similar Documents

Publication Publication Date Title
CN108717545B (zh) 一种基于手机拍照的票据识别方法及系统
CN109887153B (zh) 一种财税处理方法和处理系统
CN110399851B (zh) 一种图像处理装置、方法、设备及可读存储介质
CN108777021B (zh) 一种基于扫描仪混扫的票据识别方法及系统
US8879846B2 (en) Systems, methods and computer program products for processing financial documents
US11455784B2 (en) System and method for classifying images of an evidence
CN110414927B (zh) 一种票据处理自动生成凭证的方法及装置
CN108960223A (zh) 基于票据智能识别自动生成凭证的方法
CN112395996A (zh) 财务票据ocr识别及影像处理方法、系统及可读存储介质
CN113780087B (zh) 一种基于深度学习的邮政包裹文本检测方法及设备
CN115017272B (zh) 基于登记数据的智能核验方法及装置
CN111858977B (zh) 票据信息采集方法、装置、计算机设备和存储介质
CN112949455A (zh) 一种增值税发票识别系统及方法
CN114511866A (zh) 数据稽核方法、装置、系统、处理器及机器可读存储介质
CN109886076B (zh) 发票存储方法
CN114219507A (zh) 中药供应商的资质审核方法、装置、电子设备及存储介质
CN111223230A (zh) 一种基于crnn算法的发票文件真伪识别方法
CN116798061A (zh) 一种票据审核识别方法、装置、终端和存储介质
US11030450B2 (en) System and method for determining originality of computer-generated images
CN110008772B (zh) 一种用于税务管理的发票快速识别与录入的方法和系统
CN111582115A (zh) 一种财务票据处理方法、装置、设备和可读存储介质
CN113837170A (zh) 车辆保险理赔申请的自动审核处理方法、装置及设备
CN112862409A (zh) 提运单核验方法及装置
CN112132693A (zh) 交易验证方法、装置、计算机设备与计算机可读存储介质
CN111950550A (zh) 基于深度卷积神经网络的车架号识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200602