CN108777021B - 一种基于扫描仪混扫的票据识别方法及系统 - Google Patents

一种基于扫描仪混扫的票据识别方法及系统 Download PDF

Info

Publication number
CN108777021B
CN108777021B CN201810483410.4A CN201810483410A CN108777021B CN 108777021 B CN108777021 B CN 108777021B CN 201810483410 A CN201810483410 A CN 201810483410A CN 108777021 B CN108777021 B CN 108777021B
Authority
CN
China
Prior art keywords
invoice
bill
key information
type
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810483410.4A
Other languages
English (en)
Other versions
CN108777021A (zh
Inventor
李小英
王卓静
张帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dajingfang Network Technology Co.,Ltd.
Original Assignee
Beijing Dazhangfang Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dazhangfang Network Technology Co ltd filed Critical Beijing Dazhangfang Network Technology Co ltd
Priority to CN201810483410.4A priority Critical patent/CN108777021B/zh
Publication of CN108777021A publication Critical patent/CN108777021A/zh
Application granted granted Critical
Publication of CN108777021B publication Critical patent/CN108777021B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07DHANDLING OF COINS OR VALUABLE PAPERS, e.g. TESTING, SORTING BY DENOMINATIONS, COUNTING, DISPENSING, CHANGING OR DEPOSITING
    • G07D7/00Testing specially adapted to determine the identity or genuineness of valuable papers or for segregating those which are unacceptable, e.g. banknotes that are alien to a currency
    • G07D7/20Testing patterns thereon
    • G07D7/2016Testing patterns thereon using feature extraction, e.g. segmentation, edge detection or Hough-transformation
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07DHANDLING OF COINS OR VALUABLE PAPERS, e.g. TESTING, SORTING BY DENOMINATIONS, COUNTING, DISPENSING, CHANGING OR DEPOSITING
    • G07D7/00Testing specially adapted to determine the identity or genuineness of valuable papers or for segregating those which are unacceptable, e.g. banknotes that are alien to a currency
    • G07D7/20Testing patterns thereon
    • G07D7/2075Setting acceptance levels or parameters
    • G07D7/2083Learning

Abstract

本发明提供一种基于扫描仪混扫的票据识别方法,其包括以下步骤:S1、智能识别系统对多种类型的票据进行学习后,对各类型的票据的关键信息进行存储,建立票据关键信息数据库;S2、通过扫描仪将各种混合票据扫描成为电子版图像,上传至智能识别系统获取关键字,对于倾斜和旋转的图片,智能识别系统自动识别并校正;S3、对得到的电子版图像根据扫描得到的信息与存储的关键信息或关键字进行比对,获取该票据的票据类型,S4、对无法识别类或税务局查验错误的发票经图像处理后进行二次识别。本发明不需要人工手工输入,不用整理票据类型,大大提高了效率和正确率,节约了成本和时间,解放了人力。

Description

一种基于扫描仪混扫的票据识别方法及系统
技术领域
本发明涉及票据识别方法技术领域,具体地涉及一种基于扫描仪混扫的票据识别方法及系统。
背景技术
随着我国税制结构营改增的实施,现在增值税是我国当前最为重要的流转税税种,增值税的征税范围从原来覆盖的大部分第二产业,到现在进一步覆盖到第二、三产业的绝大部分行业。
现在增值税的征收管理更加严格,同时增值税发票量大量增多,手工录入太慢和查验真假非常耗时,且效率低下,错误率高。同时更多种类的票据也存在着这样的问题,比如各种银行回单,机打发票,火车票,定额发票等等都是传统手工录入。而企业财务人员在完成票据的认证抵扣后,还需要行单据扫描、数据录入、人工校对等工作。传统的人工录入方式,用户需要投入大量的人力成本和时间成本,不仅抬高了运营成本,而且录入速度难以提升,错误率难以降低,对提高业务处理时效、提升企业服务品质带来很多负面影响。
但是只识别一种票据也不符合现实中的使用情况,通常企业会有多种票据需要入账,比如增值税票据,机打发票,定额发票火车票,银行票据等等。因此利用现代信息技术手段开发出一款混扫票据识别的系统势在必行。
发明内容
为了克服现有技术的缺陷,本发明提供一种基于扫描仪混扫的票据识别方法及系统,对多种类型票据混合扫描进行识别且识别率非常高,节省人力成本和时间成本提高效率。
具体地,本发明提供一种基于扫描仪混扫的票据识别方法,其包括以下步骤:
S1、智能识别系统对多种类型的票据进行学习后,对各类型的票据的关键信息进行存储,识别各类型票据不同的关键信息并为银行票据、机打发票、火车票以及定额发票定义关键字,通过在扫描票据过程中不断学习存储,建立票据关键信息数据库,票据关键信息数据库包括识别顺序列表、关键字列表、关键信息列表以及对应的票据类型列表,关键字列表、关键信息列表以及对应的票据类型列表是一一对应的,票据关键信息数据库如下表格所述:
Figure BDA0001666191130000021
S2、通过扫描仪将各种混合票据扫描成为电子版图像,上传至智能识别系统获取关键字,对于倾斜和旋转的图片,智能识别系统自动识别并校正;
S3、对得到的电子版图像根据扫描得到的信息与存储的关键信息或关键字进行比对,获取该票据的票据类型,对比顺序按照识别顺序列表的顺序进行,如果票据类型为增值税发票,则进行查验,如查验成功,则将查验结果返回至智能识别终端进行显示,如查验失败,则将该发票归为查验错误类;如果票据类型为增值税发票之外的发票类型,则将该发票的发票类型直接返回至智能识别终端进行显示,如果无法识别该发票的发票类型,则将所述无法识别发票类型的发票归为无法识别类并返回识别结果;
S4、对无法识别类或查验错误类的发票经图像处理后进行二次识别,所述图像处理的方法根据无法识别的具体原因进行确定,其具体包括锁定关键信息位置,根据像素点的坐标进行切块、消除红章、去除线条或对残缺的数字进行机器学习训练;
S5、在对无法识别类或查验错误类的发票二次识别后,重复步骤S1-S3,获取最终的票据类型以及该票据类型对应的关键信息。
优选地,步骤S3具体包括以下步骤:
S31、对得到的电子版图像直接提取关键信息,如果能直接提取到关键信息则首先将扫描得到的关键信息与票据关键信息数据库中存储的关键信息列表中的增值税普通发票、卷式发票、增值税电子普通发票、机动车销售统一发票或增值税专用发票的关键信息列进行对比,如果该发票属于增值税普通发票、卷式发票、增值税电子普通发票、机动车销售统一发票或增值税专用发票中的一类,则进行查验,如查验成功则返回发票类型及该发票类型对应的关键信息,如查验失败,则将该发票归为查验错误类并返回发票类型及对应的关键信息;如果该发票不属于增值税普通发票、卷式发票、增值税电子普通发票、机动车销售统一发票或增值税专用发票中的一类,则进行关键字提取并根据提取到的关键字获取该关键字对应的关键信息并进入步骤S32;
S32、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的银行票据的关键字列进行对比,如果该发票属于银行票据,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于银行票据,则进入步骤S33;
S33、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的机打发票的关键字列进行对比,如果该发票属于机打发票,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于机打发票,则进入步骤S34;
S34、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的火车票的关键字列进行对比,如果该发票属于火车票,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于火车票,则进入步骤S35;
S35、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的定额发票的关键字列进行对比,如果该发票属于定额发票,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于定额发票,则进入步骤S36;
S36、如果无法识别该发票的发票类型,则将所述无法识别发票类型的发票归为无法识别类并返回识别结果。
优选地,对残缺的数字进行机器学习训练具体为对于容易识别错误的数字进行学习,容易识别错误的数字包括6和8,1和0,5和9以及2和0。
优选地,对于容易识别错误的数字进行学习具体包括以下步骤:
预处理:找到图像的ROI部分子图像并进行大小的归一化处理;
特征提取,将图像转化为特征向量;
分类识别,采用k-近邻分类方法进行分类处理,最后根据分类结果完成识别工作,对容易识别错误的数字进行精确识别。
优选地,所述特征提取的具体步骤为:将图片打开之后,进行降噪处理,然后将其灰度化,最后设置一个阙值将其二值化保存到一个32*32的数组中,每一个点是一个像素值,将这1024(32*32)个数值,转换成(1,1024)的向量。
优选地,S3中进行增值税发票进行查验的方法为将关键字发送至国家税务总局全国增值税发票查验平台查验真伪。
优选地,一种基于扫描仪混扫的票据识别系统,其包括扫描装置、识别终端以及智能识别系统,所述扫描装置和识别终端分别与所述智能识别系统通讯连接,
所述智能识别系统包括图片处理单元,用于对图片进行处理;
关键信息提取单元,用于根据相关算法对图片进行关键信息提取;
识别单元,用于根据关键信息进行票据识别,获得票据类型;
查验单元,用于对增值税发票进行查验;
通讯单元,用于与所述智能终端进行通讯。
优选地,还包括机器学习单元,用于对残缺的数字进行机器学习训练具体为对于容易识别错误的数字进行学习,容易识别错误的数字包括6和8,1和0,5和9以及2和0。
与现有技术相比,本发明具有以下有益效果:
本发明采用的智能识别系统能够实现扫描仪混合扫描票据,不需要人工手工输入,不用整理票据类型,企业财务人员不用在完成票据的认证抵扣后,还需要行单据扫描、数据录入、人工校对等工作,大大提高了效率和正确率,节约了成本和时间,解放了人力。
本发明与现有技术相比,最大的飞跃是实现了扫描仪的混合扫描识别,不是针对单一的某一种票据识别,识别的种类更加丰富,更加智能,节约了时间成本,提高了效率,
其次识别正确率的大大提升,对于第一次识别为票面整张进行识别,对于倾斜和旋转的图片,智能识别系统能够自动识别并校正,对识别识别有误的票据,智能识别系统对其进行图像处理,锁定关键信息位置,根据像素点的坐标进行切块,消除红章,去除线条,对残缺的数字进行机器学习训练,进行二次识别。从而提高了识别正确率。
附图说明
图1为本发明的流程示意图。
具体实施方式
以下将参考附图详细说明本发明的示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
本发明一种基于扫描仪混扫的票据识别方法,其包括以下步骤:
S1、智能识别系统对多种类型的票据进行学习后,对各类型的票据的关键信息进行存储,识别各类型票据不同的关键信息并为银行票据、机打发票、火车票以及定额发票定义关键字,通过在扫描票据过程中不断学习存储,建立票据关键信息数据库,票据关键信息数据库包括识别顺序列表、关键字列表、关键信息列表以及对应的票据类型列表,关键字列表、关键信息列表以及对应的票据类型列表是一一对应的。
具体地,票据关键信息数据库如下表格所述:
Figure BDA0001666191130000051
Figure BDA0001666191130000061
具体的学习过程为扫描大量票据,将票据的关键信息进行区分,将票据的关键信息与实际的票据类型进行关联,并针对某些特定的发票定义关键字,例如银行票据、机打发票、火车票以及定额发票,这几类发票在学习过程中定义好关键字,并将关键字与关键信息对应,在识别时,只要能扫描拾取到关键字,即能够从关键字中提取到需要的关键信息。换言之,为某些票据定义的关键字中包含需要的关键信息,只要能扫描到关键字,就能够在关键字中获取关键字包含的关键信息。数据库的学习以大量扫描为基础,在实际应用中,也可以直接定义上述列表,植入数据库或增加更多类型的发票类型植入数据库。
S2、通过扫描仪将各种混合票据扫描成为电子版图像,上传至智能识别系统获取关键字,对于倾斜和旋转的图片,智能识别系统自动识别并校正。
S3、对得到的电子版图像根据扫描得到的信息与存储的关键信息或关键字进行比对,获取该票据的票据类型,对比顺序按照识别顺序列表的顺序进行,如果票据类型为识别顺序列表中的第一类及第二类发票,(识别顺序列表中的第一类及第二类发票均属于增值税发票,以下以增值税发票代替),则进行查验,如查验成功,则将查验结果返回至智能识别终端进行显示,如查验失败,则将该发票归为查验错误类;如果票据类型为增值税发票之外的发票类型,则将该发票的发票类型直接返回至智能识别终端进行显示,如果无法识别该发票的发票类型,则将所述无法识别发票类型的发票归为无法识别类并返回识别结果。
对得到的电子版图像根据扫描得到的信息为之前定义的关键字或者关键信息,扫描得到信息的主要步骤为对扫描的发票的二维码进行定位,并对二维码内部存储的内容进行二维码解析,获取二维码内部隐藏的信息,得到该信息后按照相应的顺序进行比对,判断发票的发票类型。
优选地,步骤S3具体包括以下步骤:
S31、对得到的电子版图像直接提取关键信息,如果能直接提取到关键信息则首先将扫描得到的关键信息与票据关键信息数据库中存储的关键信息列表中的增值税普通发票、卷式发票、增值税电子普通发票、机动车销售统一发票或增值税专用发票的关键信息列进行对比,如果该发票属于增值税普通发票、卷式发票、增值税电子普通发票、机动车销售统一发票或增值税专用发票中的一类,则进行查验,如查验成功则返回发票类型及该发票类型对应的关键信息,如查验失败,则将该发票归为查验错误类并返回发票类型及对应的关键信息;如果该发票不属于增值税普通发票、卷式发票、增值税电子普通发票、机动车销售统一发票或增值税专用发票中的一类,则进行关键字提取并根据提取到的关键字获取该关键字对应的关键信息并进入步骤S32;
S32、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的银行票据的关键字列进行对比,如果该发票属于银行票据,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于银行票据,则进入步骤S33;
S33、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的机打发票的关键字列进行对比,如果该发票属于机打发票,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于机打发票,则进入步骤S34;
S34、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的火车票的关键字列进行对比,如果该发票属于火车票,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于火车票,则进入步骤S35;
S35、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的定额发票的关键字列进行对比,如果该发票属于定额发票,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于定额发票,则进入步骤S36;
S36、如果无法识别该发票的发票类型,则将所述无法识别发票类型的发票归为无法识别类并返回识别结果。
S4、对无法识别类或税务局查验错误的发票经图像处理后进行二次识别,所述图像处理的方法根据无法识别的具体原因进行确定,其具体包括锁定关键信息位置,根据像素点的坐标进行切块、消除红章、去除线条或对残缺的数字进行机器学习训练。
优选地,对残缺的数字进行机器学习训练具体为对于容易识别错误的数字进行学习,容易识别错误的数字包括6和8,1和0,5和9以及2和0。
优选地,对于容易识别错误的数字进行学习具体包括以下步骤:
预处理:找到图像的ROI部分子图像并进行大小的归一化处理;
特征提取,将图像转化为特征向量;
分类识别,采用k-近邻分类方法进行分类处理,最后根据分类结果完成识别工作,对容易识别错误的数字进行精确识别。
优选地,所述特征提取的具体步骤为:将图片打开之后,进行降噪处理,然后将其灰度化,最后设置一个阙值将其二值化保存到一个32*32的数组中,每一个点是一个像素值,将这1024(32*32)个数值,转换成(1,1024)的向量。
优选地,S3中进行增值税发票进行查验的方法为将关键字发送至国家税务总局全国增值税发票查验平台查验真伪。
优选地,一种基于扫描仪混扫的票据识别系统,其包括扫描装置、识别终端以及智能识别系统,所述扫描装置和识别终端分别与所述智能识别系统通讯连接,
所述智能识别系统包括图片处理单元,用于对图片进行处理;
关键信息提取单元,用于根据相关算法对图片进行关键信息提取;
识别单元,用于根据关键信息进行票据识别,获得票据类型;
查验单元,用于对增值税发票进行查验;
通讯单元,用于与所述智能终端进行通讯。
优选地,还包括机器学习单元,用于对残缺的数字进行机器学习训练具体为对于容易识别错误的数字进行学习,容易识别错误的数字包括6和8,1和0,5和9以及2和0。
具体实施例1
以一份增值税增值税专用发票为例,扫描获得的该增值税专用发票的关键信息为:发票代码:5XXX1XX1XX,发票号码:XXXX5XX4,日期:20171027,金额:88288.29。
具体实施例2
以一份增值税普通发票为例,扫描获得的该普通发票的关键信息为:发票代码:5XXX17XXX0,发票号码:0XXX4XX8,日期:20171017,校验查验码:551000。
具体实施例3
以一份增值税电子普通发票为例,扫描获得的该普通发票的关键信息为:发票代码:01XXXXXX0111,发票号码:17XXXX54,日期:20171017,校验查验码:3XXXX7。
具体实施例4
以一张银行票据为例,扫描获取的该银行票据的关键信息为:银行名称:中国农业银行,单据名称:企业网银手续费,收款方:重庆市XX区XXXX有限公司,付款方:四川XXXXXX有限公司,日期:20180206,金额:10.00,备注:企业网银交易手续费。
具体实施例5
以一张客车机打发票为例,机打发票的关键字为:机打发票,关键信息为:金额:195.00。
具体实施例6
以一张火车票为例,火车票的关键字为:铁路,12306,硬座,软座,商务座,一等座,二等座,软卧,硬卧关键信息为:出发地:北京西,目的地:郑州,日期:20170818,金额:93.00。
具体实施例7
以一张定额发票为例,定额发票的关键字为定额发票,关键信息为:金额:100.00。
与现有技术相比,本发明具有以下有益效果:
本发明采用的智能识别系统能够实现扫描仪混合扫描票据,不需要人工手工输入,不用整理票据类型,企业财务人员不用在完成票据的认证抵扣后,还需要行单据扫描、数据录入、人工校对等工作,大大提高了效率和正确率,节约了成本和时间,解放了人力。
本发明与现有技术相比,最大的飞跃是实现了扫描仪的混合扫描识别,不是针对单一的某一种票据识别,识别的种类更加丰富,更加智能,节约了时间成本,提高了效率,
其次识别正确率的大大提升,对于第一次识别为票面整张进行识别,对于倾斜和旋转的图片,智能识别系统能够自动识别并校正,对识别识别有误的票据,智能识别系统对其进行图像处理,锁定关键信息位置,根据像素点的坐标进行切块,消除红章,去除线条,对残缺的数字进行机器学习训练,进行二次识别。从而提高了识别正确率。
最后应说明的是:以上所述的各实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种基于扫描仪混扫的票据识别方法,其特征在于:其包括以下步骤:
S1、智能识别系统对多种类型的票据进行自动识别和智能分析学习后,对各类型的票据的关键信息进行存储,识别各类型票据不同的关键信息并为银行票据、机打发票、火车票以及定额发票定义关键字,通过在扫描票据过程中不断训练存储,建立票据关键信息数据库,票据关键信息数据库包括识别顺序列表、关键字列表、关键信息列表以及对应的票据类型列表,关键字列表、关键信息列表以及对应的票据类型列表是一一对应的,票据关键信息数据库如下:
识别顺序列表分为第一类、第二类、第三类、第四类、第五类和第六类;
当识别顺序列表为第一类时,票据类型列表为增值税普通发票、卷式发票、增值税电子普通发票,关键字列表为无,关键信息列表为发票代码,发票号码,日期,查验码;
当识别顺序列表为第二类时,票据类型列表为机动车销售统一发票和增值税专用发票,关键字列表为无,关键信息列表为发票代码,发票号码,日期,金额;
当识别顺序列表为第三类时,票据类型列表为银行票据,关键字列表为企业网银手续费,收付款入账通知,客户收付款入账,结算账户付款凭证,转账汇款手续费,现金交款单,关键信息列表为银行名称,单据名称,收款方名称,付款方名称,日期,金额,备注信息;
当识别顺序列表为第四类时,票据类型列表为机打发票,关键字列表为机打发票,关键信息列表为金额;
当识别顺序列表为第五类时,票据类型列表为火车票,关键字列表为铁路,12306,硬座,软座,商务座,一等座,二等座,硬卧,软卧,关键信息列表为出发地,目的地,日期,金额;
当识别顺序列表为第六类时,票据类型列表为定额发票,关键字列表为定额发票,关键信息列表为金额;
S2、通过扫描仪将各种混合票据扫描成为电子版图像,上传至智能识别系统获取关键字,对于倾斜和旋转的图片,智能识别系统自动识别并校正;
S3、对得到的电子版图像根据扫描得到的信息与存储的关键信息或关键字进行比对,获取该票据的票据类型,对比顺序按照识别顺序列表的顺序进行,如果票据类型为识别顺序列表中第一类和第二类的发票,则进行查验,如查验成功,则将查验结果返回至智能识别终端进行显示,如查验失败,则将该发票归为查验错误类;如果票据类型为第一类和第二类的发票之外的发票类型,则将该发票的发票类型直接返回至智能识别终端进行显示,如果无法识别该发票的发票类型,则将该无法识别发票类型的发票归为无法识别类并返回识别结果;具体包括以下步骤:
S31、对得到的电子版图像直接提取关键信息,如果能直接提取到关键信息则首先将扫描得到的关键信息与票据关键信息数据库中存储的关键信息列表中的增值税普通发票、卷式发票、增值税电子普通发票、机动车销售统一发票或增值税专用发票的关键信息列进行对比,如果该发票属于增值税普通发票、卷式发票、增值税电子普通发票、机动车销售统一发票或增值税专用发票中的一类,则进行查验,如查验成功则返回发票类型及该发票类型对应的关键信息,如查验失败,则将该发票归为查验错误类并返回发票类型及对应的关键信息;如果该发票不属于增值税普通发票、卷式发票、增值税电子普通发票、机动车销售统一发票或增值税专用发票中的一类,则进行关键字提取并根据提取到的关键字获取该关键字对应的关键信息并进入步骤S32;
S32、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的银行票据的关键字列进行对比,如果该发票属于银行票据,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于银行票据,则进入步骤S33;
S33、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的机打发票的关键字列进行对比,如果该发票属于机打发票,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于机打发票,则进入步骤S34;
S34、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的火车票的关键字列进行对比,如果该发票属于火车票,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于火车票,则进入步骤S35;
S35、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的定额发票的关键字列进行对比,如果该发票属于定额发票,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于定额发票,则进入步骤S36;
S36、如果无法识别该发票的发票类型,则将所述无法识别发票类型的发票归为无法识别类并返回识别结果;
S4、对无法识别类或查验错误类的发票经图像处理后进行二次识别,所述图像处理的方法根据无法识别的具体原因进行确定,图形处理的具体方法包括锁定关键信息位置,根据像素点的坐标进行切块、消除红章、去除线条或对残缺的数字进行机器学习训练;
S5、在对无法识别类或查验错误类的发票二次识别后,重复步骤S1-S3,获取最终的票据类型以及该票据类型对应的关键信息。
2.根据权利要求1所述的基于扫描仪混扫的票据识别方法,其特征在于:对残缺的数字进行机器学习训练具体为对于容易识别错误的数字进行学习,容易识别错误的数字包括6和8,1和0,5和9以及2和0。
3.根据权利要求2所述的基于扫描仪混扫的票据识别方法,其特征在于:对于容易识别错误的数字进行学习具体包括以下步骤:
预处理:找到图像的ROI部分子图像并进行大小的归一化处理;
特征提取,将图像转化为特征向量;
分类识别,采用k-近邻分类方法进行分类处理,最后根据分类结果完成识别工作,对容易识别错误的数字进行精确识别。
4.根据权利要求3所述的基于扫描仪混扫的票据识别方法,其特征在于:所述特征提取的具体步骤为:将图片打开之后,进行降噪处理,然后将其灰度化,最后设置一个阈值将其二值化保存到一个32*32的数组中,每一个点是一个像素值,将这1024(32*32)个数值,转换成(1,1024)的向量。
5.根据权利要求1所述的基于扫描仪混扫的票据识别方法,其特征在于:S3中对发票进行查验的方法为将关键信息发送至国家税务总局全国增值税发票查验平台查验真伪。
6.一种用于权利要求1所述的票据识别方法的票据识别系统,其特征在于:其包括扫描装置、识别终端以及智能识别系统,所述扫描装置和识别终端分别与所述智能识别系统通讯连接,
所述智能识别系统包括图片处理单元,用于对图片进行处理;
关键信息提取单元,用于根据关键字对图片进行关键信息提取;
识别单元,用于根据关键信息进行票据识别,获得票据类型;
查验单元,用于对增值税发票进行查验;
通讯单元,用于与所述智能终端进行通讯。
7.根据权利要求6所述的票据识别系统,其特征在于:还包括机器学习单元,用于对残缺的数字进行机器学习训练具体为对于容易识别错误的数字进行学习,容易识别错误的数字包括6和8,1和0,5和9以及2和0。
8.根据权利要求7所述的票据识别系统,其特征在于:对于容易识别错误的数字进行学习具体包括以下步骤:
预处理:找到图像的ROI部分子图像并进行大小的归一化处理;
特征提取,将图像转化为特征向量;
分类识别,采用k-近邻分类方法进行分类处理,最后根据分类结果完成识别工作,对容易识别错误的数字进行精确识别。
CN201810483410.4A 2018-05-18 2018-05-18 一种基于扫描仪混扫的票据识别方法及系统 Active CN108777021B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810483410.4A CN108777021B (zh) 2018-05-18 2018-05-18 一种基于扫描仪混扫的票据识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810483410.4A CN108777021B (zh) 2018-05-18 2018-05-18 一种基于扫描仪混扫的票据识别方法及系统

Publications (2)

Publication Number Publication Date
CN108777021A CN108777021A (zh) 2018-11-09
CN108777021B true CN108777021B (zh) 2020-08-28

Family

ID=64027238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810483410.4A Active CN108777021B (zh) 2018-05-18 2018-05-18 一种基于扫描仪混扫的票据识别方法及系统

Country Status (1)

Country Link
CN (1) CN108777021B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472919A (zh) * 2018-12-28 2019-03-15 远光软件股份有限公司 一种票据收缴方法及相关终端和存储装置
CN109858980B (zh) * 2019-01-10 2023-04-28 上海启业信息技术有限公司 基于开源ocr上的高速扫描增值税发票勾选认证系统及方法
CN109840519B (zh) * 2019-01-25 2023-05-05 青岛盈智科技有限公司 一种自适应的智能单据识别录入装置及其使用方法
CN110188336B (zh) * 2019-05-27 2022-06-10 厦门商集网络科技有限责任公司 一种基于oa申请单生成报销单的方法和装置
CN110427853B (zh) * 2019-07-24 2022-11-01 北京一诺前景财税科技有限公司 一种智能票据信息提取处理的方法
CN110675546B (zh) * 2019-09-06 2022-07-08 深圳壹账通智能科技有限公司 发票图片识别及验真方法、系统、设备及可读存储介质
CN111199222B (zh) * 2019-12-30 2023-08-25 航天信息软件技术有限公司 票据管理方法及电子设备
CN111858977B (zh) * 2020-06-24 2023-04-21 苏宁云计算有限公司 票据信息采集方法、装置、计算机设备和存储介质
CN111899411B (zh) * 2020-08-14 2022-02-25 中国工商银行股份有限公司 票据数据识别方法及装置
CN113516444A (zh) * 2021-04-23 2021-10-19 广州远正智能科技股份有限公司 一种公共机构能耗数据移动终端计算方法、系统和可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346580A (zh) * 2016-05-05 2017-11-14 腾讯科技(深圳)有限公司 票据信息识别方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060089907A1 (en) * 2004-10-22 2006-04-27 Klaus Kohlmaier Invoice verification process
CN100498824C (zh) * 2007-06-11 2009-06-10 北京航空航天大学 基于sms的手持式字符识别仪
CN101706873B (zh) * 2009-11-27 2012-05-30 东软集团股份有限公司 数字类限制标志的识别方法和装置
CN102750541B (zh) * 2011-04-22 2015-07-08 北京文通科技有限公司 一种文档图像分类识别方法及装置
CN102208092A (zh) * 2011-05-25 2011-10-05 重庆市电力公司永川供电局 财务票据报销自动处理方法
CN104050450A (zh) * 2014-06-16 2014-09-17 西安通瑞新材料开发有限公司 一种基于视频的车牌识别方法
CN105654072B (zh) * 2016-03-24 2019-03-01 哈尔滨工业大学 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346580A (zh) * 2016-05-05 2017-11-14 腾讯科技(深圳)有限公司 票据信息识别方法及装置

Also Published As

Publication number Publication date
CN108777021A (zh) 2018-11-09

Similar Documents

Publication Publication Date Title
CN108717545B (zh) 一种基于手机拍照的票据识别方法及系统
CN108777021B (zh) 一种基于扫描仪混扫的票据识别方法及系统
CN109887153B (zh) 一种财税处理方法和处理系统
CN108960223B (zh) 基于票据智能识别自动生成凭证的方法
US8879846B2 (en) Systems, methods and computer program products for processing financial documents
US7983468B2 (en) Method and system for extracting information from documents by document segregation
US9342741B2 (en) Systems, methods and computer program products for determining document validity
CA2589947C (en) Machine character recognition verification
US20030076994A1 (en) Business form handling method and system for carrying out the same
CN106228675A (zh) 识别发票真伪的方法和装置
JP2001184453A (ja) 帳票処理システムおよび帳票ファイリングシステム
CN112395996A (zh) 财务票据ocr识别及影像处理方法、系统及可读存储介质
CN110851677A (zh) 报销凭证处理方法、装置、终端和计算机可读存储介质
CN113158895B (zh) 票据识别方法、装置、电子设备及存储介质
CN114202759A (zh) 基于深度学习的多币种纸币冠字号识别方法和装置
CN114511866A (zh) 数据稽核方法、装置、系统、处理器及机器可读存储介质
CN114219507A (zh) 中药供应商的资质审核方法、装置、电子设备及存储介质
CN112215225B (zh) 一种基于计算机视觉技术的kyc证件核验方法
CN113066223A (zh) 发票自动验证方法及装置
CN111881880A (zh) 一种基于新型网络的票据文本识别方法
US20010047331A1 (en) Method for processing remittance payment documents
CN115205882A (zh) 一种医疗行业的费用支出凭证的智能识别和处理方法
JP2018190064A (ja) 会計処理システム
CN111223230A (zh) 一种基于crnn算法的发票文件真伪识别方法
CN111488852A (zh) 一种基于图像识别的缴费智能核查预警系统及预警方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 501-018, floor 5, No. 15, wanquanzhuang Road, Haidian District, Beijing 100089

Patentee after: Dajingfang Network Technology Co.,Ltd.

Address before: 100000 405, No. 15, wanquanzhuang Road, Haidian District, Beijing

Patentee before: BEIJING DAZHANGFANG NETWORK TECHNOLOGY Co.,Ltd.