基于扫描仪的云智能发票识别查验系统及方法
技术领域
本发明涉及一种基于扫描仪,并融合了互联网、云计算、图像处理、智能识别和智能查询多种技术于一体应用的云智能发票识别查验系统及方法。
背景技术
随着我国电子政务、计算机网络信息化的发展,信息技术正广泛应用于行政管理的各个领域。
近几年,有关假发票的小广告、短信满天飞,虽经严厉打击,但发票领域的制假、售假、买假、大头小尾等违法行为仍然屡禁不止。根据国家税务总局统计,2010年全国查处假发票4000万份,2013年达到6.6亿份。
究其原因,目前我国各地官方国、地税网站多;税务网站查询流程复杂不一、查询窗口难找;查询过程操作步骤繁多、手工输入容易出错、耗时费力、查询效率低下;对于绝大多数消费者来说,普遍存在不会查询识别发票真伪,以及因操作繁琐、容易出错,懒得查询识别发票真伪。制假技术也与日时俱进,假发票足以以假乱真,不通过税务系统查询,难以用肉眼区分,税务监管部门也难以快速、实时、有效地核查发票的真伪,因此,就形成了安全漏洞,给制售假发票以可乘之机、屡禁不止,给国家造成巨大的经济损失和不良的社会影响。
另外,发票种类多(全国有几千种发票)、票面复杂(有印刷、打印、图章和密码区等不同信息),并且存在着打印、盖章不规范等情形,这一直是困扰着发票图像自动识别的难点所在。
发明内容
本发明的目的是针对上述现有技术的不足,提供一种基于扫描仪,并融合了互联网、云计算、图像处理、智能识别和智能查询多种技术于一体应用的云智能发票识别查验系统及方法,通过扫描仪将发票的纸质信息转变成电子图像,并通过互联网云智能计算中心对发票电子图像进行智能处理、识别和查询,从而有效实现简化发票查询操作,提高效率和查验准确性,方便职能部门监管,有效遏制制售假发票等违法行为,避免给国家造成重大损失。
为实现本发明的目的所采用的技术方案是:一种基于扫描仪的云智能发票识别查验系统,包括:云智能计算中心、PC终端和扫描仪,
扫描仪:将纸质发票信息通过扫描转换成电子图像;
PC终端:提供可视化的登录、存储、管理、查询操作平台,并作为扫描仪与云智能计算中心间通信连接的桥梁,将扫描仪提供的电子图像上传至云智能计算中心;
云智能计算中心:提供发票图像相关数据的存储、校正、识别和查询服务,通过互联网与各PC终端进行数据通信,并将查验结果及发票识别信息反馈至PC终端。
一种上述基于扫描仪的云智能发票识别查验系统的查验方法,包括以下步骤:
1)、通过扫描仪将纸质发票扫描转换成为100-400dpi的彩色电子图像发票;
2)、通过PC终端将步骤1)所得的彩色电子图像发票上传至云智能计算中心;
3)、预处理:云智能计算中心对接收到的彩色电子发票图像进行倾斜校正和去干扰预处理;
4)、标准化处理:云智能计算中心将经步骤3)预处理的彩色电子图像发票转换为黑白电子图像发票,实现标准化处理;
5)、电子图像发票标准化处理后,云智能计算中心通过预识别比对分析识别出发票指定标识符,根据发票指定标识符和发票上发票代码的相对坐标来确定发票代码位置并进行发票代码的识别,识别出发票代码数字;
6)、云智能计算中心通过步骤5)识别出的发票代码数字的位数和字段编号,根据发票代码设置规则确定发票类型、归属地及相对应的查验网站;
7)、云智能计算中心从其数据库中找到该发票代码所相对应的模板,模板定义了需要在发票上提取的信息模块和字段名称,以及信息模块和字段名称在发票图像上的大小、位置、相对关系和取值范围,根据模板对标准化处理后的发票图像进行整体的自动化智能识别,获取发票查验所需信息;
8)、云智能计算中心自动登录相应的查验网站,将步骤7)所获取的发票查验所需信息传至相应的查验网站系统,进行自动化智能查询,并获取查验结果;
9)、云智能计算中心将识别信息和查验结果反馈至PC终端,并通过PC终端的显示界面显示出来,即可实现发票的云智能真伪识别查验。
所述步骤1)中,当扫描得到的彩色电子图像发票不是100-400dpi时,在步骤3)中,云智能计算中心采用平均差值法自动将彩色电子图像发票转换成100-400dpi。
所述步骤3)中,云智能计算中心通过建立坐标系识别并检测“发票代码”四个字的倾斜度,以确定彩色电子图像发票的倾斜度,当彩色电子图像发票的倾斜角度大于2度时,通过图像旋转进行倾斜校正,校正后彩色电子图像发票的倾斜角度小于0.5度。
所述步骤3)中,云智能计算中心通过图像去斑消除图像噪声,对彩色电子图像发票进行去干扰预处理。
在步骤7)中,进行整体自动化智能识别时,因发票密码区没有刮或没有刮干净而无法识别的,云智能计算中心将反馈信息到PC终端,提示查验者进行补录。
在步骤7)中,进行整体自动化智能识别时,若需要识别纳税人识别号,但发票票面上无打印的纳税人识别号或打印的纳税人识别号无法识别时,云智能计算中心转向通过发票专用章提取纳税人识别号。
上述云智能计算中心通过发票专用章提取纳税人识别号,包括以下步骤:
a) 云智能计算中心将原始彩色电子发票图像的红色部分从发票原始图像中剥离出来;
b) 云智能计算中心从剥离出来的红色部分提取出椭圆形发票专用章图像;
c) 云智能计算中心对提取出的椭圆形发票专用章图像进行倾斜校正;
d) 云智能计算中心对校正后的椭圆形发票专用章图像中的“发票专用章”字样进行识别定位;
e) 云智能计算中心根据“发票专用章”的定位信息,找到纳税人识别号的位置并提取、识别纳税人识别号。
步骤9)中,若查验结果为假,则云智能计算中心通过PC终端提示查验者核对发票识别信息,若识别信息有误,则查验者通过对发票识别信息进行校正后再次进行查验核实。
本发明的基于扫描仪的云智能发票识别查验系统及方法,在进行发票真伪查验时,通过扫描仪将纸质发票通过扫描获取发票的彩色电子图像,并通过PC终端将获取的彩色发票电子图像上传至云智能计算中心,云智能计算中心通过智能校正和标准化处理,并通过智能识别发票代码,根据发票代码调取云智能计算中心数据库中事先存档的发票模板,进行各种相关数据的识别,同时,通过各税局网站查询系统自动查询发票的真伪情况,并将查询结果反馈至PC终端,实现查验者对发票真伪的快速、简便、准确查询。本发明有效克服了发票种类多、票面复杂等一直困扰着发票图像自动识别的难点问题,有效地实现了发票的智能查询,只需要将发票扫描上传至云智能计算中心,即可查验发票真伪,整个查验过程只需要几十秒即可完成。通过智能校正和标准化处理,并采用模板式比对分析识别,其准确率有效达到99.99%,并且可以实现快速查询,同时上传多张发票扫描图像,查询效率高。
附图说明
下面结合附图对本发明做进一步的说明:
图1是本发明的查询流程图。
具体实施方式
本发明的基于扫描仪的云智能发票识别查验系统,包括:云智能计算中心、PC终端和扫描仪。
扫描仪:将纸质发票信息通过电子扫描转换成彩色电子图像发票信息;
PC终端:提供可视化的登录、存储、管理、查询操作平台,并作为扫描仪与云智能计算中心间通信连接的桥梁,查验者通过PC终端登录云智能计算中心,将扫描仪提供的彩色电子图像发票信息上传至云智能计算中心,并接收云智能计算中心反馈的信息;
云智能计算中心:提供电子发票图像相关数据的存储、校正、识别和查询服务,通过互联网与各税局相应的发票查验网站系统建立连接,并进行自动化智能查询,获取发票真伪查验结果;同时,通过互联网与各PC终端进行数据通信,并将查验结果及发票识别信息反馈至相应的PC终端。
本系统适用于各大中小微型公司企业、以及税务部门,只要有联网的PC终端计算机和扫描仪即可。
上述基于扫描仪的云智能发票识别查验系统的查验方法,包括以下步骤:
1)、查验者通过扫描仪将纸质发票扫描转换成为100-400dpi的彩色电子图像发票;
2)、查验者通过PC终端登录云智能计算中心,可采用用户名+密码的形式或匿名登录的形式,通过PC终端将步骤1)所得的彩色电子图像发票上传至云智能计算中心;
3)、预处理:云智能计算中心对接收到的彩色电子发票图像保存,并进行倾斜校正和去干扰预处理;其倾斜校正,云智能计算中心可以首先采用比对法,分析识别出“发票代码”四个字,并将其定位,通过建立坐标系检测“发票代码”四个字的倾斜度,以确定彩色电子图像发票的倾斜度,当彩色电子图像发票的倾斜角度大于2度时,通过图像旋转进行倾斜校正,使校正后彩色电子图像发票的倾斜角度小于0.5度;其去干扰,云智能计算中心可以通过图像去斑消除图像噪声来实现。通过倾斜校正和去干扰预处理,为后续的模板化识别做准备,使电子图像发票与对应的模板各信息模块区域相匹配对应,有效提高自动化智能识别的效率和准确性。
4)、标准化处理:云智能计算中心将经步骤3)预处理的彩色电子图像发票去色转换为黑白电子图像发票,实现标准化处理,通过步骤3)的预处理和该步骤的标准化处理,将扫描仪扫描的发票图像转换为智能识别时的标准件,方便统一规范,减化系统架构,避免系统冗繁,可有效提高云智能计算中心数据处理效率,从而整体上进一步提高发票识别查验效率。
5)、电子图像发票标准化处理后,云智能计算中心通过预识别比对分析识别出发票指定标识符,根据发票指定标识符和发票上发票代码的相对坐标来确定发票代码位置并进行发票代码的识别,识别出发票代码数字;通过将发票代码作为关键字,从而有效实现后续的对发票类型、相对应的模板、归属地及相对应的查验网站等信息的判断确认。这里的发票指定标识符可以指定“货物或应税劳务名称”、“价税合计”、“发票代码”和等具有标识作用的字符中的任意一个或多个,如采用“发票代码”可以识别大部分的具有“发票代码”字样的发票,而对于增值税专用发票上没有“发票代码”四个汉字,可以在预识别过程中识别“开票日期”作为发票指定标识符,然后根据增值税专用发票上“开票日期”与发票代码的相对位置确定发票代码的位置并进行识别。因此,此步骤可以先预识别“发票代码”,在没有“发票代码”可以识别的情况下,可预识别“开票日期”,如此,最终确定发票代码的具体位置并识别。
6)、云智能计算中心通过步骤5)识别出的发票代码数字的位数和字段编号,根据发票代码设置规则确定发票类型、归属地及相对应的查验网站;
目前,我国的普通发票代码:由国地税代码、行政区域代码、年份代码、行业代码、发票种类代码等组成,共12位。从左至右按照下列顺序编制:第1位为国地税代码,第2位~第5位为行政区域代码,第6位、第7位为年份代码,第8位为行业代码,第9位~第12位为发票种类代码。
增值税专用发票的代码为10位。第一~四位为行政区划代码,第五~六位为年份,第七位为印刷批次,第八位为发票种类(增值税普通发票为“6”, 货物运输业增值税专用发票为“7”),第九位为联次,第十位为金额版(电脑版发票为“0”)。
首先,通过发票代码位数可以判断待查验发票为普通发票还是增值税发票,若为普通发票,则通过上述编制,可判断发票为国税发票还是地税发票,以及所属行政区域、年份、行业等相关信息,若为增值税专用发票,则通过发票代码的第八位,则可以判断发票为增值税专用发票、货物运输业增值税专用发票或增值税普通发票,进而再确定发票的所属行政区域、年份等相关信息,即可识别确认所查验发票所相对应的税局查验网站。
7)、云智能计算中心从其数据库中找到该发票代码所相对应的模板,模板为事先制作好的,存储于云智能计算中心的数据库中,模板定义了需要在发票上提取的信息模块和模块对应的字段名称,以及信息模块和字段名称在发票图像上的大小、位置、相对关系和取值范围,根据模板对标准化处理后的发票图像进行整体的自动化智能识别,比如将发票图像上的信息识别成字符、数字、汉字、英语等,获取发票查验所需信息,如发票代码、发票号码、开票日期、商品名称、开票金额、开发单位等信息;
8)、云智能计算中心自动登录相应税局端的查验网站,将步骤7)所获取的发票查验所需信息传至相应的查验网站系统,进行自动化智能查询,并获取查验结果;
9)、云智能计算中心将识别信息和查验结果反馈至PC终端,并通过PC终端的显示界面显示出来,即可实现发票的云智能真伪识别查验;对于通过用户名+密码形式登录的用户,云智能计算中心将查验者查询识别的发票相关信息及查验结果,均作为查验者的查验历史记录保存于云智能计算中心,以便后续翻阅。
作为优选方案,所述步骤1)中,当扫描得到的彩色电子图像发票不是100-400dpi时,在步骤3)中,云智能计算中心采用平均差值法自动将彩色电子图像发票转换成100-400dpi。从而避免一部分人员不会设置扫描仪,造成扫描图像不符合要求,而无法查验的情况发生,进一步提高云智能发票识别查验系统的便利性和可操作性,使查验者的操作更加方便。
进一步地作为优选方案,在步骤7)中,进行整体自动化智能识别时,因发票密码区没有刮或没有刮干净而无法识别的,云智能计算中心将反馈信息到PC终端,提示查验者进行补录。查验者可以将发票的密码区刮干净再重新扫描上传,也可以通过人工录入发票密码区的信息,云智能计算中心则继续进行下一步。
再一步地优化本申请的方案,在步骤7)中,进行整体自动化智能识别时,若需要识别纳税人识别号,但发票票面上无打印的纳税人识别号或打印的纳税人识别号无法识别时,云智能计算中心转向通过发票专用章提取纳税人识别号。
云智能计算中心转向通过发票专用章提取纳税人识别号,包括以下步骤:
a) 云智能计算中心将原始彩色电子发票图像的红色部分从发票原始图像中剥离出来;
b) 云智能计算中心从剥离出来的红色部分提取出椭圆形发票专用章图像;
c) 云智能计算中心对提取出的椭圆形发票专用章图像采用数学长轴为基准进行倾斜校正;
d) 云智能计算中心对校正后的椭圆形发票专用章图像中的“发票专用章”字样进行识别定位;
e) 云智能计算中心根据“发票专用章”的定位信息,找到纳税人识别号的位置并提取、识别纳税人识别号,我国发票专用章的标准纳税人识别号在“发票专用章”字样的的上方,定位了“发票专用章”就可找到纳税人识别号的位置。
进一步地再优化本申请的方案,步骤9)中,若查验结果为假,则云智能计算中心通过PC终端提示查验者核对发票识别信息,若识别信息有误,则查验者通过对发票识别信息进行校正后再次进行查验核实。通过核对发票识别信息可以进一步提高发票查验结果的准确性,做到万无一失,避免造成冤假错判。
本申请的基于扫描仪的云智能发票识别查验系统及方法,以发票代码为关键字,通过发票代码识别发票类型、归属地及相对应的查验网站等信息,并通过发票代码与云智能计算中心数据库中的发票模板相关联对应,每一种发票代码对应一个模板,并且每个模板都定义了需要在发票上提取的信息模块和模块对应的字段名称,以及信息模块和字段名称在发票图像上的大小、位置、相对关系和取值范围等信息,从而实现对不同发票、不同位置模块信息的快速定位和准确定义,使获取的信息与字段名称准确相匹配,不仅有利于提高识别效率,而且有效避免信息错乱,提高智能识别的准确性,使字段名称与所识别的模块信息准确地一一对应。通过发票专用章提取纳税人识别号,不仅仅在于发票票面上无打印的纳税人识别号或打印的纳税人识别号无法识别时,作为备用的提取纳税人识别号的方式,而且,可以在票面上能够识别纳税人识别号的情况下,同时进行通过发票专用章提取纳税人识别号,从而实现二者的比对核准,进一步提高智能识别的准确度。
本发明的技术方案并不限于上述具体实施方式的范围内,以上所描述的仅为本发明的较佳实施例,凡本领域技术人员根据以上描述所做的常规修改或等同替换,均属于本发明的保护范围。本发明未详尽描述的技术内容均为公知技术。