CN110009796B - 发票类别识别方法、装置、电子设备及可读存储介质 - Google Patents

发票类别识别方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN110009796B
CN110009796B CN201910290457.3A CN201910290457A CN110009796B CN 110009796 B CN110009796 B CN 110009796B CN 201910290457 A CN201910290457 A CN 201910290457A CN 110009796 B CN110009796 B CN 110009796B
Authority
CN
China
Prior art keywords
invoice
code
identified
training set
sample training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910290457.3A
Other languages
English (en)
Other versions
CN110009796A (zh
Inventor
乔媛媛
余剑扬
林文辉
舒南飞
杨洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910290457.3A priority Critical patent/CN110009796B/zh
Publication of CN110009796A publication Critical patent/CN110009796A/zh
Application granted granted Critical
Publication of CN110009796B publication Critical patent/CN110009796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07DHANDLING OF COINS OR VALUABLE PAPERS, e.g. TESTING, SORTING BY DENOMINATIONS, COUNTING, DISPENSING, CHANGING OR DEPOSITING
    • G07D7/00Testing specially adapted to determine the identity or genuineness of valuable papers or for segregating those which are unacceptable, e.g. banknotes that are alien to a currency
    • G07D7/004Testing specially adapted to determine the identity or genuineness of valuable papers or for segregating those which are unacceptable, e.g. banknotes that are alien to a currency using digital security elements, e.g. information coded on a magnetic thread or strip
    • G07D7/0047Testing specially adapted to determine the identity or genuineness of valuable papers or for segregating those which are unacceptable, e.g. banknotes that are alien to a currency using digital security elements, e.g. information coded on a magnetic thread or strip using checkcodes, e.g. coded numbers derived from serial number and denomination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种发票类别识别方法、装置、电子设备及可读存储介质,应用于数据挖掘技术领域,所述方法包括:获取用户输入的针对待识别发票的发票信息,根据发票信息中的关键词以及预先获取的发票样本训练集,确定待识别发票所属的发票编码集合;针对发票编码集合中的每个发票编码,根据关键词以及发票样本训练集,通过朴素贝叶斯算法,计算待识别发票属于该发票编码的后验概率值;将最大后验概率值对应的发票编码作为待识别发票的发票编码。与现有技术相比,本发明可以提高发票类别识别的效率。

Description

发票类别识别方法、装置、电子设备及可读存储介质
技术领域
本发明涉及数据挖掘技术领域,特别是涉及一种发票类别识别方法、装置、电子设备及可读存储介质。
背景技术
近年来,随着我国经济的快速发展,税务票据中商品的种类和数量呈逐年增多的趋势。为加快税收现代化建设,方便纳税人便捷、规范开具增值税发票,有利于税务机关加强增值税征收管理。税务总局编写了《商品和服务税收分类与编码(试行)》,并在增值税发票系统升级版中增加了编码相关功能。自2018年1月1日起,纳税人通过增值税发票管理新系统开具增值税发票(包括:增值税专用发票、增值税普通发票、增值税电子普通发票)时,商品和服务税收分类编码对应的简称会自动显示并打印在发票票面“货物或应税劳务、服务名称”或“项目”栏次中,编码简称需要按照颁布的《商品和服务税收分类编码表》。
早期的增值税发票商品和服务名称五花八门,同一个货物名称在不同的地区会被称之为不同的名称,并没有一个全国统一的标准,现在有了国家颁布的税收分类编码,每一个商品或者服务可以依据商品和服务税收分类编码表对应到唯一编码,具有很高的通用性,也便于标识商品和服务。商品和服务税收分类编码分成了6个大类,分别是货物、劳务、销售服务、无形资产、不动产和未发生销售行为的不征税项目。每个大类下面又有数量不等的小类别,整体的编码表呈现树结构,总共4226个编码类别。编码是以19位的数字串表示,结构简化如图1所示,需要说明的是,图1中括号内为商品和服务税收分类编码,为了表示方便,仅保留到字符串最后一个非0数字,省略了后面的0。
由于商品与服务税收分类编码中的税收分类编码总数超过了4000个,税务开票系统如果对这些大量的票据中的商品分类进行手工处理,不仅会消耗大量的人力物力,而且工作效率低下。故实现商品编码分类的自动化处理,将其准确分类到对应的类别中是一个十分有意义的任务,对单一的重复劳动有很大的实用价值。如果对票据中商品的分类识别率较低,会因为不同的商品类别对应的税率不同而带来业务风险,同时增加后续手工处理的工作量。因此,商品编码推荐系统需要具备高准确率抗干扰性以及实时性,才能保证其识别结果的可靠性。相关技术中,可以通过关键字检索确定发票类别,例如,某品牌手机,可以输入手机作为关键词进行检索,根据检索出来的相关类别集合再选取合适的类别。可见,该方法依旧需要人为的从商品和服务名称中摘取关键词,同时关键词并不能涵盖整个商品和服务名称的信息,具有一定的局限性。因此,现有方法对发票类别的识别效率比较低。
发明内容
本发明实施例的目的在于提供一种发票类别识别方法、装置、电子设备及可读存储介质,以提高发票类别识别的效率。具体技术方案如下:
本发明实施例提供了一种发票类别识别方法,所述方法包括:
获取用户输入的针对待识别发票的发票信息,根据所述发票信息中的关键词以及预先获取的发票样本训练集,确定所述待识别发票所属的发票编码集合;
针对所述发票编码集合中的每个发票编码,根据所述关键词以及发票样本训练集,通过朴素贝叶斯算法,计算所述待识别发票属于该发票编码的后验概率值;
将最大后验概率值对应的发票编码作为所述待识别发票的发票编码。
可选的,本发明实施例的发票类别识别方法,还包括:
在接收到多个待识别发票的关键信息时,通过Nginx将多个待识别发票的关键信息分发至多个服务器,通过所述多个服务器对所述多个待识别发票进行发票类别识别。
可选的,所述根据所述发票信息中的关键词以及发票样本训练集,确定所述待识别发票所属的发票编码集合,包括:
根据所述发票信息中的关键词以及发票样本训练集,确定所述发票样本训练集中对应的关键信息中同时包含所述发票信息中的所有关键词的发票编码,所述发票样本训练集中每个发票编码对应的关键信息是属于该发票编码的信息;
将得到的发票编码集合作为所述待识别发票所属的发票编码集合。
可选的,所述根据所述关键词以及发票样本训练集,通过朴素贝叶斯算法,计算所述待识别发票属于该发票编码的后验概率值,包括:
若发票编码为C,第i个关键词为wi,i为1~n的整数,n为关键词的个数,
根据公式:
Figure BDA0002024740280000031
计算所述待识别发票属于发票编码C的后验概率值P(C|w1,…wn),
P(C)表示发票编码C的先验概率,P(wi|)表示wi在发票编码C中出现的概率,P(1,…wn)表示w1~wn的所有关键词同时在发票样本训练集中出现的概率。
本发明实施例提供了一种发票类别识别装置,所述装置包括:
编码集合确定模块,用于获取用户输入的针对待识别发票的发票信息,根据所述发票信息中的关键词以及预先获取的发票样本训练集,确定所述待识别发票所属的发票编码集合;
后验概率值计算模块,用于针对所述发票编码集合中的每个发票编码,根据所述关键词以及发票样本训练集,通过朴素贝叶斯算法,计算所述待识别发票属于该发票编码的后验概率值;
发票编码确定模块,用于将最大后验概率值对应的发票编码作为所述待识别发票的发票编码。
可选的,本发明实施例的发票类别识别装置,还包括:
并发模块,用于在接收到多个待识别发票的关键信息时,通过Nginx将多个待识别发票的关键信息分发至多个服务器,通过所述多个服务器对所述多个待识别发票进行发票类别识别。
可选的,所述编码集合确定模块,具体用于根据所述发票信息中的关键词以及发票样本训练集,确定所述发票样本训练集中对应的关键信息中同时包含所述发票信息中的所有关键词的发票编码,所述发票样本训练集中每个发票编码对应的关键信息是属于该发票编码的信息,将得到的发票编码集合作为所述待识别发票所属的发票编码集合。
可选的,所述后验概率值计算模块,具体用于若该发票编码为C,第i个关键词为wi,i为1~n的整数,n为关键词的个数,
根据公式:
Figure BDA0002024740280000041
计算所述待识别发票属于该发票编码的后验概率值P(C|w1,…wn),
P(C)表示发票编码C的先验概率,P(wi|)表示wi在发票编码C中出现的概率,P(1,…wn)表示w1~wn的所有关键词同时在发票样本训练集中出现的概率。
本发明实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现上述任一所述的发票类别识别方法的步骤。
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一所述的发票类别识别方法的步骤。
本发明实施例提供的发票类别识别方法、装置、电子设备及可读存储介质,通过获取用户输入的针对待识别发票的发票信息,根据发票信息中的关键词以及发票样本训练集,确定待识别发票所属的发票编码集合;针对发票编码集合中的每个发票编码,根据关键词以及预先获取的发票样本训练集,通过朴素贝叶斯算法,计算待识别发票属于该发票编码的后验概率值;将最大后验概率值对应的发票编码作为待识别发票的发票编码。本发明不需要人工操作即可识别发票类别,提高了发票类别识别的效率,帮助纳税人更准确地对商品和服务进行编码分类,高效地完成税收分类编码的匹配。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为发票分类编码结构图;
图2为本发明实施例的发票类别识别方法的流程图;
图3为本发明实施例的并发请求流程图;
图4为本发明实施例的发票类别识别装置的结构图;
图5为本发明实施例的电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决纳税人开发票时效率低的问题,本发明实施例提供了一种发票类别识别方法、装置、电子设备及可读存储介质,以提高发票类别识别的效率。
下面首先对本发明实施例所提供的发票类别识别方法进行详细介绍。
参见图2,图2为本发明实施例的发票类别识别方法的流程图,包括以下步骤:
S201,获取用户输入的针对待识别发票的发票信息,根据发票信息中的关键词以及预先获取的发票样本训练集,确定待识别发票所属的发票编码集合。
具体的,发票中通常包含购买方、销售方、购买的商品和销售金额等相关信息。由于不同类别的商品对应的税率是不同的,开发票时需要识别不同商品对应的发票编码。本发明实施例可以通过Restful API(Application Programming Interface,应用程序编程接口)访问服务接口,为用户提供编码推荐的服务。具体的,用户可以通过Restful API访问服务接口输入针对待识别发票的发票信息,服务器可以根据待识别发票中的发票信息来识别发票的类别,发票信息包括:商品和服务名称、规格型号和单位等,不同待识别发票中的发票信息可参见表1。根据发票信息可以得到,S={w1,w2,…,wi,…,wn},S是发票信息中关键词的集合,wi表示第i个关键词,n表示关键词的个数。例如,表1中商品和服务名称为苹果笔记本电脑时,可以得到的关键词为苹果、笔记本、电脑、13英寸和台。
表1
商品和服务名称 税收分类编码 规格型号 单位
螺纹钢 1020103000000000000 159*10
牛仔裤 1050202040000000000 450
手镯 1090123010000000000 720
苹果笔记本电脑 1090509010000000000 13英寸
发票样本训练集是预先获取的包含各种发票的样本,每种发票对应一种编码,可以根据关键词以及发票样本训练集,得到关键词属于发票样本训练集中的哪些发票类别,即确定待识别发票所属的发票编码集合。本发明的一种实现方式中,发票样本训练集中每个发票编码对应的关键信息是属于该发票编码的信息,例如,水果为一种发票类别,苹果、香蕉和橘子等是水果发票类别对应的关键信息。那么,根据发票信息中的关键词以及发票样本训练集,可以确定发票样本训练集中对应的关键信息中同时包含发票信息中的所有关键词的发票编码,将得到的发票编码集合作为待识别发票所属的发票编码集合。
例如,表1中商品和服务名称为苹果笔记本电脑时,发票编码集合中对应的关键信息中同时包含苹果、笔记本、电脑、13英寸和台的发票编码即为待识别发票所属的发票编码,得到的发票编码集合即为待识别发票所属的发票编码集合。
S202,针对发票编码集合中的每个发票编码,根据关键词以及发票样本训练集,通过朴素贝叶斯算法,计算待识别发票属于该发票编码的后验概率值。
本发明实施例中,可以预先对发票样本训练集进行训练,具体的,对于发票样本训练集中出现过的任意一个关键词,可以统计该关键词在所有样本类别出现的概率,对于任意的发票编码C,可以分别统计发票编码C在发票样本训练集中出现的概率以及属于发票编码C的关键词在发票编码C中出现的概率。之后,将上述统计结果以表格的形式分别存储到HDFS(Hadoop Distributed File System,分布式文件系统)、数据库和Redis(基于内存存储的键值型数据库)中,得到概率表格。对发票样本训练集训练一次即可,在通过RestfulAPI获取待识别发票的发票信息时,通过查询该概率表格即可计算后验概率值。具体的,若发票编码为C,第i个关键词为wi,i为1~n的整数,n为关键词的个数,
根据公式:
Figure BDA0002024740280000071
计算待识别发票属于发票编码C的后验概率值P(C|w1,…wn),P(C)表示发票编码C的先验概率,也就是发票编码C在发票样本训练集中出现的概率,P(wi|)表示wi在发票编码C中出现的概率,P(1,…wn)表示w1~wn的所有关键词同时在发票样本训练集中出现的概率,P(C)、P(wi|)和P(1,…wn)可以通过查询上述概率表格得到。
S203,将最大后验概率值对应的发票编码作为待识别发票的发票编码。
本发明实施例中,最大后验概率值越大,表示待识别发票属于该发票编码的概率越大。因此,可以选取最大后验概率值对应的发票编码作为待识别发票的发票编码。在商品分类编码推荐系统中,还可以根据需求选取后验概率值最大的几个发票编码,作为预测结果供用户进行选择,可以将预测结果按照预设格式返回给用户。
本发明实施例的发票类别识别方法,通过获取用户输入的针对待识别发票的发票信息,根据发票信息中的关键词以及发票样本训练集,确定待识别发票所属的发票编码集合;针对发票编码集合中的每个发票编码,根据关键词以及预先获取的发票样本训练集,通过朴素贝叶斯算法,计算待识别发票属于该发票编码的后验概率值;将最大后验概率值对应的发票编码作为待识别发票的发票编码。本发明不需要人工操作即可识别发票类别,提高了发票类别识别的效率,帮助纳税人更准确地对商品和服务进行编码分类,高效地完成税收分类编码的匹配。
本发明的一种实现方式中,在接收到多个待识别发票的关键信息时,通过Nginx将多个待识别发票的关键信息分发至多个服务器,通过多个服务器对多个待识别发票进行发票类别识别,每个服务器对待识别发票进行发票类别识别的方法即为图2实施例的方法。
实际应用中,发票类别的识别通常具有高并发性,即多个用户可以同时查询发票类别,为了满足高并发需求,可以建立多个独立的服务器,在前端通过Nginx服务器实现负载均衡,将高并发的发票类别识别请求轮流发送给这些独立的服务器,均衡每个服务器上负载的请求,可参见图3。其中,Nginx是一个高性能的HTTP(HyperText TransferProtocol,超文本传输协议)和反向代理服务器。具有本地缓存,本身也是支持热数据的高并发访问。热数据,由于经常被访问,利用Nginx服务器本地缓存,可以被锁定在Nginx服务器的本地缓存内。大量的热数据的访问,就会被保留在Nginx服务器本地缓存内,那么对这些热数据的大量访问,通过Nginx服务器的缓存进行命中,但是Nginx服务器的缓存是有限的,同时由于会部署多个Nginx服务器,因为流量分流的原因,缓存的命中率是比较低的。而Redis数据库分布式大规模缓存,可以支持很高的离散并发访问请求,支撑海量的数据,高并发的访问,高可用的服务。Redis数据库可以缓存大量完整的数据;支撑高并发的访问,QPS(Queries Per Second,每秒查询率)最高到几十万;可用性需要较好,提供非常稳定的服务。由于Nginx本地内存有限,只能缓存部分热数据,但是当频繁访问的热数据已经超出了Nginx服务器的能力范围时,即可使用Redis数据库更强的缓存能力。
因此,本发明实施例的存储采用基于内存存储的键值型数据库Redis数据库和关系型数据库Postgresql,关系型数据库主要用来存储概率表格,在计算后验概率值时可以实时查询,Redis数据库通过键值对的形式将数据存储在内存中,能够满足系统的高并发查询需求,将经过转换后的键值对形式的结果集存入Redis数据库,通过Restful API对外提供高性能的编码推荐服务。
这样,基于Nginx服务器和Redis数据库构建了提供Restful API的高并发商品编码推荐系统,通过Nginx服务器做负载均衡,来分发发票类别识别请求,Redis数据库作为缓存的内存数据库,支撑系统接收高并发的实时查询请求。
相应于上述方法实施例,本发明实施例提供了一种发票类别识别装置,参见图4,图4为本发明实施例的发票类别识别装置的结构图,包括:
编码集合确定模块401,用于获取用户输入的针对待识别发票的发票信息,根据发票信息中的关键词以及预先获取的发票样本训练集,确定待识别发票所属的发票编码集合;
后验概率值计算模块402,用于针对发票编码集合中的每个发票编码,根据关键词以及发票样本训练集,通过朴素贝叶斯算法,计算待识别发票属于该发票编码的后验概率值;
发票编码确定模块403,用于将最大后验概率值对应的发票编码作为待识别发票的发票编码。
本发明实施例的发票类别识别装置,通过获取用户输入的针对待识别发票的发票信息,根据发票信息中的关键词以及发票样本训练集,确定待识别发票所属的发票编码集合;针对发票编码集合中的每个发票编码,根据关键词以及预先获取的发票样本训练集,通过朴素贝叶斯算法,计算待识别发票属于该发票编码的后验概率值;将最大后验概率值对应的发票编码作为待识别发票的发票编码。本发明不需要人工操作即可识别发票类别,提高了发票类别识别的效率,帮助纳税人更准确地对商品和服务进行编码分类,高效地完成税收分类编码的匹配。
可选的,本发明实施例的发票类别识别装置,还包括:
并发模块,用于在接收到多个待识别发票的关键信息时,通过Nginx将多个待识别发票的关键信息分发至多个服务器,通过多个服务器对多个待识别发票进行发票类别识别。
可选的,编码集合确定模块,具体用于根据发票信息中的关键词以及发票样本训练集,确定发票样本训练集中对应的关键信息中同时包含发票信息中的所有关键词的发票编码,发票样本训练集中每个发票编码对应的关键信息是属于该发票编码的信息,将得到的发票编码集合作为待识别发票所属的发票编码集合。
可选的,后验概率值计算模块,具体用于若该发票编码为C,第i个关键词为wi,i为1~n的整数,n为关键词的个数,
根据公式:
Figure BDA0002024740280000101
计算待识别发票属于该发票编码的后验概率值P(C|w1,…wn),
P(C)表示发票编码C的先验概率,P(wi|)表示wi在发票编码C中出现的概率,P(1,…wn)表示w1~wn的所有关键词同时在发票样本训练集中出现的概率。
需要说明的是,本发明实施例的装置是应用上述发票类别识别方法的装置,则上述发票类别识别方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。
本发明实施例还提供了一种电子设备,参见图5,图5为本发明实施例的电子设备的结构图,包括:处理器501、通信接口502、存储器503和通信总线504,其中,处理器501、通信接口502、存储器503通过通信总线504完成相互间的通信;
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现上述任一发票类别识别方法的步骤。
需要说明的是,上述电子设备提到的通信总线504可以是PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线504可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口502用于上述电子设备与其他设备之间的通信。
存储器503可以包括RAM(Random Access Memory,随机存取存储器),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器501可以是通用处理器,包括:CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital SignalProcessing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例的电子设备中,处理器通过执行存储器上所存放的程序,获取用户输入的针对待识别发票的发票信息,根据发票信息中的关键词以及发票样本训练集,确定待识别发票所属的发票编码集合;针对发票编码集合中的每个发票编码,根据关键词以及预先获取的发票样本训练集,通过朴素贝叶斯算法,计算待识别发票属于该发票编码的后验概率值;将最大后验概率值对应的发票编码作为待识别发票的发票编码。本发明不需要人工操作即可识别发票类别,提高了发票类别识别的效率,帮助纳税人更准确地对商品和服务进行编码分类,高效地完成税收分类编码的匹配。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时,实现上述任一发票类别识别方法的步骤。
本发明实施例的计算机可读存储介质中存储的指令在计算机上运行时,获取用户输入的针对待识别发票的发票信息,根据发票信息中的关键词以及发票样本训练集,确定待识别发票所属的发票编码集合;针对发票编码集合中的每个发票编码,根据关键词以及预先获取的发票样本训练集,通过朴素贝叶斯算法,计算待识别发票属于该发票编码的后验概率值;将最大后验概率值对应的发票编码作为待识别发票的发票编码。本发明不需要人工操作即可识别发票类别,提高了发票类别识别的效率,帮助纳税人更准确地对商品和服务进行编码分类,高效地完成税收分类编码的匹配。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备及可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种发票类别识别方法,其特征在于,所述方法包括:
获取用户输入的针对待识别发票的发票信息,根据所述发票信息中的关键词以及预先获取的发票样本训练集,确定所述待识别发票所属的发票编码集合;
针对所述发票编码集合中的每个发票编码,根据所述关键词以及发票样本训练集,通过朴素贝叶斯算法,计算所述待识别发票属于该发票编码的后验概率值;将最大后验概率值对应的发票编码作为所述待识别发票的发票编码;
针对所述发票编码集合中的每个发票编码,根据所述关键词以及发票样本训练集,通过朴素贝叶斯算法,计算所述待识别发票属于该发票编码的后验概率值,包括:
预先对发票样本训练集进行训练,包括:对于发票样本训练集中出现过的任意一个关键词,统计该关键词在所有样本类别出现的概率,对于任意的发票编码,分别统计所述发票编码在发票样本训练集中出现的概率以及属于发票编码的关键词在发票编码中出现的概率;
将所述发票编码在发票样本训练集中出现的概率以及属于发票编码的关键词在发票编码中出现的概率以表格的形式分别存储到分布式文件系统HDFS和Redis数据库,得到概率表格;
当获取待识别发票的发票信息时,通过查询所述概率表格,计算所述待识别发票属于该发票编码的后验概率值。
2.根据权利要求1所述的发票类别识别方法,其特征在于,所述方法还包括:
在接收到多个待识别发票的关键信息时,通过Nginx将多个待识别发票的关键信息分发至多个服务器,通过所述多个服务器对所述多个待识别发票进行发票类别识别。
3.根据权利要求1所述的发票类别识别方法,其特征在于,所述根据所述发票信息中的关键词以及发票样本训练集,确定所述待识别发票所属的发票编码集合,包括:
根据所述发票信息中的关键词以及发票样本训练集,确定所述发票样本训练集中对应的关键信息中同时包含所述发票信息中的所有关键词的发票编码,所述发票样本训练集中每个发票编码对应的关键信息是属于该发票编码的信息;
将得到的发票编码集合作为所述待识别发票所属的发票编码集合。
4.根据权利要求1所述的发票类别识别方法,其特征在于,所述根据所述关键词以及发票样本训练集,通过朴素贝叶斯算法,计算所述待识别发票属于该发票编码的后验概率值,包括:
若发票编码为C,第i个关键词为wi,i为1~n的整数,n为关键词的个数,
根据公式:
Figure FDA0002706533490000021
计算所述待识别发票属于发票编码C的后验概率值P(C|w1,…wn),
P(C)表示发票编码C的先验概率,P(wi|C)表示wi在发票编码C中出现的概率,P(w1,…wn)表示w1~wn的所有关键词同时在发票样本训练集中出现的概率。
5.一种发票类别识别装置,其特征在于,所述装置包括:
编码集合确定模块,用于获取用户输入的针对待识别发票的发票信息,根据所述发票信息中的关键词以及预先获取的发票样本训练集,确定所述待识别发票所属的发票编码集合;
后验概率值计算模块,用于针对所述发票编码集合中的每个发票编码,根据所述关键词以及发票样本训练集,通过朴素贝叶斯算法,计算所述待识别发票属于该发票编码的后验概率值;
发票编码确定模块,用于将最大后验概率值对应的发票编码作为所述待识别发票的发票编码;
所述后验概率值计算模块,具体用于:
针对所述发票编码集合中的每个发票编码,根据所述关键词以及发票样本训练集,通过朴素贝叶斯算法,计算所述待识别发票属于该发票编码的后验概率值,包括:
预先对发票样本训练集进行训练,包括:对于发票样本训练集中出现过的任意一个关键词,统计该关键词在所有样本类别出现的概率,对于任意的发票编码,分别统计所述发票编码在发票样本训练集中出现的概率以及属于发票编码的关键词在发票编码中出现的概率;
将所述发票编码在发票样本训练集中出现的概率以及属于发票编码的关键词在发票编码中出现的概率以表格的形式分别存储到分布式文件系统HDFS和Redis数据库,得到概率表格;
当获取待识别发票的发票信息时,通过查询所述概率表格,计算所述待识别发票属于该发票编码的后验概率值。
6.根据权利要求5所述的发票类别识别装置,其特征在于,所述装置还包括:
并发模块,用于在接收到多个待识别发票的关键信息时,通过Nginx将多个待识别发票的关键信息分发至多个服务器,通过所述多个服务器对所述多个待识别发票进行发票类别识别。
7.根据权利要求5所述的发票类别识别装置,其特征在于,所述编码集合确定模块,具体用于根据所述发票信息中的关键词以及发票样本训练集,确定所述发票样本训练集中对应的关键信息中同时包含所述发票信息中的所有关键词的发票编码,所述发票样本训练集中每个发票编码对应的关键信息是属于该发票编码的信息,将得到的发票编码集合作为所述待识别发票所属的发票编码集合。
8.根据权利要求5所述的发票类别识别装置,其特征在于,所述后验概率值计算模块,具体用于若该发票编码为C,第i个关键词为Wi,i为1~n的整数,n为关键词的个数,
根据公式:
Figure FDA0002706533490000031
计算所述待识别发票属于该发票编码的后验概率值P(C|w1,…wn),
P(C)表示发票编码C的先验概率,P(wi|C)表示wi在发票编码C中出现的概率,P(w1,…wn)表示w1~wn的所有关键词同时在发票样本训练集中出现的概率。
9.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求1~4任一所述的发票类别识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1~4任一所述的发票类别识别方法的步骤。
CN201910290457.3A 2019-04-11 2019-04-11 发票类别识别方法、装置、电子设备及可读存储介质 Active CN110009796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910290457.3A CN110009796B (zh) 2019-04-11 2019-04-11 发票类别识别方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910290457.3A CN110009796B (zh) 2019-04-11 2019-04-11 发票类别识别方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110009796A CN110009796A (zh) 2019-07-12
CN110009796B true CN110009796B (zh) 2020-12-04

Family

ID=67171174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910290457.3A Active CN110009796B (zh) 2019-04-11 2019-04-11 发票类别识别方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110009796B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647845A (zh) * 2019-09-23 2020-01-03 税友软件集团股份有限公司 一种发票数据识别装置、相关方法及相关装置
CN110991446B (zh) * 2019-11-22 2020-10-23 上海欧冶物流股份有限公司 标签识别方法、装置、设备及计算机可读存储介质
CN111401221B (zh) * 2020-03-12 2023-04-25 重庆农村商业银行股份有限公司 一种卡票识别方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122909A (zh) * 2006-08-10 2008-02-13 株式会社日立制作所 文本信息检索装置以及文本信息检索方法
CN103646343A (zh) * 2013-12-18 2014-03-19 世纪禾光科技发展(北京)有限责任公司 一种基于文本的商品分类处理方法及其系统
CN107480681A (zh) * 2017-08-02 2017-12-15 四川长虹电器股份有限公司 基于深度学习的高并发票据识别系统与方法
CN107657284A (zh) * 2017-10-11 2018-02-02 宁波爱信诺航天信息有限公司 一种基于语义相似性扩展的商品名称分类方法及系统
CN107832287A (zh) * 2017-09-26 2018-03-23 晶赞广告(上海)有限公司 一种标签识别方法及装置、存储介质、终端

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021302A (zh) * 2014-06-18 2014-09-03 北京邮电大学 一种基于贝叶斯文本分类模型的辅助挂号方法
WO2017210519A1 (en) * 2016-06-02 2017-12-07 Surveillens, Inc. Dynamic self-learning system for automatically creating new rules for detecting organizational fraud
CN108268880A (zh) * 2016-12-30 2018-07-10 航天信息股份有限公司 一种行业类别的识别方法及装置
CN108509543B (zh) * 2018-03-20 2021-11-02 福州大学 一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法
CN109086319A (zh) * 2018-07-02 2018-12-25 无锡天脉聚源传媒科技有限公司 针对交易数据的高并发数据处理方法及系统
CN109299255A (zh) * 2018-09-12 2019-02-01 东莞数汇大数据有限公司 基于朴素贝叶斯的案件文本分类方法、系统和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122909A (zh) * 2006-08-10 2008-02-13 株式会社日立制作所 文本信息检索装置以及文本信息检索方法
CN103646343A (zh) * 2013-12-18 2014-03-19 世纪禾光科技发展(北京)有限责任公司 一种基于文本的商品分类处理方法及其系统
CN107480681A (zh) * 2017-08-02 2017-12-15 四川长虹电器股份有限公司 基于深度学习的高并发票据识别系统与方法
CN107832287A (zh) * 2017-09-26 2018-03-23 晶赞广告(上海)有限公司 一种标签识别方法及装置、存储介质、终端
CN107657284A (zh) * 2017-10-11 2018-02-02 宁波爱信诺航天信息有限公司 一种基于语义相似性扩展的商品名称分类方法及系统

Also Published As

Publication number Publication date
CN110009796A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
US20200218737A1 (en) Method, system and program product for matching of transaction records
US10504120B2 (en) Determining a temporary transaction limit
CN102236663B (zh) 一种基于垂直搜索的查询方法、系统和装置
CN110009796B (zh) 发票类别识别方法、装置、电子设备及可读存储介质
US6640226B1 (en) Ranking query optimization in analytic applications
US20040093412A1 (en) Olap-based web access analysis method and system
US20080059524A1 (en) Hybrid data provider
CN104424595A (zh) 税务监控方法及其系统
CN102722481A (zh) 一种用户收藏夹数据的处理方法及搜索方法
CN104077407A (zh) 一种智能数据搜索系统及方法
US20140188948A1 (en) Database aggregation of purchase data
CN105488163A (zh) 信息推送方法和装置
CN106709805B (zh) 一种用户收益数据获取方法及系统
US11966933B2 (en) System and method for correlating and enhancing data obtained from distributed sources in a network of distributed computer systems
CN116308684B (zh) 一种网购平台店铺信息推送方法及系统
CN110704486A (zh) 数据处理方法、装置、系统、存储介质和服务器
CN110942392A (zh) 一种业务数据处理方法、装置、设备和介质
US10922328B2 (en) Method and system for implementing an on-demand data warehouse
US8505811B2 (en) Anomalous billing event correlation engine
CN111695077A (zh) 资产信息推送方法、终端设备及可读存储介质
CN110738538B (zh) 识别相似物品的方法和装置
CN114549125A (zh) 物品推荐方法及装置、电子设备和计算机可读存储介质
CN114265887A (zh) 一种维度数据处理方法、装置、存储介质及电子设备
US20140278752A1 (en) System and method for identifying potential mergers and acquisitions
CN112991033A (zh) 一种确定物品价值属性的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant