CN109740642A - 发票类别识别方法、装置、电子设备及可读存储介质 - Google Patents
发票类别识别方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN109740642A CN109740642A CN201811555038.XA CN201811555038A CN109740642A CN 109740642 A CN109740642 A CN 109740642A CN 201811555038 A CN201811555038 A CN 201811555038A CN 109740642 A CN109740642 A CN 109740642A
- Authority
- CN
- China
- Prior art keywords
- invoice
- key message
- matrix
- vector
- code number
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供了一种发票类别识别方法、装置、电子设备及可读存储介质,应用于数据挖掘技术领域,所述方法包括:提取待识别发票中的关键信息,对关键信息中的每个词进行向量表示,得到关键信息矩阵;将关键信息矩阵输入预先建立的神经网络模型中,得到关键信息矩阵对应的分类概率向量,神经网络模型是根据各发票中的关键信息以及各发票对应的分类编码得到的;将分类概率向量中最大值元素对应的分类编码作为待识别发票的分类编码。与现有技术相比,本发明可以提高发票类别识别的效率和准确性。
Description
技术领域
本发明涉及数据挖掘技术领域,特别是涉及一种发票类别识别方法、装置、电子设备及可读存储介质。
背景技术
为加快税收现代化建设,方便纳税人便捷、规范开具增值税发票,有利于税务机关加强增值税征收管理。税务总局编写了《商品和服务税收分类与编码(试行)》,并在增值税发票系统升级版中增加了编码相关功能。自2018年1月1日起,纳税人通过增值税发票管理新系统开具增值税发票(包括:增值税专用发票、增值税普通发票、增值税电子普通发票)时,商品和服务税收分类编码对应的简称会自动显示并打印在发票票面“货物或应税劳务、服务名称”或“项目”栏次中,编码简称需要按照颁布的《商品和服务税收分类编码表》。简单地说就是要在开票系统中增加一个类别品名的编码功能,从系统中开具的每一张发票的每一个商品或者服务对应一项编码。原来的发票名称五花八门,同一货物名称在各地都有不同的说法,没有一个相对统一的标准;有了税收分类编码,每一个商品或者服务就对应一项唯一编码,全国通用,增加了识别度也便于有效的筛选。
然而,商品和服务税收分类编码表是根据货物、应税劳务、服务或者项目名称的分类来进行编码的。税收分类编码则是从篇、类、章、节、条、款、项、目、子目和细目组成,编码的基本规则是从大类逐步细化到具体的货物、应税劳务、服务或者项目名称。从现行编码表看,细化到篇、类、章、节、条、款、项7个细类,目、子目和细目尚未细化。商品和服务税收分类编码分成了6个大类,分别是货物、劳务、销售服务、无形资产、不动产和未发生销售行为的不征税项目。每个大类下面又有数量不等的小类别,整体的编码表呈现树结构,总共4226个编码类别。编码是以19位的数字串表示,结构简化如图1所示,需要说明的是,图1中括号内为商品和服务税收分类编码,为了表示方便,仅保留到字符串最后一个非0数字,省略了后面的0。
由于商品和服务的名称多种多样,将其准确分类到对应的类别中是一个十分具有挑战性的问题。相关技术中,可以通过关键字检索对商品和服务的名称进行分类,例如,商品和服务的名称为苹果手机,输入手机作为关键词进行检索,根据检索出来的相关类别集合再选取合适的类别。但是该方法需要人为的从商品和服务名称中摘取出关键词,同时关键词并不能涵盖整个商品和服务名称的信息,所以具有一定的局限性,对商品和服务名称进行分类编码的效率和准确性比较低。
发明内容
本发明实施例的目的在于提供一种发票类别识别方法、装置、电子设备及可读存储介质,以提高发票类别识别的效率和准确性。具体技术方案如下:
本发明实施例提供了一种发票类别识别方法,所述方法包括:
提取待识别发票中的关键信息,对所述关键信息中的每个词进行向量表示,得到关键信息矩阵;
将所述关键信息矩阵输入预先建立的神经网络模型中,得到所述关键信息矩阵对应的分类概率向量,所述神经网络模型是根据各发票中的关键信息以及所述各发票对应的分类编码得到的;
将所述分类概率向量中最大值元素对应的分类编码作为所述待识别发票的分类编码。
可选的,所述神经网络模型的建立方法包括:
针对所述各发票中的每个发票,提取该发票中的关键信息,对该发票中的关键信息中的每个词进行向量表示,得到该发票对应的关键信息矩阵;
针对所述各发票中的每个发票,确定该发票对应的分类概率向量,若所述各发票的分类编码中分类编码的种类为N,则分类概率向量的维数为N,且分类概率向量中的N个元素值分别为对应N个分类编码的概率,N为大于1的整数;
对得到的各关键信息矩阵以及所述各关键信息矩阵对应的分类概率向量进行神经网络训练,得到所述神经网络模型。
可选的,所述对所述关键信息中的每个词进行向量表示,得到关键信息矩阵,包括:
通过Word2vec对所述关键信息中的每个词进行向量表示,得到关键信息矩阵。
可选的,所述关键信息包括:商品和服务名称、规格型号和单位。
本发明实施例提供了一种发票类别识别装置,所述装置包括:
关键信息矩阵确定模块,用于提取待识别发票中的关键信息,对所述关键信息中的每个词进行向量表示,得到关键信息矩阵;
神经网络模型处理模块,用于将所述关键信息矩阵输入预先建立的神经网络模型中,得到所述关键信息矩阵对应的分类概率向量,所述神经网络模型是根据各发票中的关键信息以及所述各发票对应的分类编码得到的;
发票类别识别模块,用于将所述分类概率向量中最大值元素对应的分类编码作为所述待识别发票的分类编码。
可选的,本发明实施例的发票类别识别装置,还包括:
输入矩阵确定模块,用于针对所述各发票中的每个发票,提取该发票中的关键信息,对该发票中的关键信息中的每个词进行向量表示,得到该发票对应的关键信息矩阵;
输入向量确定模块,用于针对所述各发票中的每个发票,确定该发票对应的分类概率向量,若所述各发票的分类编码中分类编码的种类为N,则分类概率向量的维数为N,且分类概率向量中的N个元素值分别为对应N个分类编码的概率,N为大于1的整数;
神经网络训练模块,用于对得到的各关键信息矩阵以及所述各关键信息矩阵对应的分类概率向量进行神经网络训练,得到所述神经网络模型。
可选的,所述关键信息矩阵确定模块,具体用于通过Word2vec对所述关键信息中的每个词进行向量表示,得到关键信息矩阵。
可选的,所述关键信息包括:商品和服务名称、规格型号和单位。
本发明实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现上述任一所述的发票类别识别方法的步骤。
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一所述的发票类别识别方法的步骤。
本发明实施例提供的发票类别识别方法、装置、电子设备及可读存储介质,通过提取待识别发票中的关键信息,对关键信息中的每个词进行向量表示,得到关键信息矩阵;将关键信息矩阵输入预先建立的神经网络模型中,得到关键信息矩阵对应的分类概率向量,神经网络模型是根据各发票中的关键信息以及各发票对应的分类编码得到的;将分类概率向量中最大值元素对应的分类编码作为待识别发票的分类编码。本发明实施例可以充分挖掘发票中的信息特征,通过神经网络模型准确地识别发票类别,从而降低开发票的出错率。并且,对大批量商品进行类别识别时,无须手动逐一进行分类编码查询和确认,可以有效节省纳税人的开票时间成本。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为发票分类编码结构图;
图2为本发明实施例的发票类别识别方法的流程图;
图3为本发明实施例的神经网络模型的建立方法的流程图;
图4为本发明实施例的发票类别识别装置的结构图;
图5为本发明实施例的电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决纳税人开发票时效率低以及出错率高的问题,本发明实施例提供了一种发票类别识别方法、装置、电子设备及可读存储介质,提高发票类别识别的效率和准确性。
下面首先对本发明实施例所提供的发票类别识别方法进行详细介绍。
参见图2,图2为本发明实施例的发票类别识别方法的流程图,包括以下步骤:
S201,提取待识别发票中的关键信息,对关键信息中的每个词进行向量表示,得到关键信息矩阵。
在日常工作和生活中,用户购买商品或某种服务之后,可以通过开发票进行报销。而发票中通常包含购买方、销售方、购买的商品和销售金额等相关信息。由于不同类别的商品对应的税率是不同的,开发票时需要识别不同商品对应的发票类别。本发明实施例中,通过挖掘发票中的关键信息来识别发票的类别。具体的,提取待识别发票中的关键信息,通过分词处理之后,可以得到,S={w1,w2,…,wt,…,wT},其中,S是词的集合,wt代表第t个词,称之为在词粒度水平上的特征表示。T表示词的个数,可以设定词的维度阈值为20,若词的个数不足20,可以通过占位符补全至20个。若是将其通过分词处理,得到字的特征集合,则称之为在字粒度水平上的特征表示。字的维度阈值可以为80,同样地,若字的个数不足80,也可以通过占位符补全到80个。将所有分词之后得到的词去重之后得到词表。其中,中文分词指的是将一个汉字序列切分成一个个单独的词,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。可选的,关键信息包括:商品和服务名称、规格型号和单位等,不同待识别发票中的关键信息可参见表1。例如,提取出商品和服务名称、规格型号和单位,对商品和服务名称、规格型号和单位进行中文分词处理。
表1
商品和服务名称 | 规格型号 | 单位 |
钢管 | 159*10 | 吨 |
皮带 | 450 | 条 |
耳环 | 720 | 对 |
苹果笔记本电脑 | 13英寸 | 台 |
之后,可选的,可以通过Word2vec对关键信息中的每个词进行向量表示,得到关键信息矩阵。Word2vec是Google在2013年年中开源的一款将词表征为实数值向量的高效工具,Word2vec利用深度学习的思想,通过训练,把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。因此,Word2vec输出的词向量可以被用来做很多NLP(Natural Language Processing,自然语言处理)相关的工作,比如聚类、找同义词、词性分析等等。Word2vec把特征映射到K维向量空间,可以为文本寻求更加深层次的特征表示。本发明实施例中,通过Word2vec把关键信息中的每个词映射为K维向量空间,如果关键信息中包含M个词,那么,每一个词由K维向量表示,关键信息就可以表示为M×K的矩阵,即关键信息矩阵。其中,M为大于0的整数,K维向量一般是高维向量,例如,K可以为百位的整数。
可选的,由于商品和服务名称对应的内容通常比较长,例如苹果笔记本电脑包含苹果、笔记本和电脑3个词,一共7个字,本发明实施例中,还可以对商品和服务名称中的词进行向量表示的同时,对商品和服务名称中的字进行向量表示。因此,得到的关键信息矩阵中,即包含商品和服务名称的词向量表示,也包含商品和服务名称的字向量表示。而规格型号和单位对应的内容比较短,可以对规格型号和单位对应的内容仅进行词向量表示。这样,得到的关键信息矩阵可以更加准确地表示关键信息。
S202,将关键信息矩阵输入预先建立的神经网络模型中,得到关键信息矩阵对应的分类概率向量,神经网络模型是根据各发票中的关键信息以及各发票对应的分类编码得到的。
具体的,可以将关键信息矩阵输入预先建立的神经网络模型中的CNN(Convolutional Neural Network,卷积神经网络)层中,通过CNN提取词在上下文中的特征信息。分词之后的词数经过分布图,通过不同大小的卷积核来提取不同维度的信息特征。对于一个给定的词语wt,经过词嵌入转换成词向量vt,经过CNN网络后,获得其特征图的表示,对于一个给定的卷积核ω∈R(h×m),卷积核ω为h×m的矩阵,h和m分别表示卷积核的两个维度。对于给定窗口的词向量矩阵[vi:vi+h-1],特征图featurei的计算方式表示如下:
featurei=g(ω[vi:vi+h-1]+b),
其中,i为1~Q的整数,Q表示关键信息中词的个数。g是非线性激活函数,b是偏置量。本步骤中,卷积核的维度等神经网络模型参数是已经训练好。
之后,对于CNN层提取出来的特征图,对其应用池化层,池化层的功能是通过聚合每个卷积核的特征图来进一步抽象从卷积层生成的特征。可以在每个特征图上应用最大时间池操作,即在矢量的每个维度上选择最大值来捕获最重要的特征,通过池化层,可以从特征映射中获得固定长度的矢量。将池化层输出的矢量输入到全连接层中,矢量映射到128维的空间上,再将三种特征进行拼接后通过一个全连接层,映射到样本标记空间,使用的激活函数均为Relu函数,将全连接层的输出输入到softmax中进行矢量归一化,得到的结果即为分类概率向量,分类概率向量中各元素值表示属于各发票分类编码的概率,即得到了发票分类编码的概率分布值。
其中,Softmax函数的计算如下:假设有一个矢量p∈Rn,n表示矢量p的维度,pi表示矢量p的第i个元素值,则pi的softmax值为
本步骤中的神经网络模型是通过真实的数据进行训练的,具体的,从各发票数据集中按照7:2:1的比例随机抽取形成训练集、测试集和验证集。使用Adam作为神经网络模型的优化函数,停止策略为loss值连续1000次迭代不下降。Adam是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重。通过验证,本发明实施例的神经网络模型的准确率为70%。
S203,将分类概率向量中最大值元素对应的分类编码作为待识别发票的分类编码。
本发明实施例中,由于分类概率向量中各元素值表示属于各发票分类编码的概率,因此,元素的值越大,表示属于该元素对应的分类编码的概率越大。因此,选取最大值元素对应的分类编码作为待识别发票的分类编码。
本发明实施例通过提取发票中的关键信息,充分挖掘发票中的信息特征,并将关键信息输入神经网络模型,从而准确地识别发票类别,降低开发票的出错率。并且,对大批量商品进行类别识别时,无须手动逐一进行分类编码查询和确认,可以有效节省纳税人的开票时间成本。从而辅助税务部门对交易商品名目实施监管和统计,根据不同商品的编码对商品实施不同的监管和增值税的征缴等。
可选的,图2实施例S202中的神经网络模型的建立方法可参见图3,包括以下步骤:
S301,针对各发票中的每个发票,提取该发票中的关键信息,对该发票中的关键信息中的每个词进行向量表示,得到该发票对应的关键信息矩阵。
其中,各发票指的是训练数据集中的发票,各发票对应的分类编码是已知的。与S201类似,本步骤中,对于每个发票,提取发票中的关键信息,并对发票中的关键信息中的每个词进行向量表示,得到发票对应的关键信息矩阵。因此,本步骤中,将得到多个关键信息矩阵。
S302,针对各发票中的每个发票,确定该发票对应的分类概率向量,若各发票的分类编码中分类编码的种类为N,则分类概率向量的维数为N,且分类概率向量中的N个元素值分别为对应N个分类编码的概率,N为大于1的整数。
本发明实施例中,由于各发票对应的分类编码是已知的。因此,可以将各发票对应的分类编码进行向量表示,得到每个发票对应的分类概率向量。当然,每个分类概率向量的维数是相同的,分类概率向量的维数即为各发票的分类编码中分类编码的种类个数。具体的,对发票的分类编码的种类进行任意排序,得到分类编码序列。而分类概率向量中的元素值表示对应分类编码的概率,因此,若该发票的分类编码是上述分类编码序列中的第i个分类编码,将该发票对应的分类概率向量的第i个元素设置为1,其余元素均设置为0。
S303,对得到的各关键信息矩阵以及各关键信息矩阵对应的分类概率向量进行神经网络训练,得到神经网络模型。
与S202类似,本步骤中,将各关键信息矩阵输入待建立的神经网络模型中的CNN(Convolutional Neural Network,卷积神经网络)层中,通过CNN提取词在上下文中的特征信息。分词之后的词数经过分布图,通过不同大小的卷积核来提取不同维度的信息特征。对于CNN层提取出来的特征图,对其应用池化层,池化层的功能是通过聚合每个卷积核的特征图来进一步抽象从卷积层生成的特征。可以在每个特征图上应用最大时间池操作,即在矢量的每个维度上选择最大值来捕获最重要的特征,通过池化层,可以从特征映射中获得固定长度的矢量。将池化层输出的矢量输入到全连接层中,矢量映射到128维的空间上,再将三种特征进行拼接后通过一个全连接层,映射到样本标记空间,使用的激活函数均为Relu函数,将全连接层的输出输入到softmax中进行矢量归一化。并根据各关键信息矩阵对应的分类概率向量,通过Adam进行优化,建立神经网络模型。在建立神经网络模型之后,将任一发票的关键信息矩阵输入该神经网络模型,即可得到该发票的分类编码。
相应于上述方法实施例,本发明实施例提供了一种发票类别识别装置,参见图4,图4为本发明实施例的发票类别识别装置的结构图,包括:
关键信息矩阵确定模块401,用于提取待识别发票中的关键信息,对关键信息中的每个词进行向量表示,得到关键信息矩阵;
神经网络模型处理模块402,用于将关键信息矩阵输入预先建立的神经网络模型中,得到关键信息矩阵对应的分类概率向量,神经网络模型是根据各发票中的关键信息以及各发票对应的分类编码得到的;
发票类别识别模块403,用于将分类概率向量中最大值元素对应的分类编码作为待识别发票的分类编码。
本发明实施例的发票类别识别装置,通过提取待识别发票中的关键信息,对关键信息中的每个词进行向量表示,得到关键信息矩阵;将关键信息矩阵输入预先建立的神经网络模型中,得到关键信息矩阵对应的分类概率向量,神经网络模型是根据各发票中的关键信息以及各发票对应的分类编码得到的;将分类概率向量中最大值元素对应的分类编码作为待识别发票的分类编码。本发明实施例可以充分挖掘发票中的信息特征,并通过神经网络模型,准确地识别发票类别,降低开发票的出错率。对大批量商品进行类别识别时,无须手动逐一进行分类编码查询和确认,可以有效节省纳税人的开票时间成本。
可选的,本发明实施例的发票类别识别装置,还包括:
输入矩阵确定模块,用于针对各发票中的每个发票,提取该发票中的关键信息,对该发票中的关键信息中的每个词进行向量表示,得到该发票对应的关键信息矩阵;
输入向量确定模块,用于针对各发票中的每个发票,确定该发票对应的分类概率向量,若各发票的分类编码中分类编码的种类为N,则分类概率向量的维数为N,且分类概率向量中的N个元素值分别为对应N个分类编码的概率,N为大于1的整数;
神经网络训练模块,用于对得到的各关键信息矩阵以及各关键信息矩阵对应的分类概率向量进行神经网络训练,得到神经网络模型。
可选的,本发明实施例的发票类别识别装置中,关键信息矩阵确定模块,具体用于通过Word2vec对关键信息中的每个词进行向量表示,得到关键信息矩阵。
可选的,关键信息包括:商品和服务名称、规格型号和单位。
需要说明的是,本发明实施例的装置是应用上述发票类别识别方法的装置,则上述发票类别识别方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。
本发明实施例还提供了一种电子设备,参见图5,图5为本发明实施例的电子设备的结构图,包括:处理器501、通信接口502、存储器503和通信总线504,其中,处理器501、通信接口502、存储器503通过通信总线504完成相互间的通信;
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现上述任一发票类别识别方法的步骤。
需要说明的是,上述电子设备提到的通信总线504可以是PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线504可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口502用于上述电子设备与其他设备之间的通信。
存储器503可以包括RAM(Random Access Memory,随机存取存储器),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器501可以是通用处理器,包括:CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital SignalProcessing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例的电子设备中,处理器通过执行存储器上所存放的程序,提取待识别发票中的关键信息,对关键信息中的每个词进行向量表示,得到关键信息矩阵;将关键信息矩阵输入预先建立的神经网络模型中,得到关键信息矩阵对应的分类概率向量,神经网络模型是根据各发票中的关键信息以及各发票对应的分类编码得到的;将分类概率向量中最大值元素对应的分类编码作为待识别发票的分类编码。本发明实施例可以充分挖掘发票中的信息特征,并通过神经网络模型,准确地识别发票类别,降低开发票的出错率。对大批量商品进行类别识别时,无须手动逐一进行分类编码查询和确认,可以有效节省纳税人的开票时间成本。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时,实现上述任一发票类别识别方法的步骤。
本发明实施例的计算机可读存储介质中存储的指令在计算机上运行时,提取待识别发票中的关键信息,对关键信息中的每个词进行向量表示,得到关键信息矩阵;将关键信息矩阵输入预先建立的神经网络模型中,得到关键信息矩阵对应的分类概率向量,神经网络模型是根据各发票中的关键信息以及各发票对应的分类编码得到的;将分类概率向量中最大值元素对应的分类编码作为待识别发票的分类编码。本发明实施例可以充分挖掘发票中的信息特征,并通过神经网络模型,准确地识别发票类别,降低开发票的出错率。对大批量商品进行类别识别时,无须手动逐一进行分类编码查询和确认,可以有效节省纳税人的开票时间成本。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备及可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种发票类别识别方法,其特征在于,所述方法包括:
提取待识别发票中的关键信息,对所述关键信息中的每个词进行向量表示,得到关键信息矩阵;
将所述关键信息矩阵输入预先建立的神经网络模型中,得到所述关键信息矩阵对应的分类概率向量,所述神经网络模型是根据各发票中的关键信息以及所述各发票对应的分类编码得到的;
将所述分类概率向量中最大值元素对应的分类编码作为所述待识别发票的分类编码。
2.根据权利要求1所述的发票类别识别方法,其特征在于,所述神经网络模型的建立方法包括:
针对所述各发票中的每个发票,提取该发票中的关键信息,对该发票中的关键信息中的每个词进行向量表示,得到该发票对应的关键信息矩阵;
针对所述各发票中的每个发票,确定该发票对应的分类概率向量,若所述各发票的分类编码中分类编码的种类为N,则分类概率向量的维数为N,且分类概率向量中的N个元素值分别为对应N个分类编码的概率,N为大于1的整数;
对得到的各关键信息矩阵以及所述各关键信息矩阵对应的分类概率向量进行神经网络训练,得到所述神经网络模型。
3.根据权利要求1所述的发票类别识别方法,其特征在于,所述对所述关键信息中的每个词进行向量表示,得到关键信息矩阵,包括:
通过Word2vec对所述关键信息中的每个词进行向量表示,得到关键信息矩阵。
4.根据权利要求1所述的发票类别识别方法,其特征在于,所述关键信息包括:商品和服务名称、规格型号和单位。
5.一种发票类别识别装置,其特征在于,所述装置包括:
关键信息矩阵确定模块,用于提取待识别发票中的关键信息,对所述关键信息中的每个词进行向量表示,得到关键信息矩阵;
神经网络模型处理模块,用于将所述关键信息矩阵输入预先建立的神经网络模型中,得到所述关键信息矩阵对应的分类概率向量,所述神经网络模型是根据各发票中的关键信息以及所述各发票对应的分类编码得到的;
发票类别识别模块,用于将所述分类概率向量中最大值元素对应的分类编码作为所述待识别发票的分类编码。
6.根据权利要求5所述的发票类别识别装置,其特征在于,所述装置还包括:
输入矩阵确定模块,用于针对所述各发票中的每个发票,提取该发票中的关键信息,对该发票中的关键信息中的每个词进行向量表示,得到该发票对应的关键信息矩阵;
输入向量确定模块,用于针对所述各发票中的每个发票,确定该发票对应的分类概率向量,若所述各发票的分类编码中分类编码的种类为N,则分类概率向量的维数为N,且分类概率向量中的N个元素值分别为对应N个分类编码的概率,N为大于1的整数;
神经网络训练模块,用于对得到的各关键信息矩阵以及所述各关键信息矩阵对应的分类概率向量进行神经网络训练,得到所述神经网络模型。
7.根据权利要求5所述的发票类别识别装置,其特征在于,所述关键信息矩阵确定模块,具体用于通过Word2vec对所述关键信息中的每个词进行向量表示,得到关键信息矩阵。
8.根据权利要求5所述的发票类别识别装置,其特征在于,所述关键信息包括:商品和服务名称、规格型号和单位。
9.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求1~4任一所述的发票类别识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1~4任一所述的发票类别识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811555038.XA CN109740642A (zh) | 2018-12-19 | 2018-12-19 | 发票类别识别方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811555038.XA CN109740642A (zh) | 2018-12-19 | 2018-12-19 | 发票类别识别方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109740642A true CN109740642A (zh) | 2019-05-10 |
Family
ID=66360610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811555038.XA Pending CN109740642A (zh) | 2018-12-19 | 2018-12-19 | 发票类别识别方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109740642A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263201A (zh) * | 2019-06-25 | 2019-09-20 | 吴昶炜 | 一种电子产品品类识别、缺损识别方法及其应用 |
CN110647845A (zh) * | 2019-09-23 | 2020-01-03 | 税友软件集团股份有限公司 | 一种发票数据识别装置、相关方法及相关装置 |
CN111737457A (zh) * | 2020-05-19 | 2020-10-02 | 北京明略软件系统有限公司 | 数据表与实体的匹配方法及相关设备 |
CN112330379A (zh) * | 2020-11-25 | 2021-02-05 | 税友软件集团股份有限公司 | 一种发票内容生成方法、系统、电子设备及存储介质 |
CN113033565A (zh) * | 2021-03-10 | 2021-06-25 | 大象慧云信息技术有限公司 | 一种电子发票数据处理方法及系统 |
CN113342977A (zh) * | 2021-06-22 | 2021-09-03 | 深圳壹账通智能科技有限公司 | 发票图像分类方法、装置、设备及存储介质 |
CN116049358A (zh) * | 2023-03-31 | 2023-05-02 | 得分数字科技(珠海)有限公司 | 发票信息近似度检测方法、存储介质及计算机设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107871144A (zh) * | 2017-11-24 | 2018-04-03 | 税友软件集团股份有限公司 | 发票商品名分类方法、系统、设备及计算机可读存储介质 |
CN107977665A (zh) * | 2017-12-15 | 2018-05-01 | 北京科摩仕捷科技有限公司 | 一种发票中关键信息的识别方法及计算设备 |
CN108268880A (zh) * | 2016-12-30 | 2018-07-10 | 航天信息股份有限公司 | 一种行业类别的识别方法及装置 |
CN108415897A (zh) * | 2018-01-18 | 2018-08-17 | 北京百度网讯科技有限公司 | 基于人工智能的类别判别方法、装置及存储介质 |
CN108460418A (zh) * | 2018-03-07 | 2018-08-28 | 南京邮电大学 | 一种基于文字识别与语义分析的发票分类方法 |
CN108717543A (zh) * | 2018-05-14 | 2018-10-30 | 北京市商汤科技开发有限公司 | 一种发票识别方法及装置、计算机存储介质 |
-
2018
- 2018-12-19 CN CN201811555038.XA patent/CN109740642A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268880A (zh) * | 2016-12-30 | 2018-07-10 | 航天信息股份有限公司 | 一种行业类别的识别方法及装置 |
CN107871144A (zh) * | 2017-11-24 | 2018-04-03 | 税友软件集团股份有限公司 | 发票商品名分类方法、系统、设备及计算机可读存储介质 |
CN107977665A (zh) * | 2017-12-15 | 2018-05-01 | 北京科摩仕捷科技有限公司 | 一种发票中关键信息的识别方法及计算设备 |
CN108415897A (zh) * | 2018-01-18 | 2018-08-17 | 北京百度网讯科技有限公司 | 基于人工智能的类别判别方法、装置及存储介质 |
CN108460418A (zh) * | 2018-03-07 | 2018-08-28 | 南京邮电大学 | 一种基于文字识别与语义分析的发票分类方法 |
CN108717543A (zh) * | 2018-05-14 | 2018-10-30 | 北京市商汤科技开发有限公司 | 一种发票识别方法及装置、计算机存储介质 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263201A (zh) * | 2019-06-25 | 2019-09-20 | 吴昶炜 | 一种电子产品品类识别、缺损识别方法及其应用 |
CN110647845A (zh) * | 2019-09-23 | 2020-01-03 | 税友软件集团股份有限公司 | 一种发票数据识别装置、相关方法及相关装置 |
CN111737457A (zh) * | 2020-05-19 | 2020-10-02 | 北京明略软件系统有限公司 | 数据表与实体的匹配方法及相关设备 |
CN111737457B (zh) * | 2020-05-19 | 2024-09-03 | 北京明略软件系统有限公司 | 数据表与实体的匹配方法及相关设备 |
CN112330379A (zh) * | 2020-11-25 | 2021-02-05 | 税友软件集团股份有限公司 | 一种发票内容生成方法、系统、电子设备及存储介质 |
CN112330379B (zh) * | 2020-11-25 | 2023-10-31 | 税友软件集团股份有限公司 | 一种发票内容生成方法、系统、电子设备及存储介质 |
CN113033565A (zh) * | 2021-03-10 | 2021-06-25 | 大象慧云信息技术有限公司 | 一种电子发票数据处理方法及系统 |
CN113033565B (zh) * | 2021-03-10 | 2021-11-19 | 大象慧云信息技术有限公司 | 一种电子发票数据处理方法及系统 |
CN113342977A (zh) * | 2021-06-22 | 2021-09-03 | 深圳壹账通智能科技有限公司 | 发票图像分类方法、装置、设备及存储介质 |
CN116049358A (zh) * | 2023-03-31 | 2023-05-02 | 得分数字科技(珠海)有限公司 | 发票信息近似度检测方法、存储介质及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109740642A (zh) | 发票类别识别方法、装置、电子设备及可读存储介质 | |
CN108089843B (zh) | 一种智能化的银行企业级需求管理系统 | |
CN107704512A (zh) | 基于社交数据的金融产品推荐方法、电子装置及介质 | |
CN109598517B (zh) | 商品通关处理、对象的处理及其类别预测方法和装置 | |
CN108388559A (zh) | 地理空间应用下的命名实体识别方法及系统、计算机程序 | |
CN112668323B (zh) | 基于自然语言处理的文本要素提取方法及其文本审查系统 | |
CN113743111B (zh) | 基于文本预训练和多任务学习的金融风险预测方法及装置 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN109492103A (zh) | 标签信息获取方法、装置、电子设备及计算机可读介质 | |
CN112016313A (zh) | 口语化要素识别方法及装置、警情分析系统 | |
CN114780746A (zh) | 基于知识图谱的文档检索方法及其相关设备 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN112328657A (zh) | 特征衍生方法、装置、计算机设备及介质 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN117407726A (zh) | 一种业务数据智能匹配方法、系统及存储介质 | |
CN110389963A (zh) | 基于大数据的渠道效果识别方法、装置、设备和存储介质 | |
CN111930944B (zh) | 文件标签分类方法及装置 | |
CN113505117A (zh) | 基于数据指标的数据质量评估方法、装置、设备及介质 | |
CN117891939A (zh) | 粒子群算法结合cnn卷积神经网络的文本分类方法 | |
Krieger et al. | Automated invoice processing: Machine learning-based information extraction for long tail suppliers | |
CN113449103A (zh) | 融入标签与文本交互机制的银行交易流水分类方法及系统 | |
CN116402166A (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN116611889A (zh) | 基于用户画像标签的产品个性化推荐方法及系统 | |
CN109635289A (zh) | 词条分类方法及审计信息抽取方法 | |
CN115237970A (zh) | 数据预测方法、装置、设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |