CN112330379B - 一种发票内容生成方法、系统、电子设备及存储介质 - Google Patents
一种发票内容生成方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112330379B CN112330379B CN202011337634.8A CN202011337634A CN112330379B CN 112330379 B CN112330379 B CN 112330379B CN 202011337634 A CN202011337634 A CN 202011337634A CN 112330379 B CN112330379 B CN 112330379B
- Authority
- CN
- China
- Prior art keywords
- classification
- commodity
- target text
- feature vector
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000013598 vector Substances 0.000 claims abstract description 142
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 12
- 238000004140 cleaning Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 7
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000013136 deep learning model Methods 0.000 description 7
- 229910052500 inorganic mineral Inorganic materials 0.000 description 7
- 239000011707 mineral Substances 0.000 description 7
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 7
- 235000014171 carbonated beverage Nutrition 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 5
- 239000011087 paperboard Substances 0.000 description 5
- 239000011111 cardboard Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 239000000123 paper Substances 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/04—Billing or invoicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Accounting & Taxation (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种发票内容生成方法,所述方法包括:利用AC自动机对目标文本进行多模式自动匹配得到商品名称;查询所述商品名称的分类概率信息,并根据所述分类概率信息生成第一分类特征向量;将所述目标文本输入BERT模型得到第二分类特征向量;对所述第一分类特征向量和所述第二分类特征向量进行拼接得到拼接向量,将所述拼接向量输入卷积神经网络模型,得到所述目标文本的分类结果;在发票的货物名称填写区域生成所述分类结果对应的文本内容。本申请能够提高确定发票货物名称的准确率,保证发票内容的正确性。本申请还公开了一种发票内容生成系统、一种电子设备及一种存储介质,具有以上有益效果。
Description
技术领域
本申请涉及机器学习技术领域,特别涉及一种发票内容生成方法、系统、一种电子设备及一种存储介质。
背景技术
在填报发票时,用户需要按照商品和服务税收分类编码表选择一个合适的类别来填写货物名称。例如,用户需要对“xx可乐500ml一箱24瓶”这一信息开具发票,那么用户就应该来选择“碳酸饮料”作为货物名称进行填报。
在相关技术中,主要通过完全匹配、模糊匹配等传统统计方法进行确定货物名称。但是上述方式往往比较依赖货物订单文本的质量,当货物订单文本的质量比较差时,算法容易出错。例如,货物订单文本为“樱桃味可乐500ml24瓶装包装箱-福建厦门20200605”时,不管是用完全匹配还是模糊匹配,都很难直接得出这是一个包装箱。可见,相关技术中确定发票中货物名称的准确度较低。
因此,如何提高确定发票货物名称的准确率,保证发票内容的正确性是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种发票内容生成方法、系统、一种电子设备及一种存储介质,能够提高确定发票货物名称的准确率,保证发票内容的正确性。
为解决上述技术问题,本申请提供一种发票内容生成方法,该发票内容生成方法包括:
利用AC自动机对目标文本进行多模式自动匹配得到商品名称;
查询所述商品名称的分类概率信息,并根据所述分类概率信息生成第一分类特征向量;其中,所述分类概率信息包括所述商品名称属于商品分类表中每一商品类别的概率;
将所述目标文本输入BERT模型得到第二分类特征向量;
对所述第一分类特征向量和所述第二分类特征向量进行拼接得到拼接向量,将所述拼接向量输入卷积神经网络模型,得到所述目标文本的分类结果;
在发票的货物名称填写区域生成所述分类结果对应的文本内容。
可选的,在利用AC自动机对目标文本进行多模式自动匹配得到商品名称之前,还包括:
获取目标文本并对所述目标文本进行文本清洗,以便去除所述目标文本中的无关文本;其中,所述无关文本包括乱码、日期、车牌号和标点中的任一项或任几项的组合。
可选的,根据所述分类概率信息生成第一分类特征向量包括:
根据所述商品分类表中的商品类别总数确定N维坐标系;
根据所述分类概率信息将所述商品名称属于每一商品类别的概率作为所述N维坐标系对应的坐标值,得到N维的第一分类特征向量。
可选的,根据所述分类概率信息将所述商品名称属于每一商品类别的概率作为所述N维坐标系对应的坐标值,包括:
若所述目标文本包括的商品名称的数量大于1,则根据所述分类概率信息将所有所述商品名称属于每一商品类别的概率之和作为所述N维坐标系对应的坐标值。
可选的,所述BERT模型的生成过程包括:
获取无标注数据的第一训练样本,并利用所述第一训练样本训练初始模型得到中间模型;
获取有标注数据的第二训练样本,并利用所述第二训练样本修正所述中间模型得到所述BERT模型。
可选的,将所述目标文本输入BERT模型得到第二分类特征向量,包括:
利用所述BERT模型将所述目标文本中的每个字转换为一维向量,并根据所有所述一维向量生成所述第二分类特征向量。
可选的,在利用AC自动机对目标文本进行多模式自动匹配得到商品名称之前,还包括:
利用图像采集装置拍摄订单图片,并对所述订单图片执行文本识别操作得到所述目标文本;
或,获取订单信息并将用户在所述订单信息中输入的货物信息作为所述目标文本。
本申请还提供了一种发票内容生成系统,该系统包括:
名称匹配模块,用于利用AC自动机对目标文本进行多模式自动匹配得到商品名称;
第一向量生成模块,用于查询所述商品名称的分类概率信息,并根据所述分类概率信息生成第一分类特征向量;其中,所述分类概率信息包括所述商品名称属于商品分类表中每一商品类别的概率;
第二向量生成模块,用于将所述目标文本输入BERT模型得到第二分类特征向量;
分类模块,用于对所述第一分类特征向量和所述第二分类特征向量进行拼接得到拼接向量,将所述拼接向量输入卷积神经网络模型,得到所述目标文本的分类结果;
内容生成模块,用于在发票的货物名称填写区域生成所述分类结果对应的文本内容。
本申请还提供了一种存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述发票内容生成方法执行的步骤。
本申请还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述发票内容生成方法执行的步骤。
本申请提供了一种发票内容生成方法,包括:利用AC自动机对目标文本进行多模式自动匹配得到商品名称;查询所述商品名称的分类概率信息,并根据所述分类概率信息生成第一分类特征向量;其中,所述分类概率信息包括所述商品名称属于商品分类表中每一商品类别的概率;将所述目标文本输入BERT模型得到第二分类特征向量;对所述第一分类特征向量和所述第二分类特征向量进行拼接得到拼接向量,将所述拼接向量输入卷积神经网络模型,得到所述目标文本的分类结果;在发票的货物名称填写区域生成所述分类结果对应的文本内容。
本申请利用AC自动机对目标文本进行多模式自动匹配得到商品名称,通过生成商品名称的分类概率信息生成第一分类特征向量。本申请还将目标文本输入BERT模型得到第二分类特征向量,由于BERT模型为经过无监督学习的深度学习模型,由此得到的第二分类特征向量能够降低对目标文本质量的依赖。将第一分类特征向量和第二分类特征向量拼接得到拼接向量,拼接向量中既包含关于商品分类概率的统计信息,又能够降低模型对于对目标文本质量的依赖,因此将拼接向量输入到卷积神经网络模型后得到的分类结果具有良好的准确度。由此可见,本申请能够提高确定发票货物名称的准确率,保证发票内容的正确性。本申请同时还提供了一种发票内容生成系统、一种存储介质和一种电子设备,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种发票内容生成方法的流程图;
图2为本申请实施例所提供的一种字典前缀树结构示意图;
图3为本申请实施例所提供的一种基于多模式匹配与BERT模型的货物名称分类方法的流程图;
图4为本申请实施例所提供的一种BERT模型结构示意图;
图5为本申请实施例所提供的一种发票内容生成系统的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面请参见图1,图1为本申请实施例所提供的一种发票内容生成方法的流程图。
具体步骤可以包括:
S101:利用AC自动机对目标文本进行多模式自动匹配得到商品名称;
其中,在本步骤之前可以存在获取目标文本的操作,目标文本可以为货物订单中所填写的货物名称,但是由于在开具发票时发票中货物名称需要按照《国家税务总局商品和服务税收分类编码表》进行填写,因此不能直接将订单中的货物名称填写至发票中。
AC自动机(Aho-Corasick automaton)中的算法主要依靠构造一个有限状态机来实现。AC自动机允许在查找字符串失败时进行回退转向某前缀的其他分支,免于重复匹配前缀,提高算法效率。例如设Trie树的单词cat匹配失败,但是在Trie树中存在另一个单词cart,失配指针就会指向前缀ca。因此使用该AC自动机确定产品名称可以提高字符串匹配的效率。
本步骤的目的在于确定目标文本中的商品名称,例如目标文本为“xx山泉公司生产的矿泉水”,利用AC自动机对上述目标文本进行多模式自动匹配后可以得到商品名称“xx山泉”以及“矿泉水”。
AC自动机算法是为了高效地在一个长的字符串中检测有没有用户想要的子字符串。AC自动机进行多模式匹配的原理如下:比如在“xx山泉500ml矿泉水”这个商品名称中,“xx山泉”和“矿泉水”都是常见的商品名称。类似这样的常见商品名,可能拥有几十万个。在实际计算时,本实施例不可能对这几十万个常见商品名称逐一做一次计算,看其是否包含在“xx山泉500ml矿泉水”这个长的字符串之中。AC自动机算法可以将这几十万个常见的商品名称做一次集中处理,形成一个字典前缀树(TRIE)的形式,来加快匹配的过程。在使用AC自动机后,只需要在字典前缀树内对“xx山泉500ml矿泉水”这个字符串做仅一次循环,就可以找出“xx山泉”和“矿泉水”两个属于常见商品名称的子字符串。经过AC自动机算法处理的几十万个常见商品名称,可以形成了图2所示的字典前缀树结构。请参见图2,图2为本申请实施例所提供的一种字典前缀树结构示意图。图2中的圆节点和实线箭头构成了字典前缀树结构。例如需要按照图2的字典前缀树查找“her”这个字符串,只需要从根节点root出发,沿着“h、e、r”的顺序依次下来,就可以发现“her”字符串是包含在前缀树这个存储结构中的。本实施例提供的AC自动机中的字典前缀树增加了失效跳转功能,即图2中的这些虚线箭头。失效跳转功能可以在匹配了一些字符后,若下一个字符没匹配上时无需从头开始匹配。比如说需要匹配“sha”字符串,从图2来看,字典前缀树里并没有“sha”,在匹配了“sh”之后,下一步就失配了。通过“h”上的目标虚线箭头,可以跳转到左边的“h”,而不是从root节点重新开始。在储存的词语达到成千上万的时候,上述方式能够节省下大量的时间,使得在长字符串中寻找包含的子字符串变成了仅需一次循环就可以完成的任务。
S102:查询所述商品名称的分类概率信息,并根据所述分类概率信息生成第一分类特征向量;
其中,本步骤建立在已经查询到目标文本中包含的商品名称的基础上,可以通过概率映射表查询每一商品名称的分类概率信息,分类概率信息指商品名称属于商品分类表中每一商品类别的概率。请参见表1,概率映射表为一张二维的表,表的列表示商品分类表中的每一商品类别,表的行表示每一种商品名称,表中的元素表示本行商品名称属于本列商品类别的概率,概率映射表中的概率可以通过大数据统计分析得到。
表1概率映射表
其中,分类概率信息指商品名称属于商品分类表中每一商品类别的概率,若商品名称为“xx可乐”,则该商品名称属于碳酸饮料的概率为0.95,该商品名称属于纸和纸板容器的概率为0.05。
在得到商品名称的分类概率信息的基础上,本实施例可以根据将分类概率信息中的概率作为坐标生成第一分类特征向量。进一步的,本实施例可以通过以下方式生成第一分类特征向量:根据所述商品分类表中的商品类别总数确定N维坐标系;根据所述分类概率信息将所述商品名称属于每一商品类别的概率作为所述N维坐标系对应的坐标值,得到N维的第一分类特征向量。具体的,若所述目标文本包括的商品名称的数量大于1,则根据所述分类概率信息将所有所述商品名称属于每一商品类别的概率之和作为所述N维坐标系对应的坐标值。例如,表1中“xx可乐”对应的特征向量可以为(0,0.95,0,0.05,0),“包装箱”对应的特征向量可以为(0,0,0,1,0)。若目标文本同时包括商品名称“xx可乐”和“包装箱”,则可以将所有商品名称的特征向量相加得到第一分类特征向量(0,0.95,0,1.05,0)。
S103:将所述目标文本输入BERT模型得到第二分类特征向量;
其中,BERT(Bidirectional Encoder Representations from Transformer)模型BERT是一种深度学习模型。BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation(即:文本的语义表示),然后将文本的语义表示在特定NLP(Natural Language Processing,自然语言处理)任务中作微调,最终应用于该NLP任务。在本步骤之前,本实施例可以利用已有的大量货物名称信息来无监督地训练BERT模型,以使BERT模型掌握货物信息中的一些普遍规律,然后用标注好的货物信息与其对应分类来训练模型,以用作货物名称分类。因此,BERT模型的生成过程可以为:获取无标注数据的第一训练样本,并利用所述第一训练样本训练初始模型得到中间模型;获取有标注数据的第二训练样本,并利用所述第二训练样本修正所述中间模型得到所述BERT模型。BERT模型在自然语言处理中是一种较为先进的深度学习模型,因此本实施例使用的BERT模型在各种自然语言处理的应用场景中的效果明显优于传统机器学习模型。
将目标文本输入BERT模型后,可以利用所述BERT模型将所述目标文本中的每个字转换为一维向量,并根据所有所述一维向量生成所述第二分类特征向量。由于BERT模型为无监督训练得到的深度学习模型,因此通过BERT模型得到第二分类特征向量能够降低目标文本的质量对于分类结果的影响。
S104:对所述第一分类特征向量和所述第二分类特征向量进行拼接得到拼接向量,将所述拼接向量输入卷积神经网络模型,得到所述目标文本的分类结果;
其中,本步骤在得到第一分类特征向量和第二分类特征向量的基础上实现,可以先将第一分类特征向量和所述第二分类特征向量进行拼接得到拼接向量,将拼接向量输入训练后的卷积神经网络模型。卷积神经网络模型为预先经过训练的模型,卷积神经网络模型能够根据输入的拼接向量确定目标文本的分类结果,该分类结果即目标文本对应的符合相关税收分类编码表规定的货物名称。由于第一分类特征向量能够保留目标文本中关于商品分类概率的统计信息,第二分类特征向量能够降低对于目标文本质量的依赖,因此第一分类特征向量和第二分类特征向量的拼接向量能够提高卷积神经网络模型的输入质量,提高卷积神经网络模型的分类准确率。
本实施例中多模式匹配利用的信息是货物名称的统计信息,而这个统计信息会被转化为一个向量,加入到BERT模型中去,通过深度学习计算再输出分类结果。通过上述方式能够充分利用了货物名称中的统计信息,利用AC自动机的多模式匹配算法可以加速统计信息的提取,利用BERT模型进行深度学习可以对目标文本质量的过度依赖,并最终输出具有良好准确度的分类结果。
S105:在发票的货物名称填写区域生成所述分类结果对应的文本内容。
其中,在得到分类结果之后,可以在发票填写界面中确定货物名称填写区域(即货物或应税劳务、服务名称的填写区域),并在货物名称填写区域中自动生成分类结果对应的文本内容。进一步的,在发票内容全部生成完毕后,可以执行发票开具操作。
本实施例利用AC自动机对目标文本进行多模式自动匹配得到商品名称,通过生成商品名称的分类概率信息生成第一分类特征向量。本实施例还将目标文本输入BERT模型得到第二分类特征向量,由于BERT模型为经过无监督学习的深度学习模型,由此得到的第二分类特征向量能够降低对目标文本质量的依赖。将第一分类特征向量和第二分类特征向量拼接得到拼接向量,拼接向量中既包含关于商品分类概率的统计信息,又能够降低模型对于对目标文本质量的依赖,因此将拼接向量输入到卷积神经网络模型后得到的分类结果具有良好的准确度。本实施例利用多模式匹配算法与BERT模型实现货物名称自动分类,经过算法的计算后货物名称就能自动归类到合适的类别中。由此可见,本实施例能够提高确定发票货物名称的准确率,保证发票内容的正确性。
作为对于图1对应实施例的进一步介绍,在利用AC自动机对目标文本进行多模式自动匹配得到商品名称之前,上述实施例还可以获取目标文本并对所述目标文本进行文本清洗,以便去除所述目标文本中的无关文本;其中,所述无关文本包括乱码、日期、车牌号和标点中的任一项或任几项的组合。上述实施例可以利用AC自动机对文本清洗后的目标文本进行处理,也可以利用BERT模型对文本清洗后的目标文本进行处理。
作为对于图1对应实施例的进一步介绍,在利用AC自动机对目标文本进行多模式自动匹配得到商品名称之前,还可以利用图像采集装置拍摄订单图片,并对所述订单图片执行文本识别操作得到所述目标文本;也可以获取订单信息并将用户在所述订单信息中输入的货物信息作为所述目标文本。
下面通过在实际应用中的实施例说明上述实施例描述的流程。请参见图3,图3为本申请实施例所提供的一种基于多模式匹配与BERT模型的货物名称分类方法的流程图,本实施例可以包括以下步骤:
步骤1:对订单中的货物名称进行文本清洗。
其中,文本清洗的过程可以为利用一组正则表达式的清洗规则删除文本清洗中的无用文本组成。通过上述清洗规则可以清除乱码、日期、车牌号等无用文本。经过文本清洗后,订单中的货物名称能够更好地突出真正的货物信息。
步骤2:利用AC自动机对订单中的货物名称进行多模式匹配得到商品名称,查询所述商品名称的分类概率信息并根据所述分类概率信息生成第一分类特征向量;
例如,用户输入了“xx可乐500ml包装箱”这个名称,经过AC自动机的多模式匹配,可以得到这个商品名称包含了“xx可乐”和“包装箱”这两个常见的商品名称。如表1所示的统计数据中,“xx可乐”这一商品在“碳酸饮料”和“纸和纸板容器”两类商品编码中都出现过,其中绝大部分都是出现在“碳酸饮料”这一类别下的,而“包装箱”则是绝大部分都出现在“纸包装容器”这个分类下,进而得到商品名称属于商品分类表中每一商品类别的概率。
如表1所示,表格的横坐标代表多种标准的商品类别。在的统计数据中,“xx可乐”这个字符串,有95%在碳酸饮料这一类里出现,有5%在纸和纸板容器这一类里出现,而“包装箱”则是100%在纸和纸板容器里出现。本实施例将这两行向量相加,得到(0,0.95,0,1.05,0)的第一分类特征向量。第一分类特征向量表达了,输入的货物名称通过和已有的统计信息相比对,这个货物很有可能是属于“碳酸饮料”或者“纸和纸板容器”,同时稍微更倾向是“纸和纸板容器”。
步骤3:将订单中的货物名称放入到BERT模型中进行计算得到第二分类特征向量。
请参见图4,图4为本申请实施例所提供的一种BERT模型结构示意图,将订单中的货物名称输入BERT模型后得到第二分类特征向量。本实施例还将多模式匹配的第一分类特征向量和BERT模型的第二分类特征向量进行拼接得到拼接向量,将拼接向量输入CNN网络然后输出分类结果。
作为一种可行的实施方式,可以使用concatenate函数拼接第一分类特征向量和第二分类特征向量。例如,多模式匹配得到的第一分类特征向量的尺寸为1*4662,BERT模型输出的第二分类特征向量为1*768,将第二分类特征向量的头部接到第一分类特征向量的尾部得到向量尺寸为1*5430的拼接向量。
在这图4所示的BERT模型搭建之前,可以利用海量的货物名称信息对图中的BERTLAYER进行长时间的无监督训练,以使BERT LAYER掌握预料中的知识。在BERT LAYER训练完成后,再用标注数据对图中的整一套模型进行监督室训练,其流程与一般的机器学习任务类似。
上述实施例既保留了货物名称中的统计信息,又要使用模型训练预测的方式来解决货物名称的分类问题。使用AC自动机的多模式匹配算法检测货物名称中是否包含某些特除的子字符串,这同时涵盖了完全匹配与模糊匹配所起到的功能。这些统计信息会转化为向量,输入到下一步的深度学习模型中本实施例通过使用业界较为先进的BERT模型来对已有的货物信息进行无监督式地学习,本步骤对标注数据没有依赖;然后再用标注数据对模型进行微调,同时加入上一步得到的统计信息,最后让CNN模型对分类结果进行预测。
请参见图5,图5为本申请实施例所提供的一种发票内容生成系统的结构示意图,该系统可以包括:
名称匹配模块100,用于利用AC自动机对目标文本进行多模式自动匹配得到商品名称;
第一向量生成模块200,用于查询所述商品名称的分类概率信息,并根据所述分类概率信息生成第一分类特征向量;其中,所述分类概率信息包括所述商品名称属于商品分类表中每一商品类别的概率;
第二向量生成模块300,用于将所述目标文本输入BERT模型得到第二分类特征向量;
分类模块400,用于对所述第一分类特征向量和所述第二分类特征向量进行拼接得到拼接向量,将所述拼接向量输入卷积神经网络模型,得到所述目标文本的分类结果;
内容生成模块500,用于在发票的货物名称填写区域生成所述分类结果对应的文本内容。
本实施例利用AC自动机对目标文本进行多模式自动匹配得到商品名称,通过生成商品名称的分类概率信息生成第一分类特征向量。本实施例还将目标文本输入BERT模型得到第二分类特征向量,由于BERT模型为经过无监督学习的深度学习模型,由此得到的第二分类特征向量能够降低对目标文本质量的依赖。将第一分类特征向量和第二分类特征向量拼接得到拼接向量,拼接向量中既包含关于商品分类概率的统计信息,又能够降低模型对于对目标文本质量的依赖,因此将拼接向量输入到卷积神经网络模型后得到的分类结果具有良好的准确度。由此可见,本实施例能够提高确定发票货物名称的准确率,保证发票内容的正确性。
进一步的,还包括:
文本清洗模块,用于在利用AC自动机对目标文本进行多模式自动匹配得到商品名称之前,获取目标文本并对所述目标文本进行文本清洗,以便去除所述目标文本中的无关文本;其中,所述无关文本包括乱码、日期、车牌号和标点中的任一项或任几项的组合。
进一步的,第一向量生成模块200,用于根据所述商品分类表中的商品类别总数确定N维坐标系;还用于根据所述分类概率信息将所述商品名称属于每一商品类别的概率作为所述N维坐标系对应的坐标值,得到N维的第一分类特征向量。
进一步的,所述第一向量生成模块200根据所述分类概率信息将所述商品名称属于每一商品类别的概率作为所述N维坐标系对应的坐标值的过程包括:若所述目标文本包括的商品名称的数量大于1,则根据所述分类概率信息将所有所述商品名称属于每一商品类别的概率之和作为所述N维坐标系对应的坐标值。
进一步的,还包括:
BERT模型生成模块,用于获取无标注数据的第一训练样本,并利用所述第一训练样本训练初始模型得到中间模型;还用于获取有标注数据的第二训练样本,并利用所述第二训练样本修正所述中间模型得到所述BERT模型。
进一步的,第二向量生成模块300用于利用所述BERT模型将所述目标文本中的每个字转换为一维向量,并根据所有所述一维向量生成所述第二分类特征向量。
进一步的,还包括:
文本获取模块,用于在利用AC自动机对目标文本进行多模式自动匹配得到商品名称之前,利用图像采集装置拍摄订单图片,并对所述订单图片执行文本识别操作得到所述目标文本;或,用于获取订单信息并将用户在所述订单信息中输入的货物信息作为所述目标文本。
由于系统部分的实施例与方法部分的实施例相互对应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本申请还提供了一种存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还提供了一种电子设备,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (7)
1.一种发票内容生成方法,其特征在于,包括:
利用AC自动机对目标文本进行多模式自动匹配得到商品名称;
查询所述商品名称的分类概率信息,并根据所述分类概率信息生成第一分类特征向量;其中,所述分类概率信息包括所述商品名称属于商品分类表中每一商品类别的概率;
利用BERT模型将所述目标文本中的每个字转换为一维向量,并根据所有所述一维向量生成第二分类特征向量;
对所述第一分类特征向量和所述第二分类特征向量进行拼接得到拼接向量,将所述拼接向量输入卷积神经网络模型,得到所述目标文本的分类结果;
在发票的货物名称填写区域生成所述分类结果对应的文本内容;
其中,根据所述分类概率信息生成第一分类特征向量包括:
根据所述商品分类表中的商品类别总数确定N维坐标系;
若所述目标文本包括的商品名称的数量大于1,则根据所述分类概率信息将所有所述商品名称属于每一商品类别的概率之和作为所述N维坐标系对应的坐标值,得到N维的第一分类特征向量。
2.根据权利要求1所述发票内容生成方法,其特征在于,在利用AC自动机对目标文本进行多模式自动匹配得到商品名称之前,还包括:
获取目标文本并对所述目标文本进行文本清洗,以便去除所述目标文本中的无关文本;其中,所述无关文本包括乱码、日期、车牌号和标点中的任一项或任几项的组合。
3.根据权利要求1所述发票内容生成方法,其特征在于,所述BERT模型的生成过程包括:
获取无标注数据的第一训练样本,并利用所述第一训练样本训练初始模型得到中间模型;
获取有标注数据的第二训练样本,并利用所述第二训练样本修正所述中间模型得到所述BERT模型。
4.根据权利要求1至3任一项所述发票内容生成方法,其特征在于,在利用AC自动机对目标文本进行多模式自动匹配得到商品名称之前,还包括:
利用图像采集装置拍摄订单图片,并对所述订单图片执行文本识别操作得到所述目标文本;
或,获取订单信息并将用户在所述订单信息中输入的货物信息作为所述目标文本。
5.一种发票内容生成系统,其特征在于,包括:
名称匹配模块,用于利用AC自动机对目标文本进行多模式自动匹配得到商品名称;
第一向量生成模块,用于查询所述商品名称的分类概率信息,并根据所述分类概率信息生成第一分类特征向量;其中,所述分类概率信息包括所述商品名称属于商品分类表中每一商品类别的概率;
第二向量生成模块,用于利用BERT模型将所述目标文本中的每个字转换为一维向量,并根据所有所述一维向量生成第二分类特征向量;
分类模块,用于对所述第一分类特征向量和所述第二分类特征向量进行拼接得到拼接向量,将所述拼接向量输入卷积神经网络模型,得到所述目标文本的分类结果;
内容生成模块,用于在发票的货物名称填写区域生成所述分类结果对应的文本内容;
其中,所述第一向量生成模块,用于根据所述商品分类表中的商品类别总数确定N维坐标系;还用于若所述目标文本包括的商品名称的数量大于1,则根据所述分类概率信息将所有所述商品名称属于每一商品类别的概率之和作为所述N维坐标系对应的坐标值,得到N维的第一分类特征向量。
6.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1至4任一项所述发票内容生成方法的步骤。
7.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上权利要求1至4任一项所述发票内容生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011337634.8A CN112330379B (zh) | 2020-11-25 | 2020-11-25 | 一种发票内容生成方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011337634.8A CN112330379B (zh) | 2020-11-25 | 2020-11-25 | 一种发票内容生成方法、系统、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112330379A CN112330379A (zh) | 2021-02-05 |
CN112330379B true CN112330379B (zh) | 2023-10-31 |
Family
ID=74308045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011337634.8A Active CN112330379B (zh) | 2020-11-25 | 2020-11-25 | 一种发票内容生成方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112330379B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103188267A (zh) * | 2013-03-27 | 2013-07-03 | 中国科学院声学研究所 | 一种基于dfa的协议解析方法 |
CN109740642A (zh) * | 2018-12-19 | 2019-05-10 | 北京邮电大学 | 发票类别识别方法、装置、电子设备及可读存储介质 |
CN110019616A (zh) * | 2017-12-04 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 一种poi现势状态获取方法及其设备、存储介质、服务器 |
CN110134961A (zh) * | 2019-05-17 | 2019-08-16 | 北京邮电大学 | 文本的处理方法、装置和存储介质 |
CN110489538A (zh) * | 2019-08-27 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的语句应答方法、装置及电子设备 |
CN110929016A (zh) * | 2019-12-10 | 2020-03-27 | 北京爱医生智慧医疗科技有限公司 | 一种基于知识图谱的智能问答方法及装置 |
CN110941698A (zh) * | 2019-11-18 | 2020-03-31 | 陕西师范大学 | 一种基于bert下卷积神经网络的服务发现方法 |
CN111062216A (zh) * | 2019-12-18 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、终端及可读介质 |
CN111428026A (zh) * | 2020-02-20 | 2020-07-17 | 西安电子科技大学 | 一种多标签文本分类处理方法及系统、信息数据处理终端 |
CN111611395A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 一种实体关系的识别方法及装置 |
CN111695377A (zh) * | 2019-03-13 | 2020-09-22 | 杭州海康威视数字技术股份有限公司 | 一种文本检测方法、装置和计算机设备 |
CN113342977A (zh) * | 2021-06-22 | 2021-09-03 | 深圳壹账通智能科技有限公司 | 发票图像分类方法、装置、设备及存储介质 |
WO2022078102A1 (zh) * | 2020-10-14 | 2022-04-21 | 腾讯科技(深圳)有限公司 | 一种实体识别方法、装置、设备以及存储介质 |
CN115546496A (zh) * | 2022-08-25 | 2022-12-30 | 清华大学 | 一种主动探测场景下的物联网设备识别方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8504488B2 (en) * | 2008-04-30 | 2013-08-06 | Cisco Technology, Inc. | Network data mining to determine user interest |
IL226056A (en) * | 2013-04-28 | 2017-06-29 | Verint Systems Ltd | Keyword Finding Systems and Methods by Adaptive Management of Multiple Template Matching Algorithms |
US10515296B2 (en) * | 2017-11-14 | 2019-12-24 | Adobe Inc. | Font recognition by dynamically weighting multiple deep learning neural networks |
-
2020
- 2020-11-25 CN CN202011337634.8A patent/CN112330379B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103188267A (zh) * | 2013-03-27 | 2013-07-03 | 中国科学院声学研究所 | 一种基于dfa的协议解析方法 |
CN110019616A (zh) * | 2017-12-04 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 一种poi现势状态获取方法及其设备、存储介质、服务器 |
CN109740642A (zh) * | 2018-12-19 | 2019-05-10 | 北京邮电大学 | 发票类别识别方法、装置、电子设备及可读存储介质 |
CN111611395A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 一种实体关系的识别方法及装置 |
CN111695377A (zh) * | 2019-03-13 | 2020-09-22 | 杭州海康威视数字技术股份有限公司 | 一种文本检测方法、装置和计算机设备 |
CN110134961A (zh) * | 2019-05-17 | 2019-08-16 | 北京邮电大学 | 文本的处理方法、装置和存储介质 |
CN110489538A (zh) * | 2019-08-27 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的语句应答方法、装置及电子设备 |
CN110941698A (zh) * | 2019-11-18 | 2020-03-31 | 陕西师范大学 | 一种基于bert下卷积神经网络的服务发现方法 |
CN110929016A (zh) * | 2019-12-10 | 2020-03-27 | 北京爱医生智慧医疗科技有限公司 | 一种基于知识图谱的智能问答方法及装置 |
CN111062216A (zh) * | 2019-12-18 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、终端及可读介质 |
CN111428026A (zh) * | 2020-02-20 | 2020-07-17 | 西安电子科技大学 | 一种多标签文本分类处理方法及系统、信息数据处理终端 |
WO2022078102A1 (zh) * | 2020-10-14 | 2022-04-21 | 腾讯科技(深圳)有限公司 | 一种实体识别方法、装置、设备以及存储介质 |
CN113342977A (zh) * | 2021-06-22 | 2021-09-03 | 深圳壹账通智能科技有限公司 | 发票图像分类方法、装置、设备及存储介质 |
CN115546496A (zh) * | 2022-08-25 | 2022-12-30 | 清华大学 | 一种主动探测场景下的物联网设备识别方法及装置 |
Non-Patent Citations (3)
Title |
---|
唐子惠.《医学人工智能导论》.上海科学技术出版社,2020,375-377. * |
基于标签语义相似的动态多标签文本分类算法;姚佳奇;徐正国;燕继坤;熊钢;李智翔;;计算机工程与应用(第19期);99-103 * |
林厚从.《高级数据结构》.东南大学出版社,2012,352-353. * |
Also Published As
Publication number | Publication date |
---|---|
CN112330379A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN113515632A (zh) | 基于图路径知识萃取的文本分类方法 | |
CN113282711B (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN112632224B (zh) | 基于案例知识图谱的案件推荐方法、装置和电子设备 | |
CN111625621A (zh) | 一种文档检索方法、装置、电子设备及存储介质 | |
CN116611131B (zh) | 一种包装图形自动生成方法、装置、介质及设备 | |
CN115688779B (zh) | 一种基于自监督深度学习的地址识别方法 | |
CN114821271A (zh) | 模型训练方法、图像描述生成方法、装置及存储介质 | |
CN118171149B (zh) | 标签分类方法、装置、设备、存储介质和计算机程序产品 | |
CN117668180A (zh) | 文档问答方法、文档问答设备以及可读存储介质 | |
CN115438195A (zh) | 一种金融标准化领域知识图谱的构建方法及装置 | |
CN112988982B (zh) | 一种计算机比较空间的自主学习方法及系统 | |
CN117540004A (zh) | 基于知识图谱和用户行为的工业领域智能问答方法及系统 | |
CN117454898A (zh) | 一种根据输入文本实现法人实体标准化输出的方法及装置 | |
CN112330379B (zh) | 一种发票内容生成方法、系统、电子设备及存储介质 | |
CN114781485B (zh) | 文本分类方法、装置、计算机设备和计算机可读存储介质 | |
CN116523041A (zh) | 装备领域知识图谱构建方法、检索方法、系统及电子设备 | |
CN114254622B (zh) | 一种意图识别方法和装置 | |
CN116361428A (zh) | 一种问答召回方法、装置和存储介质 | |
CN115203206A (zh) | 数据内容搜索方法、装置、计算机设备及可读存储介质 | |
CN112699637B (zh) | 段落类型识别方法及系统和文档结构识别方法及系统 | |
CN114820134A (zh) | 一种商品信息召回方法、装置、设备和计算机存储介质 | |
CN114154503A (zh) | 一种敏感数据类型识别方法 | |
CN118013017B (zh) | 基于ai大语言模型的智能文本自动化生成方法 | |
CN115796280B (zh) | 一种适用于金融领域高效可控的实体识别实体链接系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |