CN115809887B - 一种基于发票数据确定企业主要经营范围的方法和装置 - Google Patents

一种基于发票数据确定企业主要经营范围的方法和装置 Download PDF

Info

Publication number
CN115809887B
CN115809887B CN202211575632.1A CN202211575632A CN115809887B CN 115809887 B CN115809887 B CN 115809887B CN 202211575632 A CN202211575632 A CN 202211575632A CN 115809887 B CN115809887 B CN 115809887B
Authority
CN
China
Prior art keywords
invoice
matrix
text
commodity
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211575632.1A
Other languages
English (en)
Other versions
CN115809887A (zh
Inventor
陈衡
王毅
陈卓
申宇峰
任鹏
李建斌
胡灵婷
宋云超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rose Tree Technology Co ltd
Original Assignee
Rose Tree Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rose Tree Technology Co ltd filed Critical Rose Tree Technology Co ltd
Priority to CN202211575632.1A priority Critical patent/CN115809887B/zh
Publication of CN115809887A publication Critical patent/CN115809887A/zh
Application granted granted Critical
Publication of CN115809887B publication Critical patent/CN115809887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于发票数据确定企业主要经营范围的方法和装置,涉及商业信息数据处理领域,包括:对企业发票进行识别,确定各发票的商品类目信息;将企业的多个经营范围文本和各发票的商品类目信息输入至预先训练的神经网络模型,输出各发票的商品类目信息与各经营范围的相似度;将与该发票的商品类目信息的相似度最大的经营范围确定为该发票对应的第一目标经营范围;根据发票对应的第一目标经营范围对所述发票进行分组,得到至少一个发票组,每个发票组与第二目标经营范围相对应;基于各发票组中各发票的交易金额生成各发票组的总交易金额,将总交易金额最高的发票组对应的第二目标经营范围确定为企业的主要经营范围。

Description

一种基于发票数据确定企业主要经营范围的方法和装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于发票数据确定企业主要经营范围的方法和装置。
背景技术
一般来说,企业的经营范围包括多种,企业可以在法定批准的经营范围内进行相关业务的经营。
但发明人在实现本发明的过程中发现,对于企业主要经营范围的判断一般是通过工作人员的主观判断,或者人工对财务数据进行计算得出,缺乏客观数据的支持,整个过程效率很低。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明实施例提供了一种基于发票数据确定企业主要经营范围的方法和装置。
本发明实施例提供了一种基于发票数据确定企业主要经营范围的方法,包括:
对企业的多张发票进行识别,确定各所述发票的商品类目信息;将所述企业的多个经营范围文本和所述各所述发票的商品类目信息输入至预先训练的神经网络模型,输出各所述发票的商品类目信息与各所述经营范围的相似度;针对每张所述发票,将与该发票的商品类目信息的相似度最大的所述经营范围确定为该发票对应的第一目标经营范围;根据各所述发票对应的第一目标经营范围对所述发票进行分组,得到至少一个发票组,每个所述发票组与第二目标经营范围相对应;基于各所述发票组中各所述发票的交易金额生成各所述发票组的总交易金额,将所述总交易金额最高的所述发票组对应的第二目标经营范围确定为所述企业的主要经营范围。
本发明实施例还提供了一种基于发票数据确定企业主要经营范围装置,包括:
识别模块,用于对企业的多张发票进行识别,确定各所述发票的商品类目信息;输出模块,用于将所述企业的多个经营范围文本和所述各所述发票的商品类目信息输入至预先训练的神经网络模型,输出各所述发票的商品类目信息与各所述经营范围的相似度;第一确定模块,用于针对每张所述发票,将与该发票的商品类目信息的相似度最大的所述经营范围确定为该发票对应的第一目标经营范围;分组模块,用于根据各所述发票对应的目标经营范围对所述发票进行分组,得到至少一个发票组,每个所述发票组与第二目标经营范围相对应;第二确定模块,用于基于各所述发票组中各所述发票的交易金额生成各所述发票组的总交易金额,将所述总交易金额最高的所述发票组对应的第二目标经营范围确定为所述企业的主要经营范围。
本发明实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的基于发票数据确定企业主要经营范围的方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的基于发票数据确定企业主要经营范围的方法。
本发明实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序或指令,该计算机程序或指令被处理器执行时实现如上所述的基于发票数据确定企业主要经营范围的方法。
本发明实施例提供的基于发票数据确定企业主要经营范围的方法、和装置,通过神经网络模型建立了发票商品类目信息与企业经营范围之间的联系,并能够自动化的基于发票对应的商品类目信息以及交易金额,计算得到企业的主要经营范围,提高了确定企业主要经营范围的效率和客观性。
附图说明
结合附图并参考以下具体实施方式,本发明各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1为本申请一个实施例提供的一种基于发票数据确定企业主要经营范围的方法的流程图;
图2为本申请一个实施例提供的一种macbert模型结构图;
图3为本申请另一个实施例提供的一种macbert模型结构图;
图4为本申请另一个实施例提供的一种基于发票数据确定企业主要经营范围的方法的流程图;
图5为本申请一个实施例提供的一种基于发票数据确定企业主要经营范围装置的结构示意图;
图6为本申请一个实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的实施例。虽然附图中显示了本发明的某些实施例,然而应当理解的是,本发明可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是,本发明的附图及实施例仅用于示例性作用,并非用于限制本发明的保护范围。
应当理解,本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
参考图1所示,本发明实施例提供了一种基于发票数据确定企业主要经营范围的方法的流程图。
步骤S110,对企业的多张发票进行识别,确定各所述发票的商品类目信息。
企业的标准格式的发票中包括的发票数据一般是【商品类目---商品明细】的结构,在本步骤中,我们可以根据光学字符识别技术对企业的各张发票进行识别,得到发票文本,再基于语义理解定位到发票文本中的【商品类目---商品明细】,确定每张发票的商品类目,得到各发票的商品类目信息。举例来说,定位到发票文本中的“制冷空调设备---空调电脑板”,即可以确定该发票的商品类目信息为制冷空调设备。
步骤S120,将所述企业的多个经营范围文本和所述各所述发票的商品类目信息输入至预先训练的神经网络模型,输出各所述发票的商品类目信息与各所述经营范围的相似度。
企业的多个经营范围文本是根据企业工商登记的经营范围拆解得到的,具体地,去除经营范围的中的各类描述性文字,对剩下文本按照标点符号进行拆解,得到多个经营范围文本,并与发票中的商品类目信息一一对应组成待输出到神经网络模型中的文本对集合。例如,经营范围文本包括“电子产品、机械设备”,再结合步骤S110中识别得到的“制冷空调设备”,组成待输入到神经网络模型中的文本对集合【制冷空调设备,电子产品】,【制冷空调设备,机械设备】。
本实施例中,神经网络模型采用macbert(全称MLM as correction bert,纠错型掩码语言模型),该模型通过修改bert模型的MLM任务以达到在中文数据集上更好的表现,输出每个文本对集合的相似度比较结果。
进一步的,所述神经网络模型包括多个嵌入层、全连接层和深度前馈神经网络结构,本步骤S120可以通过如下方案具体实施:
针对每个所述经营范围文本,将该经营范围文本与所述商品类目信息进行拼接,得到文本向量;将所述文本向量进行处理,得到第一矩阵;所述第一矩阵经过所述多个嵌入层和所述全连接层的处理,得到第二矩阵;所述第二矩阵经过所述深度前馈神经网络结构的压缩处理,得到该经营范围文本与所述商品类目信息的相似度。
具体地,首先对每个文本对集合进行向量化处理,生成文本向量。以文本对集合【制冷空调设备,电子产品】为例,macbert模型接收的文本向量为“[cls]制冷空调设备[sep]电子产品[sep]”,cls指明任务类型为分类任务,sep标志句子结束,该文本向量由13个字符组成,macbert模型会根据词典形成一个13*21128的矩阵,同时为了保持每个文本对集合的第一矩阵是大小固定的,macbert模型会根据预置的字典对字符串做one-hot(独热编码)查询,通过补零的方式扩充该矩阵为512*21128(21128为预置字典大小),即得到第一矩阵。
随后,第一矩阵经过多个嵌入层,通过token embedding(标记嵌入)、positionembedding(位置嵌入)、segment embedding(拼接嵌入)做向量压缩,这一步的目的是为了在尽量保留文本对集合信息的情况下增加输入数据的稠密度,同时还可以减小框架参数量;紧接着再经过全连接层的处理,进入多层的编码结构得到第二矩阵;第二矩阵最后经过深度前馈神经网络结构的压缩处理,输出该文本对集合的相似度比较结果。
进一步地,所述第一矩阵经过所述多个嵌入层和所述全连接层的处理,得到第二矩阵,可以通过如下方案具体实施:
所述第一矩阵经过所述多个嵌入层的压缩处理,得到第三矩阵;基于注意力机制对所述第三矩阵进行M次重复处理,得到M个第四矩阵;其中,M为大于1的整数;对所述M个第四矩阵进行拼接,得到第五矩阵;使用残差结构对所述第三矩阵和所述第五矩阵进行加和,得到第六矩阵;所述第六矩阵经过所述全连接层的处理,得到第七矩阵;使用残差结构对所述第六矩阵和所述第七矩阵进行加和,得到第八矩阵;对上述步骤重复M次,得到M个所述第八矩阵,对M个所述第八矩阵处理,得到所述第二矩阵。
如图2所示,第一矩阵(512*21128)通过多个嵌入层token embedding(标记嵌入)、position embedding(位置嵌入)、segment embedding(拼接嵌入)做向量压缩,将第一矩阵压缩至512*768,得到第三矩阵,这一步是为了在尽量保留语义信息的情况下压缩表征空间,从而减小模型中的参数量。对于第三矩阵(512*768),macbert模型会同时对其做M次不同的自注意力(self-attention)操作并形成M个512*64的输出,即M个第四矩阵。在本方案中,M取12,即得到12个第四矩阵。注意力机制包括自注意力机制和多头注意力机制,对12个第四矩阵进行多头注意力(mlti-head attention)操作并拼接成一个512*768的第五矩阵。借助残差网络的思想,为了防止梯度消失,macbert模型会对多头注意力操作之后的第五矩阵和多头注意力操作之前的第三矩阵之间做加法,得到第六矩阵。将第六矩阵进入后面的全连接层进行处理,得到一个3072*768第七矩阵;同样的,再使用残差结构对进入全连接层之前的第六矩阵和进行全连接层之后的第七矩阵进行加和,又得到了512*768的第八矩阵。对上述过程中多头注意力操作和全连接层之间的部分重复12次,得到12个所述第八矩阵,对12个第八矩阵处理,得到上述第二矩阵。
最后macbert模型输出的是一个512*768的第二矩阵,经过深度前馈神经网络结构,压缩到2维,至此我们便拿到了两个句子相似的概率值。在本例中,【制冷空调设备,电子产品】的相似度是0.04,而另一组文本对【制冷空调设备,机械设备】的相似度是0.85。
进一步地,所述基于注意力机制对所述第三矩阵进行M次重复处理,得到M个第四矩阵,可以通过如下方案具体实施:
所述第三矩阵分别经过处理形成查询矩阵、键矩阵和值矩阵;按照预设公式对所述查询矩阵、所述键矩阵和所述值矩阵进行计算,得到所述第四矩阵。
如图3所示,仍以M为12为例,对于第三矩阵(512*768),macbert模型会同时对其进行处理,形成查询矩阵EWq(Wq(768*64)Q(512*64))、键矩阵EWk(Wk(768*64)K(512*64))和值矩阵EWv(Wv(768*64)V(512*64));再按照图3中所示的公式对查询矩阵EWq(Wq(768*64)Q(512*64))、键矩阵EWk(Wk(768*64)K(512*64))和值矩阵EWv(Wv(768*64)V(512*64))进行计算,得到第四矩阵(512*64)。
步骤S130,针对每张所述发票,将与该发票的商品类目信息的相似度最大的所述经营范围确定为该发票对应的第一目标经营范围。
根据步骤S120输出的每个文本对集合的相似度,确定“机械设备”是这张发票对应的相似度最高的经营范围,即该发票对应的第一目标经营范围为“机械设备销售”,我们认为这张发票是来源于企业“机械设备销售”这一业务板块。
步骤S140,根据各所述发票对应的第一目标经营范围对所述发票进行分组,得到至少一个发票组,每个所述发票组与第二目标经营范围相对应。
按照步骤S110-步骤S130的方案处理该企业的全部发票,得到每张发票对应的第一目标经营范围。之后,将第一目标经营范围相同的发票聚合在一组,得到多个发票组,每个发票组对应的第一目标经营范围即为第二目标经营范围。举例来说,将第一目标经营范围为“电子产品”的发票分为第一发票组,将第一经营范围为“机械设备”的发票分为第二发票组,则第一发票组的第二目标经营范围为“电子产品”,第二发票组的第二目标经营范围为“机械设备”。
步骤S150,基于各所述发票组中各所述发票的交易金额生成各所述发票组的总交易金额,将所述总交易金额最高的所述发票组对应的第二目标经营范围确定为所述企业的主要经营范围。
具体地,针对每个发票组,根据该发票组中每张发票中记载的交易额,计算该发票组的总交易额,将所述总交易金额最高的所述发票组对应的第二目标经营范围确定为所述企业的主要经营范围。举例来说,第二目标经营范围“电子产品”的总交易额为8210w(或占该企业总交易金额的82.1%),第二目标经营范围“机械制品”的总交易额为1350w(或占该企业总交易金额的13.5%),因此我们可以认为这家企业的主要经营范围是电子产品。
本发明实施例提供的技术方案通过神经网络模型建立了发票商品类目信息与企业经营范围之间的联系,并能够自动化的基于发票对应的商品类目信息以及交易金额,计算得到企业的主要经营范围,提高了确定企业主要经营范围的效率和客观性。
作为本发明实施例的可选的实施方式,上述神经网络模型通过如下方式进行训练:
获取多条文本对;根据至少两种文本编辑距离计算公式分别计算每条所述文本对的相似度;针对每条所述文本对,对每种所述文本编辑距离计算公式计算得到的相似度进行加权求和,得到该条文本对的最终相似度;将所述最终相似度大于或等于预设阈值的所述文本对作为训练所述神经网络模型的正样本,将所述最终相似度小于所述预设阈值的所述文本对作为训练所述神经网络模型的负样本。
具体地,我们按照实际的业务场景提取出若干万条文本对,基于开源语料库若干5万条文本对做向量化。上述文本编辑举例计算公式包括但不限于余弦计算公式、jarowinkler距离计算公式、jaccard距离计算公式,分别按照上述公式计算每条文本对的相似度,三者按照4:3:3的比例归一化加权平均得到每条文本对的最终相似度。这里,预设阈值可以根据经验或在先数据确定,以0.8为例,将相似度为0.8及以上的部分预标注为正样本,相似度为0.2及以下的部分预标注为负样本。借助本方案标注可以大大减少人工标注样本的工作量。
作为本发明实施例的可选实施方式,有些发票可能不是标准格式的发票,需要对这些发票进行标准化处理。此时,所述对企业的多张发票进行识别,确定各所述发票的商品类目信息,包括:
判断所述发票是否为标准格式;若所述发票不是所述标准格式,从所述发票的商品明细中提取主体名词;计算所述主体名词与商品类目-商品库中各商品名称词的相似度,确定与所述主体名词相似度最大的目标商品名称词;通过所述商品类目-商品库确定与所述目标商品名称词映射的目标商品类目,将所述目标商品类目作为所述发票的商品类目信息。
具体地,非标准格式的发票的发票数据中只有商品明细,并没有商品类目。对于这些没有给出商品类目的发票,先使用jieba(分词组件)提取出商品明细中的主体名词,并使用字符串编辑距离计算公式(如jaro-winkler)、依次计算主体名词与预先建立的“商品类目-商品”库中每个商品名称词的相似度,找到相似度最大的目标商品名称词;通过“商品类目-商品”库确定与目标商品名称词映射的目标商品类目,将目标商品类目作为发票的商品类目信息,组成标准的【商品类目*商品明细】格式。
在实际使用上,在实施本步骤之前,我们预先从标准的“商品类目-商品明细”发票中解析出“商品类目-商品”字典,建立“商品类目-商品”库,用作后期的标准化商品名称的依据。遇到非标准的发票名称,我们会用字符串编辑距离计算公式(如jaro-winkler)度量“类目-商品”字典中的每一个商品,找到最可能的商品类目并重构成标准处理格式。由于发票名称的商品详细名称部分往往含有商品品牌等干扰字段,所以会对详细商品名称提取名词,使用详细商品名称的主体名词部分做相似度度量。
作为本发明实施例的可选实施方式,所述企业的经营范围包括三个等级,在所述将所述企业的多个经营范围文本和所述各所述发票的商品类目信息输入至预先训练的神经网络模型之前,所述方法还包括:
对所述企业的经营范围文本进行识别,确定所述文本包括的第一优先级标点符号和第二优先级标点符号;在所述经营范围文本中,以每个所述第一优先级标点符号作为分隔截断标识,得到多个第二等级经营范围文本;针对每个所述第二等级经营范围文本,以所述第二优先级标点符号作为分隔阶段标识,得到多个关键词,根据语义理解对所述多个关键词进行处理,得到多个第三等级经营范围文本。
具体地,经过分析,可以将企业的经营范围分成三个等级,第一级为整个的经营范围,描述的是该企业的全部准许经营范围;第二级是以句号或者分号(第一优先级标点符号)为分隔截断的部分,一般一个区段内描述的都是一个行业的产品;第三级为逗号、顿号(第二优先级标点符号)区分的部分,也就是经营范围小类,这里主要描述的是一类商品。因此,可以将经营范围文本进行初步处理,去掉一些无意义词,得到第一等级经营范围文本。在第一等级经营范围文本,以每个第一优先级标点符号作为分隔截断标识,得到多个第二等级经营范围文本;再针对每个第二等级经营范围文本,以所述第二优先级标点符号作为分隔阶段标识,得到多个关键词,其中,多个关键词中可能包括公用词,这些公用词并非实体名词,可以根据需要把上述公用词过滤,也可以将上述公用词与每个关键词进行拼接,得到多个第三等级经营范围文本。
例如:某企业的经营范围是“非接触式压电式喷射阀、气动针式点胶阀、滑动点胶阀、仪表阀、压力仪表附件、喷射阀和点胶阀控制器及电子封装设备、实验室设备、工业自动化控制系统装置的研发、制造、销售;封装点胶技术开发、技术咨询及技术转让;货物及技术的进出口。(依法须经批准的项目,经相关部门批准后方可开展经营活动)”,那么他的一级经营范围就是全量的经营范围;二级经营范围有三个,分别是1)非接触式压电式喷射阀、气动针式点胶阀、滑动点胶阀、仪表阀、压力仪表附件、喷射阀和点胶阀控制器及电子封装设备、实验室设备、工业自动化控制系统装置的研发、制造、销售,2)封装点胶技术开发、技术咨询及技术转让,3)货物及技术的进出口;三级经营范围有1)非接触式压电式喷射阀,2)气动针式点胶阀,3)滑动点胶阀,4)仪表阀,5)压力仪表附件,6)喷射阀,7)点胶阀控制器,8)电子封装设备,9)实验室设备,10)工业自动化控制系统装置,11)封装点胶,12)货物出口,13)技术出口。这里,的研发、制造、销售,开发、技术咨询及技术转让,的进出口属于公用词,需要过滤后得到第三等级经验范围文本。
从一级经营范围来看,该企业可以从事设备研发,技术开发和转让,货物进出口等业务。从二级经营范围来看,该企业的行业为阀门类设备研发、点胶技术转让、货物进出口。从三级经营范围来看,该企业主要可以从事阀门类、自动化控制等设备相关的销售转让业务。
在应用阶段,我们一般计算商品类目信息和企业所有第三类(即最小类)经营范围文本的相似度,保留相似度最大的第三类经营范围文本作为该发票的第一目标经营范围。以某企业的某张发票为例,该企业的工商登记经营范围是“生产、加工、销售:电子产品、塑料制品;切割加工:胶带;销售:胶粘制品、防静电产品、办公用品、劳保用品、五金交电、日用百货、纺织品、机械设备、非危险性化工产品。(依法须经批准的项目,经相关部门批准后方可开展经营活动)。步骤S120中提到多个经营范围文本即为第三类经验范围文本,包括“电子产品、塑料制品、胶带、胶粘制品、防静电产品、办公用品、劳保用品、五金交电、日用百货、纺织品、机械设备、非危险性化工产品”。
作为本发明的另一些可选实施方式,参考图4所示,本发明实施例提供了一种基于发票数据确定企业主要经营范围的方法的流程图。
步骤S410,获取企业的发票和经营范围文本。
步骤S420,判断所述发票是否为标准格式,若是,执行步骤S440;若否,执行步骤S430。
步骤S430,通过查找商品类目-商品库,将所述发票处理成标准格式。
步骤S440,去除所述经营范围文本中的干扰字符后,对所述经营范围文本进行切割,得到多个第三类经营范围文本。
步骤S450,通过神经网络模型计算所述发票中的商品类目信息与各所述第三类经营范围文本的相似度,确定所述发票对应的目标经营范围。
步骤S460,将同一所述目标经营范围的所述发票分成一组,统计组内的总交易金额。
步骤S470,判定所述总交易金额最大的目标经营范围作为所述企业的主要经营范围。
以某零售类企业为例,该企业申报的经营范围是“金属材料、汽车配件、五金、金属制品的零售兼批发;塑料、金属材料加工及制造”,提交的发票名称有【黑色金属冶炼延压品---无缝钢、黑色金属冶炼延压品---盘螺、塑料制品---塑胶件】。我们将公用词“零售兼批发”与每个关键词“金属材料”“汽车配件”“五金”“金属制品”进行拼接,将公用词“加工及制造”与每个关键词“塑料”“金属材料”进行拼接,得到第三类经营范围文本有“金属材料零售兼批发、汽车配件零售兼批发、五金零售兼批发、塑料材料加工及制造、金属材料加工及制造”。
接下来对每一张发票与以上第三类经营范围文本比较相似度,并保留相似度最大的作为发票对应的目标经营范围。对相似度大于阈值0.1的发票按照目标经营范围做分组,并计算每个发票组内发票的总金额,得到金属材料零售兼批发占总交易金额的82.1%,塑料材料加工及制造占总金额的13.5%,因此我们可以认为这家企业的主要经营业务是金属材料零售兼批发,行业为金属行业。
在一个实施例中,参考图5所示,提供了一种基于发票数据确定企业主要经营范围装置的结构示意图。该装置可用于执行图1-图4任一所示的基于发票数据确定企业主要经营范围的方法,该装置包括:识别模块510、输出模块520、第一确定模块530、分组模块540和第二确定550;其中,
识别模块510,用于对企业的多张发票进行识别,确定各所述发票的商品类目信息;输出模块520,用于将所述企业的多个经营范围文本和所述各所述发票的商品类目信息输入至预先训练的神经网络模型,输出各所述发票的商品类目信息与各所述经营范围的相似度;第一确定模块530,用于针对每张所述发票,将与该发票的商品类目信息的相似度最大的所述经营范围确定为该发票对应的第一目标经营范围;分组模块540,用于根据各所述发票对应的目标经营范围对所述发票进行分组,得到至少一个发票组,每个所述发票组与第二目标经营范围相对应;第二确定模块550,用于基于各所述发票组中各所述发票的交易金额生成各所述发票组的总交易金额,将所述总交易金额最高的所述发票组对应的第二目标经营范围确定为所述企业的主要经营范围。
可选地,识别模块510进一步用于,判断所述发票是否为标准格式;若所述发票不是所述标准格式,从所述发票的商品明细中提取主体名词;计算所述主体名词与商品类目-商品库中各商品名称词的相似度,确定与所述主体名词相似度最大的目标商品名称词;通过所述商品类目-商品库确定与所述目标商品名称词映射的目标商品类目,将所述目标商品类目作为所述发票的商品类目信息。
可选地,所述企业的经营范围包括三个等级,识别模块510进一步用于:对所述企业的经营范围文本进行识别,确定所述文本包括的第一优先级标点符号和第二优先级标点符号;在所述经营范围文本中,以每个所述第一优先级标点符号作为分隔截断标识,得到多个第二等级经营范围文本;针对每个所述第二等级经营范围文本,以所述第二优先级标点符号作为分隔阶段标识,得到多个关键词,根据语义理解对所述多个关键词进行处理,得到多个第三等级经营范围文本。
可选地,所述装置还包括训练模块(图5中未示出),所述训练模块用于,获取多条文本对;根据至少两种文本编辑距离计算公式分别计算每条所述文本对的相似度;针对每条所述文本对,对每种所述文本编辑距离计算公式计算得到的相似度进行加权求和,得到该条文本对的最终相似度;将所述最终相似度大于或等于预设阈值的所述文本对作为训练所述神经网络模型的正样本,将所述最终相似度小于所述预设阈值的所述文本对作为训练所述神经网络模型的负样本。
可选地,所述神经网络模型包括多个嵌入层、全连接层和深度前馈神经网络结构,输出模块520进一步用于,针对每个所述经营范围文本,将该经营范围文本与所述商品类目信息进行拼接,得到文本向量;将所述文本向量进行处理,得到第一矩阵;所述第一矩阵经过所述多个嵌入层和所述全连接层的处理,得到第二矩阵;所述第二矩阵经过所述深度前馈神经网络结构的压缩处理,得到该经营范围文本与所述商品类目信息的相似度。
可选地,输出模块520进一步用于,所述第一矩阵经过所述多个嵌入层的压缩处理,得到第三矩阵;基于注意力机制对所述第三矩阵进行M次重复处理,得到M个第四矩阵;其中,M为大于1的整数;对所述M个第四矩阵进行拼接,得到第五矩阵;使用残差结构对所述第三矩阵和所述第五矩阵进行加和,得到第六矩阵;所述第六矩阵经过所述全连接层的处理,得到第七矩阵;使用残差结构对所述第六矩阵和所述第七矩阵进行加和,得到第八矩阵;对上述步骤重复M次,得到M个所述第八矩阵,对M个所述第八矩阵处理,得到所述第二矩阵。
可选地,输出模块520进一步用于,所述第三矩阵分别经过处理形成查询矩阵、键矩阵和值矩阵;按照预设公式对所述查询矩阵、所述键矩阵和所述值矩阵进行计算,得到所述第四矩阵。
需要说明的是,本发明实施例所提供的基于发票数据确定企业主要经营范围装置对应的可用于执行上述各方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图6为本发明实施例中的一种电子设备的结构示意图。下面具体参考图6,其示出了适于用来实现本发明实施例中的电子设备600的结构示意图。本发明实施例中的电子设备600可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)、可穿戴电子设备等等的移动终端以及诸如数字TV、台式计算机、智能家居设备等等的固定终端。图6示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理以实现如本发明所述的实施例的方法。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码,从而实现如上所述的方法。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM602被安装。在该计算机程序被处理装置601执行时,执行本发明实施例的方法中限定的上述功能。
需要说明的是,本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,终端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
对企业的多张发票进行识别,确定各所述发票的商品类目信息;将所述企业的多个经营范围文本和所述各所述发票的商品类目信息输入至预先训练的神经网络模型,输出各所述发票的商品类目信息与各所述经营范围的相似度;针对每张所述发票,将与该发票的商品类目信息的相似度最大的所述经营范围确定为该发票对应的第一目标经营范围;根据各所述发票对应的第一目标经营范围对所述发票进行分组,得到至少一个发票组,每个所述发票组与第二目标经营范围相对应;基于各所述发票组中各所述发票的交易金额生成各所述发票组的总交易金额,将所述总交易金额最高的所述发票组对应的第二目标经营范围确定为所述企业的主要经营范围。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (7)

1.一种基于发票数据确定企业主要经营范围的方法,其特征在于,所述方法包括:
对企业的多张发票进行识别,判断所述发票是否为标准格式;若所述发票不是所述标准格式,从所述发票的商品明细中提取主体名词;计算所述主体名词与商品类目库中各商品名称词的相似度,确定与所述主体名词相似度最大的目标商品名称词;通过所述商品类目库确定与所述目标商品名称词映射的目标商品类目,将所述目标商品类目作为所述发票的商品类目信息;
将企业的多个经营范围中的每个经营范围文本与所述商品类目信息进行拼接,得到文本向量;将所述文本向量转换为第一矩阵;所述第一矩阵经过多个嵌入层的压缩处理,得到第三矩阵;基于多头注意力机制对所述第三矩阵进行M次重复处理,得到M个第四矩阵,其中,M为大于1的整数;对所述M个第四矩阵进行拼接操作,得到第五矩阵;使用残差结构对所述第三矩阵和所述第五矩阵进行加和操作,得到第六矩阵;所述第六矩阵经过全连接层的处理,得到第七矩阵;使用残差结构对所述第六矩阵和所述第七矩阵进行加和操作,得到第八矩阵;对上述步骤重复M次,得到M个所述第八矩阵,对M个所述第八矩阵拼接处理,得到第二矩阵;所述第二矩阵经过深度前馈神经网络结构的压缩处理,得到所述经营范围文本与所述商品类目信息的相似度;
针对每张所述发票,将与该发票的商品类目信息的相似度最大的所述经营范围确定为该发票对应的目标经营范围;
根据各所述发票对应的不同的目标经营范围对所述发票进行分组,得到至少一个发票组,每个所述发票组与一个目标经营范围相对应;
基于各所述发票组中各所述发票的交易金额生成各所述发票组的总交易金额,将所述总交易金额最高的所述发票组对应的目标经营范围确定为企业的主要经营范围。
2.根据权利要求1所述的方法,其特征在于,所述企业的经营范围包括三个等级,在将企业的多个经营范围文本和发票的商品类目信息输入至预先训练的神经网络模型之前,所述方法还包括:
对所述企业的经营范围文本进行识别,确定所述文本包括的第一优先级标点符号和第二优先级标点符号;
在所述经营范围文本中,以每个所述第一优先级标点符号作为分隔截断标识,得到多个第二等级经营范围文本;
针对每个所述第二等级经营范围文本,以所述第二优先级标点符号作为分隔阶段标识,得到多个关键词,根据语义理解对所述多个关键词进行处理,得到多个第三等级经营范围文本。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
获取多条文本对;
根据至少两种文本编辑距离计算公式分别计算每条所述文本对的相似度;
针对每条所述文本对,对每种所述文本编辑距离计算公式计算得到的相似度进行加权求和,得到该条文本对的最终相似度;
将所述最终相似度大于或等于预设阈值的所述文本对作为训练所述神经网络模型的正样本,将所述最终相似度小于所述预设阈值的所述文本对作为训练所述神经网络模型的负样本。
4.根据权利要求1所述的方法,其特征在于,所述基于多头注意力机制对所述第三矩阵进行M次重复处理,得到M个第四矩阵,包括:
将第三矩阵处理为查询矩阵、键矩阵和值矩阵;
按照预设公式对所述查询矩阵、所述键矩阵和所述值矩阵进行计算,得到所述第四矩阵。
5.一种基于发票数据确定企业主要经营范围装置,其特征在于,包括:
识别模块,用于对企业的多张发票进行识别,判断所述发票是否为标准格式;若所述发票不是所述标准格式,从所述发票的商品明细中提取主体名词;计算所述主体名词与商品类目库中各商品名称词的相似度,确定与所述主体名词相似度最大的目标商品名称词;通过所述商品类目库确定与所述目标商品名称词映射的目标商品类目,将所述目标商品类目作为所述发票的商品类目信息;
输出模块,用于将企业的多个经营范围中的每个经营范围文本与所述商品类目信息进行拼接,得到文本向量;将所述文本向量转换为第一矩阵;所述第一矩阵经过多个嵌入层的压缩处理,得到第三矩阵;基于多头注意力机制对所述第三矩阵进行M次重复处理,得到M个第四矩阵,其中,M为大于1的整数;对所述M个第四矩阵进行拼接操作,得到第五矩阵;使用残差结构对所述第三矩阵和所述第五矩阵进行加和操作,得到第六矩阵;所述第六矩阵经过全连接层的处理,得到第七矩阵;使用残差结构对所述第六矩阵和所述第七矩阵进行加和操作,得到第八矩阵;对上述步骤重复M次,得到M个所述第八矩阵,对M个所述第八矩阵拼接处理,得到第二矩阵;所述第二矩阵经过深度前馈神经网络结构的压缩处理,得到所述经营范围文本与所述商品类目信息的相似度;
第一确定模块,用于针对每张所述发票,将与该发票的商品类目信息的相似度最大的所述经营范围确定为该发票对应的目标经营范围;
分组模块,用于根据各所述发票对应的不同的目标经营范围对所述发票进行分组,得到至少一个发票组,每个所述发票组与一个目标经营范围相对应;
第二确定模块,用于基于各所述发票组中各所述发票的交易金额生成各所述发票组的总交易金额,将所述总交易金额最高的所述发票组对应的目标经营范围确定为所述企业的主要经营范围。
6.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4任意一项所述的方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4任意一项所述的方法。
CN202211575632.1A 2022-12-09 2022-12-09 一种基于发票数据确定企业主要经营范围的方法和装置 Active CN115809887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211575632.1A CN115809887B (zh) 2022-12-09 2022-12-09 一种基于发票数据确定企业主要经营范围的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211575632.1A CN115809887B (zh) 2022-12-09 2022-12-09 一种基于发票数据确定企业主要经营范围的方法和装置

Publications (2)

Publication Number Publication Date
CN115809887A CN115809887A (zh) 2023-03-17
CN115809887B true CN115809887B (zh) 2023-10-10

Family

ID=85485338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211575632.1A Active CN115809887B (zh) 2022-12-09 2022-12-09 一种基于发票数据确定企业主要经营范围的方法和装置

Country Status (1)

Country Link
CN (1) CN115809887B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049358A (zh) * 2023-03-31 2023-05-02 得分数字科技(珠海)有限公司 发票信息近似度检测方法、存储介质及计算机设备
CN116579786B (zh) * 2023-05-06 2023-11-14 全拓科技(杭州)股份有限公司 一种应用于大数据分析的数据清洗方法与系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107871144A (zh) * 2017-11-24 2018-04-03 税友软件集团股份有限公司 发票商品名分类方法、系统、设备及计算机可读存储介质
CN108268880A (zh) * 2016-12-30 2018-07-10 航天信息股份有限公司 一种行业类别的识别方法及装置
CN109101555A (zh) * 2018-07-12 2018-12-28 青岛微智慧信息有限公司 一种发票核定方法及系统
CN110019798A (zh) * 2017-11-20 2019-07-16 航天信息股份有限公司 一种用于对进销项商品种类差异进行度量的方法及系统
CN110019404A (zh) * 2017-12-27 2019-07-16 航天信息股份有限公司 一种确定商品的推荐税收分类编码的系统和方法
CN110647845A (zh) * 2019-09-23 2020-01-03 税友软件集团股份有限公司 一种发票数据识别装置、相关方法及相关装置
CN112613929A (zh) * 2020-12-17 2021-04-06 山东浪潮商用系统有限公司 一种基于语义分析的发票虚开识别方法及系统
CN114637842A (zh) * 2020-12-15 2022-06-17 航天信息股份有限公司 企业行业分类方法、装置、存储介质及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010037270A1 (en) * 2000-04-26 2001-11-01 William Melo System and method of providing invoice information

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268880A (zh) * 2016-12-30 2018-07-10 航天信息股份有限公司 一种行业类别的识别方法及装置
CN110019798A (zh) * 2017-11-20 2019-07-16 航天信息股份有限公司 一种用于对进销项商品种类差异进行度量的方法及系统
CN107871144A (zh) * 2017-11-24 2018-04-03 税友软件集团股份有限公司 发票商品名分类方法、系统、设备及计算机可读存储介质
CN110019404A (zh) * 2017-12-27 2019-07-16 航天信息股份有限公司 一种确定商品的推荐税收分类编码的系统和方法
CN109101555A (zh) * 2018-07-12 2018-12-28 青岛微智慧信息有限公司 一种发票核定方法及系统
CN110647845A (zh) * 2019-09-23 2020-01-03 税友软件集团股份有限公司 一种发票数据识别装置、相关方法及相关装置
CN114637842A (zh) * 2020-12-15 2022-06-17 航天信息股份有限公司 企业行业分类方法、装置、存储介质及电子设备
CN112613929A (zh) * 2020-12-17 2021-04-06 山东浪潮商用系统有限公司 一种基于语义分析的发票虚开识别方法及系统

Also Published As

Publication number Publication date
CN115809887A (zh) 2023-03-17

Similar Documents

Publication Publication Date Title
CN109101537B (zh) 基于深度学习的多轮对话数据分类方法、装置和电子设备
CN115809887B (zh) 一种基于发票数据确定企业主要经营范围的方法和装置
CN107797982B (zh) 用于识别文本类型的方法、装置和设备
Luo et al. Online learning of interpretable word embeddings
US20150095017A1 (en) System and method for learning word embeddings using neural language models
CN112069321B (zh) 用于文本层级分类的方法、电子设备和存储介质
CN112528025A (zh) 基于密度的文本聚类方法、装置、设备及存储介质
JP2019530057A (ja) 電子記録の文脈検索のためのシステム及び方法
CN109992668A (zh) 一种基于自注意力的企业舆情分析方法和装置
US11741094B2 (en) Method and system for identifying core product terms
CN111159409B (zh) 基于人工智能的文本分类方法、装置、设备、介质
CN112686022A (zh) 违规语料的检测方法、装置、计算机设备及存储介质
CN112231569A (zh) 新闻推荐方法、装置、计算机设备及存储介质
CN112560504B (zh) 抽取表单文档中信息的方法、电子设备和计算机可读介质
CN112307164A (zh) 信息推荐方法、装置、计算机设备和存储介质
CN114528845A (zh) 异常日志的分析方法、装置及电子设备
Alexandridis et al. A knowledge-based deep learning architecture for aspect-based sentiment analysis
CN113392920B (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN110750297A (zh) 一种基于程序分析和文本分析的Python代码参考信息生成方法
CN113821588A (zh) 文本处理方法、装置、电子设备及存储介质
CN111737607B (zh) 数据处理方法、装置、电子设备以及存储介质
CN112148841A (zh) 一种对象分类以及分类模型构建方法和装置
CN110309278A (zh) 关键词检索方法、装置、介质及电子设备
Zeng et al. RACMF: robust attention convolutional matrix factorization for rating prediction
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant