CN110597995A - 一种商品名称分类方法、装置、设备及可读存储介质 - Google Patents

一种商品名称分类方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN110597995A
CN110597995A CN201910893763.6A CN201910893763A CN110597995A CN 110597995 A CN110597995 A CN 110597995A CN 201910893763 A CN201910893763 A CN 201910893763A CN 110597995 A CN110597995 A CN 110597995A
Authority
CN
China
Prior art keywords
commodity
target
code
word
commodity code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910893763.6A
Other languages
English (en)
Other versions
CN110597995B (zh
Inventor
涂昶
钱力扬
王培勇
史源源
杨岱川
陈鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SERVYOU SOFTWARE GROUP Co Ltd
Original Assignee
SERVYOU SOFTWARE GROUP Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SERVYOU SOFTWARE GROUP Co Ltd filed Critical SERVYOU SOFTWARE GROUP Co Ltd
Priority to CN201910893763.6A priority Critical patent/CN110597995B/zh
Publication of CN110597995A publication Critical patent/CN110597995A/zh
Application granted granted Critical
Publication of CN110597995B publication Critical patent/CN110597995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种商品名称分类方法,包括:利用预设核心词库对目标发票中的目标商品名称进行分类,获得第一商品编码;利用预设商品编码库对目标商品名称进行分类,获得第二商品编码;若目标商品编码符合商品编码格式,则当第二商品编码为多个,且第一商品编码、第二商品编码和目标商品编码中存在相同商品编码时,将相同商品编码添加至目标集合,并叠加目标集合中的每个商品编码对应的权重值,获得叠加权重值;将最大叠加权重值对应的商品编码确定为目标商品名称所属的商品编码。本申请利用核心词库和商品编码库分类发票中的商品名称,可提高分类效率和准确率。本申请公开的一种商品名称分类装置、设备及可读存储介质,也同样具有上述技术效果。

Description

一种商品名称分类方法、装置、设备及可读存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种商品名称分类方法、装置、设备及可读存储介质。
背景技术
当税务局核查企业或机构缴纳税款的情况时,需要对该企业或机构开具的发票进行核查,但由于企业或机构开具发票时填写的商品名称不甚规范,从而给税务核查工作带来了困难。
在现有技术中,一般采用TEXT CNN、LSTM等深度学习方法对待查验的发票中的商品名称进行分类,以确定该商品名称所属的类别。但由于深度学习方法是有监督的分类方法,也就是需要依靠标签进行分类;这些标签是发票中填写的一些信息,但由于发票中填写的信息不甚规范,从而导致标签的准确性低,这给深度学习方法带来了一定的难度,从而降低了深度学习方法对商品名称的分类效率和准确率;同时深度学习方法还需要足够的计算机资源支持深度学习模型的运行,因此深度学习方法会占用较多的计算机资源。其中,TEXTCNN是一种卷积神经网络,常用于文本分类。LSTM是一种循环神经网络,其为长短记忆神经网络。
因此,如何提高商品名称的分类效率和准确率,是本领域技术人员需要解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种商品名称分类方法、装置、设备及可读存储介质,以提高商品名称的分类效率和准确率。其具体方案如下:
第一方面,本申请提供了一种商品名称分类方法,包括:
获取目标发票中的目标商品名称和目标商品编码;
利用预设核心词库对目标商品名称进行分类,获得第一商品编码;预设核心词库存储有多个商品名称,以及每个商品名称对应的关键词,关键词至少包括:商品编码、计量单位和单价;
利用预设商品编码库对目标商品名称进行分类,获得第二商品编码;预设商品编码库存储有多个商品名称,以及每个商品名称对应的商品编码;
若目标商品编码符合商品编码格式,则当第二商品编码为多个,且第一商品编码、第二商品编码和目标商品编码中存在相同商品编码时,将相同商品编码添加至目标集合,并叠加目标集合中的每个商品编码对应的权重值,获得叠加权重值;将最大叠加权重值对应的商品编码确定为目标商品名称所属的商品编码。
优选地,还包括:
若目标商品编码符合商品编码格式,则当第一商品编码、第二商品编码和目标商品编码均不同时,将第一商品编码确定为目标商品名称所属的商品编码。
优选地,还包括:
若最大叠加权重值为多个,则执行将第一商品编码确定为目标商品名称所属的商品编码的步骤。
优选地,利用预设核心词库对目标商品名称进行分类,获得第一商品编码,包括:
对目标商品名称进行清洗,并对清洗后的目标商品名称进行分词,获得分词结果;
判断分词结果包含的目标词是否存储于预设核心词库中;
若是,则将存储于预设核心词库中的目标词添加至第一集合,当第一集合中的目标词仅有一个时,将目标词在预设核心词库中对应的商品编码确定为第一商品编码;
当第一集合中的目标词有多个时,获取目标发票中的第一匹配词,第一匹配词至少包括计量单位和单价;判断每个目标词在预设核心词库中对应的第二匹配词与第一匹配词是否相同;若是,则将与第一匹配词相同的第二匹配词在预设核心词库中对应的目标词添加至第二集合;
当第二集合中的目标词仅有一个时,将目标词在预设核心词库中对应的商品编码确定为第一商品编码;
当第二集合中的目标词有多个,且存在未使用过的第一匹配词,则更换第一匹配词,并执行判断每个目标词在预设核心词库中对应的第二匹配词与第一匹配词是否相同;若是,则将与第一匹配词相同的第二匹配词在预设核心词库中对应的目标词添加至第二集合;当第二集合中的目标词仅有一个时,将目标词在预设核心词库中对应的商品编码确定为第一商品编码的步骤。
优选地,还包括:
当第二集合中的目标词有多个,且不存在未使用过的第一匹配词时,确定第二集合中的不同目标词在分词结果中的排列顺序,将排列在尾部的目标词在预设核心词库中对应的商品编码确定为第一商品编码。
优选地,还包括:
若第一商品编码为空,且第二商品编码在商品编码库中的统计频次低于预设阈值,则利用预设深度学习模型对目标商品名称进行分类,获得第三商品编码;将第三商品编码确定为目标商品名称所属的商品编码。
优选地,还包括:
利用预设核心词库对预设深度学习模型的训练数据进行修正。
第二方面,本申请提供了一种商品名称分类装置,包括:
获取模块,用于获取目标发票中的目标商品名称和目标商品编码;
第一分类模块,用于利用预设核心词库对目标商品名称进行分类,获得第一商品编码;预设核心词库存储有多个商品名称,以及每个商品名称对应的关键词,关键词至少包括:商品编码、计量单位和单价;
第二分类模块,用于利用预设商品编码库对目标商品名称进行分类,获得第二商品编码;预设商品编码库存储有多个商品名称,以及每个商品名称对应的商品编码;
确定模块,用于若目标商品编码符合商品编码格式,则当第二商品编码为多个,且第一商品编码、第二商品编码和目标商品编码中存在相同商品编码时,将相同商品编码添加至目标集合,并叠加目标集合中的每个商品编码对应的权重值,获得叠加权重值;将最大叠加权重值对应的商品编码确定为目标商品名称所属的商品编码。
第三方面,本申请提供了一种商品名称分类设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序,以实现前述公开的商品名称分类方法。
第四方面,本申请提供了一种可读存储介质,用于保存计算机程序,其中,计算机程序被处理器执行时实现前述公开的商品名称分类方法。
通过以上方案可知,本申请提供了一种商品名称分类方法,包括:获取目标发票中的目标商品名称和目标商品编码;利用预设核心词库对目标商品名称进行分类,获得第一商品编码;预设核心词库存储有多个商品名称,以及每个商品名称对应的关键词,关键词至少包括:商品编码、计量单位和单价;利用预设商品编码库对目标商品名称进行分类,获得第二商品编码;预设商品编码库存储有多个商品名称,以及每个商品名称对应的商品编码;若目标商品编码符合商品编码格式,则当第二商品编码为多个,且第一商品编码、第二商品编码和目标商品编码中存在相同商品编码时,将相同商品编码添加至目标集合,并叠加目标集合中的每个商品编码对应的权重值,获得叠加权重值;将最大叠加权重值对应的商品编码确定为目标商品名称所属的商品编码。
可见,该方法利用预设核心词库和预设商品编码库分别对发票中的商品名称进行分类,从而可获得不同的商品编码;同时参考发票中填写的商品编码,如此针对一条发票中的商品名称进行分类时,至少可获得三个分类结果,按照本申请提供的方案可选择所有分类结果中正确率最高的分类结果,作为当前商品名称的分类结果。其中,商品编码为商品名称所属类别对应的类别编码,因此确定商品名称所属的商品编码,即相当于确定了商品名称所属的类别,也就是获得了商品名称的分类结果。在本申请中,若目标商品编码符合商品编码格式,则当第二商品编码为多个,且第一商品编码、第二商品编码和目标商品编码中存在相同商品编码时,将相同商品编码添加至目标集合,并叠加目标集合中的每个商品编码对应的权重值,获得叠加权重值;将最大叠加权重值对应的商品编码确定为目标商品名称所属的商品编码。可见本申请利用预设核心词库和预设商品编码库分类发票中的商品名称,可提高商品名称的分类效率和准确率;同时,还无需占用较多的计算机资源,从而节约了计算机资源和分类成本。
相应地,本申请提供的一种商品名称分类装置、设备及可读存储介质,也同样具有上述技术效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的第一种商品名称分类方法流程图;
图2为本申请公开的第二种商品名称分类方法流程图;
图3为本申请公开的第三种商品名称分类方法流程图;
图4为本申请公开的一种商品名称分类装置示意图;
图5为本申请公开的一种商品名称分类设备示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,深度学习方法对发票中的商品名称进行分类,会降低商品名称的分类效率和准确率,还会占用较多的计算机资源。为此,本申请提供了一种商品名称分类方案,能够提高商品名称的分类效率和准确率,节约计算机资源和分类成本。
参见图1所示,本申请实施例公开了第一种商品名称分类方法,包括:
S101、获取目标发票中的目标商品名称和目标商品编码;
S102、利用预设核心词库对目标商品名称进行分类,获得第一商品编码;
其中,预设核心词库存储有多个商品名称,以及每个商品名称对应的关键词,关键词至少包括:商品编码、计量单位和单价。
具体的,预设核心词库存储的某个商品名称,以及其对应的关键词可参见表1。在表1中,核心词即为商品名称;核心词唯一编号为商品名称标识号码,以便于区分预设核心词库中的不同商品名称;核心词常用单位为当前商品的常用计量单位。
表1
S103、利用预设商品编码库对目标商品名称进行分类,获得第二商品编码;
其中,预设商品编码库存储有多个商品名称,以及每个商品名称对应的商品编码。
需要说明的是,针对每个商品名称,预设商品编码库中至少存储有一个对应的商品编码。
S104、若目标商品编码符合商品编码格式,则当第二商品编码为多个,且第一商品编码、第二商品编码和目标商品编码中存在相同商品编码时,将相同商品编码添加至目标集合;
S105、叠加目标集合中的每个商品编码对应的权重值,获得叠加权重值;将最大叠加权重值对应的商品编码确定为目标商品名称所属的商品编码。
在一种具体实施方式中,若目标商品编码符合商品编码格式,则当第一商品编码、第二商品编码和目标商品编码均不同时,将第一商品编码确定为目标商品名称所属的商品编码。
在本实施例中,若最大叠加权重值为多个,则执行将第一商品编码确定为目标商品名称所属的商品编码的步骤。
需要说明的是,第一商品编码、第二商品编码以及目标商品编码均对应有权重值。其中,第一商品编码和目标商品编码对应的权重值均为固定值,且认为第一商品编码的准确性最高,因此第一商品编码对应的权重值应不下于目标商品编码对应的权重值。第二商品编码可以有多个,每个第二商品编码对应一个权重值,各个第二商品编码对应的权重值之和为1。
例如:第一商品编码和目标商品编码对应的权重值可以均设置为1,假设第二商品编码有3个,且这3个第二商品编码分别为:第二商品编码A、第二商品编码B、第二商品编码C,其分别对应的权重值为:0.2,0.2,0.6。若目标商品编码符合商品编码格式,则输出目标商品编码,即认为目标发票中填写的商品编码具有参考意义。目标商品编码不符合商品编码格式的情况至少包括:缺字符和多字符。
当第一商品编码、第二商品编码以及目标商品编码均不相同时,则认为预设核心词库输出的第一商品编码的准确率最高,因此将第一商品编码确定为目标商品名称所属的商品编码。
当第一商品编码、第二商品编码和目标商品编码中存在相同商品编码时,将相同商品编码添加至目标集合。例如:第一商品编码和第二商品编码A相同,目标商品编码和第二商品编码B相同,那么可以获得两个目标集合,且这两个目标集合对应的叠加权重值均为1.2,此时认为预设核心词库输出的第一商品编码的准确率最高,因此将第一商品编码确定为目标商品名称所属的商品编码。在此示例中,当最大叠加权重值为多个,其中必然有一个最大叠加权重值与第一商品编码相对应,因此可直接将第一商品编码确定为目标商品名称所属的商品编码。
若第一商品编码和第二商品编码A相同,目标商品编码和第二商品编码C相同,那么可以获得两个目标集合,其分别对应的叠加权重值均为1.2和1.6,此时将1.6对应的商品编码确定为目标商品名称所属的商品编码。
本实施例中的商品编码可参见《商品和服务税收分类编码表》,其为智能赋码项目的分类目标,逐层分解为6篇、42类、117章、705节、2799条、3184款、3535项等,共有4205个类别,每个类别都对应着一个编码。
可见,本实施例能够利用预设核心词库和预设商品编码库分别对发票中的商品名称进行分类,从而可获得不同的商品编码;同时参考发票中填写的商品编码,如此针对一条发票中的商品名称进行分类时,至少可获得三个分类结果,按照本申请提供的方案可选择所有分类结果中正确率最高的分类结果,作为当前商品名称的分类结果,从而可提高商品名称的分类效率和准确率;同时,还无需占用较多的计算机资源,从而节约了计算机资源和分类成本。
请参见图2,图2为图1中S102步骤的细化流程图。图1中的S102的具体实现步骤包括:
S201、对目标商品名称进行清洗,并对清洗后的目标商品名称进行分词,获得分词结果;
其中,目标商品名称为任一条发票中填写的商品名称。
S202、判断分词结果包含的目标词是否存储于预设核心词库中;若是,则执行S203;若否,则输出错误提示信息;
S203、将存储于预设核心词库中的目标词添加至第一集合;
S204、判断第一集合中的目标词是否为一个;若是,则执行S205;若否,则执行S206;
S205、将目标词在预设核心词库中对应的商品编码确定为第一商品编码;
S206、获取目标发票中的第一匹配词,第一匹配词为计量单位或单价;
S207、判断每个目标词在预设核心词库中对应的第二匹配词与第一匹配词是否相同;若是,则执行S208;若否,则执行S210;
S208、将与第一匹配词相同的第二匹配词在预设核心词库中对应的目标词添加至第二集合;
S209、判断第二集合中的目标词是否为一个;若是,则执行S205;若否,则执行S210;
S210、判断是否存在未使用过的第一匹配词;若是,则执行S211;若否,则执行S212;
S211、更换第一匹配词,并执行S207;
S212、确定不同目标词在分词结果中的排列顺序,将排列在尾部的目标词在预设核心词库中对应的商品编码确定为第一商品编码。
在图2所示的步骤中,当分词结果包含的目标词未存储于预设核心词库中,即表明核心词库中未收录分词结果包含的目标词,此时预设核心词库是无法输出相应的分类结果的,因此输出错误提示信息,此时第一商品编码为空。
当分词结果包含的目标词中的全部目标词或部分目标词能够在预设核心词库中找到,那么则将这些能够在预设核心词库中找到的目标词添加至第一集合;若第一集合中仅有一个目标词,则直接将此目标词在预设核心词库中记录的对应商品编码确定为第一商品编码;若第一集合中有多个目标词,则利用匹配词确定该选择第一集合中的哪个目标词对应的商品编码。
具体的,匹配词可以为第一集合中的目标词对应的任一个关键词,例如计量单位、单价等。若首先以计量单位进行判别,那么确定目标发票中填写的计量单位与第一集合中的目标词在预设核心词库中记录的对应计量单位是否相同,若相同,则将这些相同的计量单位对应的目标词添加至第二集合,以便利用其它匹配词进行下一步选择;若不同,则根据目标词在分词结果中的位置来确定该选择哪个目标词。
例如:若清洗后的目标商品名称为:电子计算机苹果平板电脑,那么分词结果可以为:电子计算机,苹果,平板电脑。按照图2所示的步骤,可在电子计算机,苹果,平板电脑中进行选择,以便确定第一商品编码。当利用匹配词无法确定该选择第一集合中的哪个目标词对应的商品编码,则按照目标词在分词结果中的位置进行选择,例如:电子计算机,苹果,平板电脑,则选择平板电脑在预设核心词库中记录的对应商品编码为第一商品编码。
基于上述实施例,需要说明的是,预设核心词库的构建过程包括:
基于上亿条发票数据,提取其中的商品名称、计量单位、单价、开具公式、金额等信息,并对这些信息进行清洗。清洗的目的为:去掉不必要的形容词,进行大小写字符转换等。清洗后的商品名称达6000万条,清洗后的计量单位达2000余个。
统计同一商品名称下的开具公司的数量、发票份数、总金额数、单价中位数、商品编码总份数,以及每个商品编码对应的总金额数。需要说明的是,对于同一商品名称,填写的商品编码可能是不同的,其中有正确的、也有错误的。此处的金额指商品的售价。单价中位数为同一商品、同一计量单位下的不同单价的平均值。
基于上述统计得到的数据,计算同一商品名称下,相同计量单位的发票份数与当前商品名称的发票份数的第一比值A;相同计量单位的总金额与当前商品名称的总金额的第二比值B;相同计量单位,且相同商品编码的发票份数与前商品名称的发票份数的第三比值C;相同计量单位,且相同商品编码的总金额与前商品名称的总金额的第四比值D。
对数据进行筛选。具体包括:当同一商品名称下,开具公司的数量、商品编码总份数、以及计量单位数量均大于第一阈值(如10),且第一比值A、第二比值B、第三比值C和第四比值D均大于第二阈值(如5%),那么认为当前商品名称可保留。
进一步地,设置商品名称的长度阈值(如7个字符),删除大于长度阈值的商品名称。同时,删除未写明计量单位的商品名称。
利用命名体识别和词性标注技术去除核心词库中的非货物词汇。例如:商品名称为“一”的核心词有5000多个,但其不是货物,应当去除。保留下来的商品名称即为预设核心词库中的各个核心词。
将保留下来的商品名称,以及每个商品名称对应的关键词均记录至预设核心词库,至此可获得预设核心词库。最终核心词库中共含有去重后的商品名称140816个,每个商品名称记录的关键词可参见表1。
基于上述实施例,需要说明的是,预设商品编码库的构建过程包括:
基于上亿条发票数据,提取其中的商品名称、计量单位、单价、开具公式、金额等信息,并对这些信息进行清洗。对同一商品名称下填写的商品编码进行统计,并保留前N个统计结果,并将该商品名称,以及商品名称对应的前N个商品编码存储至商品编码库,获得预设商品编码库。
例如:上亿条发票数据中,商品名称为“显示器”的有100个,其中,发票中填写的商品编码被分类为5种,各个商品编码对应的发票份数分别为:80,10,4,3,2,1。那么保留80,10,4,3,2分别对应的商品编码,并存储至预设商品编码库。
参见图3所示,本申请实施例公开了第二种商品名称分类方法,包括:
S301、获取目标发票中的目标商品名称和目标商品编码;
S302、利用预设核心词库对目标商品名称进行分类,获得第一商品编码,并执行S305;
其中,预设核心词库存储有多个商品名称,以及每个商品名称对应的关键词,关键词至少包括:商品编码、计量单位和单价,其他关键词请参见表1。
S303、利用预设商品编码库对目标商品名称进行分类,获得第二商品编码,并执行S305;
其中,预设商品编码库存储有多个商品名称,以及每个商品名称对应的商品编码。
S304、输出目标商品编码,并执行S305;
S305、判断商品编码是否错误;若是,则执行S306;若否,则执行S308;
其中,判断商品编码是否错误包括:判断第一商品编码、第二商品编码是否为空;判断目标商品编码是否符合商品编码格式。
S306,输出错误提示信息,并执行S307;
S307、利用预设深度学习模型对目标商品名称进行分类,获得第三商品编码;将第三商品编码确定为目标商品名称所属的商品编码;
S308、当第二商品编码为多个,且第一商品编码、第二商品编码和目标商品编码中存在相同商品编码时,将相同商品编码添加至目标集合;
S309、叠加目标集合中的每个商品编码对应的权重值,获得叠加权重值;将最大叠加权重值对应的商品编码确定为目标商品名称所属的商品编码。
在本实施例中,还包括:若第一商品编码为空,且第二商品编码在商品编码库中的统计频次低于预设阈值,则利用预设深度学习模型对目标商品名称进行分类,获得第三商品编码;将第三商品编码确定为目标商品名称所属的商品编码。
需要说明的是,目标发票中填写的目标商品编码仅具有参考意义,不作为最终商品编码确定的依据。因此当预设核心词库无法输出结果,且预设商品编码库也无法输出结果,但目标商品编码符合编码格式;或者当预设核心词库无法输出结果,或预设商品编码库输出的结果准确性较低时,利用深度学习模型对目标商品名称进行分类,以获得分类结果。其中,标商品名称在商品编码库中的统计频次即为上述实例中提及的“显示器”对应的“80,10,4,3,2”。
在本实施例中,预设深度学习模型对目标商品名称进行分类之前,还包括:利用预设核心词库对预设深度学习模型的训练数据进行修正,修正的具体步骤请参见图2。当按照图2所示的步骤获得第一商品编码后,用获得的第一商品编码替换当前发票中填写的商品编码,以修正当前发票中填写的商品编码。当前发票为训练数据中的任一条发票。如此可提高训练数据的准确性。当按照图2所示的步骤无法获得第一商品编码,也就是第一商品编码为空时,则从训练数据中删除当前发票。
对训练数据进行修正后,将训练数据分成训练集、验证集和测试集,用训练集对现有的TEXT CNN深度学习模型进行训练,直至获得符合条件的TEXT CNN深度学习模型。
TEXT CNN深度学习模型包括:嵌入层、卷积层、池化层和分类器。其中,嵌入层用于提取发票中的商品名称,并使其向量化并降维;卷积层用于处理商品名称包含的特征;池化层用于过滤特征;分类器用于对过滤后的特征进行分类,从而可获得分类结果。
需要说明的是,本实施例中的其他实现步骤与上述实施例相同或类似,故本实施例在此不再赘述。
由上可见,本实施例能够利用预设核心词库和预设商品编码库分别对发票中的商品名称进行分类,从而可获得不同的商品编码;同时参考发票中填写的商品编码,如此针对一条发票中的商品名称进行分类时,至少可获得三个分类结果,按照本申请提供的方案可选择所有分类结果中正确率最高的分类结果,作为当前商品名称的分类结果,从而可提高商品名称的分类效率和准确率;同时,还无需占用较多的计算机资源,从而节约了计算机资源和分类成本。
下面对本申请实施例提供的一种商品名称分类装置进行介绍,下文描述的一种商品名称分类装置与上文描述的一种商品名称分类方法可以相互参照。
参见图4所示,本申请实施例公开了一种商品名称分类装置,包括:
获取模块401,用于获取目标发票中的目标商品名称和目标商品编码;
第一分类模块402,用于利用预设核心词库对目标商品名称进行分类,获得第一商品编码;预设核心词库存储有多个商品名称,以及每个商品名称对应的关键词,关键词至少包括:商品编码、计量单位和单价;
第二分类模块403,用于利用预设商品编码库对目标商品名称进行分类,获得第二商品编码;预设商品编码库存储有多个商品名称,以及每个商品名称对应的商品编码;
确定模块404,用于若目标商品编码符合商品编码格式,则当第二商品编码为多个,且第一商品编码、第二商品编码和目标商品编码中存在相同商品编码时,将相同商品编码添加至目标集合,并叠加目标集合中的每个商品编码对应的权重值,获得叠加权重值;将最大叠加权重值对应的商品编码确定为目标商品名称所属的商品编码。
在一种具体实施方式中,还包括:
第一执行模块,用于若目标商品编码符合商品编码格式,则当第一商品编码、第二商品编码和目标商品编码均不同时,将第一商品编码确定为目标商品名称所属的商品编码。
在一种具体实施方式中,还包括:
第二执行模块,用于若最大叠加权重值为多个,则执行将第一商品编码确定为目标商品名称所属的商品编码的步骤。
在一种具体实施方式中,第一分类模块包括:
清洗分词单元,用于对目标商品名称进行清洗,并对清洗后的目标商品名称进行分词,获得分词结果;
第一判断单元,用于判断分词结果包含的目标词是否存储于预设核心词库中;
第一确定单元,用于若判断分词结果包含的目标词存储于预设核心词库中,则将存储于预设核心词库中的目标词添加至第一集合,当第一集合中的目标词仅有一个时,将目标词在预设核心词库中对应的商品编码确定为第一商品编码;
第二判断单元,用于当第一集合中的目标词有多个时,获取目标发票中的第一匹配词,第一匹配词至少包括计量单位和单价;判断每个目标词在预设核心词库中对应的第二匹配词与第一匹配词是否相同;若是,则将与第一匹配词相同的第二匹配词在预设核心词库中对应的目标词添加至第二集合;
第二确定单元,用于当第二集合中的目标词仅有一个时,将目标词在预设核心词库中对应的商品编码确定为第一商品编码;
执行单元,用于当第二集合中的目标词有多个,且存在未使用过的第一匹配词,则更换第一匹配词,并执行判断每个目标词在预设核心词库中对应的第二匹配词与第一匹配词是否相同;若是,则将与第一匹配词相同的第二匹配词在预设核心词库中对应的目标词添加至第二集合;当第二集合中的目标词仅有一个时,将目标词在预设核心词库中对应的商品编码确定为第一商品编码的步骤。
在一种具体实施方式中,第一分类模块还包括:
第三确定单元,用于当第二集合中的目标词有多个,且不存在未使用过的第一匹配词时,确定第二集合中的不同目标词在分词结果中的排列顺序,将排列在尾部的目标词在预设核心词库中对应的商品编码确定为第一商品编码。
在一种具体实施方式中,还包括:
第三分类模块,用于若第一商品编码为空,且第二商品编码在商品编码库中的统计频次低于预设阈值,则利用预设深度学习模型对目标商品名称进行分类,获得第三商品编码;将第三商品编码确定为目标商品名称所属的商品编码。
在一种具体实施方式中,还包括:
修正模块,用于利用预设核心词库对预设深度学习模型的训练数据进行修正。
其中,关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本实施例提供了一种商品名称分类装置,该装置可提高商品名称的分类效率和准确率;同时,还无需占用较多的计算机资源,从而节约了计算机资源和分类成本。
下面对本申请实施例提供的一种商品名称分类设备进行介绍,下文描述的一种商品名称分类设备与上文描述的一种商品名称分类方法及装置可以相互参照。
参见图5所示,本申请实施例公开了一种商品名称分类设备,包括:
存储器501,用于保存计算机程序;
处理器502,用于执行所述计算机程序,以实现上述任意实施例公开的方法。
下面对本申请实施例提供的一种可读存储介质进行介绍,下文描述的一种可读存储介质与上文描述的一种商品名称分类方法、装置及设备可以相互参照。
一种可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述实施例公开的商品名称分类方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本申请涉及的“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法或设备固有的其它步骤或单元。
需要说明的是,在本申请中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的可读存储介质中。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种商品名称分类方法,其特征在于,包括:
获取目标发票中的目标商品名称和目标商品编码;
利用预设核心词库对所述目标商品名称进行分类,获得第一商品编码;所述预设核心词库存储有多个商品名称,以及每个商品名称对应的关键词,所述关键词至少包括:商品编码、计量单位和单价;
利用预设商品编码库对所述目标商品名称进行分类,获得第二商品编码;所述预设商品编码库存储有多个商品名称,以及每个商品名称对应的商品编码;
若所述目标商品编码符合商品编码格式,则当所述第二商品编码为多个,且所述第一商品编码、所述第二商品编码和所述目标商品编码中存在相同商品编码时,将相同商品编码添加至目标集合,并叠加所述目标集合中的每个商品编码对应的权重值,获得叠加权重值;将最大叠加权重值对应的商品编码确定为所述目标商品名称所属的商品编码。
2.根据权利要求1所述的商品名称分类方法,其特征在于,还包括:
若所述目标商品编码符合商品编码格式,则当所述第一商品编码、所述第二商品编码和所述目标商品编码均不同时,将所述第一商品编码确定为所述目标商品名称所属的商品编码。
3.根据权利要求2所述的商品名称分类方法,其特征在于,还包括:
若所述最大叠加权重值为多个,则执行所述将所述第一商品编码确定为所述目标商品名称所属的商品编码的步骤。
4.根据权利要求1至3任一项所述的商品名称分类方法,其特征在于,所述利用预设核心词库对所述目标商品名称进行分类,获得第一商品编码,包括:
对所述目标商品名称进行清洗,并对清洗后的目标商品名称进行分词,获得分词结果;
判断所述分词结果包含的目标词是否存储于所述预设核心词库中;
若是,则将存储于所述预设核心词库中的所述目标词添加至第一集合,当所述第一集合中的目标词仅有一个时,将所述目标词在所述预设核心词库中对应的商品编码确定为所述第一商品编码;
当所述第一集合中的目标词有多个时,获取所述目标发票中的第一匹配词,所述第一匹配词至少包括计量单位和单价;判断每个目标词在所述预设核心词库中对应的第二匹配词与所述第一匹配词是否相同;若是,则将与所述第一匹配词相同的所述第二匹配词在所述预设核心词库中对应的目标词添加至第二集合;
当所述第二集合中的目标词仅有一个时,将所述目标词在所述预设核心词库中对应的商品编码确定为所述第一商品编码;
当所述第二集合中的目标词有多个,且存在未使用过的第一匹配词,则更换所述第一匹配词,并执行所述判断每个目标词在所述预设核心词库中对应的第二匹配词与所述第一匹配词是否相同;若是,则将与所述第一匹配词相同的所述第二匹配词在所述预设核心词库中对应的目标词添加至第二集合;当所述第二集合中的目标词仅有一个时,将所述目标词在所述预设核心词库中对应的商品编码确定为所述第一商品编码的步骤。
5.根据权利要求4所述的商品名称分类方法,其特征在于,还包括:
当所述第二集合中的目标词有多个,且不存在未使用过的第一匹配词时,确定所述第二集合中的不同目标词在所述分词结果中的排列顺序,将排列在尾部的目标词在所述预设核心词库中对应的商品编码确定为所述第一商品编码。
6.根据权利要求1至3任一项所述的商品名称分类方法,其特征在于,还包括:
若所述第一商品编码为空,且所述第二商品编码在所述商品编码库中的统计频次低于预设阈值,则利用预设深度学习模型对所述目标商品名称进行分类,获得第三商品编码;将所述第三商品编码确定为所述目标商品名称所属的商品编码。
7.根据权利要求6所述的商品名称分类方法,其特征在于,还包括:
利用所述预设核心词库对所述预设深度学习模型的训练数据进行修正。
8.一种商品名称分类装置,其特征在于,包括:
获取模块,用于获取目标发票中的目标商品名称和目标商品编码;
第一分类模块,用于利用预设核心词库对所述目标商品名称进行分类,获得第一商品编码;所述预设核心词库存储有多个商品名称,以及每个商品名称对应的关键词,所述关键词至少包括:商品编码、计量单位和单价;
第二分类模块,用于利用预设商品编码库对所述目标商品名称进行分类,获得第二商品编码;所述预设商品编码库存储有多个商品名称,以及每个商品名称对应的商品编码;
确定模块,用于若所述目标商品编码符合商品编码格式,则当所述第二商品编码为多个,且所述第一商品编码、所述第二商品编码和所述目标商品编码中存在相同商品编码时,将相同商品编码添加至目标集合,并叠加所述目标集合中的每个商品编码对应的权重值,获得叠加权重值;将最大叠加权重值对应的商品编码确定为所述目标商品名称所属的商品编码。
9.一种商品名称分类设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至7任一项所述的商品名称分类方法。
10.一种可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的商品名称分类方法。
CN201910893763.6A 2019-09-20 2019-09-20 一种商品名称分类方法、装置、设备及可读存储介质 Active CN110597995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910893763.6A CN110597995B (zh) 2019-09-20 2019-09-20 一种商品名称分类方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910893763.6A CN110597995B (zh) 2019-09-20 2019-09-20 一种商品名称分类方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110597995A true CN110597995A (zh) 2019-12-20
CN110597995B CN110597995B (zh) 2022-03-11

Family

ID=68861859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910893763.6A Active CN110597995B (zh) 2019-09-20 2019-09-20 一种商品名称分类方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110597995B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325025A (zh) * 2020-02-03 2020-06-23 口口相传(北京)网络技术有限公司 店铺名称挖掘方法及装置
CN111695979A (zh) * 2020-06-18 2020-09-22 税友软件集团股份有限公司 一种原材料与成品的关系分析方法、装置及设备
CN111967246A (zh) * 2020-07-30 2020-11-20 湖南大学 一种购物票据识别结果纠错方法
CN112348604A (zh) * 2020-11-26 2021-02-09 税友软件集团股份有限公司 发票商品编码赋值方法、系统、装置及可读存储介质
CN112418652A (zh) * 2020-11-19 2021-02-26 税友软件集团股份有限公司 一种风险识别方法及相关装置
CN112767081A (zh) * 2021-01-19 2021-05-07 广州新丝路信息科技有限公司 一种跨境保税仓商品分类方法及装置
TWI747674B (zh) * 2020-02-18 2021-11-21 南韓商韓領有限公司 基於人工智慧的將產品分類的電腦實行系統以及使用人工智慧對產品進行分類的方法
CN114219038A (zh) * 2021-12-17 2022-03-22 税友信息技术有限公司 一种发票商品名称分类方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095759A (zh) * 2016-06-20 2016-11-09 西安交通大学 一种基于启发式规则的发票货物归类方法
CN107704892A (zh) * 2017-11-07 2018-02-16 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及系统
CN109871861A (zh) * 2018-12-27 2019-06-11 航天信息股份有限公司 一种用于为目标数据提供编码的系统及方法
CN110019404A (zh) * 2017-12-27 2019-07-16 航天信息股份有限公司 一种确定商品的推荐税收分类编码的系统和方法
CN110175235A (zh) * 2019-04-23 2019-08-27 苏宁易购集团股份有限公司 基于神经网络的智能商品税分类编码方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095759A (zh) * 2016-06-20 2016-11-09 西安交通大学 一种基于启发式规则的发票货物归类方法
CN107704892A (zh) * 2017-11-07 2018-02-16 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及系统
CN110019404A (zh) * 2017-12-27 2019-07-16 航天信息股份有限公司 一种确定商品的推荐税收分类编码的系统和方法
CN109871861A (zh) * 2018-12-27 2019-06-11 航天信息股份有限公司 一种用于为目标数据提供编码的系统及方法
CN110175235A (zh) * 2019-04-23 2019-08-27 苏宁易购集团股份有限公司 基于神经网络的智能商品税分类编码方法及系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325025A (zh) * 2020-02-03 2020-06-23 口口相传(北京)网络技术有限公司 店铺名称挖掘方法及装置
CN111325025B (zh) * 2020-02-03 2023-04-07 口口相传(北京)网络技术有限公司 店铺名称挖掘方法及装置
TWI747674B (zh) * 2020-02-18 2021-11-21 南韓商韓領有限公司 基於人工智慧的將產品分類的電腦實行系統以及使用人工智慧對產品進行分類的方法
CN111695979A (zh) * 2020-06-18 2020-09-22 税友软件集团股份有限公司 一种原材料与成品的关系分析方法、装置及设备
CN111967246A (zh) * 2020-07-30 2020-11-20 湖南大学 一种购物票据识别结果纠错方法
CN112418652A (zh) * 2020-11-19 2021-02-26 税友软件集团股份有限公司 一种风险识别方法及相关装置
CN112418652B (zh) * 2020-11-19 2024-01-30 税友软件集团股份有限公司 一种风险识别方法及相关装置
CN112348604A (zh) * 2020-11-26 2021-02-09 税友软件集团股份有限公司 发票商品编码赋值方法、系统、装置及可读存储介质
CN112348604B (zh) * 2020-11-26 2023-11-17 税友软件集团股份有限公司 发票商品编码赋值方法、系统、装置及可读存储介质
CN112767081A (zh) * 2021-01-19 2021-05-07 广州新丝路信息科技有限公司 一种跨境保税仓商品分类方法及装置
CN114219038A (zh) * 2021-12-17 2022-03-22 税友信息技术有限公司 一种发票商品名称分类方法及装置

Also Published As

Publication number Publication date
CN110597995B (zh) 2022-03-11

Similar Documents

Publication Publication Date Title
CN110597995B (zh) 一种商品名称分类方法、装置、设备及可读存储介质
CN107945024B (zh) 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质
CN109598517B (zh) 商品通关处理、对象的处理及其类别预测方法和装置
CN109388675A (zh) 数据分析方法、装置、计算机设备及存储介质
EP3591539A1 (en) Parsing unstructured information for conversion into structured data
CN109858036A (zh) 一种文书划分方法及装置
US11256760B1 (en) Region adjacent subgraph isomorphism for layout clustering in document images
CN109815480B (zh) 一种数据处理方法和装置、及存储介质
CN108470065B (zh) 一种异常评论文本的确定方法及装置
CN110378569A (zh) 产业关系链构建方法、装置、设备及存储介质
CN110874398B (zh) 违禁词处理方法、装置、电子设备及存储介质
CN110647845A (zh) 一种发票数据识别装置、相关方法及相关装置
CN109409091B (zh) 检测Web页面的方法、装置、设备以及计算机存储介质
CN116933130A (zh) 一种基于大数据的企业行业分类方法、系统、设备及介质
CN111340139A (zh) 一种图像内容复杂度的判别方法及装置
CN113705201B (zh) 基于文本的事件概率预测评估算法、电子设备及存储介质
JP2002032566A (ja) リスク分析システム及びその方法、保険設計システム及びその方法、保険約款作成方法、並びにコンピュータ上で動作するリスク分析プログラム、保険設計プログラム又は保険約款作成プログラムを記録した記録媒体
CN115017894A (zh) 一种舆情风险识别方法及装置
CN113204710A (zh) 一种舆情分析方法、装置、终端设备及存储介质
CN110795537B (zh) 一种确定目标商品的改进策略的方法、装置、设备和介质
CN114493250A (zh) 一种异常行为检测方法、计算设备及可读存储介质
CN114443803A (zh) 一种文本信息挖掘方法、装置、电子设备和存储介质
CN113239031A (zh) 一种大数据去噪处理方法
CN113918709A (zh) 一种行业分类模型训练方法、分类方法与装置
CN117132244B (zh) 用于智慧合规管理系统的分类处理方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant