CN112529676A

CN112529676A - 一种基于社会级词向量进行税收编码末级分类的方法

Info

Publication number: CN112529676A
Application number: CN202011526181.3A
Authority: CN
Inventors: 尹明君; 薛鑫
Original assignee: CHANJET INFORMATION TECHNOLOGY CO LTD
Current assignee: CHANJET INFORMATION TECHNOLOGY CO LTD
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-03-19

Abstract

本发明提供了一种基于社会级词向量进行税收编码末级分类的方法，包括：第一步骤：选取社会级词向量模型；第二步骤：利用选取的社会级词向量模型生成分词专用词典；第三步骤：利用税收分类编码末级分类生成末级特征库；第四步骤：利用末级特征库计算每个商品的分数。

Description

一种基于社会级词向量进行税收编码末级分类的方法

技术领域

本发明涉及税收领域，具体涉及一种基于社会级词向量进行税收编码末级分类的方法。

背景技术

每种商品都有对应的税收分类编码，但是税收分类编码分类多达3000多种，如何从3000多种分类编码中确定某一商品的正确税收分类编码是一件非常困难的事情。单靠人工选择，费时费力的同时，准确率也不高。因此，商品匹配税收分类编码这个问题需要有效解决。

发明内容

本发明所要解决的技术问题是针对现有技术中存在上述缺陷，提供一种能够利用社会级词向量解决少标注多分类问题的方法。

根据本发明，提供了一种基于社会级词向量进行税收编码末级分类的方法，包括：

第一步骤：选取社会级词向量模型；

第二步骤：利用选取的社会级词向量模型生成分词专用词典；

第三步骤：利用税收分类编码末级分类生成末级特征库；

第四步骤：利用末级特征库计算每个商品的分数。

优选地，所述的基于社会级词向量进行税收编码末级分类的方法还包括第五步骤：对计算的分数进行优化；其中，相对于在类别里的出现的次数少的特征，使得在类别里的出现的次数多的特征分数减小。

优选地，选取百度词向量模型作为社会级词向量模型。

优选地，选取腾讯词向量模型作为社会级词向量模型。

优选地，在第二步骤中，对于商品库中的商品进行分词，根据社会级词向量模型选取有词向量的词，并且依据选取的有词向量的各词出现的频次进行依次排序，排序后的序列作为分词专用词典。

优选地，在第三步骤中，针对税收分类编码的末级分类提取特征，并利用分词专用词典对提取的特征进行分词后赋予权重，生成末级特征库。

优选地，在第四步骤中，针对多个商品分别与末级特征库中的末级特征分别进行笛卡尔积的相似度计算，以得到每个商品的分数。

优选地，分词专用词典中的词语所属分类有可能不同于缺少分词专用词典进行分词的分类结果。

本发明的方法利用社会级词向量进行语义相似度计算，解决少标注多分类问题，并且提高准确率；利用该方法，选取评分最大的前五个税收分类作为分类结果，经测试其准确率可以高达90％。

附图说明

结合附图，并通过参考下面的详细描述，将会更容易地对本发明有更完整的理解并且更容易地理解其伴随的优点和特征，其中：

图1示意性地示出了根据本发明优选实施例的基于社会级词向量进行税收编码末级分类的方法的示意流程图。

图2示意性地示出了根据本发明优选实施例的基于社会级词向量进行税收编码末级分类的方法的计算示意。

需要说明的是，附图用于说明本发明，而非限制本发明。注意，表示结构的附图可能并非按比例绘制。并且，附图中，相同或者类似的元件标有相同或者类似的标号。

具体实施方式

为了使本发明的内容更加清楚和易懂，下面结合具体实施例和附图对本发明的内容进行详细描述。

本申请的发明人发现，税收分类编码问题可归结为一种少标注多分类的问题，因此解决了少标注多分类问题的同时，商品匹配税收分类编码问题自然就解决了。

对于缺少标注，并且分类较多的文本，由于其干扰大，导致很难对其进行准确分类。比如税收编码分类编码问题，由于标注文本较少，而分类数目达3000种以上，导致分类极其困难。由于社会级词向量具有聚类特性，可以将一类物体聚在一起，因此可以有效解决少标注的问题，因此本发明针对标注少、分类多的情况，采用社会级词向量与税收分类末级特征进行语义相似度计算，得到分类结果，从而解决少标注多分类问题。

其中，词向量(Word embedding)，是自然语言处理(NLP)中一种语言模型，将一个词映射到高维空间的一种模型。

如图1所示，根据本发明优选实施例的基于社会级词向量进行税收编码末级分类的方法包括：

第一步骤S1：选取社会级词向量模型；

由于社会级词向量具有聚类特性，因此选择一个特征词相当于选择了一个词团，从而可以加速分类算法。例如，在具体实施例中，本发明分别选取百度词向量模型和腾讯词向量模型，作为社会级词向量模型，进行后续操作。

第二步骤S2：利用选取的社会级词向量模型生成分词专用词典；

例如，分词专用词典中的词语所属分类有可能不同于缺少分词专用词典进行分词的分类结果。

具体地，在第二步骤S2中，对于商品库中的商品进行分词，根据社会级词向量模型选取有词向量的词，并且依据选取的有词向量的各词出现的频次进行依次排序，排序后的序列作为分词专用词典。例如，“苹果笔记本”，普通分词后，得到“苹果”和“笔记本”，分别属于水果和书本类，但是实际分类应该划分为计算机整机类，因此将“苹果笔记本”作为一个专用词语，可以准确定位到其分类。

第三步骤S3：利用税收分类编码末级分类生成末级特征库；

在第三步骤S3中，针对税收分类编码的末级分类提取特征，并利用分词专用词典对提取的特征进行分词后赋予权重(具体地，基于排序赋予权重)，生成末级特征库。例如，“苹果笔记本”作为“电子计算机整机”类别中的一个特征，并赋权重为5，这样如果商品中出现“苹果笔记本”，就可以准确划分到“电子计算机整机”的类别中。

第四步骤S4：利用末级特征库计算每个商品的分数；

在具体实施例中，在第四步骤S4中，可以同时针对多个商品分别与末级特征库中的末级特征分别进行笛卡尔积的相似度计算，以得到每个商品的分数。例如如图2所示，“森海塞尔专业录音监听耳机黑色”经过分词得到“森海塞尔专业录音监听耳机黑色”六个词语，将这六个词语分别与所有末级特征进行语义相似度计算，分别得到每个词对应的分数最高的top4末级特征，对于得到的24个末级特征，得到分数最高的一种末级分类作为该商品对应的末级分类。

第五步骤S5：对计算的分数进行优化。

在具体实施例中，由于一个特征可能出现在多个类别里，那这个特征是弱特征，需要将其权重降低，相反，一个特征出现在类别里的次数少，那么权重相应提高，这样可以防止商品名称与特征的过拟合现象。由此，相对于在类别里的出现的次数少的特征，使得在类别里的出现的次数多的特征分数减小。

此外，需要说明的是，除非特别指出，否则说明书中的术语“第一”、“第二”、“第三”等描述仅仅用于区分说明书中的各个组件、元素、步骤等，而不是用于表示各个组件、元素、步骤之间的逻辑关系或者顺序关系等。

可以理解的是，虽然本发明已以较佳实施例披露如上，然而上述实施例并非用以限定本发明。对于任何熟悉本领域的技术人员而言，在不脱离本发明技术方案范围情况下，都可利用上述揭示的技术内容对本发明技术方案作出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种基于社会级词向量进行税收编码末级分类的方法，其特征在于包括：

第一步骤：选取社会级词向量模型；

第三步骤：利用税收分类编码末级分类生成末级特征库；

第四步骤：利用末级特征库计算每个商品的分数。

2.根据权利要求1所述的基于社会级词向量进行税收编码末级分类的方法，其特征在于还包括：

第五步骤：对计算的分数进行优化；其中，相对于在类别里的出现的次数少的特征，使得在类别里的出现的次数多的特征分数减小。

3.根据权利要求1或2所述的基于社会级词向量进行税收编码末级分类的方法，其特征在于，选取百度词向量模型作为社会级词向量模型。

4.根据权利要求1或2所述的基于社会级词向量进行税收编码末级分类的方法，其特征在于，选取腾讯词向量模型作为社会级词向量模型。

5.根据权利要求1或2所述的基于社会级词向量进行税收编码末级分类的方法，其特征在于，在第二步骤中，对于商品库中的商品进行分词，根据社会级词向量模型选取有词向量的词，并且依据选取的有词向量的各词出现的频次进行依次排序，排序后的序列作为分词专用词典。

6.根据权利要求1或2所述的基于社会级词向量进行税收编码末级分类的方法，其特征在于，在第三步骤中，针对税收分类编码的末级分类提取特征，并利用分词专用词典对提取的特征进行分词后赋予权重，生成末级特征库。

7.根据权利要求1或2所述的基于社会级词向量进行税收编码末级分类的方法，其特征在于，在第四步骤中，针对多个商品分别与末级特征库中的末级特征分别进行笛卡尔积的相似度计算，以得到每个商品的分数。

8.根据权利要求1或2所述的基于社会级词向量进行税收编码末级分类的方法，其特征在于，分词专用词典中的词语所属分类有可能不同于缺少分词专用词典进行分词的分类结果。