CN107862046B

CN107862046B - 一种基于短文本相似度的税务商品编码分类方法及系统

Info

Publication number: CN107862046B
Application number: CN201711085221.3A
Authority: CN
Inventors: 庞胜民; 王涛; 孙科武; 林文辉; 高哲; 张�浩
Original assignee: NINGBO AISINO Co Ltd; Aisino Corp
Current assignee: Ningbo Aisino Co., Ltd.; Aisino Corp
Priority date: 2017-11-07
Filing date: 2017-11-07
Publication date: 2019-03-26
Anticipated expiration: 2037-11-07
Also published as: CN107862046A

Abstract

本发明公开了一种基于短文本相似度的税务商品编码分类方法及系统，所述方法包括：获取样本数据；对样本数据进行分词；获得扩展词；计算KL差异熵，以获得待分类税务商品编码与已有类别之间的差异度，根据所述差异度完成所述分类。本发明对商品文本信息进行具体分类，分为本体词和扩展词，本体词通过应用先进的分词技术对商品的短文本进行中文分词获得，扩展词集合包括索引词和缩略词，扩展词利用外部搜索引擎获得。本发明扩充了待分类词语集合后，利用KL差别熵计算模型来计算待分类词语已有类别之间的差异度，改进了该计算模型，同时引入了平滑参数，在计算其条件词频与反词频、条件概率等值时，防止分母出现0的情况，此外也提高了相似度计算的效率。

Description

一种基于短文本相似度的税务商品编码分类方法及系统

技术领域

本发明涉及电子商务平台技术领域，尤其涉及一种基于短文本相似度的税务商品编码分类方法及系统。

背景技术

随着“互联网+”行动的战略部署，互联网在税务领域也发挥着巨大的作用。应用先进的互联网技术，打造全天候、全方位、全覆盖、全流程、全联通的智能的税务系统，是一件惠及企业民生的重要大事。在税务改革过程中，开票是一个关键的环节，据统计数据表明，过去五年中仅天津积累的票务数据达10亿条，达7TB，税务数据的爆炸式增加，一方面带来了信息的积累，给未来的数据分析带来了机遇，一方面也带来了挑战。

2016年国家税务总局提出在开票过程中，必须指定商品类别，并公布了4000余种商品的详细分类。通知要求必须严格按照商品编码分类要求对商品开票，做到商品实际类别与发票显示类型一致。由于商品种类规模巨大，如果通过人力对商品的种类进行浏览是不现实的。那么如何高效准确的对商品进行自动分类是一个关键问题，即如何通过商品名称确定其归属的商品类别。通过税务商品名称可知商品名称呈现典型的短文本特质，语义信息稀疏，上下文信息不足导致语义敏感性较大。商品已有的类别信息也是由一些词语构成的稀疏词语集合，通过经典的依赖概率统计的方式是行不通的。

首先是词频问题。这些方法不但依赖待分类文本的词频也依赖已有的训练文本的词频，而商品名称中出现的词频几乎是1，在训练数据中的词频也是有限的，如果待分类文本与已有历史信息没有共同的词，那么他们之间的相似度会非常小，这被称为字典不匹配问题。此外，还有上下文敏感性问题，在以后的历史信息中，一个词通过语义环境指代一个意思，而待分类短文本因为缺少上下文环境提供的意义是有限的，例如“苹果电脑”和“苹果pie”，这两个词虽然存在共同的词，但是实际上意义完全不一样。在使用经典的基于词频的方法上会导致这两个词存在相似性。

发明内容

为解决以上现有技术中存在的问题，本发明着重通过外部知识挖掘商品名称的短文本与类别短文本之间的相似度计算，包括简单的词法分析，词语缩略处理，文本上下文扩展等技术来计算短文本之间的相似度。

本发明探索利用外部信息检索技术计算短文本相似度，提出短文本相似度计算方法的同时，也提供短文本的上下文语义信息扩展及词语的分词、缩略词等词法分析的处理。

具体的，一种基于短文本相似度的税务商品编码分类方法，包括：

步骤一：获取样本数据；

步骤二：对样本数据进行分词；

步骤三：获得扩展词；

步骤四：计算KL差异熵，以获得待分类税务商品编码与已有商品编码类别之间的差异度，根据所述差异度完成所述分类。

优选的，所述步骤三中的所述扩展词包括索引词和缩略词。

优选的，所述步骤四中的计算KL差异熵的具体过程如下：

(1)使用KL散度来描述待分类商品名称θ_q和已有商品类别θ_c之间的关系，如公式1所示：

其中V是用到的字典，H是信息熵；

W:商品名称经过分词后的词；

C:是经过扩展后的所有类别集合；

θ_q:商品名称；

θ_c：商品类别；

P(w|θ_q)：某个词在商品名称中的概率；

P(w|θ_c)：该词在所有类别数据集中出现的概率；

(2)使用步骤二中分词后获得的本体词来计算P(w|θ_q)，计算过程如公式2所示：

其中，QS是商品名称经过分词后的短文本词语集合，tf_w,QS是词语w在QS中的词频；

(3)对公式2进行改进，如公式3所示：

其中QE是扩展后的词集合，包括本体词的扩展词和缩略词，μ_Q是平滑系数。

更优选的，所述步骤四中的计算KL差异熵的具体过程进一步包括如下步骤：

(4)计算P(w|θ_c)

其中，CE是经过扩展的类别候选集，μ_c是平滑系数。

更优选的，采用期望交叉熵最小原则进行μ的迭代，具体步骤如下：

(1)给μ_i赋初始值，假设μ_i＝0.5

(2)计算1-μ_i和μ_i的期望

P_JM(w|C)是经过平滑处理后的概率；

(3)计算μ_i+1

(4)若|μ_i-μ_i+1|>ε，则执行返回步骤(2)，反之，则终止迭代；其中，ε＝0.01。

优选的，所述样本数据是待分类的税务商品编码名称。

根据本发明的另一个方面，还提供了一种基于短文本相似度的税务商品编码分类系统，包括顺序连接的如下模块：

样本数据获取模块，用于获取样本数据；

分词模块，用于对样本数据进行分词；

扩展模块，用于获得扩展词；

KL差异熵计算模块，用于计算KL差异熵，以获得待分类税务商品编码与已有商品编码类别之间的差异度，根据所述差异度完成所述分类。

本发明具有如下优点：本发明对商品文本信息进行具体分类，分为本体词和扩展词，本体词通过应用先进的分词技术对商品的短文本进行中文分词获得，扩展词集合包括索引词和缩略词，扩展词利用外部搜索引擎获得。本发明扩充了待分类词语集合后，利用KL差别熵计算模型来计算待分类词语已有类别之间的差异度，改进了该计算模型，同时引入了平滑参数，在计算其条件词频与反词频、条件概率等值时，防止分母出现0的情况，此外也提高了相似度计算的效率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

附图1示出了根据本发明实施方式的基于短文本相似度的税务商品编码分类方法流程图。

附图2示出了根据本发明实施方式的基于短文本相似度的税务商品编码分类系统结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明主要包括两个过程，文本生成过程和相似度计算过程，文本生成过程是相似度计算的基础，目的是对短文本进行词语扩展。

本发明对商品文本信息进行具体分类，分为本体词和扩展词，本体词通过应用先进的分词技术对商品的短文本进行中文分词获得，扩展词集合包括索引词和缩略词，扩展词利用外部搜索引擎获得。本发明扩充了待分类词语集合后，利用KL差别熵计算模型来计算待分类词语已有类别之间的差异度，改进了该计算模型，同时引入了平滑参数，在计算其条件词频与反词频、条件概率等值时，防止分母出现0的情况，此外也提高了相似度计算的效率。

具体的，如图1所示，本发明提供一种基于短文本相似度的税务商品编码分类方法，包括如下步骤：

S1、获得样本数据；所述样本数据就是待分类的税务商品编码名称。

S2、对样本数据进行分词；对样本数据包含的商品名称使用分词技术，即利用维基百科词库对商品名称的短文本进行分析，将商品名称按照其规则划分为不同的词，如“苹果笔记本”分词为“苹果”和“笔记本”，经过分词后得到的词语集合是短文本分类的基础，即本体词，它是未经人工干预过的高质量分类基础，且具有很大的稀疏性。

S3、获得扩展词；所述扩展词包括索引词和缩略词。

索引词是解决商品名称上下文语境确实的问题的一种有效方法。在本发明中，采用web搜索引擎来解决扩展词的问题，该方法是指通过搜索引擎搜索引词，在搜索结果中分析与其同时出现的词，若某些词与该词同时出现的频率非常大，则把这些词作为该词的扩展。

对一些词进行缩略处理是解决词语稀疏的另一种方法，有时候是标准化的一种操作。但有时候缩略词会引起过匹配的问题，本发明有效的利用缩略词这一特性，如苹果笔记本其缩略词为mac,可以有效的去除“苹果”这个词对商品的影响，加大分对的准确率。但是也有可能会产生过匹配的问题，如在商品名称中出现machine air char，缩略词为MAC,在对其进行分类的时候可能会分到电脑配件这类中。

S4、计算KL差异熵，以获得待分类税务商品编码与已有商品编码类别之间的差异度，根据所述差异度完成所述分类。即KL差异度越大，商品与该类别的差异越大，KL差异越小，商品属于该类别的可能性越大。KL的具体计算过程在下面。商品名称是典型的短文本，由国家颁布的商品编码分类标准作为规则集也是短文本构成，已经存在的历史开票数据中的数据存在开票不准确或编码分类空白的情况，只能有一部分作为样本集。

在计算KL差异熵时，本发明采用了相似度技术。具体过程如下：

首先对使用的符合进行简单说明：

W:商品名称经过分词后的词；

C:是经过扩展后的所有类别集合；

θ_q:商品名称；

θ_c：商品类别；

P(w|θ_q)：某个词在商品名称中的概率；

P(w|θ_c)P(w|C)：该词在所有类别数据集中出现的概率；

本发明使用KL散度来描述待分类商品名称θ_q和已有商品类别θ_c之间的关系，如公式1所示。

其中V是用到的字典，H是信息熵，使用步骤S2的本体词来计算P(w|θ_q)，计算过程如公式2所示。

其中，QS是商品名称经过分词后的短文本词语集合，tf_w,QS是词语w在QS中的词频。由于本体词集合的稀疏性特点，在本发明中增加了扩展词，对公式2进行改进，如公式3所示。

其中QE是扩展后的词集合，包括本体词的扩展词和缩略词，μ_Q是平滑系数，防止在计算过程中导致分母为0造成计算异常，在本发明中取一个极小值。同理计算P(w|θ_c)

其中，CE是经过扩展的类别候选集，μ_c是平滑系数。

本发明中，为了得到平滑效果好的平滑参数μ,采用期望交叉熵最小原则进行μ的迭代，具体步骤如下：

(1)给μ_i赋初始值，假设μ_i＝0.5

(2)计算1-μ_i和μ_i的期望

P_JM(w|C)是经过平滑处理后的概率。

(3)计算μ_i+1

(4)若|μ_i-μ_i+1|>ε，则执行返回步骤(2)，反之，则终止迭代。

本发明中ε＝0.01。

如图2所示，根据本发明的另一个方面，还提供了一种基于短文本相似度的税务商品编码分类系统100，包括顺序连接的如下模块：

样本数据获取模块101，用于获取样本数据；

分词模块102，用于对样本数据进行分词；

扩展模块103，用于获得扩展词；

KL差异熵计算模块104，用于计算KL差异熵，以获得待分类税务商品编码与已有类别之间的差异度，根据所述差异度完成所述分类。

本发明的技术关键点在于：

1、利用外部搜索引擎对短文本进行扩展，将待分类的文本变为本体词和扩展词，缩略词的集合。

2、提出使用KL离散熵的方法来计算词与候选集的差异度，并对该方法基于关键点1进行了改进。

3、加入了平滑参数，抑制了计算过程中的异常。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于短文本相似度的税务商品编码分类方法，其特征在于，包括：

步骤一：获取样本数据；

步骤二：对样本数据进行分词；

步骤三：获得扩展词；

步骤四：计算KL差异熵，以获得待分类税务商品编码与已有商品编码类别之间的差异度，根据所述差异度完成所述分类；

所述步骤四中的计算KL差异熵的具体过程如下：

其中V是用到的字典，H是信息熵；

W:商品名称经过分词后的词；

CE是经过扩展的类别候选集；

θ_q:商品名称；

θ_c：商品类别；

P(w|θ_q)：某个词在商品名称中的概率；

P(w|θ_c)：该词在所有类别数据集中出现的概率；

(3)对公式2进行改进，如公式3所示：

其中QE是扩展后的词集合，包括本体词的扩展词和缩略词，μ_Q是平滑系数；

所述步骤四中的计算KL差异熵的具体过程进一步包括如下步骤：

(4)根据以下公式4计算P(w|θ_c)

其中，CE是经过扩展的类别候选集，μ_c是平滑系数。

2.根据权利要求1所述的一种基于短文本相似度的税务商品编码分类方法，其特征在于，所述步骤三中的所述扩展词包括索引词和缩略词。

3.根据权利要求1或2所述的一种基于短文本相似度的税务商品编码分类方法，其特征在于，采用期望交叉熵最小原则进行μ的迭代，具体步骤如下：

(1)给μ_i赋初始值，假设μ_i＝0.5

(2)计算1-μ_i和μ_i的期望

其中，P_JM(w|C)是经过

平滑处理后的概率；

(3)计算μ_i+1

(4)若|μ_i-μ_i+1|＞ε，则执行返回步骤(2)，反之，则终止迭代；其中，ε＝0.01。

4.根据权利要求1所述的一种基于短文本相似度的税务商品编码分类方法，其特征在于，所述样本数据是待分类的税务商品编码名称。

5.一种基于短文本相似度的税务商品编码分类系统，包括顺序连接的如下模块：

样本数据获取模块，用于获取样本数据；

分词模块，用于对样本数据进行分词；

扩展模块，用于获得扩展词；

KL差异熵计算模块，用于计算KL差异熵，以获得待分类税务商品编码与已有商品编码类别之间的差异度，根据所述差异度完成所述分类；

所述计算KL差异熵的具体过程如下：

其中V是用到的字典，H是信息熵；

W:商品名称经过分词后的词；

CE是经过扩展的类别候选集；

θ_q:商品名称；

θ_c：商品类别；

P(w|θ_q)：某个词在商品名称中的概率；

P(w|θ_c)：该词在所有类别数据集中出现的概率；

(3)对公式2进行改进，如公式3所示：

(4)根据以下公式4计算P(w|θ_c)

其中，CE是经过扩展的类别候选集，μ_c是平滑系数。

6.根据权利要求5所述的一种基于短文本相似度的税务商品编码分类系统，其特征在于，所述扩展词包括索引词和缩略词。

7.根据权利要求5所述的一种基于短文本相似度的税务商品编码分类系统，其特征在于，所述样本数据是待分类的税务商品编码名称。