CN109657061B

CN109657061B - 一种针对海量多词短文本的集成分类方法

Info

Publication number: CN109657061B
Application number: CN201811573390.6A
Authority: CN
Inventors: 胡学钢; 唐雪涛; 朱毅; 李培培
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2020-11-27
Anticipated expiration: 2038-12-21
Also published as: CN109657061A

Abstract

本发明公开了一种针对海量多词短文本的集成分类方法，包括：1获取多词短文本集合，并对多词短文本进行分词预处理；2在分词结果上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型；3基于词向量表示模型，利用Sentence2vec句向量表示方法中的PV‑DM模型，构建句向量表示；4在句向量表示模型基础上利用kNN分类器预测为标记数据的类别标签。本发明能解决传统表示学习方法的“维数灾难”问题，从而提高短文本表示学习的效果，提升文本分类的精度，具有较高的鲁棒性和实用性。

Description

一种针对海量多词短文本的集成分类方法

技术领域

本发明涉及文本表示和表示学习方法领域，具体是一种针对海量多词短文本的集成分类方法。

背景技术

随着商品经济的不断繁荣，各种新兴商品、服务不断涌现。依据国家规定，企业和个人在经营中需按照要求开具增值税发票，开具发票时票面上的商品应与税务总局核定的税收编码进行关联。然而，税务总局核定的税收编码有4200余类，种类繁多，传统的由人工手动选择税收分类编码的方式不仅要求纳税人有一定的专业知识，还容易出现填写错误的情况，增加企业经营时间成本，造成经济损失。随着信息化时代的到来，计算机技术的发展和数据资源的爆炸性增长，为解决这类问题提供了方法。

税收编码分类任务是要依据货物名称将货物和正确的税收分类编码进行匹配，本质上是文本分类问题，人工输入的货物名称较为混乱，长则数十字，短则两三个字，其中夹杂数字和各种符号。极短的不规则的文本为分类任务带来了难度。同时，分类任务需要处理650万经过人工标记的数据和1000万未标记数据，海量的数据也为表示学习带来了困难。在一些情况下，货物名称中很大一部分都是无用信息，通过提取关键词可以更好的对货物进行描述，例如“晨光(M&G)E01精英系列按动子弹头中性笔签字笔水笔0.5mm12支/盒黑色AGP89703”。但还有一些情况难以利用提取关键词的方法，例如“医用植入钢钉”，如果采取关键词方法，将“钢钉”作为关键字，最终的落点是归属建筑材料，造成错误。还有类似“滑板砖真空-压力沥青浸煮设备”和“精加工成品”的货物名称，难以找到合适的关键词或者信息过少，难以通过提取关键词的方法获得有效信息。最终我们采取了将货物名称作为一个整体进行文本表示学习，用于表示货物名称，以进一步进行分类。表示学习作为机器学习的基础，其结果直接影响着整个系统的分类效果。

针对文本表示学习方法，研究者们提出了许多方法。独热表示(one-hotrepresentation)将词语表示为向量，向量上只有某一维非零表示该词出现，其余维度上值均为零。Josef等人基于自然语言处理模型提出了词袋模型(Bag of Words)，在one-hotrepresentation的基础上，词袋模型进一步考虑了词频因素，在对一段文本进行分词后，用向量对其进行表示，将词语出现的频数记录在向量上。独热表示和词袋模型的向量维度取决于整个文本的词汇数，在处理大规模数据时，维度过大难以处理。Sklearn提供了HashingVectorizer通过哈希函数映射来降低向量的维度。然而以上的表示学习方法表示的词向量之间是孤立的，都无法对到词汇之间的关系进行描述。另外虽然Hashing Vectorizer采取了降维的方法，但由于生成的是高维稀疏的向量，在处理大规模数据时仍然容易带来“维数灾难”问题。“维数灾难”是指在高维情况下出现数据样本稀疏、距离计算困难等问题，是所有机器学习方法共同面临的严重障碍。

发明内容

本发明为解决上述现有技术的不足之处，提供一种针对海量多词短文本的集成分类方法，以期能解决传统表示学习方法的“维数灾难”问题，从而提高短文本表示学习的效果，提升文本分类的精度，并具有较高的鲁棒性和实用性。

为了达到上述目的，本发明所采用的技术方案为：

本发明一种针对海量多词短文本的集成分类方法的特点在于包括以下步骤：

步骤1、获取多词短文本集合，并利用jieba_fast分词方法在多进程的精准模式下对所述多词短文本集合进行分词处理，得到分词结果X＝{x₁,x₂,…,x_i,…,x_M+N}，x_i表示分词后的第i条短文本，并有：

表示第i条短文本x_i中第k个词，所述分词结果X是由有标记的分词集合

和无标记的分词集合

构成，其中，

表示分词后的第m条有标记的短文本，且所述第m条有标记的短文本

所对应的类别记为y_m，

表示分词后的第n条无标记的短文本；m＝1,2,…,M，n＝1,2,…,N，k＝1,2,…,K，i＝1,2,…,M+N；

步骤2、在分词结果X上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型V：

步骤2.1、遍历所述分词结果X，并利用所述分词结果X中不同的词构造词典

步骤2.2、定义窗口大小为2c，向量维度为s；

步骤2.3、获取所述第i条短文本x_i中第k个词

的上下文内容，记为

且

并将所述第i条短文本x_i中第k个词

随机初始化为独热向量

从而随机初始化上下文内容

步骤2.4、以所述第i条短文本x_i中第k个词

为目标词，并令目标词

为正样本，所述词典

中的其他词为负样本，并从负样本中选取部分词作为所述目标词

的负样本子集

步骤2.5、利用式(1)得到所述词典

中任意一个词w的标签L(w)：

步骤2.6、最大化式(2)所示的目标词

的目标函数

式(2)中，u表示负样本子集

和目标词

所构成的集合中任意一个词；

表示词u在上下文内容

时出现的概率，并有：

式(3)中，θ^u表示词u对应的辅助向量，且

σ(·)表示Sigmoid函数；

表示词u的标签；

步骤2.7、通过随机梯度上升法对式(2)进行优化求解，得到优化后的第i条短文本x_i中第k个词

的稠密向量

步骤2.8、根据2.3-步骤2.7，获得所述词典

中其他词的稠密向量，从而构成词向量表示模型V；

步骤3、基于所述词向量表示模型V，利用Sentence2vec句向量表示方法中的PV-DM模型，构建句向量表示：

步骤3.1、将所述第i条短文本中第k个词

再次随机初始化为独热向量

从而随机初始化上下文内容

并初始化PV-DM模型中的参数；

步骤3.2、令ID(x_i)表示第i条短文本x_i的编号，d(x_i)表示第i条短文本x_i的编码向量，并利用式(4)得到第i条短文本x_i的输入向量W_i：

步骤3.3、将所述第i条短文本x_i的输入向量W_i输入PV-DM模型的输入层中，由PV-DM模型的输出层得到第i棵二元Huffman编码树；

步骤3.4、根据所述第i棵二元Huffman编码树，利用Softmax函数计算给定目标词

在数据集合

中出现的概率

步骤3.5、利用式(5)得到优化的目标函数为：

步骤3.6、根据所述词向量表示模型V，通过随机梯度上升法对式(5)进行优化求解，得到第i条短文本x_i的向量表示v(x_i)；从而得到分词结果X中每条短文本的向量表示；

步骤4、利用有标记的分词集合

中每条短文本的向量表示训练kNN分类器，得到训练后的分类器；并利用所述训练后的分类器对未标记的分词集合

中第n条无标记的短文本

与所述有标记的分词集合

中每条有标记的短文本的欧氏距离进行计算，选取最小欧式距离所对应的有标记的短文本的类别作为第n条无标记的短文本

的类别，从而实现对未标记的分词集合

的分类。

与现有技术相比，本发明的有益效果在于：

1、本发明方法从深度学习的角度出发，针对传统表示学习方法的“维数灾难”问题，设计了一种针对海量多词短文本的集成分类方法，在海量数据上训练得到的Word2vec词向量表示模型基础上，通过Sentence2vec句向量表示模型将短文本整体表示为稠密低维向量，获得了较为有效的表示，降低了短文本表示向量维度，避免了“维度灾难”问题，提高了文本表示效果，在分类器模型下取得了较好的分类结果。

2、本发明解决文本表示学习这一重要实际问题，通过在税收编码分类任务的1650万真实数据集上的实验结果表明，该方法可有效地提高海量多词短文本的分类效果。本发明可以直接应用在各种情况下的文本分类应用中，有着重要的应用价值，一旦研究成功并投入应用，将产生巨大的社会和经济效益。

附图说明

图1为本发明方法流程图；

图2为现有技术中CBOW模型层次结构示意图；

图3为现有技术中Skip-gram模型层次结构示意图；

图4为本发明中PV-DM模型层次结构示意图；

图5为本发明中PV-DBOW模型层次结构示意图；

图6为本发明在税收编码分类任务的1650万真实数据集上的分类实验结果图。

具体实施方式

本实施例中，一种针对海量多词短文本的集成分类方法，如图1所示，包括以下步骤：

步骤1、获取多词短文本集合，如表1所示，并利用jieba_fast分词方法在多进程的精准模式下对多词短文本集合进行分词处理，jieba_fast是一种基于jieba分词的改进版本，可以大幅度提升大数据量下的分词速度。采用多进程分词方法，提高CPU和内存的利用率，并通过添加自定义词库的方式增加分词精度，最终得到分词结果X＝{x₁,x₂,…,x_i,…,x_M+N}，x_i表示分词后的第i条短文本，并有：

表示第i条短文本x_i中第k个词，分词结果X是由如表2所示的有标记的分词集合

和如表3所示的无标记的分词集合

构成，其中，

表示分词后的第m条有标记的短文本，且第m条有标记的短文本

所对应的类别记为y_m，所有类别集合Y＝{y₁,y₂,…,y_m,…,y_M}，

步骤2、在分词结果X上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型V，Word2vec词向量表示方法有CBOW(Continuous Bag-of-Words)连续词袋模型和连续Skip-gram模型两个模型，如图2和图3所示，本发明采用CBOW模型对海量货物名称数据进行训练：

步骤2.1、遍历分词结果X，并利用分词结果X中不同的词构造词典

步骤2.2、定义窗口大小为2c，向量维度为s；

步骤2.3、获取第i条短文本x_i中第k个词

的上下文内容，记为

且

并将第i条短文本x_i中第k个词

随机初始化为独热向量

从而随机初始化上下文内容

步骤2.4、Negative Sample(简称为NEG)负采样方法是一种在Word2vec上的加速方法，它是NCE(Noise Contrastive Estimation)的一个简化版本，是用来提高训练速度并改善所得词向量的质量。与分词Softmax相比，NEG不再使用复杂的Huffman树，而是利用相对简单的随机负采样，能大幅度提高性能，因而可作为分层Softmax的一种替代。以第i条短文本x_i中第k个词

为目标词，并令目标词

为正样本，词典

中的其他词为负样本，并从负样本中选取部分词作为目标词

的负样本子集

词典

中的词在分词结果X中出现的次数有高有低，对于那些高频词，被选为负样本的概率就应该比较大，反之，对于那些低频词，其被选中的概率就应该比较小。采样问题本质是一个带权采样问题。

在采样过程中，记

其中

这里w_j表示词典

中第j个词，D表示词典

中单词总数，词典

中任意一个词w，counter(·)表示一个词在分词结果X中出现的次数。则以

为剖分节点可得到区间[0,1]上的一个非等距剖分，S_i＝(s_i-1,s_i],i＝1,2,…,D为其D个剖分区间。进一步引入区间[0,1]上的一个等距离剖分，剖分节点为

其中M＞＞D。

将内部剖分节点

投影到非等距剖分上，可建立

与区间

的映射关系：

Table(k)＝w_i,where t_k∈S_i,i＝1,2,…,M-1

依据映射关系，每次生成一个[1,M-1]间的随机整数r，Table(r)即为一个样本。

步骤2.5、利用式(6)得到词典

中任意一个词w的标签L(w)：

步骤2.6、最大化式(7)所示的目标词

的目标函数

式(7)中，u表示负样本子集

和目标词

所构成的集合中任意一个词；

表示词u在上下文内容

时出现的概率，并有：

式(8)中，

θ^u表示词u对应的辅助向量，且

σ(·)表示Sigmoid函数；

表示词u的标签；

步骤2.7、通过随机梯度上升法对式(7)进行优化求解，随机梯度上升法是每取一个样本

就对目标函数中的所有(相关)参数做一次刷新。设

将其作为整体优化函数：

利用随机梯度上升法对式(9)进行优化，得到更新公式：

式(10)中η表示学习率。依据式(10)得到优化后的第i条短文本x_i中第k个词

的稠密向量

步骤2.8、根据2.3-步骤2.7，获得词典

中其他词的稠密向量，从而构成词向量表示模型V；

步骤3、Sentence2vec模型引入了一个段落向量，实现了对可变长度文本片段的连续分布式向量表示，即该方法可以用于短语或句子到大文档的向量表示。Sentence2vec也有两个模型，分别是PV-DM(Distributed Memory version of Paragraph Vector)和PV-DBOW(Distributed Bag of Words version of Paragraph Vector)，如图4和图5所示。本发明基于词向量表示模型V，利用Sentence2vec句向量表示方法中的PV-DM模型，构建句向量表示：

步骤3.1、将第i条短文本中第k个词

再次随机初始化为独热向量

从而随机初始化上下文内容

并初始化PV-DM模型中的参数；

步骤3.2、令ID(x_i)表示第i条短文本x_i的编号，d(x_i)表示第i条短文本x_i的编码向量，并利用式(11)得到第i条短文本x_i的输入向量W_i：

步骤3.3、将第i条短文本x_i的输入向量W_i输入PV-DM模型的输入层中，由PV-DM模型的输出层得到第i棵二元Huffman编码树。对构造的Huffman树进一步采取分层Softmax结构，提高性能。对Huffman树的某个叶子节点，将一个节点进行分类时，分到左边是负类，分到右边是正类，假设该节点对应词典

中的词w，记：

1.p^w：从根结点出发到达w对应的叶子结点的路径；

2.n^w：路径p^w中包含的结点个数；

3.

路径p^w中的n^w个结点其中

表示根结点，

表示词w对应的结点。

4.

w词的Huffman编码，它由l^w-1位编码构成，

表示路径p^w中第j个结点对应的编码(根结点不对应编码)；

5.

路径p^w中非叶子结点对应的向量，

表示路径p^w中第j个非叶子结点对应的向量。

在Word2vec中将编码为1的结点定义为负类，将编码为0的结点定义为正类，约定

步骤3.4、根据第i棵二元Huffman编码树，利用Softmax函数计算给定目标词

在数据集合

中出现的概率：

式(12)中

或写成整体表达式

步骤3.5、利用式(13)得到优化的目标函数为：

步骤3.6、根据词向量表示模型V，通过随机梯度上升法对式(13)进行优化求解：

利用随机梯度上升法对式(14)进行优化，得到更新公式：

根据式(15)得到第i条短文本x_i的向量表示v(x_i)；从而得到分词结果X中每条短文本的向量表示，形如[-0.04007446，0.02008997，……-0.01132657，-0.0229446]；

步骤4、利用有标记的分词集合

中每条短文本的向量表示训练kNN分类器，得到训练后的分类器；并利用训练后的分类器对未标记的分词集合

中第n条无标记的短文本

与有标记的分词集合

的类别，从而实现对未标记的分词集合

的分类。

针对本发明方法进行实验论证，具体包括：

1、数据预处理：

税收编码分类任务的1650万真实数据集是来自真实税务发票系统的650万经过人工标记的数据和1000万未标记数据，共有4200余类标签。

2、评价指标：

本发明使用目前文本分类领域常用的评价指标：正确率(Precision)，召回率(Recall)和Micro-F1值来评价分类效果，计算公式如式(16)、式(17)和式(18)所示：

3、实验流程

如图1所示，针对税收编码分类任务的1650万真实数据集进行数据预处理，为了训练更好的特征，先对有标记数据集和未标记数据集进行预处理，去除无用的数据项，例如货物单位，编码名称等。在数据预处理后，采用jieba_fast在多线程下的精准模式对货物名称进行分词。对分词处理过后的货物名称首先采用数据驱动的方法，在大量货物名称样本上训练得到Word2vec词向量表示模型。运用Word2vec模型中每个词的向量表示，在有标记数据和未标记数据上，通过Sentence2vec句向量表示模型将每个货物名称整体表示为一个稠密低维的向量。在有标记数据上，运用训练得到的向量表示和标记编码训练kNN分类器，得到分类器模型。在未标记数据上运用训练得到的向量表示和分类器模型，得到未标记数据的预测分类编码。

4、实验结果

为了验证本发明所提方法的有效性，本发明在税收编码分类任务数据集的不同数据量下进行了实验。实验结果如图6所示，随着数据量的增加，分类正确率虽有一定的波动但仍然保持在90％以上，实验结果验证了本发明方法的有效性。