CN107590177B

CN107590177B - 一种结合监督学习的中文文本分类方法

Info

Publication number: CN107590177B
Application number: CN201710642072.XA
Authority: CN
Inventors: 刘兴; 李晓飞; 韩光
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2021-02-02
Anticipated expiration: 2037-07-31
Also published as: CN107590177A

Abstract

本发明公开了一种结合监督学习的中文文本分类方法，属于自然语言处理技术领域，WMD算法用于文本分类领域时，因分类标准的不同导致特定条件下文本分类的结果准确度较低。为使WMD算法适应不同分类条件，本发明结合监督学习的方法，引入变换矩阵A和初始值为1的权重向量w来改进算法。为了训练参数A，w,利用NCA算法对带标签的训练集进行训练，得到变换矩阵A的初始值,而后利用随机数β对A，w进行迭代更新直到该算法的损失函数收敛。利用最终的A，w改进WMD算法表达式并以此计算文本的最小距离，该距离的大小代表在特定分类条件下待测试文本的相似度的高低。本发明改进了不同分类条件下文本相似度的准确性，具有一定实用价值。

Description

一种结合监督学习的中文文本分类方法

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种结合监督学习的中文文本分类方法。

背景技术

随着人工智能的发展，自然语言处理方向也随之成为热点。许多新兴技术也被发明用到自然语言处理领域中。其中，作为自然语言处理的一个重要分支，文本相似度研究因为涉及到自动问答、文本分类、搜索引擎优化等领域，受到了研究者的极大的关注。为研究不同文本间潜在的某种联系，前人在语义研究方面也做出了诸多努力，1988年salton系统地研究了基于词频权重的不同组合，统计了语料库数据并进行归一化。Robertson于1994年提出Okapi BM25函数来统计文档中词语的分数用于应用程序排行领域。Aslam(2003)根据文档语料库中单词出现的概率来推导两个文档之间的相似度分数，Croft(2003)使用语言模型来描述从文档生成词语的可能性，类似于LDA模型(Blei)。

2013年，mikolov介绍了一种新型词嵌入—word2vec，用浅层神经网络语言模型学习每个单词的向量表示，并最大限度利用语料库种相邻单词的对数概率，求得单词间的余弦距离。因使用softmax激活函数和skip-gram模型，word2vec词嵌入模型可以预测到词语之间的潜在关系(男人–女人＝国王–皇后)；本发明中结合监督学习的WMD算法正是以word2vec词嵌入为基础提出。

现如今，从单词相似度扩展到文本相似度方向上的研究也取得了一定进展。利用EMD最短运输距离算法，求得样本d变换到d’的最短距离来衡量样本相似度的方法也有较低的KNN错误率，其中最短距离的原子项正是利用了word2vec方法。诚然，文本相似度也可以作为文本分类的一种度量手段。但当人为限定了特定的分类条件时，n维空间上距离相近的两个样本可能会不属于同一个类别，反而距离较远的样本拥有相同的类别。例如，两个表达积极情绪的样本应该和消极情绪的样本分开，而当其中一个积极样本和消极样本讨论的事物相同，而和另一个积极样本讨论的则完全属于另一件事时，针对不同的分类标准，会形成不同的聚类结果。因此，仅利用word2vec从文本相似度方向来进行文本分类是具有缺陷的。

传统的文本分类方法都是人为贴上分类标签，而后在测试集中提取关键词来进行分类预测，然而单个单词并不能代替文本的全部信息；然而利用整个文本相似度进行文本分类，例如WMD算法，将文本的相似度计算问题转移为求解句子间转换需要的最小代价，也由于分类的标准的模糊导致了一些误差，在不同的分类条件下，语义相似度高的文本可能属于不同类别。

发明内容

本发明所要解决的技术问题是针对背景技术的不足提供了一种结合监督学习的中文文本分类方法，结合word2vec和WMD算法，提高特定条件下中文文本分类的准确率。

本发明为解决上述技术问题采用以下技术方案

一种结合监督学习的中文文本分类方法，具体包含如下步骤：

步骤1，获取网络上的文本语料，对m条文本语料进行分词并去除结构性词语；其中，m为正整数；

步骤2，利用word2vec算法获取m条文本语料中所有单词的词嵌入Xi，并构建一个d*n的词嵌入矩阵X，其中，d是每个词嵌入的维度，n是词嵌入的数目；

步骤3，生成每条文本语料的词袋模型向量nBOW；则m条语料生成m个nBOW，记为di，其中，i<m，给每个di标注标签yi；

步骤4，计算训练集参数ci，具体如下：ci＝Xdi；

步骤5，根据训练集参数ci生成训练集：trainning set＝{(c1,y1),(c2,y2),(c3,y3)...(cn,yn)}，其中，n≤i；

步骤6，利用NCA算法对训练集进行训练，进而得到初始变换矩阵A₀，具体如下：A₀＝NCA(tranning set)；设w₀＝1，其中，w₀为初始权重向量；

步骤7，根据A₀和w₀判断NCA损失函数是否收敛：若损失函数不收敛，则利用随机数β计算梯度g_A,w，进而更新变换矩阵A和权重向量w，直至损失函数收敛，获取最终的变换矩阵A和权重向量w；

步骤8，根据最终的变换矩阵A和权重向量w对WMD算法通式进行改进，生成最终的WMD算法表达式，计算文本距离，进而通过文本距离的大小完成文本分类。

作为本发明一种结合监督学习的中文文本分类方法的进一步优选方案，在步骤1中，利用基于python的爬虫框架scrapy爬取网络上的文本语料。

作为本发明一种结合监督学习的中文文本分类方法的进一步优选方案，在步骤1中，采用python库Jieba对m条文本语料进行分词。

作为本发明一种结合监督学习的中文文本分类方法的进一步优选方案，在步骤7中，损失函数具体如下：

其中m为语料的总数,d_a,d_b分别代表第a条语料和第b条语料的nBOW，y_a和y_b分别代表语料a和语料b的标签；

其中，A为变换矩阵，x_i代表语料a中第i个单词的词嵌入，T_i,j是转移矩阵，其中每一项代表从语料a中词语i转移到语料b中词语j的概率。

作为本发明一种结合监督学习的中文文本分类方法的进一步优选方案，在步骤7中，梯度g_A,w具体计算如下：

其中，1≤β≤m，N_a是语料a的最近邻文档集合，仅当标签y_a＝y_b时，δ_ab＝1，,否则δ_ab＝0；p_a代表语料，a在语料库中出现的概率，

为偏导数符号。

作为本发明一种结合监督学习的中文文本分类方法的进一步优选方案，在步骤7中，更新变换矩阵A和权重向量w的具体步骤如下：

A′←A-η_ag_a,w

w′←w-η_wg_a,w

其中，η_a和η_w分别是参数A，w的学习率。

作为本发明一种结合监督学习的中文文本分类方法的进一步优选方案，在步骤8中，最终的WMD算法表达式具体如下：

约束条件为

其中，

w是权重向量，

代表函数的复合运算，

表示词语i在d^a中出现的次数，T_i,j代表从语料a中词语i转移到语料b中词语j的概率，

表示两个单词词嵌入距离。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

(1)本发明利用监督学习的方法，通过训练得到变换矩阵A和权重向量w改进了WMD算法，既解决了单个词语代替整个句子语义导致误差的问题，又解决了特定条件下利用文本相似度分类不准确的问题，让利用句子相似度实现文本分类成为了可能。

(2)损失函数的时间复杂度为O(q³logq)，意味着每迭代一次A,w,都要花费O(q³logq)的时间，其中，q代表待计算的两条语料中词语个数的最大值，引入了调节因子

后，为求损失函数的最小值，WMD算法公式变为

求得使表达式最大的两个变量α,β即可，此时的算法复杂度降低到O(q²)，显著改善了性能。

附图说明

图1是利用监督学习获取参数流程图；

图2是利用一种结合监督学习的中文文本分类方法进行中文文本分类流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

为使本发明的一种结合监督学习的中文文本分类方法要解决的技术问题、技术方案和技术效果对于本领域的普通技术人员而言更加清楚、容易实施，下面将以具体实验为例，结合附图和具体实施方式对本发明作进一步详细说明。

图1为利用监督学习获取参数流程图，一种结合监督学习的中文文本分类方法，包括中文分词、获取训练集、获取初始参数、监督学习迭代参数几个过程。

具体如下：

步骤1，获取网络上的文本语料，对m条文本语料进行分词并去除结构性词语；其中，m为正整数；利用基于python的爬虫框架scrapy爬取网络上的文本语料；采用python库Jieba对m条文本语料进行分词；

以网络上海量文章的标题为例：利用基于python的爬虫框架获取网络上海量文章的标题作为中文语料库，以科技、健康、体育等多个类别对文本进行语料标注；

步骤3，生成每条文本语料的词袋模型向量nBOW；则m条语料生成m个nBOW，记为di，其中，i<m。对于一段语料，语料中每个词出现次数就是每个维度上的数值，显然在训练语料库较大时，该短文本的BOW向量均为稀疏向量，类似d＝{1,0,0,0,0,…1,..1}。将所有获得的n维词袋向量模型分为测试集和待训练集。

步骤4，对于待训练集中的每个nBOW，人为贴上标签yi，并和词嵌入矩阵X相乘，得到最终的训练集。经过此步骤生成训练集trainning set＝{(c1,y1),(c2,y2),(c3,y3)...(cn,yn)},其中yi表示人为标注的类别；计算训练集参数ci，具体如下：ci＝Xdi；

步骤5，利用NCA算法对训练集进行训练，具体如下：将训练集输入到NCA算法解决器；设w₀＝1，得到初始变换矩阵A₀。其中，w₀为初始权重向量；

步骤6，根据获取的初始值A₀和w₀判断NCA损失函数是否收敛：若损失函数不收敛，则利用随机数β计算梯度g_A,w，进而更新变换矩阵A和权重向量w，直至损失函数收敛，获取最终的变换矩阵A和权重向量w；

梯度g_A,w具体计算如下：

为偏导数符号；

损失函数具体如下：

更新变换矩阵A和权重向量w的具体步骤如下：

A′←A-η_ag_a,w

w′←w-η_wg_a,w

其中，η_a和η_w分别是参数A，w的学习率。

步骤7，根据最终的变换矩阵A和权重向量w对WMD算法通式进行改进，生成最终的WMD算法表达式。

最终的WMD算法表达式具体如下：

约束条件为

其中，

w是权重向量，

代表函数的复合运算，

表示两个单词词嵌入距离。

图2为利用改进的算法进行文本分类流程图，一种基于监督式WMD算法的中文文本分类方法，包括设置类别距离阈值、利用测试集获取特定分类条件下文本距离、判定测试集所属类别几个过程。

A.设定分类阈值。利用WMD算法计算两段语料距离，所得结果低于该阈值则分为同一类，反之分为不同类别。

B，遍历测试集，对于测试集中的每条语料，分别计算与训练集中每条语料的距离，比较并获取文本距离的最小值。

具体实施方式如下：将测试集中的某条语料和测试集中每条语料的nOW、词嵌入矩阵X作为输入，输入到EMD算法解决器。得到的距离结果存入结果集，遍历结果集，获取最小值。

C.若步骤B中获取的最小值小于设定阈值,则获取该类别并归为同类，否则归为未知类别。

具体实施方式如下：若步骤B中获取的最小值小于设定阈值，获取与该测试语料距离最短的训练语料的标签类别，将此条测语料归为该类别。否则直接归为未知类别。

显然，本领域技术人员应当理解，对上述本发明所公开的一种结合监督学习的中文文本分类方法，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。