CN108763348A

CN108763348A - 一种扩展短文本词特征向量的分类改进方法

Info

Publication number: CN108763348A
Application number: CN201810460923.3A
Authority: CN
Inventors: 王诚; 孟涛
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2018-05-15
Filing date: 2018-05-15
Publication date: 2018-11-06
Anticipated expiration: 2038-05-15
Also published as: CN108763348B

Abstract

本发明涉及一种扩展短文本词特征向量的分类改进方法，该方法引入了Word2vec语言模型对短文本进行词嵌入扩展短文本特征向量以解决短文本稀疏性，并将词向量转换成概率语义分布来测量语义关联性；针对短文本扩展后的特征向量，利用改进后的特征权重算法并引入语义相关度去处理扩展后的词特征向量。本方法可以区分出扩展后的短文本中的词的重要程度，以获得更准确的语义相关度，可以有效地提高短文本的分类效果。实验证明，本文的方法能够保证短文本挖掘特征向量准确性的同时，更大大的提高了短文本分类的精确性，效果显著。可用于热点话题分类挖掘、监测舆情信息等各种领域决策方向中，具有较强的实用价值。

Description

一种扩展短文本词特征向量的分类改进方法

技术领域

本发明涉及一种扩展短文本词特征向量的分类改进方法，尤其涉及一种基于Word2vec模型对短文本进行词嵌入扩展短文本词特征向量的分类改进方法，属于技术领域。

背景技术

对于现如今社交网络和电子商务的飞速发展，微博、Twitter、商品评价、实时新闻推送等短文本形式已成为互联网的主流内容。短文本通常定义为长度较短，范围在10到140个字。研究短文本中热点话题的分类挖掘以及监测网络舆情信息对各种领域决策方面有着重要的应用前景，因此如何去高效正确的挖掘短文本成为了一个研究的热门方向。

针对常规文本分类，大多是利用传统的向量空间模型(Vector space model,VSM)将文本向量化并按向量之间的欧式或余弦距离计算文本间的关系，在处理长文本时取得了很好的分类效果。但是由于短文本文档长度较短，词项共现信息相对于常规文本非常匮乏，会存在向量空间信息稀疏问题。而VSM忽略了词语之间的语义相似度，词本身无法存储语义信息，会严重限制短文本主题分类的质量。

对于缺乏语境信息而导致向量空间信息稀疏性的短文本问题，现有方法主要遵循两个方向来丰富短文本。第一种是仅使用隐藏在当前短文本上下文中的规则或统计信息来扩展特征空间，称为基于自我资源的方法。另一种是通过外部资源扩展特征空间，称为基于外部资源的方法。

现有目前的短文本研究存在的问题：引入背景知识和对外部相关数据的过度依赖，未从句子语义层面出发，无法深度挖掘短文本所表达的语义；改进短文本词向量的权重计算方法，但忽略了上下文因素，对于短文本的挖掘效率和获取高质量分类的方法仍然存在困难。

由于信息化时代的数据的大幅度增长，所以采用立足于内存计算的分布式计算系统Spark平台处理大数据，可以有效的解决大数据背景下现有单机环境处理数据存在的吞吐量小、实时性差、难以达到预期效果的缺陷。

发明内容

本发明的目的在于：针对现有技术存在的缺陷，提出一种扩展短文本词特征向量的分类改进方法，使用神经概率语言模型中word2vec技术进行词嵌入来训练扩展短文本中的词向量，以解决短文本特征向量较少的技术问题。

为了达到以上目的，本发明提供了一种扩展短文本词特征向量的分类改进方法，其特征在于：基于Word2vec模型对短文本进行词嵌入扩展以解决其稀疏性，并将词向量转换成概率语义分布来测量语义关联性；针对短文本扩展后的特征向量，利用改进后的特征权重算法并引入语义相关度去处理扩展后的词特征向量；具体包含如下步骤：

步骤1，收集已分好类的短文本语料库作为训练集，对训练集做预处理，包括中文版分词，停用词过滤和特征选择，采用中文分词工具结巴分词将短文本收集成分词，之后对停用词进行过滤，通过功能选择保留有代表性的词，进入步骤2；

步骤2，针对短文本进行权重改进算法处理，得到短文本词W_i特征项列表及其加权值((t₁,tf’iwf₁)，(t2,tf’iwf₂)，...，(t_m,tf’iwf_m))；其中，tf’iwf_i是特征项t_i的加权值，m是短文本中特征项的数量，进入步骤3；

步骤3，提取语义相关集合，通过Lucene信息检索包对短文本数据建立索引、搜索文档，通过提取和组合，在已训练好的语料集上提取到语境相关概念集构成的C_k(C₁,C₂,...,C_n)集合列表，进入步骤4；

步骤4，在得到语义的相关集合后，通过Word2vec模型得到特征Wi的矢量表示，表示形式为Wi(dis₁,dis₂,...,dis_k)；其中，k是矢量的维数，dis_j是第j维特征W_i的权重，进入步骤5；

步骤5，对训练好的语料集通过Word2vec工具获得其向量空间模型，提取得到C_k和单词W_i的语境C(W_i)集合C_i，C_k(dis_k,1，dis_k,2，...，dis_k,n)和Ci(dis_i,1，dis_i,2，...，dis_i,n)的向量表示，并用余弦距离测量向量C_k与向量C_i的语义相关度，进入步骤6；

步骤6，基于语料库的C_k扩展步骤1中预处理后得到的特征向量，确定特征词t_i是语料中的词；若t_i是，则继续下一步；否则，更改为下一个特征词；将相关语义加入到特征空间中，可得到词C_i和相关语境集合C_i((C₁,R₁)，(C₂,R₂)，...，(C_n,R_n))的特征项t_i，进入步骤7；

步骤7，使用特征权重定义扩展后的短文本集，为了准确衡量扩展后的词对短文本原始语义的影响，结合短文本特征的重要性和扩展语境之间相关性，通过改进后的权重算法计算扩展项的权重值，用weight_i,j来定义扩展项j的权重值，进入步骤8；

步骤8，对短文本的测试集重复以上步骤，可得到测试短文本的向量空间包含原始特征项和上述处理之后扩展的词向量，进入步骤9；

步骤9，对于步骤7得到的短文本训练集扩展后的特征向量集，及步骤8中得到的短文本测试集扩展后的特征向量集，利用KNN分类器做短文本分类，得到测试集短文本的所属标签；

对于分类性能评价指标采用预测准确率Precision、召回率Recall和二者的综合的评价指调和平均数F1来评估实验结果；针对步骤2中的权重改进算法，设置θ的值来权衡扩展的影响，并用分类性能评价指标实验得到最优θ值。

本发明使用神经概率语言模型中Word2vec技术进行词嵌入来训练扩展短文本中的词向量。词嵌入也被称为词向量和词的分布式表示，已被证明在捕获语言中的语义规则方面是有效的，具有相似语义和语法属性的词被投影到向量空间中的相同区域，由此产生的语义特征被用作补充信息来克服短文中语境信息的局限性。词嵌入具有两个优点：维度缩减，上下文相似性。为了更好地利用词嵌入后的向量空间中的词矢量，我们进一步将背景语料与词的语义相关度相结合，并用改进后的特征权重的计算方式去区分词汇的重要程度，去除大多数背景词在语义上没有关联的词汇。

由于信息化时代的数据的大幅度增长，所以采用立足于内存计算的分布式计算系统Spark平台处理大数据，可以有效的解决大数据背景下现有单机环境处理数据存在的吞吐量小、实时性差、难以达到预期效果的缺陷。实验证明，本文的方法可以有效的提高短文本分类精度的有效性。

进一步的，所述步骤2中针对短文本的权重改进算法定义为TF’-IWF，其定义如下所示：

其中，W_ij是短文本d_i中词t_j的权重，tf_ij是d_i中词t_j的词频，idf_j是词t_j的逆文档频率，N是语料库中文档的总数，n_j是训练语料中出现t_j的短文本数量。该改进算法针对短文本的稀疏性特性降低并削弱词频对权重的影响，对词逆文档频率做平方处理，其共同目的都在于降低高频率出现且相对来说无意义的词。考虑采用对数函数log(底数为10)对tf_ij作处理，即log(1+tf_ij)；同时考虑到扩展后的短文本中关键词的相对扩展的集中性,而用对数函数削弱会导致词频降低的太过绝对，词频之间相差会比较大，从而影响短文本分类的性能。所以我们采用引入方根来缓和差异性较大的问题，但是对于缓和的程度即方根的次数θ需要结合实际短文本做实验来确定，即(log(1+tfij))1/θ。该方法可以有效地缓解短文本中计算词权重的偏向程度。

进一步的，所述步骤5中的语义相关度的计算公式如下：

经过以上处理，最终得到的所有单词Wi和语境C(W_i)构成的组合集合((C₁,R₁)，(C₂,R₂)，...，(C_n,R_n))，其中R_i(1<＝i<＝n)是W_i和涉及到的C_K的语义相关度。

进一步的，所述步骤7中计算扩展项的权重值、扩展项的词j的权重值weight_i,j的定义式如下：

其中，tf’iwf_i是短文本中特征词t_i的加权值，R_j是步骤五中所定义的语义相关度的概念；在以上的处理分析可得到短文本的向量空间包含原始特征项和上述处理之后扩展的词向量。

进一步的，所述步骤9种分类评价指标的定义分别为：

准确率Precision定义为：

召回率Recall定义为:

调和平均数F1是为了平衡准确率和召回率而使用的综合评价指标定义为：

针对实验得到θ＝2时，分类结果相较于其他值最优，同时也验证了考虑方根值缓和对数函数削弱词频太过绝对性方面是有意义的。

本发明与现有的技术相比，具有以下优点：

1.针对短文本特征向量较少的问题，提出使用word2vec模型进行词嵌入来训练并扩展短文本的词向量，可获得语义特征用来补充并克服短文本中语境信息的局限性，可以有效的解决短文本的稀疏性和无法深度挖掘短文本所表达的语义。

2.针对扩展后的短文本，即利用词嵌入将背景语料于词的语义相关度相结合的扩展词向量。利用针对短文本改进后的特征权重计算方式去区分词汇的重要程度，去除大多数背景词在语义上没有关联的词汇，该方法可以有效的缓解短文本中计算词权重的偏向程度，可以有效的提高短文本的分类性能。

附图说明

下面结合附图对本发明作进一步的说明。

图1为本发明的流程框图。

图2为本发明中词嵌入扩展短文本的具体操作流程图。

图3为本发明中改进权重算法中θ值选择分类性能比对图。

图4为本发明中改进的关键词权重算法与传统算法性能分类比对图表。

图5为本发明中引入词嵌入与各个权重算法相结合去测试短文本分类的比对图表。

图6为本发明中综合各个高性能方法比较短文本分类的比对图。

具体实施方式

为使本发明的目的、实现方案和优点更为清晰，下面结合附图对本发明的技术方案进行详细说明：

本发明提供的基于Word2vec模型的扩展短文本词特征向量的分类改进方法，其流程如图1所示，具体包含如下步骤:

步骤1，收集语料集做为短文本训练集和测试集.对于短文本训练集采用整理好并分好类的新闻语料库,数据集包括新闻标题及新闻内容，文本采用原新闻标题数据集作为短文本数据集，内容数据集作为背景语料库数据集。

步骤2，对短文本语料集包括短文本训练集,语料库以及短文本测试集都分别做预处理,包括中文版分词，停用词过滤和特征选择，采用比较成熟的中文分词工具结巴分词将短文本收集成分词，之后对停用词进行过滤，通过功能选择保留有代表性的词。

步骤3，构建背景语料库的语义相关语境集合。通过Lucene信息检索包对短文本数据建立索引、搜索文档，通过提取和组合语义相关集合,在已训练好的语料集上提取到语境相关概念集构成的C_k(C₁,C₂,...,C_n)集合列表。

步骤4，在得到语义的相关集合C_k后，通过Word2vec模型得到词向量。该词向量是针对短文本做权重改进算法得到的，分别对预处理后的训练集和测试集的短文本做处理。可得到短文本词W_i的特征项列表及加权值((t₁,tf’iwf₁)，(t2,tf’iwf₂)，...，(t_m,tf’iwf_m))，tf’iwf_i是特征项t_i的加权值，m是短文本中特征项的数量。对于该步骤中所述的针对权重改进算法定义为TF’-IWF，其定义如下所示：

其中，W_ij是短文本d_i中词t_j的权重，tf_ij是d_i中词t_j的词频，idf_j是词t_j的逆文档频率，N是语料库中文档的总数，n_j是训练语料中出现t_j的短文本数量。该改进算法针对短文本的稀疏性特性降低并削弱词频对权重的影响，对词逆文档频率做平方处理，其共同目的都在于降低高频率出现且相对来说无意义的词。考虑采用对数函数log(底数为10)对tf_ij作处理，即log(1+tf_ij)；同时考虑到扩展后的短文本中关键词的相对扩展的集中性，而用对数函数削弱会导致词频降低的太过绝对，词频之间相差会比较大，从而影响短文本分类的性能。所以我们采用引入方根来缓和差异性较大的问题，但是对于缓和的程度即方根的次数θ需要结合实际短文本做实验来确定，即(log(1+tf_ij))^1/θ。该方法可以有效地缓解短文本中计算权重的偏向程度。

步骤5，通过以上步骤4的处理，在得到语义的相关集合C_k后，通过Word2vec模型，可以得到特征Wi的矢量表示，表示形式为Wi(dis₁,dis₂,...,dis_k)；其中k是矢量的维数，disj是第j维特征Wi的权重。

步骤6，对训练好的语料集通过Word2vec工具获得其向量空间模型，然后提取得到语义集合C_k和单词W_i的语境C(W_i)集合C_i，C_k(dis_k,1，dis_k,2，...，dis_k,n)和Ci(dis_i,1，dis_i,2，...，dis_i,n)的向量表示。并用余弦距离测量向量Ck与向量Ci的语义相关度。对于语义相关度的计算公式如下：

步骤7，对语料库C_k扩展预处理后得到的短文本特征向量。确定特征词t_i是语料中的词。如果t_i是，则继续下一步；如果不是，则更改为下一个特征词。将相关语义加入到特征空间中。可得到词C_i和相关语境集合C_i((C₁,R₁)，(C₂,R₂)，...，(C_n,R_n))的特征项t_i。

步骤8，使用改进后的特征权重定义扩展后的短文本集。为了准确衡量扩展后的词对短文本原始语义的影响，我们结合短文本特征的重要性和扩展语境之间相关性。通过改进后的权重算法计算扩展项的权重值，用weight_i,j来定义扩展项j的权重值，定义式如下：

其中，tf’iwf_i是短文本中特征词t_i的加权值，R_j是步骤五中所定义的语义相关度的概念。在以上的处理分析可得到短文本的向量空间包含原始特征项和上述处理之后扩展的词向量。

从以上的处理分析可得到短文本训练集和测试集的向量空间包含原始特征项和上述处理之后扩展的词向量。

步骤9，从步骤7得到的短文本训练集和测试集的扩展后的特征向量集，使用KNN分类器做短文本分类，得到测试集短文本的所属标签。

如图2所示，所述关于词嵌入扩展短文本的具体操作流程图，使用Word2vec提取背景语料库的语义相关语境集合。首先，我们将语料库中的所有语境概念提取为(C₁,C₂,...,C_n)的集合列表；其次，我们为所有词W_i提取所有语义相关的语境集合；最后，用Word2Vec来度量之间的语义相关性。

本发明的改进短文本词频算法对分类性能的影响、以及改进关键词提取算法的分类性能比较和引入词嵌入后各方法对比通过如下实施实验进一步说明：

本发明使用两台Linux操作系统的计算机搭建Spark集群，这两台计算机一个Master节点，一个Slave节点，两台计算机都同时部署Hadoop 2.6.4和Spark2.1.0，Hadoop提供HDFS等底层文件支持。使用整理好分类的新闻语料库，共包含39247篇新闻，分为历史、军事、文化、经济、教育、IT、娱乐、法制等八个类别，测试改进词频对分类结果的影响。对于步骤3中所提的不同方根次数θ值对短文本的分类性能的影响，实验结果如图3所示。从图3中可以看出θ＝2时，分类结果相较于其他值较好，同时也验证了考虑方根值缓和对数函数削弱词频太过绝对性方面是有意义的。

对于改进的关键词提取算法TF’IWF与传统算法性能TFIDF与和TFIWF比较效果，实验结果如图4所示；对于引入词嵌入与各个权重算法相结合去测试短文本分类效果，实验结果如图5所示；为了直观表现本文方法的有效性，将综合比较各个高性能方法测试短文本分类效果，实验结果如图6所示。各个实验对比充分验证了本文的方法可以有效的提高短文本分类性能。

需要说明的是，以上所述仅为本发明的一个具体实施例，并不用以限制本发明，本实施例中所用数据集和攻击模式仅限于本实施例，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种扩展短文本词特征向量的分类改进方法，其特征在于：基于Word2vec模型对短文本进行词嵌入扩展以解决其稀疏性，并将词向量转换成概率语义分布来测量语义关联性；针对短文本扩展后的特征向量，利用改进后的特征权重算法并引入语义相关度去处理扩展后的词特征向量；具体包含如下步骤：

步骤7，使用特征权重定义扩展后的短文本集，并结合短文本特征的重要性和扩展语境之间相关性，通过改进后的权重算法计算扩展项的权重值，用weighti,j来定义扩展项j的权重值，进入步骤8；

2.根据权利要求1所述的扩展短文本词特征向量的分类改进方法，其特征在于：所述步骤2中针对短文本的权重改进算法定义为TF’-IWF，其定义如下所示：

其中，W_ij是短文本d_i中词t_j的权重，tf_ij是d_i中词t_j的词频，idf_j是词t_j的逆文档频率，N是语料库中文档的总数，n_j是训练语料中出现t_j的短文本数量；采用对数函数log(底数为10)对tf_ij作处理，即log(1+tf_ij)；采用引入方根以缓和差异性较大的问题，并结合实际短文本做实验来确定缓和的程度即方根的次数θ需要，即(log(1+tfij))1/θ。

3.根据权利要求1所述的扩展短文本词特征向量的分类改进方法，其特征在于：所述步骤5中的语义相关度的计算公式如下：

4.根据权利要求1所述的扩展短文本词特征向量的分类改进方法，其特征在于：所述步骤7中计算扩展项的权重值、扩展项的词j的权重值weight_i,j的定义式如下：

5.根据权利要求1所述的扩展短文本词特征向量的分类改进方法，其特征在于：所述步骤9种分类评价指标的定义分别为：

准确率Precision定义为：

召回率Recall定义为: