CN106372064B

CN106372064B - 一种文本挖掘的特征词权重计算方法

Info

Publication number: CN106372064B
Application number: CN201611020416.5A
Authority: CN
Inventors: 崔宪坤; 李建强; 赵申荷
Original assignee: Beijing University of Technology
Current assignee: SHANGHAI DIGITAL CHINA INFORMATION TECHNOLOGY SERVICE Co.,Ltd.
Priority date: 2016-11-18
Filing date: 2016-11-18
Publication date: 2019-04-19
Anticipated expiration: 2036-11-18
Also published as: CN106372064A

Abstract

本发明提供了一种文本挖掘的特征权重计算方法，将文本特征词的向量表征为分布式表达的实数值向量；根据表征特征词的分布式表达实数值向量，计算获取与该特征词关联度较大的特征词集；通过TextRank算法计算特征词的权重时，将两两特征词间的关联度加入到特征值权重的计算中；通过TextRank算法计算与该特征词关联度较大的其他特征词权重，即特征词集，并同样在计算中加入两两特征词间的关联度。采用本发明的技术方案，可以显著提高文本特征词权重的计算准确率，并能应用于文本的特征词抓取，文本分类和文本聚类中。

Description

一种文本挖掘的特征词权重计算方法

技术领域

本发明是对现有的一种文本挖掘的特征权重计算方法的改进，可应用于文本的特征词抓取，文本分类和文本聚类中。

背景技术

在当今的信息互联网时代，海量的文本信息在时刻涌现，而基于机器学习的文本挖掘技术变得尤为重要。在自然语言处理中，将文本表示成向量空间模型(VSM:VectorSpace Model)是文本挖掘的基础。而在建立向量空间模型的过程中，特征权重的表示尤为重要，权重表示的优劣将直接影响到文本分类的精确度。在文本特征权重计算研究中，学者们已提出多种有效的方法，其中TextRank算法由于相对简单，且有较高的准确率和召回率，是使用最广泛的权重表示方法之一。

TextRank算法基于PageRank，用于为文本生成关键字和摘要。其论文是：MihalceaR,Tarau P.TextRank:Bringing order into texts[C].Association for ComputationalLinguistics,2004.PageRank最开始用来计算网页的重要性。整个www可以看作一张有向图图，节点是网页。如果网页A存在到网页B的链接，那么有一条从网页A指向网页B的有向边。构造完图后，使用下面的公式：

S(V_i)是网页i的中重要性(PR值)。d是阻尼系数，一般设置为0.85。In(V_i)是存在指向网页i的链接的网页集合。Out(V_j)是网页j中的链接存在的链接指向的网页的集合。|Out(V_j)|是集合中元素的个数。

PageRank需要使用上面的公式多次迭代才能得到结果。初始时，可以设置每个网页的重要性为1。上面公式等号左边计算的结果是迭代后网页i的PR值，等号右边用到的PR值全是迭代前的。

使用TextRank提取关键字，是将原文本拆分为句子，在每个句子中过滤掉停用词(可选)，并只保留指定词性的单词(可选)。由此可以得到句子的集合和单词的集合。每个单词作为pagerank中的一个节点。设定窗口大小为k，假设一个句子依次由下面的单词组成：

Sentence＝{w1,w2,w3,w4,w5,...,wn}

w1,w2,...,wk、w2,w3,...,wk+1、w3,w4,...,wk+2等都是一个窗口。在一个窗口中的任两个单词对应的节点之间存在一个无向无权的边。

基于上面构成图，可以计算出每个单词节点的重要性。最重要的若干单词可以作为关键词。

Word2vec是Google在2013年年中开源的一款将词表征为实数值向量的高效工具,其利用深度学习的思想，可以通过训练，把对文本内容的处理简化为K维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多NLP相关的工作，比如聚类、找同义词、词性分析等等。如果换个思路，把词当做特征，那么Word2vec就可以把特征映射到K维向量空间，可以为文本数据寻求更加深层次的特征表示。

Word2vec使用的是Distributed representation的词向量表示方式。Distributed representation最早由Hinton在1986年提出。其基本思想是通过训练将每个词映射成K维实数向量(K一般为模型中的超参数)，通过词之间的距离(比如cosine相似度、欧氏距离等)来判断它们之间的语义相似度。

发明内容

本发明提出了一种基于Word2Vec改进的TextRank算法用于文本的特征值计算方法包括：

步骤1、将文本特征词的向量表征为分布式表达的实数值向量；

步骤2、根据表征特征词的分布式表达实数值向量，计算获取与该特征词关联度较大的特征词集；

步骤3、通过TextRank算法计算特征词的权重时，将两两特征词间的关联度加入到特征值权重的计算中；

步骤4、通过TextRank算法计算与该特征词关联度较大的其他特征词权重，即特征词集，并同样在计算中加入两两特征词间的关联度。

作为优选，所述的特征词是文本中最能代表其所在文本主题的分词，在特征词权重计算中，特征词对其所在文本主题关联越大，其权重越高。

作为优选，步骤3为基于Word2Vec改进的TextRank算法用于文本的特征值计算方法，其中将两两特征词间的关联度加入到TextRank特征值权重计算公式如下：

S(V_i)是分词V_i的重要性(PR值)；d是阻尼系数，一般设置为0.85；ln(V_i)是存在指向分词V_i的分词集合；Out(V_i)是分词j中存在的指向的分词的集合；|Out(V_i)|是集合中元素的个数；Sim(V_i,V_j)为通过Word2Vec计算得到的V_i与V_j之间的相似度。

作为优选，步骤4为基于Word2Vec改进的TextRank算法用于文本的特征值计算方法，其中通过TextRank算法计算与该特征词关联度较大的其他特征词权重，即特征词集的权重，并同样在计算中加入两两特征词间的关联度，其公式如下：

分词V_im是分词V_i通过Word2Vec计算得到的与分词V_i关联度较高的前n个分词之一，即：{V_i,{V_i1,V_i2,V_i3,...,V_in}}，V_im∈{V_i1,V_i2,V_i3,...,V_in}；S(V_im)是分词V_im的重要性(PR值)；d是阻尼系数，一般设置为0.85；ln(V_i)是存在指向分词V_i的分词集合；Out(V_i)是分词j中存在的指向的分词的集合；|Out(V_i)|是集合中元素的个数；Sim(V_im,V_j)为通过Word2Vec计算得到的V_im与V_j之间的相似度。

改进的计算方法主要有两点：

1、在原算法的计算中增加了两个分词之间相似度这一变量(Sim)，可以增加相近词投票的权重，减少无关词投票的权重。

2、在分词Vj给分词Vi投票时，添加了对分词Vi相近词的投票。

本发明相对于原有的基于TextRank算法计算特征词权重的方法，在原有的算法基础上加入了特征词间的关联度，可以显著提高文本特征词权重的计算准确率，并能应用于文本的特征词抓取，文本分类和文本聚类中，具有商业实用价值。

附图说明

结合附图，从下面对本发明实施例的详细描述，将更好地理解本发明，附图中类似的标号指示类似的部分，其中：

图1示出了根据基于Word2Vec改进的TextRank算法用于文本的特征值计算方法做特征词权重计算的简要流程框图。

具体实施方式

下面将详细描述本发明各个方面的特征和示例性实施例。下面的描述涵盖了许多具体细节，以便提供对本发明的全面理解。但是，对于本领域技术人员来说显而易见的是，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更清楚的理解。本发明绝不限于下面所提出的任何具体配置和算法，而是在不脱离本发明的精神的前提下覆盖了相关元素、部件和算法的任何修改、替换和改进。

如图1所示，根据本发明一个基于Word2Vec改进的TextRank算法用于文本的特征值计算方法包括输入语料S1，语料清洗(去重，过滤质量差的语料等)S2，分词操作并去掉停用词S3，使用word2vec算法训练词向量并保存S4，将处理后的测试文本中的分词通过word2vec查找并设置每个分词对应的词向量S5，通过word2vec，根据每个分词的词向量查找与其关联度最高的前n个，并组成键值对集合S6，使用改进的TextRank方法计算分词权重S7，分词权重变化幅度是否趋于平稳S8等。它们的功能如下：

输入语料S1是训练语料和测试语料的入口。Word2Vec是一种无监督的机器学习算法，通过大量的训练语料和测试语料来生成每个分词的向量。此处的训练语料是在步骤使用word2vec算法训练词向量并保存S4中使用。

训练语料清洗(去重，过滤质量差的语料等)S2是对训练语料的处理，去掉训练语料中重复的文本，并过滤掉质量差(文本内容少，或无关内容太多)的语料，通过步骤S2的处理，可以提升word2vec在生成词向量时的效果。

分词操作并去掉停用词S3是对测试语料的操作，通过去掉文本中的停用词可以提高基于Word2Vec改进的TextRank算法用于文本的特征值计算质量，提升对高质量特征词的认知。

使用word2vec算法训练词向量并保存S4是通过Google在2013年年中开源的一款将词表征为实数值向量的高效工具word2vec，通过训练语料和测试语料，把对文本内容的处理简化为K维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度，是将处理后的测试文本中的分词通过word2vec查找并设置每个分词对应的词向量S5的基础。

将处理后的测试文本中的分词通过word2vec查找并设置每个分词对应的词向量S5是通过训练将每个词映射成K维实数向量(K一般为模型中的超参数)。

通过word2vec，根据每个分词的词向量查找与其关联度最高的前n个，并组成键值对集合S6是通过表示词的词向量之间的距离(比如cosine相似度、欧氏距离等)来判断它们之间的语义相似度，并组成键值对集合，即：{V_i,{V_i1,V_i2,V_i3,...,V_in}}。

使用改进的TextRank方法计算分词权重S7是通过基于Word2Vec改进的TextRank算法用于文本的特征值计算方法，即通过公式2和公式3进行文本的特征值权重计算。

分词权重变化幅度是否趋于平稳S8是对每次使用改进的TextRank方法计算分词权重S7后，分词权重的变化进行判断。如果分词权重变化幅度小于设定的阈值，则终止循环，否则重复使用改进的TextRank方法计算分词权重S7，直至权重变化幅度小于设定的阈值。

本发明可以以其他的具体形式实现，而不脱离其精神和本质特征。当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims

1.一种文本挖掘的特征权重计算方法，包括：

步骤3、通过TextRank算法计算特征词的权重时，将两两特征词间的关联度加入到特征值权重的计算中；其中，步骤3为基于Word2Vec改进的TextRank算法用于文本的特征值计算方法，其中将两两特征词间的关联度加入到TextRank特征值权重计算公式如下：

S(V_i)是分词V_i的重要性(PR值)；d是阻尼系数，一般设置为0.85；ln(V_i)是存在指向分词V_i的分词集合；Out(V_i)是分词j中存在的指向的分词的集合；|Out(V_i)|是集合中元素的个数；Sim(V_i,V_j)为通过Word2Vec计算得到的V_i与V_j之间的相似度；

步骤4、通过TextRank算法计算与该特征词关联度较大的其他特征词权重，即特征词集，并同样在计算中加入两两特征词间的关联度；其中，步骤4为基于Word2Vec改进的TextRank算法用于文本的特征值计算方法，其中通过TextRank算法计算与该特征词关联度较大的其他特征词权重，即特征词集的权重，并同样在计算中加入两两特征词间的关联度，其公式如下：

2.根据权利要求1所述的文本挖掘的特征权重计算方法，其特征在于，所述的特征词是文本中最能代表其所在文本主题的分词，在特征词权重计算中，特征词对其所在文本主题关联越大，其权重越高。