CN110162592A

CN110162592A - 一种基于万有引力改进的TextRank的新闻关键词提取方法

Info

Publication number: CN110162592A
Application number: CN201910441723.8A
Authority: CN
Inventors: 张静静; 孙福权; 刘冰玉; 孔超然
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2019-08-23

Abstract

本发明提供一种基于万有引力改进的TextRank的新闻关键词提取方法。本发明方法包括如下步骤：对采集到的新闻数据进行数据预处理；计算数据预处理后的新闻数据中词与词之间的共现频率，并通过CBOW模型训练词向量，构建主题模型得到文档中主题下词的概率分布和文档下主题的分布计算每篇文档下预设词的主题影响力；通过词之间的共现频率、词在文档下主题影响力和词之间的距离计算出词与词之间的吸引力，利用TextRank算法迭代计算得到有序的关键词序列，根据排序好的关键词序列得到指定数量的关键词。本发明充分的利用了文档内部与外部信息,利用该发明提取出的关键词更加准确，客观。本方法不需要大量的标注语料，节省了大量的人力和时间成本。

Description

一种基于万有引力改进的TextRank的新闻关键词提取方法

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于万有引力改进的TextRank的新闻关键词提取方法。

背景技术

我们身处在一个信息爆炸的时代，接收信息方式具有多样性，包括文本、图像、音频等，其中文本信息是信息传播的重要途径之一。由于数据的爆炸式增长，手工提取大量文本信息中的内容难上加难，需要大量的劳动力和专业人员才能够实现对信息的准确提取。那么在这种需求的推动下，高效快速的获取到文本中的主要信息成为了目前的热点问题。

为了能在大量的新闻数据中获取到主要信息内容，研究人员致力于文本分类、文本聚类和文本摘要等研究领域进行探索研究。而这些研究都会涉及到文本处理的基本技术问题--关键词的提取。通过提取到的关键词我们可以了解到文本的核心主题或者主要内容。关键词的准确提取已经成了自然语言处理文本分析的热点研究问题。关键词提取技术目前应用领域广泛，特别是在新闻服务领域发挥着重要作用。用户通过新闻关键词的提取，可以很快了解新闻主题或大致内容，从而判断文章是否为其感兴趣的内容。并且大量研究证明，关键词提取在文本分类、文本摘要提取、文本聚类和信息检索等方面发挥着重要作用。与此同时，由于文本信息的指数性增长，手动提取已不能满足需求、需要借助高效的提取方法获取到准确的、概括性强的关键词。

关键词是对文本的高度概括，通过对新闻文本数据的提取，用户不仅能准确快速的获取到新闻主要信息，而且在信息检索中，可以通过搜索引擎搜索，快速获取到相关关键词的最相关文本，提高用户体验效果。因此关键词提取在新闻领域有着至关重要的作用。

目前现有的关键词提取算法主要有两大类，分别是基于无监督的学习模式和有监督的学习模式。早期的无监督关键词提取方法主要是训练一个分类器，判断所提出的词是否为关键词，但是这样得到的关键词它们的重要程度一样，不具有区分性。基于这种的提取关键词的方法有：决策树、朴素贝叶斯、最大熵、支持向量机等机器学习方法。事实上，在每篇文档中每个词都具有不同的重要性，得到的不具有排序的关键词不具有实用性。为此有人提出用有监督的方法来对关键词进行提取，取得了不错效果，但是基于有监督的学习需要大量的、高质量的标注语料，需要耗费大量的人力物力和大量时间。所以目前无监督提取关键词的方法是主流方法，其不需要标注大量语料。但是现有的关键词提取精度依旧不是很高。专利号为CN109614626A的《基于万有引力模型的关键词自动抽取方法》公开了一种万有引力关键词提取的算法，但是它采用改进的TF-IDF计算词的质量，其融合单词位置、词性、词长等外部特征。虽然基于TF-IDF统计特征简单易行，但是该方法忽略了重要的低频词和文档内部的主题分布语义特征。在提取关键词时准确率依旧有待提高。

发明内容

根据上述提出的技术问题，而提供一种充分的考虑文档中低频词和文档内部主题分布的语义特征的基于万有引力改进的TextRank的新闻关键词提取方法。本发明采用的技术手段如下：

一种基于万有引力改进的TextRank的新闻关键词提取方法，包括如下步骤：

对采集到的新闻数据进行数据预处理，获得用于分析的规整数据；

计算数据预处理后的新闻数据中词与词之间的共现频率，并通过CBOW模型训练词向量，然后构建主题模型得到文档中主题下词的概率分布和文档下主题的分布计算每篇文档下预设词的主题影响力；

通过词之间的共现频率、词在文档下主题影响力和词之间的距离计算出词与词之间的吸引力，利用TextRank算法迭代计算得到有序的关键词序列，根据排序好的关键词序列得到指定数量的关键词。

进一步地，利用网络爬虫采集所述新闻信息，所述数据预处理包括对给定的新闻数据分词、去停用词、去除超链接与符号处理。

进一步地，利用现有CBOW模型对新闻数据进行训练，从而将词表征为实数值向量，实现对文本内容的处理简化为K维向量空间中的向量，从而得到词向量之间的欧式距离：

其中vec_i和vec_j表示词w_i与词w_j的向量。

进一步地，构建隐含主题模型LDA，其中，每篇文档由k个隐含主题分布表示，每个主题有多个词的多项式分布表示，通过以下公式计算文档d中词w的主题影响力。

其中为文档d中主题z的概率，为主题为i下的词w的概率；

通过Gibbs采样得到词主题分布概率和主题文档的分布概率：

其中num(d,z)表示文档d分配给主题z的频数，num(z,w)表示主题z分配给词的频数，α和β分别表示θ^(d)和的超参数，通过结合公式(2)(3)(4)可以得到词w在文档d下的主题影响力。

进一步地，所述万有引力常数具体为：

其中freq(w_i,w_j)是词w_i,词w_j共现的次数，freq(w_i)，freq(w_j)分别是词w_i,词w_j出现在句子中的次数。

进一步地，词与词之间的吸引力通过词在文档中的主题影响力作为词的质量，词向量之间的余弦距离表示词之间的距离，词共现频率为词之间的万有引力常数计算获得，具体为：

其中G_c(i,j)为词之间的共现频率，M(w_i|d)和M(w_j|d)分别为词在文档下主题影响力，d_i,j为词i,j之间的距离；

对文档进行图模型表示，设G＝(V,E)是一个图，其中V是顶点集合，E是边的集合，则文档中的每个词为图模型中的顶点V_i，在同一句中共现的词构成图中的边E_i,j，利用TextRank算法迭代计算各图模型节点的权重，从而得到有序的关键词序列，根据排序好的关键词序列得到指定数量的关键词，

其中，Ws(w_i)为单词w_i的权重得分，In(w_i)表示单词w_i的共现词集合，In(w_j)表示单词w_j的共现词集合,d为阻尼系数，0≤d≤1。

本发明具有以下优点：

本发明所述方法与传统的TextRank、TFIDF方法相比，不仅考虑词的共现频率，而且考虑到了每个词在每篇文档词w的主题影响力和文本的语义关系，利用万有引力公式将这些特征有效的结合起来。克服了单一的计算TF-IDF值忽略文档中的主题影响，充分的利用了文档内部与外部信息。本发明同时考虑到词共现的频率、文本中词的语义关系，更重要的是将词的主题分布的语义关系考虑在内，所以利用该发明提取出的关键词更加准确，客观。基于万有引力改进的TextRank算法得到的结果更加客观准确。相比于人工提取关键词，虽然依旧没有人工提取出的关键词准确，但是利用该方法提取关键词快速，可以为人工提取起到借鉴参考作用，减少人工提取关键词所需时间。与有监督学习方法提取关键词相比，本方法不需要大量的标注语料，节省了大量的人力和时间成本。

基于上述理由本发明可在自然语言处理领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明具体流程图。

图2为本发明实施例中隐含主题模型LDA的概率图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本实施例公开了一种基于万有引力改进的TextRank的新闻关键词提取方法，包括如下步骤：

将新闻文档利用句号、问好、叹号等符号分句。然后对每句以特定窗口的大小滑动，计算词语与词语之间的共现频率。通过词之间的共现频率、词在文档下主题影响力和词之间的距离计算出词与词之间的吸引力，利用TextRank算法迭代计算得到有序的关键词序列，根据排序好的关键词序列得到指定数量的关键词。

本实施例中利用网络爬虫采集所述新闻信息，所述数据预处理包括对给定的新闻数据分词、去停用词、去除超链接与符号处理。

首先获取网站的内容，分析网页上内容的组成，编写爬虫对想要爬取的新闻网页中的链接即a标签进行爬取，通过文本链接对网页中的内容组成部分进行分析，然后编写爬虫爬取网页内容，最终将爬取的数据分别写到txt文件中。对获取到的新闻数据进行预处理，英文句子中的词语间有空格作为分割标识，每个单词能表达独立的语义中文与英文不同，每个句子由一系列的词语紧密向量而成，没有明显的分割符。所以首先要对爬去到的新闻文本分词，在此基础上去停用词、去除超链接与符号等。处理后获得可用于分析的规整数据。

本发明利用已有的词向量训练方法训练词向量，该方法利用处理好的规整数据建立词库，利用CBOW模型在词库上面训练得到词向量。该方法可以将语义相近的词在词向量空间中聚集在一起。通过训练好的词向量即可得到词语之间的余弦距离，从而将词表征为实数值向量，实现对文本内容的处理简化为K维向量空间中的向量，从而得到词向量之间的欧式距离：

其中vec_i和vec_j表示词w_i与词w_j的向量。

如图2所示，通过主题模型计算每个词w对应的词语的主题影响力。LDA模型根据文档数目设置的拟主题数目，利用LDA模型训练，通过Gibbs采样获取构成主题的词分布和文档的主题分布，通过计算的主题的词分布和文档的主题分布计算词语在文档中的主题重要度。将词语在文档中的主题重要度看作万有引力中词的质量，其中词质量越大，在万有引力中词语之间的吸引力就越大。具体地，构建隐含主题模型LDA，其中，每篇文档由k个隐含主题分布表示，每个主题有多个词的多项式分布表示，通过以下公式计算文档d中词w的主题影响力：

其中为文档d中主题z的概率，为主题为i下的词w的概率；

通过Gibbs采样得到词主题分布概率和主题文档的分布概率：

所述万有引力常数具体为：

利用本发明构建每篇文档中词的图模型，在万有引力定律中任意两质点有听过的连心线方向上的力相互吸引，该引力大小与它们质量的乘积成正比与它们距离的平方成反比，与两物体的化学组成和其间介质种类无关。由此本发明利用词与词之间的相互吸引力构建词的图模型，词之间的相互吸引力越强，在图模型中两个词跳转的概率越大。通过计算对应的这三个值，可以利用万有引力公式计算词的图模型中量节点间的权重。

即词与词之间的吸引力通过词在文档中的主题影响力作为词的质量，词向量之间的余弦距离表示词之间的距离，词共现频率为词之间的万有引力常数计算获得，具体为：

将每篇文档表示好的词的图模型的每一列进行归一化处理，利用已有的TextRank算法迭代计算直到收敛，最终得到每个关键词的权重，将得到的结果进行排序，最终可以一个有序的关键词序列，根据需要提取相应数量的关键词。

本发明首先，利用爬虫爬取网络上的新闻数据；然后，对得到的数据进行预处理，包括对文档进分词、去停用词等工作；通过神经网络训练词向量，得到词的向量特征。通过在图模型中添加词之间的万有引力特征，得到词与词节点间的权重，利用TextRank方法对数据进行分析处理，实现对新闻语料准确提取关键词的目的。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于万有引力改进的TextRank的新闻关键词提取方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于万有引力改进的TextRank的新闻关键词提取方法，其特征在于，利用网络爬虫采集所述新闻信息，所述数据预处理包括对给定的新闻数据分词、去停用词、去除超链接与符号处理。

3.根据权利要求1所述的基于万有引力改进的TextRank的新闻关键词提取方法，其特征在于，利用现有CBOW模型对新闻数据进行训练，从而将词表征为实数值向量，实现对文本内容的处理简化为K维向量空间中的向量，从而得到词向量之间的欧式距离：

其中vec_i和vec_j表示词w_i与词w_j的向量。

4.根据权利要求1所述的基于万有引力改进的TextRank的新闻关键词提取方法，其特征在于，构建隐含主题模型LDA，其中，每篇文档由k个隐含主题分布表示，每个主题有多个词的多项式分布表示，通过以下公式计算文档d中词w的主题影响力：

其中为文档d中主题z的概率，为主题为i下的词w的概率；

通过Gibbs采样得到词主题分布概率和主题文档的分布概率：

其中num(d，z)表示文档d分配给主题z的频数，num(z，w)表示主题z分配给词的频数，α和β分别表示θ^(d)和的超参数，通过结合公式(2)(3)(4)可以得到词w在文档d下的主题影响力。

5.根据权利要求1或4所述的基于万有引力改进的TextRank的新闻关键词提取方法，其特征在于，所述万有引力常数具体为：

其中freq(w_i，w_j)是词w_i，词w_j共现的次数，freq(w_i)，freq(w_j)分别是词w_i，词w_i出现在句子中的次数。

6.根据权利要求5所述的基于万有引力改进的TextRank的新闻关键词提取方法，其特征在于，词与词之间的吸引力通过词在文档中的主题影响力作为词的质量，词向量之间的余弦距离表示词之间的距离，词共现频率为词之间的万有引力常数计算获得，具体为：

其中G_c(i，j)为词之间的共现频率，M(w_i|d)和M(w_j|d)分别为词在文档下主题影响力，d_i，j为词i，j之间的距离；

对文档进行图模型表示，设G＝(V，E)是一个图，其中V是顶点集合，E是边的集合，则文档中的每个词为图模型中的顶点V_i，在同一句中共现的词构成图中的边E_i，j，利用TextRank算法迭代计算各图模型节点的权重，从而得到有序的关键词序列，根据排序好的关键词序列得到指定数量的关键词，

其中，Ws(w_i)为单词w_i的权重得分，In(w_i)表示单词w_i的共现词集合，In(w_j)表示单词w_j的共现词集合，d为阻尼系数，0≤d≤1。