CN110362678A

CN110362678A - 一种自动提取中文文本关键词的方法与装置

Info

Publication number: CN110362678A
Application number: CN201910481863.8A
Authority: CN
Inventors: 王佰玲; 黄纯; 辛国栋; 魏玉良; 何清刚; 王巍
Original assignee: Harbin University Of Technology (weihai) Innovation Pioneer Park Co Ltd; Harbin Institute of Technology Weihai
Current assignee: Harbin University Of Technology (weihai) Innovation Pioneer Park Co Ltd; Harbin Institute of Technology Weihai
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2019-10-22

Abstract

本发明公开了一种自动提取中文文本关键词的方法与装置，该方法包括：首先对文本进行中文分词和去除停用词；然后将单词转化为词向量，然后统计词频，通过词频和词语相似度计算单词在文本中的权重；然后构建基于图模型的文本排序算法，多次迭代计算出顶点得分；并且每次迭代计算过程中对关键词合并，并在图模型中添加新顶点并计算得分，然后对顶点得分进行排序，得分最大的为文本中最重要的关键词，本发明可实现中文文本关键词的准确提取。

Description

一种自动提取中文文本关键词的方法与装置

技术领域

本发明属于数字数据处理技术领域，特别涉及一种自动提取中文文本关键词的方法与装置。

背景技术

随着计算机网络的发展，互联网每天都产生海量的数据，数据的形式也多种多样，主要形式有文本、图片、音频和视频。虽然图片、音视、频数据所占体量大，但所包含的信息较少，文本数据所包含信息较多，也更难挖掘，如何更有效地挖掘文本中的信息，是信息检索和数据挖掘中重要的问题。提取文本关键词的目的是提取文本中最重要、最核心的词，是文本挖掘中的一个基本问题。

目前，文本关键词提取有多种实现方式，基于统计的方法、基于语义分析的方法、基于图模型的方法和基于深度学习的方法。基于统计的方法有统计词频的方法，TF-IDF方法、LDA统计方法，通过统计单词的特征来确定文本中的关键词，但这种方法很难提取到有效的关键词，基于语义的方法有通过计算单词之间的语义相似度，构建语义相似度网络来衡量一个词词的重要程度。基于图模型的方法，最著名的就是基于谷歌网页重要程度计算算法PageRank思想上设计的TextRank算法，通过候选关键词上下文的投票机制来衡量该词的重要性，该算法只需要分析单篇文档就能提取出关键词，该算法简洁并有效。近年来随着深度学习的发展，很多研究学者也将深度学习技术应用到关键词提取中，最典型的就是把词提取问题转化为序列标注问题，通过大量的标记文本，使用基于双向LSTM的文本标注模型，模型输出为标注关键词的文本，从而解决文本关键词提取问题，但是这种方法需要大量的标注文本，并且过于依赖标注文本，不具备通用性。

而且，由于中文的特殊性，很多方法直接把分词结果作为关键词进行提取，这样做文本词提取的准确性依赖于文本分词的准确度，这显然是不科学的。TextRank算法仅仅通过上下文的投票机制来衡量其重要性，没有考虑单词之间的语义信息。

因此，本文提出一种自动提取中文文本关键词的方法与装置，可以有效地提取中文文本的关键词，提高了提取文本关键词的准确度。

发明内容

针对现有技术存在的不足，本发明提供一种自动提取中文文本关键词的方法与装置，使用深度学习的方法表示中文单词的语义信息，计算候选关键词之间的语义相似度和词频信息作为该候选关键词的权重，然后使用改进的基于图模型的文本排序算法对候选关键词进行排序，每次排序后基于单词共现信息对候选关键词进行合并，多次迭代后直到算法收敛，输出每个候选关键词的重要程度，并对其排序，实现中文文本关键词的准确提取。

为了解决上述技术问题，本发明采用的技术方案是：

本发明提供一种自动提取中文文本关键词的方法，包括以下阶段，

预处理阶段：对文本进行中文分词和去除停用词；

权重计算阶段：用大规模语料库训练的word2vec模型将单词转化为词向量，然后统计词频，通过词频和词语相似度计算单词在文本中的权重；

图模型计算阶段：构建基于图模型的文本排序算法，多次迭代计算出顶点得分；

关键词得分计算及排序阶段：每次迭代计算过程中对关键词合并，并在图模型中添加新顶点并计算得分，然后对顶点得分进行排序，得分最大的为文本中最重要的关键词。

进一步的，所述的自动提取中文文本关键词的方法具体包括以下步骤：

(1)对于一段中文文本S_i，首先对该文本进行中文分词，去除停用词和标点符号之后将句子分成单词序列[w₁，w₂，…，w_n]；

(2)然后对其中每个单词转化为词向量[v₁，v₂，…，v_n]，词向量转化使用在大规模中文语料库上训练的word2vec模型，该模型使用深度学习的思想，学习大量核心词的上下文关系，将单词转化为向量，通过计算向量之间的距离来衡量两个单词的相似程度，相似度计算使用向量的欧氏距离计算，对于n维向量x_i和x_j之间的欧式距离为

(3)统计每个关键词在文本中的出现频率freq(w_i)，w_i表示文本中的第i个单词，对于每个关键词w_i，计算w_i与其他单词的相似度，最终计算出w_i在文本中的权重，

权重计算公式为

其中dis(w_i，w₁)+dis(w_i，w₂)+…+dis(w_i，w_n)为词w_i与其他词之间的距离之和，距离越小表示两词之间的相似度越高，关键词出现的频率越高则该词在文本中的权重越高，表示该词在文本中的重要性越高；

(4)然后使用基于图模型的文本排序算法对关键词进行排序，该算法把文本表示一个无向图G(V，E)，V是顶点集合，一个关键词表示为一个顶点v_i，E是无向边的集合，是V×V的子集，边的权重与两顶点的相似度有关，也就是单词之间的相似度，v_i与v_j之间边的权重w_ij的计算公式为

顶点v_i的初始得分为上述单词w_i在文本中的权重weight(w_i)，词顶点v_i最终得分的计算公式为

其中α是阻尼系数，取值范围是0到1，含义是图模型中一顶点指向其他顶点的概率，多次递归迭代计算此公式，最终使其收敛，如果任意顶点两次计算的差值小于阈值的时候认为该计算过程收敛；

(5)在每次迭代计算过程中对关键词合并，然后计算合并后的词在文本中的权重weight(ws)，并在图模型中加入新顶点v_s，并计算顶点得分S(v_s)，并将此顶点加入下一次的迭代过程中；

(6)算法收敛后对顶点得分进行倒序排序，从大到小得到每个关键词的得分，得分最大的为文本中最重要的关键词。

进一步的，关键词合并的步骤是：在原始文本中标注候选关键词，如果候选关键词在文本中相邻出现，认为相邻的两个关键词能合并为一个关键词，计算合并关键词的词向量

本发明还提供一种自动提取中文文本关键词的装置，输入为中文文本，输出为得分最高的K个关键词及其得分，通过网络发送至电子设备，包括：

预处理模块，用于对中文文本进行预处理；

权重计算模块，用于计算出单词在文本中的权重；

图模型计算模块，用于建立图模型，并计算顶点得分；

词合并模块，用于迭代计算过程中对单词进行合并。

进一步的，所述权重计算模块统计每个关键词在文本中的出现频率freq(w_i)，计算每个关键词w_i与其他单词的相似度，最终计算出w_i在文本中的权重，权重计算公式为其中dis(w_i，w₁)+dis(w_i，w₂)+…+dis(w_i，w_n)为词w_i与其他词之间的距离之和，距离越小表示两词之间的相似度越高，关键词出现的频率越高则该词在文本中的权重越高，表示该词在文本中的重要性越高。

进一步的，所述图模型计算模块构建基于图模型的文本排序算法，单词作为图的顶点，根据词频和单词相似度初始化边的权重，然后根据文本排序算法中公式计算顶点得分，迭代计算直到每个顶点两次计算得到得分小于阈值，输出得分最高的K个关键词及其得分；

其中，所述词合并模块在每次迭代过程中对单词进行合并，并且添加图模型新顶点，通过所述图模型计算模块计算新顶点得分，并将此顶点加入下次迭代计算过程中。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述的自动提取中文文本关键词的方法步骤。

与现有技术相比，本发明优点在于：

(1)定义了改进的关键词权重计算公式，结合了单词语义相似度和关键词词频信息，使关键词的权重计算更加科学有效

(2)定义了关键词合并的方式，解决了中文分词效果差的问题，中文分词效果不会影响到关键词提取的效果；

(3)使用了改进的图模型计算方式，使提取关键词的准确度更高；

(4)是之后文本挖掘，文本情感分析，搜索引擎工作的基础，可以对任何时间、任何地点、大多数设备的文本进行关键词提取，应用前景十分广泛。

实用范围包括对文本提取关键词之后的关键词的情感分析，文本语义挖掘，搜索引擎基于关键词对信息进行检索，该装置可以对任何时间、任何地点、大多数设备的文本进行关键词提取。应用前景十分广泛。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明自动提取中文文本关键词的方法流程图；

图2为本发明自动提取中文文本关键词的装置结构框图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的说明。

本发明的自动提取中文文本关键词的方法原理是：使用深度学习的方法表示中文单词的语义信息，计算候选关键词之间的语义相似度和词频信息作为该候选关键词的权重，然后使用基于图模型的文本排序算法对候选关键词进行排序，单词作为图的顶点，根据单词在文本中权重初始化图模型中顶点得分，根据词频和单词相似度初始化边的权重，然后根据文本排序算法中公式计算顶点得分，迭代计算直到每个顶点两次计算得到得分小于阈值，在每次迭代过程中对关键词进行合并，并且添加图模型顶点。最终输出每个候选关键词的重要程度，并对其排序。包括以下阶段：

预处理阶段：对文本进行中文分词和去除停用词。

权重计算阶段：用大规模语料库训练的word2vec模型将单词转化为词向量，然后统计词频，通过词频和词语相似度计算单词在文本中的权重。

图模型计算阶段：构建基于图模型的文本排序算法，多次迭代计算出顶点得分。

结合图l所示流程图，本实施例的自动提取中文文本关键词的方法具体包括以下步骤：

(1)对于一段中文文本S_i，首先对该文本进行中文分词，去除停用词和标点符号之后将句子分成单词序列[w₁，w₂，…，w_n]，此为预处理阶段。

(3)然后统计每个关键词在文本中的出现频率freq(w_i)，w_i表示文本中的第i个单词，对于每个关键词w_i，计算w_i与其他单词的相似度，最终计算出w_i在文本中的权重，

权重计算公式为其中dis(w_i，w₁)+dis(w_i，w₂)+…+dis(w_i，w_n)为词w_i与其他词之间的距离之和，距离越小表示两词之间的相似度越高，关键词出现的频率越高则该词在文本中的权重越高，表示该词在文本中的重要性越高。

其中α是阻尼系数，取值范围是0到l，一般取值是0.85，含义是图模型中一顶点指向其他顶点的概率，多次递归迭代计算此公式，最终使其收敛，如果任意顶点两次计算的差值小于阈值的时候认为该计算过程收敛，阈值取很小的实数值，可以取0.00000l。

(5)在每次迭代计算过程中还血药进行关键词合并，因为中文分词之后的结果作为关键词显然是不正确的，关键词合并的步骤是：在原始文本中标注候选关键词，如果候选关键词在文本中相邻出现，认为相邻的两个关键词能合并为一个关键词，计算合并关键词的词向量然后计算合并后的词在文本中的权重weight(w_s)，并在图模型中加入新顶点v_s，并计算顶点得分S(v_s)，并将此顶点加入下一次的迭代过程中；

作为本发明另一实施例，如图2所示，一种自动提取中文文本关键词的装置，该装置的输入为中文文本，输出为得分最高的K个关键词及其得分，包括：

预处理模块，用于对中文文本进行预处理；

权重计算模块，用于计算出单词在文本中的权重；

图模型计算模块，用于建立图模型，并计算顶点得分；

词合并模块，用于迭代计算过程中对单词进行合并。

整体设计思路为首先从电子设备通过网络传输过来的中文文本，对中文文本进行预处理，然后通过权重计算模块计算出单词在文本中的权重，然后通过图模型计算模块，建立图模型并计算顶点得分，还需要在迭代计算过程中通过词合并模块对单词进行合并，最终计算结果得到关键词得分及排序，通过网络发送给电子设备，这里电子设备可以是各种移动设备或电脑。

其中，权重计算模块统计每个关键词在文本中的出现频率freq(w_i)，计算每个关键词w_i与其他单词的相似度，最终计算出w_i在文本中的权重，权重计算公式为

其中dis(w_i，w₁)+dis(w_i，w₂)+…+dis(w_i，w_n)为词w_i与其他词之间的距离之和，距离越小表示两词之间的相似度越高，关键词出现的频率越高则该词在文本中的权重越高，表示该词在文本中的重要性越高。

图模型计算模块构建基于图模型的文本排序算法，单词作为图的顶点，根据词频和单词相似度初始化边的权重，然后根据文本排序算法中公式计算顶点得分，迭代计算直到每个顶点两次计算得到得分小于阈值，输出得分最高的K个关键词及其得分。其中，所述词合并模块在每次迭代过程中对单词进行合并，并且添加图模型新顶点，通过所述图模型计算模块计算新顶点得分，并将此顶点加入下次迭代计算过程中。

关于该装置部分的实施方法还可以参见实施例1，此处不再一一赘述。

作为本发明另一实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述的自动提取中文文本关键词的方法步骤。此处不再赘述。

综上所述，本发明采用改进的关键词权重计算公式，结合了单词语义相似度和关键词词频信息，使关键词的权重计算更加科学有效；并且定义了关键词合并的方式，解决了中文分词效果差的问题，中文分词效果不会影响到关键词提取的效果；使用了改进的图模型计算方式，使提取关键词的准确度更高。应用范围广泛，包括对文本提取关键词之后的关键词的情感分析，文本语义挖掘，搜索引擎基于关键词对信息进行检索，该装置可以对任何时间、任何地点、大多数设备的文本进行关键词提取。

本发明说明书的各个实施例之间相同或相似部分互相参见即可，每个实施例重点说明的是与其他实施例不同之处。并且，系统实施例的结构仅仅是示意性的，其中所述可分离部件说明的程序模块可以是或不是物理上分开的，实际应用时，可根据需要选择部分或全部模块实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

当然，上述说明并非是对本发明的限制，本发明也并不限于上述举例，本技术领域的普通技术人员，在本发明的实质范围内，做出的变化、改型、添加或替换，都应属于本发明的保护范围。

Claims

1.一种自动提取中文文本关键词的方法，其特征在于，包括以下阶段，

预处理阶段：对文本进行中文分词和去除停用词；

2.根据权利要求1所述的自动提取中文文本关键词的方法，其特征在于，具体包括以下步骤：

权重计算公式为其中dis(w_i，w₁)+dis(w_i，w₂)+…+dis(w_i，w_n)为词w_i与其他词之间的距离之和，距离越小表示两词之间的相似度越高，关键词出现的频率越高则该词在文本中的权重越高，表示该词在文本中的重要性越高；

(5)在每次迭代计算过程中对关键词合并，然后计算合并后的词在文本中的权重weight(w_s)，并在图模型中加入新顶点v_s，并计算顶点得分S(v_s)，并将此顶点加入下一次的迭代过程中；

3.根据权利要求2所述的自动提取中文文本关键词的方法，其特征在于：关键词合并的步骤是：在原始文本中标注候选关键词，如果候选关键词在文本中相邻出现，认为相邻的两个关键词能合并为一个关键词，计算合并关键词的词向量

4.一种自动提取中文文本关键词的装置，其特征在于，输入为中文文本，输出为得分最高的K个关键词及其得分，通过网络发送至电子设备，包括：

预处理模块，用于对中文文本进行预处理；

权重计算模块，用于计算出单词在文本中的权重；

图模型计算模块，用于建立图模型，并计算顶点得分；

词合并模块，用于迭代计算过程中对单词进行合并。

5.根据权利要求4所述的自动提取中文文本关键词的装置，其特征在于，所述权重计算模块统计每个关键词在文本中的出现频率freq(w_i)，计算每个关键词w_i与其他单词的相似度，最终计算出w_i在文本中的权重，权重计算公式为

6.根据权利要求4所述的自动提取中文文本关键词的装置，其特征在于，所述图模型计算模块构建基于图模型的文本排序算法，单词作为图的顶点，根据词频和单词相似度初始化边的权重，然后根据文本排序算法中公式计算顶点得分，迭代计算直到每个顶点两次计算得到得分小于阈值，输出得分最高的K个关键词及其得分；

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-3任一权利要求所述的方法步骤。