CN109614626A

CN109614626A - 基于万有引力模型的关键词自动抽取方法

Info

Publication number: CN109614626A
Application number: CN201811566766.0A
Authority: CN
Inventors: 吕学强; 董志安; 游新冬
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2019-04-12

Abstract

本发明涉及一种基于万有引力模型的关键词自动抽取方法，包括：步骤1)构建通用词表；步骤2)表示词语质量；步骤3)计算词语距离；步骤4)计算词间引力。本发明分别从词语的质量表示与距离计算两方面改进传统的万有引力模型，克服了传统万有引力模型方法因词语质量表示单一而无法客观反映词语初始重要性的不足，综合语义距离和依存句法距离的优势改善了对比方法中依据位置偏移距离计算引力的缺陷，本发明方法在3GPP技术规范和公开数据集上均取得了优于传统方法的关键词提取效果，无需制定繁琐的模板规则，也不依赖于标注样本，可以很好地满足实际应用的需要。

Description

基于万有引力模型的关键词自动抽取方法

技术领域

本发明属于文本处理技术领域，具体涉及一种基于万有引力模型的关键词自动抽取方法。

背景技术

关键词抽取是信息检索、文本分类聚类、自动摘要、机器翻译等自然语言处理任务的基石。目前国内外自动关键词抽取方法大体分为有监督学习方法和无监督学习方法两大分支。其中，有监督学习方法通常将关键词抽取问题转化为机器学习中的分类问题，这类方法无一例外地依赖于训练语料的标注质量和规模，人工成本高，分类结果容易出现过拟合现象，难以满足实际应用中大规模无标注文本的关键词提取需求。

目前关键词抽取方法多集中于无监督学习领域。近年来，逐渐兴起基于万有引力模型的关键词抽取方法，其本质也是一种基于图的无监督学习方法。该方法主要利用万有引力定律对文档词汇关系建模，认为单词对之间引力强度越大则越能概括出文档重要信息，先将文档看作由一系列具有不同引力强度的单词构成的无向网络图，图中每一个顶点由单词和相应的质量构成，顶点之间的边表示单词在一定窗口范围内满足共现关系，边的权重为单词距离大小，然后由万有引力公式计算出词间引力并排序，将引力大小超过阈值的单词对识别为关键词。现有技术的一种技术方案将无向图中任意两个共现节点的频率看作质量，然后引入dice系数并结合语义距离计算图节点之间的万有引力，将引力大小作为节点间边的权重，最后通过迭代投票机制输出TopN个关键词。这种方法虽然独立于语料库，不依赖于外部文本的数量和类型，但将出现在文档不同位置处的同一词汇平等对待，对部分出现在重要位置上的低频关键词不利，同时，仅用频率刻画质量也无法表达词语语义聚集信息和文档分布特性对引力大小的影响。现有技术的另一种技术方案是通过词汇在文档中出现的频率和单词所包含的字符数目体现单词语义的重要性，其认为一个单词如果包含了较长的字符集则其与文档中包含的信息有较高的相关度，由此将单词的频率和包含的字符数目看作质量，将单词在整个文本中的相对位置偏移量作为词间距离。这种方法虽然对文档中相对位置偏移量较小的复杂词汇有利，但对于文档中蕴含丰富信息量的简单缩写词不公平，同时相对位置偏移量也无法体现语义因素对词间引力的影响。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于提供一种可避免出现上述技术缺陷的基于万有引力模型的关键词自动抽取方法。

为了实现上述发明目的，本发明提供的技术方案如下：

一种基于万有引力模型的关键词自动抽取方法，包括：

步骤1)构建通用词表；步骤2)表示词语质量；步骤3)计算词语距离；步骤4)计算词间引力。

进一步地，在步骤1)中，结合信息熵原理引入词频-文档分布熵的概念自动构建通用词表，将单词w看作随机变量，词频-文档分布熵是指单词w在文档集中分布状态的不确定性度量。

进一步地，在步骤1)中，设包含n个文本的文档集表示为D＝{d₁，d₂...d_i...d_n}，记单词w的词频-文档分布熵为H(w)，则H(w)计算公式为

其中P(w，d_i)为单词w在文档d_i中出现的概率，根据最大似然估计法，P(w，d_i)计算公式为

f(w，d_i)为单词w在文档d_i中出现的次数。

进一步地，在步骤2)中，以当前文本中最大词长为参考标准，以w_i词长与最大词长的比值为基数，同时结合单词内部大写字母个数与词长之比计算长度权重Len(w_i)，

其中，u为大写字母个数，为单词词长，l_max为当前文本中的最大词长；计算词语外部重要性Ex(w_i)的公式为

fre(w_i)为单词w_i在当前文档中出现的频率，N表示文档集中的文本总数，为包含单词w_i的文本数目；

将词语关联度作为单词的内部重要性度量，综合内部重要性和外部重要性表示单词w_i的质量M(w_i)。

进一步地，词间引力大小F计算公式为

其中，m_i、m_j分别对应单词w_i、w_j的质量，r为w_i与w_j之间的词语距离；G的计算公式为

fre(w_i，w_j)为单词w_i和w_j在同一句子中的共现频率，fre(w_i)、fre(w_j)分别对应w_i、w_j在文档中出现的频率；

设G(V，E)是一个以V为顶点，以E为边的无向网络图，其中V＝{w₁，w₂，...，w_N}为构成网络节点的文档词汇集，为在同一句中共现的词汇构成的边集，对图中任意一个节点w_i对应的度D_i表示为：

D_i＝|{(w_i，w_j)：(w_i，w_j)∈E，w_i，w_j∈V}|；

节点w_i的聚集度K_i表示为K_i＝|{(w_j，w_k)：(w_i，w_j)∈E，(w_i，w_k)∈E，w_i，w_j，w_k∈V}|，采用聚集度系数c_i来刻画节点w_i的局部连接特性，c_i的计算公式为

记节点w_i的词语关联度为CF(w_i)，则CF(w_i)计算公式为

单词w_i的质量M(w_i)计算公式为

M(w_i)＝Ex(w_i)×CF(w_i)。

进一步地，在步骤3)中，结合依存句法距离和词汇语义距离来衡量词语距离；针对依存句法距离，首先将句子的依存句法分析结果转化为无向句法依存关系图G’(V，E)，其中V为以单词和位置编号为节点构成的顶点集，E为单词间句法依存关系构成的边集；依存句法距离为句法依存关系图G’中任意两个连通顶点之间的最短依存路径长度；

若图G’中任意两个顶点V_i和V_j之间存在最短连通路径，V_i依次经过k(k≥1)条不重复的边到达V_j，则V_i与V_j之间的依存句法距离L(i，j)为：L(i，j)＝k；将依存句法距离转化为利用经典的Floyd算法求解连通节点之间的最短路径长度问题；

将每个词表示为m维分布式词向量，对任意两个邻接词w_i和w_j，其词向量分别表示为w_i(x₁，x₂…x_m)，w_j(y₁，y₂…y_m)，w_i和w_j之间的语义距离R(i，j)计算公式为

进一步地，在步骤4)中，以候选词集为顶点构建共现网络图G(V，E)，E为候选词共现关系构成的边集；将每一个顶点的初始权重赋值为单词自身的质量，以单词间的引力大小作为边的权重；

结合步骤2)和步骤3)分别计算出词语的质量和距离大小，得到图节点词汇w_i和w_j之间的引力计算公式为

用简化的权重递归分配思想计算顶点得分，公式为

其中，S(w_i)为单词w_i的权重得分，N(w_i)表示单词w_i的共现词集合，d为阻尼系数，0≤d≤1，对所有图节点进行反复迭代，直到任意一个图节点得分误差小于设定阈值，此时，共现网络图G(V，E)中的每一个单词节点均有一个稳定的权重得分值。

进一步地，在计算原候选词集中每个元素的权重得分时，对于短语型的候选关键词ck_i，其组成词分别为cw₁，cw₂...cw_i…cw_m，将ck_i组成词得分和的平均值作为其权重得分，记为S(ck_i)，其计算公式为

计算出候选词集中每个元素的权重得分后，将权重得分从高到低排序，将每一篇文档得分排名TopK的候选词识别为关键词，K的大小由相应数据集包含的平均关键词数量向上取整后的值决定。

进一步地，d的值设置为0.85，设定阈值为0.0001。

一种基于万有引力模型的关键词自动抽取方法，包括：首先对实验语料进行预处理操作，计算所有单词的词频-文档分布熵，将熵值大于过滤阈值的词汇加入通用词表；过滤语料通用词后主要筛选名词、动词以及形容词作为候选词；然后融合单词位置、词性、词长特征改进经典的TF-IDF方法获得词语外部重要性；针对候选词构建共现网络图，计算词语关联度并将其作为词语内部重要性度量，然后结合词语内部重要性和外部重要性表示词语质量，并将图节点初始权重赋值为质量大小，同时在语义距离的基础上引入依存句法距离；最后利用改进的万有引力公式计算词间引力，结合迭代投票的图排序机制输出若干个节点作为关键词。

本发明提供的基于万有引力模型的关键词自动抽取方法，分别从词语的质量表示与距离计算两方面改进传统的万有引力模型，克服了传统万有引力模型方法因词语质量表示单一而无法客观反映词语初始重要性的不足，同时，综合语义距离和依存句法距离的优势改善了对比方法中依据位置偏移距离计算引力的缺陷，本发明方法在3GPP技术规范和公开数据集上均取得了优于传统方法的关键词提取效果，无需制定繁琐的模板规则，也不依赖于标注样本，可以很好地满足实际应用的需要。

附图说明

图1为本发明的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于万有引力模型的关键词自动抽取方法，包括：

首先对实验语料进行文本分句、NLTK词性标注等预处理操作，计算所有单词的词频-文档分布熵，将熵值大于过滤阈值的词汇加入通用词表；过滤语料通用词后主要筛选名词、动词以及形容词作为候选词；

然后融合单词位置、词性、词长特征改进经典的TF-IDF方法获得词语外部重要性；针对候选词构建共现网络图，计算词语关联度并将其作为词语内部重要性度量，然后结合词语内部重要性和外部重要性表示词语质量，并将图节点初始权重赋值为质量大小，同时在语义距离的基础上引入依存句法距离；

最后利用改进的万有引力公式计算词间引力，结合迭代投票的图排序机制输出TopK个节点作为关键词。

一篇文档中总有几个重要的词能将整个文本内容串连起来。具有相似分布性模式的词汇更趋向于在语义上聚集在一起。因此，构成任意一篇文档的所有词汇并不是孤立或偶然存在的。万有引力模型假设文档的中心主旨可以被一组或多组具有较强引力的重要词汇概括出来，这些重要词汇相互之间存在较强的吸引力并能概括出整个文档的框架，而其他“不重要”的词虽然概括能力较差，但也被构成文档核心思想的关键词以一种较弱的引力所吸引。

词语之间的这种引力强度可以客观地反映出其在文档中的重要性，运用物理学中经典的万有引力定律对词语引力关系建模，则词间引力大小F可以用公式(1)计算。

其中，m_i、m_j分别对应单词w_i、w_j的质量，r为w_i与w_j之间的词语距离。G原本为万有引力常量系数。dice系数可以用在NLP领域衡量两个词以一种模式共现的概率。因此，一般采用dice系数替换引力系数G，G的计算方法如公式(2)所示。

fre(w_i，w_j)为单词w_i和w_j在同一句子中的共现频率，fre(w_i)、fre(w_j)分别对应w_i、w_j在文档中出现的频率。不难看出，词间引力大小F正比于词语质量，反比于词间距离。因此，合理地表示词语质量、选取恰当的距离对刻画词间引力大小的具有决定性的意义，同时也是提高万有引力模型关键词识别效果的核心所在。

文档中所有词汇以一种复杂网络的形式相互关联，词语关联度在全局范围内反映出词间连接性紧密度，在局部范围内反映出语义聚集性强弱程度。这意味着词汇网络图中关联度越高的词语越具有代表性。因此，本发明将词语关联度因素作为节点词汇的内部重要性度量指标。

设G(V，E)是一个以V为顶点，以E为边的无向网络图，其中V＝{w₁，w₂，...，w_N}为构成网络节点的文档词汇集，为在同一句中共现的词汇构成的边集，对图中任意一个节点w_i对应的度D_i可以表示为：

D_i＝|{(w_i，w_j)：(w_i，w_j)∈E，w_i，w_j∈V}| (3)

同样，节点w_i的聚集度K_i可以表示为K_i＝|{(w_j，w_k)：(w_i，w_j)∈E，(w_i，w_k)∈E，w_i，w_j，w_k∈V}|，本发明采用聚集度系数c_i来刻画节点w_i的局部连接特性，c_i的计算方法可以用公式(4)计算。

记节点w_i的词语关联度为CF(w_i)，则CF(w_i)可以利用公式(5)计算。

公式(5)前半部分反映出网络中所有聚集在w_i周围的节点彼此之间的关联密集状况，后半部分反映出网络节点w_i本身的中心聚集性强度，两者相互结合共同反映出节点w_i在词汇网络图中的内部重要性程度，实验设置参数α为0.5。

具体地，基于万有引力模型的关键词自动抽取方法，包括以下步骤：

步骤1)基于词频-文档分布熵的通用词表构建

考虑到实验语料中的3GPP技术规范具有明显的领域特点，其中不仅包含类似于“if”、“at”、“not”等简单停用词，而且还包含着贯穿于绝大多数3GPP技术规范的通用词，例如“Figure”、“version”、“release”等3GPP技术规范特有的且不具备代表性和重要性的词。经观察发现，无论是简单停用词还是语料内部特有的通用词，它们在整个文档集中均表现出高度的流通性，且一般不能概括或抽象出文本关键信息。本发明将这些词统称为通用词。

显然，如果仅选用人工搜集的普通停用词表则覆盖度不够全面。因此，为了尽量降低通用词对关键词抽取任务的干扰，本发明结合信息熵原理引入词频-文档分布熵的概念自动构建通用词表。信息熵最早由Shannon引入到信息论中，用于衡量离散型随机变量的不确定性，信息熵值越大则表示随机变量对应的不确定性越大。同理，本发明将单词w看作随机变量，给出词频-文档分布熵的定义如下。

定义1词频-文档分布熵是指单词w在文档集中分布状态的不确定性度量。

设包含n个文本的文档集表示为D＝{d₁，d₂...d_i...d_n}，记单词w的词频-文档分布熵为H(w)，则H(w)计算方法如公式(6)所示。

其中P(w，d_i)为单词w在文档d_i中出现的概率，根据最大似然估计法，P(w，d_i)可以由公式(7)计算。

f(w，d_i)为单词w在文档d_i中出现的次数。可以看出，若包含w的文档集越丰富且w在文档集中分布越均匀，则词频-文档分布熵H(w)越大，同时表明w在文档集D中分布的不确定性越大，因而w越有可能是文档集中不具重要性的通用词。

步骤2)词语质量表示

由于词间引力正比于词语质量，引力的大小通过权重迭代分配机制直接影响到词语最终的权重排序结果，因此，选择合理的方式表示词语质量对提高万有引力模型的关键词抽取效果至关重要。由于现有技术的技术方案中仅用频率和词长度量词语质量无法充分表达词语的初始重要性差异，因此本发明同时从词语的外部重要性和内部重要性两方面表示词语质量。

词语的外部重要性表现为单词在整个文档集中具有较好的区分能力。经典的TF-IDF方法认为在当前文档中出现频率较高且在其他文档中较少出现的单词更能体现当前文档的主旨，忽略了不同位置、词性、词长特征对重要性的影响。因此本发明尽可能利用单词在语料中的公共特征对频率加权改进TF-IDF获得词语外部重要性，考虑到出现在标题、括号或引号之间以及含有冒号、破折号的句子中的单词往往表示强调、解释、特指概念，应该赋予相对更高的权重，记这些特殊位置为SP，则位置权重Loc(w_i)计算公式如(8)所示。

经过多次实验，确定λ参数最佳取值为0.25。不同词性的单词成为关键词的概率是不一样的，据此，不同词性候选词权重Pos(w_i)应该满足：Pos(w_i∈名词)＞Pos(w_i∈动词)＞Pos(w_i∈形容词)，其他词性成为关键词的概率极小不予考虑。实验将w_i词性分别为名词、动词、形容词时对应的权重Pos(w_i)依次设置为1.0、0.8、0.3。

单词长度和信息量成正相关，为了兼顾具有特定含义而又不占据长度优势的简单缩写词，同时减少绝对词长的极端情形带来的误差，本发明以当前文本中最大词长为参考标准，以w_i词长与最大词长的比值为基数，同时结合单词内部大写字母个数与词长之比计算长度权重Len(w_i)，如公式(9)所示。

其中，u为大写字母个数，为单词词长，l_max为当前文本中的最大词长。综合上述三个因素对经典的TF-IDF改进，计算词语外部重要性Ex(w_i)，如公式(10)所示。

式中fre(w_i)为单词w_i在当前文档中出现的频率，N表示文档集中的文本总数，为包含单词w_i的文本数目。

词语的内部重要性表现为单词在网络图中与邻节点词汇之间的全局连接性和局部聚集性强弱程度。因此，本发明将词语关联度作为单词的内部重要性度量，综合内部重要性和外部重要性表示单词w_i的质量M(w_i)，计算方法如公式(11)所示。

M(w_i)＝Ex(w_i)×CF(w_i) (11)

采用这种方法可以减少单一因素对词语质量表示的不足，方法的有效性将在对比实验中验证。

步骤3)词语距离计算

词语之间的引力与词语距离成反比，因此，选取合适的距离对引力的计算也至关重要。现有技术的方案中，在一定窗口范围内计算词汇在句中的物理位置差作为词间距离，不足之处在于物理位置相邻的词汇未必具有依存关联关系，且窗口大小也限制了物理位置相距较远但仍存在依存关联关系的词汇引力计算，同时欠缺考虑词间语义信息。例如：利用Stanford句法分析器对复杂句“if a HARQ RTT Timer expires in this subframe andthe data in the soft buffer of the corresponding HARQ process was notsuccessfully decoded”进行句法分析，部分结果如下：

①and(expires-6，decoded-25)

②nsubj(expires-6，Timer-5)

③nmod(expires-6，subframe-9)

④nsubjpass(decoded-25，data-12)…

可以发现，expires和decoded的物理位置跨度为19，接近句子长度，若不在选定的窗口范围内，则两者之间的引力忽略不计，但事实上两者仍存在直接的并列关系。由于词语间的句法依存关系能够客观反映出词语语义连贯性，因此依存句法距离的远近也能影响词语之间的引力大小。上例中每一组虽然物理位置不一定相邻，但仍然满足直接的句法依存关系，因此可将依存距离看作1。同时考虑到还存在一些间接依存关系，例如①中decoded和②中Timer虽然没有直接依存关系，但两者可以通过expires间接联系起来，跨越距离为2，则①中decoded与expires的依存关系强度较与Timer的依存关系强度更强烈。

为了更好地衡量词间引力大小，本发明同时结合依存句法距离和词汇语义距离来衡量词语距离。针对依存句法距离，本发明首先将句子的依存句法分析结果转化为无向句法依存关系图G’(V，E)，其中V为以单词和位置编号为节点构成的顶点集，E为单词间句法依存关系构成的边集。本发明给出如下定义：

定义2依存句法距离为句法依存关系图G’中任意两个连通顶点之间的最短依存路径长度。

由定义可知，若图G’中任意两个顶点V_i和V_j之间存在最短连通路径，V_i依次经过k(k≥1)条不重复的边到达V_j，则V_i与V_j之间的依存句法距离L(i，j)为：

L(i，j)＝k (12)

因此，可以将依存句法距离转化为利用经典的Floyd算法求解连通节点之间的最短路径长度问题。

针对语义距离，本发明利用Google的深度学习框架Word2vec将每个词表示为m维分布式词向量，对任意两个邻接词w_i和w_j，其词向量分别表示为w_i(x₁，x₂…x_m)，w_j(y₁，y₂…y_m)，w_i和w_j之间的语义距离R(i，j)计算方法如公式(13)所示。

步骤4)改进的词间引力计算及图排序

本发明以候选词集为顶点构建共现网络图G(V，E)，E为候选词共现关系构成的边集。传统的TextRank算法一般默认每个顶点初始值均为1，也可以在TextRank算法基础上指出图节点词汇自身的重要性差异能影响相邻节点之间的影响力传递结果。因此，本发明将每一个顶点的初始权重赋值为单词自身的质量，以单词间的引力大小作为边的权重。

为了计算词间引力大小，本发明基于万有引力思想提出改进的词引力计算方法。结合步骤2)和步骤3)分别计算出词语的质量和距离大小，由此得到图节点词汇w_i和w_j之间的引力计算方法如公式(14)所示。

根据TextRank图排序思想，接下来需要在邻接点之间建立权重迭代传递关系，由于无向图出边和入边重合，因此本发明用简化的权重递归分配思想计算顶点得分，如公式(15)所示。

其中，S(w_i)为单词w_i的权重得分，N(w_i)表示单词w_i的共现词集合，d为阻尼系数(0≤d≤1)，实验设置为0.85。对所有图节点进行反复迭代，直到任意一个图节点得分误差小于0.0001。此时，共现网络图G(V，E)中的每一个单词节点均有一个稳定的权重得分值。由于构建共现网络图G(V，E)之前，候选词集中原本为短语型的候选词已经被拆分为一个个的单词。因此在计算原候选词集中每个元素的权重得分时，对于短语型的候选关键词ck_i，其组成词分别为cw₁，cw₂…cw_i…cw_m，为了不偏向于包含多个单词的短语型候选词，将ck_i组成词得分和的平均值作为其权重得分，记为S(ck_i)，其计算方法如公式(16)所示。

本实施例以3GPP官网(http：//www.3gpp.org/)公开的技术规范作为实验数据，由于3GPP技术规范在通信行业专利侵权检测工作中被广泛引用，因此具有较高的权威性和标引价值。去除3GPP技术规范中的扉页、图片、公式、表格以及非法字符等噪音后，得到8000篇不同版本不同系列的技术规范，大小为1.22G。同时，在11G英文维基百科语料和8000篇3GPP技术规范上训练word2vec模型，上下文窗口设为10，向量维度m设为200，得到1124676条词向量。从8000篇技术规范中随机抽取五组不同主题系列的文献作为测试数据集，技术规范涵盖服务、技术实现、信号处理以及无线电领域，具体分组如表1所示。

表1 3GPP技术规范测试数据集

实验前采用三人手工标注取交集的方式对测试集中的每一篇技术规范标注10～15个关键词，总共标注3427个关键词，平均每篇技术规范包含关键词个数为13.7，相应的K取14。实验采用自然语言处理领域中常用的正确率(Precision)、召回率(Recall)以及F值(F-score)作为评价指标，以组为单位分别按公式(17)～(19)进行计算。

其中，分别对应每一组技术规范识别关键词的平均正确率、平均召回率以及平均F值，N为每一组包含的技术规范数量。若识别的关键词包含于人工标注的关键词，或满足词干相同、互为全称与缩写中的任一条件则视为正确识别，例如：标注答案中含有“Rate Adaptation”，若识别出“rates”、“adaptation”或其缩写词“RA”都算正确。

同时，为了更客观地与其他方法对比，实验数据额外选取公开的长文本数据集SemEval2010、中长型数据集DUC2001。其中SemEval2010主要为ACM领域科技型会议文件，每篇包含2000～10000个词，DUC2001主要为新闻类文本，每篇包含500～1000个词。去除标注答案不出现在文档中的样例，分别得到250篇测试数据集，其中SemEval2010总共包含2815个标注关键词，平均每篇文档包含11.3个关键词，相应的K取12；DUC2001总共包含1744个标注关键词，平均每篇文档包含7.0个关键词，对应的K取7。

结果分析：

将预处理后的3GPP技术规范利用步骤1)基于词频-文档分布熵的方法构建通用词表，经过多次实验得出词频-文档分布熵最佳阈值为4.42，选取熵值大于阈值的词作为通用词，总共获得13566个通用词，部分通用词抽取结果如表2所示。

表2部分通用词抽取结果

从表2可以看出，基于词频-文档分布熵的算法不仅可以抽取出常见停用词“should”、“all”、“when”等，而且还可以抽取出技术规范中的通用词，例如：“version”、“specification”、“foreword”等。采用该方法能够有效获取大部分技术规范通用词，但通用词的数量和质量依赖于设定的阈值。

本发明以基于万有引力模型的方法作为Baseline，分别在Baseline的基础上改进质量表示、改进距离计算，并结合本发明方法与Baseline进行对比，因此设置以下三组对比实验：

实验①：Baseline+外部重要性，即采用改进的TF-IDF计算词语外部重要性，并代替Baseline中用频率表示的质量。

实验②：Baseline+外部重要性+内部重要性，即在实验①的基础上引入词语关联度计算词语内部重要性，并替换Baseline中的质量。

实验③：Baseline+外部重要性+内部重要性+依存距离，即在实验②的基础上引入依存句法距离改进Baseline中单纯的语义距离。

上述几种方法在不同组别3GPP技术规范测试集下的实验结果如表3所示。

表3不同方法在3GPP技术规范测试集上的结果对比

从表3可以看出，实验①较Baseline的组平均正确率、平均召回率均有小幅提高，说明外部重要性较Baseline中的频率能更好地度量词语质量，改进的TF-IDF充分利用单词在当前文档中的位置、词性、词长特征以及整个文档集的统计分布特性表达词语外部重要性，能更客观地计算出词间引力大小，进而改善了关键词识别效果。实验②较实验①在第1、2、3、4组数据集上显示出更高的正确率和召回率，平均表现优于实验①和Baseline，说明内部重要性在外部重要性的基础上进一步完善了词语质量表示，引入的词语关联度在表达词语内部重要性的同时提供了较多有利于表示词语质量的语义聚集信息。实验③在实验②的基础上加入依存句法距离来改进Baseline中仅利用语义距离计算词间引力的方法，与实验②相比，实验③平均正确率、平均召回率、平均F值分别上升了2.64％、4.67％、3.47％，说明引入依存句法距离弥补了单纯的语义距离对词间引力度量的不足，削弱了语义距离过大而依存距离较小情形下对引力计算的偏差。因此，本发明通过结合内部重要性和外部重要性改进Baseline中的质量表示、引入依存句法距离改进距离度量是行之有效的。

为了进一步验证本发明方法的有效性和通用性，将本发明方法与传统的TF-IDF方法、TextRank方法以及现有技术方案中利用万有引力提取关键词方法(记为方法A)分别在应用型的3GPP技术规范以及公开的SemEval2010数据集、DUC2001数据集上进行对比，实验结果如表4所示。

表4本发明的方法与其他方法在不同数据集上的对比

可以看出，本发明的方法在3GPP技术规范上的平均F值优于公开数据集，这是由于3GPP技术规范包含了较多的章节位置信息、领域定义以及关键缩写词等特征，且各章节内容相对集中，因此可以充分发挥改进的TF-IDF与词语关联度表达词语初始重要性差异的优势获得较好的关键词抽取效果。在公开数据集上，虽然文本位置区分信息较少，但相对其他方法仍取得了更高的正确率和召回率。这是因为TF-IDF虽然考虑了词语在文档集中的频率分布差异性，但忽略了词语之间的相互关联作用和语义聚集特性对重要性的影响；TextRank以图节点间语义相似度作为边的权值不断迭代，缺乏考虑词语自身在图节点中的初始重要性差异以及词语之间的依存句法距离对边上权重的影响；现有技术方案仅考察词频、词汇长度以及词汇物理位置偏差对词间引力大小的影响，对数据集中物理位置偏移大但语义连贯性密切、依存距离小的词间引力计算不够准确，同时，利用词频和词长表示质量也忽视了词语的外部统计分布特性以及内部语义聚集性对引力的贡献。综上所述，本发明的方法在不同数据集上的有效性和通用性进一步得到了验证。

本发明一方面结合位置、词性和词长特征与单词在文档间的统计分布特性计算外部重要性，同时利用词语的中心聚集性计算关联度衡量词语内部重要性，综合外部重要性和内部重要性改进词语质量表示，为网络图节点赋予差异化的初始权重；另一方面同时结合依存句法距离和语义距离计算词间距离，最后利用改进的万有引力公式计算词间引力，通过不断迭代，输出得分排名TopK的图节点作为关键词。

本发明分别从词语的质量表示与距离计算两方面改进传统的万有引力模型，克服了传统万有引力模型方法因词语质量表示单一而无法客观反映词语初始重要性的不足，同时，综合语义距离和依存句法距离的优势改善了对比方法中依据位置偏移距离计算引力的缺陷。实验表明，本发明方法在3GPP技术规范和公开数据集上均取得了优于传统方法的关键词提取效果，无需制定繁琐的模板规则，也不依赖于标注样本，可以很好地满足实际应用的需要。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于万有引力模型的关键词自动抽取方法，其特征在于，包括：

2.根据权利要求1所述的关键词自动抽取方法，其特征在于，在步骤1)中，结合信息熵原理引入词频-文档分布熵的概念自动构建通用词表，将单词w看作随机变量，词频-文档分布熵是指单词w在文档集中分布状态的不确定性度量。

3.根据权利要求1所述的关键词自动抽取方法，其特征在于，在步骤1)中，设包含n个文本的文档集表示为D＝{d₁，d₂...d_i...d_n}，记单词w的词频-文档分布熵为H(w)，则H(w)计算公式为

f(w，d_i)为单词w在文档d_i中出现的次数。

4.根据权利要求1-3所述的关键词自动抽取方法，其特征在于，在步骤2)中，以当前文本中最大词长为参考标准，以w_i词长与最大词长的比值为基数，同时结合单词内部大写字母个数与词长之比计算长度权重Len(w_i)，

5.根据权利要求1-4所述的关键词自动抽取方法，其特征在于，词间引力大小F计算公式为

D_i＝|{(w_i，w_j)：(w_i，w_j)∈E，w_i，w_j∈V}|；

记节点w_i的词语关联度为CF(w_i)，则CF(w_i)计算公式为

单词w_i的质量M(w_i)计算公式为

M(w_i)＝Ex(w_i)×CF(w_i)。

6.根据权利要求1-5所述的关键词自动抽取方法，其特征在于，在步骤3)中，结合依存句法距离和词汇语义距离来衡量词语距离；针对依存句法距离，首先将句子的依存句法分析结果转化为无向句法依存关系图G’(V，E)，其中V为以单词和位置编号为节点构成的顶点集，E为单词间句法依存关系构成的边集；依存句法距离为句法依存关系图G’中任意两个连通顶点之间的最短依存路径长度；

7.根据权利要求1-6所述的关键词自动抽取方法，其特征在于，在步骤4)中，以候选词集为顶点构建共现网络图G(V，E)，E为候选词共现关系构成的边集；将每一个顶点的初始权重赋值为单词自身的质量，以单词间的引力大小作为边的权重；

分别计算出词语的质量和距离大小，得到图节点词汇w_i和w_j之间的引力计算公式为

用简化的权重递归分配思想计算顶点得分，公式为

8.根据权利要求1所述的关键词自动抽取方法，其特征在于，在计算原候选词集中每个元素的权重得分时，对于短语型的候选关键词ck_i，其组成词分别为cw₁，cw₂...cw_i...cw_m，将ck_i组成词得分和的平均值作为其权重得分，记为S(ck_i)，其计算公式为

9.根据权利要求1所述的关键词自动抽取方法，其特征在于，d的值设置为0.85，设定阈值为0.0001。

10.一种基于万有引力模型的关键词自动抽取方法，其特征在于，包括：首先对实验语料进行预处理操作，计算所有单词的词频-文档分布熵，将熵值大于过滤阈值的词汇加入通用词表；过滤语料通用词后主要筛选名词、动词以及形容词作为候选词；然后融合单词位置、词性、词长特征改进经典的TF-IDF方法获得词语外部重要性；针对候选词构建共现网络图，计算词语关联度并将其作为词语内部重要性度量，然后结合词语内部重要性和外部重要性表示词语质量，并将图节点初始权重赋值为质量大小，同时在语义距离的基础上引入依存句法距离；最后利用改进的万有引力公式计算词间引力，结合迭代投票的图排序机制输出若干个节点作为关键词。