CN107122413A

CN107122413A - 一种基于图模型的关键词提取方法及装置

Info

Publication number: CN107122413A
Application number: CN201710207428.7A
Authority: CN
Inventors: 王亮
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2017-03-31
Filing date: 2017-03-31
Publication date: 2017-09-01
Anticipated expiration: 2037-03-31
Also published as: CN107122413B

Abstract

本发明实施例提供了一种基于图模型的关键词提取方法及装置，所述方法包括：获取待处理文本，并对待处理文本进行分词，得到待处理文本对应的候选关键词；在词向量模型中查找候选关键词对应的词向量，词向量模型包括候选关键词的词向量；根据词向量构建候选关键词的词相似度矩阵；获取待处理文本对应的语料库，计算候选关键词在语料库中的全局信息，得到候选关键词的全局权重，并将全局权重作为候选关键词的初始权重，全局信息表征候选关键词在语料库的重要度，语料库至少包括搜索日志和网络文档；根据候选关键词的初始权重和词相似度矩阵对候选关键词进行排序，提取待处理文本的关键词。应用本发明实施例，有效提高关键词提取的准确率。

Description

一种基于图模型的关键词提取方法及装置

技术领域

本发明涉及关键词提取技术领域，特别是涉及一种基于图模型的关键词提取方法及装置。

背景技术

目前，关键词的提取方法多种多样，例如，基于语义的关键词提取方法、基于网页的关键词提取方法等，而基于图模型的关键词提取方法，相对于基于其他主题的关键词提取方法，该方法更为简单直接，无需训练，并且效果更好，因而得到了广泛的应用。

现有的基于图模型的关键词提取方法，通过把文本分割成若干组成单元(单词、句子)，并建立图模型，利用投票机制对文本中的组成单元进行排序，然后选取排序靠前的组成单元作为关键词。具体的，先把给定的文本按照完整句子进行分割。然后对于每个句子进行分词和词性标注处理，得到词及词对应的词性标注，根据词及词性标注，过滤掉这些词中介词、助词、连词、感叹词等停用词，保留名词、动词、形容词等指定词性的词，并将指定词性的词作为候选关键词。再根据候选关键词，构建候选关键词图模型，即将候选关键词为候选关键词图模型的节点，候选关键词之间的关联关系作为关键词图模型的边。其中，候选关键词之间的关联关系通过计算候选关键词之间的相似度得到，在基于图模型的关键词提取方法中，采用加窗的方式构建词与词之间的相似度，让每个窗口内的词给它相邻的窗口投票，投票的权重取决于自己的票数，由于每个窗口与它相邻的窗口有共现的词，因此也可以说词与词之间的相似度是通过词与词共现得到的。最后在这个图上候选关键词的票数经过迭代投票，可以得到候选关键词的票数排序，并选取票数靠前的候选关键词作为关键词。

但是，现有的基于图模型的关键词提取方法仅仅基于当前文本，如果当前文本是短文本，那么文本中所有的词几乎都只出现一次，没法确定具体哪个词是重要的，因此每个词都可能被提取出来，导致无法准确提取关键词；如果当前文本是长文本，一些多次出现的词(例如“由于”、“大概”等)，由于其对自身有投票，使其自身的票数过高，从而造成这些词重复出现的词重要性过高，但是这些词本身提取没有意义，导致关键词提取的准确率不高。总之，仅仅基于当前文本来提取关键词，无论当前文本是长文本，还是短文本，文本中的一些词因为语义较为分散或者出现次数较多而被作为关键词提取出来，最终都导致关键词提取的准确率不高。

发明内容

本发明实施例的目的在于提供一种基于图模型的关键词提取方法及装置，提高关键词提取的准确率。具体技术方案如下：

本发明实施例公开了一种基于图模型的关键词提取方法，所述方法包括：

获取待处理文本，并对所述待处理文本进行分词，得到所述待处理文本对应的候选关键词；

在词向量模型中查找所述候选关键词对应的词向量，所述词向量模型包括所述候选关键词的词向量；

根据所述词向量构建所述候选关键词的词相似度矩阵；

获取所述待处理文本对应的语料库，计算所述候选关键词在所述语料库中的全局信息，得到所述候选关键词的全局权重，并将所述全局权重作为所述候选关键词的初始权重，所述全局信息表征所述候选关键词在所述语料库的重要度，所述语料库至少包括搜索日志和网络文档；

根据所述候选关键词的初始权重和所述词相似度矩阵对所述候选关键词进行排序，提取所述待处理文本的关键词。

可选的，所述根据所述词向量构建所述候选关键词的词相似度矩阵，包括：

根据公式：

计算所述候选关键词之间对应的词向量夹角的余弦值，其中，θ表示所述候选关键词之间的向量的夹角，x_1k表示其中一个候选关键词n维空间中对应的向量的特征值，x_2k表示其中另一个候选关键词n维空间中对应的向量的特征值，n表示向量空间的维度；

根据所述词向量夹角的余弦值，构建所述候选关键词相似度矩阵。

可选的，计算所述候选关键词在所述语料库中的全局信息，得到所述候选关键词的全局权重，包括：计算所述候选关键词在所述语料库中的词频和逆文档频率，得到所述候选关键词的全局权重，并将所述全局权重作为所述候选关键词的初始权重。

可选的，所述计算所述候选关键词在所述语料库中的词频和逆文档频率，包括：

计算所述候选关键词在所述搜索日志或所述网络文档中的频率，得到所述候选关键词在所述语料库中的词频；

根据公式：

IDF＝log(D/Dt)

计算所述候选关键词在所述语料库中的逆文档频率，其中，IDF表示所述候选关键词在所述语料库中的逆文档频率，D表示包含所述语料库的文本总数，Dt表示所述语料库中包含所述候选关键词的文本数量；

根据公式：

TF_IDF＝TF*IDF

计算所述候选关键词的全局信息，得到所述候选关键词的全局权重，其中，TF_IDF表示所述候选关键词的全局权重，TF表示所述候选关键词在所述语料库中的词频，IDF表示所述候选关键词在所述语料库中的逆文档频率。

可选的，所述根据所述候选关键词的初始权重和所述词相似度矩阵对所述候选关键词进行排序，包括：

根据所述初始权重和所述词相似度矩阵，计算所述候选关键词的初始特征向量值；

根据公式：

p_t＝M^Tp_t-1

计算所述候选关键词的特征向量值，其中，在t＝1时，则p₁表示所述初始特征向量值，p₀表示所述初始权重，p_t表示所述词相似度矩阵在第t步的特征向量值，p_t-1表示所述词相似度矩阵在第t-1步的特征向量值，M表示所述候选关键词的词相似度矩阵，M^T表示所述词相似度矩阵的转置，t表示计算的步数，t的取值大于或等于1；

当所述第t步的特征向量值与所述第t-1步的特征向量值的范数小于所述PageRank算法的误差容忍度时，所述第t步的特征向量值为所述候选关键词的对应的PageRank值；

根据所述PageRank值对所述候选关键词进行排序，得到所述候选关键词的重要程度；

根据所述重要程度，提取所述待处理文本的关键词。

可选的，所述获取待处理文本，并对所述待处理文本进行分词，得到所述待处理文本对应的候选关键词，包括：

获取待处理文本，并对所述待处理文本进行分词，得到停用词和指定词性的词，所述停用词至少包括介词、助词、连词、感叹词，所述指定词性的词至少包括名词、动词、形容词；

过滤掉所述停用词，得到所述指定词性的词，所述指定词性的词为所述待处理文本对应的候选关键词。

可选的，所述词向量是通过word2vec训练得到的。

本发明实施例还公开了一种基于图模型的关键词提取装置，所述装置包括：

获取模块，用于获取待处理文本，并对所述待处理文本进行分词，得到所述待处理文本对应的候选关键词；

查找模块，用于在词向量模型中查找所述候选关键词对应的词向量，所述词向量模型包括所述候选关键词的词向量；

处理模块，用于根据所述词向量构建所述候选关键词的词相似度矩阵；

计算模块，用于获取所述待处理文本对应的语料库，计算所述候选关键词在所述语料库中的全局信息，得到所述候选关键词的全局权重，并将所述全局权重作为所述候选关键词的初始权重，所述全局信息表征所述候选关键词在所述语料库的重要度，所述语料库至少包括搜索日志和网络文档；

提取模块，用于根据所述候选关键词的初始权重和所述词相似度矩阵对所述候选关键词进行排序，提取所述待处理文本的关键词。

可选的，所述处理模块，包括：

第一计算单元，用于根据公式：

构建单元，用于根据所述词向量夹角的余弦值，构建所述候选关键词相似度矩阵。

可选的，所述计算模块，包括：

第二计算单元，用于计算所述候选关键词在所述语料库中的词频和逆文档频率，得到所述候选关键词的全局权重，并将所述全局权重作为所述候选关键词的初始权重。

可选的，所述第二计算单元，包括：

第一计算子单元，用于计算所述候选关键词在所述搜索日志或所述网络文档中的频率，得到所述候选关键词在所述语料库中的词频；

第二计算子单元，用于根据公式：

IDF＝log(D/Dt)

第三计算子单元，用于根据公式：

TF_IDF＝TF*IDF

可选的，所述提取模块，包括：

第三计算单元，用于根据所述初始权重和所述词相似度矩阵，计算所述候选关键词的初始特征向量值；

第四计算单元，用于根据公式：

p_t＝M^Tp_t-1

确定单元，用于当所述第t步的特征向量值与所述第t-1步的特征向量值的范数小于所述PageRank算法的误差容忍度时，所述第t步的特征向量值为所述候选关键词的对应的PageRank值；

排序单元，用于根据所述PageRank值对所述候选关键词进行排序，得到所述候选关键词的重要程度；

提取单元，用于根据所述重要程度，提取所述待处理文本的关键词。

可选的，所述获取模块，包括：

获取单元，用于获取待处理文本，并对所述待处理文本进行分词，得到停用词和指定词性的词，所述停用词至少包括介词、助词、连词、感叹词，所述指定词性的词至少包括名词、动词、形容词；

处理单元，用于过滤掉所述停用词，得到所述指定词性的词，所述指定词性的词为所述待处理文本对应的候选关键词。

可选的，所述词向量是通过word2vec训练得到的。

本发明实施例提供的一种基于图模型的关键词提取方法及装置，首先，通过词向量计算文本中词与词之间的相似度，并构建相似度矩阵，使得提取到的关键词在一定程度上反映了其在当前文本中的语义重要性；其次，计算候选关键词在语料库中的全局信息，得到候选关键词的全局权重，并将全局权重作为候选关键词的初始权重，全局信息表征候选关键词在语料库的重要度，通过所述重要度反映了每个候选关键词的全局信息，使得关键词的提取更加准确；最后，根据所述初始权重和所述词相似度矩阵对所述候选关键词进行排序，并提取所述待处理文本的关键词，提高了关键词提取的准确率。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于图模型的关键词提取方法的一种流程图；

图2为本发明实施例提供的一种基于图模型的关键词提取方法的另一种流程图；

图3为本发明实施例提供的一种基于图模型的关键词提取装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

基于图模型的关键词提取方法是提取关键词的一种有效的方法，其中，图模型是一类用图来表示概率分布的一类技术的总称，一篇文本可以被映射为一个以词语为节点、词语之间的关联关系为边的网络图。其中，基于图模型的关键词提取是重要的基础性性工作，对公司推荐头条、泡泡(标签)等相关业务都起着关键性作用。本发明就是在这种图模型的基础上来提取关键词。

参见图1，图1为本发明实施例提供的一种基于图模型的关键词提取方法的一种流程图，包括如下步骤：

S101，获取待处理文本，并对待处理文本进行分词，得到待处理文本对应的候选关键词；

具体的，获取待处理文本，先对获取的待处理文本进行分词，分词的目的是将待处理文本按一定的根据一定的规则进行分词处理，从而提取候选关键词。中文因为自身常以词语、短语、俗语等表现形式，因此中文分词具有很大的不确定性。目前主要的分词方法：基于字符串匹配的分词方法，即机械分词，算法成熟使用广泛，其核心是通过邮件文本与词典词汇的匹配，实现分词，关键在于使用词典的完备程度；基于理解的分词方法，即人工智能方法，分词精度高，算法复杂；基于统计的分词方法，优势在于识别未登录词和专有名词，但训练文本量大。这些分词方法都具有较高的分词准确率和快速的分词系统。这里，通过现有的分词方法对待处理文本进行分词，会自动过滤掉这些词中介词、助词、连词、感叹词等停用词，保留名词、动词、形容词等指定词性的词，并将指定词性的词作为候选关键词。这样，就得到了待处理文本对应的候选关键词了。

S102，在词向量模型中查找候选关键词对应的词向量，词向量模型包括候选关键词的词向量；

通常，神经网络将词表中的词语作为输入，输出一个低维度的向量表示这个词语，然后用反向传播的方法不断优化参数。输出的低维向量是神经网络第一层的参数。生成词向量的神经网络模型分为两种，一种是通过word2vec或GloVe(Global Vectors for WordRepresentation)等训练得到的词向量模型，这类模型的目的就是生成词向量，另一种是将词向量作为副产品产生，两者的区别在于计算量不同。两种模型的另一个区别在于训练的目标不同：word2vec和GloVe的目的是训练可以表示语义关系的词向量，它们能被用于后续的任务中；如果后续任务不需要用到语义关系，则按照此方式生成的词向量并没有什么用。另一种模型则根据特定任务需要训练词向量。当然，若特定的任务就是对语言建模，那么两种模型生成的词向量非常相似了。

具体的，将自然语言理解的问题转化为机器学习的问题，那么就先要找一种方法把这些符号数学化。而词向量具有良好的语义特性，是表示词语特征的常用方式。词向量是多维实数向量，向量中包含了自然语言中的语义和语法关系。词向量的每一维的值代表一个具有一定的语义和语法上解释的特征。故可以将词向量的每一维称为一个词语特征。词向量用Distributed Representation(分布式表示)来表示，一种低维实数向量。词向量计算是通过训练的方法，将语言词表中的词映射成一个长度固定的向量。DistributedRepresentation是一个稠密、低维的实数限量，它的每一维表示词语的一个潜在特征，该特征捕获了有用的句法和语义特征，其特点是将词语的不同句法和语义特征分布到它的每一个维度上去表示。这里，采用低维空间表示法，不但解决了维数灾难问题，并且挖掘了词之间的关联属性，通过计算词向量之间的距离，便能得到两个词之间的相似度，从而提高了向量语义上的准确度。

词向量模型中包括候选关键词所对应的词向量，在词向量模型中找出候选关键词所对应的词向量，主要是为了计算候选关键词之间的距离的大小，从而得到候选关键词之间的相似度。本发明在现有的基于图模型的关键词提取方法中引入词向量，通过词向量计算候选关键词之间的相似度，从而避免了现有方法中采用加窗的方式构建词与词之间的相似度，且需要人为设定窗口大小，导致候选关键词提取准确率不高的问题。

S103，根据词向量构建候选关键词的词相似度矩阵；

具体的，词向量之间的余弦距离的大小代表了词之间关系的远近，即通过计算词向量之间的余弦距离，得到候选关键词之间的相似度。这里，得到的候选关键词之间的相似度是用数值表示的，将这些数值构成词相似度矩阵中的元素。其中，矩阵为N阶行列式。如表1所示，表中的A、B、C、D、E、F、G、H代表各候选关键词所对应的词向量，表中的数值为词向量之间的余弦距离，也就是候选关键词之间的相似度的大小。

表1

	A	B	C	D	E	F	G	H
									A	1	0.49	0	0.02	0.04	0	0.01	0.05
B	0.49	1	0.03	0	0.18	0.03	0.02	0.29
									C	0	0.03	1	0.32	0.04	0	0.01	0
D	0.02	0	0.32	1	0.08	0	0	0.01
									E	0.04	0.18	0.04	0.08	1	0.31	0.07	0.21
F	0	0.03	0	0	0.31	1	0.07	0.09
									G	0.01	0.02	0.01	0	0.07	0.07	1	0.2
H	0.05	0.29	0	0.01	0.21	0.09	0.2	1

则根据这些候选关键词之间的相似度的大小，构建候选关键词的相似度矩阵，用M表示，即

S104，获取待处理文本对应的语料库，计算候选关键词在语料库中的全局信息，得到候选关键词的全局权重，并将全局权重作为候选关键词的初始权重，全局信息表征候选关键词在语料库的重要度，语料库至少包括搜索日志和网络文档。

具体的，每个候选关键词的全局信息是指待处理文本在所对应的语料库中，每个候选关键词的语义的重要程度，这里，语义的重要程度主要基于候选关键词的全局信息计算得到的。由于不同的候选关键词的重要度不同，因此计算每个候选关键词在语料库中的重要度，这样，考虑每个候选关键词的全局信息，通过计算候选关键词的全局信息，得到候选关键词的全局权重，并将全局权重作为候选关键词的初始权重，本发明通过关键词排序算法对候选关键词进行排序，而关键词排序算法需要设定每个候选关键词的初始权重，所以，将每个候选关键词在语料库中的全局权重作为候选关键词的初始权重，有利于提高关键词提取的准确率。这里，语料库是指通过非当前文本的外部资源统计得到的，因此语料库至少包括搜索日志和网络文档，搜索日志和网络文档包括所有候选关键词，以及非待处理文本之外的其他候选关键词可能出现的语料库。凡是可以统计候选关键词的全局信息的所有方法都属于本发明保护的范围。

S105，根据候选关键词的初始权重和词相似度矩阵对候选关键词进行排序，提取待处理文本的关键词。

具体的，通过基于图模型的关键词提取方法中的关键词排序算法，计算候选关键词的词相似度矩阵，根据候选关键词的词相似度矩阵，和候选关键词的初始权重，得到候选关键词对应的排序算法值。然后根据排序算法值对候选关键词进行排序。最后，选取排序靠前的候选关键词作为待处理文本的关键词。这里，根据实际需要选取排序靠前的候选关键词的个数。这里，关键词排序算法是一个迭代回归的算法，需要设定算法中所对应的初始值。

由此可见，本发明实施例提供的一种基于图模型的关键词提取方法，首先，通过词向量计算文本中词与词之间的相似度，并构建相似度矩阵，使得提取到的关键词在一定程度上反映了其在当前文本中的语义重要性；其次，计算候选关键词在语料库中的全局信息，得到候选关键词的全局权重，并将全局权重作为候选关键词的初始权重，通过重要度反映了每个候选关键词的全局信息，使得关键词的提取更加准确；最后，根据初始权重和词相似度矩阵对候选关键词进行排序，并提取待处理文本的关键词，提高了关键词提取的准确率。

在本发明一个可选的实施例中，根据词向量构建候选关键词的词相似度矩阵，包括：

根据公式：

计算候选关键词之间对应的词向量夹角的余弦值，其中，θ表示候选关键词之间的向量的夹角，x_1k表示其中一个候选关键词n维空间中对应的向量的特征值，x_2k表示其中另一个候选关键词n维空间中对应的向量的特征值，n表示向量空间的维度；

根据词向量夹角的余弦值，构建候选关键词相似度矩阵。

具体的，通过计算词向量之间的距离，来得到词与词之间的相似度。而词向量之间的距离是通过词向量之间的夹角的余弦值来计算的，因此，本发明通过计算候选关键词之间对应的词向量夹角的余弦值，然后根据词向量夹角的余弦值，构建候选关键词相似度矩阵。

候选关键词之间对应的词向量夹角的余弦值是通过n维空间向量夹角余弦值计算公式得到的，在n维空间中，例如有两个向量分别是向量A(x₁₁，x₁₂…x_1n)与向量B(x₂₁，x₂₂…x_2n)，那么向量A和向量B的夹角的余弦值的计算公式为：

其中，θ表示向量A和向量B的夹角，x_1k表示向量A对应的特征值，x_2k表示向量B对应的特征值，n表示向量空间的维度

这里，在二维空间中，例如有两个向量分别是向量A(x₁₁，x₁₂)与向量B(x₂₁，x₂₂)，那么向量A和向量B的夹角的余弦值的计算公式为：

其中，θ表示向量A和向量B的夹角，x₁₁和x₁₂表示向量A对应的特征值，x₂₁和x₂₂表示向量B对应的特征值。

在三维空间中，例如有两个向量分别是向量A(x₁₁，x₁₂，x₁₃)、向量B(x₂₁，x₂₂，x₂₃)，那么向量A和向量B的夹角的余弦值的计算公式为：

其中，θ表示向量A和向量B的夹角，x₁₁、x₁₂和x₁₃表示向量A对应的特征值，x₂₁、x₂₂和x₂₃表示向量B对应的特征值。

对于更高维空间中的两个向量之间的夹角的余弦值，在此不一一列举，凡是符合n维空间向量夹角余弦值计算公式的，都属于本发明保护的范围。

在本发明实施例中，计算候选关键词在语料库中的全局信息，得到候选关键词的全局权重，包括：

计算候选关键词在语料库中的词频和逆文档频率，得到候选关键词的全局权重，并将全局权重作为候选关键词的初始权重。

具体的，每个候选关键词的全局信息是指每个候选关键词在语料库中语义的重要程度，这里，语义的重要程度主要基于候选关键词的全局信息计算得到的，其中，候选关键词的全局信息包括词性、词频、词的逆文档频率以及在整个搜索日志、网络文档中的信息等。词性是通过过滤停用词，保留指定性词体现的，在计算每个候选关键词的词频和逆文档频率中参考了语料库，得到每个候选关键词的重要度，即全局权重，并将全局权重作为候选关键词的初始权重。

其中，计算候选关键词在语料库中的词频和逆文档频率，包括：

计算候选关键词在搜索日志或网络文档中的频率，得到候选关键词在语料库中的词频；这里，在一份给定的文档中，词频(Term Frequency，TF)指的是某一个给定的词语在非该文件的外部资源(即语料库)中出现的次数。由于现有的计算词频的方法是基于当前文本，没有考虑关键词的全局信息，对于短文本来说，每个词在当前文本中出现的次数可能都为一次，使得关键词提取的准确率不高，而通过本发明提出的方法，考虑了关键词的全局信息来计算词频，使得计算结果更加准确。另外，需要说明的是，本文中所说的当前文本指的是待处理文本。

根据公式：

IDF＝log(D/Dt)

计算候选关键词在语料库中的逆文档频率，其中，IDF表示候选关键词在语料库中的逆文档频率，D表示包含语料库的文本总数，Dt表示语料库中包含候选关键词的文本数量。这里，IDF(Inverse Document Frequency，逆文档频率)指的是同一个单词在文档集合范围的出现次数，这个是一种全局因子，逆文档频率考虑的不是文档本身的特征，而是特征单词之间的相对重要性，特征词出现在其中的文档数目越多，IDF值越低，这个词区分不同文档的能力就越差。根据公式：

TF_IDF＝TF*IDF

计算候选关键词的全局信息，得到候选关键词的全局权重，其中，TF_IDF表示候选关键词的全局权重，TF表示候选关键词在语料库中的词频，IDF表示候选关键词在语料库中的逆文档频率。这里，TF_IDF(Term Frequency–Inverse Document Frequency，词频–逆文档频率)是一种用于情报检索与文本挖掘的常用加权技术，用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。同时，TF_IDF在本发明中指每个候选关键词所对应的全局信息。本发明通过计算每个候选关键词在语料库中的全局权重，即每个候选关键词的TF_IDF，并将全局权重作为候选关键词的初始权重。通过计算每个候选关键词的词频和逆文档频率来反映候选关键词的全局信息，并将候选关键词的全局信息作为PageRank算法的初始权重，使得PageRank算法计算关键词的排序更加准确，这是因为每个候选关键词的在所有关键词中的权重是不同的，如果认为每个关键词的初始权重的是相同的，则计算的关键词的排序不准确，因此本发明考虑了每个候选关键词的全局信息，使得关键词的提取更加精确。

在本发明实施例中，根据候选关键词的初始权重和词相似度矩阵对候选关键词进行排序，包括：

根据初始权重和词相似度矩阵，计算候选关键词的初始特征向量值；

具体的，根据公式

p₁＝M^Tp₀

计算候选关键词的初始特征向量值，其中，p₁表示PageRank算法的初始特征向量值，p₀表示PageRank算法的初始权重，M表示候选关键词的词相似度矩阵，M^T表示词相似度矩阵的转置。

根据公式：

p_t＝M^Tp_t-1

计算候选关键词的特征向量值，其中，在t＝1时，则p₀表示初始权重，p₁表示初始特征向量值，p_t表示词相似度矩阵在第t步的特征向量值，p_t-1表示词相似度矩阵在第t-1步的特征向量值，M表示候选关键词的词相似度矩阵，M^T表示词相似度矩阵的转置，t表示计算的步数，t的取值大于或等于1；

具体的，PageRank算法是一种迭代回归的算法，通过将候选关键词的词相似度矩阵反复迭代计算，得到最终的候选关键词的对应的PageRank值，这样，使得提取到的关键的准确率更加精确。

当第t步的特征向量值与第t-1步的特征向量值的范数小于PageRank算法的误差容忍度时，第t步的特征向量值为候选关键词的对应的PageRank值。

这里，由于向量的计算过程存在误差，所以PageRank算法会预设一个误差宽容度∈，当第t步的特征向量值与第t-1步的特征向量值的范数小于PageRank算法的误差容忍度时，此时得到的候选关键词所对应的PageRank值是更加准确的，有利于提高关键词的提取准确率。

根据PageRank值对候选关键词进行排序，得到候选关键词的重要程度；这里，候选关键词的Pagerank值最大，表明用户搜索关键词时，该关键词为用户最感兴趣的关键词，其他关键词依次递减，同时，候选关键词的Pagerank值最大，也说明候选关键词越重要。

根据重要程度，提取待处理文本的关键词。

这里，根据实际所需，提取排序靠前(top N)的候选关键词作为待处理文本的关键词。

在本发明中，利用PageRank算法计算候选关键词的PageRank值，根据PageRank值对候选关键词进行排序，根据排序提取关键词。

具体的算法如下：

具体的过程：

首先，PageRank算法通过输入一个随机的、不可约的、非周期的矩阵M，矩阵的大小N，误差宽容度∈。这里，矩阵M是通过词向量构建的，即本发明中的词相似度矩阵，矩阵的大小N即矩阵的阶数。另外，由于向量的计算过程存在误差，所以PageRank算法会预设一个误差宽容度∈。

然后，PageRank算法通过以下步骤来计算候选关键词的特征向量值：

第1步，根据候选关键词的全局信息确定PageRank算法的初始权重，即p₀＝p_{global_weight},p₀表示PageRank算法的初始权重。这里，通过计算每个候选关键词的词频和逆文档频率来反映候选关键词的全局信息，并将候选关键词的全局信息作为PageRank算法的初始权重，使得PageRank算法计算关键词的排序更加准确，这是因为每个候选关键词的在所有关键词中的权重是不同的，如果认为每个关键词的初始权重的是相同的，则计算的关键词的排序不准确，因此本发明考虑了每个候选关键词的全局信息，使得关键词的提取更加精确。例如，待处理文本为：ABCDEFG，通过本发明得到的候选关键词的初始权重为：0.75、0.75、0.42、0.39、0.43、0.39、0.53，而现有技术中通过矩阵的大小来确定的初始权重为：显而易见，通过本发明提供的方法，使得关键词的提取算法更加准确。

第2步，t＝0，这里，t表示PageRank算法计算的步数，那么t＝0表示还没有对相似度矩阵M进行计算。

第3步和第4步，根据t＝t+1，开始重复不断计算。

第5步，根据公式

p_t＝M^Tp_t-1

计算词相似度矩阵特征向量值，其中，p_t表示词相似度矩阵在第t步的特征向量值，p_t-1表示词相似度矩阵在第t-1步的特征向量值，M表示候选关键词的词相似度矩阵，t表示计算的步数。这里，由于PageRank算法是一个迭代回归的算法，所以需要不断对词相似度矩阵M进行迭代计算，才能更加准确的得到词相似度矩阵的特征向量值。

第6步，δ＝||p_t-p_t-1||

第7步，untilδ＜∈，这里直到词相似度矩阵在第t步的特征向量值，与词相似度矩阵在第t-1步的特征向量值的范数小于误差宽容度∈，才停止计算。

第8步，return p_t，得到最终的词相似度矩阵特征向量值。

最后，输出特征向量P，即最终的词相似度矩阵特征向量值p_t。

在本发明实施例中，获取待处理文本，并对待处理文本进行分词，得到待处理文本对应的候选关键词，包括：

获取待处理文本，并对待处理文本进行分词，得到停用词和指定词性的词，停用词至少包括介词、助词、连词、感叹词，指定词性的词至少包括名词、动词、形容词；

过滤掉停用词，得到指定词性的词，指定词性的词为待处理文本对应的候选关键词。

具体的，获取待处理文本进行分词后的词可以分为两类：停用词和指定词性的词。在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为停用词。过滤掉停用词，得到指定词性的词，指定词性的词为待处理文本对应的候选关键词。其中，停用词是指在文本中大量出现，但对表征文本特征几乎无用的词，例如文本中的“我、的、然后、是、那么、另外”等这些虚词对文本特征没有任何作用。要过滤停用词，首先要构造停用词表，主要是上下文提到的副词、连词、介词、语气助词等。所以在中文分词后，一定要过滤掉停用词，这样不仅能有效提高关键词的密度，同时也会大大降低文本的维度，避免了“维度灾难”的出现。

在本发明实施例中，词向量是通过word2vec训练得到的。

具体的，Word2vec是Google在2013年年中开源的一款将词表征为实数值向量的高效工具，其利用深度学习的思想，可以通过训练，把对文本内容的处理简化为K维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec使用的是Distributed Representation的词向量表示方式。Distributed Representation最早由Hinton在1986年提出。其基本思想是通过训练将每个词映射成K维实数向量(K一般为模型中的超参数)，通过词之间的距离(比如cosine相似度、欧氏距离等)来判断它们之间的语义相似度。其采用一个三层的神经网络，输入层-隐层-输出层。有个核心的技术是根据词频用Huffman编码，使得所有词频相似的词隐藏层激活的内容基本一致，出现频率越高的词语，他们激活的隐藏层数目越少，这样有效的降低了计算的复杂度。word2vec算法基于深度学习，通过模型训练，把对文本内容的处理简化为K维向量空间中的向量运算。通过向量空间上的相似度可以用来表示文本语义上的相似度，能够将词向量转化为向量，可以寻找同义词。

参见图2，图2为本发明实施例提供的一种基于图模型的关键词提取方法的另一种流程图，包括如下步骤：

S201，获取输入文本。这里，获取的输入文本即本发明提到的待处理文本。

S202，对输入文本分词。这里，对输入文本进行分词，得到停用词和指定词性的词。其中，停用词至少包括介词、助词、连词、感叹词，指定词性的词至少包括名词、动词、形容词。过滤掉停用词，得到指定词性的词，指定词性的词为待处理文本对应的候选关键词。

S203，构建词网。这里，构建词网指的是构建候选关键词相似度矩阵，具体的，通过计算候选关键词之间对应的词向量夹角的余弦值，然后根据词向量夹角的余弦值，构建候选关键词相似度矩阵。

S204，计算基于全局特征的词权重。这里，通过计算每个候选关键词的词频和逆文档频率来反映候选关键词的全局信息。需要说明的是，这个步骤可以在S202之后进行，也可以在S203之后进行。

S205，初始化词权重。将候选关键词的全局信息作为PageRank算法的初始权重，使得PageRank算法计算关键词的排序更加准确。

S206，PageRank。具体的，PageRank算法是一种迭代回归的算法，通过将候选关键词的词相似度矩阵反复迭代计算，得到最终的候选关键词的对应的PageRank值，这样，使得提取到的关键的准确率更加精确。

S207，选取排序靠前的词作为关键词。这里，根据实际所需，提取排序靠前(top N)的候选关键词作为待处理文本的关键词。

通过本发明提出的一种基于图模型的关键词提取方法，与现有的关键词的提取方法相比，取得了较好的效果。表2示出了本发明所提出的关键词的提取方法得到的关键词的排序，和现有的关键词的提取方法所得到的关键词的排序的对比。

表2

由表2可以得出，第1个和第2个文本属于短文本，由于该文本中的每个候选关键词只出现一次，因此每个候选关键词成为关键词被提取的概率是相同的，可见，通过现有的关键词的提取方法，文本1和文本2无法准确的提取关键词，而通过本发明提供的关键词的提取方法可以得到各候选关键词的排序，从而提取关键词。第3个文本属于长文本，文本中出现的各候选关键词也重复出现在文本中，从结果可以看出，通过现有的关键词的提取方法所得到的关键词的排序中的“人气，记者，留给，颇受”作为关键词并没有实际的意义，只是这些词由于在文中重复出现的次数较多，而被作为候选关键词；通过本发明所提出的关键词的提取方法得到的关键词的排序，考虑了每个候选关键词所对应的全局信息，使得关键词的提取准确率更高。

参见图3，图3为本发明实施例提供的一种基于图模型的关键词提取装置的结构图，该装置包括如下模块：

获取模块301，用于获取待处理文本，并对待处理文本进行分词，得到待处理文本对应的候选关键词；

查找模块302，用于在词向量模型中查找候选关键词对应的词向量，词向量模型包括候选关键词的词向量；

处理模块303，用于根据词向量构建候选关键词的词相似度矩阵；

计算模块304，用于获取待处理文本对应的语料库，计算候选关键词在语料库中的全局信息，得到候选关键词的全局权重，并将全局权重作为候选关键词的初始权重，全局信息表征候选关键词在语料库的重要度，语料库至少包括搜索日志和网络文档；

提取模块305，用于根据候选关键词的初始权重和词相似度矩阵对候选关键词进行排序，提取待处理文本的关键词。

进一步的，处理模块303，包括：

第一计算单元，用于根据公式：

构建单元，用于根据词向量夹角的余弦值，构建候选关键词相似度矩阵。

进一步的，计算模块304，包括：

第二计算单元，用于计算候选关键词在语料库中的词频和逆文档频率，得到候选关键词的全局权重，并将全局权重作为候选关键词的初始权重。

进一步的，第二计算单元，包括：

第一计算子单元，用于计算候选关键词在搜索日志或网络文档中的频率，得到候选关键词在语料库中的词频；

第二计算子单元，用于根据公式：

IDF＝log(D/Dt)

计算候选关键词在语料库中的逆文档频率，其中，IDF表示候选关键词在语料库中的逆文档频率，D表示包含语料库的文本总数，Dt表示语料库中包含候选关键词的文本数量；

第三计算子单元，用于根据公式：

TF_IDF＝TF*IDF

计算候选关键词的全局信息，得到候选关键词的全局权重，其中，TF_IDF表示候选关键词的全局权重，TF表示候选关键词在语料库中的词频，IDF表示候选关键词在语料库中的逆文档频率。

进一步的，提取模块305，包括：

第三计算单元，用于根据初始权重和词相似度矩阵，计算候选关键词的初始特征向量值；

第四计算单元，用于根据公式：

p_t＝M^Tp_t-1

计算候选关键词的特征向量值，其中，在t＝1时，则p₁表示初始特征向量值，p₀表示初始权重，p_t表示词相似度矩阵在第t步的特征向量值，p_t-1表示词相似度矩阵在第t-1步的特征向量值，M表示候选关键词的词相似度矩阵，M^T表示词相似度矩阵的转置，t表示计算的步数，t的取值大于或等于1；

确定单元，用于当第t步的特征向量值与第t-1步的特征向量值的范数小于PageRank算法的误差容忍度时，第t步的特征向量值为候选关键词的对应的PageRank值；

排序单元，用于根据PageRank值对候选关键词进行排序，得到候选关键词的重要程度；

提取单元，用于根据重要程度，提取待处理文本的关键词。

进一步的，获取模块301，包括：

获取单元，用于获取待处理文本，并对待处理文本进行分词，得到停用词和指定词性的词，停用词至少包括介词、助词、连词、感叹词，指定词性的词至少包括名词、动词、形容词；

处理单元，用于过滤掉停用词，得到指定词性的词，指定词性的词为待处理文本对应的候选关键词。

进一步的，词向量是通过word2vec训练得到的。

由此可见，本发明实施例提供的一种基于图模型的关键词提取装置，首先，通过处理模块的词向量计算文本中词与词之间的相似度，并构建相似度矩阵，使得提取到的关键词在一定程度上反映了其在当前文本中的语义重要性；其次，通过计算模块，计算候选关键词在语料库中的全局信息，得到候选关键词的全局权重，并将全局权重作为候选关键词的初始权重，全局信息表征候选关键词在语料库的重要度，通过重要度反映了每个候选关键词的全局信息，使得关键词的提取更加准确；最后，排序模块中根据初始权重和词相似度矩阵对候选关键词进行排序，并提取待处理文本的关键词，提高了关键词提取的准确率。

总的来说，本发明实施例提供的一种基于图模型的关键词提取方法及装置，在提高了关键词提取的准确率的同时，也有利于提高需要对生产内容进行标签标记业务的公司(如传统的新闻网站、视频网站等)，和有关键词抽取相关的业务需求的公司(如论文检索、搜索引擎公司等)的业务效率。因此，凡是通过本发明提出的关键词提取的方法及装置，来提高公司业务效率的，都属于本发明的保护范围。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于图模型的关键词提取方法，其特征在于，所述方法包括：

根据所述词向量构建所述候选关键词的词相似度矩阵；

2.根据权利要求1所述的方法，其特征在于，所述根据所述词向量构建所述候选关键词的词相似度矩阵，包括：

根据公式：

<mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>x</mi> <mrow> <mn>1</mn> <mi>k</mi> </mrow> </msub> <msub> <mi>x</mi> <mrow> <mn>2</mn> <mi>k</mi> </mrow> </msub> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <msub> <mi>x</mi> <mrow> <mn>1</mn> <mi>k</mi> </mrow> </msub> <mn>2</mn> </msup> </mrow> </msqrt> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <msub> <mi>x</mi> <mrow> <mn>2</mn> <mi>k</mi> </mrow> </msub> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> </mfrac> </mrow>

3.根据权利要求1所述的方法，其特征在于，所述计算所述候选关键词在所述语料库中的全局信息，得到所述候选关键词的全局权重，，包括：

计算所述候选关键词在所述语料库中的词频和逆文档频率，得到所述候选关键词的全局权重，并将所述全局权重作为所述候选关键词的初始权重。

4.根据权利要求3所述的方法，其特征在于，所述计算所述候选关键词在所述语料库中的词频和逆文档频率，包括：

根据公式：

IDF＝log(D/Dt)

计算所述候选关键词在所述语料库中的逆文档频率，其中，IDF表示所述候选关键词在所述语料库中的逆文档频率，D表示所述语料库的文本总数，Dt表示所述语料库中包含所述候选关键词的文本数量；

根据公式：

TF_IDF＝TF*IDF

5.根据权利要求1所述的方法，其特征在于，所述根据所述候选关键词的初始权重和所述词相似度矩阵对所述候选关键词进行排序，包括：

根据公式：

p_t＝M^Tp_t-1

根据所述重要程度，提取所述待处理文本的关键词。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述获取待处理文本，并对所述待处理文本进行分词，得到所述待处理文本对应的候选关键词，包括：

7.根据权利要求1至5任一项所述的方法，其特征在于，所述词向量是通过word2vec训练得到的。

8.一种基于图模型的关键词提取装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述处理模块，包括：

第一计算单元，用于根据公式：

<mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>x</mi> <mrow> <mn>1</mn> <mi>k</mi> </mrow> </msub> <msub> <mi>x</mi> <mrow> <mn>2</mn> <mi>k</mi> </mrow> </msub> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <msub> <mi>x</mi> <mrow> <mn>1</mn> <mi>k</mi> </mrow> </msub> <mn>2</mn> </msup> </mrow> </msqrt> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <msub> <mi>x</mi> <mrow> <mn>2</mn> <mi>k</mi> </mrow> </msub> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> </mfrac> </mrow> 2

10.根据权利要求8所述的装置，其特征在于，所述计算模块，包括：

11.根据权利要求10所述的装置，其特征在于，所述第二计算单元，包括：

第二计算子单元，用于根据公式：

IDF＝log(D/Dt)

第三计算子单元，用于根据公式：

TF_IDF＝TF*IDF

12.根据权利要求8所述的装置，其特征在于，所述提取模块，包括：

第四计算单元，用于根据公式：

p_t＝M^Tp_t-1

13.根据权利要求8至12任一项所述的装置，其特征在于，所述获取模块，包括：

14.根据权利要求8至12任一项所述的装置，其特征在于，所述词向量是通过word2vec训练得到的。