CN107102986A

CN107102986A - 文档中多主题的关键词提取技术

Info

Publication number: CN107102986A
Application number: CN201710268923.9A
Authority: CN
Inventors: 金平艳
Original assignee: Sichuan Yonglian Information Technology Co Ltd
Current assignee: Sichuan Yonglian Information Technology Co Ltd
Priority date: 2017-04-23
Filing date: 2017-04-23
Publication date: 2017-08-29

Abstract

文档中多主题的关键词提取技术，根据中文分词预处理过程，确定词汇位置权重、词性权重，以文本词汇贡献度最大的核心词汇为参考，计算两词汇相关度，构建一个多主题网络模型，构造目标函数提取连接词，利用叉函数把连接词融入到多主题网络模型中，得到新模型图，再提取前位词汇即为文本关键词。本发明准确度高、具有更好的应用价值，可以精确计算不同词汇对文本思想的贡献度、即考虑多主题性、又区分了不同特征，为后续的文本相似度与文本聚类提供良好的理论基础。

Description

文档中多主题的关键词提取技术

技术领域

本发明涉及语义网络技术领域，具体涉及文档中多主题的关键词提取技术。

背景技术

关键词，是表述文本主题内容的词汇集合，是文本更简略的摘要，用户可以根据关键词快速和粗略的获取文档的内容。所以文档关键词可以帮助用户迅速的从大量的文档集合中找到用户需要或者与其相关的文档。但除学术论文包含关键词外，大量的文档没有关键词，尤其是上述提到的互联网上的众多网页。语言专家手工提取关键词，其准确率较高，但对海量文档信息手工提取是一个繁重且不可行的方法。目前常用的关键词提取方法，包括词频-反文档频率方法、信息增益等方法。词频-反文档频率方法的简单结构并不能有效地反映词汇或短语的重要程度和特征值的分布情况，所以TF-IDF的精度并不是很高。信息增益方法只适合用来提取一个类别的文本特征，而无法用于提取多个类别的文本特征。同时，在构建复杂网络模型过程中，网络节点的选择以分词结果为基础，如果分词出现错误或分词粒度过低，将含义丰富的长词串分割成意义较模糊的单个字词，都会影响最终关键词的选取，对读者通过关键词理解文章主题也有较大影响。此外对关键节点的选取都是针对各自选取的实验样本提出的算法，没有提出一种能够综合考虑各种情况的通用性算法。因此，为了改善文本检索的现状，人们积极研究人工智能和自然语言处理的各种技术，很多学者提出采用机器智能自动提取关键词的方法。由此可见，关键词自动抽取是文本自动处理的基础与核心技术，是解决信息检索的效率和准确度的关键技术，关键词是表述文本主题，为了满足上述需求，本发明提供一种文档中多主题的关键词提取技术。

发明内容

针对从多主题文档中找出一些非高频并且对主题贡献大的词作为关键词、实现自动提取文档中主题词的问题以及常用的关键词提取方法精度不高的不足，本发明提供了一种文档中多主题的关键词提取技术。

为了解决上述问题，本发明是通过以下技术方案实现的：

步骤1：利用中文分词技术对文本进行分词处理；

步骤2：根据停用表对文本词汇进行去停用词处理，得到词汇集w；

步骤3：构造相关度函数RE(c_i，c(w₁))对上述词汇集w进行从大到小排序处理，取前n个词语构成一个多主题网络模型M；

步骤4：构造目标函数确定不同主题间的连接词LINK(C)；

步骤5：构造叉函数把连接词有效的融入多主题网络模型中，模型图记为M′。

本发明有益效果是：

1、此方法比传统的词频-反文档频率方法得到的文本关键词集合的准确度更高。

2、把词语语义关系映射到主题网络模型图上，既考虑了多主题性，又区分了主题间的不同特征，提取的文本关键词更符合经验值；

3、为后续的文本相似度与文本聚类技术提供良好的理论基础。

4、此算法具有更大的利用价值。

5、此方法精确地计算了特征词汇中不同词汇对文本思想的贡献度。

附图说明

图1 文档中多主题的关键词提取技术的结构流程图

图2 n元语法分词算法图解

图3 中文文本预处理过程流程图

图4 n个词语构成一个多主题网络模型图M

图5 多主题网络模型图M′

具体实施方式

为了解决从多主题文档中找出一些非高频并且对主题贡献大的词作为关键词、实现自动提取文档中主题词的问题以及常用的关键词提取方法精度不高的问题、结合图1-图5对本发明进行了详细说明，其具体实施步骤如下：

步骤1：利用中文分词技术对文本进行分词处理，其具体分词技术过程如下：

步骤1.1：根据《分词词典》找到待分词句子中与词典中匹配的词，把待分词的汉字串完整的扫描一遍，在系统的词典里进行查找匹配，遇到字典里有的词就标识出来；如果词典中不存在相关匹配，就简单地分割出单字作为词；直到汉字串为空。

步骤1.2：依据概率统计学，将待分词句子拆分为网状结构，即得n个可能组合的句子结构，把此结构每条顺序节点依次规定为SM₁M₂M₃M₄M₅E，其结构图如图2所示。

步骤1.3：基于信息论方法，给上述网状结构每条边赋予一定的权值，其具体计算过程如下：

根据《分词词典》匹配出的字典词与未匹配的单个词，第i条路径包含词的个数为n_i。即n条路径词的个数集合为(n₁，n₂，…，n_n)。

得min()＝min(n₁，n₂，…，n_n)

在上述留下的剩下的(n-m)路径中，求解每条相邻路径的权重大小。

在统计语料库中，计算每个词的信息量X(C_i)，再求解路径相邻词的共现信息量X(C_i，C_i+1)。既有下式：

X(C_i)＝|x(C_i)₁-x(C_i)₂|

上式x(C_i)₁为文本语料库中词C_i的信息量，x(C_i)₂为含词C_i的文本信息量。

x(C_i)₁＝-p(C_i)₁lnp(C_i)₁

上式p(C_i)₁为C_i在文本语料库中的概率，n为含词C_i的文本语料库的个数。

x(C_i)₂＝-p(C_i)₂lnp(C_i)₂

上式p(C_i)₂为含词C_i的文本数概率值，N为统计语料库中文本总数。

同理X(C_i，C_i+1)＝|x(C_i，C_i+1)₁-x(C_i，C_i+1)₂|

x(C_i，C_i+1)₁为在文本语料库中词(C_i，C_i+1)的共现信息量，x(C_i，C_i+1)₂为相邻词(C_i，C_i+1)共现的文本信息量。

同理x(C_i，C_i+1)₁＝-p(C_i，C_i+1)₁lnp(C_i，C_i+1)₁

上式p(C_i，C_i+1)₁为在文本语料库中词(C_i，C_i+1)的共现概率，m为在文本库中词(C_i，C_i+1)共现的文本数量。

x(C_i，C_i+1)₂＝-p(C_i，C_i+1)₂lnp(C_i，C_i+1)₂

p(C_i，C_i+1)₂为文本库中相邻词(C_i，C_i+1)共现的文本数概率。

综上可得每条相邻路径的权值为

w(C_i，C_i+1)＝X(C_i)+X(C_i+1)-2X(C_i，C_i+1)

步骤1.4：找到权值最大的一条路径，即为待分词句子的分词结果，其具体计算过程如下：

有n条路径，每条路径长度不一样，假设路径长度集合为(L₁，L₂，…，L_n)。

假设经过取路径中词的数量最少操作，排除了m条路径，m＜n。即剩下(n-m)路径，设其路径长度集合为

则每条路径权重为：

上式分别为第1，2到路径边的权重值，根据步骤1.4可以一一计算得出，为剩下(n-m)路径中第S_j条路径的长度。

权值最大的一条路径：

步骤2：根据停用表对文本词汇进行去停用词处理，得到词汇集w，其具体描述如下：

停用词是指在文本中出现频率高，但对于文本标识却没有太大作用的单词。去停用词的过程就是将特征项与停用词表中的词进行比较，如果匹配就将该特征项删除。

综合分词和删除停用词技术，中文文本预处理过程流程图如图3。

步骤3：构造相关度函数RE(c_i，c(w₁))对上述词汇集w进行从大到小排序处理，取前n个词语构成一个多主题网络模型M，其具体计算过程如下：

利用下列公式，先提取文中信息量最大的词汇作为文本的核心词汇；

上式N_总为文本词汇集合总的个数，n_i为第i个词汇在文本出现的次数，α_i为位置权重值i∈(1，2，…，n)，β_j为词性权重值，j∈(1，2，3，4)。

再根据w₁对应的词汇作为参考词汇c(w₁)，计算其他词汇与它的相关度，公式如下：

n(c_i，c(w₁))为词汇c_i与核心词汇c(w₁)在文本中同一句话中出现的次数，n(c_i)为词汇n(c_i)在文本中出现的次数，n(c(w₁))为核心词汇c(w₁)在文本中出现的次数。为词汇c_i与c(w₁)的平均权重值，w(c_i)为词汇c_i在文本中的权重值。

上式

提取前n位作为文本的特征词汇，即参考词汇c(w₁)与RE(c_i，c(w₁))值更大的前n-1位所对应的词汇c_i集合。

步骤4：构造目标函数确定不同主题间的连接词LINK(C)，其具体计算过程如下：

目标函数

上式j为第j个主题，主题个数为g个，h为主题中词汇的个数，它是个变量，主题不同，h的值就不同，为第j个主题中关键词词汇数为N，为连接词C在主题j中出现的次数，为连接词C与主题中词汇的相似度，这个可以由传统方法计算得出，α、β分别为的影响系数，一般β＞α，且α+β＝1，α、β可以由实验测试出最佳值，上式y(Z_j)为主题Z_j对文档的影响程度。

为主题j中两词汇间共现的次数，为主题j中两词汇间的相似度，这个可以由传统方法计算得出。

根据值，从大至小选取m个连接词LINK(C)。

步骤5：构造叉函数把连接词有效的融入多主题网络模型中，模型图记为M′，其计算过程如下：

叉函数：

上式G(C_i′/w_j′)为C_i′相对于w_j′的共现度，G(w_j′/C_i′)为w_j′相对于C_i′的共现度，上式M_f为两词汇本体概念共同的父节点密度，S_f为两词汇本体概念共同的父节点深度，n_f为义原网状结构中对应父节点所在的树状结构中的最大节点密度值，d_f为义原网状结构中对应父节点所在的树状结构中的树的度

同理

上式n(C_i′，w_j′)为连接词C_i′与词汇集中词汇w_j′在一句话中出现的次数，N(w_j′)为词汇集中词汇w_j′在文档中出现的次数，N(C_i′)为连接词C_i′在文档中出现的次数，这里N(C_i′)≠N(w_j′)、n(C_i′，w_j′)＝n(w_j′，C_i′)。

根据叉函数的值从大到小取n-1个词汇对，即得文档中n个关键词。

文档中多主题的关键词提取技术，其伪代码计算过程如下：

输入：一个文档

输出：提取文档中的核心关键词。

Claims

1.文档中多主题的关键词提取技术，本发明涉及语义网络技术领域，具体涉及文档中多主题的关键词提取技术，其特征是，包括如下步骤：

步骤1.1：根据《分词词典》找到待分词句子中与词典中匹配的词，把待分词的汉字串完整的扫描一遍，在系统的词典里进行查找匹配，遇到字典里有的词就标识出来；如果词典中不存在相关匹配，就简单地分割出单字作为词；直到汉字串为空

步骤1.2：依据概率统计学，将待分词句子拆分为网状结构，即得个可能组合的句子结构，把此结构每条顺序节点依次规定为，其结构图如图2所示

根据《分词词典》匹配出的字典词与未匹配的单个词，第条路径包含词的个数为，即条路径词的个数集合为

得

在上述留下的剩下的路径中，求解每条相邻路径的权重大小

在统计语料库中，计算每个词的信息量，再求解路径相邻词的共现信息量，既有下式：

上式为文本语料库中词的信息量，为含词的文本信息量

上式为在文本语料库中的概率，为含词的文本语料库的个数

上式为含词的文本数概率值，为统计语料库中文本总数

同理

为在文本语料库中词的共现信息量，为相邻词共现的文本信息量

同理

上式为在文本语料库中词的共现概率，为在文本库中词共现的文本数量

为文本库中相邻词共现的文本数概率

综上可得每条相邻路径的权值为

有条路径，每条路径长度不一样，假设路径长度集合为

假设经过取路径中词的数量最少操作，排除了条路径，，即剩下路径，设其路径长度集合为

则每条路径权重为:

上式分别为第1,2到路径边的权重值，根据步骤1.4可以一一计算得出，为剩下路径中第条路径的长度

权值最大的一条路径:

步骤2：根据停用表对文本词汇进行去停用词处理，得到词汇集，其具体描述如下：

停用词是指在文本中出现频率高，但对于文本标识却没有太大作用的单词，去停用词的过程就是将特征项与停用词表中的词进行比较，如果匹配就将该特

征项删除

综合分词和删除停用词技术,中文文本预处理过程流程图如图3

步骤3：构造相关度函数对上述词汇集进行从大到小排序处理，取前个词语构成一个多主题网络模型，其具体计算过程如下：

上式为文本词汇集合总的个数，为第个词汇在文本出现的次数，为位置权重值，为词性权重值，

再根据对应的词汇作为参考词汇，计算其他词汇与它的相关度，公式如下：

为词汇与核心词汇在文本中同一句话中出现的次数，为词汇在文本中出现的次数，为核心词汇在文本中出现的次数，为词汇与的平均权重值，为词汇在文本中的权重值

上式

提取前位作为文本的特征词汇，即参考词汇与值更大的前位所对应的词汇集合

步骤4：构造目标函数确定不同主题间的连接词；

步骤5：构造叉函数把连接词有效的融入多主题网络模型中，模型图记为。

2.根据权利要求1中所述的文档中多主题的关键词提取技术，其特征是，以上所述步骤4中的具体计算过程如下：

步骤4：构造目标函数确定不同主题间的连接词,其具体计算过程如下：

目标函数：

上式为第个主题，主题个数为个，为主题中词汇的个数，它是个变量，主题不同，的值就不同，为第个主题中关键词词汇数为，为连接词在主题中出现的次数，为连接词与主题中词汇的相似度，这个可以由传统方法计算得出，、分别为、的影响系数，一般，且，、可以由实验测试出最佳值，上式为主题对文档的影响程度

为主题中两词汇间共现的次数，为主题中两词汇间的相似度，这个可以由传统方法计算得出

根据值，从大至小选取个连接词。

3.根据权利要求1中所述的文档中多主题的关键词提取技术，其特征是，以上所述步骤5中的具体计算过程如下：

步骤5：构造叉函数把连接词有效的融入多主题网络模型中，模型图记为，其计算过程如下：

叉函数：

上式为相对于的共现度，为相对于的共现度, 上式为两词汇本体概念共同的父节点密度，为两词汇本体概念共同的父节点深度，为义原网状结构中对应父节点所在的树状结构中的最大节点密度值，为义原网状结构中对应父节点所在的树状结构中的树的度

同理

上式为连接词与词汇集中词汇在一句话中出现的次数，为词汇集中词汇在文档中出现的次数，为连接词在文档中出现的次数，这里、

根据叉函数的值从大到小取个词汇对，即得文档中个关键词。