CN107102986A - 文档中多主题的关键词提取技术 - Google Patents

文档中多主题的关键词提取技术 Download PDF

Info

Publication number
CN107102986A
CN107102986A CN201710268923.9A CN201710268923A CN107102986A CN 107102986 A CN107102986 A CN 107102986A CN 201710268923 A CN201710268923 A CN 201710268923A CN 107102986 A CN107102986 A CN 107102986A
Authority
CN
China
Prior art keywords
word
vocabulary
text
threaded
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710268923.9A
Other languages
English (en)
Inventor
金平艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Yonglian Information Technology Co Ltd
Original Assignee
Sichuan Yonglian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Yonglian Information Technology Co Ltd filed Critical Sichuan Yonglian Information Technology Co Ltd
Priority to CN201710268923.9A priority Critical patent/CN107102986A/zh
Publication of CN107102986A publication Critical patent/CN107102986A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

文档中多主题的关键词提取技术,根据中文分词预处理过程,确定词汇位置权重、词性权重,以文本词汇贡献度最大的核心词汇为参考,计算两词汇相关度,构建一个多主题网络模型,构造目标函数提取连接词,利用叉函数把连接词融入到多主题网络模型中,得到新模型图,再提取前位词汇即为文本关键词。本发明准确度高、具有更好的应用价值,可以精确计算不同词汇对文本思想的贡献度、即考虑多主题性、又区分了不同特征,为后续的文本相似度与文本聚类提供良好的理论基础。

Description

文档中多主题的关键词提取技术
技术领域
本发明涉及语义网络技术领域,具体涉及文档中多主题的关键词提取技术。
背景技术
关键词,是表述文本主题内容的词汇集合,是文本更简略的摘要,用户可以根据关键词快速和粗略的获取文档的内容。所以文档关键词可以帮助用户迅速的从大量的文档集合中找到用户需要或者与其相关的文档。但除学术论文包含关键词外,大量的文档没有关键词,尤其是上述提到的互联网上的众多网页。语言专家手工提取关键词,其准确率较高,但对海量文档信息手工提取是一个繁重且不可行的方法。目前常用的关键词提取方法,包括词频-反文档频率方法、信息增益等方法。词频-反文档频率方法的简单结构并不能有效地反映词汇或短语的重要程度和特征值的分布情况,所以TF-IDF的精度并不是很高。信息增益方法只适合用来提取一个类别的文本特征,而无法用于提取多个类别的文本特征。同时,在构建复杂网络模型过程中,网络节点的选择以分词结果为基础,如果分词出现错误或分词粒度过低,将含义丰富的长词串分割成意义较模糊的单个字词,都会影响最终关键词的选取,对读者通过关键词理解文章主题也有较大影响。此外对关键节点的选取都是针对各自选取的实验样本提出的算法,没有提出一种能够综合考虑各种情况的通用性算法。因此,为了改善文本检索的现状,人们积极研究人工智能和自然语言处理的各种技术,很多学者提出采用机器智能自动提取关键词的方法。由此可见,关键词自动抽取是文本自动处理的基础与核心技术,是解决信息检索的效率和准确度的关键技术,关键词是表述文本主题,为了满足上述需求,本发明提供一种文档中多主题的关键词提取技术。
发明内容
针对从多主题文档中找出一些非高频并且对主题贡献大的词作为关键词、实现自动提取文档中主题词的问题以及常用的关键词提取方法精度不高的不足,本发明提供了一种文档中多主题的关键词提取技术。
为了解决上述问题,本发明是通过以下技术方案实现的:
步骤1:利用中文分词技术对文本进行分词处理;
步骤2:根据停用表对文本词汇进行去停用词处理,得到词汇集w;
步骤3:构造相关度函数RE(ci,c(w1))对上述词汇集w进行从大到小排序处理,取前n个词语构成一个多主题网络模型M;
步骤4:构造目标函数确定不同主题间的连接词LINK(C);
步骤5:构造叉函数把连接词有效的融入多主题网络模型中,模型图记为M′。
本发明有益效果是:
1、此方法比传统的词频-反文档频率方法得到的文本关键词集合的准确度更高。
2、把词语语义关系映射到主题网络模型图上,既考虑了多主题性,又区分了主题间的不同特征,提取的文本关键词更符合经验值;
3、为后续的文本相似度与文本聚类技术提供良好的理论基础。
4、此算法具有更大的利用价值。
5、此方法精确地计算了特征词汇中不同词汇对文本思想的贡献度。
附图说明
图1 文档中多主题的关键词提取技术的结构流程图
图2 n元语法分词算法图解
图3 中文文本预处理过程流程图
图4 n个词语构成一个多主题网络模型图M
图5 多主题网络模型图M′
具体实施方式
为了解决从多主题文档中找出一些非高频并且对主题贡献大的词作为关键词、实现自动提取文档中主题词的问题以及常用的关键词提取方法精度不高的问题、结合图1-图5对本发明进行了详细说明,其具体实施步骤如下:
步骤1:利用中文分词技术对文本进行分词处理,其具体分词技术过程如下:
步骤1.1:根据《分词词典》找到待分词句子中与词典中匹配的词,把待分词的汉字串完整的扫描一遍,在系统的词典里进行查找匹配,遇到字典里有的词就标识出来;如果词典中不存在相关匹配,就简单地分割出单字作为词;直到汉字串为空。
步骤1.2:依据概率统计学,将待分词句子拆分为网状结构,即得n个可能组合的句子结构,把此结构每条顺序节点依次规定为SM1M2M3M4M5E,其结构图如图2所示。
步骤1.3:基于信息论方法,给上述网状结构每条边赋予一定的权值,其具体计算过程如下:
根据《分词词典》匹配出的字典词与未匹配的单个词,第i条路径包含词的个数为ni。即n条路径词的个数集合为(n1,n2,…,nn)。
得min()=min(n1,n2,…,nn)
在上述留下的剩下的(n-m)路径中,求解每条相邻路径的权重大小。
在统计语料库中,计算每个词的信息量X(Ci),再求解路径相邻词的共现信息量X(Ci,Ci+1)。既有下式:
X(Ci)=|x(Ci)1-x(Ci)2|
上式x(Ci)1为文本语料库中词Ci的信息量,x(Ci)2为含词Ci的文本信息量。
x(Ci)1=-p(Ci)1lnp(Ci)1
上式p(Ci)1为Ci在文本语料库中的概率,n为含词Ci的文本语料库的个数。
x(Ci)2=-p(Ci)2lnp(Ci)2
上式p(Ci)2为含词Ci的文本数概率值,N为统计语料库中文本总数。
同理X(Ci,Ci+1)=|x(Ci,Ci+1)1-x(Ci,Ci+1)2|
x(Ci,Ci+1)1为在文本语料库中词(Ci,Ci+1)的共现信息量,x(Ci,Ci+1)2为相邻词(Ci,Ci+1)共现的文本信息量。
同理x(Ci,Ci+1)1=-p(Ci,Ci+1)1lnp(Ci,Ci+1)1
上式p(Ci,Ci+1)1为在文本语料库中词(Ci,Ci+1)的共现概率,m为在文本库中词(Ci,Ci+1)共现的文本数量。
x(Ci,Ci+1)2=-p(Ci,Ci+1)2lnp(Ci,Ci+1)2
p(Ci,Ci+1)2为文本库中相邻词(Ci,Ci+1)共现的文本数概率。
综上可得每条相邻路径的权值为
w(Ci,Ci+1)=X(Ci)+X(Ci+1)-2X(Ci,Ci+1)
步骤1.4:找到权值最大的一条路径,即为待分词句子的分词结果,其具体计算过程如下:
有n条路径,每条路径长度不一样,假设路径长度集合为(L1,L2,…,Ln)。
假设经过取路径中词的数量最少操作,排除了m条路径,m<n。即剩下(n-m)路径,设其路径长度集合为
则每条路径权重为:
上式分别为第1,2到路径边的权重值,根据步骤1.4可以一一计算得出,为剩下(n-m)路径中第Sj条路径的长度。
权值最大的一条路径:
步骤2:根据停用表对文本词汇进行去停用词处理,得到词汇集w,其具体描述如下:
停用词是指在文本中出现频率高,但对于文本标识却没有太大作用的单词。去停用词的过程就是将特征项与停用词表中的词进行比较,如果匹配就将该特征项删除。
综合分词和删除停用词技术,中文文本预处理过程流程图如图3。
步骤3:构造相关度函数RE(ci,c(w1))对上述词汇集w进行从大到小排序处理,取前n个词语构成一个多主题网络模型M,其具体计算过程如下:
利用下列公式,先提取文中信息量最大的词汇作为文本的核心词汇;
上式N为文本词汇集合总的个数,ni为第i个词汇在文本出现的次数,αi为位置权重值i∈(1,2,…,n),βj为词性权重值,j∈(1,2,3,4)。
再根据w1对应的词汇作为参考词汇c(w1),计算其他词汇与它的相关度,公式如下:
n(ci,c(w1))为词汇ci与核心词汇c(w1)在文本中同一句话中出现的次数,n(ci)为词汇n(ci)在文本中出现的次数,n(c(w1))为核心词汇c(w1)在文本中出现的次数。为词汇ci与c(w1)的平均权重值,w(ci)为词汇ci在文本中的权重值。
上式
提取前n位作为文本的特征词汇,即参考词汇c(w1)与RE(ci,c(w1))值更大的前n-1位所对应的词汇ci集合。
步骤4:构造目标函数确定不同主题间的连接词LINK(C),其具体计算过程如下:
目标函数
上式j为第j个主题,主题个数为g个,h为主题中词汇的个数,它是个变量,主题不同,h的值就不同,为第j个主题中关键词词汇数为N,为连接词C在主题j中出现的次数,为连接词C与主题中词汇的相似度,这个可以由传统方法计算得出,α、β分别为的影响系数,一般β>α,且α+β=1,α、β可以由实验测试出最佳值,上式y(Zj)为主题Zj对文档的影响程度。
为主题j中两词汇间共现的次数,为主题j中两词汇间的相似度,这个可以由传统方法计算得出。
根据值,从大至小选取m个连接词LINK(C)。
步骤5:构造叉函数把连接词有效的融入多主题网络模型中,模型图记为M′,其计算过程如下:
叉函数:
上式G(Ci′/wj′)为Ci′相对于wj′的共现度,G(wj′/Ci′)为wj′相对于Ci′的共现度,上式Mf为两词汇本体概念共同的父节点密度,Sf为两词汇本体概念共同的父节点深度,nf为义原网状结构中对应父节点所在的树状结构中的最大节点密度值,df为义原网状结构中对应父节点所在的树状结构中的树的度
同理
上式n(Ci′,wj′)为连接词Ci′与词汇集中词汇wj′在一句话中出现的次数,N(wj′)为词汇集中词汇wj′在文档中出现的次数,N(Ci′)为连接词Ci′在文档中出现的次数,这里N(Ci′)≠N(wj′)、n(Ci′,wj′)=n(wj′,Ci′)。
根据叉函数的值从大到小取n-1个词汇对,即得文档中n个关键词。
文档中多主题的关键词提取技术,其伪代码计算过程如下:
输入:一个文档
输出:提取文档中的核心关键词。

Claims (3)

1.文档中多主题的关键词提取技术,本发明涉及语义网络技术领域,具体涉及文档中多主题的关键词提取技术,其特征是,包括如下步骤:
步骤1:利用中文分词技术对文本进行分词处理,其具体分词技术过程如下:
步骤1.1:根据《分词词典》找到待分词句子中与词典中匹配的词,把待分词的汉字串完整的扫描一遍,在系统的词典里进行查找匹配,遇到字典里有的词就标识出来;如果词典中不存在相关匹配,就简单地分割出单字作为词;直到汉字串为空
步骤1.2:依据概率统计学,将待分词句子拆分为网状结构,即得个可能组合的句子结构,把此结构每条顺序节点依次规定为,其结构图如图2所示
步骤1.3:基于信息论方法,给上述网状结构每条边赋予一定的权值,其具体计算过程如下:
根据《分词词典》匹配出的字典词与未匹配的单个词,第条路径包含词的个数为,即条路径词的个数集合为
在上述留下的剩下的路径中,求解每条相邻路径的权重大小
在统计语料库中,计算每个词的信息量,再求解路径相邻词的共现信息量,既有下式:
上式为文本语料库中词的信息量,为含词的文本信息量
上式在文本语料库中的概率,为含词的文本语料库的个数
上式为含词的文本数概率值,为统计语料库中文本总数
同理
为在文本语料库中词的共现信息量,为相邻词共现的文本信息量
同理
上式为在文本语料库中词的共现概率,为在文本库中词共现的文本数量
为文本库中相邻词共现的文本数概率
综上可得每条相邻路径的权值为
步骤1.4:找到权值最大的一条路径,即为待分词句子的分词结果,其具体计算过程如下:
条路径,每条路径长度不一样,假设路径长度集合为
假设经过取路径中词的数量最少操作,排除了条路径,,即剩下路径,设其路径长度集合为
则每条路径权重为:
上式分别为第1,2到路径边的权重值,根据步骤1.4可以一一计算得出,为剩下路径中第条路径的长度
权值最大的一条路径:
步骤2:根据停用表对文本词汇进行去停用词处理,得到词汇集,其具体描述如下:
停用词是指在文本中出现频率高,但对于文本标识却没有太大作用的单词,去停用词的过程就是将特征项与停用词表中的词进行比较,如果匹配就将该特
征项删除
综合分词和删除停用词技术,中文文本预处理过程流程图如图3
步骤3:构造相关度函数对上述词汇集进行从大到小排序处理,取前个词语构成一个多主题网络模型,其具体计算过程如下:
利用下列公式,先提取文中信息量最大的词汇作为文本的核心词汇;
上式为文本词汇集合总的个数,为第个词汇在文本出现的次数,为位置权重值为词性权重值,
再根据对应的词汇作为参考词汇,计算其他词汇与它的相关度,公式如下:
为词汇与核心词汇在文本中同一句话中出现的次数,为词汇在文本中出现的次数,为核心词汇在文本中出现的次数,为词汇的平均权重值,为词汇在文本中的权重值
上式
提取前位作为文本的特征词汇,即参考词汇值更大的前位所对应的词汇集合
步骤4:构造目标函数确定不同主题间的连接词
步骤5:构造叉函数把连接词有效的融入多主题网络模型中,模型图记为
2.根据权利要求1中所述的文档中多主题的关键词提取技术,其特征是,以上所述步骤4中的具体计算过程如下:
步骤4:构造目标函数确定不同主题间的连接词,其具体计算过程如下:
目标函数
上式为第个主题,主题个数为个,为主题中词汇的个数,它是个变量,主题不同,的值就不同,为第个主题中关键词词汇数为为连接词在主题中出现的次数,为连接词与主题中词汇的相似度,这个可以由传统方法计算得出,分别为的影响系数,一般,且可以由实验测试出最佳值,上式为主题对文档的影响程度
为主题中两词汇间共现的次数,为主题中两词汇间的相似度,这个可以由传统方法计算得出
根据值,从大至小选取个连接词
3.根据权利要求1中所述的文档中多主题的关键词提取技术,其特征是,以上所述步骤5中的具体计算过程如下:
步骤5:构造叉函数把连接词有效的融入多主题网络模型中,模型图记为,其计算过程如下:
叉函数:
上式相对于的共现度,相对于的共现度, 上式为两词汇本体概念共同的父节点密度,为两词汇本体概念共同的父节点深度,为义原网状结构中对应父节点所在的树状结构中的最大节点密度值,为义原网状结构中对应父节点所在的树状结构中的树的度
同理
上式为连接词与词汇集中词汇在一句话中出现的次数, 为词汇集中词汇在文档中出现的次数,为连接词在文档中出现的次数,这里
根据叉函数的值从大到小取个词汇对,即得文档中个关键词。
CN201710268923.9A 2017-04-23 2017-04-23 文档中多主题的关键词提取技术 Pending CN107102986A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710268923.9A CN107102986A (zh) 2017-04-23 2017-04-23 文档中多主题的关键词提取技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710268923.9A CN107102986A (zh) 2017-04-23 2017-04-23 文档中多主题的关键词提取技术

Publications (1)

Publication Number Publication Date
CN107102986A true CN107102986A (zh) 2017-08-29

Family

ID=59657049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710268923.9A Pending CN107102986A (zh) 2017-04-23 2017-04-23 文档中多主题的关键词提取技术

Country Status (1)

Country Link
CN (1) CN107102986A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726289A (zh) * 2018-12-29 2019-05-07 北京百度网讯科技有限公司 事件检测方法及装置
CN111061864A (zh) * 2019-12-23 2020-04-24 中国人民解放军国防科技大学 基于特征提取的开源社区Fork摘要自动生成方法、系统及介质
CN111310072A (zh) * 2020-01-17 2020-06-19 腾讯科技(深圳)有限公司 关键词提取方法、装置和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243065A (zh) * 2014-06-24 2016-01-13 中兴通讯股份有限公司 一种素材信息输出方法和系统
CN105843795A (zh) * 2016-03-21 2016-08-10 华南理工大学 基于主题模型的文档关键词抽取方法及其系统
CN106570120A (zh) * 2016-11-02 2017-04-19 四川用联信息技术有限公司 一种改进的关键词优化实现搜索引擎优化技术

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243065A (zh) * 2014-06-24 2016-01-13 中兴通讯股份有限公司 一种素材信息输出方法和系统
CN105843795A (zh) * 2016-03-21 2016-08-10 华南理工大学 基于主题模型的文档关键词抽取方法及其系统
CN106570120A (zh) * 2016-11-02 2017-04-19 四川用联信息技术有限公司 一种改进的关键词优化实现搜索引擎优化技术

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宁建飞: "融合Word2vec与TextRank的关键词抽取研究", 《现代图书情报技术》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726289A (zh) * 2018-12-29 2019-05-07 北京百度网讯科技有限公司 事件检测方法及装置
CN111061864A (zh) * 2019-12-23 2020-04-24 中国人民解放军国防科技大学 基于特征提取的开源社区Fork摘要自动生成方法、系统及介质
CN111061864B (zh) * 2019-12-23 2022-10-18 中国人民解放军国防科技大学 基于特征提取的开源社区Fork摘要自动生成方法、系统及介质
CN111310072A (zh) * 2020-01-17 2020-06-19 腾讯科技(深圳)有限公司 关键词提取方法、装置和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN106598940A (zh) 基于全局优化关键词质量的文本相似度求解算法
CN107102985A (zh) 改进的文档中多主题的关键词提取技术
CN106970910B (zh) 一种基于图模型的关键词提取方法及装置
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN106776562A (zh) 一种关键词提取方法和提取系统
CN112257453B (zh) 融合关键词和语义特征的汉越文本相似度计算方法
CN106611041A (zh) 一种新的文本相似度求解方法
CN106598941A (zh) 一种全局优化文本关键词质量的算法
CN110222172B (zh) 一种基于改进层次聚类的多源网络舆情主题挖掘方法
CN106570112A (zh) 基于改进的蚁群算法实现文本聚类
CN109002473A (zh) 一种基于词向量与词性的情感分析方法
CN106528621A (zh) 一种改进的密度文本聚类算法
CN107273474A (zh) 基于潜在语义分析的自动摘要抽取方法及系统
CN107092595A (zh) 新的关键词提取技术
CN106610952A (zh) 一种混合的文本特征词汇提取方法
CN106610953A (zh) 基于基尼指数求解文本相似度的方法
CN106610949A (zh) 一种基于语义分析的文本特征提取方法
CN106610954A (zh) 基于统计学的文本特征词汇提取方法
Dahou et al. Multi-channel embedding convolutional neural network model for arabic sentiment classification
Tiwari et al. Ensemble approach for twitter sentiment analysis
CN106570120A (zh) 一种改进的关键词优化实现搜索引擎优化技术
CN109740164A (zh) 基于深度语义匹配的电力缺陷等级识别方法
CN107102986A (zh) 文档中多主题的关键词提取技术
CN107038155A (zh) 基于改进的小世界网络模型实现文本特征的提取方法
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170829

WD01 Invention patent application deemed withdrawn after publication