CN103744835B - 一种基于主题模型的文本关键词提取方法 - Google Patents
一种基于主题模型的文本关键词提取方法 Download PDFInfo
- Publication number
- CN103744835B CN103744835B CN201410000751.3A CN201410000751A CN103744835B CN 103744835 B CN103744835 B CN 103744835B CN 201410000751 A CN201410000751 A CN 201410000751A CN 103744835 B CN103744835 B CN 103744835B
- Authority
- CN
- China
- Prior art keywords
- theme
- vector
- text
- candidate
- lexical item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于主题模型的文本关键词提取方法,该方法首先利用主题模型的方法从大量文本训练集中由主题模型训练得到的词项与主题之间的训练文本集的词项与主题的概率矩阵WT,进而得到候选关键词集合A中词项与主题的概率向量的集合所组成的候选的关键词的词项与主题的概率矩阵B、候选关键词集合对应的候选关键词词频权重向量D,通过候选关键词词项的权重向量和文本的主题向量,利用候选关键词语主题的概率矩阵B进行循环计算操作,得到最终修正后的文本主题向量和词项权重比例向量,进而提取出文本的关键词。该方法降低文本由于不同长度所提取关键词的误差,提取更能适合表达文本内容的关键词。
Description
技术领域
本发明涉及一种从文本中提取关键词的方法,更具体地说,涉及一种基于从主题模型中得到词项与主题之间的概率矩阵,然后利用该矩阵从文本中提取更能表达文本主题内容关键词的方法。
背景技术
利用计算机在对文本处理之前,需要对文本进行形式化表示。在传统的方法中,通常是从文本中提取的关键词来表示文本的内容。从文本中提取关键词,其中关键词的词频是作为一个非常重要的依据。但是,由于不同类型的文本的长度是不同,关键词的词频将会出现较大的误差。特别是对短文本,短文本中的很多词项仅仅只是出现一次。在上述情况下,若将词项的词频作为从文本中提取关键词的依据,势必难以获得较好的效果。而且传统的文本关键词提取方法并没有根据应用对所提取的方法进行偏向性地处理,使得传统提取文本关键词的泛型方法在特定的应用背景下,效果将进一步下降。2003年Blei.在Journalof Machine Learning Research发表的一篇名为“Latent Dirichlet Allocation”的论文,旨在构建一个更为完全概率生成模型的主题模型方法,使得不同长度的文本可以以相同的维度向量表示。而本发明正是基于Blei.的这篇论文所提出的主题模型,进而进行提取文本的关键词。
发明内容
本发明主要针对传统文本关键词提取技术的不足,提出一种基于主题模型的文本关键词提取方法,该方法降低不同类型文本由于不同长度所提取关键词的误差,得到更能表达文本内容的关键词。
为达到上述目的,本发明采用下述技术方案:
一种基于主题模型的文本关键词提取方法,其具体步骤如下:
(1)、利用主题模型的方法,从大量文本训练集中获取词项与主题之间的概率矩阵,该矩阵记为训练文本集的词项与主题的概率矩阵;
(2)、对一个文本进行分词和去除停用词的预处理操作,得到相应的候选关键词集合A,然后根据候选关键词集合中的关键词,取出上述训练文本集的词项与主题的概率矩阵中候选关键词对应的一行,生成候选关键词集合对应的词项与主题之间的关系的词项与主题的概率矩阵;
(3)、对候选关键词集合A中的元素按照词项与主题的概率矩阵中行的元素顺序,设置一个与候选关键词集合A中的元素对应的候选关键词向量;
(4)、按照步骤(3)所述的候选关键词向量中候选关键词顺序,统计候选关键词在文本中的词频,得到的词频再经下列式(a)计算,得到与候选关键词向量对应的词频权重向量,其表达式为:
, (a)
其中,为第i个候选关键词在文本中的词频,i为候选关键词顺序编号;
(5)、设置一个与词项与主题的概率矩阵中的列号对应的文本的主题向量,该主题向量中元素的初始值为步骤(2)词项与主题的概率矩阵中对应列号上元素值之和,其表达式为:
,
,
其中, 为词项与主题的概率矩阵中的第i行第j列的元素, 为词项与主题的概率矩阵的行数,为词项概率矩阵的列数;
(6)、利用词项与主题的概率矩阵、候选关键词向量和文本的主题向量进行计算,得到候选关键词对应的主题权重向量;
(7)、将候选关键词对应的主题权重向量中的元素值乘上候选关键词词频权重向量中对应的元素值,得到修正后的候选关键词主题权重向量,其计算表达式为:
其中,为修正后的候选关键词主题权重向量中的第i个元素,为向量中的第i个元素,为向量中的第i个元素,
根据修正后的候选关键词主题权重向量中元素值的大小和设定的所需提取的关键词的个数k,对候选关键词集合A中的关键词进行排序,提取出其中最大的前k个元素值对应的k个候选关键词,由k个候选关键词组成文本的关键词集合。
上述步骤(6)中利用词项与主题的概率矩阵、候选关键词向量和文本的主题向量进行循环计算,得到候选关键词对应的主题权重向量,其具体步骤如下:
(6-1)、文本的主题向量进行归一化计算,得到归一化后的主题向量;
(6-2)、将词项与主题的概率矩阵和归一化后的主题向量相乘,其相乘之积的值赋给候选关键词的暂存向量,其计算公式如下:
(6-3)、对候选关键词的暂存向量进行归一化计算,得到归一化后的候选关键词向量;
(6-4)、将词项与主题的概率矩阵转置之后,再与候选关键词向量相乘,其相乘之积的值赋给的文本的主题权重向量,其计算公式如下:
;
(6-5)、设置循环阈值(比如千分之一),重复步骤(6-1)到步骤(6-4),一直到前后两次循环之间向量的每个元素对应的差值均小于设定的循环阈值,即停止,得到候选关键词对应的主题权重向量。
本发明提出的一种基于主题模型的文本关键词提取方法与传统的关键词提取方法相比,具有如下特点:
本发明利用由主题模型训练得到的词项与主题的概率矩阵得到候选关键词集合A中词项与主题的概率向量集合所组成的候选关键词与主题的概率矩阵B、候选关键词集合对应的候选关键词词频权重向量D,通过本发明的方法,获取候选关键词的主题权重向量,然后,根据需要提取候选关键词主题权重向量中的最大的k个值所对应的候选关键词组成文本的关键词集合。该方法降低各种文本由于不同长度所提取关键词的误差,提取更能适合表达文本内容的关键词。
附图说明
附图1是一种基于主题模型的文本关键词提取方法的流程示意图。
具体实施方式
以下结合附图对本发明的实施例作进一步的详细描述。
如图1所示,一种基于主题模型的文本关键词提取方法,该方法的具体步骤如下:
S1、利用主题模型中的方法,从大量文本训练集中获取词项与主题之间的概率矩阵,该矩阵记为训练文本集的词项与主题的概率矩阵;
S2、对一个文本进行分词和去除停用词的预处理操作,得到相应的候选关键词集合A,然后根据候选关键词集合中的关键词,取出上述训练文本集的词项与主题的概率矩阵中候选关键词对应的一行,生成候选关键词集合对应的词项与主题之间的关系的词项与主题的概率矩阵;
假设从一篇文本中,得到的候选关键词集=,查询训练文本集的词项与主题的概率矩阵WT,得到候选关键词集合A中词项对应的主题向量集合所组成的词项与主题的概率矩阵B,假设该概率矩阵为:
S3、对候选关键词集合A中的元素按照词项与主题的概率矩阵中行的元素顺序,设置一个与候选关键词集合A中的元素对应的候选关键词向量;
S4、按照步骤S3所述的候选关键词向量中候选关键词顺序,统计候选关键词在文本中的词频,得到的词频再经下列式(a)计算,得到与候选关键词向量对应的词频权重向量,其表达式为:
, (a)
其中,为第i个候选关键词在文本中的词频,i为候选关键词顺序编号;
假设候选关键词向量对应的词频权重向量D为:
C = ,
;
S5、设置一个与词项与主题的概率矩阵中的列号对应的文本的主题向量,该主题向量中元素的初始值为步骤S2词项与主题的概率矩阵中对应列号上元素值之和,其表达式为:
,
,
其中, 为词项与主题的概率矩阵中的第i行第j列的元素, 为词项与主题的概率矩阵的行数,为词项概率矩阵的列数,因而可得上述主题向量中元素的初始值为:;
S6、利用词项与主题的概率矩阵、候选关键词向量和文本的主题向量进行计算,得到候选关键词对应的主题权重向量,其具体步骤如下:
S6-1、文本的主题向量进行归一化计算,得到归一化后的主题向量,假设归一化之后的主题权重向量为:;
S6-2、将词项与主题的概率矩阵和归一化后的主题向量相乘,其相乘之积为值赋给候选关键词的暂存向量,其计算公式如下:
假设计算得到值赋后的候选关键词向量:
;
S6-3、对候选关键词的暂存向量进行归一化计算,得到归一化后的候选关键词向量;假设得到归一化之后的候选关键词向量:
;
S6-4、将词项与主题的概率矩阵转置之后,再与候选关键词向量相乘,其相乘之积的值赋给的文本的主题权重向量,其计算公式如下:
,
假设计算得到该文本的主题权重向量为:
;
S6-5、设置循环阈值(比如千分之一),重复步骤S6-1到步骤S6-4,一直到前后两次循环之间向量的每个元素对应的差值均小于设定的循环阈值,即停止,最终所得候选关键词权重向量并经过归一化处理之后的候选关键词对应的主题权重向量为:,所得到文本主题类别向量并经归一化处理后的值赋后的文本的主题权重向量为:;
S7、将候选关键词对应的主题权重向量中的元素值乘上候选关键词词频权重向量中对应的元素值,得到修正后的候选关键词主题权重向量,其计算表达式为:
其中,为修正后的候选关键词主题权重向量中的第i个元素,为向量中的第i个元素,为向量中的第i个元素,
根据修正后的候选关键词主题权重向量中元素值的大小和设定的所需提取的关键词的个数k,对候选关键词集合A中的关键词进行排序,提取出其中最大的前k个元素值对应的k个候选关键词,由k个候选关键词组成文本的关键词集合。
,所得到的候选关键词按其对应的权重值从大到小排序为:词项3、词项2、词项5、词项1、词项4, 若设置k值为3,所得到的文本关键词集合为: 。
Claims (1)
1.一种基于主题模型的文本关键词提取方法,其特征在于,具体步骤如下:
(1)、利用主题模型的方法,从大量文本训练集中获取词项与主题之间的概率矩阵,该矩阵记为训练文本集的词项与主题的概率矩阵WT;
(2)、对一个文本进行分词和去除停用词的预处理操作,得到相应的候选关键词集合A,然后根据候选关键词集合A中的关键词,取出上述训练文本集的词项与主题的概率矩阵WT中候选关键词对应的一行,生成候选关键词集合A对应的词项与主题之间的关系的词项与主题的概率矩阵B;
(3)、对候选关键词集合A中的元素按照词项与主题的概率矩阵B中行的元素顺序,设置一个与候选关键词集合A中的元素对应的候选关键词向量C;
(4)、按照步骤(3)所述的候选关键词向量C中候选关键词顺序,统计候选关键词在文本中的词频,得到的词频再经下列式(a)计算,得到与候选关键词向量C对应的候选关键词词频权重向量D,其表达式为:
D=[log2(dn1+1) log2(dn2+1) ... log2(dni+1) ... log2(dnn+1)], (a)
其中,dni为第i个候选关键词在文本中的词频,i为候选关键词顺序编号;
(5)、设置一个与词项与主题的概率矩阵B中的列号对应的文本的主题向量F,该主题向量F中元素的初始值为步骤(2)词项与主题的概率矩阵B中对应列号上元素值之和,其表达式为:
F=[f(1) f(2) ... f(j) ... f(m)]T,
其中,aij为词项与主题的概率矩阵B中的第i行第j列的元素,n为词项与主题的概率矩阵B的行数,m为词项概率矩阵B的列数;
(6)、利用词项与主题的概率矩阵B、候选关键词向量C和文本的主题向量F进行循环计算,得到候选关键词对应的主题权重向量U;
(7)、将候选关键词对应的主题权重向量U中的元素值乘上候选关键词词频权重向量D中对应的元素值,得到修正后的候选关键词主题权重向量P,其计算表达式为:
pi=ui×di
其中,pi为修正后的候选关键词主题权重向量P中的第i个元素,ui为向量U中的第i个元素,di为向量D中的第i个元素,
根据修正后的候选关键词主题权重向量P中元素值的大小和设定的所需提取的关键词的个数k,对候选关键词集合A中的关键词进行排序,提取出其中最大的前k个元素值对应的k个候选关键词,由k个候选关键词组成文本的关键词集合I;
上述步骤(6)所述的利用词项与主题的概率矩阵B、候选关键词向量C和文本的主题向量F进行循环计算,得到候选关键词对应的主题权重向量U,其具体步骤如下:
(6-1)、文本的主题向量F进行归一化计算,得到归一化后的主题向量F';
(6-2)、将词项与主题的概率矩阵B和归一化后的主题向量F'相乘,其相乘之积的值赋给候选关键词的暂存向量C',其计算公式如下:
C'=B*F'
(6-3)、对候选关键词的暂存向量C'进行归一化计算,得到归一化后的候选关键词向量C;
(6-4)、将词项与主题的概率矩阵B转置之后,再与候选关键词向量C相乘,其相乘之积的值赋给的文本的主题权重向量,其计算公式如下:
Q=BT*C;
(6-5)、设置循环阈值,设置阈值为千分之一,重复步骤(6-1)到步骤(6-4),一直到前后两次循环之间向量C的每个元素对应的差值均小于设定的循环阈值,即停止,得到候选关键词对应的主题权重向量U。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410000751.3A CN103744835B (zh) | 2014-01-02 | 2014-01-02 | 一种基于主题模型的文本关键词提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410000751.3A CN103744835B (zh) | 2014-01-02 | 2014-01-02 | 一种基于主题模型的文本关键词提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103744835A CN103744835A (zh) | 2014-04-23 |
CN103744835B true CN103744835B (zh) | 2016-12-07 |
Family
ID=50501853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410000751.3A Expired - Fee Related CN103744835B (zh) | 2014-01-02 | 2014-01-02 | 一种基于主题模型的文本关键词提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103744835B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391942B (zh) * | 2014-11-25 | 2017-12-01 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
CN106611059A (zh) * | 2016-12-28 | 2017-05-03 | 北京小米移动软件有限公司 | 推荐多媒体文件的方法及装置 |
CN106528894B (zh) * | 2016-12-28 | 2019-11-15 | 北京小米移动软件有限公司 | 设置标签信息的方法及装置 |
CN107220232B (zh) * | 2017-04-06 | 2021-06-11 | 北京百度网讯科技有限公司 | 基于人工智能的关键词提取方法及装置、设备与可读介质 |
CN110019639B (zh) * | 2017-07-18 | 2023-04-18 | 腾讯科技(北京)有限公司 | 数据处理方法、装置及存储介质 |
CN108334533B (zh) | 2017-10-20 | 2021-12-24 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
CN109964270B (zh) * | 2017-10-24 | 2020-09-25 | 北京嘀嘀无限科技发展有限公司 | 用于关键短语识别的系统和方法 |
CN108280173B (zh) * | 2018-01-22 | 2021-05-11 | 深圳市和讯华谷信息技术有限公司 | 一种非结构化文本的关键信息挖掘方法、介质及设备 |
CN108229684B (zh) * | 2018-01-26 | 2022-04-15 | 中国科学技术信息研究所 | 构建专家知识向量模型的方法、装置及终端设备 |
CN108536762A (zh) * | 2018-03-21 | 2018-09-14 | 上海蔚界信息科技有限公司 | 一种大批量文本数据自动分析方案 |
CN109325121B (zh) * | 2018-09-14 | 2021-04-02 | 北京字节跳动网络技术有限公司 | 用于确定文本的关键词的方法和装置 |
CN109684458A (zh) * | 2018-12-26 | 2019-04-26 | 北京壹捌零数字技术有限公司 | 一种语句向量的计算方法及装置 |
CN109902152B (zh) * | 2019-03-21 | 2021-07-06 | 北京百度网讯科技有限公司 | 用于检索信息的方法和装置 |
CN110263343B (zh) * | 2019-06-24 | 2021-06-15 | 北京理工大学 | 基于短语向量的关键词抽取方法及系统 |
CN110751867B (zh) * | 2019-11-27 | 2021-06-01 | 上海松鼠课堂人工智能科技有限公司 | 英文教学系统 |
CN111428489B (zh) * | 2020-03-19 | 2023-08-29 | 北京百度网讯科技有限公司 | 一种评论生成方法、装置、电子设备及存储介质 |
CN111611807B (zh) * | 2020-05-18 | 2022-12-09 | 北京邮电大学 | 一种基于神经网络的关键词提取方法、装置及电子设备 |
CN111753048B (zh) * | 2020-05-21 | 2024-02-02 | 高新兴科技集团股份有限公司 | 文档检索方法、装置、设备及存储介质 |
CN113254634A (zh) * | 2021-02-04 | 2021-08-13 | 天津德尔塔科技有限公司 | 一种基于相空间的档案分类方法及系统 |
CN116756347B (zh) * | 2023-08-21 | 2023-10-27 | 中国标准化研究院 | 一种基于大数据的语义信息检索方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102629266A (zh) * | 2012-03-08 | 2012-08-08 | 上海大学 | 一种基于调和级数的文本图结构表示模型 |
US8380714B2 (en) * | 2009-12-09 | 2013-02-19 | International Business Machines Corporation | Method, computer system, and computer program for searching document data using search keyword |
CN103164521A (zh) * | 2013-03-11 | 2013-06-19 | 亿赞普(北京)科技有限公司 | 一种基于用户浏览和搜索行为的关键词计算方法及装置 |
-
2014
- 2014-01-02 CN CN201410000751.3A patent/CN103744835B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8380714B2 (en) * | 2009-12-09 | 2013-02-19 | International Business Machines Corporation | Method, computer system, and computer program for searching document data using search keyword |
CN102629266A (zh) * | 2012-03-08 | 2012-08-08 | 上海大学 | 一种基于调和级数的文本图结构表示模型 |
CN103164521A (zh) * | 2013-03-11 | 2013-06-19 | 亿赞普(北京)科技有限公司 | 一种基于用户浏览和搜索行为的关键词计算方法及装置 |
Non-Patent Citations (1)
Title |
---|
Latent Dirichlet Allocation;David M.Blei et al.;《Journal of machine learning research》;20031231;993-1022 * |
Also Published As
Publication number | Publication date |
---|---|
CN103744835A (zh) | 2014-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103744835B (zh) | 一种基于主题模型的文本关键词提取方法 | |
Sabbah et al. | Hybridized term-weighting method for dark web classification | |
CN102231165B (zh) | 一种基于用户停留时间分析的个性化网页搜索排序方法 | |
CN104866572A (zh) | 一种网络短文本聚类方法 | |
CN103761239A (zh) | 一种利用表情符号对微博进行情感倾向分类的方法 | |
CN106202065A (zh) | 一种跨语言话题检测方法及系统 | |
CN102841940B (zh) | 一种基于数据重构的文档摘要提取方法 | |
CN102779119A (zh) | 一种抽取关键词的方法及装置 | |
CN103795592A (zh) | 网络水军的检测方法及装置 | |
CN104077274B (zh) | 一种从文档集中抽取热词短语的方法和装置 | |
Kong et al. | PromptRank: Unsupervised keyphrase extraction using prompt | |
Fu et al. | Experimental validation of an integrated optimization design of a radial turbine for micro gas turbines | |
CN104572915A (zh) | 一种基于内容环境增强的用户事件相关度计算方法 | |
Ma et al. | Microblog hot topic detection based on topic model using term correlation matrix | |
CN105260358A (zh) | 一种面向短文本的突发事件发展过程表示方法 | |
Saga et al. | Measurement evaluation of keyword extraction based on topic coverage | |
Xu et al. | A hybrid topic model for multi-document summarization | |
Kitahara et al. | Gradient descent learning for rotor associative memory | |
Lu et al. | Public opinion analysis of microblog content | |
Obukhovskaya et al. | Yandex at TREC 2011 Microblog Track. | |
Remiorz et al. | An analysis of the use of a Stirling engine in a combined heat and power plant based on biomass gasification | |
Singh Behl et al. | AutoSimulate:(Quickly) Learning Synthetic Data Generation | |
Kim et al. | Consistency checking rules of variability between feature model and elements in software product lines | |
Nagoor Kani et al. | DR-RNN: a deep residual recurrent neural network for model reduction | |
CN103744951B (zh) | 一种对文本中关键词重要性的排序方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20161207 Termination date: 20190102 |
|
CF01 | Termination of patent right due to non-payment of annual fee |