CN103744835A - 一种基于主题模型的文本关键词提取方法 - Google Patents
一种基于主题模型的文本关键词提取方法 Download PDFInfo
- Publication number
- CN103744835A CN103744835A CN201410000751.3A CN201410000751A CN103744835A CN 103744835 A CN103744835 A CN 103744835A CN 201410000751 A CN201410000751 A CN 201410000751A CN 103744835 A CN103744835 A CN 103744835A
- Authority
- CN
- China
- Prior art keywords
- candidate keywords
- vector
- theme
- text
- lexical item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于主题模型的文本关键词提取方法,该方法首先利用主题模型的方法从大量文本训练集中由主题模型训练得到的词项与主题之间的训练文本集的词项与主题的概率矩阵WT,进而得到候选关键词集合A中词项与主题的概率向量的集合所组成的候选的关键词的词项与主题的概率矩阵B、候选关键词集合对应的候选关键词词频权重向量D,通过候选关键词词项的权重向量和文本的主题向量,利用候选关键词语主题的概率矩阵B进行循环计算操作,得到最终修正后的文本主题向量和词项权重比例向量,进而提取出文本的关键词。该方法降低文本由于不同长度所提取关键词的误差,提取更能适合表达文本内容的关键词。
Description
技术领域
本发明涉及一种从文本中提取关键词的方法,更具体地说,涉及一种基于从主题模型中得到词项与主题之间的概率矩阵,然后利用该矩阵从文本中提取更能表达文本主题内容关键词的方法。
背景技术
利用计算机在对文本处理之前,需要对文本进行形式化表示。在传统的方法中,通常是从文本中提取的关键词来表示文本的内容。从文本中提取关键词,其中关键词的词频是作为一个非常重要的依据。但是,由于不同类型的文本的长度是不同,关键词的词频将会出现较大的误差。特别是对短文本,短文本中的很多词项仅仅只是出现一次。在上述情况下,若将词项的词频作为从文本中提取关键词的依据,势必难以获得较好的效果。而且传统的文本关键词提取方法并没有根据应用对所提取的方法进行偏向性地处理,使得传统提取文本关键词的泛型方法在特定的应用背景下,效果将进一步下降。2003年Bei.在Journal of Machine Learning Research发表的一篇名为“Latent Dirichlet Allocation”的论文,旨在构建一个更为完全概率生成模型的主题模型方法,使得不同长度的文本可以以相同的维度向量表示。而本发明正是基于Blei.的这篇论文所提出的主题模型,进而进行提取文本的关键词。
发明内容
本发明主要针对传统文本关键词提取技术的不足,提出一种基于主题模型的文本关键词提取方法,该方法降低不同类型文本由于不同长度所提取关键词的误差,得到更能表达文本内容的关键词。
为达到上述目的,本发明采用下述技术方案:
一种基于主题模型的文本关键词提取方法,其具体步骤如下:
(2)、对一个文本进行分词和去除停用词的预处理操作,得到相应的候选关键词集合A,然后根据候选关键词集合中的关键词,取出上述训练文本集的词项与主题的概率矩阵中候选关键词对应的一行,生成候选关键词集合对应的词项与主题之间的关系的词项与主题的概率矩阵;
,
根据修正后的候选关键词主题权重向量中元素值的大小和设定的所需提取的关键词的个数k,对候选关键词集合A中的关键词进行排序,提取出其中最大的前k个元素值对应的k个候选关键词,由k个候选关键词组成文本的关键词集合。
本发明提出的一种基于主题模型的文本关键词提取方法与传统的关键词提取方法相比,具有如下特点:
附图说明
附图1是一种基于主题模型的文本关键词提取方法的流程示意图。
具体实施方式
以下结合附图对本发明的实施例作进一步的详细描述。
如图1所示,一种基于主题模型的文本关键词提取方法,该方法的具体步骤如下:
S2、对一个文本进行分词和去除停用词的预处理操作,得到相应的候选关键词集合A,然后根据候选关键词集合中的关键词,取出上述训练文本集的词项与主题的概率矩阵中候选关键词对应的一行,生成候选关键词集合对应的词项与主题之间的关系的词项与主题的概率矩阵;
假设计算得到值赋后的候选关键词向量:
;
假设计算得到该文本的主题权重向量为:
S6-5、设置循环阈值(比如千分之一),重复步骤S6-1到步骤S6-4,一直到前后两次循环之间向量的每个元素对应的差值均小于设定的循环阈值,即停止,最终所得候选关键词权重向量并经过归一化处理之后的候选关键词对应的主题权重向量为:, 所得到文本主题类别向量并经归一化处理后的值赋后的文本的主题权重向量为:;
根据修正后的候选关键词主题权重向量中元素值的大小和设定的所需提取的关键词的个数k,对候选关键词集合A中的关键词进行排序,提取出其中最大的前k个元素值对应的k个候选关键词,由k个候选关键词组成文本的关键词集合。
Claims (2)
1.一种基于主题模型的文本关键词提取方法,其特征在于,具体步骤如下:
(2)、对一个文本进行分词和去除停用词的预处理操作,得到相应的候选关键词集合A,然后根据候选关键词集合中的关键词,取出上述训练文本集的词项与主题的概率矩阵中候选关键词对应的一行,生成候选关键词集合对应的词项与主题之间的关系的词项与主题的概率矩阵;
,
2.根据权利要求1所述的一种基于主题模型的文本关键词提取方法,其特征在于,上述步骤(6)所述的利用词项与主题的概率矩阵、候选关键词向量和文本的主题向量进行循环计算,得到候选关键词对应的主题权重向量,其具体步骤如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410000751.3A CN103744835B (zh) | 2014-01-02 | 2014-01-02 | 一种基于主题模型的文本关键词提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410000751.3A CN103744835B (zh) | 2014-01-02 | 2014-01-02 | 一种基于主题模型的文本关键词提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103744835A true CN103744835A (zh) | 2014-04-23 |
CN103744835B CN103744835B (zh) | 2016-12-07 |
Family
ID=50501853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410000751.3A Expired - Fee Related CN103744835B (zh) | 2014-01-02 | 2014-01-02 | 一种基于主题模型的文本关键词提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103744835B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391942A (zh) * | 2014-11-25 | 2015-03-04 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
CN106528894A (zh) * | 2016-12-28 | 2017-03-22 | 北京小米移动软件有限公司 | 设置标签信息的方法及装置 |
CN106611059A (zh) * | 2016-12-28 | 2017-05-03 | 北京小米移动软件有限公司 | 推荐多媒体文件的方法及装置 |
CN107220232A (zh) * | 2017-04-06 | 2017-09-29 | 北京百度网讯科技有限公司 | 基于人工智能的关键词提取方法及装置、设备与可读介质 |
CN108229684A (zh) * | 2018-01-26 | 2018-06-29 | 中国科学技术信息研究所 | 构建专家知识向量模型的方法、装置及终端设备 |
CN108280173A (zh) * | 2018-01-22 | 2018-07-13 | 深圳市和讯华谷信息技术有限公司 | 一种非结构化文本的关键信息挖掘方法、介质及设备 |
CN108334533A (zh) * | 2017-10-20 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
CN108536762A (zh) * | 2018-03-21 | 2018-09-14 | 上海蔚界信息科技有限公司 | 一种大批量文本数据自动分析方案 |
CN109325121A (zh) * | 2018-09-14 | 2019-02-12 | 北京字节跳动网络技术有限公司 | 用于确定文本的关键词的方法和装置 |
CN109684458A (zh) * | 2018-12-26 | 2019-04-26 | 北京壹捌零数字技术有限公司 | 一种语句向量的计算方法及装置 |
CN109902152A (zh) * | 2019-03-21 | 2019-06-18 | 北京百度网讯科技有限公司 | 用于检索信息的方法和装置 |
CN110019639A (zh) * | 2017-07-18 | 2019-07-16 | 腾讯科技(北京)有限公司 | 数据处理方法、装置及存储介质 |
CN110263343A (zh) * | 2019-06-24 | 2019-09-20 | 北京理工大学 | 基于短语向量的关键词抽取方法及系统 |
CN110751867A (zh) * | 2019-11-27 | 2020-02-04 | 上海乂学教育科技有限公司 | 英文教学系统 |
CN111428489A (zh) * | 2020-03-19 | 2020-07-17 | 北京百度网讯科技有限公司 | 一种评论生成方法、装置、电子设备及存储介质 |
CN111611807A (zh) * | 2020-05-18 | 2020-09-01 | 北京邮电大学 | 一种基于神经网络的关键词提取方法、装置及电子设备 |
CN111753048A (zh) * | 2020-05-21 | 2020-10-09 | 高新兴科技集团股份有限公司 | 文档检索方法、装置、设备及存储介质 |
CN112037774A (zh) * | 2017-10-24 | 2020-12-04 | 北京嘀嘀无限科技发展有限公司 | 用于关键短语识别的系统和方法 |
CN113254634A (zh) * | 2021-02-04 | 2021-08-13 | 天津德尔塔科技有限公司 | 一种基于相空间的档案分类方法及系统 |
CN116756347A (zh) * | 2023-08-21 | 2023-09-15 | 中国标准化研究院 | 一种基于大数据的语义信息检索方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102629266A (zh) * | 2012-03-08 | 2012-08-08 | 上海大学 | 一种基于调和级数的文本图结构表示模型 |
US8380714B2 (en) * | 2009-12-09 | 2013-02-19 | International Business Machines Corporation | Method, computer system, and computer program for searching document data using search keyword |
CN103164521A (zh) * | 2013-03-11 | 2013-06-19 | 亿赞普(北京)科技有限公司 | 一种基于用户浏览和搜索行为的关键词计算方法及装置 |
-
2014
- 2014-01-02 CN CN201410000751.3A patent/CN103744835B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8380714B2 (en) * | 2009-12-09 | 2013-02-19 | International Business Machines Corporation | Method, computer system, and computer program for searching document data using search keyword |
CN102629266A (zh) * | 2012-03-08 | 2012-08-08 | 上海大学 | 一种基于调和级数的文本图结构表示模型 |
CN103164521A (zh) * | 2013-03-11 | 2013-06-19 | 亿赞普(北京)科技有限公司 | 一种基于用户浏览和搜索行为的关键词计算方法及装置 |
Non-Patent Citations (1)
Title |
---|
DAVID M.BLEI ET AL.: "Latent Dirichlet Allocation", 《JOURNAL OF MACHINE LEARNING RESEARCH》, 31 December 2003 (2003-12-31) * |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391942A (zh) * | 2014-11-25 | 2015-03-04 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
CN104391942B (zh) * | 2014-11-25 | 2017-12-01 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
CN106528894B (zh) * | 2016-12-28 | 2019-11-15 | 北京小米移动软件有限公司 | 设置标签信息的方法及装置 |
CN106528894A (zh) * | 2016-12-28 | 2017-03-22 | 北京小米移动软件有限公司 | 设置标签信息的方法及装置 |
CN106611059A (zh) * | 2016-12-28 | 2017-05-03 | 北京小米移动软件有限公司 | 推荐多媒体文件的方法及装置 |
CN107220232B (zh) * | 2017-04-06 | 2021-06-11 | 北京百度网讯科技有限公司 | 基于人工智能的关键词提取方法及装置、设备与可读介质 |
CN107220232A (zh) * | 2017-04-06 | 2017-09-29 | 北京百度网讯科技有限公司 | 基于人工智能的关键词提取方法及装置、设备与可读介质 |
CN110019639A (zh) * | 2017-07-18 | 2019-07-16 | 腾讯科技(北京)有限公司 | 数据处理方法、装置及存储介质 |
CN110019639B (zh) * | 2017-07-18 | 2023-04-18 | 腾讯科技(北京)有限公司 | 数据处理方法、装置及存储介质 |
US11194965B2 (en) | 2017-10-20 | 2021-12-07 | Tencent Technology (Shenzhen) Company Limited | Keyword extraction method and apparatus, storage medium, and electronic apparatus |
CN108334533A (zh) * | 2017-10-20 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
CN112037774A (zh) * | 2017-10-24 | 2020-12-04 | 北京嘀嘀无限科技发展有限公司 | 用于关键短语识别的系统和方法 |
CN112037774B (zh) * | 2017-10-24 | 2024-04-26 | 北京嘀嘀无限科技发展有限公司 | 用于关键短语识别的系统和方法 |
CN108280173A (zh) * | 2018-01-22 | 2018-07-13 | 深圳市和讯华谷信息技术有限公司 | 一种非结构化文本的关键信息挖掘方法、介质及设备 |
CN108280173B (zh) * | 2018-01-22 | 2021-05-11 | 深圳市和讯华谷信息技术有限公司 | 一种非结构化文本的关键信息挖掘方法、介质及设备 |
CN108229684B (zh) * | 2018-01-26 | 2022-04-15 | 中国科学技术信息研究所 | 构建专家知识向量模型的方法、装置及终端设备 |
CN108229684A (zh) * | 2018-01-26 | 2018-06-29 | 中国科学技术信息研究所 | 构建专家知识向量模型的方法、装置及终端设备 |
CN108536762A (zh) * | 2018-03-21 | 2018-09-14 | 上海蔚界信息科技有限公司 | 一种大批量文本数据自动分析方案 |
CN109325121A (zh) * | 2018-09-14 | 2019-02-12 | 北京字节跳动网络技术有限公司 | 用于确定文本的关键词的方法和装置 |
CN109684458A (zh) * | 2018-12-26 | 2019-04-26 | 北京壹捌零数字技术有限公司 | 一种语句向量的计算方法及装置 |
CN109902152A (zh) * | 2019-03-21 | 2019-06-18 | 北京百度网讯科技有限公司 | 用于检索信息的方法和装置 |
CN110263343B (zh) * | 2019-06-24 | 2021-06-15 | 北京理工大学 | 基于短语向量的关键词抽取方法及系统 |
CN110263343A (zh) * | 2019-06-24 | 2019-09-20 | 北京理工大学 | 基于短语向量的关键词抽取方法及系统 |
CN110751867A (zh) * | 2019-11-27 | 2020-02-04 | 上海乂学教育科技有限公司 | 英文教学系统 |
CN111428489A (zh) * | 2020-03-19 | 2020-07-17 | 北京百度网讯科技有限公司 | 一种评论生成方法、装置、电子设备及存储介质 |
CN111428489B (zh) * | 2020-03-19 | 2023-08-29 | 北京百度网讯科技有限公司 | 一种评论生成方法、装置、电子设备及存储介质 |
CN111611807A (zh) * | 2020-05-18 | 2020-09-01 | 北京邮电大学 | 一种基于神经网络的关键词提取方法、装置及电子设备 |
CN111753048A (zh) * | 2020-05-21 | 2020-10-09 | 高新兴科技集团股份有限公司 | 文档检索方法、装置、设备及存储介质 |
CN113254634A (zh) * | 2021-02-04 | 2021-08-13 | 天津德尔塔科技有限公司 | 一种基于相空间的档案分类方法及系统 |
CN116756347A (zh) * | 2023-08-21 | 2023-09-15 | 中国标准化研究院 | 一种基于大数据的语义信息检索方法 |
CN116756347B (zh) * | 2023-08-21 | 2023-10-27 | 中国标准化研究院 | 一种基于大数据的语义信息检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103744835B (zh) | 2016-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103744835A (zh) | 一种基于主题模型的文本关键词提取方法 | |
CN104866572A (zh) | 一种网络短文本聚类方法 | |
CN103761239A (zh) | 一种利用表情符号对微博进行情感倾向分类的方法 | |
CN104574192A (zh) | 在多个社交网络中识别同一用户的方法及装置 | |
CN109933792B (zh) | 基于多层双向lstm和验证模型的观点型问题阅读理解方法 | |
CN103207913A (zh) | 商品细粒度语义关系的获取方法和系统 | |
TW201220233A (en) | by which category information of long tail keywords is provided for users within a specified time period | |
CN104462383A (zh) | 一种基于用户多种行为反馈的电影推荐方法 | |
CN103324745A (zh) | 基于贝叶斯模型的文本垃圾识别方法和系统 | |
CN102194012A (zh) | 微博话题检测方法及系统 | |
CN104504138A (zh) | 一种基于人的信息聚合方法和装置 | |
CN105447161A (zh) | 一种基于数据特征的智能信息分类方法 | |
CN108363688A (zh) | 一种融合先验信息的命名实体链接方法 | |
CN104199838B (zh) | 一种基于标签消歧的用户模型建构方法 | |
CN106919699A (zh) | 一种面向大规模用户的个性化信息推荐方法 | |
CN105224577A (zh) | 一种多标签文本分类方法及系统 | |
CN106227767A (zh) | 一种基于领域相关性自适应的协同过滤方法 | |
CN103617245A (zh) | 一种双语情感分类方法及装置 | |
CN103164394B (zh) | 一种基于万有引力的文本相似度计算方法 | |
Susilawati | Public services satisfaction based on sentiment analysis: Case study: Electrical services in Indonesia | |
CN102750338A (zh) | 面向迁移学习的文本处理方法及其文本特征提取方法 | |
CN103177126B (zh) | 用于搜索引擎的色情用户查询识别方法及设备 | |
CN104572899A (zh) | 处理文章的方法和装置 | |
CN105183807A (zh) | 一种基于结构句法的情绪原因事件识别方法及系统 | |
Huang et al. | On the strong law of large numbers for weighted sums of ϕ-mixing random variables |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20161207 Termination date: 20190102 |