CN112100317B - 一种基于主题语义感知的特征关键词提取方法 - Google Patents
一种基于主题语义感知的特征关键词提取方法 Download PDFInfo
- Publication number
- CN112100317B CN112100317B CN202011017875.4A CN202011017875A CN112100317B CN 112100317 B CN112100317 B CN 112100317B CN 202011017875 A CN202011017875 A CN 202011017875A CN 112100317 B CN112100317 B CN 112100317B
- Authority
- CN
- China
- Prior art keywords
- topic
- keyword
- document
- information
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于主题语义感知的特征关键词提取方法,具体包括如下过程:首先,利用关键词与文档主题之间的语义相关度的量化方法,计算关键词集合中每一个关键词的信息增益得分,并计算文档中每一个关键词的主题频率‑逆主题频率(TF‑ITF)得分;然后,选取信息增益得分最大的前κ个关键词,构成信息增益特征关键词集合;并分别针对每个文档,选取该文档中主题相关度得分最大的前λ个关键词,进而构成全局主题信息特征关键词集合;最终,对全局信息增益特征关键词集合和全局主题信息特征关键词集合进行合并,生成最终的特征关键词集合。本发明综合考虑关键词之间以及关键词和文档之间的主题语义关系,实现表征文档主题语义信息的特征关键词提取。
Description
技术领域
本发明属于自然语言处理和文本挖掘领域,具体的说是涉及一种基于主题语义感知的特征关键词提取方法。
背景技术
随着大数据时代的到来,信息爆炸式增长,人们接触到的文档数据日趋增多,面对庞大、繁杂的数据,快速、准确地检索数据,从中挖掘出有用的信息,显得尤为重要,特征关键词提取就是一种有效手段,在文档数据的利用方面起着重要作用,比如在信息检索场景中,精准的关键词提取能大幅提高检索效率,特征关键词提取,就是抓取出最能够代表文档主题和内容的特征词,特征关键词提取作为自然语言处理和文本挖掘领域中的关键技术,在文档检索、文本分类、摘要生成和信息过滤中有着广泛的应用。
现有的特征关键词提取方法可以分为有监督和无监督两类。有监督的方法是将关键词提取看作二分类问题,通过标记语料库训练模型,判断文档中的词语是否为关键词,无监督的方法是将关键词提取看作排序问题,可以分为三大类:一是基于统计的特征关键词提取,二是基于词图模型的特征关键词提取,三是基于主题模型的特征关键词提取。统计方法主要利用词频、词频-逆文档频率、词性、词语位置等信息提取特征关键词,简单易行,但没有考虑关键词的语义信息。词图模型中常用TextRank、PageRank等进行特征关键词提取,无需训练数据,速度快,但也忽略了关键词的语义相关性。基于主题模型的特征关键词提取方法从文档的语义层面分析,充分考虑关键词的上下文语义关系,直观实用,更加符合人们的思维逻辑,受到了广泛关注。LDA主题模型是一种有效的语义模型,能包含文本的隐含语义特征,而信息增益也常被应用于分类问题中的特征提取。但是现有的技术并没有将LDA主题模型和信息增益将结合来完成关键词的提取。
发明内容
为了解决上述问题,本发明综合LDA主题模型和信息增益,提出基于主题语义感知的特征关键词提取方法,实现表征文档主题语义信息的特征关键词的提取。
为了达到上述目的,本发明是通过以下技术方案实现的:
本发明是一种基于主题语义感知的特征关键词提取方法,所述提取方法包括如下步骤:
(1a)根据LDA主题模型,以文档集D作为输入进行训练,提取蕴含语义属性的主题集合T,生成文档-主题矩阵Θ和关键词-主题矩阵Ω;
(1b)采用基于LDA模型的信息增益计算方法,计算文档集D对应的关键词集合W中每一个关键词的信息增益得分,选取信息增益得分最大的前κ个关键词,构成文档集D的全局信息增益特征关键词集合FWIG;
(1c)利用主题频率-逆主题频率和信息增益的计算方法,计算文档dj∈D中每一个关键词的主题相关度得分,选取主题相关度得分最大的前λ个关键词,构成文档dj的主题信息特征关键词集合合并得到文档集D的全局主题信息特征关键词集合FWTR;
(1d)对全局信息增益特征关键词集合FWIG和全局主题信息特征关键词集合FWTR合并,构成文档集的特征关键词集合FW=FWIG∪FWTR。
本发明进一步改进在于:在所述步骤(1b)中,基于LDA模型的信息增益计算方法包括如下步骤:
(1b1)计算主题集合的信息熵H(T),计算公式如下:
(1b2)针对W中的每一个关键词wi,计算wi在主题集合T下的条件信息熵H(T|wi),计算公式如下:
(1b3)根据(1b1)和(1b2)中得到的T的信息熵和wi在T下的条件信息熵,计算关键词wi在T下的信息增益得分IG(wi,T),计算公式如下:
IG(wi,T)=H(T)-H(T|wi)
(1b4)根据W中所有关键词的信息增益得分,选取得分最大的前κ个关键词,构成针对文档集D的全局信息增益特征关键词集合FWIG。
本发明进一步改进在于:所述步骤(1c)主题频率-逆主题频率和信息增益的计算方法包括如下步骤:(1c1)针对W中的每一个关键词wi,计算wi和T之间的主题频率tf(wi),计算公式如下:
tf(wi)=Ω[i]
(1c2)针对D中的每一个文档dj,对dj中每一个关键词wi,计算wi和dj之间的主题频率tf(wi,dj),计算公式如下:
(1c3)针对W中的每一个关键词wi,计算wi的逆主题频率itf(wi),计算公式如下:
其中t是wi关于T中主题tj的主题频率,t=Ω[i][j];由于主题向量没有0值,阈值ζ用来过滤主题相关度较低的主题;
(1c4)用TF-ITF得分TI(wi,dj)表示关键词wi在dj中的重要性,计算公式如下:
TI(wi,dj)=tf(wi,dj)·itf(wi)
(1c5)根据(1b3)和(1c4)中得到的关键词wi的信息增益得分和TF-ITF得分,计算wi和dj之间的主题相关度得分TR(wi,dj),计算公式如下:
TR(wi,dj)=TI(wi,dj)·IG(wi,T)
本发明的有益效果是:本发明用主题频率-逆主题频率描述关键词和文档之间的联系,既融入了主题信息又能体现关键词的词频信息;本发明用信息增益得分描述关键词在语义上包含的信息量,更能体现关键词在整个文档集中对主题信息的贡献;本发明通过主题信息下的信息增益和主题频率-逆主题频率,从统计信息和语义层面分析关键词的重要性,既考虑了关键词在指定文档中的重要性,又考虑了关键词在整个文档集中的贡献量,从而提取出表征文档主题语义信息的特征关键词。
附图说明
图1是本发明特征关键词提取方法的流程图。
图2是本发明全局信息增益特征关键词集合的实现过程示意图。
图3是本发明全局主题信息特征关键词集合的实现过程示意图。
具体实施方式
以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。
为了方便描述,现对相关符号作如下定义:
文档集D={d1,d2,…,dn},D中各文档包含的词构成关键词集合W={w1,w2,…,wu},LDA模型中采用的主题集合为T={t1,t2,…,tm}。IG(wi,T)是关键词wi在T下的信息增益得分,TI(wi,dj)是wi和D中每个文档dj之间的TF-ITF得分,TR(wi,dj)是wi和dj之间的主题相关度得分,FWIG是全局信息增益特征关键词集合,FWTR是全局主题信息特征关键词集合,FW是文档集的特征关键词集合。
图1是本发明的流程图,描述了基于主题语义感知提取特征关键词的过程。在LDA主题模型中,以文档集作为输入进行训练,采用基于LDA的信息增益进行关键词的特征提取,生成全局信息增益特征关键词集合,并利用主题频率-逆主题频率和信息增益,生成全局主题信息特征关键词集合,最终得到文档集的特征关键词集合,提取完成。
一种基于主题语义感知的特征关键词提取方法,其特征在于:所述提取方法包括如下步骤:
(1a)根据LDA主题模型,以文档集D作为输入进行训练,提取蕴含语义属性的主题集合T,生成文档-主题矩阵Θ和关键词-主题矩阵Ω;
(1b)采用基于LDA模型的信息增益计算方法,计算文档集D对应的关键词集合W中每一个关键词的信息增益得分,选取信息增益得分最大的前κ个关键词,构成文档集D的全局信息增益特征关键词集合FWIG,如图2所示,具体处理过程如下:
(1b1)计算主题集合的信息熵H(T),计算公式如下:
(1b2)针对W中的每一个关键词wi,计算wi在主题集合T下的条件信息熵H(T|wi),计算公式如下:
(1b3)根据(1b1)和(1b2)中得到的T的信息熵和wi在T下的条件信息熵,计算关键词wi在T下的信息增益得分IG(wi,T),计算公式如下:
IG(wi,T)=H(T)-H(T|wi)
(1b4)根据W中所有关键词的信息增益得分,选取得分最大的前κ个关键词,构成针对文档集D的全局信息增益特征关键词集合FWIG。
(1)(1c)利用主题频率-逆主题频率和信息增益的计算方法,计算文档dj∈D中每一个关键词的主题相关度得分,选取主题相关度得分最大的前λ个关键词,构成文档dj的主题信息特征关键词集合合并得到文档集D的全局主题信息特征关键词集合FWTR;
(1d)对全局信息增益特征关键词集合FWIG和全局主题信息特征关键词集合FWTR合并,构成文档集的特征关键词集合FW=FWIG∪FWTR,如图3所示,具体处理过程如下:
(1c1)针对W中的每一个关键词wi,计算wi和T之间的主题频率tf(wi),计算公式如下:
tf(wi)=Ω[i]
(1c2)针对D中的每一个文档dj,对dj中每一个关键词wi,计算wi和dj之间的主题频率tf(wi,dj),计算公式如下:
(1c3)针对W中的每一个关键词wi,计算wi的逆主题频率itf(wi),计算公式如下:
其中t是wi关于T中主题tj的主题频率,t=Ω[i][j];由于主题向量没有0值,阈值ζ用来过滤主题相关度较低的主题;
(1c4)用TF-ITF得分TI(wi,dj)表示关键词wi在dj中的重要性,计算公式如下:
TI(wi,dj)=tf(wi,dj)·itf(wi)
(1c5)根据(1b3)和(1c4)中得到的关键词wi的信息增益得分和TF-ITF得分,计算wi和dj之间的主题相关度得分TR(wi,dj),计算公式如下:
TR(wi,dj)=TI(wi,dj)·IG(wi,T)
其中:行向量Θ[i]是文档di的文档-主题向量,Θ[j][i]表示文档di与主题tj的语义相关度得分,行向量Ω[i]表示关键词wi的关键词-主题向量,Ω[i][j]表示关键词wi与主题tj的语义相关度得分。
以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。
Claims (3)
1.一种基于主题语义感知的特征关键词提取方法,其特征在于:所述提取方法包括如下步骤:
(1a)根据LDA主题模型,以文档集D作为输入进行训练,提取蕴含语义属性的主题集合T,生成文档-主题矩阵Θ和关键词-主题矩阵Ω;
(1b)采用基于LDA模型的信息增益计算方法,计算文档集D对应的关键词集合W中每一个关键词的信息增益得分,选取信息增益得分最大的前κ个关键词,构成文档集D的全局信息增益特征关键词集合FWIG;
(1c)利用主题频率-逆主题频率和信息增益的计算方法,计算文档dj∈D中每一个关键词的主题相关度得分,选取主题相关度得分最大的前λ个关键词,构成文档dj的主题信息特征关键词集合合并得到文档集D的全局主题信息特征关键词集合FWTR;
(1d)对全局信息增益特征关键词集合FWIG和全局主题信息特征关键词集合FWTR合并,构成文档集的特征关键词集合FW=FWIG∪FWTR。
2.根据权利要求1所述一种基于主题语义感知的特征关键词提取方法,其特征在于:在所述步骤(1b)中,基于LDA模型的信息增益计算方法包括如下步骤:
(1b1)计算主题集合的信息熵H(T),计算公式如下:
(1b2)针对W中的每一个关键词wi,计算wi在主题集合T下的条件信息熵H(T|wi),计算公式如下:
(1b3)根据(1b1)和(1b2)中得到的T的信息熵和wi在T下的条件信息熵,计算关键词wi在T下的信息增益得分IG(wi,T),计算公式如下:
IG(wi,T)=H(T)-H(T|wi)
(1b4)根据W中所有关键词的信息增益得分,选取得分最大的前κ个关键词,构成针对文档集D的全局信息增益特征关键词集合FWIG。
3.根据权利要求1所述一种基于主题语义感知的特征关键词提取方法,其特征在于:所述步骤(1c)主题频率-逆主题频率和信息增益的计算方法包括如下步骤:(1c1)针对W中的每一个关键词wi,计算wi和T之间的主题频率tf(wi),计算公式如下:
tf(wi)=Ω[i]
(1c2)针对D中的每一个文档dj,对dj中每一个关键词wi,计算wi和dj之间的主题频率tf(wi,dj),计算公式如下:
(1c3)针对W中的每一个关键词wi,计算wi的逆主题频率itf(wi),计算公式如下:
其中t是wi关于T中主题tj的主题频率,t=Ω[i][j];由于主题向量没有0值,阈值ζ用来过滤主题相关度较低的主题;
(1c4)用TF-ITF得分TI(wi,dj)表示关键词wi在dj中的重要性,计算公式如下:
TI(wi,dj)=tf(wi,dj)·itf(wi)
其中:tf(wi,dj)表示wi和dj之间的主题频率,itf(wi)表示wi的逆主题频率;
(1c5)根据(1b3)和(1c4)中得到的关键词wi的信息增益得分和TF-ITF得分,计算wi和dj之间的主题相关度得分TR(wi,dj),计算公式如下:
TR(wi,dj)=TI(wi,dj)·IG(wi,T)
其中:IG(wi,T)表示关键词wi在T下的信息增益得分;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011017875.4A CN112100317B (zh) | 2020-09-24 | 2020-09-24 | 一种基于主题语义感知的特征关键词提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011017875.4A CN112100317B (zh) | 2020-09-24 | 2020-09-24 | 一种基于主题语义感知的特征关键词提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112100317A CN112100317A (zh) | 2020-12-18 |
CN112100317B true CN112100317B (zh) | 2022-10-14 |
Family
ID=73755353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011017875.4A Active CN112100317B (zh) | 2020-09-24 | 2020-09-24 | 一种基于主题语义感知的特征关键词提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100317B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883716B (zh) * | 2021-02-03 | 2022-05-03 | 重庆邮电大学 | 基于主题相关性的推特摘要生成方法 |
CN117236330B (zh) * | 2023-11-16 | 2024-01-26 | 南京邮电大学 | 一种基于互信息和对抗神经网络的增强主题多样性方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052593A (zh) * | 2017-12-12 | 2018-05-18 | 山东科技大学 | 一种基于主题词向量和网络结构的主题关键词提取方法 |
CN108763213A (zh) * | 2018-05-25 | 2018-11-06 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 主题特征文本关键词提取方法 |
CN111080395A (zh) * | 2019-11-15 | 2020-04-28 | 江苏艾佳家居用品有限公司 | 一种电商平台的商品评价排序方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9430563B2 (en) * | 2012-02-02 | 2016-08-30 | Xerox Corporation | Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space |
-
2020
- 2020-09-24 CN CN202011017875.4A patent/CN112100317B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052593A (zh) * | 2017-12-12 | 2018-05-18 | 山东科技大学 | 一种基于主题词向量和网络结构的主题关键词提取方法 |
CN108763213A (zh) * | 2018-05-25 | 2018-11-06 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 主题特征文本关键词提取方法 |
CN111080395A (zh) * | 2019-11-15 | 2020-04-28 | 江苏艾佳家居用品有限公司 | 一种电商平台的商品评价排序方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112100317A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104765769B (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
Qian et al. | Multi-modal event topic model for social event analysis | |
Gao et al. | Visual-textual joint relevance learning for tag-based social image search | |
CN111177365A (zh) | 一种基于图模型的无监督自动文摘提取方法 | |
CN112100317B (zh) | 一种基于主题语义感知的特征关键词提取方法 | |
CN112883171B (zh) | 基于bert模型的文档关键词抽取方法及装置 | |
CN106126605B (zh) | 一种基于用户画像的短文本分类方法 | |
CN106682123A (zh) | 一种获取热点事件的方法及装置 | |
Alash et al. | Improve topic modeling algorithms based on Twitter hashtags | |
CN113032557A (zh) | 一种基于频繁词集与bert语义的微博热点话题发现方法 | |
CN105354280A (zh) | 一种基于社会媒体平台的社会事件的跟踪和演变方法 | |
CN107943937B (zh) | 一种基于司法公开信息分析的债务人资产监控方法及系统 | |
Gupta et al. | Keyword extraction: a review | |
Khan | Addressing big data problems using semantics and natural language understanding | |
Li et al. | Short text sentiment analysis based on convolutional neural network | |
CN115391522A (zh) | 一种基于社交平台元数据的文本主题建模方法及系统 | |
CN114298020A (zh) | 一种基于主题语义信息的关键词向量化方法及其应用 | |
CN114117035A (zh) | 一种无监督粤语论坛抽取式摘要方法 | |
CN110377845B (zh) | 基于区间半监督lda的协同过滤推荐方法 | |
Rafi et al. | A linear sub-structure with co-variance shift for image captioning | |
Zhong et al. | The short text matching model enhanced with knowledge via contrastive learning | |
CN112733498A (zh) | 一种改进中文自动文本摘要自注意力计算的方法 | |
Zhu et al. | Combination of unsupervised keyphrase extraction algorithms | |
Ge et al. | Chinese news hot subtopic discovery and recommendation method based on key phrase and the LDA model | |
Bazghandi et al. | Extractive summarization Of Farsi documents based on PSO clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |