CN114298020B - 一种基于主题语义信息的关键词向量化方法及其应用 - Google Patents

一种基于主题语义信息的关键词向量化方法及其应用 Download PDF

Info

Publication number
CN114298020B
CN114298020B CN202111659209.5A CN202111659209A CN114298020B CN 114298020 B CN114298020 B CN 114298020B CN 202111659209 A CN202111659209 A CN 202111659209A CN 114298020 B CN114298020 B CN 114298020B
Authority
CN
China
Prior art keywords
topic
document
keyword
vector
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111659209.5A
Other languages
English (en)
Other versions
CN114298020A (zh
Inventor
戴华
胡正
刘源龙
陆佳行
杨庚
陈燕俐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202111659209.5A priority Critical patent/CN114298020B/zh
Publication of CN114298020A publication Critical patent/CN114298020A/zh
Application granted granted Critical
Publication of CN114298020B publication Critical patent/CN114298020B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开一种基于主题语义信息的关键词向量化方法及其应用,具体包括:首先利用Sentence‑BERT模型为每个文档生成具有文档语义信息的向量;再通过UMAP降维算法对生成的文档向量进行降维并突显局部语义特征;然后,在降维后的文档向量上进行HDBSCAN主题聚类,并将每个文档归类到一个或多个主题中;最后,利用文档和主题之间的关系,计算主题中每一个关键词的主题词频率‑逆主题频率(TTF‑ITF)得分,对该关键词与每个主题的主题词频率‑逆主题频率(TTF‑ITF)得分进行合并,生成最终的关键词向量。本发明实现高精度表征主题语义信息的关键词向量化,可应用于主题词提取、文本分类和文档检索。

Description

一种基于主题语义信息的关键词向量化方法及其应用
技术领域
本发明涉及自然语言处理、文本挖掘和可搜索加密领域,具体涉及一种基于主题语义信息的关键词向量化方法及其应用。
背景技术
随着互联网技术的不断发展和大数据时代的到来,数据的规模变得日益庞大。面对规模庞大、种类繁杂的数据,如何将这些数据归类、获得与某类别强相关的关键词,有效利用它们指导实践活动显得尤为重要。文档数据包含的关键词数量众多且无法被计算机直接使用,关键词向量化是解决这一问题的有效手段。关键词向量化在文档数据的有效使用方面占据重要作用,比如在信息检索场景中,给定检索关键词,根据关键词向量可以快速精准的定位用户检索意图;关键词向量化,就是将文档集中字符串类型的关键词转化为能反映语义信息的向量的过程。关键词向量化作为自然语言处理和文本挖掘领域中的关键技术,在主题词提取、文档检索、文本分类和同义词比较等方面有着广泛的应用。
现有的向量化方法大都针对字符串文档本身,文档类型包括论文、新闻文档等,主要有词袋模型和词向量模型两类,其中,词袋模型不考虑文档中关键词语义和语序的问题,它认为每个词语都是独立的,典型的方法有简单的词频统计和词频-逆文档频率模型;词向量模型是考虑关键词语序位置关系的模型,它通过大量语料训练,将每一个词语映射到高维度的向量中,主要方法有word2vec;且在现有技术的词向量模型中,关键词仅作为文档向量化的重要依据,而非对关键词本身进行向量化。即使基于word2vec向量化方法进行关键词向量化,其存在反映的关键词语义信息匮乏的问题;
而在实际应用场景中,很多时候需要对关键词向量化,比如文档分类中主题词的提取,信息检索领域中检索关键词向量化;目前现有技术中的关键词的向量化方法主要是LDA主题模型,通过LDA主题模型,可以将关键词转化为主题向量,该向量反映关键词和主题间的关系,但是基于和LDA主题模型的向量化方法也存在反映的关键词语义信息匮乏的问题。关键词语义信息是指文档隐含的主题信息、多义词在文档中所表达的具体含义和关键词对文档的重要性等,向量化后的关键词向量仍能够准确反映文档或主题所表达的语义。
发明内容
发明目的:本发明的目的是为了解决现有技术的不足,提供一种基于主题语义信息的关键词向量化方法,实现高精度表征主题语义信息的关键词向量化。
Sentence-BERT模型是自然语言处理中一种有效的语义训练模型,如处理文本的相似性等,能够输出包含文档语义信息的向量,但是BERT模型进行语义相似度搜索等任务的时候,需要将两个句子同时送入SBERT模型,该过程会导致巨大的时间开销,这种结构使得BERT模型不适合语义相似度搜索和无监督任务;BERT模型基于Siamese和Triplet网络,它在BERT模型后加入池化策略,主要有1)CLS-token以特征位置向量作为句向量;2)MEAN-strategy以所有输出向量的平均值作为句向量;3)MAX-strategy以所有输出向量中的最大值作为句向量,以便生成的句子向量具有更丰富的语义信息;
HDBSCAN算法提供一种生成软集群成员向量的方法,它可以输出文档属于集群的概率向量;HDBSCAN算法有软聚类的方式,软聚类的方式可以为每个文档生成一个文档主题向量,这为以后进行关键词主题向量和文档相关度的计算打下基础,适用于文档检索领域。
UMAP降维算法是一种用于降维的新型流形学习技术,与其它降维算法相比,它保留了更多的全局结构和出色的运行时性能;采用UMAP降维算法一方面可以弥补HDBSCAN算法容易遭受维度灾难的问题,另一方面可以在降维过程中可以发现更多的局部语义,丰富本发明关键词主题向量的语义信息。
基于此,本发明综合Sentence-BERT模型、UMAP降维算法和HDBSCAN算法,提出基于主题语义信息的关键词向量化方法。
具体的,本发明所述一种基于主题语义信息的关键词向量化方法,如图1所示,包括以下步骤:
步骤S1,适用Sentence-BERT模型输入文档集D进行训练,提取文档中蕴含的语义信息,生成文档向量矩阵行向量是文档di的文档向量;文档向量矩阵是一个二维矩阵,矩阵的每一行i都对应一个文档的向量;
步骤S2,使用UMAP降维算法将文档向量矩阵降维后形成文档向量矩阵为行向量是文档di降维后的文档向量;
步骤S3,HDBSCAN聚类算法可以处理密度不同的聚类问题,采用HDBSCAN聚类算法将降维后的文档向量进行聚类;HDBSCAN聚类算法形成m个聚类聚类主题T={t1,t2,…,tm},然后将各文档根据其主题信息,归类到对应的主题中;
在HDBSCAN聚类过程中,根据应用场景的不同,如图2所示,可以对聚类的方式进行选择,若应用于文档分类中主题词的提取,采用HDBSCAN常规聚类方式;若在信息检索领域中,需要获得文档的主题向量表示,采用HDBSCAN软聚类方式;
步骤S3.1,如果采用HDBSCAN中的常规聚类方式,D中每个文档di被归类到某个主题tj中,记为:di→tj,表示文档di被归类到主题tj中。
步骤S3.2,如果采用HDBSCAN中的软聚类方式,则D中每个文档di生成一个软集群成员向量Φ[i],该向量也是di的文档主题向量;所有文档的文档主题向量构成文档-主题矩阵Φ,Φ[i][j]表示文档di属于主题tj的概率;
具体包含如下过程:
步骤S3.2.1,对于D中的每个文档di,计算与di最相关的前k个主题,记为k-Topic(di),计算方法如下所示:
k-Topic(di)={tj|Φ[i][j]∈topk{Φ[i][k]|tk∈T}}
其中topk{}表示获取集合中最大的k个元素;
步骤S3.2.2对于任一主题ti,计算ti关联的文档集合,记为Docs(ti),计算方法如下所示:
Docs(ti)={dj|dj∈D∧ti∈k-Topic(dj)}
其中,k-Topic(dj)是与文档di最相关的前k个主题。
步骤S4:利用主题词频率-逆主题频率的计算方法,计算关键词集合W中每一个关键词wi与主题T中每个主题的主题词频率-逆主题频率得分,将该得分合并得到关键词主题向量θi
如图3所示,具体包含如下过程:
步骤S4.1,针对W中的每一个关键词wi,对T中每一个主题,计算关键词wi和在主题tj中的主题词频率,记为ttf(wi,tj),方法如下:
其中,ni,j是关键词wi在主题tj中出现的次数,∑knk,j是所有关键词在主题tj中出现的总次数;
步骤S4.2,针对W中的每一个关键词wi,计算wi的逆主题频率,记为itf(wi),计算方法如下:
其中,|T|表示主题总数量,|{j:wi∈tj}|表示含有关键词wi的主题数量;
步骤S4.3,关键词wi和主题tj之间的主题词频率-逆主题频率得分,记为ttf-itf(wi,tj),它衡量关键词wi对主题tj的重要程度,计算方法如下:
ttf-itf(wi,tj)=ttf(wi,tj)·itf(wi)
ttf-itf(wi,tj)的值越大,关键词wi对主题tj越重要。
步骤S4.4,根据步骤S4.3中得到的关键词wi和主题tj之间的ttf-itf(wi,tj)得分,合并得到关键词wi的主题向量,记为θi,计算方法如下:
θi=[ttf-itf(wi,t1),ttf-itf(wi,t2),…,ttf-itf(wi,tm)]
与现有技术相比,本发明具有以下优点:用SBERT模型训练得到包含文档语义信息的文档向量,解决传统词袋模型语义缺失和词向量模型语义不精的问题;用UMAP降维算法减少文档向量维度,降低向量计算的复杂性;将文档语义信息的文档向量作为HDBSCAN聚类算法的输入,与传统基于词频的文档向量化方法相比,聚类的效果更好;通过主题词词频-逆主题频率,从关键词的统计信息和主题语义层面分析关键词对主题的重要性,从而构造关键词主题向量。
附图说明
图1是本发明关键词向量化方法的流程图;
图2是本发明文档归类的实现过程示意图;
图3是本发明主题语义信息关键词向量化的实现过程示意图;
图4是测试实验中文档数量n对检索结果语义精度的影响;
图5是测试实验中检索关键词个数|Q|对检索结果语义精度的影响;
图6是测试实验中为归类主题数对模型的性能起着重要的影响曲线图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
图1是本发明的流程图,描述了基于主题语义信息的关键词向量化的过程。为了方便描述,给出如下具体示例,该示例主要解决文档检索问题,它基于20newsgroups数据集,包含20个不同类别的新闻,共11315篇文章。现对相关符号作如下定义:
文档集D={d1,d2,…,dn},对文档集D中各文档进行去停用词、提取关键词后构成关键词集合W={w1,w2,…,wu},HDBSCAN聚类算法获得的主题集合为T={t1,t2,…,tm}。是Sentence-BERT模型在文档集D上训练得到的文档向量矩阵。是UMAP降维算法输出的降维后的文档向量矩阵。Φ是HDBSCAN聚类算法输出的文档-主题矩阵。ttf(wi,tj)是关键词wi和主题tj之间的主题词频率-逆主题频率得分。θi是关键词wi的主题向量。
1)将文档集合D作为SBERT模型的输入,经过训练后SBERT模型输出文档向量矩阵其中表示文档di的文档向量。
2)为了避免HDBSCAN聚类算法容易遭受维数灾难,使用UMAP算法对文档向量进行降维。同时,使用UMAP降维还可以带来一些其它好处,一方面它可以降低计算复杂度,减少计算量和内存使用量;另一方面在流形降维过程中可以发现更多的局部语义特征。降维后的文档向量为
3)使用降维后的文档向量作为聚类算法HDBSCAN的输入。在聚类过程中选择HDBSCAN软聚类方式,它为每个文档生成一个软集群成员向量,我们将每个集群视为一个主题,生成的软集群成员向量可以解释为目标文档属于该主题的概率。文档集D中每个文档的软集群成员向量构成了文档-主题关联矩阵Φ,该矩阵描述了文档和主题之间的概率相关性。将每个文档归类到最相关的k个主题中。
4)根据关键词集合W,计算W中每个关键词和T中每个主题的主题词频率-逆主题频率得分,合并得到每个关键词的主题向量。
基于上述主题语义信息的关键词向量化,进行关键词检索,假设检索关键词集合为Q={w1,w2,…,wp},其中wp是关键词字典中第p个关键词。根据关键词主题向量,生成查询Q的检索主题向量VQ,如下所示:
其中PD和PW分别是主题概率向量和关键词概率向量。
计算VQ和Φ中所有文档主题向量的内积,根据内积计算结果排序,即可得到与检索关键词相关的文档。
为了说明该关键词向量化方法的效果,以下采用文档检索为例进行测试实验,该实验和LDA主题模型关键词向量化方法作对比;
为了合理地描述该测试检索结果的语义精度,设定检索关键字来自同一主题,使用Marcin Gabryel在Application of the bag-of-words algorithm in classificationthe quality of sales leads中采用的评估方法,具体如下所示:
其中,TP和FP分别是检索结果中属于和不属于检索意图类别的文档数量。
该实验的默认参数设置如下表:
默认参数 文档数量n 检索关键词个数|Q| 归类主题数k
参数值 8000 3 3
其中归类主题数表示每个文档被归类到几个主题中。
如图4所示,文档数量n对检索结果语义精度的影响。随着文档数量n的增加,本发明关键词向量化方法和LDA主题模型关键词向量化方法都会使得检索结果的语义精度保持稳定。但是,采用本发明的关键词向量化方法的检索结果的语义精度高于LDA主题模型关键词向量化方法。
如图5所示,检索关键词个数|Q|对检索结果语义精度的影响。随着检索关键词数量|Q|增加,本发明关键词向量化方法和LDA主题模型关键词向量化方法都会使得检索结果的语义精度逐渐增加,然后趋于稳定。原因是在多关键词检索中,表示检索的语义特征的关键词越多,返回的文档反映检索的潜在语义越多。然而,当检索的关键词已经能够很好地表示检索的语义特征时,增加检索关键词的数量对检索结果的影响很小。但是,采用本发明的关键词向量化方法的检索结果的语义精度高于LDA主题模型关键词向量化方法。
如图6所示为归类主题数对模型的性能起着重要的影响曲线图。随着归类主题数k增加,本发明关键词向量化方法使得检索结果的语义精度上下振荡,这是由于将文档归类为多个类会影响关键词主题向量的变化,进而导致检索结果的变化。当文档归类数量为3的时候,本发明关键词向量化方法使得检索结果的语义精度达到最高值。
从文档检索的实验结果上可以看出,基于主题语义信息的关键词向量化方法充分提取了文档的主题信息,构成的检索关键词主题向量更能反映用户的检索意图,所以检索结果的语义精度高于使用LDA主题模型的关键词向量化方法。

Claims (4)

1.一种基于主题语义信息的关键词向量化方法,其特征在于,所述方法包括以下实现步骤:
步骤S1,使用Sentence-BERT模型输入文档集D进行训练,提取文档中蕴含的语义信息,生成文档向量矩阵行向量是文档di的文档向量;
步骤S2,使用UMAP降维算法将文档向量矩阵降维后形成文档向量矩阵为行向量是文档di降维后的文档向量;
步骤S3,采用HDBSCAN聚类算法将降维后的文档向量进行聚类,形成m个聚类聚类主题T={t1,t2,…,tm},然后将各文档根据其主题信息,归类到对应的主题中;根据应用场景的不同,对HDBSCAN聚类算法进行选择,若应用于文档分类中主题词的提取,采用HDBSCAN常规聚类方式;若在信息检索领域中,需要获得文档的主题向量表示,采用HDBSCAN软聚类方式;
所述HDBSCAN常规聚类方式,具体为将D中每个文档di归类到某个主题tj中,记为di→tj,表示文档di被归类到主题tj中;
所述HDBSCAN软聚类方式,具体为将D中每个文档di生成一个软集群成员向量Φ[i],Φ[i]向量也是di的文档主题向量;所有文档的文档主题向量构成文档-主题矩阵Φ,Φ[i][j]表示文档di属于主题tj的概率;对于D中的每个文档di,计算与di最相关的前k个主题,记为k-Topic(di),计算方法如下:
k-Topic(di)={tj|Φ[i][j]∈topk{Φ[i][k]|tk∈T}}
其中topk{}表示获取集合中最大的k个元素,
对于任一主题ti,计算ti关联的文档集合,记为Docs(ti),计算方法如下:
Docs(ti)={dj|dj∈D∧ti∈k-Topic(dj)}
其中,k-Topic(dj)是与文档di最相关的前k个主题;
步骤S4,利用主题词频率-逆主题频率的计算方式,计算关键词集合W中每一个关键词wi与主题T中每个主题的主题词频率-逆主题频率得分,将该得分合并得到关键词主题向量θi
2.根据权利要求1所述的一种基于主题语义信息的关键词向量化方法,其特征在于,所述步骤S4具体包括以下步骤:
步骤S4.1,针对W中的每一个关键词wi,计算其在T中每个主题tj中的词频记为ttf(wi,tj),计算方法如下:
其中,ni,j是关键词wi在主题tj中出现的次数,∑knk,j是所有关键词在主题tj中出现的总次数;
步骤S4.2,针对W中的每一个关键词wi,计算wi的逆主题频率,记为itf(wi),计算方法如下:
其中,|T|表示主题总数量,|{j:wi∈tj}|表示含有关键词wi的主题数量;
步骤S4.3,关键词wi和主题tj之间的主题词频率-逆主题频率的得分记为ttf-itf(wi,tj),它衡量关键词wi对主题tj的重要程度,计算方法如下:
ttf-itf(wi,tj)=ttf(wi,tj)·itf(wi)
步骤S4.4,根据步骤S4.3中得到的关键词wi和主题tj之间的主题词频率-逆主题频率得分,合并得到关键词wi的主题向量,记为θi,方法如下:
θi=[ttf-itf(wi,t1),ttf-itf(wi,t2),…,ttf-itf(wi,tm)]。
3.权利要求1-2中任意一项权利要求所述的基于主题语义信息的关键词向量化方法在文档检索中的应用,其特征在于,所述应用包括步骤:首先采用权利要求1中所述的关键词向量化方法对待检索的所有文档进行关键词向量化处理,然后输入关键词检索出相应的文档。
4.根据权利要求3所述的应用,其特征在于,设置检索关键词集合为Q={w1,w2,...,wp},其中wp是关键词字典中第p个关键词,根据关键词主题向量,生成查询Q的检索主题向量VQ,如下所示:
其中,PD和PW分别是主题概率向量和关键词概率向量,然后计算VQ和Φ中所有文档主题向量的内积,根据内积计算结果排序,即可得到与检索关键词相关的文档。
CN202111659209.5A 2021-12-30 一种基于主题语义信息的关键词向量化方法及其应用 Active CN114298020B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111659209.5A CN114298020B (zh) 2021-12-30 一种基于主题语义信息的关键词向量化方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111659209.5A CN114298020B (zh) 2021-12-30 一种基于主题语义信息的关键词向量化方法及其应用

Publications (2)

Publication Number Publication Date
CN114298020A CN114298020A (zh) 2022-04-08
CN114298020B true CN114298020B (zh) 2024-07-02

Family

ID=

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
云环境下语义感知多关键词密文检索技术研究;胡正;中国优秀硕士学位论文全文数据库 信息科技辑;20230215;全文 *

Similar Documents

Publication Publication Date Title
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
Bhagat et al. Image annotation: Then and now
CN104765769B (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN106372061B (zh) 基于语义的短文本相似度计算方法
CN115098690B (zh) 一种基于聚类分析的多数据文档分类方法及系统
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质
CN112989813A (zh) 一种基于预训练语言模型的科技资源关系抽取方法及装置
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN114265936A (zh) 一种科技项目文本挖掘的实现方法
CN112579783B (zh) 基于拉普拉斯图谱的短文本聚类方法
CN113987175A (zh) 一种基于医学主题词表增强表征的文本多标签分类方法
Villegas et al. Vector-based word representations for sentiment analysis: a comparative study
Habibi et al. Tabsim: A siamese neural network for accurate estimation of table similarity
CN110674293A (zh) 一种基于语义迁移的文本分类方法
CN114298020B (zh) 一种基于主题语义信息的关键词向量化方法及其应用
Carpineto et al. A concept lattice-based kernel for SVM text classification
CN115292515A (zh) 一种缝纫设备模块化设计领域知识图谱构建方法
Lin et al. Text classification feature extraction method based on deep learning for unbalanced data sets
Lu et al. Context-based multi-label image annotation
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN113761125A (zh) 动态摘要确定方法和装置、计算设备以及计算机存储介质
Zhu et al. Chinese texts classification system
Akhgari et al. Sem-TED: semantic twitter event detection and adapting with news stories
CN113516202A (zh) Cbl特征提取与去噪的网页精准分类方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant