CN114298020A

CN114298020A - 一种基于主题语义信息的关键词向量化方法及其应用

Info

Publication number: CN114298020A
Application number: CN202111659209.5A
Authority: CN
Inventors: 戴华; 胡正; 刘源龙; 陆佳行; 杨庚; 陈燕俐
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-08
Anticipated expiration: 2041-12-30
Also published as: CN114298020B

Abstract

本发明公开一种基于主题语义信息的关键词向量化方法及其应用，具体包括：首先利用Sentence‑BERT模型为每个文档生成具有文档语义信息的向量；再通过UMAP降维算法对生成的文档向量进行降维并突显局部语义特征；然后，在降维后的文档向量上进行HDBSCAN主题聚类，并将每个文档归类到一个或多个主题中；最后，利用文档和主题之间的关系，计算主题中每一个关键词的主题词频率‑逆主题频率(TTF‑ITF)得分，对该关键词与每个主题的主题词频率‑逆主题频率(TTF‑ITF)得分进行合并，生成最终的关键词向量。本发明实现高精度表征主题语义信息的关键词向量化，可应用于主题词提取、文本分类和文档检索。

Description

一种基于主题语义信息的关键词向量化方法及其应用

技术领域

本发明涉及自然语言处理、文本挖掘和可搜索加密领域，具体涉及一种基于主题语义信息的关键词向量化方法及其应用。

背景技术

随着互联网技术的不断发展和大数据时代的到来，数据的规模变得日益庞大。面对规模庞大、种类繁杂的数据，如何将这些数据归类、获得与某类别强相关的关键词，有效利用它们指导实践活动显得尤为重要。文档数据包含的关键词数量众多且无法被计算机直接使用，关键词向量化是解决这一问题的有效手段。关键词向量化在文档数据的有效使用方面占据重要作用，比如在信息检索场景中，给定检索关键词，根据关键词向量可以快速精准的定位用户检索意图；关键词向量化，就是将文档集中字符串类型的关键词转化为能反映语义信息的向量的过程。关键词向量化作为自然语言处理和文本挖掘领域中的关键技术，在主题词提取、文档检索、文本分类和同义词比较等方面有着广泛的应用。

现有的向量化方法大都针对字符串文档本身，文档类型包括论文、新闻文档等，主要有词袋模型和词向量模型两类，其中，词袋模型不考虑文档中关键词语义和语序的问题，它认为每个词语都是独立的，典型的方法有简单的词频统计和词频-逆文档频率模型；词向量模型是考虑关键词语序位置关系的模型，它通过大量语料训练，将每一个词语映射到高维度的向量中，主要方法有word2vec；且在现有技术的词向量模型中，关键词仅作为文档向量化的重要依据，而非对关键词本身进行向量化。即使基于word2vec向量化方法进行关键词向量化，其存在反映的关键词语义信息匮乏的问题；

而在实际应用场景中，很多时候需要对关键词向量化，比如文档分类中主题词的提取，信息检索领域中检索关键词向量化；目前现有技术中的关键词的向量化方法主要是LDA主题模型，通过LDA主题模型，可以将关键词转化为主题向量，该向量反映关键词和主题间的关系，但是基于和LDA主题模型的向量化方法也存在反映的关键词语义信息匮乏的问题。关键词语义信息是指文档隐含的主题信息、多义词在文档中所表达的具体含义和关键词对文档的重要性等，向量化后的关键词向量仍能够准确反映文档或主题所表达的语义。

发明内容

发明目的：本发明的目的是为了解决现有技术的不足，提供一种基于主题语义信息的关键词向量化方法，实现高精度表征主题语义信息的关键词向量化。

Sentence-BERT模型是自然语言处理中一种有效的语义训练模型，如处理文本的相似性等，能够输出包含文档语义信息的向量，但是BERT模型进行语义相似度搜索等任务的时候，需要将两个句子同时送入SBERT模型，该过程会导致巨大的时间开销，这种结构使得BERT模型不适合语义相似度搜索和无监督任务；BERT模型基于Siamese和Triplet网络，它在BERT模型后加入池化策略，主要有1)CLS-token以特征位置向量作为句向量；2)MEAN-strategy以所有输出向量的平均值作为句向量；3)MAX-strategy以所有输出向量中的最大值作为句向量，以便生成的句子向量具有更丰富的语义信息；

HDBSCAN算法提供一种生成软集群成员向量的方法，它可以输出文档属于集群的概率向量；HDBSCAN算法有软聚类的方式，软聚类的方式可以为每个文档生成一个文档主题向量，这为以后进行关键词主题向量和文档相关度的计算打下基础，适用于文档检索领域。

UMAP降维算法是一种用于降维的新型流形学习技术，与其它降维算法相比，它保留了更多的全局结构和出色的运行时性能；采用UMAP降维算法一方面可以弥补HDBSCAN算法容易遭受维度灾难的问题，另一方面可以在降维过程中可以发现更多的局部语义，丰富本发明关键词主题向量的语义信息。

基于此，本发明综合Sentence-BERT模型、UMAP降维算法和HDBSCAN算法，提出基于主题语义信息的关键词向量化方法。

具体的，本发明所述一种基于主题语义信息的关键词向量化方法，如图1所示，包括以下步骤：

步骤S1，适用Sentence-BERT模型输入文档集D进行训练，提取文档中蕴含的语义信息，生成文档向量矩阵

行向量

是文档d_i的文档向量；文档向量矩阵是一个二维矩阵，矩阵的每一行i都对应一个文档的向量；

步骤S2，使用UMAP降维算法将文档向量矩阵

降维后形成文档向量矩阵为

行向量

是文档d_i降维后的文档向量；

步骤S3，HDBSCAN聚类算法可以处理密度不同的聚类问题，采用HDBSCAN聚类算法将降维后的文档向量

进行聚类；HDBSCAN聚类算法形成m个聚类聚类主题T＝{t₁,t₂,…,t_m}，然后将各文档根据其主题信息，归类到对应的主题中；

在HDBSCAN聚类过程中，根据应用场景的不同，如图2所示，可以对聚类的方式进行选择，若应用于文档分类中主题词的提取，采用HDBSCAN常规聚类方式；若在信息检索领域中，需要获得文档的主题向量表示，采用HDBSCAN软聚类方式；

步骤S3.1，如果采用HDBSCAN中的常规聚类方式，D中每个文档d_i被归类到某个主题t_j中，记为：d_i→t_j，表示文档d_i被归类到主题t_j中。；

步骤S3.2，如果采用HDBSCAN中的软聚类方式，则D中每个文档d_i生成一个软集群成员向量Φ[i]，该向量也是d_i的文档主题向量；所有文档的文档主题向量构成文档-主题矩阵Φ，Φ[i][j]表示文档d_i属于主题t_j的概率；

具体包含如下过程：

步骤S3.2.1，对于D中的每个文档d_i，计算与d_i最相关的前k个主题，记为k-Topic(d_i)，计算方法如下所示：

k-Topic(d_i)＝{t_j|Φ[i][j]∈topk{Φ[i][k]|t_k∈T}}

其中topk{}表示获取集合中最大的k个元素；

步骤S3.2.2对于任一主题t_i，计算t_i关联的文档集合，记为Docs(t_i)，计算方法如下所示：

Docs(t_i)＝{d_j|d_j∈D∧t_i∈k-Topic(d_j)}

其中，k-Topic(d_j)是与文档d_i最相关的前k个主题。

步骤S4：利用主题词频率-逆主题频率的计算方法，计算关键词集合W中每一个关键词w_i与主题T中每个主题的主题词频率-逆主题频率得分，将该得分合并得到关键词主题向量θ_i。

如图3所示，具体包含如下过程：

步骤S4.1，针对W中的每一个关键词w_i，对T中每一个主题，计算关键词w_i和在主题t_j中的主题词频率，记为ttf(w_i,t_j)，方法如下：

其中，n_i,j是关键词w_i在主题t_j中出现的次数，∑_kn_k,j是所有关键词在主题t_j中出现的总次数；

步骤S4.2，针对W中的每一个关键词w_i，计算w_i的逆主题频率，记为itf(w_i)，计算方法如下：

其中，|T|表示主题总数量，|{j:w_i∈t_j}|表示含有关键词w_i的主题数量；

步骤S4.3，关键词w_i和主题t_j之间的主题词频率-逆主题频率得分，记为ttf-itf(w_i,t_j)，它衡量关键词w_i对主题t_j的重要程度，计算方法如下：

ttf-itf(w_i,t_j)＝ttf(w_i,t_j)·itf(w_i)

ttf-itf(w_i,t_j)的值越大，关键词w_i对主题t_j越重要。

步骤S4.4，根据步骤S4.3中得到的关键词w_i和主题t_j之间的ttf-itf(w_i,t_j)得分，合并得到关键词w_i的主题向量，记为θ_i，计算方法如下：

θ_i＝[ttf-itf(w_i,t₁),ttf-itf(w_i,t₂),…,ttf-itf(w_i,t_m)]

与现有技术相比，本发明具有以下优点：用SBERT模型训练得到包含文档语义信息的文档向量，解决传统词袋模型语义缺失和词向量模型语义不精的问题；用UMAP降维算法减少文档向量维度，降低向量计算的复杂性；将文档语义信息的文档向量作为HDBSCAN聚类算法的输入，与传统基于词频的文档向量化方法相比，聚类的效果更好；通过主题词词频-逆主题频率，从关键词的统计信息和主题语义层面分析关键词对主题的重要性，从而构造关键词主题向量。

附图说明

图1是本发明关键词向量化方法的流程图；

图2是本发明文档归类的实现过程示意图；

图3是本发明主题语义信息关键词向量化的实现过程示意图；

图4是测试实验中文档数量n对检索结果语义精度的影响；

图5是测试实验中检索关键词个数|Q|对检索结果语义精度的影响；

图6是测试实验中为归类主题数对模型的性能起着重要的影响曲线图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

图1是本发明的流程图，描述了基于主题语义信息的关键词向量化的过程。为了方便描述，给出如下具体示例，该示例主要解决文档检索问题，它基于20newsgroups数据集，包含20个不同类别的新闻，共11315篇文章。现对相关符号作如下定义：

文档集D＝{d₁,d₂,…,d_n}，对文档集D中各文档进行去停用词、提取关键词后构成关键词集合W＝{w₁,w₂,…,w_u}，HDBSCAN聚类算法获得的主题集合为T＝{t₁,t₂,…,t_m}。

是Sentence-BERT模型在文档集D上训练得到的文档向量矩阵。

是UMAP降维算法输出的降维后的文档向量矩阵。Φ是HDBSCAN聚类算法输出的文档-主题矩阵。ttf(w_i,t_j)是关键词w_i和主题t_j之间的主题词频率-逆主题频率得分。θ_i是关键词w_i的主题向量。

1)将文档集合D作为SBERT模型的输入，经过训练后SBERT模型输出文档向量矩阵

其中

表示文档d_i的文档向量。

2)为了避免HDBSCAN聚类算法容易遭受维数灾难，使用UMAP算法对文档向量

进行降维。同时，使用UMAP降维还可以带来一些其它好处，一方面它可以降低计算复杂度，减少计算量和内存使用量；另一方面在流形降维过程中可以发现更多的局部语义特征。降维后的文档向量为

3)使用降维后的文档向量

作为聚类算法HDBSCAN的输入。在聚类过程中选择HDBSCAN软聚类方式，它为每个文档生成一个软集群成员向量，我们将每个集群视为一个主题，生成的软集群成员向量可以解释为目标文档属于该主题的概率。文档集D中每个文档的软集群成员向量构成了文档-主题关联矩阵Φ，该矩阵描述了文档和主题之间的概率相关性。将每个文档归类到最相关的k个主题中。

4)根据关键词集合W，计算W中每个关键词和T中每个主题的主题词频率-逆主题频率得分，合并得到每个关键词的主题向量。

基于上述主题语义信息的关键词向量化，进行关键词检索，假设检索关键词集合为Q＝{w₁,w₂,…,w_p}，其中w_p是关键词字典中第p个关键词。根据关键词主题向量，生成查询Q的检索主题向量V_Q，如下所示：

其中P_D和P_W分别是主题概率向量和关键词概率向量。

计算V_Q和Φ中所有文档主题向量的内积，根据内积计算结果排序，即可得到与检索关键词相关的文档。

为了说明该关键词向量化方法的效果，以下采用文档检索为例进行测试实验，该实验和LDA主题模型关键词向量化方法作对比；

为了合理地描述该测试检索结果的语义精度，设定检索关键字来自同一主题，使用Marcin Gabryel在Application of the bag-of-words algorithm in classificationthe quality of sales leads中采用的评估方法，具体如下所示：

其中，TP和FP分别是检索结果中属于和不属于检索意图类别的文档数量。

该实验的默认参数设置如下表：

默认参数	文档数量n	检索关键词个数\|Q\|	归类主题数k
				参数值	8000	3	3

其中归类主题数表示每个文档被归类到几个主题中。

如图4所示，文档数量n对检索结果语义精度的影响。随着文档数量n的增加，本发明关键词向量化方法和LDA主题模型关键词向量化方法都会使得检索结果的语义精度保持稳定。但是，采用本发明的关键词向量化方法的检索结果的语义精度高于LDA主题模型关键词向量化方法。

如图5所示，检索关键词个数|Q|对检索结果语义精度的影响。随着检索关键词数量|Q|增加，本发明关键词向量化方法和LDA主题模型关键词向量化方法都会使得检索结果的语义精度逐渐增加，然后趋于稳定。原因是在多关键词检索中，表示检索的语义特征的关键词越多，返回的文档反映检索的潜在语义越多。然而，当检索的关键词已经能够很好地表示检索的语义特征时，增加检索关键词的数量对检索结果的影响很小。但是，采用本发明的关键词向量化方法的检索结果的语义精度高于LDA主题模型关键词向量化方法。

如图6所示为归类主题数对模型的性能起着重要的影响曲线图。随着归类主题数k增加，本发明关键词向量化方法使得检索结果的语义精度上下振荡，这是由于将文档归类为多个类会影响关键词主题向量的变化，进而导致检索结果的变化。当文档归类数量为3的时候，本发明关键词向量化方法使得检索结果的语义精度达到最高值。

从文档检索的实验结果上可以看出，基于主题语义信息的关键词向量化方法充分提取了文档的主题信息，构成的检索关键词主题向量更能反映用户的检索意图，所以检索结果的语义精度高于使用LDA主题模型的关键词向量化方法。

Claims

1.一种基于主题语义信息的关键词向量化方法，其特征在于，所述方法包括以下实现步骤：

步骤S1，使用Sentence-BERT模型输入文档集D进行训练，提取文档中蕴含的语义信息，生成文档向量矩阵

行向量

是文档d_i的文档向量；

步骤S2，使用UMAP降维算法将文档向量矩阵

降维后形成文档向量矩阵为

行向量

是文档d_i降维后的文档向量；

步骤S3，采用HDBSCAN聚类算法将降维后的文档向量

进行聚类，形成m个聚类聚类主题T＝{t₁,t₂,…,t_m}，然后将各文档根据其主题信息，归类到对应的主题中；

步骤S4，利用主题词频率-逆主题频率的计算方式，计算关键词集合W中每一个关键词w_i与主题T中每个主题的主题词频率-逆主题频率得分，将该得分合并得到关键词主题向量θ_i。

2.根据权利要求1所述的一种基于主题语义信息的关键词向量化方法，其特征在于，步骤S3中所述HDBSCAN聚类算法为常规聚类方式，具体为将D中每个文档d_i归类到某个主题t_j中，记为d_i→t_j，表示文档d_i被归类到主题t_j中。

3.根据权利要求1所述的一种基于主题语义信息的关键词向量化方法，其特征在于，所述步骤S3中所述HDBSCAN聚类算法为软聚类方式，将D中每个文档d_i生成一个软集群成员向量Φ[i]，Φ[i]向量也是d_i的文档主题向量；所有文档的文档主题向量构成文档-主题矩阵Φ，Φ[i][j]表示文档d_i属于主题t_j的概率；对于D中的每个文档d_i，计算与d_i最相关的前k个主题，记为k-Topic(d_i)，计算方法如下：

k-Topic(d_i)＝{t_j|Φ[i][j]∈topk{Φ[i][k]|t_k∈T}}

其中topk{}表示获取集合中最大的k个元素，

对于任一主题t_i，计算t_i关联的文档集合，记为Docs(t_i)，计算方法如下：

Docs(t_i)＝{d_j|d_j∈D∧t_i∈k-Topic(d_j)}

其中，k-Topic(d_j)是与文档d_i最相关的前k个主题。

4.根据权利要求1所述的一种基于主题语义信息的关键词向量化方法，其特征在于，所述步骤S4具体包括以下步骤：

步骤S4.1，针对W中的每一个关键词w_i，计算其在T中每个主题t_j中的词频记为ttf(w_i,t_j)，计算方法如下：

步骤S4.3，关键词w_i和主题t_j之间的主题词频率-逆主题频率的得分记为ttf-itf(w_i,t_j)，它衡量关键词w_i对主题t_j的重要程度，计算方法如下：

ttf-itf(w_i,t_j)＝ttf(w_i,t_j)·itf(w_i)

步骤S4.4，根据步骤S4.3中得到的关键词w_i和主题t_j之间的主题词频率-逆主题频率得分，合并得到关键词w_i的主题向量，记为θ_i，方法如下：

θ_i＝[ttf-itf(w_i,t₁),ttf-itf(w_i,t₂),…,ttf-itf(w_i,t_m)]。

5.权利要求1-4中任意一项权利要求所述的基于主题语义信息的关键词向量化方法在文档检索中的应用，其特征在于，所述应用包括步骤：首先采用权利要求1中所述的关键词向量化方法对待检索的所有文档进行关键词向量化处理，然后输入关键词检索出相应的文档。

6.根据权利要求5所述的应用，其特征在于，设置检索关键词集合为Q＝{w₁,w₂,…,w_p}，其中w_p是关键词字典中第p个关键词，根据关键词主题向量，生成查询Q的检索主题向量V_Q，如下所示：

其中，P_D和P_W分别是主题概率向量和关键词概率向量，然后计算V_Q和Φ中所有文档主题向量的内积，根据内积计算结果排序，即可得到与检索关键词相关的文档。