CN116205227A

CN116205227A - 一种基于变分推断理论的关键词生成方法及系统

Info

Publication number: CN116205227A
Application number: CN202310259247.4A
Authority: CN
Inventors: 杨鹏; 姚雨; 赵广振; 殷国顺
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2023-06-02

Abstract

本发明提供了一种基于变分推断理论的关键词生成方法及系统，方法包括以下步骤：步骤1：数据预处理；步骤2：模型构建；步骤3：模型训练；步骤4：模型测试与评估。本发明针对现存的关键词生成方法依赖基本的序列到序列的框架来生成目标关键词，忽视了复制和生成空间表征学习能力不足的问题，通过对变分推断理论的分析，将变分推断引入关键词生成任务并建立基于双隐空间的关键词生成模型，以期达到生成高质量的关键词并利用混合高斯模块的特性根据文本内容自适应预关键词个数的目的。

Description

一种基于变分推断理论的关键词生成方法及系统

技术领域

本发明涉及一种基于变分推断理论的关键词生成方法及系统，属于互联网和人工智能技术领域。

背景技术

随着近几年科学技术的飞速发展以及信息技术的普遍应用，人们获得数据的能力不断增强。据有关统计，在全世界的业务管理、科学与工程管理、政府管理和其它应用领域存在着大量的数据，并且其数量和规模在不断增加和扩大。同时，日益增长的、种类繁多的网页数据在人们的生产生活中发挥着重要作用，而且网络中的文本信息在爆发式增长，导致人们每天可以接触到海量的文本信息，例如新闻、微博、聊天、报告、论文等。海量的数据规模，人们很容易淹没在数据的海洋中，无法有效地获取信息。因此，如何利用这些海量数据并从数据中快速获得有价值的信息，显得尤为重要。自动生成关键词技术为此提供了一种高效的解决方案，成为帮助人们减轻和缓解上述数据过载问题的重要手段之一。一个关键词自动生成系统以一篇或多篇文档作为输入，通过计算机自动创建一组简短、精炼、包含主要信息的关键词。关键词是一篇文档的重要组成部分，发挥着总结及传播信息的重要作用，因此研究关键词生成具有重要的理论和实践意义。

关键词生成的目标是提供一组关键词以概括文本的主要内容。通过关键词，用户可以快速理解文本的主题，获得文本的核心信息，从而节约阅读时间，提高信息查找效率。关键词生成方法可分为抽取式和生成式两类。抽取式方法直接将源文本中一部分单词或短语作为给定文档的关键词，这也意味着抽取式方法提取到的关键词都在源文本中出现过，这些关键词被称为存在关键词。生成式方法从一个预先设置的词表中生成关键词，因此不仅可以提取到存在关键词，也可以得到源文本中未出现的关键词，这部分单词统称为缺失关键词。抽取式生成方法直接从源文本中获取关键词短语，已经被广泛使用在文本分析、文本摘要等任务中。给定源文本，读者首先阅读文本以理解上下文的基本含义，然后根据文本的基本语义生成关键词短语。生成式方法类似于上述过程，它基于文本语义生成关键词，可以捕捉到文本背后的真正语义，更加符合人们分配关键词的行为方式。目前关键词生成模型主要采用基于循环神经网络(Recurrent Neural Network，RNN)或Transformer的序列到序列(Sequence-to-Sequence，Seq2Seq)框架。序列到序列框架包含编码器(Encoder)和解码器(Decoder)两部分，其中编码器将变长的源文本映射成一个固定长度的向量，解码器依据编码器生成的向量生成目标关键词。

目前基于深度神经网络的编码器-解码器模型在处理关键词自动生成任务中表现较好，其优化目标为复制模式(Copy-Mode)和生成模式(Generative-Mode)共同组成的负对数似然损失，缺少复制和生成策略空间表征学习能力，从而忽视了关键词的不同属性特征，这会降低解码器的生成能力。另外，当前基于one2one范式的关键词模型需要依赖波束搜索(BeamSearch)来增加关键词的多样性，不能决定关键词的个数；而基于one2seq范式的关键词模型只能隐式地决定关键词的个数。已有的范式均存在关键词生成策略表征能力有限及不能显式预测关键词个数的问题，因此本发明希望能够提出一种新的深度学习方法来解决这些问题。

发明内容

为了解决现有技术中存在的问题与不足，本发明提出一种基于变分推断理论的关键词生成方法及系统，针对现存的关键词生成方法依赖基本的序列到序列的框架来生成目标关键词，忽视了复制和生成空间表征学习能力不足的问题，在模型训练的过程中通过对变分推断理论的分析，将变分引入关键词生成技术并建立依托vMF(von Mises-Fisher，vMF)分布和高斯混合模型(Gaussian Mixture Model,GMM)的关键词生成模型，以期达到生成高质量的关键词并利用混合高斯模块的特性根据文本内容自适应预关键词个数的目的。

为了达到上述目的，本发明提供如下技术方案：

一种基于变分推断理论的关键词生成方法，包括如下步骤：

步骤1：数据预处理

对样本进行预处理，去除非法字符，更改数字为标识符，得到源文本序列；连接关键词并排列后，得到目标关键词序列；

步骤2：模型构建

首先构建由自注意力子层和前馈神经网络子层组成RoBERTa编码器模块，每个源文本通过预训练的RoBERTa编码器转换为隐藏表示；其次构建vMF分布模块，以提高生成模式的预测能力；再构建自监督聚类模块，以增强复制模式的预测能力；最后，构建Transformer解码器，基于vMF模块捕获的超球面变量和GMM模块产生的混合高斯变量来生成目标关键短语，同时利用高斯混合网络的自然特性来确定关键词的数量；

步骤3：模型训练

采用NLL损失帮助模型学习关键词特定的知识；添加vMF和聚类损失以修改编码器和解码器的分布，利用KL散度防止两个分布之间的振荡；设计了一个聚类导向的损失使得潜在表示空间更加可分，从而使解码器能够识别出有区分性的信息；通过优化以上损失函数，提高模型生成关键词的能力；

步骤4：模型测试与评估

选择训练过程中在验证集上表现最好的模型作为实际使用中的预测模型进行关键词预测任务；首先对需要生成关键词的文本进行预处理，将其作为模型的输入，进而生成关键词；使用F₁@5和F₁@M值作为评价指标检测生成的关键词的质量。

进一步的，所述步骤1包括如下过程：

给定一个样本，对样本进行预处理，首先使用正则表达式去除样本中的一些非法字符，将所有数字更改为<digit>标识符，记为源文本序列

将关键词使用连接符；连接起来，存在关键词按照在文本中首次出现的顺序排序，缺失关键词排在存在关键词之后，构成关键词序列，记为/>

其中l_x和/>

分别为文本和关键词序列的个数；/>

构成了一个最终的训练样本。

进一步的，所述步骤2包括如下子步骤：

子步骤2-1：RoBERTa编码器构建

给定源文本X，在X的开头和结尾分别添加特殊的标记<s>和</s>；然后，将填充后的源文本

输入到RoBERTa编码器中；RoBERTa编码器由L_e个相同的层堆叠而成，每个层包含两个子层；第一个是多头自注意力SA子层，第二个是全连接的前馈神经网络子层FF：

其中，l∈{0,…,L_e}，

是填充后的源文本的单词嵌入，/>

是编码器的最终输出；特殊的<s>标记的最终隐藏向量被表示为s，通常用作聚合序列表示；源文本X的单词隐藏向量集合被表示为一个记忆库：/>

子步骤2-2：vMF模块构建

vMF分布存在于一个超球面空间中，平均方向矢量为

中心参数为为

vMF的参数ξ和κ通过以下方式获得，

其中，

和/>

是前馈线性神经网络，||·||代表2-范数以确保规范化，softplus激活函数确保κ可始终为正数；

根据已经构建的vMF分布，采用acceptance-rejection scheme采样潜在的vMF变量；假设先验样本

服从单位超球面上的均匀分布vMF(·,k_prior＝0)，而近似后验/>

则服从同一球面上vMF正态分布vMF(ξ_pos,k_pos)，其中，ξ_pos和κ_pos分别对应vMF分布的平均方向矢量和中心参数；vMF模块的KL散度损失定义如下损失定义如下：

其中，z_gen是从vMF分布中提取的潜在变量，q_φ(z_gen∣s)是后验分布，p_θ(z_gen)是后验分布；

子步骤2-3：聚类模块构建

选择高斯混合模型GMM来获取潜在的复制变量；假设混合高斯先验变量

服从/>

和/>

是混合高斯先验模型的权重、均值和方差，近似后验变量/>

服从/>

π_k、μ_k和/>

是混合高斯后验模型的权重、均值和方差；M_r是由双向长短期记忆网络Bi-LSTM从记忆库M派生而来；

为了获取潜在变量

首先将原始的记忆库M送到Bi-LSTM中，并将前向和后向编码器的最后隐藏状态连接起来，以获取源文本/>

和更新的记忆库M_r＝[h_r,1,…,h_r,lx]；然后，将M_r送到GMM中，可以得到权重π、均值μ和方差σ²：

其中，f^GMM(·)是一个前馈神经网络，

是GMM第k个组件的混合系数，W_k和b_k是GMM可训练的参数，/>

通过softmax函数计算，K个均值/>

可视为中心点，K个中心点构成矩阵u＝[μ₁,…,μ_K]，由于GMM中的权重/>

不可微分，因此采用Gumbel-Softmax重新参数化，以使反向传播通过离散样本：

其中，π_k是GMM经过Gumbel-Softmax重新参数化后的混合系数，g_k是GMM第k个组件的Gumbel噪音，τ是温度，g_i是Gumbel噪声，计算方式为：

g_i＝-log(-log(u_i)),u_i～U(0,1) (6)

其中，1≤i≤K，U(0,1)是(0，1)上的均匀分布；

由此，可以计算潜在隐变量

其中，z_copy是从混合高斯模型中抽取的潜在变量；

随后，从先验分布p_θ(z_copy∣M_r)中获取一个更好的潜在变量

为了进一步促进聚类收敛，基于学生t分布提出一种自我监督的聚类策略去迭代生成更精确的目标关键词；如公式(8)和(9)所示，采用学生t分布作为核来衡量更新的记忆库M_r与聚类中心

之间的相似性：

其中，

是GMM第k个组件的均值，作为GMM第k个组件的聚类中心，k′∈[1,K]表示第k′个聚类中心，v是学生t分布的自由度，q_ik表示第i个词M_r,i到第k个预先计算的聚类中心μ_k分配的概率；概率分布Q是/>

的集合，其中i∈[1,l_x],k∈[1,K]，v为参数；

为了增加聚类分配的置信度并归一化目标损失，引入了一个辅助目标分布

来更新深度映射并优化聚类中心；目标分布/>

的计算如下：

/>

其中，f_k＝∑_iq_ik是伪聚类的频率，q_ik表示第i个词M_r,i到第k个预先计算的聚类中心

分配的概率，概率分布Q是q_ik的集合，/>

是/>

的组成元素，并且/>

基于构建的先验和识别网络，GMM模块的损失被定义为：

提出一种筛选策略，用于计算单词和组件表示之间的成对分数，通过使用公式(12)来筛选重复项，从而获得适当的关键词数量N：

其中，

是第k个高斯质心；

子步骤2-4：Transformer解码器构建

在解码阶段，使用Transformer解码器生成目标关键词；Transformer解码器采用具有L_d层的堆栈结构，每层包括一个自注意力SA子层，一个交叉注意力CA子层和一个基于位置的前馈神经网络FF子层；在关键词生成的每个时间t，第l个解码器层更新隐藏状态如下：

其中，

是第l层的第t个生成词的隐藏状态，/>

是/>

到/>

的隐藏状态矩阵，/>

是[y₁,…,y_t-1]的单词嵌入，/>

是自注意力权重，/>

表示输入序列上的复制注意力权重，/>

表示第t个预测关键字y_t的隐藏状态，/>

是上下文向量；通过将L_d层解码器在时间t的输出隐藏状态/>

和潜在变量z_gen组合起来，利用两层前馈神经网络计算出对预定义词汇表的生成概率分布P_gen：

其中，W_gen和b_gen是可训练的参数，y_<t表示前t个预测关键字；

g_t是在编码器从预定义词汇表V生成和从源文本X中复制关键字之间的软开关，其输入是关键词嵌入

和t时刻第L_d层解码器的输出隐藏状态/>

的连接：

其中，W_g和b_g是可学习的参数；

使用以下公式(16)预测第t个目标关键字的最终概率分布P(y_t∣y_<t；X)：

其中，P_gen(y_t∣y_<t；X)是关键字y_t在词汇表上的标准softmax概率，β是输入序列上的复制注意力权重；P(y_t∣y_<t；X)是生成概率和复制概率的线性插值；如果在预测N个关键词后解码过程终止，并且内部关键词生成过程在输出“</s>”标记后结束，则整个解码过程停止。

进一步的，所述步骤3包括如下过程：

采用标准的负对数似然损失来训练变分推断模型：

其中，θ代表模型中的所有参数，l_yi表示第i个关键词yⁱ中的单词个数；此外，建立了vMF分布与GMM之间的密切关系，以防止两个分布的振荡：

结合vMF损失、聚类损失、GMM损失和KL散度，用于优化的整体训练损失为：

其中，λ_vMF、λ_GMM、λ_c和λ_KL是需要调整的超参数，用于平衡每个损失函数对整体目标的重要性。

进一步的，所述步骤4包括如下过程：

经过步骤3的模型训练获得了表现最好的模型；对测试集进行预测，首先将测试集中的文本进行步骤1的数据预处理，将处理后的数据作为模型的输入，得到最后的关键词输出

代表第i个关键词，/>

是关键词的数量；

使用F1@5和F1@M检测生成的关键词的质量，F1值的计算如下：

其中Y代表真实的关键词，

指的是生成的k个关键词，F1@5指的是对比前五个生成的关键词，若不足5个，则随机添加错误的关键词直到数量达到5；F1@M指的是对比所有生成的关键词。

本发明还提供了一种基于变分推断理论的关键词生成系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现上述的一种基于变分推断理论的关键词生成方法。

与现有技术相比，本发明具有如下优点和有益效果：

1.本发明首次将变分编码器-解码器应用到关键词生成任务，模型采用概率建模、神经变分推理和自监督学习等方法进行训练，在保证生成更多样化的关键短语的同时提高所生成关键词的质量。

2.本发明为变分编码器-解码器框架配备了复制和生成空间，使用vMF分布的压缩变量以增强生成模式的预测能力，同时使用自监督高斯混合模型的潜在变量以增强复制模式的预测能力，有效地提高了模型生成的关键词的准确率。

3.本发明解决了传统关键词生成模型无法确定关键词个数的弊端，所提出的变分模型考虑了高斯混合网络的一种自然属性，并使用筛选出的组件来确定关键短语的数量。

4.本发明提出的方法可以在不更改模型结构的情况下应用到其它基于Seq2seq框架的自然语言生成的任务中，适用性广。

附图说明

图1为本发明实施例的方法流程图。

图2为本发明实施例的整体模型图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本发明提供了一种基于变分推断理论的关键词生成方法，首先对数据集进行预处理与划分；然后，采用seq2seq模型作为骨干网络，使用压缩在潜在的超球面空间的vMF分布来提取生成变量，从而增强生成概率的预测能力。另外，在模型中加入高斯混合模块，利用GMM分布提取复制模式的特征，并利用GMM的内部参数预测关键词数量。最后，Transformer解码器利用编码器输出、vMF以及混合高斯潜在变量进行目标关键词的预测。模型采用概率建模、神经变分推理和自监督学习等方法进行训练。

具体地说，本发明具体模型参见图2，详细实施步骤如图1所示包括：

步骤1：数据预处理。给定一个样本，对样本进行预处理，首先使用正则表达式去除源文本中的一些非法字符，将所有数字更改为<digit>标识符，记为

即源文本序列。将关键词使用连接符；连接起来，存在关键词按照在文本中首次出现的顺序排序，缺失关键词排在存在关键词之后，这样就构成了关键词序列，记为/>

其中l_x和/>

分别为文本和关键词序列的个数。/>

构成了一个最终的训练样本。

步骤2：模型构建。模型构建分为四个部分，第一部分是构建RoBERTa编码器对源文本进行编码，第二部分是构建超球面(von Mises-Fisher，vMF)分布模块来增强生成模式的预测能力，第三部分是构建自监督聚类模块来增强复制模式的预测能力，最后一部分是构建Transformer解码器生成目标关键词。

其实施可以分为以下子步骤：

子步骤2-1：RoBERTa编码器构建。为了有效地使用预训练语言模型本身所具备的丰富语义信息，利用RoBERTa将源文本的每个单词转换为维度为1024的词向量。具体来说，给定源文本X，本发明在X的开头和结尾分别添加特殊的标记<s>和</s>。然后，将填充后的源文本

输入到RoBERTa编码器中。RoBERTa编码器由L_e个相同的层堆叠而成，每个层包含两个子层。第一个是多头自注意力(SA)子层，第二个是全连接的前馈神经网络子层(FF)：

其中，l∈{0,…,L_e}，

是填充后的源文本的单词嵌入，/>

是编码器的最终输出。特殊的<s>标记的最终隐藏向量被表示为s，通常用作聚合序列表示。源文本X的单词隐藏向量集合被表示为一个记忆库：/>

用于解码器的注意力检索。

子步骤2-2：vMF模块构建。

vMF分布可以看作是高斯分布的一种变体，它存在于一个超球面空间中，平均方向矢量为

中心参数为为/>

vMF的参数ξ和κ可以通过以下方式获得，

其中，s是特殊的<s>标记的最终隐藏向量，

和/>

是前馈线性神经网络，||·||代表2-范数以确保规范化。softplus激活函数确保κ可始终为正数。

根据已经构建的vMF分布，采用acceptance-rejection scheme采样潜在的vMF变量。本发明假设先验样本

服从单位超球面上的均匀分布vMF(·,κ_prior＝0)，而近似后验/>

则服从同一球面上vMF正态分布vMF(ξ_pos,κ_pos)，其中，ξ_pos和κ_pos分别对应vMF分布的平均方向矢量和中心参数。vMF模块的KL(Kullback Leibler)散度损失定义如下：

其中，z_gen是从vMF分布中提取的潜在变量。q_φ(z_gen∣s)是后验分布，由vMF正态分布vMF(ξ_pos,k_pos)实现。p_θ(z_gen)是后验分布，由服从单位超球面上的均匀分布vMF(·,κ_prior＝0)实现。

子步骤2-3：聚类模块构建。本发明选择高斯混合模型(Gaussian Mixture Model，GMM)来获取潜在的复制变量。本发明假设混合高斯先验变量

服从

其中，/>

和/>

是混合高斯先验模型的权重、均值和方差，近似后验变量/>

服从/>

π_k、μ_k和/>

是混合高斯后验模型的权重、均值和方差。M_r是由双向长短期记忆网络(Bi-LSTM)从记忆库M派生而来。本发明将详细介绍下面的过程。

为了获取潜在变量

和更新的记忆库M_r＝[h_r,1,…,h_r,lx]。然后，将M_r送到GMM中，可以得到权重π、均值μ和方差σ²。

其中，f^GMM(·)是一个前馈神经网络，

是GMM第k个组件的混合系数，W_k和b_k是GMM可训练的参数。/>

通过softmax函数计算。K个均值/>

可视为中心点，K个中心点构成矩阵/>

由于GMM中的权重/>

不可微分，因此采用Gumbel-Softmax重新参数化，以使反向传播通过离散样本。

其中，π_k是GMM经过Gumbel-Softmax重新参数化后的混合系数，g_k是GMM第k个组件的Gumbel噪音，τ是温度，设置为0.1，g_i是Gumbel噪声，计算方式为：

g_i＝-log(-log(u_i)),u_i～U(0,1) (6)

其中，1≤i≤K，U(0,1)是(0，1)上的均匀分布。

由此，可以计算潜在隐变量

其中，z_copy是从混合高斯模型中抽取的潜在变量。

随后，从先验分布p_θ(z_copy∣M_r)中获取一个更好的潜在变量

后验网络与先验网络之间的区别在于，本发明采用自监督聚类损失来优化先验网络的参数。

注意，在GMM训练过程中，并没有提供可靠的训练标签，并且聚类模块只是整体框架的一部分。为了进一步促进聚类收敛，基于学生t分布提出一种自我监督的聚类策略去迭代生成更精确的目标关键词。所提出的聚类策略首先构造高质量的伪标签，然后使用生成的伪标签作为监督信号来训练神经网络。如公式(8)和(9)所示，采用学生t分布作为核来衡量更新的记忆库M_r与聚类中心

之间的相似性，生成过程包括公式(8)和(9)所对应的两个步骤，公式(8)用于计算更新前的聚类中单个词到其聚类中心的概率，公式(9)用于计算更新深度映射并优化聚类中心后的聚类中单个词到其聚类中心的概率，具体计算如下：

其中，

是GMM第k个组件的均值，本发明将其看作为GMM第k个组件的聚类中心，k′∈[1,K]表示第k′个聚类中心，v是学生t分布的自由度，q_ik表示第i个词M_r,i到第k个预先计算的聚类中心/>

分配的概率。概率分布Q是q_ik的集合，其中i∈[1,l_x],k∈[1,K]。由于无法在验证集上交叉验证参数v，将v设置为1。

来更新深度映射并优化聚类中心。目标分布/>

的计算如下：

/>

分配的概率，概率分布Q是q_ik的集合，/>

是/>

的组成元素，并且/>

由于目标分布/>

是由Q推导的，因此聚类收敛过程可被看作是一种自我训练过程。此外，以聚类为导向的学习准则可以使K个组件朝向更可分的潜在先验空间排列。通过这种改善的先验网络，可以获得/>

变量。基于构建的先验和识别网络，GMM模块的损失被定义为：

重新参数化用于从识别网络(训练)预测或先验网络(测试)预测的高斯混合模型中获取样本。潜在变量可以为复制概率分布的预测设定基调，然后引导特定的目标关键词生成。在聚类之后，得到K个高斯质心

对应于K个组件表示。但是存在两个问题。第一个问题是源文本中的语义信息本质上涉及不同的聚类，这意味着为不同的源文本设置相同数量的聚类是不合适的。另一个问题是聚类本身可能重复。因此，本发明提出了一种筛选策略，用于计算单词和组件表示之间的成对分数。这种策略可以通过使用公式(12)来筛选重复项，从而获得适当的关键词数量N。

其中，

是第k个高斯质心。Softmax函数作为非线性分类器，用于获取预测得分，进而表示聚类索引。不同聚类的数量可视为关键词数量N。

子步骤2-4：Transformer解码器。在解码阶段，使用Transformer解码器生成目标关键词。在训练过程中，

和/>

从后验分布中采样。在测试过程中，/>

和/>

从先验分布中采样。解码过程中采用了复制、注意力和教师机制。Transformer解码器采用具有L_d层的堆栈结构，每层包括一个自注意力(SA)子层，一个交叉注意力(CA)子层和一个基于位置的前馈神经网络(FF)子层。在关键词生成的每个时间t，第l个解码器层(l∈[1,…,L_d])更新隐藏状态如下：

其中，

是第l层的第t个生成词的隐藏状态，d是解码器decoder的首字母，

是/>

到/>

的隐藏状态矩阵，/>

是[y₁,…,y_t-1]的单词嵌入，/>

是自注意力权重，/>

表示输入序列上的复制注意力权重，/>

表示第t个预测关键字y_t的隐藏状态，/>

是上下文向量。通过将L_d层解码器在时间t的输出隐藏状态/>

和潜在变量z_gen组合起来，利用两层前馈神经网络计算出对预定义词汇表的生成概率分布P_gen。

其中，W_gen和b_gen是可训练的参数，y_＜t表示前t个预测关键字。

和t时刻第L_d层解码器的输出隐藏状态/>

的连接。

其中，W_g和b_g是可学习的参数。

本发明使用以下公式(16)预测第t个目标关键字的最终概率分布P(y_t∣y_＜t；X)。

其中，P_gen(y_t∣y_＜t；X)是关键字y_t在词汇表上的标准softmax概率(如果y_t是OOV单词，则P_gen(y_t∣y_＜t；X)＝0)，β是输入序列上的复制注意力权重。P(y_t∣y_＜t；X)是生成概率和复制概率的线性插值。如果在预测N个关键词后解码过程终止，并且内部关键词生成过程在输出“</s>”标记后结束，则整个解码过程停止。

步骤3：模型训练。本发明采用标准的负对数似然损失来训练变分推断模型。

其中，θ代表模型中的所有参数，l_yi表示第i个关键词yⁱ中的单词个数。此外，本发明建立了vMF分布与GMM之间的密切关系，以防止两个分布的振荡：

其中，λ_vMF、λ_GMM、λ_c和λ_KL是需要调整的超参数，用于平衡每个损失函数对整体目标的重要性。KL项的系数λ_vMF和λ_GMM逐渐增加，采用了sigmoid退火调度策略。

综上，有监督的NLL损失可以帮助模型学习关键词特定的知识。但是，NLL损失仅提供标记级别的监督，并且主要依赖于最终的概率预测分布。除了NLL损失外，还添加了vMF和GMM损失以修改编码器和解码器的分布，并且KL散度可以防止两个分布之间的振荡。此外，设计了一个聚类导向的损失，使得潜在表示空间更加可分，从而使解码器能够识别出有区分性的信息。通过这种方式，在统一的框架下训练网络，提高每个模块的能力。

步骤4：模型测试与评估。经过步骤3的模型训练获得了表现最好的模型。对测试集进行预测。首先将测试集中的文本进行步骤1的数据预处理，将处理后的数据作为模型的输入，得到最后的关键词输出

代表第i个关键词，/>

是关键词的数量。

使用F1@5和F1@M检测生成的关键词的质量，F1值的计算如下：

/>

其中Y代表真实的关键词，

基于相同的发明构思，本发明提供了一种基于变分推断理论的关键词生成系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的一种基于变分推断理论的关键词生成方法。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。