CN116205227A - 一种基于变分推断理论的关键词生成方法及系统 - Google Patents
一种基于变分推断理论的关键词生成方法及系统 Download PDFInfo
- Publication number
- CN116205227A CN116205227A CN202310259247.4A CN202310259247A CN116205227A CN 116205227 A CN116205227 A CN 116205227A CN 202310259247 A CN202310259247 A CN 202310259247A CN 116205227 A CN116205227 A CN 116205227A
- Authority
- CN
- China
- Prior art keywords
- keywords
- keyword
- vmf
- distribution
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000012549 training Methods 0.000 claims abstract description 21
- 239000000203 mixture Substances 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 238000011156 evaluation Methods 0.000 claims abstract description 6
- 238000009826 distribution Methods 0.000 claims description 69
- 230000008569 process Effects 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 19
- 238000010276 construction Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 10
- 230000010076 replication Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000010355 oscillation Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 238000009827 uniform distribution Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 239000000470 constituent Substances 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于变分推断理论的关键词生成方法及系统,方法包括以下步骤:步骤1:数据预处理;步骤2:模型构建;步骤3:模型训练;步骤4:模型测试与评估。本发明针对现存的关键词生成方法依赖基本的序列到序列的框架来生成目标关键词,忽视了复制和生成空间表征学习能力不足的问题,通过对变分推断理论的分析,将变分推断引入关键词生成任务并建立基于双隐空间的关键词生成模型,以期达到生成高质量的关键词并利用混合高斯模块的特性根据文本内容自适应预关键词个数的目的。
Description
技术领域
本发明涉及一种基于变分推断理论的关键词生成方法及系统,属于互联网和人工智能技术领域。
背景技术
随着近几年科学技术的飞速发展以及信息技术的普遍应用,人们获得数据的能力不断增强。据有关统计,在全世界的业务管理、科学与工程管理、政府管理和其它应用领域存在着大量的数据,并且其数量和规模在不断增加和扩大。同时,日益增长的、种类繁多的网页数据在人们的生产生活中发挥着重要作用,而且网络中的文本信息在爆发式增长,导致人们每天可以接触到海量的文本信息,例如新闻、微博、聊天、报告、论文等。海量的数据规模,人们很容易淹没在数据的海洋中,无法有效地获取信息。因此,如何利用这些海量数据并从数据中快速获得有价值的信息,显得尤为重要。自动生成关键词技术为此提供了一种高效的解决方案,成为帮助人们减轻和缓解上述数据过载问题的重要手段之一。一个关键词自动生成系统以一篇或多篇文档作为输入,通过计算机自动创建一组简短、精炼、包含主要信息的关键词。关键词是一篇文档的重要组成部分,发挥着总结及传播信息的重要作用,因此研究关键词生成具有重要的理论和实践意义。
关键词生成的目标是提供一组关键词以概括文本的主要内容。通过关键词,用户可以快速理解文本的主题,获得文本的核心信息,从而节约阅读时间,提高信息查找效率。关键词生成方法可分为抽取式和生成式两类。抽取式方法直接将源文本中一部分单词或短语作为给定文档的关键词,这也意味着抽取式方法提取到的关键词都在源文本中出现过,这些关键词被称为存在关键词。生成式方法从一个预先设置的词表中生成关键词,因此不仅可以提取到存在关键词,也可以得到源文本中未出现的关键词,这部分单词统称为缺失关键词。抽取式生成方法直接从源文本中获取关键词短语,已经被广泛使用在文本分析、文本摘要等任务中。给定源文本,读者首先阅读文本以理解上下文的基本含义,然后根据文本的基本语义生成关键词短语。生成式方法类似于上述过程,它基于文本语义生成关键词,可以捕捉到文本背后的真正语义,更加符合人们分配关键词的行为方式。目前关键词生成模型主要采用基于循环神经网络(Recurrent Neural Network,RNN)或Transformer的序列到序列(Sequence-to-Sequence,Seq2Seq)框架。序列到序列框架包含编码器(Encoder)和解码器(Decoder)两部分,其中编码器将变长的源文本映射成一个固定长度的向量,解码器依据编码器生成的向量生成目标关键词。
目前基于深度神经网络的编码器-解码器模型在处理关键词自动生成任务中表现较好,其优化目标为复制模式(Copy-Mode)和生成模式(Generative-Mode)共同组成的负对数似然损失,缺少复制和生成策略空间表征学习能力,从而忽视了关键词的不同属性特征,这会降低解码器的生成能力。另外,当前基于one2one范式的关键词模型需要依赖波束搜索(BeamSearch)来增加关键词的多样性,不能决定关键词的个数;而基于one2seq范式的关键词模型只能隐式地决定关键词的个数。已有的范式均存在关键词生成策略表征能力有限及不能显式预测关键词个数的问题,因此本发明希望能够提出一种新的深度学习方法来解决这些问题。
发明内容
为了解决现有技术中存在的问题与不足,本发明提出一种基于变分推断理论的关键词生成方法及系统,针对现存的关键词生成方法依赖基本的序列到序列的框架来生成目标关键词,忽视了复制和生成空间表征学习能力不足的问题,在模型训练的过程中通过对变分推断理论的分析,将变分引入关键词生成技术并建立依托vMF(von Mises-Fisher,vMF)分布和高斯混合模型(Gaussian Mixture Model,GMM)的关键词生成模型,以期达到生成高质量的关键词并利用混合高斯模块的特性根据文本内容自适应预关键词个数的目的。
为了达到上述目的,本发明提供如下技术方案:
一种基于变分推断理论的关键词生成方法,包括如下步骤:
步骤1:数据预处理
对样本进行预处理,去除非法字符,更改数字为标识符,得到源文本序列;连接关键词并排列后,得到目标关键词序列;
步骤2:模型构建
首先构建由自注意力子层和前馈神经网络子层组成RoBERTa编码器模块,每个源文本通过预训练的RoBERTa编码器转换为隐藏表示;其次构建vMF分布模块,以提高生成模式的预测能力;再构建自监督聚类模块,以增强复制模式的预测能力;最后,构建Transformer解码器,基于vMF模块捕获的超球面变量和GMM模块产生的混合高斯变量来生成目标关键短语,同时利用高斯混合网络的自然特性来确定关键词的数量;
步骤3:模型训练
采用NLL损失帮助模型学习关键词特定的知识;添加vMF和聚类损失以修改编码器和解码器的分布,利用KL散度防止两个分布之间的振荡;设计了一个聚类导向的损失使得潜在表示空间更加可分,从而使解码器能够识别出有区分性的信息;通过优化以上损失函数,提高模型生成关键词的能力;
步骤4:模型测试与评估
选择训练过程中在验证集上表现最好的模型作为实际使用中的预测模型进行关键词预测任务;首先对需要生成关键词的文本进行预处理,将其作为模型的输入,进而生成关键词;使用F1@5和F1@M值作为评价指标检测生成的关键词的质量。
进一步的,所述步骤1包括如下过程:
给定一个样本,对样本进行预处理,首先使用正则表达式去除样本中的一些非法字符,将所有数字更改为<digit>标识符,记为源文本序列将关键词使用连接符;连接起来,存在关键词按照在文本中首次出现的顺序排序,缺失关键词排在存在关键词之后,构成关键词序列,记为/>其中lx和/>分别为文本和关键词序列的个数;/>构成了一个最终的训练样本。
进一步的,所述步骤2包括如下子步骤:
子步骤2-1:RoBERTa编码器构建
给定源文本X,在X的开头和结尾分别添加特殊的标记<s>和</s>;然后,将填充后的源文本输入到RoBERTa编码器中;RoBERTa编码器由Le个相同的层堆叠而成,每个层包含两个子层;第一个是多头自注意力SA子层,第二个是全连接的前馈神经网络子层FF:
子步骤2-2:vMF模块构建
根据已经构建的vMF分布,采用acceptance-rejection scheme采样潜在的vMF变量;假设先验样本服从单位超球面上的均匀分布vMF(·,kprior=0),而近似后验/>则服从同一球面上vMF正态分布vMF(ξpos,kpos),其中,ξpos和κpos分别对应vMF分布的平均方向矢量和中心参数;vMF模块的KL散度损失定义如下损失定义如下:
其中,zgen是从vMF分布中提取的潜在变量,qφ(zgen∣s)是后验分布,pθ(zgen)是后验分布;
子步骤2-3:聚类模块构建
选择高斯混合模型GMM来获取潜在的复制变量;假设混合高斯先验变量 服从/> 和/>是混合高斯先验模型的权重、均值和方差,近似后验变量/>服从/>πk、μk和/>是混合高斯后验模型的权重、均值和方差;Mr是由双向长短期记忆网络Bi-LSTM从记忆库M派生而来;
为了获取潜在变量首先将原始的记忆库M送到Bi-LSTM中,并将前向和后向编码器的最后隐藏状态连接起来,以获取源文本/>和更新的记忆库Mr=[hr,1,…,hr,lx];然后,将Mr送到GMM中,可以得到权重π、均值μ和方差σ2:
其中,fGMM(·)是一个前馈神经网络,是GMM第k个组件的混合系数,Wk和bk是GMM可训练的参数,/>通过softmax函数计算,K个均值/>可视为中心点,K个中心点构成矩阵u=[μ1,…,μK],由于GMM中的权重/>不可微分,因此采用Gumbel-Softmax重新参数化,以使反向传播通过离散样本:
其中,πk是GMM经过Gumbel-Softmax重新参数化后的混合系数,gk是GMM第k个组件的Gumbel噪音,τ是温度,gi是Gumbel噪声,计算方式为:
gi=-log(-log(ui)),ui~U(0,1) (6)
其中,1≤i≤K,U(0,1)是(0,1)上的均匀分布;
其中,zcopy是从混合高斯模型中抽取的潜在变量;
其中,是GMM第k个组件的均值,作为GMM第k个组件的聚类中心,k′∈[1,K]表示第k′个聚类中心,v是学生t分布的自由度,qik表示第i个词Mr,i到第k个预先计算的聚类中心μk分配的概率;概率分布Q是/>的集合,其中i∈[1,lx],k∈[1,K],v为参数;
基于构建的先验和识别网络,GMM模块的损失被定义为:
提出一种筛选策略,用于计算单词和组件表示之间的成对分数,通过使用公式(12)来筛选重复项,从而获得适当的关键词数量N:
子步骤2-4:Transformer解码器构建
在解码阶段,使用Transformer解码器生成目标关键词;Transformer解码器采用具有Ld层的堆栈结构,每层包括一个自注意力SA子层,一个交叉注意力CA子层和一个基于位置的前馈神经网络FF子层;在关键词生成的每个时间t,第l个解码器层更新隐藏状态如下:
其中,是第l层的第t个生成词的隐藏状态,/>是/>到/>的隐藏状态矩阵,/>是[y1,…,yt-1]的单词嵌入,/>是自注意力权重,/>表示输入序列上的复制注意力权重,/>表示第t个预测关键字yt的隐藏状态,/>是上下文向量;通过将Ld层解码器在时间t的输出隐藏状态/>和潜在变量zgen组合起来,利用两层前馈神经网络计算出对预定义词汇表的生成概率分布Pgen:
其中,Wgen和bgen是可训练的参数,y<t表示前t个预测关键字;
其中,Wg和bg是可学习的参数;
使用以下公式(16)预测第t个目标关键字的最终概率分布P(yt∣y<t;X):
其中,Pgen(yt∣y<t;X)是关键字yt在词汇表上的标准softmax概率,β是输入序列上的复制注意力权重;P(yt∣y<t;X)是生成概率和复制概率的线性插值;如果在预测N个关键词后解码过程终止,并且内部关键词生成过程在输出“</s>”标记后结束,则整个解码过程停止。
进一步的,所述步骤3包括如下过程:
采用标准的负对数似然损失来训练变分推断模型:
其中,θ代表模型中的所有参数,lyi表示第i个关键词yi中的单词个数;此外,建立了vMF分布与GMM之间的密切关系,以防止两个分布的振荡:
结合vMF损失、聚类损失、GMM损失和KL散度,用于优化的整体训练损失为:
其中,λvMF、λGMM、λc和λKL是需要调整的超参数,用于平衡每个损失函数对整体目标的重要性。
进一步的,所述步骤4包括如下过程:
使用F1@5和F1@M检测生成的关键词的质量,F1值的计算如下:
本发明还提供了一种基于变分推断理论的关键词生成系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现上述的一种基于变分推断理论的关键词生成方法。
与现有技术相比,本发明具有如下优点和有益效果:
1.本发明首次将变分编码器-解码器应用到关键词生成任务,模型采用概率建模、神经变分推理和自监督学习等方法进行训练,在保证生成更多样化的关键短语的同时提高所生成关键词的质量。
2.本发明为变分编码器-解码器框架配备了复制和生成空间,使用vMF分布的压缩变量以增强生成模式的预测能力,同时使用自监督高斯混合模型的潜在变量以增强复制模式的预测能力,有效地提高了模型生成的关键词的准确率。
3.本发明解决了传统关键词生成模型无法确定关键词个数的弊端,所提出的变分模型考虑了高斯混合网络的一种自然属性,并使用筛选出的组件来确定关键短语的数量。
4.本发明提出的方法可以在不更改模型结构的情况下应用到其它基于Seq2seq框架的自然语言生成的任务中,适用性广。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明实施例的整体模型图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明提供了一种基于变分推断理论的关键词生成方法,首先对数据集进行预处理与划分;然后,采用seq2seq模型作为骨干网络,使用压缩在潜在的超球面空间的vMF分布来提取生成变量,从而增强生成概率的预测能力。另外,在模型中加入高斯混合模块,利用GMM分布提取复制模式的特征,并利用GMM的内部参数预测关键词数量。最后,Transformer解码器利用编码器输出、vMF以及混合高斯潜在变量进行目标关键词的预测。模型采用概率建模、神经变分推理和自监督学习等方法进行训练。
具体地说,本发明具体模型参见图2,详细实施步骤如图1所示包括:
步骤1:数据预处理。给定一个样本,对样本进行预处理,首先使用正则表达式去除源文本中的一些非法字符,将所有数字更改为<digit>标识符,记为即源文本序列。将关键词使用连接符;连接起来,存在关键词按照在文本中首次出现的顺序排序,缺失关键词排在存在关键词之后,这样就构成了关键词序列,记为/>其中lx和/>分别为文本和关键词序列的个数。/>构成了一个最终的训练样本。
步骤2:模型构建。模型构建分为四个部分,第一部分是构建RoBERTa编码器对源文本进行编码,第二部分是构建超球面(von Mises-Fisher,vMF)分布模块来增强生成模式的预测能力,第三部分是构建自监督聚类模块来增强复制模式的预测能力,最后一部分是构建Transformer解码器生成目标关键词。
其实施可以分为以下子步骤:
子步骤2-1:RoBERTa编码器构建。为了有效地使用预训练语言模型本身所具备的丰富语义信息,利用RoBERTa将源文本的每个单词转换为维度为1024的词向量。具体来说,给定源文本X,本发明在X的开头和结尾分别添加特殊的标记<s>和</s>。然后,将填充后的源文本输入到RoBERTa编码器中。RoBERTa编码器由Le个相同的层堆叠而成,每个层包含两个子层。第一个是多头自注意力(SA)子层,第二个是全连接的前馈神经网络子层(FF):
其中,l∈{0,…,Le},是填充后的源文本的单词嵌入,/>是编码器的最终输出。特殊的<s>标记的最终隐藏向量被表示为s,通常用作聚合序列表示。源文本X的单词隐藏向量集合被表示为一个记忆库:/>用于解码器的注意力检索。
子步骤2-2:vMF模块构建。
根据已经构建的vMF分布,采用acceptance-rejection scheme采样潜在的vMF变量。本发明假设先验样本服从单位超球面上的均匀分布vMF(·,κprior=0),而近似后验/>则服从同一球面上vMF正态分布vMF(ξpos,κpos),其中,ξpos和κpos分别对应vMF分布的平均方向矢量和中心参数。vMF模块的KL(Kullback Leibler)散度损失定义如下:
其中,zgen是从vMF分布中提取的潜在变量。qφ(zgen∣s)是后验分布,由vMF正态分布vMF(ξpos,kpos)实现。pθ(zgen)是后验分布,由服从单位超球面上的均匀分布vMF(·,κprior=0)实现。
子步骤2-3:聚类模块构建。本发明选择高斯混合模型(Gaussian Mixture Model,GMM)来获取潜在的复制变量。本发明假设混合高斯先验变量服从其中,/>和/>是混合高斯先验模型的权重、均值和方差,近似后验变量/>服从/>πk、μk和/>是混合高斯后验模型的权重、均值和方差。Mr是由双向长短期记忆网络(Bi-LSTM)从记忆库M派生而来。本发明将详细介绍下面的过程。
为了获取潜在变量首先将原始的记忆库M送到Bi-LSTM中,并将前向和后向编码器的最后隐藏状态连接起来,以获取源文本/>和更新的记忆库Mr=[hr,1,…,hr,lx]。然后,将Mr送到GMM中,可以得到权重π、均值μ和方差σ2。
其中,fGMM(·)是一个前馈神经网络,是GMM第k个组件的混合系数,Wk和bk是GMM可训练的参数。/>通过softmax函数计算。K个均值/>可视为中心点,K个中心点构成矩阵/>由于GMM中的权重/>不可微分,因此采用Gumbel-Softmax重新参数化,以使反向传播通过离散样本。
其中,πk是GMM经过Gumbel-Softmax重新参数化后的混合系数,gk是GMM第k个组件的Gumbel噪音,τ是温度,设置为0.1,gi是Gumbel噪声,计算方式为:
gi=-log(-log(ui)),ui~U(0,1) (6)
其中,1≤i≤K,U(0,1)是(0,1)上的均匀分布。
其中,zcopy是从混合高斯模型中抽取的潜在变量。
注意,在GMM训练过程中,并没有提供可靠的训练标签,并且聚类模块只是整体框架的一部分。为了进一步促进聚类收敛,基于学生t分布提出一种自我监督的聚类策略去迭代生成更精确的目标关键词。所提出的聚类策略首先构造高质量的伪标签,然后使用生成的伪标签作为监督信号来训练神经网络。如公式(8)和(9)所示,采用学生t分布作为核来衡量更新的记忆库Mr与聚类中心之间的相似性,生成过程包括公式(8)和(9)所对应的两个步骤,公式(8)用于计算更新前的聚类中单个词到其聚类中心的概率,公式(9)用于计算更新深度映射并优化聚类中心后的聚类中单个词到其聚类中心的概率,具体计算如下:
其中,是GMM第k个组件的均值,本发明将其看作为GMM第k个组件的聚类中心,k′∈[1,K]表示第k′个聚类中心,v是学生t分布的自由度,qik表示第i个词Mr,i到第k个预先计算的聚类中心/>分配的概率。概率分布Q是qik的集合,其中i∈[1,lx],k∈[1,K]。由于无法在验证集上交叉验证参数v,将v设置为1。
其中,fk=∑iqik是伪聚类的频率,qik表示第i个词Mr,i到第k个预先计算的聚类中心分配的概率,概率分布Q是qik的集合,/>是/>的组成元素,并且/>由于目标分布/>是由Q推导的,因此聚类收敛过程可被看作是一种自我训练过程。此外,以聚类为导向的学习准则可以使K个组件朝向更可分的潜在先验空间排列。通过这种改善的先验网络,可以获得/>变量。基于构建的先验和识别网络,GMM模块的损失被定义为:
重新参数化用于从识别网络(训练)预测或先验网络(测试)预测的高斯混合模型中获取样本。潜在变量可以为复制概率分布的预测设定基调,然后引导特定的目标关键词生成。在聚类之后,得到K个高斯质心对应于K个组件表示。但是存在两个问题。第一个问题是源文本中的语义信息本质上涉及不同的聚类,这意味着为不同的源文本设置相同数量的聚类是不合适的。另一个问题是聚类本身可能重复。因此,本发明提出了一种筛选策略,用于计算单词和组件表示之间的成对分数。这种策略可以通过使用公式(12)来筛选重复项,从而获得适当的关键词数量N。
子步骤2-4:Transformer解码器。在解码阶段,使用Transformer解码器生成目标关键词。在训练过程中,和/>从后验分布中采样。在测试过程中,/>和/>从先验分布中采样。解码过程中采用了复制、注意力和教师机制。Transformer解码器采用具有Ld层的堆栈结构,每层包括一个自注意力(SA)子层,一个交叉注意力(CA)子层和一个基于位置的前馈神经网络(FF)子层。在关键词生成的每个时间t,第l个解码器层(l∈[1,…,Ld])更新隐藏状态如下:
其中,是第l层的第t个生成词的隐藏状态,d是解码器decoder的首字母,是/>到/>的隐藏状态矩阵,/>是[y1,…,yt-1]的单词嵌入,/>是自注意力权重,/>表示输入序列上的复制注意力权重,/>表示第t个预测关键字yt的隐藏状态,/>是上下文向量。通过将Ld层解码器在时间t的输出隐藏状态/>和潜在变量zgen组合起来,利用两层前馈神经网络计算出对预定义词汇表的生成概率分布Pgen。
其中,Wgen和bgen是可训练的参数,y<t表示前t个预测关键字。
其中,Wg和bg是可学习的参数。
本发明使用以下公式(16)预测第t个目标关键字的最终概率分布P(yt∣y<t;X)。
其中,Pgen(yt∣y<t;X)是关键字yt在词汇表上的标准softmax概率(如果yt是OOV单词,则Pgen(yt∣y<t;X)=0),β是输入序列上的复制注意力权重。P(yt∣y<t;X)是生成概率和复制概率的线性插值。如果在预测N个关键词后解码过程终止,并且内部关键词生成过程在输出“</s>”标记后结束,则整个解码过程停止。
步骤3:模型训练。本发明采用标准的负对数似然损失来训练变分推断模型。
其中,θ代表模型中的所有参数,lyi表示第i个关键词yi中的单词个数。此外,本发明建立了vMF分布与GMM之间的密切关系,以防止两个分布的振荡:
结合vMF损失、聚类损失、GMM损失和KL散度,用于优化的整体训练损失为:
其中,λvMF、λGMM、λc和λKL是需要调整的超参数,用于平衡每个损失函数对整体目标的重要性。KL项的系数λvMF和λGMM逐渐增加,采用了sigmoid退火调度策略。
综上,有监督的NLL损失可以帮助模型学习关键词特定的知识。但是,NLL损失仅提供标记级别的监督,并且主要依赖于最终的概率预测分布。除了NLL损失外,还添加了vMF和GMM损失以修改编码器和解码器的分布,并且KL散度可以防止两个分布之间的振荡。此外,设计了一个聚类导向的损失,使得潜在表示空间更加可分,从而使解码器能够识别出有区分性的信息。通过这种方式,在统一的框架下训练网络,提高每个模块的能力。
步骤4:模型测试与评估。经过步骤3的模型训练获得了表现最好的模型。对测试集进行预测。首先将测试集中的文本进行步骤1的数据预处理,将处理后的数据作为模型的输入,得到最后的关键词输出 代表第i个关键词,/>是关键词的数量。
使用F1@5和F1@M检测生成的关键词的质量,F1值的计算如下:
基于相同的发明构思,本发明提供了一种基于变分推断理论的关键词生成系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的一种基于变分推断理论的关键词生成方法。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (6)
1.一种基于变分推断理论的关键词生成方法,其特征在于,包括如下步骤:
步骤1:数据预处理
对样本进行预处理,去除非法字符,更改数字为标识符,得到源文本序列;连接关键词并排列后,得到目标关键词序列;
步骤2:模型构建
首先构建由自注意力子层和前馈神经网络子层组成RoBERTa编码器模块,每个源文本通过预训练的RoBERTa编码器转换为隐藏表示;其次构建vMF分布模块,以提高生成模式的预测能力;再构建自监督聚类模块,以增强复制模式的预测能力;最后,构建Transformer解码器,基于vMF模块捕获的超球面变量和GMM模块产生的混合高斯变量来生成目标关键短语,同时利用高斯混合网络的自然特性来确定关键词的数量;
步骤3:模型训练
采用NLL损失帮助模型学习关键词特定的知识;添加vMF和聚类损失以修改编码器和解码器的分布,利用KL散度防止两个分布之间的振荡;设计了一个聚类导向的损失使得潜在表示空间更加可分,从而使解码器能够识别出有区分性的信息;通过优化以上损失函数,提高模型生成关键词的能力;
步骤4:模型测试与评估
选择训练过程中在验证集上表现最好的模型作为实际使用中的预测模型进行关键词预测任务;首先对需要生成关键词的文本进行预处理,将其作为模型的输入,进而生成关键词;使用F1@5和F1@M值作为评价指标检测生成的关键词的质量。
3.根据权利要求1所述的基于变分推断理论的关键词生成方法,其特征在于,所述步骤2包括如下子步骤:
子步骤2-1:RoBERTa编码器构建
给定源文本X,在X的开头和结尾分别添加特殊的标记<s>和</s>;然后,将填充后的源文本输入到RoBERTa编码器中;RoBERTa编码器由Le个相同的层堆叠而成,每个层包含两个子层;第一个是多头自注意力SA子层,第二个是全连接的前馈神经网络子层FF:
子步骤2-2:vMF模块构建
根据已经构建的vMF分布,采用acceptance-rejection scheme采样潜在的vMF变量;假设先验样本服从单位超球面上的均匀分布vMF(·,κprior=0),而近似后验则服从同一球面上vMF正态分布vMF(ξpos,κpos),其中,ξpos和κpos分别对应vMF分布的平均方向矢量和中心参数;vMF模块的KL散度损失定义如下:
其中,zgen是从vMF分布中提取的潜在变量,qφ(zgen∣s)是后验分布,pθ(zgen)是后验分布;
子步骤2-3:聚类模块构建
选择高斯混合模型GMM来获取潜在的复制变量;假设混合高斯先验变量 服从/> 和/>是混合高斯先验模型的权重、均值和方差,近似后验变量/>服从/>πk、μk和/>是混合高斯后验模型的权重、均值和方差;Mr是由双向长短期记忆网络Bi-LSTM从记忆库M派生而来;
为了获取潜在变量首先将原始的记忆库M送到Bi-LSTM中,并将前向和后向编码器的最后隐藏状态连接起来,以获取源文本/>和更新的记忆库Mr=[hr,1,…,hr,lx];然后,将Mr送到GMM中,可以得到权重π、均值μ和方差σ2:
其中,fGMM(·)是一个前馈神经网络,是GMM第k个组件的混合系数,Wk和bk是GMM可训练的参数,/>通过softmax函数计算,K个均值/>可视为中心点,K个中心点构成矩阵由于GMM中的权重/>不可微分,因此采用Gumbel-Softmax重新参数化,以使反向传播通过离散样本:/>
其中,πk是GMM经过Gumbel-Softmax重新参数化后的混合系数,gk是GMM第k个组件的Gumbel噪音,τ是温度,gi是Gumbel噪声,计算方式为:
gi=-log(-log(ui)),ui~U(0,1) (6)
其中,1≤i≤K,U(0,1)是(0,1)上的均匀分布;
其中,zcopy是从混合高斯模型中抽取的潜在变量;
其中,是GMM第k个组件的均值,作为GMM第k个组件的聚类中心,k′∈[1,K]表示第k′个聚类中心,v是学生t分布的自由度,qik表示第i个词Mr,i到第k个预先计算的聚类中心μk分配的概率;概率分布Q是/>的集合,其中i∈[1,lx],k∈[1,K],v为参数;
基于构建的先验和识别网络,GMM模块的损失被定义为:
提出一种筛选策略,用于计算单词和组件表示之间的成对分数,通过使用公式(12)来筛选重复项,从而获得适当的关键词数量N:
子步骤2-4:Transformer解码器构建
在解码阶段,使用Transformer解码器生成目标关键词;Transformer解码器采用具有Ld层的堆栈结构,每层包括一个自注意力SA子层,一个交叉注意力CA子层和一个基于位置的前馈神经网络FF子层;在关键词生成的每个时间t,第l个解码器层更新隐藏状态如下:
其中,是第l层的第t个生成词的隐藏状态,/>是/>到/>的隐藏状态矩阵,是[y1,…,yt-1]的单词嵌入,/>是自注意力权重,/>表示输入序列上的复制注意力权重,/>表示第t个预测关键字yt的隐藏状态,/>是上下文向量;通过将Ld层解码器在时间t的输出隐藏状态/>和潜在变量zgen组合起来,利用两层前馈神经网络计算出对预定义词汇表的生成概率分布Pgen:
其中,Wgen和bgen是可训练的参数,y<t表示前t个预测关键字;
其中,Wg和bg是可学习的参数;
使用以下公式(16)预测第t个目标关键字的最终概率分布P(yt∣y<t;X):
其中,Pgen(yt∣y<t;X)是关键字yt在词汇表上的标准softmax概率,β是输入序列上的复制注意力权重;P(yt∣y<t;X)是生成概率和复制概率的线性插值;如果在预测N个关键词后解码过程终止,并且内部关键词生成过程在输出“</s>”标记后结束,则整个解码过程停止。
6.一种基于变分推断理论的关键词生成系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现权利要求1-5中任意一项所述的一种基于变分推断理论的关键词生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310259247.4A CN116205227A (zh) | 2023-03-17 | 2023-03-17 | 一种基于变分推断理论的关键词生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310259247.4A CN116205227A (zh) | 2023-03-17 | 2023-03-17 | 一种基于变分推断理论的关键词生成方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116205227A true CN116205227A (zh) | 2023-06-02 |
Family
ID=86514693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310259247.4A Pending CN116205227A (zh) | 2023-03-17 | 2023-03-17 | 一种基于变分推断理论的关键词生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116205227A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152578A (zh) * | 2023-10-31 | 2023-12-01 | 合肥工业大学 | 基于变分推断的不完整多视图数据预测方法及系统 |
-
2023
- 2023-03-17 CN CN202310259247.4A patent/CN116205227A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152578A (zh) * | 2023-10-31 | 2023-12-01 | 合肥工业大学 | 基于变分推断的不完整多视图数据预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111414461B (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
Zhang et al. | Advanced data exploitation in speech analysis: An overview | |
CN110737769A (zh) | 一种基于神经主题记忆的预训练文本摘要生成方法 | |
CN111477247B (zh) | 基于gan的语音对抗样本生成方法 | |
CN112115687B (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
CN111651558A (zh) | 基于预训练语义模型的超球面协同度量推荐装置和方法 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN115794999A (zh) | 一种基于扩散模型的专利文档查询方法及计算机设备 | |
CN116205227A (zh) | 一种基于变分推断理论的关键词生成方法及系统 | |
CN114360502A (zh) | 语音识别模型的处理方法、语音识别方法及装置 | |
CN115983274A (zh) | 一种基于两阶段标签校正的噪声事件抽取方法 | |
CN117421595A (zh) | 一种基于深度学习技术的系统日志异常检测方法及系统 | |
CN111428518B (zh) | 一种低频词翻译方法及装置 | |
CN112712099B (zh) | 一种基于双层知识蒸馏说话人模型压缩系统和方法 | |
CN117093692A (zh) | 一种基于深度融合的多粒度图像-文本匹配方法及系统 | |
CN111444328A (zh) | 一种带有解释生成的自然语言自动预测推断方法 | |
CN114168782B (zh) | 一种基于三元组网络的深度哈希图像检索方法 | |
CN115455144A (zh) | 用于小样本意图识别的完型填空式的数据增强方法 | |
CN114880527A (zh) | 一种基于多预测任务的多模态知识图谱表示方法 | |
CN111274359B (zh) | 基于改进vhred与强化学习的查询推荐方法及系统 | |
CN114357166A (zh) | 一种基于深度学习的文本分类方法 | |
CN117874175B (zh) | 一种基于信息瓶颈的信息检索方法和系统 | |
WO2024093415A1 (zh) | 一种基于参数自进化策略的目标细粒度识别方法 | |
CN114996424B (zh) | 一种基于深度学习的弱监督跨域问答对生成方法 | |
CN113268962B (zh) | 面向建筑行业信息化服务问答系统的文本生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |