CN116205227A - 一种基于变分推断理论的关键词生成方法及系统 - Google Patents

一种基于变分推断理论的关键词生成方法及系统 Download PDF

Info

Publication number
CN116205227A
CN116205227A CN202310259247.4A CN202310259247A CN116205227A CN 116205227 A CN116205227 A CN 116205227A CN 202310259247 A CN202310259247 A CN 202310259247A CN 116205227 A CN116205227 A CN 116205227A
Authority
CN
China
Prior art keywords
keywords
keyword
vmf
distribution
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310259247.4A
Other languages
English (en)
Inventor
杨鹏
姚雨
赵广振
殷国顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202310259247.4A priority Critical patent/CN116205227A/zh
Publication of CN116205227A publication Critical patent/CN116205227A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于变分推断理论的关键词生成方法及系统,方法包括以下步骤:步骤1:数据预处理;步骤2:模型构建;步骤3:模型训练;步骤4:模型测试与评估。本发明针对现存的关键词生成方法依赖基本的序列到序列的框架来生成目标关键词,忽视了复制和生成空间表征学习能力不足的问题,通过对变分推断理论的分析,将变分推断引入关键词生成任务并建立基于双隐空间的关键词生成模型,以期达到生成高质量的关键词并利用混合高斯模块的特性根据文本内容自适应预关键词个数的目的。

Description

一种基于变分推断理论的关键词生成方法及系统
技术领域
本发明涉及一种基于变分推断理论的关键词生成方法及系统,属于互联网和人工智能技术领域。
背景技术
随着近几年科学技术的飞速发展以及信息技术的普遍应用,人们获得数据的能力不断增强。据有关统计,在全世界的业务管理、科学与工程管理、政府管理和其它应用领域存在着大量的数据,并且其数量和规模在不断增加和扩大。同时,日益增长的、种类繁多的网页数据在人们的生产生活中发挥着重要作用,而且网络中的文本信息在爆发式增长,导致人们每天可以接触到海量的文本信息,例如新闻、微博、聊天、报告、论文等。海量的数据规模,人们很容易淹没在数据的海洋中,无法有效地获取信息。因此,如何利用这些海量数据并从数据中快速获得有价值的信息,显得尤为重要。自动生成关键词技术为此提供了一种高效的解决方案,成为帮助人们减轻和缓解上述数据过载问题的重要手段之一。一个关键词自动生成系统以一篇或多篇文档作为输入,通过计算机自动创建一组简短、精炼、包含主要信息的关键词。关键词是一篇文档的重要组成部分,发挥着总结及传播信息的重要作用,因此研究关键词生成具有重要的理论和实践意义。
关键词生成的目标是提供一组关键词以概括文本的主要内容。通过关键词,用户可以快速理解文本的主题,获得文本的核心信息,从而节约阅读时间,提高信息查找效率。关键词生成方法可分为抽取式和生成式两类。抽取式方法直接将源文本中一部分单词或短语作为给定文档的关键词,这也意味着抽取式方法提取到的关键词都在源文本中出现过,这些关键词被称为存在关键词。生成式方法从一个预先设置的词表中生成关键词,因此不仅可以提取到存在关键词,也可以得到源文本中未出现的关键词,这部分单词统称为缺失关键词。抽取式生成方法直接从源文本中获取关键词短语,已经被广泛使用在文本分析、文本摘要等任务中。给定源文本,读者首先阅读文本以理解上下文的基本含义,然后根据文本的基本语义生成关键词短语。生成式方法类似于上述过程,它基于文本语义生成关键词,可以捕捉到文本背后的真正语义,更加符合人们分配关键词的行为方式。目前关键词生成模型主要采用基于循环神经网络(Recurrent Neural Network,RNN)或Transformer的序列到序列(Sequence-to-Sequence,Seq2Seq)框架。序列到序列框架包含编码器(Encoder)和解码器(Decoder)两部分,其中编码器将变长的源文本映射成一个固定长度的向量,解码器依据编码器生成的向量生成目标关键词。
目前基于深度神经网络的编码器-解码器模型在处理关键词自动生成任务中表现较好,其优化目标为复制模式(Copy-Mode)和生成模式(Generative-Mode)共同组成的负对数似然损失,缺少复制和生成策略空间表征学习能力,从而忽视了关键词的不同属性特征,这会降低解码器的生成能力。另外,当前基于one2one范式的关键词模型需要依赖波束搜索(BeamSearch)来增加关键词的多样性,不能决定关键词的个数;而基于one2seq范式的关键词模型只能隐式地决定关键词的个数。已有的范式均存在关键词生成策略表征能力有限及不能显式预测关键词个数的问题,因此本发明希望能够提出一种新的深度学习方法来解决这些问题。
发明内容
为了解决现有技术中存在的问题与不足,本发明提出一种基于变分推断理论的关键词生成方法及系统,针对现存的关键词生成方法依赖基本的序列到序列的框架来生成目标关键词,忽视了复制和生成空间表征学习能力不足的问题,在模型训练的过程中通过对变分推断理论的分析,将变分引入关键词生成技术并建立依托vMF(von Mises-Fisher,vMF)分布和高斯混合模型(Gaussian Mixture Model,GMM)的关键词生成模型,以期达到生成高质量的关键词并利用混合高斯模块的特性根据文本内容自适应预关键词个数的目的。
为了达到上述目的,本发明提供如下技术方案:
一种基于变分推断理论的关键词生成方法,包括如下步骤:
步骤1:数据预处理
对样本进行预处理,去除非法字符,更改数字为标识符,得到源文本序列;连接关键词并排列后,得到目标关键词序列;
步骤2:模型构建
首先构建由自注意力子层和前馈神经网络子层组成RoBERTa编码器模块,每个源文本通过预训练的RoBERTa编码器转换为隐藏表示;其次构建vMF分布模块,以提高生成模式的预测能力;再构建自监督聚类模块,以增强复制模式的预测能力;最后,构建Transformer解码器,基于vMF模块捕获的超球面变量和GMM模块产生的混合高斯变量来生成目标关键短语,同时利用高斯混合网络的自然特性来确定关键词的数量;
步骤3:模型训练
采用NLL损失帮助模型学习关键词特定的知识;添加vMF和聚类损失以修改编码器和解码器的分布,利用KL散度防止两个分布之间的振荡;设计了一个聚类导向的损失使得潜在表示空间更加可分,从而使解码器能够识别出有区分性的信息;通过优化以上损失函数,提高模型生成关键词的能力;
步骤4:模型测试与评估
选择训练过程中在验证集上表现最好的模型作为实际使用中的预测模型进行关键词预测任务;首先对需要生成关键词的文本进行预处理,将其作为模型的输入,进而生成关键词;使用F1@5和F1@M值作为评价指标检测生成的关键词的质量。
进一步的,所述步骤1包括如下过程:
给定一个样本,对样本进行预处理,首先使用正则表达式去除样本中的一些非法字符,将所有数字更改为<digit>标识符,记为源文本序列
Figure BDA00041306034000000314
将关键词使用连接符;连接起来,存在关键词按照在文本中首次出现的顺序排序,缺失关键词排在存在关键词之后,构成关键词序列,记为/>
Figure BDA0004130603400000031
其中lx和/>
Figure BDA0004130603400000032
分别为文本和关键词序列的个数;/>
Figure BDA0004130603400000033
构成了一个最终的训练样本。
进一步的,所述步骤2包括如下子步骤:
子步骤2-1:RoBERTa编码器构建
给定源文本X,在X的开头和结尾分别添加特殊的标记<s>和</s>;然后,将填充后的源文本
Figure BDA00041306034000000313
输入到RoBERTa编码器中;RoBERTa编码器由Le个相同的层堆叠而成,每个层包含两个子层;第一个是多头自注意力SA子层,第二个是全连接的前馈神经网络子层FF:
Figure BDA0004130603400000034
其中,l∈{0,…,Le},
Figure BDA0004130603400000035
是填充后的源文本的单词嵌入,/>
Figure BDA0004130603400000036
是编码器的最终输出;特殊的<s>标记的最终隐藏向量被表示为s,通常用作聚合序列表示;源文本X的单词隐藏向量集合被表示为一个记忆库:/>
Figure BDA0004130603400000037
子步骤2-2:vMF模块构建
vMF分布存在于一个超球面空间中,平均方向矢量为
Figure BDA0004130603400000038
中心参数为为
Figure BDA0004130603400000039
vMF的参数ξ和κ通过以下方式获得,
Figure BDA00041306034000000310
其中,
Figure BDA00041306034000000311
和/>
Figure BDA00041306034000000312
是前馈线性神经网络,||·||代表2-范数以确保规范化,softplus激活函数确保κ可始终为正数;
根据已经构建的vMF分布,采用acceptance-rejection scheme采样潜在的vMF变量;假设先验样本
Figure BDA0004130603400000041
服从单位超球面上的均匀分布vMF(·,kprior=0),而近似后验/>
Figure BDA0004130603400000042
则服从同一球面上vMF正态分布vMF(ξpos,kpos),其中,ξpos和κpos分别对应vMF分布的平均方向矢量和中心参数;vMF模块的KL散度损失定义如下损失定义如下:
Figure BDA0004130603400000043
其中,zgen是从vMF分布中提取的潜在变量,qφ(zgen∣s)是后验分布,pθ(zgen)是后验分布;
子步骤2-3:聚类模块构建
选择高斯混合模型GMM来获取潜在的复制变量;假设混合高斯先验变量
Figure BDA0004130603400000044
Figure BDA0004130603400000045
服从/>
Figure BDA0004130603400000046
Figure BDA0004130603400000047
和/>
Figure BDA0004130603400000048
是混合高斯先验模型的权重、均值和方差,近似后验变量/>
Figure BDA0004130603400000049
服从/>
Figure BDA00041306034000000410
πk、μk和/>
Figure BDA00041306034000000411
是混合高斯后验模型的权重、均值和方差;Mr是由双向长短期记忆网络Bi-LSTM从记忆库M派生而来;
为了获取潜在变量
Figure BDA00041306034000000412
首先将原始的记忆库M送到Bi-LSTM中,并将前向和后向编码器的最后隐藏状态连接起来,以获取源文本/>
Figure BDA00041306034000000413
和更新的记忆库Mr=[hr,1,…,hr,lx];然后,将Mr送到GMM中,可以得到权重π、均值μ和方差σ2
Figure BDA00041306034000000414
其中,fGMM(·)是一个前馈神经网络,
Figure BDA00041306034000000415
是GMM第k个组件的混合系数,Wk和bk是GMM可训练的参数,/>
Figure BDA00041306034000000416
通过softmax函数计算,K个均值/>
Figure BDA00041306034000000417
可视为中心点,K个中心点构成矩阵u=[μ1,…,μK],由于GMM中的权重/>
Figure BDA00041306034000000421
不可微分,因此采用Gumbel-Softmax重新参数化,以使反向传播通过离散样本:
Figure BDA00041306034000000418
其中,πk是GMM经过Gumbel-Softmax重新参数化后的混合系数,gk是GMM第k个组件的Gumbel噪音,τ是温度,gi是Gumbel噪声,计算方式为:
gi=-log(-log(ui)),ui~U(0,1) (6)
其中,1≤i≤K,U(0,1)是(0,1)上的均匀分布;
由此,可以计算潜在隐变量
Figure BDA00041306034000000419
Figure BDA00041306034000000420
其中,zcopy是从混合高斯模型中抽取的潜在变量;
随后,从先验分布pθ(zcopy∣Mr)中获取一个更好的潜在变量
Figure BDA0004130603400000051
为了进一步促进聚类收敛,基于学生t分布提出一种自我监督的聚类策略去迭代生成更精确的目标关键词;如公式(8)和(9)所示,采用学生t分布作为核来衡量更新的记忆库Mr与聚类中心
Figure BDA0004130603400000052
之间的相似性:
Figure BDA0004130603400000053
其中,
Figure BDA0004130603400000054
是GMM第k个组件的均值,作为GMM第k个组件的聚类中心,k′∈[1,K]表示第k′个聚类中心,v是学生t分布的自由度,qik表示第i个词Mr,i到第k个预先计算的聚类中心μk分配的概率;概率分布Q是/>
Figure BDA0004130603400000055
的集合,其中i∈[1,lx],k∈[1,K],v为参数;
为了增加聚类分配的置信度并归一化目标损失,引入了一个辅助目标分布
Figure BDA00041306034000000516
来更新深度映射并优化聚类中心;目标分布/>
Figure BDA0004130603400000056
的计算如下:
Figure BDA0004130603400000057
Figure BDA0004130603400000058
/>
其中,fk=∑iqik是伪聚类的频率,qik表示第i个词Mr,i到第k个预先计算的聚类中心
Figure BDA0004130603400000059
分配的概率,概率分布Q是qik的集合,/>
Figure BDA00041306034000000510
是/>
Figure BDA00041306034000000511
的组成元素,并且/>
Figure BDA00041306034000000512
基于构建的先验和识别网络,GMM模块的损失被定义为:
Figure BDA00041306034000000513
提出一种筛选策略,用于计算单词和组件表示之间的成对分数,通过使用公式(12)来筛选重复项,从而获得适当的关键词数量N:
Figure BDA00041306034000000514
其中,
Figure BDA00041306034000000515
是第k个高斯质心;
子步骤2-4:Transformer解码器构建
在解码阶段,使用Transformer解码器生成目标关键词;Transformer解码器采用具有Ld层的堆栈结构,每层包括一个自注意力SA子层,一个交叉注意力CA子层和一个基于位置的前馈神经网络FF子层;在关键词生成的每个时间t,第l个解码器层更新隐藏状态如下:
Figure BDA0004130603400000061
其中,
Figure BDA0004130603400000062
是第l层的第t个生成词的隐藏状态,/>
Figure BDA0004130603400000063
是/>
Figure BDA0004130603400000064
到/>
Figure BDA0004130603400000065
的隐藏状态矩阵,/>
Figure BDA0004130603400000066
是[y1,…,yt-1]的单词嵌入,/>
Figure BDA0004130603400000067
是自注意力权重,/>
Figure BDA0004130603400000068
表示输入序列上的复制注意力权重,/>
Figure BDA0004130603400000069
表示第t个预测关键字yt的隐藏状态,/>
Figure BDA00041306034000000610
是上下文向量;通过将Ld层解码器在时间t的输出隐藏状态/>
Figure BDA00041306034000000611
和潜在变量zgen组合起来,利用两层前馈神经网络计算出对预定义词汇表的生成概率分布Pgen
Figure BDA00041306034000000612
其中,Wgen和bgen是可训练的参数,y<t表示前t个预测关键字;
gt是在编码器从预定义词汇表V生成和从源文本X中复制关键字之间的软开关,其输入是关键词嵌入
Figure BDA00041306034000000613
和t时刻第Ld层解码器的输出隐藏状态/>
Figure BDA00041306034000000614
的连接:
Figure BDA00041306034000000615
其中,Wg和bg是可学习的参数;
使用以下公式(16)预测第t个目标关键字的最终概率分布P(yt∣y<t;X):
Figure BDA00041306034000000616
其中,Pgen(yt∣y<t;X)是关键字yt在词汇表上的标准softmax概率,β是输入序列上的复制注意力权重;P(yt∣y<t;X)是生成概率和复制概率的线性插值;如果在预测N个关键词后解码过程终止,并且内部关键词生成过程在输出“</s>”标记后结束,则整个解码过程停止。
进一步的,所述步骤3包括如下过程:
采用标准的负对数似然损失来训练变分推断模型:
Figure BDA00041306034000000617
其中,θ代表模型中的所有参数,lyi表示第i个关键词yi中的单词个数;此外,建立了vMF分布与GMM之间的密切关系,以防止两个分布的振荡:
Figure BDA00041306034000000618
结合vMF损失、聚类损失、GMM损失和KL散度,用于优化的整体训练损失为:
Figure BDA00041306034000000619
其中,λvMF、λGMM、λc和λKL是需要调整的超参数,用于平衡每个损失函数对整体目标的重要性。
进一步的,所述步骤4包括如下过程:
经过步骤3的模型训练获得了表现最好的模型;对测试集进行预测,首先将测试集中的文本进行步骤1的数据预处理,将处理后的数据作为模型的输入,得到最后的关键词输出
Figure BDA0004130603400000071
Figure BDA0004130603400000072
代表第i个关键词,/>
Figure BDA0004130603400000073
是关键词的数量;
使用F1@5和F1@M检测生成的关键词的质量,F1值的计算如下:
Figure BDA0004130603400000074
Figure BDA0004130603400000075
Figure BDA0004130603400000076
其中Y代表真实的关键词,
Figure BDA0004130603400000077
指的是生成的k个关键词,F1@5指的是对比前五个生成的关键词,若不足5个,则随机添加错误的关键词直到数量达到5;F1@M指的是对比所有生成的关键词。
本发明还提供了一种基于变分推断理论的关键词生成系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现上述的一种基于变分推断理论的关键词生成方法。
与现有技术相比,本发明具有如下优点和有益效果:
1.本发明首次将变分编码器-解码器应用到关键词生成任务,模型采用概率建模、神经变分推理和自监督学习等方法进行训练,在保证生成更多样化的关键短语的同时提高所生成关键词的质量。
2.本发明为变分编码器-解码器框架配备了复制和生成空间,使用vMF分布的压缩变量以增强生成模式的预测能力,同时使用自监督高斯混合模型的潜在变量以增强复制模式的预测能力,有效地提高了模型生成的关键词的准确率。
3.本发明解决了传统关键词生成模型无法确定关键词个数的弊端,所提出的变分模型考虑了高斯混合网络的一种自然属性,并使用筛选出的组件来确定关键短语的数量。
4.本发明提出的方法可以在不更改模型结构的情况下应用到其它基于Seq2seq框架的自然语言生成的任务中,适用性广。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明实施例的整体模型图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明提供了一种基于变分推断理论的关键词生成方法,首先对数据集进行预处理与划分;然后,采用seq2seq模型作为骨干网络,使用压缩在潜在的超球面空间的vMF分布来提取生成变量,从而增强生成概率的预测能力。另外,在模型中加入高斯混合模块,利用GMM分布提取复制模式的特征,并利用GMM的内部参数预测关键词数量。最后,Transformer解码器利用编码器输出、vMF以及混合高斯潜在变量进行目标关键词的预测。模型采用概率建模、神经变分推理和自监督学习等方法进行训练。
具体地说,本发明具体模型参见图2,详细实施步骤如图1所示包括:
步骤1:数据预处理。给定一个样本,对样本进行预处理,首先使用正则表达式去除源文本中的一些非法字符,将所有数字更改为<digit>标识符,记为
Figure BDA0004130603400000088
即源文本序列。将关键词使用连接符;连接起来,存在关键词按照在文本中首次出现的顺序排序,缺失关键词排在存在关键词之后,这样就构成了关键词序列,记为/>
Figure BDA0004130603400000081
其中lx和/>
Figure BDA0004130603400000082
分别为文本和关键词序列的个数。/>
Figure BDA0004130603400000083
构成了一个最终的训练样本。
步骤2:模型构建。模型构建分为四个部分,第一部分是构建RoBERTa编码器对源文本进行编码,第二部分是构建超球面(von Mises-Fisher,vMF)分布模块来增强生成模式的预测能力,第三部分是构建自监督聚类模块来增强复制模式的预测能力,最后一部分是构建Transformer解码器生成目标关键词。
其实施可以分为以下子步骤:
子步骤2-1:RoBERTa编码器构建。为了有效地使用预训练语言模型本身所具备的丰富语义信息,利用RoBERTa将源文本的每个单词转换为维度为1024的词向量。具体来说,给定源文本X,本发明在X的开头和结尾分别添加特殊的标记<s>和</s>。然后,将填充后的源文本
Figure BDA0004130603400000084
输入到RoBERTa编码器中。RoBERTa编码器由Le个相同的层堆叠而成,每个层包含两个子层。第一个是多头自注意力(SA)子层,第二个是全连接的前馈神经网络子层(FF):
Figure BDA0004130603400000085
其中,l∈{0,…,Le},
Figure BDA0004130603400000086
是填充后的源文本的单词嵌入,/>
Figure BDA0004130603400000087
是编码器的最终输出。特殊的<s>标记的最终隐藏向量被表示为s,通常用作聚合序列表示。源文本X的单词隐藏向量集合被表示为一个记忆库:/>
Figure BDA0004130603400000091
用于解码器的注意力检索。
子步骤2-2:vMF模块构建。
vMF分布可以看作是高斯分布的一种变体,它存在于一个超球面空间中,平均方向矢量为
Figure BDA0004130603400000092
中心参数为为/>
Figure BDA0004130603400000093
vMF的参数ξ和κ可以通过以下方式获得,
Figure BDA0004130603400000094
其中,s是特殊的<s>标记的最终隐藏向量,
Figure BDA0004130603400000095
和/>
Figure BDA0004130603400000096
是前馈线性神经网络,||·||代表2-范数以确保规范化。softplus激活函数确保κ可始终为正数。
根据已经构建的vMF分布,采用acceptance-rejection scheme采样潜在的vMF变量。本发明假设先验样本
Figure BDA0004130603400000097
服从单位超球面上的均匀分布vMF(·,κprior=0),而近似后验/>
Figure BDA0004130603400000098
则服从同一球面上vMF正态分布vMF(ξpospos),其中,ξpos和κpos分别对应vMF分布的平均方向矢量和中心参数。vMF模块的KL(Kullback Leibler)散度损失定义如下:
Figure BDA0004130603400000099
其中,zgen是从vMF分布中提取的潜在变量。qφ(zgen∣s)是后验分布,由vMF正态分布vMF(ξpos,kpos)实现。pθ(zgen)是后验分布,由服从单位超球面上的均匀分布vMF(·,κprior=0)实现。
子步骤2-3:聚类模块构建。本发明选择高斯混合模型(Gaussian Mixture Model,GMM)来获取潜在的复制变量。本发明假设混合高斯先验变量
Figure BDA00041306034000000910
服从
Figure BDA00041306034000000911
其中,/>
Figure BDA00041306034000000912
和/>
Figure BDA00041306034000000913
是混合高斯先验模型的权重、均值和方差,近似后验变量/>
Figure BDA00041306034000000914
服从/>
Figure BDA00041306034000000915
πk、μk和/>
Figure BDA00041306034000000916
是混合高斯后验模型的权重、均值和方差。Mr是由双向长短期记忆网络(Bi-LSTM)从记忆库M派生而来。本发明将详细介绍下面的过程。
为了获取潜在变量
Figure BDA00041306034000000917
首先将原始的记忆库M送到Bi-LSTM中,并将前向和后向编码器的最后隐藏状态连接起来,以获取源文本/>
Figure BDA00041306034000000918
和更新的记忆库Mr=[hr,1,…,hr,lx]。然后,将Mr送到GMM中,可以得到权重π、均值μ和方差σ2
Figure BDA00041306034000000919
其中,fGMM(·)是一个前馈神经网络,
Figure BDA00041306034000000920
是GMM第k个组件的混合系数,Wk和bk是GMM可训练的参数。/>
Figure BDA0004130603400000101
通过softmax函数计算。K个均值/>
Figure BDA0004130603400000102
可视为中心点,K个中心点构成矩阵/>
Figure BDA00041306034000001014
由于GMM中的权重/>
Figure BDA00041306034000001013
不可微分,因此采用Gumbel-Softmax重新参数化,以使反向传播通过离散样本。
Figure BDA0004130603400000103
其中,πk是GMM经过Gumbel-Softmax重新参数化后的混合系数,gk是GMM第k个组件的Gumbel噪音,τ是温度,设置为0.1,gi是Gumbel噪声,计算方式为:
gi=-log(-log(ui)),ui~U(0,1) (6)
其中,1≤i≤K,U(0,1)是(0,1)上的均匀分布。
由此,可以计算潜在隐变量
Figure BDA0004130603400000104
Figure BDA0004130603400000105
其中,zcopy是从混合高斯模型中抽取的潜在变量。
随后,从先验分布pθ(zcopy∣Mr)中获取一个更好的潜在变量
Figure BDA0004130603400000106
后验网络与先验网络之间的区别在于,本发明采用自监督聚类损失来优化先验网络的参数。
注意,在GMM训练过程中,并没有提供可靠的训练标签,并且聚类模块只是整体框架的一部分。为了进一步促进聚类收敛,基于学生t分布提出一种自我监督的聚类策略去迭代生成更精确的目标关键词。所提出的聚类策略首先构造高质量的伪标签,然后使用生成的伪标签作为监督信号来训练神经网络。如公式(8)和(9)所示,采用学生t分布作为核来衡量更新的记忆库Mr与聚类中心
Figure BDA0004130603400000107
之间的相似性,生成过程包括公式(8)和(9)所对应的两个步骤,公式(8)用于计算更新前的聚类中单个词到其聚类中心的概率,公式(9)用于计算更新深度映射并优化聚类中心后的聚类中单个词到其聚类中心的概率,具体计算如下:
Figure BDA0004130603400000108
其中,
Figure BDA0004130603400000109
是GMM第k个组件的均值,本发明将其看作为GMM第k个组件的聚类中心,k′∈[1,K]表示第k′个聚类中心,v是学生t分布的自由度,qik表示第i个词Mr,i到第k个预先计算的聚类中心/>
Figure BDA00041306034000001010
分配的概率。概率分布Q是qik的集合,其中i∈[1,lx],k∈[1,K]。由于无法在验证集上交叉验证参数v,将v设置为1。
为了增加聚类分配的置信度并归一化目标损失,引入了一个辅助目标分布
Figure BDA00041306034000001011
来更新深度映射并优化聚类中心。目标分布/>
Figure BDA00041306034000001012
的计算如下:
Figure BDA0004130603400000111
Figure BDA0004130603400000112
/>
其中,fk=∑iqik是伪聚类的频率,qik表示第i个词Mr,i到第k个预先计算的聚类中心
Figure BDA0004130603400000113
分配的概率,概率分布Q是qik的集合,/>
Figure BDA0004130603400000114
是/>
Figure BDA0004130603400000115
的组成元素,并且/>
Figure BDA0004130603400000116
由于目标分布/>
Figure BDA0004130603400000117
是由Q推导的,因此聚类收敛过程可被看作是一种自我训练过程。此外,以聚类为导向的学习准则可以使K个组件朝向更可分的潜在先验空间排列。通过这种改善的先验网络,可以获得/>
Figure BDA0004130603400000118
变量。基于构建的先验和识别网络,GMM模块的损失被定义为:
Figure BDA0004130603400000119
重新参数化用于从识别网络(训练)预测或先验网络(测试)预测的高斯混合模型中获取样本。潜在变量可以为复制概率分布的预测设定基调,然后引导特定的目标关键词生成。在聚类之后,得到K个高斯质心
Figure BDA00041306034000001110
对应于K个组件表示。但是存在两个问题。第一个问题是源文本中的语义信息本质上涉及不同的聚类,这意味着为不同的源文本设置相同数量的聚类是不合适的。另一个问题是聚类本身可能重复。因此,本发明提出了一种筛选策略,用于计算单词和组件表示之间的成对分数。这种策略可以通过使用公式(12)来筛选重复项,从而获得适当的关键词数量N。
Figure BDA00041306034000001111
其中,
Figure BDA00041306034000001112
是第k个高斯质心。Softmax函数作为非线性分类器,用于获取预测得分,进而表示聚类索引。不同聚类的数量可视为关键词数量N。
子步骤2-4:Transformer解码器。在解码阶段,使用Transformer解码器生成目标关键词。在训练过程中,
Figure BDA00041306034000001113
和/>
Figure BDA00041306034000001114
从后验分布中采样。在测试过程中,/>
Figure BDA00041306034000001115
和/>
Figure BDA00041306034000001116
从先验分布中采样。解码过程中采用了复制、注意力和教师机制。Transformer解码器采用具有Ld层的堆栈结构,每层包括一个自注意力(SA)子层,一个交叉注意力(CA)子层和一个基于位置的前馈神经网络(FF)子层。在关键词生成的每个时间t,第l个解码器层(l∈[1,…,Ld])更新隐藏状态如下:
Figure BDA00041306034000001117
其中,
Figure BDA00041306034000001118
是第l层的第t个生成词的隐藏状态,d是解码器decoder的首字母,
Figure BDA00041306034000001119
是/>
Figure BDA00041306034000001120
到/>
Figure BDA00041306034000001121
的隐藏状态矩阵,/>
Figure BDA00041306034000001122
是[y1,…,yt-1]的单词嵌入,/>
Figure BDA00041306034000001123
是自注意力权重,/>
Figure BDA00041306034000001124
表示输入序列上的复制注意力权重,/>
Figure BDA0004130603400000121
表示第t个预测关键字yt的隐藏状态,/>
Figure BDA0004130603400000122
是上下文向量。通过将Ld层解码器在时间t的输出隐藏状态/>
Figure BDA0004130603400000123
和潜在变量zgen组合起来,利用两层前馈神经网络计算出对预定义词汇表的生成概率分布Pgen
Figure BDA0004130603400000124
其中,Wgen和bgen是可训练的参数,y<t表示前t个预测关键字。
gt是在编码器从预定义词汇表V生成和从源文本X中复制关键字之间的软开关,其输入是关键词嵌入
Figure BDA0004130603400000125
和t时刻第Ld层解码器的输出隐藏状态/>
Figure BDA0004130603400000126
的连接。
Figure BDA0004130603400000127
其中,Wg和bg是可学习的参数。
本发明使用以下公式(16)预测第t个目标关键字的最终概率分布P(yt∣y<t;X)。
Figure BDA0004130603400000128
其中,Pgen(yt∣y<t;X)是关键字yt在词汇表上的标准softmax概率(如果yt是OOV单词,则Pgen(yt∣y<t;X)=0),β是输入序列上的复制注意力权重。P(yt∣y<t;X)是生成概率和复制概率的线性插值。如果在预测N个关键词后解码过程终止,并且内部关键词生成过程在输出“</s>”标记后结束,则整个解码过程停止。
步骤3:模型训练。本发明采用标准的负对数似然损失来训练变分推断模型。
Figure BDA0004130603400000129
其中,θ代表模型中的所有参数,lyi表示第i个关键词yi中的单词个数。此外,本发明建立了vMF分布与GMM之间的密切关系,以防止两个分布的振荡:
Figure BDA00041306034000001210
结合vMF损失、聚类损失、GMM损失和KL散度,用于优化的整体训练损失为:
Figure BDA00041306034000001211
其中,λvMF、λGMM、λc和λKL是需要调整的超参数,用于平衡每个损失函数对整体目标的重要性。KL项的系数λvMF和λGMM逐渐增加,采用了sigmoid退火调度策略。
综上,有监督的NLL损失可以帮助模型学习关键词特定的知识。但是,NLL损失仅提供标记级别的监督,并且主要依赖于最终的概率预测分布。除了NLL损失外,还添加了vMF和GMM损失以修改编码器和解码器的分布,并且KL散度可以防止两个分布之间的振荡。此外,设计了一个聚类导向的损失,使得潜在表示空间更加可分,从而使解码器能够识别出有区分性的信息。通过这种方式,在统一的框架下训练网络,提高每个模块的能力。
步骤4:模型测试与评估。经过步骤3的模型训练获得了表现最好的模型。对测试集进行预测。首先将测试集中的文本进行步骤1的数据预处理,将处理后的数据作为模型的输入,得到最后的关键词输出
Figure BDA0004130603400000131
Figure BDA0004130603400000132
代表第i个关键词,/>
Figure BDA0004130603400000133
是关键词的数量。
使用F1@5和F1@M检测生成的关键词的质量,F1值的计算如下:
Figure BDA0004130603400000134
Figure BDA0004130603400000135
/>
Figure BDA0004130603400000136
其中Y代表真实的关键词,
Figure BDA0004130603400000137
指的是生成的k个关键词,F1@5指的是对比前五个生成的关键词,若不足5个,则随机添加错误的关键词直到数量达到5;F1@M指的是对比所有生成的关键词。
基于相同的发明构思,本发明提供了一种基于变分推断理论的关键词生成系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的一种基于变分推断理论的关键词生成方法。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (6)

1.一种基于变分推断理论的关键词生成方法,其特征在于,包括如下步骤:
步骤1:数据预处理
对样本进行预处理,去除非法字符,更改数字为标识符,得到源文本序列;连接关键词并排列后,得到目标关键词序列;
步骤2:模型构建
首先构建由自注意力子层和前馈神经网络子层组成RoBERTa编码器模块,每个源文本通过预训练的RoBERTa编码器转换为隐藏表示;其次构建vMF分布模块,以提高生成模式的预测能力;再构建自监督聚类模块,以增强复制模式的预测能力;最后,构建Transformer解码器,基于vMF模块捕获的超球面变量和GMM模块产生的混合高斯变量来生成目标关键短语,同时利用高斯混合网络的自然特性来确定关键词的数量;
步骤3:模型训练
采用NLL损失帮助模型学习关键词特定的知识;添加vMF和聚类损失以修改编码器和解码器的分布,利用KL散度防止两个分布之间的振荡;设计了一个聚类导向的损失使得潜在表示空间更加可分,从而使解码器能够识别出有区分性的信息;通过优化以上损失函数,提高模型生成关键词的能力;
步骤4:模型测试与评估
选择训练过程中在验证集上表现最好的模型作为实际使用中的预测模型进行关键词预测任务;首先对需要生成关键词的文本进行预处理,将其作为模型的输入,进而生成关键词;使用F1@5和F1@M值作为评价指标检测生成的关键词的质量。
2.根据权利要求1所述的基于变分推断理论的关键词生成方法,其特征在于,所述步骤1包括如下过程:
给定一个样本,对样本进行预处理,首先使用正则表达式去除样本中的一些非法字符,将所有数字更改为<digit>标识符,记为源文本序列
Figure FDA0004130603390000011
将关键词使用连接符;连接起来,存在关键词按照在文本中首次出现的顺序排序,缺失关键词排在存在关键词之后,构成关键词序列,记为/>
Figure FDA0004130603390000012
其中lx和/>
Figure FDA0004130603390000013
分别为文本和关键词序列的个数;/>
Figure FDA0004130603390000014
构成了一个最终的训练样本。
3.根据权利要求1所述的基于变分推断理论的关键词生成方法,其特征在于,所述步骤2包括如下子步骤:
子步骤2-1:RoBERTa编码器构建
给定源文本X,在X的开头和结尾分别添加特殊的标记<s>和</s>;然后,将填充后的源文本
Figure FDA0004130603390000021
输入到RoBERTa编码器中;RoBERTa编码器由Le个相同的层堆叠而成,每个层包含两个子层;第一个是多头自注意力SA子层,第二个是全连接的前馈神经网络子层FF:
Figure FDA0004130603390000022
其中,l∈{0,…,Le},
Figure FDA0004130603390000023
是填充后的源文本的单词嵌入,/>
Figure FDA0004130603390000024
是编码器的最终输出;特殊的<s>标记的最终隐藏向量被表示为s,通常用作聚合序列表示;源文本X的单词隐藏向量集合被表示为一个记忆库:/>
Figure FDA0004130603390000025
子步骤2-2:vMF模块构建
vMF分布存在于一个超球面空间中,平均方向矢量为
Figure FDA0004130603390000026
中心参数为为/>
Figure FDA0004130603390000027
vMF的参数ξ和κ通过以下方式获得,
Figure FDA0004130603390000028
其中,
Figure FDA0004130603390000029
和/>
Figure FDA00041306033900000210
是前馈线性神经网络,||·||代表2-范数以确保规范化,softplus激活函数确保κ可始终为正数;
根据已经构建的vMF分布,采用acceptance-rejection scheme采样潜在的vMF变量;假设先验样本
Figure FDA00041306033900000211
服从单位超球面上的均匀分布vMF(·,κprior=0),而近似后验
Figure FDA00041306033900000212
则服从同一球面上vMF正态分布vMF(ξpospos),其中,ξpos和κpos分别对应vMF分布的平均方向矢量和中心参数;vMF模块的KL散度损失定义如下:
Figure FDA00041306033900000213
其中,zgen是从vMF分布中提取的潜在变量,qφ(zgen∣s)是后验分布,pθ(zgen)是后验分布;
子步骤2-3:聚类模块构建
选择高斯混合模型GMM来获取潜在的复制变量;假设混合高斯先验变量
Figure FDA00041306033900000214
Figure FDA00041306033900000215
服从/>
Figure FDA00041306033900000216
Figure FDA00041306033900000217
和/>
Figure FDA00041306033900000218
是混合高斯先验模型的权重、均值和方差,近似后验变量/>
Figure FDA00041306033900000219
服从/>
Figure FDA00041306033900000220
πk、μk和/>
Figure FDA00041306033900000221
是混合高斯后验模型的权重、均值和方差;Mr是由双向长短期记忆网络Bi-LSTM从记忆库M派生而来;
为了获取潜在变量
Figure FDA0004130603390000031
首先将原始的记忆库M送到Bi-LSTM中,并将前向和后向编码器的最后隐藏状态连接起来,以获取源文本/>
Figure FDA0004130603390000032
和更新的记忆库Mr=[hr,1,…,hr,lx];然后,将Mr送到GMM中,可以得到权重π、均值μ和方差σ2
Figure FDA0004130603390000033
其中,fGMM(·)是一个前馈神经网络,
Figure FDA0004130603390000034
是GMM第k个组件的混合系数,Wk和bk是GMM可训练的参数,/>
Figure FDA0004130603390000035
通过softmax函数计算,K个均值/>
Figure FDA0004130603390000036
可视为中心点,K个中心点构成矩阵
Figure FDA00041306033900000315
由于GMM中的权重/>
Figure FDA00041306033900000316
不可微分,因此采用Gumbel-Softmax重新参数化,以使反向传播通过离散样本:/>
Figure FDA0004130603390000037
其中,πk是GMM经过Gumbel-Softmax重新参数化后的混合系数,gk是GMM第k个组件的Gumbel噪音,τ是温度,gi是Gumbel噪声,计算方式为:
gi=-log(-log(ui)),ui~U(0,1) (6)
其中,1≤i≤K,U(0,1)是(0,1)上的均匀分布;
由此,可以计算潜在隐变量
Figure FDA0004130603390000038
Figure FDA0004130603390000039
其中,zcopy是从混合高斯模型中抽取的潜在变量;
随后,从先验分布pθ(zcopy∣Mr)中获取一个更好的潜在变量
Figure FDA00041306033900000310
为了进一步促进聚类收敛,基于学生t分布提出一种自我监督的聚类策略去迭代生成更精确的目标关键词;如公式(8)和(9)所示,采用学生t分布作为核来衡量更新的记忆库Mr与聚类中心
Figure FDA00041306033900000311
之间的相似性:
Figure FDA00041306033900000312
其中,
Figure FDA00041306033900000313
是GMM第k个组件的均值,作为GMM第k个组件的聚类中心,k′∈[1,K]表示第k′个聚类中心,v是学生t分布的自由度,qik表示第i个词Mr,i到第k个预先计算的聚类中心μk分配的概率;概率分布Q是/>
Figure FDA00041306033900000314
的集合,其中i∈[1,lx],k∈[1,K],v为参数;
为了增加聚类分配的置信度并归一化目标损失,引入了一个辅助目标分布
Figure FDA0004130603390000041
来更新深度映射并优化聚类中心;目标分布/>
Figure FDA0004130603390000042
的计算如下:
Figure FDA0004130603390000043
Figure FDA0004130603390000044
其中,fk=∑iqik是伪聚类的频率,qik表示第i个词Mr,i到第k个预先计算的聚类中心
Figure FDA0004130603390000045
分配的概率,概率分布Q是qik的集合,/>
Figure FDA0004130603390000046
是/>
Figure FDA0004130603390000047
的组成元素,并且/>
Figure FDA0004130603390000048
基于构建的先验和识别网络,GMM模块的损失被定义为:
Figure FDA0004130603390000049
提出一种筛选策略,用于计算单词和组件表示之间的成对分数,通过使用公式(12)来筛选重复项,从而获得适当的关键词数量N:
Figure FDA00041306033900000410
其中,
Figure FDA00041306033900000411
是第k个高斯质心;
子步骤2-4:Transformer解码器构建
在解码阶段,使用Transformer解码器生成目标关键词;Transformer解码器采用具有Ld层的堆栈结构,每层包括一个自注意力SA子层,一个交叉注意力CA子层和一个基于位置的前馈神经网络FF子层;在关键词生成的每个时间t,第l个解码器层更新隐藏状态如下:
Figure FDA00041306033900000412
其中,
Figure FDA00041306033900000413
是第l层的第t个生成词的隐藏状态,/>
Figure FDA00041306033900000414
是/>
Figure FDA00041306033900000415
到/>
Figure FDA00041306033900000416
的隐藏状态矩阵,
Figure FDA00041306033900000417
是[y1,…,yt-1]的单词嵌入,/>
Figure FDA00041306033900000418
是自注意力权重,/>
Figure FDA00041306033900000419
表示输入序列上的复制注意力权重,/>
Figure FDA00041306033900000420
表示第t个预测关键字yt的隐藏状态,/>
Figure FDA00041306033900000421
是上下文向量;通过将Ld层解码器在时间t的输出隐藏状态/>
Figure FDA00041306033900000422
和潜在变量zgen组合起来,利用两层前馈神经网络计算出对预定义词汇表的生成概率分布Pgen
Figure FDA00041306033900000423
其中,Wgen和bgen是可训练的参数,y<t表示前t个预测关键字;
gt是在编码器从预定义词汇表V生成和从源文本X中复制关键字之间的软开关,其输入是关键词嵌入
Figure FDA0004130603390000051
和t时刻第Ld层解码器的输出隐藏状态/>
Figure FDA0004130603390000052
的连接:
Figure FDA0004130603390000053
其中,Wg和bg是可学习的参数;
使用以下公式(16)预测第t个目标关键字的最终概率分布P(yt∣y<t;X):
Figure FDA0004130603390000054
其中,Pgen(yt∣y<t;X)是关键字yt在词汇表上的标准softmax概率,β是输入序列上的复制注意力权重;P(yt∣y<t;X)是生成概率和复制概率的线性插值;如果在预测N个关键词后解码过程终止,并且内部关键词生成过程在输出“</s>”标记后结束,则整个解码过程停止。
4.根据权利要求1所述的基于变分推断理论的关键词生成方法,其特征在于,所述步骤3包括如下过程:
采用标准的负对数似然损失来训练变分推断模型:
Figure FDA0004130603390000055
其中,θ代表模型中的所有参数,lyi表示第i个关键词yi中的单词个数;此外,建立了vMF分布与GMM之间的密切关系,以防止两个分布的振荡:
Figure FDA0004130603390000056
结合vMF损失、聚类损失、GMM损失和KL散度,用于优化的整体训练损失为:
Figure FDA0004130603390000057
其中,λvMF、λGMM、λc和λKL是需要调整的超参数,用于平衡每个损失函数对整体目标的重要性。
5.根据权利要求1所述的基于变分推断理论的关键词生成方法,其特征在于,所述步骤4包括如下过程:
经过步骤3的模型训练获得了表现最好的模型;对测试集进行预测,首先将测试集中的文本进行步骤1的数据预处理,将处理后的数据作为模型的输入,得到最后的关键词输出
Figure FDA0004130603390000058
代表第i个关键词,/>
Figure FDA0004130603390000059
是关键词的数量;
使用F1@5和F1@M检测生成的关键词的质量,F1值的计算如下:
Figure FDA0004130603390000061
Figure FDA0004130603390000062
Figure FDA0004130603390000063
其中Y代表真实的关键词,
Figure FDA0004130603390000064
指的是生成的k个关键词,F1@5指的是对比前五个生成的关键词,若不足5个,则随机添加错误的关键词直到数量达到5;F1@M指的是对比所有生成的关键词。
6.一种基于变分推断理论的关键词生成系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现权利要求1-5中任意一项所述的一种基于变分推断理论的关键词生成方法。
CN202310259247.4A 2023-03-17 2023-03-17 一种基于变分推断理论的关键词生成方法及系统 Pending CN116205227A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310259247.4A CN116205227A (zh) 2023-03-17 2023-03-17 一种基于变分推断理论的关键词生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310259247.4A CN116205227A (zh) 2023-03-17 2023-03-17 一种基于变分推断理论的关键词生成方法及系统

Publications (1)

Publication Number Publication Date
CN116205227A true CN116205227A (zh) 2023-06-02

Family

ID=86514693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310259247.4A Pending CN116205227A (zh) 2023-03-17 2023-03-17 一种基于变分推断理论的关键词生成方法及系统

Country Status (1)

Country Link
CN (1) CN116205227A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152578A (zh) * 2023-10-31 2023-12-01 合肥工业大学 基于变分推断的不完整多视图数据预测方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152578A (zh) * 2023-10-31 2023-12-01 合肥工业大学 基于变分推断的不完整多视图数据预测方法及系统

Similar Documents

Publication Publication Date Title
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
Zhang et al. Advanced data exploitation in speech analysis: An overview
CN110737769A (zh) 一种基于神经主题记忆的预训练文本摘要生成方法
CN111477247B (zh) 基于gan的语音对抗样本生成方法
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN111651558A (zh) 基于预训练语义模型的超球面协同度量推荐装置和方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN115794999A (zh) 一种基于扩散模型的专利文档查询方法及计算机设备
CN116205227A (zh) 一种基于变分推断理论的关键词生成方法及系统
CN114360502A (zh) 语音识别模型的处理方法、语音识别方法及装置
CN115983274A (zh) 一种基于两阶段标签校正的噪声事件抽取方法
CN117421595A (zh) 一种基于深度学习技术的系统日志异常检测方法及系统
CN111428518B (zh) 一种低频词翻译方法及装置
CN112712099B (zh) 一种基于双层知识蒸馏说话人模型压缩系统和方法
CN117093692A (zh) 一种基于深度融合的多粒度图像-文本匹配方法及系统
CN111444328A (zh) 一种带有解释生成的自然语言自动预测推断方法
CN114168782B (zh) 一种基于三元组网络的深度哈希图像检索方法
CN115455144A (zh) 用于小样本意图识别的完型填空式的数据增强方法
CN114880527A (zh) 一种基于多预测任务的多模态知识图谱表示方法
CN111274359B (zh) 基于改进vhred与强化学习的查询推荐方法及系统
CN114357166A (zh) 一种基于深度学习的文本分类方法
CN117874175B (zh) 一种基于信息瓶颈的信息检索方法和系统
WO2024093415A1 (zh) 一种基于参数自进化策略的目标细粒度识别方法
CN114996424B (zh) 一种基于深度学习的弱监督跨域问答对生成方法
CN113268962B (zh) 面向建筑行业信息化服务问答系统的文本生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination