CN116341562A - 一种基于Unilm语言模型的相似问题生成方法 - Google Patents

一种基于Unilm语言模型的相似问题生成方法 Download PDF

Info

Publication number
CN116341562A
CN116341562A CN202310309923.4A CN202310309923A CN116341562A CN 116341562 A CN116341562 A CN 116341562A CN 202310309923 A CN202310309923 A CN 202310309923A CN 116341562 A CN116341562 A CN 116341562A
Authority
CN
China
Prior art keywords
vector
similarity
similar
text
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310309923.4A
Other languages
English (en)
Inventor
覃远年
黎桂成
雷送强
吴冬雪
宁波
卢玉胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202310309923.4A priority Critical patent/CN116341562A/zh
Publication of CN116341562A publication Critical patent/CN116341562A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于UniLM语言模型的相似问题生成方法,其特征在于,包括如下步骤:S01构建中文问题相似句对数据集;S02构建基于UniLM语言模型的文本生成模块;S03训练模型语言相似问题检索能力;S04输出相似问题文本;S05对语言生成模型进行优化。这种方法能够针对所输入的问句生成相似问句,从多方面对问题进行相似性释义。

Description

一种基于Unilm语言模型的相似问题生成方法
技术领域
本发明涉及人工智能自然语言生成技术领域,特别涉及一种基于UniLM语言模型的相似问题生成方法。
背景技术
当前是一个信息爆炸时代,随着互联网的发展信息量呈现指数级增长,人们需要在海量信息中寻找自己需要的信息。如何有效地利用这些海量数据里的有用信息,为人类的生活助力,一直都是自然语言处理任务中十分重要的研究内容,但即使在如此庞大的文本数据中,数据形式仍然以陈述句的形式为主,而与其相匹配问句,作为人类对未知事物思考的疑问体现,常常是非常匮乏的,由此导致许多领域训练数据有限,只能通过人工标注的形式生成问题。
例如,相似问题生成技术可以用作聊天机器人或问答系统的组件,在传统的问答系统或者智能问答机器人中,人们经常会设置一个常见的、描述明确的问题以及相应的答案,我们把它们称为“标准问答对”,在用户提出问题时,通常会将用户的问题与已设定的标准问答进行相似性计算,找到最接近该问题的标准问,再把它的回答反馈给使用者,从而完成一次问答。但人工设定“标准问答对”需要大量时间和精力,生产高质量的、归纳式的问题也会对操作人员造成很大的压力。如果能把类似的问题自动地产生出来,让用户自己选择,这将会大大减轻人们的工作压力。简单地来说,就是创造与选择的区别,选择比创造要简单地多。
相似问题生成技术可以广泛用于智能客服、辅助教学、智能问答等领域,帮助用户更准确地表达自己的信息需求,从而提高信息检索的效率。也可以通过生成质量高、意义明确的问题,以帮助人们更好地理解语言信息和知识。
发明内容:
本发明的目的是针对现有技术的不足,而提供一种基于UniLM语言模型的相似问题生成方法。
这种方法能够针对所输入的问句生成相似问句,从多方面对问题进行相似性释义。
实现本发明目的的技术方案是:
一种基于UniLM语言模型的相似问题生成方法,包括如下步骤:
S01构建中文问题相似句对数据集I=[(x1,j1),(x2,j2),...,(xn,jn)]:从大数据平台爬取问答语料,基于语料对于同一个问题有多个答案,答案语义相似句式不同,将每个答案分句,首先采用余弦距离相似度函数比较答案之间的相似度,然后根据余弦距离相似度所表示的源问句与相似问句的语义相似度,挑出相似度超过特定阈值的句对汇集作为相似句对数据集I=[(x1,j1),(x2,j2),...,(xn,jn)]使用,特定阈值设为0.7,具体为:
中文问题相似句对数据集I=[(x1,j1),(x2,j2),...,(xn,jn)]中xn表示源问句,jn表示与源问句相应的相似语义问句,余弦距离相似度函数表达式为:
Figure BDA0004148055030000021
x=(x1,...,xn),
j=(j1,...,jn),
根据
Figure BDA0004148055030000022
所表示的源问句与相似问句的语义相似度,对I=[(x1,j1),(x2,j2),...,(xn,jn)]的源问句与相似问句进行拼接,拼接操作完成后所构造的输入序列向量形式为:
{S}={[CLS]SX[SEP]SJ[EOS]},
SX=[token1,...,tokenn],
SJ=[token1,...,tokenm],
其中,SX和SJ分别表示源问句的向量编码与相似问句的向量编码,token表示编码后的数字向量,[CLS]表示此输入序列的头端,两段文本以[SEP]符号分割,[EOS]表示输入序列的结束;
S02构建基于UniLM语言模型的文本生成模块:构建基于UniLM语言模型的文本生成模块完成通过源问句来预测另一句的相似句生成任务,文本生成模块架构由多层Transformer的Encoder编码器单元叠加组成,通过随机掩盖输入序列中15%比例的token,让模型学习恢复被掩盖的词,训练目标是基于上下文最大化被掩盖token的似然度,通过掩码训练模型文本预测能力,输出预测文本的概率,具体为:
采用24层Transformer编码器单元组成语言模型网络,输入序列{S}首先被转换成H0=[S1,....S|s|],然后送入该24层Transformer网络得到最终的特征向量,再抽象编码成不同Transformer层次的上下文表示,每一层编码输出如下:
Figure BDA0004148055030000031
在每一层Transformer编码器块中,采用多个self-attention heads来聚合前一层的输出向量,并通过掩码矩阵Mi来控制每个词的注意力范围,0表示可以关注,负无穷表示不能关注、会被执行掩码[Mask]操作,对于第i个Transformer层,自注意力头Atti的输出的计算公式为:
Q=Hi-1Wi Q,K=Hi-1Wi K,V=Hi-1Wi V
Figure BDA0004148055030000032
Figure BDA0004148055030000033
其中,Q,K,V分别表示查询向量序列、键向量序列和值向量序列,其中WQ、WK、WV分别为不同的可学习参数矩阵,且WQ、WK、WV∈Rd,R表示实数,d为输入向量{S}的维度;attend表示一对数字向量token可以相互关注,掩码[Mask]操作表示对该选中的数字向量token置零、从而不参与计算,Softmax表示归一化指数函数,KT是K的转置,依据掩码矩阵Mi确定一对token是否可以相互关注,覆盖被编码的特征,让预测时只能关注到与相似问题生成任务相关的特征,从而实现了相似问题生成训练;
在模型训练当中,会随机选择输入向量替换为[MASK],掩码操作在总体比例设定为20%,其中80%的情况下直接用[MASK]替代,10%的情况下随机选择一个替代词,最后10%的情况采用真实值,还有就是80%的情况是每次只[Mask]一个词,另外20%的情况是[Mask]掉二元分词或者三元分词;
最后采用Transformer网络计算得到相应的输出向量,再把输出向量传递至softmax分类器中,输出被掩盖的预测文本概率Y=[y1,...,yn],通过随机掩盖一些目标序列,学习去预测被掩码的词;
S03训练模型语言相似问题检索能力:将一个训练批次的batch内的[CLS]向量取出,提取相似度矩阵,计算此批次样本相似度,采用softmax增加相似样本的相似度,降低其余样本的相似度,达到相似文本检索训练的目的,具体为:
S03-1将步骤S01中的输入序列{S}={[CLS]SX[SEP]SJ[EOS]}经过24层Transformer编码器单元后,抽取最后一层Transformer编码器单元的[CLS]向量,该向量为经过24层注意力机制计算后所有词的加权平均,可以作为整句话的上下文语义表示;
S03-2根据文本对应的[CLS]向量计算相似度:整合所抽取的最后一层整个训练批次的batch内的[CLS]向量,得到一个句向量矩阵W∈Rb×d,b表示批次大小batch_size,d表示隐藏层数hidden_size;
S03-3然后对矩阵W的d维度做L2归一化,得到
Figure BDA0004148055030000041
然后两两做内积得相似度矩阵
Figure BDA0004148055030000042
并[Mask]掉对角线部分,最后每一行进行softmax操作,作为一个分类任务训练,计算公式如下:
Figure BDA0004148055030000043
Figure BDA0004148055030000044
Figure BDA0004148055030000045
其中,P([CLS])表示样本的相似度,D表示经L2归一化后的hidden_size大小,
Figure BDA0004148055030000046
表示/>
Figure BDA0004148055030000047
的转置,每个样本的训练目标标签是它的相似问句,源问句则已经被[Mask]掉,这样就把一个批次batch内所有的非相似样本都当作负样本,借助softmax来增加相似样本的相似度,降低其余样本的相似度,达到相似文本检索训练的目的;
S04输出相似问题文本:为使生成结果具有多样性,模型采用随机采样生成(random sample)函数输出相似问题文本,具体为:
文本生成模块采用随机采样(random sample)函数检索输出概率Y生成相似问题文本,可使生成结果具有多样性,将步骤S02中Transformer编码器输出层最终部分采用softmax分类器来将输出概率归一化,通过改变参数控制输出概率,随机采样公式如下:
Figure BDA0004148055030000048
其中T表示可调权重参数,该参数可在执行softmax操作之前重新调整对数,控制输出的多样性,
softmax分类器在每个时间步,选取当前时间步条件概率最大的k个词,作为该时间步的候选输出序列,每轮解码的时候会从概率值最高的top(k)里随机采样一个token用于问题生成;
S05对语言生成模型进行优化:定义问题生成损失函数与相似问题检索损失函数对语言生成模型进行优化,整体总损失函数为问题生成损失函数与相似问题检索损失函数的全连接,具体为:
模型优化时语言模型采用交叉熵作为损失函数,计算包括文本生成损失函数和语义相似度损失函数,损失函数为衡量同一个随机变量中的两个不同概率分布的差异程度是最小化真实概率分布与预测概率分布之间的差异,整体总损失函数采用权重参数将上述文本生成损失函数函数和语义相似度损失进行全连接:
Figure BDA0004148055030000051
Figure BDA0004148055030000052
Loss=α*LP+β*LD
其中,m,n表示样本数,LS表示文本生成损失函数,LD表示语义相似度的损失函数,p表示模型在预测中使用的第i个样本的真实分布,q表示模型所预测的概率分布结果,Loss表示联合损失函数,α、β表示可调权重参数。
本技术方案中问题文本生成过程包括:构建训练数据预料,对源问句与相似语句进行拼接操作作为输入;构建由24层Transformer编码器组成的UniLM模型网络,采用掩码策略训练模型的问题生成能力,每个单元输出的yi是各个词的概率,采用随机采样方法检索概率输出文本,采用交叉熵函数对问题生成模型进行优化,当联合损失函数迭代到最小时得到训练好的模型;
本技术方案中问题文本检索过程包括:根据文本对应的[CLS]向量计算相似度,[CLS]已通过自注意力机制获取到句子级别的信息表示,将一个训练批次的batch内的[CLS]向量取出,提取相似度矩阵,计算此批次样本相似度,再把一个训练批次batch里面不相似的样本作为负样本,然后采用softmax函数计算相似样本的相似度,捕捉文本相似性计算任务环境下的上下文信息表示。
本技术方案采用上述过程对语言模型做联合训练使其同时具备生成能力与检索能力,能够针对相似问题生成任务实现相似文本输出,用户将提问内容输入到训练好的相似问题生成模型中,最终得到与源问句具有相似语义的回复语句,本技术方案可广泛用于智能客服,辅助教学、智能问答等领域,通过将语言信息转化为明确的问题,帮助人们更方便的满足自身需求。
这种方法能够针对所输入的问句生成相似问句,从多方面对问题进行相似性释义。
附图说明
图1为实施例的方法流程示意图;
图2为实施例的模型结构示意图。
具体实施方式
下面结合附图和实施例对本发明的内容做进一步的阐述,但不是对本发明的限定。
实施例:
参照图1、图2,一种基于UniLM语言模型的相似问题生成方法,包括如下步骤:
S01构建中文问题相似句对数据集I=[(x1,j1),(x2,j2),...,(xn,jn)]:从大数据平台爬取问答语料,基于语料对于同一个问题有多个答案,答案语义相似句式不同,将每个答案分句,首先采用余弦距离相似度函数比较答案之间的相似度,然后根据余弦距离相似度所表示的源问句与相似问句的语义相似度,挑出相似度超过特定阈值的句对汇集作为相似句对数据集I=[(x1,j1),(x2,j2),...,(xn,jn)]使用,本例特定阈值设为0.7,具体为:
中文问题相似句对数据集I=[(x1,j1),(x2,j2),...,(xn,jn)]中xn表示源问句,jn表示与源问句相应的相似语义问句,余弦距离相似度函数表达式为:
Figure BDA0004148055030000061
x=(x1,...,xn),
j=(j1,...,jn),
根据
Figure BDA0004148055030000062
所表示的源问句与相似问句的语义相似度,对I=[(x1,j1),(x2,j2),...,(xn,jn)]的源问句与相似问句进行拼接,拼接操作完成后所构造的输入序列向量形式为:
{S}={[CLS]SX[SEP]SJ[EOS]},
SX=[token1,...,tokenn],
SJ=[token1,...,tokenm],
其中,SX和SJ分别表示源问句的向量编码与相似问句的向量编码,token表示编码后的数字向量,[CLS]表示此输入序列的头端,两段文本以[SEP]符号分割,[EOS]表示输入序列的结束;
S02构建基于UniLM语言模型的文本生成模块:构建基于UniLM语言模型的文本生成模块完成通过源问句来预测另一句的相似句生成任务,文本生成模块架构由多层Transformer的Encoder编码器单元叠加组成,通过随机掩盖输入序列中15%比例的token,让模型学习恢复被掩盖的词,训练目标是基于上下文最大化被掩盖token的似然度,通过掩码训练模型文本预测能力,输出预测文本的概率,具体为:
采用24层Transformer编码器单元组成语言模型网络,输入序列{S}首先被转换成H0=[S1,....S|s|],然后送入该24层Transformer网络得到最终的特征向量,再抽象编码成不同Transformer层次的上下文表示,每一层编码输出如下:
Figure BDA0004148055030000071
在每一层Transformer编码器块中,采用多个self-attention heads来聚合前一层的输出向量,并通过掩码矩阵Mi来控制每个词的注意力范围,0表示可以关注,负无穷表示不能关注、会被执行掩码[Mask]操作,对于第i个Transformer层,自注意力头Atti的输出的计算公式为:
Q=Hi-1Wi Q,K=Hi-1Wi K,V=Hi-1Wi V
Figure BDA0004148055030000072
Figure BDA0004148055030000073
其中,Q,K,V分别表示查询向量序列、键向量序列和值向量序列,其中WQ、WK、WV分别为不同的可学习参数矩阵,且WQ、WK、WV∈Rd,R表示实数,d为输入向量{S}的维度;attend表示一对数字向量token可以相互关注,掩码[Mask]操作表示对该选中的数字向量token置零、从而不参与计算,Softmax表示归一化指数函数,KT是K的转置,依据掩码矩阵Mi确定一对token是否可以相互关注,覆盖被编码的特征,让预测时只能关注到与相似问题生成任务相关的特征,从而实现了相似问题生成训练;
在模型训练当中,会随机选择输入向量替换为[MASK],掩码操作在总体比例设定为20%,其中80%的情况下直接用[MASK]替代,10%的情况下随机选择一个替代词,最后10%的情况采用真实值,还有就是80%的情况是每次只[Mask]一个词,另外20%的情况是[Mask]掉二元分词或者三元分词;
最后采用Transformer网络计算得到相应的输出向量,再把输出向量传递至softmax分类器中,输出被掩盖的预测文本概率Y=[y1,...,yn],通过随机掩盖一些目标序列,学习去预测被掩码的词;
S03训练模型语言相似问题检索能力:将一个训练批次的batch内的[CLS]向量取出,提取相似度矩阵,计算此批次样本相似度,采用softmax增加相似样本的相似度,降低其余样本的相似度,达到相似文本检索训练的目的,具体为:
S03-1将步骤S01中的输入序列{S}={[CLS]SX[SEP]SJ[EOS]}经过24层Transformer编码器单元后,抽取最后一层Transformer编码器单元的[CLS]向量,该向量为经过24层注意力机制计算后所有词的加权平均,可以作为整句话的上下文语义表示;
S03-2根据文本对应的[CLS]向量计算相似度:整合所抽取的最后一层整个训练批次的batch内的[CLS]向量,得到一个句向量矩阵W∈Rb×d,b表示批次大小batch_size,d表示隐藏层数hidden_size;
S03-3然后对矩阵W的d维度做L2归一化,得到
Figure BDA0004148055030000081
然后两两做内积得相似度矩阵
Figure BDA0004148055030000082
并[Mask]掉对角线部分,最后每一行进行softmax操作,作为一个分类任务训练,计算公式如下:
Figure BDA0004148055030000083
Figure BDA0004148055030000084
Figure BDA0004148055030000085
其中,P([CLS])表示样本的相似度,D表示经L2归一化后的hidden_size大小,
Figure BDA0004148055030000086
表示/>
Figure BDA0004148055030000087
的转置,每个样本的训练目标标签是它的相似问句,源问句则已经被[Mask]掉,这样就把一个批次batch内所有的非相似样本都当作负样本,借助softmax来增加相似样本的相似度,降低其余样本的相似度,达到相似文本检索训练的目的;
S04输出相似问题文本:为使生成结果具有多样性,模型采用随机采样生成(random sample)函数输出相似问题文本,具体为:
本例中,文本生成模块采用随机采样(random sample)函数检索输出概率Y生成相似问题文本,可使生成结果具有多样性,将步骤S02中Transformer编码器输出层最终部分采用softmax分类器来将输出概率归一化,通过改变参数控制输出概率,随机采样公式如下:
Figure BDA0004148055030000091
其中T表示可调权重参数,该参数可在执行softmax操作之前重新调整对数,控制输出的多样性,
softmax分类器在每个时间步,选取当前时间步条件概率最大的k个词,作为该时间步的候选输出序列,每轮解码的时候会从概率值最高的top(k)里随机采样一个token用于问题生成;
S05对语言生成模型进行优化:定义问题生成损失函数与相似问题检索损失函数对语言生成模型进行优化,整体总损失函数为问题生成损失函数与相似问题检索损失函数的全连接,具体为:
本例中,模型优化时语言模型采用交叉熵作为损失函数,计算包括文本生成损失函数和语义相似度损失函数,损失函数为衡量同一个随机变量中的两个不同概率分布的差异程度是最小化真实概率分布与预测概率分布之间的差异,整体总损失函数采用权重参数将上述文本生成损失函数函数和语义相似度损失进行全连接:
Figure BDA0004148055030000092
Figure BDA0004148055030000093
Loss=α*LP+β*LD
其中,m,n表示样本数,LS表示文本生成损失函数,LD表示语义相似度的损失函数,p表示模型在预测中使用的第i个样本的真实分布,q表示模型所预测的概率分布结果,Loss表示联合损失函数,α、β表示可调权重参数。

Claims (1)

1.一种基于UniLM语言模型的相似问题生成方法,其特征在于,包括如下步骤:
S01构建中文问题相似句对数据集I=[(x1,j1),(x2,j2),...,(xn,jn)]:从大数据平台爬取问答语料,基于语料对于同一个问题有多个答案,答案语义相似句式不同,将每个答案分句,首先采用余弦距离相似度函数比较答案之间的相似度,然后根据余弦距离相似度所表示的源问句与相似问句的语义相似度,挑出相似度超过特定阈值的句对汇集作为相似句对数据集I=[(x1,j1),(x2,j2),...,(xn,jn)]使用,特定阈值设为0.7,具体为:
中文问题相似句对数据集I=[(x1,j1),(x2,j2),...,(xn,jn)]中xn表示源问句,jn表示与源问句相应的相似语义问句,余弦距离相似度函数表达式为:
Figure FDA0004148055020000011
x=(x1,...,xn),
j=(j1,...,jn),
根据cos(x·j)所表示的源问句与相似问句的语义相似度,对I=[(x1,j1),(x2,j2),...,(xn,jn)]的源问句与相似问句进行拼接,拼接操作完成后所构造的输入序列向量形式为:
{S}={[CLS]SX[SEP]SJ[EOS]},
SX=[token1,...,tokenn],
SJ=[token1,...,tokenm],
其中,SX和SJ分别表示源问句的向量编码与相似问句的向量编码,token表示编码后的数字向量,[CLS]表示此输入序列的头端,两段文本以[SEP]符号分割,[EOS]表示输入序列的结束;
S02构建基于UniLM语言模型的文本生成模块:文本生成模块架构由多层Transformer的Encoder编码器单元叠加组成,通过随机掩盖输入序列中15%比例的token,让模型学习恢复被掩盖的词,训练目标是基于上下文最大化被掩盖token的似然度,输出预测文本的概率,具体为:
采用24层Transformer编码器单元组成语言模型网络,输入序列{S}首先被转换成H0=[S1,....S|s|],然后送入该24层Transformer网络得到最终的特征向量,再抽象编码成不同Transformer层次的上下文表示,每一层编码输出如下:
Figure FDA0004148055020000012
在每一层Transformer编码器块中,采用多个self-attention heads来聚合前一层的输出向量,并通过掩码矩阵Mi控制每个词的注意力范围,0表示可以关注,负无穷表示不能关注、会被执行掩码[Mask]操作,对于第i个Transformer层,自注意力头Atti的输出的计算公式为:
Q=Hi-1Wi Q,K=Hi-1Wi K,V=Hi-1Wi V
Figure FDA0004148055020000021
Figure FDA0004148055020000022
其中,Q,K,V分别表示查询向量序列、键向量序列和值向量序列,其中WQ、WK、WV分别为不同的可学习参数矩阵,且WQ、WK、WV∈Rd,R表示实数,d为输入向量{S}的维度;attend表示一对数字向量token可以相互关注,掩码[Mask]操作表示对该选中的数字向量token置零、不参与计算,Softmax表示归一化指数函数,KT是K的转置,依据掩码矩阵Mi确定一对token是否可以相互关注,覆盖被编码的特征,让预测时只能关注到与相似问题生成任务相关的特征;
在模型训练当中,随机选择输入向量替换为[MASK],掩码操作在总体比例设定为20%,其中80%的情况下直接用[MASK]替代,10%的情况下随机选择一个替代词,最后10%的情况采用真实值,80%的情况是每次只[Mask]一个词,另外20%的情况是[Mask]掉二元分词或者三元分词;
最后采用Transformer网络计算得到相应的输出向量,再把输出向量传递至softmax分类器中,输出被掩盖的预测文本概率Y=[y1,...,yn];
S03训练模型语言相似问题检索能力:将一个训练批次的batch内的[CLS]向量取出,提取相似度矩阵,计算此批次样本相似度,采用softmax增加相似样本的相似度,具体为:
S03-1将步骤S01中的输入序列{S}={[CLS]SX[SEP]SJ[EOS]}经过24层Transformer编码器单元后,抽取最后一层Transformer编码器单元的[CLS]向量,该向量为经过24层注意力机制计算后所有词的加权平均,作为整句话的上下文语义表示;
S03-2根据文本对应的[CLS]向量计算相似度:整合所抽取的最后一层整个训练批次的batch内的[CLS]向量,得到一个句向量矩阵W∈Rb×d,b表示批次大小batch_size,d表示隐藏层数hidden_size;
S03-3对矩阵W的d维度做L2归一化,得到
Figure FDA0004148055020000023
然后两两做内积得相似度矩阵/>
Figure FDA0004148055020000024
并[Mask]掉对角线部分,最后每一行进行softmax操作,作为一个分类任务训练,计算公式如下:
Figure FDA0004148055020000031
Figure FDA0004148055020000032
Figure FDA0004148055020000033
其中,P([CLS])表示样本的相似度,D表示经L2归一化后的hidden_size大小,
Figure FDA0004148055020000034
表示
Figure FDA0004148055020000035
的转置;
S04输出相似问题文本:模型采用随机采样生成(random sample)函数输出相似问题文本,具体为:
文本生成模块采用随机采样(random sample)函数检索输出概率Y生成相似问题文本,将步骤S02中Transformer编码器输出层最终部分采用softmax分类器将输出概率归一化,通过改变参数控制输出概率,随机采样公式如下:
Figure FDA0004148055020000036
其中T表示可调权重参数,该参数可在执行softmax操作之前重新调整对数,控制输出的多样性,
softmax分类器在每个时间步,选取当前时间步条件概率最大的k个词,作为该时间步的候选输出序列,每轮解码的时候从概率值最高的top(k)里随机采样一个token用于问题生成;
S05对语言生成模型进行优化:定义问题生成损失函数与相似问题检索损失函数对语言生成模型进行优化,整体总损失函数为问题生成损失函数与相似问题检索损失函数的全连接,具体为:
模型优化时语言模型采用交叉熵作为损失函数,计算包括文本生成损失函数和语义相似度损失函数,损失函数为衡量同一个随机变量中的两个不同概率分布的差异程度是最小化真实概率分布与预测概率分布之间的差异,整体总损失函数采用权重参数将上述文本生成损失函数函数和语义相似度损失进行全连接:
Figure FDA0004148055020000037
Figure FDA0004148055020000038
Loss=α*LP+β*LD
其中,m,n表示样本数,LS表示文本生成损失函数,LD表示语义相似度的损失函数,p表示模型在预测中使用的第i个样本的真实分布,q表示模型所预测的概率分布结果,Loss表示联合损失函数,α、β表示可调权重参数。
CN202310309923.4A 2023-03-28 2023-03-28 一种基于Unilm语言模型的相似问题生成方法 Pending CN116341562A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310309923.4A CN116341562A (zh) 2023-03-28 2023-03-28 一种基于Unilm语言模型的相似问题生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310309923.4A CN116341562A (zh) 2023-03-28 2023-03-28 一种基于Unilm语言模型的相似问题生成方法

Publications (1)

Publication Number Publication Date
CN116341562A true CN116341562A (zh) 2023-06-27

Family

ID=86887364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310309923.4A Pending CN116341562A (zh) 2023-03-28 2023-03-28 一种基于Unilm语言模型的相似问题生成方法

Country Status (1)

Country Link
CN (1) CN116341562A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117093696A (zh) * 2023-10-16 2023-11-21 浙江同花顺智能科技有限公司 一种大语言模型的提问文本生成方法、装置、设备及介质
CN117290487A (zh) * 2023-10-27 2023-12-26 知学云(北京)科技股份有限公司 基于大语言模型的自动组卷方法、电子设备及存储介质
CN117725928A (zh) * 2024-02-18 2024-03-19 西南石油大学 基于关键词异构图和语义匹配的金融文本摘要方法
CN117290487B (zh) * 2023-10-27 2024-05-31 知学云(北京)科技股份有限公司 基于大语言模型的自动组卷方法、电子设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117093696A (zh) * 2023-10-16 2023-11-21 浙江同花顺智能科技有限公司 一种大语言模型的提问文本生成方法、装置、设备及介质
CN117093696B (zh) * 2023-10-16 2024-02-02 浙江同花顺智能科技有限公司 一种大语言模型的提问文本生成方法、装置、设备及介质
CN117290487A (zh) * 2023-10-27 2023-12-26 知学云(北京)科技股份有限公司 基于大语言模型的自动组卷方法、电子设备及存储介质
CN117290487B (zh) * 2023-10-27 2024-05-31 知学云(北京)科技股份有限公司 基于大语言模型的自动组卷方法、电子设备及存储介质
CN117725928A (zh) * 2024-02-18 2024-03-19 西南石油大学 基于关键词异构图和语义匹配的金融文本摘要方法
CN117725928B (zh) * 2024-02-18 2024-04-30 西南石油大学 基于关键词异构图和语义匹配的金融文本摘要方法

Similar Documents

Publication Publication Date Title
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
Cao et al. Deep neural networks for learning graph representations
CN113656570B (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN110647619A (zh) 一种基于问题生成和卷积神经网络的常识问答方法
CN110609891A (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN112000791A (zh) 一种电机故障知识抽取系统及方法
CN111144448A (zh) 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN116341562A (zh) 一种基于Unilm语言模型的相似问题生成方法
CN111177376A (zh) 一种基于bert与cnn层级连接的中文文本分类方法
CN111597341B (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN113626589A (zh) 一种基于混合注意力机制的多标签文本分类方法
CN116450796A (zh) 一种智能问答模型构建方法及设备
CN113204633A (zh) 一种语义匹配蒸馏方法及装置
CN116303977B (zh) 一种基于特征分类的问答方法及系统
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
CN113987183A (zh) 一种基于数据驱动的电网故障处置预案辅助决策方法
CN115935975A (zh) 一种情感可控的新闻评论生成方法
CN113254582A (zh) 一种基于预训练模型的知识驱动对话方法
CN115408603A (zh) 一种基于多头自注意力机制的在线问答社区专家推荐方法
CN115391520A (zh) 一种文本情感分类方法、系统、装置及计算机介质
CN113011196B (zh) 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型
CN113420111B (zh) 一种用于多跳推理问题的智能问答方法及装置
CN113656569A (zh) 一种基于上下文信息推理的生成式对话方法
CN113946706A (zh) 基于参考前置描述的图像描述生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination