CN116341562A

CN116341562A - 一种基于Unilm语言模型的相似问题生成方法

Info

Publication number: CN116341562A
Application number: CN202310309923.4A
Authority: CN
Inventors: 覃远年; 黎桂成; 雷送强; 吴冬雪; 宁波; 卢玉胜
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2023-03-28
Filing date: 2023-03-28
Publication date: 2023-06-27

Abstract

本发明公开了一种基于UniLM语言模型的相似问题生成方法，其特征在于，包括如下步骤：S01构建中文问题相似句对数据集；S02构建基于UniLM语言模型的文本生成模块；S03训练模型语言相似问题检索能力；S04输出相似问题文本；S05对语言生成模型进行优化。这种方法能够针对所输入的问句生成相似问句，从多方面对问题进行相似性释义。

Description

一种基于Unilm语言模型的相似问题生成方法

技术领域

本发明涉及人工智能自然语言生成技术领域，特别涉及一种基于UniLM语言模型的相似问题生成方法。

背景技术

当前是一个信息爆炸时代，随着互联网的发展信息量呈现指数级增长，人们需要在海量信息中寻找自己需要的信息。如何有效地利用这些海量数据里的有用信息，为人类的生活助力，一直都是自然语言处理任务中十分重要的研究内容，但即使在如此庞大的文本数据中，数据形式仍然以陈述句的形式为主，而与其相匹配问句，作为人类对未知事物思考的疑问体现，常常是非常匮乏的，由此导致许多领域训练数据有限，只能通过人工标注的形式生成问题。

例如，相似问题生成技术可以用作聊天机器人或问答系统的组件，在传统的问答系统或者智能问答机器人中，人们经常会设置一个常见的、描述明确的问题以及相应的答案，我们把它们称为“标准问答对”，在用户提出问题时，通常会将用户的问题与已设定的标准问答进行相似性计算，找到最接近该问题的标准问，再把它的回答反馈给使用者，从而完成一次问答。但人工设定“标准问答对”需要大量时间和精力，生产高质量的、归纳式的问题也会对操作人员造成很大的压力。如果能把类似的问题自动地产生出来，让用户自己选择，这将会大大减轻人们的工作压力。简单地来说，就是创造与选择的区别，选择比创造要简单地多。

相似问题生成技术可以广泛用于智能客服、辅助教学、智能问答等领域，帮助用户更准确地表达自己的信息需求，从而提高信息检索的效率。也可以通过生成质量高、意义明确的问题，以帮助人们更好地理解语言信息和知识。

发明内容：

本发明的目的是针对现有技术的不足，而提供一种基于UniLM语言模型的相似问题生成方法。

这种方法能够针对所输入的问句生成相似问句，从多方面对问题进行相似性释义。

实现本发明目的的技术方案是：

一种基于UniLM语言模型的相似问题生成方法，包括如下步骤：

S01构建中文问题相似句对数据集I＝[(x₁,j₁),(x₂,j₂),...,(x_n,j_n)]：从大数据平台爬取问答语料，基于语料对于同一个问题有多个答案，答案语义相似句式不同，将每个答案分句，首先采用余弦距离相似度函数比较答案之间的相似度，然后根据余弦距离相似度所表示的源问句与相似问句的语义相似度，挑出相似度超过特定阈值的句对汇集作为相似句对数据集I＝[(x₁,j₁),(x₂,j₂),...,(x_n,j_n)]使用，特定阈值设为0.7，具体为：

中文问题相似句对数据集I＝[(x₁,j₁),(x₂,j₂),...,(x_n,j_n)]中x_n表示源问句，j_n表示与源问句相应的相似语义问句，余弦距离相似度函数表达式为：

x＝(x₁,...,x_n)，

j＝(j₁,...,j_n)，

根据

所表示的源问句与相似问句的语义相似度，对I＝[(x₁,j₁),(x₂,j₂),...,(x_n,j_n)]的源问句与相似问句进行拼接，拼接操作完成后所构造的输入序列向量形式为：

{S}＝{[CLS]S_X[SEP]S_J[EOS]}，

S_X＝[token₁,...,token_n]，

S_J＝[token₁,...,token_m]，

其中，S_X和S_J分别表示源问句的向量编码与相似问句的向量编码，token表示编码后的数字向量，[CLS]表示此输入序列的头端，两段文本以[SEP]符号分割，[EOS]表示输入序列的结束；

S02构建基于UniLM语言模型的文本生成模块：构建基于UniLM语言模型的文本生成模块完成通过源问句来预测另一句的相似句生成任务，文本生成模块架构由多层Transformer的Encoder编码器单元叠加组成，通过随机掩盖输入序列中15％比例的token，让模型学习恢复被掩盖的词，训练目标是基于上下文最大化被掩盖token的似然度，通过掩码训练模型文本预测能力，输出预测文本的概率，具体为：

采用24层Transformer编码器单元组成语言模型网络，输入序列{S}首先被转换成H⁰＝[S₁,....S_|s|]，然后送入该24层Transformer网络得到最终的特征向量，再抽象编码成不同Transformer层次的上下文表示，每一层编码输出如下：

在每一层Transformer编码器块中，采用多个self-attention heads来聚合前一层的输出向量，并通过掩码矩阵M_i来控制每个词的注意力范围，0表示可以关注，负无穷表示不能关注、会被执行掩码[Mask]操作，对于第i个Transformer层，自注意力头Att_i的输出的计算公式为：

Q＝H_i-1W_i ^Q，K＝H_i-1W_i ^K，V＝H_i-1W_i ^V，

其中，Q,K,V分别表示查询向量序列、键向量序列和值向量序列，其中W^Q、W^K、W^V分别为不同的可学习参数矩阵，且W^Q、W^K、W^V∈R^d，R表示实数，d为输入向量{S}的维度；attend表示一对数字向量token可以相互关注，掩码[Mask]操作表示对该选中的数字向量token置零、从而不参与计算，Softmax表示归一化指数函数，K^T是K的转置，依据掩码矩阵M_i确定一对token是否可以相互关注，覆盖被编码的特征，让预测时只能关注到与相似问题生成任务相关的特征，从而实现了相似问题生成训练；

在模型训练当中，会随机选择输入向量替换为[MASK]，掩码操作在总体比例设定为20％，其中80％的情况下直接用[MASK]替代，10％的情况下随机选择一个替代词，最后10％的情况采用真实值，还有就是80％的情况是每次只[Mask]一个词，另外20％的情况是[Mask]掉二元分词或者三元分词；

最后采用Transformer网络计算得到相应的输出向量，再把输出向量传递至softmax分类器中，输出被掩盖的预测文本概率Y＝[y₁,...,y_n]，通过随机掩盖一些目标序列，学习去预测被掩码的词；

S03训练模型语言相似问题检索能力：将一个训练批次的batch内的[CLS]向量取出，提取相似度矩阵，计算此批次样本相似度，采用softmax增加相似样本的相似度，降低其余样本的相似度，达到相似文本检索训练的目的，具体为：

S03-1将步骤S01中的输入序列{S}＝{[CLS]S_X[SEP]S_J[EOS]}经过24层Transformer编码器单元后,抽取最后一层Transformer编码器单元的[CLS]向量，该向量为经过24层注意力机制计算后所有词的加权平均，可以作为整句话的上下文语义表示；

S03-2根据文本对应的[CLS]向量计算相似度：整合所抽取的最后一层整个训练批次的batch内的[CLS]向量，得到一个句向量矩阵W∈R^b×d，b表示批次大小batch_size，d表示隐藏层数hidden_size；

S03-3然后对矩阵W的d维度做L2归一化，得到

然后两两做内积得相似度矩阵

并[Mask]掉对角线部分，最后每一行进行softmax操作，作为一个分类任务训练，计算公式如下：

其中，P([CLS])表示样本的相似度，D表示经L2归一化后的hidden_size大小，

表示/>

的转置，每个样本的训练目标标签是它的相似问句，源问句则已经被[Mask]掉，这样就把一个批次batch内所有的非相似样本都当作负样本，借助softmax来增加相似样本的相似度，降低其余样本的相似度，达到相似文本检索训练的目的；

S04输出相似问题文本：为使生成结果具有多样性，模型采用随机采样生成(random sample)函数输出相似问题文本，具体为：

文本生成模块采用随机采样(random sample)函数检索输出概率Y生成相似问题文本，可使生成结果具有多样性，将步骤S02中Transformer编码器输出层最终部分采用softmax分类器来将输出概率归一化，通过改变参数控制输出概率，随机采样公式如下：

其中T表示可调权重参数，该参数可在执行softmax操作之前重新调整对数，控制输出的多样性，

softmax分类器在每个时间步，选取当前时间步条件概率最大的k个词，作为该时间步的候选输出序列，每轮解码的时候会从概率值最高的top(k)里随机采样一个token用于问题生成；

S05对语言生成模型进行优化：定义问题生成损失函数与相似问题检索损失函数对语言生成模型进行优化，整体总损失函数为问题生成损失函数与相似问题检索损失函数的全连接，具体为：

模型优化时语言模型采用交叉熵作为损失函数，计算包括文本生成损失函数和语义相似度损失函数，损失函数为衡量同一个随机变量中的两个不同概率分布的差异程度是最小化真实概率分布与预测概率分布之间的差异，整体总损失函数采用权重参数将上述文本生成损失函数函数和语义相似度损失进行全连接：

Loss＝α*L_P+β*L_D，

其中，m,n表示样本数，L_S表示文本生成损失函数，L_D表示语义相似度的损失函数，p表示模型在预测中使用的第i个样本的真实分布，q表示模型所预测的概率分布结果，Loss表示联合损失函数，α、β表示可调权重参数。

本技术方案中问题文本生成过程包括：构建训练数据预料，对源问句与相似语句进行拼接操作作为输入；构建由24层Transformer编码器组成的UniLM模型网络，采用掩码策略训练模型的问题生成能力，每个单元输出的y_i是各个词的概率，采用随机采样方法检索概率输出文本，采用交叉熵函数对问题生成模型进行优化，当联合损失函数迭代到最小时得到训练好的模型；

本技术方案中问题文本检索过程包括：根据文本对应的[CLS]向量计算相似度，[CLS]已通过自注意力机制获取到句子级别的信息表示，将一个训练批次的batch内的[CLS]向量取出，提取相似度矩阵，计算此批次样本相似度，再把一个训练批次batch里面不相似的样本作为负样本，然后采用softmax函数计算相似样本的相似度，捕捉文本相似性计算任务环境下的上下文信息表示。

本技术方案采用上述过程对语言模型做联合训练使其同时具备生成能力与检索能力，能够针对相似问题生成任务实现相似文本输出，用户将提问内容输入到训练好的相似问题生成模型中，最终得到与源问句具有相似语义的回复语句，本技术方案可广泛用于智能客服，辅助教学、智能问答等领域，通过将语言信息转化为明确的问题，帮助人们更方便的满足自身需求。

附图说明

图1为实施例的方法流程示意图；

图2为实施例的模型结构示意图。

具体实施方式

下面结合附图和实施例对本发明的内容做进一步的阐述，但不是对本发明的限定。

实施例：

参照图1、图2，一种基于UniLM语言模型的相似问题生成方法，包括如下步骤：

S01构建中文问题相似句对数据集I＝[(x₁,j₁),(x₂,j₂),...,(x_n,j_n)]：从大数据平台爬取问答语料，基于语料对于同一个问题有多个答案，答案语义相似句式不同，将每个答案分句，首先采用余弦距离相似度函数比较答案之间的相似度，然后根据余弦距离相似度所表示的源问句与相似问句的语义相似度，挑出相似度超过特定阈值的句对汇集作为相似句对数据集I＝[(x₁,j₁),(x₂,j₂),...,(x_n,j_n)]使用，本例特定阈值设为0.7，具体为：

x＝(x₁,...,x_n)，

j＝(j₁,...,j_n)，

根据

{S}＝{[CLS]S_X[SEP]S_J[EOS]}，

S_X＝[token₁,...,token_n]，

S_J＝[token₁,...,token_m]，

Q＝H_i-1W_i ^Q，K＝H_i-1W_i ^K，V＝H_i-1W_i ^V，

S03-3然后对矩阵W的d维度做L2归一化，得到

然后两两做内积得相似度矩阵

表示/>

本例中，文本生成模块采用随机采样(random sample)函数检索输出概率Y生成相似问题文本，可使生成结果具有多样性，将步骤S02中Transformer编码器输出层最终部分采用softmax分类器来将输出概率归一化，通过改变参数控制输出概率，随机采样公式如下：

本例中，模型优化时语言模型采用交叉熵作为损失函数，计算包括文本生成损失函数和语义相似度损失函数，损失函数为衡量同一个随机变量中的两个不同概率分布的差异程度是最小化真实概率分布与预测概率分布之间的差异，整体总损失函数采用权重参数将上述文本生成损失函数函数和语义相似度损失进行全连接：

Loss＝α*L_P+β*L_D，

Claims

1.一种基于UniLM语言模型的相似问题生成方法，其特征在于，包括如下步骤：

x＝(x₁,...,x_n)，

j＝(j₁,...,j_n)，

根据cos(x·j)所表示的源问句与相似问句的语义相似度，对I＝[(x₁,j₁),(x₂,j₂),...,(x_n,j_n)]的源问句与相似问句进行拼接，拼接操作完成后所构造的输入序列向量形式为：

{S}＝{[CLS]S_X[SEP]S_J[EOS]}，

S_X＝[token₁,...,token_n]，

S_J＝[token₁,...,token_m]，

S02构建基于UniLM语言模型的文本生成模块：文本生成模块架构由多层Transformer的Encoder编码器单元叠加组成，通过随机掩盖输入序列中15％比例的token，让模型学习恢复被掩盖的词，训练目标是基于上下文最大化被掩盖token的似然度，输出预测文本的概率，具体为：

在每一层Transformer编码器块中，采用多个self-attention heads来聚合前一层的输出向量，并通过掩码矩阵M_i控制每个词的注意力范围，0表示可以关注，负无穷表示不能关注、会被执行掩码[Mask]操作，对于第i个Transformer层，自注意力头Att_i的输出的计算公式为：

Q＝H_i-1W_i ^Q，K＝H_i-1W_i ^K，V＝H_i-1W_i ^V，

其中，Q,K,V分别表示查询向量序列、键向量序列和值向量序列，其中W^Q、W^K、W^V分别为不同的可学习参数矩阵，且W^Q、W^K、W^V∈R^d，R表示实数，d为输入向量{S}的维度；attend表示一对数字向量token可以相互关注，掩码[Mask]操作表示对该选中的数字向量token置零、不参与计算，Softmax表示归一化指数函数，K^T是K的转置，依据掩码矩阵M_i确定一对token是否可以相互关注，覆盖被编码的特征，让预测时只能关注到与相似问题生成任务相关的特征；

在模型训练当中，随机选择输入向量替换为[MASK]，掩码操作在总体比例设定为20％，其中80％的情况下直接用[MASK]替代，10％的情况下随机选择一个替代词，最后10％的情况采用真实值，80％的情况是每次只[Mask]一个词，另外20％的情况是[Mask]掉二元分词或者三元分词；

最后采用Transformer网络计算得到相应的输出向量，再把输出向量传递至softmax分类器中，输出被掩盖的预测文本概率Y＝[y₁,...,y_n]；

S03训练模型语言相似问题检索能力：将一个训练批次的batch内的[CLS]向量取出，提取相似度矩阵，计算此批次样本相似度，采用softmax增加相似样本的相似度，具体为：

S03-1将步骤S01中的输入序列{S}＝{[CLS]S_X[SEP]S_J[EOS]}经过24层Transformer编码器单元后,抽取最后一层Transformer编码器单元的[CLS]向量，该向量为经过24层注意力机制计算后所有词的加权平均，作为整句话的上下文语义表示；

S03-3对矩阵W的d维度做L2归一化，得到

然后两两做内积得相似度矩阵/>

表示

的转置；

S04输出相似问题文本：模型采用随机采样生成(random sample)函数输出相似问题文本，具体为：

文本生成模块采用随机采样(random sample)函数检索输出概率Y生成相似问题文本，将步骤S02中Transformer编码器输出层最终部分采用softmax分类器将输出概率归一化，通过改变参数控制输出概率，随机采样公式如下：

softmax分类器在每个时间步，选取当前时间步条件概率最大的k个词，作为该时间步的候选输出序列，每轮解码的时候从概率值最高的top(k)里随机采样一个token用于问题生成；

Loss＝α*L_P+β*L_D，