CN113239160B

CN113239160B - 一种问题生成方法、装置及存储介质

Info

Publication number: CN113239160B
Application number: CN202110475983.4A
Authority: CN
Inventors: 蔡晓东; 高铸成
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2022-08-12
Anticipated expiration: 2041-04-29
Also published as: CN113239160A

Abstract

本发明提供一种问题生成方法、装置及存储介质，方法包括：导入三元组，所述三元组包括段落向量组、原始问题向量组和答案向量组；对所述段落向量组和所述答案向量组进行拼接，得到拼接向量组；构建训练模型，通过所述训练模型对所述拼接向量组和所述原始问题向量组进行训练分析，得到已训练问题向量组；根据所述已训练问题向量组和所述原始问题向量组对所述训练模型进行更新分析，得到最终模型。本发明增强了生成问题与上下文以及答案之间的匹配程度，得到的最终模型能够将待测段落向量组和待测答案向量组的问题生成处理得到问题生成结果，更容易收敛，解决了生成的问题与所给上下文和答案匹配性不高的问题，增强了鲁棒性。

Description

一种问题生成方法、装置及存储介质

技术领域

本发明主要涉及文本处理技术领域，具体涉及一种问题生成方法、装置及存储介质。

背景技术

自然问题生成(Natura l Quest i on Generat i on)即问题生成，其具有许多应用，比如改进自动问答任务，以教育为目的生成相关练习等等，传统的问题生成依赖启发式规则和人为给定的模板来进行，这样的方法通用性低，可扩展性低。近年来，主要运用神经网络方法(NN)来执行该任务，也取得了不错的成就，但依然存在着生成的问题与所给上下文和答案匹配性不高等问题。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种问题生成方法、装置及存储介质。

本发明解决上述技术问题的技术方案如下：一种问题生成方法，包括如下步骤：

导入三元组，所述三元组包括段落向量组、原始问题向量组和答案向量组；

对所述段落向量组和所述答案向量组进行拼接，得到拼接向量组；

构建训练模型，通过所述训练模型对所述拼接向量组和所述原始问题向量组进行训练分析，得到已训练问题向量组；

根据所述已训练问题向量组和所述原始问题向量组对所述训练模型进行更新分析，得到最终模型；

导入待测段落向量组和待测答案向量组，并通过所述最终模型对所述待测段落向量组和所述待测答案向量组进行问题生成处理，得到问题生成结果。

本发明解决上述技术问题的另一技术方案如下：一种问题生成装置，包括：

三元组导入模块，用于导入三元组，所述三元组包括段落向量组、原始问题向量组和答案向量组；

拼接模块，用于对所述段落向量组和所述答案向量组进行拼接，得到拼接向量组；

训练分析模块，用于构建训练模型，通过所述训练模型对所述拼接向量组和所述原始问题向量组进行训练分析，得到已训练问题向量组；

更新分析模块，用于根据所述已训练问题向量组和所述原始问题向量组对所述训练模型进行更新分析，得到最终模型；

问题生成结果获得模块，用于导入待测段落向量组和待测答案向量组，并通过所述最终模型对所述待测段落向量组和所述待测答案向量组进行问题生成处理，得到问题生成结果。

本发明解决上述技术问题的另一技术方案如下：一种问题生成装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现如上所述的问题生成方法。

本发明解决上述技术问题的另一技术方案如下：一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的问题生成方法。

本发明的有益效果是：通过对段落向量组和答案向量组的拼接得到拼接向量组，通过训练模型对拼接向量组和原始问题向量组的训练分析得到已训练问题向量组，根据已训练问题向量组和原始问题向量组对训练模型的更新分析得到最终模型，增强了生成问题与上下文以及答案之间的匹配程度，得到的最终模型能够将待测段落向量组和待测答案向量组的问题生成处理得到问题生成结果，更容易收敛，解决了生成的问题与所给上下文和答案匹配性不高的问题，增强了鲁棒性。

附图说明

图1为本发明实施例提供的问题生成方法的流程示意图；

图2为本发明实施例提供的问题生成方法的编码流程框图；

图3为本发明实施例提供的问题生成装置的模块框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例提供的问题生成方法的流程示意图。

如图1所示，一种问题生成方法，包括如下步骤：

应理解地，所述三元组包括文本段落(即所述段落向量组)、与文本段落相关的一个问题(即所述原始问题向量组)、根据问题在文本段落中能找到的相关答案(即所述答案向量组)。

应理解地，对数据集进行预处理，将所述三元组中的文本段落(即所述段落向量组)与答案(即所述答案向量组)拼接在一起作为输入数据，将问题(即所述原始问题向量组)单独放置。我们的目的就是训练一个模型，使模型通过输入数据，能够自动生成一个问题去匹配前者，且希望生成的问题能够无限接近初始所给出的问题。

应理解地，对所述训练模型进行更新分析增强了模型的鲁棒性。

具体地，将所述三元组记为(X,Y,Z)。其中X＝{x₁,x₂,…,x_i}为文本段落(即所述段落向量组)，其中x_i为单词，i为文本段落长度，同理Y＝{y₁,y₂,…,y_j}为问题(即所述原始问题向量组)，Z＝{z₁,z₂,…,z_k}为答案(即所述答案向量组)。

应理解地，生成问题包括所述问题生成结果，上下文包括所述段落向量组或者所述测段落向量组，答案包括所述答案向量组或者所述测段落向量组。

上述实施例中，通过对段落向量组和答案向量组的拼接得到拼接向量组，通过训练模型对拼接向量组和原始问题向量组的训练分析得到已训练问题向量组，根据已训练问题向量组和原始问题向量组对训练模型的更新分析得到最终模型，增强了生成问题与上下文以及答案之间的匹配程度，得到的最终模型能够将待测段落向量组和待测答案向量组的问题生成处理得到问题生成结果，更容易收敛，解决了生成的问题与所给上下文和答案匹配性不高的问题，增强了鲁棒性。

可选地，作为本发明的一个实施例，所述对所述段落向量组和所述答案向量组进行拼接，得到拼接向量组的过程包括：

通过第一式对所述段落向量组和所述答案向量组进行拼接，得到拼接向量组，所述第一式为：

s＝f(W_s[x₁；x₂；…；x_i；z₁；z₂；…；z_k]+b_s)，

其中，s为拼接向量组，f为非线性函数，W_s为权重矩阵，x_i为段落向量组中第i个段落向量，z_k为答案向量组中第k个段落向量，b_s为偏置向量，[；]为数据之间的拼接。

上述实施例中，通过第一式对段落向量组和答案向量组的拼接得到拼接向量组，为后续处理提供基础数据，增强了生成问题与上下文和答案之间的匹配程度，使模型更容易收敛于优化。

可选地，作为本发明的一个实施例，所述训练模型包括编码器和解码器，所述拼接向量组包括多个拼接向量，所述构建训练模型，通过所述训练模型对所述拼接向量组和所述原始问题向量组进行训练分析，得到已训练问题向量组的过程包括：

判断各个所述拼接向量是否为所述原始问题向量组中任一原始问题向量，若是，则将预设第一标签向量作为与所述拼接向量对应的标签向量；若否，则将预设第二标签向量作为与所述拼接向量对应的标签向量；

分别根据各个所述拼接向量对与所述拼接向量对应的标签向量进行向量拼接，得到与所述拼接向量对应的标签拼接向量；

通过所述编码器依次对各个所述标签拼接向量进行编码，得到与所述拼接向量对应的编码向量；

通过所述解码器依次对各个所述编码向量进行解码，得到与所述编码向量对应的单词向量，并集合所有的单词向量得到已训练问题向量组。

优选地，所述预设第一标签向量可以为1，所述预设第二标签向量可以为0。

应理解地，将所述已训练问题向量组记为：Q＝{q₁,q₂,…,q_T}。

应理解地，对输入数据通过编码器进行编码，编码后得到输入数据的向量表示(即所述编码向量)；将编码器输出送入解码器，结合注意力机制和复制机制进行解码，生成问题(即所述已训练问题向量组)。

具体地，如图2所示，将所述拼接向量组s在每一时刻的输入表示为所述拼接向量e_t，即它在时间步t的当前单词嵌入，应理解为，所述拼接向量组s中包含着X,Z的所有单词嵌入，在每一个时间步t，往编码网络(即所述编码器)输入一个单词嵌入，即所述拼接向量e_t；使用一个所述标签向量p_t，指示e_t是否在所给的所述原始问题向量组Y中出现，即每一时刻送入所述编码器的向量为{e_t；p_t}。这一步可以理解为，t时刻输入的单词(即所述拼接向量)e_t是否在所述原始问题向量组Y中出现过，若出现过，我们就希望最终由模型生成的问题中也出现这个词。其中p_t是在所述原始问题向量组Y中预先设置好的标签，分为两类0和1。即{e_t；0}代表单词(即所述拼接向量)e_t没有在所述原始问题向量组Y中出现过，反之{e_t；1}表示(即所述拼接向量)e_t在所述原始问题向量组Y中出现过。

上述实施例中，通过训练模型对拼接向量组和原始问题向量组的训练分析得到已训练问题向量组，增强了生成问题与上下文和答案之间的匹配程度，使模型更容易收敛于优化。

可选地，作为本发明的一个实施例，所述通过所述编码器依次对各个所述标签拼接向量进行编码，得到与所述拼接向量对应的编码向量的过程包括：

获取当前时刻，并通过Bi-LSTM双向长短期记忆网络对当前时刻的标签拼接向量进行编码，得到当前时刻的编码向量，并获取下一时刻，通过所述Bi-LSTM双向长短期记忆网络对下一时刻的标签拼接向量进行编码，直至所有的标签拼接向量编码完成，从而得到与所述拼接向量对应的编码向量，具体为：

通过第一方程式对上一时刻的隐藏层状态、上一时刻的网络细胞状态和当前时刻的标签拼接向量进行编码，得到当前时刻的编码向量、当前时刻的隐藏层状态和当前时刻的网络细胞状态，直至所有的标签拼接向量编码完成，从而得到与所述拼接向量对应的编码向量，所述第一方程式为：

o_t＝σ(W_io{e_t；p_t}+b_io+W_hoh_t-1+b_ho)，

c_t＝f_tc_t-1+i_tg_t，

h_t＝o_ttanh(c_t)，

其中，i_t＝σ(W_ii{e_t；p_t}+b_ii+U_hih_t-1+b_hi)，f_t＝σ(W_if{e_t；p_t}+b_if+W_hfh_t-1+b_hf)，g_t＝tanh(W_ig{e_t；p_t}+b_ig+W_hgh_t-1+b_hg)，

其中，o_t为t时刻的编码向量，W_io、W_ho、W_ii、U_hi、W_if、W_hf、W_ig、W_hg均为权重矩阵，{e_t；p_t}为t时刻的标签拼接向量，b_io、b_ho、b_ii、b_hi、b_if、b_hf、b_ig、b_hg为偏置向量，h_t-1为Bi-LSTM双向长短期记忆网络t-1时刻的隐藏层状态，c_t为t时刻的网络细胞状态，f_t为遗忘门，c_t-1为t-1时刻的网络细胞状态，i_t为输入门，g_t为记忆信息，h_t为Bi-LSTM双向长短期记忆网络t时刻的隐藏层状态，σ为sigmoid函数。

应理解地，所述Bi-LSTM双向长短期记忆网络是Bi-directional Long Short-Term Memory的缩写，是由前向LSTM与后向LSTM组合而成。在自然语言处理任务中都常被用来建模上下文信息。

上述实施例中，通过编码器依次对各个标签拼接向量的编码得到与拼接向量对应的编码向量，为后续处理奠定基础，增强了生成问题与上下文和答案之间的匹配程度，使模型更容易收敛于优化。

可选地，作为本发明的一个实施例，所述通过所述解码器依次对各个所述编码向量进行解码，得到与所述编码向量对应的单词向量，并根据多个单词向量得到已训练问题向量组的过程包括：

再次获取当前时刻，并通过LSTM长短期记忆人工神经网络对当前时刻的编码向量进行解码，得到当前时刻的单词向量，并再次获取下一时刻，通过所述LSTM长短期记忆人工神经网络对下一时刻的编码向量进行解码，直至所有的编码向量编码完成，从而得到与所述编码向量对应的单词向量，并根据多个单词向量得到已训练问题向量组，具体为：

通过第二式对当前时刻的编码向量以及当前时刻之前所有的单词向量进行解码，得到当前时刻的单词向量，直至所有的编码向量解码完成，从而得到与所述编码向量对应的单词向量，所述第二式为：

p(q_T|{q₁，q₂，…,q_T-1},u)＝δ(q_T-1,d_T,u_T)，

其中，d_T＝ε(d_T-1,q_T-1,u_T)，q₁＝δ(d₁,u₁)，

其中，u_T＝α₁d₁+α₂d₂+…+α_Td_T＝∑α_Td_T，

其中，α_T∝exp(d_TW_au)，

其中，q_T为T时刻的单词向量，q_T-1为T-1时刻的单词向量，δ为softmax函数，d_T为LSTM长短期记忆人工神经网络T时刻的隐藏状态，u为当前时刻的编码向量，u_T为上下文向量，ε为非线性函数，α_T为注意力分数，∑α_T＝α₁+α₂+…+α_T＝1，W_a为权重矩阵，d₁为LSTM长短期记忆人工神经网络第一时刻的隐藏状态，q₁为第一时刻的单词向量，h_t为Bi-LSTM双向长短期记忆网络t时刻的隐藏层状态。

应理解地，所述LSTM长短期记忆人工神经网络即长短期记忆网络(LSTM，LongShort-Term Memory)，其是一种时间循环神经网络，是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中，这个重复的结构模块只有一个非常简单的结构，例如一个tanh层。

应理解地，解码过程，使用带有注意力机制的LSTM网络进行解码，所述解码器与所述编码器的LSTM网络算法一致，通过所述编码器输出的所述编码向量u和所有先前预测的所述单词向量{q₁，q₂,…，q_T-1}生成下一个单词向量q_T；u_T是编码器输出的所述编码向量u经注意力机制计算后得到的上下文向量表示(即所述上下文向量)。

上述实施例中，通过解码器依次对各个编码向量的解码得到已训练问题向量组，为后续处理奠定基础，增强了生成问题与上下文和答案之间的匹配程度，使模型更容易收敛于优化。

可选地，作为本发明的一个实施例，所述根据所述已训练问题向量组和所述原始问题向量组对所述训练模型进行更新分析，得到最终模型的过程包括：

利用截断损失算法分别对所述原始问题向量组和所述已训练问题向量组进行筛选，并集合经筛选的原始问题向量得到筛选后的原始问题向量组，集合经筛选的已训练问题向量得到筛选后的已训练问题向量组；

对所述筛选后的原始问题向量组和所述筛选后的已训练问题向量组进行损失值的计算，得到交叉熵损失值；

根据所述交叉熵损失值对所述训练模型进行参数更新，得到更新后的训练模型；

对参数更新的次数进行统计，若所述参数更新的次数小于或等于第一预设次数时，则重新导入三元组；

若所述参数更新的次数大于所述第一预设次数且小于或等于第二预设次数时，则对所述更新后的训练模型进行存储，得到存储模型，并重新导入三元组；

若所述参数更新的次数大于所述第二预设次数时，则利用EMA指数滑动平均算法对所有的存储模型进行参数调优处理，得到最终模型；

其中，所述第一预设次数小于所述第二预设次数。

应理解地，使用指数滑动平均EMA算法进行调优，其原理如下：

M_t＝βM_t-1+(1-β)θ_t，

其中，变量M在t时刻记为M_t，θ_t为M在t时刻的取值，β是一个属于[0,1)的数，一般将其设置在0.999。

更直观的理解为：在本模型最后的1000轮训练中，模型处于收敛抖动状态，我们取其抖动的1000次做平均，这样得到的权重将更具备鲁棒性。

上述实施例中，根据已训练问题向量组和原始问题向量组对训练模型的更新分析得到最终模型，增强了模型的鲁棒性，解决了生成的问题与所给上下文和答案匹配性不高等问题。

可选地，作为本发明的一个实施例，所述对所述筛选后的原始问题向量组和所述筛选后的已训练问题向量组进行损失值的计算，得到交叉熵损失值的过程包括：

通过第三式对所述筛选后的原始问题向量组和所述筛选后的已训练问题向量组进行损失值的计算，得到交叉熵损失值，所述第三式为：

L_CE＝-p(Y_τ)log(Q_τ)，

其中，Y_τ为筛选后的原始问题向量组，Q_τ为筛选后的已训练问题向量组，L_CE为交叉熵损失值。

具体地，通过将所述已训练问题向量组Q与所述原始问题向量组Y进行交叉熵损失计算：

L_CE＝-p(Y)log(Q)，

在交叉熵损失基础上，引入截断损失，截断损失的意义在于：交叉熵损失这类对数损失虽然容易计算与优化，有利于匹配大规模语料库的分布特性。但是倘若训练数据中噪音较多，会使模型遭受很大损失，不利于模型收敛。截断损失可以自适应的去掉对数损失最高的例子，使模型更容易收敛于优化。

故新的交叉熵损失函数为：

L_CE＝-p(Y_τ)log(Q_τ)，

与传统交叉熵损失不同的地方在于，Y_τ与Q_τ是已通过截断损失自适应删除了产生高损失的例子，使得整个模型更容易收敛。

上述实施例中，通过第三式对筛选后的原始问题向量组和筛选后的已训练问题向量组的损失值的计算得到交叉熵损失值，能够自适应的去掉对数损失最高的例子，使模型更容易收敛于优化增强了模型的鲁棒性，解决了生成的问题与所给上下文和答案匹配性不高等问题。

图3为本发明实施例提供的问题生成装置的模块框图。

可选地，作为本发明的另一个实施例，如图3所示，一种问题生成装置，包括：

可选地，本发明的另一个实施例提供一种问题生成装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现如上所述的问题生成方法。该装置可为计算机等装置。

可选地，本发明的另一个实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的问题生成方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种问题生成方法，其特征在于，包括如下步骤：

导入待测段落向量组和待测答案向量组，并通过所述最终模型对所述待测段落向量组和所述待测答案向量组进行问题生成处理，得到问题生成结果；

所述训练模型包括编码器和解码器，所述拼接向量组包括多个拼接向量，所述构建训练模型，通过所述训练模型对所述拼接向量组和所述原始问题向量组进行训练分析，得到已训练问题向量组的过程包括：

通过所述解码器依次对各个所述编码向量进行解码，得到与所述编码向量对应的单词向量，并集合所有的单词向量得到已训练问题向量组；

所述根据所述已训练问题向量组和所述原始问题向量组对所述训练模型进行更新分析，得到最终模型的过程包括：

其中，所述第一预设次数小于所述第二预设次数。

2.根据权利要求1所述的问题生成方法，其特征在于，所述对所述段落向量组和所述答案向量组进行拼接，得到拼接向量组的过程包括：

s＝f(W_s[x₁；x₂；…；x_i；z₁；z₂；…；z_k]+b_s)，

3.根据权利要求1所述的问题生成方法，其特征在于，所述通过所述编码器依次对各个所述标签拼接向量进行编码，得到与所述拼接向量对应的编码向量的过程包括：

o_t＝σ(W_io{e_t；p_t}+b_io+W_hoh_t-1+b_ho)，

c_t＝f_tc_t-1+i_tg_t，

h_t＝o_ttanh(c_t)，

4.根据权利要求3所述的问题生成方法，其特征在于，所述通过所述解码器依次对各个所述编码向量进行解码，得到与所述编码向量对应的单词向量，并根据多个单词向量得到已训练问题向量组的过程包括：

p(q_T|{q₁,q₂,…,q_T-1},u)＝δ(q_T-1,d_T,u_T)，

其中，d_T＝ε(d_T-1,q_T-1,u_T)，q₁＝δ(d₁,u₁)，

其中，u_T＝α₁d₁+α₂d₂+…+α_Td_T＝∑α_Td_T，

其中，α_T∝exp(d_TW_au)，

5.根据权利要求1所述的问题生成方法，其特征在于，所述对所述筛选后的原始问题向量组和所述筛选后的已训练问题向量组进行损失值的计算，得到交叉熵损失值的过程包括：

L_CE＝-p(Y_τ)log(Q_τ)，

6.一种问题生成装置，其特征在于，包括：

问题生成结果获得模块，用于导入待测段落向量组和待测答案向量组，并通过所述最终模型对所述待测段落向量组和所述待测答案向量组进行问题生成处理，得到问题生成结果；

所述训练模型包括编码器和解码器，所述拼接向量组包括多个拼接向量，所述训练分析模块具体用于：

所述更新分析模块具体用于：

其中，所述第一预设次数小于所述第二预设次数。

7.一种问题生成装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，当所述处理器执行所述计算机程序时，实现如权利要求1至5任一项所述的问题生成方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，当所述计算机程序被处理器执行时，实现如权利要求1至5任一项所述的问题生成方法。