CN113076078B

CN113076078B - 一种基于混合驱动的对话式信息获取方法

Info

Publication number: CN113076078B
Application number: CN202110401008.9A
Authority: CN
Inventors: 陈竹敏; 刘中坤; 任鹏杰; 任昭春
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-03-11
Filing date: 2021-04-14
Publication date: 2022-03-22
Anticipated expiration: 2041-04-14
Also published as: CN113076078A

Abstract

本发明属于信息获取领域，特别涉及基于混合驱动的对话式信息获取方法。一种基于混合驱动的对话式信息获取方法，包括以下步骤：构建改写模型；采用动态规划采样‑训练机制训练所述模型的参数；采用训练完成的模型，输入冗余问题并对其进行改写，输出简洁问题。本发明基于修改过程没有标签、无法监督学习的情况，创造性地提出了基于动态规划的采样‑训练方式，相较于传统的强化学习采样方式，这样采样‑训练可以考虑标签之间的内部联系，促使模型采样更优质的标签，提高模型性能。

Description

一种基于混合驱动的对话式信息获取方法

技术领域

本发明属于信息获取领域，特别涉及基于混合驱动的对话式信息获取方法。

背景技术

对话式信息获取，即将传统的基于检索的信息获取过程，通过人机对话接口，更加方便的得以使用。这时，人与机器对话的过程，不仅可以极大程度用来满足用户的信息需求，而且能够提高用户的满意度。目前，对话式信息获取的相关工作已经有初步的产品，并且给人类生活带来了巨大便利。例如：虚拟助手形式的对话产品(苹果siri和微软小娜)，闲聊形式的对话产品(微软小冰)，以及智能音箱形式的对话产品(亚马逊Echo、百度小度、小米小爱)。

对话式信息获取有很多亟待解决的挑战，如混合驱动的特性，即为其中之一。该特性认为，系统不应该只是单方面回应用户的问题，而是应该根据信息获取的结果主动询问用户问题，以更快地满足用户的信息需求，提高用户满意度。因此，如何让系统提出有效的、简洁自然的问题，是一个具有重要意义的课题。有效性是指，要与当前对话相关，同时能够帮助更好地满足用户需求。目前，两种方法能够赋能系统提出问题。1.第一类方法是生成法。他们利用一个问题生成器，直接生成自然的问题。但是，他们没法保证生成的问题能够包含用户需求的信息，即无法保证问题的有效性。2.第二类方法是检索法。他们通过检索一个大型问题库，找到并返回最契合当前用户需求的问题，因此能够极大程度满足问题的有效性。但是该问题往往是一个完整的问题，包含很多冗余的信息，例如对之前提到的内容重复叙述，使得回复不够自然、简洁。因此，当前主流的两类方法都有明显的问题，无法让系统提出较好的问题。

一个新兴的方法认为，可以通过对第二类检索法中检索到的问题(下称冗余问题)，进行一定的改写，减少冗余，使得新问题(下称简洁问题)同时满足有效性和简洁自然这两大特性。这类新兴的方法往往采用一个生成器输入冗余问题生成一个简洁问题，并且已经取得了不错的效果。但是，他们没有考虑到冗余问题与简洁问题之间高度的重合性，而是平等的看待每一个词语，这使得生成器总是倾向于生成一些容易的词语，比如在原始的冗余问题中出现的词语，无法更好地关注冗余问题与简洁问题之间的差异。

发明内容

为了更好地弥补现有技术中无法关注差异内容的不足，本发明提出了一个新的优化方案，在模型框架上，尤其关注输入问题与输出问题的不同，并显示优化这种不同；在模型设计上，迭代地改写原始问题，更大程度地减少冗余；在模型训练上，其使用一种基于动态规划的采样-训练方式，采样出高质量的训练样本，用于指导模型的训练。

本发明采用的技术方案如下：一种基于混合驱动的对话式信息获取方法，包括以下步骤：

步骤1：构建改写模型；所述模型用于对输入的冗余问题按照词语逐一进行迭代改写形成简洁问题；

步骤2：采用动态规划采样-训练机制训练所述模型的参数；

步骤3：采用训练完成的模型，输入冗余问题并对其进行改写，输出简洁问题。

作为本发明的一种优选方式，步骤1中，所述的改写模型包括改写模块和短语模块；所述改写模块用于对输入的冗余问题中的每一个词语进行改写方式判定，为其标记改写标签，并进行改写，改写标签包括“保留”、“删除”、“插入”、“替换”；所述短语模块用于提供“插入”或“替换”改写所需要的短语。

进一步优选地，所述步骤2中，模型参数的训练包括：

(1)构建内存；内存中初始存放训练集中的冗余问题与简洁问题对；

(2)通过对比冗余问题与简洁问题，结合模型概率，采用动态规化方式对全部词语采样，得到冗余问题的改写标签及短语；同时给出改写的奖励；

(3)模型迭代训练；根据采样得到的改写标签及短语，以及改写的奖励，利用强化学习中策略梯度下降法，进行梯度回传；

(4)更新内存：提取内存中冗余问题与简洁问题对，通过将冗余问题送入模型，得到一个较简洁问题，同时将较简洁问题与简洁问题送入内存；内存达到最大限制后随机丢弃一个不在训练集中的冗余问题与简洁问题对；

(5)重复执行(2)-(4)，形成多轮迭代，直至模型参数收敛。

进一步优选地，所述的动态规划采样包括以下步骤：

首先，在内存中提取出一个/一组问题对儿，对于每个问题对儿，首先构建一个矩阵M^(m+1)×(n+1)，其中m，n分别是冗余问题与目标简洁问题的长度；该矩阵中每个元素M_i，j表示模型将冗余问题的前i个词语X_：i改写为目标简洁问题前j个词语Y_：j的概率；

采用动态规划方式，逐行从左到右计算所有词语对的M_i，j值：

其中，tag_i是四种改写标签之一，π(tag_i|X，C)是模型预测第i个词语标签为tag_i的概率；P_i，j为每种改写标签的采样概率，Z_i，j为归一化因子；

然后，根据计算出的M_i，j值，采样出一个改写标签及短语，从M_m，n开始，根据P_m，n采样一个改写标签tag_m，并转移到下一个M_i，j,根据P_i，j继续采样一个改写标签tag_i，转移公式如下：

最终转移到M_0，0，得到m个tag_i，即tag₁，...，tag_m；

对于M_i，j，采样到“插入”标签，保存M_i，j采样时对应的一个或多个Y_j拼接，作为对应的短语；采样到连续的“替换”标签，保存M_i，j采样时对应的多个Y_j拼接，作为对应的短语。

进一步优选地，所述步骤3中，对于输入模型的冗余问题，当改写标签全部为“保留”，或者模型预测/改写至少3轮时，输出改写后的简洁问题。

相比于现有的基于混合驱动的对话式信息获取与传统的强化学习的训练方法，本发明的有益效果在于：

显式优化输入问题与输出问题的不同可以促使模型更加专注于输入问题与输出问题之间细微的差别，相较于传统的从左到右、逐个单词的生成方式，这样的监督信号可以促进模型进一步简化问题，继而帮助模型返回更高用户体验的问题。

迭代修改的模型设计，可以将复杂的、繁多的修改，逐步细化、简单化，不仅有利于模型的学习，多次修改、逐步完善，还能提高模型改写的结果。

本发明基于修改过程没有标签、无法监督学习的情况，创造性地提出了基于动态规划的采样-训练方式，相较于传统的强化学习采样方式，这样采样-训练可以考虑标签之间的内部联系，促使模型采样更优质的标签，提高模型性能。

附图说明

图1为本发明实施例中提供的基于混合驱动的对话式信息获取方法流程图；

图2为本发明实施例中模型训练流程示意图；

图3为本发明实施例中训练完成的模型实际应用流程图。

具体实施方式

为了便于理解本发明，下面结合附图和具体实施例，对本发明进行更详细的说明。附图中给出了本发明较佳的实施例。但是，本发明可以以许多不同的形式来实现，并不限于本说明书所描述的实施例。相反地，提供这些实施例的目的是使对本发明公开内容的理解更加透彻全面。

本发明提供的一种基于混合驱动的对话式信息获取方法，流程如图1所示，具体包括以下步骤：

步骤1：构建改写模型

改写模型包括两个模块：改写模块和短语模块。改写模块用来判定当前词语采用哪种改写方式，为其打上改写标签，并按照改写标签对其改写。其中改写方式包括“保留”、“删除”、“插入”、“替换”这四种。短语模块用来为需要“插入”和“替换”的词语生成一个新的短语，这里的短语是指多个词语。

本实施例中，给定对话上下文C(对话历史中最新的前3轮对话)，从问题库中找到的最有效的冗余问题X，改写模型的任务是根据C和X＝[X₁，X₂，...，X_m]，(X_i表示一个词语)，生成目标简洁的问题Y。

改写模块将C和X拼接到一起，并分解为一系列词语，通过一个BERT编码器得到X中词语的隐状态H^X：

H^X＝BBET(C，X)， (1)

而后，通过一个全连接层Linear，同时预测X中全部词语的改写标签：

tag＝Linear(H^x)， (2)

其中，tag＝[tag₁，...，tag_m]为改写标签，tag_i为每个词语的标签。对于预测为“替换”的词语周围的、预测为“替换”、“删除”的词语，一律视为一个“替换”标签，即替换一个短语(词语片段)为一个新的短语。针对“插入”和“替换”标签，需要预测一个新的短语。

短语模块可以根据必要的信息，即一个词语片段Span，预测新的短语。针对标签为“插入”的词语，例如第i个词语，需要一个词语片段提供额外信息，选择该词语与其后面的第一个词语，即第i个和第i+1个词语作为必要的词语片段。针对标签为“替换”的短语，直接将该短语作为必要的词语片段。通过一个BERT模块，预测新的短语p：

p＝BERT(C，X，Span)，# (3)

其中，对Span与C，X之间使用Cross-Attention进行信息交互。短语p∈V^p是一个短语的概率分布，V^p为短语词表。对于全部需要预测新的短语的改写标签，每一个都预测一个短语。

通过从左到右依次应用改写标签及短语，改写模型可以将冗余问题转化为一个较为简洁的问题，同时，该模型也具备迭代修改的能力。

步骤2：根据步骤1构建得到的改写模型，使用动态规划采样-训练机制训练模型参数。

训练集使用目前工业界和学术界内公开的对话式问题改写数据集。具体而言，采样-训练机制可以通过动态规划的方式采样训练模型所需的、高质量的改写标签及短语，指导模型进行学习直到收敛。图2为模型训练时的流程示意图。具体通过以下过程实现：

Step1：构建内存。

构建一个长为L(本实施例设置为2倍训练集大小)的内存数组，并将训练集(C，X，Y)放入内存中，其中，C是上下文，X是冗余问题，Y是目标简洁问题。

Step2：通过动态规划采样得到内存中冗余问题的改写标签。

首先，在内存中提取出一个/一组问题对儿，对于每个问题对儿，首先维护一个矩阵M^(m+1)×(n+1)，其中m，n分别是冗余问题与目标简洁问题的长度，即词语的数目。

该矩阵每个元素M_i，j维护了模型将冗余问题的前i个词语X_：i改写为目标简洁问题前j个词语Y_：j的概率。由于有指数级别的改写标签组合方式可以将X_：i转化为Y_：j，本实施例通过动态规划的方式计算这一概率。首先初始化M_0，0＝0，并根据以下公式，逐行从左到右计算每个词语的M值：

其中，tag_i是四种改写标签之一，π(tag_i|X，C)是模型预测第i个词语标签为tag_i的概率。P_i，j为每种改写标签的采样概率，Z_i，j为归一化因子。可以看到，当第i个词语采样到“保留”标签时，将X_：i转化为Y_：j则需要通过将X_i转化为Y_j与将X_：i-1转化为Y_：j-1实现，它的概率则是π(tag_i＝保留|X，C)×M_i-1，j-1。注意，只有当X_i＝Y_j的时候，才允许“保留”或“插入”改写；只有当X_i≠Y_j的时候，才允许“删除”或“替换”改写。由此，可以计算矩阵M中每一个元素。

然后，根据M，采样出一个改写标签及短语。要想采样出一个改写标签及短语，将X改写为Y，由于M_m，n保存的是X改写为Y的概率，将从M_m，n开始，根据P_m，n采样一个改写标签tag_m，并转移到下一个M_i，j,根据P_i，j继续采样一个改写标签tag，转移公式如下：

最终转移到M_0，0。这样，就得到了m个tag_i，即tag₁，...，tag_m。

“插入”改写的时候，可能会采样多个tag_i，但所有tag_i都是“插入”，并不冲突。最终，对于“替换”标签对应的词语周围的、标记为“替换”、“删除”的标签，一律改为“替换”。

对于M_i，j采样得到“插入”标签，保存采样时对应的一个或多个Y_j拼接，作为对应的短语。对于一个连续的“替换”标签，保存M_i，j采样时，对应的多个Y_j(曾经是“删除”的标签没有对应Y_j)拼接后作为对应的短语。例如:我们在M₂₄处采样到“插入”标签，那么我们记下Y₄，同时根据公式6移动到M₂₃；而后我们在M₂₃处采样到“插入”标签，那么我们记下Y₃，同时根据公式6移动到M₂₂；然后，我们在M₂₂处采样到了其他标签；这时，改写标签tag₂＝插入，对应短语p＝[Y₃，Y₄]。这样，就得到了所有词语的改写标签以及对应的新的短语了。

Step3：模型迭代训练

为了利用强化学习，首先需要对采样到的全部改写标签及短语给一个奖励r：

这里LD(X，Y)是计算X与Y之间的Levenshtein距离。可以看到，奖励惩罚了那些改动较多(“保留”标签较少)的改写标签采样。之后，通过最大化期望奖励r来更新模型参数：

max J(θ)＝max E_e[r], (8)

其中，

为求梯度符号，e是采样得到的改写标签及短语，r是计算得到的奖励，π(e|C，X)是模型预测相应改写标签及短语的概率。由此，模型通过公式(9)更新参数，即可完成迭代训练。

Step4：更新内存

内存不是一成不变的，需要吸入一些能够促进模型训练的新的问题对，摒弃不适合模型训练的问题对。为了制造新的问题对，本实施例利用从内存中随机抽取的问题对(C，X，Y)，将(C，X)输入模型，通过最大似然，选取模型预测最大概率的标签及短语，得到模型预测的改写标签及短语e^*：

e^*＝argmax_eπ(e|C，X)，#(10)

其中，π(e|C，X)是模型预测相应改写标签及短语的概率。通过将模型预测的改写标签及短语e^*，从左到到右应用到X的词语上，可以得到新的、更为简洁的问题X′，我们将(C，X′，Y)送入内存。如果内存长度超过限制，将随机丢弃一个不在训练集中的问题对。

Step5：重复执行Step2-Step4，运行多轮迭代，直至模型参数收敛。

步骤3：实际对话式信息获取

模型训练完成后，模型的参数便全部固定。此时，模型就可以应用到实际的对话场景中去了。图3为本实施例中模型应用时的示意图。如图3所示，给定上下文以及可能存在的冗余问题，将该冗余问题输入模型，可以预测并得到一系列改写标签及短语，同时在输入的冗余问题上应用标签及短语，得到较为简洁的问题。本实施例中设定：当改写标签全为“保留”，或者模型预测/改写达到3轮，模型直接将较为简洁问题输出；反之，用较为简洁问题替换输入的冗余问题，重新输入模型，进行下一轮改写。

Claims

1.一种基于混合驱动的对话式信息获取方法，其特征在于，包括以下步骤：

步骤1：构建改写模型；

步骤2：采用动态规划采样-训练机制训练所述模型的参数；

步骤3：采用训练完成的模型，输入冗余问题并对其进行改写，输出简洁问题；

所述的动态规划采样包括以下步骤：

首先，在内存中提取出一个问题对儿，对于每个问题对儿，首先构建一个矩阵M^(m ^+1)×(n+1)，其中m，n分别是冗余问题与目标简洁问题的长度；该矩阵中每个元素M_i，j表示模型将冗余问题的前i个词语X_：i改写为目标简洁问题前j个词语Y_：j的概率；

采用动态规划方式，逐行从左到右计算所有词语的M值：

其中，tag_i是四种改写标签之一，π(tag_i|X，C)是模型预测第i个词语标签为tag_i的概率；P_i，j为每种改写标签的采样概率，Z_i，j为归一化因子；C为对话上下文；X是冗余问题；

然后，根据计算出的M值，采样出一个改写标签及短语，从M_m，n开始，根据P_m，n采样一个改写标签tag_m，并转移到下一个M_i，j，根据P_i，j继续采样一个改写标签tag_i，转移公式如下：

最终转移到M_0，0，得到m个tag_i，即tag₁，...，tag_m；

2.根据权利要求1中所述的基于混合驱动的对话式信息获取方法，其特征在于，所述的改写模型包括改写模块和短语模块；所述改写模块用于对输入的冗余问题中的每一个词语进行改写方式判定，为其标记改写标签，并进行改写，改写标签包括“保留”、“删除”、“插入”、“替换”；所述短语模块用于提供“插入”或“替换”改写所需要的短语。

3.根据权利要求2所述的基于混合驱动的对话式信息获取方法，其特征在于，所述步骤2中，模型参数的训练包括：

(2)动态规划采样：通过对比冗余问题与简洁问题，结合模型概率，采用动态规化方式对全部词语采样，得到冗余问题的改写标签及短语；同时给出改写的奖励；

(3)模型迭代训练；根据采样得到的改写标签、新短语、以及改写的奖励，利用强化学习中策略梯度下降法，进行梯度回传；

(4)更新内存：提取内存中冗余问题与简介问题对，通过将冗余问题送入模型，得到一个较简洁问题，同时将较简洁问题与简洁问题送入内存；内存达到最大限制后随机丢弃一个不在训练集中的冗余问题与简洁问题对；

(5)重复执行(2)-(4)，多轮迭代，直至模型参数收敛。

4.根据权利要求3所述的基于混合驱动的对话式信息获取方法，其特征在于，所述步骤3中，对于输入模型的冗余问题，当改写标签全部为“保留”，或者模型预测/改写3轮以上时，输出改写后的简洁问题。