CN114817494A

CN114817494A - 基于预训练和注意力交互网络的知识型检索式对话方法

Info

Publication number: CN114817494A
Application number: CN202210346843.1A
Authority: CN
Inventors: 苏锦钿; 陈燕钊
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2022-07-29
Anticipated expiration: 2042-04-02
Also published as: CN114817494B

Abstract

本发明公开了一种基于预训练和注意力交互网络的知识型检索式对话方法，包括如下步骤：在目标语料库上使用领域适应性预训练方法训练预训练语言模型BERT，得到领域适应性BERT；使用领域适应性BERT作为注意力交互网络的编码器，对对话上下文、背景知识和若干候选响应文本分别编码得到相应表征；最后将对话上下文、背景知识和若干候选响应的表征分别输入到注意力交互网络进行匹配，训练注意力交互网络从若干候选响应中检索出最佳响应。本发明利用预训练语言模型强大的语义表征能力，通过两个预训练任务提高预训练语言模型在特定语料库上的语义表征能力，并采用注意力交互网络缓解为提高检索速度而采用的分离编码所带来的性能下降。

Description

基于预训练和注意力交互网络的知识型检索式对话方法

技术领域

本发明涉及深度学习和自然语言处理领域，特别是涉及一种基于预训练和注意力交互网络的知识型检索式对话方法。

背景技术

对话系统是自然语言处理的一个重要课题，其目标是使计算机理解人类的对话，并构建端到端的对话装置。当前主流的对话系统有两种，分别是生成式对话系统和检索式对话系统。生成式对话系统通过编码器-解码器结构理解对话并生成响应；检索式对话系统则从语料库中检索响应。知识型对话响应选择任务由基于角色的对话语料库(Persona-Chat)和基于文档的对话语料库(CMUDoG)提出，要求知识型检索式对话系统根据给定的对话上下文和背景知识从若干候选响应中选取最佳响应。目前主流的知识型检索式对话系统基于预训练语言模型，取得了一定的效果，但仍存在以下缺点：1)忽略了预训练语言模型在目标语料库上的继续预训练的收益；2)模型在推理阶段的准确度和速度未能取得一个令人满意的折中——串联编码的方法准确度高但检索速度慢，分离编码的方法检索速度快但准确度较低。

一个双交互式匹配网络(DIM)(Dually Interactive Matching Network forPersonalized Response Selectionin Retrieval-Based Chatbots)，是目前最先进的知识型检索式对话系统之一。DIM分别在候选响应和对话上下文之间以及候选响应和背景知识之间进行交互式匹配，取得了一定的效果。但DIM采用LSTM作为编码器，忽略了预训练语言模型的强大的文本表征能力以及在特定语料库上的继续预训练的收益。

基于预训练语言模型BERT的检索式对话系统模型(BERT-ResSel)(An EffectiveDomain Adaptive Post-Training Methodfor BERT in Response Selection)，是目前最先进的检索式对话系统之一。BERT-ResSel基于预训练语言模型BERT，并且在目标数据集上进行串联对话上下文和候选响应为输入的预训练，取得了一定的效果。但在检索阶段，BERT-ResSel串联候选响应和对话上下文进行串联编码，推理速度较慢，实用性不高。而且BERT-ResSel并未引入背景知识以辅助响应检索，在知识型检索式对话任务中的检索准确率较低。

发明内容

本发明的目的是针对现有技术的不足设计的一种基于预训练和注意力交互网络的知识型检索式对话方法。该方法基于预训练语言模型BERT，能有效利用BERT在大型通用语料库上预训练所学习的强大的语义捕捉能力，并且通过在目标语料库上继续预训练，使用学习到针对目标语料库的语义表征的领域适应性BERT作为编码器；该方法还包含了一个基交叉注意力的交互网络，以缓解分离编码带来的准确度下降的问题。

本发明至少通过如下技术方案之一实现。

基于预训练和注意力交互网络的知识型检索式对话方法，包括以下步骤：

首先在目标语料库上使用领域适应性预训练方法训练预训练语言模型BERT，得到领域适应性BERT；

然后使用领域适应性BERT作为注意力交互网络的编码器，对对话上下文、背景知识和若干候选响应文本分别进行编码得到相应表征；

最后将对话上下文、背景知识和若干候选响应的表征分别输入到注意力交互网络进行匹配交互，训练注意力交互网络从若干候选响应中检索出最佳响应。

进一步地，领域适应性预训练方法包括以下步骤：

S1、使用BERT分词器对获取的对话上下文、背景知识和候选响应文本分别进行分词，获得文本词元列表；

S2、在对话上下文和候选响应文本的每一句话语末尾添加代表对话话语的词元[EOU]，在背景知识的每一个句子末尾添加代表背景知识的词元[EOK]；

S3、串联用于预测分类的词元[CLS]、对话上下文词元列表、代表分段的词元[SEP]、候选响应词元列表和代表分段的词元[SEP]作为预训练语言模型BERT的第一输入，串联用于预测分类的词元[CLS]、对话上下文词元列表、代表分段的词元[SEP]、背景知识词元列表和代表分段的词元[SEP]作为预训练语言模型BERT的第二输入；输入到BERT的词元列表总是以预测分类的词元[CLS]开始，以代表分段的词元[SEP]结束；

S4、根据第一输入和第二输入对预训练语言模型BERT进行下一句检测任务和掩码语言模型任务的领域适应性预训练，得到领域适应性BERT作为注意力交互网络的编码器。

进一步地，所述注意力交互网络检索最佳响应，包括以下步骤：

S1、使用领域适应性BERT作为注意力交互网络的编码器对对话上下文、背景知识和候选响应文本进行分离编码，分别得到三者的表征矩阵；

S2、对对话上下文、背景知识和候选响应文本的表征向量矩阵两两进行交叉注意力计算，并通过向量聚合得到最终的表征向量；

S3、在训练阶段，使用对话上下文、背景知识和候选响应文本的表征向量进行点积计算得到匹配评分，计算交叉熵损失，监督训练注意力交互网络；

S4、在推理阶段，将获取的对话上下文、背景知识和候选响应文本输入注意力交互网络，计算得到候选响应和对话上下文、背景知识的匹配评分，得分最高的候选响应即为检索出的最佳响应。

进一步地，在领域适应性预训练方法中，预训练语言模型BERT包括两种输入：

串联用于预测分类的词元[CLS]、对话上下文词元列表、代表分段的词元[SEP]、候选响应词元列表和代表分段的词元[SEP]作为第一输入，表示为：

串联用于预测分类的词元[CLS]、对话上下文词元列表、代表分段的词元[SEP]、背景知识词元列表和代表分段的词元[SEP]作为第二输入，表示为：

在第一输入和第二输入中，

代表对话上下文，n_c为对话上下文话语句子数量；对话上下文第i句话语u_i表示为

话语u_i的每一个元素代表一个词元，其中

为对话上下文第i句话语u_i的词元数量，

为对话上下文第i句话语u_i的第

个词元；[EOU]为在对话上下文和候选响应文本的每一句话语末尾添加代表对话话语的词元；

代表背景知识，n_k为背景知识句子数量；第j句背景知识句子k_j表示为

句子k_j的每一个元素代表一个词元，其中

为第j句背景知识句子k_j的词元数量；

为第j句背景知识句子k_j的第

个词元；[EOK]为在背景知识的每一个句子末尾添加代表背景知识的词元；

代表候选响应话语句子，候选响应话语句子r中的每一个元素代表一个词元，l_r为候选响应话语的词元数量，

为候选响应话语句子r中的第l_r个词元。

进一步地，步骤S4具体包括：

在下一句检测任务中，将预训练语言模型BERT输出的第一输入中用于预测分类的词元[CLS]的表征向量E_[CLS]1通过单层感知机计算第一输入中对话上下文和候选响应的匹配分数g_cd(c，r)，将预训练语言模型BERT输出的第二输入中用于预测分类的词元[CLS]的表征向量E_[CLS]2通过单层感知机计算第二输入中对话上下文和背景知识的匹配分数g_cd(c，k)，g_cd(c，r)和g_cd(c，k)计算公式分别如下：

g_cd(c，r)＝σ(W_cd1E_[CLS]1+b_cd1)

g_cd(c，k)＝σ(W_cd2E_[CLS]2+b_cd2)

其中，W_cd1、W_cd2、b_cd1、b_cd2为可训练参数，σ(·)是Logistic函数；

下一句检测任务的损失为

计算公式如下：

其中，y_cd1为第一输入的数据标签，若第一输入中的候选响应是给定对话上下文的正确响应时y_cd1＝1，反之y_cd1＝0；y_cd2为第二输入的数据标签，若给定的第二输入中对话上下文与背景知识来自同一组对话时y_cd2＝1，反之y_cd2＝0；

在掩码语言模型任务中，从输入预训练语言模型BERT的词元列表中随机抽取a％的词元替换为代表掩盖的词元[MASK]，将BERT编码输出的[MASK]词元的表征向量E_[MASK]通过一个线性层，预测被掩盖的词元，记被掩盖的词元在词汇表中的位置为id，掩码语言模型任务交叉熵损失

计算公式如下：

其中f_id(·)为取softmax函数结果的第id维数值，

分别代表d×w、w维的实数空间，d为BERT的词元维度，w为BERT的词汇表长度。

进一步地，领域适应性预训练的损失

为下一句检测任务和掩码语言模型任务损失的和，计算公式如下：

进一步地，对对话上下文、背景知识和若干候选响应文本分别进行编码得到相应表征，包括以下步骤：

步骤S11、使用BERT分词器对获取的对话上下文、背景知识和候选响应进行分词，获得长度分别为l_C、l_K和l_R的文本离散编码，对应的表征向量分别如下：

R′＝{[CLS]，r，[EOU]，[SEP]}

其中[CLS]为用于预测分类的词元，[EOU]为在对话上下文和候选响应文本的每一句话语末尾添加代表对话话语的词元，[EOK]为在背景知识的每一个句子末尾添加代表背景知识的词元，[SEP]为表示分段的词元；

为对话上下文的第n_c个话语句子，

为背景知识的第n_k个句子，r为候选响应话语句子；

步骤S12、将对话上下文、背景知识和候选响应的表征向量分别输入到领域适应性BERT进行分离编码，分别获得对应的表征矩阵如下：

R＝{E_[CLS]，E_r，E_[EoU]，E_[SEP]}

其中

和

分别代表维度为l_C×d、l_K×d和l_R×d的实数空间，d为BERT的词元维度，E_[CLS]、E_[EOU]、E_[SEP]、E_[EOK]分别表示领域适应性BERT对词元[CLS]、[EOU]、[SEP]、[EOK]的编码结果，

E_r分别表示领域适应性BERT对词元列表

r的编码结果。

进一步地，步骤S2包括：

交叉注意力计算方式如下：

对话上下文C和背景知识K的注意力矩阵为：M_C，K＝C×K^T；

感知背景知识的对话上下文表征为：C_K＝softmax(M_C，K)×K；

感知对话上下文的背景知识表征为：K_C＝softmax(M_C，K ^T)×C；

对话上下文C和候选响应R的注意力矩阵为：M_C，R＝C×R^T；

感知候选响应的对话上下文表征为：C_R＝softmax(M_C，R)×R；

感知对话上下文的候选响应表征为：R_C＝softmax(M_C，R ^T)×C；

背景知识K和候选响应R的注意力矩阵为：M_K，R＝K×R^T；

感知候选响应的背景知识表征为：K_R＝softmax(M_K，R)×R；

感知背景知识的候选响应表征为：R_K＝softmax(M_K，R ^T)×K；

其中softmax(·)为在矩阵第二维度上做归一化的指数函数；

分别将感知表征通过带有ReLU的线性层，然后通过向量加法聚合方法融合到原表征中，得到增强的表征，计算公式如下：

C^*＝C+max(0，C_KW₁+b₁)+max(0，C_RW₂+b₂)；

K^*＝K+max(0，K_CW₃+b₃)+max(0，K_RW₄+b₄)；

R^*＝R+max(0，R_KW₅+b₅)+max(0，R_CW₆+b₆)；

其中

为可训练参数；

分别对增强的对话上下文表征C^*、背景知识表征K^*和候选响应表征R^*进行第一维度的均值池化，得到最终的对话上下文表征向量

背景知识表征向量

候选响应表征向量

其中

代表d维的实数空间，d为BERT的词元维度；

将最终的背景知识表征向量

和最终的对话上下文表征向量

串联得到最终的查询向量，表述为：

将两个最终的候选响应表征向量

串联得到最终的响应向量，表述为：

其中

代表维度为2d的实数空间，d为BERT的词元维度。

进一步地，使用向量点积计算查询向量与响应向量的匹配评分g(c，k，r)，计算公式如下：

g(c，k，r)＝dot(x_f，y_f)

其中x_f为最终的背景知识表征向量

和最终的对话上下文表征向量

串联得到最终的查询向量，y_f为两个最终的候选响应表征向量

串联得到最终的响应向量，dot(·)表示向量点积计算。

进一步地，在训练阶段通过最小化目标语料库

上的交叉熵损失

来最优化注意力交互网络参数：

其中θ为注意力交互网络的模型参数，f(·)是softmax函数，c、k、r为对话上下文、背景知识和候选响应，g(c，k，r)为计算得到的c、k、r匹配评分，y为数据标签，若候选响应是对给定的对话上下文和背景知识的正确响应时y＝1，反之y＝-1。

与现有的技术相比，本发明的有益效果为：

(1)本发明能够有效利用预训练语言模型强大的语义表征能力，并通过在目标语料库上的领域适应性训练进一步增强预训练语言模型的表征能力，提高模型准确检索响应的能力；

(2)本发明通过对对话上下文、背景知识和候选响应进行分离编码，提高本发明模型的检索速度，并通过注意力交互充分利用对话上下文、背景知识和候选响应之间的相关特征，提高模型准确检索响应的能力；

(3)本发明在准确率和推理速度上取得了良好的折中，具有很高的实用价值。本发明的基于预训练和注意力交互网络的知识型检索式对话方法在基于角色的对话语料库(Persona-Chat)和基于文档的对话语料库(CMUDoG)上得到验证。

附图说明

图1为本发明的以对话上下文和候选响应为输入的领域适应性预训练示意图；

图2为本发明的以对话上下文和背景知识为输入的领域适应性预训练示意图；

图3为本发明基于预训练和注意力交互网络的知识型检索式对话方法示意图。

具体实施方式

下面结合说明书附图对本发明进一步说明。

实施例1

本实施例的基于预训练和注意力交互网络的知识型检索式对话方法，在基于角色的对话语料库(Persona-Chat)上实施。实施过程包括领域适应性预训练阶段和微调训练阶段。

图1、图2是本发明实施过程中领域适应性预训练阶段说明图，如图1、图2所示，在Persona-Chat语料库上实施的领域适应性预训练的基本步骤如下：

S1、本实施例的预训练语言模型选取由Google提出的基本的、不区分大小写的BERT模型，所述BERT模型为包括一个12层、768维、12个自注意头、110M参数的神经网络结构；领域适应性预训练超参数设定如下：训练批次大小为20，Dropout概率为0.2，优化器为Adam，初始学习率为0.00003，训练步数上限为50000；

S2、获取对话上下文、背景知识和候选响应文本并使用BERT分词器进行分词得到三者的词元列表如下：

对话上下文词元列表表示为

其中n_c为对话上下文话语句子数量，

为对话上下文话语第n_c个句子；对话上下文第i句话语u_i表示为

话语u_i的每一个元素代表一个词元，其中

为对话上下文第i句话语u_i的词元数量，

为对话上下文第i句话语u_i的第

个词元；

背景知识词元列表表示为

其中n_k为背景知识句子数量；第j句背景知识句子k_j表示为

句子k_j的每一个元素代表一个词元，其中

为第j句背景知识句子k_j的词元数量；

候选响应词元列表表示为

候选响应话语句子r中的每一个元素代表一个词元，l_r为候选响应话语的词元数量；

对话上下文、背景知识和候选响保留的词元数量上限分别设置为128、128、32，超出长度限制时截尾；

S3、在对话上下文的每一句话语和候选响应话语末尾添加代表对话话语的词元[EOU]，在背景知识的每个句子末尾添加代表背景知识的词元[EOK]，有利于模型区分对话话语和背景知识；

S4、串联用于预测分类的词元[CLS]、对话上下文词元列表、代表分段的词元[SEP]、候选响应词元列表和代表分段的词元[SEP]作为预训练语言模型BERT的第一输入，表示为：

S4、串联用于预测分类的词元、对话上下文词元列表、代表分段的词元、背景知识词元列表和代表分段的词元作为预训练语言模型BERT的第二输入，表示为：

S5、使用步骤S4所述第一输入和步骤S5所述第二输入对预训练语言模型进行下一句检测任务和掩码语言模型任务的领域适应性预训练；

进一步地，在下一句检测任务中，将预训练语言模型BERT输出的第一输入中用于预测分类的词元[CLS]的表征向量E_[CLS]1通过单层感知机计算第一输入中对话上下文和候选响应的匹配分数g_cd(c，r)，将预训练语言模型BERT输出的第二输入中用于预测分类的词元[CLS]的表征向量E_[CLS]2通过单层感知机计算第二输入中对话上下文和背景知识的匹配分数g_cd(c，k)，g_cd(c，r)和g_cd(c，k)计算公式分别如下：

g_cd(c，r)＝σ(W_cd1E_[CLS]1+b_cd1)

g_cd(c，k)＝σ(W_cd2E_[CLS]2+b_ca2)

下一句检测任务的损失为

计算公式如下：

在掩码语言模型任务中，从输入预训练语言模型BERT的词元列表中随机抽取15％的词元替换为代表掩盖的词元[MASK]，将预训练语言模型BERT编码输出的[MASK]词元的表征向量E_[MASK]通过一个线性层，预测被掩盖的词元，记被掩盖的词元在词汇表中的位置为id，掩码语言模型任务交叉熵损失

汁算公式如下：

其中f_id(·)为取softmax函数结果的第id维数值，

分别代表d×w、w维的实数空间，d为预训练语言模型BERT的词元维度，w为预训练语言模型BERT的词汇表长度；

S6、在Persona-Chat语料库重复步骤S1-S5直到达到训练步数上限，完成领域适应性预训练，得到领域适应性BERT作为注意力交互网络的编码器。

图3是本发明实施过程中采用的模型网络结构说明图，如图3所示，本发明的注意力交互网络在Persona-Chat语料库上实施的微调训练的超参数设定如下：训练批次大小为40，Dropout概率为0.2，优化器为Adam，初始学习率为0.00003，训练步数上限为20000。微调训练基本步骤如下：

S1、获取对话上下文、背景知识和候选响应并进行分词，对话上下文、背景知识和候选响应保留的最大词元长度分别设置为128、128、32，超出长度限制时截尾；

S2、在对话上下文的每一句话语和候选响应话语末尾添加代表对话话语的词元[EOU]，在背景知识的每个句子末尾添加代表背景知识的词元[EOK]；

S3、串联用于预测分类的词元[CLS]、对话上下文词元列表、代表分段的词元[SEP]，串联后的对话上下文词元列表最大长度为128，表示为：

将C′输入领域适应性BERT进行编码，获得对话上下文表征矩阵C；

S4、串联用于预测分类的词元[CLS]、候选响应词元列表、代表分段的词元[SEP]，串联后的词元列表最大长度为32，表示为：

R′＝{[CLS]，r，[EOU]，[SEP]}

将R′输入领域适应性BERT进行编码，获得候选响应表征矩阵R；

S5、串联用于预测分类的词元[CLS]、背景知识词元列表和代表分段的词元[SEP]，其最大长度为128，表示为

将K′输入领域适应性BERT进行编码，获得背景知识表征矩阵K；词元有利于模型识别各种输入文本的类型，更好地表征相应文本；

S6、对话上下文、背景知识和候选响应的表征矩阵进行两两进行交叉注意力计算，并聚合得到最终的表征向量，计算方式如下：

对话上下文C和背景知识K的注意力矩阵为：M_C，K＝C×K^T；

感知背景知识的对话上下文表征为：C_K＝softmax(M_C，K)×K；

感知对话上下文的背景知识表征为：K_C＝softmax(M_C，K ^T)×C；

对话上下文C和候选响应R的注意力矩阵为：M_C，R＝C×R^T；

感知候选响应的对话上下文表征为：C_R＝softmax(M_C，R)×R；

感知对话上下文的候选响应表征为：R_C＝softmax(M_C，R ^T)×C；

背景知识K和候选响应R的注意力矩阵为：M_K，R＝K×R^T；

感知候选响应的背景知识表征为：K_R＝softmax(M_K，R)×R；

感知背景知识的候选响应表征为：R_K＝softmax(M_K，R ^T)×K；

其中softmax(·)为在矩阵第二维度上做归一化的指数函数；

分别将感知表征通过带有ReLU的线性层，然后通过向量加法聚合方法融合到原表征中，得到增强的表征：

C^*＝C+max(0，C_KW₁+b₁)+max(0，C_RW₂+b₂)；

K^*＝K+max(0，K_CW₃+b₃)+max(0，K_RW₄+b₄)；

R^*＝R+max(0，R_KW₅+b₅)+max(0，R_CW₆+b₆)；

其中

为可训练变量；

背景知识表征向量

候选响应表征向量

其中

代表d维的实数空间，d为BERT的词元维度；

S7、将最终的背景知识表征向量

和最终的对话上下文表征向量

串联得到最终的查询向量，表述为：

将两个最终的候选响应表征向量

串联得到最终的响应向量，表述为：

其中

代表维度为2d的实数空间，d为BERT的词元维度；

S8、使用向量点积计算查询向量与响应向量的匹配评分g(c，k，r)，计算公式如下：

g(c，k，r)＝dot(x_f，y_f)

其中x_f为最终的背景知识表征向量

和最终的对话上下文表征向量

串联得到最终的响应向量，dot(·)表示向量点积计算；

S9、对给定上下文、背景知识和候选响应的匹配评分g(c，k，r)计算交叉熵损失

最优化注意力交互网络参数θ。交叉熵损失的计算公式如下：

其中

为目标语料库，f(·)是softmax函数，y为数据标签，若候选响应是对给定的对话上下文和背景知识的正确响应时y＝1，反之y＝-1；

S10、在Persona-Chat语料库中重复步骤S1-S9，直到达到训练步数上限，完成模型训练；

S11、给定新的对话上下文、背景知识文本和一组候选响应文本，根据步骤S1-S8分别计算每个候选响应与给定的对话上下文和背景知识的匹配评分，评分最高的候选响应即模型检索得到的最佳响应。

实施例2

本发明的基于预训练和注意力交互网络的知识型检索式对话方法，在基于文档的对话语料库(CMUDoG)上实施。实施过程包括领域适应性预训练阶段和微调训练阶段。

图1、图2是本发明实施过程中领域适应性预训练阶段说明图，如图1、图2所示，在CMUDoG语料库上实施的领域适应性预训练的基本步骤如下：

S1、本实施例的预训练语言模型选取由Google提出的基本的、不区分大小写的BERT模型，所述BERT模型为包括一个12层、768维、12个自注意头、110M参数的神经网络结构；领域适应性预训练超参数设定如下：训练批次大小为10，Dropout概率为0.2，优化器为Adam，初始学习率为0.00003，训练步数上限为50000；

对话上下文词元列表表示为

其中n_c为对话上下文话语句子数量；对话上下文第i句话语u_i表示为

话语u_i的每一个元素代表一个词元，其中

为对话上下文第i句话语u_i的词元数量；

背景知识词元列表表示为

其中n_k为背景知识句子数量；第j句背景知识句子k_j表示为

句子k_j的每一个元素代表一个词元，其中

为第j句背景知识句子k_j的词元数量；

候选响应词元列表表示为

对话上下文、背景知识和候选响保留的词元数量上限分别设置为256、256、128，超出长度限制时截尾；

S3、在对话上下文的每一句话语和候选响应话语末尾添加代表对话话语的词元[EOU]，在背景知识的每个句子末尾添加代表背景知识的词元[EOK]；

S4、串联用于预测分类的词元[CLS]、对话上下文词元列表、代表分段的词元[SEP]、背景知识词元列表和代表分段的词元[SEP]作为预训练语言模型BERT的第二输入，表示为：

S6、在CMUDoG语料库重复步骤S1-S5直到达到训练步数上限，完成领域适应性预训练，得到领域适应性BERT作为注意力交互网络的编码器。领域适应性BERT或称为领域适应性预训练语言模型，其作用是本发明注意力交互网络的编码器，或称为领域适应性编码器。

图3是本发明实施过程中采用的模型网络结构说明图，如图3所示，本发明的注意力交互网络在CMUDoG语料库上实施的微调训练的超参数设定如下：训练批次大小为20，Dropout概率为0.2，优化器为Adam，初始学习率为0.00003，训练步数上限为20000。微调训练基本步骤如下：

S1、获取对话上下文、背景知识和候选响应并进行分词，对话上下文、背景知识和候选响应保留的最大词元长度分别设置为256、256、128，超出长度限制时截尾；

S3、串联用于预测分类的词元[CLS]、对话上下文词元列表、代表分段的词元[SEP]，串联后的对话上下文词元列表最大长度为256，表示为：

S4、串联用于预测分类的词元[CLS]、候选响应词元列表、代表分段的词元[SEP]，串联后的词元列表最大长度为128，表示为：

R′＝{[CLS]，r，[EOU]，[SEP]}

S5、串联用于预测分类的词元[CLS]、背景知识词元列表和代表分段的词元[SEP]，其最大长度为256，表示为

将K′输入领域适应性BERT进行编码，获得背景知识表征矩阵K；

对话上下文C和背景知识K的注意力矩阵为：M_C，K＝C×K^T；

感知背景知识的对话上下文表征为：C_K＝softmax(M_C，K)×K；

感知对话上下文的背景知识表征为：K_C＝softmax(M_C，K ^T)×C；

对话上下文C和候选响应R的注意力矩阵为：M_C，R＝C×R^T；

感知候选响应的对话上下文表征为：C_R＝softmax(M_C，R)×R；

感知对话上下文的候选响应表征为：R_C＝softmax(M_C，R ^T)×C；

背景知识K和候选响应R的注意力矩阵为：M_K，R＝K×R^T；

感知候选响应的背景知识表征为：K_R＝softmax(M_K，R)×R；

感知背景知识的候选响应表征为：R_K＝softmax(M_K，R ^T)×K；

其中softmax(.)为在矩阵第二维度上做归一化的指数函数；

C^*＝C+max(0，C_KW₁+b₁)+max(0，C_RW₂+b₂)；

K^*＝K+max(0，K_CW₃+b₃)+max(0，K_RW₄+b₄)；

R^*＝R+max(0，R_KW₅+b₅)+max(0，R_CW₆+b₆)；

其中

为可训练变量；

背景知识表征向量

候选响应表征向量

其中

代表d维的实数空间，d为BERT的词元维度；

S7、将最终的背景知识表征向量

和最终的对话上下文表征向量

串联得到最终的查询向量，表述为：

将两个最终的候选响应表征向量

串联得到最终的响应向量，表述为：

其中

代表维度为2d的实数空间，d为BERT的词元维度；

g(c，k，r)＝dot(x_f，y_f)

其中x_f为最终的背景知识表征向量

和最终的对话上下文表征向量

串联得到最终的响应向量，dot(·)表示向量点积计算；

其中

S10、在CMUDoG语料库中重复步骤S1-S9，直到达到训练步数上限，完成模型训练；

实施例3

本发明的基于预训练和注意力交互网络的知识型检索式对话方法，在基于文档的对话语料库(Persona-Chat)上实施。实施过程包括领域适应性预训练阶段和微调训练阶段。

S1、本实施例的预训练语言模型选取由Google提出的训练速度更快的ALBERT模型，所述ALBERT模型为包括一个12层、嵌入层128维、隐藏层128维、12个自注意头、10M参数的神经网络结构；领域适应性预训练超参数设定如下：训练批次大小为20，Dropout概率为0.2，优化器为Adam，初始学习率为0.00003，训练步数上限为50000；

S2、获取对话上下文、背景知识和候选响应文本并使用ALBERT分词器进行分词得到三者的词元列表如下：

对话上下文词元列表表示为

话语u_i的每一个元素代表一个词元，其中

为对话上下文第i句话语u_i的词元数量；

背景知识词元列表表示为

其中n_k为背景知识句子数量；第j句背景知识句子k_j表示为

句子k_j的每一个元素代表一个词元，其中

为第j句背景知识句子k_j的词元数量；

候选响应词元列表表示为

S4、串联用于预测分类的词元[CLS]、对话上下文词元列表、代表分段的词元[SEP]、候选响应词元列表和代表分段的词元[SEP]作为预训练语言模型ALBERT的第一输入，表示为：

S4、串联用于预测分类的词元[CLS]、对话上下文词元列表、代表分段的词元[SEP]、背景知识词元列表和代表分段的词元[SEP]作为预训练语言模型ALBERT的第二输入，表示为：

进一步地，在下一句检测任务中，将预训练语言模型ALBERT输出的第一输入中用于预测分类的词元[CLS]的表征向量E_[CLS]1通过单层感知机计算第一输入中对话上下文和候选响应的匹配分数g_cd(c，r)，将预训练语言模型ALBERT输出的第二输入中用于预测分类的词元[CLS]的表征向量E_[CLS]2通过单层感知机计算第二输入中对话上下文和背景知识的匹配分数g_cd(c，k)，g_cd(c，r)和g_cd(c，k)计算公式分别如下：

g_cd(c，r)＝σ(W_cd1E_[CLS]1+b_cd1)

g_cd(c，k)＝σ(W_cd2E_[CLS]2+b_cd2)

下一句检测任务的损失为

计算公式如下：

在掩码语言模型任务中，从输入预训练语言模型ALBERT的词元列表中随机抽取15％的词元替换为代表掩盖的词元[MASK]，将预训练语言模型ALBERT编码输出的[MASK]词元的表征向量E_[MASK]通过一个线性层，预测被掩盖的词元，记被掩盖的词元在词汇表中的位置为id，掩码语言模型任务交叉熵损失

计算公式如下：

其中f_id(·)为取softmax函数结果的第id维数值，

分别代表d×w、w维的实数空间，d为ALBERT的词元维度，w为预训练语言模型ALBERT的词汇表长度；

S6、在Persona-Chat语料库重复步骤S1-S5直到达到训练步数上限，完成领域适应性预训练，得到领域适应性ALBERT作为注意力交互网络的编码器。

将C′输入领域适应性ALBERT进行编码，获得对话上下文表征矩阵C；

R′＝{[CLS]，r，[EOU]，[SEP]}

将R′输入领域适应性ALBERT进行编码，获得候选响应表征矩阵R；

将K′输入领域适应性ALBERT进行编码，获得背景知识表征矩阵K；

对话上下文C和背景知识K的注意力矩阵为：M_C，K＝C×K^T；

感知背景知识的对话上下文表征为：C_K＝softmax(M_C，K)×K；

感知对话上下文的背景知识表征为：K_C＝softmax(M_C，K ^T)×C；

对话上下文C和候选响应R的注意力矩阵为：M_C，R＝C×R^T；

感知候选响应的对话上下文表征为：C_R＝softmax(M_C，R)×R；

感知对话上下文的候选响应表征为：R_C＝softmax(M_C，R ^T)×C；

背景知识K和候选响应R的注意力矩阵为：M_K，R＝K×R^T；

感知候选响应的背景知识表征为：K_R＝softmax(M_K，R)×R；

感知背景知识的候选响应表征为：R_K＝softmax(M_K，R ^T)×K；

其中softmax(·)为在矩阵第二维度上做归一化的指数函数；

C^*＝C+max(0，C_KW₁+b₁)+max(0，C_RW₂+b₂)；

K^*＝K+max(0，K_CW₃+b₃)+max(0，K_RW₄+b₄)；

R^*＝R+max(0，R_KW₅+b₅)+max(0，R_CW₆+b₆)；

其中

为可训练变量；

背景知识表征向量

候选响应表征向量

其中

代表d维的实数空间，d为ALBERT的词元维度；

S7、将最终的背景知识表征向量

和最终的对话上下文表征向量

串联得到最终的查询向量，表述为：

将两个最终的候选响应表征向量

串联得到最终的响应向量，表述为：

其中

代表维度为2d的实数空间，d为ALBERT的词元维度；

g(c，k，r)＝dot(x_f，y_f)

其中x_f为最终的背景知识表征向量

和最终的对话上下文表征向量

串联得到最终的响应向量，dot(·)表示向量点积计算；

其中

为目标语料库，f(·)是softmax函数，y为数据标签，若候选响应是对给定的对话上下文和背景知识的正确响应则y＝1，反之y＝-1；

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于预训练和注意力交互网络的知识型检索式对话方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于预训练和注意力交互网络的知识型检索式对话方法，其特征在于，领域适应性预训练方法包括以下步骤：

3.根据权利要求1所述的基于预训练和注意力交互网络的知识型检索式对话方法，其特征在于，所述注意力交互网络检索最佳响应，包括以下步骤：

4.根据权利要求1所述的基于预训练和注意力交互网络的知识型检索式对话方法，其特征在于，在领域适应性预训练方法中，预训练语言模型BERT包括两种输入：

在第一输入和第二输入中，

话语u_i的每一个元素代表一个词元，其中

为对话上下文第i句话语u_i的词元数量，

为对话上下文第i句话语u_i的第

句子k_j的每一个元素代表一个词元，其中

为第j句背景知识句子k_j的词元数量；

为第j句背景知识句子k_j的第

为候选响应话语句子r中的第l_r个词元。

5.根据权利要求2所述的基于预训练和注意力交互网络的知识型检索式对话方法，其特征在于，步骤S4具体包括：

g_cd(c，r)＝σ(W_cd1E_[CLS]1+b_cd1)

g_cd(c，k)＝σ(W_cd2E_[CLS]2+b_cd2)

下一句检测任务的损失为

计算公式如下：

计算公式如下：

其中f_id(·)为取softmax函数结果的第id维数值，

6.根据权利要求5所述的基于预训练和注意力交互网络的知识型检索式对话方法，其特征在于，领域适应性预训练的损失

7.根据权利要求1所述的基于预训练和注意力交互网络的知识型检索式对话方法，其特征在于，对对话上下文、背景知识和若干候选响应文本分别进行编码得到相应表征，包括以下步骤：

R′＝{[CLS]，r，[EOU]，[SEP]}

为对话上下文的第n_c个话语句子，

为背景知识的第n_k个句子，r为候选响应话语句子；

R＝{E_[CLS]，E_r，E_[EOU]，E_[SEP]}

其中

和

E_r分别表示领域适应性BERT对词元列表

r的编码结果。

8.根据权利要求3所述的基于预训练和注意力交互网络的知识型检索式对话方法，其特征在于，步骤S2包括：

交叉注意力计算方式如下：

对话上下文C和背景知识K的注意力矩阵为：M_C，K＝C×K^T；

感知背景知识的对话上下文表征为：C_K＝softmax(M_C，K)×K；

感知对话上下文的背景知识表征为：K_C＝softmax(M_C，K ^T)×C；

对话上下文C和候选响应R的注意力矩阵为：M_C，R＝C×R^T；

感知候选响应的对话上下文表征为：C_R＝softmax(M_C，R)×R；

感知对话上下文的候选响应表征为：R_C＝softmax(M_C，R ^T)×C；

背景知识K和候选响应R的注意力矩阵为：M_K，R＝K×R^T；

感知候选响应的背景知识表征为：K_R＝softmax(M_K，R)×R；

感知背景知识的候选响应表征为：R_K＝softmax(M_K，R ^T)×K；

其中softmax(·)为在矩阵第二维度上做归一化的指数函数；

C^*＝C+max(0，C_KW₁+b₁)+max(0，C_RW₂+b₂)；

K^*＝K+max(0，K_CW₃+b₃)+max(0，K_RW₄+b₄)；

R^*＝R+max(0，R_KW₅+b₅)+max(0，R_CW₆+b₆)；

其中

为可训练参数；

背景知识表征向量

候选响应表征向量

其中

代表d维的实数空间，d为BERT的词元维度；

将最终的背景知识表征向量

和最终的对话上下文表征向量

串联得到最终的查询向量，表述为：

将两个最终的候选响应表征向量

串联得到最终的响应向量，表述为：

其中

代表维度为2d的实数空间，d为BERT的词元维度。

9.根据权利要求3所述的基于预训练和注意力交互网络的知识型检索式对话方法，其特征在于，使用向量点积计算查询向量与响应向量的匹配评分g(c，k，r)，计算公式如下：

g(c，k，r)＝dot(x_f，y_f)

其中x_f为最终的背景知识表征向量

和最终的对话上下文表征向量

串联得到最终的响应向量，dot(·)表示向量点积计算。

10.根据权利要求3所述的基于预训练和注意力交互网络的知识型检索式对话方法，其特征在于，在训练阶段通过最小化目标语料库

上的交叉熵损头

来最优化注意力交互网络参数：