CN113032545A

CN113032545A - 基于无监督对话预训练的对话理解与答案配置方法及系统

Info

Publication number: CN113032545A
Application number: CN202110595442.5A
Authority: CN
Inventors: 张振羽; 江岭; 黄鹏
Original assignee: Chengdu Xiaoduo Technology Co ltd
Current assignee: Chengdu Xiaoduo Technology Co ltd
Priority date: 2021-05-29
Filing date: 2021-05-29
Publication date: 2021-06-25
Anticipated expiration: 2041-05-29
Also published as: CN113032545B

Abstract

本发明提供了基于无监督对话预训练的对话理解与答案配置方法，包括进行对话相关的对话信息预处理，构建具有对话内容、角色信息及轮次信息的对话输入样本，将对话输入的信息进行词嵌入；将带有对话文本单词信息、位置信息、角色信息以及轮次信息的词嵌入输出结果相加作为对话预训练语言模型encoder的输入；对模型encoder输出的编码向量进行基于BiLSTM‑CNN的池化处理获得对话表征向量；利用对话级别的句子掩码建模、单词整体掩码建模和基于回复生成的对话级别对比学习建模任意组合生成的预训练学习任务，对模型进行优化。本发明可有效解决多轮对话意图识别，且通过生成回复答案的方法能够提高答案的配置效率。

Description

基于无监督对话预训练的对话理解与答案配置方法及系统

技术领域

本发明涉及自然语言处理技术领域，具体而言，涉及基于无监督对话预训练的对话理解与答案配置方法及系统。

背景技术

在电商领域，在线服务是完成交易的重要一环，用户通常会在购物前对商家进行咨询然后下单。但是咨询量过大导致无法及时回复用户信息，电商夜间无人值守时期用户咨询无人响应等问题，都会影响在线交易成功率。对话机器人可以提供24小时无间断的服务，而且可以应对大量的咨询，其种种优势已经成为了目前电商平台必备的基础组件之一。例如，中国最大的通用电商平台淘宝，在线服务机器人就已经被大量使用。

在线机器人在对话中，首先识别用户消息的意图，进而根据意图进行回复相应答案。目前业界采用的单句意图识别方法，难以适应多轮对话；而针对多轮对话的意图识别与答复方法，过于依赖规则配置，人工成本较高。对话是一个多轮过程，因此理解对话意图需要对整个对话语句进行全局理解。此外，目前业界基于对话意图进行答案的人工配置，对人力消耗较大，导致机器人配置服务成本过高。理解对话意图的基础上，可以基于整个对话的信息进行生成答案，从而完成答案自动配置，提高机器人回复效率，降低机器人服务成本。

发明内容

本发明旨在解决背景技术中存在的问题，提供一种可以有效解决多轮对话意图识别以及提高答案的配置效率的基于无监督对话预训练的对话理解与答案配置方法及系统。

本发明的实施例通过以下技术方案实现：基于无监督对话预训练的对话理解与答案配置方法，包括如下步骤：

进行对话相关的对话信息预处理，构建具有对话内容、角色信息及轮次信息的对话输入样本，将对话输入的信息进行词嵌入；

将带有对话文本单词信息、位置信息、角色信息以及轮次信息的词嵌入输出结果相加作为对话预训练语言模型encoder的输入；

对模型encoder输出的编码向量进行基于BiLSTM-CNN的池化处理，获得对话表征向量；

利用对话级别的句子掩码建模、单词整体掩码建模和基于回复生成的对话级别对比学习建模其中之一或其任意组合生成的预训练学习任务，对模型进行优化。

根据一种优选实施方式，所述进行对话相关的对话信息预处理包括：

利用sentencepiece构建分句模型；

基于unigram model算法对所述分句模型进行预训练；

利用训练完成后的分句模型对对话信息进行分句处理。

根据一种优选实施方式，所述将对话输入的信息进行词嵌入包括：

将对话信息输入嵌入层，所述嵌入层包括对话轮次嵌入层、角色信息嵌入层、位置嵌入层以及单词嵌入层；

经所述嵌入层分别对对话信息中句子的角色信息、句子的伦次信息、单词的信息和单词的位置信息进行词嵌入。

根据一种优选实施方式，所述对话预训练语言模型为采用adapter方法进行权重初始化后的Transformer模型，其中，采用adapter方法进行权重初始化具体包括：

将对话样本x输入一个公开的预训练语言模型LM，记录该预训练语言模型LM中每层被激活的神经元

；

将对话样本x输入所述Transformer模型，记录每层被激活的神经元

；

计算预训练语言模型LM中激活神经元在各层的占比receiver和Transformer模型中激活神经元在各层的占比demonstrator，得到最小损失函数minObj _adapter如下：

其中，

上式中，N _min为所述Transformer模型encoder与预训练语言模型LM中Transformerencoder的层数最小值，x为对话样本，D为对话文本语料库，l为网络层，

为预训练语言模型LM中每层所有的神经元，

为Transformer模型中每层所有的神经元；

采用梯度下降算法AsamW对Transformer模型encoder每层的参数进行优化。

根据一种优选实施方式，所述对模型encoder输出的编码向量进行基于BiLSTM-CNN的池化处理包括：

将编码向量输入双向长短记忆网络BiLSTM，对所述编码向量进行降维编码，获得双向降维隐向量：

拼接所述双向降维隐向量：

将拼接后的结果输入卷积神经网络CNN，经最大池化操作输出对话表征向量如下：

上式中，

，pooler为对话表征向量，max _pooling（）为最大池化操作，BiLSTM（）为输入双向长短期记忆网络BiLSTM处理过程，CNN（）为输入卷积神经网络CNN处理过程，U为所述Transformer模型输出的N个编码向量的集合，h _i表示拼接双向降维隐向量后的结果，

为正向最后一个单元的输出，

为反向最后一个单元的输出，R ^d/2表示

和

的深度特征。

根据一种优选实施方式，所述利用对话级别的句子掩码建模、单词整体掩码建模和基于回复生成的对话级别对比学习建模其中之一或其任意组合生成的预训练学习任务，对模型进行优化包括：

对话级别的句子掩码建模：随机将对话样本M条句子中的一条句子的全部单词替换为一个特殊遮掩符号，利用模型预测该条句子所有单词，采用交叉熵CE计算损失函数loss ₁如下：

其中，

上式中，f _sample函数实现随机地从前M-1条句子中选择一条句子的功能，x为对话样本，u为所述Transformer模型输出的编码向量，w为选中句子的全部单词，w ^pred为w预测过程，u _mark为替换为特殊掩码符号的单词；

对话级别的单词整体掩码建模:将整个对话样本M单词中的部分单词利用mask符号进行遮掩处理和进行文字替换处理，形成遮掩处理对话样本，采用交叉熵CE计算损失函数loss ₂如下：

其中，

上式中，x _mask为遮掩处理对话样本，f _mask函数实现遮掩处理和进行文字替换处理操作；

基于回复生成的对话级别对比学习建模:构造对话批次B；

将对话批次中每个对话样本的最后一句话

移除，然后将每条对话样本移除后的最后一句话

与其余样本移除后的最后一句话

之间做比对学习；

计算对话样本的表征向量pooler和最后一句话的匹配度；

计算损失函数loss ₃如下：

上式中，δ为一个正数，d为模型的维度，y为比对对话样本，pooler _x为对话样本x的表征向量，

为逻辑运算符合取。

根据一种优选实施方式，所述对模型进行优化包括：

基于模型整体损失函数对模型进行优化，其中，所述模型整体损失函数如下：

其中，

上式中，

为三类预训练学习任务的loss权重参数。

根据一种优选实施方式，所述Transformer模型共有8层。

根据一种优选实施方式，所述单词嵌入层的嵌入权重基于Glove算法获得，其余嵌入层权重在模型训练中获得。

本发明还提供基于无监督对话预训练的对话理解与答案配置系统，包括：

对话信息处理模块，用于进行对话相关的对话信息预处理，构建具有对话内容、角色信息及轮次信息的对话输入样本，将对话输入的信息进行词嵌入，将带有对话文本单词信息、位置信息、角色信息以及轮次信息的词嵌入输出结果相加作为对话预训练语言模型encoder的输入；

编码输出模块，用于接收所述对话信息处理模块的词嵌入输出结果，输出编码向量；

模型输出处理模块，用于对模型encoder输出的编码向量进行基于BiLSTM-CNN的池化处理，获得对话表征向量；

对话预训练学习模块，用于利用对话级别的句子掩码建模、单词整体掩码建模和基于回复生成的对话级别对比学习建模其中之一或其任意组合生成的预训练学习任务，对模型进行优化。

本发明实施例的技术方案至少具有如下优点和有益效果：本发明可以有效解决多轮对话意图识别等问题，且可以通过生成回复答案的方法，提高答案的配置效率，从而一定程度上缓解电商机器人的痛点。

附图说明

图1为本发明实施例1提供的基于无监督对话预训练的对话理解与答案配置方法的逻辑流程图；

图2为本发明实施例2提供的对话预训练模型的示意图；

图3为本发明实施例2提供的基于无监督对话预训练的对话理解与答案配置系统的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

实施例1

经申请人研究发现，目前业界采用的单句意图识别方法，难以适应多轮对话；而针对多轮对话的意图识别与答复方法，过于依赖规则配置，人工成本较高。对话是一个多轮过程，因此理解对话意图需要对整个对话语句进行全局理解。此外，目前业界基于对话意图进行答案的人工配置，对人力消耗较大，导致机器人配置服务成本过高。所以，本申请提供了一种基于无监督对话预训练的对话理解与答案配置方法，以提高在多轮对话意图识别、实体识别、情绪分析、答案生成等任务上的识别准确率。具体内容如下所述。

参阅图1所示，进行对话相关的对话信息预处理，构建具有对话内容、角色信息及轮次信息的对话输入样本，

在一种实施方式中，可以通过以下方式进行对话相关的对话信息预处理。

首先，基于Goole开源的sentencepiece构建分句模型；

然后，使用基于unigram model的算法对所述分句模型进行预训练；在一种实施方式中，训练分句模型时，采样对话文本个数不得少于100万个。

需要说明的是，本发明实施例需要使用大量在线对话日志进行训练，且对数据格式有一定要求，具体要求为：在一个对话样本中，最短句子个数不低于3，最长句子个数不超过20，对话角色包含两个，即“买家”和“卖家”。

最后，利用训练完成后的分句模型对对话信息进行分句处理。

参阅图2所示，在一种实施方式中，当对对话相关的对话信息进行预处理后就可以进一步将对话输入的信息进行词嵌入。

需要说明的是，现有可以处理多轮对话进行意图识别的方法主要分为两类：基于记忆网络的方法和基于专用对话预训练模型的方法。其中，记忆网络其具体细节如下：

记忆网络一般包括输入编码模块、记忆模块和输出预测模块。这类方法一般会维护一个记忆槽位空间（记忆模块），存储对话上文历史语句，然后应用注意力机制，动态地不断更新网络记忆模块的状态，并基于记忆状态生成一个特征向量，基于此预测对话的意图，生成对话答案等。但是记忆网络的方法生成答案效果不佳，难以在领域性强的任务上落地应用。此外，记忆网络类方法需要大量标注数据做训练，前期对人力成本要求很高。而能够自动配置答案的方法主要依赖预训练语言模型，其具体细节如下：

这类模型一般会利用现有的语言模型，例如全词遮掩的BERT-wwm等，作为基础的编码器，然后将整个对话拼接起来，并在每条对话语句前插入一个对话角色的特殊符号，进行MLM（masked language modeling）预训练任务。此外，这类方法还针对对话专门设计了对话补全任务、对话下文对比学习任务等，从而将BERT模型的CLS单词向量训练为一个对话整体信息的表征向量。基于预训练的方法，包含了通用预训练语言模型和对话预训练语言模型。通用类模型直接迁移到对话任务上时，由于数据形式变化较大，从而会导致编码效果不佳。且目前的对话预训练模型语言对对话结构信息考虑不全，只有简单的角色提示特殊符号，没有加入角色编码信息和轮次编码信息，此外目前多采用对比学习加入邻近样本做句子匹配建模任务，缺乏对话级别的句子掩码生成建模任务。

因此，在一种实施方式中，本发明对对话输入的信息进行词嵌入具体包括：将对话信息输入嵌入层，所述嵌入层包括对话轮次嵌入层、角色信息嵌入层、位置嵌入层以及单词嵌入层；经所述嵌入层分别对对话信息中句子的角色信息、句子的伦次信息、单词的信息和单词的位置信息进行词嵌入。

表1.对话样本内容

参阅上述表1所示的例子中，一共进行了三轮对话，其中“买家”-“卖家”的一个闭环为一轮对话（如果对话以“卖家”开始，则将“卖家”到“买家”（不包含）这些对话语句的轮次列为1；如果以“买家”结束，则将对应的句子也视为一轮对话）。

此外，基于预训练的方法的方法，在对话预训练模型语言对对话结构信息考虑不全，只有简单的角色提示特殊符号，在一个实施方式中，本方案需要给每句对话插入角色提示符号，例如：构成类似“<cnick>...<snick>...<cnick>...<snick>...”这样的对话句子的拼接文本（<cnick>代表买家，<snick>代表卖家）。本实施例中，词嵌入后产生了一个d维度的向量，d等于768。

进一步的，所述单词嵌入层的嵌入权重基于Glove算法获得，其余嵌入层权重在模型训练中获得。

在一种实施方式中，当对对话输入的信息进行词嵌入后就可以进一步将带有对话文本单词信息、位置信息、角色信息以及轮次信息的词嵌入输出结果相加作为对话预训练语言模型的输入。

在本实施例中，对话预训练语言模型采用Transformer 的Encoder作为基础神经网络层，本实施例使用了8层Transformer Encoder，并采用adapter方法初始化其权重。其中，adapter方法初始化其权重具体方法如下所述：

首先，将对话样本x输入一个公开的预训练语言模型LM，记录该预训练语言模型LM中每层被激活的神经元

；

；

然后，计算预训练语言模型LM中激活神经元在各层的占比receiver和Transformer模型中激活神经元在各层的占比demonstrator，得到最小损失函数minObj _adapter如下：

其中，

为预训练语言模型LM中每层所有的神经元，

为Transformer模型中每层所有的神经元；

最后，采用梯度下降算法AsamW对Transformer模型encoder每层的参数进行优化。需要说明的是，这个方法可以使得Transformer的encoder层权重得到良好的初始化效果，有利于模型后续的训练。

在一种实施方式中，当对话信息经过Transformer模型encoder编码层后，对话信息的N个单词会被编码为N个编码向量U=[u ₁,u ₂,...,u _N]，其中每个编码向量的维度为d维。为了获得对话的整体表示，本实施例在Transformer模型输出后进一步对输出的编码向量进行基于BiLSTM-CNN的池化处理，获得对话表征向量；具体包括：

首先，将编码向量输入双向长短记忆网络BiLSTM，对所述编码向量进行降维编码，获得双向降维隐向量：

然后，拼接所述双向降维隐向量：

最后，将拼接后的结果输入卷积神经网络CNN，经最大池化操作输出对话表征向量如下：

上式中，

为正向最后一个单元的输出，

为反向最后一个单元的输出，R ^d/2表示

和

的深度特征。

在一种实施方式中，利用对话级别的句子掩码建模MUM（masked utterancemodeling）、单词整体掩码建模MLM（masked language modeling）和基于回复生成的对话级别对比学习建模ResGen其中之一生成的预训练学习任务，分别可以获得loss ₁，loss ₂，loss ₃，进而基于上述loss ₁，loss ₂，loss ₃损失之一对模型进行优化。

其中，所述对话级别的句子掩码建模：随机将对话样本M条句子中的一条句子的全部单词替换为一个特殊遮掩符号，利用模型预测该条句子所有单词，采用交叉熵CE计算损失函数loss ₁如下：

其中，

上式中，f _sample函数实现随机地从前M-1条句子中选择一条句子的功能，x为对话样本，u为所述Transformer模型输出的编码向量，w为选中句子的全部单词，w ^pred为w预测过程，u _mark为替换为特殊掩码符号的单词。

对话级别的单词整体掩码建模:将整个对话样本M单词中的部分单词利用mask符号进行遮掩处理和进行文字替换处理，形成遮掩处理对话样本，在一种实施方式中，对整个对话样本M单词中的20%进行处理；采用交叉熵CE计算损失函数loss ₂如下：

其中，

上式中，x _mask为遮掩处理对话样本，f _mask函数实现遮掩处理和进行文字替换处理操作。

基于回复生成的对话级别对比学习建模:使用margin loss的方法计算损失；在一种实施方式中，构造对话批次B，对话批次B的序列长度为128；

将对话批次中每个对话样本的最后一句话

移除，然后将每条对话样本移除后的最后一句话

与其余样本移除后的最后一句话

之间做比对学习；

计算对话样本的表征向量pooler和最后一句话的匹配度，具体包括：通过sigmoid函数对二者向量的点击求0~1之间分布的数值获得；

进一步的，计算损失函数loss ₃如下：

上式中，δ为一个正数，d为模型的维度，也是模型输出的编码向量的维度，y为比对对话样本，pooler _x为对话样本x的表征向量，

为逻辑运算符合取。

进一步的，基于损失函数loss ₁，loss ₂，loss ₃之一对模型进行优化。

需要说明的是，本发明优化后的模型，可以直接使用池化输出pooler用于下游的对话意图分类、情绪识别等任务；编码结果U=[u ₁,u ₂,...,u _N]可以直接应用于对话答案生成、实体识别等任务。

值得一提的是，通过与通过与BERT-wwm ，PT-CoDE，TOD-BERT，记忆网络等业界领先的方法对比，本发明所提方法在多轮对话意图识别、实体识别、情绪分析、答案生成等任务上，超出现有方法1~3%的准确率。而且本发明基于大量无标注在线对话日志训练模型，数据获取的标注成本极低。

实施例2

区别于上述实施例，本实施例利用对话级别的句子掩码建模、单词整体掩码建模和基于回复生成的对话级别对比学习建模其任意组合生成的预训练学习任务，对模型进行优化：

例如，利用对话级别的句子掩码建模、单词整体掩码建模和基于回复生成的对话级别对比学习建模生成的预训练学习任务两两组合，并赋予对应的loss权重生产对模型进行优化，具体包括：

基于算得的loss ₁和loss ₂得到的整体损失函数如下：

其中，

上式中，

为两类预训练学习任务的loss权重参数。

相较于单类预训练学习任务和两类组合的预训练学习任务，利用对话级别的句子掩码建模、单词整体掩码建模和基于回复生成的对话级别对比学习建模生成的预训练学习任务的三类的组合能够实现更好的优化效果，具体如下：

基于算得的loss ₁，loss ₂，loss ₃，得到的整体损失函数如下：

其中，

上式中，

为三类预训练学习任务的loss权重参数。

综上所述，本发明所提方法可以有效解决多轮对话意图识别等问题，且可以通过生成回复答案的方法，提高答案的配置效率，从而一定程度上缓解电商机器人的痛点。

参阅图3所示，本实施例还提供一种基于无监督对话预训练的对话理解与答案配置系统，包括：

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于无监督对话预训练的对话理解与答案配置方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于无监督对话预训练的对话理解与答案配置方法，其特征在于，所述进行对话相关的对话信息预处理包括：

利用sentencepiece构建分句模型；

基于unigram model算法对所述分句模型进行预训练；

利用训练完成后的分句模型对对话信息进行分句处理。

3.如权利要求2所述的基于无监督对话预训练的对话理解与答案配置方法，其特征在于，所述将对话输入的信息进行词嵌入包括：

4.如权利要求3所述的基于无监督对话预训练的对话理解与答案配置方法，其特征在于，所述对话预训练语言模型为采用adapter方法进行权重初始化后的Transformer模型，其中，采用adapter方法进行权重初始化具体包括：

；

；

其中，

为预训练语言模型LM中每层所有的神经元，

为Transformer模型中每层所有的神经元；

5.如权利要求4所述的基于无监督对话预训练的对话理解与答案配置方法，其特征在于，所述对模型encoder输出的编码向量进行基于BiLSTM-CNN的池化处理包括：

拼接所述双向降维隐向量：

上式中，

为正向最后一个单元的输出，

为反向最后一个单元的输出，R ^d/2表示

和

的深度特征。

6.如权利要求5所述的基于无监督对话预训练的对话理解与答案配置方法，其特征在于，所述利用对话级别的句子掩码建模、单词整体掩码建模和基于回复生成的对话级别对比学习建模其中之一或其任意组合生成的预训练学习任务，对模型进行优化包括：

其中，

上式中，f _sample函数实现随机地从前M-1条句子中选择一条句子的功能，u为所述Transformer模型输出的编码向量，w为选中句子的全部单词，w ^pred为w预测过程，u _mark为替换为特殊掩码符号的单词；

对话级别的单词整体掩码建模:将整个对话样本M个单词中的部分单词利用mask符号进行遮掩处理和进行文字替换处理，形成遮掩处理对话样本，采用交叉熵CE计算损失函数loss ₂如下：

其中，

基于回复生成的对话级别对比学习建模:随机打乱对话样本，构造对话批次B；

将对话批次中每个对话样本的最后一句话

移除，然后将每条对话样本移除后的最后一句话

与其余样本移除后的最后一句话

之间做比对学习；

计算对话样本的表征向量pooler和最后一句话的匹配度；

计算损失函数loss ₃如下：

为逻辑运算符合取。

7.如权利要求6所述的基于无监督对话预训练的对话理解与答案配置方法，其特征在于，所述对模型进行优化包括：

其中，

上式中，

为三类预训练学习任务的loss权重参数。

8.如权利要求7所述的基于无监督对话预训练的对话理解与答案配置方法，其特征在于，所述Transformer模型共有8层。

9.如权利要求8所述的基于无监督对话预训练的对话理解与答案配置方法，其特征在于，所述单词嵌入层的嵌入权重基于Glove算法获得，其余嵌入层权重在模型训练中获得。

10.一种基于无监督对话预训练的对话理解与答案配置系统，其特征在于，包括：