CN110795549B

CN110795549B - 短文本对话方法、装置、设备及存储介质

Info

Publication number: CN110795549B
Application number: CN201911055318.9A
Authority: CN
Inventors: 李昕; 李丕绩; 闭玮; 刘晓江
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2023-03-17
Anticipated expiration: 2039-10-31
Also published as: CN110795549A

Abstract

本申请公开了一种短文本对话方法、装置、设备及存储介质，所述方法包括：获取查询文本；调用基于语言模型的短文本对话模型对所述查询文本进行预测，得到回复文本；所述基于语言模型的短文本对话模型中设置有混合注意力层，所述混合注意力层同时包括自注意力机制和用于监督所述查询文本的注意力机制；输出所述回复文本。本申请通过将S2S框架替换为基于语言模型的短文本对话模型，同时利用该模型中的混合注意力层对查询文本的隐层表示进行监督，使得短文本对话模型既能捕获长短距离依赖，也可以在预测时着重考虑查询文本的信息，能够生成语义上与查询文本密切相关，同时形式上较为丰富的回复文本。

Description

短文本对话方法、装置、设备及存储介质

技术领域

本申请涉及自然语言处理领域，特别涉及一种短文本对话方法、装置、设备及存储介质。

背景技术

短文本对话任务(Short Text Conversation，STC)，也称为“单轮对话任务”，是现在自然语言处理领域的热门问题。STC任务通常被规划为一个查询(query)文本到回复(response)文本的机器翻译任务。

序列到序列(Sequence to Sequence，S2S)已经成为STC任务的标准解决方案。S2S的核心组件包括一个编码器(Encoder)和一个解码器(Decoder)。具体的流程包括：1、编码器将离散的查询词(即查询文本中的单词)映射到连续空间，然后利用特征变换器将查询词在该连续空间的表示向量转换为编码端的语义向量序列；2、解码器通过注意力机制计算当前时刻之前的词和查询词的对齐概率，然后将概率和查询语义向量序列加权并输入到前向神经网络中得到当前时刻解码器端的向量表示；3、解码器计算当前时刻解码器端的语义向量与回复词表中每个词的向量的语义相似度，相似度最高的一个词作为最终的输出；4、解码器重复步骤2～3，直到所有的回复词生成为止，得到回复文本。

S2S框架本身存在如下技术问题：编码器并没有单词预测的过程，因此导致编码器中输入的查询文本的自监督信号被忽略，最终生成的对话在形式上和语义上都较为单一。

发明内容

本申请实施例提供了一种短文本对话方法、装置、设备及存储介质，可以解决相关技术中的S2S框架解决短文本对话任务时，生成的对话在形式上和语义上都较为单一的问题。所述技术方案如下：

根据本申请的一个方面，提供了一种短文本对话方法，所述方法包括：

获取查询文本；

调用基于语言模型的短文本对话模型对所述查询文本进行预测，得到回复文本；所述基于语言模型的短文本对话模型中设置有混合注意力机制，所述混合注意力机制同时包括自注意力机制和用于监督所述查询文本的注意力机制；

输出所述回复文本。

根据本申请的一个方面，提供了一种短文本对话装置，所述装置包括：

获取模块，用于获取查询文本；

调用模块，用于调用基于语言模型的短文本对话模型对所述查询文本进行预测，得到回复文本；所述基于语言模型的短文本对话模型中设置有混合注意力机制，所述混合注意力机制同时包括自注意力机制和用于监督所述查询文本的注意力机制；

输出模块，用于输出所述回复文本。

根据本申请的一个方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的短文本对话方法。

根据本申请的一个方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的短文本对话方法。

本申请实施例至少存在如下有益效果:

由于基于语言模型的短文本对话模型能够生成形式上和语义上较为丰富的短文本，通过将S2S框架替换为基于语言模型的短文本对话模型，同时利用该模型中的混合注意力机制对查询文本的隐层表示进行监督，使得短文本对话模型既能捕获长短距离依赖，也可以在预测时着重考虑查询文本的信息，能够生成语义上与查询文本密切相关，同时形式上较为丰富的回复文本，解决了S2S框架本身所隐含的缺陷，增强回复文本和查询文本的相关性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是基于S2S框架的短文本对话方法的流程图；

图2是本申请一个示意性实施例提供的对话系统的框图；

图3是本申请另一个示意性实施例提供的短文本对话模型的训练方法的流程图；

图4是本申请另一个示意性实施例提供的短文本对话模型的结构框图；

图5是本申请另一个示意性实施例提供的短文本对话方法的流程图；

图6是本申请另一个示意性实施例提供的短文本对话方法的流程图；

图7是本申请另一个示意性实施例提供的短文本对话方法的流程图；

图8是本申请另一个示意性实施例提供的短文本对话方法的流程图；

图9是本申请另一个示意性实施例提供的短文本对话方法的流程图；

图10是本申请另一个示意性实施例提供的短文本对话模型的框图；

图11是本申请另一个示意性实施例提供的计算机设备的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请涉及的若干个名词进行介绍：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术，自动驾驶技术有着广泛的应用前景。

S2S框架：由编码器(encoder)和解码器(decoder)所组成的自然语言处理框架。广泛应用于自动翻译、自动写作、对话生成等场景。

语言模型(language model)：是根据已有句子的一部分，来预测下一个单词是什么的机器学习模型。典型的语言模型包括由Open AI团队提供的GPT-2模型，GPT-2模型在文本生成上有着惊艳的表现，其生成的文本在上下文连贯性和情感表达上都超过了人们对目前阶段的语言模型的预期。但GPT-2模型并不适合直接拿来作为对话模型，更适合作为开放性的写作模型。

本申请实施例提供的方案涉及人工智能的自然语言处理技术，具体通过如下实施例进行说明：

主流的短文本对话模型都是基于S2S框架的。图1示出了基于S2S框架的短文本对话模型的典型处理流程。S2S框架包括编码器120、注意力模块140和解码器160。在输入查询(query)文本后，步骤1：由编码器120将查询文本转化为查询表示向量序列；步骤2：由注意力模块140将查询表示向量序列转换为当前时刻的查询表示向量；步骤3：由解码器160根据当前时刻的查询表示向量进行解码，得到当前时刻的回复词；重复上述过程，直至解码器输出所有的回复词，得到回复(response)文本。

上述S2S框架中的解码器160在训练时接收了来自回复文本的监督信号而忽略掉了查询文本的监督信号，导致训练数据没有充分利用。为此，本申请提供有如下实施例。

图2示出了本申请一个示例性实施例提供的对话生成系统的框图。该系统包括：前端设备220和计算机设备240。前端设备220和计算机设备240之间通过通信网络相连。

前端设备220可以是网页客户端、聊天机器人、智能音箱或安装有人工智能程序的手机等。前端设备220通过文字或语音的方式，与用户进行短文本对话。也即，前端设备220向计算机设备240提供查询文本，计算机设备240向前端设备220提供回复文本。

计算机设备240内设置有基于语言模型(Language Model)的短文本对话模型242，该短文本对话模型242中设置有混合注意力机制。该混合注意力机制同时包括自注意力机制和只用于监督查询文本的注意力机制。

图3示出了本申请一个示例性实施例提供的短文本对话生成方法的流程图。本实施例以该方法应用于图2所示的计算机设备中来举例说明。该方法包括：

步骤301，获取查询文本；

查询文本是用于询问的文本。查询文本包括按序排列的m个查询词，m为正整数。查询文本可以是一句话，也可以是多句话所组成的一段话。

可选地，查询文本是用户输入的文本，或者，是用户输入的语音信号进行语音文字转换处理后，得到的文本。

步骤302，调用基于语言模型的短文本对话模型对查询文本进行预测，得到回复文本；基于语言模型的短文本对话模型中设置有混合注意力机制，混合注意力机制同时包括自注意力机制和用于监督查询文本的注意力机制；

语言模型是机器学习模型。语言模型是基于多个解码层的机器学习模型。语言模型具有根据已有句子的一部分，来预测下一个单词是什么的能力。

示例性的，语言模型包括多个基于变换器(transformer)的解码层，每个解码层具有相同的结构。该解码层中设置有混合注意力机制，混合注意力机制同时包括自注意力机制和用于监督查询文本的注意力机制。

该语言模型在进行短文本对话时需要多个时刻(与查询文本中的查询词个数有关)的解码，每个时刻会输出一个回复词。

在第t1(t1＜m)个时刻，该语言模型的输入包括：查询文本中的第1个查询词。

在第t2(t2≥m)个时刻，该语言模型的输入包括：查询文本中的m个查询词，以及已输出的t2-m个回复词。其中，已输出的t2-m个回复词是第m个时刻至第t2-1个时刻输出的回复词。

混合注意力机制中的自注意力机制，用于整体上监督查询文本中的m个查询词，以及已输出的t2-m个回复词；混合注意力机制中用于监督查询文本的注意力机制(简称监督源注意力机制)，用于只监督查询文本中的m个查询词，而不监督已输出的t2-m个回复词。

步骤303，输出回复文本。

当所有时刻解码完毕后，将语言模型在第m个时刻至第n个时刻输出的回复词形成的文本序列，输出为回复文本。n为查询文本和回复文本中的词数量总和。

该回复文本可以以文本形式进行回复，也可以转换为语音形式的语音信号进行回复。

综上所述，本实施例提供的方法，通过将S2S框架替换为基于语言模型的短文本对话模型，同时利用该模型中的混合注意力机制对查询文本的隐层表示进行监督，使得短文本对话模型既能捕获长短距离依赖，也可以在预测时着重考虑查询文本的信息，能够生成语义上与查询文本密切相关，同时形式上较为丰富的回复文本，解决了S2S框架本身所隐含的缺陷，增强回复文本和查询文本的相关性。

图4示出了本申请另一个示例性实施例提供的基于语言模型的短文本对话模型400的框图，该模型并未采用S2S框架。具体来讲，该模型去掉了S2S框架中的编码器。该模型200包括：L个级联的基于变换器的解码层420和预测网络440。

L个级联的基于变换器的解码器420的输入为查询文本(以及已输出的t-1个回复词)，输出为前文表示向量。每个基于变换器的解码层420具有相同的结构，L为正整数，比如12、24、36或48等。示例性的，基于变换器的解码层420包括：具有掩膜的自注意力层(MaskedSelf-Attention)、用于监督查询文本的监督源注意力层(Supervised Source Attention，SSA)、前馈神经网络层。

预测网络440的输入为前文表示向量，输出为回复词。示例性的，预测网络440包括主题推理层442和输出层444。

图5示出了本申请另一个示例性实施例提供的短文本会话生成方法的流程图。本实施例以该方法应用于图2所示的计算机设备中来举例说明，该计算机设备中设置有图4所示的基于语言模型的短文本对话模型400。该方法包括：

步骤501，获取查询文本；

查询文本是用于询问的文本。查询文本包括按序排列的m个查询词，m为正整数。查询文本可以是一句话，也可以是多句话所组成的一段话。查询文本可以表示为单词序列{x₁，…，x_m}，其中，第m个查询词为用于表示查询结束的特殊符号，比如EOQ。

步骤502，在第t1个时刻，调用L个级联的基于变换器的解码层，对m个查询词中的前t1个查询词应用自注意力机制，得到第t1个时刻的语义表示向量；

示例性的，在第t1个(t1小于m)时刻，将查询文本中的前t1个查询词x₁至x_t1的词嵌入向量和位置嵌入向量输入L个级联的基于变换器的解码层应用自注意力机制进行解码，得到第t1个时刻的语义表示向量。

由于在第t1个时刻的输入中不包括已输出的回复词，因此只需要应用自注意力机制进行解码，不需要启动监督源注意力机制即可。

步骤503，调用输出网络对第t1个时刻的语义表示向量进行预测，得到第t1个时刻的目标词；

示例性的，在第1个时刻，将查询文本中的前1个查询词x₁的词嵌入向量和位置嵌入向量输入L个级联的基于变换器的解码层，得到第1个时刻的语义表示向量，设输出网络输出的第1个时刻的目标词为S1。

示例性的，在第2个时刻，将查询文本中的前2个查询词x₁和x₂的词嵌入向量和位置嵌入向量输入L个级联的基于变换器的解码层，得到第2个时刻的语义表示向量，设输出网络输出的第2个时刻的目标词为S2。

示例性的，在第3个时刻，将查询文本中的前3个查询词x₁、x₂和x₃的词嵌入向量和位置嵌入向量输入L个级联的基于变换器的解码层，得到第3个时刻的语义表示向量，设输出网络输出的第3个时刻的目标词为S3；

其中，目标词S1至S3是仅根据自注意力机制解码得到的词。

步骤504，在第t2个时刻，调用L个级联的基于变换器的解码层，对m个查询词和当前时刻之前已输出的t2-m个回复词应用混合注意力机制，得到当前时刻的语义表示向量；

混合注意力机制同时包括：自注意力机制和监督源注意力机制，自注意力层是同时监督m个查询词和已输出的t2-m个回复词的注意力层；监督源注意力层是监督m个查询词的注意力层。

由于在第t2个时刻的输入中同时包括：查询文本中的m个查询词，以及已输出的t2-m个回复词，因此调用L个级联的基于变换器的解码层，对m个查询词和当前时刻之前已输出的t2-m个回复词应用混合注意力机制进行解码，得到当前时刻的语义表示向量。

其中，已输出的t2-m个回复词是第m个时刻至第t2-1个时刻输出的回复词。

步骤505，调用输出网络对当前时刻的语义表示向量进行预测，得到当前时刻的回复词；

示例性的，在第4个时刻，将查询文本中的4个查询词x₁、x₂、x₃和x₄的词嵌入向量和位置嵌入向量，输入L个级联的基于变换器的解码层，得到第4个时刻的语义表示向量，设输出网络输出的第4个时刻的回复词为S4；

示例性的，在第5个时刻，将查询文本中的4个查询词x₁、x₂、x₃和x₄的词嵌入向量和位置嵌入向量，以及已输出的回复词S4(作为x5)的词嵌入向量和位置嵌入向量输入L个级联的基于变换器的解码层，得到第5个时刻的语义表示向量，设输出网络输出的第5个时刻的回复词为S5；

示例性的，在第6个时刻，将查询文本中的4个查询词x₁、x₂、x₃和x₄的词嵌入向量和位置嵌入向量，以及已输出的回复词S4(作为x5)、回复词S5(作为x6)的词嵌入向量和位置嵌入向量输入L个级联的基于变换器的解码层，得到第6个时刻的语义表示向量，设输出网络输出的第5个时刻的回复词为S6；

示例性的，在第7个时刻，将查询文本中的4个查询词x₁、x₂、x₃和x₄的词嵌入向量和位置嵌入向量，以及已输出的回复词S4(作为x5)、回复词S5

(作为x6)、回复词S6(作为x7)的词嵌入向量和位置嵌入向量输入L个级联的基于变换器的解码层，得到第7个时刻的语义表示向量，设输出网络输出的第7个时刻的回复词为S7。

可选地，每个时刻的回复词通常为1个词，也可以是空，或者多个词构成词组或句子。

步骤506，重复上述步骤直至解码出用于代表结束的结束回复词，根据第m个时刻至第n个时刻输出的回复词所组成的序列，得到回复文本，第n个时刻是结束回复词对应的时刻。

参考图6，本实施例以查询文本包括4个查询词为x₁、x₂、x₃和x₄，已输出的3个回复词为x₅、x₆和x₇来举例说明。其中，序列中第4个词是用来表示查询文本结束的EOQ，序列中的第7个词是用来代表结束的结束回复词EOS。也即，EOQ还可以用于拼接查询文本和回复文本。

每个词或特殊符号可以采用一个词嵌入向量(Token embedding)来表示，词嵌入向量是一个能够表征某个单词，并捕获该单词的语义的数字列表，词嵌入向量的长度与模型大小有关，典型的词嵌入向量的长度可以为768个比特、1024个比特、1280个比特、1600个比特等，本申请实施例对此不加限定。

同时，还为每一个词引入了位置嵌入向量(Position Embedding)，位置嵌入向量是用于指示单词在输入序列中所处位置(或顺序)的信号。

示例性的，图4中以回复文本为S4至S7为例。其中，第n个时刻是结束回复词EOS所对应的时刻。其中，第m个时刻至第n个时刻可以认为是解码得到回复文本时所对应的解码时刻。

在一个可选的实施例中，针对上述步骤504，包括如下子步骤，如图7所示：

步骤504a，对于L个级联的基于变换器的解码层中的第j个解码层，调用第j个解码层中的自注意力层对输入向量进行解码，得到第一前文表示向量序列；

其中，j为不大于L-1的正整数，第1个解码层的输入向量是m个查询词中的词嵌入向量和位置嵌入向量以及已输出的t2-m个回复词的词嵌入向量和位置嵌入向量，除第1个解码层之外的其他L-1个解码层的输入向量是前一层的输出向量，第L个解码层的输出向量是当前时刻的语义表示向量。

自注意力层是同时监督m个查询词和已输出的t-1个回复词的注意力层；

结合参考图4，以输入的查询词为4个，已输出的t-1个回复词为3个为例，自注意力层会同时监督4个查询词和已输出的3个回复词，得到第一前文表示向量序列{H¹ _1:4，H¹ _5:7}。其中，第4个查询词为特殊符号EOQ，用于供L个解码层识别查询文本和回复文本。H¹ _1:4代表第1个解码层针对查询词x₁至x₄所输出的隐层表示向量，H¹ _5:7代表第1个解码层针对回复词x₅至x₇所输出的隐层表示向量。

步骤504b，调用第j个解码层中的监督源注意力层对第一前文表示向量序列进行解码，得到第二前文表示向量序列；

监督源注意力层是监督m个查询词的注意力层。设第二前文表示向量序列为

代表第1个解码层输出的不监督第5至7个词的第二前文表示向量序列。

步骤504c，调用第j个解码层中的前馈神经网络层对第一前文表示向量序列和第二前文表示向量序列进行压缩，得到第j个解码层的输出向量；

以下采用公式对上述内容进行解释：

具有掩膜的自注意力层：

给定输入H^l-1，H代表隐层向量，l为查询文本的长度。在第t个时刻，第一前文表示向量表示

如下：

Q^l-1＝H^l-1W^Q；

K^l-1，V^l-1＝H^l-1W^k，H^l-1W^v.

其中，S_LF-ATT代表自注意力层，

是被计算出的注意力分数，Q在自注意力层代表查询文本、K在自注意力层代表键、V在自注意力层代表值。

表示t个时刻之前的在查询文本的前t个查询词的键，

表示t个时刻之前的在查询文本的前t个查询词的值。

监督源注意力层

给定输入H^l-1，H代表隐层向量，l为查询文本的长度。在第t个时刻，第二前文表示向量表示

如下：

其中，S_RC-ATT代表位于自注意力层之上的监督源注意力层。

是被计算出的查询文本的隐式表示的注意力分数。H^l是自注意力层的输出，

在自注意力层代表查询文本、

在监督源注意力层代表键、

在监督源注意力层代表值。m代表查询文本中的查询词的数量m，W为监督源注意力层中线性变换网络的权重。

在一个可选的实施例中，针对上述步骤505，包括如下子步骤，如图8所示：

步骤505a，调用主题推理层根据当前时刻的语义表示向量，输出主题相关的前文表示向量；

由于基于变换器的语言模型有产生不相关回复的风险，一个直接的想法是在每个时刻计算前文表示向量时加上主题词的约束。本申请用查询文本的前文表示向量(也即当前时刻的语义表示向量)来作为主题信息的载体，来计算与该查询文本关联的主题词的概率分布：

h^q＝f(x_1：m)，P(z|x_1：m)＝Softmax(W^oh^q)

其中，P为与该查询文本关联的主题词的概率分布。Softmax为激活函数。h^q＝f(x_1：m)为将当前时刻的语义表示向量

进行映射后的降维表示向量。m为查询文本中查询词的数量，W^o为主题推理层的网络权重，z为推断所得的关联的主题词。

步骤505b，调用输出层根据当前时刻的语义表示向量和主题相关的前文表示向量进行预测，得到当前时刻的回复词。

本申请还引入一个门控制机制来融合带有主题相关的前文表示向量和当前时刻的前文表示向量:

其中，t为时刻，s_t为在第t个时刻的融合后的融合表示向量，

为在第t个时刻下第L个解码层输出的语义表示向量，h^q为主题相关的前文表示向量。g为门控制机制计算所得权重，b为偏置项，W^g,W^L分别为语义表示向量和前文表示向量对应的线性变换矩阵。

融合过程得到的融合表示向量被用来预测当前时刻的回复词。

可选地，计算机设备在调用输出层根据当前时刻的语义表示向量和主题相关的前文表示向量，得到按照预测概率由高到低排序的多个候选回复词；在多个候选回复词中的前k个候选回复词中，随机抽样得到当前时刻的回复词。也即，输出层可以采用Top-k解码策略来预测当前时刻的回复词。

需要注意的是，在最终输出的文本序列中，本申请只取出查询文本之后的回复词作为对应的回复文本。

综上所述，本实施例提供的方法，通过在第t2个时刻，将查询文本的m个查询词和已输出的t2-m个回复词同时作为输入，输入至L个解码层中。由于每个解码层中的自注意力层能够对m个查询词和已输出的t2-1个回复词同时进行监督，而监督源注意力层能够对m个查询词进行监督，因此能够使得短文本对话模型既能捕获长短距离依赖，也可以在预测时着重考虑查询文本的信息，能够生成语义上与查询文本密切相关，同时形式上较为丰富的回复文本，解决了S2S框架本身所隐含的缺陷，增强回复文本和查询文本的相关性。

本实施例提供的方法，还通过使用主题推理层进行主题推断，该主题推理层能够将查询文本的主题词信息融入到回复文本的隐层表示中，以引导基于语言模型生成与对话主题相关的回复文本。该主题推理层能够解决基于变换器的语言模型的建模能力过于强大，容易过分依赖最近的几个查询词，而忽略位置较为靠前的查询文本内容，进而生成与对话主题完全不相关的回复文本的问题。

本实施例提供的方法，还通过使用Top-K解码策略来进行随机采样解码，能够显著提高最终生成的回复文本的多样性。

上述基于语言模型的短文本对话模型在训练时，可以将查询文本和回复文本通过特殊符号EOQ级联后，整体作为输入序列进行训练，，如图6所示。

短文本对话模型在训练时的损失函数可以如下：

其中，L^mle是短文本对话模型的损失函数，-logP()是联合负对数似然，x为输入序列中的词，n为输入序列中的词数量，t为时刻。

为了让查询文本的表示向量融合主题约束，本申请还在训练时优化如下公式的损失函数使得预测的主题词分布跟真实的主题词分布尽可能接近：

其中，L^kwd是主题约束的损失函数，下标i表示向量的第i个分量，|v|是词汇表中的词汇量，y_i表示主题词存在与否的二值向量，P_i为模型预测的主题词概率分布，z为主题词。

在车载语音系统、智能音箱、智能客服、儿童陪伴机器人、智能问答软件、百科问答软件等问答产品中，运用上述的短文本对话模型进行问题答复，可以得到准确性高且多样性的回复文本。如图9所示：

在存在一个查询文本需要处理时，在每个时刻会逐词输入查询文本和已生成的回复文本至基于语言模型的短文本会话模型。步骤1：将输入的前文表示向量序列通过模型中的L个解码层(含有混合注意力层)进行解码，得到当前时刻的语义表示向量；步骤2：将当前时刻的语义表示向量通过主题推断层进行解码，得到主题相关的前文表示向量进行预测；步骤3，由输出层采用top-k抽样策略对当前时刻的语义表示向量和主题相关的前文表示向量进行解码，得到当前时刻的回复词。重复上述过程，直至得到最终的回复文本。

以下为本申请的装置实施例，对于装置实施例中未详细描述的细节，请参考上述方法实施例。

图10是本申请的一个示例性实施例提供的短文本对话模型的训练装置的框图，所述装置包括：

获取模块1020，用于获取查询文本；

调用模块1040，用于调用基于语言模型的短文本对话模型对所述查询文本进行预测，得到回复文本；所述基于语言模型的短文本对话模型中设置有混合注意力机制，所述混合注意力机制同时包括自注意力机制和用于监督所述查询文本的注意力机制；

输出模块1060，用于输出所述回复文本。

在一个可选的实施例中，所述短文本对话模型包括L个级联的基于变换器的解码层以及输出网络，每个所述基于变换器的解码层中包括所述混合注意力机制；所述查询文本包括按序排列的m个查询词；

所述调用模块1040，用于在第t1个时刻，调用所述L个级联的基于变换器的解码层，对所述m个查询词中的前t1个查询词应用所述自注意力机制，得到所述第t1个时刻的语义表示向量；调用所述输出网络对所述第1个时刻的语义表示向量进行预测，得到所述第1个时刻的回复词，所述t1小于m；

所述调用模块1040，用于在第t2个时刻，调用所述L个级联的基于变换器的解码层，对所述m个查询词和当前时刻之前已输出的t2-m个回复词应用混合注意力机制，得到所述当前时刻的语义表示向量，调用所述输出网络对所述当前时刻的语义表示向量进行预测，得到所述当前时刻的回复词；其中，t2≥m；

所述调用模块1040，用于重复上述步骤直至解码出用于代表结束的结束回复词，根据第m个时刻至第n个时刻输出的回复词所组成的序列，得到回复文本，第n个时刻是结束回复词对应的时刻。

在一个可选的实施例中，每个所述基于变换器的解码层包括：具有掩模的自注意力层、监督源注意力层和前馈神经网络层；

所述调用模块，用于对于所述L个级联的基于变换器的解码层中的第j个解码层，调用所述第j个解码层中的所述自注意力层对输入向量进行解码，得到第一前文表示向量序列，所述自注意力层是同时监督所述m个查询词和所述已输出的t2-m个回复词的注意力层；

所述调用模块，用于调用所述第j个解码层中的所述监督源注意力层对所述第一前文表示向量序列进行解码，得到第二前文表示向量序列，所述监督源注意力层是监督所述m个查询词的注意力层；

所述调用模块，用于调用所述第j个解码层中的所述前馈神经网络层对所述第一前文表示向量序列和所述第二前文表示向量序列进行压缩，得到所述第j个解码层的输出向量；

其中，所述j为不大于L-1的正整数，第1个解码层的输入向量是所述m个查询词中的前t个查询词的词嵌入向量和位置嵌入向量以及所述已输出的t-1个回复词的词嵌入向量和位置嵌入向量，除所述第1个解码层之外的其他L-1个解码层的输入向量是前一层的输出向量，第L个解码层的输出向量是所述当前时刻的语义表示向量。

在一个可选的实施例中，所述输出网络包括：主题推理层和输出层；

所述调用模块1040，用于调用所述主题推理层根据所述当前时刻的语义表示向量，输出主题相关的前文表示向量；调用所述输出层根据所述当前时刻的语义表示向量和所述主题相关的前文表示向量进行预测，得到所述当前时刻的回复词。

在一个可选的实施例中，所述调用模块1040，用于调用所述输出层根据所述当前时刻的语义表示向量和所述主题相关的前文表示向量，得到按照预测概率由高到低排序的多个候选回复词；在所述多个候选回复词中的前k个候选回复词中，随机抽样得到所述当前时刻的回复词。

本申请还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的短文本对话方法。需要说明的是，该计算机设备可以是如下图11所提供的计算机设备。

请参考图11，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲：计算机设备1100包括中央处理单元(CPU)1101、包括随机存取存储器(RAM)1102和只读存储器(ROM)1103的系统存储器1104，以及连接系统存储器1104和中央处理单元1101的系统总线1105。计算机设备1100还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1106，和用于存储操作系统1113、应用程序1114和其他程序模块1110的大容量存储设备1107。

基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中显示器1108和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到中央处理单元1101。基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。大容量存储设备1107及其相关联的计算机可读介质为计算机设备1100提供非易失性存储。也就是说，大容量存储设备1107可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1101执行，一个或多个程序包含用于实现上述短文本对话模型的训练方法或短文本对话方法的指令，中央处理单元1101执行该一个或多个程序实现上述各个方法实施例提供的短文本对话模型的训练方法或短文本对话方法。

根据本申请的各种实施例，计算机设备1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1100可以通过连接在系统总线1105上的网络接口单元1111连接到网络1112，或者说，也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。

存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，一个或者一个以上程序包含用于进行本申请实施例提供的短文本对话方法。

本申请实施例还提供一种计算机设备，该计算机设备包括存储器和处理器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并实现上述短文本对话模型的训练方法或短文本对话方法。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述短文本对话模型的训练方法或短文本对话方法。

本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个方法实施例提供的短文本对话模型的训练方法或短文本对话方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种短文本对话方法，其特征在于，短文本对话模型包括L个级联的基于变换器的解码层以及输出网络，每个所述基于变换器的解码层中包括混合注意力机制；查询文本包括按序排列的m个查询词；所述方法包括：

获取所述查询文本；

在第t1个时刻，调用所述L个级联的基于变换器的解码层，对所述m个查询词中的前t1个查询词应用自注意力机制，得到所述第t1个时刻的语义表示向量；调用所述输出网络对所述第t1个时刻的语义表示向量进行预测，得到所述第t1个时刻的回复词，t1小于m；

在第t2个时刻，调用所述L个级联的基于变换器的解码层，对所述m个查询词和当前时刻之前已输出的t2-m个回复词应用所述混合注意力机制，得到所述第t2个时刻的语义表示向量，调用所述输出网络对所述当前时刻的语义表示向量进行预测，得到所述当前时刻的回复词，t2≥m；

重复上述步骤直至解码出用于代表结束的结束回复词，根据第m个时刻至第n个时刻输出的回复词所组成的序列，得到回复文本，所述第n个时刻是所述结束回复词对应的时刻；基于语言模型的所述短文本对话模型中设置有所述混合注意力机制，所述混合注意力机制同时包括所述自注意力机制和用于监督所述查询文本的注意力机制；

输出所述回复文本。

2.根据权利要求1所述的方法，其特征在于，每个所述基于变换器的解码层包括：具有掩模的自注意力层、监督源注意力层和前馈神经网络层；

所述在第t2个时刻，调用所述L个级联的基于变换器的解码层，对所述m个查询词和当前时刻之前已输出的t2-m个回复词应用所述混合注意力机制，得到所述第t2个时刻的语义表示向量，包括：

对于所述L个级联的基于变换器的解码层中的第j个解码层，调用所述第j个解码层中的所述自注意力层对输入向量进行解码，得到第一前文表示向量序列，所述自注意力层是同时监督所述m个查询词和所述已输出的t2-m个回复词的注意力层；

调用所述第j个解码层中的所述监督源注意力层对所述第一前文表示向量序列进行解码，得到第二前文表示向量序列，所述监督源注意力层是监督所述m个查询词的注意力层；

调用所述第j个解码层中的所述前馈神经网络层对所述第一前文表示向量序列和所述第二前文表示向量序列进行压缩，得到所述第j个解码层的输出向量；

其中，所述j为不大于L-1的正整数，第1个解码层的输入向量是所述m个查询词的词嵌入向量和位置嵌入向量以及所述已输出的t2-m个回复词的词嵌入向量和位置嵌入向量，除所述第1个解码层之外的其他L-1个解码层的输入向量是前一层的输出向量，第L个解码层的输出向量是所述当前时刻的语义表示向量。

3.根据权利要求1或2所述的方法，其特征在于，所述输出网络包括：主题推理层和输出层；

所述调用所述输出网络对所述当前时刻的语义表示向量进行预测，得到所述当前时刻的回复词，包括：

调用所述主题推理层根据所述当前时刻的语义表示向量，输出主题相关的前文表示向量；

调用所述输出层根据所述当前时刻的语义表示向量和所述主题相关的前文表示向量进行预测，得到所述当前时刻的回复词。

4.根据权利要求3所述的方法，其特征在于，所述调用所述输出层根据所述当前时刻的语义表示向量和所述主题相关的前文表示向量进行预测，得到所述当前时刻的回复词，包括：

调用所述输出层根据所述当前时刻的语义表示向量和所述主题相关的前文表示向量，得到按照预测概率由高到低排序的多个候选回复词；

在所述多个候选回复词中的前k个候选回复词中，随机抽样得到所述当前时刻的回复词。

5.一种短文本对话装置，其特征在于，短文本对话模型包括L个级联的基于变换器的解码层以及输出网络，每个所述基于变换器的解码层中包括混合注意力机制；查询文本包括按序排列的m个查询词；所述装置包括：

获取模块，用于获取所述查询文本；

调用模块，用于在第t1个时刻，调用所述L个级联的基于变换器的解码层，对所述m个查询词中的前t1个查询词应用自注意力机制，得到所述第t1个时刻的语义表示向量；调用所述输出网络对所述第t1个时刻的语义表示向量进行预测，得到所述第t1个时刻的回复词，t1小于m；

输出模块，用于输出所述回复文本。

6.根据权利要求5所述的装置，其特征在于，每个所述基于变换器的解码层包括：具有掩模的自注意力层、监督源注意力层和前馈神经网络层；

7.根据权利要求5或6所述的装置，其特征在于，所述输出网络包括：主题推理层和输出层；

所述调用模块，用于调用所述主题推理层根据所述当前时刻的语义表示向量，输出主题相关的前文表示向量；调用所述输出层根据所述当前时刻的语义表示向量和所述主题相关的前文表示向量进行预测，得到所述当前时刻的回复词。

8.根据权利要求7所述的装置，其特征在于，

所述调用模块，用于调用所述输出层根据所述当前时刻的语义表示向量和所述主题相关的前文表示向量，得到按照预测概率由高到低排序的多个候选回复词；在所述多个候选回复词中的前k个候选回复词中，随机抽样得到所述当前时刻的回复词。

9.一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上权利要求1至4任一所述的短文本对话方法。

10.一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上权利要求1至4任一所述的短文本对话方法。