CN114996431A

CN114996431A - 一种基于混合注意力的人机对话生成方法、系统及介质

Info

Publication number: CN114996431A
Application number: CN202210916763.5A
Authority: CN
Inventors: 李树涛; 宋启亚; 李宾; 孙斌
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2022-09-02
Anticipated expiration: 2042-08-01
Also published as: CN114996431B

Abstract

本发明公开了一种基于混合注意力的人机对话生成方法、系统及介质，本发明方法包括将交互对象的说话内容提取文本特征序列Fw，并将文本特征序列Fw基于位置编码矩阵PE进行位置编码，得到引入位置信息的文本特征序列Fwp；分别通过全局自注意力机制、稀疏注意力机制提取特征再进行线性融合得到特征序列Fen；最后提取回复文本序列Y的注意力向量Ac并与Fen进行点乘得到表示向量h _f；通过前馈神经网络对表示向量h _f获取面向回复文本序列Y的概率表示P(Y)并定向搜索最优的回复文本并输出。本发明能够提高人机对话生成的质量，有效的表示说话人内容，可广泛应用于人机对话生成。

Description

一种基于混合注意力的人机对话生成方法、系统及介质

技术领域

本发明涉及人工智能、自然语言处理技术，具体涉及一种基于混合注意力的人机对话生成方法、系统及介质。

背景技术

随着人工智能的发展，人们需要更加人性化和方便的人机交互方式来代替传统的键盘、鼠标等人手的操作方式。以自然语言处理技术为核心的人机对话技术应用于语音助手和机器人等产品中迎来一轮发展热潮。近年来，自然语言生成技术获得了前所未有的突破，广泛应用于机器翻译、文档摘要、故事生成等下游任务上。在人机交互领域中，基于生成式的人机对话技术逐渐受到广大学者的关注。但是在人机对话的过程中对话是由多个对话内容动态信息交互构成口语文本，其内容与主题存在偏离，导致话题的内容不集中，使得话题的重要内容动态变化。因此有效的对用户的说话内容进行建模，并建立对话上下文的相关性来生成高质量的对话生成方式是亟需解决的难题。本发明目的是提供一种基于混合注意力的人机对话生成方法及系统，通过混合注意力机制可以有效的建立对话内容上下文信息，理解交互对象的说话内容，提高回复内容的准确性。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于混合注意力的人机对话生成方法、系统及介质，本发明旨在通过全局自注意力和稀疏注意力两种混合注意力获取人机对话内容具有全局和局部上下文信息的有效表示，以提高回复内容的准确性性能，可广泛应用于机器人的人机交互。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于混合注意力的人机对话生成方法，包括：

S101，对交互对象的说话内容提取文本特征，得到文本特征序列Fw；

S102，将文本特征序列Fw基于位置编码矩阵PE进行位置编码，得到引入位置信息的文本特征序列Fwp；

S103，针对引入位置信息的文本特征序列Fwp，通过全局自注意力机制提取具有全局上下文信息的特征序列Fwc，通过稀疏注意力机制提取具有局部上下文信息的特征序列Fwl；

S104，将具有全局上下文信息的特征序列Fwc和局部上下文信息的特征序列Fwl进行线性融合，得到融合后的具有全局和局部上下文信息的特征序列Fen；

S105，针对输出的回复文本序列Y={y _i|i=,1,2,3,...,n}，通过注意力层得到回复文本序列Y与具有全局和局部上下文信息的特征序列Fen两者的注意力向量Ac，其中n为回复文本序列Y的长度；将注意力向量Ac与具有全局和局部上下文信息的特征序列Fe进行点乘，得到最终的表示向量h _f；通过前馈神经网络对表示向量h _f获取面向回复文本序列Y的概率表示P(Y) ，根据面向回复文本序列Y的概率表示P(Y) 采用定向搜索的方式在回复文本序列Y中找到最优的回复文本并输出。

可选地，步骤S101包括：将交互对象的音频数据降噪后进行语音识别，将语音识别得到的文本序列lw进行线性变换以将文本空间中的文字映射为数值向量空间的数值表示，得到文本特征序列Fw。

可选地，所述将语音识别得到的文本序列lw进行线性变换的函数表达式为：

Fw= lw*W _r，

其中，W _r为线性变换矩阵。

可选地，步骤S102中将文本特征序列Fw基于位置编码矩阵PE进行位置编码的函数表达式为：

Fwp= Fw+ PE

上式中，Fwp为引入位置信息的文本特征序列，PE为位置编码矩阵，且有：

上式中，PE _(pos,2j)表示位置编码矩阵PE中位置pos的维度2j的位置编码，PE _(pos,2j+1)表示位置编码矩阵PE中位置pos的维度2j+1的位置编码，j表示文本特征序列Fw的第j个维度，d表示文本特征序列Fw的维度数量。

可选地，步骤S103中通过全局自注意力机制提取具有全局上下文信息的特征序列Fwc包括：

S201，根据下式的线性变换，将引入位置信息的文本特征序列Fwp投影至多个特征空间中，得到投影至各个特征空间i中的查询特征Q _i、键特征K _i以及值特征V _i：

Q _i =Fwp*W _i ^q，K _i =Fwp*W _i ^k，V _i =Fwp*W _i ^v，

上式中，W _i ^q 、W _i ^k 、W _i ^v分别为对应的查询权重矩阵、键权重矩阵、值权重矩阵，i为特征空间的索引；

S202，根据查询特征Q _i、键特征K _i计算引入位置信息的文本特征序列Fwp中各文本特征元素与所有特征序列元素之间的注意力权重S _i以表征文本特征之间的相似度；

，

上式中，softmax表示归一化指数函数，d _k为矩阵Q _i K _i ^T对应的维度；

S203，基于下式得到各个特征空间i中的头head _i：

，

S204，将各个特征空间i中的头head _i根据下式通过级联方式得到的多头特征作为具有全局上下文信息的特征序列Fwc：

，

上式中，MultiHead表示多头注意力函数，concat为特征维度上的级联操作，head ₁ ～head _n分别为第1～n个特征空间中的头，W ^O为输出权重矩阵。

可选地，步骤S103中通过稀疏注意力机制提取具有局部上下文信息的特征序列Fwl包括：

S301，基于下式得到各个特征空间i中的头headlocal _i：

，

上式中，M(S _i,K)为稀疏注意力函数，K为用于从文本特征序列Fwp中取出最相关的特征序列元素的个数，且有：

，

上式中，θ为用于从文本特征序列Fwp中取出最相关的K个特征序列元素的阈值；

S302，将各个特征空间i中的头headlocal _i根据下式通过级联方式得到的多头特征作为具有局部上下文信息的特征序列Fwl：

，

上式中，MultiHead表示多头注意力函数，concat为特征维度上的级联操作，headlocal ₁ ～headlocal _n分别为第1～n个特征空间中的头，W ^u为输出权重矩阵。

可选地，步骤S104中将具有全局上下文信息的特征序列Fwc和局部上下文信息的特征序列Fwl进行线性融合的函数表达式为：

Fen=Linear([Fwc,Fwl])，

上式中，Linear表示线性变换函数，[Fwc,Fwl]具有全局上下文信息的特征序列Fwc和具有局部上下文信息的特征序列Fwl的级联。

可选地，步骤S105中对表示向量h _f获取面向回复文本序列Y的概率表示P(Y)的函数表达式为：

P(Y) =softmax(FFN(h _f))

上式中，softmax为归一化指数函数，FFN表示前馈神经网络。

此外，本发明还提供一种基于混合注意力的人机对话生成系统，包括相互连接的微处理器和存储器，所述微处理器被编程或配置以执行所述基于混合注意力的人机对话生成方法的步骤。

此外，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序用于被微处理器编程或配置以执行所述基于混合注意力的人机对话生成方法的步骤。

和现有技术相比，本发明主要具有下述优点：

1、本发明包括针对引入位置信息的文本特征序列Fwp，通过全局自注意力机制提取具有全局上下文信息的特征序列Fwc，通过稀疏注意力机制提取具有局部上下文信息的特征序列Fwl，对文本特征序列Fwp实现混合注意力以提取了文本特征序列的全局和局部信息，建立了说话内容的上下文相关性，有效的表示了说话人的对话内容，提高了对话回复的质量。

2、本发明包括将全局上下文信息的特征序列Fwc和具有局部上下文信息的特征序列Fwl进行线性融合，将融合后的特征表示Fen进行解码输出并通过注意力向量进行选择，最后基于概率表示和定向搜索得到最优的回复结果识别结果，通过线性融合使得两个特征序列建立联系，使得模型充分利用不同全局和局部信息之间的相关性。

附图说明

图1为本发明实施例方法的基本流程示意图。

具体实施方式

如图1所示，本实施例提供一种基于混合注意力的人机对话生成方法，包括：

S105，针对输出的回复文本序列Y={y _i|i=,1,2,3,...,n}，通过注意力层得到回复文本序列Y与具有全局和局部上下文信息的特征序列Fen两者的注意力向量Ac，其中n为回复文本序列Y的长度；将注意力向量Ac与具有全局和局部上下文信息的特征序列Fen进行点乘，得到最终的表示向量h _f；通过前馈神经网络对表示向量h _f获取面向回复文本序列Y的概率表示P(Y) ，根据面向回复文本序列Y的概率表示P(Y) 采用定向搜索的方式在回复文本序列Y中找到最优的回复文本并输出。

本实施例中，步骤S101包括：将交互对象的音频数据降噪后进行语音识别，将语音识别得到的文本序列lw进行线性变换以将文本空间中的文字映射为数值向量空间的数值表示，得到文本特征序列Fw。

本实施例中，将语音识别得到的文本序列lw进行线性变换的函数表达式为：

Fw= lw*W _r，

其中，W _r为线性变换矩阵。

本实施例中，步骤S102中将文本特征序列Fw基于位置编码矩阵PE进行位置编码的函数表达式为：

Fwp= Fw+ PE

本实施例中，步骤S103中通过全局自注意力机制提取具有全局上下文信息的特征序列Fwc包括：

Q _i =Fwp*W _i ^q，K _i =Fwp*W _i ^k，V _i =Fwp*W _i ^v，

，

S203，基于下式得到各个特征空间i中的头head _i：

，

，

本实施例中，步骤S103中通过稀疏注意力机制提取具有局部上下文信息的特征序列Fwl包括：

S301，基于下式得到各个特征空间i中的头headlocal _i：

，

，

，

本实施例中，步骤S104中将具有全局上下文信息的特征序列Fwc和局部上下文信息的特征序列Fwl进行线性融合的函数表达式为：

Fen=Linear([Fwc,Fwl])，

本实施例中，步骤S105中通过注意力层得到回复文本序列Y与具有全局和局部上下文信息的特征序列Fen两者的注意力向量Ac是指将回复文本序列Y与具有全局和局部上下文信息的特征序列Fen两者输入注意力层得到注意力向量Ac，其中注意力层为现有神经网络结构，故在此不再详述。本实施例中，步骤S105中对表示向量h _f获取面向回复文本序列Y的概率表示P(Y)的函数表达式为：

P(Y) =softmax(FFN(h _f))

上式中，softmax为归一化指数函数，FFN表示前馈神经网络，作为一种个可选的实施方式，本实施例中前馈神经网络为多层全连接神经网络。通过前馈神经网络对表示向量h _f获取面向回复文本序列Y的概率表示P(Y) ，根据面向回复文本序列Y的概率表示P(Y)采用定向搜索的方式在回复文本序列Y中找到最优的回复文本并输出。定向搜索（Beamsearch）是一种现有的搜索方法（详见Furcy D, Koenig S. Limited discrepancy beamsearch[C]IJCAI. 2005.），可根据面向回复文本序列Y的概率表示P(Y)在回复文本序列Y中找到最优的回复文本，本实施例中仅仅涉及定向搜索（Beam search）的基本应用，不涉及对定向搜索（Beam search）技术的改进，因此其具体实现细节在此不再赘述。

综上所述，本实施例方法包对交互对象的说话内容提取文本特征，得到文本特征序列Fw；将文本特征序列Fw基于位置编码矩阵PE进行位置编码，得到引入位置信息的文本特征序列Fwp；针对引入位置信息的文本特征序列Fwp，通过全局自注意力机制提取具有全局上下文信息的特征序列Fwc，通过稀疏注意力机制提取具有局部上下文信息的特征序列Fwl；将具有全局上下文信息的特征序列Fwc和局部上下文信息的特征序列Fwl进行线性融合，得到融合后的具有全局和局部上下文信息的特征序列Fen；针对输出的回复文本序列Y={y _i|i=,1,2,3,...,n}，通过注意力层得到回复文本序列Y与具有全局和局部上下文信息的特征序列Fen两者的注意力向量Ac，其中n为回复文本序列Y的长度；将注意力向量Ac与具有全局和局部上下文信息的特征序列Fen进行点乘，得到最终的表示向量h _f；通过前馈神经网络对表示向量h _f获取面向回复文本序列Y的概率表示P(Y) ，根据面向回复文本序列Y的概率表示P(Y) 采用定向搜索的方式在回复文本序列Y中找到最优的回复文本并输出。通过上述方法，通过全局自注意力机制提取具有全局上下文信息的特征序列Fwc，通过稀疏注意力机制提取具有局部上下文信息的特征序列Fwl，对文本特征序列Fwp实现混合注意力以提取了文本特征序列的全局和局部信息，建立了说话内容的上下文相关性，有效的表示了说话人的对话内容，提高了对话回复的质量；本实施例方法包括将全局上下文信息的特征序列Fwc和具有局部上下文信息的特征序列Fwl进行线性融合，将融合后的特征表示Fen进行解码输出并通过注意力向量进行选择，最后基于概率表示和定向搜索得到最优的回复结果识别结果，通过线性融合使得两个特征序列建立联系，使得模型充分利用不同全局和局部信息之间的相关性，本实施例方法能够提高人机对话生成的质量，有效的表示说话人内容，可广泛应用于人机对话生成。

此外，本发明还提供一种基于混合注意力的人机对话生成系统，包括相互连接的微处理器和存储器，所述微处理器被编程或配置以执行所述基于混合注意力的人机对话生成方法的步骤。此外，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序用于被微处理器编程或配置以执行所述基于混合注意力的人机对话生成方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于混合注意力的人机对话生成方法，其特征在于，包括：

2.根据权利要求1所述的基于混合注意力的人机对话生成方法，其特征在于，步骤S101包括：将交互对象的说话内容降噪后进行语音识别，将语音识别得到的文本序列lw进行线性变换以将文本空间中的文字映射为数值向量空间的数值表示，得到文本特征序列Fw。

3.根据权利要求2所述的基于混合注意力的人机对话生成方法，其特征在于，所述将语音识别得到的文本序列lw进行线性变换的函数表达式为：

Fw= lw*W _r，

其中，W _r为线性变换矩阵。

4.根据权利要求1所述的基于混合注意力的人机对话生成方法，其特征在于，步骤S102中将文本特征序列Fw基于位置编码矩阵PE进行位置编码的函数表达式为：

Fwp= Fw+ PE

5.根据权利要求1所述的基于混合注意力的人机对话生成方法，其特征在于，步骤S103中通过全局自注意力机制提取具有全局上下文信息的特征序列Fwc包括：

Q _i =Fwp*W _i ^q，K _i =Fwp*W _i ^k，V _i =Fwp*W _i ^v，

，

S203，基于下式得到各个特征空间i中的头head _i：

，

，

上式中，MultiHead表示多头注意力函数，concat为特征维度上的级联操作，head ₁ ～ head _n分别为第1～n个特征空间中的头，W ^O为输出权重矩阵。

6.根据权利要求1所述的基于混合注意力的人机对话生成方法，其特征在于，步骤S103中通过稀疏注意力机制提取具有局部上下文信息的特征序列Fwl包括：

S301，基于下式得到各个特征空间i中的头headlocal _i：

，

，

，

7.根据权利要求1所述的基于混合注意力的人机对话生成方法，其特征在于，步骤S104中将具有全局上下文信息的特征序列Fwc和局部上下文信息的特征序列Fwl进行线性融合的函数表达式为：

Fen=Linear([Fwc,Fwl])，

8.根据权利要求1所述的基于混合注意力的人机对话生成方法，其特征在于，步骤S105中对表示向量h _f获取面向回复文本序列Y的概率表示P(Y)的函数表达式为：

P(Y) =softmax(FFN(h _f))

9.一种基于混合注意力的人机对话生成系统，包括相互连接的微处理器和存储器，其特征在于，所述微处理器被编程或配置以执行权利要求1～8中任意一项所述基于混合注意力的人机对话生成方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其特征在于，所述计算机程序用于被微处理器编程或配置以执行权利要求1～8中任意一项所述基于混合注意力的人机对话生成方法的步骤。