CN115617971B

CN115617971B - 基于ALBERT-Coref模型的对话文本生成方法

Info

Publication number: CN115617971B
Application number: CN202211419198.8A
Authority: CN
Inventors: 谭周兴; 刘德培; 唐铁军; 何浩; 刘治国; 熊婕
Original assignee: Hunan Junan Technology Co ltd
Current assignee: Hunan Junan Technology Co ltd
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2023-03-07
Anticipated expiration: 2042-11-14
Also published as: CN115617971A

Abstract

本申请涉及一种基于ALBERT‑Coref模型的对话文本生成方法。所述方法包括：构建ALBERT‑Coref模型；ALBERT‑Coref模型包括共指消解模块、语义编码模块、回复生成模块和迁移学习模块；根据共指消解模块对自注意力机制进行改进，根据改进后的自注意力机制对语义编码模块进行优化，得到优化后的语义编码模块，利用优化后的语义编码模块对用户本轮对话内容进行编码；根据回复生成模块生成初始回复文本；根据迁移学习模块对ALBERT‑Coref模型的所有模块进行优化，得到优化后的回复生成模块；利用优化后的回复生成模块生成用户本轮的回复文本。采用本方法能够提高对话系统中的回复文本准确率。

Description

基于ALBERT-Coref模型的对话文本生成方法

技术领域

本申请涉及数据处理技术领域，特别是涉及一种基于ALBERT-Coref模型的对话文本生成方法、计算机设备和存储介质。

背景技术

循环神经网络(Recurrent neural network，RNN)具有记忆性、参数共享并且图灵完备，对序列的非线性特征进行学习时具有一定优势，因此传统的基于序列到序列模型的对话系统将注意力机制与RNN结合起来，利用强大的编码序列文本信息的能力实现对话上下文信息的编码和解码或者将对话历史和候选回复一起建模，从而实现基本的对话功能，然而，RNN容易出现梯度消失的问题，无法支持长时间序列，更无法提取深层的语义信息，导致序列到序列模型的表现变差。随后，有人提出了Transformer架构，基于Transformer的序列到序列模型开始被广泛用于对话生成领域，Transformer利用自注意机制和编码解码器来实现局部依赖和全局依赖并通过并行化来加速模型训练，显著的改善了基于RNN的序列到序列模型。

然而，目前的对话生成方法针对语言学中的共指消解问题依旧无法解决，模型对于文本的语义提取能力依然受限，还存在特定领域样本分布不均衡的问题，在对话系统中生成的回复文本准确率低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高对话系统中的回复文本准确率的基于ALBERT-Coref模型的对话文本生成方法、计算机设备和存储介质。

一种基于ALBERT-Coref模型的对话文本生成方法，所述方法包括：

获取对话生成任务；对话生成任务包括用户本轮对话内容；

构建ALBERT-Coref模型；所述ALBERT-Coref模型包括共指消解模块、语义编码模块、回复生成模块和迁移学习模块；

根据共指消解模块对自注意力机制进行改进，得到改进后的自注意力机制；

根据改进后的自注意力机制对语义编码模块进行优化，得到优化后的语义编码模块，利用优化后的语义编码模块对用户本轮对话内容进行编码，得到对话内容的特征向量、K矩阵和V矩阵；

根据所述回复生成模块对Q矩阵、K矩阵和V矩阵进行交互后共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵；利用所述解码矩阵和掩码矩阵以自回归方式生成回复文本；

根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务，构建总的损失函数，利用总的损失函数和自适应动量的Adam算法对ALBERT-Coref模型的所有模块进行优化，得到优化后的回复生成模块；

利用优化后的回复生成模块生成用户本轮的回复文本。

在其中一个实施例中，共指消解模块包括字节对编码算法和自然语言处理工具Spacy；根据共指消解模块对自注意力机制进行改进，得到改进后的自注意力机制，包括：

根据字节对编码算法和自然语言处理工具Spacy对用户本轮对话内容进行处理，得到共指关系矩阵，利用共指关系矩阵对自注意力机制进行改进，得到改进后的自注意力机制。

在其中一个实施例中，根据字节对编码算法和自然语言处理工具Spacy对用户本轮对话内容进行转换和识别，得到实体和指称，包括：

根据自下而上的字节对编码算法将用户本轮对话内容转换成词序列，再利用自然语言处理工具Spacy识别词序列当中的实体和指称；

根据实体和指称之间的共指关系构造共指关系矩阵为

其中，a表示可训练的参数，

表示第i个词和第j个词存在共指关系，

表示第i个词和第j个词不存在共指关系。

在其中一个实施例中，利用共指关系矩阵对自注意力机制进行改进，得到改进后的自注意力机制，包括：

利用共指关系矩阵对自注意力机制进行改进，得到改进后的自注意力机制为

其中，

表示自注意力机制中的

矩阵，

表示自注意力机制中的

矩阵，

表示自注意力机制中的

矩阵，

表示神经网络，T表示转置运算，

表示隐藏层的维度，

表示Q矩阵第i个头的隐藏层参数矩阵，

表示K矩阵第i个头的隐藏层参数矩阵，

表示V矩阵第i个头的隐藏层参数矩阵，

表示第i个头的输出矩阵。

在其中一个实施例中，回复生成模块包括多头注意力模块、前馈神经网络和规范化层；所述Q矩阵从回复生成模块中获取得到；根据回复生成模块对Q矩阵、K矩阵和V矩阵进行交互后共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵，得到解码矩阵，包括：

对Q矩阵、K矩阵和V矩阵进行结合，共同输入到多头注意力模块，得到Z矩阵；

利用前馈神经网络以及规范化层对所述Z矩阵进行解码，得到解码矩阵。

在其中一个实施例中，根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务，构建总的损失函数，包括：

根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务，分别构建意图识别任务的损失函数和文本生成任务的损失函数；利用损失函数进行损失计算，得到意图识别任务的损失值和文本生成任务的损失值；

根据意图识别任务的损失值和文本生成任务的损失值按照指数函数加权求和，得到总的损失函数。

在其中一个实施例中，意图识别任务的损失函数为

其中，y为意图识别任务的输出预测向量，

为真实标签向量的第i维度的值，取值范围为｛0，1｝，

表示模型预测属于第i个意图的概率。

在其中一个实施例中，文本生成任务的损失函数为

其中，N表示生成的文本序列长度，

代表文本中的第i个词，

表示模型中的神经网络参数集合，l是迭代的步数，

表示预测第i个词的条件概率。

在其中一个实施例中，根据所述意图识别任务的损失值和文本生成任务的损失值按照指数函数加权求和，得到总的损失函数，包括：

根据所述意图识别任务的损失值和文本生成任务的损失值按照指数函数加权求和，得到总的损失函数为

其中，

表示意图识别任务的损失值，

表示文本生成任务的损失值，

表示第l次迭代的指数函数值。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取对话生成任务；对话生成任务包括用户本轮对话内容；

利用优化后的回复生成模块生成用户本轮的回复文本。

上述基于ALBERT-Coref模型的对话文本生成方法、计算机设备和存储介质，首先构建ALBERT-Coref模型；ALBERT-Coref模型包括共指消解模块、语义编码模块、回复生成模块和迁移学习模块；根据共指消解模块对自注意力机制进行改进，得到改进后的自注意力机制；根据改进后的自注意力机制对语义编码模块进行优化，得到优化后的语义编码模块，利用优化后的语义编码模块对用户本轮对话内容进行编码，得到对话内容的特征向量、K矩阵和V矩阵；根据回复生成模块对Q矩阵、K矩阵和V矩阵进行交互，共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵；利用所述解码矩阵和掩码矩阵以自回归方式生成回复文本；根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务，构建总的损失函数，利用总的损失函数和自适应动量的Adam算法对ALBERT-Coref模型的所有模块进行优化，得到优化后的回复生成模块；利用优化后的回复生成模块生成最终的回复文本。本申请利用共指关系矩阵改进自注意力机制来解决对话上下文中存在共指消解的问题，提高了语义编码的准确率，将对话生成任务分解为意图识别和文本生成两个任务，分别构建意图识别任务的损失函数和文本生成任务的损失函数；利用总的损失函数和自适应动量的Adam算法对ALBERT-Coref模型的所有模块进行优化，解决特定领域样本分布不均衡的问题，进一步提高了回复文本生成的准确率。

附图说明

图1为一个实施例中一种基于ALBERT-Coref模型的对话文本生成方法的流程示意图；

图2为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于ALBERT-Coref模型的对话文本生成方法，包括以下步骤：

步骤102，获取对话生成任务；对话生成任务包括用户本轮对话内容；构建ALBERT-Coref模型；ALBERT-Coref模型包括共指消解模块、语义编码模块、回复生成模块和迁移学习模块。

步骤104，根据共指消解模块对自注意力机制进行改进，得到改进后的自注意力机制。

在共指消解模块中，通过首先使用自下而上的字节对编码算法将用户本轮对话内容转换成词序列，然后利用自然语言处理工具Spacy识别词序列当中的实体和指称，结合共指关系构造共指关系矩阵M，然后改进自注意力机制，将上下文的共指关系融入到模型的计算中从而解决对话上下文的共指消解的问题，进而提高了语义编码的准确率，最终提高了对话系统中的回复文本准确率。

步骤106，根据改进后的自注意力机制对语义编码模块进行优化，得到优化后的语义编码模块，利用优化后的语义编码模块对用户本轮对话内容进行编码，得到对话内容的特征向量、K矩阵和V矩阵。

语义编码模块负责提取文本语义特征，将文本编码为特征向量，语义编码模块使用ALBERT预训练语言模型对上下文信息进行编码，实现文本每个词的嵌入向量表示。对于一个包含n个词的文本

，为了实现粒度抽取以及压缩词表大小，ALBERT使用BPE算法将文本的所有词转换为子词，这样得到一个包含m个子词的句子，其中

，子词序列通过ALBERT编码得到一个向量序列

，其中cls表示上下文的特征向量，

为对应子词的特征向量。

利用ALBERT预训练模型编码对话信息解决语义特征表示和模型收敛速度慢的问题。利用改进后的自注意力机制替换掉语义编码模块中原始的自注意力机制，使得优化后的语义编码模块在进行文本语义特征提取时会更加准确。

步骤108，根据回复生成模块对Q矩阵、K矩阵和V矩阵进行交互后共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵；利用解码矩阵和掩码矩阵以自回归方式生成回复文本。

回复生成模块包括多头注意力机制、前馈神经网络和规范化层，通过增加前馈神经网络和规范化层增强了回复生成模块的解码能力。

步骤110，根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务，构建总的损失函数，利用总的损失函数和自适应动量的Adam算法对ALBERT-Coref模型的所有模块进行优化，得到优化后的回复生成模块；利用优化后的回复生成模块生成用户本轮的回复文本。

对话系统中对话通常以问答对的形式呈现，然而不同意图的样本分布并不均衡且部分数据存在稀疏性，会降低模型的效果。迁移学习模块将对话生成任务分解为意图识别和文本生成两个任务，意图识别任务确定问答对的问题意图，文本生成任务负责生成回复文本。在训练阶段，分别构建意图识别任务的损失函数和文本生成任务的损失函数；利用损失函数进行损失计算，得到意图识别任务的损失值和文本生成任务的损失值；根据意图识别任务的损失值和文本生成任务的损失值按照指数函数加权求和，得到总的损失函数。

在预测阶段，为防止意图识别的错误传播，仅通过回复生成模块完成文本生成任务，意图识别任务仅用来优化模型参数。利用总的损失函数和迁移学习算法，即Adam算法（利用Adam算法进行模块优化的过程为现有技术，在本申请中不做过多的赘述）对回复生成模块进行联合优化，得到优化后的回复生成模块，意图识别任务仅用来优化模型参数，将对话生成任务分解为意图识别和文本生成两个任务，使用迁移学习的方法优化回复生成模块，解决特定领域样本分布不均衡的问题，提高了回复文本生成的准确率。

上述基于ALBERT-Coref模型的对话文本生成方法中，首先构建ALBERT-Coref模型；ALBERT-Coref模型包括共指消解模块、语义编码模块、回复生成模块和迁移学习模块；根据共指消解模块对自注意力机制进行改进，得到改进后的自注意力机制；根据改进后的自注意力机制对语义编码模块进行优化，得到优化后的语义编码模块，利用优化后的语义编码模块对用户本轮对话内容进行编码，得到对话内容的特征向量、K矩阵和V矩阵；根据回复生成模块对Q矩阵、K矩阵和V矩阵进行交互，共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵；利用所述解码矩阵和掩码矩阵以自回归方式生成回复文本；根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务，构建总的损失函数，利用总的损失函数和自适应动量的Adam算法对ALBERT-Coref模型的所有模块进行优化，得到优化后的回复生成模块；利用优化后的回复生成模块生成最终的回复文本。本申请利用共指关系矩阵改进自注意力机制来解决对话上下文中存在共指消解的问题，提高了语义编码的准确率，将对话生成任务分解为意图识别和文本生成两个任务，分别构建意图识别任务的损失函数和文本生成任务的损失函数；利用总的损失函数和自适应动量的Adam算法对ALBERT-Coref模型的所有模块进行优化，解决特定领域样本分布不均衡的问题，进一步提高了回复文本生成的准确率。

在具体实施例中，字节对编码算法是BPE压缩算法。

根据实体和指称之间的共指关系构造共指关系矩阵为

其中，a表示可训练的参数，

表示第i个词和第j个词存在共指关系，

表示第i个词和第j个词不存在共指关系。

其中，

表示自注意力机制中的

矩阵，

表示自注意力机制中的

矩阵，

表示自注意力机制中的

矩阵，

表示神经网络，T表示转置运算，

表示隐藏层的维度，

表示Q矩阵第i个头的隐藏层参数矩阵，

表示K矩阵第i个头的隐藏层参数矩阵，

表示V矩阵第i个头的隐藏层参数矩阵，

表示第i个头的输出矩阵。

在其中一个实施例中，回复生成模块包括多头注意力模块、前馈神经网络和规范化层；Q矩阵从回复生成模块中获取得到；根据回复生成模块对Q矩阵、K矩阵和V矩阵进行交互后共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵，得到解码矩阵，包括：

在具体实施例中，

；

；

，X是语义编码模块输入的向量序列。

在其中一个实施例中，意图识别任务的损失函数为

其中，y为意图识别任务的输出预测向量，

为真实标签向量的第i维度的值，取值范围为｛0，1｝，

表示模型预测属于第i个意图的概率。

在其中一个实施例中，文本生成任务的损失函数为

其中，N表示生成的文本序列长度，

代表文本中的第i个词，

表示模型中的神经网络参数集合，l是迭代的步数，

表示预测第i个词的条件概率。

其中，

表示意图识别任务的损失值，

表示文本生成任务的损失值，

表示表示第l次迭代的指数函数值。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图2所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于ALBERT-Coref模型的对话文本生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。