CN116028606A

CN116028606A - 基于Transformer指针抽取的人机多轮对话改写方法

Info

Publication number: CN116028606A
Application number: CN202310007932.8A
Authority: CN
Inventors: 宋建锋; 孙章杰; 苗启广; 刘如意; 谢琨; 刘向增; 权义宁
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-01-04
Filing date: 2023-01-04
Publication date: 2023-04-28

Abstract

本发明公开了一种基于Transformer指针抽取的人机多轮对话改写方法，其实现步骤为：构造文本语义相关性识别网络和语义缺失文本改写网络；生成训练集；训练文本语义相关性识别网络和语义缺失文本改写网络；判断用户输入文本间语义是否相关；改写语义缺失文本。本发明利用Transformer的预训练模型进行特征提取并编码，利用通过指针地址抽取文本关键信息内容的技术思路对用户文本进行改写。使得本发明具有可以判断是否需要对用户当前输入文本进行改写、改写用户语义缺失文本质量高、耗时短的优点，可用于人机多轮对话领域中对语义缺失文本的改写任务。

Description

基于Transformer指针抽取的人机多轮对话改写方法

技术领域

本发明属于数据处理技术领域，更进一步涉及自然语言处理技术领域中的一种基于Transformer指针抽取的人机多轮对话改写方法。本发明通过改写人机对话文本，为多轮对话领域中机器对于用户存在代词指代和信息缺省文本的语义理解提供必要的技术支撑。

背景技术

在人机对话领域，根据人机交互轮次分为单轮对话和多轮对话，单轮对话的技术已经相对成熟，包括检索式和生成式等方法。但是，这些生成方法对于用户表述的局限性很强，应用场景并不广泛。多轮对话场景中，用户普遍存在代词指代和信息缺省的语义缺失的表述形式，使得语句语焉不详指代不清和句子成份缺失，造成机器对于这种表述文本的语义理解存在困难，最终使得对话质量不佳。人机多轮对话改写指的是结合用户上一轮输入文本，对用户当前输入的语义缺失文本进行改写，恢复其指代或缺省的信息，帮助机器理解用户的真实意图。

网易(杭州)网络有限公司在其申请的专利文献“一种多轮对话改写方法和装置”(专利申请号：202110010037.2，申请公布号：CN 112597777 A)中提出了一种多轮对话改写方法。该方法利用序列标注算法对于用户待改写文本进行标注，并得到文本中每个序列对应的序列标签，能够有效提高网络改写用户文本的质量。利用Transformer堆叠的结构完成序列标注和解码生成，能加载预训练模型的权重，通过自回归算法，对每个序列标签对应的内容进行解析，能够有效提高网络改写用户文本的速度。但是，该方法仍然存在的不足之处是，无法判断用户当前输入文本是否属于存在代词指代和信息缺省的语义缺失文本，进而无法判断是否需要对用户当前输入文本进行改写。

南京理工大学在其申请的专利文献“一种基于知识驱动的对话重写方法及系统”(专利申请号：202111251522.5，申请公布号：CN 114036271 A)中提出了一种基于知识驱动的对话改写方法。该方法利用Transformer的attention机制捕捉文本词之间的依赖关系，解决现有对话改写技术中网络关注文本深层次语义能力弱，对于文本的语义特征提取能力不足的问题。引入通过指针地址复制用户对话历史来生成改写文本的思路，将多轮对话问题简化为单轮对话问题，解决机器难以理解用户语义缺失文本的真实语义问题。但是，该方法仍然存在的不足之处是，使用了6层Transformer分别做encoder和decoder工作，导致网络不能加载一些已经预训练好的模型权重，而且该方法提出的基于指针网络生成改写文本的思路是从头开始生成改写文本，最终使得网络的改写工作十分耗时。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于Transformer指针抽取的人机多轮对话改写方法，用于解决人机多轮对话改写现有方法无法判断是否需要对用户当前输入文本进行改写、改写用户语义缺失文本的质量低、耗时长的问题。

实现本发明目的的技术思路是，本发明在构建文本语义相关性识别网络过程中，利用了Transformer的BERT预训练模型对文本进行特征提取和编码，进而关注文本深层次的语义，利用全连接神经网络将文本的语义特征进行高度提纯，解决了机器无法判断是否需要对用户当前输入文本进行改写的技术问题。本发明在构建语义缺失文本改写网络的过程中，利用了Transformer的rbt3预训练模型对文本进行特征提取并编码，通过抽取文本关键信息的指针地址，包括关键词位置开始指针、关键词位置结束指针、缺省位置指针、指代词位置开始指针和指代词位置结束指针，并根据指针地址提取关键词替换待改写文本的指代词或插入缺省位置，得到改写后的完整语义文本，解决了网络改写用户语义缺失文本的质量低、耗时长的技术问题。

本发明的实现步骤如下：

步骤1，构建文本语义相关性识别网络：

搭建一个四层的文本语义相关性识别网络，其结构依次串联为：数据处理层，语义编码层，分类处理层，输出层；其中，语义编码层是由Bert预训练模型实现；将字嵌入向量维度设置为768，文本允许的最大长度设置为10；分类处理层由两个结构相同的第一分类单元和第二分类单元串联组成，每个分类单元由Dropout模块和全连接模块串联组成，将Dropout的比例设置为0.2，第一分类单元中的全连接模块输出维度设置为8，第二分类单元中的全连接模块输出维度设置为2；输出层由Softmax单元组成，输出值均设置为0或1；

步骤2，构建语义缺失文本改写网络：

搭建一个四层的语义缺失文本改写网络，其结构依次串联为：数据处理层，语义编码层，指针预测层，输出层；其中，语义编码层是由Transformer的rbt3预训练模型实现，将字嵌入向量维度设置为768，文本允许的最大长度设置为50；指针预测层是由指针抽取方法实现，通过抽取文本关键信息的指针地址，通过指针地址提取关键词替换待改写文本的指代词或插入缺省位置，得到改写后的完整语义文本，将训练样本批次大小设置为16，训练总轮次大小设置为20；输出层是由解码器实现，将网络对于样本数据的改写评估指标设置为Rouge-1值；

步骤3，生成训练集：

步骤3.1，将两段文本及对应的语义相关性标签组成(label，q₁，q₂)格式的一组文本语义相关性识别数据，其中，q₁和q₂分别表示用于语义相关性识别的两个文本，label表示标签，值为0或1，分别对应两个文本语义不相关或相关；采用相同方式，选取至少80000组文本语义相关性识别数据组成文本语义相关性识别训练集；

步骤3.2，将四段文本组成(a，b，current，right)格式的一组数据，其中，a表示用户上一轮输入文本，b表示系统上一轮的回复文本，current表示当前待改写的文本，right表示理论正确改写后的文本；采用相同方式，选取至少17000组数据组成语义缺失文本改写训练集；

步骤4，训练文本语义相关性识别网络：

将文本语义相关性识别训练集输入到文本语义相关识别网络中，输出训练样本的预测标签，利用交叉熵损失函数计算训练样本的预测标签与真实标签之间的损失值，通过梯度下降法，迭代更新文本语义相关识别网络中的所有参数，直至损失值不再变化为止，得到训练好的文本语义相关识别网络；

步骤5，训练语义缺失文本改写网络：

将语义缺失文本改写训练集输入到语义缺失文本改写网络中，输出改写后的完整语义文本，并计算网络改写后的文本和理论正确改写的文本间的Rouge-1值，通过梯度下降法，迭代更新语义缺失文本改写网络中的所有参数，直至Rouge-1值不再变化为止，记录最高的Rouge-1值训练轮次的所有参数，得到训练好的语义缺失文本改写网络；

步骤6，判断用户输入文本间语义是否相关：

将用户上一轮输入文本与用户当前输入文本，输入到训练好的文本语义相关性识别网络中，输出用户两轮对话文本的语义相关性预测标签，若预测标签值为0，则说明用户当前输入文本与上一轮输入文本间的语义无关联，无需改写；若预测标签值为1，说明用户当前输入文本与上一轮输入文本间的语义相关联，需要进行改写工作理解当前输入文本的语义，执行步骤7；

步骤7，改写语义缺失文本：

将用户上一轮输入文本与用户当前输入文本以及机器上一轮回复文本，均输入到训练好的语义缺失文本改写网络中，输出对用户当前输入文本改写后的完整语义文本，根据改写后的完整语义文本理解用户当前输入文本的语义。

本发明与现有技术相比较，具有以下优点：

第一，由于本发明构建了文本语义相关性识别网络，识别用户两轮输入文本间语义是否相关联，判断用户当前输入文本是否需要结合上一轮文本进行语义理解，进而判断是否需要对用户当前输入文本进行改写，克服了现有技术无法判断是否需要对用户当前输入文本进行改写的缺陷，使得本发明具有可以判断是否需要对用户当前输入文本进行改写的优点。

第二，由于本发明构建了语义缺失文本改写网络，采用了Transformer的rbt3预训练模型进行处理并提取文本特征的方式，使用了基于指针地址抽取文本关键信息内容的方法，克服了现有技术改写用户文本的质量低、耗时长的缺陷，使得本发明具有改写用户语义缺失文本质量高、耗时短的优点。

附图说明

图1是本发明的流程图；

图2是本发明的仿真图；其中，图2(a)是本发明仿真实验1中语义相关性识别网络和现有技术对文本语义相关性识别训练集进行识别，得到的准确率与训练轮次之间的关系曲线图，图2(b)是本发明仿真实验1中语义相关性识别网络和现有技术对文本语义相关性识别训练集进行识别，得到的预测标签与真实标签之间的损失值与训练轮次之间的关系曲线图，图2(c)是本发明仿真实验2中语义缺失文本改写网络和现有技术对语义缺失文本改写数据集进行改写，得到的Rouge-1值与训练轮次之间的关系曲线图，图2(d)是本发明仿真实验2中语义缺失文本改写网络和现有技术对语义缺失文本改写数据集进行改写，得到的消耗时间与训练轮次之间的关系曲线图。

具体实施方式

下面结合附图和实施例对本发明做进一步的描述。

参照图1，对本发明实施例的实现步骤做进一步的描述。

步骤1，构建文本语义相关性识别网络。

搭建一个四层的文本语义相关性识别网络，其结构依次串联为：数据处理层，语义编码层，分类处理层，输出层；其中，语义编码层是由Transformer的BERT预训练模型实现，将字嵌入向量维度设置为768，文本允许的最大长度设置为10；分类处理层由两个结构相同的第一分类单元和第二分类单元串联组成，每个分类单元由Dropout模块和全连接模块串联组成，将Dropout的比例设置为0.2，第一分类单元中的全连接模块输出维度设置为8，第二分类单元中的全连接模块输出维度设置为2；输出层由Softmax单元组成，输出值均设置为0或1。

步骤2，构建语义缺失文本改写网络。

搭建一个四层的语义缺失文本改写网络，其结构依次串联为：数据处理层，语义编码层，指针预测层，输出层；其中，语义编码层是由Transformer的rbt3预训练模型实现，将字嵌入向量维度设置为768，文本允许的最大长度设置为50；指针预测层是由指针抽取方法实现，通过抽取文本关键信息的指针地址，用指针地址提取的关键词替换待改写文本的指代词或插入缺省位置，得到改写后的完整语义文本，将训练样本批次大小设置为16，训练总轮次大小设置为20。输出层是由解码器实现，将网络对于样本数据的改写评估指标设置为Rouge-1值。

所述指针地址包括关键词位置开始指针、关键词位置结束指针、缺省位置指针、指代词位置开始指针和指代词位置结束指针。

所述指针抽取方法是通过比较训练集中当前待改写的文本和理论正确改写后的文本的差异，得出关键词、指代词、缺省位置，根据关键词抽取出用户上一轮输入文本中关键词位置的开始指针和结束指针，根据指代词抽取出当前待改写的文本中指代词位置的开始指针和结束指针，根据缺省位置抽取出当前待改写的文本中缺省位置指针。

步骤3，生成训练集。

步骤3.1，将两段文本及对应的语义相关性标签组成(label，q₁，q₂)格式的一组文本语义相关性识别数据，其中，q₁和q₂分别表示用于语义相关性识别的两个文本，label表示标签，值为0或1，分别对应两个文本语义不相关或相关；采用相同方式，选取至少80000组文本语义相关性识别数据组成文本语义相关性识别训练集。

步骤3.2，将四段文本组成(a，b，current，right)格式的一组数据，其中，a表示用户上一轮输入文本，b表示系统上一轮的回复文本，current表示当前待改写的文本，right表示理论正确改写后的文本；采用相同方式，选取至少17000组数据组成语义缺失文本改写训练集。

步骤4，训练文本语义相关性识别网络。

将文本语义相关性识别训练集输入到文本语义相关识别网络中，利用数据处理层将用于语义相关识别的两个文本进行拼接得到完整的拼接文本，再将拼接文本输入到语义编码层，使用Transformer的BERT预训练模型对拼接文本进行特征提取并编码得到文本向量，再将文本向量输入到分类处理层得到高度提纯后的特征向量，再将提纯后的特征向量输入到输出层得到数据文本间语义相关性的预测标签，利用交叉熵损失函数计算训练样本的预测标签与真实标签之间的损失值，通过梯度下降法，迭代更新文本语义相关识别网络中的所有参数，直至损失值不在变化，得到训练好的文本语义相关识别网络。

按照下式，计算文本语义相关性识别网络对样本识别的准确率：

其中，ACC表示文本语义相关性识别网络对样本识别的准确率，acc表示网络对训练样本第i组数据的预测标签值，n表示该训练样本中数据的总量,∑表示求和。

按照下式，计算训练样本的预测标签与真实标签之间的损失值：

其中，Loss表示训练样本的预测标签与真实标签之间的损失值，y_i表示网络对第i组数据的预测标签值，label表示第i组数据的真实标签值，criterion表示交叉熵函数，n表示第i组训练样本中数据的总数，∑表示求和操作，size表示训练样本批次的大小。

步骤5，训练语义缺失文本改写网络。

将语义缺失文本改写训练集输入到语义缺失文本改写网络中，利用数据处理层将用于改写的相关文本进行拼接得到完整的拼接文本，再将拼接文本输入到语义编码层，使用Transformer的rbt3预训练模型对拼接文本进行特征提取并编码得到文本向量，再将文本向量输入到指针预测层得到数据文本关键信息的指针地址，再将指针地址输入到输出层利用解码器得到网络改写后的完整语义文本，并计算网络改写后的文本和理论正确改写的文本间的Rouge-1值，通过梯度下降法，迭代更新语义缺失文本改写网络中的所有参数，直至Rouge-1值不再变化为止，记录最高的Rouge-1值训练轮次的所有参数，得到训练好的语义缺失文本改写网络。

按照下式，计算语义缺失文本改写网络对样本改写的Rouge-1值：

其中，rouge表示语义缺失文本改写网络对第i组数据改写的Rouge-1值，y_i表示网络对第i组数据改写后的文本中的字，

表示第i组数据理论正确改写的文本中的字，count表示统计y_i和

相同的数量，len(gram)表示第i组数据理论正确改写的文本长度。

步骤6，判断用户输入文本间语义是否相关。

将用户上一轮输入文本与用户当前输入文本，输入到训练好的文本语义相关性识别网络中，输出用户两轮对话文本的语义相关性预测标签，若预测标签值为0，则说明用户当前输入文本与上一轮输入文本间的语义无关联，无需改写；若预测标签值为1，说明用户当前输入文本与上一轮输入文本间的语义相关联，需要进行改写工作理解当前输入文本的语义，执行步骤7。

步骤7，改写语义缺失文本。

将用户上一轮输入文本以及机器上一轮回复文本与用户当前输入文本，均输入到训练好的语义缺失文本改写网络中，输出对用户当前输入文本改写后的完整语义文本，根据改写后的完整语义文本理解用户当前输入文本的语义。其中机器上一轮回复文本是指机器针对用户上一轮输入文本经过搜索答案后进行回复的文本，属于用户与机器的对话历史文本，存储于Redis第三方中间件中。

下面结合仿真实验对本发明的效果做进一步的说明。

1.仿真实验条件：

本发明的仿真实验的硬件平台为：处理器为Intel i7 10750H CPU，主频为2.60GHz，内存32GB。

本发明的仿真实验的软件平台为：Windows 10操作系统和python 3.7。

2.仿真内容及其结果分析：

本发明的仿真实验有两个：

仿真实验1是采用本发明提出的文本语义相关性识别网络和现有技术(基于双向长短期记忆网络的文本语义相关性识别方法)分别对输入的文本语义相关性识别训练集进行语义相关性识别，得到识别的准确率和损失值，再将准确率与训练轮次之间的关系绘制成如图2(a)所示的曲线，将损失值与训练轮次之间的关系绘制成如图2(b)所示的曲线。

在仿真实验1中，现有技术基于双向长短期记忆网络的文本语义相关性识别方法是指，郭青松在“概念及短文本语义相关度计算研究[D].广西师范大学,2020.DOI:10.27036/d.cnki.ggxsu.2020.002023.”中提出的基于双向长短期记忆网络对文本语义相关性识别的方法，简称C-BiLSTM。

仿真实验2是采用本发明提出的语义缺失文本改写网络和现有技术(基于Transformer构建的指针生成改写文本的方法)分别对输入的语义缺失文本改写数据集进行改写，得到改写的Rouge-1值和消耗时间，再将Rouge-1值与训练轮次之间的关系绘制成如图2(c)所示的曲线，将消耗时间与训练轮次之间的关系绘制成如图2(d)所示的曲线。

在仿真实验2中，现有技术基于Transformer构建的指针生成改写文本的方法是指，Hui Su等人在其发表的论文“Improving Multi-turn Dialogue Modelling withUtterance ReWriter，CoRR.2020.abs/1906.07004.”中提出的基于Transformer构建的指针生成改写文本的方法，简称T-Ptr-λ。

下面结合图2的仿真图对本发明的效果做进一步的描述

图2(a)中的横坐标表示训练轮次，总共20轮，纵坐标表示识别准确率。其中，以“+”标示的曲线表示采用本发明提出的文本语义相关性识别网络得到的准确率与训练轮次之间的关系曲线，以“*”标示的曲线采用现有技术C-BiLSTM得到的准确率与训练轮次之间的关系曲线。

从图2(a)中可以看出，随着训练轮次的增加，本发明提出的文本语义相关性识别网络的准确率最高为0.97，现有技术C-BiLSTM最高为0.90，证明本发明提出的文本语义相关性识别网络在对文本语义相关性识别的准确率上是优于现有技术的。

图2(b)中的横坐标表示训练轮次，总共20轮，纵坐标表示损失值。其中，以“+”标示的曲线表示采用本发明提出的文本语义相关性识别网络得到的损失值与训练轮次之间的关系曲线，以“*”标示的曲线表示采用现有技术C-BiLSTM得到的损失值与训练轮次之间的关系曲线。

从图2(b)中可以看出，随着训练轮次的增加，本发明提出的文本语义相关性识别网络在对文本语义相关性识别训练集的预测标签和真实标签的损失值最低为0.10，现有技术C-BiLSTM最低为0.15，证明本发明提出的文本语义相关性识别网络在收敛性上是优于现有技术的。

图2(c)中的横坐标表示训练轮次，总共16轮，纵坐标表示Rouge-1值。其中，以“+”标示的曲线表示采用本发明提出的语义缺失文本改写网络对文本改写得到的Rouge-1值与训练轮次之间的关系曲线，以“*”标示的曲线表示表示采用现有技术T-Ptr-λ对文本改写得到的Rouge-1值与训练轮次之间的关系曲线。

从图2(c)中可以看出，随着训练轮次的增加，本发明提出的语义缺失文本改写网络的Rouge-1值最高为0.94，现有技术T-Ptr-λ最高为0.89，证明本发明提出的语义缺失文本改写网络在对语义缺失文本的改写效果是优于现有技术的。

图2(d)中的横坐标表示训练轮次，总共16轮，纵坐标表示时间消耗，单位为秒。其中，以“+”标示的曲线表示采用本发明提出的语义缺失文本改写网络对训练集改写的时间消耗与训练轮次之间的关系曲线，以“*”标示的曲线表示采用现有技术T-Ptr-λ对训练集改写的时间消耗与训练轮次之间的关系曲线。

从图2(d)中可以看出，随着训练轮次的增加，本发明提出的语义缺失文本改写网络的改写时间消耗稳定在15秒，现有技术T-Ptr-λ的改写时间消耗稳定在120秒，证明本发明提出的语义缺失文本改写网络在对语义缺失文本的改写时间消耗方面是优于现有技术的。

以上仿真实验表明：本发明采用了Transformer的rbt3预训练模型进行处理并提取文本特征的方式，且使用了基于指针地址抽取文本关键信息内容的思路构建的语义缺失文本改写网络，解决了现有技术改写用户文本的质量低、耗时长的问题。且本发明通过构建文本语义相关识别网络，识别用户两轮输入文本间语义是否相关联，判断用户当前输入文本是否需要结合上一轮文本进行语义理解，进而判断是否需要对用户当前输入文本进行改写，解决了现有技术无法判断是否需要对用户当前输入文本进行改写的问题。

Claims

1.一种基于Transformer指针抽取的人机多轮对话改写方法，其特征在于，基于Transformer的预训练模型进行特征提取并编码，分别构建并训练文本语义相关性识别网络和语义缺失文本改写网络；该对话改写方法的步骤包括如下：

步骤1，构建文本语义相关性识别网络：

步骤2，构建语义缺失文本改写网络：

搭建一个四层的语义缺失文本改写网络，其结构依次串联为：数据处理层，语义编码层，指针预测层，输出层；其中，语义编码层是由Transformer的rbt3预训练模型实现，将字嵌入向量维度设置为768，文本允许的最大长度设置为50；指针预测层是由指针抽取方法实现，通过抽取文本关键信息的指针地址，用指针地址提取的关键词替换待改写文本的指代词或插入缺省位置，得到改写后的完整语义文本，将训练样本批次大小设置为16，训练总轮次大小设置为20；输出层是由解码器实现，将网络对于样本数据的改写评估指标设置为Rouge-1值；

步骤3，生成训练集：

步骤4，训练文本语义相关性识别网络：

步骤5，训练语义缺失文本改写网络：

步骤6，判断用户输入文本间语义是否相关：

步骤7，改写语义缺失文本：

2.根据权利要求1所述的基于Transformer指针抽取的人机多轮对话改写方法，其特征在于，步骤2中所述的指针地址包括关键词位置开始指针、关键词位置结束指针、缺省位置指针、指代词位置开始指针和指代词位置结束指针。

3.根据权利要求1所述的基于Transformer指针抽取的人机多轮对话改写方法，其特征在于，步骤2所述的指针抽取方法是通过比较训练集中当前待改写的文本和理论正确改写后的文本的差异，得出关键词、指代词、缺省位置，根据关键词抽取出用户上一轮输入文本中关键词位置的开始指针和结束指针，根据指代词抽取出当前待改写的文本中指代词位置的开始指针和结束指针，根据缺省位置抽取出当前待改写的文本中缺省位置指针。

4.根据权利要求1所述的基于Transformer指针抽取的人机多轮对话改写方法，其特征在于，步骤4中所述训练样本的预测标签与真实标签之间的损失值是由下式得到的：

5.根据权利要求4所述的基于Transformer指针抽取的人机多轮对话改写方法，其特征在于，步骤5中所述的Rouge-1值是由下式得到的：

其中，rouge表示语义缺失文本改写网络对第i组数据改写的Rouge-1值，y_i表示网络对第i组数据改写后文本中的字，

6.根据权利要求1所述的基于Transformer指针抽取的人机多轮对话改写方法，其特征在于，步骤7中所述的机器上一轮回复文本指的是，机器针对用户上一轮输入文本经过搜索答案后进行回复的文本，属于用户与机器的对话历史文本，存储于Redis第三方中间件中。