CN113609824A

CN113609824A - 基于文本编辑和语法纠错的多轮对话改写方法及系统

Info

Publication number: CN113609824A
Application number: CN202110912343.5A
Authority: CN
Inventors: 蒋文荟; 沈备军; 顾小东
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2021-11-05

Abstract

一种基于文本编辑和语法纠错的多轮对话改写方法及系统，首先利用文本标注算法对收集到的对话数据文本进行单词级别的标注生成文本标注数据，用于对基于变形的双向编码表征模型进行微调得到序列标注模型，并根据该模型的预测序列中每个单词的分类标签对对话历史和不完整语句进行编辑，最后对改写后的文本进行语法纠错建模提高语句的流畅度。本发明能够提高多轮对话改写的准确度，在对话中利用文本编辑和语法纠错的方法，有效解决对话系统中指代和省略的问题，提高对话语句的完整度。

Description

基于文本编辑和语法纠错的多轮对话改写方法及系统

技术领域

本发明涉及的是一种智能对话系统中多轮对话改写的技术，具体是一种基于文本编辑和语法纠错的多轮对话改写(Dialogue Utterance Rewritten via SequenceEditing，DuReSE)方法及系统。

背景技术

近年来，随着自然语言处理(nlp)技术的发展，日益增多的企业使用智能聊天机器人来代替人工回复。以用户的询问和机器人的相应回复作为一轮对话，单轮对话的回复生成方法已经很成熟，但是用户通常会进行多轮的对话来达成自己的目标。在多轮对话过程中，用户常常会输入信息不完整(指代或者省略)的对话语句，即当前轮次对话语句存在指向对话历史中的一部分信息的代词或者存在省略。对于多轮对话的对话建模来说，最关键的任务是学习上下文的丰富语义表征，即将一系列对话编码成一个能够充分捕获语义(如意图、主题等)的连续向量。而因为信息不完整(指代或者省略)问题的存在，一些对话建模方法的训练和回复生成无法得到理想的效果。

信息不完整(指代和省略)问题在对话系统中是一个非常重要且常见的问题。在人的日常对话中常常出现指代或者省略的情况，人的大脑具有记忆功能可以对信息不完整的句子进行自动补全。而对话系统难以具备记忆功能，因此近年来基于多轮对话改写的方法被深入研究。多轮对话改写指的是将对话中信息不完整的句子重写为一个语义信息完整、可脱离上下文独立理解的句子，从而将多轮对话转换为单轮对话。这类方法的基本思路是基于机器翻译模型(Seq2Seq)进行信息补充，输入不完整的对话语句以及对话历史后模型输出语义信息完整的句子。将不完整的对话语句作为原文本，改写后的语义信息完整的句子作为目标文本，传统的方法是从第一个单词开始重新生成目标文本，没有考虑到原文本与目标文本的高度重合。因此如何更准确更高效地生成目标文本需要深入讨论。

发明内容

本发明针对现有技术解决多轮对话信息不完整的问题时没有考虑到原文本和目标文本高度重合的情况，提出一种基于文本编辑和语法纠错的多轮对话改写方法及系统，能够提高多轮对话改写的准确度，在对话中利用文本编辑和语法纠错的方法，有效解决对话系统中指代和省略的问题，提高对话语句的完整度。

本发明是通过以下技术方案实现的：

本发明涉及一种基于文本编辑和语法纠错的多轮对话改写方法，首先利用文本标注算法对收集到的对话数据文本进行单词级别的标注生成文本标注数据，用于对基于变形的双向编码表征(BERT)模型进行微调得到序列标注模型，并根据该模型的预测序列中每个单词的分类标签对对话历史和不完整语句进行编辑，最后对改写后的文本进行语法纠错建模提高语句的流畅度。

所述的对话数据文本包括：对话历史语句、当前轮次不完整的对话语句以及改写后的单轮语句，其中：对话历史表示多轮对话中除了最后一个轮次的语句，不完整语句指的是对话中最后一个轮次的语句并且这句话语义信息不完整(包含指代或者省略)。

所述的单词级别的标注，采用的分类标签包括：SKIP、ADD、EDIT、KEEP，其中：KEEP表示保留该单词，ADD表示在当前单词之前插入，EDIT表示替换当前单词，SKIP表示忽略，即删除当前单词。

所述的单词级别的标注是指：采用已有的最长公共子序列算法(LCS)对不完整语句和改写语句进行分类标签的标注，具体为：获取不完整语句和改写语句之间的最长公共子序列，即两者重合的部分，标注为KEEP；之后根据改写语句中增加、替换的单词或短语对对话历史语句进行提取，并将不完整语句和对话历史中相应的位置标记为ADD或者EDIT；对话历史中的其余文本即不需要使用的文本，因此标注为SKIP。

所述的最长公共子序列是指：符合同时是两个或多个序列的子序列条件的序列中长度最长，其中序列是指：按次序排好的一列对象，此处指按顺序组合而成的单词。

所述的微调是指：用BERT模型和经单词级别的标注生成的文本标注数据进行训练，使得模型适应自己的数据。

所述的序列标注模型，为编码器-解码器架构，其中：编码器利用基于对话文本微调后的BERT模型对对话文本进行编码，生成相应的编码信息矩阵；解码器利用完全基于注意力机制的Transformer模型的解码器部分对编码信息矩阵进行解码，生成序列的分类标签，并根据当前生成的1～i的标签生成下一个单词的标签i+1。

所述的BERT模型获取输入句子每个单词的表示向量，将句子的单词向量表示矩阵输入编码器中从而得到所有单词的编码信息矩阵。

所述的预测序列是指：由序列标注模型的编码器将一个可变长度的序列编码成一个固定长度的向量，再通过解码器将固定长度的向量解码为一个可变长度的目标序列，即从词汇表中生成每一个目标文本的单词。本发明中模型的预测序列即为输入文本中每个单词对应的标签。

所述的对不完整语句进行编辑包括：对于不完整语句中被标注为KEEP的序列直接复制过来；不完整语句中当有被标记为EDIT的序列说明该序列为指代，因此替换为对话历史中被标记为EDIT的序列；不完整语句中当有被标记为ADD的序列这说明此处存在省略，因此在该序列之前插入对话历史中被标记为ADD的序列；而对于对话历史中被标记为SKIP的序列则直接丢弃。

所述的语法纠错建模，具体包括：

1)基于预训练模型BERT对语法纠错数据进行建模，输入是包含语法错误的语句，使用的模型同上文所述序列标注模型，输出为两类标签：DELETE|新增单词、KEEP|新增单词。

2)基于标签进行文本编辑，包括：“DELETE|新增单词”表示替换当前短语为“新增单词”，“KEEP|新增单词”表示在当前短语之前插入“新增单词”。

技术效果

本发明整体解决了现有技术需要从头开始重新生成目标语句的不足；本发明使用序列标注模型同时对对话历史和语义不完整语句进行标注和编辑，充分考虑到原文本和目标文本高度重合的特点，不需要从头开始生成目标语句的同时，显著提高了改写语句的准确度。

附图说明

图1为本发明方法流程图；

图2为实施例系统示意图。

具体实施方式

如图2所示，为本实施例涉及的一种基于文本编辑和语法纠错的多轮对话改写系统，包括：文本编辑模块和语法纠错模块，其中：文本编辑模块构建序列标注模型，序列标注模型使用BERT作为编码器，Transformer作为解码器，根据序列标注模型生成的标签进行语句的编辑；语法纠错模块对编辑后的语义信息完整的语句进行语法纠错从而生成最终的改写语句。

所述的文本编辑模块包括：原始文本标注算法、序列标注模型和文本编辑算法，其中：原始文本标注算法根据对话数据文本生成文本标注数据，序列预测模型对对话文本生成预测标签，文本编辑算法根据预测标签得到改写后的语义信息完整的语句。

所述的语法纠错模块包括：序列标注模型和语法纠错算法，其中序列标注模型对包含语法错误的语句生成预测标签，语法纠错算法根据预测标签删除或者新增单词。

如图1所示，为本实施例涉及一种基于上述系统的文本编辑和语法纠错的多轮对话改写方法，具体步骤包括：

1)收集对话数据文本并通过文本标注算法进行序列标注生成文本标注数据。

例如，对话历史为“A：上海今天天气如何。B：下雨。”，当前不完整语句为“A：为什么总是这样。”，改写后的语句为“上海为什么总是下雨”。通过文本标注算法可以将“什么总是”标记为KEEP；“上海”和“为”标记为ADD，这说明“为”之前需要添加主语“上海”；“下雨”和“这样”标记为EDIT，这说明“这样”需要替换为“下雨”。其余的对话历史文本(“今天天气如何”)则被标记为SKIP。

2)以步骤1中生成的文本标注数据为训练集对序列标注模型进行二次训练，具体包括：

2.1)定义对话历史为

不完整语句为U_N，将

和U_N进行拼接后在输入的最开始添加“[CLS]”并在

和U_N的结尾添加“[SEP]”从而组成模型的输入。BERT模型首先学习单词的表示向量

其中

经过BERT模型的编码得到最后的隐藏层向量为H＝[h₁，...，h_|C|]＝f_θ([E^C，E^U])，其中：f_θ表示参数为θ的函数。

2.2)基于编码器输出的隐藏层向量H预测每个单词的标签，具体为：p(t_i|t_<i，H)＝g_φ(H_＜i)，fori＝2,…,|C|，其中：H为编码器的输出，φ为模型的参数。每个单词的标签预测t_i都是基于之前预测的标签t_＜i。

2.3)定义文本标注算法生成的标签为T＝[t₁，...，t_|C|]，对生成的标签和预测的标签使用交叉熵损失函数训练模型：

3)用微调后的序列标注模型对对话历史和不完整语句的每个单词进行标签预测并基于标签进行文本编辑，具体步骤包括：

3.1)通过序列标注模型预测每个单词的标签，即SKIP、ADD、EDIT、KEEP。

3.2)基于标签对不完整对话进行文本编辑。具体为：直接复制标记为KEEP的序列；用对话历史中被标记为EDIT的序列替换不完整语句中被标记为EDIT的序列；在不完整语句中被标记为ADD的序列前插入对话历史中被标记为ADD的序列。以上为简单的编辑规则，对于复杂情况的编辑包含三条规则：对话历史中被标记为KEEP的序列作为SKIP处理，不完整语句中被标记为SKIP的序列作为KEEP处理；当不完整对话中只有一个单词/短语被标记为EDIT/ADD而对话历史中有多个被标记为EDIT/ADD的单词/短语，则按照在对话中出现的顺序合并它们；当不完整对话和对话历史中都有多个EDIT/ADD的单词/短语，则计算余弦相似度找到最匹配的单词/短语。

所述的余弦相似度具体为：通过计算两个向量的夹角余弦值来评估他们的相似度。

例如，步骤一中的对话，“上海”和“为”标记为ADD，在“为”之前需要添加主语“上海”；“下雨”和“这样”标记为EDIT，替换“这样”为“下雨”。再加上标记为KEEP的序列，得到最终改写的语句“上海为什么总是下雨”。

4)当得到改写后的语句，对语句进行语法纠错，具体包括：

4.1)通过语法纠错模型预测每个单词的标签，语法纠错模型使用步骤2中的序列标注模型，区别是输入只有一句话且预测的标签不同。语法纠错模型的标签分为两类：DELETE|新增单词、KEEP|新增单词。新增单词可以为空。

4.2)基于标签对改写后的语句进行语法纠错。删除“DELETE”的单词，当标签为“DELETE|新增单词”则替换该单词为“新增单词”；保留“KEEP”的单词，在标记为“KEEP|新增单词”的单词前插入“新增单词”。经过实验，新增的单词主要为连接词，如“of”、“to”、“and”等。

例如，不完整语句为“Howto get there”，改写后的语句为“Howto getShanghai”，语法纠错生成的标签是“KEEP”、“KEEP”、“KEEP”、“KEEP|to”，则语法纠错后的语句为“Howto getto Shanghai”。

本实施例在两个英文的数据集以及一个中文的数据集上进行对比试验，分别为INCAR、CANARD和MULTI。INCAR是一个面向车载智能助手的数据集，包含了3031个对话，内容有日程、天气和导航三个方面。CANARD是一个基于维基百科问题的开放域数据集，包含了三万左右的对话数据。MULTI是一个基于豆瓣的开放域中文数据集，每个对话的对话历史包含6条语句(即三轮对话)和对应的不完整语句，包含二十万左右的对话数据。

本实施例采用BLEU、ROUGE和Exact Match(EM)三个指标来评价改写方法的优劣，其中：BLEU反映的是改写后语句的精确度，即改写语句存在于目标语句的-grams比例；ROUGE反映的是改写后语句的召回率，即改写语句和目标语句之间的-grams重叠程度。EM反映的是改写后语句与目标语句完全一致的数据百分比。三种指标分数的取值范围均为0～1，分数越接近于1说明改写的语句越完整。

所述的-grams重叠程度是指：当有一个序列s，那么该字符串的-grams就是按照n的长度切分该序列得到的词段，也就是s中所有长度为n的子串。

英文数据集选取的对比方法是：基于序列生成的方法：LSTM和transformer、基于指针生成网络的方法：L-Ptr-λ和T-Ptr-λ和基于语义分割的RUN方法，其中：L-Ptr-λ和T-Ptr-λ分别指基于LSTM和transformer的指针生成网络。中文数据集的对比方法为：LSTM、T-Ptr-λ、PAC和RUN，其中：PAC是基于BERT和指针生成网络的方法。

所述的指针生成网络是指：在序列生成的方法上加上复制原文本单词的能力。

如表1所示，为两个英文数据集上各个方法BLEU-1、ROUGE-1和EM测试中的情况。

表1现有技术与本方法的实验结果

对测试数据的分析如下：总体来说本方法(DuReSE)在各个指标上都优于其他方法。可以看出基于指针生成网络的方法(L-Ptr-λ和T-Ptr-λ)优于基于生成的方法(LSTM和Transformer)，这也说明对话信息不完整的问题(指代和消解)可以通过从原文本中复制单词来解决。而RUN和本方法的各个指标都高于基于生成/指针生成网络的方法，这说明基于编辑的方法可以提高信息补充的完整度。本方法在CANARD数据集上BLEU-1的值略低于RUN，其余所有指标都是最高的。因此本方法在英文数据集上取得了更好的多轮对话改写效果。

如表2所示，为中文数据集MUTIL上各个方法BLEU-1、BLEU-2、ROUGE-1和ROUGE-2测试中的情况。

表2现有技术与本方法的实验结果

方法	BLEU-1	BLEU-2	ROUGE-1	ROUGE-2
					LSTM	0.849	0.817	0.888	0.803
L-Ptr-λ	0.847	0.817	0.890	0.809
					PAC	0.899	0.863	0.916	0.828
RUN	0.911	0.896	0.924	0.851
					DuReSE	0.926	0.893	0.940	0.865

对测试数据的分析如下：总体来说本方法(DuReSE)在中文数据集上的各个指标也都优于其他方法。综合表1和表2可以得出本方法在多个跨语言的数据集上都有最好表现，因此本发明能够使得多轮对话的改写取得更好的效果。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于文本编辑和语法纠错的多轮对话改写方法，其特征在于，首先利用文本标注算法对收集到的对话数据文本进行单词级别的标注生成文本标注数据，用于对BERT模型进行微调得到序列标注模型，并根据该模型的预测序列中每个单词的分类标签对对话历史和不完整语句进行编辑，最后对改写后的文本进行语法纠错建模提高语句的流畅度；

所述的对话数据文本包括：对话历史语句、当前轮次不完整的对话语句以及改写后的单轮语句，其中：对话历史表示多轮对话中除了最后一个轮次的语句，不完整语句指的是对话中最后一个轮次的语句并且语义信息不完整；

2.根据权利要求1所述的基于文本编辑和语法纠错的多轮对话改写方法，其特征是，所述的单词级别的标注是指：采用已有的最长公共子序列算法对不完整语句和改写语句进行分类标签的标注，具体为：获取不完整语句和改写语句之间的最长公共子序列，即两者重合的部分，标注为KEEP；之后根据改写语句中增加、替换的单词或短语对对话历史语句进行提取，并将不完整语句和对话历史中相应的位置标记为ADD或者EDIT；对话历史中的其余文本即不需要使用的文本，因此标注为SKIP；

3.根据权利要求1所述的基于文本编辑和语法纠错的多轮对话改写方法，其特征是，所述的微调是指：用BERT模型和经单词级别的标注生成的文本标注数据进行训练，使得模型适应自己的数据。

4.根据权利要求1所述的基于文本编辑和语法纠错的多轮对话改写方法，其特征是，所述的序列标注模型，为编码器-解码器架构，其中：编码器利用基于对话文本微调后的BERT模型对对话文本进行编码，生成相应的编码信息矩阵；解码器利用完全基于注意力机制的Transformer模型的解码器部分对编码信息矩阵进行解码，生成序列的分类标签，并根据当前生成的1～i的标签生成下一个单词的标签i+1。

5.根据权利要求1或4所述的基于文本编辑和语法纠错的多轮对话改写方法，其特征是，所述的BERT模型获取输入句子每个单词的表示向量，将句子的单词向量表示矩阵输入编码器中从而得到所有单词的编码信息矩阵。

6.根据权利要求1所述的基于文本编辑和语法纠错的多轮对话改写方法，其特征是，所述的预测序列是指：由序列标注模型的编码器将一个可变长度的序列编码成一个固定长度的向量，再通过解码器将固定长度的向量解码为一个可变长度的目标序列，即从词汇表中生成每一个目标文本的单词。

7.根据权利要求1所述的基于文本编辑和语法纠错的多轮对话改写方法，其特征是，所述的不完整语句，通过以下方式进行编辑：对于不完整语句中被标注为KEEP的序列直接复制过来；不完整语句中当有被标记为EDIT的序列说明该序列为指代，因此替换为对话历史中被标记为EDIT的序列；不完整语句中当有被标记为ADD的序列这说明此处存在省略，因此在该序列之前插入对话历史中被标记为ADD的序列；而对于对话历史中被标记为SKIP的序列则直接丢弃。

8.根据权利要求1所述的基于文本编辑和语法纠错的多轮对话改写方法，其特征是，所述的语法纠错建模，具体包括：

1)基于预训练模型BERT对语法纠错数据进行建模，输入是包含语法错误的语句，使用的模型同上文所述序列标注模型，输出为两类标签：DELETE|新增单词、KEEP|新增单词；

2)基于标签进行文本编辑，包括：DELETE|新增单词表示替换当前短语为新增单词，KEEP|新增单词表示在当前短语之前插入新增单词。

9.一种实现权利要求1～8中任一所述方法的基于文本编辑和语法纠错的多轮对话改写系统，其特征在于，包括：文本编辑模块和语法纠错模块，其中：文本编辑模块构建序列标注模型，序列标注模块使用BERT作为编码器，Transformer作为解码器，根据序列标注模型生成的标签进行语句的编辑；语法纠错模块对编辑后的语义信息完整的语句进行语法纠错从而生成最终的改写语句。

10.根据权利要求9所述的多轮对话改写系统，其特征是，所述的文本编辑模块包括：原始文本标注算法、序列标注模型和文本编辑算法，其中：原始文本标注算法根据对话数据文本生成文本标注数据，序列预测模型对对话文本生成预测标签，文本编辑算法根据预测标签得到改写后的语义信息完整的语句；

所述的语法纠错模块包括：序列标注模型和语法纠错算法，其中：序列标注模型对包含语法错误的语句生成预测标签，语法纠错算法根据预测标签删除或者新增单词。