CN112417864B

CN112417864B - 基于门控拷贝和掩码的多轮对话省略恢复方法

Info

Publication number: CN112417864B
Application number: CN202011366188.3A
Authority: CN
Inventors: 郑杰; 包兴; 王迪; 费涛; 段贺; 顾爽
Original assignee: Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Current assignee: Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Priority date: 2020-11-29
Filing date: 2020-11-29
Publication date: 2023-10-31
Anticipated expiration: 2040-11-29
Also published as: CN112417864A

Abstract

本发明提出了一种基于门控拷贝和掩码的多轮对话省略恢复方法，获取原始省略句和其上下文文本内容；使用分词工具对文本进行分词，使用词典将词语序列映射为数字序列；使用预训练好的词向量文件来表示词语；基于门控机制，融合多头自注意力信息和Bi‑GRU的门控编码器，对省略句词向量序列和上下文词向量序列进行语义编码；基于软掩码机制，计算省略句的软掩码特征；利用掩码解码器，计算词表的概率分布；计算上下文词语的分值，使用Softmax函数对分值进行归一化，得到上下文概率分布；利用门控单元将词表的概率分布和上下文概率分布相加，得到最终的省略词概率分布，选择省略句的填充内容。本发明提高了省略恢复结果准确度。

Description

基于门控拷贝和掩码的多轮对话省略恢复方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于门控拷贝和掩码的多轮对话省略恢复方法。

背景技术

为了避免重复的口语表达习惯，在多轮对话场景下，语句的省略现象非常频繁。人可以很容易的根据对话场景信息以及历史对话信息进行意图推断和省略内容恢复，但是这对于现阶段的对话模型来说却是非常困难的，特别是在任务导向的多轮对话中。表1中举出一个关于饭店推荐的多轮对话例子。在例子中，Human2和Human3都省略了饭店名称LittleSeoul。从这个例子可以看出，不同于多轮闲聊对话，任务导向的多轮对话省略的内容更多是实体信息，比如例子中的LittleSeoul。这些实体内容常常蕴含对话的意图信息、主题信息或者是推进模式信息，这有助于任务导向的多轮对话系统根据用户请求生成合适的回复。因此，任务导向的多轮对话省略恢复对于把握对话信息具有重要的作用。然而，目前现有的省略恢复方法存在许多问题。例如，现有技术中，针对多轮对话中文本的语义信息建模比较简单，但是多轮对话中短句相比较规范文本，表述更加随意，语义信息挖掘较规范文本更加困难；现有技术在解码时采用序列到序列的文本生成式方案，但是该方案存在传播误差和语义偏离的问题，错误的历史生成结果会影响未来的预测结果。

表1多轮对话省略样例表

表中，加粗部分表示缺失的内容，同时也代表对话的意图和主题是饭店订餐。

发明内容

本发明的目的在于提出一种基于门控拷贝和掩码的多轮对话省略恢复方法。

实现本发明目的的技术解决方案为：一种基于门控拷贝和掩码的多轮对话省略恢复方法，包括如下步骤：

步骤1，获取原始省略句和其上下文文本内容，其中原始省略句是当前对话轮次下需要填充的省略句，上下文文本是指包含了当前轮次以及之前所有轮次的对话语句集合；

步骤2，先对目标文本进行去噪、清洗，再使用分词工具对清洗后的文本进行分词，最后使用词典将词语序列映射为数字序列；

步骤3，使用预训练好的词向量文件来表示词语，若词语出现在词向量文件中，则用文件中相对应的向量来表示词语；若词语不在文件中，则使用随机初始化得到的向量来表示；

步骤4，基于门控机制，融合多头自注意力信息和Bi-GRU的门控编码器，对省略句词向量序列和上下文词向量序列进行语义编码，分别得到省略句和上下文的语义编码向量，以及省略句和上下文序列的状态向量；

步骤5，基于软掩码机制，结合省略句编码结果以及上一时刻省略句和上下文序列的状态向量，为省略句内每一个词设置权重，计算省略句的软掩码特征；

步骤6，利用掩码解码器，结合省略句的软掩码特征、上一时刻省略句的词向量表示以及省略句和上下文序列的状态向量，计算当前时刻省略句和上下文序列的状态向量，确定词表的概率分布；

步骤7，根据上下文编码结果、当前时刻省略句和上下文序列的状态向量以及省略句的软掩码特征，计算上下文词语的分值，再使用Softmax函数对分值进行归一化，得到上下文概率分布；

步骤8，用门控单元将词表的概率分布和上下文概率分布相加，得到最终的省略词概率分布，选择省略句的填充内容。

进一步的，步骤3中，使用预训练好的词向量文件来表示词语，若词语出现在词向量文件中，则用文件中相对应的向量来表示词语；若词语不在文件中，则使用随机初始化得到的向量来表示，具体方法为：使用GloVe预训练好的50维度词向量作为词向量矩阵，得到省略句和上下文词向量序列e^u和e^c，上标u和c分别表示省略句(Utterance)和上下文(Context)。

进一步的，其特征在于，步骤4中，基于门控机制，融合多头自注意力信息和Bi-GRU的门控编码器，对省略句词向量序列和上下文词向量序列进行语义编码，分别得到省略句和上下文的语义编码向量，具体方法为：

门控语义编码器包括GRU(门控循环神经网络)层和多头自注意力特征计算层，其中，GRU层使用的是单层双向GRU网络BiGRU，省略句和上下文序列中的每一个词都被表示为其前向和后向GRU隐层向量的拼接，省略句和上下文序列的状态向量被表示为GRU前后状态向量的拼接，分别将省略句和上下文词向量序列作为GRU层输入，则得到省略句和上下文的编码结果为：

h^u,s^u＝BiGRU(e^u) (1)

h^c,s^c＝BiGRU(e^c) (2)其中，h^u和h^c分别是省略句和上下文的编码结果，s^u和s^c是Bi-GRU最终状态向量，e^u和e^c是省略短句和上下文经过嵌入层的词序列表征结果；

多头自注意力机制使用多个头各自独立地进行运算，从不同角度提取注意力信息，帮助模型从上下文提取省略内容，因此，在门控语义编码器中加入了多头自注意力特征计算层；多头自注意力特征计算层会同时将请求矩阵Q，键矩阵K，值矩阵V作为输入，这里分别将省略句和上下文的GRU编码结果h^u和h^c作为Q，K，V输入到多头自注意力特征计算层，分别得到注意力计算特征结果，表示如下：

m^u＝MultiHead(h^u,h^u,h^u) (3)

m^c＝MultiHead(h^c,h^c,h^c) (4)

经过注意力特征计算，省略句GRU编码结果h^u通过计算得到多头注意力特征m^u，同样地，针对上下文也做了相同的操作，得到了上下文的多头注意力特征m^c；

多头自注意力特征具体的计算步骤如下：

其中，d_k是编码结果的向量维度大小，W^O、W_i ^Q、W_i ^K、W_i ^V分别是可学习参数，上标O表示输出(Output)，Q，K和V表示查询(Query)，键(Key)和值(Value)，下标i表示多头注意力中的序号，concat表示拼接函数；

最后，分别将省略句和上下文的GRU编码结果和多头自注意力特征使用门控机制进行融合，得到省略句和上下文最终的门控语义编码结果，具体的计算过程如下：

p^c＝σ(W₁h^c+b₁) (7)

p^u＝σ(W₂h^u+b₂) (8)

g^c＝p_ch^c+(1-p_c)m^c (9)

g^u＝p_uh^u+(1-p_u)m^u (10)

其中，W₁、W₂、b₁、b₂是可学习参数，σ是激活函数Sigmoid，p^c和p^u分别是针对上下文和省略句编码的门控单元，m^c和m^u分别是上下文和省略句的多头自注意力特征计算结果，g^c和g^u分别是门控语义编码的最终结果。

进一步的，步骤5中，基于软掩码机制，结合省略句编码结果以及上一时刻省略句和上下文序列的状态向量，为省略句内每一个词设置权重，计算省略句的软掩码特征，具体方法为：

计算t时刻下省略句位置i处的词语得分score_it：

其中，v、W₃、W₄和b₃是可学习的参数，是省略句位置i处的词经过门控语义编码器编码后的结果向量，下标i表示词语在句子中的位置序号，t表示当前解码位置，T表示转置，tanh是双曲正切三角函数；

为省略句中词语的编码向量赋权值a_t：

a_t＝soft max(score_t) (12)

其中，score_t表示第t时刻下省略句的所有词语得分，

计算软掩码特征

作为省略句的软掩码特征，后续会输入解码器和拷贝模块用来计算词表概率分布和上下文词语的概率分布。

进一步的，步骤6中，利用掩码解码器，结合省略句的软掩码特征、上一时刻省略句的词向量表示以及省略句和上下文序列的状态向量，计算当前时刻省略句和上下文序列的状态向量，确定词表的概率分布，具体方法为：

掩码解码器采用单向GRU网络作为主要信息计算单元，掩码解码器接收省略语句的词向量信息e^u _t-1、省略句的软掩码特征信息解码状态向量s_t-1作为输入，经过解码器计算后得到当前时刻下的GRU单元计算结果s_t，通过使用全连接层映射GRU单元计算结果，得到当前时刻下词表的概率分布，计算公式为：

score_vocab＝W₇s_t+b₅ (15)

P^v＝soft max(score_vocab) (16)其中，W₇和b₅都是可学习的参数，下标vocab表示是针对词表范围，score_vocab是经过全连接映射后的得分，P^v是词表概率。

进一步的，步骤7中，根据上下文编码结果、当前时刻省略句和上下文序列的状态向量以及省略句的软掩码特征，计算上下文词语的分值，再使用Softmax函数对分值进行归一化，得到上下文概率分布，具体方法为：

P^c＝softmax(score_context) (18)其中，W₅、v'^T、W₆和b₄是可学习参数，g^c是上下文经过门控编码器得到的编码结果，上标'无实际意义，进用作区分，下标context表示针对上下文范围，score_context是上下文词语得分，g_t ^*是软掩码特征，p^c是上下文概率分布，s_t是GRU单元计算结果，g^c是上下文门控语义编码结果。

进一步的，步骤8中，用门控单元将词表的概率分布和上下文概率分布相加，得到最终的省略词概率分布，选择省略句的填充内容，具体方法为：

其中，W₈和b₆分别是可学习参数，是指上下文中第i个词语，所有数字下标仅用作区分，无实际意义，e_t-1是t-1时刻的省略句词向量，/>是软掩码特征，σ是激活函数Sigmoid，P_gen是概率分布融合门控单元，P^v和P^c分别是词表概率分布和上下文概率分布，概率最大的词语会被选择作为省略句的填充内容。

进一步的，还包括步骤9，使用硬掩码机制来对生成结果进行约束和修正。

一种基于门控拷贝和掩码的多轮对话省略恢复系统，基于所述的方法进行多轮对话省略恢复。

本发明与现有技术相比，其显著优点为：1)在语义编码层，采用了融合了多头自注意力信息和Bi-GRU信息的门控编码器(Gated Encoder)，针对不规范文本的语义信息挖掘能力更强；2)在解码层，使用了基于门控拷贝和掩码机制的掩码解码器(Mask Decoder)，使用拷贝模块从省略句上下文中提取有效信息，使用硬掩码和软掩码来约束生成结果，有效缓解了序列到序列解码模式存在的语义偏离和传播误差，省略恢复结果更加的准确。

附图说明

图1是本发明的对话省略恢复流程图。

图2是本发明的基于门控拷贝机制和掩码机制的省略恢复模型图。

图3是本发明的解码器中掩码机制的运行原理图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图1所示，基于门控拷贝和掩码的多轮对话省略恢复方法，包括如下步骤：

步骤1，文本获取

获取原始省略句和其上下文文本内容。在一个多轮对话场景下，原始省略句是当前对话轮次下需要填充的省略句，上下文文本是指包含了当前轮次以及之前所有轮次的对话语句集合。

步骤2，文本预处理

首先，对目标文本进行去噪、清洗，再使用分词工具对清洗后的文本进行分词，最后使用词典将词语序列映射为数字序列。

步骤3，词语嵌入表示

使用预训练好的词向量文件来表示词语，若词语出现在词向量文件中，则用文件中相对应的向量来表示词语；若词语不在文件中，则使用随机初始化得到的向量来表示。本发明使用GloVe预训练好的50维度词向量作为词向量矩阵，针对省略句和上下文词语序列进行词向量映射，分别得到省略句和上下文词向量序列e^u和e^c，上标u和c分别表示省略句(Utterance)和上下文(Context)。

步骤4，语义编码

使用一种借助门控机制融合了多头自注意力信息和Bi-GRU的门控编码器对省略句词向量序列和上下文词向量序列进行语义编码，分别得到省略句和上下文的语义编码向量。下面详细解释门控语义编码器的工作原理。

在门控语义编码器中，包含了GRU(门控循环神经网络)层和多头自注意力特征计算层。其中，在GRU层使用的是单层双向GRU网络BiGRU，省略句和上下文序列中的每一个词都被表示为其前向和后向GRU隐层向量的拼接，省略句和上下文序列的状态向量被表示为GRU前后状态向量的拼接。

GRU层分别将省略句和上下文词向量序列作为输入，得到省略句和上下文的编码结果。

h^u,s^u＝BiGRU(e^u) (1)

h^c,s^c＝BiGRU(e^c) (2)

其中，h^u和h^c分别是省略句和上下文的编码结果，s^u和s^c是Bi-GRU最终状态向量，e^u和e^c是省略短句和上下文经过嵌入层的词序列表征结果。

受Transformer启发，自注意力机制可以隐式地获取序列内词语的依赖关系，这可以帮助使用RNN(循环神经网络)结构的编码器在时序特征的基础上融入词语依赖信息。而多头自注意力机制使用多个头各自独立地进行运算，可以从不同角度提取注意力信息，有效帮助模型从上下文提取省略内容。因此，在门控语义编码器中加入了多头自注意力特征计算层。多头自注意力特征计算层会同时将请求矩阵Q，键矩阵K，值矩阵V作为输入，这里分别将省略句和上下文的GRU编码结果h^u和h^c作为Q，K，V输入到多头自注意力特征计算层，分别得到注意力计算特征结果。

m^u＝MultiHead(h^u,h^u,h^u) (3)

m^c＝MultiHead(h^c,h^c,h^c) (4)

经过注意力特征计算，省略句GRU编码结果h^u通过计算得到多头注意力特征m^u。同样地，针对上下文也做了相同的操作，得到了上下文的多头注意力特征m^c。其中，多头自注意力特征具体的计算步骤如下：

其中，d_k是编码结果的向量维度大小，W^O、W_i ^Q、W_i ^K、W_i ^V分别是可学习参数，上标O表示输出(Output)，Q，K和V表示查询(Query)，键(Key)和值(Value)，下标i表示多头注意力中的序号，concat表示拼接函数。

最后，分别将省略句和上下文的GRU编码结果和多头自注意力特征使用门控机制进行融合，得到省略句和上下文最终的门控语义编码结果。具体的计算过程如下：

p^c＝σ(W₁h^c+b₁) (7)

p^u＝σ(W₂h^u+b₂) (8)

g^c＝p_ch^c+(1-p_c)m^c (9)

g^u＝p_uh^u+(1-p_u)m^u (10)

步骤5，计算软掩码特征

软掩码机制，也可以称为注意力机制，通过结合解码状态与省略句编码结果，计算分值来为省略句内每一个词设置权重，权重表示每一个词对于当前位置省略恢复的贡献度，从而提供了省略句的边界约束信息。

初始的解码状态s₀设置为省略句和上下文的门控语义编码状态向量s^u和s^c的拼接，后续的解码状态都是以上一时刻的状态向量s_t-1。计算方法如下：

a_t＝soft max(score_t) (12)

其中，v、W₃、W₄和b₃是可学习的参数，是省略句位置i处的词经过门控语义编码器编码后的结果向量，下标i表示词语在句子中的位置序号，t表示当前解码位置，T表示转置。权重a_t为省略句中词语的编码向量赋权值，从而得到软掩码特征/>上标*不存在实际意义，仅用作区分。score_it是第t时刻下省略句位置i处的词语得分，score_t表示第t时刻下省略句的所有词语得分。tanh是双曲正切三角函数。

步骤6，计算词表概率分布

掩码解码器采用单向GRU网络作为主要信息计算单元。掩码解码器接收省略语句的词向量信息e^u _t-1、省略句的软掩码特征信息解码状态向量s_t-1作为输入，经过解码器计算后得到当前时刻下的GRU单元计算结果s_t。通过使用全连接层映射GRU单元计算结果得到当前时刻下词表的概率分布。计算公式如下：

score_vocab＝W₇s_t+b₅ (15)

P^v＝soft max(score_vocab) (16)

其中，W₇和b₅都是可学习的参数，下标vocab表示是针对词表范围，score_vocab是经过全连接映射后的得分，P^v是词表概率。

步骤7，计算上下文概率分布

首先，根据上下文编码结果同当前时刻下的GRU单元计算结果和省略句的软掩码特征计算上下文词语的分值，再使用Softmax函数对分值进行归一化，从而得到上下文概率分布。

P^c＝soft max(score_context) (18)

其中，W₅、v^'T、W₆和b₄是可学习参数，g^c是上下文经过门控编码器得到的编码结果，上标'无实际意义，进用作区分，下标context表示针对上下文范围，score_context是上下文词语得分，是软掩码特征，p^c是上下文概率分布，s_t是GRU单元计算结果，g^c是上下文门控语义编码结果。

步骤8，使用门控拷贝机制，将上下文概率分布和词表概率分布通过门控单元进行融合，得到最终的词语概率分布，概率最大的词语会被选择作为省略句的填充内容。

其中，W₈和b₆分别是可学习参数，是指上下文中第i个词语，所有数字下标仅用作区分，无实际意义，e_t-1是t-1时刻的省略句词向量，/>是软掩码特征，σ是激活函数Sigmoid，P_gen是概率分布融合门控单元，P^v和P^c分别是词表概率分布和上下文概率分布。

步骤9，使用硬掩码机制来对生成结果进行约束和修正

这种机制认为解码时省略句的信息是已知的，但是省略句中相邻词之间是否存在缺省的内容，这是未知的。解码器需要利用省略句的边界信息并将它作为一种约束条件来生成省略句内相邻词之间的省略内容，从而达到省略恢复的目标。这种约束条件，称之为硬掩码。硬掩码保证了模型生成结果能够完整保留省略句所有信息，有效抑制传播偏差和语义偏离的影响。为了更直观地了解硬掩码的执行原理，使用了一个例子来进行解释，具体内容如图3所示。

为了便于描述，为Utterance中的每一个词标上位置序号，Go、i、don’t、care、EOS分别位于0、1、2、3、4位置。算法执行顺序如下：

(1)首先，解码器位于位置0，在开始标志Go输入解码器后，解码器预测的词为i，而i位于Utterance中位置1，所以这表明i和go之间不存在省略，解码器继续移动到位置1。

(2)Utterance位置1的词i作为输入，预测词为don’t，是Utterance位置2的词，所以不存在省略，解码器移动到位置2。

(3)同理，位置2不存在省略，解码器移动到位置3。

(4)在位置3，此时预测结果为about，不同于位置4的词EOS，因此about是位置3的省略内容，将about作为输入继续预测。

(5)将about作为输入预测，得到预测词语phone为省略内容。

(6)同理number也是省略内容。

(7)解码器以number作为输入，预测词EOS，和省略句中位置4的词一致，因此位置3和位置4之间的预测结果为about、phone、number，且EOS为句末结束标志，因此解码结束。最终模型省略恢复结果为Idon’t care about phone number EOS。

本发明还提出一种基于门控拷贝和掩码的多轮对话省略恢复系统，基于所述的方法进行多轮对话省略恢复。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的方法进行多轮对话省略恢复。

1一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的方法进行多轮对话省略恢复。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于门控拷贝和掩码的多轮对话省略恢复方法，其特征在于，包括如下步骤：

步骤8，利用门控单元将词表的概率分布和上下文概率分布相加，得到最终的省略词概率分布，选择省略句的填充内容。

2.根据权利要求1所述的基于门控拷贝和掩码的多轮对话省略恢复方法，其特征在于，步骤3中，使用预训练好的词向量文件来表示词语，若词语出现在词向量文件中，则用文件中相对应的向量来表示词语；若词语不在文件中，则使用随机初始化得到的向量来表示，具体方法为：使用GloVe预训练好的50维度词向量作为词向量矩阵，得到省略句和上下文词向量序列e^u和e^c，上标u和c分别表示省略句(Utterance)和上下文(Context)。

3.根据权利要求1所述的基于门控拷贝和掩码的多轮对话省略恢复方法，其特征在于，步骤4中，基于门控机制，融合多头自注意力信息和Bi-GRU的门控编码器，对省略句词向量序列和上下文词向量序列进行语义编码，分别得到省略句和上下文的语义编码向量，具体方法为：

h^u,s^u＝BiGRU(e^u) (1)

h^c,s^c＝BiGRU(e^c) (2)

其中，h^u和h^c分别是省略句和上下文的编码结果，s^u和s^c是Bi-GRU最终状态向量，e^u和e^c是省略短句和上下文经过嵌入层的词序列表征结果；

m^u＝MultiHead(h^u,h^u,h^u) (3)

m^c＝MultiHead(h^c,h^c,h^c) (4)

多头自注意力特征具体的计算步骤如下：

p^c＝σ(W₁h^c+b₁) (7)

p^u＝σ(W₂h^u+b₂) (8)

g^c＝p_ch^c+(1-p_c)m^c (9)

g^u＝p_uh^u+(1-p_u)m^u (10)

4.根据权利要求1所述的基于门控拷贝和掩码的多轮对话省略恢复方法，其特征在于，步骤5中，基于软掩码机制，结合省略句编码结果以及上一时刻省略句和上下文序列的状态向量，为省略句内每一个词设置权重，计算省略句的软掩码特征，具体方法为：

计算t时刻下省略句位置i处的词语得分score_it：

为省略句中词语的编码向量赋权值a_t：

a_t＝sof tmax(score_t) (12)

其中，score_t表示第t时刻下省略句的所有词语得分，

计算软掩码特征

5.根据权利要求1所述的基于门控拷贝和掩码的多轮对话省略恢复方法，其特征在于，步骤6中，利用掩码解码器，结合省略句的软掩码特征、上一时刻省略句的词向量表示以及省略句和上下文序列的状态向量，计算当前时刻省略句和上下文序列的状态向量，确定词表的概率分布，具体方法为：

score_vocab＝W₇s_t+b₅ (15)

P^v＝softmax(score_vocab) (16)

6.根据权利要求1所述的基于门控拷贝和掩码的多轮对话省略恢复方法，其特征在于，步骤7中，根据上下文编码结果、当前时刻省略句和上下文序列的状态向量以及省略句的软掩码特征，计算上下文词语的分值，再使用Softmax函数对分值进行归一化，得到上下文概率分布，具体方法为：

P^c＝softmax(score_context) (18)

其中，W₅、v'^T、W₆和b₄是可学习参数，g^c是上下文经过门控编码器得到的编码结果，上标'无实际意义，进用作区分，下标context表示针对上下文范围，score_context是上下文词语得分，是软掩码特征，p^c是上下文概率分布，s_t是GRU单元计算结果，g^c是上下文门控语义编码结果。

7.根据权利要求1所述的基于门控拷贝和掩码的多轮对话省略恢复方法，其特征在于，步骤8中，用门控单元将词表的概率分布和上下文概率分布相加，得到最终的省略词概率分布，选择省略句的填充内容，具体方法为：

8.根据权利要求1所述的基于门控拷贝和掩码的多轮对话省略恢复方法，其特征在于，还包括步骤9，使用硬掩码机制来对生成结果进行约束和修正。

9.一种基于门控拷贝和掩码的多轮对话省略恢复系统，其特征在于，基于权利要求1-8任一项所述的方法进行多轮对话省略恢复。