CN112765978B

CN112765978B - 一种针对多人多轮对话场景的对话图重构方法及系统

Info

Publication number: CN112765978B
Application number: CN202110048867.4A
Authority: CN
Inventors: 权小军; 谢智贤
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2023-03-31
Anticipated expiration: 2041-01-14
Also published as: CN112765978A

Abstract

本发明公开了一种针对多人多轮对话场景的对话图重构方法及系统，该方法包括：获取多人多轮对话数据并多人多轮对话数据输入到预构建的模型；对多人多轮对话数据行预处理，得到预处理后的对话；对预处理后的对话进行编码，得到句子向量和词向量；根据句子向量和词向量构建自适应图并与预构建的先验图相结合，得到重构的对话图。该系统包括：输入模块、预处理模块、编码模块和对话图重构模块。通过使用本发明，采用先验图和自适应图相结合的方式实现对话图重构。本发明作为一种针对多人多轮对话场景的对话图重构方法及系统，可广泛应用于自然语言处理领域。

Description

一种针对多人多轮对话场景的对话图重构方法及系统

技术领域

本发明涉及自然语言处理领域，尤其涉及一种针对多人多轮对话场景的对话图重构方法及系统。

背景技术

挖掘对话内容中的图关系并制作对话图，可应用到各类下游任务如话题分割、情感分析、人格计算等，现有的对话图重构方法中对话图是固定的窗口内的全连接图，同时将该图按边的类型拆分成多个图，没有显式地对对话图进行重构的过程，仅将对话图用作网络学习的中间步骤不能完全还原对话图，其次，将对话图初始化为全连接图将引入不必要的噪声干扰模型的正常学习。

发明内容

为了解决上述技术问题，本发明的目的是提供一种针对多人多轮对话场景的对话图重构方法及系统，采用先验图和自适应图相结合的方式，既减轻模型对计算能力和内存的要求又使得网络更容易学习。

本发明所采用的第一技术方案是：一种针对多人多轮对话场景的对话图重构方法，包括以下步骤：

获取多人多轮对话数据并多人多轮对话数据输入到预构建的模型；

对多人多轮对话数据行预处理，得到预处理后的对话；

对预处理后的对话进行编码，得到句子向量和词向量；

根据句子向量和词向量构建自适应图并与预构建的先验图相结合，得到重构的对话图；

根据重构的对话图得到输出结果。

进一步，还包括：

计算模型损失并回传，更新模型参数。

进一步，所述对多人多轮对话数据行预处理，得到预处理后的对话这一步骤，其具体包括：

将多人多轮对话数据话分为说话者特征信息、对话内容信息和监督信息；

对对话内容信息进行分词、补全和阶段预处理，得到预处理后的对话。

进一步，所述对对话内容信息进行分词、补全和阶段预处理，得到预处理后的对话这一步骤，其具体包括：

基于分词工具将对话内容信息中的每句话进行分词；

将对话内容信息中不在词表里的词转换成第一特殊标记；

对对话内容信息中长度超过第一预设长度的句子进行截断；

对对话内容信息中长度不超过第二预设长度的句子用第二特殊标记补全；

得到预处理后的对话。

进一步，所述对预处理后的对话进行编码，得到句子向量和词向量这一步骤，其具体包括：

将对预处理后的对话经过双向LSTM层，查表得到n*k矩阵和词向量；

基于注意力层将n*k矩阵转换成句子向量。

进一步，所述根据句子向量和词向量构建自适应图并与预构建的先验图相结合，得到重构的对话图这一步骤，其具体包括：

根据说话者特征信息和预设规则构建先验图；

基于网络根据句子向量和词向量获取句子间的相关程度并构建自适应图；

将先验图和自适应图结合，得到重构的对话图。

进一步，所述先验图、自适应图和重构的对话图为形状相同的邻接矩阵：

进一步，所述自适应图的构建公式如下：

上式中，W_a为可学习参数，x_i表示句子向量，

表示对句子向量x_j转置，i、j表示构建得到的自适应图中第i行第j列的值。

进一步，所述重构的对话图的计算公式如下：

A_i＝norm(ReLU(β*prior_graph(g_i)+(1-β)*adaptive_graph(g_i)))，i＝0，1，…，T

上式中，β是数值范围为[0,1]的超参数，prior_graph(·)为获取先验图的操作，adaptive_graph(·)为获取自适应图的操作，ReLU是激活函数，norm是归一化操作。

本发明所采用的第二技术方案是：一种针对多人多轮对话场景的对话图重构系统，包括：

输入模块，用于获取多人多轮对话数据并多人多轮对话数据输入到预构建的模型；

预处理模块，用于对多人多轮对话数据行预处理，得到预处理后的对话；

编码模块，用于对预处理后的对话进行编码，得到句子向量和词向量；

对话图重构模块，用于根据句子向量和词向量构建自适应图并与预构建的先验图相结合，得到重构的对话图；

输出模块，用于根据重构的对话图得到输出结果。

本发明方法及系统的有益效果是：本发明提出重构对话图的概念并将重构过程显式化，使得模型更容易学习，其次，采用先验图加自适应图相结合的方法，以拟合残差的方式进行学习既减少了噪声的干扰也使能模型更稳定，另外在充分学习对话图后，可以以对话图作为辅助提升下游任务的性能。

附图说明

图1是本发明一种针对多人多轮对话场景的对话图重构方法的步骤流程图；

图2是本发明一种针对多人多轮对话场景的对话图重构系统的结构框图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

多人多轮对话场景指有多人参与的对话情景。本发明适用的对话场景应至少包含两句对话(即多轮对话)，参与者应为两人以上(即多人对话)，非特殊说明本发明提及的应用场景默认上述假设。

参照图1，本发明提供了一种针对多人多轮对话场景的对话图重构方法，该方法包括以下步骤：

对多人多轮对话数据行预处理，得到预处理后的对话；

具体地，对话部分进行前处理，方便模型统一格式进行输入，以U₀代表一个原始对话，U₀＝[u₀，u₁，…，u_N]，其中N为该对话的总轮数，u_i，i＝0，1，…，N代表原始对话中的一轮，可以是一句或多句自然语言句子。

对预处理后的对话进行编码，得到句子向量和词向量；

根据重构的对话图得到输出结果。

进一步作为本方法的优选实施例，还包括：

计算模型损失并回传，更新模型参数。

进一步作为本方法的优选实施例，所述对多人多轮对话数据行预处理，得到预处理后的对话这一步骤，其具体包括：

进一步作为本方法的优选实施例，所述对对话内容信息进行分词、补全和阶段预处理，得到预处理后的对话这一步骤，其具体包括：

基于分词工具将对话内容信息中的每句话进行分词；

将对话内容信息中不在词表里的词转换成第一特殊标记；

对对话内容信息中长度超过第一预设长度的句子进行截断；

得到预处理后的对话。

具体地，对U₀中的每句话使用jieba等分词工具进行分词，将不在词表里的词转换成特殊标记[UNK]，设定最大句子长度max_len，对超过长度的句子进行截断，对不足长度的句子用特殊标记[PAD]补全，得到预处理后的对话：

U₁＝[u′₀，u′₁，…，u′_N]

其中u′_i，i＝0，1，…，N为长度max_len的词序列，以下为预处理实例：

max_len＝10

实例1：今天天气真好！

预处理：今天、天气、真、好、！、[PAD]、[PAD]、[PAD]、[PAD]、[PAD]

说明：、仅将词做分隔，不属于分词结果，这里不足max-len发生补全

实例2：是啊，要不我们今天去游乐场玩吧！

预处理：是、啊、，、要不、我们、今天、去、游乐场、玩、吧

说明：、仅将词做分隔，不属于分词结果，这里超出max_len发生截断，句中！被截断

此外，还提供另外一种预处理方法，动态词向量方法动态词向量方法一般是以大型预训练语言模型的输出作为向量化结果，因此预处理过程需要将原始句子转化成预训练模型的输入，具体而言，以BERT为代表的预训练模型需要得到input_ids、token_type_id和attention_mask三个数字序列，分别代表词在词表的位置、输入句子掩码和序列类型掩码，使用Huggingface基于pytorch的开源代码中对应的BERTtokenizer可以直接得到，这里同样需要设定句子最大长度max_len，得到处理后的对话：

U₂＝[u″₀，u″₁，…，u″_N]

其中u″_i，i＝0，1，…，N为3个长度max_len的数字序列。不同的预训练模型要求有细微差异，一般都可以用相应提供的tokenizer完成，以下为预处理实例：

max_len＝10

实例3：今天天气真好！

预处理：input_ids:101、100、1811、1811、100、1921、100、1986、102、0

token_type_id：0、0、0、0、0、0、0、0、0、1

attention_mask：1、1、1、1、1、1、1、1、1、0

说明：、仅将词做分隔，不属于分词结果，input_ids中101和100是特殊标记[CLS]和[SEP]在词表中的位置，这是两个额外添加的标记与BERT的输入相关，计入max_len中但不能被截断，0是特殊标记[PAD]在词表中的位置，其余为分词后的结果在词表中的位置；token_type_id中0代表A句，1代表B句，attention_mask中1代表需要被attent，0代表不需要attent，这两个掩码与BERT的模型机制相关。

理论上对话图的邻接矩阵的形状为(max_len，max_len)，当max_len较大时可能会遇到计算量过大或内存不足的情况，这里提供一种可选方案，即子对话分割：将原始对话切分成多段长度相同的对话，另外为了保持子对话的上下文信息，可将一部分上下文拼接到子对话开头。具体而言：设定context_len和dialogue_len，通过截断或者补全将U₁或U₂切分：

u＝{u₀，u₁，…，u_K}

u_k＝[u″′_k*D-C，u″′_k*D-2，…，u″′_k*D-1，u″′_k*D，u″′_k*D+1，…，u″′_(k+1)*D]，k＝0，1，2…K

其中C为context_len，D为dialogue_len，k为当前对话按D最多能切分的句子数，u″′.为u′.或u″.，这里的截断和补全以句子为单位，补全时补充空句即可。

进一步作为本方法优选实施例，所述对预处理后的对话进行编码，得到句子向量和词向量这一步骤，其具体包括：

基于注意力层将n*k矩阵转换成句子向量。

具体地，采用双向LSTM加Attention的简单办法，即：

u₄＝{g₀，g₁，g₂，…，g_T}

g_i＝Attention(Bi_LSTM(embedding(u_i)))，i＝0，1，…，T

其中embedding(·)为查表操作，将u_i,i＝0,1,…T中的词转换成词向量，形状为(graph_size，max_len,embedding_size)，graph_size＝context_len+dialogue_len，Bi_LSTM(·)为双向LSTM层，输出的形状为(graph_size，max_len，hidden_size)，Attention(·)是注意力层，输出是形状为(graph_size,feature_size)，经过改步骤，每个句子都被编码成一个向量，这里hidden_size和feature_size需要设定，embedding_size则由所使用的静态词向量决定。

另外，若采用动态词向量的方式，以BERT为例，可以直接取特殊标记[CLS]位置的输出结果作为特征，即：

u₅＝{g₀，g₁，g₂，…，g_T}

g_i＝select_cls(BERT(u_i))，i＝0，1，…，T

其中BERT(·)为BERT预训练语言模型，select_cls(·)为选列操作，将[CLS]所在列取出，输出的形状为(graph_size，embedding_size)，embedding_size由所适用的预训练模型决定。

进一步作为本方法优选实施例，所述根据句子向量和词向量构建自适应图并与预构建的先验图相结合，得到重构的对话图这一步骤，其具体包括：

根据说话者特征信息和预设规则构建先验图；

具体地，所述预设规则包括：

规则1，先验图为下三角图，意义是前面的话不应该能看到后面；

规则2，自环有边，即邻接矩阵的第i行第i列有边，意义是自己应该能看到自己；

规则3，时序相连时有边,即后一句应该和前一句有边，意义是后面一句可以直接看到前一句的内容；

规则4，相同说话者时有边，即如果第i句话和第j句话是同一个人说的，那么邻接矩阵第i行第j列或第j行第i列有边，取决于那句话在前，意义是自己以前说过的话自己可以看见。

上述规则仅使用了数据的第一部分说话者特征信息中的“说话者”这个特征来构建，如果有其他说话者特征，也可以适当增加更多的规则。

将先验图和自适应图结合，得到重构的对话图。

进一步作为本方法优选实施例，所述先验图、自适应图和重构的对话图为形状相同的邻接矩阵。

进一步作为本方法优选实施例，所述自适应图的构建公式如下：

上式中，W_a为可学习参数，x_i表示句子向量，

表示对句子向量x_j转置，i、j表示构建得到的自适应图中第i行第j列的值，x_i和x_j均表示句子向量。

进一步作为本方法的优选实施例，所述重构的对话图的计算公式如下：

进一步作为本方法优选实施例，所述计算模型损失并回传，更新模型参数这一步骤，其具体包括：

利用两层GCN建模上下文信息：

u₆＝{o₀，o₁，o₂，…，o_T}

o_i＝GCN(A_i，σ(GCN(A_i，g_i)))

其中为激活函数，两层GCN参数不共享。

根据下游应用任务和监督信息选择损失函数并对整个模型的参数进行调整。

如图2所示，一种针对多人多轮对话场景的对话图重构系统，包括：

输出模块，用于根据重构的对话图得到输出结果。

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种针对多人多轮对话场景的对话图重构方法，其特征在于，包括以下步骤：

获取多人多轮对话数据并将多人多轮对话数据输入到预构建的模型；

对多人多轮对话数据进行预处理，得到预处理后的对话；

对预处理后的对话进行编码，得到句子向量和词向量；

根据说话者特征信息和预设规则构建先验图；

基于预训练网络根据句子向量和词向量获取句子间的相关程度并构建自适应图；

所述自适应图的构建公式如下；

上式中，W_a为可学习参数，x_i表示句子向量，

表示对句子向量x_j转置，i、j表示构建得到的自适应图中第i行第j列的值；

将先验图和自适应图结合，得到重构的对话图；

根据重构的对话图得到输出结果。

2.根据权利要求1所述一种针对多人多轮对话场景的对话图重构方法，其特征在于，还包括：

计算模型损失并回传，更新模型参数。

3.根据权利要求2所述一种针对多人多轮对话场景的对话图重构方法，其特征在于，所述对多人多轮对话数据进行预处理，得到预处理后的对话这一步骤，其具体包括：

将多人多轮对话数据划分为说话者特征信息、对话内容信息和监督信息；

4.根据权利要求3所述一种针对多人多轮对话场景的对话图重构方法，其特征在于，所述对对话内容信息进行分词、补全和阶段预处理，得到预处理后的对话这一步骤，其具体包括：

基于分词工具将对话内容信息中的每句话进行分词；

将对话内容信息中不在词表里的词转换成第一特殊标记；

对对话内容信息中长度超过第一预设长度的句子进行截断；

得到预处理后的对话。

5.根据权利要求4所述一种针对多人多轮对话场景的对话图重构方法，其特征在于，所述对预处理后的对话进行编码，得到句子向量和词向量这一步骤，其具体包括：

将预处理后的对话经过双向LSTM层，查表得到n*k矩阵和词向量；

基于注意力层将n*k矩阵转换成句子向量。

6.根据权利要求5所述一种针对多人多轮对话场景的对话图重构方法，其特征在于，所述先验图、自适应图和重构的对话图为形状相同的邻接矩阵。

7.根据权利要求6所述一种针对多人多轮对话场景的对话图重构方法，其特征在于，所述重构的对话图的计算公式如下：

A_i＝norm(ReLU(β*prior_graph(g_i)+(1-β)*adaptive_graph(g_i)))，i＝0，1，...，T

上式中，β是数值范围为[0，1]的超参数，prior_graph(·)为获取先验图的操作，adaptive_graph(·)为获取自适应图的操作，ReLU是激活函数，norm是归一化操作。

8.一种针对多人多轮对话场景的对话图重构系统，其特征在于，包括：

输入模块，用于获取多人多轮对话数据并将多人多轮对话数据输入到预构建的模型；

预处理模块，用于对多人多轮对话数据进行预处理，得到预处理后的对话；

对话图重构模块，用于根据说话者特征信息和预设规则构建先验图；基于预训练网络根据句子向量和词向量获取句子间的相关程度并构建自适应图；所述自适应图的构建公式如下；

上式中，W_a为可学习参数，x_i表示句子向量，/>

表示对句子向量x_j转置，i、j表示构建得到的自适应图中第i行第j列的值；将先验图和自适应图结合，得到重构的对话图；

输出模块，用于根据重构的对话图得到输出结果。