CN112380874B

CN112380874B - 一种基于图卷积网络的多人对话语篇分析方法

Info

Publication number: CN112380874B
Application number: CN202011076361.6A
Authority: CN
Inventors: 蔡毅; 彭淇
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2023-07-18
Anticipated expiration: 2040-10-10
Also published as: CN112380874A

Abstract

本发明涉及一种基于图卷积网络的多人对话语篇分析方法，包括以下步骤：S1、通过句子编码模块将对话中的句子映射为局部句子向量；S2、通过图卷积网络捕捉句子之间的语义关系，输出全局句子向量；S3、通过拼接句子向量和全局句子向量，输入到语义连接预测模块预测连接的目标句子；S4、通过拼接句子向量和全局句子向量，输入到语义分类模块获取句子间的语义关系；S5、通过模型训练语义连接预测和语义关系分类任务，获取模型参数；S6、模型训练完毕后，输入整个对话的句子，输出句子间存在的语义连接及语义关系，完成多人对话的语篇分析。本发明利用图卷积网络捕捉多人对话的句子间存在的语义关系，从而提高语篇分析的性能。

Description

一种基于图卷积网络的多人对话语篇分析方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于图卷积网络的多人对话语篇分析方法。

背景技术

语篇分析的任务是研究自然语言文本之间的内在结构以及分析文本单元之间存在的语义关系，其中，文本单元可以是句子、从句或整个段落。语篇分析的结果有利于下游任务的进行，包括问答系统、对话系统、文本摘要等等。

现有的语篇分析的工作都是基于修辞结构理论(Rhetorical Structure Theory,RST)的模型，基于RST的模型最终会将文本中的语篇关系构造成二叉树的结构。而多人对话中的语篇关系更加复杂，其中的语篇关系构造成图结构，因此基于RST的模型不适用于多人对话的语篇分析。

现有的多人对话语篇分析的工作只考虑了单个句子之间的关系，不能完整地捕捉整个对话中句子间存在的语义关系，然而语篇分析是需要对全局的对话信息进行分析的。

因此，需要寻找一种提高多人对话语篇分析性能的方法。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于图卷积网络的多人对话语篇分析方法，该方法利用图卷积网络捕捉多人对话的句子间存在的语义关系，从而提高语篇分析的性能。

本发明的目的能够通过以下技术方案实现：一种基于图卷积网络的多人对话语篇分析方法，包括以下步骤：

S1、通过句子编码模块将对话中的每个句子映射为局部句子向量H_i；

S2、通过图卷积网络捕捉句子之间的语义关系，输出全局句子向量

S3、通过拼接局部句子向量H_i和、目标局部句子向量H_j和全局句子向量得到特征向量，并输入到语义连接预测模块预测连接的目标句子o_i,j；其中，目标局部句子向量H_j为所有与第i个句子有语义连接的句子的局部句子向量；

S4、通过拼接局部句子向量H_i和目标局部句子向量H_j、全局句子向量得到特征向量，并输入到语义分类模块预测获取两个句子的语义关系；

S5、通过模型联合训练语义连接预测和语义关系分类任务，获取模型参数；

S6、模型联合训练完毕后，输入整个对话的句子，模型输出句子间存在的语义连接及其对应的语义关系，完成多人对话的语篇分析。

本发明与现有技术相比，具有如下优点和有益效果：利用图卷积网络捕捉多人对话中存在的语义连接关系，通过加入语义连接关系提高整个对话的语篇分析性能。

附图说明

图1是本发明语篇分析方法流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，本实施例一种基于图卷积网络的多人对话语篇分析方法，主要包括以下步骤：

步骤S1、通过句子编码模块将对话中的每个句子映射为局部句子向量。

本实施例中，将多人对话中的每个句子输入句子编码模块中，获取每句话的句子向量，句子用表示，其中i表示对话中的第i个句子；T表示一句话有T个词。将句子中的文本映射为词嵌入句子向量中，再输入到句子编码器中获取局部句子向量，具体公式如下：

其中，是将单词映射到对应的词嵌入矩阵，1≤t≤T，预训练的词嵌入向量采用的是GloVe预训练的词向量；/>是将上一时刻的前向GRU(GatedRecurrent Unit，门控循环单元)输出的隐含层向量和当前单词的词嵌入向量输入到前向GRU中；/>和/>分别是前向GRU和后向GRU的输出隐含层向量；H_i是第i个句子的局部句子向量，通过拼接该句子中最后一个单词的前后向隐含层向量得到；/>代表向量拼接。

步骤S2、将步骤S1中获取的局部句子向量输入到图卷积网络GCN中，通过图卷积网络捕捉句子之间存在的语义连接关系，输出全局句子向量计算过程如下：

其中，N_i是所有与第i个句子有语义连接的句子；H_j是所有与第i个句子有语义连接的句子的局部句子向量，即目标局部句子向量；j是目标句子；W和b是模型的参数；ReLU是激活函数；是第i个句子的图卷积网络输出，即全局句子向量。

步骤S3、通过拼接局部句子向量H_i、H_j和全局句子向量得到特征向量，再输入到语义连接预测模块，预测获取与当前句子连接的目标句子j，；对于第i个句子，语义连接预测就是预测其与目标句子j有语义连接，其中j＜i，代表目标句子j在当前句子之前。首先，进行句子向量的拼接，即通过拼接当前句子的局部句子向量H_i和目标局部句子向量H_j、全局句子向量/>获取特征向量H_i,j：

获取特征向量H_i,j后，进行线性变换，并预测连接的目标句子，具体公式如下：

o_i,j＝fc_Link(H_i,j)

其中，o_i,j是语义连接预测模块中对特征向量H_i,j进行线性变换后获取的向量，包含两个句子之间语义连接预测的信息；fc_Link是全连接层，其作用是对特征向量H_i,j进行线性变换；p_i是与当前句子连接的父句子；u_j是当前对话中的第j个目标句子；P是当前句子与对话中的第j个目标句子连接的概率；k是在当前句子之前的所有句子；H_i,＜i是第i个句子与在第i个句子之前的句子的拼接特征向量；对所有候选目标句子j与当前句子的特征向量H_i,j进行完线性变换后，通过指数归一化，选择连接概率最大的候选目标句子j进行连接。

步骤S4、通过拼接当前句子的局部句子向量H_i和、目标局部句子向量H_j和全局句子向量得到特征向量，并输入到语义分类模块中，预测获取两个句子之间的语义关系，设预测与第i个句子连接的是目标句子j，两者的语义关系预测公式如下：

L_i,j＝fc_rela(H_i,j)

P(r_ij|H_i,j)＝softmax(W_relH_i,j+b_rel)

其中，fc_rela是关系分类模块中的全连接层，对特征向量H_i,j进行线性变换获取L_i,j后经过softmax层，取概率最大的关系作为预测分类结果；L_i,j是语义关系分类模块中对特征向量H_i,j进行线性变换后获取的向量，包含两个句子之间语义关系分类的信息；r_ij是第i个句子和第j个句子的预测语义关系；W_rel和b_rel是关系分类模块的不同参数。

步骤S5、通过模型联合训练语义连接预测和语义关系分类任务，获取最佳模型参数，语义连接预测和语义关系分类使用的损失函数分别如下：

Loss＝Loss_link+Loss_rel

其中，Loss_link是语义连接预测的损失函数；n是对话中的总句子数；|D|是训练数据数量；是对应的真实父节点；Loss_rel是语义关系分类的损失函数；/>是对应的真实语义关系；Loss是语义连接预测和语义关系分类的损失函数之和，其用于模型联合训练。

步骤S6、模型联合训练完毕后，输入整个对话的句子，模型输出句子间存在的语义连接及其对应的语义关系，完成多人对话的语篇分析。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于图卷积网络的多人对话语篇分析方法，其特征在于，包括以下步骤：

S6、模型联合训练完毕后，输入整个对话的句子，模型输出句子间存在的语义连接及其对应的语义关系，完成多人对话的语篇分析；

步骤S2中全局句子向量计算过程如下：

其中，N_i是所有与第i个句子有语义连接的句子；H_j是所有与第i个句子有语义连接的句子的局部句子向量，即目标局部句子向量；j是目标句子；W和b是模型的参数；ReLU是激活函数；是第i个句子的图卷积网络输出，即全局句子向量；

步骤S3中的拼接方式如下：

其中，H_i,j为特征向量；

通过获取特征向量H_i,j，进行线性变换，并预测连接的目标句子，具体公式如下：

o_i,j＝fc_Link(H_i,j)

其中，o_i,j是语义连接预测模块中对向量H_i,j进行线性变换后获取的向量；fc_Link是全连接层，对特征向量H_i,j进行线性变换；p_i是与当前句子连接的父句子；u_j是当前对话中的第j个目标句子；P是当前句子与对话中的第j个目标句子连接的概率；k是在当前句子之前的所有句子；H_i,＜i是第i个句子与在第i个句子之前的句子的拼接特征向量；

步骤S5中语义连接预测和语义关系分类使用的损失函数分别如下：

Loss＝Loss_link+Loss_rel

其中，Loss_link是语义连接预测的损失函数；n是对话中的总句子数；|D|是训练数据数量；是对应的真实父节点；Loss_rel是语义关系分类的损失函数；/>是对应的真实语义关系；Loss是语义连接预测和语义关系分类的损失函数之和。

2.根据权利要求1所述的基于图卷积网络的多人对话语篇分析方法，其特征在于，步骤S1将多人对话中的每个句子输入句子编码模块中，获取每句话的句子向量，句子用表示，其中i是对话中的第i个句子；T是一句话有T个词。

3.根据权利要求2所述的基于图卷积网络的多人对话语篇分析方法，其特征在于，将句子中的文本映射为词嵌入句子向量中，再输入到句子编码器中获取局部句子向量，具体公式如下：

其中，是将单词映射到对应的词嵌入矩阵，1≤t≤T；/>是将上一时刻的前向GRU输出的隐含层向量和当前单词的词嵌入向量输入到前向GRU中；/>和/>分别是前向GRU和后向GRU的输出隐含层向量；H_i是第i个句子的局部句子向量，通过拼接该句子中最后一个单词的前后向隐含层向量得到；/>代表向量拼接。

4.根据权利要求1所述的基于图卷积网络的多人对话语篇分析方法，其特征在于，步骤S3中语义连接预测为预测其与目标句子j有语义连接，其中j＜i，表示目标句子j在当前句子之前。

5.根据权利要求1所述的基于图卷积网络的多人对话语篇分析方法，其特征在于，步骤S4中预测与第i个句子连接的是目标句子j，两者的语义关系预测公式如下：

L_i,j＝fc_rela(H_i,j)

P(r_ij|H_i，j)＝softmax(W_relH_i，j+b_rel)

其中，fc_rela是关系分类模块中的全连接层；L_i,j是语义关系分类模块中对向量H_i,j进行线性变换后获取的向量；r_ij是第i个句子和第j个句子的预测语义关系；W_rel和b_rel是关系分类模块的参数。