CN113343041B

CN113343041B - 基于图模型表示学习的消息回复关系判断系统

Info

Publication number: CN113343041B
Application number: CN202110686245.4A
Authority: CN
Inventors: 张熙; 梁永明; 李小勇; 颉夏青
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2022-05-20
Anticipated expiration: 2041-06-21
Also published as: CN113343041A

Abstract

基于图模型表示学习的消息回复关系判断系统，涉及信息通讯技术领域，解决现有技术只采用两条消息的文本信息和消息间的交叉后的关系信息，没有包含群组用户信息；没有使用当前消息聊天场景的上下文信息等问题，包括图的构建和生成模块、局部图获取和合并模块、异质图注意力网络模块以及孪生网络模块；本发明基于群组内容构建群组图和生成自适应消息图，综合学习群组消息的文本信息、发送消息的群组用户信息和上下文群组消息信息，利用图模型在图结构上进行群组消息的表示学习，拼接消息对的表示向量并进一步预测群组消息间的回复关系。本发明处理不同的输入消息序列生成任务相关的局部消息图，用于捕捉消息之间的隐式关联，弥补人工构图的不足。

Description

基于图模型表示学习的消息回复关系判断系统

技术领域

本发明涉及信息通讯技术领域，具体涉及一种基于图模型表示学习的消息回复关系判断系统。

背景技术

目前，微信、QQ、钉钉等社交媒体已经成为人们交流的主要渠道，在这些媒体的聊天群组中，群组用户频繁地发送消息互相回复进行交流。群组聊天是一个多方多轮的对话场景，群组用户作为对话的参与者，群组消息作为对话元素，一段时间内发送的群组消息构成一个完整会话。群组成员通过群组消息进行交流，群组消息基于消息间回复关系组成完整的聊天内容。群组消息间回复关系是多种多样，消息回复不一定是连续的，即当前消息不一定是上一条消息的回复，回复关系要根据具体的聊天场景确定。在微博、Twitter、Facebook等平台博文的评论区中明确定义了评论间的回复关系，群组对话中消息间没有明确的回复关系，识别群组消息间的回复关系通常需要大量的人工进行标注。群组消息间没有明确的回复关系，单条消息很难表达完整语义，阻碍对群组内容的整体理解，学习消息间的回复关系成为理解群组内容需要解决的难题。

群组消息间的回复关系识别，不同于现有的文本匹配任务，比如自然语言推理(Natural Language Inference,NLI)、问答任务(Question Answering,QA)。在现有的文本匹配任务中，自然语言推理的前提和问答任务的问题通常作为句子A，自然语言推理的假设和问答任务的答案作为句子B，将句子A和B合并组成长序列，输入到模型中进行分类，NLI、QA只考虑句子A和句子B中的信息来判断句子对间的关系。群组消息间关系判断不仅需要考虑当前消息的文本信息，并且需要考虑发送消息的用户信息和当前消息的丰富上下文消息信息，如何综合学习消息的文本信息、发送消息的用户信息和上下文消息信息判断群组消息间的回复关系成为亟待解决的问题。

现有技术中，基于短文本对话学习任务，其中常见的是将消息的回复关系转换为自然语言推理的技术。

短文本对话是给定一条输入消息，预测合适的消息作为回复消息，是单轮两方对话的形式，预测的过程中只单纯考虑文本语义，没有给定和考虑对话两方用户信息和历史会话信息。其中自然语言推理推理模型(Enhanced LSTM for Natural LanguageInference，ESIM)通过消息对匹配方法将对话转换为自然语言推理问题进行消息预测，解决短文本消息对话关系预测问题。

ESIM的具体流程是针对群组中的当前消息，从上下文中提取消息与当前消息组成消息对，根据回复关系的真实标签作为消息对的真实样本，然后使用消息对的注意力机制(intra-sentence attention)，来实现局部的推断，进一步实现全局的推断。接下来具体局部推断和全局推断进行详细介绍。首先，对消息对进行向量化处理，并输入双向长短期记忆网络(Bi-directional Long-Short Term Memory,Bi-LSTM)中，学习如何表示消息中的单词和它上下文中其他单词的关系对消息进行重新编码，得到新的向量表示。其次，对得到的消息对的向量表示进行软匹配，软匹配是先计算两个句子包含的单词之间相似度，得到二维的相似度矩阵。然后进行消息对中两条消息的局部推理，使用之前得到的相似度矩阵，互相生成彼此相似性加权后的表示，并维度保持不变。

在局部推理之后，进行信息增强操作，即单条消息的初始的向量表示和处理后的向量表示，进行点积和做差操作并拼接作为最后消息向量表示。最后，使用BiLSTM学习两条消息间的信息，进行池化处理后接一个全连接层，输出消息对的预测结果。

上述技术存在缺点为：只使用两条消息的文本信息和消息间的交叉后的关系信息；群组消息是由用户发送的，没有包含群组用户信息；没有使用当前消息聊天场景的上下文信息。

而本发明则基于图模型综合学习消息的文本信息、发送消息的用户信息和上下文消息信息，判断消息对间的回复关系。

发明内容

本发明为解决现有消息对匹配方法是判断聊天群组任意两条消息间是否存在回复关系，通过综合利用群组消息的文本信息、发送消息的用户信息和上下文消息信息，采用图模型方法判断消息对中两条消息间的回复关系，提供一种基于图模型表示学习的消息回复关系判断系统。

基于图模型表示学习的消息回复关系判断系统，该系统包括图的构建和生成模块、局部图获取和合并模块、异质图注意力网络模块以及孪生网络模块；

所述图的构建和生成模块包括全局群组图构建子模块和自适应消息图生成子模块；

所述全局群组图构建子模块用于对群组内容的全局信息进行统计处理得到全局群组图；具体过程为：

首先，定义节点和边；分别设定用户节点、消息节点和单词节点；设定用户节点和用户节点之间的边，用户节点和消息节点之间的边，消息节点和单词节点之间的边，单词节点和单词之间节点的边；

通过计算节点和节点之间的权重，获得图模型G的邻接矩阵A，所述邻接矩阵A中的元素A_ij计算公式为：

另一个是消息节点

式中，PMI(e,e′)为成对单词节点间的权重，TF-IDF(e,f)为消息节点和单词节点之间的单词节点的重要性权重，PMI_{time_window}(g,g′)为成对用户节点间的共现权重；

所述自适应消息图生成子模块采用任务相关自适应的图学习方法，基于目标任务通过处理输入的消息序列自适应地生成包含消息间关系的消息图；

所述自适应消息图生成子模块的输入为群组中的一个消息序列，消息序列为S₁,S₂,…,S_z,…,S_N,S_N+1，序列长度为N+1，s_z表示序列中的第z条消息，采用Bi-LSTM网络从正序和反序两个方向学习得到序列中每个位置的隐藏表示和最后的输出，通过一个全连接层将Bi-LSTM网络的全部输出进行矩阵运算得到(N+1)²维度的输出矩阵，该矩阵作为消息序列的自适应消息图对应的邻接矩阵A_ada；

所述局部图获取和合并模块包括局部图获取子模块以及局部图和自适应消息图合并子模块；

所述局部图获取子模块用于从全局群组图中抽取相关单词节点、相关消息节点、相关用户点组成的节点和节点间的边构成局部图，局部图的节点集由相关单词节点、相关消息节点、相关用户节点组成，局部图的边集由节点集中节点间存在的边组成；

所述相关消息节点指：当前消息和当前消息前N条连续的历史消息组成N+1条消息作为当前消息节点的相关消息节点；

所述相关用户节点指：发送相关消息节点的用户节点组成的用户集；

所述相关单词节点指：相关消息节点中出现的单词节点组成的单词集；

所述局部图和自适应消息图合并子模块用于将局部局和自适应消息图进行合并，获得最终的合并子图，该合并子图作为所述异质图注意力网络模块的输入；

所述异质图注意力网络模块用于在输入的合并子图上进行表示学习，利用节点层和类型层组成的双层注意力机制学习合并子图中的信息并输出更新后的节点向量表示；

所述孪生网络模块采用网络参数共享权值方式，从前N条连续的历史消息中抽取当前消息的回复消息或未回复消息，与当前消息组成消息对作为输入，所述消息对的向量表示从异质图注意力网络模块输出的节点向量表示中抽取得到；

所述孪生网络模块将从异质注意力网络模块输出中抽取的需要判断消息对的两条消息向量表示映射到相同的向量空间，预测消息对的回复关系，最终将孪生网络模块的输出合并输入到全连接层中，经过softmax分类器进行处理，获得消息对的预测结果。

本发明的有益效果：

本发明所述的判断系统，基于群组内容构建群组图和生成自适应消息图，综合学习群组消息的文本信息、发送消息的群组用户信息和上下文群组消息信息，利用图模型在图结构上进行群组消息的表示学习，拼接消息对的表示向量并进一步预测群组消息间的回复关系。具有以下优点：

1、本发明所述的系统是首个尝试使用图模型解决群组消息回复关系判断任务的方法。

2、本发明提出了自适应生成消息图的优化，处理不同的输入消息序列生成任务相关的局部消息图，用于捕捉消息之间的隐式关联，弥补人工构图的不足。

3、采用本发明的系统实验验证了所提方法的有效性，而且验证了所获得的用户向量有效融合了文本信息和回复结构信息。

附图说明

图1为本发明所述的基于图模型表示学习的消息回复关系判断系统中构建的正负样本样例图；

图2为本发明所述的基于图模型表示学习的消息回复关系判断系统的原理框图；

图3为群组消息的示意图；

图4为消息对向量距离分析示意图；

图5为用户向量分析图。

具体实施方式

结合图1至图5说明本实施方式，基于图模型表示学习的消息回复关系判断系统，通过判断聊天群组消息间的回复关系，得到优化后的群组用户的向量表示。首先处理群组内容构建全局群组图和生成自适应消息图，从全局群组图中抽取与需要判断回复关系的消息对相关的节点和节点间关系得到局部图，将局部图和自适应消息图合并作为图模型的输入，图模型在输入的合并子图上进行表示学习并输出节点的向量表示从节点向量表示中抽取消息对的向量表示，最终输入到孪生网络模块预测消息对间的回复关系。

本实施方式中涉及的技术术语如下：

异质图结构:多种类型的节点和多种类型的边组成的图。

群组用户：聊天群组中的用户。

群组消息:聊天群组用户发送的消息。

自适应生成图：基于任务自动生成节点间关系组成的图。

消息回复判断：判断聊天群组中两条消息间是否存在回复关系。

表示学习：学习特定对象向量表示的方法。

图模型：在网络上学习节点间空间依赖关系的图神经网络。

异质图注意力网络：在异质图结构上使用注意力机制进行表示学习的图神经网络。

注意力机制:广义地解释为其他实体对当前实体重要性构成的向量。

孪生网络：是一种包含两个或者更多相同子网络的神经网络架构。

本实施方式中，聊天群组中用户间交互是群组实现的主要功能，用户间消息回复是用户间交互实现的方式，消息间的回复行为下隐藏着消息间和用户间的关系。本系统可以通过学习消息间的回复行为，挖掘回复行为下消息间和用户间的关系，预测消息间的回复关系，同时优化图中节点的向量表示，得到副产品优化后的消息和用户向量表示。

本实施方式中，消息间回复关系判断任务是判断群组中的消息间是否存在回复关系，如果存在回复关系则为正例，不存在则为负例。给定群组中的一个对话序列，序列为S₁,S₂,…,S_z,…,S_N,S_N+1，消息S_N+1为当前消息，本系统解决问题是从序列中找出当前消息S_N+1的父消息S_T。从序列中抽取当前消息回复的消息和当前消息未回复的消息与当前消息组成消息对，作为正负样本，例如(S_T,S_N+1)和(S_F,S_N+1)，其中S_T是S_N+1回复的消息，S_F是S_N+1未回复的消息中随机抽取的一条。

图1为构建正负样本的样例，图中右侧消息数据是从IRC ubuntu log中随机截取的连续N+1条消息，1,2,3,…,N,N+1是消息的序号，IRC ubuntu log是从Linux和Ubuntu的Internet Relay Chat Log中收集的数据,图中消息序列中只展示了部分消息，中间部分消息省略没有展示，图中每条消息的格式是“<用户名>:消息内容”的形式。N+1条消息中的第N+1条为当前消息，第1条消息到第N条消息为当前消息的上下文消息。图1中线段形状的箭头曲线表示第N+1条消息是第N-1条消息的回复，上下文消息中的其他消息是当前消息的未回复消息。当前消息和第N-1条消息组成正样本(N-1,N+1)，如图1中点状箭头所示。从未回复消息中随机抽取一条消息与当前消息组成负样本(N-3,N+1)，图1中随机抽取的是第N-3条消息，如图1中实线箭头所示。

将构建得到的正负样本消息对输入到基于图模型表示学习的消息回复关系判断模型中，模型判断消息对是否存在回复关系并输出预测结果，预测结果为1，证明组成消息对的两条消息间存在回复关系，否则组成消息对的两条消息间不存在回复关系。

本实施方式所述的判断系统包括图的构建和生成模块、局部图获取和合并模块、异质图注意力网络模块(HGAT)以及孪生网络模块(Siamese network)

所述图的构建和生成模块包括两个子模块：全局群组图构建子模块、自适应消息图生成子模块。一方面，群组图构建子模块基于群组内容的全局信息统计处理得到全局群组图。另一方面，群组消息的消息间具有一定的局部相关性，消息序列中消息通常只与当前序列中的消息相关，具有一定的局部性，不同消息序列中的消息间的回复行为难以直接得到。

本实施方式中，基于群组内容的全局信息统计处理得到全局群组图。图中有三种类型的节点：用户节点、消息节点、单词节点。群组中的所有用户构成用户节点集，群组中用户发送的所有消息构成消息节点集，所有消息中出现的全部单词构成单词节点集。图中有四种类型的边：用户节点和用户节点之间的边，用户节点和消息节点之间的边，消息节点和单词节点之间的边，单词节点和单词节点之间的边。用户节点和用户节点之间的边采用基于时间窗口的全局用户点互信息方法(Pointwise Mutual Information,PMI)计算用户间的共现权重；根据用户发送消息，在用户节点和用户节点发送的对应消息之间添加边；消息节点和单词节点之间边的权重采用单词的全局TF-IDF(Term Frequency-InverseDocument Frequency,TF-IDF)计算单词的重要性权重；单词节点和单词节点之间的边采用基于滑动窗口的全局单词PMI方法计算单词间的共现权重。全局群组图如图3所示，图中有三种类型的节点和四种类型的边，分别使用不同类型的图形和边表示，单词节点、消息节点和用户节点分别使用圆形、三角形表示和正方形表示，用户节点与用户节点、用户节点与消息节点、消息节点与单词节点和单词节点与单词节点之间的边分别使用实线、点与线段、线段和点组成的直线表示对应节点对间的边。

通过计算节点和节点之间的权重得到图G的邻接矩阵A，邻接矩阵A中的A_ij元素计算公式为：

成对单词节点间的权重计算公式PMI(e,e′)为：

式中，Q为群组消息中所有滑动窗口的总数量，Q(e)表示滑动窗口中包括单词节点e滑动窗口的数量，Q(e,e′)表示滑动窗口中同时包含单词节点e和单词节点e′的滑动窗口的数量。

消息节点和单词节点之间的单词重要性权重计算公式TF-IDF(e,f)为：

TF-IDF(e,f)＝TF_ef×IDF_ef (5)

式中，TF_ef是单词节点e在消息节点f中出现的频率，n_ef表示单词节点e在消息节点f中出现的次数，

表示消息节点f中所有单词节点出现的次数累加和；IDF_ef表示单词节点e的逆文档频率，|D|表示聊天群组中的消息总数，|{f:t_e∈d_f}|表示包含单词节点e的消息节点数量，其中t_e为第e个单词，d_f为第f条消息。

成对用户节点间的共现权重权重PMI_{time_window}(i,j)计算公式为：

式中，Q_u为群组消息对应的用户序列中所有时间滑动窗口的总数量，Q_u(g,g′)表示时间滑动窗口中同时包含用户节点g和用户节点g′的滑动窗口数量，Q_u(g)表示滑动窗口中包括用户节点g滑动窗口的数量。

最终得到全局群组图，全局群组图表示为G＝(V,E,X)，其中V(|V|＝N)和E分别是节点集和边集。X＝[x₁,x₂,…,x_N]^T∈R^N×M是由单词、消息和用户节点的特征向量组成的矩阵，其中x_i表示节点i的特征向量，M是特征向量的维数。图的拓扑结构由邻接矩阵A∈R^N×N表示，假设每个节点都与其自身相连，邻接矩阵A的对角元素设置为1。引入D∈R^N×N作为图的度矩阵，其中D_ii＝∑A_ij。最后计算得到归一化拉普拉斯矩阵

本实施方式中，自适应消息图生成子模块采用任务相关自适应的图学习方法，基于目标任务通过处理输入的消息序列自适应地生成包含消息间关系的消息图。当输入群组消息时，自适应消息图生成子模块只考虑当前消息和当前消息前N条连续的历史消息组成N+1条消息，前N条连续的历史消息中包含当前消息的回复消息和未回复消息，将N+1条消息输入到适应消息图生成模块，模块输出大小为(N+1)·(N+1)自适应消息图。

所述自适应消息图生成模块子是基于目标任务通过处理输入的消息序列自适应地生成包含消息间关系的消息图，以捕捉消息序列中消息间的关系。自适应消息图由消息节点和消息节点之间的关系构成，消息图中的节点为消息，消息图中的边表示消息和消息之间的相关性强弱。现有的研究方法在构建图结构方面，大部分是通过距离度量来计算节点对之间的相似性或相关性，例如点积、余弦距离和欧几里德距离。这种计算图的方式，一方面需求花费O(N²)级别的高时间和空间复杂度，计算时间和内存成本随着图中节点数量的增加呈二次增长，限制模型处理大图的能力。另一方面，点积、余弦距离和欧几里德距离这些距离度量方法并不适用于所有问题，不同任务需要提取节点对之间不同的关系，面向任务的节点对关系的生成方法更具有适用性。

自适应消息图生成子模块根据下游任务生成消息节点间关系组成的消息图结构。自适应消息图生成模块的输入为群组中的一个消息序列，消息序列为S₁,S₂,…,S_z,…,S_N,S_N+1，序列长度为N+1，S_z表示序列中的第z条消息，为了学习序列中消息之间的前后位置关系以及消息间的语义关系，采用双向长短期记忆网络(Bi-directional Long-Short TermMemory,Bi-LSTM)从正序和反序两个方向学习得到所有位置的隐藏表示和最后的输出，通过一个全连接层将Bi-LSTM的全部输出进行矩阵运算得到(N+1)²维度的输出矩阵，作为消息序列的自适应消息图对应的邻接矩阵A_ada。

本实施方式中，所述局部图获取和合并模块由两个子模块组成，分别为局部图获取子模块、局部图和自适应消息图合并子模块。消息序列具有一定的局部相关性，当前消息通常只与当前消息序列中的消息、发送消息的用户、消息中的单词三种实体相关，只考虑与当前消息相关的信息能大大减少噪声信息，提高当前消息相关的任务效果。当群组消息输入时，全局群组图中只有部分单词、消息、用户与当前消息相关，当前消息和当前消息前N条连续的历史消息组成N+1条消息是当前消息的相关消息，发送相关消息的用户组成用户集是相关用户，相关消息中出现的单词组成的单词集是相关词库。所述局部图获取子模块从全局图中抽取相关单词节点、相关消息节点、相关用户节点组成的节点和节点间的边构成局部图，局部图的节点集由相关单词、相关消息、相关用户组成，局部图的边集由节点集中节点间存在的边组成。局部图获取子模块从全局群组图抽取与当前消息相关的消息、用户、单词组成当前消息的局部图。局部图和自适应消息图分别包含不同的节点关系信息，局部图和自适应消息图合并子模块合并自适应消息图和局部图得到最终的合并子图，作为异质图注意力网络模块的输入。

本实施方式中，局部图获取子模块：聊天群组从被创建开始，群组中每天都可能产生大量消息，每条消息都有对应的时间戳和发送该消息的群组用户。分析群组消息时，当前消息并不与群组中的所有消息都相关，当前消息回复的消息只存在于当前消息的上文中(当前消息为会话的起始消息时，上文中可能也不存在当前消息回复的消息)，并且是与当前消息位置相近的语义相关的消息，群组消息关系具有空间相近性和语义相关性，缩小考虑的消息数量，只考虑指定数量可能性大的上下文范围消息，可以大大减少噪声信息，提高当前消息回复关系判断的任务效果。从全局图中提取与当前消息相关的消息、用户、单词构成当前消息的局部图。当前消息的局部图由以下节点组成：

消息节点：当前消息及上文N条消息组成的大小为N+1的窗口内的消息。

用户节点：与消息节点相关发送消息的用户。

单词节点：出现在消息节点中的单词。

局部图相比于全局图，有效地减少干扰消息，降低计算时间和内存消耗。对大规模图结构的任务场景有更强的适用性。

本实施方式中，所述局部图和自适应消息图合并子模块分别包含不同的节点关系信息，两种信息互相补充，合并两种图结构中的信息作为异质图注意力网络模块输入的图结构。采用滑动窗口的方式遍历群组消息，当前消息及上文N条消息组成的大小为N+1的滑动窗口得到消息序列S₁,S₂,…,S_N,S_N+1，自适应消息图生成子模块基于该消息序列生成任务相关的自适应消息图。局部图获取子模块从全局群组图中抽取得到相关消息、用户和单词的节点和它们之间的关系组成局部图。局部图和自适应消息图合并子模块合并自适应消息图和局部图得到最终的合并子图A～，作为异质图注意力网络模块的输入。

本实施方式中，所述异质图注意力网络模块在输入的合并子图上进行表示学习，利用节点层和类型层组成的双层注意力机制学习合并子图中的信息并输出更新后的节点向量表示。具体过程如下：

采用HGAT模块来学习合并得到的合并子图信息，HGAT采用节点层和类型层组成的双层注意力机制，学习群组合并子图结构中不同相邻节点的重要性以及不同类型节点对当前节点的重要性进行节点表示学习。

合并子图由不同类型的节点组成，异质图注意力网络采用异质图卷积方式处理异质合并子图。异质合并子图中不同类型节点拥有不同的向量表示，利用对应的变换矩阵将不同类型的向量表示映射到公共向量表示空间。异质图卷积公式如下图所示：

式中，

为合并子图邻接矩阵

的子矩阵，N为所有节点的总数量，N_τ为τ类型节点的总数量，子矩阵

中行表示节点，列表示类型τ的相邻节点，第l层类型τ的转换矩阵

q^l为第l层的向量空间维度，q^l+1为第l+1层的向量空间维度；

将使用子矩阵

通过线性变换聚合第l层类型τ的所有节点向量表示

映射到相同的向量空间，将得到所有类型向量表示累加计算得到节点的第l+1层向量表示的H^l+1；

将转换矩阵

映射到公共向量表示空间

τ类型节点的初始输入向量矩阵为

X_τ为类型τ节点初始向量表示。

给定一个特定类型的节点，不同类型的相邻节点对当前节点产生不同程度的影响。相同类型的相邻节点可能会携带更多有用的信息，同一类型的不同相邻节点也可能具有不同的重要程度。HGAT使用一种的双层注意机制获取节点级和类型级的不同重要性。接下来分别对类型级和节点级的注意力权重计算方法介绍。

(1)类型级的注意力权重计算：

类型级的注意力计算不同类型的相邻节点对当前节点的重要性权重。给定一个类型的节点i，首先计算类型τ的向量表示

为邻接矩阵第i行第i′列的元素值，h_τ是节点i的类型τ相邻节点向量表示h_i′的总和，相邻节点i′∈N_i为节点i的类型τ邻居节点；

基于当前节点向量表示h_i和类型τ的向量表示h_τ计算当前节点i的类型级注意力得分α_τ，计算公式如下所示：

上式中

是τ类型的注意力权重向量，||表示向量拼接，σ表示激活函数。最后通过使用softmax函数对所有类型的注意力得分进行归一化获得当前节点的类型级的注意力权重Y_τ：

式中：a_τ′为相邻节点的类型级注意力得分，Γ为当前节点向量表示h_i的邻接节点集；

节点级的注意力权重计算：

节点级的注意力权重计算获得不同相邻节点对当前节点的重要性，降低噪声节点的干扰。给定类型τ的节点i和类型τ′的相邻节点i′∈N_i，基于节点i的向量表示h_i和邻居节点的向量表示h_i′当前节点i的相邻节点i′对当前节点i的节点级注意力得分b_ii′：

式中，δ^T为节点级的注意力权重向量，使用softmax分类器对节点级注意力得分进行归一化，获得相邻节点i′对当前节点i的节点级的注意力权重：

式中β_i′_i′为当前节点i的邻居节点i′对当前节点i的节点级注意力权重，N_i为当前节点i的邻居节点集合，p为当前节点的其中一个邻居节点，b_ip为当前节点i的邻居节点p对当前节点i的节点级注意力得分。

最后将包括类型级和节点级的双层注意力机制融合到异质图卷积公式中，得到以下公式：

式中，B_τ表示注意力权重矩阵，B_τ的第i行第i′列的元素为β_ii′。

本实施方式中，所述孪生网络模块采用网络参数共享权值方式，从前N条历史消息中抽取当前消息的回复消息或未回复消息，与当前消息组成消息对作为输入，消息对的向量表示从异质图注意力网络模块输出的节点向量表示中抽取得到。

孪生网络模块将两个不同的输入映射到相同的向量空间，预测消息对的回复关系。最终将孪生网络的输出合并输入到全连接层中，经过softmax处理，得到消息对的预测结果。具体过程如下：

所述孪生网络采用网络参数共享权值方式将两个不同的输入映射到一个相同的向量空间，然后进行向量转换、非线性处理和拼接操作，最终输入到目标函数中判断两条消息的相关性。

需要判断回复关系的消息对为(S_i,S_N+1)，通过HGAT模块学习图结构信息和相邻节点的向量表示得到输出

为HAGT模块最后一层输出的第i个消息(上文消息)样本的向量表示，

为HAGT模块最后一层输出的第N+1个消息(当前消息)样本的向量表示。

输入到孪生网络射到相同的向量空间学习得到(u,v)，对(u,v)进行多种拼接操作获取交互的更多信息，将拼接结果输入到目标函数，判断消息对间是否存在回复关系。

为了获取数据对间更多的交互信息，目标函数的输入为多种拼接操作处理后的数据对，本方法将消息向量表示u和v与向量元素差|u-v|拼接起来，最终的目标函数公式如下所示：

objective＝softmax((u,v,|u-v|)W_o) (17)

上式W_o∈R^3nxk为权重矩阵，其中n是消息向量表示的维度嵌入的维数，3n是拼接操作后向量的最终维度，k是标记数据的类别数量。将目标函数的输出和真实标签通过交叉熵损失函数优化和训练模型。

结合图4说明本实施方式，本实施方式对HGAT模块输出的消息对向量距离分析，比较真实标签中存在回复关系消息对和不存在回复关系消息对的两条消息间的向量距离，分析HGAT模块输出的消息向量表示和任务相关性，进一步评估本模型的表示学习效果。图4消息对向量距离分析图以箱线图的形式展示了存在回复关系消息对和未回复消息对的向量距离结果，图4中分别标明两种情况下第一四分位数(Q1)、中位数(M)、第三四分位数(Q3)、均值(Mean)、最大值(Max)等评估值，更直观地比较两种情况下的消息对向量距离。从图中可以观察两种情况下的均值(Mean)，回复消息对比未回复消息对的平均向量距离短，说明在任务学习的过程中HGAT模块更新节点向量表示过程中，消息节点的向量表示中学习到消息对的回复关系信息，使得存在回复关系消息对比未回复消息对的空间距离更接近。从Q3和均值的距离来看，回复消息对向量距离的Q3和均值小于未回复消息对向量距离的Q3和均值，说明回复的消息对向量距离的异常值数量较少和异常值异常程度小。经过统计得到回复消息对中异常值个数为237，占全部回复消息对的比例为0.09172。未回复消息对异常值个数为10560，占未回复消息对的比例为0.09367，满足从图4上得到的分析结果。

结合图5说明本实施方式，对实施方式中HGAT模块输出的用户向量表示进行分析，分析统计真实标签得到用户间回复次数和用户间向量距离的关系，评估HGAT模块输出的用户向量表示和任务相关性，进一步确定本模型的表示学习效果。相比于IRC数据集，标注数据集中的微信和QQ数据集分别来自一个单独聊天群组，数据集中的用户流入流出不频繁，群组用户大部分都是固定的，可以作为群组用户向量表示的分析对象。通过统计得到QQ数据集中参与群组聊天的用户有76位，微信数据集中参与群组聊天的用户有193位，微信数据集中参与用户数量更多。为了减小群组用户数量少导致用户分析不全面、不充分的影响，接下来使用得到的微信数据集用户向量表示进行用户向量表示分析。

为了分析HGAT模块输出的用户向量表示，将用户间向量距离和用户间回复次数结合，验证随着用户间回复次数增加用户向量间距离的呈现趋势。对用户间回复数量和用户间向量距离进行统计，计算两个用户间相互回复次数和作为两个用户间的总回复次数，将两个用户间的总回复次数作为横坐标；计算特定回复次数的所有用户间向量距离，并计算向量距离累加和的平均值，作为当前回复次数的用户间向量距离(纵坐标)，其中回复次数为0的向量距离是计算不存在回复的所有用户间向量距离累加和的平均值。用户间向量距离和回复次数的关系如图5所示。

从图5观察得到，随着用户间回复次数的增加，用户间向量距离整体呈现下降的趋势，即用户间消息回复次数越多，用户间距离越相近。由于本模型训练过程中用户数量和群组消息数量相对较少，模型训练不充分，少数回复次数较多的大于回复次数较少的用户间向量距离。图5中呈现用户间向量距离整体趋势是下降的，满足最初的方法预期。

本实施方式所述的判断系统可以综合学习消息的文本信息、发送消息的用户信息和上下文消息信息判断群组消息对之间的回复关系。在消息对间回复关系的学习过程中，图神经网络模型通过任务学习优化图中消息节点，同时优化图中用户节点向量表示，最终得到一个相对较好的用户向量表示。

在公开数据集和标注数据集上评估了本实施方式所述的判断系统，实验验证的模型优于集中对比模型，包括BERT的句子对分类模型和短文本匹配通用模型ESIM。经过用户向量分析实验验证，图模型输出优化后的用户向量表示是融合文本信息和回复结构信息的用户向量表示。

Claims

1.基于图模型表示学习的消息回复关系判断系统，其特征是：该系统包括图的构建和生成模块、局部图获取和合并模块、异质图注意力网络模块以及孪生网络模块；

所述自适应消息图生成子模块的输入为群组中的一个消息序列，消息序列为S₁,S₂,...,S_z,...,S_N,S_N+1，序列长度为N+1，s_z表示序列中的第z条消息，采用Bi-LSTM网络从正序和反序两个方向学习得到序列中每个位置的隐藏表示和最后的输出，通过一个全连接层将Bi-LSTM网络的全部输出进行矩阵运算得到(N+1)²维度的输出矩阵，该矩阵作为消息序列的自适应消息图对应的邻接矩阵A_ada；

2.根据权利要求1所述的基于图模型表示学习的消息回复关系判断系统，其特征在于：

采用基于滑动窗口的全局单词PMI方法计算成对单词节点间的权重，计算公式PMI(e,e′)为：

式中，Q为群组消息中所有滑动窗口的总数量，Q(e)表示滑动窗口中包括单词节点e滑动窗口的数量，Q(e,e′)表示滑动窗口中同时包含单词节点e和单词节点e′的滑动窗口的数量；

采用单词的全局TF-IDF计算消息和单词节点之间权重，消息节点和单词节点之间的单词重要性权重计算公式TF-IDF(e,f)为：

TF-IDF(e,f)＝TF_ef×IDF_ef

表示消息节点f中所有单词节点出现的次数累加和；IDF_ef表示单词节点e的逆文档频率，|D|表示聊天群组中的消息总数，|{f:t_e∈d_f}|表示包含单词节点e的消息节点数量，其中t_e为第e个单词，d_f为第f条消息；

采用基于时间窗口的全局用户点互信息方法计算成对用户节点间的共现权重；采用下式表示为：

3.根据权利要求1所述的基于图模型表示学习的消息回复关系判断系统，其特征在于：

所述全局群组图表示为G＝(V,E,X)，其中V(|V|＝N_global)和E分别是节点集和边集；

是由单词、消息和用户节点的特征向量组成的矩阵，其中x_i表示节点i的特征向量，N_global表示单词节点、消息节点和用户节点数量的和，M是特征向量的维数；

所述全局群组图拓扑结构由邻接矩阵A∈R^N×N表示，设定每个节点都与其自身相连，邻接矩阵A的对角元素设置为1，引入D∈R^N×N作为图的度矩阵，其中D_ii＝∑A_ij；最后计算得到归一化拉普拉斯矩阵

4.根据权利要求1所述的基于图模型表示学习的消息回复关系判断系统，其特征在于：

对所述自适应消息图生成子模块输入群组消息时，自适应消息图生成子模块只考虑当前消息和当前消息前N条连续的历史消息组成N+1条消息，前N条连续的历史消息中包含当前消息的回复消息和未回复消息，将N+1条消息输入到适应消息图生成子模块，模块输出大小为(N+1)·(N+1)自适应消息图。

5.根据权利要求1所述的基于图模型表示学习的消息回复关系判断系统，其特征在于：

所述局部图获取子模块获取的局部图由以下节点组成：

消息节点：当前消息及上文N条消息组成的大小为N+1的窗口内的消息；

用户节点：与消息节点相关发送消息的用户；

单词节点：出现在消息节点中的单词。

6.根据权利要求1所述的基于图模型表示学习的消息回复关系判断系统，其特征在于：

所述异质图注意力网络模块用于在输入的合并子图上进行表示学习，具体过程为：

所述异质图注意力网络模块采用异质图卷积方法处理所述合并子图；所述合并子图中不同类型节点采用不同的向量表示，利用对应的变换矩阵将不同类型的向量表示映射到公共向量表示空间；异质图卷积公式如下：

式中，

为合并子图邻接矩阵

q^l为第l层的向量空间维度，q^l+1为第l+1层的向量空间维度；

将使用子矩阵

通过线性变换聚合第l层类型τ的所有节点向量表示

将转换矩阵

映射到公共向量表示空间

τ类型节点的初始输入向量矩阵为

X_τ为类型τ节点初始向量表示；

采用所述异质图注意力网络模块分别对类型级和节点级的注意力权重计算，具体为：

类型级的注意力权重计算：用于计算不同类型的相邻节点对当前节点的权重；

给定一个类型的节点i，首先计算类型τ的向量表示

基于当前节点向量表示h_i和类型τ的向量表示h_τ计算当前节点i的类型级注意力得分α_τ，计算公式如下：

式中，

是类型τ的注意力权重向量，||表示向量拼接，σ表示激活函数；

最后通过使用soft max分类器对所有类型的注意力得分进行归一化，获得当前节点的类型级的注意力权重Y_τ：

计算节点级的注意力权重获得不同相邻节点对当前节点的重要性，具体如下：

给定类型τ的节点i和类型τ′的相邻节点i′，基于节点i的向量表示h_i和相邻节点i′的向量表示h_i′，计算当前节点i的相邻节点i′对当前节点i的节点级注意力得分b_ii′：

式中，δ^T为节点级的注意力权重向量，使用soft max分类器对节点级注意力得分进行归一化，获得相邻节点i′对当前节点i的节点级的注意力权重：

式中β′_ii′为当前节点i的邻居节点i′对当前节点i的节点级注意力权重，N_i为当前节点i的邻居节点集合，p为当前节点的其中一个邻居节点，b_ip为当前节点i的邻居节点p对当前节点i的节点级注意力得分；

最后将包括类型级和节点级的双层注意力机制融合到异质图卷积公式中，获得下式为：

7.根据权利要求1所述的基于图模型表示学习的消息回复关系判断系统，其特征在于：

所述孪生网络模块采用网络参数共享权值方式将两个不同的输入映射到一个相同的向量空间，然后进行向量转换、非线性处理和拼接操作，最终输入到目标函数中判断两条消息的相关性；具体为：

设定需要判断回复关系的消息对为(S_i,S_N+1)，通过异质图注意力网络模块学习图结构信息和相邻节点的向量表示得到输出

为异质图注意力网络模块最后一层输出的第i个消息的向量表示，

为异质图注意力网络模块最后一层输出的第N+1个消息的向量表示；

输入到孪生网络模块映射到相同的向量空间学习得到(u,v)；对(u,v)进行多种拼接操作获取交互的更多信息，将拼接结果输入到目标函数，判断消息对间是否存在回复关系。

8.根据权利要求7所述的基于图模型表示学习的消息回复关系判断系统，其特征在于：

所述目标函数的输入为多种拼接操作处理后的数据对，将消息向量表示u和v与向量元素差|u-v|拼接起来，最终的目标函数公式如下：

objective＝softmax((u,v,|u-v|)W_o)

式中，W_o∈R^3nxk为权重矩阵，其中n是消息向量表示的维度嵌入的维数，3n为拼接操作后向量的最终维度，k为标记数据的类别数量；

将目标函数的输出和消息对的真实标签通过交叉熵损失函数优化和训练，当消息对中两条消息间存在回复关系时，消息对的真实标签为1，否则为0。