CN116245110A

CN116245110A - 基于图注意力网络的多维度信息融合用户立场检测方法

Info

Publication number: CN116245110A
Application number: CN202211678006.5A
Authority: CN
Inventors: 陈兴蜀; 朱鹏威; 唐文佚; 唐瑞; 王海舟; 王文贤; 蒋术语
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-06-09

Abstract

本发明公开了一种基于图注意力网络的多维度信息融合用户立场检测方法，包括以下步骤：对推文数据进行预处理，通过伪标签实现从用户标签到推文标签的转换，训练文本立场检测模型；筛选用户时序推文序列，通过立场检测模型得到向量表示，并通过双向GRU处理时序信息，得到用户言论信息特征；通过OCR技术识别头像中的文本，与用户个人简介拼接后通过多语言预训练模型嵌入得到用户档案信息特征；使用图注意力网络对用户多维度特征进行嵌入，得到包含邻居节点信息的用户节点表示。融合用户言论信息特征、档案信息特征和社交关系特征，从而实现用户立场的准确判定。本发明检测方法具有特征维度丰富、能够对“沉默用户”进行预测等优点。

Description

基于图注意力网络的多维度信息融合用户立场检测方法

技术领域

本发明涉及自然语言处理技术领域，具体为一种基于图注意力网络的多维度信息融合用户立场检测方法。

背景技术

随着互联网社交媒体的发展，社交网络已经变得无处不在，据《2022年全球数字概览》报告数据显示，社交媒体活跃用户占全球人口的58.4％，每人每天在不同平台上花费超过2.5小时。尽管社交媒体已经在世界各地无处不在，但社交媒体用户的数量仍在上升，2022年用户数量比去年增长了10.1％。不同的社交媒体网络为用户提供了各式各样的功能，如为相同爱好者创建社区，提供一个简单的方式来分享想法等。这些主流的社交媒体都向用户提供了分享内容和自己的观点的功能。而报告中的统计数据表明，29.5％的人使用社交媒体原因是了解媒体中谈论内容，24.5％是为了与他人分享和讨论意见，这为从社交媒体中分析用户立场提供了依据。

社交网络用户立场检测是自然语言处理领域和计算社会科学领域的交叉部分。自然语言处理领域主要内容是让计算机理解自然语言，计算社会科学领域则是利用大数据和社会在线活动来处理社会科学，以建模、分析社会行为关系及互动。用户立场是用户对某些话题所表达的“支持、反对或中立”意见，它是一个重要的话题，在政治、社会科学、用户行为分析和社交媒体分析等许多领域都有广泛的应用。在对公众意见调查方面，立场检测被认为能够更好地与公众舆论保持一致，可以看作是传统民意测度工具的替代或补充。通过对特定目标的立场分析，公司可以通过网络搜集民众意见，对产品进行改进升级，提高用户体验；监管机构可以识别恶意账号，肃清平台环境，提供风清气正的网络环境。

目前大多数研究工作都是使用用户的生成内容(推文或博文)进行立场预测，仅使用文本维度的特征作为依据。最新的研究加入了用户社交关系及用户的行为交互关系来辅助进行立场判定。但是目前的方法都存在相应的问题，仅使用文本维度特征需要大量已标注的数据集、忽略了用户言论的时间维度特征并且无法解决“沉默用户”问题；使用交互关系构图会遇到关系冗余，与目标无关的交互信息可能会影响检测的效果；同时也没有很好的利用到用户的档案信息，如用户的个人介绍，头像信息等。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于图注意力网络的多维度信息融合用户立场检测方法，分别获取用户言论、用户档案、用户社交关系三个维度的特征信息并进行融合，其具有特征维度丰富、能够对“沉默用户”进行预测等优点。技术方案如下：

一种基于图注意力网络的多维度信息融合用户立场检测方法，包括以下步骤：

步骤1：对推文数据进行预处理，采用公开的文本立场预测模型对全部推文信息进行预测，得到预测伪标签；

步骤2：构建文本立场检测模型，将所述预测伪标签与用户标签进行比较，标签一致的数据作为数据集，训练推文级立场检测模型；

通过多语言预训练模型LaBSE，将不同语言的词映射到同一个向量空间，将推文进行分句，通过预训练模型进行词嵌入和句嵌入，得到推文的表征向量；经过预训练模型编码后得到其特征向量，经过均值化处理后的目标信息特征向量与双向LSTM编码后的词嵌入向量拼接，再输入到线性变换函数计算得到每个字的权重系数，最终经过矩阵运算得到每个句子的语义特征表示向量和推文的全局语义表示特征；

步骤3：筛选用户与目标相关的S条推文，并按照时间排序得到文本序列，使用训练好的文本立场检测模型进行建模，得到推文向量隐藏层表示；然后通过双向GRU模块获取到第s个推文

的前向隐藏状态/>

和后向隐藏状态/>

最后的状态输出由/>

和/>

拼接而成，即

序列训练完成后得到最终用户言论信息特征V_T；

步骤4：对用户档案信息进行建模，个人简介内容通过多语言预训练语言LaBSE模型进行嵌入，头像信息同个人简介拼接后一起建模得到用户档案信息特征V_P；

步骤5：使用图注意力网络对用户多维度特征进行嵌入，得到包含邻居节点信息的邻居立场的用户立场表示V_R；

步骤6：将步骤3中得到的用户言论信息特征V_T，与步骤4中得到的用户档案信息特征V_P和步骤5聚合邻居信息得到的用户立场表示V_R进行拼接得到最终向量表示R，R＝[V_T,V_P,V_R]；通过前向反馈网络层，进行线性变换并输出整个模型的结果。

进一步的，所述步骤1具体包括：

步骤1.1：文本预处理：去除所采集推文中的无效信息，并将推文中的信息进行标准化；用相同含义的词替换推文中的表情，将标签还原为单词或短语；

步骤1.2：伪标签预测：采用公开的文本立场检测模型对预处理后的推文数据进行预测，采用在SemEval2016-Task6数据集上表现良好的分层注意力网络进行预测，得到全部推文的预测标签。

更近一步的，所述步骤1.1具体包括：

步骤1.1.1：表情释义：使用Python的第三方库emoji将表情符号所代表的情感替换为具有相似含义的词；

步骤1.1.2：标准化清洗：将推文中的URL、日期、邮箱信息统一替换为类别；

步骤1.1.3：标签分段：对于推文中带有由多个词组成的话题标签hashtag，对其中的词进行拆分，作为推文语义的一部分，用以提取话题标签的语义信息。

更近一步的，所述步骤2具体包括：

步骤2.1：将推文T进行分句，通过预训练模型进行词嵌入和句嵌入；模型输入为文本数据T＝{s₁,…,s_i,…,s_n}，s_i表示推文中第i个句子，其中s_i＝{w_i1,…,w_ij,…,w_im}，w_ij表示推文中第i个句子的第j个词；

步骤2.2：目标文本序列表示为t＝{t₁,…t_μ,…,t_n}，经过预训练模型编码后得到其特征向量

经过均值化处理后的目标信息特征向量/>

其中，t_μ表示目标文本序列的第μ个词；

表示第μ个词的特征向量；n表示目标文本序列的长度；

步骤2.3：将目标信息特征向量

与双向LSTM编码后的词嵌入向量拼接，再输入到线性变换函数计算得到每个词的权重系数：

α_ij＝W₂·tanh(W₁·w'_ij+b₁)+b₂

α'_ij＝softmax(α_ij)

其中，

表示第i个句子的第j个词经过双向LSTM编码后的特征向量；w'_ij表示词的特征向量与目标特征向量拼接后的结果；α_ij为权重系数的向量表示；W₁,W₂是权重矩阵，b₁,b₂为偏置项；tanh(·)为激活函数；softmax(·)表示对特征向量进行归一化；α'_ij表示归一化后的权重系数；

步骤2.4：目标信息注意力赋予每个词不同权重，最终经过矩阵运算得到每个句子的语义特征表示向量

和推文的全局语义特征表示向量/>

其中，M为句子序列的长度，N为句子数量。

更近一步的，所述步骤5具体包括：

步骤5.1：构建用户社交关系网络，使用用户作为节点，社交关系作为边，用户言论信息特征V_T和用户档案信息特征V_P作为节点特征，构成一张有向同构社交图；

所述有向同构社交图表示为G＝(V,E)，V是用户节点的集合，E是边的集合；节点特征表示为

其中，H是节点的个数，F是节点特征的维度，f_h为每个节点的特征；

步骤5.2：将用户言论信息特征V_T和档案信息特征V_P拼接得到节点h的节点特征f_h：

f_h＝[V_T,V_P]

步骤5.3：通过线性变换得到节点特征f_h的高级表达

其中，W是权值矩阵，由用户言论信息特征V_T和用户档案信息特征V_P拼接得到，Z_h为节点h变换后的特征表达，(l)表示这是对l层的计算；

步骤5.4：对节点h计算其每个一度邻居节点g的重要性，并使用ReLU(·)作为激活函数，得到注意力分数，并通过softmax(·)将注意力分数转化为概率；

其中，a是单层前馈神经网络，e_hg是注意力分数代表节点g对节点h的重要性；α_hg代表归一化后的注意力系数，z_g为节点g变换后的特征表达；N(h)为节点h所有邻居节点集合；

步骤5.5：将注意力系数作为权重与节点特征计算加权平均数，并经过激活函数σ得到输出特征；

步骤5.6：对原始特征进行线性变换后与经过网络得到的注意力值堆叠得到输出特征：

其中，

表示第k组注意力机制进行计算得到的归一化权重系数，W^k是第k组注意力计算的权重矩阵；||表示拼接操作；f_g节点g的节点特征；

使用单层图注意力网络，对于单个用户隐藏层输出表示为

M为注意力头数，/>

为残差，即/>

得到最终通过图注意力网络聚合邻居立场的用户立场表示V_R。

与现有技术相比，本发明的有益效果是：

1)本发明提出了一套基于用户生成内容、用户档案信息和用户社交关系信息三个维度信息融合的方式进行用户的立场检测方案，丰富了用于立场判定的特征，提升判定效果。

2)本发明提出了一种在仅有用户标签，缺乏文本标签的情况下，实现推文级的立场检测的解决方案：利用伪标签实现了从用户标签到推文标签的转换，避免了人工大量标注数据的工作。同时使用多语言预训练模型进行词嵌入操作，较好地解决了多语言问题。

3)本发明利用了用户推文的时间有序性，将推文按照时间序列进行嵌入得到推文立场随时间变化的序列，通过循环神经网络预测用户最新的立场结果。对比将用户全部推文拼接后进行摘要的方式，具有更好地可解释性。

4)本发明使用图注意力网络摆脱了拉普拉斯矩阵的束缚，更加适用于有向图计算。引入用户的社交关系，捕获邻居用户对自身立场的影响，提高检测的准确性，同时也能够对“沉默用户”进行预测。

附图说明

图1为本发明的用户立场检测框架图。

图2为本发明的文本级立场检测具体实施流程。

图3为本发明的用户档案信息处理具体实施流程。

图4为本发明的基于图注意力网络融合用户言论信息和用户档案信息以及用户社交关系信息的具体实施流程。

图5为本发明的用户立场检测模型结构图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步详细说明，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

如图1所示，本发明方法输入为用户言论信息、用户档案信息和用户社交关系信息，输出为用户立场检测结果。首先对数据集进行分类处理：对全部推文数据进行文本预处理，包括表情释义、标准化清洗、标签分段等操作，然后利用现有模型预测伪标签并与用户标签比对，构建标注的文本数据集，用于训练文本立场检测模型，使用训练好的模型对用户文本序列进行建模；对用户档案信息进行处理，使用百度OCR对用户头像中的文本信息进行识别，然后与用户个人简介信息拼接后使用预训练模型进行建模；对用户社交关系数据构建关系图，将用户言论信息和档案信息作为节点的特征，基于图注意力网络进行信息融合，得到用户最终的向量表示，进行用户立场检测模型的训练。详述如下：

步骤1：对推文数据进行预处理，采用公开的文本立场预测模型对全部推文信息进行预测，得到伪标签。

1)文本预处理；本发明的文本预处理主要包括表情释义、标准化清洗、标签分段等。去除所采集推文中的特殊标点符号等无效信息，并将推文中的各类信息进行标准化。推文中的表情被具有相同含义的词替换，标签被还原为单词或短语。此外，URL、用户名等被按类统一标识。

a)表情释义

推文往往含有大量表情符号，其中蕴含了丰富的情感信息。情感信息对文本的立场检测有十分重要的参考价值，使用Python的第三方库emoji将表情所代表的情感替换为具有相似含义的词。

b)标准化清洗

推文中的URL、日期、邮箱信息等与文本内容区别较大，可能会对语言产生影响，将这些内容统一替换为类别，如URL替换为<http>、日期替换为<datetime>、邮箱信息替换为<email>。

c)标签分段

推文中往往会带有由多个词组成的话题标签hashtag，为了更好的提取话题标签的语义信息，对hashtag中的词进行拆分，作为推文语义的一部分。使用Python的第三方库ekphrasis进行实现。

2)伪标签预测：采用公开的文本立场检测模型对预处理后的推文数据进行预测，采用在SemEval2016-Task6数据集上表现良好的分层注意力网络进行预测，得到全部推文的预测标签。

步骤2：构建文本立场检测模型，构建已标注的数据集，训练推文级立场检测模型。

1)数据集构建。将步骤1中得到的预测标签与推文对应的用户标签进行比对，标签一致的数据作为有标签的数据，加入到数据集中，用于文本检测模型的训练。解决了在只有用户标签，没有推文标签的情况下，用户标签到推文标签的转换，避免了对推文数据标注的人工成本，提高效率。构建出已标注的推文数据集，按照6:2:2的比例划分训练集、验证集和测试集。

2)模型构建与训练。文本立场检测模型的框架包括三个部分，词嵌入、目标注意力和全局语义表征。在词嵌入时使用多语言预训练模型LaBSE，将不同语言的词映射到同一个向量空间。通过模型对推文进行建模，文本数据全局语义表征获取过程如下：

a)将推文T进行分句，通过预训练模型进行词嵌入和句嵌入。模型输入为文本数据T＝{s₁,…,s_i,…,s_n}，s_i表示推文中第i个句子，其中s_i＝{w_i1,…,w_ij,…,w_im}，w_ij表示推文中第i个句子的第j个词。

b)目标文本序列表示为t＝{t₁,…t_μ,…,t_n}，经过预训练模型编码后得到其特征向量

经过均值化处理后的目标信息特征向量/>

c)将目标信息特征向量

与双向LSTM编码后的词嵌入向量拼接，再输入到线性变换函数计算得到每个字的权重系数。

α_ij＝W₂·tanh(W₁·w'_ij+b₁)+b₂

α'_ij＝softmax(α_ij)

其中

表示第i个句子的第j个词经过双向LSTM编码后的特征向量；α_ij为权重系数；W₁,W₂是权重矩阵，b₁,b₂为偏置项；

d)目标信息注意力赋予每个词不同权重，最终经过矩阵运算得到每个句子的语义特征表示向量和推文的全局语义特征表示向量

其中M为句子序列的长度，N为句子数量。经过计算最终得到句子i的表征向量为

推文的全局语义特征表示为/>

e)模型的输出层由全连接层和softmax(·)函数组成，推文的最终表示

通过全连接层的函数计算后，再经过softmax(·)层输出立场类别的概率p。

其中，W_T,b_T分别为权重矩阵和偏置项，通过训练得到。模型选用交叉熵损失函数来进行训练：

其中，p，q表示训练集数据的索引和立场分类索引，输入参数为推文文本T_p、推文的真实标签y_p以及对不同立场类别预测

函数f_q表示文本立场检测模型，λ||θ||²表示L2正则化项。

f)多语言预训练模型LaBSE冻结所有层参数仅作为编码器使用，隐藏层参数使用Xavier正态分布进行初始化，然后使用推文数据集进行模型的训练。

文本级立场检测的实施流程如图2所示，通过步骤1和步骤2实现了文本立场检测模型的构建与训练，用于后续用户言论信息特征的建模。

基于图注意力网络进行多维度信息融合的过程如图4所示，首先通过步骤3获取用户的时序言论信息特征，然后通过步骤4获取用户的档案信息特征，最后通过步骤5构建用户的社交关系网络，并将言论特征与档案特征拼接后作为节点特征，基于图注意力网络进行邻居节点信息的聚合，得到包含邻居节点信息的用户节点表示。获取用户各维度信息的具体步骤如下：

步骤3：筛选用户与目标相关的S条推文，并按照时间排序得到文本序列Seq＝{T₁,…,T_s,…,T_S}，使用步骤2训练好的模型进行建模，得到推文向量隐藏层表示

然后通过双向GRU模块获取到第s个推文/>

的前向隐藏状态/>

和后向隐藏状态/>

最后的状态输出由

和/>

拼接而成，即/>

序列训练完成后得到最终用户言论信息特征V_T：

步骤4：对用户档案信息进行建模。如图3所示，首先安装baidu-aip库，调用AipOcr对全部用户的头像进行文本识别，得到头像中的文本信息；然后与个人简介内容进行拼接，如识别结果中不包含文字信息则仅使用个人简介信息，通过多语言预训练语言LaBSE模型进行嵌入。在使用预训练模型LaBSE时冻结全部参数，作为编码器使用。得到用户档案信息特征V_P。

步骤5：使用图注意力网络对用户多维度特征进行嵌入，得到包含邻居节点信息的用户节点表示。图注意力网络不依赖拉普拉斯矩阵，它在聚合节点特征时使用注意力机制计算节点权重而非卷积运算，适用于社交网络中的图表示。在计算时每次都遍历图上的节点，对于每个节点计算该节点与邻接节点的注意力分数，摆脱了拉普拉斯矩阵的束缚，更适用于有向图计算。

1)构建用户社交关系网络，使用用户作为节点，社交关系作为边，用户的言论信息和档案信息作为节点特征，构成一张有向同构社交图。在构建时需要进行节点及关系的去重，保证用户节点和边的唯一性，同时为每个节点添加自环。

社交图可以表示为G＝(V,E)，V是用户节点的集合，E是边的集合。节点特征可以表示为

其中H是节点的个数，F是节点特征的维度，f_h为每个节点的特征，由步骤3和步骤4得到的用户言论信息特征V_T和档案信息特征V_P拼接得到：

f_h＝[V_T,V_P]

2)通过图注意力网络进行邻居信息的聚合。首先通过线性变换得到节点特征f_h的高级表达

/>

其中，W是权值矩阵，Z_h为变换后的特征表达，(l)表示这是对l层的计算。

然后对节点h计算其每个一度邻居节点g的重要性，并使用ReLU()作为激活函数，得到注意力分数，并通过softmax()将注意力分数转化为概率：

其中，a是单层前馈神经网络，e_hg是注意力分数代表节点g对节点h的重要性；α_hg代表归一化后的注意力系数，z_g为节点g变换后的特征表达；N(h)为节点h所有邻居节点集合。

得到注意力系数之后，将其作为权重与节点特征计算加权平均数，并经过激活函数σ得到输出特征：

多头注意力机制可以获取更加丰富的用户表示，可以提高图注意力网络的泛化能力。对输入特征进行K次独立的注意力计算，为了减少网络对原始特征的影响，对原始特征进行线性变换后与经过网络得到的注意力值堆叠得到输出特征：

其中，

表示第k组注意力机制进行计算得到的归一化权重系数，W^k是第k组注意力计算的权重矩阵。使用单层图注意力网络，并设置八个注意力头，隐藏层尺寸设置为768。对于单个用户该层输出表示为/>

M为注意力头数，/>

为残差，即

得到最终通过图注意力网络聚合了邻居立场的用户立场表示V_R。

步骤6：如图4所示为用户立场检测模型架构图，将步骤3中得到的用户言论信息特征V_T，与步骤4中得到的用户档案信息特征V_P和步骤5聚合邻居信息得到的用户立场表示V_R进行拼接得到最终向量表示R，R＝[V_T,V_P,V_R]。通过前向反馈网络层，进行线性变换并输出整个模型的结果。该层包含一个ReLU激活函数和一个线性层。该层的计算方式如下：

F(R)＝max(0,R)W+b

其中，W为全连接层的权重，b为偏置。损失函数采用交叉熵损失函数，Loss的计算方式如下：

其中，y_ρ为用户的真实标签，

为用户的预测标签。

在用户社交图构建完成后，对用户数据集按照7:3比例划分训练集和测试集。在实际的预测过程中，用户的言论信息和档案信息可能是未知，所以将测试集中的相关信息移除，在进行训练时其节点特征不再通过步骤3和步骤4获取，而是设置为默认值。在预测时，则通过步骤3和步骤4获取用户的言论和档案信息特征，进行节点的预测。同时也可以仅使用步骤4获取的档案信息，不使用言论信息，将用户作为“沉默用户”进行预测。

在训练时独立重复10次计算其平均结果。单次训练中模型的轮次Epoch设置为50，批大小Batch Size设置为32，学习率设置为0.01，优化器采用Adam优化器。每个Epoch结束计算其F1值，若连续10个Epoch训练的F1值不再增加则提前结束训练。