CN116245110A - 基于图注意力网络的多维度信息融合用户立场检测方法 - Google Patents

基于图注意力网络的多维度信息融合用户立场检测方法 Download PDF

Info

Publication number
CN116245110A
CN116245110A CN202211678006.5A CN202211678006A CN116245110A CN 116245110 A CN116245110 A CN 116245110A CN 202211678006 A CN202211678006 A CN 202211678006A CN 116245110 A CN116245110 A CN 116245110A
Authority
CN
China
Prior art keywords
user
text
information
node
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211678006.5A
Other languages
English (en)
Inventor
陈兴蜀
朱鹏威
唐文佚
唐瑞
王海舟
王文贤
蒋术语
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202211678006.5A priority Critical patent/CN116245110A/zh
Publication of CN116245110A publication Critical patent/CN116245110A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于图注意力网络的多维度信息融合用户立场检测方法,包括以下步骤:对推文数据进行预处理,通过伪标签实现从用户标签到推文标签的转换,训练文本立场检测模型;筛选用户时序推文序列,通过立场检测模型得到向量表示,并通过双向GRU处理时序信息,得到用户言论信息特征;通过OCR技术识别头像中的文本,与用户个人简介拼接后通过多语言预训练模型嵌入得到用户档案信息特征;使用图注意力网络对用户多维度特征进行嵌入,得到包含邻居节点信息的用户节点表示。融合用户言论信息特征、档案信息特征和社交关系特征,从而实现用户立场的准确判定。本发明检测方法具有特征维度丰富、能够对“沉默用户”进行预测等优点。

Description

基于图注意力网络的多维度信息融合用户立场检测方法
技术领域
本发明涉及自然语言处理技术领域,具体为一种基于图注意力网络的多维度信息融合用户立场检测方法。
背景技术
随着互联网社交媒体的发展,社交网络已经变得无处不在,据《2022年全球数字概览》报告数据显示,社交媒体活跃用户占全球人口的58.4%,每人每天在不同平台上花费超过2.5小时。尽管社交媒体已经在世界各地无处不在,但社交媒体用户的数量仍在上升,2022年用户数量比去年增长了10.1%。不同的社交媒体网络为用户提供了各式各样的功能,如为相同爱好者创建社区,提供一个简单的方式来分享想法等。这些主流的社交媒体都向用户提供了分享内容和自己的观点的功能。而报告中的统计数据表明,29.5%的人使用社交媒体原因是了解媒体中谈论内容,24.5%是为了与他人分享和讨论意见,这为从社交媒体中分析用户立场提供了依据。
社交网络用户立场检测是自然语言处理领域和计算社会科学领域的交叉部分。自然语言处理领域主要内容是让计算机理解自然语言,计算社会科学领域则是利用大数据和社会在线活动来处理社会科学,以建模、分析社会行为关系及互动。用户立场是用户对某些话题所表达的“支持、反对或中立”意见,它是一个重要的话题,在政治、社会科学、用户行为分析和社交媒体分析等许多领域都有广泛的应用。在对公众意见调查方面,立场检测被认为能够更好地与公众舆论保持一致,可以看作是传统民意测度工具的替代或补充。通过对特定目标的立场分析,公司可以通过网络搜集民众意见,对产品进行改进升级,提高用户体验;监管机构可以识别恶意账号,肃清平台环境,提供风清气正的网络环境。
目前大多数研究工作都是使用用户的生成内容(推文或博文)进行立场预测,仅使用文本维度的特征作为依据。最新的研究加入了用户社交关系及用户的行为交互关系来辅助进行立场判定。但是目前的方法都存在相应的问题,仅使用文本维度特征需要大量已标注的数据集、忽略了用户言论的时间维度特征并且无法解决“沉默用户”问题;使用交互关系构图会遇到关系冗余,与目标无关的交互信息可能会影响检测的效果;同时也没有很好的利用到用户的档案信息,如用户的个人介绍,头像信息等。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于图注意力网络的多维度信息融合用户立场检测方法,分别获取用户言论、用户档案、用户社交关系三个维度的特征信息并进行融合,其具有特征维度丰富、能够对“沉默用户”进行预测等优点。技术方案如下:
一种基于图注意力网络的多维度信息融合用户立场检测方法,包括以下步骤:
步骤1:对推文数据进行预处理,采用公开的文本立场预测模型对全部推文信息进行预测,得到预测伪标签;
步骤2:构建文本立场检测模型,将所述预测伪标签与用户标签进行比较,标签一致的数据作为数据集,训练推文级立场检测模型;
通过多语言预训练模型LaBSE,将不同语言的词映射到同一个向量空间,将推文进行分句,通过预训练模型进行词嵌入和句嵌入,得到推文的表征向量;经过预训练模型编码后得到其特征向量,经过均值化处理后的目标信息特征向量与双向LSTM编码后的词嵌入向量拼接,再输入到线性变换函数计算得到每个字的权重系数,最终经过矩阵运算得到每个句子的语义特征表示向量和推文的全局语义表示特征;
步骤3:筛选用户与目标相关的S条推文,并按照时间排序得到文本序列,使用训练好的文本立场检测模型进行建模,得到推文向量隐藏层表示;然后通过双向GRU模块获取到第s个推文
Figure BDA0004017850080000031
的前向隐藏状态/>
Figure BDA0004017850080000032
和后向隐藏状态/>
Figure BDA0004017850080000033
最后的状态输出由/>
Figure BDA0004017850080000034
和/>
Figure BDA0004017850080000035
拼接而成,即
Figure BDA0004017850080000036
序列训练完成后得到最终用户言论信息特征VT
步骤4:对用户档案信息进行建模,个人简介内容通过多语言预训练语言LaBSE模型进行嵌入,头像信息同个人简介拼接后一起建模得到用户档案信息特征VP
步骤5:使用图注意力网络对用户多维度特征进行嵌入,得到包含邻居节点信息的邻居立场的用户立场表示VR
步骤6:将步骤3中得到的用户言论信息特征VT,与步骤4中得到的用户档案信息特征VP和步骤5聚合邻居信息得到的用户立场表示VR进行拼接得到最终向量表示R,R=[VT,VP,VR];通过前向反馈网络层,进行线性变换并输出整个模型的结果。
进一步的,所述步骤1具体包括:
步骤1.1:文本预处理:去除所采集推文中的无效信息,并将推文中的信息进行标准化;用相同含义的词替换推文中的表情,将标签还原为单词或短语;
步骤1.2:伪标签预测:采用公开的文本立场检测模型对预处理后的推文数据进行预测,采用在SemEval2016-Task6数据集上表现良好的分层注意力网络进行预测,得到全部推文的预测标签。
更近一步的,所述步骤1.1具体包括:
步骤1.1.1:表情释义:使用Python的第三方库emoji将表情符号所代表的情感替换为具有相似含义的词;
步骤1.1.2:标准化清洗:将推文中的URL、日期、邮箱信息统一替换为类别;
步骤1.1.3:标签分段:对于推文中带有由多个词组成的话题标签hashtag,对其中的词进行拆分,作为推文语义的一部分,用以提取话题标签的语义信息。
更近一步的,所述步骤2具体包括:
步骤2.1:将推文T进行分句,通过预训练模型进行词嵌入和句嵌入;模型输入为文本数据T={s1,…,si,…,sn},si表示推文中第i个句子,其中si={wi1,…,wij,…,wim},wij表示推文中第i个句子的第j个词;
步骤2.2:目标文本序列表示为t={t1,…tμ,…,tn},经过预训练模型编码后得到其特征向量
Figure BDA0004017850080000041
经过均值化处理后的目标信息特征向量/>
Figure BDA0004017850080000046
Figure BDA0004017850080000042
其中,tμ表示目标文本序列的第μ个词;
Figure BDA0004017850080000043
表示第μ个词的特征向量;n表示目标文本序列的长度;
步骤2.3:将目标信息特征向量
Figure BDA0004017850080000047
与双向LSTM编码后的词嵌入向量拼接,再输入到线性变换函数计算得到每个词的权重系数:
Figure BDA0004017850080000044
αij=W2·tanh(W1·w'ij+b1)+b2
α'ij=softmax(αij)
其中,
Figure BDA0004017850080000045
表示第i个句子的第j个词经过双向LSTM编码后的特征向量;w'ij表示词的特征向量与目标特征向量拼接后的结果;αij为权重系数的向量表示;W1,W2是权重矩阵,b1,b2为偏置项;tanh(·)为激活函数;softmax(·)表示对特征向量进行归一化;α'ij表示归一化后的权重系数;
步骤2.4:目标信息注意力赋予每个词不同权重,最终经过矩阵运算得到每个句子的语义特征表示向量
Figure BDA0004017850080000051
和推文的全局语义特征表示向量/>
Figure BDA0004017850080000052
Figure BDA0004017850080000053
Figure BDA0004017850080000054
其中,M为句子序列的长度,N为句子数量。
更近一步的,所述步骤5具体包括:
步骤5.1:构建用户社交关系网络,使用用户作为节点,社交关系作为边,用户言论信息特征VT和用户档案信息特征VP作为节点特征,构成一张有向同构社交图;
所述有向同构社交图表示为G=(V,E),V是用户节点的集合,E是边的集合;节点特征表示为
Figure BDA0004017850080000055
其中,H是节点的个数,F是节点特征的维度,fh为每个节点的特征;
步骤5.2:将用户言论信息特征VT和档案信息特征VP拼接得到节点h的节点特征fh
fh=[VT,VP]
步骤5.3:通过线性变换得到节点特征fh的高级表达
Figure BDA0004017850080000056
Figure BDA0004017850080000057
其中,W是权值矩阵,由用户言论信息特征VT和用户档案信息特征VP拼接得到,Zh为节点h变换后的特征表达,(l)表示这是对l层的计算;
步骤5.4:对节点h计算其每个一度邻居节点g的重要性,并使用ReLU(·)作为激活函数,得到注意力分数,并通过softmax(·)将注意力分数转化为概率;
Figure BDA0004017850080000061
Figure BDA0004017850080000062
其中,a是单层前馈神经网络,ehg是注意力分数代表节点g对节点h的重要性;αhg代表归一化后的注意力系数,zg为节点g变换后的特征表达;N(h)为节点h所有邻居节点集合;
步骤5.5:将注意力系数作为权重与节点特征计算加权平均数,并经过激活函数σ得到输出特征;
Figure BDA0004017850080000063
步骤5.6:对原始特征进行线性变换后与经过网络得到的注意力值堆叠得到输出特征:
Figure BDA0004017850080000064
其中,
Figure BDA0004017850080000065
表示第k组注意力机制进行计算得到的归一化权重系数,Wk是第k组注意力计算的权重矩阵;||表示拼接操作;fg节点g的节点特征;
使用单层图注意力网络,对于单个用户隐藏层输出表示为
Figure BDA0004017850080000066
M为注意力头数,/>
Figure BDA0004017850080000067
为残差,即/>
Figure BDA0004017850080000068
得到最终通过图注意力网络聚合邻居立场的用户立场表示VR
与现有技术相比,本发明的有益效果是:
1)本发明提出了一套基于用户生成内容、用户档案信息和用户社交关系信息三个维度信息融合的方式进行用户的立场检测方案,丰富了用于立场判定的特征,提升判定效果。
2)本发明提出了一种在仅有用户标签,缺乏文本标签的情况下,实现推文级的立场检测的解决方案:利用伪标签实现了从用户标签到推文标签的转换,避免了人工大量标注数据的工作。同时使用多语言预训练模型进行词嵌入操作,较好地解决了多语言问题。
3)本发明利用了用户推文的时间有序性,将推文按照时间序列进行嵌入得到推文立场随时间变化的序列,通过循环神经网络预测用户最新的立场结果。对比将用户全部推文拼接后进行摘要的方式,具有更好地可解释性。
4)本发明使用图注意力网络摆脱了拉普拉斯矩阵的束缚,更加适用于有向图计算。引入用户的社交关系,捕获邻居用户对自身立场的影响,提高检测的准确性,同时也能够对“沉默用户”进行预测。
附图说明
图1为本发明的用户立场检测框架图。
图2为本发明的文本级立场检测具体实施流程。
图3为本发明的用户档案信息处理具体实施流程。
图4为本发明的基于图注意力网络融合用户言论信息和用户档案信息以及用户社交关系信息的具体实施流程。
图5为本发明的用户立场检测模型结构图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步详细说明,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
如图1所示,本发明方法输入为用户言论信息、用户档案信息和用户社交关系信息,输出为用户立场检测结果。首先对数据集进行分类处理:对全部推文数据进行文本预处理,包括表情释义、标准化清洗、标签分段等操作,然后利用现有模型预测伪标签并与用户标签比对,构建标注的文本数据集,用于训练文本立场检测模型,使用训练好的模型对用户文本序列进行建模;对用户档案信息进行处理,使用百度OCR对用户头像中的文本信息进行识别,然后与用户个人简介信息拼接后使用预训练模型进行建模;对用户社交关系数据构建关系图,将用户言论信息和档案信息作为节点的特征,基于图注意力网络进行信息融合,得到用户最终的向量表示,进行用户立场检测模型的训练。详述如下:
步骤1:对推文数据进行预处理,采用公开的文本立场预测模型对全部推文信息进行预测,得到伪标签。
1)文本预处理;本发明的文本预处理主要包括表情释义、标准化清洗、标签分段等。去除所采集推文中的特殊标点符号等无效信息,并将推文中的各类信息进行标准化。推文中的表情被具有相同含义的词替换,标签被还原为单词或短语。此外,URL、用户名等被按类统一标识。
a)表情释义
推文往往含有大量表情符号,其中蕴含了丰富的情感信息。情感信息对文本的立场检测有十分重要的参考价值,使用Python的第三方库emoji将表情所代表的情感替换为具有相似含义的词。
b)标准化清洗
推文中的URL、日期、邮箱信息等与文本内容区别较大,可能会对语言产生影响,将这些内容统一替换为类别,如URL替换为<http>、日期替换为<datetime>、邮箱信息替换为<email>。
c)标签分段
推文中往往会带有由多个词组成的话题标签hashtag,为了更好的提取话题标签的语义信息,对hashtag中的词进行拆分,作为推文语义的一部分。使用Python的第三方库ekphrasis进行实现。
2)伪标签预测:采用公开的文本立场检测模型对预处理后的推文数据进行预测,采用在SemEval2016-Task6数据集上表现良好的分层注意力网络进行预测,得到全部推文的预测标签。
步骤2:构建文本立场检测模型,构建已标注的数据集,训练推文级立场检测模型。
1)数据集构建。将步骤1中得到的预测标签与推文对应的用户标签进行比对,标签一致的数据作为有标签的数据,加入到数据集中,用于文本检测模型的训练。解决了在只有用户标签,没有推文标签的情况下,用户标签到推文标签的转换,避免了对推文数据标注的人工成本,提高效率。构建出已标注的推文数据集,按照6:2:2的比例划分训练集、验证集和测试集。
2)模型构建与训练。文本立场检测模型的框架包括三个部分,词嵌入、目标注意力和全局语义表征。在词嵌入时使用多语言预训练模型LaBSE,将不同语言的词映射到同一个向量空间。通过模型对推文进行建模,文本数据全局语义表征获取过程如下:
a)将推文T进行分句,通过预训练模型进行词嵌入和句嵌入。模型输入为文本数据T={s1,…,si,…,sn},si表示推文中第i个句子,其中si={wi1,…,wij,…,wim},wij表示推文中第i个句子的第j个词。
b)目标文本序列表示为t={t1,…tμ,…,tn},经过预训练模型编码后得到其特征向量
Figure BDA0004017850080000091
经过均值化处理后的目标信息特征向量/>
Figure BDA0004017850080000094
Figure BDA0004017850080000092
c)将目标信息特征向量
Figure BDA0004017850080000095
与双向LSTM编码后的词嵌入向量拼接,再输入到线性变换函数计算得到每个字的权重系数。
Figure BDA0004017850080000093
αij=W2·tanh(W1·w'ij+b1)+b2
α'ij=softmax(αij)
其中
Figure BDA0004017850080000101
表示第i个句子的第j个词经过双向LSTM编码后的特征向量;αij为权重系数;W1,W2是权重矩阵,b1,b2为偏置项;
d)目标信息注意力赋予每个词不同权重,最终经过矩阵运算得到每个句子的语义特征表示向量和推文的全局语义特征表示向量
Figure BDA0004017850080000102
Figure BDA0004017850080000103
Figure BDA0004017850080000104
其中M为句子序列的长度,N为句子数量。经过计算最终得到句子i的表征向量为
Figure BDA0004017850080000105
推文的全局语义特征表示为/>
Figure BDA00040178500800001010
e)模型的输出层由全连接层和softmax(·)函数组成,推文的最终表示
Figure BDA0004017850080000106
通过全连接层的函数计算后,再经过softmax(·)层输出立场类别的概率p。
Figure BDA0004017850080000107
其中,WT,bT分别为权重矩阵和偏置项,通过训练得到。模型选用交叉熵损失函数来进行训练:
Figure BDA0004017850080000108
其中,p,q表示训练集数据的索引和立场分类索引,输入参数为推文文本Tp、推文的真实标签yp以及对不同立场类别预测
Figure BDA0004017850080000109
函数fq表示文本立场检测模型,λ||θ||2表示L2正则化项。
f)多语言预训练模型LaBSE冻结所有层参数仅作为编码器使用,隐藏层参数使用Xavier正态分布进行初始化,然后使用推文数据集进行模型的训练。
文本级立场检测的实施流程如图2所示,通过步骤1和步骤2实现了文本立场检测模型的构建与训练,用于后续用户言论信息特征的建模。
基于图注意力网络进行多维度信息融合的过程如图4所示,首先通过步骤3获取用户的时序言论信息特征,然后通过步骤4获取用户的档案信息特征,最后通过步骤5构建用户的社交关系网络,并将言论特征与档案特征拼接后作为节点特征,基于图注意力网络进行邻居节点信息的聚合,得到包含邻居节点信息的用户节点表示。获取用户各维度信息的具体步骤如下:
步骤3:筛选用户与目标相关的S条推文,并按照时间排序得到文本序列Seq={T1,…,Ts,…,TS},使用步骤2训练好的模型进行建模,得到推文向量隐藏层表示
Figure BDA0004017850080000111
然后通过双向GRU模块获取到第s个推文/>
Figure BDA0004017850080000112
的前向隐藏状态/>
Figure BDA0004017850080000113
和后向隐藏状态/>
Figure BDA0004017850080000114
Figure BDA0004017850080000115
最后的状态输出由
Figure BDA0004017850080000116
和/>
Figure BDA0004017850080000117
拼接而成,即/>
Figure BDA0004017850080000118
序列训练完成后得到最终用户言论信息特征VT
Figure BDA0004017850080000119
步骤4:对用户档案信息进行建模。如图3所示,首先安装baidu-aip库,调用AipOcr对全部用户的头像进行文本识别,得到头像中的文本信息;然后与个人简介内容进行拼接,如识别结果中不包含文字信息则仅使用个人简介信息,通过多语言预训练语言LaBSE模型进行嵌入。在使用预训练模型LaBSE时冻结全部参数,作为编码器使用。得到用户档案信息特征VP
步骤5:使用图注意力网络对用户多维度特征进行嵌入,得到包含邻居节点信息的用户节点表示。图注意力网络不依赖拉普拉斯矩阵,它在聚合节点特征时使用注意力机制计算节点权重而非卷积运算,适用于社交网络中的图表示。在计算时每次都遍历图上的节点,对于每个节点计算该节点与邻接节点的注意力分数,摆脱了拉普拉斯矩阵的束缚,更适用于有向图计算。
1)构建用户社交关系网络,使用用户作为节点,社交关系作为边,用户的言论信息和档案信息作为节点特征,构成一张有向同构社交图。在构建时需要进行节点及关系的去重,保证用户节点和边的唯一性,同时为每个节点添加自环。
社交图可以表示为G=(V,E),V是用户节点的集合,E是边的集合。节点特征可以表示为
Figure BDA0004017850080000121
其中H是节点的个数,F是节点特征的维度,fh为每个节点的特征,由步骤3和步骤4得到的用户言论信息特征VT和档案信息特征VP拼接得到:
fh=[VT,VP]
2)通过图注意力网络进行邻居信息的聚合。首先通过线性变换得到节点特征fh的高级表达
Figure BDA0004017850080000122
Figure BDA0004017850080000123
/>
其中,W是权值矩阵,Zh为变换后的特征表达,(l)表示这是对l层的计算。
然后对节点h计算其每个一度邻居节点g的重要性,并使用ReLU()作为激活函数,得到注意力分数,并通过softmax()将注意力分数转化为概率:
Figure BDA0004017850080000124
Figure BDA0004017850080000125
其中,a是单层前馈神经网络,ehg是注意力分数代表节点g对节点h的重要性;αhg代表归一化后的注意力系数,zg为节点g变换后的特征表达;N(h)为节点h所有邻居节点集合。
得到注意力系数之后,将其作为权重与节点特征计算加权平均数,并经过激活函数σ得到输出特征:
Figure BDA0004017850080000131
多头注意力机制可以获取更加丰富的用户表示,可以提高图注意力网络的泛化能力。对输入特征进行K次独立的注意力计算,为了减少网络对原始特征的影响,对原始特征进行线性变换后与经过网络得到的注意力值堆叠得到输出特征:
Figure BDA0004017850080000132
其中,
Figure BDA0004017850080000133
表示第k组注意力机制进行计算得到的归一化权重系数,Wk是第k组注意力计算的权重矩阵。使用单层图注意力网络,并设置八个注意力头,隐藏层尺寸设置为768。对于单个用户该层输出表示为/>
Figure BDA0004017850080000134
M为注意力头数,/>
Figure BDA0004017850080000135
为残差,即
Figure BDA0004017850080000136
得到最终通过图注意力网络聚合了邻居立场的用户立场表示VR
步骤6:如图4所示为用户立场检测模型架构图,将步骤3中得到的用户言论信息特征VT,与步骤4中得到的用户档案信息特征VP和步骤5聚合邻居信息得到的用户立场表示VR进行拼接得到最终向量表示R,R=[VT,VP,VR]。通过前向反馈网络层,进行线性变换并输出整个模型的结果。该层包含一个ReLU激活函数和一个线性层。该层的计算方式如下:
F(R)=max(0,R)W+b
其中,W为全连接层的权重,b为偏置。损失函数采用交叉熵损失函数,Loss的计算方式如下:
Figure BDA0004017850080000137
其中,yρ为用户的真实标签,
Figure BDA0004017850080000138
为用户的预测标签。
在用户社交图构建完成后,对用户数据集按照7:3比例划分训练集和测试集。在实际的预测过程中,用户的言论信息和档案信息可能是未知,所以将测试集中的相关信息移除,在进行训练时其节点特征不再通过步骤3和步骤4获取,而是设置为默认值。在预测时,则通过步骤3和步骤4获取用户的言论和档案信息特征,进行节点的预测。同时也可以仅使用步骤4获取的档案信息,不使用言论信息,将用户作为“沉默用户”进行预测。
在训练时独立重复10次计算其平均结果。单次训练中模型的轮次Epoch设置为50,批大小Batch Size设置为32,学习率设置为0.01,优化器采用Adam优化器。每个Epoch结束计算其F1值,若连续10个Epoch训练的F1值不再增加则提前结束训练。

Claims (5)

1.一种基于图注意力网络的多维度信息融合用户立场检测方法,其特征在于,包括以下步骤:
步骤1:对推文数据进行预处理,采用公开的文本立场预测模型对全部推文信息进行预测,得到预测伪标签;
步骤2:构建文本立场检测模型,将所述预测伪标签与用户标签进行比较,标签一致的数据作为数据集,训练推文级立场检测模型;
通过多语言预训练模型LaBSE,将不同语言的词映射到同一个向量空间,将推文进行分句,通过预训练模型进行词嵌入和句嵌入,得到推文的表征向量;经过预训练模型编码后得到其特征向量,经过均值化处理后的目标信息特征向量与双向LSTM编码后的词嵌入向量拼接,再输入到线性变换函数计算得到每个字的权重系数,最终经过矩阵运算得到每个句子的语义特征表示向量和推文的全局语义表示特征;
步骤3:筛选用户与目标相关的S条推文,并按照时间排序得到文本序列,使用训练好的文本立场检测模型进行建模,得到推文向量隐藏层表示;然后通过双向GRU模块获取到第s个推文
Figure FDA0004017850070000011
的前向隐藏状态/>
Figure FDA0004017850070000012
和后向隐藏状态/>
Figure FDA0004017850070000013
最后的状态输出由/>
Figure FDA0004017850070000014
和/>
Figure FDA0004017850070000015
拼接而成,即
Figure FDA0004017850070000016
序列训练完成后得到最终用户言论信息特征VT
步骤4:对用户档案信息进行建模,个人简介内容通过多语言预训练语言LaBSE模型进行嵌入,头像信息同个人简介拼接后一起建模得到用户档案信息特征VP
步骤5:使用图注意力网络对用户多维度特征进行嵌入,得到包含邻居节点信息的邻居立场的用户立场表示VR
步骤6:将步骤3中得到的用户言论信息特征VT,与步骤4中得到的用户档案信息特征VP和步骤5聚合邻居信息得到的用户立场表示VR进行拼接得到最终向量表示R,R=[VT,VP,VR];通过前向反馈网络层,进行线性变换并输出整个模型的结果。
2.根据权利要求1所述的基于图注意力网络的多维度信息融合用户立场检测方法,其特征在于,所述步骤1具体包括:
步骤1.1:文本预处理:去除所采集推文中的无效信息,并将推文中的信息进行标准化;用相同含义的词替换推文中的表情,将标签还原为单词或短语;
步骤1.2:伪标签预测:采用公开的文本立场检测模型对预处理后的推文数据进行预测,采用在SemEval2016-Task6数据集上表现良好的分层注意力网络进行预测,得到全部推文的预测标签。
3.根据权利要求2所述的基于图注意力网络的多维度信息融合用户立场检测方法,其特征在于,所述步骤1.1具体包括:
步骤1.1.1:表情释义:使用Python的第三方库emoji将表情符号所代表的情感替换为具有相似含义的词;
步骤1.1.2:标准化清洗:将推文中的URL、日期、邮箱信息统一替换为类别;
步骤1.1.3:标签分段:对于推文中带有由多个词组成的话题标签hashtag,对其中的词进行拆分,作为推文语义的一部分,用以提取话题标签的语义信息。
4.根据权利要求1所述的基于图注意力网络的多维度信息融合用户立场检测方法,其特征在于,所述步骤2具体包括:
步骤2.1:将推文T进行分句,通过预训练模型进行词嵌入和句嵌入;模型输入为文本数据T={s1,…,si,…,sn},si表示推文中第i个句子,其中si={wi1,…,wij,…,wim},wij表示推文中第i个句子的第j个词;
步骤2.2:目标文本序列表示为t={t1,…tμ,…,tn},经过预训练模型编码后得到其特征向量
Figure FDA0004017850070000031
经过均值化处理后的目标信息特征向量/>
Figure FDA0004017850070000032
Figure FDA0004017850070000033
其中,tμ表示目标文本序列的第μ个词;
Figure FDA0004017850070000034
表示第μ个词的特征向量;n表示目标文本序列的长度;
步骤2.3:将目标信息特征向量
Figure FDA0004017850070000035
与双向LSTM编码后的词嵌入向量拼接,再输入到线性变换函数计算得到每个词的权重系数:
Figure FDA0004017850070000036
αij=W2·tanh(W1·w'ij+b1)+b2
α'ij=softmax(αij)
其中,
Figure FDA0004017850070000037
表示第i个句子的第j个词经过双向LSTM编码后的特征向量;w'ij表示词的特征向量与目标特征向量拼接后的结果;αij为权重系数的向量表示;W1,W2是权重矩阵,b1,b2为偏置项;tanh(·)为激活函数;softmax(·)表示对特征向量进行归一化;α'ij表示归一化后的权重系数;
步骤2.4:目标信息注意力赋予每个词不同权重,最终经过矩阵运算得到每个句子的语义特征表示向量
Figure FDA0004017850070000038
和推文的全局语义特征表示向量/>
Figure FDA0004017850070000039
Figure FDA00040178500700000310
Figure FDA00040178500700000311
其中,M为句子序列的长度,N为句子数量。
5.根据权利要求1所述的基于图注意力网络的多维度信息融合用户立场检测方法,其特征在于,所述步骤5具体包括:
步骤5.1:构建用户社交关系网络,使用用户作为节点,社交关系作为边,用户言论信息特征VT和用户档案信息特征VP作为节点特征,构成一张有向同构社交图;
所述有向同构社交图表示为G=(V,E),V是用户节点的集合,E是边的集合;节点特征表示为
Figure FDA0004017850070000041
其中,H是节点的个数,F是节点特征的维度,fh为每个节点的特征;
步骤5.2:将用户言论信息特征VT和档案信息特征VP拼接得到节点h的节点特征fh
fh=[VT,VP]
步骤5.3:通过线性变换得到节点特征fh的高级表达
Figure FDA0004017850070000042
Figure FDA0004017850070000043
/>
其中,W是权值矩阵,由用户言论信息特征VT和用户档案信息特征VP拼接得到,Zh为节点h变换后的特征表达,(l)表示这是对l层的计算;
步骤5.4:对节点h计算其每个一度邻居节点g的重要性,并使用ReLU(·)作为激活函数,得到注意力分数,并通过softmax(·)将注意力分数转化为概率;
Figure FDA0004017850070000044
Figure FDA0004017850070000045
其中,a是单层前馈神经网络,ehg是注意力分数代表节点g对节点h的重要性;αhg代表归一化后的注意力系数,zg为节点g变换后的特征表达;N(h)为节点h所有邻居节点集合;e是注意力分数代表节点τ对节点h的重要性;
步骤5.5:将注意力系数作为权重与节点特征计算加权平均数,并经过激活函数σ得到输出特征;
Figure FDA0004017850070000046
步骤5.6:对原始特征进行线性变换后与经过网络得到的注意力值堆叠得到输出特征:
Figure FDA0004017850070000051
其中,
Figure FDA0004017850070000052
表示第k组注意力机制进行计算得到的归一化权重系数,Wk是第k组注意力计算的权重矩阵;||表示拼接操作;fg节点g的节点特征;
使用单层图注意力网络,对于单个用户隐藏层输出表示为
Figure FDA0004017850070000053
M为注意力头数,/>
Figure FDA0004017850070000054
为残差,即/>
Figure FDA0004017850070000055
得到最终通过图注意力网络聚合邻居立场的用户立场表示VR。/>
CN202211678006.5A 2022-12-26 2022-12-26 基于图注意力网络的多维度信息融合用户立场检测方法 Pending CN116245110A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211678006.5A CN116245110A (zh) 2022-12-26 2022-12-26 基于图注意力网络的多维度信息融合用户立场检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211678006.5A CN116245110A (zh) 2022-12-26 2022-12-26 基于图注意力网络的多维度信息融合用户立场检测方法

Publications (1)

Publication Number Publication Date
CN116245110A true CN116245110A (zh) 2023-06-09

Family

ID=86623368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211678006.5A Pending CN116245110A (zh) 2022-12-26 2022-12-26 基于图注意力网络的多维度信息融合用户立场检测方法

Country Status (1)

Country Link
CN (1) CN116245110A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117422530A (zh) * 2023-12-19 2024-01-19 深圳华强电子交易网络有限公司 电子元器件信息推送方法、装置及电子设备
CN117725210A (zh) * 2023-11-16 2024-03-19 南京审计大学 一种面向社会化问答平台的恶意用户检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117725210A (zh) * 2023-11-16 2024-03-19 南京审计大学 一种面向社会化问答平台的恶意用户检测方法
CN117422530A (zh) * 2023-12-19 2024-01-19 深圳华强电子交易网络有限公司 电子元器件信息推送方法、装置及电子设备
CN117422530B (zh) * 2023-12-19 2024-03-26 深圳华强电子交易网络有限公司 电子元器件信息推送方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN107608956B (zh) 一种基于cnn-grnn的读者情绪分布预测算法
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN111160037B (zh) 一种支持跨语言迁移的细粒度情感分析方法
CN111401061A (zh) 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
CN110347836B (zh) 融入观点句特征的汉越双语新闻情感分类方法
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
CN116245110A (zh) 基于图注意力网络的多维度信息融合用户立场检测方法
CN110046356B (zh) 标签嵌入的微博文本情绪多标签分类方法
CN110472245B (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
CN111984791B (zh) 一种基于注意力机制的长文分类方法
CN111639176B (zh) 一种基于一致性监测的实时事件摘要方法
CN112069320B (zh) 一种基于跨度的细粒度情感分析方法
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN113094502A (zh) 一种多粒度外卖用户评论情感分析方法
CN115935975A (zh) 一种情感可控的新闻评论生成方法
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN113360659A (zh) 一种基于半监督学习的跨领域情感分类方法及系统
CN115906816A (zh) 一种基于Bert的双通道Attention模型的文本情感分析方法
CN115292568B (zh) 一种基于联合模型的民生新闻事件抽取方法
CN112287240A (zh) 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置
CN115129807A (zh) 基于自注意的社交媒体主题评论的细粒度分类方法及系统
Nithya et al. Deep learning based analysis on code-mixed tamil text for sentiment classification with pre-trained ulmfit
CN114416991A (zh) 一种基于prompt的文本情感原因分析方法和系统
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination