CN111274491A - 一种基于图注意力网络的社交机器人识别方法 - Google Patents

一种基于图注意力网络的社交机器人识别方法 Download PDF

Info

Publication number
CN111274491A
CN111274491A CN202010044446.XA CN202010044446A CN111274491A CN 111274491 A CN111274491 A CN 111274491A CN 202010044446 A CN202010044446 A CN 202010044446A CN 111274491 A CN111274491 A CN 111274491A
Authority
CN
China
Prior art keywords
network
graph
social
account
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010044446.XA
Other languages
English (en)
Other versions
CN111274491B (zh
Inventor
颜成钢
阮定
孙垚棋
张继勇
张勇东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202010044446.XA priority Critical patent/CN111274491B/zh
Publication of CN111274491A publication Critical patent/CN111274491A/zh
Application granted granted Critical
Publication of CN111274491B publication Critical patent/CN111274491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供本发明一种基于图注意力网络的社交机器人识别方法。本发明方法基于图注意力网络,通过对社交网络上发布的内容进行自然语言处理构建节点特征,各社交账号之间的转发、评论关系来构建图,然后进行分类,从而判断出该账号是否为社交机器人。首先社交网络数据,进行数据集的创建,然后构建图注意力网络,通过创建的数据集进行图注意力网络的训练和测试。针对复杂的社交网络机器人识别问题,本发明方法能够自动高效的识别社交机器人,减少不法分子的可乘之机,从而限制机器人发布的言论,削弱不良社会舆论影响,有利于维护社会和谐稳定。

Description

一种基于图注意力网络的社交机器人识别方法
技术领域
本发明涉及图注意力网络的应用领域,具体涉及基于图注意力网络节点分类技术及其实际应用于社交网络的领域。
背景技术
近年来,随着社交网络的发展,个人可以充分地在网络上发出自己的声音,但也让不法分子有了可乘之机,在网上肆意发布不良内容。尤其是在充斥着大量水军,僵尸粉的微博上,社交机器人可以发布大量的内容从而影响舆论导向,所以需要一个系统能够识别出社交机器人,控制机器人发布的言论带来的社会影响。
在计算机科学中,图是由顶点和边两部分组成的一种数据结构。图G可以通过顶点集合V和它包含的边E来描述,即:
G=(V,E) (1)
顶点也称节点,两个术语是可以互换的。
图注意力网络是一种直接作用于图上的神经网络。GAT的一个典型作用是节点分类。本质上,图中每个节点都与一个标签相关联,通过图注意力网络就能够预测未标记节点的标签。
图注意力网络采用多头注意力机制,相较图卷积神经网络能够更准确地对各节点进行分类。而且其注意力机制更适用于拥有不同的度和不同权重的边的社交网络,最重要的是这一算法可直接用于归纳学习问题。
而在社交网络中,社交机器人所发送内容大体相同,可以利用自然语言处理获取每个社交机器人的特征,然后通过转发、评论关系构建图,获取这样的数据集后,就可以利用图注意力网络对节点进行分类。
发明内容
针对现有技术存在的不足,本发明提供本发明一种基于图注意力网络的社交机器人识别方法。本发明方法基于图注意力网络,通过对社交网络上发布的内容进行自然语言处理构建节点特征,各社交账号之间的转发、评论关系来构建图,然后进行分类,从而判断出该账号是否为社交机器人。
一种基于图注意力网络的社交机器人识别方法,步骤如下:
步骤(1)、搜集社交网络数据。
人工搜集一段时间内社交平台上部分账号发布的内容,以及各账号之间的评论关系。对社交平台上某一账号发布的内容进行记录,搜集该条内容下的评论账号发布的实质性评论内容以及评论的评论。同时根据账号所发布的内容及评论关系判断该账号是否为机器人。
步骤(2)、创建数据集。
对所有搜集到的账号发布的实质性内容进行自然语言处理获取特征,各个账号作为图的顶点,账号间的评论关系形成图的边,并对每个账号都注明是否为机器人,由此形成数据集。将数据集分为两个部分,第一部分包括账号的ID,特征和类别,第二部分为各账号之间的评论关系。其中训练集,验证集和测试集所占比例约为6:2:2。
步骤(3)、构建图注意力网络
将各账号也就是节点的特征
Figure BDA0002368877810000021
作为输入,输入图注意力算法的网络中,其中N是节点数量。
Figure BDA0002368877810000022
是网络输出。注意力系数为
Figure BDA0002368877810000023
其中W∈RF′×F,是权重矩阵,a为共享注意力机制:RF′×RF→R。为了能够获得结构信息,所以仅计算节点i的一阶邻域内的节点的注意力系数,即eij中的j∈Ni,Ni是节点i在图中的一阶邻域。该一阶邻域由数据集第二部分构建的图获得。使用LeakyReLU对其非线性化,然后使用softmax进行规范化,最后得到的注意力系数为
Figure BDA0002368877810000024
其中,·T代表转置,||表示连接操作。
然后引入多头注意力机制,得到最终输出。
Figure BDA0002368877810000031
其中K为多头注意力机制中的头数,可根据实际情况进行选择。σ为非线性激活函数ELU。
最后对得到的
Figure BDA0002368877810000032
使用log_softmax函数就可得到结果。
步骤(4)、训练图注意力网络
用图注意力网络进行训练。按照步骤(2)所述的比例选取训练集和验证集。采用Adam优化器,nll损失函数。在验证过程中将正确率最高的网络参数保存下来。
步骤(5)、图注意力网络的测试
训练完成后,将测试集输入在步骤(4)中保存下来的网络中即可得到测试结果,可以用来判断社交网络账号是否为机器人。
本发明有益成果如下:
针对复杂的社交网络机器人识别问题,该方法能够自动高效的识别社交机器人,减少不法分子的可乘之机,从而限制机器人发布的言论,削弱不良社会舆论影响,有利于维护社会和谐稳定。
附图说明
图1为本发明系统运行流程图;
图2为本发明中的社交网络示意图。
具体实施方式
以下结合附图及实施例,对本发明进一步详细说明。
实施例1:
如图1所示,本发明的社交机器人识别方法,步骤如下:
步骤(1)、搜集微博上一天之内部分用户发布的某一条内容以及相互的评论关系,账号数量大约为3000个。对社交平台上某一账号发布的内容进行记录,同时搜集该条内容下的评论账号发布的实质性评论内容以及评论的评论。同时根据账号所发布的内容及评论关系判断该账号是否为机器人。
图2为本发明中的社交网络示意图。
步骤(2)、对所有搜集到的账号发布的实质性内容进行自然语言处理,获得数据集。首先去除“的”“是”等高频词汇。然后选取约1500个常用词汇,按一定顺序排列。若该词汇在某一内容中重复出现超过两次,则在对应位置记为1,否则为0。最终对每一条内容形成一个1*1500的向量,也就是每一个账号的特征
Figure BDA0002368877810000046
给每个账号赋予独一无二的ID,通过账号间的评论关系构建关系网络。一个账号为图中的一个节点,评论形成图中的边,忽略重复的转发评论,评论所形成的无向边权重为1。根据账号所发布内容进行分类,判别每个账号是否为机器人。将数据集分为两个部分,第一部分包括账号的ID,特征和类别,第二部分为各账号之间的评论关系。其中训练集,验证集和测试集所占比例约为6:2:2。
步骤(3)、构建图注意力网络,在获得的数据集上使用图注意力算法。首先读入第二部分数据集,获得图的邻接矩阵。然后读入第一部分数据集,将各节点特征
Figure BDA0002368877810000041
作为输入,输入图注意力算法的网络中,其中N是节点数量。
Figure BDA0002368877810000042
是网络输出。注意力系数为
Figure BDA0002368877810000043
其中W∈RF′×F,是权重矩阵,a为共享注意力机制:RF′×RF→R。为了能够获得结构信息,所以仅计算节点i的一阶邻域内的节点的注意力系数,即eij中的j∈Ni,Ni是节点i在图中的一阶邻域。使用LeakyReLU对其非线性化,然后使用softmax进行规范化,最后得到的注意力系数为
Figure BDA0002368877810000044
其中,·T代表转置,||表示连接操作。
然后引入多头注意力机制,得到最终输出。
Figure BDA0002368877810000045
Figure BDA0002368877810000051
其中K为多头注意力机制中的头数,可根据实际情况进行选择,如选择8。σ为非线性激活函数ELU。
步骤(4)、按照步骤(2)所述的比例选取训练集和验证集。采用Adam优化器,dropout概率为0.6,nll损失函数,LeakyReLU的参数为0.2。在验证过程中将正确率最高的网络参数保存下来。
步骤(5)、将测试集输入在步骤4中保存下来的网络中,对得到的输出
Figure BDA0002368877810000052
使用log_softmax函数就可判断出在这些账号中的社交机器人是哪些。

Claims (1)

1.一种基于图注意力网络的社交机器人识别方法,其特征在于,步骤如下:
步骤(1)、搜集社交网络数据;
人工搜集一段时间内社交平台上部分账号发布的内容,以及各账号之间的评论关系;对社交平台上某一账号发布的内容进行记录,搜集该条内容下的评论账号发布的实质性评论内容以及评论的评论;同时根据账号所发布的内容及评论关系判断该账号是否为机器人;
步骤(2)、创建数据集;
对所有搜集到的账号发布的实质性内容进行自然语言处理获取特征,各个账号作为图的顶点,账号间的评论关系形成图的边,并对每个账号都注明是否为机器人,由此形成数据集;将数据集分为两个部分,第一部分包括账号的ID,特征和类别,第二部分为各账号之间的评论关系;其中训练集,验证集和测试集所占比例约为6:2:2;
步骤(3)、构建图注意力网络
将各账号也就是节点的特征
Figure FDA0002368877800000011
作为输入,输入图注意力算法的网络中,其中N是节点数量;
Figure FDA0002368877800000012
是网络输出;注意力系数为
Figure FDA0002368877800000013
其中W∈RF×F,是权重矩阵,a为共享注意力机制:RF×RF→R;为了能够获得结构信息,所以仅计算节点i的一阶邻域内的节点的注意力系数,即eij中的j∈Ni,Ni是节点i在图中的一阶邻域;该一阶邻域由数据集第二部分构建的图获得;使用LeakyReLU对其非线性化,然后使用softmax进行规范化,最后得到的注意力系数为
Figure FDA0002368877800000014
其中,·T代表转置,||表示连接操作;
然后引入多头注意力机制,得到最终输出;
Figure FDA0002368877800000021
其中K为多头注意力机制中的头数,可根据实际情况进行选择;σ为非线性激活函数ELU;
最后对得到的
Figure FDA0002368877800000022
使用log_softmax函数就可得到结果;
步骤(4)、训练图注意力网络
用图注意力网络进行训练;按照步骤(2)所述的比例选取训练集和验证集;采用Adam优化器,nll损失函数;在验证过程中将正确率最高的网络参数保存下来;
步骤(5)、图注意力网络的测试
训练完成后,将测试集输入在步骤(4)中保存下来的网络中即可得到测试结果,可以用来判断社交网络账号是否为机器人。
CN202010044446.XA 2020-01-15 2020-01-15 一种基于图注意力网络的社交机器人识别方法 Active CN111274491B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010044446.XA CN111274491B (zh) 2020-01-15 2020-01-15 一种基于图注意力网络的社交机器人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010044446.XA CN111274491B (zh) 2020-01-15 2020-01-15 一种基于图注意力网络的社交机器人识别方法

Publications (2)

Publication Number Publication Date
CN111274491A true CN111274491A (zh) 2020-06-12
CN111274491B CN111274491B (zh) 2021-04-06

Family

ID=71001633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010044446.XA Active CN111274491B (zh) 2020-01-15 2020-01-15 一种基于图注意力网络的社交机器人识别方法

Country Status (1)

Country Link
CN (1) CN111274491B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782765A (zh) * 2020-06-24 2020-10-16 安徽农业大学 一种基于图注意力机制的推荐方法
CN111881665A (zh) * 2020-09-27 2020-11-03 华南师范大学 词嵌入表示方法、装置及设备
CN112036418A (zh) * 2020-09-04 2020-12-04 京东数字科技控股股份有限公司 用于提取用户特征的方法和装置
CN112685614A (zh) * 2021-03-17 2021-04-20 中国电子科技集团公司第三十研究所 一种社交媒体机器人群体快速检测方法
CN113010683A (zh) * 2020-08-26 2021-06-22 齐鲁工业大学 基于改进图注意力网络的实体关系识别方法及系统
CN113919440A (zh) * 2021-10-22 2022-01-11 重庆理工大学 一种融合双重注意力机制和图卷积社交网络谣言检测系统
CN115952453A (zh) * 2022-12-23 2023-04-11 中国电子产业工程有限公司 一种社交媒体机器人的识别方法、装置、设备及存储介质
CN116628358A (zh) * 2023-05-30 2023-08-22 青海师范大学 基于多视图Graph Transformer的社交机器人检测系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778186A (zh) * 2013-12-31 2014-05-07 南京财经大学 一种“网络马甲”的检测方法
WO2014138984A1 (en) * 2013-03-15 2014-09-18 Nudata Security Inc. Systems and methods for assessing security risk
CN109213858A (zh) * 2017-06-19 2019-01-15 中国科学院信息工程研究所 一种网络水军的自动识别方法及系统
CN109902183A (zh) * 2019-02-13 2019-06-18 北京航空航天大学 一种基于多样图注意力机制的知识图谱嵌入方法
CN110210540A (zh) * 2019-05-22 2019-09-06 山东大学 基于注意力机制的跨社交媒体用户身份识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014138984A1 (en) * 2013-03-15 2014-09-18 Nudata Security Inc. Systems and methods for assessing security risk
CN103778186A (zh) * 2013-12-31 2014-05-07 南京财经大学 一种“网络马甲”的检测方法
CN109213858A (zh) * 2017-06-19 2019-01-15 中国科学院信息工程研究所 一种网络水军的自动识别方法及系统
CN109902183A (zh) * 2019-02-13 2019-06-18 北京航空航天大学 一种基于多样图注意力机制的知识图谱嵌入方法
CN110210540A (zh) * 2019-05-22 2019-09-06 山东大学 基于注意力机制的跨社交媒体用户身份识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZIQI LIU等: ""Heterogeneous Graph Neural Networks for Malicious Account Detection"", 《PROCEEDINGS OF THE 27TH ACM INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 *
顾杰: ""社交网络账号的智能分类方法"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782765A (zh) * 2020-06-24 2020-10-16 安徽农业大学 一种基于图注意力机制的推荐方法
CN113010683A (zh) * 2020-08-26 2021-06-22 齐鲁工业大学 基于改进图注意力网络的实体关系识别方法及系统
CN113010683B (zh) * 2020-08-26 2022-11-29 齐鲁工业大学 基于改进图注意力网络的实体关系识别方法及系统
CN112036418A (zh) * 2020-09-04 2020-12-04 京东数字科技控股股份有限公司 用于提取用户特征的方法和装置
CN111881665A (zh) * 2020-09-27 2020-11-03 华南师范大学 词嵌入表示方法、装置及设备
CN111881665B (zh) * 2020-09-27 2021-01-05 华南师范大学 词嵌入表示方法、装置及设备
CN112685614A (zh) * 2021-03-17 2021-04-20 中国电子科技集团公司第三十研究所 一种社交媒体机器人群体快速检测方法
CN112685614B (zh) * 2021-03-17 2021-06-18 中国电子科技集团公司第三十研究所 一种社交媒体机器人群体快速检测方法
CN113919440A (zh) * 2021-10-22 2022-01-11 重庆理工大学 一种融合双重注意力机制和图卷积社交网络谣言检测系统
CN115952453A (zh) * 2022-12-23 2023-04-11 中国电子产业工程有限公司 一种社交媒体机器人的识别方法、装置、设备及存储介质
CN116628358A (zh) * 2023-05-30 2023-08-22 青海师范大学 基于多视图Graph Transformer的社交机器人检测系统及方法
CN116628358B (zh) * 2023-05-30 2024-04-12 青海师范大学 基于多视图Graph Transformer的社交机器人检测系统及方法

Also Published As

Publication number Publication date
CN111274491B (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN111274491B (zh) 一种基于图注意力网络的社交机器人识别方法
CN107066446B (zh) 一种嵌入逻辑规则的循环神经网络文本情感分析方法
WO2020008919A1 (ja) 機械学習装置及び方法
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
CN112070138B (zh) 多标签混合分类模型的构建方法、新闻分类方法及系统
CN109710766B (zh) 一种工单数据的投诉倾向分析预警方法及装置
CN112231562A (zh) 一种网络谣言识别方法及系统
CN111506732B (zh) 一种文本多层次标签分类方法
CN112395417A (zh) 基于深度学习的网络舆情演化仿真方法及系统
CN112364178A (zh) 一种基于企业关联知识图谱的企业隐形实控人识别的方法
CN115952291B (zh) 基于多头自注意力及lstm的金融舆情分类方法及系统
WO2023035330A1 (zh) 一种长文本事件抽取方法、装置、计算机设备及存储介质
CN113010683A (zh) 基于改进图注意力网络的实体关系识别方法及系统
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN107766560B (zh) 客服服务流程的评价方法和系统
CN113255366A (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN110727758A (zh) 一种基于多长度文本向量拼接的舆情分析方法及其系统
CN114117029B (zh) 一种基于多层次信息增强的解决方案推荐方法及系统
CN114443846A (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备
CN117076672A (zh) 文本分类模型的训练方法、文本分类方法及装置
CN116702753A (zh) 基于图注意力网络的文本情感分析方法
CN114969511A (zh) 基于分片的内容推荐方法、设备及介质
CN114049165B (zh) 一种采购系统的商品比价方法、装置、设备和介质
CN115438098A (zh) 关系挖掘方法以及装置
CN111209375B (zh) 一种通用的条款与文档匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant