CN112487176B - 社交机器人检测方法、系统、存储介质和电子设备 - Google Patents

社交机器人检测方法、系统、存储介质和电子设备 Download PDF

Info

Publication number
CN112487176B
CN112487176B CN202011343555.8A CN202011343555A CN112487176B CN 112487176 B CN112487176 B CN 112487176B CN 202011343555 A CN202011343555 A CN 202011343555A CN 112487176 B CN112487176 B CN 112487176B
Authority
CN
China
Prior art keywords
account
text
friend
target account
information matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011343555.8A
Other languages
English (en)
Other versions
CN112487176A (zh
Inventor
周明
唐杰
刘德兵
仇瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhipu Huazhang Technology Co ltd
Original Assignee
Beijing Zhipu Huazhang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhipu Huazhang Technology Co Ltd filed Critical Beijing Zhipu Huazhang Technology Co Ltd
Priority to CN202011343555.8A priority Critical patent/CN112487176B/zh
Publication of CN112487176A publication Critical patent/CN112487176A/zh
Application granted granted Critical
Publication of CN112487176B publication Critical patent/CN112487176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种社交机器人检测方法、系统、存储介质和电子设备。方法包括:获取待检测的目标账号的好友账号和所述好友账号的关联发文,所述关联发文为提及所述目标账号的发文;根据所述目标账号和好友账号构建账号信息矩阵,根据所述目标账号的发文和所述好友账号的关联发文构建文章信息矩阵;根据所述账号信息矩阵和文章信息矩阵构建社交关系图谱;确定所述目标账号的每篇发文的类别;将所述目标账号的发文、所述社交关系图谱和所述文章信息矩阵输入与所述发文的类别对应的分类检测模型,得到基于所述发文的检测结果;根据所述目标账号的每篇发文的检测结果得到所述目标账号的最终检测结果。本发明具有低延时、高鲁棒性、高稳定性和高识别率。

Description

社交机器人检测方法、系统、存储介质和电子设备
技术领域
本发明涉及社交网络技术领域,尤其涉及一种社交机器人检测方法、系统、存储介质和电子设备。
背景技术
近年来,随着信息技术的高速发展,社交网络被人们广泛地使用,人们可以通过它分享新闻、观点和交友等,但是其中出现了一种非正常用户的社交机器人账户。社交机器人已经被应用到人们生活的方方面面(智能客服、问卷机器人等),但恶意的社交机器人使用导致网络诈骗和虚假新闻亦愈来愈严重,所以社交机器人账号检测愈发受到各国政府和企业重视。
现有社交机器人检测技术主要采用基于图的账号检测、众包方式账号检测和基于机器学习方法的账号检测,这些技术存在训练成本高、算法精度不高等缺点。基于图的账号检测方法采用社交网络的社会关系图谱来表示社交网络中节点间的边和链接的网络信息和关系,从而实现机器人账号的检测。直接采用社交网络信息构建的图来检测账号,存在可能因为个别节点干扰,降低检测精度的问题,鲁棒性不好;众包账号检测方法是采取领域专家来评估、分辨和判决账号是否为机器人账号的方式。该方法需要依赖大量的专家投入,人力成本过高,适合小数据量的账号检测任务;基于机器学习方法的账号检测,采用机器学习算法和统计方法来构建社交网络特征的模型,使用算法模型来实现社交账号的检测。训练机器学习模型的数据和特征选择好坏,对检测精度影响较大,稳定性不高,也存在一定的局限性。
发明内容
本发明提供了一种社交机器人检测方法、系统、存储介质和电子设备,能够满足低延时、高鲁棒性、高稳定性和高识别率的要求。
根据本发明的第一方面,提供了一种社交机器人检测方法,包括:
获取待检测的目标账号的好友账号和所述好友账号的关联发文,所述关联发文为提及所述目标账号的发文;
根据所述目标账号和好友账号构建账号信息矩阵,根据所述目标账号的发文和所述好友账号的关联发文构建文章信息矩阵;
根据所述账号信息矩阵和文章信息矩阵构建社交关系图谱;
确定所述目标账号的每篇发文的类别;
将所述目标账号的发文、所述社交关系图谱和所述文章信息矩阵输入与所述发文的类别对应的分类检测模型,得到基于所述发文的检测结果;
根据所述目标账号的每篇发文的检测结果得到所述目标账号的最终检测结果。
进一步地,所述获取目标账号的好友账号和所述好友账号的关联发文包括:
获取所述目标账号的发文中最近提及的第一数量的好友账号;
获取所述好友账号最近发表的第二数量的关联发文。
进一步地,根据所述账号信息矩阵和文章信息矩阵构建社交关系图谱包括:
根据所述账号信息矩阵和所述文章信息矩阵生成关联关系矩阵,所述关联关系矩阵表示所述好友账号与所述目标账号之间的关联关系度量;
根据所述账号信息矩阵和所述关联关系矩阵得到所述社交关系图谱。
进一步地,按照如下方式生成所述关联关系矩阵:
REL=[rel1 ... relN],
Figure BDA0002799244650000031
其中,M为好友账号的关联发文的篇数,Ti为最近一篇关联发文的时间与最早一篇关联发文的时间的差值,
Figure BDA0002799244650000032
表示好友账号单位时间内的关联发文的篇数。mi为目标账号在最近发表的M篇发文中提及好友账号i的文章篇数,
Figure BDA0002799244650000033
表示目标账号提及好友账号i的概率,periodi为目标账号的M篇发文的时间间隔,α为超参数。
进一步地,所述分类检测模型包括预先训练得到的图注意力(GAT)模型和集成学习判决模型。
进一步地,所述将所述目标账号的发文、所述社交关系图谱和所述文章信息矩阵输入与所述发文的类别对应的分类检测模型,得到基于所述发文的检测结果包括:
对所述社交关系图谱中的好友账号进行采样;
基于文章信息矩阵,针对采样出的好友账号随机选取一篇关联发文;
将所选取的关联发文的向量拼接到所述好友账号的向量尾部;将所述目标账号的发文的向量拼接到所述目标账号的向量尾部,得到新的社交关系图谱;
将所述新的社交关系图谱输入到图注意力模型中,生成特征向量;
将所述目标账号的发文的向量拼接到所述特征向量中,得到拼接特征向量;
将所述拼接特征向量输入所述集成学习判决模型,得到基于所述发文的检测结果。
进一步地,所述根据所述目标账号的每篇发文的检测结果得到所述目标账号的最终检测结果包括:
对每篇发文的检测结果进行加权平均,得到所述目标账号的最终检测结果。
根据本发明的第二方面,提供了一种社交机器人检测系统,包括:
获取模块,用于获取待检测的目标账号的好友账号和所述好友账号的关联发文,所述关联发文为提及所述目标账号的发文;
矩阵构建模块,用于根据所述目标账号和好友账号构建账号信息矩阵,根据所述目标账号的发文和所述好友账号的关联发文构建文章信息矩阵;
图谱构建模块,用于根据所述账号信息矩阵和文章信息矩阵构建社交关系图谱;
分类模块,用于确定所述目标账号的每篇发文的类别;
检测模块,用于将所述目标账号的发文、所述社交关系图谱和所述文章信息矩阵输入与所述发文的类别对应的分类检测模型,得到基于所述发文的检测结果;
输出模块,用于根据所述目标账号的每篇发文的检测结果得到所述目标账号的最终检测结果。
根据本发明的第三方面,提供了一种计算机可读存储介质,存储有多条指令,所述指令用于实现如本发明的第一方面所述的方法。
根据本发明的第四方面,提供了一种电子设备,包括处理器和与所述处理器连接的存储介质,所述存储介质存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如本发明的第一方面所述的方法。
本发明根据目标账号、好友账号和发文信息生成特征向量,根据发文类别自适应地选用预先训练好的分类检测模型进行检测,提升了算法的检测精度和检测效率;在分类检测模型中使用注意力模型和集成判决模型,进一步满足了低延时、高鲁棒性、高稳定性和高识别率的要求。
附图说明
图1为根据本发明实施例的社交机器人检测方法的流程示意图;
图2为根据本发明实施例的分类检测模型的处理流程图;
图3为根据本发明实施例的社交网络关系示意图;
图4为根据本发明实施例的社交机器人检测系统的结构示意图;
图5为根据本发明实施例的计算机设备内部的结构示意图
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
社交机器人检测任务可以形式化定义为,输入是待检测的社交账号信息I=(i1,i2,...,in),其中in表示社交账号的第n维信息的向量化表示,输出为被检测社交账号为机器人的概率p和各项指标得分情况S=(s1,s2,...,sn),其中sn表示第n维账号指标在检测中的得分情况。对于批量账号检测任务,根据每个社交账号为机器人的概率和各项指标得分情况给出输入账号中为机器人账号的排名列表。
由于社交机器人在社交网络中会互相提及对方,容易形成社交关系图,所以可以利用社交账号的关系图来挖掘和检测恶意社交机器人账号。首先,通过待检测的目标账号信息I=(i1,i2,...,in)获取该目标账号最近提及的N(例如为100)个社交好友账号及每个好友账号提及该目标账号的最近M(例如为200)篇关联发文。所述“提及”包括转发目标账号的发文、在发文中提到目标账号或通过“@”等命令符提醒目标账号浏览发文等与目标账号发生关联的行为。将目标账号和好友账号的信息处理为向量,构建账号信息矩阵U,获取目标账号最近的M(例如为200)篇发文,连同好友账号的N×M篇发文的信息一同处理为向量,并构建为文章信息矩阵P(矩阵第一行为目标账号的文章向量)。使用账号信息矩阵U和文章信息矩阵P构建社交网络关系图谱G,将目标账号的M篇文章分为C种类别,针对每种品类利用文章和社交网络关系图谱G训练得到该类别的分类检测模型,用于社交机器人的检测。
实施例一
如图1所示,本发明实施例提供了一种社交机器人检测方法,包括:
S101、获取待检测的目标账号的好友账号和所述好友账号的关联发文,所述关联发文为提及所述目标账号的发文;
具体地,包括:
获取所述目标账号的发文中最近提及的第一数量(N)的好友账号;
获取所述好友账号最近发表的第二数量(M)的关联发文。
例如,获取目标账号的发文中提及的所有好友账号并按提及的时间距离当前时间由近及远排序,取前100个好友账号。获取该100个好友账号的发文中提及所述目标账号的关联发文,按发文时间距离当前时间由近及远排序,取前200篇关联发文。
S102、根据所述目标账号和好友账号构建账号信息矩阵,根据所述目标账号的发文和所述好友账号的关联发文构建文章信息矩阵;
根据所述目标账号和好友账号获取账号信息,例如性别、年龄、地理位置、好友数、关注数等。获取所述目标账号的发文和所述好友账号的关联发文的文章信息,例如题目、内容、点赞数、转发数等。
对获取到的目标账号和好友账号的信息进行向量化处理,得到账号信息矩阵
Figure BDA0002799244650000081
其中IW=(i1,i2,...,in)表示账号信息向量,W=N+1,N表示采样到的好友账号数,例如I1为目标账号的账号信息向量,I2......IW为好友账号的账号信息向量。
获取目标账号最近发表的M篇发文,将该M篇发文和步骤S101中获取的好友账号的M篇关联发文的信息一起进行向量化处理(即嵌入处理)得到文章信息矩阵
Figure BDA0002799244650000091
例如第一行为目标账号的M篇发文的文章向量,其它行中的每一行对应1个好友账号的M篇发文的文章向量。
S103、根据所述账号信息矩阵和文章信息矩阵构建社交关系图谱;
其中,根据所述账号信息矩阵和所述文章信息矩阵生成关联关系矩阵,所述关联关系矩阵表示所述好友账号与所述目标账号之间的关联关系度量,按照如下方式生成关联关系矩阵REL:
REL=[rel1 ... relN],
其中
Figure BDA0002799244650000092
reli表示单位时间内好友间互发推文的量化度量,作为好友账号i与目标账号之间的关联关系的度量,即好友亲密程度。X为待检测的目标账号提及好友账号i的文章数量,Z表示目标账号单位时间内发文提及好友账号i的文章数。Z~π(λ)且E(Z)=λ表示单位时间内待检测账号提及好友i的概率,所以
Figure BDA0002799244650000093
其中periodi为目标账号的M篇发文的时间间隔。由此,
Figure BDA0002799244650000094
M为好友账号的关联发文的篇数,Ti为最近一篇关联发文的时间与最早一篇关联发文的时间的差值,
Figure BDA0002799244650000101
表示好友账号单位时间内的关联发文的篇数。mi为目标账号在最近发表的M篇发文中提及好友账号i的文章篇数,
Figure BDA0002799244650000102
表示目标账号提及好友账号i的概率,periodi为目标账号的M篇发文的时间间隔,α为超参数。
根据所述账号信息矩阵U和所述关联关系矩阵REL得到所述社交关系图谱G=(U,REL)。
S104、确定所述目标账号的每篇发文的类别;
根据每篇发文的内容,可以确定其所属的类别。所述类别是预先设置的,例如体育类、教育类、人文类、时政类等。
S105、将所述目标账号的发文、所述社交关系图谱和所述文章信息矩阵输入与所述发文的类别对应的分类检测模型,得到基于所述发文的检测结果;
其中,所述分类检测模型包括预先训练得到的图注意力(GAT)模型和集成学习判决模型。
如图2所示,该步骤具体包括:
S1051、对所述社交关系图谱中的好友账号进行采样;
S1052、基于文章信息矩阵,针对采样出的好友账号随机选取一篇关联发文;
S1053、将所选取的关联发文的向量拼接到所述好友账号的向量尾部;将所述目标账号的发文的向量拼接到所述目标账号的向量尾部,得到新的社交关系图谱G′;
S1054、将所述新的社交关系图谱G′输入到图注意力模型GAT中,生成特征向量h;
S1055、将所述目标账号的发文的向量P1,pIdx拼接到所述特征向量h中,得到拼接特征向量f=(h,P1,pIdx);
S1056、将所述拼接特征向量f输入所述集成学习判决模型,得到基于所述发文的检测结果(r,s)。其中r为检测账号为机器人的概率;s=(s1 ... sn+1)为模型各项指标的得分情况,其中包含n项账号信息相关的特征和1项文章信息相关特征。
S106、根据所述目标账号的每篇发文的检测结果得到所述目标账号的最终检测结果。
具体地,对每篇发文的检测结果进行加权平均,得到所述目标账号的最终检测结果:
Figure BDA0002799244650000111
其中ri为使用第i篇文章得到的目标账号为机器人的概率。
Figure BDA0002799244650000112
其中si为使用第i篇文章得到的各项指标的得分矩阵。
本实施例的方法根据目标账号、好友账号和发文信息生成特征向量,根据发文类别自适应地选用预先训练好的分类检测模型进行检测,提升了算法的检测精度和检测效率;在分类检测模型中使用注意力模型和集成判决模型,进一步满足了低延时、高鲁棒性、高稳定性和高识别率的要求。
其中,分类检测模型按照下述方法进行预先训练得到:
获取作为训练数据的目标账号,该目标账号已标注是否为社交机器人;
获取该目标账号的好友账号和所述好友账号的关联发文,所述关联发文为提及所述目标账号的发文;
根据所述目标账号和好友账号构建账号信息矩阵,根据所述目标账号的发文和所述好友账号的关联发文构建文章信息矩阵;
根据所述账号信息矩阵和文章信息矩阵构建社交关系图谱;
确定所述目标账号的每篇发文的类别;
对于每个类别训练分类检测模型,包括:
对所述社交关系图谱中的好友账号进行采样;
基于文章信息矩阵,针对采样出的好友账号随机选取一篇关联发文;
将所选取的关联发文的向量拼接到所述好友账号的向量尾部;选取目标账号该类别的一篇发文,将所述目标账号的发文的向量P1,pIdx拼接到所述目标账号的向量尾部,得到新的社交关系图谱G′;
将所述新的社交关系图谱G′输入到图注意力模型GAT中,生成特征向量h;
将所述目标账号的发文的向量P1,pIdx拼接到所述特征向量h中,得到拼接特征向量f=(h,P1,pIdx);
将所述拼接特征向量f输入所述集成学习判决模型,得到基于所述发文的检测结果(r,s)。其中r为检测账号为机器人的概率;s=(s1 ... sn+1)为模型各项指标的得分情况,其中包含n项账号信息相关的特征和1项文章信息相关特征。
根据所述检测结果和目标账号的标注进行多轮训练,训练得到的GAT模型和集成学习判决模型即构成分类检测模型,与目标账号的发文类别相关联得到各类别的分类检测模型。
实施例二
下面以图3所示的社交网络关系为例,阐释本发明的社交机器人检测方法。
在图3示出的社交网络关系中,以twitter社交机器人账号检测为例,待检测的目标账号的节点N0有4个近邻节点N1、N2、N3、N4表示目标账号最近提及的4个好友账号,节点间有边代表存在社交关系,边的数值表示节点间好友关系的亲密程度,计算公式为:
Figure BDA0002799244650000131
(参见实施例一)。本实施例中假设边的数值都为1。
首先获取待检测的用户及其好友的账号和发文信息,这里使用twitter API进行信息获取。将获取的用户信息和发文信息采用嵌入算法(Embedding)进行向量化处理,得到账号信息向量Ik=(i1,i2,...,in),1≤k≤5,从而可得到账号信息矩阵
Figure BDA0002799244650000132
每个账号抓取M=20篇文章并将文章向量化,得到文章信息矩阵
Figure BDA0002799244650000133
Figure BDA0002799244650000134
遍历待检测账号获取到的20篇文章,并对每篇文章给出其所属类别(这里采用32个一级类目,181个二级类目),针对每篇文章的类别选用不同领域的账号检测模型对账号信息矩阵U和文章信息矩阵P处理并预测机器人账号概率和各项特征指标得分情况。
具体地:
根据账号信息矩阵U和文章信息矩阵P,可得到关联关系矩阵REL=[rel1 ...relN],其中
Figure BDA0002799244650000141
这里假设REL=[1,1,1,1],构建社交关系图谱G=(U,REL)。
基于高斯分布对社交网络图谱G中的待检测账号的好友节点采样50%个节点,即采样2个好友节点,这里假设采样节点为N1、N3。
文章信息矩阵
Figure BDA0002799244650000142
中P2,·对应N1用户的文章信息,P4,·对应N3用户的文章信息。从P2,·和P4,·中随机抽取两篇文章的向量P2,3和P4,3拼接到N1和N3的账号信息向量尾部,可得
Figure BDA0002799244650000145
对应N1融合文章信息的向量,
Figure BDA0002799244650000146
对应N3融合文章信息的向量。对于目标账号,假设当前使用的文章为P1,7,可得
Figure BDA0002799244650000147
基于融合文章信息的账号信息矩阵
Figure BDA0002799244650000143
Figure BDA0002799244650000144
和关联关系矩阵REL,可得到融合了文章信息的社交关系图谱G′=(U′,REL)。
将融合了账号信息、文章信息和社交关系信息的关系网络图谱G′输入到图注意力模型GAT中聚合,生成特征向量h;
将当前待检测的目标账号的文章P1,7拼接到特征向量h尾部,可以得到
Figure BDA0002799244650000148
将特征向量
Figure BDA0002799244650000153
输入到集成学习判决模型中即可得到账号检测结果(r,s),其中r为检测账号为机器人的概率;s=(s1 ... sn+1)为各项指标的得分情况,其中包含n项账号信息的特征和1项文章信息的特征。
对各领域账号检测结果加权平均得到系统最终检测结果:
Figure BDA0002799244650000151
其中ri为使用第i篇文章得到的目标账号为机器人的概率。
Figure BDA0002799244650000152
其中si为使用第i篇文章得到的各项指标的得分矩阵。
实施例三
如图4所示,本发明的另一方面还包括和前述方法流程完全对应一致的功能模块架构,即本发明实施例还提供了社交机器人检测系统,包括:
获取模块41,用于获取待检测的目标账号的好友账号和所述好友账号的关联发文,所述关联发文为提及所述目标账号的发文;
矩阵构建模块42,用于根据所述目标账号和好友账号构建账号信息矩阵,根据所述目标账号的发文和所述好友账号的关联发文构建文章信息矩阵;
图谱构建模块43,用于根据所述账号信息矩阵和文章信息矩阵构建社交关系图谱;
分类模块44,用于确定所述目标账号的每篇发文的类别;
检测模块45,用于将所述目标账号的发文、所述社交关系图谱和所述文章信息矩阵输入与所述发文的类别对应的分类检测模型,得到基于所述发文的检测结果;
输出模块46,用于根据所述目标账号的每篇发文的检测结果得到所述目标账号的最终检测结果。
其中,检测模块45包括预先训练得到的图注意力(GAT)模型和集成学习判决模型。检测模块45具体用于:
对所述社交关系图谱中的好友账号进行采样;
基于文章信息矩阵,针对采样出的好友账号随机选取一篇关联发文:
将所选取的关联发文的向量拼接到所述好友账号的向量尾部;将所述目标账号的发文的向量拼接到所述目标账号的向量尾部,得到新的社交关系图谱G′;
将所述新的社交关系图谱G′输入到图注意力模型GAT中,生成特征向量h;
将所述目标账号的发文的向量P1,pIdx拼接到所述特征向量h中,得到拼接特征向量f=(h,P1,pIdx);
将所述拼接特征向量f输入所述集成学习判决模型,得到基于所述发文的检测结果(r,s)。其中r为检测账号为机器人的概率;s=(s1 ... sn+1)为模型各项指标的得分情况,其中包含n项账号信息相关的特征和1项文章信息相关特征。
该系统各模块具体实现上述实施例一提供的社交机器人检测方法,具体的模块功能可参见实施例一中对应的方法步骤的描述,在此不再赘述。
本实施例的装置根据目标账号、好友账号和发文信息生成特征向量,根据发文类别自适应地选用预先训练好的分类检测模型进行检测,提升了算法的检测精度和检测效率;在分类检测模型中使用注意力模型和集成判决模型,进一步满足了低延时、高鲁棒性、高稳定性和高识别率的要求。
本发明提出的社交机器人检测方法和系统已在一个大规模twitter标注数据集(332,493,934条用户的标注数据)上进行了验证。
实验结果表明,该方案在效率上远高于其他对比方案。该检测方法和系统可以实现在线实时账号检测,速度是现有的botometer检测平台的3倍。实验数据显示,本发明的检测方案平均检测耗时在30ms以内,可以满足实时在线账号检测需求。
实验数据显示本发明的检测方案的检测精确率为98.433%,召回率为94.1667%,可以满足社交机器人检测需求。
如图5所示,本发明还提供一种计算机设备,该计算机设备包括存储介质和处理器。存储介质中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行本发明任一实施例中的社交机器人检测方法的步骤。
本发明还能够提供一种计算机可读存储介质,该存储介质上存储有计算机可读指令,计算机可读指令被处理器执行时实现本发明任一实施例中的社交机器人检测方法的步骤。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读存储介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM,Random Access Memory),只读存储器(ROM,Read-Only Memory),可擦除可编辑只读存储器(EPROM,Erasable Programmable Read-Only Memory,或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM,Compact Disc Read-Only Memory)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA,Programmable Gate Array),现场可编程门阵列(FPGA,Field Programmable Gate Array)等。
在本说明书的描述中,参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明实质内容上所作的任何修改、等同替换和简单改进等,均应包含在本发明的保护范围之内。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种社交机器人检测方法,其特征在于,包括:
获取待检测的目标账号的好友账号和所述好友账号的关联发文,所述关联发文为提及所述目标账号的发文;
根据所述目标账号和好友账号构建账号信息矩阵,根据所述目标账号的发文和所述好友账号的关联发文构建文章信息矩阵;对获取到的目标账号和好友账号的信息进行向量化处理,得到账号信息矩阵;将所述目标账号的发文和所述好友账号的关联发文的信息一起进行向量化处理得到文章信息矩阵;
根据所述账号信息矩阵和文章信息矩阵构建社交关系图谱;
确定所述目标账号的每篇发文的类别;
将所述目标账号的发文、所述社交关系图谱和所述文章信息矩阵输入与所述发文的类别对应的分类检测模型,得到基于所述发文的检测结果;
根据所述目标账号的每篇发文的检测结果得到所述目标账号的最终检测结果;
所述获取待检测的目标账号的好友账号和所述好友账号的关联发文包括:
获取所述目标账号的发文中最近提及的第一数量的好友账号;
获取所述好友账号最近发表的第二数量的关联发文;
根据所述账号信息矩阵和文章信息矩阵构建社交关系图谱包括:
根据所述账号信息矩阵和所述文章信息矩阵生成关联关系矩阵,所述关联关系矩阵表示所述好友账号与所述目标账号之间的关联关系度量;
根据所述账号信息矩阵和所述关联关系矩阵得到所述社交关系图谱;
按照如下方式生成所述关联关系矩阵:
Figure 289456DEST_PATH_IMAGE002
Figure 613121DEST_PATH_IMAGE003
其中,M为好友账号的关联发文的篇数,
Figure 658437DEST_PATH_IMAGE005
为最近一篇关联发文的时间与最早一篇关联发文的时间的差值,
Figure 709439DEST_PATH_IMAGE006
表示好友账号单位时间内的关联发文的篇数,
Figure 727073DEST_PATH_IMAGE008
为目标账号在最近发表的M篇发文中提及好友账号
Figure 815115DEST_PATH_IMAGE010
的文章篇数,
Figure DEST_PATH_IMAGE011
表示目标账号提及好友账号
Figure 944132DEST_PATH_IMAGE010
的概率,
Figure 674191DEST_PATH_IMAGE012
为目标账号的M篇发文的时间间隔,
Figure DEST_PATH_IMAGE013
为超参数。
2.根据权利要求1所述的方法,其特征在于,所述分类检测模型包括预先训练得到的图注意力(GAT)模型和集成学习判决模型。
3.根据权利要求2所述的方法,其特征在于,所述将所述目标账号的发文、所述社交关系图谱和所述文章信息矩阵输入与所述发文的类别对应的分类检测模型,得到基于所述发文的检测结果包括:
对所述社交关系图谱中的好友账号进行采样;
基于文章信息矩阵,针对采样出的好友账号随机选取一篇关联发文;
将所选取的关联发文的向量拼接到所述好友账号的向量尾部;将所述目标账号的发文的向量拼接到所述目标账号的向量尾部,得到新的社交关系图谱;
将所述新的社交关系图谱输入到图注意力模型中,生成特征向量;
将所述目标账号的发文的向量拼接到所述特征向量中,得到拼接特征向量;
将所述拼接特征向量输入所述集成学习判决模型,得到基于所述发文的检测结果。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标账号的每篇发文的检测结果得到所述目标账号的最终检测结果包括:
对每篇发文的检测结果进行加权平均,得到所述目标账号的最终检测结果。
5.一种社交机器人检测系统,其特征在于,包括:
获取模块,用于获取待检测的目标账号的好友账号和所述好友账号的关联发文,所述关联发文为提及所述目标账号的发文;
矩阵构建模块,用于根据所述目标账号和好友账号构建账号信息矩阵,根据所述目标账号的发文和所述好友账号的关联发文构建文章信息矩阵;对获取到的目标账号和好友账号的信息进行向量化处理,得到账号信息矩阵;将所述目标账号的发文和所述好友账号的关联发文的信息一起进行向量化处理得到文章信息矩阵;
图谱构建模块,用于根据所述账号信息矩阵和文章信息矩阵构建社交关系图谱;
分类模块,用于确定所述目标账号的每篇发文的类别;
检测模块,用于将所述目标账号的发文、所述社交关系图谱和所述文章信息矩阵输入与所述发文的类别对应的分类检测模型,得到基于所述发文的检测结果;
输出模块,用于根据所述目标账号的每篇发文的检测结果得到所述目标账号的最终检测结果;
所述获取待检测的目标账号的好友账号和所述好友账号的关联发文包括:
获取所述目标账号的发文中最近提及的第一数量的好友账号;
获取所述好友账号最近发表的第二数量的关联发文;
根据所述账号信息矩阵和文章信息矩阵构建社交关系图谱包括:
根据所述账号信息矩阵和所述文章信息矩阵生成关联关系矩阵,所述关联关系矩阵表示所述好友账号与所述目标账号之间的关联关系度量;
根据所述账号信息矩阵和所述关联关系矩阵得到所述社交关系图谱;
按照如下方式生成所述关联关系矩阵:
Figure 530020DEST_PATH_IMAGE002
Figure 664330DEST_PATH_IMAGE003
其中,M为好友账号的关联发文的篇数,
Figure 871189DEST_PATH_IMAGE005
为最近一篇关联发文的时间与最早一篇关联发文的时间的差值,
Figure 139359DEST_PATH_IMAGE006
表示好友账号单位时间内的关联发文的篇数,
Figure 69269DEST_PATH_IMAGE008
为目标账号在最近发表的M篇发文中提及好友账号
Figure 217223DEST_PATH_IMAGE010
的文章篇数,
Figure 599793DEST_PATH_IMAGE011
表示目标账号提及好友账号
Figure 64797DEST_PATH_IMAGE010
的概率,
Figure 239427DEST_PATH_IMAGE012
为目标账号的M篇发文的时间间隔,
Figure 981118DEST_PATH_IMAGE013
为超参数。
6.一种计算机可读存储介质,其特征在于,存储有多条指令,所述指令用于实现如权利要求1-4任一项所述的方法。
7.一种电子设备,其特征在于,包括处理器和与所述处理器连接的存储介质,所述存储介质存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如权利要求1-4任一项所述的方法。
CN202011343555.8A 2020-11-26 2020-11-26 社交机器人检测方法、系统、存储介质和电子设备 Active CN112487176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011343555.8A CN112487176B (zh) 2020-11-26 2020-11-26 社交机器人检测方法、系统、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011343555.8A CN112487176B (zh) 2020-11-26 2020-11-26 社交机器人检测方法、系统、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN112487176A CN112487176A (zh) 2021-03-12
CN112487176B true CN112487176B (zh) 2021-11-02

Family

ID=74934742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011343555.8A Active CN112487176B (zh) 2020-11-26 2020-11-26 社交机器人检测方法、系统、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN112487176B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112685614B (zh) * 2021-03-17 2021-06-18 中国电子科技集团公司第三十研究所 一种社交媒体机器人群体快速检测方法
CN113065754B (zh) * 2021-03-25 2024-03-15 北京百度网讯科技有限公司 账号管理方法、装置、电子设备和计算机可读存储介质
CN113342927B (zh) * 2021-04-28 2023-08-18 平安科技(深圳)有限公司 敏感词识别方法、装置、设备及存储介质
CN117421717B (zh) * 2023-12-18 2024-04-09 深圳竹云科技股份有限公司 账号授权方法、装置、计算机设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651671A (zh) * 2020-05-27 2020-09-11 腾讯科技(深圳)有限公司 用户对象推荐方法、装置、计算机设备和存储介质
CN111737596A (zh) * 2020-08-21 2020-10-02 腾讯科技(深圳)有限公司 人际关系图谱的处理方法、装置、电子设备及存储介质
CN111833035A (zh) * 2019-04-15 2020-10-27 株式会社美凯利 信息处理程序、信息处理方法以及信息处理装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090275908A1 (en) * 2008-04-30 2009-11-05 Kimberly-Clark Worldwide, Inc. Absorbent Articles Capable of Indicating the Presence of Urine
CN106227735A (zh) * 2016-07-11 2016-12-14 苏州天梯卓越传媒有限公司 一种用于出版行业的词云选题方法及系统
CN106570162B (zh) * 2016-11-04 2020-07-28 北京百度网讯科技有限公司 基于人工智能的谣言识别方法及装置
CN106685996A (zh) * 2017-02-23 2017-05-17 上海万雍科技股份有限公司 基于hmm模型的账号异常登录检测方法
CN107835113B (zh) * 2017-07-05 2020-09-08 中山大学 一种基于网络映射的社交网络中异常用户检测方法
CN110321546B (zh) * 2018-03-30 2023-05-02 深圳市腾讯计算机系统有限公司 账号识别、显示方法、装置、服务器、终端及存储介质
CN109558951B (zh) * 2018-11-23 2020-11-03 北京知道创宇信息技术股份有限公司 一种欺诈账号检测方法、装置及其存储介质
CN109597994B (zh) * 2018-12-04 2023-06-06 挖财网络技术有限公司 短文本问题语义匹配方法和系统
CN110717009A (zh) * 2019-09-29 2020-01-21 平安直通咨询有限公司上海分公司 一种法律咨询报告的生成方法及设备
CN111325258B (zh) * 2020-02-14 2023-10-24 腾讯科技(深圳)有限公司 特征信息获取方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111833035A (zh) * 2019-04-15 2020-10-27 株式会社美凯利 信息处理程序、信息处理方法以及信息处理装置
CN111651671A (zh) * 2020-05-27 2020-09-11 腾讯科技(深圳)有限公司 用户对象推荐方法、装置、计算机设备和存储介质
CN111737596A (zh) * 2020-08-21 2020-10-02 腾讯科技(深圳)有限公司 人际关系图谱的处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112487176A (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
CN112487176B (zh) 社交机器人检测方法、系统、存储介质和电子设备
Kosasih et al. A machine learning approach for predicting hidden links in supply chain with graph neural networks
Schouten et al. Supervised and unsupervised aspect category detection for sentiment analysis with co-occurrence data
CN111309824B (zh) 实体关系图谱显示方法及系统
Vo et al. Dealing with the class imbalance problem in the detection of fake job descriptions
Derderian et al. Automated unique input output sequence generation for conformance testing of FSMs
Chua et al. Generative models for item adoptions using social correlation
CN110971659A (zh) 推荐消息的推送方法、装置及存储介质
CN104915397A (zh) 一种微博传播趋势预测方法及装置
US8793201B1 (en) System and method for seeding rule-based machine learning models
CN108334805A (zh) 检测文档阅读顺序的方法和装置
CN111640033A (zh) 一种网络水军的检测方法及装置
Malik et al. EPR-ML: E-Commerce Product Recommendation Using NLP and Machine Learning Algorithm
CN106980629A (zh) 一种网络资源推荐方法及计算机设备
CN112580896A (zh) 知识点预测方法、装置、设备及存储介质
Kabra et al. Convolutional neural network based sentiment analysis with tf-idf based vectorization
CN112200644B (zh) 欺诈用户识别方法、装置、计算机设备以及存储介质
CN114155009A (zh) 欺诈检测方法、装置、电子设备及存储介质
CN113377640B (zh) 解释业务场景下模型的方法、介质、装置和计算设备
Duhan et al. Opinion mining using ontological spam detection
CN109697260B (zh) 虚拟货币的检测方法、装置、计算机设备和存储介质
CN113052222A (zh) 特征分箱方法、电子设备及存储介质
Wu et al. A Social Media Based Profiling Approach for Potential Churning Customers: An Example for Telecom Industry
CN117112640B (zh) 一种内容排序方法以及相关设备
CN115062223B (zh) 社交大数据平台垃圾广告用户精准识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210324

Address after: B201d-1, 3rd floor, building 8, yard 1, Zhongguancun East Road, Haidian District, Beijing 100083

Applicant after: Beijing innovation Zhiyuan Technology Co.,Ltd.

Address before: B201d-1, 3rd floor, building 8, yard 1, Zhongguancun East Road, Haidian District, Beijing 100083

Applicant before: Beijing Zhiyuan Artificial Intelligence Research Institute

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210622

Address after: 603a, 6th floor, building 6, yard 1, Zhongguancun East Road, Haidian District, Beijing 100083

Applicant after: Beijing Zhipu Huazhang Technology Co.,Ltd.

Address before: B201d-1, 3rd floor, building 8, yard 1, Zhongguancun East Road, Haidian District, Beijing 100083

Applicant before: Beijing innovation Zhiyuan Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Zhou Ming

Inventor after: Liu Debing

Inventor after: Chou Yu

Inventor before: Zhou Ming

Inventor before: Tang Jie

Inventor before: Liu Debing

Inventor before: Chou Yu

CB03 Change of inventor or designer information