CN117725210A - 一种面向社会化问答平台的恶意用户检测方法 - Google Patents

一种面向社会化问答平台的恶意用户检测方法 Download PDF

Info

Publication number
CN117725210A
CN117725210A CN202311531032.XA CN202311531032A CN117725210A CN 117725210 A CN117725210 A CN 117725210A CN 202311531032 A CN202311531032 A CN 202311531032A CN 117725210 A CN117725210 A CN 117725210A
Authority
CN
China
Prior art keywords
path
meta
user
question
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311531032.XA
Other languages
English (en)
Other versions
CN117725210B (zh
Inventor
张璐
方昌健
伍之昂
陆红如
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING AUDIT UNIVERSITY
Original Assignee
NANJING AUDIT UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING AUDIT UNIVERSITY filed Critical NANJING AUDIT UNIVERSITY
Priority to CN202311531032.XA priority Critical patent/CN117725210B/zh
Publication of CN117725210A publication Critical patent/CN117725210A/zh
Application granted granted Critical
Publication of CN117725210B publication Critical patent/CN117725210B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向社会化问答平台的恶意用户检测方法。提取社会化问答平台中的用户、问题、答案、问答群组等实体元素及其属性,构建社会化问答场景下的属性异构信息网络并定义描述用户关系的元路径;针对特定元路径下每个实例路径的元路径邻居,利用门控循环单元对其进行编码;分别在单个元路径及所有元路径层级对用户的元路径邻居特征进行聚合,获得用户的最终表征,期间,利用层次注意力机制为各实体元素和元路径邻居分配权重;最后,将聚合后得到的用户表征向量输入分类器,利用标记数据学习分类器参数。所得分类器可用来分类无标记的用户,判定其是否为恶意用户。本发明能够更加准确、全面的检测出社会化问答平台中蓄意伪装的恶意用户。

Description

一种面向社会化问答平台的恶意用户检测方法
技术领域
本发明涉及一种社会化问答平台中检测发布虚假信息的恶意用户的方法,属于数据挖掘与网络空间安全领域。
技术背景
随着社会化问答平台(如知乎、百度知道等)规模及影响力的不断扩大,大量恶意用户在其中发布虚假信息及欺诈性内容,扭曲普通用户的价值判断并影响其行为决策,从而达成水军推销或抹黑特定商品与服务的目的。
因此,检测社会化问答平台中的恶意用户,已成为净化社区环境,维护平台公信力及网络空间安全亟待解决的重要问题,学术界和工业界对此开展了深入研究并提出了很多检测恶意用户的方法。如论文Revealing,characterizing,and detecting crowdsourcingspammers:A case study in community Q&A和Detecting crowdsourcing spammers incommunity question answering websites等工作将恶意用户的识别形式化为二分类问题,然后提取用户的基础信息、发布问题/答案数,发布最佳答案比例等特征,通过贝叶斯、决策树等分类器识别恶意用户。然而,当前方法对恶意用户的识别依赖于构造和提取出具有显著差异性的用户特征,对于深度伪装的,各种特征与正常用户无显著差异的恶意用户,识别效果不佳。
为解决以上问题,申请人从检测欺诈性问答入手进行了研究,并早期向国家知识产权局提交了专利申请:一种在线问答社区中检测欺诈性问答的方法,公开号CN115344697A,该方案聚焦于欺诈性问题和答案的检测,利用问答间多种不同类型的关联关系,提升对群体性欺诈问答的识别能力。申请人在实际应用中发现,虽然通过欺诈性问答可以进一步关联出恶意用户,但这种间接检测的方式具有滞后性,且检测误差容易被传递和放大。
发明内容
为解决上述问题,本发明提出了一种面向社会化问答平台的恶意用户检测方法,提取问答群组的前提下,充分利用无法掩盖的实体间交互关系,识别社会化问答平台中深度伪装的恶意用户。本发明所要解决的技术问题在于如何将用户间的复杂交互关系集成到识别模型中,即在用户分类时既利用其本身的属性,也考虑与其有交互关系的其他用户的特征,共同完成用户是否恶意的识别。采用属性异构信息网络建模社会化问答场景,利用元路径建模用户间的复杂交互关系,以注意力机制分配各类实体元素权重,聚合用户的元路径邻居特征以识别恶意用户。
一种面向社会化问答平台的恶意用户检测方法,利用用户属性及交互关系识别社会化问答平台中高度伪装的恶意用户。本发明所述方法的主要步骤包括:
步骤S1,从社会化问答平台中提取用户、问题、答案等实体元素及其相关属性和相互关系,构建描述社会化问答场景的属性异构信息网络,并建立若干用户间不同语义关系的元路径,每个元路径包含多个实例路径。
优选地,提取的实体元素至少包括用户、问题、答案、问答群组,其中:
·用户属性至少包括问题数、答案数、经验值、最佳答案率、平均答案长度等;
·问题属性至少包括标签类型、描述文本、奖励值、答案数量、解决情况等;
·答案属性至少包括评论文本、最佳标记、联系方式、关注领域、匿名情况等;
·问答群组属性至少包括提问者与回答者比例、问答间隔,问答突发率等。
优选地,用户间的元路径至少包括:
·问答关系元路径:
·群组关系元路径:
优选地,问答群组的提取通过问答文本聚类方法进行,利用潜在主题模型提取每个问答的主题分布建立主题向量,然后对主题向量聚类获得群组。
步骤S2,利用门控循环单元GRU对每个实例路径上的元路径邻居进行编码,并利用注意力机制分配实例路径上各实体元素特征在编码时的权重。
假设u为待分类用户,xu为该用户的属性向量,在构建的属性异构信息网络中,u会通过元路径定义的实例路径连接多个其他用户,称之为元路径邻居。对元路径邻居进行编码时,每个GRU对应一个实例路径上的实体元素,根据前一单元输出的隐向量ht-1和对应的路径上实体元素的属性向量xt计算输出隐向量ht,直至完成对路径末端的元路径邻居节点的编码。在此过程中,利用注意力机制分配实例路径上每个实体元素在元路径邻居编码中的权重,假设隐向量h1,h2,...,h1为实例路径上各实体元素对应GRU输出的隐向量,l为路径长度,则计算各实体元素的权重如下:
其中,Wα和bα分别是权重矩阵和偏置量,最终由训练得到,qα是随机初始化向量,σ为激活函数,α表示路径上实体元素的注意力权重。然后,根据分配的权重对元路径邻居进行编码,得到该实例路径下的元路径邻居的表征向量p:
步骤S3,对用户在特定元路径下的多个元路径邻居表征进行聚合,每个元路径邻居对应一条该元路径下的实例路径,并利用注意力机制分配多个元路径邻居的权重,得到用户的元路径级表征向量。
假设用户u在元路径Φ下有n个元路径邻居,对应的编码分别为p1,p2,...,pn,计算元路径邻居的权重如下:
其中,Wβ和bβ分别是权重矩阵和偏置量,最终由训练得到,qβ是随机初始化向量,σ为激活函数,[;]表示对向量的拼接操作,β表示元路径邻居的注意力权重。然后,根据分配的权重对元路径邻居进行聚合,得到用户u在元路径Φ下的表征向量
步骤S4,聚合用户在不同元路径下的表征,并利用注意力机制计算不同元路径的权重,得到用户的最终表征。
假设关于用户u共有m条元路径Φ1,Φ2,...,Φm,u在相应的元路径下的表征向量分别为计算元路径权重如下:
其中,Wγ和bγ分别是权重矩阵和偏置量,最终由训练得到,qγ是随机初始化向量,σ为激活函数,γ表示元路径的注意力权重。然后,根据分配的权重聚合各元路径表征,得到用户u的最终表征向量eu
步骤S5,建立分类模型,输入用户表征向量eu,利用标注数据训练获得模型参数。
优选地,以多层感知机作为分类器,以用户u的最终表征eu为输入,输出中间结果zu,计算公式如下:
zu=ReLU(WL...ReLU(W1eu+b1)+bL) (7)
其中,W*和b*表示每一层的权重函数和偏置向量,ReLU(.)是线性整流函数。然后,将zu输入sigmoid函数获得u的预测标签计算公式如下
其中,w和b表示权重向量和偏置值。
优选地,已知训练集D,其中任意用户u的标签为yu,利用交叉熵建立损失函数如下:
其中,Θ表示参数的集合,λ表示规格化参数,||.||2表示L2范数。然后,利用随机梯度下降或其变种方法优化目标函数,学习得到模型参数。
步骤S6,利用训练好的模型进行未知用户的表征和分类,以识别恶意用户。
与现有技术相比,本发明的有益效果体现在:能够充分利用社会化问答平台中用户间难以掩盖的复杂交互关系,更加有效地识别深度伪装的恶意用户。相较于申请CN115344697A,本申请直接针对恶意用户进行检测,有利于提升检测的时效性和准确率。
附图说明
图1是本发明所述方法的整体流程图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明:
图1显示了检测社会化问答平台中恶意用户的过程,其具体步骤如下:
步骤S1,提取实体元素,建立属性异构信息网络,定义特征属性和元路径;
步骤S2,对实例路径上的元路径邻居进行编码,利用注意力机制分配路径上实体元素的权重;
步骤S3,聚合特定元路径下所有实例路径对应的元路径邻居,利用注意力机制分配各元路径邻居的权重,获得用户的元路径级表征向量;
步骤S4,聚合用户在不同元路径下的元路径级表征,利用注意力机制分配各元路径的权重,获得用户的最终表征;
步骤S5,建立分类模型,将聚合后的用户表征向量输出分类模型,利用标记数据训练获得模型参数;
步骤S6,利用分类模型对未标记用户进行分类,识别恶意用户。
实施例
下面给出本发明的详细实施例。实施例以元路径Φ1 为例阐述获得用户u的表征向量的过程。假设用户u在该元路径下共通过3条实例路径连接了另外三个用户u1、u2、u3,即u1、u2、u3为用户u在这一元路径下的元路径邻居,具体的实例路径为u-Q1-A1-u1,u-Q2-A2-u2,u-Q3-A3-u3,其中Q表示问题,A表示答案。
步骤S1,以用户、问题、答案、群组为顶点,相互关系为边,构建属性异构信息网络。
步骤S2,利用门控循环单元GRU根据实例路径对元路径邻居进行编码,以u-Q1-A1-u1为例,假设xu、xq、xa、x1分别为u、Q1、A1、u1对应的属性向量。根据路径上的节点顺序,首先将随机初始化向量h0和xu输入GRU得到隐向量h1,然后将h1和xq输入GRU得到隐向量h2,再将h2和xa输入GRU得到影响量h3,最后将h3和x1输入GRU得到隐向量h4。接下来,根据公式(1)和(2)计算得到用户u在实例路径u-Q1-A1-u1下元路径邻居u1的编码p1。同理,可计算出元路径邻居u2和u3的编码p2和p3
步骤S3,将用户u的属性向量xu及其元路径邻居u1、u2、u3的编码p1、p2、p3输入公式(3)和(4),得到用户u在元路径Φ1下的表征向量同理,重复步骤S2和S3,获得另外三个元路径下的表征向量Φ2,Φ3,Φ4
步骤S4,将Φ1,Φ2,Φ3,Φ4输入公式(5)和(6),得到用户u最终的表征向量eu。同理,对于训练集D中的所有用户得到其表征向量。
步骤S5,将训练集D中的所有用户的表征向量分别输入公式(7)和(8),计算得到用户的预测标记。将预测标记和实际标记输入公式(9),利用随机梯度下降学习到模型的参数。
步骤S6,对于无标记用户,利用训练好的模型对其元路径邻居进行编码和聚合,得到用户表征向量的同时对用户进行分类,以识别其是否为恶意用户。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种面向社会化问答平台的恶意用户检测方法,其特征在于根据社会化问答场景及其相关实体元素建立属性异构信息网络,聚合用户不同元路径上的邻居信息,然后利用分类器对聚合后的用户特征分类以识别恶意用户;步骤包括:
步骤S1,从社会化问答平台中提取实体元素及其相关属性和相互关系,构建描述社会化问答场景的属性异构信息网络,并建立若干用户间不同语义关系的元路径,每个元路径包含多个实例路径;
步骤S2,利用门控循环单元GRU对每个实例路径上的元路径邻居进行编码,并利用注意力机制分配实例路径上各实体元素特征在编码时的权重,以及元路径邻居的表征向量;
步骤S3,对用户在特定元路径下的多个元路径邻居编码进行聚合,每个元路径邻居对应一条该元路径下的实例路径,并利用注意力机制分配多个元路径邻居的权重,得到用户的元路径级表征向量;
步骤S4,聚合用户在不同元路径下的表征向量,并利用注意力机制计算不同元路径的权重,得到用户的最终表征;
步骤S5,建立分类模型,输入用户表征向量eu,利用标注数据训练获得模型参数;
步骤S6,利用训练好的模型进行未知用户的表征和分类,以识别恶意用户。
2.根据权利要求1所述的方法,其特征在于,步骤S1中,提取的实体元素至少包括用户、问题、答案、问答群组,其中:
用户属性至少包括问题数、答案数、经验值、最佳答案率、平均答案长度;
问题属性至少包括标签类型、描述文本、奖励值、答案数量、解决情况;
答案属性至少包括评论文本、最佳标记、联系方式、关注领域、匿名情况;
问答群组属性至少包括提问者与回答者比例、问答间隔,问答突发率。
3.根据权利要求1所述的方法,其特征在于,步骤S1中,构建的用户间的元路径至少包括:
问答关系元路径:用户问题/>答案/>用户,用户/>答案/>问题/>用户;
群组关系元路径:用户问题/>群组/>问题/>用户,用户/>答案/>群组/>答案/>用户。
4.根据权利要求3所述的方法,其特征在于,所述元路径中,问答群组的提取通过问答文本聚类方法进行,利用潜在主题模型提取每个问答的主题分布建立主题向量,然后对主题向量聚类获得群组。
5.根据权利要求1所述的方法,其特征在于步骤S2中,具体步骤包括:
u为待分类用户,xu为该用户的属性向量,在构建的属性异构信息网络中,u会通过元路径定义的实例路径连接多个其他用户,称之为元路径邻居;对元路径邻居进行编码时,每个GRU对应一个实例路径上的实体元素,根据前一单元输出的隐向量ht-1和对应的路径上实体元素的属性向量xt计算输出隐向量ht,直至完成对路径末端的元路径邻居节点的编码;在此过程中,利用注意力机制分配实例路径上每个实体元素在元路径邻居编码中的权重,记隐向量h1,h2,…,hl为实例路径上各实体元素对应GRU输出的隐向量,l为路径长度,则计算各实体元素的权重如下:
其中,Wα和bα分别是权重矩阵和偏置量,最终由训练得到,qα是随机初始化向量,σ为激活函数,α表示路径上实体元素的注意力权重;
然后,根据分配的权重对元路径邻居进行编码,得到该实例路径下的元路径邻居的表征向量p:
6.根据权利要求1所述的方法,其特征在于步骤S3中,具体步骤包括:
用户u在元路径Φ下有n个元路径邻居,对应的编码分别为p1,p2,…,pn,计算元路径邻居的权重如下:
其中,Wβ和bβ分别是权重矩阵和偏置量,最终由训练得到,qβ是随机初始化向量,σ为激活函数,[;]表示对向量的拼接操作,β表示元路径邻居的注意力权重
然后,根据分配的权重对元路径邻居进行聚合,得到用户u在元路径Φ下的表征向量
7.根据权利要求1所述的方法,其特征在于,步骤S4中,得到用户的最终表征的具体步骤为:
记关于用户u共有m条元路径Φ12,…,Φm,u在相应的元路径下的表征向量分别为 计算元路径权重如下:
其中,Wγ和bγ分别是权重矩阵和偏置量,最终由训练得到,qγ是随机初始化向量,σ为激活函数,γ表示元路径的注意力权重;然后,根据分配的权重聚合各元路径下的表征,得到用户u的最终表征向量eu
8.根据权利要求1所述的方法,其特征在于,步骤S5中,以多层感知机作为分类器,以用户u的最终表征eu为输入,输出中间结果zu,计算公式如下:
zu=ReLU(WL...ReLU(W1eu+b1)+bL)
其中,W*和b*表示每一层的权重函数和偏置向量,ReLU(.)是线性整流函数;然后,将zu输入sigmoid函数获得u的预测标签计算公式如下:
其中,w和b分别表示权重向量和偏置值。
9.根据权利要求1所述的方法,其特征在于,步骤S5中,已知训练集D,其中任意用户u的标签为yu,利用交叉熵建立损失函数如下:
其中,Θ表示参数的集合,λ表示规格化参数,||.||2表示L2范数。
10.根据权利要求1所述的方法,其特征在于,步骤S5中,利用随机梯度下降或其变种方法优化目标函数,学习得到模型参数。
CN202311531032.XA 2023-11-16 2023-11-16 一种面向社会化问答平台的恶意用户检测方法 Active CN117725210B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311531032.XA CN117725210B (zh) 2023-11-16 2023-11-16 一种面向社会化问答平台的恶意用户检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311531032.XA CN117725210B (zh) 2023-11-16 2023-11-16 一种面向社会化问答平台的恶意用户检测方法

Publications (2)

Publication Number Publication Date
CN117725210A true CN117725210A (zh) 2024-03-19
CN117725210B CN117725210B (zh) 2024-06-14

Family

ID=90202443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311531032.XA Active CN117725210B (zh) 2023-11-16 2023-11-16 一种面向社会化问答平台的恶意用户检测方法

Country Status (1)

Country Link
CN (1) CN117725210B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120011428A1 (en) * 2007-10-17 2012-01-12 Iti Scotland Limited Computer-implemented methods displaying, in a first part, a document and in a second part, a selected index of entities identified in the document
US20200050182A1 (en) * 2018-08-07 2020-02-13 Nec Laboratories America, Inc. Automated anomaly precursor detection
US20200137083A1 (en) * 2018-10-24 2020-04-30 Nec Laboratories America, Inc. Unknown malicious program behavior detection using a graph neural network
CN111274907A (zh) * 2020-01-16 2020-06-12 支付宝(杭州)信息技术有限公司 使用类别识别模型来确定用户的类别标签的方法和装置
CN114528755A (zh) * 2022-01-25 2022-05-24 国网冀北电力有限公司 一种基于注意力机制结合gru的电力设备故障检测模型
CN115344697A (zh) * 2022-08-03 2022-11-15 南京审计大学 一种在线问答社区中检测欺诈性问答的方法
CN115408603A (zh) * 2022-07-27 2022-11-29 闽江学院 一种基于多头自注意力机制的在线问答社区专家推荐方法
CN116245110A (zh) * 2022-12-26 2023-06-09 四川大学 基于图注意力网络的多维度信息融合用户立场检测方法
CN116414962A (zh) * 2023-04-11 2023-07-11 南京邮电大学 一种基于注意力机制的问答匹配方法
CN117009674A (zh) * 2023-07-05 2023-11-07 中国计量大学 融合数据增强和对比学习的云原生api推荐方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120011428A1 (en) * 2007-10-17 2012-01-12 Iti Scotland Limited Computer-implemented methods displaying, in a first part, a document and in a second part, a selected index of entities identified in the document
US20200050182A1 (en) * 2018-08-07 2020-02-13 Nec Laboratories America, Inc. Automated anomaly precursor detection
US20200137083A1 (en) * 2018-10-24 2020-04-30 Nec Laboratories America, Inc. Unknown malicious program behavior detection using a graph neural network
CN111274907A (zh) * 2020-01-16 2020-06-12 支付宝(杭州)信息技术有限公司 使用类别识别模型来确定用户的类别标签的方法和装置
CN114528755A (zh) * 2022-01-25 2022-05-24 国网冀北电力有限公司 一种基于注意力机制结合gru的电力设备故障检测模型
CN115408603A (zh) * 2022-07-27 2022-11-29 闽江学院 一种基于多头自注意力机制的在线问答社区专家推荐方法
CN115344697A (zh) * 2022-08-03 2022-11-15 南京审计大学 一种在线问答社区中检测欺诈性问答的方法
CN116245110A (zh) * 2022-12-26 2023-06-09 四川大学 基于图注意力网络的多维度信息融合用户立场检测方法
CN116414962A (zh) * 2023-04-11 2023-07-11 南京邮电大学 一种基于注意力机制的问答匹配方法
CN117009674A (zh) * 2023-07-05 2023-11-07 中国计量大学 融合数据增强和对比学习的云原生api推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
商家衡等: ""基于网络日志的用户行为检测和画像构建技术"", 《计算机时代.》, 31 December 2022 (2022-12-31), pages 25 - 28 *
李玉等: ""基于抽象汇编指令的恶意软件家族分类方法"", 《北京航空航天大学学报》, 31 December 2022 (2022-12-31), pages 348 - 355 *

Also Published As

Publication number Publication date
CN117725210B (zh) 2024-06-14

Similar Documents

Publication Publication Date Title
Shen et al. Auror: Defending against poisoning attacks in collaborative deep learning systems
Lu et al. Robust few-shot learning for user-provided data
CN107704877A (zh) 一种基于深度学习的图像隐私感知方法
CN107835113A (zh) 一种基于网络映射的社交网络中异常用户检测方法
CN110378366A (zh) 一种基于耦合知识迁移的跨域图像分类方法
Wu et al. Semi-supervised image classification with self-paced cross-task networks
CN112269922B (zh) 一种基于网络表示学习的社区舆论关键人物发现方法
CN115344697B (zh) 一种在线问答社区中检测欺诈性问答的方法
Liu et al. Set-label modeling and deep metric learning on person re-identification
CN111191099B (zh) 一种基于社交媒体的用户活动类型识别方法
CN109949174A (zh) 一种异构社交网络用户实体锚链接识别方法
Ding et al. SOIDP: Predicting interlayer links in multiplex networks
Peuhkuri et al. The role of knowledge and spatial contexts in biodiversity policies: a sociological perspective
Kumar et al. Graph Convolutional Neural Networks for Link Prediction in Social Networks
Oh et al. Context-based abnormal object detection using the fully-connected conditional random fields
CN117725210B (zh) 一种面向社会化问答平台的恶意用户检测方法
CN108519993A (zh) 基于多数据流计算的社交网络热点事件检测方法
CN111159569A (zh) 一种基于用户个性化特征的社交网络用户行为预测方法
Liu et al. Assessing Membership Leakages via Task-Aligned Divergent Shadow Datasets in Vehicular Road Cooperation
CN116306969A (zh) 基于自监督学习的联邦学习方法和系统
CN114782209B (zh) 一种基于社交网络拓扑图的关联用户身份识别方法
CN115952362A (zh) 一种用于社交媒体的自演化假消息检测方法
Luo et al. DeepAttr: Inferring demographic attributes via social network embedding
CN113887577A (zh) 一种基于微观事件图谱的细粒度电信网络反欺诈检测方法
Feng Research on Image‐Based Movement Accuracy Monitoring of Aerobics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant