CN117725210A

CN117725210A - 一种面向社会化问答平台的恶意用户检测方法

Info

Publication number: CN117725210A
Application number: CN202311531032.XA
Authority: CN
Inventors: 张璐; 方昌健; 伍之昂; 陆红如
Original assignee: NANJING AUDIT UNIVERSITY
Current assignee: NANJING AUDIT UNIVERSITY
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2024-03-19
Anticipated expiration: 2043-11-16
Also published as: CN117725210B

Abstract

本发明公开了一种面向社会化问答平台的恶意用户检测方法。提取社会化问答平台中的用户、问题、答案、问答群组等实体元素及其属性，构建社会化问答场景下的属性异构信息网络并定义描述用户关系的元路径；针对特定元路径下每个实例路径的元路径邻居，利用门控循环单元对其进行编码；分别在单个元路径及所有元路径层级对用户的元路径邻居特征进行聚合，获得用户的最终表征，期间，利用层次注意力机制为各实体元素和元路径邻居分配权重；最后，将聚合后得到的用户表征向量输入分类器，利用标记数据学习分类器参数。所得分类器可用来分类无标记的用户，判定其是否为恶意用户。本发明能够更加准确、全面的检测出社会化问答平台中蓄意伪装的恶意用户。

Description

一种面向社会化问答平台的恶意用户检测方法

技术领域

本发明涉及一种社会化问答平台中检测发布虚假信息的恶意用户的方法，属于数据挖掘与网络空间安全领域。

技术背景

随着社会化问答平台(如知乎、百度知道等)规模及影响力的不断扩大，大量恶意用户在其中发布虚假信息及欺诈性内容，扭曲普通用户的价值判断并影响其行为决策，从而达成水军推销或抹黑特定商品与服务的目的。

因此，检测社会化问答平台中的恶意用户，已成为净化社区环境，维护平台公信力及网络空间安全亟待解决的重要问题，学术界和工业界对此开展了深入研究并提出了很多检测恶意用户的方法。如论文Revealing,characterizing,and detecting crowdsourcingspammers:A case study in community Q&A和Detecting crowdsourcing spammers incommunity question answering websites等工作将恶意用户的识别形式化为二分类问题，然后提取用户的基础信息、发布问题/答案数，发布最佳答案比例等特征，通过贝叶斯、决策树等分类器识别恶意用户。然而，当前方法对恶意用户的识别依赖于构造和提取出具有显著差异性的用户特征，对于深度伪装的，各种特征与正常用户无显著差异的恶意用户，识别效果不佳。

为解决以上问题，申请人从检测欺诈性问答入手进行了研究，并早期向国家知识产权局提交了专利申请：一种在线问答社区中检测欺诈性问答的方法，公开号CN115344697A，该方案聚焦于欺诈性问题和答案的检测，利用问答间多种不同类型的关联关系，提升对群体性欺诈问答的识别能力。申请人在实际应用中发现，虽然通过欺诈性问答可以进一步关联出恶意用户，但这种间接检测的方式具有滞后性，且检测误差容易被传递和放大。

发明内容

为解决上述问题，本发明提出了一种面向社会化问答平台的恶意用户检测方法，提取问答群组的前提下，充分利用无法掩盖的实体间交互关系，识别社会化问答平台中深度伪装的恶意用户。本发明所要解决的技术问题在于如何将用户间的复杂交互关系集成到识别模型中，即在用户分类时既利用其本身的属性，也考虑与其有交互关系的其他用户的特征，共同完成用户是否恶意的识别。采用属性异构信息网络建模社会化问答场景，利用元路径建模用户间的复杂交互关系，以注意力机制分配各类实体元素权重，聚合用户的元路径邻居特征以识别恶意用户。

一种面向社会化问答平台的恶意用户检测方法，利用用户属性及交互关系识别社会化问答平台中高度伪装的恶意用户。本发明所述方法的主要步骤包括：

步骤S1，从社会化问答平台中提取用户、问题、答案等实体元素及其相关属性和相互关系，构建描述社会化问答场景的属性异构信息网络，并建立若干用户间不同语义关系的元路径，每个元路径包含多个实例路径。

优选地，提取的实体元素至少包括用户、问题、答案、问答群组，其中：

·用户属性至少包括问题数、答案数、经验值、最佳答案率、平均答案长度等；

·问题属性至少包括标签类型、描述文本、奖励值、答案数量、解决情况等；

·答案属性至少包括评论文本、最佳标记、联系方式、关注领域、匿名情况等；

·问答群组属性至少包括提问者与回答者比例、问答间隔，问答突发率等。

优选地，用户间的元路径至少包括：

·问答关系元路径：

·群组关系元路径：

优选地，问答群组的提取通过问答文本聚类方法进行，利用潜在主题模型提取每个问答的主题分布建立主题向量，然后对主题向量聚类获得群组。

步骤S2，利用门控循环单元GRU对每个实例路径上的元路径邻居进行编码，并利用注意力机制分配实例路径上各实体元素特征在编码时的权重。

假设u为待分类用户，x_u为该用户的属性向量，在构建的属性异构信息网络中，u会通过元路径定义的实例路径连接多个其他用户，称之为元路径邻居。对元路径邻居进行编码时，每个GRU对应一个实例路径上的实体元素，根据前一单元输出的隐向量h_t-1和对应的路径上实体元素的属性向量x_t计算输出隐向量h_t，直至完成对路径末端的元路径邻居节点的编码。在此过程中，利用注意力机制分配实例路径上每个实体元素在元路径邻居编码中的权重，假设隐向量h₁，h₂，...，h₁为实例路径上各实体元素对应GRU输出的隐向量，l为路径长度，则计算各实体元素的权重如下：

其中，W_α和b_α分别是权重矩阵和偏置量，最终由训练得到，q_α是随机初始化向量，σ为激活函数，α表示路径上实体元素的注意力权重。然后，根据分配的权重对元路径邻居进行编码，得到该实例路径下的元路径邻居的表征向量p：

步骤S3，对用户在特定元路径下的多个元路径邻居表征进行聚合，每个元路径邻居对应一条该元路径下的实例路径，并利用注意力机制分配多个元路径邻居的权重，得到用户的元路径级表征向量。

假设用户u在元路径Φ下有n个元路径邻居，对应的编码分别为p₁，p₂，...，p_n，计算元路径邻居的权重如下：

其中，W_β和b_β分别是权重矩阵和偏置量，最终由训练得到，q_β是随机初始化向量，σ为激活函数，[；]表示对向量的拼接操作，β表示元路径邻居的注意力权重。然后，根据分配的权重对元路径邻居进行聚合，得到用户u在元路径Φ下的表征向量

步骤S4，聚合用户在不同元路径下的表征，并利用注意力机制计算不同元路径的权重，得到用户的最终表征。

假设关于用户u共有m条元路径Φ₁，Φ₂，...，Φ_m，u在相应的元路径下的表征向量分别为计算元路径权重如下：

其中，W_γ和b_γ分别是权重矩阵和偏置量，最终由训练得到，q_γ是随机初始化向量，σ为激活函数，γ表示元路径的注意力权重。然后，根据分配的权重聚合各元路径表征，得到用户u的最终表征向量e_u：

步骤S5，建立分类模型，输入用户表征向量e_u，利用标注数据训练获得模型参数。

优选地，以多层感知机作为分类器，以用户u的最终表征e_u为输入，输出中间结果z_u，计算公式如下：

z_u＝ReLU(W_L...ReLU(W₁e_u+b₁)+b_L) (7)

其中，W_*和b_*表示每一层的权重函数和偏置向量，R_eLU(.)是线性整流函数。然后，将z_u输入sigmoid函数获得u的预测标签计算公式如下

其中，w和b表示权重向量和偏置值。

优选地，已知训练集D，其中任意用户u的标签为y_u，利用交叉熵建立损失函数如下：

其中，Θ表示参数的集合，λ表示规格化参数，||.||₂表示L2范数。然后，利用随机梯度下降或其变种方法优化目标函数，学习得到模型参数。

步骤S6，利用训练好的模型进行未知用户的表征和分类，以识别恶意用户。

与现有技术相比，本发明的有益效果体现在：能够充分利用社会化问答平台中用户间难以掩盖的复杂交互关系，更加有效地识别深度伪装的恶意用户。相较于申请CN115344697A，本申请直接针对恶意用户进行检测，有利于提升检测的时效性和准确率。

附图说明

图1是本发明所述方法的整体流程图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明：

图1显示了检测社会化问答平台中恶意用户的过程，其具体步骤如下：

步骤S1，提取实体元素，建立属性异构信息网络，定义特征属性和元路径；

步骤S2，对实例路径上的元路径邻居进行编码，利用注意力机制分配路径上实体元素的权重；

步骤S3，聚合特定元路径下所有实例路径对应的元路径邻居，利用注意力机制分配各元路径邻居的权重，获得用户的元路径级表征向量；

步骤S4，聚合用户在不同元路径下的元路径级表征，利用注意力机制分配各元路径的权重，获得用户的最终表征；

步骤S5，建立分类模型，将聚合后的用户表征向量输出分类模型，利用标记数据训练获得模型参数；

步骤S6，利用分类模型对未标记用户进行分类，识别恶意用户。

实施例

下面给出本发明的详细实施例。实施例以元路径Φ₁：为例阐述获得用户u的表征向量的过程。假设用户u在该元路径下共通过3条实例路径连接了另外三个用户u₁、u₂、u₃，即u₁、u₂、u₃为用户u在这一元路径下的元路径邻居，具体的实例路径为u-Q₁-A₁-u₁，u-Q₂-A₂-u₂，u-Q₃-A₃-u₃，其中Q表示问题，A表示答案。

步骤S1，以用户、问题、答案、群组为顶点，相互关系为边，构建属性异构信息网络。

步骤S2，利用门控循环单元GRU根据实例路径对元路径邻居进行编码，以u-Q₁-A₁-u₁为例，假设x_u、x_q、x_a、x₁分别为u、Q₁、A₁、u₁对应的属性向量。根据路径上的节点顺序，首先将随机初始化向量h₀和x_u输入GRU得到隐向量h₁，然后将h₁和x_q输入GRU得到隐向量h₂，再将h₂和x_a输入GRU得到影响量h₃，最后将h₃和x₁输入GRU得到隐向量h₄。接下来，根据公式(1)和(2)计算得到用户u在实例路径u-Q₁-A₁-u₁下元路径邻居u₁的编码p₁。同理，可计算出元路径邻居u₂和u₃的编码p₂和p₃。

步骤S3，将用户u的属性向量x_u及其元路径邻居u₁、u₂、u₃的编码p₁、p₂、p₃输入公式(3)和(4)，得到用户u在元路径Φ₁下的表征向量同理，重复步骤S2和S3，获得另外三个元路径下的表征向量Φ₂，Φ₃，Φ₄。

步骤S4，将Φ₁，Φ₂，Φ₃，Φ₄输入公式(5)和(6)，得到用户u最终的表征向量e_u。同理，对于训练集D中的所有用户得到其表征向量。

步骤S5，将训练集D中的所有用户的表征向量分别输入公式(7)和(8)，计算得到用户的预测标记。将预测标记和实际标记输入公式(9)，利用随机梯度下降学习到模型的参数。

步骤S6，对于无标记用户，利用训练好的模型对其元路径邻居进行编码和聚合，得到用户表征向量的同时对用户进行分类，以识别其是否为恶意用户。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种面向社会化问答平台的恶意用户检测方法，其特征在于根据社会化问答场景及其相关实体元素建立属性异构信息网络，聚合用户不同元路径上的邻居信息，然后利用分类器对聚合后的用户特征分类以识别恶意用户；步骤包括：

步骤S1，从社会化问答平台中提取实体元素及其相关属性和相互关系，构建描述社会化问答场景的属性异构信息网络，并建立若干用户间不同语义关系的元路径，每个元路径包含多个实例路径；

步骤S2，利用门控循环单元GRU对每个实例路径上的元路径邻居进行编码，并利用注意力机制分配实例路径上各实体元素特征在编码时的权重，以及元路径邻居的表征向量；

步骤S3，对用户在特定元路径下的多个元路径邻居编码进行聚合，每个元路径邻居对应一条该元路径下的实例路径，并利用注意力机制分配多个元路径邻居的权重，得到用户的元路径级表征向量；

步骤S4，聚合用户在不同元路径下的表征向量，并利用注意力机制计算不同元路径的权重，得到用户的最终表征；

步骤S5，建立分类模型，输入用户表征向量e_u，利用标注数据训练获得模型参数；

2.根据权利要求1所述的方法，其特征在于，步骤S1中，提取的实体元素至少包括用户、问题、答案、问答群组，其中：

用户属性至少包括问题数、答案数、经验值、最佳答案率、平均答案长度；

问题属性至少包括标签类型、描述文本、奖励值、答案数量、解决情况；

答案属性至少包括评论文本、最佳标记、联系方式、关注领域、匿名情况；

问答群组属性至少包括提问者与回答者比例、问答间隔，问答突发率。

3.根据权利要求1所述的方法，其特征在于,步骤S1中，构建的用户间的元路径至少包括：

问答关系元路径：用户问题/>答案/>用户，用户/>答案/>问题/>用户；

群组关系元路径：用户问题/>群组/>问题/>用户，用户/>答案/>群组/>答案/>用户。

4.根据权利要求3所述的方法，其特征在于，所述元路径中，问答群组的提取通过问答文本聚类方法进行，利用潜在主题模型提取每个问答的主题分布建立主题向量，然后对主题向量聚类获得群组。

5.根据权利要求1所述的方法，其特征在于步骤S2中，具体步骤包括：

u为待分类用户，x_u为该用户的属性向量，在构建的属性异构信息网络中，u会通过元路径定义的实例路径连接多个其他用户，称之为元路径邻居；对元路径邻居进行编码时，每个GRU对应一个实例路径上的实体元素，根据前一单元输出的隐向量h_t-1和对应的路径上实体元素的属性向量x_t计算输出隐向量h_t，直至完成对路径末端的元路径邻居节点的编码；在此过程中，利用注意力机制分配实例路径上每个实体元素在元路径邻居编码中的权重，记隐向量h₁,h₂,…,h_l为实例路径上各实体元素对应GRU输出的隐向量，l为路径长度，则计算各实体元素的权重如下：

其中，W_α和b_α分别是权重矩阵和偏置量，最终由训练得到，q_α是随机初始化向量，σ为激活函数，α表示路径上实体元素的注意力权重；

然后，根据分配的权重对元路径邻居进行编码，得到该实例路径下的元路径邻居的表征向量p：

6.根据权利要求1所述的方法，其特征在于步骤S3中，具体步骤包括：

用户u在元路径Φ下有n个元路径邻居，对应的编码分别为p₁,p₂,…,p_n，计算元路径邻居的权重如下：

其中，W_β和b_β分别是权重矩阵和偏置量，最终由训练得到，q_β是随机初始化向量，σ为激活函数，[；]表示对向量的拼接操作，β表示元路径邻居的注意力权重

然后，根据分配的权重对元路径邻居进行聚合，得到用户u在元路径Φ下的表征向量

7.根据权利要求1所述的方法，其特征在于，步骤S4中，得到用户的最终表征的具体步骤为：

记关于用户u共有m条元路径Φ₁,Φ₂,…,Φ_m，u在相应的元路径下的表征向量分别为计算元路径权重如下：

其中，W_γ和b_γ分别是权重矩阵和偏置量，最终由训练得到，q_γ是随机初始化向量，σ为激活函数，γ表示元路径的注意力权重；然后，根据分配的权重聚合各元路径下的表征，得到用户u的最终表征向量e_u：

8.根据权利要求1所述的方法，其特征在于，步骤S5中，以多层感知机作为分类器，以用户u的最终表征e_u为输入，输出中间结果z_u，计算公式如下：

z_u＝ReLU(W_L...ReLU(W₁e_u+b₁)+b_L)

其中，W_*和b_*表示每一层的权重函数和偏置向量，ReLU(.)是线性整流函数；然后，将z_u输入sigmoid函数获得u的预测标签计算公式如下：

其中，w和b分别表示权重向量和偏置值。

9.根据权利要求1所述的方法，其特征在于，步骤S5中，已知训练集D，其中任意用户u的标签为y_u，利用交叉熵建立损失函数如下：

其中，Θ表示参数的集合，λ表示规格化参数，||.||₂表示L2范数。

10.根据权利要求1所述的方法，其特征在于，步骤S5中，利用随机梯度下降或其变种方法优化目标函数，学习得到模型参数。