CN116633589A - 社交网络中恶意账户检测方法、设备及存储介质 - Google Patents
社交网络中恶意账户检测方法、设备及存储介质 Download PDFInfo
- Publication number
- CN116633589A CN116633589A CN202310377102.4A CN202310377102A CN116633589A CN 116633589 A CN116633589 A CN 116633589A CN 202310377102 A CN202310377102 A CN 202310377102A CN 116633589 A CN116633589 A CN 116633589A
- Authority
- CN
- China
- Prior art keywords
- account
- matrix
- feature
- social network
- malicious
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 62
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims abstract description 71
- 238000000034 method Methods 0.000 claims abstract description 62
- 230000004927 fusion Effects 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 14
- 230000003993 interaction Effects 0.000 claims abstract description 8
- 238000010606 normalization Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 50
- 230000006399 behavior Effects 0.000 claims description 38
- 238000000605 extraction Methods 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 description 7
- 230000009467 reduction Effects 0.000 description 7
- 230000003542 behavioural effect Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 4
- 238000010187 selection method Methods 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 206010018985 Haemorrhage intracranial Diseases 0.000 description 2
- 208000008574 Intracranial Hemorrhages Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000005086 pumping Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/16—Threshold monitoring
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Tourism & Hospitality (AREA)
- Computer Hardware Design (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Molecular Biology (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Human Resources & Organizations (AREA)
Abstract
本发明公开了一种社交网络中恶意账户检测方法、设备及存储介质,所述方法包括获取多条账户行为记录数据,对每条账户行为记录数据进行预处理,并根据时间维度对所有预处理后的账户行为记录数据进行分组;对分组处理后的数据进行特征提取,得到各账户的自身特征;将同一账户的自身特征进行组合,生成该账户的特征矩阵;基于账户与账户之间的交互关系得到邻接矩阵;对每个账户的特征矩阵与邻接矩阵进行特征融合,得到对应账户的特征融合矩阵;对每个账户的特征融合矩阵进行归一化处理;对每个账户归一化处理后的值与预设阈值进行比较,得到该账户的检测结果。本发明解决了特征属性过多以及自身特征与关系特征难以融合导致检测效率低的问题。
Description
技术领域
本发明属于网络安全监测技术领域,尤其涉及一种社交网络中恶意账户检测方法、设备及存储介质。
背景技术
随着互联网以及各种移动智能终端的发展,在线社交网络(Online Socialnetworks,OSN)平台得到迅猛发展。在线社交网络已经逐渐代替传统网络社交方式(如电子邮件),成为人们广泛选择的一种交友、工作、生活以及娱乐的方式。并且随着在线社交网络用户规模的不断扩大,也为媒体、广告、娱乐以及体育等行业带来巨大的商业机会。
在在线社交网络给人们生活带来方便,给商业者带来利益的同时,也存在巨大的新型安全隐患——面向在线社交网络的攻击。在线社交网络的攻击者们利用在线社交网络中创建的恶意账户以及盗用的被劫持账户(统称为恶意账户)来进行攻击行为,以牟取利益,例如发送垃圾信息,进行点击欺诈来获得付费的广告点击量,传播恶意软件,甚至非法获取用户隐私信息等。这些恶意账户有着比真实用户更快速、更大量的传播内容的能力。
为了减少利用恶意账户攻击带来的安全隐患,近几年,研究者们提出了各种各样的检测方法(参见Sheikhi,S.."An Efficient Method for Detection of Fake Accountson the Instagram Platform."Revue D Intelligence Artificielle 34.4(2020):429-436)。社交网络的恶意账户检测方法按照检测依赖的特征主要分为三类(参见ElvisH.W.Xu,Pak Ming Hui:Uncovering complex overlapping pattern of communities inlarge-scale social networks.Appl.Netw.Sci.4(1):27:1-27:16(2019)):
第一类是基于行为特征的方法。恶意账户的建立大多是为了执行恶意攻击行为来获取非法利益,比如发送垃圾信息,点击欺诈,恶意软件的传播等。正常用户和恶意用户在社交网络中有不同的行为模式。因此,可以通过建立用户的行为模型来检测恶意账户。
第二类方法是基于内容特征的方法。从用户发布的信息或交互信息等寻找切入点,并从这些切入点中寻找特征,然后使用机器学习算法训练相应的分类器。
这两类方法都需要大量的真实结果作为依据,来增强检测模型或者不断训练检测系统以提高检测性能(参见G.Wang,T.Konolige,C.Wilson,X.Wang,H.Zheng,andB.Y.Zhao.You are How You Click:Clickstream Analysis for Sybil Detection.InUSENIX SECURITY,2013),但恶意账户之间往往存在一些密切的关联,但这两类方法往往忽略了用户和用户之间的关系特征,因此它们都有较高的漏报率和误报率。
第三类方法是基于社交网络拓扑结构特征的分析方法(参见Bt,A,and Z.Li."Local preserving logistic I-Relief for semi-supervised feature selection."Neurocomputing 399(2020):48-64)。将社交网络看作是一个完整的图,在社交网络中,两个用户之间如果建立了一个关系,则共享一条边,每个用户代表社交网络图的一个顶点,通过分析社交网络图结构特征,从其中获得特征并建立一个高效的检测算法。攻击者虽然能够模仿正常用户的任意行为,但是很难和正常用户建立大量良好的社交关系(参见Velammal,B.L.,and N.Aarthy."Improvised Spam Detection in Twitter Data UsingLightweight Detectors and Classifiers."International Journal of Web-BasedLearning and Teaching Technologies(IJWLTT)16(2021))并改变整个社交网络的拓扑特征。因此,大量研究者使用图分析算法来建立图的拓扑结构特征来辨别恶意账户。
现有研究参见Aswani,R.,A.K.Kar,and P.Vigneswara Ilavarasan."Detectionof Spammers in Twitter marketing:A Hybrid Approach Using Social MediaAnalytics and Bio Inspired Computing."Information Systems Frontiers(2018),这些研究基于图,但是这些设计或者有较低的检测率,或者有着较高的算法复杂度,仅适用于较小规模的社交网络图中(Chen,T.,H.Tong,and M.Benesty."xgboost:Extreme GradientBoosting."(2016)),很难真正的实际应用到大规模社交网络的恶意账户检测当中。且此类方法往往忽略了用户自身的属性特征。
恶意账户特征属性往往比较多,从众多属性中筛选出对检测恶意账户有用的特征属性,即特征选择,也是研究者们研究的一个重点。特征选择(feature selection)作为一种常见的降维方法是模式识别的研究热点之一。它是指从原始特征集中选择使某种评估标准最优的特征子集,其目的是使选出的最优特征子集所构建的分类或回归模型达到和特征选择前近似甚至更好的预测精度,这不但提高了模型的泛化能力、可理解性和计算效率,同时可降低“维度灾难”的发生频率。
为了建立性能良好的模型,在过去的几十年中已经提出了许多特征选择方法。早期的特征选择主要考虑在全监督的情况下进行。全监督的特征选择方法包括基于Relief的方法(参见Liu,K.,et al."Rough set based semi-supervised feature selection viaensemble selector."Knowledge-Based Systems 165.FEB.1(2019):282-296)和基于Fisher准则的方法(参见Klein,A.,and G.Melard."Invertibility Condition of theFisher Information Matrix of a VARMAX Process and the Tensor SylvesterMatrix."Working Papers ECARES(2020))等。基于Relief的方法通过计算样本间隔,优化目标函数获得特征权重;基于Fisher准则的方法,其基本原理是找到一个投影轴,投影到该轴上的样本交叉部分尽可能达到最小,得到明显的分类界限。全监督特征选择可能会遇到贴错标签的数据,这会误导该类方法删除某些相关特征并保留不相关的特征;而且,全监督特征选择需要大量难以获得的标记数据,这种方法的一个挑战是标签由外部知识给出,无法验证其正确性(参见Zeng,X.,and H.Zheng."CS Sparse K-means:An Algorithm forCluster-Specific Feature Selection in High-Dimensional Clustering."(2019))。通过无意删除许多相关特征或具有判别性的特征,这一事实加剧了全监督特征选择过拟合学习的风险。与全监督的特征选择方法相比,由于缺少标签的辅助,无监督特征选择被认为是一个更加困难的问题,面临着更大的挑战(参见Jza,B,et al."Generalized refinedcomposite multiscale fuzzy entropy and multi-cluster feature selection basedintelligent fault diagnosis of rolling bearing."ISATransactions(2021))。
鉴于所处理的数据不具有标签信息,研宄人员定义了与特征相关的准则,一种常用的准则是选择能够最好地保留原始数据流形结构的特征(参见Li,K.,J.Zhang,andZ.Fang."Communication Emitter Identification Based on Kernel Semi-supervisedDiscriminant Analysis."2019IEEE International Conference on Power,IntelligentComputing and Systems(ICPICS)IEEE,2019),另一种不常用的方法是通过聚类算法来标记数据,然后将无监督特征选择转换到全监督框架下(参见Benabdeslem,K,andM.Hindawi."Efficient Semi-Supervised Feature Selection:Constraint,Relevance,and Redundancy."IEEE Transactions on Knowledge&Data Engineering26.5(2014):1131-1143)。由于没有先验知识的指导,无监督方法忽略了特征与任务之间可能产生的联系。因此,所得到的特征子集对于实际的判别任务可能不是最佳的。并且无监督依赖于某些假设原理,但并不能保证这些假设原理对所有的数据集都通用。
相比之下,半监督特征选择有着更好的适用性。当标记数据的数量有限时,半监督特征选择方法能够充分利用未标记的数据选择特征。在半监督特征选择算法中,标记数据用于最大化不同类别样本之间的边距,而未标记数据则用于发现特征空间的几何结构。常见的半监督方法有基于拉普拉斯算子的方法,如半监督判别分析(Seim-supervisedDiscriminant Analysis,SDA)。然而,在处理大规模数据集时图的构造比较耗时且效率较低。基于对约束,zhang等人提出了一种有效的降维方法,称为半监督降维(Semi-Sopervised Dimensionality Reduction,SSDR),该方法使用约束信息保留数据的局部结构。Benadeslem和Hindawi(Benabdeslem,K,and M.Hindawi."Efficient Semi-SupervisedFeature Selection:Constraint,Relevance,and Redundancy."IEEE Transactions onKnowledge&Data Engineering 26.5(2014):1131-1143)探索了另一种基于对约束的半监督方法,称为约束拉普拉斯得分(Constrained Laplacian Score,CLS)。CLS可以通过事先设置的“必须链接”约束和“未链接”约束获得相似样本与相异样本,然后使用得到的信息构建相邻图并计算特征的约朿拉普拉斯得分。根据得分结果,CLS消除数据中的冗余特征。但在这种情况下,CLS算法取决于用户定义的链接。因此,如果用户重新定义约束集,则相应的特征分数也会被修改,这些方法是全监督方法在半监督领域的拓展。
在社交网络中的恶意账户检测方面存在一些问题:
首先,特征收集。大部分研究都是根据经验提出一系列特征,且以行为特征,内容特征和属性特征居多,往往忽略了恶意用户与正常用户在做出不同行为时的时段特征和行为协同特征。
第二,特征选择。大部分文献在特征提出来之后并没有对特征进行重要性分析,部分文献也仅仅采取了不同特征值进行组合对比的人工方法,没有考虑到特征冗余的情况。大量的特征会对数据的存储和模型的运算带来挑战,同时随着时间的推移和恶意用户的不断升级与改变,一些经典的特征也不会长久的适用于恶意用户的检测,所以在进行模型训练之前作特征工程选取重要特征非常有必要,选择重要程度高的特征用于模型的训练,不仅减少了运算时间和存储复杂度,还能对恶意用户的识别特征更加明确,同时,也减少了噪声或无关数据,提升了模型的识别性能。
第三,模型选择。近些年,大部分研究人员对恶意账户的检测使用的是基于行为特征和社交特征的机器学习模型,很少有文献去同时关注账户本身的特征以及账户间的关系,以此来判断账户的属性。
因此,针对账户自身的特征以及账户间的相互关系发明一种灵活而又精确的恶意账户检测方法是具有挑战性的。
发明内容
本发明的目的在于提供一种社交网络中恶意账户检测方法、设备及存储介质,以解决由于社交网络中用户行为数据具有众多特征属性,数据量大,且有标签的数量少,传统检测方法没有将账户自身特征与账户间的关系同时考虑而导致考虑不够全面,检测精确率低的问题。
本发明是通过如下的技术方案来解决上述技术问题的:一种社交网络中恶意账户检测方法,包括以下步骤:
获取多条账户行为记录数据,对每条所述账户行为记录数据进行预处理,并根据时间维度对所有预处理后的账户行为记录数据进行分组;
对分组处理后的数据进行特征提取,得到各账户的自身特征;
将同一账户的自身特征进行组合,生成该账户的特征矩阵;
基于账户与账户之间的交互关系得到邻接矩阵;
对每个账户的所述特征矩阵与所述邻接矩阵进行特征融合,得到对应账户的特征融合矩阵;
对每个账户的特征融合矩阵进行归一化处理;
对每个账户归一化处理后的值与预设阈值进行比较,得到该账户的检测结果。
进一步地,所述预处理的具体实现过程为:
将缺失值大于95%的账户行为记录数据删除,并将剩余的账户行为记录数据转换成特征提取算法可识别的数据类型。
进一步地,所述将剩余的账户行为记录数据转换成特征提取算法可识别的数据类型的具体实现过程为:
对所述账户行为记录数据中的每项进行分段拼接、数字特征提取或编码处理,使每项均转换成数字类型。
进一步地,采用XGBoost算法对分组处理后的数据进行特征提取。
进一步地,所述邻接矩阵的具体表达式为:
其中,A为具有自我连接的邻接矩阵,n为账户数量;当账户i与账户j之间有交互时,Aij=1,否则Aij=0,且当i=j时,Aij=0。
进一步地,利用训练好的图卷积神经网络对每个账户的特征矩阵与所述邻接矩阵进行特征融合,特征融合具体公式为:
X'=σ(D-1/2AD-1/2XW(l))
其中,X'为特征融合矩阵;A为具有自我连接的邻接矩阵;D为对角矩阵,对角矩阵D中的每个元素Dii表示节点的度;σ()为激活函数;W(l)为图卷积神经网络第l层的训练参数;X为账户的特征矩阵。
进一步地,所述图卷积神经网络的具体训练过程为:
将每个账户的特征矩阵和邻接矩阵输入到图卷积神经网络中,输出特征融合矩阵;
对所述特征融合矩阵进行归一化处理,得到归一化值;
对所述归一化值和随机设置的阈值进行比较,得到账户的检测结果;
当检测结果的精确率和查全率不满足要求时,根据所述检测结果的精确率和查全率对所述阈值和图卷积神经网络的训练参数进行调整;
重复上述输入、归一化处理、比较和调整步骤,直到得到的检测结果的精确率和查全率满足要求,即得到训练好的图卷积神经网络。
进一步地,利用sigmoid函数对每个账户的特征融合矩阵进行归一化处理,得到(0,1)间的映射值。
基于同一发明构思,本发明还提供一种交网络中恶意账户检测设备,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行如上所述社交网络中恶意账户检测方法的步骤。
基于同一发明构思,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述社交网络中恶意账户检测方法的步骤。
有益效果
与现有技术相比,本发明的优点在于:
本发明所提供的一种社交网络中恶意账户检测方法,采用XGBoost算法从众多特征属性中提取对检测恶意账户相对重要的特征,并将该特征(即账户自身特征)与账户间关系(即邻接矩阵)进行融合后再进行检测判断,解决了传统检测方法中特征属性过多以及自身特征与关系特征难以融合导致检测效率低的问题,以及未考虑自身特征与账户间关联导致考虑不全面的问题;本发明仅提取相对重要的特征,并充分全面挖掘账户自身特征与账户间的关联,更贴近实际应用情况,提高了恶意账户检测精确率和检测效率。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一个实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中社交网络中恶意账户检测方法流程图;
图2是本发明实施例中XGBoot与前后端图卷积层之间的关系图。
具体实施方式
下面结合本发明实施例中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
实施例一
如图1所示,本实施例所提供的一种社交网络中恶意账户检测方法,包括以下步骤:
步骤1:数据预处理
获取多条账户行为记录数据,对每条账户行为记录数据进行预处理,并根据时间维度对所有预处理后的账户行为记录数据进行分组,得到分组处理后的数据。
如表1所示的账户行为记录数据,每条账户行为记录数据包括账户IP号、IP号地址、邮箱前缀、邮箱提供者、行为时间、资源目录等等项。如果单条账户行为记录数据的缺失值大于95%,则该条数据对恶意账户检测意义较小,因此删除对恶意账户检测无意义或意义较小的数据,一方面降低了处理数据条数,提高了检测效率,另一方面避免了无意义数据影响检测结果,提高了检测精确率。
表1单条账户行为记录数据
后续将采用特征提取算法从剩余的账户行为记录数据中提取出账户的自身特征,因此需要将每条账户行为记录数据转换成特征提取算法可识别的数据类型。本实施例中,特征提取算法采用XGBoost算法,因此需将每条账户行为记录数据转换成XGBoost算法可识别的数据类型,具体转换过程为:
对账户行为记录数据中的每项进行分段拼接、数字特征提取或编码处理,使每项均转换成数字类型。
示例性的,如表2所示,对账户IP号(119.28.62.29)进行分段、拼接处理,使账户IP号转换成数字类型。
表2账户IP号分段拼接处理
原IP | IP_1 | IP_2 | IP_3 | IP_4 | IP_12 | IP_123 |
119.28.62.29 | 119.0 | 28.0 | 62.0 | 29.0 | 119028.0 | 119028062.0 |
示例性的,如表3所示,对Time_stamp提取事件发生前两个小时,使Time_stamp转换成数字类型。其中,原时间10/1218:49:51代表10月12日18点49分51秒,1218代表12日18时,1217代表12日17时即事件发生前一小时,1216代表12日16时即事件发生前两小时。
表3Time_stamp数字特征提取
Time_stamp | Time_stamp_day | Time_stamp_hour | Time_stamp_hour1 | Time_stamp_hour2 |
10/12 18:49:51 | 12 | 1218 | 1217 | 1216 |
示例性的,对IP_city/Mobile_city进行编码处理,用编码代表城市名,例如如果Hongkong为1,则IP_city=1。
恶意账户行为在时间上有聚集性,按照时间维度对剩余的多条账户行为记录数据进行分组能够更好的提取账户自身特征。本实施例中,以一小时为单位,将一小时内的多条账户行为记录数据分为一组。
步骤2:特征提取
采用特征提取算法对分组处理后的数据进行特征提取,得到所有账户的自身特征。本实施例中,特征提取算法采用XGBoost算法。XGBoost算法使用正则化学习和缓存感知的块状结构树进行集合空间的学习,如图2所示,采用XGBoost算法进行特征提取的具体实现过程为:
生成K棵CART决策树;
对K棵CART决策树进行加总,将包含m个特征、容量为n的数据集记为D={(xi,yi)(|D|=n,xi∈Rm,yi∈R)},CART决策树的模型函数表示为:
其中,f(x)是其中一棵回归树,F={f(x)=wq(x)}(q:Rm→T,w∈RT)为回归树的集合空间,wq(x)为叶子节点q的分数;
使用正则化学习和缓存感知的块状结构树进行集合空间的学习,具体实现过程为:通过迭代的二阶泰勒序列提取特征:
其中,L(t)为第t次迭代时的损失函数,l为可微的凸损失函数,是第i个实例在第t-1次迭代时的预测值,ft是一个t层梯度提升决策树,gi和hi表示损失函数的一阶和二阶梯度,Ω(ft)为正则化项;
使用增益来确定最佳分割节点:
其中,IL和IR分别代表分割后左、右节点的样本;I=IL∪IR,λ,γ为惩罚参数;增益gain表示树的每个分裂的增益分数,最终的特征重要性分数是由平均增益计算的,平均增益是所有树的总增益除以每个特征的总分裂数。XGBoost的特征重要性分数越高,相应的特征就越重要和有效;提升树的数量和最大深度被设置为参数,损失函数为二进制:Logistic,其他使用默认参数。采用XGBoost算法进行特征提取的具体实现过程可参考Multi-Layer ResNet-DenseNet architecture in consort with the XgBoostclassifier for intracranial hemorrhage(ICH)subtype detection andclassification.(Journal of intelligent and fuzzy systems).
XGBoost算法的特征提取过程就是训练过程,XGBoost算法训练完成时,特征也被提取出来,平均增益大的特征就是提取出的特征。
步骤3:特征矩阵的生成
步骤2得到所有账户的自身特征,将同一账户的自身特征进行组合即得到该账户的特征矩阵。
步骤4:邻接矩阵的获取
设邻接矩阵为A,则邻接矩阵A的具体表达式为:
其中,n为账户数量;当账户i与账户j之间有交互时,Aij=1,否则Aij=0,且当i=j时,Aij=0。
步骤5:特征融合
本实施例中,采用训练好的图卷积神经网络对每个账户的特征矩阵X与邻接矩阵A进行特征融合,得到对应账户的特征融合矩阵,特征融合具体公式为:
X'=σ(D-1/2AD-1/2XW(l)) (5)
其中,X'为特征融合矩阵;A为具有自我连接的邻接矩阵;D为对角矩阵,对角矩阵D中的每个元素Dii表示节点的度;σ()为激活函数;W(l)为图卷积神经网络第l层的训练参数;X为账户的特征矩阵。
将每个账户的特征矩阵X与邻接矩阵A输入至训练好的图卷积神经网络即可得到对应的特征融合矩阵。本实施例中,图卷积神经网络的具体训练过程为:
步骤5.1:将每个账户的特征矩阵和邻接矩阵输入到图卷积神经网络中,输出特征融合矩阵(参见式(1));
步骤5.2:利用sigmoid函数对所述特征融合矩阵进行归一化处理,得到(0,1)间的归一化值;
步骤5.3:对所述归一化值和随机设置的阈值进行比较,得到账户的检测结果;
步骤5.4:根据所述检测结果的精确率和查全率对所述阈值和图卷积神经网络的训练参数进行调整;
步骤5.5:重复步骤5.1~5.4,直到得到的检测结果满足精确率和查全率,即得到训练好的图卷积神经网络。
阈值是由随机函数随机生成的,满足精确率和查全率的检测结果所对应的阈值即为最优阈值,将最优阈值作为步骤6中的预设阈值,同时保存满足精确率和查全率的检测结果所对应图卷积神经网络的训练参数,即得到训练好的图卷积神经网络。
精确率(Precision)和查全率(Recall)的计算方式如下:
其中:TP为正确判断为恶意账户的数目;FN为把恶意账户识别为非恶意账户的数目;FP为把非恶意账户识别为恶意账户的数目;TN正确判断为非恶意账户的数目。
步骤6:归一化处理
利用sigmoid函数对每个账户的特征融合矩阵进行归一化处理,得到(0,1)间的映射值。归一化处理的目的是便于将特征融合矩阵与预设阈值进行比较判断。
步骤7:对每个账户归一化处理后的值与预设阈值进行比较,得到该账户的检测结果。
实施例二
以某知名代表性社交网站的用户行为数据集为例来说明本发明检测方法的有效性。由多条账户行为记录数据构成的数据集是由国内某知名人工智能技术公司提供的非公开数据集,该公司为金融机构提供智能风险控制和监管。本实施例数据集由138万用户的538万条行为记录数据组成。
对数据集中的每条行为记录数据进行预处理,并使用XGBoost算法来获得特征的重要性。在训练过程中,使用70%的标记样本数据作为训练集,其余30%的标记数据作为测试集。在建立树模型时,算法的参数需要定义具体数值,将树的数量定义为估计值,树的深度设置为4。
表4列出了不同参数对应的精确率和特征重要性(前5个特征)的排名结果。
表4不同参数对应的精确率和特征重要性的排名结果
从表4可以看出,当树的数量为N=30时,精确率是最高的。对17个特征(即表1中列举的行为记录数据的17项)进行了编号,选定的特征用数字表示。同时,将XGBoost算法与其他几种常用的特征选择(FS)方法进行比较。如表5所示的其他FS算法得到的特征重要性排名(前5名)。
表5其他FS算法得到的特征重要性排名
算法 | 特征 |
Gini权重 | 3,5,7,8,15 |
Chi-square权重 | 3,5,7,9,15 |
分层变量聚类 | 1,3,6,9,13 |
相关性权重 | 3,5,8,12,16 |
信息量权重 | 3,5,7,8,16 |
从表4和5可以看出,有些特征出现在多个特征选择算法的结果中,这些特征将被用于下部分关于检测社交网络中恶意账户检测方法的对比实验。
为了验证基于XGBoost的图卷积神经网络算法在社交网络中检测恶意账户的有效性,在服务器下运行来实现本发明方法(配置:Xeon 4核CPU 8G内存os:CentOS7.2.6网络带宽200Mbps),使用开源的DeepWalk(参见C.Yang and Z.Liu,Comprehend deepwalk asmatrix factorization,Computer Science,2015)、Matapath2vec(参见Y.Dong,N.V.Chawla,and A.Swami,metapath2vec:Scalable representation learning forheterogeneous networks,in Proceedings of the 23rd ACM SIGKDD internationalconference on knowledge discovery and data mining,2017,pp.135-144.)和GraphConvolution Neural Networks(GCN)算法随机选择特征的Java实现,以比较本发明方法各方面性能。同时,将XGBoost算法与其他几种常用的特征选择FS(Feature Selection)方法进行了比较。
实验分析:将利用各种FS算法选择的重要特征与本发明XGBoost算法提取的特征相比较,每个FS算法都会筛选出前五个特征,如表5所示,并计算各FS算法的精确率,如表6所示。
表6各FS算法的精确率
算法 | 精确率 |
Gini权重 | 0.6875 |
Chi-square权重 | 0.5774 |
分层变量聚类 | 0.6487 |
相关性权重 | 0.4298 |
信息量权重 | 0.6099 |
XGB-GCN | 0.7584 |
从表6中可以看出,通过XGBoost算法获得的重要特征在后续图卷积神经网络GCN中更为突出。与其他机器学习算法相比,如表7所示,随机GCN模型(randomGCN)取得了比DeepWalk更好的性能,因为随机GCN模型不仅考虑了图的结构,而且还处理了节点的特征。Metapath2vec比DeepWalk和随机GCN要好,这是因为在恶意账户检测的实例中,隐藏在不同关系中的信息比账户本身包含的信息更重要。本发明XGB-GCN方法优于所有比较的方法,因为它可以联合处理节点特征和节点关系信息。
表7本发明算法与其他算法的比较
本发明提出基于XGBoost的GCN模型来检测社交网络中活跃的恶意账户,使用XGBoost算法来过滤特征,从而达到降维的目的;同时,使用GCN模型来检测恶意账户,GCN模型不仅考虑账户之间的联系,还考虑账户本身的特征。在实验中,本发明XGB-GCN模型可以达到比其他算法更高的精确性,同时大大减少了训练时间,特别是在特征选择和检测部分。因此,事实证明,本发明方法可实际应用于社交网络中主动恶意账户检测。
以上所揭露的仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或变型,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种社交网络中恶意账户检测方法,其特征在于,包括以下步骤:
获取多条账户行为记录数据,对每条所述账户行为记录数据进行预处理,并根据时间维度对所有预处理后的账户行为记录数据进行分组;
对分组处理后的数据进行特征提取,得到各账户的自身特征;
将同一账户的自身特征进行组合,生成该账户的特征矩阵;
基于账户与账户之间的交互关系得到邻接矩阵;
对每个账户的所述特征矩阵与所述邻接矩阵进行特征融合,得到对应账户的特征融合矩阵;
对每个账户的特征融合矩阵进行归一化处理;
对每个账户归一化处理后的值与预设阈值进行比较,得到该账户的检测结果。
2.根据权利要求1所述的社交网络中恶意账户检测方法,其特征在于,所述预处理的具体实现过程为:
将缺失值大于95%的账户行为记录数据删除,并将剩余的账户行为记录数据转换成特征提取算法可识别的数据类型。
3.根据权利要求2所述的社交网络中恶意账户检测方法,其特征在于,所述将剩余的账户行为记录数据转换成特征提取算法可识别的数据类型的具体实现过程为:
对所述账户行为记录数据中的每项进行分段拼接、数字特征提取或编码处理,使每项均转换成数字类型。
4.根据权利要求1所述的社交网络中恶意账户检测方法,其特征在于,采用XGBoost算法对分组处理后的数据进行特征提取。
5.根据权利要求1所述的社交网络中恶意账户检测方法,其特征在于,所述邻接矩阵的具体表达式为:
其中,A为具有自我连接的邻接矩阵,n为账户数量;当账户i与账户j之间有交互时,Aij=1,否则Aij=0,且当i=j时,Aij=0。
6.根据权利要求1~5中任一项所述的社交网络中恶意账户检测方法,其特征在于,利用训练好的图卷积神经网络对每个账户的特征矩阵与所述邻接矩阵进行特征融合,特征融合具体公式为:
X'=σ(D-1/2AD-1/2XW(l))
其中,X'为特征融合矩阵;A为具有自我连接的邻接矩阵;D为对角矩阵,对角矩阵D中的每个元素Dii表示节点的度;σ()为激活函数;W(l)为图卷积神经网络第l层的训练参数;X为账户的特征矩阵。
7.根据权利要求6所述的社交网络中恶意账户检测方法,其特征在于,所述图卷积神经网络的具体训练过程为:
将每个账户的特征矩阵和邻接矩阵输入到图卷积神经网络中,输出特征融合矩阵;
对所述特征融合矩阵进行归一化处理,得到归一化值;
对所述归一化值和随机设置的阈值进行比较,得到账户的检测结果;
当检测结果的精确率和查全率不满足要求时,根据所述检测结果的精确率和查全率对所述阈值和图卷积神经网络的训练参数进行调整;
重复上述输入、归一化处理、比较和调整步骤,直到得到的检测结果的精确率和查全率满足要求,即得到训练好的图卷积神经网络。
8.根据权利要求1所述的社交网络中恶意账户检测方法,其特征在于,利用sigmoid函数对每个账户的特征融合矩阵进行归一化处理,得到(0,1)间的映射值。
9.一种交网络中恶意账户检测设备,其特征在于,所述设备包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行如权利要求1~8中任一项所述社交网络中恶意账户检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1~8中任一项所述社交网络中恶意账户检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310377102.4A CN116633589A (zh) | 2023-04-10 | 2023-04-10 | 社交网络中恶意账户检测方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310377102.4A CN116633589A (zh) | 2023-04-10 | 2023-04-10 | 社交网络中恶意账户检测方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116633589A true CN116633589A (zh) | 2023-08-22 |
Family
ID=87615995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310377102.4A Pending CN116633589A (zh) | 2023-04-10 | 2023-04-10 | 社交网络中恶意账户检测方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116633589A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117150374A (zh) * | 2023-10-27 | 2023-12-01 | 国网江西省电力有限公司电力科学研究院 | 一种基于特征重要性排序的变压器故障辨识方法及系统 |
-
2023
- 2023-04-10 CN CN202310377102.4A patent/CN116633589A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117150374A (zh) * | 2023-10-27 | 2023-12-01 | 国网江西省电力有限公司电力科学研究院 | 一种基于特征重要性排序的变压器故障辨识方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sarker | Machine learning: Algorithms, real-world applications and research directions | |
US11494648B2 (en) | Method and system for detecting fake news based on multi-task learning model | |
US11106999B2 (en) | Automatic segmentation of a collection of user profiles | |
CN113011889B (zh) | 账号异常识别方法、系统、装置、设备及介质 | |
Alzahrani et al. | Comparative study of machine learning algorithms for SMS spam detection | |
Monica et al. | Detection of fake tweets using sentiment analysis | |
CN111556016A (zh) | 一种基于自动编码器的网络流量异常行为识别方法 | |
Jain et al. | An enhanced self-learning-based clustering scheme for real-time traffic data distribution in wireless networks | |
CN116633589A (zh) | 社交网络中恶意账户检测方法、设备及存储介质 | |
Bhattacharya et al. | Application of machine learning techniques in detecting fake profiles on social media | |
Abinaya et al. | Spam detection on social media platforms | |
Kokatnoor et al. | Self-supervised learning based anomaly detection in online social media | |
Zhang et al. | Temporal burstiness and collaborative camouflage aware fraud detection | |
Zhang et al. | An intrusion detection method based on stacked sparse autoencoder and improved gaussian mixture model | |
Tang et al. | Active malicious accounts detection with multimodal fusion machine learning algorithm | |
Shahraki et al. | Internet traffic classification using an ensemble of deep convolutional neural networks | |
Zhu et al. | Application of data mining technology in detecting network intrusion and security maintenance | |
CN115115369A (zh) | 数据处理方法、装置、设备及存储介质 | |
Long et al. | A method of machine learning for social bot detection combined with sentiment analysis | |
CN116865994A (zh) | 一种基于大数据的网络数据安全预测方法 | |
CN115952343A (zh) | 一种基于多关系图卷积网络的社交机器人检测方法 | |
CN106156256A (zh) | 一种用户信息分类透传方法及系统 | |
Pei et al. | Spammer detection via combined neural network | |
Parameswari et al. | Hybrid rat swarm hunter prey optimization trained deep learning for network intrusion detection using CNN features | |
CN116502132A (zh) | 账号集合识别方法、装置、设备、介质和计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |