CN113409105A - 一种电商网络异常用户检测方法及系统 - Google Patents

一种电商网络异常用户检测方法及系统 Download PDF

Info

Publication number
CN113409105A
CN113409105A CN202110621861.1A CN202110621861A CN113409105A CN 113409105 A CN113409105 A CN 113409105A CN 202110621861 A CN202110621861 A CN 202110621861A CN 113409105 A CN113409105 A CN 113409105A
Authority
CN
China
Prior art keywords
user
commerce network
abnormal
commerce
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110621861.1A
Other languages
English (en)
Other versions
CN113409105B (zh
Inventor
杜航原
李铎
王文剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN202110621861.1A priority Critical patent/CN113409105B/zh
Publication of CN113409105A publication Critical patent/CN113409105A/zh
Application granted granted Critical
Publication of CN113409105B publication Critical patent/CN113409105B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • G06Q30/012Providing warranty services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明涉及电商平台的网络安全领域,为了消除这些异常用户所带来的负面影响,公开了一种电商网络异常用户检测方法及系统。所述系统包括计算机处理器和内存、电商网络数据预处理单元、电商网络异常用户检测模型训练单元、电商网络异常用户检测结果输出单元。所述方法包括电商网络数据预处理环节、电商网络异常用户检测模型构建及优化环节、电商网络异常用户检测结果输出及处理环节三个部分。具体将处理后的电商网络数据的空间结构信息进行抽取,并在此基础上利用自编码器和支持向量数据描述建立电商网络异常用户检测模型,使模型具有一定的自监督学习能力,能够自动为异常检测工作提供监督信息,有效的提升了建立模型的检测性能。

Description

一种电商网络异常用户检测方法及系统
技术领域
本发明涉及电商平台的网络安全领域,特别涉及一种电商网络异常用户检测方法及系统。
背景技术
随着互联网的不断普及和发展,许多不良商家通过操纵大量用户在各大电商网络平台上进行虚假评论、恶意刷单等欺诈活动,诱导顾客购买有缺陷的产品,严重损害了消费者们的利益。为了消除这些异常用户所带来的负面影响,本发明提出了一种电商网络异常用户检测方法及系统,可以较准确的检测到异常用户。
发明内容
针对上述问题本发明提供了一种电商网络异常用户检测方法及系统,能够对电商平台网络中的异常用户进行有效可靠的检测。
为了达到上述目的,本发明采用了下列技术方案:
本发明通过分析电商网络中异常用户的产生机制,重点关注用户在不同设备上的登录活动,并据此提出了异常用户的两大行为特性:设备聚集性和活动聚集性。根据这两大特性,本发明提供一种电商网络异常用户检测方法,该方法包含三个主要环节,步骤S10为电商网络数据预处理环节,步骤S20-S40为电商网络异常用户检测模型构建及优化环节,步骤S50为电商网络异常用户检测结果输出及处理环节。
一种电商网络异常用户检测方法,具体步骤如下:
S10、对采集到的电商网络数据进行预处理,降低噪声数据对检测结果的影响;
S20、对步骤S10预处理后获得的电商网络数据进行空间结构信息的抽取,构建异质信息网络并转化为用户-设备二分图;
S30、基于步骤S20获得的用户-设备二分图,利用自编码器和支持向量数据描述构建电商网络异常用户检测模型;
S40、对于步骤S30构建的电商网络异常用户检测模型,通过迭代计算方式对模型进行训练,确定模型的最优参数;
S50、利用步骤S30构建的电商网络异常检测模型,以及步骤S40确定的模型最优参数,将异常用户检测结果进行输出,并对异常用户进行处理。
进一步,所述步骤S10中对采集到的电商网络数据进行预处理具体包含以下步骤:
S11、清理采集到的电商网络数据中具有缺失值的样本,通过随机采样原数据集进行补齐;
S12、对样本进行矫正,降低由于采样的随机性对检测结果可能造成的影响。
进一步,所述步骤S20具体包含以下步骤:
S21、将步骤S10预处理后的电商网络数据抽象为异质信息网络,并转化为用户-设备二分图G=(X,Y,E),X={x1,x2,...,xM}表示M个用户构成的集合,其中xm表示第m个用户,m∈[1,M],Y={y1,y2,...,yN}表示N个设备的集合,其中yn表示第n个设备,n∈[1,N],E={emn}m=1,2,...,M,n=1,2,...,N表示用户在不同设备上登录行为的集合,emn表示用户xm登录设备yn的行为,如果用户xm在设备yn上进行登录,则emn=1,否则,emn=0;
S22、构建用户-设备二分图结构,并表示为S=[s1,s2,...,sM]T,其中sm=[em1,em2,...,emN],m∈[1,M]。
进一步,所述步骤S30中构建的电商网络异常检测模型包含编码器、解码器、检测器三个部分。
所述步骤S30具体包含以下步骤:
S31、编码器用于将用户-设备二分图结构S编码为超球隐空间中的用户低维表示集合Z,编码过程的形式化表示如式(1)所示:
Z=Relu(WS+b) (1)
其中,Z=[z1,z2,...,zm,...,zM]T为二分图结构S在超球隐空间中的用户低维表示集合,zm为sm在超球隐空间中对应的用户低维表示,W与b分别为编码权重和偏置,编码器部分使用Relu激活函数,Relu激活函数如式(2)定义:
Figure BDA0003100137720000031
S32、解码器用于将用户低维表示集合Z重构为二分图结构
Figure BDA0003100137720000032
解码过程的形式化表示如式(3)所示:
Figure BDA0003100137720000033
其中,重构二分图结构
Figure BDA0003100137720000034
W与b分别为解码权重和偏置,与编码权重和偏置相同,解码器部分同样使用Relu激活函数;
S33、检测器采用支持向量数据描述对超球隐空间中的用户低维表示集合Z进行检测,超球隐空间的核心c由式(4)计算:
Figure BDA0003100137720000035
每个用户低维表示与核心c之间的欧式距离由式(5)计算:
Figure BDA0003100137720000041
其中,dm为用户低维表示zm与核心c之间的欧式距离,将全部用户低维表示与核心之间的距离形成的集合记作D={d1,d2,...,dM};
S34、通过3σ准则对集合D的正态分布情况进行讨论,寻找合适的超球半径r,若x~N(μ,σ2),则有:
P{|x-μ|<σ}=0.6826 (6)
P{|x-μ|<2σ}=0.9545 (7)
P{|x-μ|<3σ}=0.9973 (8)
其中,x为正态变量,σ为标准差,μ为均值,由式(8)可知,正态变量x的取值在区间(μ-3σ,μ+3σ)之外的概率小于0.003,一般认为这一事件的概率是非常低的;
S35、根据3σ准则,检测器计算集合D中的σ和μ,将(μ-3σ,μ+3σ)区间以外的dm剔除,并在余下的集合中选择最大值作为半径r,这样保证了绝大多数用户能够表示在超球隐空间内,最后,将每个用户低维表示与核心间的欧式距离与半径r进行对比,若某用户低维表示与核心间的欧氏距离大于半径r,则该用户为异常用户,反之,则为正常用户。
进一步,所述步骤S40具体包含以下步骤:
S41、本方法根据异常用户的两大行为特性:设备聚集性和活动聚集性,计算在原始空间中用户之间的行为相似度。
根据设备聚集性可知,异常用户在很大程度上会共享设备,在二分图中表现为异常用户有着许多共同连接的设备,使得它们之间的相似度较高,而正常用户的行为是独立的,总体上相似度较低,用户之间的设备相似度使用式(9)计算:
Figure BDA0003100137720000051
其中,i,j∈[1,M,sim_dij为用户xi和xj之间的设备相似度,Ni表示用户xi登录过的设备的集合,Nj表示用户xj登录过的设备的集合;
根据活动聚集性可知,异常用户群体会在一天中的某个时间段内爆发集体性活动,本方法将一天等分为24个时间段,统计每个用户在各个时间段内登录设备的次数Tp,p∈[0,23],并将每个用户的登录行为描述为ti=[T0,T1,...,T23],用户之间的活动相似度由式(10)计算:
Figure BDA0003100137720000052
其中,sim_tij为用户xi和xj之间的活动相似度,ti表示用户xi的登录行为,tj表示用户xj的登录行为;
根据式(9)、式(10),用户在原始空间中的行为相似度由式(11)计算:
simij=sim_dij×sim_tij (11)
其中,simij为用户xi和xj之间的行为相似度;
S42、用户低维表示之间的行为差异可以通过式(12)来计算:
Figure BDA0003100137720000053
其中,disij为用户低维表示zi和zj之间的欧式距离。
进一步的,用户低维表示之间的行为相似度由式(13)来计算:
Figure BDA0003100137720000061
其中,
Figure BDA0003100137720000062
为用户低维表示zi和zj之间的行为相似度;
S43、为S30建立的电商网络异常用户检测模型建立式(14)所示的联合目标函数:
L=Lrec+α(Lsim+Lsvdd) (14)
其中α为超参数,取值范围在(0,1)内,Lrec为重构误差,用于度量原始输入S和重构输出
Figure BDA0003100137720000063
之间的差异,由式(15)计算:
Figure BDA0003100137720000064
Lsim为行为相似度差异,用于度量两个用户间的行为相似度在编码前后的差异性,由式(16)计算:
Figure BDA0003100137720000065
Lsvdd为超球约束,作为区分正常用户和异常用户间的分类边界,由式(17)计算:
Figure BDA0003100137720000066
S44、对步骤S30中的电商网络异常用户检测模型进行初始化,初始化自编码器参数W和b,并给定超球隐空间维度dim、迭代次数epoch、批大小batch size和学习率learningrate;
迭代执行步骤S45-S49,直到达到设定的迭代次数,完成对电商网络异常用户检测模型的训练,获得模型的最优参数:
S45、将S22获取的用户-设备二分图结构S作为输入,按式(1)编码器编码获取用户低维表示集合Z;
S46、按式(3)解码器对用户低维表示集合Z进行解码得到
Figure BDA0003100137720000071
完成正向传播;
S47、按式(11)计算用户之间的行为相似度,按式(13)计算用户低维表示之间的行为相似度;
S48、采用随机梯度下降法,通过优化式(14)中的联合目标函数L,完成反向传播,实现对自编码器中权重W和偏置b的更新;
S49、按步骤S33-S35,检测器对用户低维表示集合Z进行异常检测。
进一步,所述步骤S50具体包含以下步骤:
S51、通过迭代执行步骤S45-S49的训练过程获得电商网络异常用户检测模型的最优参数后,将使用最优参数获取的异常检测结果作为最终的检测结果;
S52、将异常用户检测结果输出至电商平台的用户安全管理相关人员,用于提升其异常用户检测的效率和可靠性,并针对异常用户的危害程度及风险影响进行进一步针对性处理。
本发明还提供一种电商网络异常用户检测系统,包括计算机处理器和内存、电商网络数据预处理单元、电商网络异常用户检测模型训练单元,电商网络异常用户检测结果输出单元。所述电商网络数据预处理单元执行步骤S10,对采集到的电商网络数据进行预处理,并加载到计算机内存中;所述电商网络异常用户检测模型训练单元根据电商网络数据预处理单元产生的电商网络数据执行步骤S20-S40,构建电商网络异常用户检测模型,通过迭代计算确定模型中参数的最优值;所述电商网络异常用户检测结果输出单元执行步骤S50,将电商网络异常用户检测结果输出至相关工作人员或科研人员,用于各电商平台的异常用户检测、网络安全检测等相关任务。
与现有技术相比本发明具有以下优点:
1、本发明检测方法通过构建异质信息网络并转化为用户-设备二分图,不仅可以在此基础上保留用户的行为特征,还有效表达了用户和设备两类实体之间的空间结构关系,有助于获得鲁棒性和可解释性更强的异常用户检测结果。
2、本发明检测方法利用自编码器和支持向量数据描述建立电商网络异常用户检测模型,使模型具有一定的自监督学习能力,能够自动为异常检测工作提供监督信息,有效的提升了模型的检测性能。
附图说明
图1为本发明所述步骤S30中的电商网络异常用户检测模型结构图;
图2为本发明所述电商网络异常用户检测系统的系统结构图;
图3为本发明所述电商网络异常用户检测方法的流程图。
具体实施方式
为了进一步阐述本发明的技术方案,下面结合附图及实施例对本发明进行进一步说明。
本发明所述的电商网络异常用户检测方法通过计算机程序实施,下面将按照图3所示流程详述本发明提出的技术方案的具体实施方式。通过本发明的技术方案,对亚马逊电商平台中某天执行日志的随机采样样本进行异常用户检测。该执行日志中包括用户ID、设备ID、登录时间等内容,其中用户个数M为236,设备个数N为275,样本数量共5000条。
实施方式主要包含以下关键内容:
S10、对采集到的电商网络数据进行预处理,降低噪声数据对检测结果的影响,具体包含以下步骤:
S11、清理采集到的电商网络数据中具有缺失值的样本,通过随机采样原数据集进行补齐;
S12、对样本进行矫正,降低由于采样的随机性对检测结果可能造成的影响。
S20、对步骤S10获得的电商网络数据进行空间结构信息的抽取,构建异质信息网络并转化为用户-设备二分图,具体包含以下步骤:
S21、将步骤S10预处理后的电商网络数据抽象为异质信息网络,并转化为用户-设备二分图G=(X,Y,E),X={x1,x2,...,xM}表示M个用户构成的集合,其中xm表示第m个用户,m∈[1,M],Y={y1,y2,...,yN}表示N个设备的集合,其中yn表示第n个设备,n∈[1,N],E={emn}m=1,2,...,M,n=1,2,...,N表示用户在不同设备上登录行为的集合,emn表示用户xm登录设备yn的行为,如果用户xm在设备yn上进行登录,则emn=1,否则,emn=0;
S22、构建用户-设备二分图结构,并表示为S=[s1,s2,...,sM]T,其中sm=[em1,em2,...,emN],m∈[1,M]。
S30、基于步骤S20获得的用户-设备二分图,利用自编码器和支持向量数据描述构建电商网络异常用户检测模型。所述电商网络异常检测模型包含编码器、解码器、检测器三个部分,其整体结构如附图1所示,具体包含以下步骤:
S31、编码器用于将用户-设备二分图结构S编码为超球隐空间中的用户低维表示集合Z,编码过程的形式化表示如式(1)所示:
Z=Relu(WS+b) (1)
其中,Z=[z1,z2,...,zM]T为二分图结构S在超球隐空间中的用户低维表示集合,zm为sm在超球隐空间中对应的用户低维表示,W与b分别为编码权重和偏置,编码器部分使用Relu激活函数,Relu激活函数如式(2)定义:
Figure BDA0003100137720000101
S32、解码器用于将用户低维表示集合Z重构为二分图结构
Figure BDA0003100137720000102
解码过程的形式化表示如式(3)所示:
Figure BDA0003100137720000103
其中,重构二分图结构
Figure BDA0003100137720000104
W与b分别为解码权重和偏置,与编码权重和偏置相同,解码器部分同样使用Relu激活函数;
S33、检测器采用支持向量数据描述对超球隐空间中的用户低维表示集合Z进行检测,超球隐空间的核心c由式(4)计算:
Figure BDA0003100137720000105
每个用户低维表示与核心c之间的欧式距离由式(5)计算:
Figure BDA0003100137720000106
其中,dm为用户低维表示zm与核心c之间的欧式距离,将全部用户低维表示与核心之间的距离形成的集合记作D={d1,d2,...,dM};
S34、通过3σ准则对集合D的正态分布情况进行讨论,寻找合适的超球半径r,若x~N(μ,σ2),则有:
P{|x-μ|<σ}=0.6826 (6)
P{|x-μ|<2σ}=0.9545 (7)
P{|x-μ|<3σ}=0.9973 (8)
其中,x为正态变量,σ为标准差,μ为均值,由式(8)可知,正态变量x的取值在区间(μ-3σ,μ+3σ)之外的概率小于0.003,一般认为这一事件的概率是非常低的;
S35、根据3σ准则,检测器计算集合D中的σ和μ,将(μ-3σ,μ+3σ)区间以外的dm剔除,并在余下的集合中选择最大值作为半径r,这样保证了绝大多数用户能够表示在超球隐空间内,最后,将每个用户低维表示与核心间的欧式距离与半径r进行对比,若某用户低维表示与核心间的欧氏距离大于半径r,则该用户为异常用户,反之,则为正常用户。
S40、对于步骤S30构建的电商网络异常用户检测模型,通过迭代计算方式对模型进行训练,确定模型的最优参数,具体包含以下步骤:
S41、根据异常用户的两大行为特性:设备聚集性和活动聚集性,计算在原始空间中用户之间的行为相似度。
根据设备聚集性可知,异常用户在很大程度上会共享设备,在二分图中表现为异常用户有着许多共同连接的设备,使得它们之间的相似度较高,而正常用户的行为是独立的,总体上相似度较低,用户之间的设备相似度使用式(9)计算:
Figure BDA0003100137720000111
其中,i,j∈[1,M,sim_dij为用户xi和xj之间的设备相似度,Ni表示用户xi登录过的设备的集合,Nj表示用户xj登录过的设备的集合;
根据活动聚集性可知,异常用户群体会在一天中的某个时间段内爆发集体性活动,本方法将一天等分为24个时间段,统计每个用户在各个时间段内登录设备的次数Tp,p∈[0,23],并将每个用户的登录行为描述为ti=[T0,T1,...,T23],用户之间的活动相似度由式(10)计算:
Figure BDA0003100137720000121
其中,sim_tij为用户xi和xj之间的活动相似度,ti表示用户xi的登录行为,tj表示用户xj的登录行为;
根据式(9)、式(10),用户在原始空间中的行为相似度由式(11)计算:
simij=sim_dij×sim_tij (11)
其中,simij为用户xi和xj之间的行为相似度;
S42、用户低维表示之间的行为差异可以通过式(12)来计算:
Figure BDA0003100137720000122
其中,disij为用户低维表示zi和zj之间的欧式距离。
进一步的,用户低维表示之间的行为相似度由式(13)来计算:
Figure BDA0003100137720000123
其中,
Figure BDA0003100137720000124
为用户低维表示zi和zj之间的行为相似度;
S43、为S30建立的电商网络异常用户检测模型建立式(14)所示的联合目标函数:
L=Lrec+α(Lsim+Lsvdd) (14)
其中α为超参数,取值范围在(0,1)内,Lrec为重构误差,用于度量原始输入S和重构输出
Figure BDA0003100137720000125
之间的差异,由式(15)计算:
Figure BDA0003100137720000126
Lsim为行为相似度差异,用于度量两个用户间的行为相似度在编码前后的差异性,由式(16)计算:
Figure BDA0003100137720000131
Lsvdd为超球约束,作为区分正常用户和异常用户间的分类边界,由式(17)计算:
Figure BDA0003100137720000132
S44、对步骤S30中的电商网络异常用户检测模型进行初始化,初始化自编码器参数W和b,并给定超球-隐空间维度dim、迭代次数epoch、批大小batch size和学习率learning rate;
迭代执行步骤S45-S49,直到达到设定的迭代次数,完成对电商网络异常用户检测模型的训练,获得模型的最优参数:
S45、将S22获取的用户-设备二分图结构S作为输入,按式(1)编码器编码获取用户低维表示集合Z;
S46、按式(3)解码器对用户低维表示集合Z进行解码得到
Figure BDA0003100137720000133
完成正向传播;
S47、按式(11)计算用户之间的行为相似度,按式(13)计算用户低维表示之间的行为相似度;
S48、采用随机梯度下降法,通过优化式(14)中的联合目标函数L,完成反向传播,实现对自编码器中权重W和偏置b的更新;
S49、按步骤S33-S35,检测器对用户低维表示集合Z进行异常检测。
S50、利用步骤S30构建的电商网络异常检测模型,以及步骤S40确定的模型最优参数,将异常用户检测结果进行输出,并对异常用户进行处理,具体包含以下步骤:
S51、通过迭代执行步骤S45-S49的训练过程获得电商网络异常用户检测模型的最优参数后,将使用最优参数获取的异常检测结果作为最终的检测结果;
S52、将异常用户检测结果输出至电商平台的用户安全管理相关人员,提升其异常用户检测的效率和可靠性,并针对异常用户的危害程度及风险影响进行进一步针对性处理。
技术效果评价:
为验证本发明提出技术方案的有效性和先进性,将本发明与几种经典的异常检测方法进行比较,对比方法包括K最近邻方法(KNN)、孤立森林方法(IF)、一类支持向量机方法(OCSVM)、局部异常因子方法(LOF),以及主成分分析方法(PCA),以20次实验的平均识别F1-measure和AUC为评价指标,将上述匹配结果进行对比分析,比较结果如表1所示:
Figure BDA0003100137720000141
由表中结果可以看出,相较几种经典的异常检测方法,本发明技术方案在对电商网络异常用户进行检测时,能获得更优的结果。
如图2所示,一种电商网络异常用户检测系统,包括计算机处理器和内存、电商网络数据预处理单元、电商网络异常用户检测模型训练单元,电商网络异常用户检测结果输出单元。所述电商网络数据预处理单元执行步骤S10,对采集到的电商网络数据进行预处理,并加载到计算机内存中;电商网络异常用户检测模型训练单元根据电商网络数据预处理单元产生的电商网络数据执行步骤S20-S40,构建电商网络异常用户检测模型,并通过迭代计算确定模型中参数的最优值。电商网络异常用户检测结果输出单元执行步骤S50,将电商网络异常用户检测结果输出至相关工作人员或科研人员,用于各电商平台的异常用户检测,网络安全检测等相关任务。
应当指出,对于本领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干变型和改进,这些也应视为属于本发明的保护范围。

Claims (8)

1.一种电商网络异常用户检测方法,其特征在于,包括以下步骤:
S10、对采集到的电商网络数据进行预处理;
S20、对步骤S10预处理后获得的电商网络数据进行空间结构信息的抽取,构建异质信息网络并转化为用户-设备二分图;
S30、基于步骤S20获得的用户-设备二分图,利用自编码器和支持向量数据描述构建电商网络异常用户检测模型;
S40、对于步骤S30构建的电商网络异常用户检测模型,通过迭代计算方式对模型进行训练,确定模型的最优参数;
S50、利用步骤S30构建的电商网络异常检测模型,以及步骤S40确定的模型最优参数,将异常用户检测结果进行输出,并对异常用户进行处理。
2.根据权利要求1所述的电商网络异常用户检测方法,其特征在于,所述步骤S10中对采集到的电商网络数据进行预处理具体包含以下步骤:
S11、清理采集到的电商网络数据中具有缺失值的样本,通过随机采样原数据集进行补齐;
S12、对样本进行矫正。
3.根据权利要求1所述的电商网络异常用户检测方法,其特征在于,所述步骤S20具体包括以下步骤:
S21、将步骤S10预处理后的电商网络数据抽象为异质信息网络,并转化为用户-设备二分图G=(X,Y,E),X={x1,x2,...,xM}表示M个用户构成的集合,其中xm表示第m个用户,m∈[1,M],Y={y1,y2,...,yN}表示N个设备的集合,其中yn表示第n个设备,n∈[1,N],E={emn}m=1,2,...,M,n=1,2,...,N表示用户在不同设备上登录行为的集合,emn表示用户xm登录设备yn的行为,如果用户xm在设备yn上进行登录,则emn=1,否则,emn=0;
S22、构建用户-设备二分图结构,并表示为S=[s1,s2,...,sM]T,其中sm=[em1,em2,...,emN],m∈[1,M]。
4.根据权利要求1所述的电商网络异常用户检测方法,其特征在于,所述步骤S30中构建的电商网络异常检测模型包含编码器、解码器、检测器三个部分。
5.根据权利要求1所述的电商网络异常用户检测方法,其特征在于:所述步骤S30具体包含以下步骤:
S31、编码器用于将用户-设备二分图结构S编码为超球隐空间中的用户低维表示集合Z,编码过程的形式化表示如式(1)所示:
Z=Relu(WS+b) (1)
其中,Z=[z1,z2,...,zM]T为二分图结构S在超球隐空间中的用户低维表示集合,zm为sm在超球隐空间中对应的用户低维表示,W与b分别为编码权重和偏置,Relu激活函数如式(2)定义:
Figure FDA0003100137710000021
S32、解码器用于将用户低维表示集合Z重构为二分图结构
Figure FDA0003100137710000022
解码过程的形式化表示如式(3)所示:
Figure FDA0003100137710000023
其中,重构二分图结构
Figure FDA0003100137710000024
W与b分别为解码权重和偏置,与编码权重和偏置相同;
S33、检测器采用支持向量数据描述对超球隐空间中的用户低维表示集合Z进行检测,超球隐空间的核心c由式(4)计算:
Figure FDA0003100137710000031
每个用户低维表示与核心c之间的欧式距离由式(5)计算:
Figure FDA0003100137710000032
其中,dm为用户低维表示zm与核心c之间的欧式距离,将全部用户低维表示与核心之间的距离形成的集合记作D={d1,d2,...,dM};
S34、通过3σ准则对集合D的正态分布情况进行讨论,若x~N(μ,σ2),则有:
P{|x-μ|<σ}=0.6826 (6)
P{|x-μ|<2σ}=0.9545 (7)
P{|x-μ|<3σ}=0.9973 (8)
其中,x为正态变量,σ为标准差,μ为均值,由式(8)可知,正态变量x的取值在区间(μ-3σ,μ+3σ)之外的概率小于0.003;
S35、根据3σ准则,检测器计算集合D中的σ和μ,将(μ-3σ,μ+3σ)区间以外的dm剔除,并在余下的集合中选择最大值作为超球半径r,最后,将每个用户低维表示与核心间的欧式距离与半径r进行对比,若某用户低维表示与核心间的欧氏距离大于半径r,则该用户为异常用户,反之,则为正常用户。
6.根据权利要求1所述的电商网络异常用户检测方法,其特征在于,所述步骤S40具体包括以下步骤:
S41、根据设备聚集性特性,用户之间的设备相似度使用式(9)计算:
Figure FDA0003100137710000041
其中,i,j∈[1,M,sim_dij为用户xi和xj之间的设备相似度,Ni表示用户xi登录过的设备的集合,Nj表示用户xj登录过的设备的集合;
根据活动聚集性特性将一天等分为24个时间段,统计每个用户在各个时间段内登录设备的次数Tp,p∈[0,23],并将每个用户的登录行为描述为ti=[T0,T1,...,T23],用户之间的活动相似度由式(10)计算:
Figure FDA0003100137710000042
其中,sim_tij为用户xi和xj之间的活动相似度,ti表示用户xi的登录行为,tj表示用户xj的登录行为;
根据式(9)、式(10),用户在原始空间中的行为相似度由式(11)计算:
simij=sim_dij×sim_tij (11)
其中,simij为用户xi和xj之间的行为相似度;
S42、用户低维表示之间的行为差异可以通过式(12)来计算:
Figure FDA0003100137710000043
其中,disij为用户低维表示zi和zj之间的欧式距离;
进一步的,用户低维表示之间的行为相似度由式(13)来计算:
Figure FDA0003100137710000044
其中,
Figure FDA0003100137710000045
为用户低维表示zi和zj之间的行为相似度;
S43、为S30建立的电商网络异常用户检测模型建立式(14)所示的联合目标函数:
L=Lrec+α(Lsim+Lsvdd) (14)
其中α为超参数,取值范围在(0,1)内,Lrec为重构误差,用于度量原始输入S和重构输出
Figure FDA0003100137710000051
之间的差异,由式(15)计算:
Figure FDA0003100137710000052
Lsim为行为相似度差异,用于度量两个用户间的行为相似度在编码前后的差异性,由式(16)计算:
Figure FDA0003100137710000053
Lsvdd为超球约束,作为区分正常用户和异常用户间的分类边界,由式(17)计算:
Figure FDA0003100137710000054
S44、对步骤S30中的电商网络异常用户检测模型进行初始化,初始化自编码器参数W和b,并给定超球隐空间维度dim、迭代次数epoch、批大小batch size和学习率learningrate;
迭代执行步骤S45-S49,直到达到设定的迭代次数,完成对电商网络异常用户检测模型的训练,获得模型的最优参数:
S45、将S22获取的用户-设备二分图结构S作为输入,按式(1)编码器编码获取用户低维表示集合Z;
S46、按式(3)解码器对用户低维表示集合Z进行解码得到
Figure FDA0003100137710000055
完成正向传播;
S47、按式(11)计算用户之间的行为相似度,按式(13)计算用户低维表示之间的行为相似度;
S48、采用随机梯度下降法,通过优化式(14)中的联合目标函数L,完成反向传播,实现对自编码器中权重W和偏置b的更新;
S49、按步骤S33-S35,检测器对用户低维表示集合Z进行异常检测。
7.根据权利要求1所述的电商网络异常用户检测方法,其特征在于,该所述步骤S50具体包含以下步骤:
S51、通过迭代执行步骤S45-S49的训练过程获得电商网络异常用户检测模型的最优参数后,将使用最优参数获取的异常检测结果作为最终的检测结果;
S52、将异常用户检测结果输出至电商平台的用户安全管理相关人员,用于提升其异常用户检测的效率和可靠性,并针对异常用户的危害程度及风险影响进行进一步针对性处理。
8.一种电商网络异常用户检测系统,其特征在于:包括计算机处理器和内存、电商网络数据预处理单元、电商网络异常用户检测模型训练单元,电商网络异常用户检测结果输出单元;所述电商网络数据预处理单元对采集到的电商网络数据进行预处理,并加载到计算机内存中;所诉电商网络异常用户检测模型训练单元根据电商网络数据预处理单元产生的电商网络数据,构建电商网络异常用户检测模型,并通过迭代计算确定模型中参数的最优值;所述电商网络异常用户检测结果输出单元执用于将电商网络异常用户检测结果输出至相关工作人员或科研人员,用于各电商平台的异常用户检测及网络安全检测等相关任务。
CN202110621861.1A 2021-06-04 2021-06-04 一种电商网络异常用户检测方法及系统 Active CN113409105B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110621861.1A CN113409105B (zh) 2021-06-04 2021-06-04 一种电商网络异常用户检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110621861.1A CN113409105B (zh) 2021-06-04 2021-06-04 一种电商网络异常用户检测方法及系统

Publications (2)

Publication Number Publication Date
CN113409105A true CN113409105A (zh) 2021-09-17
CN113409105B CN113409105B (zh) 2023-09-26

Family

ID=77676220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110621861.1A Active CN113409105B (zh) 2021-06-04 2021-06-04 一种电商网络异常用户检测方法及系统

Country Status (1)

Country Link
CN (1) CN113409105B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115391670A (zh) * 2022-11-01 2022-11-25 南京嘉安网络技术有限公司 一种基于知识图谱的互联网行为分析方法与系统
CN117828449A (zh) * 2024-03-06 2024-04-05 江苏中创供应链服务有限公司 一种基于云计算的跨境电商用户画像数据处理方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107426199A (zh) * 2017-07-05 2017-12-01 浙江鹏信信息科技股份有限公司 一种网络异常行为检测与分析的方法及系统
US20190028489A1 (en) * 2017-07-21 2019-01-24 Yahoo Holdings, Inc. Method and system for detecting abnormal online user activity
CN110191110A (zh) * 2019-05-20 2019-08-30 山西大学 基于网络表示学习的社交网络异常账户检测方法及系统
CN110287439A (zh) * 2019-06-27 2019-09-27 电子科技大学 一种基于lstm的网络行为异常检测方法
US20200053110A1 (en) * 2017-03-28 2020-02-13 Han Si An Xin (Beijing) Software Technology Co., Ltd Method of detecting abnormal behavior of user of computer network system
US20200099708A1 (en) * 2018-09-21 2020-03-26 Mcafee, Llc Methods, systems, and media for detecting anomalous network activity
CN111598881A (zh) * 2020-05-19 2020-08-28 西安电子科技大学 基于变分自编码器的图像异常检测方法
CN111612039A (zh) * 2020-04-24 2020-09-01 平安直通咨询有限公司上海分公司 异常用户识别的方法及装置、存储介质、电子设备
CN112015153A (zh) * 2020-09-09 2020-12-01 江南大学 一种无菌灌装生产线异常检测系统和方法
CN112165464A (zh) * 2020-09-15 2021-01-01 江南大学 一种基于深度学习的工控混合入侵检测方法
CN112837078A (zh) * 2021-03-03 2021-05-25 万商云集(成都)科技股份有限公司 一种基于集群的用户异常行为检测方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200053110A1 (en) * 2017-03-28 2020-02-13 Han Si An Xin (Beijing) Software Technology Co., Ltd Method of detecting abnormal behavior of user of computer network system
CN107426199A (zh) * 2017-07-05 2017-12-01 浙江鹏信信息科技股份有限公司 一种网络异常行为检测与分析的方法及系统
US20190028489A1 (en) * 2017-07-21 2019-01-24 Yahoo Holdings, Inc. Method and system for detecting abnormal online user activity
US20200099708A1 (en) * 2018-09-21 2020-03-26 Mcafee, Llc Methods, systems, and media for detecting anomalous network activity
CN110191110A (zh) * 2019-05-20 2019-08-30 山西大学 基于网络表示学习的社交网络异常账户检测方法及系统
CN110287439A (zh) * 2019-06-27 2019-09-27 电子科技大学 一种基于lstm的网络行为异常检测方法
CN111612039A (zh) * 2020-04-24 2020-09-01 平安直通咨询有限公司上海分公司 异常用户识别的方法及装置、存储介质、电子设备
CN111598881A (zh) * 2020-05-19 2020-08-28 西安电子科技大学 基于变分自编码器的图像异常检测方法
CN112015153A (zh) * 2020-09-09 2020-12-01 江南大学 一种无菌灌装生产线异常检测系统和方法
CN112165464A (zh) * 2020-09-15 2021-01-01 江南大学 一种基于深度学习的工控混合入侵检测方法
CN112837078A (zh) * 2021-03-03 2021-05-25 万商云集(成都)科技股份有限公司 一种基于集群的用户异常行为检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘建兰;覃仁超;何梦乙;熊健;: "基于大数据技术的网络异常行为检测模型", 计算机测量与控制, no. 03, pages 62 - 71 *
郑非凡;: "基于ResNet深度神经网络的异常检测模型", 网络新媒体技术, no. 02, pages 16 - 22 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115391670A (zh) * 2022-11-01 2022-11-25 南京嘉安网络技术有限公司 一种基于知识图谱的互联网行为分析方法与系统
CN117828449A (zh) * 2024-03-06 2024-04-05 江苏中创供应链服务有限公司 一种基于云计算的跨境电商用户画像数据处理方法及系统
CN117828449B (zh) * 2024-03-06 2024-05-14 江苏中创供应链服务有限公司 一种基于云计算的跨境电商用户画像数据处理方法及系统

Also Published As

Publication number Publication date
CN113409105B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
Basu et al. On second-order group influence functions for black-box predictions
Jian et al. A novel framework for image-based malware detection with a deep neural network
CN110287983B (zh) 基于最大相关熵深度神经网络单分类器异常检测方法
CN109741797B (zh) 一种利用深度学习技术预测小分子化合物水溶性等级的方法
CN110704840A (zh) 一种基于卷积神经网络cnn的恶意软件检测方法
CN115185736B (zh) 基于图卷积神经网络的微服务调用链异常检测方法及装置
CN111259393A (zh) 一种基于生成对抗网络的恶意软件检测器抗概念漂移方法
CN111107072B (zh) 一种基于认证图嵌入的异常登录行为检测方法及系统
CN113409105B (zh) 一种电商网络异常用户检测方法及系统
CN105740912A (zh) 基于核范数正则化的低秩图像特征提取的识别方法及系统
CN112381180B (zh) 一种基于互重构单类自编码器的电力设备故障监测方法
Zheng et al. Scalable interpretable multi-response regression via SEED
CN113591962B (zh) 一种网络攻击样本生成方法及装置
CN117527441A (zh) 一种互联网行为异常检测方法、装置、设备及存储介质
CN116361059A (zh) 一种银行业务异常根因诊断方法及诊断系统
CN113283901B (zh) 一种面向区块链平台的基于字节码的诈骗合约检测方法
Sharma et al. A semi-supervised generalized vae framework for abnormality detection using one-class classification
CN110941542B (zh) 基于弹性网络的序列集成高维数据异常检测系统及方法
CN104980442B (zh) 一种基于元样本稀疏表示的网络入侵检测方法
CN115965556A (zh) 一种二值图像复原方法
Sundaram et al. Denoising Algorithm for Subtle Anomaly Detection
CN115242457A (zh) 一种日志数据的检测方法、装置、电子设备和存储介质
CN111814153A (zh) 一种基于大数据的商业网站安全维护方法
CN116881087B (zh) 数据库运维智能平台
US20220222586A1 (en) Recording medium, information processing method, and information processing apparatus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant