CN111625817B - 异常用户识别方法、装置、电子设备及存储介质 - Google Patents

异常用户识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111625817B
CN111625817B CN202010397825.7A CN202010397825A CN111625817B CN 111625817 B CN111625817 B CN 111625817B CN 202010397825 A CN202010397825 A CN 202010397825A CN 111625817 B CN111625817 B CN 111625817B
Authority
CN
China
Prior art keywords
clustering
user
identified
class
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010397825.7A
Other languages
English (en)
Other versions
CN111625817A (zh
Inventor
王浩然
邵传贤
周振江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
MIGU Culture Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
MIGU Culture Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, MIGU Culture Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202010397825.7A priority Critical patent/CN111625817B/zh
Publication of CN111625817A publication Critical patent/CN111625817A/zh
Application granted granted Critical
Publication of CN111625817B publication Critical patent/CN111625817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种异常用户识别方法、装置、电子设备及存储介质。方法包括:基于多个待识别用户的特征数据,对多个待识别用户进行多次第一聚类操作,得到多次第一聚类操作的聚类结果;根据多次第一聚类操作的聚类结果,计算多个待识别用户各自的固定系数;根据待识别用户的固定系数与预先设定的异常用户判断阈值的比较结果,确定待识别用户为异常用户或正常用户。本发明实施例根据正常用户的行为模式比较固定这一特点,计算待识别用户的固定系数,通过所述固定系数确定待识别用户为异常用户还是正常用户,不再需要根据异常用户的行为模式来识别异常用户,能够有效避免对具有新行为模式的异常用户的识别具有滞后性的问题。

Description

异常用户识别方法、装置、电子设备及存储介质
技术领域
本发明涉及网络安全技术领域,尤其涉及一种异常用户识别方法、装置、电子设备及存储介质。
背景技术
异常用户是指在网络上的操作行为对网络安全存在威胁或潜在威胁的用户。异常用户的识别在网络安全领域具有重要的意义。
在现有技术中,对异常用户的发现是通过分析用户的操作行为,通过操作频率、操作设备、操作地点的切换等维度进行操作的分析,通过分析异常用户的行为从而将与异常用户操作行为相似的用户作为异常用户。
异常用户的行为模式很多,且经常变化。通过已有异常行为模式分析异常用户只能发现符合已有异常行为模式的用户,但对于新的异常行为模式无法识别,需要重新进行模型的训练。因此现有技术对于异常用户的识别具有滞后性,且部分异常行为模式很难被发现,从而影响异常用户识别的准确率。
发明内容
本发明实施例提供一种异常用户识别方法、装置、电子设备及存储介质,用以解决现有技术中的方法对具有新行为模式的异常用户的识别具有滞后性的缺陷。
本发明第一方面实施例提供一种异常用户识别方法,包括:
基于多个待识别用户的特征数据,对所述多个待识别用户进行多次第一聚类操作,得到多次第一聚类操作的聚类结果;其中,所述多次第一聚类操作的聚类中心的数量按照预设值确定;
根据所述多次第一聚类操作的聚类结果,计算所述多个待识别用户各自的固定系数;
根据待识别用户的固定系数与预先设定的异常用户判断阈值的比较结果,确定待识别用户为异常用户或正常用户。
上述技术方案中,在对所述多个待识别用户进行多次第一聚类操作之前,方法还包括:
对所述多个待识别用户进行多次第二聚类操作,根据所述多次第二聚类操作的聚类结果的轮廓系数,为所述第一聚类操作设置聚类中心的数量。
上述技术方案中,所述根据所述多次第一聚类操作的聚类结果,计算所述多个待识别用户各自的固定系数,具体包括:
根据第一待识别用户在所述多次第一聚类操作的不同聚类结果中所属类的聚类中心之间的相似度,为所述第一待识别用户计算固定系数,其中,
所述第一待识别用户为所述多个待识别用户中的任意一个用户;所述固定系数用于反映第一待识别用户在所述多次第一聚类操作的不同聚类结果中的稳定性,所述固定系数的计算公式为:
Figure BDA0002488239040000021
其中,score表示第一待识别用户的固定系数;N表示所述多次第一聚类操作的次数;ni表示第i次第一聚类时第一待识别用户所属类中的所有节点的个数,nj表示第j次第一聚类时第一待识别用户所属类中的所有节点的个数;Ci表示第i次第一聚类时第一待识别用户所属类的聚类中心,Cj表示第j次聚类时第一待识别用户所属类的聚类中心;corr(Ci,Cj)表示聚类中心Ci与聚类中心Cj之间的相似度。
上述技术方案中,所述根据所述多次第一聚类操作的聚类结果,计算所述多个待识别用户各自的固定系数,还包括:
计算所述第一待识别用户在所述多次第一聚类操作的不同聚类结果中所属类的聚类中心之间的相似度;其中,所述相似度计算公式为:
Figure BDA0002488239040000031
其中,
Figure BDA0002488239040000032
表示第i次第一聚类时第一待识别用户所属类中的所有节点的平均值,
Figure BDA0002488239040000033
表示第j次第一聚类时第一待识别用户所属类中的所有节点的平均值;Ci是以向量形式表示的聚类中心,Cix表示向量Ci的第x个值;t表示向量Ci的维度。
上述技术方案中,所述对所述多个待识别用户进行多次第二聚类操作,根据所述多次第二聚类操作的聚类结果的轮廓系数,为所述第一聚类操作设置聚类中心的数量包括:
对多个待识别用户进行多次第二聚类操作,在其中任意一次第二聚类操作时,将聚类中心数量值的大小设置为与之前进行的第二聚类操作的聚类中心数量值大小不同的值,然后按照所设置的聚类中心数量值进行第二聚类操作,对所得到的聚类结果计算轮廓系数;
将第一轮廓系数所对应的聚类中心数量值设置为所述第一聚类操作的聚类中心的数量;其中,第一轮廓系数为大于预先设定的轮廓系数阈值的轮廓系数。
上述技术方案中,所述对所得到的聚类结果计算轮廓系数包括:
计算聚类结果中第一节点与第一类中除所述第一节点之外的其他节点之间的平均距离;其中,所述第一节点为聚类结果中的任意一个节点;所述第一类为第一节点所属的类;
根据聚类中心之间的距离选取与所述第一类距离最近的第二类;
计算第一节点与所述第二类中所有节点的平均距离;
根据第一节点与所述第一类中除所述第一节点之外的其他节点之间的平均距离,以及第一节点与所述第二类中所有节点的平均距离,计算第一节点的轮廓系数;
计算第一类中除第一节点外的其他节点的轮廓系数,进而计算所述第一类的轮廓系数;
计算聚类结果中各个类的轮廓系数,进而计算所述聚类结果的轮廓系数。
上述技术方案中,所述根据待识别用户的固定系数与预先设定的异常用户判断阈值的比较结果,确定待识别用户为异常用户或正常用户包括:
当待识别用户的固定系数小于预先设定的异常用户判断阈值,则所述待识别用户为异常用户;
当待识别用户的固定系数大于或等于预先设定的异常用户判断阈值,则所述待识别用户为正常用户。
本发明第二方面实施例提供一种异常用户识别装置,包括:
聚类模块,用于基于多个待识别用户的特征数据,对所述多个待识别用户进行多次第一聚类操作,得到多次第一聚类操作的聚类结果;其中,所述多次第一聚类操作的聚类中心的数量按照预设值确定;
固定系数计算模块,用于根据所述多次第一聚类操作的聚类结果,计算所述多个待识别用户各自的固定系数;
用户类型识别模块,用于根据待识别用户的固定系数与预先设定的异常用户判断阈值的比较结果,确定待识别用户为异常用户或正常用户。
本发明第三方面实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明第一方面实施例所述异常用户识别方法的步骤。
本发明第四方面实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明第一方面实施例所述异常用户识别方法的步骤。
本发明实施例提供的异常用户识别方法、装置、电子设备及存储介质,根据正常用户的行为模式比较固定这一特点,计算待识别用户的固定系数,通过所述固定系数确定待识别用户为异常用户还是正常用户,不再需要根据异常用户的行为模式来识别异常用户,能够有效避免对具有新行为模式的异常用户的识别具有滞后性的问题,最终提高了异常用户识别的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的异常用户识别方法的流程图;
图2为本发明实施例提供的异常用户识别装置的示意图;
图3示例了一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
异常用户识别在网络安全领域有着广泛的应用。现有技术中通常依靠对异常用户的操作行为进行分析,得到异常行为模式,利用异常行为模式识别异常用户。但异常行为模式多样且经常发生变化,通过已有异常行为模式分析异常用户只能发现已有异常模式的用户,对于新的异常行为模式无法识别,需要重新进行模型的训练。因此现有技术对于异常用户的识别具有滞后性,且部分异常行为模式很难被发现。
本申请人通过研究后发现,虽然异常用户的行为模式多种多样,且经常变化,但正常用户的行为模式比较固定。基于这一发现,本发明实施例通过分析正常用户的行为模式来实现对异常用户的发现。
图1为本发明实施例提供的异常用户识别方法的流程图,如图1所示,本发明实施例提供的异常用户识别方法包括:
步骤101、基于多个待识别用户的特征数据,对所述多个待识别用户进行多次第一聚类操作,得到多次第一聚类操作的聚类结果。
在本发明实施例中,待识别用户是指安全类型尚未明确的用户,待识别用户经过识别后既有可能是正常用户,也有可能是异常用户。
待识别用户的特征数据包括与待识别用户的网络操作行为有关的信息,例如:用户登录设备、用户登录时间段、用户登录地点、用户登录平台以及登录方式等。每个待识别用户的特征数据可形成该待识别用户的特征向量。
多个待识别用户的特征数据可通过现有技术中的信息采集方法得到,如对某一时间段内、某一网站的登录用户进行信息采集。由于用户网络操作行为的随机性,因此采集到特征数据的多个待识别用户同时会包含正常用户与异常用户。多个待识别用户的特征数据可以是预先保存的,也可以是实时采集的,在本发明实施例中对待识别用户的特征数据的获取方式不进行限定。
在本发明实施例中,以待识别用户的特征数据为依据,根据不同待识别用户之间的相似程度,为所述多个待识别用户进行第一聚类操作。在对待识别用户进行聚类后,相似的待识别用户会被归于一类,不相似的待识别用户会被归于不同的类。需要说明的是,为了与本发明其他实施例中设置聚类中心数量时所涉及的聚类操作相区别,在本发明实施例中,将用于识别异常用户所完成的聚类操作记为第一聚类操作,将本发明其他实施例中设置聚类中心数量所涉及的聚类操作记为第二聚类操作。第一聚类操作与第二聚类操作在算法实现上并没有本质区别。
第一聚类操作所得到的聚类结果为多个类,每个类有一个聚类中心,每个类中包括有一个或多个节点。每个节点代表了一个待识别用户。需要说明的是,虽然类中的节点代表了一个待识别用户,但每个节点所包含的信息不仅包括一个待识别用户的标识信息(如待识别用户的ID),还包括了待识别用户的特征数据。因此类中的节点在数学上可以用向量的形式进行表示。
在进行多次第一聚类操作时,每次第一聚类操作的聚类中心数量按照预设值确定。作为一种优选实现方式,在本发明实施例中,每次第一聚类操作的聚类中心数量互不相同,即聚类操作后所形成的类的数量也互不相同。例如,在第一次聚类操作时,设定聚类中心的数量为20个,第二次聚类操作时,设定聚类中心的数量为25个。在本发明其他实施例中,也允许多次第一聚类操作中的某些第一聚类操作的聚类中心数量相同。
在本发明的其他实施例中,将对第一聚类操作的聚类中心数量如何设定做详细说明。
在本发明实施例中,对多个待识别用户的第一聚类需要执行多次,每次聚类会得到相应的聚类结果。本领域技术人员很容易理解,对于一个待识别用户,将其记为待识别用户A,它在一次聚类操作会被归于某一个类;在完成多次聚类操作后,如N次,前述的待识别用户A会被归到N个类中。由于每次聚类操作时的聚类中心数量互不相同,再加上聚类算法自身的原因,如训练参数的差异,因此这N个类彼此之间未必相同。例如,待识别用户A在第i次聚类后被归于类i,待识别用户A在第j次聚类后被归于类j,类i和类j中所包含的节点未必相同。不同类的聚类中心也会存在差异。
在本发明实施例中,可采用k-modes聚类算法实现聚类。其中,采用k-modes聚类算法对多个待识别用户进行聚类时,k的值为预先设定,k的大小代表了一次聚类操作所要划分的类的个数。
在本发明的其它实施例中,也可采用其他类型的聚类算法,如k-means聚类算法。
步骤102、根据多次第一聚类操作的聚类结果,计算多个待识别用户各自的固定系数。
固定系数能够反映一个待识别用户在不同聚类结果中的稳定性。将任意要计算固定系数的待识别用户记为第一待识别用户,则第一待识别用户计算固定系数的公式为:
Figure BDA0002488239040000071
其中,score表示第一待识别用户的固定系数;N表示多次第一聚类操作的次数;ni表示第i次第一聚类时第一待识别用户所归属的类中的所有节点的个数,nj表示第j次第一聚类时第一待识别用户所归属的类中的所有节点的个数;Ci表示第i次第一聚类时第一待识别用户所归属的类的聚类中心,Cj表示第j次第一聚类时第一待识别用户所归属的类的聚类中心;corr(Ci,Cj)表示聚类中心Ci与聚类中心Cj之间的相关系数,该相关系数反映了聚类中心Ci与聚类中心Cj之间的相似度。
Figure BDA0002488239040000081
其中,
Figure BDA0002488239040000082
表示第i次第一聚类时第一待识别用户所归属的类中的所有节点的平均值,
Figure BDA0002488239040000083
表示第j次第一聚类时第一待识别用户所归属的类中的所有节点的平均值;Ci是以向量形式表示的聚类中心,Cix表示向量Ci的第x个值;t表示向量Ci的维度。
步骤103、根据待识别用户的固定系数与预先设定的异常用户判断阈值的比较结果,确定待识别用户为异常用户或正常用户。
由于正常用户的操作行为具有高度的一致性,因此可将待识别用户的固定系数与预先设定的异常用户判断阈值进行比较,若某一待识别用户的固定系数小于预先设定的异常用户判断阈值,则该待识别用户为异常用户,若某一待识别用户的固定系数大于或等于预先设定的异常用户判断阈值,则该待识别用户为正常用户。
异常用户判断阈值的具体取值可根据实际情况设定。
本发明实施例提供的异常用户识别方法根据正常用户的行为模式比较固定这一特点,计算待识别用户的固定系数,通过所述固定系数确定待识别用户为异常用户还是正常用户,不再需要根据异常用户的行为模式来识别异常用户,能够有效避免对具有新行为模式的异常用户的识别具有滞后性的问题,最终提高了异常用户识别的准确性。
基于上述任一实施例,在本发明实施例中,在对所述多个待识别用户进行多次第一聚类操作之前,方法还包括:
对所述多个待识别用户进行多次第二聚类操作,根据所述多次第二聚类操作的聚类结果的轮廓系数,为所述第一聚类操作设置聚类中心的数量。
在前文中已经提到,在第一聚类操作中,聚类中心的数量对于聚类结果有着重要的影响,因此为第一聚类操作设置合适的聚类中心的数量会决定异常用户的识别准确率。
在本发明实施例中,以k-modes算法为例,为所述第一聚类操作设置聚类中心的数量就是设置k的大小。
具体的说,设置k的大小包括:
对多个待识别用户进行M次第二聚类操作,在一次第二聚类操作时将k的大小设置为与之前进行的第二聚类操作时的k值大小不同的值,然后按照所设置的k值进行聚类操作,对所得到的聚类结果计算轮廓系数。
轮廓系数的值介于[-1,1],越趋近于1代表内聚度和分离度都相对较优。当轮廓系数为1时,则表示聚类时所选取的k值最好,当系数值为-1时,表示聚类时所选取的k值最差。在本发明实施例中,将轮廓系数大于0的k值作为最终需要的值。即在对所述多个待识别用户进行多次第一聚类操作时,每次第一聚类操作时所设置的类的个数,应从轮廓系数大于0的k值中选取。
其中,计算一次第二聚类操作的聚类结果的轮廓系数包括以下步骤:
S1、在一次第二聚类操作中,随机设置k的大小,然后根据随机设置的k值进行k-modes聚类,得到聚类结果。
S2、在聚类结果中,对于任一节点i(类中的一个节点代表一个待识别用户),计算该节点与该节点所属类中其他节点之间的平均距离。其计算公式为:
Figure BDA0002488239040000091
其中,di表示第i个节点,dj表示第j个节点,第j个节点是第i个节点所属类中与第i个节点不同的任意一个节点;CA表示第i个节点所属的类;|CA|表示类CA中所有节点的个数;dist(di,dj)表示节点di与节点dj之间的距离。
dist(di,dj)的计算公式如下:
Figure BDA0002488239040000092
其中,q表示向量的维度个数。
S3、根据聚类中心之间的距离选取与节点i所属的类CA距离最近的类CB,将类CB记为类CA的相邻类。
聚类中心的距离计算可参照S2中两个节点之间的距离计算公式。
S4、计算节点i与相邻类中所有节点的平均距离。
所述平均距离的计算公式为:
Figure BDA0002488239040000101
S5、根据节点i与节点i所属类中其他节点之间的平均距离节点,以及i与相邻类中所有节点的平均距离,计算节点i的轮廓系数。
轮廓系数(Silhouette Coefficient),是聚类效果好坏的一种评价方式。
轮廓系数的计算公式为:
Figure BDA0002488239040000102
S6、计算节点i所属的类CA中所有节点的轮廓系数,然后再根据节点的轮廓系数计算类CA的轮廓系数。
参照S5中所描述的节点的轮廓系数的计算公式,可计算类CA中所有节点的轮廓系数。
在得到类CA中所有节点的轮廓系数后,可进一步计算类CA的轮廓系数,计算公式为:
Figure BDA0002488239040000103
S7、计算本次聚类操作中所有k个类的轮廓系数,然后计算本次聚类操作的轮廓系数。
在得到类CA的轮廓系数后,参照S6中所描述的类的轮廓系数的计算公式,可计算本次聚类操作中所有k个类的轮廓系数。
在得到本次聚类操作中所有k个类的轮廓系数后,可进一步计算本次聚类操作的轮廓系数。其计算公式为:
Figure BDA0002488239040000104
其中,Ci表示本次聚类操作中的任意一个类。
本发明实施例提供的异常用户识别方法根据聚类操作的聚类结果的轮廓系数,为聚类操作设置合适的类的个数,使得聚类结果的内聚度和分离度都相对较优,有利于更好地划分正常用户与异常用户,提高了异常用户识别的准确性。
基于上述任一实施例,在本发明实施例中,方法还包括:
对异常用户进行包括登陆二次验证和/或禁止登陆在内的操作。
在根据固定系数识别出异常用户后,对被认定为异常用户的用户进行登陆二次验证和/或禁止登陆在内的操作。
本发明实施例提供的异常用户识别方法通过对识别出的异常用户进行管控,增强了网络安全性。
基于上述任一实施例,图2为本发明实施例提供的异常用户识别装置的示意图,如图2所示,本发明实施例提供的异常用户识别装置包括:
聚类模块201,用于基于多个待识别用户的特征数据,对所述多个待识别用户进行多次第一聚类操作,得到多次第一聚类操作的聚类结果;其中,所述多次第一聚类操作的聚类中心的数量按照预设值确定;
固定系数计算模块202,用于根据所述多次第一聚类操作的聚类结果,计算所述多个待识别用户各自的固定系数;
用户类型识别模块203,用于根据待识别用户的固定系数与预先设定的异常用户判断阈值的比较结果,确定待识别用户为异常用户或正常用户。
本发明实施例提供的异常用户识别装置根据正常用户的行为模式比较固定这一特点,计算待识别用户的固定系数,通过所述固定系数确定待识别用户为异常用户还是正常用户,不再需要根据异常用户的行为模式来识别异常用户,能够有效避免对具有新行为模式的异常用户的识别具有滞后性的问题,最终提高了异常用户识别的准确性。
基于上述任一实施例,在本发明实施例中,异常用户识别装置还包括:
聚类中心数量设置模块,用于对所述多个待识别用户进行多次第二聚类操作,根据所述多次第二聚类操作的聚类结果的轮廓系数,为所述第一聚类操作设置聚类中心的数量。
本发明实施例提供的异常用户识别装置根据聚类操作的聚类结果的轮廓系数,为聚类操作设置合适的类的个数,使得聚类结果的内聚度和分离度都相对较优,有利于更好地划分正常用户与异常用户,提高了异常用户识别的准确性。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行如下方法:基于多个待识别用户的特征数据,对所述多个待识别用户进行多次第一聚类操作,得到多次第一聚类操作的聚类结果;其中,所述多次第一聚类操作的聚类中心的数量按照预设值确定;根据所述多次第一聚类操作的聚类结果,计算所述多个待识别用户各自的固定系数;根据待识别用户的固定系数与预先设定的异常用户判断阈值的比较结果,确定待识别用户为异常用户或正常用户。
需要说明的是,本实施例中的电子设备在具体实现时可以为服务器,也可以为PC机,还可以为其他设备,只要其结构中包括如图3所示的处理器310、通信接口320、存储器330和通信总线340,其中处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信,且处理器310可以调用存储器330中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:基于多个待识别用户的特征数据,对所述多个待识别用户进行多次第一聚类操作,得到多次第一聚类操作的聚类结果;其中,所述多次第一聚类操作的聚类中心的数量按照预设值确定;根据所述多次第一聚类操作的聚类结果,计算所述多个待识别用户各自的固定系数;根据待识别用户的固定系数与预先设定的异常用户判断阈值的比较结果,确定待识别用户为异常用户或正常用户。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:基于多个待识别用户的特征数据,对所述多个待识别用户进行多次第一聚类操作,得到多次第一聚类操作的聚类结果;其中,所述多次第一聚类操作的聚类中心的数量按照预设值确定;根据所述多次第一聚类操作的聚类结果,计算所述多个待识别用户各自的固定系数;根据待识别用户的固定系数与预先设定的异常用户判断阈值的比较结果,确定待识别用户为异常用户或正常用户。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种异常用户识别方法,其特征在于,包括:
基于多个待识别用户的特征数据,对所述多个待识别用户进行多次第一聚类操作,得到多次第一聚类操作的聚类结果;其中,所述多次第一聚类操作的聚类中心的数量按照预设值确定;
根据所述多次第一聚类操作的聚类结果,计算所述多个待识别用户各自的固定系数;
根据待识别用户的固定系数与预先设定的异常用户判断阈值的比较结果,确定待识别用户为异常用户或正常用户;
其中,所述根据所述多次第一聚类操作的聚类结果,计算所述多个待识别用户各自的固定系数,具体包括:
计算第一待识别用户在所述多次第一聚类操作的不同聚类结果中所属类的聚类中心之间的相似度;
根据第一待识别用户在所述多次第一聚类操作的不同聚类结果中所属类的聚类中心之间的相似度,为所述第一待识别用户计算固定系数;
所述第一待识别用户为所述多个待识别用户中的任意一个用户;所述固定系数用于反映第一待识别用户在所述多次第一聚类操作的不同聚类结果中的稳定性,所述固定系数的计算公式为:
其中,score表示第一待识别用户的固定系数;N表示所述多次第一聚类操作的次数;ni表示第i次第一聚类时第一待识别用户所属类中的所有节点的个数,nj表示第j次第一聚类时第一待识别用户所属类中的所有节点的个数;Ci表示第i次第一聚类时第一待识别用户所属类的聚类中心,Cj表示第j次聚类时第一待识别用户所属类的聚类中心;corr(Ci,Cj)表示聚类中心Ci与聚类中心Cj之间的相似度。
2.根据权利要求1所述的异常用户识别方法,其特征在于,在对所述多个待识别用户进行多次第一聚类操作之前,方法还包括:
对所述多个待识别用户进行多次第二聚类操作,根据所述多次第二聚类操作的聚类结果的轮廓系数,为所述第一聚类操作设置聚类中心的数量。
3.根据权利要求1所述的异常用户识别方法,其特征在于,所述相似度计算公式为:
其中,表示第i次第一聚类时第一待识别用户所属类中的所有节点的平均值,表示第j次第一聚类时第一待识别用户所属类中的所有节点的平均值;Ci是以向量形式表示的聚类中心,Cix表示向量Ci的第x个值,Cjx表示向量Cj的第x个值;t表示向量Ci的维度。
4.根据权利要求2所述的异常用户识别方法,其特征在于,所述对所述多个待识别用户进行多次第二聚类操作,根据所述多次第二聚类操作的聚类结果的轮廓系数,为所述第一聚类操作设置聚类中心的数量包括:
对多个待识别用户进行多次第二聚类操作,在其中任意一次第二聚类操作时,将聚类中心数量值的大小设置为与之前进行的第二聚类操作的聚类中心数量值大小不同的值,然后按照所设置的聚类中心数量值进行第二聚类操作,对所得到的聚类结果计算轮廓系数;
将第一轮廓系数所对应的聚类中心数量值设置为所述第一聚类操作的聚类中心的数量;其中,第一轮廓系数为大于预先设定的轮廓系数阈值的轮廓系数。
5.根据权利要求4所述的异常用户识别方法,其特征在于,所述对所得到的聚类结果计算轮廓系数包括:
计算聚类结果中第一节点与第一类中除所述第一节点之外的其他节点之间的平均距离;其中,所述第一节点为聚类结果中的任意一个节点;所述第一类为第一节点所属的类;
根据聚类中心之间的距离选取与所述第一类距离最近的第二类;
计算第一节点与所述第二类中所有节点的平均距离;
根据第一节点与所述第一类中除所述第一节点之外的其他节点之间的平均距离,以及第一节点与所述第二类中所有节点的平均距离,计算第一节点的轮廓系数;
计算第一类中除第一节点外的其他节点的轮廓系数,进而计算所述第一类的轮廓系数;
计算聚类结果中各个类的轮廓系数,进而计算所述聚类结果的轮廓系数。
6.根据权利要求1或2所述的异常用户识别方法,其特征在于,所述根据待识别用户的固定系数与预先设定的异常用户判断阈值的比较结果,确定待识别用户为异常用户或正常用户包括:
当待识别用户的固定系数小于预先设定的异常用户判断阈值,则所述待识别用户为异常用户;
当待识别用户的固定系数大于或等于预先设定的异常用户判断阈值,则所述待识别用户为正常用户。
7.一种异常用户识别装置,其特征在于,包括:
聚类模块,用于基于多个待识别用户的特征数据,对所述多个待识别用户进行多次第一聚类操作,得到多次第一聚类操作的聚类结果;其中,所述多次第一聚类操作的聚类中心的数量按照预设值确定;
固定系数计算模块,用于根据所述多次第一聚类操作的聚类结果,计算所述多个待识别用户各自的固定系数;
用户类型识别模块,用于根据待识别用户的固定系数与预先设定的异常用户判断阈值的比较结果,确定待识别用户为异常用户或正常用户;
其中,所述根据所述多次第一聚类操作的聚类结果,计算所述多个待识别用户各自的固定系数,具体包括:
计算第一待识别用户在所述多次第一聚类操作的不同聚类结果中所属类的聚类中心之间的相似度;
根据第一待识别用户在所述多次第一聚类操作的不同聚类结果中所属类的聚类中心之间的相似度,为所述第一待识别用户计算固定系数;
所述第一待识别用户为所述多个待识别用户中的任意一个用户;所述固定系数用于反映第一待识别用户在所述多次第一聚类操作的不同聚类结果中的稳定性,所述固定系数的计算公式为:
其中,score表示第一待识别用户的固定系数;N表示所述多次第一聚类操作的次数;ni表示第i次第一聚类时第一待识别用户所属类中的所有节点的个数,nj表示第j次第一聚类时第一待识别用户所属类中的所有节点的个数;Ci表示第i次第一聚类时第一待识别用户所属类的聚类中心,Cj表示第j次聚类时第一待识别用户所属类的聚类中心;corr(Ci,Cj)表示聚类中心Ci与聚类中心Cj之间的相似度。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述异常用户识别方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述异常用户识别方法的步骤。
CN202010397825.7A 2020-05-12 2020-05-12 异常用户识别方法、装置、电子设备及存储介质 Active CN111625817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010397825.7A CN111625817B (zh) 2020-05-12 2020-05-12 异常用户识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010397825.7A CN111625817B (zh) 2020-05-12 2020-05-12 异常用户识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111625817A CN111625817A (zh) 2020-09-04
CN111625817B true CN111625817B (zh) 2023-05-02

Family

ID=72270986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010397825.7A Active CN111625817B (zh) 2020-05-12 2020-05-12 异常用户识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111625817B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108206813A (zh) * 2016-12-19 2018-06-26 中国移动通信集团山西有限公司 基于k均值聚类算法的安全审计方法、装置及服务器
CN109657148A (zh) * 2018-12-24 2019-04-19 北京百度网讯科技有限公司 针对上报poi的异常操作识别方法、装置、服务器和介质
CN109861953A (zh) * 2018-05-14 2019-06-07 新华三信息安全技术有限公司 一种异常用户识别方法及装置
CN110533085A (zh) * 2019-08-12 2019-12-03 大箴(杭州)科技有限公司 同人识别方法及装置、存储介质、计算机设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5800549B2 (ja) * 2011-03-31 2015-10-28 オリンパス株式会社 画像処理装置、画像処理装置の作動方法、及び画像処理プログラム
US20170315855A1 (en) * 2016-05-02 2017-11-02 Agt International Gmbh Method of detecting anomalies on appliances and system thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108206813A (zh) * 2016-12-19 2018-06-26 中国移动通信集团山西有限公司 基于k均值聚类算法的安全审计方法、装置及服务器
CN109861953A (zh) * 2018-05-14 2019-06-07 新华三信息安全技术有限公司 一种异常用户识别方法及装置
CN109657148A (zh) * 2018-12-24 2019-04-19 北京百度网讯科技有限公司 针对上报poi的异常操作识别方法、装置、服务器和介质
CN110533085A (zh) * 2019-08-12 2019-12-03 大箴(杭州)科技有限公司 同人识别方法及装置、存储介质、计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Yu Weng ; .Improved Density Peak Clustering Based on Information Entropy for Ancient Character Images.《IEEE Access》.2019, *
无线传感网中基于DPAM-MD算法的恶意节点识别研究;张琳等;《通信学报》;全文 *

Also Published As

Publication number Publication date
CN111625817A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN111898758B (zh) 一种用户异常行为识别方法、装置及计算机可读存储介质
CN108737406B (zh) 一种异常流量数据的检测方法及系统
TW201909112A (zh) 圖像特徵獲取
CN111783875A (zh) 基于聚类分析的异常用户检测方法、装置、设备及介质
CN111914253B (zh) 一种入侵检测的方法、系统、设备及可读存储介质
CN111209563A (zh) 一种网络入侵检测方法及系统
CN110874471B (zh) 保护隐私安全的神经网络模型的训练方法和装置
US20170372069A1 (en) Information processing method and server, and computer storage medium
CN112927061B (zh) 用户操作检测方法及程序产品
JP7268756B2 (ja) 劣化抑制プログラム、劣化抑制方法および情報処理装置
CN113992340B (zh) 用户异常行为识别方法、装置、设备和存储介质
CN111090807A (zh) 一种基于知识图谱的用户识别方法及装置
CN112839014A (zh) 建立识别异常访问者模型的方法、系统、设备及介质
JP2020113044A (ja) データ拡張プログラム、データ拡張方法およびデータ拡張装置
CN110602120A (zh) 一种面向网络的入侵数据检测方法
Ferreira et al. Adversarial learning for a robust iris presentation attack detection method against unseen attack presentations
CN111553241A (zh) 掌纹的误匹配点剔除方法、装置、设备及存储介质
CN111625817B (zh) 异常用户识别方法、装置、电子设备及存储介质
CN117150294A (zh) 异常值检测方法、装置、电子设备及存储介质
CN111355735A (zh) 一种无感知身份认证方法、装置以及计算机可读存储介质
CN116232694A (zh) 轻量级网络入侵检测方法、装置、电子设备及存储介质
CN115277178A (zh) 基于企业网网络流量的异常监测方法、装置及存储介质
WO2020259946A1 (en) A method to prevent capturing of models in an artificial intelligence based system
CN112597699A (zh) 一种融入客观赋权法的社交网络谣言源识别方法
Mall et al. Agglomerative hierarchical kernel spectral data clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant