CN112765236B - 自适应异常设备挖掘方法、存储介质、设备及系统 - Google Patents

自适应异常设备挖掘方法、存储介质、设备及系统 Download PDF

Info

Publication number
CN112765236B
CN112765236B CN202110090087.6A CN202110090087A CN112765236B CN 112765236 B CN112765236 B CN 112765236B CN 202110090087 A CN202110090087 A CN 202110090087A CN 112765236 B CN112765236 B CN 112765236B
Authority
CN
China
Prior art keywords
equipment
isolated
numerical
forest model
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110090087.6A
Other languages
English (en)
Other versions
CN112765236A (zh
Inventor
王非池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN202110090087.6A priority Critical patent/CN112765236B/zh
Publication of CN112765236A publication Critical patent/CN112765236A/zh
Application granted granted Critical
Publication of CN112765236B publication Critical patent/CN112765236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种自适应异常设备挖掘方法、存储介质、设备及系统,涉及大数据处理领域,该方法包括获取多个已有设备,并分别将各个已有设备的硬件信息均进行数值化转换,得到各个已有设备的对应的数值特征;基于获取的已有设备和转换得到的数值特征,构建多颗孤立决策树,得到第一孤立森林模型;获取N个新增设备,并将新增设备的硬件信息均进行数值化转换,得到新增设备的数值特征;基于获取的新增设备和转换得到的新增设备的数值特征,构建多颗孤立决策树,得到第二孤立森林模型;构建自适应孤立森林模型,并基于构建的自适应孤立森林模型对设备是否异常进行判断。本发明能够有效提升对于异常设备挖掘判断的准确性。

Description

自适应异常设备挖掘方法、存储介质、设备及系统
技术领域
本发明涉及大数据处理领域,具体涉及一种自适应异常设备挖掘方法、存储介质、设备及系统。
背景技术
对于直播平台而言,活跃的平台用户是平台健康运营的保证,然而,某些不法分子或团体为了自身利益,常常做出一些危害平台的行为,例如批量注册直播平台账号、批量刷直播间热度、批量刷直播间关注数量等。不法分子往往采用设备群控的方式进行批量操作,从而获取利润,且不法分子在批量操作中,对于设备信息的伪造至关重要,不法分子往往使用虚拟机、刷机等方式对设备信息进行更新,使得这部分虚假的设备被平台视为新设备。
当前,对异常设备的挖掘可以有效地缓解虚假设备对平台的损害。从设备硬件信息进行挖掘是一种有效的途径,可以通过异常设备信息挖掘的方法来实现识别异常设备的目的。然而,由于手机硬件信息更新迅速,静态的模型容易导致新机型被误认为是异常设备,造成误判,从而使得异常设备的识别不够准确。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种自适应异常设备挖掘方法、存储介质、设备及系统,能够有效提升对于异常设备挖掘判断的准确性。
为达到以上目的,本发明提供的一种自适应异常设备挖掘方法,包括以下步骤:
获取多个已有设备,并分别将各个已有设备的硬件信息均进行数值化转换,得到各个已有设备的对应的数值特征;
基于获取的已有设备和转换得到的数值特征,构建多颗孤立决策树,得到第一孤立森林模型;
获取N个新增设备,并将新增设备的硬件信息均进行数值化转换,得到新增设备的数值特征,所述N为正整数;
基于获取的新增设备和转换得到的新增设备的数值特征,构建多颗孤立决策树,得到第二孤立森林模型;
结合第一孤立森林模型和第二孤立森林模型,构建自适应孤立森林模型,并基于构建的自适应孤立森林模型对设备是否异常进行判断。
在上述技术方案的基础上,
每个设备均包括多个硬件信息;
每个硬件信息数值化转换对应得到1个数值特征;
每个设备均对应多个数值特征。
在上述技术方案的基础上,所述基于获取的已有设备和转换得到的数值特征,构建多颗孤立决策树,其中,每颗孤立决策树的构建步骤包括:
基于获取的已有设备构建设备集合,基于已有设备的数值特征,对每个已有设备均构建数值特征集合;
随机获取设备集合中预设个数的已有设备,构成孤立决策树的设备集;
随机选取一个硬件信息作为随机硬件信息,并统计随机硬件信息对应数值特征在数值特征集合中的取值,得到数值特征取值区间;
随机选取数值特征取值区间中的一个数值,作为分裂树节点的指标,对设备集进行二叉划分,得到两个设备集;
再次随机选取一个硬件信息,再次得到一个随机硬件信息,并统计该随机硬件信息对应数值特征在数值特征集合中的取值,再次得到数值特征取值区间,在得到的数值特征取值区间中再随机选取一个数值作为分裂树节点的指标,对得到的设备集进行二叉划分,每个设备集均再次得到两个设备集,依此循环,直至达到终止条件。
在上述技术方案的基础上,进行二叉划分,得到两个设备集,具体步骤为:
获取设备集中每个设备对应随机硬件信息的硬件信息;
将获取的硬件信息的数值特征与指标进行比对,小于指标的数值特征所对应的设备构成其中一个数据集,大于或等于指标的数值特征所对应的设备构成另一个数据集。
在上述技术方案的基础上,所述终止条件为:
得到的数据集中只包括一个设备或者孤立决策树的高度达到log2ψ,其中,ψ表示从设备集合中获取的已有设备的个数。
在上述技术方案的基础上,所述基于获取的已有设备和转换得到的数值特征,构建多颗孤立决策树,其中,对于构建得到的孤立决策树:
样本点在多颗孤立决策树上的期望为:
Figure GDA0003605769660000031
其中,E(h(x))表示样本点x在e颗孤立决策树上的期望,e表示构建的孤立决策树的颗数,h(x)表示样本点x的路径长度;
孤立决策树的平均分类长度为:
Figure GDA0003605769660000041
其中,c(ψ)表示孤立决策树中子树对样本分类时的分类路径长度平均值,ψ表示从设备集合中获取的已有设备的个数,i=ψ-1,H(i)表示调和数,H(i)的取值为H(i)=in(i)+γ,in(i)表示自然对数,γ表示欧拉常数。
在上述技术方案的基础上,所述基于构建的自适应孤立森林模型对设备是否异常进行判断,其中自适应孤立森林模型对设备是否异常进行判断时,所使用的计算公式为:
Figure GDA0003605769660000042
其中,s(x,ψ)表示得分,x表示样本点,ψ表示从设备集合中获取的已有设备的个数,当s(x,ψ)大于预设值时,则设备为异常设备,反之,则设备为正常设备,σ表示调和参数,取值为0<σ<1,{D}表示获取的已有设备的个数,E(h(x))表示第一孤立森林模型的路径期望,{D'}|表示获取的新增设备的个数,E'(h(x))表示第二孤立森林模型的路径期望,{D,D'}|表示获取的已有设备和新增设备中总的设备种类。
本发明提供的一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述方法的步骤。
本发明提供的一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述方法的步骤。
本发明提供的一种自适应异常设备挖掘系统,包括:
第一获取模块,其用于获取多个已有设备,并分别将各个已有设备的硬件信息均进行数值化转换,得到各个已有设备的对应的数值特征;
第一构建模块,其用于基于获取的已有设备和转换得到的数值特征,构建多颗孤立决策树,得到第一孤立森林模型;
第二获取模块,其用于获取N个新增设备,并将新增设备的硬件信息均进行数值化转换,得到新增设备的数值特征,所述N为正整数;
第二构建模块,其用于基于获取的新增设备和转换得到的新增设备的数值特征,构建多颗孤立决策树,得到第二孤立森林模型;
判断模块,其用于结合第一孤立森林模型和第二孤立森林模型,构建自适应孤立森林模型,并基于构建的自适应孤立森林模型对设备是否异常进行判断。
与现有技术相比,本发明的优点在于:通过采用孤立森林算法构建用于对异常设备进行挖掘的孤立森林模型,并在此基础上对孤立森林模型的算法进行改进,使得孤立森林模型具有学习新的设备的硬件信息的能力以及遗忘老旧设备的硬件信息的能力,有效提升对于异常设备挖掘判断的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种自适应异常设备挖掘方法的流程图;
图2为本发明实施例中一种自适应异常设备挖掘系统的结构示意图。
具体实施方式
本发明实施例提供一种自适应异常设备挖掘方法,通过采用孤立森林算法构建用于对异常设备进行挖掘的孤立森林模型,并在此基础上对孤立森林模型的算法进行改进,使得孤立森林模型具有学习新的设备的硬件信息的能力以及遗忘老旧设备的硬件信息的能力,有效提升对于异常设备挖掘判断的准确性。本发明实施例相应地还提供了一种可读存储介质、一种电子设备和一种自适应异常设备挖掘系统。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1所示,本发明实施例提供的一种自适应异常设备挖掘方法,具体包括以下步骤:
S1:获取多个已有设备,并分别将各个已有设备的硬件信息均进行数值化转换,得到各个已有设备的对应的数值特征。本发明实施例中的设备指智能移动设备,已有设备指当前市面上已经存在的设备,新增设备指后续智能设备开发厂商新出的设备。
本发明实施例中,每个设备均包括多个硬件信息,每个硬件信息数值化转换对应得到1个数值特征,每个设备均对应多个数值特征。在实际的应用过程中,为提升孤立决策树的构建速度,对于设备的多个硬件信息,可以只选取多个硬件信息中的某些特征性较强硬件信息(如手机品牌、手机型号等)进行数值化转换,使得设备对应的数值特征,为特征性较强硬件信息数值化转换得到的数值特征,后续基于这些数值特征构件孤立决策树,以及得到孤立森林模型。
硬件信息包括IMEI(International Mobile Equipment Identity,国际移动设备识别码)串号、手机品牌、手机型号、操作系统类型、操作系统版本、屏幕分辨率、手机尺寸、基带信息、MAC(物理)地址、国际移动用户识别码、共内存和SIM(Subscriber IdentityModule,用户身份识别模块)卡状态。例如,对于设备A,其硬件信息为IMEI串号、手机品牌、手机型号、操作系统类型、操作系统版本、屏幕分辨率、手机尺寸、基带信息、MAC地址、国际移动用户识别码、共内存和SIM卡状态,总共12个硬件信息。
对于设备的硬件信息,硬件信息往往是以文本的形式存在,而构建挖掘模型需要数值型特征,文本型特征对于构建模型十分不利,故本发明需要对设备的硬件信息进行数值化转换,将硬件信息转化为数字,得到设备数值特征。本发明实施例中,对硬件信息进行数值化转换的规则为:
(1)对于IMEI串号、基带信息、MAC地址和国际移动用户识别码,文本中的字符均由0-9与a-z(忽略大小写)组成,对字符进行编码,字符0-9对应数字0-9,a-z对应数字10-35(a对应数字10,b对应数字11,依次类推),例如设备A的IMEI串号为“235ab”,则对设备A的IMEI串号进行数值化转换后,得到的数值特征为“2351011”,设备A的基带信息为“25568”,则对设备A的基带信息进行数值化转换后,得到的数值特征为“25568”。
(2)对于手机品牌和操作系统类型,构建手机品牌和操作系统类型对应的字典,然后对手机品牌和操作系统的出现频率进行统计,利用频率进行排序,将这两个特征映射到自然数区间,频率最高的手机品牌或操作系统映射到1,次高者映射为2,以此类推。例如设备A的手机品牌出现频率最高,则对设备A的手机品牌进行数值化转换后,得到的数值特征为“1”,设备A的操作系统类型出现频率排名第2,则对设备A的操作系统类型进行数值化转换后,得到的数值特征为“2”。
(3)对于屏幕分辨率,则将手机频率分辨率的长和宽分别转化为两个特征。例如,设备A的屏幕分辨率为“1920×1080”,则对设备A的屏幕分辨率进行数值化转换后,得到的数值特征为“19201080”。
(4)对于其它硬件信息,则直接转化为浮点型的数值,作为数值特征。
一般情况下,设备均包括12个硬件信息,因此对设备的硬件信息进行数值化转换,每个设备均可以得到12个数值特征。
S2:基于获取的已有设备和转换得到的数值特征,构建多颗孤立决策树,得到第一孤立森林模型;该步骤中,构建的多颗孤立决策树,共同构成第一孤立森林模型。
S3:获取N个新增设备,并将新增设备的硬件信息均进行数值化转换,得到新增设备的数值特征,N为正整数。市面上智能设备开发厂商新开发的智能移动设备为新增设备,在某一时间点,可能开发出一种新型智能移动设备,则此时N的取值为1,则此时基于这1个新增设备进行多颗孤立决策树的构建,并得到第二孤立森林模型;在某一时间点,可能开发出多种新型智能移动设备,则此时N的取值为大于1的正整数,则此时基于这多个新增设备进行多颗孤立决策树的构建,并得到第二孤立森林模型。
S4:基于获取的新增设备和转换得到的新增设备的数值特征,构建多颗孤立决策树,得到第二孤立森林模型;该步骤中,构建的多颗孤立决策树,共同构成第二孤立森林模型
S5:结合第一孤立森林模型和第二孤立森林模型,构建自适应孤立森林模型,并基于构建的自适应孤立森林模型对设备是否异常进行判断。
本发明实施例中,基于获取的已有设备和转换得到的数值特征,构建多颗孤立决策树,其中,每颗孤立决策树的构建步骤包括:
S201:基于获取的已有设备构建设备集合,基于已有设备的数值特征,对每个已有设备均构建数值特征集合。例如,获取的已有设备为m个,则构建的设备集合D={x(1),x(2),x(3),...,x(m)},x(m)表示设备;获取的已有设备中,每个设备均包括n个硬件信息,则每个设备均包括n个数值特征,对设备x(i)构建数值特征集合,得到x(i)=(x1 (i),x2 (i),x3 (i),...,xn (i)),xn (i)表示数值特征。
S202:随机获取设备集合中预设个数的已有设备,构成孤立决策树的设备集。例如,设备集合中的已有设备包含设备A、设备B、设备C、设备D和设备E,在设备集合中随机获取3个已有设备,获取的3个设备具体为设备B、设备C和设备D,则设备B、设备C和设备D构成设备集。
S203:随机选取一个硬件信息作为随机硬件信息,并统计随机硬件信息对应数值特征在数值特征集合中的取值,得到数值特征取值区间;例如,设备集合包含设备A、设备B、设备C、设备D和设备E,设备A的IMEI串号的数值特征为21,设备B的IMEI串号的数值特征为23,设备C的IMEI串号的数值特征为30,设备D的IMEI串号的数值特征为31,设备E的IMEI串号的数值特征为40,随机选取的硬件信息为IMEI串号,则IMEI串号作为随机硬件信息,数值特征集合中包含设备A、设备B、设备C、设备D和设备E的IMEI串号所对应的数值特征,可以看出,在数值特征集合中,IMEI串号的数值特征取值,最小为21,最大为40,即数值特征集合中,IMEI串号对应的数值特征在21~40范围内取值,故得到的数值特征取值区间为21~40。
S204:随机选取数值特征取值区间中的一个数值,作为分裂树节点的指标,对设备集进行二叉划分,得到两个设备集。本发明实施例中,进行二叉划分,得到两个设备集,具体步骤为:
S2041:获取设备集中每个设备对应随机硬件信息的硬件信息;
S2042:将获取的硬件信息的数值特征与指标进行比对,小于指标的数值特征所对应的设备构成其中一个数据集,大于或等于指标的数值特征所对应的设备构成另一个数据集。
例如,随机硬件信息为IMEI串号,得到的数值特征取值区间为21~40,随机选取数值特征取值区间中的数值为30,则指标为30,设备集包括设备B、设备C和设备D,设备B的IMEI串号的数值特征为23,设备C的IMEI串号的数值特征为30,设备D的IMEI串号的数值特征为31,设备B的IMEI串号的数值特征小于指标,则设备B构成一个数据集,设备C的IMEI串号的数值特征等于指标,设备D的IMEI串号的数值特征大于指标,则设备C和设备D构成另一个数据集。
S205:再次随机选取一个硬件信息,再次得到一个随机硬件信息,并统计该随机硬件信息对应数值特征在数值特征集合中的取值,再次得到数值特征取值区间,在得到的数值特征取值区间中再随机选取一个数值作为分裂树节点的指标,对得到的设备集进行二叉划分,每个设备集均再次得到两个设备集,依此循环,直至达到终止条件。终止条件为:得到的数据集中只包括一个设备或者孤立决策树的高度达到log2ψ,其中,ψ表示从设备集合中获取的已有设备的个数。
例如,第一次进行二叉划分后,得到数据集1和数据集2,数据集包含设备B,数据集2包括包含设备C和设备D,由于数据集1中只含有一个设备,则数据集1满足终止条件,则对数据集不再进行二叉划分,对数据集2再按照步骤S203和步骤S204进行二叉划分,直至达到终止条件。在一种可能的情况中,若设备集中所有设备对应随机硬件信息的硬件信息的数值特征均大于或等于指标,则此次二叉划分只得到一个数据集,若设备集中所有设备对应随机硬件信息的硬件信息的数值特征均小于指标,则此次二叉划分只得到一个数据集。
重复步骤S201~S205,即可得到多颗孤立决策树。
本发明实施例中,基于获取的已有设备和转换得到的数值特征,构建多颗孤立决策树,其中,对于构建得到的孤立决策树:
样本点在多颗孤立决策树上的期望为:
Figure GDA0003605769660000111
其中,E(h(x))表示样本点x在e颗孤立决策树上的期望,e表示构建的孤立决策树的颗数,h(x)表示样本点x的路径长度。孤立森林算法认为正常的样本难以被孤立森林模型分类出来,因此在进行样本分类时孤立森林模型的平均路径更长,而异常点由于更容易分类,因此树的平均路径更短,因此,定义样本点x的路径长度为从孤立森林模型的根节点到叶子节点所经过的边的数量。
以下对上述公式的原理进行说明:
期望是用来反映随机变量平均取值大小的。在本发明中会构建多颗孤立决策树,且每颗孤立决策树均存在平均路径,定义样本点x的路径长度为从孤立森林模型的根节点到叶子节点所经过的边的数量,基于每个孤立决策树的路径长度以及孤立决策树的颗数,即可求出样本点在孤立决策树上的期望,h(x)表示样本点x的路径长度,则计算∑h(x)可得到所有孤立决策树的路径长度之和,计算所有孤立决策树的路径长度之和与孤立决策树颗数的比值即可计算得到样本点在多颗孤立决策树上的期望。
孤立决策树的平均分类长度为:
Figure GDA0003605769660000121
其中,c(ψ)表示孤立决策树中子树对样本分类时的分类路径长度平均值,ψ表示从设备集合中获取的已有设备的个数,i=ψ-1,H(i)表示调和数,H(i)的取值为H(i)=in(i)+γ,in(i)表示自然对数,γ表示欧拉常数。
以下对上述公式的原理进行具体说明:
本发明中,样本点在孤立决策树上的期望容易受到孤立决策树深度的影响,故为了减少孤立决策树深度对样本点在孤立决策树上期望的影响,通过对分类路径长度平均值进行归一化求值,基于计算公式
Figure GDA0003605769660000122
并将i=ψ-1代入计算公式中,求解得到孤立决策树中子树对样本分类时的分类路径长度平均值,采用归一化处理的方式,引入调和数,防止孤立森林模型的深度造成的分类长度偏移,有效减少孤立决策树深度对样本点在孤立决策树上期望的影响。
期望容易受到孤立决策树深度的影响,因此需要对指标进行归一化处理。利用c(ψ)可以对孤立森林模型的样本分类的路径进行归一化。对于某个样本x,第一孤立森林模型对样本x是否异常进行判断时,所使用的计算公式为:
Figure GDA0003605769660000123
其中,s(x)表示样本x的异常得分。
以下对上述公式进行具体说明:
Figure GDA0003605769660000131
表示样本点x在e颗孤立决策树上的期望,与孤立决策树中子树对样本分类时的分类路径长度平均值的比值,将该比值进行求指数运算
Figure GDA0003605769660000132
得到的值作为样本x的异常得分,即使得异常得分与样本点x在e颗孤立决策树上的期望,以及孤立决策树中子树对样本分类时的分类路径长度平均值均相关,从而使得得分能够准确反映待判断设备是否为异常设备。
本发明实施例中,基于获取的新增设备和转换得到的新增设备的数值特征,构建多颗孤立决策树,得到第二孤立森林模型,其实现过程与第一孤立森林模型的构建过程类似,区别点在于第二孤立森林模型的构建基于新增设备和新增设备的数值特征进行,第一孤立森林模型的构建基于已有设备和已有设备的数值特征进行。
本发明实施例中,基于构建的自适应孤立森林模型对设备是否异常进行判断,其中自适应孤立森林模型对设备是否异常进行判断时,所使用的计算公式为:
Figure GDA0003605769660000133
其中,s(x,ψ)表示得分,x表示样本点,ψ表示从设备集合中获取的已有设备的个数,当s(x,ψ)大于预设值时,则设备为异常设备,反之,则设备为正常设备,σ表示调和参数,取值为0<σ<1,|{D}|表示获取的已有设备的个数,E(h(x))表示第一孤立森林模型的路径期望,|{D'}|表示获取的新增设备的个数,E'(h(x))表示第二孤立森林模型的路径期望,|{D,D'}|表示获取的已有设备和新增设备中总的设备种类。
以下对上述公式的原理进行具体说明:
通过在计算过程中引入E(h(x))和E'(h(x)),使得设备是否异常的得分与第一孤立森林模型和第二孤立森林模型均相关,相当于是第一孤立森林模型和第二孤立森林模型共同配合求解得到设备是否异常的得分,但是,对于已有设备,需要一定的遗忘机制,故通过加入调和参数,使得已有设备对应的孤立森林模型的路径长度有一定几率被舍弃,新增设备对应的孤立森林模型的路径长度则不受影响,通过计算σ|{D}|*E(h(x)),使用调和参数对第一孤立森林模型的占有权重进行调整,使得第一孤立森林模型的路径长度有一定几率被舍弃,随着调和参数值的增大,σ|{D}|*E(h(x))的值增大,且调和参数不对第二孤立森林模型产生影响,可以理解的是,调和参数实际上就是一个概率调节参数,对于由已有设备构建的第一孤立森林模型,以一定的概率比例减少第一孤立森林模型的路径期望对第二孤立森林模型的影响,同时,异常得分与样本点x在e颗孤立决策树上的期望,以及孤立决策树中子树对样本分类时的分类路径长度平均值均相关,故加入|{D,D'}|,并使用调和参数对|{D,D'}|进行调和,最终计算得到
Figure GDA0003605769660000141
从而有效的对设备是否异常的得分进行表示,增强对待判断设备是否为异常设备判断的准确性。
由于第一孤立森林模型是基于已有设备构建得到的,其设备集合是固定的,无法对新增设备进行扩展分类,故本发明对于新增设备,同样进行多颗孤立决策树的构建,得到基于新增设备的第二孤立森林模型,从而使得新增设备能够不断加入到自适应孤立森林模型中。对于已有设备(旧机型设备),需要一定的遗忘机制,故通过加入调和参数,使得已有设备对应的孤立森林模型的路径长度有一定几率被舍弃,新增设备对应的孤立森林模型的路径长度则不受影响。
本发明实施例的自适应孤立森林模型具有以下优点:
(1)新增设备可以通过第二孤立森林模型凸现出来,在第一孤立森林模型中,新增设备刚刚出现时会被认为是异常设备,在一段时间的积累之后,才会被认为是正常设备,因为树模型在构建时,是基于设备整体的分布构建,新增设备由于时间关系,无法在短时间内在分布中占据大量位置,因此利用新增设备集合直接构建第二孤立森林模型,有利于新增设备更快的凸现出来。
(2)如果多种新机型同时出现,会进一步减慢积累速度。本发明在模型中对于机型集合的权重调整,使得在一段时间有多种新增设备出现,模型对于新增设备能够有效考量。
(2)增加遗忘机制。一方面,由于已有设备的淘汰,设备的总体分布是在不断变化的,使用调和参数可以使得模型具有自适应的能力。另一方面,失效的第一孤立森林模型需要被遗忘,模型也需要进一步简化,调和参数使得一部分第一孤立森林模型被舍弃,保证了模型的实际速度不会随时间积累变慢。
在孤立森林模型中,孤立决策树的颗数和从设备集合中获取的已设备的个数对孤立森林模型的影响最大,故在实际的应用中,预设个数可以取值为256;孤立决策树的颗数在取值时,与计算性能允许的情况下尽可能取值更大;对于调和参数的取值,一般由第一孤立森林模型的规模来决定,一般情况下会取一个较大值,本发明实施例中,调和参数的取值可以为0.99。调和参数的取值主要由孤立森林模型的大小和不法分子使用虚拟机(异常设备)恶意注册账号的情况严重程度决定,例如:不法分子使用虚拟机恶意注册账号的情况严重时,虚拟设备更换频繁时,此时模型为了更快的跟踪异常动态,需要构建更复杂的模型,同时模型也需要更快速的更新,此时调和参数应该设置的较小,比如0.1;当不法分子使用虚拟机恶意注册账号的情况不是很严重时,此时模型不需要快速更新,可以将调和参数设置的较大,如0.9。
在实际的应用过程中,利用自适应孤立森林模型计算后得到的得分来判断设备是否为异常设备。当得分接近1时,说明待判断设备的路径平均长度远小于孤立决策树的平均路径长度,则判定当前待判断设备为异常设备;当得分接近0.5时,说明待判断设备的路径平均长度与孤立决策树的平均路径长度相近,则无法判定待判断设备是否为异常设备;当得分接近0时,则判定待判断设备为正常设备。因此,本发明实施例将0.8作为用于判断设备是否为异常设备的预设值,当待判断设备的得分大于0.8时,则待判断设备为异常设备,反之,则待判断设备为正常设备。
以下结合一具体实例对本发明实施例中自适应孤立森林模型对设备是否异常进行判断时,所使用的计算公式进行具体说明。
假设计算得到的E(h(x))为2.5,对于新增设备对应第二孤立森林模型,计算得到的路径期望为1,获取的已有设备的个数|{D}|为100,获取的新增设备的个数|{D'}|为10,获取的已有设备和新增设备中总的设备种类|{D,D'}|为102,即新增了2个种类的设备,计算得到的c(ψ)为0.8,设置的调和参数为0.99,则最终计算得到的得分:
Figure GDA0003605769660000161
得分小于0.8,则当前设备为正常设备。
本发明实施例的自适应异常设备挖掘方法,通过采用孤立森林算法构建用于对异常设备进行挖掘的孤立森林模型,并在此基础上对孤立森林模型的算法进行改进,使得孤立森林模型具有学习新的设备的硬件信息的能力以及遗忘老旧设备的硬件信息的能力,有效提升对于异常设备挖掘判断的准确性。
本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述实施例所述的自适应异常设备挖掘方法的步骤。
本发明实施例还提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述的自适应异常设备挖掘方法的步骤。存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
参见图2所示,本发明实施例提供的一种自适应异常设备挖掘系统,包括第一获取模块、第一构建模块、第二获取模块、第二构建模块和判断模块。
第一获取模块用于获取多个已有设备,并分别将各个已有设备的硬件信息均进行数值化转换,得到各个已有设备的对应的数值特征;第一构建模块用于基于获取的已有设备和转换得到的数值特征,构建多颗孤立决策树,得到第一孤立森林模型;第二获取模块用于获取N个新增设备,并将新增设备的硬件信息均进行数值化转换,得到新增设备的数值特征,N为正整数;第二构建模块用于基于获取的新增设备和转换得到的新增设备的数值特征,构建多颗孤立决策树,得到第二孤立森林模型;判断模块用于结合第一孤立森林模型和第二孤立森林模型,构建自适应孤立森林模型,并基于构建的自适应孤立森林模型对设备是否异常进行判断。
需要说明的是,在本申请中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

Claims (8)

1.一种自适应异常设备挖掘方法,其特征在于,包括以下步骤:
获取多个已有设备,并分别将各个已有设备的硬件信息均进行数值化转换,得到各个已有设备的对应的数值特征;
基于获取的已有设备和转换得到的数值特征,构建多颗孤立决策树,得到第一孤立森林模型;
获取N个新增设备,并将新增设备的硬件信息均进行数值化转换,得到新增设备的数值特征,所述N为正整数;
基于获取的新增设备和转换得到的新增设备的数值特征,构建多颗孤立决策树,得到第二孤立森林模型;
结合第一孤立森林模型和第二孤立森林模型,构建自适应孤立森林模型,并基于构建的自适应孤立森林模型对设备是否异常进行判断;
其中,所述基于获取的已有设备和转换得到的数值特征,构建多颗孤立决策树,其中,对于构建得到的孤立决策树:
样本点在多颗孤立决策树上的期望为:
Figure FDA0003605769650000011
其中,E(h(x))表示样本点x在e颗孤立决策树上的期望,e表示构建的孤立决策树的颗数,h(x)表示样本点x的路径长度;
孤立决策树的平均分类长度为:
Figure FDA0003605769650000012
其中,c(ψ)表示孤立决策树中子树对样本分类时的分类路径长度平均值,ψ表示从设备集合中获取的已有设备的个数,i=ψ-1,H(i)表示调和数,H(i)的取值为H(i)=in(i)+γ,in(i)表示自然对数,γ表示欧拉常数;
其中,所述基于构建的自适应孤立森林模型对设备是否异常进行判断,其中自适应孤立森林模型对设备是否异常进行判断时,所使用的计算公式为:
Figure FDA0003605769650000021
其中,s(x,ψ)表示得分,x表示样本点,ψ表示从设备集合中获取的已有设备的个数,当s(x,ψ)大于预设值时,则设备为异常设备,反之,则设备为正常设备,σ表示调和参数,取值为0<σ<1,|{D}|表示获取的已有设备的个数,E(h(x))表示第一孤立森林模型的路径期望,|{D'}|表示获取的新增设备的个数,E'(h(x))表示第二孤立森林模型的路径期望,|{D,D'}|表示获取的已有设备和新增设备中总的设备种类。
2.如权利要求1所述的一种自适应异常设备挖掘方法,其特征在于:
每个设备均包括多个硬件信息;
每个硬件信息数值化转换对应得到1个数值特征;
每个设备均对应多个数值特征。
3.如权利要求1所述的一种自适应异常设备挖掘方法,其特征在于,所述基于获取的已有设备和转换得到的数值特征,构建多颗孤立决策树,其中,每颗孤立决策树的构建步骤包括:
基于获取的已有设备构建设备集合,基于已有设备的数值特征,对每个已有设备均构建数值特征集合;
随机获取设备集合中预设个数的已有设备,构成孤立决策树的设备集;
随机选取一个硬件信息作为随机硬件信息,并统计随机硬件信息对应数值特征在数值特征集合中的取值,得到数值特征取值区间;
随机选取数值特征取值区间中的一个数值,作为分裂树节点的指标,对设备集进行二叉划分,得到两个设备集;
再次随机选取一个硬件信息,再次得到一个随机硬件信息,并统计该随机硬件信息对应数值特征在数值特征集合中的取值,再次得到数值特征取值区间,在得到的数值特征取值区间中再随机选取一个数值作为分裂树节点的指标,对得到的设备集进行二叉划分,每个设备集均再次得到两个设备集,依此循环,直至达到终止条件。
4.如权利要求3所述的一种自适应异常设备挖掘方法,其特征在于,进行二叉划分,得到两个设备集,具体步骤为:
获取设备集中每个设备对应随机硬件信息的硬件信息;
将获取的硬件信息的数值特征与指标进行比对,小于指标的数值特征所对应的设备构成其中一个数据集,大于或等于指标的数值特征所对应的设备构成另一个数据集。
5.如权利要求4所述的一种自适应异常设备挖掘方法,其特征在于,所述终止条件为:
得到的数据集中只包括一个设备或者孤立决策树的高度达到log2ψ,其中,ψ表示从设备集合中获取的已有设备的个数。
6.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5任一项所述方法的步骤。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-5任一项所述方法的步骤。
8.一种自适应异常设备挖掘系统,其特征在于,包括:
第一获取模块,其用于获取多个已有设备,并分别将各个已有设备的硬件信息均进行数值化转换,得到各个已有设备的对应的数值特征;
第一构建模块,其用于基于获取的已有设备和转换得到的数值特征,构建多颗孤立决策树,得到第一孤立森林模型;
第二获取模块,其用于获取N个新增设备,并将新增设备的硬件信息均进行数值化转换,得到新增设备的数值特征,所述N为正整数;
第二构建模块,其用于基于获取的新增设备和转换得到的新增设备的数值特征,构建多颗孤立决策树,得到第二孤立森林模型;
判断模块,其用于结合第一孤立森林模型和第二孤立森林模型,构建自适应孤立森林模型,并基于构建的自适应孤立森林模型对设备是否异常进行判断;
其中,所述基于获取的已有设备和转换得到的数值特征,构建多颗孤立决策树,其中,对于构建得到的孤立决策树:
样本点在多颗孤立决策树上的期望为:
Figure FDA0003605769650000041
其中,E(h(x))表示样本点x在e颗孤立决策树上的期望,e表示构建的孤立决策树的颗数,h(x)表示样本点x的路径长度;
孤立决策树的平均分类长度为:
Figure FDA0003605769650000042
其中,c(ψ)表示孤立决策树中子树对样本分类时的分类路径长度平均值,ψ表示从设备集合中获取的已有设备的个数,i=ψ-1,H(i)表示调和数,H(i)的取值为H(i)=in(i)+γ,in(i)表示自然对数,γ表示欧拉常数;
其中,所述基于构建的自适应孤立森林模型对设备是否异常进行判断,其中自适应孤立森林模型对设备是否异常进行判断时,所使用的计算公式为:
Figure FDA0003605769650000051
其中,s(x,ψ)表示得分,x表示样本点,ψ表示从设备集合中获取的已有设备的个数,当s(x,ψ)大于预设值时,则设备为异常设备,反之,则设备为正常设备,σ表示调和参数,取值为0<σ<1,|{D}|表示获取的已有设备的个数,E(h(x))表示第一孤立森林模型的路径期望,|{D'}|表示获取的新增设备的个数,E'(h(x))表示第二孤立森林模型的路径期望,|{D,D'}|表示获取的已有设备和新增设备中总的设备种类。
CN202110090087.6A 2021-01-22 2021-01-22 自适应异常设备挖掘方法、存储介质、设备及系统 Active CN112765236B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110090087.6A CN112765236B (zh) 2021-01-22 2021-01-22 自适应异常设备挖掘方法、存储介质、设备及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110090087.6A CN112765236B (zh) 2021-01-22 2021-01-22 自适应异常设备挖掘方法、存储介质、设备及系统

Publications (2)

Publication Number Publication Date
CN112765236A CN112765236A (zh) 2021-05-07
CN112765236B true CN112765236B (zh) 2022-07-05

Family

ID=75706738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110090087.6A Active CN112765236B (zh) 2021-01-22 2021-01-22 自适应异常设备挖掘方法、存储介质、设备及系统

Country Status (1)

Country Link
CN (1) CN112765236B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116501444B (zh) * 2023-04-28 2024-02-27 重庆大学 智能网联汽车域控制器虚拟机异常云边协同监测和恢复系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10045218B1 (en) * 2016-07-27 2018-08-07 Argyle Data, Inc. Anomaly detection in streaming telephone network data
CN109902721A (zh) * 2019-01-28 2019-06-18 平安科技(深圳)有限公司 异常点检测模型验证方法、装置、计算机设备及存储介质
CN110046665A (zh) * 2019-04-17 2019-07-23 成都信息工程大学 基于孤立森林二分类异常点检测方法、信息数据处理终端
CN111833172A (zh) * 2020-05-25 2020-10-27 百维金科(上海)信息科技有限公司 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统
CN111988342A (zh) * 2020-09-18 2020-11-24 大连理工大学 一种在线式汽车can网络异常检测系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10045218B1 (en) * 2016-07-27 2018-08-07 Argyle Data, Inc. Anomaly detection in streaming telephone network data
CN109902721A (zh) * 2019-01-28 2019-06-18 平安科技(深圳)有限公司 异常点检测模型验证方法、装置、计算机设备及存储介质
CN110046665A (zh) * 2019-04-17 2019-07-23 成都信息工程大学 基于孤立森林二分类异常点检测方法、信息数据处理终端
CN111833172A (zh) * 2020-05-25 2020-10-27 百维金科(上海)信息科技有限公司 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统
CN111988342A (zh) * 2020-09-18 2020-11-24 大连理工大学 一种在线式汽车can网络异常检测系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
融合煤矿多维时序数据的瓦斯异常检测算法;丁汀等;《计算机集成制造系统》;20200615(第06期);全文 *

Also Published As

Publication number Publication date
CN112765236A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN109241418B (zh) 基于随机森林的异常用户识别方法及装置、设备、介质
CN108366045B (zh) 一种风控评分卡的设置方法和装置
CN110166344B (zh) 一种身份标识识别方法、装置以及相关设备
CN110378430B (zh) 一种基于多模型融合的网络入侵检测的方法及系统
CN107368856A (zh) 恶意软件的聚类方法及装置、计算机装置及可读存储介质
CN110730164B (zh) 安全预警方法及相关设备、计算机可读存储介质
CN112765236B (zh) 自适应异常设备挖掘方法、存储介质、设备及系统
CN111680167A (zh) 一种服务请求的响应方法及服务器
CN113190682B (zh) 基于树模型的事件影响度获取方法、装置及计算机设备
CN116720197B (zh) 一种对漏洞优先级排列的方法及装置
CN108076032B (zh) 一种异常行为用户识别方法及装置
CN115660073B (zh) 基于和声鲸鱼优化算法的入侵检测方法和系统
CN109359274B (zh) 一种对批量生成的字符串进行识别的方法、装置及设备
CN115099875A (zh) 基于决策树模型的数据分类方法及相关设备
CN115391541A (zh) 智能合约代码自动审查方法、存储介质和电子设备
CN113626826A (zh) 智能合约安全检测方法、系统、设备、终端及应用
CN114357180A (zh) 知识图谱的更新方法及电子设备
CN114356712A (zh) 数据处理方法、装置、设备、可读存储介质及程序产品
CN113626815A (zh) 病毒信息的识别方法、病毒信息的识别装置及电子设备
CN111177362A (zh) 一种信息处理方法、装置、服务器及介质
CN113824565B (zh) 区块链敏感信息管理方法及相关装置
CN111369352B (zh) 联合建模方法、设备及介质
CN115022083B (zh) 一种异常定界方法和装置
CN114418752B (zh) 无类型标签用户数据的处理方法、装置、电子设备和介质
CN115514580B (zh) 一种自编码器溯源入侵检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210507

Assignee: Yidu Lehuo Network Technology Co.,Ltd.

Assignor: WUHAN DOUYU YULE NETWORK TECHNOLOGY Co.,Ltd.

Contract record no.: X2023980041383

Denomination of invention: Adaptive anomaly device mining methods, storage media, devices, and systems

Granted publication date: 20220705

License type: Common License

Record date: 20230908