CN112990246B - 孤立树模型建立的方法和装置 - Google Patents
孤立树模型建立的方法和装置 Download PDFInfo
- Publication number
- CN112990246B CN112990246B CN201911302317.XA CN201911302317A CN112990246B CN 112990246 B CN112990246 B CN 112990246B CN 201911302317 A CN201911302317 A CN 201911302317A CN 112990246 B CN112990246 B CN 112990246B
- Authority
- CN
- China
- Prior art keywords
- target
- node
- data
- tree model
- child
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种孤立树模型建立的方法,属于计算机技术领域,方法包括:获取数据样本,生成根节点作为目标父节点,选取目标父节点的分割参考特征,当分割参考特征为类别型特征时,在分割参考特征的各特征值中选取分割参考特征值。生成目标父节点的第一子节点和第二子节点,将包括分割参考特征值的数据样本作为第一子节点的数据样本,将不包括分割参考特征值的数据样本作为第二子节点的数据样本;将满足预设条件的子节点确定为叶节点,将不满足预设条件的子节点作为目标父节点,转至执行在多个特征中选取分割参考特征的处理,直到将各子节点全部确定为目标孤立树模型的叶节点,生成目标孤立树模型。通过本申请可以提高孤立森林模型的检测准确度。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种孤立树模型建立的方法和装置。
背景技术
目前,在信用卡欺诈检测、工业损毁检测、车辆行驶异常检测等异常数据检测领域,较为常用的检测方法是孤立森林模型检测法。
孤立森林模型是由孤立树模型组成,在建立孤立树模型时,对于采样得到的数据样本,使用数据样本中数值型特征的数据,来建立孤立树模型。对于数据样本中的类别型特征的数据会进行剔除,不参与孤立树模型的构建。例如,数据样本为卡口过车数据,在每组卡口过车数据中可以有卡口名称、车主年龄、车速等,其中,卡口名称为类别型特征,车主年龄、车速为数值型特征,使用卡口过车数据建立孤立树模型时,对于类别型特征卡口名称对应的数据要剔除,不参与孤立树模型的构建。
采用上述方法构建孤立树模型时,无法使用数据样本中类别型特征的数据,如果在数据样本中类别型特征的数据占了很大一部分的话,对这些数据全部剔除,会使数据样本中特征的数量大大减少,进而导致最后建立的孤立树模型的检测准确度不高。
因此,目前急需一种孤立树模型的建立方法,能够使用到数据样本中类别型特征的数据,即保留数据样本中全部特征的数据来建立孤立树模型,使得最终得到的孤立森林模型检测准确性更高。
发明内容
本申请实施例提供了一种孤立树模型建立的方法,能够解决由于不能利用全部特征的数据,而导致的孤立森林模型检测准确度较低的问题。所述技术方案如下:
第一方面、提供了一种孤立树模型建立的方法,所述方法包括:
获取多组数据样本,其中,每组数据样本包括多个特征分别对应的特征值,所述多个特征中包括类别型特征;
生成目标孤立树模型的根节点,将所述根节点作为目标父节点,将所述多组数据样本确定为所述目标父节点对应的数据样本;
在所述多个特征中,选取所述目标父节点对应的分割参考特征;
当所述分割参考特征为类别型特征时,在所述目标父节点对应的数据样本中所述分割参考特征对应的各特征值中,选取所述目标父节点对应的分割参考特征值;
生成所述目标父节点对应的第一子节点和第二子节点,将所述目标父节点对应的数据样本中包括所述分割参考特征值的数据样本,作为所述第一子节点对应的数据样本,将所述目标父节点对应的数据样本中不包括所述分割参考特征值的数据样本,作为所述第二子节点对应的数据样本;
确定所述目标父节点的各子节点是否满足作为所述目标孤立树模型的叶节点的预设条件,将满足所述预设条件的子节点确定为所述目标孤立树模型的叶节点,将不满足所述预设条件的子节点作为目标父节点,转至执行在所述多个特征中选取所述目标父节点对应的分割参考特征的处理,,如果所述各子节点全部满足作为所述目标孤立树模型的叶节点的预设条件,则将所述各子节点全部确定为目标孤立树模型的叶节点,生成所述目标孤立树模型。
可选的,所述获取数据样本集之后,所述方法还包括:
对于每个类别型特征对应的每个特征值,确定包括所述特征值的数据样本的组数,作为所述特征值的频数;
建立并存储类别型特征、特征值和频数之间的对应关系;
所述确定所述目标父节点的各子节点是否满足作为叶节点的预设条件,将满足所述预设条件的子节点确定为所述目标孤立树模型的叶节点,包括:
根据所述对应关系,确定所述目标父节点的子节点对应的数据样本包括的所述分割参考特征对应的目标特征值的频数,当所述目标特征值的频数为所述分割参考特征对应的各特征值的频数中的最小值时,将所述目标特征值对应的子节点确定为所述目标孤立树模型的叶节点;
所述方法还包括:
在所述对应关系中,删除所述目标特征值及所述目标特征值的频数。
可选的,所述确定所述目标父节点的各子节点是否满足作为叶节点的预设条件,将满足所述预设条件的子节点确定为所述目标孤立树模型的叶节点,包括:
当所述目标父节点的子节点和所述待建立的孤立树模型的根节点之间的节点数,达到预设数值时,将所述目标父节点的子节点确定为所述待建立的孤立树模型的叶节点。
可选的,所述确定所述目标父节点的各子节点是否满足作为叶节点的预设条件,将满足所述预设条件的子节点确定为所述目标孤立树模型的叶节点,包括:
当所述目标父节点的子节点只对应一组数据样本时,将所述目标父节点的子节点确定为所述待建立的孤立树模型的叶节点。
可选的,所述方法还包括:
生成多个孤立树模型,组成孤立森林模型。
可选的,所述多组数据样本为多组卡口过车数据,多个特征包括卡口名称、车主年龄、车速,其中,所述卡口名称为类别型特征,所述方法还包括;
将待检测卡口过车数据,输入所述孤立森林模型,确定所述待检测卡口过车数据在所述孤立森林模型中的每个孤立树模型中的路径长度;
基于所述路径长度,确定所述待检测卡口过车数据是否为异常过车数据。
第二方面、提供了一种孤立树模型建立的装置,所述装置包括:
获取模块,用于获取多组数据样本,其中,每组数据样本包括多个特征分别对应的特征值,所述多个特征中包括类别型特征;
确定模块,用于生成目标孤立树模型的根节点,将所述根节点作为目标父节点,将所述多组数据样本确定为所述目标父节点对应的数据样本;
选取模块,用于在所述多个特征中,选取所述目标父节点对应的分割参考特征;当所述分割参考特征为类别型特征时,在所述目标父节点对应的数据样本中所述分割参考特征对应的各特征值中,选取所述目标父节点对应的分割参考特征值;
分割模块,用于生成所述目标父节点对应的第一子节点和第二子节点,将所述目标父节点对应的数据样本中包括所述分割参考特征值的数据样本,作为所述第一子节点对应的数据样本,将所述目标父节点对应的数据样本中不包括所述分割参考特征值的数据样本,作为所述第二子节点对应的数据样本;
生成模块,用于确定所述目标父节点的各子节点是否满足作为所述目标孤立树模型的叶节点的预设条件,将满足所述预设条件的子节点确定为所述目标孤立树模型的叶节点,将不满足所述预设条件的子节点作为目标父节点,转至执行在所述多个特征中选取所述目标父节点对应的分割参考特征的处理,,如果所述各子节点全部满足作为所述目标孤立树模型的叶节点的预设条件,则将所述各子节点全部确定为目标孤立树模型的叶节点,生成所述目标孤立树模型。
可选的,所述装置还包括,建立模块,用于:
对于每个类别型特征对应的每个特征值,确定包括所述特征值的数据样本的组数,作为所述特征值的频数;
建立并存储类别型特征、特征值和频数之间的对应关系;
所述生成模块,用于:
根据所述对应关系,确定所述目标父节点的子节点对应的数据样本包括的所述分割参考特征对应的目标特征值的频数,当所述目标特征值的频数为所述分割参考特征对应的各特征值的频数中的最小值时,将所述目标特征值对应的子节点确定为所述目标孤立树模型的叶节点;
所述装置还包括,删除模块,用于:
在所述对应关系中,删除所述目标特征值及所述目标特征值的频数。
可选的,所述生成模块,用于:
当所述目标父节点的子节点和所述待建立的孤立树模型的根节点之间的节点数,达到预设数值时,将所述目标父节点的子节点确定为所述待建立的孤立树模型的叶节点。
可选的,所述生成模块,用于:
当所述目标父节点的子节点只对应一组数据样本时,将所述目标父节点的子节点确定为所述待建立的孤立树模型的叶节点。
可选的,所述装置还包括:
组成模块,用于生成多个孤立树模型,组成孤立森林模型。
可选的,所述多组数据样本为多组卡口过车数据,多个特征包括卡口名称、车主年龄、车速,其中,所述卡口名称为类别型特征,所述装置还包括;
检测模块,用于将待检测卡口过车数据,输入所述孤立森林模型,确定所述待检测卡口过车数据在所述孤立森林模型中的每个孤立树模型中的路径长度;
基于所述路径长度,确定所述待检测卡口过车数据是否为异常过车数据。
第三方面、提供了一种服务器,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如上述第一方面所述的孤立树模型建立的方法。
第四方面、提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如上述第一方面所述的孤立树模型建立的方法。
本申请实施例提供的技术方案带来的有益效果是:
本申请实施例建立每个孤立树模型时,采用的数据样本的特征中包括有类别型特征,也即是类别型特征对应的数据无需剔除。相应的,在建立孤立树模型的过程中,对于分割参考特征为类别型特征时,在目标父节点对应的数据样本中分割参考特征对应的各特征值中分割参考特征值,生成目标父节点对应的第一子节点和第二子节点,将包括分割参考特征值的数据样本,作为第一子节点对应的数据样本,将不包括分割参考特征值的数据样本,作为第二子节点对应的数据样本。然后,判断各子节点是否全部满足作为叶节点的预设条件,不满足的作为目标父节点,转至执行上述选取分割参考特征及后续步骤,直到各子节点全部确定为叶节点为止,得到目标孤立树模型。可见,上述建立孤立树模型的过程中,利用到了类别型特征对应的数据,则在建立孤立树模型时,可以保留数据样本的全部特征的数据,使得建立的孤立树模型所组成的孤立森林模型检测准确度更高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种孤立树模型建立的方法流程图;
图2是本申请实施例提供的一种孤立树模型建立的装置结构示意图;
图3是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供了一种孤立树模型构建的方法,该方法可以由服务器实现。如果需要在大量数据中筛选出异常数据,则可以通过孤立森林模型来实现。例如,在开口过车数据中,找出异常过车数据,这里异常过车数据可能是存在异常行驶行为的车辆的过车数据。
图1是本申请实施例提供的一种孤立森林模型建立的流程图。参见图1,该实施例包括:
步骤101、获取多组数据样本。
其中,每组数据样本包括多个特征分别对应的特征值,所述多个特征中包括类别型特征。
在实施中,在建立孤立树模型时,首先,要获取多组用于建立孤立树模型的数据样本。在获取数据样本时,可以采用随机抽样的方式,即在已有的一定数量的数据中抽取预设数量的数据作为数据样本。对于随机抽样,可以分为有 放回抽样和无放回抽样,下面以在N组数据中,随机抽取M组数据样本为例,分别对有放回抽样和无放回抽样进行说明。其中,N组数据分别对应1到N的索引值。
一、对于有放回抽样。
采用现有的随机数生成系统,在(0,1)区间内产生服从平均分布的随机数(random),将该随机数与N相乘,取其整数部分,作为要抽取的数据的索引值,重复执行此方法M次,得到M个索引值。然后,可以在N组数据中根据这M 个索引值,获取对应的数据,作为数据样本。
二、对于无放回抽样。
可以采用蓄水池抽样的原理,通过并行抽样实现。将N组数据分为K部分,分别由K个计算机设备同时进行抽样,每部分数量可以相同,也可以不同,本申请实施例对此不作限定。为了方便理解,下面以N=100,K=5,M=3,且每部分数据量相同为例进行说明。
在5部分中,每部分数据的索引值依次为1到20,21到40,41到60,61到80,81 到100。对于每部分建立一个数组,在抽样之前数组可以初始化为[-1,-1,-1]。对于第一部分索引值为1到20的数据,要依次确定每组数据是否要选取。首先,将前三组数据的索引值1,2,3填入数组中,则数组更新为[1,2,3]。然后,确定四组数据是否要选取,确定方法为随机生成1到4的整数,如果该整数是1到3 中的一个,则将第四组数据的索引值4,填入数组中该整数对应的位置,替换掉该位置原有的元素,如果该整数不是1到3中一个,则数组不变,即表示该索引值为4的数据不选取。例如,生成的整数为2,在1到3中,则将数组中的第二个元素替换为第四组数据的索引值4,数组更新为[1,4,3]。再然后,确定第五组数据是否要选取,确定方法与上述相同,在此不做赘述。以此类推,直到确定完第二十组数据是否要选取,最终得到第一部分数据对应的数组,例如,最终得到的数组为[6,15,7]。对于第二部分索引值为21到40的数据,同样要依次确定每组数据是否要选取。不过与第一部分不同的是,不用先将前三组数据的索引值填入数组中。确定第二部分的第一组数据是否要选取,确定方法为随机生成1到21的整数,如果该整数是1到3中的一个,则将该第二部分的第一组数据的索引值21,填入数组中该整数对应的位置,替换掉该位置原有的元素,如果该整数不是1到3中一个,则数组不变,即表示该索引值为21的数据不选取。例如,生成的整数为3,在1到3中,则将数组中的第三个元素替换为该第二部分的第一组数据的索引值21,数组更新为[-1,-1,21]。再然后,确定第二部分的第二组数据是否要选取,确定方法与上述相同,在此不做赘述。以此类推,直到确定完第二部分的第二十组数据是否要选取,最终得到第二部分数据对应的数组,例如,最终得到的数组为[25,-1,32]。对于其余三部分数据,采用和第二部分数据相同的选取方法,分别得到对应的数组。例如,第三部分数据对应的数组为[42,50,-1],第四部分数据对应的数组为[65,77,62],第五部分数据对应的数组为[89,-1,82]。最后,将这五部分数据分别得到的数组进行整合。整合方法为由第二部分数据对应的数组中的有效元素替换第一部分数据对应的数组中相应位置的元素,得到第一中间数组,然后,由第三部分数据对应的数组中的有效元素替换第一中间数组中相应位置的元素,得到第二中间数组,以此类推,最后得到的数组中的元素即为待抽取的数据的索引值,其中,有效元素指除-1以外的元素。例如,第一部分数据到第五部分数据对应的数组如上所述,首先,由第二部数据对应的数组[25,-1,32],替换第一部分数据对应的数组[6,15,7],得到第一中间数组[25,15,32]。然后,由第三部数据对应的数组[42,50,-1],替换第一中间数组[25,15,32],得到第二中间数组[42,50,32]。再然后,由第四部数据对应的数组[65,77,62],替换第二中间数组[42,50,32],得到第三中间数组[65,77,62]。接着,由第五部数据对应的数组[89,-1,82],替换第三中间数组[65,77,62],最终得到数组[89,77, 82]。则最后要抽取的数据对应的索引值分别为89、77和82。
在确定出待抽取的数据对应的索引值后,即可以根据索引值获取到相应的数据,作为数据样本。每组数据样本中包括多个特征对应的特征值,不同组数据样本间特征相同,在这些特征中包括有类别型特征和数值型特征,下面通过列表的形式,以数据样本为卡口过车数据为例,对数据样本进行说明,如下表1 所示。
表1
索引值 | 卡口编号 | 车主年龄 | 车速(km/h) |
1 | 卡口A | 19 | 65 |
2 | 卡口B | 24 | 60 |
3 | 卡口C | 20 | 70 |
4 | 卡口C | 35 | 72 |
…… | …… | …… | …… |
如上表1中第一行的卡口编号、车主年龄和车速,表示数据样本的特征,以下每行代表一组数据样本,第一列为每组数据对应的索引值。在上表的各特征中,卡口编号为类别型特征,车主年龄和车速为数值型特征。
步骤102、生成目标孤立树模型的根节点,将根节点作为目标父节点,将多组数据样本确定为目标父节点对应的数据样本。
在实施中,首先生成待建立的目标孤立树模型的根节点,并将该根节点作为目标父节点,把获取的多组数据样本作为该目标父节点对应的数据样本。
步骤103、在多个特征中,选取目标父节点对应的分割参考特征。
在实施中,对于目标父节点对应的数据样本进行分割,首先,要数据样本的各特征中随机选取一个特征作为目标父节点的分割参考特征。
步骤104、当分割参考特征为类别型特征时,在目标父节点对应的数据样本中分割参考特征对应的各特征值中,选取目标父节点对应的分割参考特征值。
在实施中,在确定目标父节点的分割参考特征后,判断该分割参考特征是类别型特征还是数值型特征。如果为类别型特征,则在选取该目标父节点对应的分割参考特征值时,在数据样本集中该分割参考特征对应的各特征值中随机选取一个特征值,作为分割参考特征值。如果为数值型特征,则在数据样本集中该分割参考特征对应的最大特征值和最小特征值之间随机确定一个数值,作为分割参考特征值。
步骤105、生成目标父节点对应的第一子节点和第二子节点,将目标父节点对应的数据样本中包括分割参考特征值的数据样本,作为第一子节点对应的数据样本,将目标父节点对应的数据样本中不包括分割参考特征值的数据样本,作为第二子节点对应的数据样本。
在实施中,对于分割参考特征为类别型特征时,将目标父节点对应的数据样本中包括分割参考特征值的数据样本作为目标父节点对应的第一子节点对应的数据样本,该第一子节点可以为左子节点也可以为右子节点。将目标父节点对应的数据样本中不包括分割参考特征值的数据样本,作为目标父节点对应的第二子节点对应的数据样本,该第二子节点为目标父节点的另一子节点。
步骤106、确定目标父节点的各子节点是否全部满足作为叶节点的预设条件。如果否,则将满足预设条件的子节点确定为目标孤立树模型的叶节点,如果在各子节点中存在不满足预设条件的子节点,则将不满足所述预设条件的子节点作为目标父节点,转至执行在步骤103的处理。如果是,则将各子节点全部确定为叶节点,生成目标孤立树模型。
在实施中,将满足预设条件的子节点,确定为目标孤立树模型的叶节点。而对于不满足预设条件的子节点,则要将其作为目标父节点,再转至执行步骤 103。直到所有子节点都满足预设条件,被确定为叶节点为止,目标孤立树模型则建立完成。
判断子节点是否可以确定为叶节点的方法可以有多种,下面列举几种进行说明。
方法一、当子节点和待建立的孤立树模型的根节点之间的节点数,达到预设数值时,将子节点确定为待建立的孤立树模型的叶节点。
方法二、当子节点只对应一组数据样本时,将子节点确定为所述待建立的孤立树模型的叶节点。
方法三、针对目标父节点对应的分割参考特征为类型特征的情况。在预先存储的类别型特征、特征值和频数之间的对应关系中,确定目标父节点的子节点对应的数据样本包括的分割参考特征对应的目标特征值的频数,当目标特征值的频数为分割参考特征对应的各特征值的频数中的最小值时,将子节点确定为待建立的孤立树模型的叶节点。并在上述对应关系中将该目标特征值及该目标特征值的频数进行删除。
对于该方法三,可以在获取到数据样本集后,对于每个类别型特征对应的每个特征值,确定包括特征值的数据样本的组数,作为该特征值的频数,然后,建立并存储类别型特征、特征值和频数之间的对应关系。如下表2所示,以数据样本为卡口过车数据,类别型特征为卡口编号为例,对类别型特征、特征值和频数之间的对应关系进行说明。
表2
卡口编号 | 频数 |
A | 100 |
B | 104 |
C | 20 |
D | 50 |
在一种可能的实现方式中,可以采用分布式的方式同时执行上述生成孤立树模型的方法,以生成多个孤立树模型,组成一个孤立森林模型。例如,可以采用spark分布式框架实现多个孤立树模型同时生成。之后,则可以将待检测的数据,输入到该孤立森林模型中,即可检测出该待检测的数据是否为异常数据。
在实施中,对于可以将多组数据输入孤立森林模型中的每个孤立树模型,可以确定出每组数据在每个孤立树模型中从根节点到叶节点经过的边的数量,该经过的边的数量也可以称为路径长度。对于一个孤立树模型来说,每组数据通过该孤立树模型可以得到对应的路径长度h(x)。对于一个孤立森林模型,假设由A个孤立树模型组成。那么,在这组数据通过该孤立森林模型后,可以得到A个路径长度h(x)1、h(x)2……h(x)A。然后,可以计算这组数据的路径长度均值:
再然后,通过如下公式:
s(x,n)=2-E(h(x))/c(n),
可以得到每组数据的异常得分s(x,n),其中,c(n)为孤立森林模型中各孤立树模型的平均路径长度,可以以如下公式表示:
其中,n为建立孤立森林模型所使用的不同数据样本的组数,H(n-1)为调和数,该值可以被估计为ln(n-1)+0.772156649。
对于建立完成的孤立森林模型,可以确定一会异常得分阈值,来判断检测数据是否为异常数据。该异常得分阈值确定方法可以如下:
对于建立孤立森林模型时所使用的数据样本,技术人员可以根据经验判断出数据样本中异常数据样本的比例。例如,建立孤立森林模型,总共使用了P 组不同的数据样本,其中有1%的异常数据样本,那么,有异常数据样本1%P 组。然后,使用上述计算异常得分的方法,计算出每组数据样本的异常得分,并对这些数据样本的异常进行排序,将第1%P大的异常得分确定为异常得分阈值。
在判断待检测数据是否为异常数据时,将该待检测数据输入到孤立森林模型,并采用上述方法计算出该待检测数据的异常得分。然后,将该待检测数据的异常得分与异常得分阈值进行比较,如果大于该异常得分阈值,则可以确定该待检测数据为异常数据。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本申请实施例建立每个孤立树模型时,采用的数据样本的特征中包括有类别型特征,也即是类别型特征对应的数据无需剔除。相应的,在建立孤立树模型的过程中,对于分割参考特征为类别型特征时,在目标父节点对应的数据样本中分割参考特征对应的各特征值中分割参考特征值,生成目标父节点对应的第一子节点和第二子节点,将包括分割参考特征值的数据样本,作为第一子节点对应的数据样本,将不包括分割参考特征值的数据样本,作为第二子节点对应的数据样本。然后,判断各子节点是否全部满足作为叶节点的预设条件,不满足的作为目标父节点,转至执行上述选取分割参考特征及后续步骤,直到各子节点全部确定为叶节点为止,得到目标孤立树模型。可见,上述建立孤立树模型的过程中,利用到了类别型特征对应的数据,则在建立孤立树模型时,可以保留数据样本的全部特征的数据,使得建立的孤立树模型所组成的孤立森林模型检测准确度更高。
基于相同的技术构思,本申请实施例还提供了一种孤立树模型建立的装置,该装置可以为上述实施例中的服务器,如图2所示,该装置包括:获取模块210、确定模块220、选取模块230、分割模块240和生成模块250,其中:
获取模块210,用于获取多组数据样本,其中,每组数据样本包括多个特征分别对应的特征值,所述多个特征中包括类别型特征;
确定模块220,用于生成目标孤立树模型的根节点,将所述根节点作为目标父节点,将所述多组数据样本确定为所述目标父节点对应的数据样本;
选取模块230,用于在所述多个特征中,选取所述目标父节点对应的分割参考特征;当所述分割参考特征为类别型特征时,在所述目标父节点对应的数据样本中所述分割参考特征对应的各特征值中,选取所述目标父节点对应的分割参考特征值;
分割模块240,用于生成所述目标父节点对应的第一子节点和第二子节点,将所述目标父节点对应的数据样本中包括所述分割参考特征值的数据样本,作为所述第一子节点对应的数据样本,将所述目标父节点对应的数据样本中不包括所述分割参考特征值的数据样本,作为所述第二子节点对应的数据样本;
生成模块250,用于确定所述目标父节点的各子节点是否满足作为所述目标孤立树模型的叶节点的预设条件,将满足所述预设条件的子节点确定为所述目标孤立树模型的叶节点,将不满足所述预设条件的子节点作为目标父节点,转至执行在所述多个特征中选取所述目标父节点对应的分割参考特征的处理,,如果所述各子节点全部满足作为所述目标孤立树模型的叶节点的预设条件,则将所述各子节点全部确定为目标孤立树模型的叶节点,生成所述目标孤立树模型。
可选的,所述装置还包括,建立模块,用于:
对于每个类别型特征对应的每个特征值,确定包括所述特征值的数据样本的组数,作为所述特征值的频数;
建立并存储类别型特征、特征值和频数之间的对应关系;
所述生成模块250,用于:
根据所述对应关系,确定所述目标父节点的子节点对应的数据样本包括的所述分割参考特征对应的目标特征值的频数,当所述目标特征值的频数为所述分割参考特征对应的各特征值的频数中的最小值时,将所述目标特征值对应的子节点确定为所述目标孤立树模型的叶节点;
所述装置还包括,删除模块,用于:
在所述对应关系中,删除所述目标特征值及所述目标特征值的频数。
可选的,所述生成模块250,用于:
当所述目标父节点的子节点和所述待建立的孤立树模型的根节点之间的节点数,达到预设数值时,将所述目标父节点的子节点确定为所述待建立的孤立树模型的叶节点。
可选的,所述生成模块250,用于:
当所述目标父节点的子节点只对应一组数据样本时,将所述目标父节点的子节点确定为所述待建立的孤立树模型的叶节点。
可选的,所述装置还包括:
组成模块,用于生成多个孤立树模型,组成孤立森林模型。
可选的,所述多组数据样本为多组卡口过车数据,多个特征包括卡口名称、车主年龄、车速,其中,所述卡口名称为类别型特征,所述装置还包括;
检测模块,用于将待检测卡口过车数据,输入所述孤立森林模型,确定所述待检测卡口过车数据在所述孤立森林模型中的每个孤立树模型中的路径长度;
基于所述路径长度,确定所述待检测卡口过车数据是否为异常过车数据。
需要说明的是:上述实施例提供的孤立树模型建立的装置在建立孤立树模型时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的孤立树模型建立的装置与孤立树模型建立的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图3是本申请实施例提供的一种服务器的结构示意图,该服务器300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processingunits,CPU)301和一个或一个以上的存储器302,其中,所述存储器 302中存储有至少一条指令,所述至少一条指令由所述处理器301加载并执行以实现上述各个方法实施例提供的孤立树模型建立的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成下述实施例中孤立树模型建立方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、 CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (12)
1.一种孤立树模型建立的方法,其特征在于,所述方法包括:
获取多组数据样本,其中,每组数据样本包括多个特征分别对应的特征值,所述多个特征中包括类别型特征;
生成目标孤立树模型的根节点,将所述根节点作为目标父节点,将所述多组数据样本确定为所述目标父节点对应的数据样本;
在所述多个特征中,选取所述目标父节点对应的分割参考特征;
当所述分割参考特征为类别型特征时,在所述目标父节点对应的数据样本中所述分割参考特征对应的各特征值中,选取所述目标父节点对应的分割参考特征值;
生成所述目标父节点对应的第一子节点和第二子节点,将所述目标父节点对应的数据样本中包括所述分割参考特征值的数据样本,作为所述第一子节点对应的数据样本,将所述目标父节点对应的数据样本中不包括所述分割参考特征值的数据样本,作为所述第二子节点对应的数据样本;
确定所述目标父节点的各子节点是否满足作为所述目标孤立树模型的叶节点的预设条件,将满足所述预设条件的子节点确定为所述目标孤立树模型的叶节点,将不满足所述预设条件的子节点作为目标父节点,转至执行在所述多个特征中选取所述目标父节点对应的分割参考特征的处理,如果所述各子节点全部满足作为所述目标孤立树模型的叶节点的预设条件,则将所述各子节点全部确定为目标孤立树模型的叶节点,生成所述目标孤立树模型。
2.根据权利要求1所述的方法,其特征在于,所述获取多组数据样本之后,所述方法还包括:
对于每个类别型特征对应的每个特征值,确定包括所述特征值的数据样本的组数,作为所述特征值的频数;
建立并存储类别型特征、特征值和频数之间的对应关系;
所述确定所述目标父节点的各子节点是否满足作为叶节点的预设条件,将满足所述预设条件的子节点确定为所述目标孤立树模型的叶节点,包括:
根据所述对应关系,确定所述目标父节点的子节点对应的数据样本包括的所述分割参考特征对应的目标特征值的频数,当所述目标特征值的频数为所述分割参考特征对应的各特征值的频数中的最小值时,将所述目标特征值对应的子节点确定为所述目标孤立树模型的叶节点;
所述方法还包括:
在所述对应关系中,删除所述目标特征值及所述目标特征值的频数。
3.根据权利要求1所述的方法,其特征在于,所述确定所述目标父节点的各子节点是否满足作为叶节点的预设条件,将满足所述预设条件的子节点确定为所述目标孤立树模型的叶节点,包括:
当所述目标父节点的子节点和所述目标孤立树模型的根节点之间的节点数,达到预设数值时,将所述目标父节点的子节点确定为所述目标孤立树模型的叶节点。
4.根据权利要求1所述的方法,其特征在于,所述确定所述目标父节点的各子节点是否满足作为叶节点的预设条件,将满足所述预设条件的子节点确定为所述目标孤立树模型的叶节点,包括:
当所述目标父节点的子节点只对应一组数据样本时,将所述目标父节点的子节点确定为所述目标孤立树模型的叶节点。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括:
生成多个孤立树模型,组成孤立森林模型。
6.根据权利要求5所述的方法,其特征在于,所述多组数据样本为多组卡口过车数据,多个特征包括卡口名称、车主年龄、车速,其中,所述卡口名称为类别型特征,所述方法还包括;
将待检测卡口过车数据,输入所述孤立森林模型,确定所述待检测卡口过车数据在所述孤立森林模型中的每个孤立树模型中的路径长度;
基于所述路径长度,确定所述待检测卡口过车数据是否为异常过车数据。
7.一种孤立树模型建立的装置,其特征在于,所述装置包括:
获取模块,用于获取多组数据样本,其中,每组数据样本包括多个特征分别对应的特征值,所述多个特征中包括类别型特征;
确定模块,用于生成目标孤立树模型的根节点,将所述根节点作为目标父节点,将所述多组数据样本确定为所述目标父节点对应的数据样本;
选取模块,用于在所述多个特征中,选取所述目标父节点对应的分割参考特征;当所述分割参考特征为类别型特征时,在所述目标父节点对应的数据样本中所述分割参考特征对应的各特征值中,选取所述目标父节点对应的分割参考特征值;
分割模块,用于生成所述目标父节点对应的第一子节点和第二子节点,将所述目标父节点对应的数据样本中包括所述分割参考特征值的数据样本,作为所述第一子节点对应的数据样本,将所述目标父节点对应的数据样本中不包括所述分割参考特征值的数据样本,作为所述第二子节点对应的数据样本;
生成模块,用于确定所述目标父节点的各子节点是否满足作为所述目标孤立树模型的叶节点的预设条件,将满足所述预设条件的子节点确定为所述目标孤立树模型的叶节点,将不满足所述预设条件的子节点作为目标父节点,转至执行在所述多个特征中选取所述目标父节点对应的分割参考特征的处理,如果所述各子节点全部满足作为所述目标孤立树模型的叶节点的预设条件,则将所述各子节点全部确定为目标孤立树模型的叶节点,生成所述目标孤立树模型。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括,建立模块,用于:
对于每个类别型特征对应的每个特征值,确定包括所述特征值的数据样本的组数,作为所述特征值的频数;
建立并存储类别型特征、特征值和频数之间的对应关系;
所述生成模块,用于:
根据所述对应关系,确定所述目标父节点的子节点对应的数据样本包括的所述分割参考特征对应的目标特征值的频数,当所述目标特征值的频数为所述分割参考特征对应的各特征值的频数中的最小值时,将所述目标特征值对应的子节点确定为所述目标孤立树模型的叶节点;
所述装置还包括,删除模块,用于:
在所述对应关系中,删除所述目标特征值及所述目标特征值的频数。
9.根据权利要求7所述的装置,其特征在于,所述生成模块,用于:
当所述目标父节点的子节点和所述目标孤立树模型的根节点之间的节点数,达到预设数值时,将所述目标父节点的子节点确定为所述目标孤立树模型的叶节点。
10.根据权利要求7所述的装置,其特征在于,所述生成模块,用于:
当所述目标父节点的子节点只对应一组数据样本时,将所述目标父节点的子节点确定为所述目标孤立树模型的叶节点。
11.根据权利要求7-10中任一项所述的装置,其特征在于,所述装置还包括:
组成模块,用于生成多个孤立树模型,组成孤立森林模型。
12.根据权利要求11所述的装置,其特征在于,所述多组数据样本为多组卡口过车数据,多个特征包括卡口名称、车主年龄、车速,其中,所述卡口名称为类别型特征,所述装置还包括;
检测模块,用于将待检测卡口过车数据,输入所述孤立森林模型,确定所述待检测卡口过车数据在所述孤立森林模型中的每个孤立树模型中的路径长度;
基于所述路径长度,确定所述待检测卡口过车数据是否为异常过车数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911302317.XA CN112990246B (zh) | 2019-12-17 | 2019-12-17 | 孤立树模型建立的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911302317.XA CN112990246B (zh) | 2019-12-17 | 2019-12-17 | 孤立树模型建立的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112990246A CN112990246A (zh) | 2021-06-18 |
CN112990246B true CN112990246B (zh) | 2022-09-09 |
Family
ID=76342271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911302317.XA Active CN112990246B (zh) | 2019-12-17 | 2019-12-17 | 孤立树模型建立的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112990246B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543765A (zh) * | 2018-08-23 | 2019-03-29 | 江苏海平面数据科技有限公司 | 一种基于改进IForest的工业数据去噪方法 |
CN109859029A (zh) * | 2019-01-04 | 2019-06-07 | 深圳壹账通智能科技有限公司 | 异常申请检测方法、装置、计算机设备以及存储介质 |
CN109902721A (zh) * | 2019-01-28 | 2019-06-18 | 平安科技(深圳)有限公司 | 异常点检测模型验证方法、装置、计算机设备及存储介质 |
CN109976930A (zh) * | 2017-12-28 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 异常数据的检测方法、系统及存储介质 |
CN110189232A (zh) * | 2019-05-14 | 2019-08-30 | 三峡大学 | 基于孤立森林算法的用电信息采集数据异常分析方法 |
CN110276621A (zh) * | 2019-05-21 | 2019-09-24 | 平安银行股份有限公司 | 数据卡反欺诈识别方法、电子装置及可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6782679B2 (ja) * | 2016-12-06 | 2020-11-11 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 情報処理装置、情報処理方法及びプログラム |
-
2019
- 2019-12-17 CN CN201911302317.XA patent/CN112990246B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109976930A (zh) * | 2017-12-28 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 异常数据的检测方法、系统及存储介质 |
CN109543765A (zh) * | 2018-08-23 | 2019-03-29 | 江苏海平面数据科技有限公司 | 一种基于改进IForest的工业数据去噪方法 |
CN109859029A (zh) * | 2019-01-04 | 2019-06-07 | 深圳壹账通智能科技有限公司 | 异常申请检测方法、装置、计算机设备以及存储介质 |
CN109902721A (zh) * | 2019-01-28 | 2019-06-18 | 平安科技(深圳)有限公司 | 异常点检测模型验证方法、装置、计算机设备及存储介质 |
CN110189232A (zh) * | 2019-05-14 | 2019-08-30 | 三峡大学 | 基于孤立森林算法的用电信息采集数据异常分析方法 |
CN110276621A (zh) * | 2019-05-21 | 2019-09-24 | 平安银行股份有限公司 | 数据卡反欺诈识别方法、电子装置及可读存储介质 |
Non-Patent Citations (3)
Title |
---|
传感器网络中频繁移动模式挖掘算法研究;李国徽等;《小型微型计算机系统》;20080615(第06期);全文 * |
基于孤立森林算法的移动警务网络流量监测方法研究;袁艺芳等;《软件》;20191215(第12期);全文 * |
边缘计算构架下基于孤立森林算法的DoS异常检测;陈佳等;《计算机科学》(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112990246A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109598095B (zh) | 评分卡模型的建立方法、装置、计算机设备和存储介质 | |
CN110336838B (zh) | 账号异常检测方法、装置、终端及存储介质 | |
CN105279397A (zh) | 一种识别蛋白质相互作用网络中关键蛋白质的方法 | |
CN109344262A (zh) | 知识体系的建立方法、装置及存储介质 | |
CN110147911A (zh) | 一种基于内容感知的社交影响力预测模型及预测方法 | |
CN110188196B (zh) | 一种基于随机森林的文本增量降维方法 | |
CN112800115B (zh) | 数据处理方法及数据处理装置 | |
CN108805174A (zh) | 聚类方法及装置 | |
CN115145906A (zh) | 一种面向结构化数据的预处理和补全方法 | |
CN112232944B (zh) | 一种评分卡创建方法、装置和电子设备 | |
CN103309984A (zh) | 数据处理的方法和装置 | |
CN113408561A (zh) | 模型生成方法、目标检测方法、装置、设备及存储介质 | |
CN117036060A (zh) | 车险欺诈识别方法、装置和存储介质 | |
CN115018333A (zh) | 一种产业园区的数字化运营管理方法及系统 | |
CN114461858A (zh) | 一种因果关系分析模型构建及因果关系分析方法 | |
CN114792397A (zh) | 一种sar影像城市道路提取方法、系统以及存储介质 | |
CN108830302B (zh) | 一种图像分类方法、训练方法、分类预测方法及相关装置 | |
CN112990246B (zh) | 孤立树模型建立的方法和装置 | |
CN115408859B (zh) | 基于全局敏感性分析的参数分析方法、装置、介质及设备 | |
CN111079843A (zh) | 一种基于rbf神经网络的训练方法 | |
CN112241820A (zh) | 资金流动中关键节点的风险识别方法、装置及计算设备 | |
CN115759250A (zh) | 归因分析方法、装置、电子设备以及存储介质 | |
CN111950753A (zh) | 一种景区客流预测的方法及装置 | |
CN114861858A (zh) | 一种路面异常数据检测方法、装置、设备及可读存储介质 | |
CN115329144A (zh) | 一种产品缺陷的根因确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |