CN109902721A - 异常点检测模型验证方法、装置、计算机设备及存储介质 - Google Patents
异常点检测模型验证方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN109902721A CN109902721A CN201910078953.2A CN201910078953A CN109902721A CN 109902721 A CN109902721 A CN 109902721A CN 201910078953 A CN201910078953 A CN 201910078953A CN 109902721 A CN109902721 A CN 109902721A
- Authority
- CN
- China
- Prior art keywords
- attribute
- data
- classification
- point
- normal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013450 outlier detection Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012795 verification Methods 0.000 title claims abstract description 25
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 230000002159 abnormal effect Effects 0.000 claims abstract description 226
- 238000004590 computer program Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 14
- 235000013399 edible fruits Nutrition 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 239000000203 mixture Substances 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了异常点检测模型验证方法、装置、计算机设备及存储介质。该方法包括:根据预设的当前异常点比例及待分类样本构建孤立森林模型;将待分类样本根据孤立森林模型及当前异常点比例进行分类得到分类结果;根据预先设置的数据属性分类策略,将分类结果进行分类,得到属性分类结果;获取属性分类结果中每一属性分类结果;若每一属性分类结果中第一属性平均值均小于第二属性平均值,将孤立森林模型增加一个合理模型标签。该方法采用智能决策实现了对孤立森林模型的分类合理性自动进行快速而准确的判断,避免了因人工判断而导致的效率低下和高成本。
Description
技术领域
本发明涉及智能决策技术领域,尤其涉及一种异常点检测模型验证方法、装置、计算机设备及存储介质。
背景技术
异常值分析是检验数据是否有录入错误以及含有不合常理的数据的过程,忽视异常值的存在是十分不利的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会产生不良影响。
异常值分析常用的是无监督异常检测模型,而对于无监督异常检测模型的输出结果,往往需要从现实中判断该模型分类的合理性。现有最常用的方法是专家法,即请教相关的专家以其业务知识,判断模型分类是否合理,这就导致判断成本高,而且效率低下。
发明内容
本发明实施例提供了一种异常点检测模型验证方法、装置、计算机设备及存储介质,旨在解决现有技术中对于无监督异常检测模型的输出结果通过相关的专家以其业务知识,判断模型分类是否合理,这就导致判断成本高,而且效率低下的问题。
第一方面,本发明实施例提供了一种异常点检测模型验证方法,其包括:
接收待分类样本,根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型;
将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果;其中,所述分类结果包括正常数据点和异常数据点;
根据预先设置的数据属性分类策略,将所述分类结果进行分类,得到属性分类结果;
获取所述属性分类结果中所包括的每一属性分类结果,判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值;以及
若每一属性分类结果中所述第一属性平均值均小于所述第二属性平均值,将所述孤立森林模型增加一个合理模型标签。
第二方面,本发明实施例提供了一种异常点检测模型验证装置,其包括:
初始构建单元,用于接收待分类样本,根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型;
数据点分类单元,用于将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果;其中,所述分类结果包括正常数据点和异常数据点;
属性分类单元,用于根据预先设置的数据属性分类策略,将所述分类结果进行分类,得到属性分类结果;
平均值比较单元,用于获取所述属性分类结果中所包括的每一属性分类结果,判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值;以及
第一标签设置单元,用于若每一属性分类结果中所述第一属性平均值均小于所述第二属性平均值,将所述孤立森林模型增加一个合理模型标签。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的异常点检测模型验证方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的异常点检测模型验证方法。
本发明实施例提供了一种异常点检测模型验证方法、装置、计算机设备及存储介质。该方法包括接收待分类样本,根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型;将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果;其中,所述分类结果包括正常数据点和异常数据点;根据预先设置的数据属性分类策略,将所述分类结果进行分类,得到属性分类结果;获取所述属性分类结果中所包括的每一属性分类结果,判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值;以及若每一属性分类结果中所述第一属性平均值均小于所述第二属性平均值,将所述孤立森林模型增加一个合理模型标签。该方法实现了对孤立森林模型的分类合理性自动进行快速而准确的判断,避免了因人工判断而导致的效率低下和高成本。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的异常点检测模型验证方法的流程示意图;
图2为本发明实施例提供的异常点检测模型验证方法的子流程示意图;
图3为本发明实施例提供的异常点检测模型验证方法的另一子流程示意图;
图4为本发明实施例提供的异常点检测模型验证方法的另一流程示意图;
图5为本发明实施例提供的异常点检测模型验证装置的示意性框图;
图6为本发明实施例提供的异常点检测模型验证装置的子单元示意性框图;
图7为本发明实施例提供的异常点检测模型验证装置的另一子单元示意性框图;
图8为本发明实施例提供的异常点检测模型验证装置的另一示意性框图;
图9为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本发明实施例提供的异常点检测模型验证方法的流程示意图,该异常点检测模型验证方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
如图1所示,该方法包括步骤S110~S150。
S110、接收待分类样本,根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型。
在本实施例中,例如,服务器接收了上传端所上传的待分类样本后,也同时获取所设置初始的当前异常点比例为0.5(如将初始的当前异常点比例记为m0),表示所期望的孤立森林模型的分类结果中正常点样本和异常点样本比例为1:1。由于假设正常点数量比异常点多,因此此时异常点类别中含有大量的错分正常点。当异常点比例减少的时候,异常点类别中的正常点会被剔除。
孤立森林算法,即iForest算法,用于挖掘异常数据,或者是离群点挖掘,能在在海量数据中,检索出与其它数据的规律不太符合的数据。例如,通常用于网络安全中的攻击检测和流量异常等分析,金融机构则用于挖掘出欺诈行为。
在一实施例中,如图2所示,步骤S110包括:
S111、从所述待分类样本中随机获取数据属性,及由数据属性和当前异常点比例所确定的分裂值;
S112、根据所述数据属性及所述分裂值将所述待分类样本进行划分,得到多个孤立树,由多个孤立树组合得到用于异常点检测的孤立森林模型。
在本实施例中,例如从训练数据集D={d1,d2,…,dn}中随机选择一个数据属性A,并由数据属性A和当前异常点比例确定一个分裂值p1;然后对训练数据集中每个数据对象di,按照数据属性A的分裂值p1进行划分。若di(A)小于p1,则放在左子树,反之则在右子树。此时再随机选择一个数据属性B,并由数据属性B和当前异常点比例确定一个分裂值p2;然后对左子树和右子树均根据按照数据属性B的分裂值p2进行划分,得到与左子树对应的次级左子树和次级右子树,以及与右子树对应的次级左子树和次级右子树。以此迭代,直至满足一下条件之一:(1)D中剩下一条数据或者多条相同的数据;(2)孤立树达到最大高度。由于每一个孤立树在形成的过程中,所随机得到数据属性及与数据属性对应的分裂值不同,这就导致了孤立森林中能包括多个孤立树。孤立树中若设置异常点比例得当,即可提升异常点的检测效果。
S120、将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果;其中,所述分类结果包括正常数据点和异常数据点。
在本实施例中,先根据所述孤立森林模型及当前异常点比例将所述待分类样本进行分类后,得到了包括正常数据点和异常数据点的分类结果。为了对分类结果的合理性进行验证,可以继续观测正常类与异常类在某些特征上的均值上是否存在同向的变化,如在各个类别中正常点数据的某些特征值均大于或小于异常点数据。
在一实施例中,步骤S120之后、步骤S130之前还包括:
获取所述分类结果中正常类别的正常点中心;
获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;
通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;
将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离;
通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度;
若所述平均欧式距离变动幅度超出预设的变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例,通过所述最优异常点比例以更新当前异常点比例;
将所述待分类样本根据所述孤立森林模型及所述最优异常点比例进行分类,得到分类结果。
在本实施例中,步骤S120中将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类是初次分类,此时的当前异常点比例不一定是最佳的异常点比例。为了获取最佳的异常点比例,可通过上述方式获取。
当根据步骤S120中的当前异常点比例将待分类样本由所述孤立森林模型进行分类后,可以确定分类结果中正常类别的数据点对应的正常点中心,这一正常点中心在后续过程中是恒定不变的。
为了判断异常类别的每一数据点与正常点的距离关系,需计算异常类别的每一数据点与所述正常点中心的欧式距离后求平均,得到所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离,从该当前状态平均欧式距离可以看出异常类别的每一数据点是否均远离正常点中心。
通过将当前异常点比例减去所述步长以更新当前异常点比例,此时无需再次确定正常点中心,只需得到分类结果中的异常类别的数据点,再计算异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离。
初始状态下时当前状态平均欧式距离视为d0,则初次得到的下一状态平均欧式距离视为d1,则第二次得到的下一状态平均欧式距离视为d2(此时对应的当前状态平均欧式距离为d1),……,第N次得到的下一状态平均欧式距离视为dN(此时对应的当前状态平均欧式距离为dN-1)。若将预设的步长记为l,则是通过(dN-dN-1)/l来计算平均欧式距离变动幅度,其中N为大于0的正整数。
当平均欧式距离变动幅度陡然变大,表示此刻最新的当前异常点比例不是最优异常点比例,可考虑将此刻最新的当前异常点比例之前一个状态的当前异常点比例作为最优异常点比例。
若平均欧式距离变动幅度超出预设的变动幅度阈值,表示有部分真实的异常点被划分为正常点,导致异常点到正常中心点的平均欧式距离突增,此时当前异常点比例的上一状态(即当前异常点比例加上步长)即可作为最优异常点比例。
若所述平均欧式距离变动幅度未超出所述变动幅度阈值,将当前异常点比例减去步长以更新当前异常点比例,通过下一状态平均欧式距离以更新当前状态平均欧式距离,返回执行将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离的步骤。
当平均欧式距离变动幅度仍保持平稳过渡,表示所降低的异常点比例不足以明显影响异常类别的每一数据点与所述正常点中心的平均欧式距离,此时需将当前异常点比例减去步长以更新当前异常点比例,并通过下一状态平均欧式距离以更新新当前状态平均欧式距离。例如当(dN-dN-1)/l未超出预设的变动幅度阈值,此时将d1作为当前状态平均欧式距离,将(m0-l)作为当前异常点比例重新返回计算以得到d2;之后即是以(d2-d1)/l作为平均欧式距离变动幅度,以此类推,直至执行到平均欧式距离变动幅度超出预设的变动幅度阈值即可。
S130、根据预先设置的数据属性分类策略,将所述分类结果进行分类,得到属性分类结果。
在一实施例中,如图3所示,步骤S130包括:
S131、根据所述数据属性分类策略判断每一正常数据点所属的分组,以得到正常类别属性分类结果;
S132、根据所述数据属性分类策略判断每一异常数据点所属的分组,以得到异常类别属性分类结果;
S133、由所述正常类别属性分类结果及所述异常类别属性分类结果组成所述属性分类结果。
在本实施例中,将所述待分类样本根据所述孤立森林模型进行分类(例如根据最优异常点比例进行分类,得到分类结果)后,所述分类结果包括正常点数据和异常点数据,也即待分类样本中的每一数据点在分类完成后都对应有属于正常类别或是异常类别的标签。此时为了进一步分分类结果中的数据特点,可以选取分类结果中的每一正常数据点和每一异常数据点中的某一属性,将每一正常数据点再次进行分类得到正常类别属性分类结果,同时将每一异常数据点再次进行分类得到异常类别属性分类结果。
正常数据点组成的正常类别数据集合、和异常数据点组成的异常类别数据集合中包括的每一数据点,除了拥有一个主属性(如身份证号),还有与主属性对应的多个从属属性(如年龄,投保保单数目等属性)。此时可以选择以投保保单数目作为分类属性,将所述待分类样本进行分类,得到属性分类结果。
例如,可以在正常类别数据集合中选择将投保保单数目不超过1的数据点分第一类属性分类结果,在正常类别数据集合中选择将投保保单数目超过1的数据点分为第二类属性分类结果。在异常类别数据集合中选择将投保保单数目不超过1的数据点分第三类属性分类结果,在异常类别数据集合中选择将投保保单数目超过1的数据点分为第四类属性分类结果。由第一类属性分类结果和第三类属性分类结果组成第一属性分类结果,由第二类属性分类结果和第四类属性分类结果组成第二属性分类结果。
S140、获取所述属性分类结果中所包括的每一属性分类结果,判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值。
在本实施例中,例如判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值如下:
判断第一属性分类结果中第一类属性分类结果中各正常数据点在投保保单数目这一属性下的第一属性平均值是否小于第一类属性分类结果中各异常数据点在投保保单数目这一属性下的第二属性平均值。同时也判断第二属性分类结果中第三类属性分类结果中各正常数据点在投保保单数目这一属性下的第一属性平均值是否小于第四类属性分类结果中各异常数据点在投保保单数目这一属性下的第二属性平均值。通过观察每个类别中,正常类别数据集合与异常类别数据集合在某些特征上的均值上是否存在同向的变化,可以辅助判断所述孤立森林模型分类的合理性。
S150、若每一属性分类结果中所述第一属性平均值均小于所述第二属性平均值,将所述孤立森林模型增加一个合理模型标签。
在本实施例中,例如第一属性分类结果中第一类属性分类结果中各正常数据点在投保保单数目这一属性下的第一属性平均值小于第一类属性分类结果中各异常数据点在投保保单数目这一属性下的第二属性平均值。而且第二属性分类结果中第三类属性分类结果中各正常数据点在投保保单数目这一属性下的第一属性平均值小于第四类属性分类结果中各异常数据点在投保保单数目这一属性下的第二属性平均值。这就表示正常类别数据集合与异常类别数据集合在投保保单数目上的均值上存在同向的变化,说明所述孤立森林模型是合理的,具有较好的分类效果,可增加一个合理模型标签进行标识。
在一实施例中,如图4所示,步骤S150之后还包括:
S160、若每一属性分类结果中所述第一属性平均值有大于或等于所述第二属性平均值,将所述孤立森林模型增加一个非合理模型标签。
在本实施例中,若每一属性分类结果中所述第一属性平均值有大于或等于所述第二属性平均值,表示正常类别数据集合与异常类别数据集合在对应选定属性的均值上不存在同向的变化,说明所述孤立森林模型不是合理的,需要重新训练模型,可增加一个非合理模型标签进行标识。
该方法实现了对孤立森林模型的分类合理性自动进行快速而准确的判断,避免了因人工判断而导致的效率低下和高成本。
本发明实施例还提供一种异常点检测模型验证装置,该异常点检测模型验证装置用于执行前述异常点检测模型验证方法的任一实施例。具体地,请参阅图5,图5是本发明实施例提供的异常点检测模型验证装置的示意性框图。该异常点检测模型验证装置100可以配置于服务器中。
如图5所示,异常点检测模型验证装置100包括初始构建单元110、数据点分类单元120、属性分类单元130、平均值比较单元140、第一标签设置单元150。
初始构建单元110,用于接收待分类样本,根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型。
在本实施例中,例如,服务器接收了上传端所上传的待分类样本后,也同时获取所设置初始的当前异常点比例为0.5(如将初始的当前异常点比例记为m0),表示所期望的孤立森林模型的分类结果中正常点样本和异常点样本比例为1:1。由于假设正常点数量比异常点多,因此此时异常点类别中含有大量的错分正常点。当异常点比例减少的时候,异常点类别中的正常点会被剔除。
孤立森林算法,即iForest算法,用于挖掘异常数据,或者是离群点挖掘,能在在海量数据中,检索出与其它数据的规律不太符合的数据。例如,通常用于网络安全中的攻击检测和流量异常等分析,金融机构则用于挖掘出欺诈行为。
在一实施例中,如图6所示,初始构建单元110包括:
分类参数获取单元111,用于从所述待分类样本中随机获取数据属性,及由数据属性和当前异常点比例所确定的分裂值;
模型获取单元112,用于根据所述数据属性及所述分裂值将所述待分类样本进行划分,得到多个孤立树,由多个孤立树组合得到用于异常点检测的孤立森林模型。
在本实施例中,例如从训练数据集D={d1,d2,…,dn}中随机选择一个数据属性A,并由数据属性A和当前异常点比例确定一个分裂值p1;然后对训练数据集中每个数据对象di,按照数据属性A的分裂值p1进行划分。若di(A)小于p1,则放在左子树,反之则在右子树。此时再随机选择一个数据属性B,并由数据属性B和当前异常点比例确定一个分裂值p2;然后对左子树和右子树均根据按照数据属性B的分裂值p2进行划分,得到与左子树对应的次级左子树和次级右子树,以及与右子树对应的次级左子树和次级右子树。以此迭代,直至满足一下条件之一:(1)D中剩下一条数据或者多条相同的数据;(2)孤立树达到最大高度。由于每一个孤立树在形成的过程中,所随机得到数据属性及与数据属性对应的分裂值不同,这就导致了孤立森林中能包括多个孤立树。孤立树中若设置异常点比例得当,即可提升异常点的检测效果。
数据点分类单元120,用于将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果;其中,所述分类结果包括正常数据点和异常数据点。
在本实施例中,先根据所述孤立森林模型及当前异常点比例将所述待分类样本进行分类后,得到了包括正常数据点和异常数据点的分类结果。为了对分类结果的合理性进行验证,可以继续观测正常类与异常类在某些特征上的均值上是否存在同向的变化,如在各个类别中正常点数据的某些特征值均大于或小于异常点数据。
在一实施例中,异常点检测模型验证装置100还包括:
正常点中心获取单元,用于获取所述分类结果中正常类别的正常点中心;
第一平均值获取单元,用于获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;
第一比例更新单元,用于通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;
第二平均值获取单元,用于将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离;
幅度计算单元,用于通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度;
最优比例获取单元,用于若所述平均欧式距离变动幅度超出预设的变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例,通过所述最优异常点比例以更新当前异常点比例;
最优分类单元,用于将所述待分类样本根据所述孤立森林模型及所述最优异常点比例进行分类,得到分类结果。
在本实施例中,将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类是初次分类,此时的当前异常点比例不一定是最佳的异常点比例。为了获取最佳的异常点比例,可通过上述方式获取。
当根据当前异常点比例将待分类样本由所述孤立森林模型进行分类后,可以确定分类结果中正常类别的数据点对应的正常点中心,这一正常点中心在后续过程中是恒定不变的。
为了判断异常类别的每一数据点与正常点的距离关系,需计算异常类别的每一数据点与所述正常点中心的欧式距离后求平均,得到所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离,从该当前状态平均欧式距离可以看出异常类别的每一数据点是否均远离正常点中心。
通过将当前异常点比例减去所述步长以更新当前异常点比例,此时无需再次确定正常点中心,只需得到分类结果中的异常类别的数据点,再计算异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离。
初始状态下时当前状态平均欧式距离视为d0,则初次得到的下一状态平均欧式距离视为d1,则第二次得到的下一状态平均欧式距离视为d2(此时对应的当前状态平均欧式距离为d1),……,第N次得到的下一状态平均欧式距离视为dN(此时对应的当前状态平均欧式距离为dN-1)。若将预设的步长记为l,则是通过(dN-dN-1)/l来计算平均欧式距离变动幅度,其中N为大于0的正整数。
当平均欧式距离变动幅度陡然变大,表示此刻最新的当前异常点比例不是最优异常点比例,可考虑将此刻最新的当前异常点比例之前一个状态的当前异常点比例作为最优异常点比例。
若平均欧式距离变动幅度超出预设的变动幅度阈值,表示有部分真实的异常点被划分为正常点,导致异常点到正常中心点的平均欧式距离突增,此时当前异常点比例的上一状态(即当前异常点比例加上步长)即可作为最优异常点比例。
若所述平均欧式距离变动幅度未超出所述变动幅度阈值,将当前异常点比例减去步长以更新当前异常点比例,通过下一状态平均欧式距离以更新当前状态平均欧式距离,返回执行将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离的步骤。
当平均欧式距离变动幅度仍保持平稳过渡,表示所降低的异常点比例不足以明显影响异常类别的每一数据点与所述正常点中心的平均欧式距离,此时需将当前异常点比例减去步长以更新当前异常点比例,并通过下一状态平均欧式距离以更新新当前状态平均欧式距离。例如当(dN-dN-1)/l未超出预设的变动幅度阈值,此时将d1作为当前状态平均欧式距离,将(m0-l)作为当前异常点比例重新返回计算以得到d2;之后即是以(d2-d1)/l作为平均欧式距离变动幅度,以此类推,直至执行到平均欧式距离变动幅度超出预设的变动幅度阈值即可。
属性分类单元130,用于根据预先设置的数据属性分类策略,将所述分类结果进行分类,得到属性分类结果。
在一实施例中,如图7所示,属性分类单元130包括:
第一类别分类单元131,用于根据所述数据属性分类策略判断每一正常数据点所属的分组,以得到正常类别属性分类结果;
第二类别分类单元132,用于根据所述数据属性分类策略判断每一异常数据点所属的分组,以得到异常类别属性分类结果;
属性分类结果获取单元133,用于由所述正常类别属性分类结果及所述异常类别属性分类结果组成所述属性分类结果。
在本实施例中,将所述待分类样本根据所述孤立森林模型进行分类(例如根据最优异常点比例进行分类,得到分类结果)后,所述分类结果包括正常点数据和异常点数据,也即待分类样本中的每一数据点在分类完成后都对应有属于正常类别或是异常类别的标签。此时为了进一步分分类结果中的数据特点,可以选取分类结果中的每一正常数据点和每一异常数据点中的某一属性,将每一正常数据点再次进行分类得到正常类别属性分类结果,同时将每一异常数据点再次进行分类得到异常类别属性分类结果。
正常数据点组成的正常类别数据集合、和异常数据点组成的异常类别数据集合中包括的每一数据点,除了拥有一个主属性(如身份证号),还有与主属性对应的多个从属属性(如年龄,投保保单数目等属性)。此时可以选择以投保保单数目作为分类属性,将所述待分类样本进行分类,得到属性分类结果。
例如,可以在正常类别数据集合中选择将投保保单数目不超过1的数据点分第一类属性分类结果,在正常类别数据集合中选择将投保保单数目超过1的数据点分为第二类属性分类结果。在异常类别数据集合中选择将投保保单数目不超过1的数据点分第三类属性分类结果,在异常类别数据集合中选择将投保保单数目超过1的数据点分为第四类属性分类结果。由第一类属性分类结果和第三类属性分类结果组成第一属性分类结果,由第二类属性分类结果和第四类属性分类结果组成第二属性分类结果。
平均值比较单元140,用于获取所述属性分类结果中所包括的每一属性分类结果,判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值。
在本实施例中,例如判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值如下:
判断第一属性分类结果中第一类属性分类结果中各正常数据点在投保保单数目这一属性下的第一属性平均值是否小于第一类属性分类结果中各异常数据点在投保保单数目这一属性下的第二属性平均值。同时也判断第二属性分类结果中第三类属性分类结果中各正常数据点在投保保单数目这一属性下的第一属性平均值是否小于第四类属性分类结果中各异常数据点在投保保单数目这一属性下的第二属性平均值。通过观察每个类别中,正常类别数据集合与异常类别数据集合在某些特征上的均值上是否存在同向的变化,可以辅助判断所述孤立森林模型分类的合理性。
第一标签设置单元150,用于若每一属性分类结果中所述第一属性平均值均小于所述第二属性平均值,将所述孤立森林模型增加一个合理模型标签。
在本实施例中,例如第一属性分类结果中第一类属性分类结果中各正常数据点在投保保单数目这一属性下的第一属性平均值小于第一类属性分类结果中各异常数据点在投保保单数目这一属性下的第二属性平均值。而且第二属性分类结果中第三类属性分类结果中各正常数据点在投保保单数目这一属性下的第一属性平均值小于第四类属性分类结果中各异常数据点在投保保单数目这一属性下的第二属性平均值。这就表示正常类别数据集合与异常类别数据集合在投保保单数目上的均值上存在同向的变化,说明所述孤立森林模型是合理的,具有较好的分类效果,可增加一个合理模型标签进行标识。
在一实施例中,如图8所示,异常点检测模型验证装置100还包括:
第二标签设置单元160,用于若每一属性分类结果中所述第一属性平均值有大于或等于所述第二属性平均值,将所述孤立森林模型增加一个非合理模型标签。
在本实施例中,若每一属性分类结果中所述第一属性平均值有大于或等于所述第二属性平均值,表示正常类别数据集合与异常类别数据集合在对应选定属性的均值上不存在同向的变化,说明所述孤立森林模型不是合理的,需要重新训练模型,可增加一个非合理模型标签进行标识。
该装置实现了对孤立森林模型的分类合理性自动进行快速而准确的判断,避免了因人工判断而导致的效率低下和高成本。
上述异常点检测模型验证装置可以实现为计算机程序的形式,该计算机程序可以在如图9所示的计算机设备上运行。
请参阅图9,图9是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图9,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行异常点检测模型验证方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行异常点检测模型验证方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图9中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:接收待分类样本,根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型;将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果;其中,所述分类结果包括正常数据点和异常数据点;根据预先设置的数据属性分类策略,将所述分类结果进行分类,得到属性分类结果;获取所述属性分类结果中所包括的每一属性分类结果,判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值;以及若每一属性分类结果中所述第一属性平均值均小于所述第二属性平均值,将所述孤立森林模型增加一个合理模型标签。
在一实施例中,处理器502在执行所述根据预先设置的数据属性分类策略,将所述分类结果进行分类,得到属性分类结果的步骤之前,还执行如下操作:获取所述分类结果中正常类别的正常点中心;获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离;通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度;若所述平均欧式距离变动幅度超出预设的变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例,通过所述最优异常点比例以更新当前异常点比例;将所述待分类样本根据所述孤立森林模型及所述最优异常点比例进行分类,得到分类结果。
在一实施例中,处理器502在执行所述根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型的步骤时,执行如下操作:从所述待分类样本中随机获取数据属性,及由数据属性和当前异常点比例所确定的分裂值;根据所述数据属性及所述分裂值将所述待分类样本进行划分,得到多个孤立树,由多个孤立树组合得到用于异常点检测的孤立森林模型。
在一实施例中,处理器502在执行所述根据预先设置的数据属性分类策略,将所述分类结果进行分类,得到属性分类结果的步骤时,执行如下操作:根据所述数据属性分类策略判断每一正常数据点所属的分组,以得到正常类别属性分类结果;根据所述数据属性分类策略判断每一异常数据点所属的分组,以得到异常类别属性分类结果;由所述正常类别属性分类结果及所述异常类别属性分类结果组成所述属性分类结果。
在一实施例中,处理器502在执行所述获取所述属性分类结果中所包括的每一属性分类结果,判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值的步骤之后,还执行如下操作:若每一属性分类结果中所述第一属性平均值有大于或等于所述第二属性平均值,将所述孤立森林模型增加一个非合理模型标签。
本领域技术人员可以理解,图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图9所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现以下步骤:接收待分类样本,根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型;将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果;其中,所述分类结果包括正常数据点和异常数据点;根据预先设置的数据属性分类策略,将所述分类结果进行分类,得到属性分类结果;获取所述属性分类结果中所包括的每一属性分类结果,判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值;以及若每一属性分类结果中所述第一属性平均值均小于所述第二属性平均值,将所述孤立森林模型增加一个合理模型标签。
在一实施例中,所述根据预先设置的数据属性分类策略,将所述分类结果进行分类,得到属性分类结果之前,还包括:获取所述分类结果中正常类别的正常点中心;获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离;通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度;若所述平均欧式距离变动幅度超出预设的变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例,通过所述最优异常点比例以更新当前异常点比例;将所述待分类样本根据所述孤立森林模型及所述最优异常点比例进行分类,得到分类结果。
在一实施例中,所述根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型,包括:从所述待分类样本中随机获取数据属性,及由数据属性和当前异常点比例所确定的分裂值;根据所述数据属性及所述分裂值将所述待分类样本进行划分,得到多个孤立树,由多个孤立树组合得到用于异常点检测的孤立森林模型。
在一实施例中,所述根据预先设置的数据属性分类策略,将所述分类结果进行分类,得到属性分类结果,包括:根据所述数据属性分类策略判断每一正常数据点所属的分组,以得到正常类别属性分类结果;根据所述数据属性分类策略判断每一异常数据点所属的分组,以得到异常类别属性分类结果;由所述正常类别属性分类结果及所述异常类别属性分类结果组成所述属性分类结果。
在一实施例中,所述获取所述属性分类结果中所包括的每一属性分类结果,判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值之后,还包括:若每一属性分类结果中所述第一属性平均值有大于或等于所述第二属性平均值,将所述孤立森林模型增加一个非合理模型标签。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种异常点检测模型验证方法,其特征在于,包括:
接收待分类样本,根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型;
将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果;其中,所述分类结果包括正常数据点和异常数据点;
根据预先设置的数据属性分类策略,将所述分类结果进行分类,得到属性分类结果;
获取所述属性分类结果中所包括的每一属性分类结果,判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值;以及
若每一属性分类结果中所述第一属性平均值均小于所述第二属性平均值,将所述孤立森林模型增加一个合理模型标签。
2.根据权利要求1所述的异常点检测模型验证方法,其特征在于,所述根据预先设置的数据属性分类策略,将所述分类结果进行分类,得到属性分类结果之前,还包括:
获取所述分类结果中正常类别的正常点中心;
获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;
通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;
将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离;
通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度;
若所述平均欧式距离变动幅度超出预设的变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例,通过所述最优异常点比例以更新当前异常点比例;
将所述待分类样本根据所述孤立森林模型及所述最优异常点比例进行分类,得到分类结果。
3.根据权利要求1所述的异常点检测模型验证方法,其特征在于,所述根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型,包括:
从所述待分类样本中随机获取数据属性,及由数据属性和当前异常点比例所确定的分裂值;
根据所述数据属性及所述分裂值将所述待分类样本进行划分,得到多个孤立树,由多个孤立树组合得到用于异常点检测的孤立森林模型。
4.根据权利要求1所述的异常点检测模型验证方法,其特征在于,所述根据预先设置的数据属性分类策略,将所述分类结果进行分类,得到属性分类结果,包括:
根据所述数据属性分类策略判断每一正常数据点所属的分组,以得到正常类别属性分类结果;
根据所述数据属性分类策略判断每一异常数据点所属的分组,以得到异常类别属性分类结果;
由所述正常类别属性分类结果及所述异常类别属性分类结果组成所述属性分类结果。
5.根据权利要求2所述的异常点检测模型验证方法,其特征在于,所述获取所述属性分类结果中所包括的每一属性分类结果,判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值之后,还包括:
若每一属性分类结果中所述第一属性平均值有大于或等于所述第二属性平均值,将所述孤立森林模型增加一个非合理模型标签。
6.一种异常点检测模型验证装置,其特征在于,包括:
初始构建单元,用于接收待分类样本,根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型;
数据点分类单元,用于将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果;其中,所述分类结果包括正常数据点和异常数据点;
属性分类单元,用于根据预先设置的数据属性分类策略,将所述分类结果进行分类,得到属性分类结果;
平均值比较单元,用于获取所述属性分类结果中所包括的每一属性分类结果,判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值;以及
第一标签设置单元,用于若每一属性分类结果中所述第一属性平均值均小于所述第二属性平均值,将所述孤立森林模型增加一个合理模型标签。
7.根据权利要求6所述的异常点检测模型验证装置,其特征在于,还包括:
正常点中心获取单元,用于获取所述分类结果中正常类别的正常点中心;
第一平均值获取单元,用于获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;
第一比例更新单元,用于通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;
第二平均值获取单元,用于将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离;
幅度计算单元,用于通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度;
最优比例获取单元,用于若所述平均欧式距离变动幅度超出预设的变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例,通过所述最优异常点比例以更新当前异常点比例;
最优分类单元,用于将所述待分类样本根据所述孤立森林模型及所述最优异常点比例进行分类,得到分类结果。
8.根据权利要求6所述的异常点检测模型验证装置,其特征在于,所述属性分类单元,包括:
第一类别分类单元,用于根据所述数据属性分类策略判断每一正常数据点所属的分组,以得到正常类别属性分类结果;
第二类别分类单元,用于根据所述数据属性分类策略判断每一异常数据点所属的分组,以得到异常类别属性分类结果;
属性分类结果获取单元,用于由所述正常类别属性分类结果及所述异常类别属性分类结果组成所述属性分类结果。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的异常点检测模型验证方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的异常点检测模型验证方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910078953.2A CN109902721B (zh) | 2019-01-28 | 2019-01-28 | 异常点检测模型验证方法、装置、计算机设备及存储介质 |
PCT/CN2019/117291 WO2020155752A1 (zh) | 2019-01-28 | 2019-11-12 | 异常点检测模型验证方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910078953.2A CN109902721B (zh) | 2019-01-28 | 2019-01-28 | 异常点检测模型验证方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109902721A true CN109902721A (zh) | 2019-06-18 |
CN109902721B CN109902721B (zh) | 2024-07-02 |
Family
ID=66944340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910078953.2A Active CN109902721B (zh) | 2019-01-28 | 2019-01-28 | 异常点检测模型验证方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109902721B (zh) |
WO (1) | WO2020155752A1 (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110398375A (zh) * | 2019-07-16 | 2019-11-01 | 广州亚美信息科技有限公司 | 车辆冷却系统工作状态的监测方法、装置、设备和介质 |
CN110705635A (zh) * | 2019-09-29 | 2020-01-17 | 京东城市(北京)数字科技有限公司 | 用于生成隔离森林的方法和装置 |
CN110991552A (zh) * | 2019-12-12 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 基于联邦学习的孤立森林模型构建和预测方法和装置 |
WO2020155752A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 异常点检测模型验证方法、装置、计算机设备及存储介质 |
CN111798312A (zh) * | 2019-08-02 | 2020-10-20 | 深圳索信达数据技术有限公司 | 一种基于孤立森林算法的金融交易系统异常识别方法 |
CN111897695A (zh) * | 2020-07-31 | 2020-11-06 | 平安科技(深圳)有限公司 | 获取kpi异常数据样本的方法、装置和计算机设备 |
CN112100497A (zh) * | 2020-09-14 | 2020-12-18 | 北京嘀嘀无限科技发展有限公司 | 一种数据处理方法、装置、电子设备及可读存储介质 |
CN112231181A (zh) * | 2020-12-08 | 2021-01-15 | 平安科技(深圳)有限公司 | 数据异常更新检测方法、装置、计算机设备及存储介质 |
CN112597209A (zh) * | 2020-12-15 | 2021-04-02 | 深圳前海微众银行股份有限公司 | 数据的验证方法、装置、系统及计算机可读存储介质 |
CN112765236A (zh) * | 2021-01-22 | 2021-05-07 | 武汉斗鱼鱼乐网络科技有限公司 | 自适应异常设备挖掘方法、存储介质、设备及系统 |
CN112990246A (zh) * | 2019-12-17 | 2021-06-18 | 杭州海康威视数字技术股份有限公司 | 孤立树模型建立的方法和装置 |
CN114240101A (zh) * | 2021-12-02 | 2022-03-25 | 支付宝(杭州)信息技术有限公司 | 一种风险识别模型的验证方法、装置以及设备 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112134862B (zh) * | 2020-09-11 | 2023-09-08 | 国网电力科学研究院有限公司 | 基于机器学习的粗细粒度混合网络异常检测方法及装置 |
CN112633395B (zh) * | 2020-12-29 | 2024-07-19 | 平安科技(深圳)有限公司 | 异常数据的检测方法、装置、计算机设备和存储介质 |
CN112733897B (zh) * | 2020-12-30 | 2024-06-28 | 胜斗士(上海)科技技术发展有限公司 | 确定多维样本数据的异常原因的方法和设备 |
CN113496440B (zh) * | 2021-06-28 | 2023-12-12 | 国网上海市电力公司 | 一种用户异常用电检测方法及系统 |
CN113915153A (zh) * | 2021-09-30 | 2022-01-11 | 山东浪潮通软信息科技有限公司 | 一种矿用通风机异常检测的方法、系统、设备和存储介质 |
CN114925731B (zh) * | 2022-06-06 | 2024-05-31 | 华电金沙江上游水电开发有限公司叶巴滩分公司 | 检测柔性测斜仪监测数据异常值的方法 |
CN115766282B (zh) * | 2022-12-12 | 2024-05-24 | 张家港金典软件有限公司 | 一种用于企业信息安全监督的数据处理方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107657288A (zh) * | 2017-10-26 | 2018-02-02 | 国网冀北电力有限公司 | 一种基于孤立森林算法的电力调度流数据异常检测方法 |
US10045218B1 (en) * | 2016-07-27 | 2018-08-07 | Argyle Data, Inc. | Anomaly detection in streaming telephone network data |
CN108777873A (zh) * | 2018-06-04 | 2018-11-09 | 江南大学 | 基于加权混合孤立森林的无线传感网络异常数据检测方法 |
CN108776683A (zh) * | 2018-06-01 | 2018-11-09 | 广东电网有限责任公司 | 一种基于孤立森林算法和神经网络的电力运维数据清洗方法 |
CN108846259A (zh) * | 2018-04-26 | 2018-11-20 | 河南师范大学 | 一种基于聚类和随机森林算法的基因分类方法及系统 |
CN108921440A (zh) * | 2018-07-11 | 2018-11-30 | 平安科技(深圳)有限公司 | 污染物异常监测方法、系统、计算机设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357790B (zh) * | 2016-05-09 | 2021-06-04 | 阿里巴巴集团控股有限公司 | 一种异常消息检测方法、装置及系统 |
CN109902721B (zh) * | 2019-01-28 | 2024-07-02 | 平安科技(深圳)有限公司 | 异常点检测模型验证方法、装置、计算机设备及存储介质 |
-
2019
- 2019-01-28 CN CN201910078953.2A patent/CN109902721B/zh active Active
- 2019-11-12 WO PCT/CN2019/117291 patent/WO2020155752A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10045218B1 (en) * | 2016-07-27 | 2018-08-07 | Argyle Data, Inc. | Anomaly detection in streaming telephone network data |
CN107657288A (zh) * | 2017-10-26 | 2018-02-02 | 国网冀北电力有限公司 | 一种基于孤立森林算法的电力调度流数据异常检测方法 |
CN108846259A (zh) * | 2018-04-26 | 2018-11-20 | 河南师范大学 | 一种基于聚类和随机森林算法的基因分类方法及系统 |
CN108776683A (zh) * | 2018-06-01 | 2018-11-09 | 广东电网有限责任公司 | 一种基于孤立森林算法和神经网络的电力运维数据清洗方法 |
CN108777873A (zh) * | 2018-06-04 | 2018-11-09 | 江南大学 | 基于加权混合孤立森林的无线传感网络异常数据检测方法 |
CN108921440A (zh) * | 2018-07-11 | 2018-11-30 | 平安科技(深圳)有限公司 | 污染物异常监测方法、系统、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
胡淼等: "模糊树节点的随机森林与异常点检测", 南京大学学报(自然科学), vol. 54, no. 06, 30 November 2018 (2018-11-30), pages 1141 - 1149 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020155752A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 异常点检测模型验证方法、装置、计算机设备及存储介质 |
CN110398375A (zh) * | 2019-07-16 | 2019-11-01 | 广州亚美信息科技有限公司 | 车辆冷却系统工作状态的监测方法、装置、设备和介质 |
CN111798312A (zh) * | 2019-08-02 | 2020-10-20 | 深圳索信达数据技术有限公司 | 一种基于孤立森林算法的金融交易系统异常识别方法 |
CN111798312B (zh) * | 2019-08-02 | 2024-03-01 | 深圳索信达数据技术有限公司 | 一种基于孤立森林算法的金融交易系统异常识别方法 |
CN110705635A (zh) * | 2019-09-29 | 2020-01-17 | 京东城市(北京)数字科技有限公司 | 用于生成隔离森林的方法和装置 |
WO2021114821A1 (zh) * | 2019-12-12 | 2021-06-17 | 支付宝(杭州)信息技术有限公司 | 基于联邦学习的孤立森林模型构建和预测方法和装置 |
CN110991552A (zh) * | 2019-12-12 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 基于联邦学习的孤立森林模型构建和预测方法和装置 |
CN112990246A (zh) * | 2019-12-17 | 2021-06-18 | 杭州海康威视数字技术股份有限公司 | 孤立树模型建立的方法和装置 |
CN112990246B (zh) * | 2019-12-17 | 2022-09-09 | 杭州海康威视数字技术股份有限公司 | 孤立树模型建立的方法和装置 |
CN111897695B (zh) * | 2020-07-31 | 2022-06-17 | 平安科技(深圳)有限公司 | 获取kpi异常数据样本的方法、装置和计算机设备 |
CN111897695A (zh) * | 2020-07-31 | 2020-11-06 | 平安科技(深圳)有限公司 | 获取kpi异常数据样本的方法、装置和计算机设备 |
CN112100497A (zh) * | 2020-09-14 | 2020-12-18 | 北京嘀嘀无限科技发展有限公司 | 一种数据处理方法、装置、电子设备及可读存储介质 |
CN112100497B (zh) * | 2020-09-14 | 2021-10-19 | 北京嘀嘀无限科技发展有限公司 | 一种数据处理方法、装置、电子设备及可读存储介质 |
CN112231181B (zh) * | 2020-12-08 | 2021-03-16 | 平安科技(深圳)有限公司 | 数据异常更新检测方法、装置、计算机设备及存储介质 |
CN112231181A (zh) * | 2020-12-08 | 2021-01-15 | 平安科技(深圳)有限公司 | 数据异常更新检测方法、装置、计算机设备及存储介质 |
CN112597209A (zh) * | 2020-12-15 | 2021-04-02 | 深圳前海微众银行股份有限公司 | 数据的验证方法、装置、系统及计算机可读存储介质 |
CN112765236A (zh) * | 2021-01-22 | 2021-05-07 | 武汉斗鱼鱼乐网络科技有限公司 | 自适应异常设备挖掘方法、存储介质、设备及系统 |
CN112765236B (zh) * | 2021-01-22 | 2022-07-05 | 武汉斗鱼鱼乐网络科技有限公司 | 自适应异常设备挖掘方法、存储介质、设备及系统 |
CN114240101A (zh) * | 2021-12-02 | 2022-03-25 | 支付宝(杭州)信息技术有限公司 | 一种风险识别模型的验证方法、装置以及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109902721B (zh) | 2024-07-02 |
WO2020155752A1 (zh) | 2020-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902721A (zh) | 异常点检测模型验证方法、装置、计算机设备及存储介质 | |
CN109961086A (zh) | 基于聚类和sse的异常点比例优化方法及装置 | |
CN106845526B (zh) | 一种基于大数据融合聚类分析的关联参数故障分类方法 | |
CN109583468A (zh) | 训练样本获取方法,样本预测方法及对应装置 | |
CN106355449A (zh) | 用户选取方法和装置 | |
CN109617715A (zh) | 网络故障诊断方法、系统 | |
CN109242135A (zh) | 一种模型运营方法、装置、及业务服务器 | |
CN105930723A (zh) | 一种基于特征选择的入侵检测方法 | |
CN103699541B (zh) | 用于提高分类精度的交互式可视数据挖掘 | |
CN108809745A (zh) | 一种用户异常行为检测方法、装置及系统 | |
CN109859054A (zh) | 网络社团挖掘方法、装置、计算机设备及存储介质 | |
CN106021771A (zh) | 一种故障诊断方法及装置 | |
CN108596415A (zh) | 一种模型整合方法及装置 | |
CN106093707A (zh) | 智能防窃电分析系统的数据处理方法 | |
CN105574544A (zh) | 一种数据处理方法和装置 | |
CN109255517B (zh) | 风控策略的生成方法、装置、服务器及可读存储介质 | |
CN106952159A (zh) | 一种不动产抵押品风险控制方法、系统及存储介质 | |
CN106326913A (zh) | 一种洗钱账户的确定方法及装置 | |
CN104427505B (zh) | 一种小区场景划分的方法及装置 | |
CN110458376A (zh) | 一种可疑风险交易筛查方法与相应系统 | |
CN105471647B (zh) | 一种电力通信网故障定位方法 | |
CN112241494A (zh) | 基于用户行为数据的关键信息推送方法及装置 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN108563875A (zh) | 基于多目标优化的模拟电路测点和频率联合优选方法 | |
CN111639882A (zh) | 一种基于深度学习的用电风险的判定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |