CN109902721A

CN109902721A - 异常点检测模型验证方法、装置、计算机设备及存储介质

Info

Publication number: CN109902721A
Application number: CN201910078953.2A
Authority: CN
Inventors: 杨志鸿; 徐亮; 阮晓雯
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-06-18
Anticipated expiration: 2039-01-28
Also published as: CN109902721B; WO2020155752A1

Abstract

本发明公开了异常点检测模型验证方法、装置、计算机设备及存储介质。该方法包括：根据预设的当前异常点比例及待分类样本构建孤立森林模型；将待分类样本根据孤立森林模型及当前异常点比例进行分类得到分类结果；根据预先设置的数据属性分类策略，将分类结果进行分类，得到属性分类结果；获取属性分类结果中每一属性分类结果；若每一属性分类结果中第一属性平均值均小于第二属性平均值，将孤立森林模型增加一个合理模型标签。该方法采用智能决策实现了对孤立森林模型的分类合理性自动进行快速而准确的判断，避免了因人工判断而导致的效率低下和高成本。

Description

异常点检测模型验证方法、装置、计算机设备及存储介质

技术领域

本发明涉及智能决策技术领域，尤其涉及一种异常点检测模型验证方法、装置、计算机设备及存储介质。

背景技术

异常值分析是检验数据是否有录入错误以及含有不合常理的数据的过程，忽视异常值的存在是十分不利的，不加剔除地把异常值包括进数据的计算分析过程中，对结果会产生不良影响。

异常值分析常用的是无监督异常检测模型，而对于无监督异常检测模型的输出结果，往往需要从现实中判断该模型分类的合理性。现有最常用的方法是专家法，即请教相关的专家以其业务知识，判断模型分类是否合理，这就导致判断成本高，而且效率低下。

发明内容

本发明实施例提供了一种异常点检测模型验证方法、装置、计算机设备及存储介质，旨在解决现有技术中对于无监督异常检测模型的输出结果通过相关的专家以其业务知识，判断模型分类是否合理，这就导致判断成本高，而且效率低下的问题。

第一方面，本发明实施例提供了一种异常点检测模型验证方法，其包括：

接收待分类样本，根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型；

将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类，得到分类结果；其中，所述分类结果包括正常数据点和异常数据点；

根据预先设置的数据属性分类策略，将所述分类结果进行分类，得到属性分类结果；

获取所述属性分类结果中所包括的每一属性分类结果，判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值；以及

若每一属性分类结果中所述第一属性平均值均小于所述第二属性平均值，将所述孤立森林模型增加一个合理模型标签。

第二方面，本发明实施例提供了一种异常点检测模型验证装置，其包括：

初始构建单元，用于接收待分类样本，根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型；

数据点分类单元，用于将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类，得到分类结果；其中，所述分类结果包括正常数据点和异常数据点；

属性分类单元，用于根据预先设置的数据属性分类策略，将所述分类结果进行分类，得到属性分类结果；

平均值比较单元，用于获取所述属性分类结果中所包括的每一属性分类结果，判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值；以及

第一标签设置单元，用于若每一属性分类结果中所述第一属性平均值均小于所述第二属性平均值，将所述孤立森林模型增加一个合理模型标签。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的异常点检测模型验证方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的异常点检测模型验证方法。

本发明实施例提供了一种异常点检测模型验证方法、装置、计算机设备及存储介质。该方法包括接收待分类样本，根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型；将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类，得到分类结果；其中，所述分类结果包括正常数据点和异常数据点；根据预先设置的数据属性分类策略，将所述分类结果进行分类，得到属性分类结果；获取所述属性分类结果中所包括的每一属性分类结果，判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值；以及若每一属性分类结果中所述第一属性平均值均小于所述第二属性平均值，将所述孤立森林模型增加一个合理模型标签。该方法实现了对孤立森林模型的分类合理性自动进行快速而准确的判断，避免了因人工判断而导致的效率低下和高成本。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的异常点检测模型验证方法的流程示意图；

图2为本发明实施例提供的异常点检测模型验证方法的子流程示意图；

图3为本发明实施例提供的异常点检测模型验证方法的另一子流程示意图；

图4为本发明实施例提供的异常点检测模型验证方法的另一流程示意图；

图5为本发明实施例提供的异常点检测模型验证装置的示意性框图；

图6为本发明实施例提供的异常点检测模型验证装置的子单元示意性框图；

图7为本发明实施例提供的异常点检测模型验证装置的另一子单元示意性框图；

图8为本发明实施例提供的异常点检测模型验证装置的另一示意性框图；

图9为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的异常点检测模型验证方法的流程示意图，该异常点检测模型验证方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图1所示，该方法包括步骤S110～S150。

S110、接收待分类样本，根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型。

在本实施例中，例如，服务器接收了上传端所上传的待分类样本后，也同时获取所设置初始的当前异常点比例为0.5(如将初始的当前异常点比例记为m₀)，表示所期望的孤立森林模型的分类结果中正常点样本和异常点样本比例为1:1。由于假设正常点数量比异常点多，因此此时异常点类别中含有大量的错分正常点。当异常点比例减少的时候，异常点类别中的正常点会被剔除。

孤立森林算法，即iForest算法，用于挖掘异常数据，或者是离群点挖掘，能在在海量数据中，检索出与其它数据的规律不太符合的数据。例如，通常用于网络安全中的攻击检测和流量异常等分析，金融机构则用于挖掘出欺诈行为。

在一实施例中，如图2所示，步骤S110包括：

S111、从所述待分类样本中随机获取数据属性，及由数据属性和当前异常点比例所确定的分裂值；

S112、根据所述数据属性及所述分裂值将所述待分类样本进行划分，得到多个孤立树，由多个孤立树组合得到用于异常点检测的孤立森林模型。

在本实施例中，例如从训练数据集D＝{d₁，d₂，…，d_n}中随机选择一个数据属性A，并由数据属性A和当前异常点比例确定一个分裂值p₁；然后对训练数据集中每个数据对象d_i，按照数据属性A的分裂值p₁进行划分。若d_i(A)小于p₁,则放在左子树，反之则在右子树。此时再随机选择一个数据属性B，并由数据属性B和当前异常点比例确定一个分裂值p₂；然后对左子树和右子树均根据按照数据属性B的分裂值p2进行划分，得到与左子树对应的次级左子树和次级右子树，以及与右子树对应的次级左子树和次级右子树。以此迭代，直至满足一下条件之一：(1)D中剩下一条数据或者多条相同的数据；(2)孤立树达到最大高度。由于每一个孤立树在形成的过程中，所随机得到数据属性及与数据属性对应的分裂值不同，这就导致了孤立森林中能包括多个孤立树。孤立树中若设置异常点比例得当，即可提升异常点的检测效果。

S120、将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类，得到分类结果；其中，所述分类结果包括正常数据点和异常数据点。

在本实施例中，先根据所述孤立森林模型及当前异常点比例将所述待分类样本进行分类后，得到了包括正常数据点和异常数据点的分类结果。为了对分类结果的合理性进行验证，可以继续观测正常类与异常类在某些特征上的均值上是否存在同向的变化，如在各个类别中正常点数据的某些特征值均大于或小于异常点数据。

在一实施例中，步骤S120之后、步骤S130之前还包括：

获取所述分类结果中正常类别的正常点中心；

获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离，以作为当前状态平均欧式距离；

通过所述当前异常点比例减去预设的步长，以更新当前异常点比例；

将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类，得到当前异常类别的数据点，获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离；

通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长，得到平均欧式距离变动幅度；

若所述平均欧式距离变动幅度超出预设的变动幅度阈值，将当前异常点比例加上步长作为最优异常点比例，通过所述最优异常点比例以更新当前异常点比例；

将所述待分类样本根据所述孤立森林模型及所述最优异常点比例进行分类，得到分类结果。

在本实施例中，步骤S120中将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类是初次分类，此时的当前异常点比例不一定是最佳的异常点比例。为了获取最佳的异常点比例，可通过上述方式获取。

当根据步骤S120中的当前异常点比例将待分类样本由所述孤立森林模型进行分类后，可以确定分类结果中正常类别的数据点对应的正常点中心，这一正常点中心在后续过程中是恒定不变的。

为了判断异常类别的每一数据点与正常点的距离关系，需计算异常类别的每一数据点与所述正常点中心的欧式距离后求平均，得到所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离，以作为当前状态平均欧式距离，从该当前状态平均欧式距离可以看出异常类别的每一数据点是否均远离正常点中心。

通过将当前异常点比例减去所述步长以更新当前异常点比例，此时无需再次确定正常点中心，只需得到分类结果中的异常类别的数据点，再计算异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离。

初始状态下时当前状态平均欧式距离视为d₀，则初次得到的下一状态平均欧式距离视为d₁，则第二次得到的下一状态平均欧式距离视为d₂(此时对应的当前状态平均欧式距离为d₁)，……，第N次得到的下一状态平均欧式距离视为d_N(此时对应的当前状态平均欧式距离为d_N-1)。若将预设的步长记为l，则是通过(d_N-d_N-1)/l来计算平均欧式距离变动幅度，其中N为大于0的正整数。

当平均欧式距离变动幅度陡然变大，表示此刻最新的当前异常点比例不是最优异常点比例，可考虑将此刻最新的当前异常点比例之前一个状态的当前异常点比例作为最优异常点比例。

若平均欧式距离变动幅度超出预设的变动幅度阈值，表示有部分真实的异常点被划分为正常点，导致异常点到正常中心点的平均欧式距离突增，此时当前异常点比例的上一状态(即当前异常点比例加上步长)即可作为最优异常点比例。

若所述平均欧式距离变动幅度未超出所述变动幅度阈值，将当前异常点比例减去步长以更新当前异常点比例，通过下一状态平均欧式距离以更新当前状态平均欧式距离，返回执行将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类，得到当前异常类别的数据点，获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离的步骤。

当平均欧式距离变动幅度仍保持平稳过渡，表示所降低的异常点比例不足以明显影响异常类别的每一数据点与所述正常点中心的平均欧式距离，此时需将当前异常点比例减去步长以更新当前异常点比例，并通过下一状态平均欧式距离以更新新当前状态平均欧式距离。例如当(d_N-d_N-1)/l未超出预设的变动幅度阈值，此时将d₁作为当前状态平均欧式距离，将(m₀-l)作为当前异常点比例重新返回计算以得到d₂；之后即是以(d₂-d1)/l作为平均欧式距离变动幅度，以此类推，直至执行到平均欧式距离变动幅度超出预设的变动幅度阈值即可。

S130、根据预先设置的数据属性分类策略，将所述分类结果进行分类，得到属性分类结果。

在一实施例中，如图3所示，步骤S130包括：

S131、根据所述数据属性分类策略判断每一正常数据点所属的分组，以得到正常类别属性分类结果；

S132、根据所述数据属性分类策略判断每一异常数据点所属的分组，以得到异常类别属性分类结果；

S133、由所述正常类别属性分类结果及所述异常类别属性分类结果组成所述属性分类结果。

在本实施例中，将所述待分类样本根据所述孤立森林模型进行分类(例如根据最优异常点比例进行分类，得到分类结果)后，所述分类结果包括正常点数据和异常点数据，也即待分类样本中的每一数据点在分类完成后都对应有属于正常类别或是异常类别的标签。此时为了进一步分分类结果中的数据特点，可以选取分类结果中的每一正常数据点和每一异常数据点中的某一属性，将每一正常数据点再次进行分类得到正常类别属性分类结果，同时将每一异常数据点再次进行分类得到异常类别属性分类结果。

正常数据点组成的正常类别数据集合、和异常数据点组成的异常类别数据集合中包括的每一数据点，除了拥有一个主属性(如身份证号)，还有与主属性对应的多个从属属性(如年龄，投保保单数目等属性)。此时可以选择以投保保单数目作为分类属性，将所述待分类样本进行分类，得到属性分类结果。

例如，可以在正常类别数据集合中选择将投保保单数目不超过1的数据点分第一类属性分类结果，在正常类别数据集合中选择将投保保单数目超过1的数据点分为第二类属性分类结果。在异常类别数据集合中选择将投保保单数目不超过1的数据点分第三类属性分类结果，在异常类别数据集合中选择将投保保单数目超过1的数据点分为第四类属性分类结果。由第一类属性分类结果和第三类属性分类结果组成第一属性分类结果，由第二类属性分类结果和第四类属性分类结果组成第二属性分类结果。

S140、获取所述属性分类结果中所包括的每一属性分类结果，判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值。

在本实施例中，例如判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值如下：

判断第一属性分类结果中第一类属性分类结果中各正常数据点在投保保单数目这一属性下的第一属性平均值是否小于第一类属性分类结果中各异常数据点在投保保单数目这一属性下的第二属性平均值。同时也判断第二属性分类结果中第三类属性分类结果中各正常数据点在投保保单数目这一属性下的第一属性平均值是否小于第四类属性分类结果中各异常数据点在投保保单数目这一属性下的第二属性平均值。通过观察每个类别中，正常类别数据集合与异常类别数据集合在某些特征上的均值上是否存在同向的变化，可以辅助判断所述孤立森林模型分类的合理性。

S150、若每一属性分类结果中所述第一属性平均值均小于所述第二属性平均值，将所述孤立森林模型增加一个合理模型标签。

在本实施例中，例如第一属性分类结果中第一类属性分类结果中各正常数据点在投保保单数目这一属性下的第一属性平均值小于第一类属性分类结果中各异常数据点在投保保单数目这一属性下的第二属性平均值。而且第二属性分类结果中第三类属性分类结果中各正常数据点在投保保单数目这一属性下的第一属性平均值小于第四类属性分类结果中各异常数据点在投保保单数目这一属性下的第二属性平均值。这就表示正常类别数据集合与异常类别数据集合在投保保单数目上的均值上存在同向的变化，说明所述孤立森林模型是合理的，具有较好的分类效果，可增加一个合理模型标签进行标识。

在一实施例中，如图4所示，步骤S150之后还包括：

S160、若每一属性分类结果中所述第一属性平均值有大于或等于所述第二属性平均值，将所述孤立森林模型增加一个非合理模型标签。

在本实施例中，若每一属性分类结果中所述第一属性平均值有大于或等于所述第二属性平均值，表示正常类别数据集合与异常类别数据集合在对应选定属性的均值上不存在同向的变化，说明所述孤立森林模型不是合理的，需要重新训练模型，可增加一个非合理模型标签进行标识。

该方法实现了对孤立森林模型的分类合理性自动进行快速而准确的判断，避免了因人工判断而导致的效率低下和高成本。

本发明实施例还提供一种异常点检测模型验证装置，该异常点检测模型验证装置用于执行前述异常点检测模型验证方法的任一实施例。具体地，请参阅图5，图5是本发明实施例提供的异常点检测模型验证装置的示意性框图。该异常点检测模型验证装置100可以配置于服务器中。

如图5所示，异常点检测模型验证装置100包括初始构建单元110、数据点分类单元120、属性分类单元130、平均值比较单元140、第一标签设置单元150。

初始构建单元110，用于接收待分类样本，根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型。

在一实施例中，如图6所示，初始构建单元110包括：

分类参数获取单元111，用于从所述待分类样本中随机获取数据属性，及由数据属性和当前异常点比例所确定的分裂值；

模型获取单元112，用于根据所述数据属性及所述分裂值将所述待分类样本进行划分，得到多个孤立树，由多个孤立树组合得到用于异常点检测的孤立森林模型。

数据点分类单元120，用于将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类，得到分类结果；其中，所述分类结果包括正常数据点和异常数据点。

在一实施例中，异常点检测模型验证装置100还包括：

正常点中心获取单元，用于获取所述分类结果中正常类别的正常点中心；

第一平均值获取单元，用于获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离，以作为当前状态平均欧式距离；

第一比例更新单元，用于通过所述当前异常点比例减去预设的步长，以更新当前异常点比例；

第二平均值获取单元，用于将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类，得到当前异常类别的数据点，获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离；

幅度计算单元，用于通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长，得到平均欧式距离变动幅度；

最优比例获取单元，用于若所述平均欧式距离变动幅度超出预设的变动幅度阈值，将当前异常点比例加上步长作为最优异常点比例，通过所述最优异常点比例以更新当前异常点比例；

最优分类单元，用于将所述待分类样本根据所述孤立森林模型及所述最优异常点比例进行分类，得到分类结果。

在本实施例中，将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类是初次分类，此时的当前异常点比例不一定是最佳的异常点比例。为了获取最佳的异常点比例，可通过上述方式获取。

当根据当前异常点比例将待分类样本由所述孤立森林模型进行分类后，可以确定分类结果中正常类别的数据点对应的正常点中心，这一正常点中心在后续过程中是恒定不变的。

属性分类单元130，用于根据预先设置的数据属性分类策略，将所述分类结果进行分类，得到属性分类结果。

在一实施例中，如图7所示，属性分类单元130包括：

第一类别分类单元131，用于根据所述数据属性分类策略判断每一正常数据点所属的分组，以得到正常类别属性分类结果；

第二类别分类单元132，用于根据所述数据属性分类策略判断每一异常数据点所属的分组，以得到异常类别属性分类结果；

属性分类结果获取单元133，用于由所述正常类别属性分类结果及所述异常类别属性分类结果组成所述属性分类结果。

平均值比较单元140，用于获取所述属性分类结果中所包括的每一属性分类结果，判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值。

第一标签设置单元150，用于若每一属性分类结果中所述第一属性平均值均小于所述第二属性平均值，将所述孤立森林模型增加一个合理模型标签。

在一实施例中，如图8所示，异常点检测模型验证装置100还包括：

第二标签设置单元160，用于若每一属性分类结果中所述第一属性平均值有大于或等于所述第二属性平均值，将所述孤立森林模型增加一个非合理模型标签。

该装置实现了对孤立森林模型的分类合理性自动进行快速而准确的判断，避免了因人工判断而导致的效率低下和高成本。

上述异常点检测模型验证装置可以实现为计算机程序的形式，该计算机程序可以在如图9所示的计算机设备上运行。

请参阅图9，图9是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图9，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行异常点检测模型验证方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行异常点检测模型验证方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图9中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下功能：接收待分类样本，根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型；将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类，得到分类结果；其中，所述分类结果包括正常数据点和异常数据点；根据预先设置的数据属性分类策略，将所述分类结果进行分类，得到属性分类结果；获取所述属性分类结果中所包括的每一属性分类结果，判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值；以及若每一属性分类结果中所述第一属性平均值均小于所述第二属性平均值，将所述孤立森林模型增加一个合理模型标签。

在一实施例中，处理器502在执行所述根据预先设置的数据属性分类策略，将所述分类结果进行分类，得到属性分类结果的步骤之前，还执行如下操作：获取所述分类结果中正常类别的正常点中心；获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离，以作为当前状态平均欧式距离；通过所述当前异常点比例减去预设的步长，以更新当前异常点比例；将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类，得到当前异常类别的数据点，获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离；通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长，得到平均欧式距离变动幅度；若所述平均欧式距离变动幅度超出预设的变动幅度阈值，将当前异常点比例加上步长作为最优异常点比例，通过所述最优异常点比例以更新当前异常点比例；将所述待分类样本根据所述孤立森林模型及所述最优异常点比例进行分类，得到分类结果。

在一实施例中，处理器502在执行所述根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型的步骤时，执行如下操作：从所述待分类样本中随机获取数据属性，及由数据属性和当前异常点比例所确定的分裂值；根据所述数据属性及所述分裂值将所述待分类样本进行划分，得到多个孤立树，由多个孤立树组合得到用于异常点检测的孤立森林模型。

在一实施例中，处理器502在执行所述根据预先设置的数据属性分类策略，将所述分类结果进行分类，得到属性分类结果的步骤时，执行如下操作：根据所述数据属性分类策略判断每一正常数据点所属的分组，以得到正常类别属性分类结果；根据所述数据属性分类策略判断每一异常数据点所属的分组，以得到异常类别属性分类结果；由所述正常类别属性分类结果及所述异常类别属性分类结果组成所述属性分类结果。

在一实施例中，处理器502在执行所述获取所述属性分类结果中所包括的每一属性分类结果，判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值的步骤之后，还执行如下操作：若每一属性分类结果中所述第一属性平均值有大于或等于所述第二属性平均值，将所述孤立森林模型增加一个非合理模型标签。

本领域技术人员可以理解，图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图9所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现以下步骤：接收待分类样本，根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型；将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类，得到分类结果；其中，所述分类结果包括正常数据点和异常数据点；根据预先设置的数据属性分类策略，将所述分类结果进行分类，得到属性分类结果；获取所述属性分类结果中所包括的每一属性分类结果，判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值；以及若每一属性分类结果中所述第一属性平均值均小于所述第二属性平均值，将所述孤立森林模型增加一个合理模型标签。

在一实施例中，所述根据预先设置的数据属性分类策略，将所述分类结果进行分类，得到属性分类结果之前，还包括：获取所述分类结果中正常类别的正常点中心；获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离，以作为当前状态平均欧式距离；通过所述当前异常点比例减去预设的步长，以更新当前异常点比例；将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类，得到当前异常类别的数据点，获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离；通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长，得到平均欧式距离变动幅度；若所述平均欧式距离变动幅度超出预设的变动幅度阈值，将当前异常点比例加上步长作为最优异常点比例，通过所述最优异常点比例以更新当前异常点比例；将所述待分类样本根据所述孤立森林模型及所述最优异常点比例进行分类，得到分类结果。

在一实施例中，所述根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型，包括：从所述待分类样本中随机获取数据属性，及由数据属性和当前异常点比例所确定的分裂值；根据所述数据属性及所述分裂值将所述待分类样本进行划分，得到多个孤立树，由多个孤立树组合得到用于异常点检测的孤立森林模型。

在一实施例中，所述根据预先设置的数据属性分类策略，将所述分类结果进行分类，得到属性分类结果，包括：根据所述数据属性分类策略判断每一正常数据点所属的分组，以得到正常类别属性分类结果；根据所述数据属性分类策略判断每一异常数据点所属的分组，以得到异常类别属性分类结果；由所述正常类别属性分类结果及所述异常类别属性分类结果组成所述属性分类结果。

在一实施例中，所述获取所述属性分类结果中所包括的每一属性分类结果，判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值之后，还包括：若每一属性分类结果中所述第一属性平均值有大于或等于所述第二属性平均值，将所述孤立森林模型增加一个非合理模型标签。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种异常点检测模型验证方法，其特征在于，包括：

2.根据权利要求1所述的异常点检测模型验证方法，其特征在于，所述根据预先设置的数据属性分类策略，将所述分类结果进行分类，得到属性分类结果之前，还包括：

获取所述分类结果中正常类别的正常点中心；

3.根据权利要求1所述的异常点检测模型验证方法，其特征在于，所述根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型，包括：

从所述待分类样本中随机获取数据属性，及由数据属性和当前异常点比例所确定的分裂值；

根据所述数据属性及所述分裂值将所述待分类样本进行划分，得到多个孤立树，由多个孤立树组合得到用于异常点检测的孤立森林模型。

4.根据权利要求1所述的异常点检测模型验证方法，其特征在于，所述根据预先设置的数据属性分类策略，将所述分类结果进行分类，得到属性分类结果，包括：

根据所述数据属性分类策略判断每一正常数据点所属的分组，以得到正常类别属性分类结果；

根据所述数据属性分类策略判断每一异常数据点所属的分组，以得到异常类别属性分类结果；

由所述正常类别属性分类结果及所述异常类别属性分类结果组成所述属性分类结果。

5.根据权利要求2所述的异常点检测模型验证方法，其特征在于，所述获取所述属性分类结果中所包括的每一属性分类结果，判断每一属性分类结果中正常点数据对应选定属性的第一属性平均值是否均小于异常点数据对应选定属性的第二属性平均值之后，还包括：

若每一属性分类结果中所述第一属性平均值有大于或等于所述第二属性平均值，将所述孤立森林模型增加一个非合理模型标签。

6.一种异常点检测模型验证装置，其特征在于，包括：

7.根据权利要求6所述的异常点检测模型验证装置，其特征在于，还包括：

8.根据权利要求6所述的异常点检测模型验证装置，其特征在于，所述属性分类单元，包括：

第一类别分类单元，用于根据所述数据属性分类策略判断每一正常数据点所属的分组，以得到正常类别属性分类结果；

第二类别分类单元，用于根据所述数据属性分类策略判断每一异常数据点所属的分组，以得到异常类别属性分类结果；

属性分类结果获取单元，用于由所述正常类别属性分类结果及所述异常类别属性分类结果组成所述属性分类结果。

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的异常点检测模型验证方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的异常点检测模型验证方法。