CN109919186A - 异常点比例优化方法、装置、计算机设备及存储介质 - Google Patents

异常点比例优化方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109919186A
CN109919186A CN201910079156.6A CN201910079156A CN109919186A CN 109919186 A CN109919186 A CN 109919186A CN 201910079156 A CN201910079156 A CN 201910079156A CN 109919186 A CN109919186 A CN 109919186A
Authority
CN
China
Prior art keywords
point ratio
abnormal point
average euclidean
current
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910079156.6A
Other languages
English (en)
Inventor
杨志鸿
徐亮
阮晓雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910079156.6A priority Critical patent/CN109919186A/zh
Publication of CN109919186A publication Critical patent/CN109919186A/zh
Priority to PCT/CN2019/117294 priority patent/WO2020155754A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了异常点比例优化方法、装置、计算机设备及存储介质。该方法包括:根据当前异常点比例及待分类样本构建孤立森林模型;将待分类样本进行分类得到正常点中心,获取异常类别的各数据点与其的平均欧式距离,以作为当前状态平均欧式距离;通过当前异常点比例减步长以更新当前异常点比例;将待分类样本根据其进行分类,得到当前异常类别的各数据点与正常点中心的平均欧式距离以作为下一状态平均欧式距离;通过其与当前状态平均欧式距离之差除以步长,得到平均欧式距离变动幅度;若其超出变动幅度阈值,将当前异常点比例加步长作为最优异常点比例。该方法通过运用欧氏距离与正常点中心相结合的方法,可有效减少选择最优异常点比例的工作量。

Description

异常点比例优化方法、装置、计算机设备及存储介质
技术领域
本发明涉及智能决策技术领域,尤其涉及一种异常点比例优化方法、装置、计算机设备及存储介质。
背景技术
对于无监督模型的异常点检测,目前常见的异常点检测方法可以给出每个样本的异常得分,使用者可以根据异常得分的大小,设置阈值以将样本划分为正常样本以及异常样本。但是设置异常点的比例和阈值往往需要根据经验来设置,导致设置难度较大,而且所设置异常点的比例和阈值的好坏也会直接影响到无监督模型的好坏。
发明内容
本发明实施例提供了一种异常点比例优化方法、装置、计算机设备及存储介质,旨在解决现有技术中无监督模型的异常点检测时要根据经验来设置设置异常点的比例和阈值,设置难度大,而且所设置异常点的比例和阈值也会影响到无监督模型的异常点检测准确度的问题。
第一方面,本发明实施例提供了一种异常点比例优化方法,其包括:
接收待分类样本,根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型;
将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;
获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;
通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;
将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离;
通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度;以及
若所述平均欧式距离变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例。
第二方面,本发明实施例提供了一种异常点比例优化装置,其包括:
初始构建单元,用于接收待分类样本,根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型;
分类单元,用于将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;
第一计算单元,用于获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;
第一比例更新单元,用于通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;
第二计算单元,用于将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离;
变动幅度计算单元,用于通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度;以及
最优比例获取单元,用于若所述平均欧式距离变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的异常点比例优化方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的异常点比例优化方法。
本发明实施例提供了一种异常点比例优化方法、装置、计算机设备及存储介质。该方法包括接收待分类样本,根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型;将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离;通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度;若所述平均欧式距离变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例。该方法通过运用欧氏距离与正常点中心相结合的方法,可以有效减少选择最优异常点比例的工作量。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的异常点比例优化方法的流程示意图;
图2为本发明实施例提供的异常点比例优化方法的另一流程示意图;
图3为本发明实施例提供的异常点比例优化方法的子流程示意图;
图4为本发明实施例提供的异常点比例优化方法的另一子流程示意图;
图5为本发明实施例提供的异常点比例优化方法的另一流程示意图;
图6为本发明实施例提供的异常点比例优化装置的示意性框图;
图7为本发明实施例提供的异常点比例优化装置的另一示意性框图;
图8为本发明实施例提供的异常点比例优化装置的子单元示意性框图;
图9为本发明实施例提供的异常点比例优化装置的另一子单元示意性框图;
图10为本发明实施例提供的异常点比例优化装置的另一示意性框图;
图11为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本发明实施例提供的异常点比例优化方法的流程示意图,该异常点比例优化方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
如图1所示,该方法包括步骤S110~S180。
S110、接收待分类样本,根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型。
在本实施例中,例如,服务器接收了上传端所上传的待分类样本后,也同时获取所设置初始的当前异常点比例为0.5(如将初始的当前异常点比例记为m0),表示所期望的孤立森林模型的分类结果中正常点样本和异常点样本比例为1:1。由于假设正常点数量比异常点多,因此此时异常点类别中含有大量的错分正常点。当异常点比例减少的时候,异常点类别中的正常点会被剔除。
在一实施例中,如图3所示,步骤S110包括:
S111、从所述待分类样本中随机获取数据属性,及由数据属性和当前异常点比例所确定的分裂值;
S112、根据所述数据属性及所述分裂值将所述待分类样本进行划分,得到多个孤立树,由多个孤立树组合得到用于异常点检测的孤立森林模型。
在本实施例中,例如从训练数据集D={d1,d2,…,dn}中随机选择一个数据属性A,并由数据属性A和当前异常点比例确定一个分裂值p1;然后对训练数据集中每个数据对象di,按照数据属性A的分裂值p1进行划分。若di(A)小于p1,则放在左子树,反之则在右子树。此时再随机选择一个数据属性B,并由数据属性B和当前异常点比例确定一个分裂值p2;然后对左子树和右子树均根据按照数据属性B的分裂值p2进行划分,得到与左子树对应的次级左子树和次级右子树,以及与右子树对应的次级左子树和次级右子树。以此迭代,直至满足一下条件之一:(1)D中剩下一条数据或者多条相同的数据;(2)孤立树达到最大高度。由于每一个孤立树在形成的过程中,所随机得到数据属性及与数据属性对应的分裂值不同,这就导致了孤立森林中能包括多个孤立树。孤立树中若设置异常点比例得当,即可提升异常点的检测效果。
S120、将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心。
在本实施例中,当根据初始设置的当前异常点比例将待分类样本由所述孤立森林模型进行分类后,可以确定分类结果中正常类别的数据点对应的正常点中心,这一正常点中心在后续过程中是恒定不变的。
在一实施例中,如图4所示,步骤S120包括:
S121、将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到分类结果;其中,所述分类结果中包括正常类别的数据点和异常类别的数据点;
S122、获取所述分类结果中正常类别的数据点所对应的平均值,以获取初始正常点中心;
S123、获取所述分类结果中正常类别的数据点中与所述初始正常点中心距离最近的数据点,以作为正常类别的数据点对应的正常点中心。
在本实施例中,先根据所述孤立森林模型及当前异常点比例将所述待分类样本进行分类后,得到了包括正常类别的数据点和异常类别的数据点的分类结果。此时为了确定正常点中心,需先获取正常类别的数据点的平均值,然后将正常类别的数据点中距离该平均值最近的数据点,以作为正常点中心。当固定所述正常点中心后,即可不断调整异常点比例,根据指定参数(如当前异常类别的每一数据点与所述正常点中心的平均欧式距离)的变化趋势,来获取最优异常点比例。
S130、获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离。
在本申请中,为了判断异常类别的每一数据点与正常点的距离关系,需计算异常类别的每一数据点与所述正常点中心的欧式距离后求平均,得到所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离,从该当前状态平均欧式距离可以看出异常类别的每一数据点是否均远离正常点中心。
S140、通过所述当前异常点比例减去预设的步长,以更新当前异常点比例。
在本实施例,将所述当前异常点比例减去预设的步长,是为了不断调整当前异常点比例,以通过试探法得出最优异常点比例。
S150、将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离。
在本实施例中,通过将当前异常点比例减去所述步长以更新当前异常点比例,此时无需再次确定正常点中心,只需得到分类结果中的异常类别的数据点,再计算异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离。
S160、通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度。
在本实施例中,通过例如步骤S130中得到的当前状态平均欧式距离视为d0,则步骤S150初次执行得到的下一状态平均欧式距离视为d1,则步骤S150第二次执行得到的下一状态平均欧式距离视为d2(此时对应的当前状态平均欧式距离为d1),……,步骤S150第N次执行得到的下一状态平均欧式距离视为dN(此时对应的当前状态平均欧式距离为dN-1)。若将预设的步长记为l,则是通过(dN-dN-1)/l来计算平均欧式距离变动幅度,其中N为大于0的正整数。
S170、判断所述平均欧式距离变动幅度是否超出预设的变动幅度阈值。
在本实施例中,当平均欧式距离变动幅度陡然变大,表示此刻最新的当前异常点比例不是最优异常点比例,可考虑将此刻最新的当前异常点比例之前一个状态的当前异常点比例作为最优异常点比例。
S180、若所述平均欧式距离变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例。
在本实施例中,若平均欧式距离变动幅度超出预设的变动幅度阈值,表示有部分真实的异常点被划分为正常点,导致异常点到正常中心点的平均欧式距离突增,此时当前异常点比例的上一状态(即当前异常点比例加上步长)即可作为最优异常点比例。
在一实施例中,如图2所示,步骤S180之后还包括:
S190、若所述平均欧式距离变动幅度未超出所述变动幅度阈值,将当前异常点比例减去步长以更新当前异常点比例,通过下一状态平均欧式距离以更新当前状态平均欧式距离,返回执行步骤S150。
在本实施例中,当平均欧式距离变动幅度仍保持平稳过渡,表示所降低的异常点比例不足以明显影响异常类别的每一数据点与所述正常点中心的平均欧式距离,此时需将当前异常点比例减去步长以更新当前异常点比例,并通过下一状态平均欧式距离以更新新当前状态平均欧式距离。例如当(dN-dN-1)/l未超出预设的变动幅度阈值,此时将d1作为当前状态平均欧式距离,将(m0-l)作为当前异常点比例重新返回执行步骤S150以得到d2;之后再次流向步骤S170时即是以(d2-d1)/l作为平均欧式距离变动幅度,以此类推,直至执行到平均欧式距离变动幅度超出预设的变动幅度阈值即可。
在一实施例中,如图5所示,步骤S180之后还包括:
S181、将所述待分类样本根据所述孤立森林模型及最优异常点比例进行分类,得到最优分类结果。
在本实施例中,当确定了最优异常点比例后,即可将所述待分类样本根据所述孤立森林模型及最优异常点比例进行分类,得到最优分类结果,得到分类效果较好的无监督分类模型。
该方法通过运用欧氏距离与正常点中心相结合的方法,可有效减少选择最优异常点比例的工作量。
本发明实施例还提供一种异常点比例优化装置,该异常点比例优化装置用于执行前述异常点比例优化方法的任一实施例。具体地,请参阅图6,图6是本发明实施例提供的异常点比例优化装置的示意性框图。该异常点比例优化装置100可以配置于服务器中。
如图6所示,异常点比例优化装置100包括初始构建单元110、分类单元120、第一计算单元130、第一比例更新单元140、第二计算单元150、变动幅度计算单元160、判断单元170、最优比例获取单元180。
初始构建单元110,用于接收待分类样本,根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型。
在本实施例中,例如,服务器接收了上传端所上传的待分类样本后,也同时获取所设置初始的当前异常点比例为0.5(如将初始的当前异常点比例记为m0),表示所期望的孤立森林模型的分类结果中正常点样本和异常点样本比例为1:1。由于假设正常点数量比异常点多,因此此时异常点类别中含有大量的错分正常点。当异常点比例减少的时候,异常点类别中的正常点会被剔除。
在一实施例中,如图8所示,初始构建单元110包括:
分类参数获取单元111,用于从所述待分类样本中随机获取数据属性,及由数据属性和当前异常点比例所确定的分裂值;
模型获取单元112,用于根据所述数据属性及所述分裂值将所述待分类样本进行划分,得到多个孤立树,由多个孤立树组合得到用于异常点检测的孤立森林模型。
在本实施例中,例如从训练数据集D={d1,d2,…,dn}中随机选择一个数据属性A,并由数据属性A和当前异常点比例确定一个分裂值p1;然后对训练数据集中每个数据对象di,按照数据属性A的分裂值p1进行划分。若di(A)小于p1,则放在左子树,反之则在右子树。此时再随机选择一个数据属性B,并由数据属性B和当前异常点比例确定一个分裂值p2;然后对左子树和右子树均根据按照数据属性B的分裂值p2进行划分,得到与左子树对应的次级左子树和次级右子树,以及与右子树对应的次级左子树和次级右子树。以此迭代,直至满足一下条件之一:(1)D中剩下一条数据或者多条相同的数据;(2)孤立树达到最大高度。由于每一个孤立树在形成的过程中,所随机得到数据属性及与数据属性对应的分裂值不同,这就导致了孤立森林中能包括多个孤立树。孤立树中若设置异常点比例得当,即可提升异常点的检测效果。
分类单元120,用于将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心。
在本实施例中,当根据初始设置的当前异常点比例将待分类样本由所述孤立森林模型进行分类后,可以确定分类结果中正常类别的数据点对应的正常点中心,这一正常点中心在后续过程中是恒定不变的。
在一实施例中,如图9所示,分类单元120包括:
初始分类单元121,用于将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到分类结果;其中,所述分类结果中包括正常类别的数据点和异常类别的数据点;
距离均值计算单元122,用于获取所述分类结果中正常类别的数据点所对应的平均值,以获取初始正常点中心;
正常点中心获取单元123,用于获取所述分类结果中正常类别的数据点中与所述初始正常点中心距离最近的数据点,以作为正常类别的数据点对应的正常点中心。
在本实施例中,先根据所述孤立森林模型及当前异常点比例将所述待分类样本进行分类后,得到了包括正常类别的数据点和异常类别的数据点的分类结果。此时为了确定正常点中心,需先获取正常类别的数据点的平均值,然后将正常类别的数据点中距离该平均值最近的数据点,以作为正常点中心。当固定所述正常点中心后,即可不断调整异常点比例,根据指定参数(如当前异常类别的每一数据点与所述正常点中心的平均欧式距离)的变化趋势,来获取最优异常点比例。
第一计算单元130,用于获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离。
在本申请中,为了判断异常类别的每一数据点与正常点的距离关系,需计算异常类别的每一数据点与所述正常点中心的欧式距离后求平均,得到所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离,从该当前状态平均欧式距离可以看出异常类别的每一数据点是否均远离正常点中心。
第一比例更新单元140,用于通过所述当前异常点比例减去预设的步长,以更新当前异常点比例。
在本实施例,将所述当前异常点比例减去预设的步长,是为了不断调整当前异常点比例,以通过试探法得出最优异常点比例。
第二计算单元150,用于将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离。
在本实施例中,通过将当前异常点比例减去所述步长以更新当前异常点比例,此时无需再次确定正常点中心,只需得到分类结果中的异常类别的数据点,再计算异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离。
变动幅度计算单元160,用于通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度。
在本实施例中,通过得到的当前状态平均欧式距离视为d0,则初次执行得到的下一状态平均欧式距离视为d1,第二次执行得到的下一状态平均欧式距离视为d2(此时对应的当前状态平均欧式距离为d1),……,第N次执行得到的下一状态平均欧式距离视为dN(此时对应的当前状态平均欧式距离为dN-1)。若将预设的步长记为l,则是通过(dN-dN-1)/l来计算平均欧式距离变动幅度,其中N为大于0的正整数。
判断单元170,用于判断所述平均欧式距离变动幅度是否超出预设的变动幅度阈值。
在本实施例中,当平均欧式距离变动幅度陡然变大,表示此刻最新的当前异常点比例不是最优异常点比例,可考虑将此刻最新的当前异常点比例之前一个状态的当前异常点比例作为最优异常点比例。
最优比例获取单元180,用于若所述平均欧式距离变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例。
在本实施例中,若平均欧式距离变动幅度超出预设的变动幅度阈值,表示有部分真实的异常点被划分为正常点,导致异常点到正常中心点的平均欧式距离突增,此时当前异常点比例的上一状态(即当前异常点比例加上步长)即可作为最优异常点比例。
在一实施例中,如图7所示,异常点比例优化装置100还包括:
第二比例更新单元190,用于若所述平均欧式距离变动幅度未超出所述变动幅度阈值,将当前异常点比例减去步长以更新当前异常点比例,通过下一状态平均欧式距离以更新当前状态平均欧式距离,返回执行将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离的步骤。
在本实施例中,当平均欧式距离变动幅度仍保持平稳过渡,表示所降低的异常点比例不足以明显影响异常类别的每一数据点与所述正常点中心的平均欧式距离,此时需将当前异常点比例减去步长以更新当前异常点比例,并通过下一状态平均欧式距离以更新新当前状态平均欧式距离。例如当(dN-dN-1)/l未超出预设的变动幅度阈值,此时将d1作为当前状态平均欧式距离,将(m0-l)作为当前异常点比例重新返回执行步骤S150以得到d2;之后再次流向步骤S170时即是以(d2-d1)/l作为平均欧式距离变动幅度,以此类推,直至执行到平均欧式距离变动幅度超出预设的变动幅度阈值即可。
在一实施例中,如图10所示,异常点比例优化装置100还包括:
最优分类获取单元181,用于将所述待分类样本根据所述孤立森林模型及最优异常点比例进行分类,得到最优分类结果。
在本实施例中,当确定了最优异常点比例后,即可将所述待分类样本根据所述孤立森林模型及最优异常点比例进行分类,得到最优分类结果,得到分类效果较好的无监督分类模型。
该装置通过运用欧氏距离与正常点中心相结合的方法,可有效减少选择最优异常点比例的工作量。
上述异常点比例优化装置可以实现为计算机程序的形式,该计算机程序可以在如图11所示的计算机设备上运行。
请参阅图11,图11是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图11,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行异常点比例优化方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行异常点比例优化方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图11中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:接收待分类样本,根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型;将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离;通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度;判断所述平均欧式距离变动幅度是否超出预设的变动幅度阈值;以及若所述平均欧式距离变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例。
在一实施例中,处理器502在执行所述通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度的步骤之后,还执行如下操作:若所述平均欧式距离变动幅度未超出所述变动幅度阈值,将当前异常点比例减去步长以更新当前异常点比例,通过下一状态平均欧式距离以更新当前状态平均欧式距离,返回执行将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离的步骤。
在一实施例中,处理器502在执行所述根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型的步骤时,执行如下操作:从所述待分类样本中随机获取数据属性,及由数据属性和当前异常点比例所确定的分裂值;根据所述数据属性及所述分裂值将所述待分类样本进行划分,得到多个孤立树,由多个孤立树组合得到用于异常点检测的孤立森林模型。
在一实施例中,处理器502在执行所述将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心的步骤时,执行如下操作:将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到分类结果;其中,所述分类结果中包括正常类别的数据点和异常类别的数据点;获取所述分类结果中正常类别的数据点所对应的平均值,以获取初始正常点中心;获取所述分类结果中正常类别的数据点中与所述初始正常点中心距离最近的数据点,以作为正常类别的数据点对应的正常点中心。
在一实施例中,处理器502在执行所述若所述平均欧式距离变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例的步骤之后,还执行如下操作:将所述待分类样本根据所述孤立森林模型及最优异常点比例进行分类,得到最优分类结果。
本领域技术人员可以理解,图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图11所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现以下步骤:接收待分类样本,根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型;将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离;通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度;判断所述平均欧式距离变动幅度是否超出预设的变动幅度阈值;以及若所述平均欧式距离变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例。
在一实施例中,所述通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度之后,还包括:若所述平均欧式距离变动幅度未超出所述变动幅度阈值,将当前异常点比例减去步长以更新当前异常点比例,通过下一状态平均欧式距离以更新当前状态平均欧式距离,返回执行将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离的步骤。
在一实施例中,所述根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型,包括:从所述待分类样本中随机获取数据属性,及由数据属性和当前异常点比例所确定的分裂值;根据所述数据属性及所述分裂值将所述待分类样本进行划分,得到多个孤立树,由多个孤立树组合得到用于异常点检测的孤立森林模型。
在一实施例中,所述将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心,包括:将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到分类结果;其中,所述分类结果中包括正常类别的数据点和异常类别的数据点;获取所述分类结果中正常类别的数据点所对应的平均值,以获取初始正常点中心;获取所述分类结果中正常类别的数据点中与所述初始正常点中心距离最近的数据点,以作为正常类别的数据点对应的正常点中心。
在一实施例中,所述若所述平均欧式距离变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例之后,还包括:将所述待分类样本根据所述孤立森林模型及最优异常点比例进行分类,得到最优分类结果。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种异常点比例优化方法,其特征在于,包括:
接收待分类样本,根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型;
将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;
获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;
通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;
将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离;
通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度;
判断所述平均欧式距离变动幅度是否超出预设的变动幅度阈值;以及
若所述平均欧式距离变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例。
2.根据权利要求1所述的异常点比例优化方法,其特征在于,所述通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度之后,还包括:
若所述平均欧式距离变动幅度未超出所述变动幅度阈值,将当前异常点比例减去步长以更新当前异常点比例,通过下一状态平均欧式距离以更新当前状态平均欧式距离,返回执行将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离的步骤。
3.根据权利要求1所述的异常点比例优化方法,其特征在于,所述根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型,包括:
从所述待分类样本中随机获取数据属性,及由数据属性和当前异常点比例所确定的分裂值;
根据所述数据属性及所述分裂值将所述待分类样本进行划分,得到多个孤立树,由多个孤立树组合得到用于异常点检测的孤立森林模型。
4.根据权利要求1所述的异常点比例优化方法,其特征在于,所述将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心,包括:
将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到分类结果;其中,所述分类结果中包括正常类别的数据点和异常类别的数据点;
获取所述分类结果中正常类别的数据点所对应的平均值,以获取初始正常点中心;
获取所述分类结果中正常类别的数据点中与所述初始正常点中心距离最近的数据点,以作为正常类别的数据点对应的正常点中心。
5.根据权利要求1所述的异常点比例优化方法,其特征在于,所述若所述平均欧式距离变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例之后,还包括:
将所述待分类样本根据所述孤立森林模型及最优异常点比例进行分类,得到最优分类结果。
6.一种异常点比例优化装置,其特征在于,包括:
初始构建单元,用于接收待分类样本,根据预设的当前异常点比例及所述待分类样本构建用于异常点检测的孤立森林模型;
分类单元,用于将所述待分类样本根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;
第一计算单元,用于获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;
第一比例更新单元,用于通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;
第二计算单元,用于将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离;
变动幅度计算单元,用于通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度;
判断单元,用于判断所述平均欧式距离变动幅度是否超出预设的变动幅度阈值;以及
最优比例获取单元,用于若所述平均欧式距离变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例。
7.根据权利要求6所述的异常点比例优化装置,其特征在于,还包括:
第二比例更新单元,用于若所述平均欧式距离变动幅度未超出所述变动幅度阈值,将当前异常点比例减去步长以更新当前异常点比例,通过下一状态平均欧式距离以更新当前状态平均欧式距离,返回执行将所述待分类样本根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离的步骤。
8.根据权利要求6所述的异常点比例优化装置,其特征在于,所述初始构建单元,包括:
分类参数获取单元,用于从所述待分类样本中随机获取数据属性,及由数据属性和当前异常点比例所确定的分裂值;
模型获取单元,用于根据所述数据属性及所述分裂值将所述待分类样本进行划分,得到多个孤立树,由多个孤立树组合得到用于异常点检测的孤立森林模型。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的异常点比例优化方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的异常点比例优化方法。
CN201910079156.6A 2019-01-28 2019-01-28 异常点比例优化方法、装置、计算机设备及存储介质 Pending CN109919186A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910079156.6A CN109919186A (zh) 2019-01-28 2019-01-28 异常点比例优化方法、装置、计算机设备及存储介质
PCT/CN2019/117294 WO2020155754A1 (zh) 2019-01-28 2019-11-12 异常点比例优化方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910079156.6A CN109919186A (zh) 2019-01-28 2019-01-28 异常点比例优化方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN109919186A true CN109919186A (zh) 2019-06-21

Family

ID=66960883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910079156.6A Pending CN109919186A (zh) 2019-01-28 2019-01-28 异常点比例优化方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN109919186A (zh)
WO (1) WO2020155754A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020155754A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 异常点比例优化方法、装置、计算机设备及存储介质
CN111798312A (zh) * 2019-08-02 2020-10-20 深圳索信达数据技术有限公司 一种基于孤立森林算法的金融交易系统异常识别方法
US20210049517A1 (en) * 2019-08-13 2021-02-18 Sony Corporation Method and apparatus for generating a combined isolation forest model for detecting anomalies in data
CN112465768A (zh) * 2020-11-25 2021-03-09 公安部物证鉴定中心 一种数字图像拼接篡改盲检测方法和系统
CN113139610A (zh) * 2021-04-29 2021-07-20 国网河北省电力有限公司电力科学研究院 一种针对变压器监测数据的异常检测方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117786281B (zh) * 2024-02-23 2024-06-25 中国海洋大学 一种沉积物柱状样沉积速率与误差的优化计算方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4729151B2 (ja) * 1998-05-20 2011-07-20 シャープ株式会社 分類装置、方法およびファイル検索方法
CN104715160B (zh) * 2015-04-03 2017-12-12 天津工业大学 基于kmdb的软测量建模数据异常点检测方法
CN107528823A (zh) * 2017-07-03 2017-12-29 中山大学 一种基于改进的K‑Means聚类算法的网络异常检测方法
CN108322347B (zh) * 2018-02-09 2020-08-21 腾讯科技(深圳)有限公司 数据检测方法、装置、检测服务器及存储介质
CN109919186A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 异常点比例优化方法、装置、计算机设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020155754A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 异常点比例优化方法、装置、计算机设备及存储介质
CN111798312A (zh) * 2019-08-02 2020-10-20 深圳索信达数据技术有限公司 一种基于孤立森林算法的金融交易系统异常识别方法
CN111798312B (zh) * 2019-08-02 2024-03-01 深圳索信达数据技术有限公司 一种基于孤立森林算法的金融交易系统异常识别方法
US20210049517A1 (en) * 2019-08-13 2021-02-18 Sony Corporation Method and apparatus for generating a combined isolation forest model for detecting anomalies in data
US11972334B2 (en) * 2019-08-13 2024-04-30 Sony Corporation Method and apparatus for generating a combined isolation forest model for detecting anomalies in data
CN112465768A (zh) * 2020-11-25 2021-03-09 公安部物证鉴定中心 一种数字图像拼接篡改盲检测方法和系统
CN113139610A (zh) * 2021-04-29 2021-07-20 国网河北省电力有限公司电力科学研究院 一种针对变压器监测数据的异常检测方法及装置

Also Published As

Publication number Publication date
WO2020155754A1 (zh) 2020-08-06

Similar Documents

Publication Publication Date Title
CN109919186A (zh) 异常点比例优化方法、装置、计算机设备及存储介质
CN109871886A (zh) 基于谱聚类的异常点比例优化方法、装置及计算机设备
CN109961086A (zh) 基于聚类和sse的异常点比例优化方法及装置
CN107045455B (zh) 一种基于负载预测的Docker Swarm集群资源调度优化方法
CN109902721B (zh) 异常点检测模型验证方法、装置、计算机设备及存储介质
US10061837B2 (en) Method and system for processing recommended target software
US10846332B2 (en) Playlist list determining method and device, electronic apparatus, and storage medium
CN109360057A (zh) 信息推送方法、装置、计算机设备及存储介质
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN109872232A (zh) 涉及非法所得合法化行为的账户分类方法、装置、计算机设备及存储介质
CN106845642B (zh) 一种带约束云工作流调度的自适应多目标进化方法
CN106503863A (zh) 基于决策树模型的年龄特征的预测方法、系统及终端
CN111045808B (zh) 一种分布式网络任务调度方法及装置
CN108989075A (zh) 一种网络故障定位方法及系统
CN110175644A (zh) 特征选择方法、装置、电子设备、及存储介质
CN109918498A (zh) 一种问题入库方法和装置
CN109976901A (zh) 一种资源调度方法、装置、服务器及可读存储介质
CN109492153A (zh) 一种产品推荐方法和装置
Crawford et al. Dynamic selection of enumeration strategies for solving constraint satisfaction problems
CN111967964A (zh) 银行客户端网点的智能推荐方法及装置
CN104809229B (zh) 一种文本特征词提取方法及系统
CN106919808B (zh) 基于变步长最小均方误差自适应滤波器的基因识别系统
CN109214671A (zh) 人员分组方法、装置、电子装置及计算机可读存储介质
CN109447103A (zh) 一种基于硬聚类算法的大数据分类方法、装置及设备
CN105160003B (zh) 一种基于地理位置的app检索排序方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination