CN109902704A

CN109902704A - 一种异常样本的识别方法、装置及存储介质

Info

Publication number: CN109902704A
Application number: CN201811182208.4A
Authority: CN
Inventors: 于群; 李刚; 吴奇彬
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2019-06-18

Abstract

本申请提供一种异常样本识别方法、装置和存储介质。其中方法包括将测试样本分别输入至N个随机投影模型，得到N个第一输出结果，针对N个第一输出结果中的第i个第一输出结果，根据第i个第一输出结果和第i个随机投影模型对应的结果分布信息，确定测试样本在第i个随机投影模型的异常度，根据确定的测试样本的N个异常度，确定测试样本是否为异常样本，结果分布信息是根据将M个正样本输入至第i个随机投影模型得到的M个第二输出结果确定的，i从1取到N，M和N均为正整数。如此，不需要对随机投影模型进行训练即可实现确定测试样本是否为异常样本，有助于避免现有技术中在确定测试样本是否为异常样本时对模型的训练过程。

Description

一种异常样本的识别方法、装置及存储介质

技术领域

本申请涉及数据处理领域，尤其涉及一种异常样本的识别方法、装置及存储介质。

背景技术

随着云时代的来临，大数据也吸引了越来越多的关注。大数据的应用领域也越来越广泛，例如人工智能领域等。在大数据应用时，通常会对大数据进行分析，在大数据分析中，经常需要对异常样本进行识别，以去除异常样本，通过去除异常样本可提升大数据分析的准确性。

目前，样本的识别方法主要是基于建立的模型来识别的，例如高斯混合模型，该识别方式需要建立模型，并通过正样本集对模型进行反复训练，确定出最终的模型，然后基于确定出的最终模型来确定待测样本集中的样本是否为异常样本，然而该方法需要对模型进行训练，且模型训练过程计算复杂度比较高。

综上，目前异常样本的识别方法中模型训练过程计算复杂度比较高，因此亟需相应解决方案。

发明内容

本申请提供一种异常样本的识别方法、装置及存储介质，以实现在不需要对模型进行训练来确定出测试样本是否为异常样本。

第一方面，本申请提供一种异常样本识别方法，该方法包括将测试样本分别输入至N个随机投影模型，得到N个第一输出结果，针对N个第一输出结果中的第i个第一输出结果，根据第i个第一输出结果和第i个随机投影模型对应的结果分布信息，确定测试样本在第i个随机投影模型的异常度，其中，第i个随机投影模型对应的结果分布信息是根据将M个正样本输入至第i个随机投影模型得到的M个第二输出结果确定的，i从1取到N，N和M均为正整数；根据确定的测试样本的N个异常度，确定测试样本是否为异常样本。

基于该方案，通过确定测试样本在N个随机投影模型中的N个异常度，然后根据该N个异常度来确定测试样本是否异常样本。如此，不需要对N个随机投影模型进行训练即可实现确定测试样本是否为异常样本，从而实现了在不需要对模型进行训练时也可以确定测试样本是否为异常样本，因而有助于提升异常样本的识别效率。

在一种可能的实现方式中，若确定的测试样本的N个异常度之和大于第一阈值，则确定测试样本为异常样本；或者，若确定的测试样本的N个异常度之和不大于第一阈值，则确定测试样本为正常样本。

在另一种可能的实现方式中，若确定测试样本的N个异常度中从大到小排序在前K个的异常度的和大于第二阈值，则确定测试样本为异常样本；或者，若确定测试样本的N个异常度中从大到小排序在前K个的异常度的和不大于第二阈值，则确定测试样本为正常样本。如此，可以提高识别异常度的准确性；其中，K为不大于N的正整数。

本申请基于两种分布结果信息提供了相应地确定所述测试样本在所述第i个随机投影模型的异常度的方式，具体可以为：

分布结果信息一，所述第i个随机投影模型对应的结果分布信息为所述M个第二输出结果中的最小值和最大值。则基于分布结果信息一，在一种可能的实现方式中，若第i个第一输出结果大于最大值或小于最小值，则确定测试样本在第i个随机投影模型的异常度为第一值；或者，若第i个第一输出结果不大于最大值且不小于最小值，则确定测试样本在第i个随机投影模型的异常度为第二值。

分布结果信息二，所述第i个随机投影模型对应的结果分布信息为所述M个第二输出结果的平均值和标准差。基于分布结果信息二，在一种可能的实现方式中，确定第i个第一输出结果与平均值的差值的绝对值；若差值的绝对值大于n倍的标准差，则确定待测样本在第i个随机投影模型的异常度为第三值；或者，若差值的绝对值不大于n倍的标准差，则确定待测样本在第i个随机投影模型的异常度为第四值，n为正整数。通过将差值的绝对值与n倍的标准差进行比较(即nσ比较原则)，进而提高异常样本识别的能力，且可更加准确的表达出待测样本的异常度。

基于分布结果信息二，在又一种可能的实现方式中，还可以基于确定的第i个第一输出结果与平均值的差值的绝对值，确定待测样本在第i个随机投影模型的异常度为差值的绝对值与标准差的比值。如此，可反映出测试样本真实的异常度大小，对于第i个随机投影模型，确定出的异常度越高，则该测试样本为异常样本的可能性越大。

在一种可能的实现方式中，上述任一实施例中的N个随机投影模型可以为初始化模型，即不需要对随机投影模型进行训练即可使用，以此可以节省随机投影模型的训练过程。

在一种可能的实现方式中，上述任一实施例中的N个随机投影模型可以分别为随机矩阵或为随机神经网络模型。

第二方面，本申请实施例提供一种装置，该装置包括处理器。可选地，还包括存储器。当其包括存储器时，存储器用于存储指令；处理器用于根据执行存储器存储的指令，当处理器执行存储器存储的指令时，装置用于执行上述第一方面或第一方面中任一种方法。

第三方面，本申请实施例提供一种装置，用于实现上述第一方面或第一方面中的任意一种方法，包括相应的功能模块，分别用于实现以上方法中的步骤。功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块。

在一种可能的实施方式中，装置的结构中包括处理单元。可选地，还包括存储单元，这些单元可以执行上述方法示例中相应功能，具体参见方法示例中的详细描述，此处不做赘述。

第四方面，本申请实施例提供一种计算机存储介质，计算机存储介质中存储有指令，当其在计算机上运行时，使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。

第五方面，本申请实施例提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。

附图说明

图1为本申请实施例提供的一种随机投影模型的架构示意图；

图2a为本申请实施例提供的一种异常样本识别方法流程示意图；

图2b为本申请实施例提供的一种将样本集输入至第i个随机投影模型后确定出M个第二输出结果中的最小值和最大值分布示意图；

图2c为本申请实施例提供的一种正态分布结果示意图；

图3a为本申请实施例提供的另一种异常样本识别方法流程示意图；

图3b为本申请实施例提供的另一种异常样本识别过程示意图；

图4a为本申请实施例提供的另一种异常样本识别方法流程示意图；

图4b为本申请实施例提供的另一种异常样本识别过程示意图；

图5a为本申请实施例提供的另一种异常样本识别方法流程示意图；

图5b为本申请实施例提供的另一种异常样本识别过程示意图；

图6为本申请实施例提供的一种装置的结构示意图；

图7为本申请实施例提供的一种装置的结构示意图。

具体实施方式

图1示例性示出了本申请提供的一种随机投影模型的架构示意图。如图1所示，该架构包括随机投影模型1、随机投影模型2、…、随机投影模型N，即该架构包括N个随机投影模型，N为大于或等于1的整数。随机投影模型可以将输入的样本投影至低维空间(图1以投影至一维空间为例说明，即一个样本输入至一个随机投影模块后得到一个一维的输出结果)，每个随机投影模型包括至少一个随机投影层。图1示例性示出了将任意样本A分别输入随机投影模型1、随机投影模型2、…、随机投影模型N，则可以得到对应的输出结果Y₁，Y₂…Y_N。

基于上述内容，图2a示例性示出了本申请提供的一种异常样本识别方法流程示意图。随机投影模型可以是上述图1所示的随机投影模型。如图2a所示，该方法包括以下步骤：

步骤S201，将测试样本分别输入至N个随机投影模型，得到N个第一输出结果，N为大于或等于1的整数。

在一种实现方式中，N个随机投影模型可以为初始化的N个随机投影模型，如此，不需要对随机投影模型进行训练即可使用，可以提升样本的识别效率。

进一步，N个随机投影模型可以分别为随机矩阵或者分别为随机神经网络模型。在一种可能的实现方式中，随机矩阵指的是随机初始化的矩阵。可选地，每个随机神经网络模型可包括多层神经网络，或者也可包括单层神经网络。

步骤S202，针对N个第一输出结果中的第i个第一输出结果，根据第i个第一输出结果和第i个随机投影模型对应的结果分布信息，确定测试样本在第i个随机投影模型的异常度。

其中，第i个随机投影模型对应的结果分布信息是根据将M个正样本输入至第i个随机投影模型得到的M个第二输出结果确定的，i从1取到N，M为正整数。也可以理解为，分别根据第i个第一输出结果与N个随机投影模型中的每个随机投影模型对应的结果分布信息，可以依次确定出测试样本的N个异常度。

步骤S203，根据确定的测试样本的N个异常度，确定测试样本是否为异常样本。

上述实施例中，随机投影模型的数量越多，识别异常样本的能力越强，确定测试样本是否为异常样本的精确度越高。

通过上述步骤S201至步骤S203可以看出，通过确定测试样本在N个随机投影模型中的N个异常度，来确定测试样本是否异常样本。如此，不需要对N个随机投影模型进行训练即可实现确定测试样本是否为异常样本，有助于避免现有技术中在确定测试样本是否为异常样本时对模型的训练过程。

进一步，N个随机投影模型之间互不相同，因此，得到的N个第一输出结果也互不相同，即N个第一输出结果的随机性较强，根据随机性较强的N个第一输出结果确定测试样本是否为异常样本，有助于提高识别异常样本的精确度。而且，当N为大于1的整数时，将测试样本输入至N个随机投影模型，每个随机投影模型对应一个异常度，根据N个异常度确定测试样本是否异常样本，可进一步提高异常样本识别能力。而且，本申请中不需要考虑测试样本的特征参数的相关性，可用于确定任意特征参数的测试样本是否为异常样本，因此，识别异常样本的适用范围较广。

在上述步骤202中，可通过如下两种实现方式确定第i个随机投影模型对应的结果分布信息。

实现方法一，将M个正样本分别输入至第i个随机投影模型得到的M个第二输出结果，确定M个第二输出结果中的最小值和最大值，确定最小值和最大值为第i个随机投影模型对应的结果分布信息。

基于该实现方式，可以确定出N个随机投影模型中每个随机投影模型对应的结果分布信息(最大值和最小值)，其中，N随机投影模型对应的结果分布信息可以相同也可以不相同。

实现方式二，将M个正样本分别输入至第i个随机投影模型得到的M个第二输出结果，确定M个第二输出结果的平均值和标准差，确定平均值和标准差为第i个随机投影模型对应的结果分布信息。

基于该实现方式，可以确定出N个随机投影模型中每个随机投影模型对应的结果分布信息(平均值和标准差)，其中，N个随机投影模型对应的结果分布信息可以相同也可以不相同。

针对上述实现方式一，本申请提供了一种确定测试样本异常度的方法，具体为：针对N个第一输出结果中的第i个第一输出结果，若第i个第一输出结果大于最大值或小于最小值，则确定测试样本在第i个随机投影模型的异常度为第一值；或者，若第i个第一输出结果不大于最大值且不小于最小值，则确定测试样本在第i个随机投影模型的异常度为第二值。也可以理解为，若第i个第一输出结果未落在了最小值和最大值之间，则确定测试样本在第i个随机投影模型的异常度为第一值；若第i个第一输出结果落在了最小值和最大值之间，则确定测试样本在第i个随机投影模型的异常度为第二值。可以通过相同的实现方式确定出待测样本在N个随机投影模型的每个随机投影模型中的异常度，即可确定出该测试样本的N个异常度。

一种可能的实现方式中，第一值可以设置为1，第二值可以设置为0。

在一种可能的实现方式中，若M个正样本中夹杂有异常样本时，确定出的M个第二输出结果中的最小值和最大值可能与真实的最大值和最小值之间存在一定的偏差。如图2b所示，为本申请提供了一种将样本集(包括M个样本)输入至第i个随机投影模型后确定出M个第二输出结果中的最小值和最大值分布的示意图。如图2b所示，样本集中未夹杂有异常样本(图2b实线所示)时，分别确定出M个第二输出结果中的最大值P_max-1和最小值P_min-1，样本集中夹杂有异常样本时，分别确定出M个第二输出结果中的最大值P_max-2和最小值P_min-2。如图2b所示，样本集中夹杂有异常样本(图2b虚线所示)时确定出的最小值P_min-2小于未夹杂有异常样本时确定出的最小值P_min-1，样本集中夹杂有异常样本时确定出的最大值P_max-2大于未夹杂有异常样本时确定出的最小值P_max-1，如此会导致确定出M个第二输出结果中的最大值和最小值的范围不准确，进而造成对异常样本识别能力弱。为了解决该问题，本申请针对上述实现方式二又提供了如实现方式A和实现方式B所示的两种确定测试样本异常度的方式。

实现方式A，针对N个第一输出结果中的第i个第一输出结果，确定第i个第一输出结果与平均值的差值的绝对值；若差值的绝对值大于n倍的标准差，则确定待测样本在第i个随机投影模型的异常度为第三值；或者，若差值的绝对值不大于n倍的标准差，则确定待测样本在第i个随机投影模型的异常度为第四值。也可以通过相同的实现方式确定待测样本在N个随机投影模型的每个随机投影模型中的异常度，即也可确定出该测试样本的N个异常度。通过大量的实验发现，测试样本经过随机投影模型投影之后的输出结果符合正态分布，如图2c所示，为本申请提供了一种正态分布结果示意图。正态分布的均值为于中央，即越靠近中央，分布结果越接近均值。因此，测试样本越异常，输出结果越靠两端，通过将差值的绝对值与n倍的标准差进行比较(即nσ比较原则)，也就是说，若第一输出结果距离正态分布中心线越远的时候，该测试样本的异常度较高，说明该测试样本是异常样本的可能性越大，且n越大，越靠近两端，如此可提高异常样本识别的能力。

上述实现方式A中，n倍的标准差中n的取值越大，异常样本的识别能力越强。可选地，第三值可以设置为1，第四值可以设置为0。

实现方式B，针对N个第一输出结果中的第i个第一输出结果，确定第i个第一输出结果与平均值的差值的绝对值，确定待测样本在第i个随机投影模型的异常度为差值的绝对值与标准差的比值。基于相同的方法可确定出该测试样本的N个异常度。通过实现方式二确定测试样本在第i个随机投影模型的异常度，可得到一个具体的值。如此，可反映出测试样本真实的异常度大小，对于第i个随机投影模型，确定出的异常度越高，则该测试样本为异常样本的可能性越大。

在上述步骤S203中，若确定的测试样本的N个异常度之和大于第一阈值，则可以确定测试样本为异常样本；或者，若确定的测试样本的N个异常度之和不大于第一阈值，则可以确定测试样本为正常样本。

针对上述种实现方式一，一种可能的实现方式中，可以确定测试样本的N个异常度中第一值的和，若第一值的和大于第一阈值，则可以确定测试样本为异常样本。也可以是，统计N个异常度中第一值的数量，若该数量大于第一阈值，则确定该测试样本为异常样本。在另一种可能的实现方式中，可以确定N个异常度中第一值和第二值的和，若第一值和第二值的和大于第一阈值，也可以确定测试样本为异常样本。其中，第一阈值可以根据具体实现方式来确定。

针对实现方式二中的实现方式A，可以确定测试样本的N个异常度中第三值的和，若第三值的和大于第一阈值，则可以确定测试样本为异常样本。也可以是，统计N个异常度中第三值的数量，若该数量大于第一阈值，也可以确定该测试样本为异常样本。在另一种可能的实现方式中，还可以确定N个异常度中第三值和第四值的和，若第三值和第四值的和大于第一阈值，也可以确定测试样本为异常样本。其中，第一阈值可以根据具体实现方式来确定。

针对实现方式二中的实现方式B，可以确定测试样本的N个比值的和，若N个比值的和大于第一阈值，则确定测试样本为异常样本。

为了更清楚的介绍上述方法流程，下面通过三种具体的实现方案对本申请提出的异常样本的识别方法进行进一步的说明。

实现方案一，如图3a所示，为本申请提的另一种异常样本识别方法流程示意图。其中，随机投影模型可以是上述图1所示的随机投影模型。如图3a所示，该方法包括以下步骤。

步骤S301，初始化N个随机投影模型。其中，N个随机投影模型与上述步骤S201中的N个随机投影模型相同，在此不再赘述。

步骤S302，针对N个随机投影模型中的第i个随机投影模型，将M个正样本输入至第i个随机投影模型得到的M个第二输出结果。其中，i从1取到N，即N个随机投影模型中的每个随机投影模型都可以得到M个第二输出结果。

步骤S303，将测试样本分别输入至N个随机投影模型，得到N个第一输出结果。

步骤S304，确定M个第二输出结果中的最小值和最大值。其中，最小值和最大值为第i个随机投影模型对应的结果分布信息，最小值和最大值可以形成一个范围[min_i，max_i]。

上述步骤S303和步骤S304没有先后顺序，可以先执行步骤S303后执行步骤S304，也可以先执行步骤S304后执行步骤S303。

步骤S305，针对N个第一输出结果中的第i个第一输出结果，确定第i个第一输出结果是否不大于最大值且不小于最小值；若否，执行步骤S306；若是，执行步骤S307。

步骤S306，确定测试样本在第i个随机投影模型的异常度为第一值。

步骤S307，确定测试样本在第i个随机投影模型的异常度为第二值。

可选地，对N个第一输出结果均执行步骤S305、步骤S306和步骤307，可得到N个异常度。

步骤S308，确定测试样本的N个异常度之和是否大于第一阈值，若是，则执行步骤S309，若否，则执行步骤S310。

步骤S309，确定测试样本为异常样本。

步骤S310，确定测试样本为正常样本。

结合上述图1和图3a，图3b为本申请提供一种异常样本识别过程示意图。随机投影模型i为上述图1中随机投影模型1、随机投影模型2，…随机投影模型N中的任意一个。如图3b所示，将正样本a₁，a₂，…，a_m均输入随机投影模型i，分别得到M个第二输出结果Y_i1，Y_i2，…，Y_im，确定M个第二输出结果中的最小值Y_imin和最大值Y_imax，将测试样本b₁输入至随机投影模型i得到第一输出结果Z_i1和。若Y_imin≤Z_i1≤Y_imax，则确定测试样本的异常度为第一值；若Z_i1>Y_imax或者Z_i1<Y_imin，确定测试样本的异常度为第二值。i从1取到N，得到测试的N个异常度，若确定N个异常度的和大于第一阈值，则确定测试样本为异常样本；若确定N个异常度的和不大于第一阈值，则确定测试样本为正常样本。

实现方案二，如图4a所示，为本申请提的另一种异常样本识别方法流程示意图。其中，随机投影模型可以是上述图1所示的随机投影模型。如图4a所示，该方法在上述步骤S303之后执行步骤S404，其中，步骤S404和步骤S303之间没有先后顺序，可以先执行步骤S303后执行步骤S404，也可以先执行步骤S404后执行步骤S303。

步骤S404，确定M个第二输出结果的平均值和标准差。此处，平均值和标准差为第i个随机投影模型对应的结果分布信息。

步骤S405，针对N个第一输出结果中的第i个第一输出结果，确定第i个第一输出结果与平均值的差值的绝对值，判断差值的绝对值是否大于n倍的标准差。若大于，执行步骤S406；若不大于，执行步骤S407。

步骤S406，确定待测样本在第i个随机投影模型的异常度为第三值。

步骤S407，确定待测样本在第i个随机投影模型的异常度为第四值。

可选地，对N个第一输出结果均执行步骤S405、步骤S406和步骤407，可得到N个异常度。

步骤S406和步骤S407之后，执行步骤S308；步骤S308之后执行步骤S309或者步骤S310，此处不再赘述。

结合上述图1和图4a，图4b为本申请提供一种异常样本识别过程示意图。随机投影模型i为上述图1中随机投影模型1、随机投影模型2，…随机投影模型N中的任意一个。如图4b所示，将正样本a₁，a₂，…，a_m均输入随机投影模型i，分别得到M个第二输出结果Y_i1，Y_i2，…，Y_im，确定M个第二输出结果的平均值Y_mean和标准差σ。将测试样本b₁输入至随机投影模型i得到第一输出结果Z_i1和。若|Z_i1-Y_mean|>nσ，则确定测试样本的异常度为第一值；若确定|Z_i1-Y_mean|≤nσ，确定测试样本的异常度为第二值。i从1取到N，得到测试的N个异常度，若确定N个异常度的和大于第一阈值，则确定测试样本为异常样本；若确定N个异常度的和不大于第一阈值，则确定测试样本为正常样本。

实现方案三，如图5a所示，为本申请提的另一种异常样本识别方法流程示意图。其中，随机投影模型可以是上述图1所示的随机投影模型。如图5a所示，该方法在上述步骤S303之后执行步骤S404，在上述步骤S404之后，执行步骤S505。

步骤S505，针对N个第一输出结果中的第i个第一输出结果，确定第i个第一输出结果与平均值的差值的绝对值，确定待测样本在第i个随机投影模型的异常度为差值的绝对值与标准差的比值。对N个第一输出结果均执行步骤S505，就可以可得到N个异常度。

在上述步骤S505之后，执行步骤S308；步骤S308之后执行步骤S309或者步骤S310，此处不再赘述。

结合上述图1和图5a，图5b为本申请提供一种异常样本识别过程示意图。随机投影模型i为上述图1中随机投影模型1、随机投影模型2，…随机投影模型N中的任意一个。如图5b所示，将正样本a₁，a₂，…，a_m均输入随机投影模型i，分别得到M个第二输出结果Y_i1，Y_i2，…，Y_im，确定M个第二输出结果的平均值Y_mean和标准差σ。将测试样本b₁输入至随机投影模型i得到第一输出结果Z_i1。异常度＝|Z_i1-Y_mean|/σ，i从1取到N，得到测试的N个异常度，若确定N个异常度的和大于第一阈值，则确定测试样本为异常样本；若确定N个异常度的和不大于第一阈值，则确定测试样本为正常样本。

上述实现方案一、实现方案二和实现方案三可以仅执行其中的一种方案，也可以执行其中任两种方案，或者三种方案一起执行。若执行其中的任两种或三种方案时，可以按三种方案的预设的权重来确定测试样本是否为异常样本。通过三种方案一起执行来识别异常样本，可以进一步提高异常样本的识别能力，进而识别出的异常样本的精确度较高。

基于上述内容和相同构思，本申请提供一种装置600，用于执行上述方法中的任一个方案。图6示例性示出了本申请提供的一种异常样本识别装置的结构示意图，如图6所示，装置600包括处理器601、存储器602和通信接口603；其中，处理器601、存储器602和通信接口603通过总线相互连接。该示例中的装置600可以执行上述图2a中的方案，也可以执行图3a中的方案,也可以执行图3b中的方案。该装置600可存储有上述图1所示的随机投影模型系统。

存储器602可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器602还可以包括上述种类的存储器的组合。

通信接口603可以为有线通信接入口，无线通信接口或其组合，其中，有线通信接口例如可以为以太网接口。以太网接口可以是光接口，电接口或其组合。无线通信接口可以为WLAN接口。

处理器601可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)或者CPU和NP的组合。处理器601还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic,GAL)或其任意组合。

可选地，存储器602还可以用于存储程序指令，处理器601调用该存储器602中存储的程序指令，可以执行上述方案中所示实施例中的一个或多个步骤，或其中可选的实施方式，使得装置600实现上述方法。

处理器601用于执行存储器602存储的指令，当处理器601执行存储器602存储的指令时，装置600中的处理器601将测试样本分别输入至N个随机投影模型，得到N个第一输出结果，N为大于或等于1的整数；针对N个第一输出结果中的第i个第一输出结果，根据第i个第一输出结果和第i个随机投影模型对应的结果分布信息，确定测试样本在第i个随机投影模型的异常度，其中，第i个随机投影模型对应的结果分布信息是根据将M个正样本输入至第i个随机投影模型得到的M个第二输出结果确定的，i从1取到N，M为正整数；根据确定的测试样本的N个异常度，确定测试样本是否为异常样本。

一种可能的实现方式中，处理器601若确定的测试样本的N个异常度之和大于第一阈值，则可以确定测试样本为异常样本；或者，若确定的测试样本的N个异常度之和不大于第一阈值，则可以确定测试样本为正常样本。

在一种可能的实现方式中，所述第i个随机投影模型对应的结果分布信息为所述M个第二输出结果中的最小值和最大值；处理器601在第i个第一输出结果大于最大值或小于最小值时，则确定测试样本在第i个随机投影模型的异常度为第一值；或者，在第i个第一输出结果不大于最大值且不小于最小值时，则确定测试样本在第i个随机投影模型的异常度为第二值。

在一种可能的实现方式中，所述第i个随机投影模型对应的结果分布信息为所述M个第二输出结果的平均值和标准差；处理器601在确定第i个第一输出结果与平均值的差值的绝对值；若差值的绝对值大于n倍的标准差，则可以确定待测样本在第i个随机投影模型的异常度为第三值；或者在差值的绝对值不大于n倍的标准差，则可以确定待测样本在第i个随机投影模型的异常度为第四值；或者直接确定待测样本在第i个随机投影模型的异常度为差值的绝对值与标准差的比值。

处理器601还可以在方案执行初期先行初始化N个随机投影模型。N个随机投影模型可以分别为随机矩阵或随机神经网络模型。

基于上述内容和相同构思，本申请提供一种装置700，用于执行上述方法。图7示例性示出了本申请提供的一种异常样本识别装置的结构示意图，如图7所示，装置700包括处理单元701，可选地还包括存储单元702。存储单元702，用于存储N个随机投影模型，以及每个随机投影模型分别对应的结果分布信息。处理单元701用于：将测试样本分别输入至N个随机投影模型，得到N个第一输出结果，N为大于或等于1的整数；针对N个第一输出结果中的第i个第一输出结果，根据第i个第一输出结果和第i个随机投影模型对应的结果分布信息，确定测试样本在第i个随机投影模型的异常度，其中，第i个随机投影模型对应的结果分布信息是根据将M个正样本输入至第i个随机投影模型得到的M个第二输出结果确定的，i从1取到N，M为正整数；根据确定的测试样本的N个异常度，确定测试样本是否为异常样本。

应理解，以上装置的各单元的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。本申请实施例中，图7涉及到的处理单元701可以由上述图6的处理器601实现。也就是说，本申请实施例中处理单元601可以执行上述图6的处理器601所执行的方案，其余内容可以参见上述内容，在此不再赘述。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种异常样本识别方法，其特征在于，包括：

将测试样本分别输入至N个随机投影模型，得到N个第一输出结果，所述N为大于或等于1的整数；

针对所述N个第一输出结果中的第i个第一输出结果，根据所述第i个第一输出结果和所述第i个随机投影模型对应的结果分布信息，确定所述测试样本在所述第i个随机投影模型的异常度，其中，所述第i个随机投影模型对应的结果分布信息是根据将M个正样本输入至所述第i个随机投影模型得到的M个第二输出结果确定的，所述i从1取到N，所述M为正整数；

根据确定的所述测试样本的N个异常度，确定所述测试样本是否为异常样本。

2.如权利要求1所述的方法，其特征在于，所述根据确定的所述测试样本的N个异常度，确定所述测试样本是否为异常样本，包括：

若确定的所述测试样本的N个异常度之和大于第一阈值，则确定所述测试样本为异常样本；或者，

若确定的所述测试样本的N个异常度之和不大于所述第一阈值，则确定所述测试样本为正常样本。

3.如权利要求1或2所述的方法，其特征在于，所述第i个随机投影模型对应的结果分布信息为所述M个第二输出结果中的最小值和最大值；

所述根据所述第i个第一输出结果和所述第i个随机投影模型对应的结果分布信息，确定所述测试样本在所述第i个随机投影模型的异常度，包括：

若所述第i个第一输出结果大于所述最大值或小于所述最小值，则确定所述测试样本在所述第i个随机投影模型的异常度为第一值；或者，

若所述第i个第一输出结果不大于所述最大值且不小于所述最小值，则确定所述测试样本在所述第i个随机投影模型的异常度为第二值。

4.如权利要求1或2所述的方法，其特征在于，所述第i个随机投影模型对应的结果分布信息为所述M个第二输出结果的平均值和标准差；

确定所述第i个第一输出结果与所述平均值的差值的绝对值；

若所述差值的绝对值大于n倍的所述标准差，则确定所述待测样本在所述第i个随机投影模型的异常度为第三值；或者若所述差值的绝对值不大于所述n倍的标准差，则确定所述待测样本在所述第i个随机投影模型的异常度为第四值；或者，确定所述待测样本在所述第i个随机投影模型的异常度为所述差值的绝对值与所述标准差的比值；所述n为正整数。

5.如权利要求1至4任一项所述的方法，其特征在于，所述将测试样本分别输入至N个随机投影模型之前，还包括：

初始化所述N个随机投影模型。

6.如权利要求1至5任一项所述的方法，其特征在于，所述N个随机投影模型分别为随机矩阵或随机神经网络模型。

7.一种异常样本识别装置，其特征在于，包括：

存储器，存储有N个随机投影模型，以及每个随机投影模型分别对应的结果分布信息；

处理器，用于将测试样本分别输入至所述N个随机投影模型，得到N个第一输出结果，所述N为大于或等于1的整数；针对所述N个第一输出结果中的第i个第一输出结果，根据所述第i个第一输出结果和所述第i个随机投影模型对应的结果分布信息，确定所述测试样本在所述第i个随机投影模型的异常度，其中，所述第i个随机投影模型对应的结果分布信息是根据将M个正样本输入至所述第i个随机投影模型得到的M个第二输出结果确定的，所述i从1取到N，所述M为正整数；根据确定的所述测试样本的N个异常度，确定所述测试样本是否为异常样本。

8.如权利要求7所述的装置，其特征在于，所述处理器，具体用于：

若确定的所述测试样本的N个异常度之和大于第一阈值，则确定所述测试样本为异常样本；或者，若确定的所述测试样本的N个异常度之和不大于所述第一阈值，则确定所述测试样本为正常样本。

9.如权利要求7或8所述的装置，其特征在于，所述第i个随机投影模型对应的结果分布信息为所述M个第二输出结果中的最小值和最大值；

所述处理器，具体用于：若所述第i个第一输出结果大于所述最大值或小于所述最小值，则确定所述测试样本在所述第i个随机投影模型的异常度为第一值；或者，若所述第i个第一输出结果不大于所述最大值且不小于所述最小值，则确定所述测试样本在所述第i个随机投影模型的异常度为第二值。

10.如权利要求7或8所述的装置，其特征在于，所述第i个随机投影模型对应的结果分布信息为所述M个第二输出结果的平均值和标准差；

所述处理器，具体用于：

确定所述第i个第一输出结果与所述平均值的差值的绝对值；若所述差值的绝对值大于n倍的所述标准差，则确定所述待测样本在所述第i个随机投影模型的异常度为第三值；或者，若所述差值的绝对值不大于所述n倍的标准差，则确定所述待测样本在所述第i个随机投影模型的异常度为第四值；或者，确定所述待测样本在所述第i个随机投影模型的异常度为所述差值的绝对值与所述标准差的比值。

11.如权利要求7至10任一项所述的装置，其特征在于，所述处理器，还用于：

初始化所述N个随机投影模型。

12.如权利要求7至11任一项所述的装置，其特征在于，所述N个随机投影模型分别为随机矩阵或随机神经网络模型。

13.一种计算机可读存储介质，其特征在于，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至6任一项所述的方法。