CN109871954A

CN109871954A - 训练样本生成方法、异常检测方法及装置

Info

Publication number: CN109871954A
Application number: CN201811583931.3A
Authority: CN
Inventors: 高原; 金欢; 金洪波; 周亚东
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2019-06-11
Anticipated expiration: 2038-12-24
Also published as: CN109871954B

Abstract

本发明涉及计算机技术领域，尤其涉及训练样本生成方法、异常检测方法及装置，从预分类的第一类初始样本集中采样出的一组第一类初始样本；根据该组第一类初始样本和当前的第二类可靠样本集中的各个第二类可靠样本，训练得到样本分类器；当确定训练得到的样本分类器的分类效果符合预设条件时，将该组第一类初始样本添加到第一类可靠样本集中，以获得更新的第一类可靠样本集，这样，根据第二类可靠样本集，可以从第一类初始样本集中筛选出第一类可靠样本集，对第一类初始样本集的分类效果更可靠，即可以生成更多大量可靠的第一类可靠样本集和第二类可靠样本集，解决了可靠训练样本获取困难的问题。

Description

训练样本生成方法、异常检测方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及训练样本生成方法、异常检测方法及装置。

背景技术

目前，模型训练和学习过程通常需要大量可靠的正负样本，大量可靠的正负样本是最终训练的模型是否可靠的重要前提。但是，针对某些应用场景，大量可靠的正负样本获取是比较困难的，可能仅有少量单一标记样本，并且各样本表示的行为差异较大，例如，异常检测问题中异常行为模式和种类较多，正负样本标记较困难。

现有技术中，对于训练样本生成方法，主要有单分类器、正例和未标记学习(Positive and unlabeled learning，PU-learning)方法、半监督聚类方法等。单分类器主要是利用已标记样本，而忽略了大量未标记样本的信息，对未标记样本的分类效果不理想，仅能识别部分异常；PU-learning方法前提需要已标记样本是彼此相似的，并且已标记样本数量有限，难以表示更多的行为情况，从而对大量未标记样本分类效果也较差；监督聚类方法主要是将未标记样本聚类到合适的类中，标记在相同类中的样本是彼此相似的，而对于各样本表示的行为差异较大的情况，对未标记样本聚类分类效果也较差，难以获得更多可靠的训练样本。

发明内容

本发明实施例提供训练样本生成方法、异常检测方法及装置，以解决现有技术中可靠训练样本获取困难，基于少量已标记样本，对未标记样本分类效果较差的问题。

本发明实施例提供的具体技术方案如下：

本发明一个实施例提供了一种训练样本生成方法，包括：

从预分类的第一类初始样本集中采样出的一组第一类初始样本；

根据该组第一类初始样本和当前的第二类可靠样本集中的各个第二类可靠样本，训练得到样本分类器；其中，第一类和第二类表示属性不同的两类样本；

当确定训练得到的样本分类器的分类效果符合预设条件时，将该组第一类初始样本添加到第一类可靠样本集中，以获得更新的第一类可靠样本集。

本发明另一个实施例提供了一种异常检测方法，包括：

获取基于上述任一种训练样本生成方法生成的最终用于训练的第一类可靠样本集和第二类可靠样本集；

根据最终用于训练的第一类可靠样本集和第二类可靠样本集，以及预设训练算法，训练获得异常检测模型；

根据训练后的异常检测模型，对待检测样本进行异常检测。

本发明另一个实施例提供了一种训练样本生成装置，包括：

获得模块，用于从预分类的第一类初始样本集中采样出的一组第一类初始样本；

训练模块，用于根据该组第一类初始样本和当前的第二类可靠样本集中的各个第二类可靠样本，训练得到样本分类器；其中，第一类和第二类表示属性不同的两类样本；

更新模块，用于当确定训练得到的样本分类器的分类效果符合预设条件时，则将该组第一类初始样本添加到第一类可靠样本集中，以获得更新的第一类可靠样本集。

本发明另一个实施例提供了一种异常检测装置，包括：

获取模块，用于获取基于上述任一种训练样本生成方法生成的最终用于训练的第一类可靠样本集和第二类可靠样本集；

训练模块，用于根据最终用于训练的第一类可靠样本集和第二类可靠样本集，以及预设训练算法，训练获得异常检测模型；

异常检测模块，用于根据训练后的异常检测模型，对待检测样本进行异常检测。

本发明另一个实施例提供了一种电子设备，包括：

至少一个存储器，用于存储程序指令；

至少一个处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行上述任一种训练样本生成方法，或异常检测方法。

本发明另一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种训练样本生成方法，或异常检测方法的步骤。

本发明实施例中，从预分类的第一类初始样本集中采样出的一组第一类初始样本；根据该组第一类初始样本和当前的第二类可靠样本集中的各个第二类可靠样本，训练得到样本分类器；当确定训练得到的样本分类器的分类效果符合预设条件时，将该组第一类初始样本添加到第一类可靠样本集中，以获得更新的第一类可靠样本集，这样，根据样本分类器的分类效果，可以依次判断第一类初始样本集中每一组第一类初始样本的标记的可靠性，从而可以根据第二类可靠样本集，从预分类的第一类初始样本集中筛选出第一类可靠样本集，对第一类初始样本集的分类效果更好，更可靠，可以将第一类可靠样本集和第二类可靠样本集作为用于训练的训练样本，这样即可以生成更多大量可靠的第一类可靠样本集和第二类可靠样本集，解决了可靠训练样本获取困难的问题，不需要人力标记，降低了成本。

附图说明

图1为本发明实施例中一种训练样本生成方法流程图；

图2为本发明实施例中训练样本生成方法第一阶段的预处理过程示意图；

图3为本发明实施例中训练样本生成方法的第二阶段过程示意图；

图4为本发明实施例中训练样本生成方法的第三阶段中能量函数计算时样本预标记的流程示意图；

图5为本发明实施例中异常检测方法流程图；

图6为本发明实施例中训练样本生成方法和应用基本流程示意图；

图7为本发明实施例中具体应用场景下训练样本生成方法和应用基本流程示意图；

图8为本发明实施例中训练样本生成装置结构示意图；

图9为本发明实施例中异常检测装置结构示意图；

图10为本发明实施例中电子设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面先对几个概念和本发明实施例中采用的缩略词进行简单介绍：

正样本：本发明实施例中表示正常行为的正常样本。

负样本：本发明实施例中表示异常行为模式的异常样本。

N(Negative)：已标记负样本集。

U(Unknown)：未标记样本集。

LN(Likely Negative)：可能的负样本集，本发明实施例中也称为初始负样本集。

LP(Likely Positive)：可能的正样本集，本发明实施例中也称为初始正样本集。

RN(Reliable Negative)：可靠负样本集。

RP(Reliable Positive)：可靠正样本集。

置信传播算法(Belief Propagation，BP)：是一种在图模型上进行推断的消息传递算法，可用在贝叶斯网络和马尔科夫随机域中。

目前，针对可能仅有少量单一标记样本，并且各样本表示的行为差异较大，导致对大量未标记样本分类效果较差的场景，例如异常检测场景，由于异常行为多种多样，并且通常差异很大，异常检测中存在大量可靠样本标记和获取难度大的问题，且针对只有少量已标记样本的情况下，为了能可靠有效地训练出异常检测模型，需要生成和获得更多可靠的训练样本，即已标记样本。针对上述问题，主要采用单分类器、正例和未标记学习(Positiveand unlabeled learning，PU-learning)、半监督聚类等方法来解决，下面简单介绍下这几种方法：

1)单分类器。单分类任务是一类特殊的分类任务。通过已标记样本构建单分类器，再通过单分类器对未标记样本进行分类，在该分类任务中，大多数样本只有一类标签，而其他样本则笼统的划分为另一类。单分类器主要是利用已标记样本，确定已标记样本的边界，而忽略大量未标记样本的信息。例如，常用的单分类器有一类(one-class)支持向量机(Support Vector Machine，SVM)、二分类SVM等。

由于单分类器仅利用已标记样本的信息而忽略大量未标记样本的信息，只能识别部分样本表示的行为，在异常检测中，由于异常行为模式多种多样，单分类器只能识别部分异常行为，对未标记样本分类效果较差也不准确，得到的训练样本不可靠并且异常行为模式较少。

2)PU-learning方法是一种半监督学习的一种特殊情况，主要用于解决只提供正样本和未标记样本而不提供负样本的问题，例如两阶段策略(two-stage strategy)、成本敏感策略(cost-sensitive strategy)等。但是PU-learning方法前提是已标记的正样本总是彼此相似的，而对于异常检测场景，异常检测的异常样本通常并不相似，存在多种异常行为模式，彼此差异很大，因此，采用PU-learning方法基于少量已标记负样本，对大量未标记样本的分类效果也较差。

3)监督聚类方法主要是利用少量的已标记样本提高聚类算法的性能，目的是将未标记样本聚类到适当的类中，标记在相同类中的样本是彼此相似的，而同样对于异常检测，不同异常样本之间可能具有很大差异，已标记样本的异常模式也较少，对未标记样本聚类分类效果较差，最终得到的训练样本较少并且异常行为模式也不全。

因此，本发明实施例中，主要针对只有少量单一已标记样本和大量未标记样本的情况下，根据少量的已标记样本，对大量未标记样本先进行预分类，对预分类的样本，通过检测训练的样本分类器的分类效果，进行再次筛选分类，得到标记可靠样本，并还可以对预分类的样本中剩余的样本再次标记，从而获得更多类型的样本，合并到已获取的可靠样本中，最终得到用于训练的训练样本。这样，对未标记样本分类效果更好，也更加准确，可以获得大量可靠的用于训练的正负样本。

为便于理解，结合本发明实施例中出现的几个概念进行说明，本发明实施例中，已知的为第二类已标记样本集和未标记样本集的情况下，进行预分类，将未标记样本初始标记为第一类初始样本集和第二类初始样本集，其中，第一类初始样本集和第二类初始样本集中可能有初始标记不准确的样本，但是可以认为预分类后的第一类初始样本集中第一类样本多于第二类样本，第二类初始样本集中第二类样本多于第一类样本。

基于第一类初始样本集和第二类初始样本集，再次筛选分类，获得第一类可靠样本集和第二类可靠样本集，其中，第二类可靠样本集的初始值为第二类已标记样本集，第一类可靠样本集的初始值可以为空，这时，可以认为第一类可靠样本集和第二类可靠样本集均为标记准确的样本集。

对第二类初始样本集中除筛选出的第二类可靠样本集之外的其余样本进行再次标记，获得第一类样本和第二类样本，并更新到第一类可靠样本集和第二类可靠样本集中，这时即获得最终用于训练的第一类可靠样本集和第二类可靠样本集。

需要说明的是，本发明实例中训练样本生成方法主要由服务器执行，生成更多的训练样本，进而可以训练生成异常检测模型，进一步地，可以根据训练的异常检测模型，对其它待检测样本进行检测。

并且，本发明实施例中也并不仅限于异常检测业务，对于其它的业务应用，本发明实施例提供的技术方案对于类似的问题，同样适用。

需要说明的是，本发明各个实施例中，以训练样本生成方法主要应用于异常检测为例进行示意性说明。

参阅图1所示，为本发明实施例中训练样本生成方法的流程图，该方法包括：

步骤100：从预分类的第一类初始样本集中采样出的一组第一类初始样本。

其中，预分类的第一类初始样本集是从未标记样本中初始分类得到的，具体预分类方式将在下文进行介绍。

进一步地，针对采样方式，本发明实施例中可以有两种方式：第一种方式：每次采样一组，通过多次采样，直到未采样出新的样本，获得多组第一类初始样本；第二种方式：每次采样出n组含m个第一类初始样本，通过多次采样，直到未采样出新的样本，获得多组第一类初始样本。

具体地，在执行步骤100之前，进一步包括：从第一类初始样本集中采样出n组第一类初始样本。

这样，可以针对每组第一类初始样本，分别进行处理和判断，以判断其是否可以分类为第一类可靠样本。

步骤110：根据该组第一类初始样本和当前的第二类可靠样本集中的各个第二类可靠样本，训练得到样本分类器。

其中，第一类和第二类表示属性不同的两类样本，例如第一类和第二类分别表示正样本和负样本中的一种。

其中，第二类可靠样本集的初始值为第二类已标记样本集，第一类可靠样本集的初始值可以为空。第二类已标记样本集为已知的标记样本。

也就是说，本发明实施例中，针对只有少量第二类已标记样本集和大量未标记样本集的情况，将第二类已标记样本集作为第二类可靠样本集的初始值，来对未标记样本集进行分类和标记，从而可以获得第一类可靠样本集，并可以不断更新和增加第二类可靠样本集。

具体为：输入该组第一类初始样本和当前的第二类可靠样本集，基于预设分类器训练算法，训练得到样本分类器。

步骤120：检测训练得到的样本分类器的分类效果是否符合预设条件。

执行步骤120时，具体包括：

基于样本分类器，分别对第二类已标记样本集、第一类初始样本集和第二类初始样本集进行检测，若对第二类已标记样本集的分类结果均为第二类样本、和/或对第一类初始样本集的分类结果为第二类样本比例小于预设阈值，和/或对第二类初始样本集的分类结果为第二类样本比例大于预设阈值，则确定样本分类器的分类效果符合预设条件，否则，则确定样本分类器的分类效果不符合预设条件。

其中，预分类的第二类初始样本集也是从未标记样本中初始分类得到的，具体预分类方式将在下文进行介绍。

也就是说，判断样本分类器是否符合预设条件，主要是基于概率思想，如果一个样本集的标记类别信息已知，例如负样本个数多于正样本个数，则当使用样本分类器对该样本集进行分类时，分类的结果和已知标记类别信息越接近，说明该样本分类器的分类效果越合适，同时也可以说明训练该样本分类器的训练样本也越好，即越可靠。

因此，本发明实施例中主要基于该思想，由于已知的只有少量的第二类已标记样本，这部分样本的标记是准确的，因此，若样本分类器对该第二类已标记样本集的分类结果全部正确，或正确率大于一定值，说明该样本分类器是可靠的，同样，为提高判断准确性，还可以使用第一类初始样本集和第二类初始样本集来检测样本分类器的分类效果。因为即使第一类初始样本集和第二类初始样本集中可能存在标记不准确的样本，但是仍可以认为实际上，第一类初始样本集和第二类初始样本集是有一定准确性的，即第一类初始样本集中第一类样本个数多于第二类样本个数，第二类初始样本集中第二类样本个数多于第一类样本个数，因此，若样本分类器对第一类初始样本集的分类结果中，第二类样本比例小于预设阈值，对第二类初始样本集的分类结果中，第二类样本比例大于预设阈值，则说明样本分类器的分类效果较好，同时训练出这个样本分类器的样本也是较可靠的，则认为该组第一类初始样本为可靠样本，合并到第一类可靠样本集中。

步骤130：当确定符合预设条件时，将该组第一类初始样本添加到第一类可靠样本集中，以获得更新的第一类可靠样本集。

这样，可以根据第二类可靠样本集和第一类初始样本集，通过筛选从第一类初始样本集中提取出第一类可靠样本集。

进一步地，还需要不断更新第一类初始样本集，从第一类初始样本集中去除已采样的第一类初始样本，以使每次循环采样，可以采样出不同组的第一类初始样本，进而实现对第一类初始样本集中所有第一类初始样本的检测和判断。

并且，进一步地，由于是循环过程，因此还需要有循环结束条件，具体为：当n组第一类初始样本对应训练的所有样本分类器均确定完是否符合预设条件时，获得最终更新后的第一类可靠样本集。也就是说，当采样出的第一类初始样本均训练并检测完，即结束对第一类初始样本集的筛选。如果是每次循环采样一组，则每组进行训练和检测后，进入下一次循环，直至采样出n组后，未采样出新的第一类初始样本为止；如果是每次循环采样n组，则分别对每组进行训练和检测后，进入下一次循环，直至共采样出n组后，未采样出新的第一类初始样本为止。当然，不管是每次循环采样一组，还是每次循环采样多组，都是将这n组第一类初始样本训练并检测完，确定对第一类初始样本集的筛选结束。

进一步地，由于可能第二类可靠样本集的初始值的数量也比较少，因此，本发明实施例中还需要不断更新和增加第二类可靠样本集，操作过程和上述步骤100-130类似。具体为：

步骤140：从预分类的第二类初始样本集中采样出的一组第二类初始样本。

同样地，执行步骤140之前，从第二类初始样本集中采样出n组第二类初始样本。

步骤150：根据该组第二类初始样本和当前更新的第一类可靠样本集中的各个第一类可靠样本，训练得到样本分类器。

步骤160：检测训练得到的样本分类器的分类效果是否符合预设条件。

步骤170：当确定符合预设条件时，将该组第二类初始样本添加到第二类可靠样本集中，以获得更新的第二类可靠样本集。

进一步地，本发明实施例中，对第二类初始样本筛选过程循环的结束条件也为：当n组第二类初始样本对应训练的所有样本分类器均确定完是否符合预设条件时，获得最终更新后的第二类可靠样本集。

进一步地，同样还需要更新第二类初始样本集，以使每次循环采样，可以采样出不同组的第二类初始样本，进而实现对第二类初始样本集中所有第二类初始样本的检测和判断。

并且，更新完第二类可靠样本集和第二类初始样本集后，可以再返回执行步骤100，进行下一次采样。

这样，本发明实施例中，通过不断循环，进而得到第一类可靠样本集，可以用于对第二类初始样本的检测，根据第二类初始样本的检测结果，更新得到更多的第二类可靠样本集，可以再根据更新后的第二类可靠样本集，用于对第一类初始样本的检测，直至所有的第一类初始样本集和第二类初始样本集均检测完，最终可以得到大量可靠的第一类可靠样本集和第二类可靠样本集，即得到可以用于训练的训练样本。

下面对第一类初始样本集和第二类初始样本集的预分类方式，进行说明，即根据第二类已标记样本集，对未标记样本集中各未标记样本进行初始标记筛选，具体为：

(1)获取第二类已标记样本集和未标记样本集。

(2)根据预设的异常行为模式的各特征之间的关联关系和第二类已标记样本集，分别对未标记样本集中每个样本进行初始标记，获取初始标记后的第一类初始样本集和第二类初始样本集。

其中，异常行为模式的特征可以为网络之间互连的协议(Internet Protocol，IP)地址和终端标识，本发明实施例中并不进行限制，可以根据不同应用场景中异常发生的实际情况和经验，来确定有关联关系的异常行为模式的特征。

本发明实施例中，主要是基于异常行为模式的IP地址和终端标识的关联关系进行初始标记，例如，针对某游戏的代充场景，如果一个设备上进行过恶意代充，那么这个设备上的其它充值记录很有可能也是恶意代充，类似地，如果一个IP地址下进行过恶意代充，那么这个IP地址下的其它充值记录很有可能也是恶意代充。

更具体来说，基于异常行为模式的IP地址和终端标识的关联关系进行初始标记包括以下1)～4)的步骤：

1)分别获取第二类已标记样本集中每个样本对应的IP地址和终端标识。

2)依次循环执行以下步骤，直到确定本次未获得新的IP地址或新的终端标识：

步骤S1，根据获得的上一次新的IP地址集，从未标记样本集中获得本次在上一次新的IP地址集下对应的除上一次新的终端标识集之外的新的终端标识集；

步骤S2，基于获得的本次新的终端标识集，从未标记样本集中，获得本次在新的终端标识集下对应的除上一次新的IP地址集之外的新的IP地址集；其中，新的IP地址集的初始值为第二类已标记样本集对应的所有IP地址，新的终端标识集的初始值为空。

也就是说，这个循环过程可以简单描述为，找出新的IP地址集下所有进行过相应行为的终端标识，从中删除之前已经出现过的终端标识，构成新的终端标识集，再找出新的终端标识集下所有进行过相应行为的IP地址，并删除之前已经出现过的IP地址，构成新的IP地址集，依次循环，经过多次循环迭代，获得多个新的IP地址集和新的终端标识集。

3)获得每次循环得到的各新的终端标识集和新的IP地址集。

4)分别针对未标记样本集中每个未标记样本，将IP地址和/或终端标识属于获得的各新的终端标识集和新的IP地址集的未标记样本，初始标记为第二类初始样本，并将IP地址和终端标识均不属于获得的各新的IP地址集和新的终端标识集的未标记样本初始标记为第一类初始样本。

本发明实施例中，由于初始都是通过与第二类已标记样本集的IP地址集和终端标识集的关联关系，通过不断循环和迭代获得的各新的IP地址集和各新的终端标识集，因此，属于各新的IP地址集和/或各新的终端标识集的未标记样本，也属于第二类的可能性比较大，都不属于各新的IP地址集和各新的终端标识集的未标记样本属于第一类的可能性比较大，因此，可以筛选出可能的第一类初始样本集和第二类初始样本集，并且第一类初始样本集中第一类样本的比例相对较高，第二类初始样本集中第二类样本的比例相对较高。

进一步地，为了提高筛选可靠样本的准确性，本发明实施例中，还可以再对第二类初始样本集进行筛选，根据上述获得各新的IP地址集和各新的终端标识集的循环迭代过程，可知每次得到的新的IP地址集下属于第二类样本的可能性逐渐降低，每次得到的新的终端标识集下属于第二类样本的可能性逐渐降低，因此，可以认为第一次循环得到的新的IP地址集和新的终端标识集下属于第二类样本的可能性最高，基于该思想，可以再次对第二类初始样本集进行筛选，筛选出属于第一次循环获得的新的终端标识集和新的IP地址集的第二类初始样本，则筛选出的第二类初始样本集中第二类初始样本的比例更高，因此之后可以基于筛选出的第二类初始样本集，来提取第二类可靠样本集，得到的结果更加准确和可靠，具体为：

对第二类初始样本集进行筛选，筛选出IP地址和/或终端标识均属于第一次循环获得的新的终端标识集和新的IP地址集的第二类初始样本，并基于筛选出的第二类初始样本和第一类可靠样本集，训练得到样本分类器，当确定训练得到的样本分类器的分类效果符合预设条件时，从筛选出的第二类初始样本中筛选新的第二类可靠样本，并添加到第二类可靠样本集中，以获得更新的第二类可靠样本集。

这样，由于本发明实施例中主要针对只有单一少量的已标记样本的情况，直接从未标记样本中筛选出第一类可靠样本集和第二类可靠样本集难度比较大，因此，本发明实施例中，不直接从未标记样本中筛选出可靠样本集，而是先进行初始标记分类，先获得可能的第一类初始样本集和第二类初始样本集，这样，是因为提取第一类初始样本集和第二类初始样本集的难度较低，而且之后再从第一类初始样本集和第二类初始样本集中筛选第一类可靠样本集和第二类可靠样本集的难度会降低，因此，初始标记对未标记样本预分类的过程，可以起到很好的过渡作用，简便算法，并提高结果的准确性。

进一步地，基于上述实施例，可以从未标记样本中获得到一定数量的可靠的第一类可靠样本集和第二类可靠样本集，但是，可能标记样本模式不全，因此，对于未获得可靠标记的样本，还可以再次进行标记，本发明实施例中主要针对第二类初始样本集中除第二类可靠样本集之外的其余样本进行再次标记，目的是为了获得更多模式和类型的第二类可靠样本。具体包括以下步骤：

1)根据置信传播方法，对第二类初始样本集中除第二类可靠样本集之外的其余样本进行再次标记，获取再次标记后的第一类样本和第二类样本。

2)分别将再次标记后的第一类样本合并到第一类可靠样本集中，以及将再次标记后的第二类样本合并到第二类可靠样本集中，获得最终用于训练的第一类可靠样本集和第二类可靠样本集。

本发明实施例中，由于第二类初始样本集的获取方式是基于IP地址和终端标识的关联关系得到的，因此，还可以基于该关联关系和置信传播方法，对第二类初始样本集中除第二类可靠样本集之外的其余样本进行再次标记，可以获得更多可靠样本，以丰富最终用于训练的第一类可靠样本集和第二类可靠样本集，具体详细的过程将在下文进行介绍。

值得说明的是，本发明实施例中，第一类样本集和第二类样本集，可以分别为正样本集或负样本集，例如，第一类表示正样本，第二类表示负样本，即本发明实施例中针对只有少量单一的已标记负样本集和大量未标记样本集的情况，通过充分利用少量单一已标记样本集和大量未标记样本的信息，对未标记样本集进行标记，从而获得之前未有的可靠正样本集和扩充可靠负样本集，最终获得可以用于训练得到可靠异常检测模型的训练样本。

下面采用具体的应用场景进行说明，基于上述实施例，本发明实施例中训练样本生成方法，主要可以分为以下几个阶段，下面均以第一类表示正样本，第二类表示负样本为例进行具体说明：

1)第一阶段：提取第一类初始样本集、第二类初始样本集。即提取初始负样本集(LN)、初始正样本集(LP)，以及筛选出初始负样本集(LN*)。

其中，LN中负样本比例较高，LN*是LN的子集，表示LN的各数据集中负样本比例相对最高的集合，LP中正样本比例较高。

本发明实施例，可以应用于多种异常检测场景，前提需要具有少量异常样本(即本发明实施例中已标记负样本集)和大量未标记样本，异常样本与未标记样本之间能够根据经验知识等建立联系，例如，代充交易中的IP聚集性等，进而可以根据这种联系能够将未标记样本分成LN和LP两部分，并且还可以将LN按照包含负样本的比例高低分成几部分，即筛选出包含负样本比例相对更高的LN*。

第一阶段具体为：获取已标记负样本集和未标记样本集；根据预设的异常行为模式各特征之间的关联关系和已标记负样本集，分别对未标记样本集中每个样本进行初始标记，获取初始标记后的初始正样本集和初始负样本集。

更具体地，第一阶段还可以分为以下两个部分：

第一部分：预处理。以异常行为模式的特征为IP地址和终端标识为例，循环迭代获得每次循环得到的各新的终端标识集和新的IP地址集。

参阅图2所示，为本发明实施例中训练样本生成方法第一阶段的预处理过程示意图，包括：

步骤200：循环次数i＝1，新的IP地址集的初始值为已标记负样本集对应的所有IP地址。

其中，已标记负样本集记为N，IP地址也可以记为real_ip。

步骤201：获得新的终端标识集new device。

具体地：根据获得的上一次新的IP地址集，从未标记样本集中获得本次在上一次新的IP地址集下对应的除上一次新的终端标识集之外的新的终端标识集。

其中，每次循环得到的新的终端标识集，可以记为D_i，i＝0,1,2,…，D₀为新的终端标识集的初始值，即为空。

步骤202：获得新的IP地址标识集new real_ip。

具体地：基于获得的本次新的终端标识集，从未标记样本集中获得本次在新的终端标识集下对应的除上一次新的IP地址集之外的新的IP地址集。

其中，每次循环得到的新的IP地址集，可以记为I_i，i＝0,1,2,…，I₀为新的IP地址集的初始值，即为已标记负样本集对应的所有IP地址。

步骤203：输出第i轮循环得到的终端标识(device)和real_ip。

步骤204：判断new real_ip是否为空，若是，则循环迭代结束，否则，则执行步骤205。

步骤205：i＝i+1，并返回继续执行步骤201。

这样，由已标记负样本中的所有real_ip出发，通过多轮循环迭代，可以得到多个real_ip集合I₀,…,I_q和多个device集合D₀,…,D_p，并且从I₀,…,I_q每个集合中的IP地址下发生异常行为的可能性逐渐降低，从D₀,…,D_p每个集合中的终端标识下发生异常行为的可能性逐渐降低。

第二部分：提取LN、LN*和LP。

具体为：分别针对未标记样本集中每个未标记样本，将IP地址和/或终端标识属于获得的各新的终端标识集和新的IP地址集的未标记样本，初始标记为初始负样本，获得LN，并将IP地址和终端标识均不属于获得的各新的IP地址集和新的终端标识集的未标记样本，初始标记为初始正样本，获得LP；以及对LN进行筛选，筛选出IP地址和/或终端标识均属于第一次循环获得的新的终端标识集和新的IP地址集的初始负样本，组成LN*。

也就是说，本发明实施例中，根据预处理过程的执行过程，可知，第一次循环得到的I₁和D₁，是与已标记负样本集中的IP地址和终端标识关联性更强，因此，D₁中终端标识上发生异常行为的可能性和I₁中的IP地址下发生异常行为的可能性更高，也就是说，在I₁,…,I_q和D₁,…,D_p下所有的样本行为中I₁和D₁中对应IP地址或终端标识下发生异常行为的可能性最高，因此，将未标记样本，即U中终端标识和/或IP地址属于I₁和D₁的提取出来构成LN*，这样得到的LN*中负样本比例是相对更高的。同样地，将U中终端标识属于D₀,…,D_p或IP地址属于I₀,…,I_q的提取出来构成LN，将U中终端标识不属于D₀,…,D_p并且IP地址不属于I₀,…,I_q的提取出来构成LP，这样，得到的LN中负样本比例相较U中负样本比例是相对较高的，LP中正样本比例相对较高。

需要说明的是，由于异常检测的场景多样，各场景中的行为模式可能不同，所以提取LN和LP的方法要结合具体场景进行设计，本发明实施例中，主要是针对异常行为模式的IP地址和终端标识的特征具有关联关系的场景，进行设计的，例如，针对某游戏的IOS系统代充场景下，异常行为模式就具有IP地址和终端标识的关联关系，从而利用这些可知的经验知识，进行初步筛选，将未标记样本划分为两部分，得到可能的初始正样本集和初始负样本集，从而后续可以基于初始正样本集和初始负样本集，筛选出可靠的正负样本，大大降低了直接从未标记样本中筛选出可靠的正负样本的难度。

2)第二阶段：从第一类初始样本集和第二类初始样本集中提取第一类可靠样本集和第二类可靠样本集。即提取出可靠负样本集(RN)、可靠正样本集(RP)。

较佳的，由于LN*较LN其中负样本比例更高，因此，第二阶段可以基于LN*来提取可靠负样本集RN，更加准确和简便。这里以从LN*中提取RN为例进行说明。

具体参阅图3所示，为本发明实施例中训练样本生成方法的第二阶段过程示意图，包括：

步骤300：将已标记负样本集N中的已标记负样本加入到可靠负样本集RN中。

步骤301：获取当前的可靠负样本集RN。

其中，RN的初始值为已标记负样本集N，将N中各已标记负样本加入到RN中，即获得初始循环时当前的RN。

步骤302：获取初始正样本集LP。

步骤303：采样n组，获得n组初始正样本。

例如，分别为LP₀,...,LP_n，其中，每组初始正样本中可能包括多个初始正样本，例如一次循环采样5组，每组有100个初始正样本。

本发明实施例中，是以每次循环采样n组为例进行说明的，在进行训练时也是每组分别进行训练和判断，依次循环直到未采样出新的初始正样本。

步骤304：分别训练样本分类器。

具体为：分别根据每组初始正样本和当前的可靠负样本集中的各个可靠负样本，训练得到样本分类器。

也就是说，每组初始样本和可靠负样本集可以训练得到一个样本分类器，基于n组初始正样本LP₀,...,LP_n，可以训练得到n个样本分类器，记为C₀,...,C_n。

步骤305：分别对N、LN*和LP进行检测。

具体地：分别基于各样本分类器，对LN、LN*和LP进行检测，检测训练得到的样本分类器的分类效果是否符合预设条件。

具体地，由于已知LP中正样本比例多于负样本，LN*中负样本比例多于正样本，并且已标记负样本集N中全部为负样本，因此，可以根据这些已知的信息，来检测样本分类器的分类效果，如果对N的分类结果全部正确，和/或对LN*的分类结果为负样本比例大于预设阈值，和/或，对LP的分类结果为负样本比例小于预设阈值，则说明样本分类器的分类效果较好，训练出这个样本分类器的样本也是比较可靠的，因此可以将符合预设条件的样本分类器对应的一组初始正样本，作为新的可靠正样本添加到可靠正样本集中。

其中，预设阈值，较佳的为50％，这是因为，LN*和LP都是初始预分类得到的，没有准确的具体的正负样本比例，因此，可以选择50％作为预设阈值，更加可靠。

步骤306：根据检测结果，筛选符合条件的各组初始正样本LP_i，添加到可靠正样本集RP中，并更新LP。

并且，若LP有变化，则说明还未采样完，则更新得到当前的RP，若LP没有变化，说明已采样完，得到的为最终的RP，并结束对LP的继续采样和筛选。

步骤307：获得当前的可靠正样本集RP。

步骤308：获取筛选出的初始负样本集LN*。

步骤309：采样n组，获得n组初始负样本。

例如，分别为

步骤310：分别训练样本分类器。

具体为：分别根据每组初始负样本和当前的可靠正样本集中的各个可靠正样本，训练得到样本分类器。

步骤311：分别对N、LN*和LP进行检测。

步骤312：根据检测结果，筛选符合条件的各组初始负样本LN_i，添加到可靠负样本集RN中，并更新LN*。

并且若LN*有变化，则说明LN*还未采样完，返回继续执行步骤301，更新得到当前的RN，若LN*没有变化，说明已采样完，得到的为最终的RN，并结束对LN*的继续采样和筛选。

这样，本发明实施例中，可以根据对样本分类器的分类效果的检测，以及阈值的设置，样本分类器的分类效果越好，则训练该样本分类器的样本也越可靠，从而可以从初始正样本集和初始负样本集中，获取一部分较为可靠的可靠正样本集和可靠负样本集。

3)第三阶段：再次标记第二类初始样本集中除第二类可靠样本集之外的其余样本。即获得再次标记的正样本(RP’)和再次标记的负样本(RN’)。

本发明实施例中，主要基于置信传播方法，从LN中其余样本中获取更多不同异常行为模式的正负样本集，可以丰富和得到更多最终的训练的可靠正负样本集。

第三阶段具体包括以下S1～S2的步骤：

S1，根据置信传播方法，对第二类初始样本集中除第二类可靠样本集之外的其余样本进行再次标记，获取再次标记后的第一类样本和第二类样本。

S2，分别将再次标记后的第一类样本合并到第一类可靠样本集中，以及将再次标记后的第二类样本合并到第二类可靠样本集中，获得最终用于训练的第一类可靠样本集和第二类可靠样本集。

更具体地，针对上述第三阶段中的S1步骤，还可以包括：

S1-1，根据预设的异常行为模式各特征之间的关联关系，构建第二类初始样本集中各第二类初始样本的关联图；其中，关联图中包括多个节点，每个节点对应一个第二类初始样本。

具体包括：根据第二类初始样本集中各第二类初始样本对应的IP地址和终端标识的关联关系，分别确定各第二类初始样本之间的关联关系，并基于各第二类初始样本之间的关联关系，构建各第二类初始样本的关联图。

其中，第二类初始样本集例如为初始负样本集LN，第二类可靠样本集为可靠负样本集RN。

本发明实施例中，例如，在异常检测场景中，负样本对应的异常节点更有可能和异常节点相邻，正样本对应的正常节点也更有可能和正常节点相邻，因此，构建关联图可以基于获得初始负样本集的过程的循环迭代关系，将IP地址、终端标识之间有联系的样本连接在一起，组成关联图的一条边，每一个节点对应一个初始负样本。

例如，根据节点之间的关系，构建的关联图为G(V,E)，并且基于获得的可靠正负样本集，关联图中每个节点都处于S中的一种状态(S∈{s_m,s_b,s_g}(s_m:负(malicious)，s_b:正(benign)，s_g:未知(unknown)))。BP方法通过相邻节点之间的消息传播可以用于推断出未标记节点的类别标签。

S1-2，根据第二类初始样本集中筛选出的第二类可靠样本集，初始化确定关联图中每一个节点标记的先验概率和每对相邻节点之间的消息、以及每对相邻节点标记关联概率的能量函数。

更具体地，该S1-2还包括：S1-2-1，将属于第二类可靠样本集中的第二类初始样本的先验概率设置为第一预设值，将第二类初始样本集中除第二类可靠样本集之外的其余第二类初始样本标记的先验概率设置为第二预设值。

例如，对于有标记样本，如果样本的标签为正，则将其先验概率设置为0.99，如果样本的标签为负，则将其先验概率设置为0.01，对于无标记样本，设置其先验概率为0.5，从而可以得到各节点的先验概率g_i(x_i)。

S1-2-2，确定每对相邻节点标记关联概率的能量函数取值为：标记均为第一类样本的边概率，标记均为第二类样本的边概率，其中一个标记为第一类样本、另一个标记为第二类样本的边概率，以及其中一个标记为第二类样本、另一个标记为第一类样本的边概率。

其中，每对相邻节点标记关联概率的能量函数可以记为f_i→j(x_i,x_j)，其取值参阅表1所示。

表1能量函数f_i→j(x_i,x_j)的设置

如表1所示，其中p_m,m表示关联图中异常节点与异常节点相连的概率，其它同理。

其中，可以将不同连接类型的边认为是边的不同类别标签，因此，p_m,m、p_m,b、p_b,m、p_b,b的取值可以转为计算不同类别标签的边概率，具体为：

其中

其中，p_l表示边的类别标签为l的概率，E^*表示E中有标签的样本，L(v₁,v₂)表示边(v₁,v₂)的类别标签。

这样，通过对边概率的计算，就可以计算获得能量函数f_i→j(x_i,x_j)。

S1-2-3，根据初始化确定的每一个节点标记的先验概率和每对相邻节点标记关联概率的能量函数，初始化确定每对相邻节点之间的消息。

S1-3，计算各节点的置信度，即循环执行以下步骤，直至确定算法收敛：随机选择关联图中任意一对相邻节点，根据其中一个节点标记的先验概率和任意一对相邻节点标记关联概率的能量函数，更新从其中一个节点到另一个节点的消息，并更新另一个节点的置信度；其中，算法收敛表征相同相邻节点的消息和同一节点的置信度的取值变化在预设变动范围内。

本发明实施例中，主要是根据置信传播方法，将已知节点的概率分布状态通过消息发送给相邻节点，从而根据每一个节点的概率分布状态求出节点的置信度，根据置信度，确定节点的类别标签。

其中，消息更新公式为：其中m_i→j(x_j)表示从节点i传递给节点j的消息，g_i(x_i)和f_i→j(x_i,x_j)被称作能量函数，g_i(x_i)表示节点i的先验概率，f_i→j(x_i,x_j)表示节点i处于状态x_i，节点j处于状态x_j时节点之间相连的可能性。

置信度计算公式为：b_i(x_i)＝g_i(x_i)∏_k∈N(i)m_k→i(x_i)。

例如，置信传播方法的基本流程可以概括为：输入关联图，输出节点置信度。

具体为：步骤1，初始化节点的先验概率，节点间消息；步骤2，从关联图中随机选择相邻节点v₁,v₂；步骤3，从v₁向v₂发送消息m₁₂，更新m₁₂；步骤4，更新节点v₂的置信度；步骤5，跳至步骤2，直至算法收敛。

S1-4，根据各节点的置信度，确定第二类初始样本集中除第二类可靠样本集之外的其它各第二类初始样本的标记。

具体地，将置信度小于设定值的标记为负样本，将置信度不小于设定值的标记为正样本，从而可以得到再次标记后的正样本RP’和负样本RN’。

这样，根据置信传播方法和对能量函数的设置，可以标记出更多的正负样本，丰富可靠正负样本集，得到更多可靠并异常行为模式更多的训练正负样本集，即得到最终用于训练的训练负样本集：RN+RN’，以及训练正样本集：RP+RP’，整个过程也不需要人为进行标定，降低了成本，提高了效率。

进一步地，针对上述S1-2-2中计算能量函数f_i→j(x_i,x_j)时，本发明实施例中，能量函数f_i→j(x_i,x_j)需要各个节点类别标签，而初始负样本集中除可靠负样本集之外的样本可能数量比较多，无标记样本数量太多可能会使得对p_l的计算有较大偏差，因此，本发明实施例中，根据已经获得的可靠正样本集和可靠负样本集，先对无标记样本进行分类，根据分类得到的后验概率来标记一些样本，以获得更多可能的标记样本，提高计算p_l的准确性。则确定每对相邻节点标记关联概率的能量函数取值时，具体包括：

(1)根据第一类可靠样本集和第二类可靠样本集，训练获得样本分类器，并根据训练获得的样本分类器，对第二类初始样本集中除第二类可靠样本集之外的其余第二类初始样本进行分类，获得各其余第二类初始样本标记的后验概率，根据后验概率的取值，对各其余第二类初始样本进行标记。

其中，对各其余第二类初始样本进行标记，包括：根据后验概率的取值，以及第一预设阈值和第二预设阈值，将后验概率大于第一预设阈值的第二类初始样本，暂标记为第二类样本，将后验概率小于第二预设阈值的第二类初始样本，暂标记为第一类样本，并针对后验概率在第一预设阈值和第二预设阈值之间的第二类初始样本，根据其相邻节点的最多的标记，暂标记其为最多标记对应的标记样本。

(2)根据标记均为第一类样本对应的边总和与关联图中所有边总和的比值，获得标记均为第一类样本的边概率；并根据标记均为第二类样本对应的边总和与关联图中所有边总和的比值，获得标记均为第二类样本的边概率；以及，根据标记一个为第一类样本一个为第二类样本对应的边总和与关联图中所有边总和的比值，获得标记一个为第一类样本一个为第二类样本的边概率。

例如，具体参阅图4所示，为本发明实施例中训练样本生成方法的第三阶段中能量函数计算时样本预标记的流程示意图。

如图4所示，其中P、N表示目前已有标记的样本，V’表示剩余的未标记样本，α、β是为后验概率设置的阈值，使用P和N训练分类器C，并基于C对V’进行分类，将V’分成3类，分别为后验概率大于α的样本V1，后验概率在α和β之间的样本V2，以及后验概率小于β的样本V3。

其中，对于后验概率大于α的样本V1，暂时将其标记为负样本，对于后验概率小于β的样本V3，暂时将其标记为正样本，对于其它未标记样本V2，根据其已标记的相邻样本的标签暂时确定其标签。因此就可计算出能量函数f_i→j(x_i,x_j)中的p_l，然后就可以基于置信传播方法对关联图中未标记样本进行分类。

进一步地，本发明实施例中可以根据最终得到的训练样本，来训练获得更加可靠的异常检测模型。基于上述实施例的训练样本生成方法，本发明实施例中，还提供了一种异常检测方法，参阅图5所示，为本发明实施例中异常检测方法流程示意图，包括：

步骤500：获取基于训练样本生成方法生成的最终用于训练的第一类可靠样本集和第二类可靠样本集。

步骤510：根据最终用于训练的第一类可靠样本集和第二类可靠样本集，以及预设训练算法，训练获得异常检测模型。

其中，预设训练算法，例如为决策树分类器、SVM等，本发明实施例中并不进行限制，可以根据实际情况和需求来进行选择。

步骤520：根据训练后的异常检测模型，对待检测样本进行异常检测。

基于上述实施例，参阅图6所示，为本发明实施例中训练样本生成方法和应用基本流程示意图。

如图6所示，本发明实施例中，经过第一、第二、第三阶段，可以获得大量可靠的用于训练的正负样本集，从而可以根据最终获得的正负样本集，训练分类模型，将半监督问题转变为有监督的问题，从而获得最终用于异常检测的分类模型。具体为：

输入：未标记样本集U和已标记负样本集N。

第一阶段：根据N从U中筛选初始正负样本，得到初始正样本集LP和初始负样本集LN。

第二阶段：从LN和LP中获取部分可靠标记的可靠正样本集RP和可靠负样本集RN。

第三阶段：再次标记剩余样本，通过构建关联图和置信传播方法，获得再次标记后的负样本RN’和正样本RP’。

输出：训练的异常检测的分类模型，将RN+RN’作为训练负样本集，RP+RP’作为训练正样本集，进行训练，得到用于异常检测的分类模型。

下面采用具体应用场景，以对某游戏的充值记录的异常检测为例，对本发明实施例中训练样本生成方法和应用进行说明，参阅图7所示，为本发明实施例中具体应用场景下训练样本生成方法和应用基本流程示意图。

例如，针对某游戏IOS系统充值，存在不法分子利用IOS系统下的交易漏洞代替游戏玩家进行游戏充值来获取利益的现象，给游戏运营公司造成巨大损失。并且，由于交易漏洞多样并且存在很多未知漏洞，因此样本标记比较困难，通常只能通过从不法分子处购买代充商品，将这些交易作为标记为异常的样本，也可以称为“放蛇数据”，其余所有交易都是未标记样本。

因此，基于本发明实施例中的训练样本生成方法，可以基于这少量的已标记负样本，即“放蛇数据”，对该游戏的所有充值交易，即大量未标记样本进行分类，基本过程如图7所示，首先，基于放蛇数据和游戏的所有充值交易，经过数据处理，进行初始标记，得到初始正负样本集；然后，通过半监督算法，得到可靠正负样本集；然后，再根据置信传播方法，对其余样本再次进行标记，获得再次标记后的正负样本集；最后，由于可以获得一定数量可靠标记的正负样本集，从而可以根据最终获得的用于训练的标记的正负样本集，训练分类模型，即异常检测模型。

并且，由于也仅是可以从游戏的所有充值交易中提取部分可靠标记的正负样本集，因此，训练得到异常检测模型后，还可以对当前全部充值交易进行分类，分类结果输出，得到正常交易和异常交易，并且还可以用于对之后的充值交易进行异常检测，得到检测结果。

这样，本发明实施例中，可以在只有少量已标记负样本和大量未标记样本的情况下，根据已标记负样本，从未标记样本集中提取出大量可靠足够训练异常检测的分类器的正样本和负样本，从而可以使用该分类器进行异常检测，解决了现有技术中训练样本获取困难的问题，基于少量已标记样本，对未标记样本分类效果更可靠，减少了大量标记样本所需耗费的人力物力，减少了成本。

基于上述实施例，参阅图8所示，本发明实施例中，训练样本生成装置具体包括：

获得模块800，用于从预分类的第一类初始样本集中采样出的一组第一类初始样本；

训练模块801，用于根据该组第一类初始样本和当前的第二类可靠样本集中的各个第二类可靠样本，训练得到样本分类器；其中，第一类和第二类表示属性不同的两类样本；

更新模块802，用于当确定训练得到的样本分类器的分类效果符合预设条件时，将该组第一类初始样本添加到第一类可靠样本集中，以获得更新的第一类可靠样本集。

可选的，获得模块800进一步用于：执行所述从预分类的第一类初始样本集中采样出的一组第一类初始样本步骤之前，从所述第一类初始样本集中采样出n组第一类初始样本；并，更新模块802进一步用于：当所述n组第一类初始样本对应训练的所有样本分类器均确定完是否符合预设条件时，获得最终更新后的第一类可靠样本集。

可选的，进一步包括：

第一获得模块803，用于从预分类的第二类初始样本集中采样出的一组第二类初始样本；

第一训练模块804，用于根据该组第二类初始样本和当前更新的第一类可靠样本集中的各个第一类可靠样本，训练得到样本分类器；

第一更新模块805，用于当确定训练得到的样本分类器的分类效果符合预设条件时，将该组第二类初始样本添加到第二类可靠样本集中，以获得更新的第二类可靠样本集。

可选的，第一获得模块803进一步用于：执行所述从预分类的第二类初始样本集中采样出的一组第二类初始样本步骤之前，从所述第二类初始样本集中采样出n组第二类初始样本；并，第一更新模块805，进一步用于：当所述n组第二类初始样本对应训练的所有样本分类器均确定完是否符合预设条件时，获得最终更新后的第二类可靠样本集。

可选的，所述第二类可靠样本集的初始值为第二类已标记样本集；

则确定训练得到的样本分类器的分类效果符合预设条件时，更新模块802或第一更新模块805具体用于：基于所述样本分类器，分别对所述第二类已标记样本集、所述第一类初始样本集和所述第二类初始样本集进行检测，若对所述第二类已标记样本集的分类结果均为第二类样本、和/或对所述第一类初始样本集的分类结果为第二类样本比例小于预设阈值，和/或对所述第二类初始样本集的分类结果为第二类样本比例大于预设阈值，则确定所述样本分类器的分类效果符合预设条件，否则，则确定所述样本分类器的分类效果不符合预设条件。

可选的，第一类初始样本集和第二类初始样本集的预分类方式为，还包括：

第二获得模块806，用于获取第二类已标记样本集和未标记样本集；

初始标记模块807，用于根据预设的异常行为模式各特征之间的关联关系和所述第二类已标记样本集，分别对所述未标记样本集中每个样本进行初始标记，获取初始标记后的第一类初始样本集和第二类初始样本集。

可选的，其中，异常行为模式的特征为IP地址和终端标识；则根据预设的异常行为模式各特征之间的关联关系和所述第二类已标记样本集，分别对所述未标记样本集中每个样本进行初始标记，初始标记模块807具体用于：

依次循环执行以下步骤，直到确定本次未获得新的IP地址或新的终端标识：

从未标记样本集中获得本次在上一次新的IP地址集下对应的除上一次新的终端标识集之外的新的终端标识集；

从未标记样本集中获得本次在本次新的终端标识集下对应的除上一次新的IP地址集之外的新的IP地址集；其中，新的IP地址集的初始值为第二类已标记样本集对应的所有IP地址，新的终端标识集的初始值为空；

获得每次循环得到的各新的终端标识集和新的IP地址集；

分别针对所述未标记样本集中每个未标记样本，将IP地址和/或终端标识属于获得的各新的终端标识集和新的IP地址集的未标记样本初始标记为第二初始类样本，并将IP地址和终端标识均不属于获得的各新的IP地址集和新的终端标识集的未标记样本初始标记为第一类初始样本。

可选的，进一步包括：

筛选模块808，用于对所述第二类初始样本集进行筛选，筛选出IP地址和/或终端标识均属于第一次循环获得的新的终端标识集和新的IP地址集的第二类初始样本；

则第一训练模块804进一步用于，基于筛选出的第二类初始样本和第一类可靠样本集，训练得到样本分类器；第一更新模块805进一步用于当确定训练得到的样本分类器的分类效果符合预设条件时，从筛选出的第二类初始样本中筛选新的第二类可靠样本，并添加到第二类可靠样本集中，以获得更新的第二类可靠样本集。

可选的，进一步包括：

再次标记模块809，用于根据置信传播方法，对所述第二类初始样本集中除所述第二类可靠样本集之外的其余样本进行再次标记，获取再次标记后的第一类样本和第二类样本；

训练样本获得模块810，用于分别将再次标记后的第一类样本合并到所述第一类可靠样本集中，以及将再次标记后的第二类样本合并到所述第二类可靠样本集中，获得最终用于训练的第一类可靠样本集和第二类可靠样本集。

可选的，根据置信传播算法，对所述第二类初始样本集中除所述第二类可靠样本集之外的其余样本进行再次标记，获取再次标记后的第一类样本和第二类样本，再次标记模块809具体用于：

构建所述第二类初始样本集中各第二类初始样本的关联图；其中，关联图中包括多个节点，每个节点对应一个第二类初始样本；

初始化确定关联图中每一个节点标记的先验概率和每对相邻节点之间的消息、以及每对相邻节点标记关联概率的能量函数，并计算各节点的置信度；

根据各节点的置信度，确定所述第二类初始样本集中除所述第二类可靠样本集之外的其它各第二类初始样本的标记。

可选的，构建所述第二类初始样本集中各第二类初始样本的关联图，再次标记模块809具体用于：根据所述第二类初始样本集中各第二类初始样本对应的IP地址和终端标识的关联关系，分别确定各第二类初始样本之间的关联关系，并基于各第二类初始样本之间的关联关系，构建各第二类初始样本的关联图。

可选的，初始化确定关联图中每一个节点标记的先验概率和每对相邻节点之间的消息、以及每对相邻节点标记关联概率的能量函数，再次标记模块809具体用于：

将属于第二类可靠样本集中的第二类初始样本的先验概率设置为第一预设值，将第二类初始样本集中除第二类可靠样本集之外的其余第二类初始样本标记的先验概率设置为第二预设值；

确定每对相邻节点标记关联概率的能量函数取值为：标记均为第一类样本的边概率，标记均为第二类样本的边概率，其中一个标记为第一类样本、另一个标记为第二类样本的边概率，以及其中一个标记为第二类样本、另一个标记为第一类样本的边概率；

根据初始化确定的每一个节点标记的先验概率和每对相邻节点标记关联概率的能量函数，初始化确定每对相邻节点之间的消息。

可选的，确定每对相邻节点标记关联概率的能量函数取值，再次标记模块809具体用于：

根据第一类可靠样本集和第二类可靠样本集，训练获得样本分类器，并根据训练获得的样本分类器，对第二类初始样本集中除第二类可靠样本集之外的其余第二类初始样本进行分类，获得各其余第二类初始样本标记的后验概率，根据后验概率的取值，对所述各其余第二类初始样本进行标记；

根据标记均为第一类样本对应的边总和与关联图中所有边总和的比值，获得标记均为第一类样本的边概率；

根据标记均为第二类样本对应的边总和与关联图中所有边总和的比值，获得标记均为第二类样本的边概率；

根据标记一个为第一类样本一个为第二类样本对应的边总和与关联图中所有边总和的比值，获得标记一个为第一类样本一个为第二类样本的边概率。

基于上述实施例，参阅图9所示，本发明实施例中，异常检测装置具体包括：

获取模块90，用于获取基于上述训练样本生成方法生成的最终用于训练的第一类可靠样本集和第二类可靠样本集；

训练模块91，用于根据最终用于训练的第一类可靠样本集和第二类可靠样本集，以及预设训练算法，训练获得异常检测模型；

异常检测模块92，用于根据训练后的异常检测模型，对待检测样本进行异常检测。

基于上述实施例，参阅图10所示，本发明实施例中，一种电子设备的结构示意图。

本发明实施例提供了一种电子设备，该电子设备可以包括处理器1010(CenterProcessing Unit，CPU)、存储器1020、输入设备1030和输出设备1040等，输入设备1030可以包括键盘、鼠标、触摸屏等，输出设备1040可以包括显示设备，如液晶显示器(LiquidCrystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器1020可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器1010提供存储器1020中存储的程序指令和数据。在本发明实施例中，存储器1020可以用于存储本发明实施例中训练样本生成方法的程序。

处理器1010通过调用存储器1020存储的程序指令，处理器1010用于按照获得的程序指令执行本发明实施例中任一种训练样本生成方法。

基于上述实施例，本发明实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的训练样本生成方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种训练样本生成方法，其特征在于，包括：

从预分类的第一类初始样本集中采样出一组第一类初始样本；

2.如权利要求1所述的方法，其特征在于，进一步包括：

执行所述从预分类的第一类初始样本集中采样出的一组第一类初始样本步骤之前，从所述第一类初始样本集中采样出n组第一类初始样本；以及

当所述n组第一类初始样本对应训练的所有样本分类器均确定完是否符合预设条件时，获得最终更新后的第一类可靠样本集。

3.如权利要求1所述的方法，其特征在于，进一步包括：

从预分类的第二类初始样本集中采样出一组第二类初始样本；

根据该组第二类初始样本和当前更新的第一类可靠样本集中的各个第一类可靠样本，训练得到样本分类器；

当确定训练得到的样本分类器的分类效果符合预设条件时，将该组第二类初始样本添加到第二类可靠样本集中，以获得更新的第二类可靠样本集。

4.如权利要求3所述的方法，其特征在于，进一步包括：

执行所述从预分类的第二类初始样本集中采样出的一组第二类初始样本步骤之前，从所述第二类初始样本集中采样出n组第二类初始样本；并，

当所述n组第二类初始样本对应训练的所有样本分类器均确定完是否符合预设条件时，获得最终更新后的第二类可靠样本集。

5.如权利要求3～4任一项所述的方法，其特征在于，所述第二类可靠样本集的初始值为第二类已标记样本集；

确定训练得到的样本分类器的分类效果符合预设条件包括：

若对所述第二类已标记样本集的分类结果均为第二类样本、和/或对所述第一类初始样本集的分类结果为第二类样本比例小于预设阈值，和/或对所述第二类初始样本集的分类结果为第二类样本比例大于预设阈值，则确定所述样本分类器的分类效果符合预设条件，否则，确定所述样本分类器的分类效果不符合预设条件。

6.如权利要求5所述的方法，其特征在于，第一类初始样本集和第二类初始样本集的预分类方式为：

获取第二类已标记样本集和未标记样本集；

根据预设的异常行为模式各特征之间的关联关系和所述第二类已标记样本集，分别对所述未标记样本集中每个样本进行初始标记，获取初始标记后的第一类初始样本集和第二类初始样本集。

7.如权利要求6所述的方法，其特征在于，异常行为模式的特征包括IP地址和终端标识；所述根据预设的异常行为模式各特征之间的关联关系和所述第二类已标记样本集，分别对所述未标记样本集中每个样本进行初始标记，包括依次循环执行以下步骤，直到确定本次未获得新的IP地址或新的终端标识：

获得每次循环得到的各新的终端标识集和新的IP地址集；

分别针对所述未标记样本集中每个未标记样本，将IP地址和/或终端标识属于获得的各新的终端标识集和新的IP地址集的未标记样本初始标记为第二类初始样本，并将IP地址和终端标识均不属于获得的各新的IP地址集和新的终端标识集的未标记样本初始标记为第一类初始样本。

8.如权利要求7所述的方法，其特征在于，进一步包括：

针对所述第二类初始样本集，筛选出IP地址和/或终端标识均属于第一次循环获得的新的终端标识集和新的IP地址集的第二类初始样本，并基于筛选出的第二类初始样本和第一类可靠样本集，训练得到样本分类器；

当确定训练得到的样本分类器的分类效果符合预设条件时，从筛选出的第二类初始样本中筛选新的第二类可靠样本，并添加到第二类可靠样本集中，以获得更新的第二类可靠样本集。

9.如权利要求3或4所述的方法，其特征在于，进一步包括：

根据置信传播方法，对所述第二类初始样本集中除所述第二类可靠样本集之外的其余样本进行再次标记，获取再次标记后的第一类样本和第二类样本；

分别将再次标记后的第一类样本合并到所述第一类可靠样本集中，以及将再次标记后的第二类样本合并到所述第二类可靠样本集中，获得最终用于训练的第一类可靠样本集和第二类可靠样本集。

10.如权利要求9所述的方法，其特征在于，根据置信传播算法，对所述第二类初始样本集中除所述第二类可靠样本集之外的其余样本进行再次标记，获取再次标记后的第一类样本和第二类样本，包括：

11.如权利要求10所述的方法，其特征在于，初始化确定关联图中每一个节点标记的先验概率和每对相邻节点之间的消息、以及每对相邻节点标记关联概率的能量函数，包括：

12.如权利要求11所述的方法，其特征在于，确定每对相邻节点标记关联概率的能量函数取值，包括：

13.一种异常检测方法，其特征在于，包括：

获取基于上述权利要求1-12任一项所述的训练样本生成方法生成的最终用于训练的第一类可靠样本集和第二类可靠样本集；

根据最终用于训练的第一类可靠样本集和第二类可靠样本集，以及预设训练算法，获得异常检测模型；

根据训练后的异常检测模型，对待检测样本进行异常检测。

14.一种训练样本生成装置，其特征在于，包括：

15.一种异常检测装置，其特征在于，包括：

获取模块，用于获取基于上述权利要求1-12任一项所述的训练样本生成方法生成的最终用于训练的第一类可靠样本集和第二类可靠样本集；