CN107786514B

CN107786514B - 网络攻击预警方法和装置

Info

Publication number: CN107786514B
Application number: CN201610748967.7A
Authority: CN
Inventors: 何吟; 龙洋; 程智森; 赵爽; 蔡志敏
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2016-08-29
Filing date: 2016-08-29
Publication date: 2020-04-28
Anticipated expiration: 2036-08-29
Also published as: CN107786514A

Abstract

本发明公开了一种网络攻击预警方法和装置，涉及网络安全领域。其中的方法包括：采用第一/第二训练集训练支持向量机模型，分别获得第一/第二分类器；采用第一分类器对第二训练集进行预测，从第二训练集中选取预测结果与标记结果一致、并且位于第一分类器的分类间隔以外的数据；采用第二分类器对第一训练集进行预测，从第一训练集中选取预测结果与标记结果一致、并且位于第二分类器的分类间隔以外的数据；采用从第一训练集和第二训练集中选取的数据训练支持向量机模型，获得第三分类器；采用第三分类器预测待测数据是否为威胁数据。从而筛除不符合条件的噪声数据，使训练的第三分类器更准确，进而基于第三分类器能够更准确地进行网络攻击预警。

Description

网络攻击预警方法和装置

技术领域

本发明涉及网络安全领域，特别涉及一种网络攻击预警方法和装置。

背景技术

目前，为了对网络攻击行为进行预警，往往采用通过对异常行为的特征进行匹配的技术识别网络攻击、病毒等。然而，这种方法常常会受到噪声数据的干扰，继而发出假警报。因此，有必要改善网络攻击预警方案。

发明内容

本发明实施例所要解决的一个技术问题是：如何提高网络攻击预警的准确性，减少误报率。

根据本发明实施例的第一个方面，提供一种网络攻击预警方法，包括：采用第一训练集训练支持向量机模型，获得第一分类器，第一训练集包括已标记的威胁数据和安全数据；采用第二训练集训练支持向量机模型，获得第二分类器，第二训练集包括已标记的威胁数据和安全数据；采用第一分类器对第二训练集进行预测，从第二训练集中选取预测结果与标记结果一致、并且位于第一分类器的分类间隔以外的数据；采用第二分类器对第一训练集进行预测，从第一训练集中选取预测结果与标记结果一致、并且位于第二分类器的分类间隔以外的数据；采用从第一训练集和第二训练集中选取的数据训练支持向量机模型，获得第三分类器；采用第三分类器预测待测数据是否为威胁数据。

在一个实施例中，如果从第一训练集中选取的数据不包括第一分类器的支撑向量，或者，从第二训练集中选取的数据不包括第二分类器的支撑向量，采用从第一训练集和第二训练集中选取的数据、以及第一分类器的支撑向量和第二分类器的支撑向量，训练支持向量机模型，获得第三分类器。

在一个实施例中，采用从第一训练集和第二训练集中选取的数据训练支持向量机模型，获得第三分类器包括：建立距支持向量机模型对应的分割超平面最近的数据到分割超平面的距离的目标函数，目标函数包括核函数参数和拉格朗日乘子参数；计算目标函数的值最小时，目标函数的核函数参数和拉格朗日乘子参数的取值；将目标函数的核函数参数和拉格朗日乘子参数的取值分别作为支持向量机模型中核函数参数和拉格朗日乘子参数的取值，获得第三分类器。

在一个实施例中，在获得第三分类器后，还包括采用前述方法迭代训练生成更新后的第三分类器的步骤；并且，在下一次迭代训练中:第一分类器为上一次迭代训练中获得的第三分类器；第一训练集包括：上一次迭代训练中，第一训练集中采用第二分类器进行预测的结果与标记结果一致、并且位于第二分类器的分类间隔以外的数据；以及，上一次迭代训练中，第二训练集中采用第一分类器进行预测的结果与标记结果一致、并且位于第一分类器的分类间隔以外的数据；第二训练集为新增的已标记数据组成的训练集。

在一个实施例中，第一训练集和第二训练集为：结构化查询语言注入数据集、网络应用跨站数据集、网络应用文件数据集、网页命令执行环境数据集或者远程命令执行数据集，或者，第一训练集和第二训练集中数据的特征包括网络流量的时间、数据包大小、网址中的字符格式中的至少一种。

根据本发明实施例的第二个方面，提供一种网络攻击预警装置，包括：第一分类器获取模块，用于采用第一训练集训练支持向量机模型，获得第一分类器，第一训练集包括已标记的威胁数据和安全数据；第二分类器获取模块，用于采用第二训练集训练支持向量机模型，获得第二分类器，第二训练集包括已标记的威胁数据和安全数据；第二训练集筛选模块，用于采用第一分类器对第二训练集进行预测，从第二训练集中选取预测结果与标记结果一致、并且位于第一分类器的分类间隔以外的数据；第一训练集筛选模块，用于采用第二分类器对第一训练集进行预测，从第一训练集中选取预测结果与标记结果一致、并且位于第二分类器的分类间隔以外的数据；第三分类器获取模块，用于采用从第一训练集和第二训练集中选取的数据训练支持向量机模型，获得第三分类器；预测模块，用于采用第三分类器预测待测数据是否为威胁数据。

在一个实施例中，如果第一训练集筛选模块从第一训练集中选取的数据不包括第一分类器的支撑向量，或者，第二训练集筛选模块从第二训练集中选取的数据不包括第二分类器的支撑向量，第三分类器获取模块用于采用从第一训练集和第二训练集中选取的数据、以及第一分类器的支撑向量和第二分类器的支撑向量，训练支持向量机模型，获得第三分类器。

在一个实施例中，第三分类器获取模块包括：目标函数建立单元，用于建立距支持向量机模型对应的分割超平面最近的数据到分割超平面的距离的目标函数，目标函数包括核函数参数和拉格朗日乘子参数；参数值计算单元，用于计算目标函数的值最小时，目标函数的核函数参数和拉格朗日乘子参数的取值；第三分类器确定单元，用于将目标函数的核函数参数和拉格朗日乘子参数的取值分别作为支持向量机模型中核函数参数和拉格朗日乘子参数的取值，获得第三分类器。

在一个实施例中，装置用于进行迭代训练生成更新后的第三分类器；并且，装置还包括：第一训练集生成模块，用于将上一次迭代训练中，第一训练集中采用第二分类器进行预测的结果与标记结果一致、并且位于第二分类器的分类间隔以外的数据添加至第一训练集，以及将上一次迭代训练中，第二训练集中采用第一分类器进行预测的结果与标记结果一致、并且位于第一分类器的分类间隔以外的数据添加至第一训练集；第一分类器获取模块用于获取第三分类器获取模块输出的第三分类器，作为第一分类器；第二分类器获取模块用于采用新增的已标记数据组成的训练集训练支持向量机模型，获得第二分类器。

本发明能够筛除不符合条件的噪声数据，使训练的第三分类器更准确，进而基于第三分类器能够更准确地进行网络攻击预警，减少误报率。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明网络攻击预警方法一个实施例的流程图。

图2为对训练集和分类器进行迭代使用的示意图。

图3为本发明网络攻击预警装置一个实施例的结构图。

图4为本发明网络攻击预警装置另一个实施例的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明采用的网络攻击预警方法是基于支持向量机模型的预测方法，即采用最优分割超平面将特征空间中的数据集进行分类的方法。

其中，采用支持向量机对待测数据x的分类估计

可以采用公式(1)和(2)表示：

其中，{α_i}表示拉格朗日乘子，K(x_i,x)表示核函数，x_i表示用于训练的数据，y_i表示训练数据的标记值。

S为支撑向量的下标的集合。支撑向量为分割超平面的两侧样本数据中，距离分割超平面最近的数据点。

为了获得基于支持向量机的分类器，需要求解出最优的分割超平面，分割超平面可以用公式(3)表示：

w·x+b＝0 (3)

求解最优超平面的问题可以转化为求解最大化支撑向量之间的距离的问题，即求目标函数(4)的最小值：

即，在约束条件(5)下，求(6)的最大值：

本发明实施例中的分类器确定过程可以参考上述过程求解。

图1为本发明网络攻击预警方法一个实施例的流程图。如图1所示，该实施例的方法包括：

步骤S102，采用第一训练集训练支持向量机模型，获得第一分类器，第一训练集包括已标记的威胁数据和安全数据。

步骤S104，采用第二训练集训练支持向量机模型，获得第二分类器，第二训练集包括已标记的威胁数据和安全数据。

第一训练集和第二训练集中的数据均为已标记数据类别的数据，可以用于训练分类器。

其中，第一训练集可以为初始训练集，第二训练集可以为由新增数据组成的训练集。

训练集中的数据可以为多维数据，即具有多个特征。数据的特征可以包括网络流量的时间、数据包大小、网址中的字符格式等等。例如，威胁数据中的URL(Uniform ResoureLocator，统一资源定位符)往往包含多个“％”、“-”或者“？”等符号。此外，还可以参考数据包的发包之间间隔短、数量大等等。当获取一个数据包的网址、发包时间、数据包大小等属性信息后，可以根据常见的攻击数据的特点，统计数据包的特征值，形成该数据包对应的训练数据。

训练集中数据的标记结果分为两种，可以使用数值标注数据的类别。例如，可以使用1标记安全数据，-1标记威胁数据。

参考公式(1)～(6)，获得第一分类器和第二分类器的过程可以包括以下步骤：首先，建立距支持向量机模型对应的分割超平面最近的数据到分割超平面的距离的目标函数，目标函数包括核函数参数和拉格朗日乘子参数；然后，计算目标函数的值最小时，目标函数的核函数参数和拉格朗日乘子参数的取值；最后，将目标函数的核函数参数和拉格朗日乘子参数的取值分别作为支持向量机模型中核函数参数和拉格朗日乘子参数的取值，获得第三分类器。

步骤S106，采用第一分类器对第二训练集进行预测，从第二训练集中选取预测结果与标记结果一致、并且位于第一分类器的分类间隔以外的数据。

步骤S108，采用第二分类器对第一训练集进行预测，从第一训练集中选取预测结果与标记结果一致、并且位于第二分类器的分类间隔以外的数据。

由于最终的训练目的是根据第一训练集和第二训练集共同训练支持向量机模型，因此需要对根据第一分类器对第二训练集进行筛选、根据第二分类器对第一训练集进行筛选，从而筛除适应性差的数据。这一交叉筛选的过程可以通过比较预测结果和标记结果实现。

除了舍弃预测结果与标记结果明确不一致的数据以外，还需要考虑去除虽然预测结果与标记结果一致、但是可信度较低的数据。一般地，数据距离分割超平面的远近可以表示分类预测的确信程度，数据距离分割超平面越近，说明预测结果的可信度越低。因此，可以只选取位于分类间隔以外的数据。

上述过程也可以采用以下公式(7)～(9)判断。以根据第一分类器筛选第二数据集为例。设x_2i为第二数据集中的数据，y_2i为x_2i的标记结果，f(x)为第一分类器的决策函数，当出现公式(7)～(9)的情况时，则不选取x_2i进行第三分类器的训练。

0≤y_2if(x_2i)＜1 (7)

-1≤y_2if(x_2i)≤0 (8)

y_2if(x_2i)＜1 (9)

公式(7)表示x_2i在第一分类器的分类间隔中，并且可以被第一分类器正确分类；公式(8)表示x_2i在第一分类器的分类间隔中，并且不能被第一分类器正确分类；公式(9)表示x_2i在第一分类器的分类间隔外，并且不能被第一分类器正确分类。

也即，当满足公式(10)时，即x_2i在第一分类器的分类间隔外，

并可以被第一分类器正确分类时，可以选取x_2i进行进一步的训练。

y_2if(x_2i)≥1 (10)

根据第二分类器筛选第一数据集也可以采用类似的方法，这里不再赘述。

步骤S110，采用从第一训练集和第二训练集中选取的数据训练支持向量机模型，获得第三分类器。

参考公式(1)～(6)，获得第三分类器的过程可以包括以下步骤：首先，建立距支持向量机模型对应的分割超平面最近的数据到分割超平面的距离的目标函数，目标函数包括核函数参数和拉格朗日乘子参数；然后，计算目标函数的值最小时，目标函数的核函数参数和拉格朗日乘子参数的取值；最后，将目标函数的核函数参数和拉格朗日乘子参数的取值分别作为支持向量机模型中核函数参数和拉格朗日乘子参数的取值，获得第三分类器。

此外，如果从第一训练集中选取的数据不包括第一分类器的支撑向量，或者，从第二训练集中选取的数据不包括第二分类器的支撑向量，采用从第一训练集和第二训练集中选取的数据、以及第一分类器的支撑向量和第二分类器的支撑向量，训练支持向量机模型，获得第三分类器。支撑向量是决定分割超平面的数据，因此可以将这些重要的数据也纳入用于训练获得第三分类器的训练集中。

步骤S112，采用第三分类器预测待测数据是否为威胁数据。

由于选取的第一数据集合第二数据集中的数据均为已标记的威胁数据和安全数据，因此第三分类器具有将待测数据分类为威胁或安全的能力，从而可以进行网络攻击预警。

上述实施例的方法可以迭代执行，如图2所示。如果将第一训练集作为初始训练集，第一分类器作为初始分类器，将第二训练集作为新增训练集，则在下一次迭代训练中，第一分类器为上一次迭代训练中获得的第三分类器；第一训练集包括：上一次迭代训练中，第一训练集中采用第二分类器进行预测的结果与标记结果一致、并且位于第二分类器的分类间隔以外的数据；以及，上一次迭代训练中，第二训练集中采用第一分类器进行预测的结果与标记结果一致、并且位于第一分类器的分类间隔以外的数据；第二训练集为新增的已标记数据组成的训练集。

从而，可以根据阶段性新增的数据不断地进行增量训练，以使第三分类器能够更好地适应数据的变化，进一步提高预测的准确性。

在上述实施例中，第一训练集和第二训练集可以为结构化查询语言(SQL，Structured Query Language)注入数据集、网络应用跨站数据集、网络应用文件数据集、网页命令执行环境(Webshell)数据集或者远程命令执行数据集等等。各个类型的训练集可以生成对应类型的用于预测的分类器，即前述的第三分类器，从而对本类别的数据进行预测。

下面结合图3描述本发明一个实施例的网络攻击预警装置。

图3为本发明网络攻击预警装置一个实施例的结构图。如图3所示，该实施例的装置包括：第一分类器获取模块31，用于采用第一训练集训练支持向量机模型，获得第一分类器，第一训练集包括已标记的威胁数据和安全数据；第二分类器获取模块32，用于采用第二训练集训练支持向量机模型，获得第二分类器，第二训练集包括已标记的威胁数据和安全数据；第二训练集筛选模块33，用于采用第一分类器对第二训练集进行预测，从第二训练集中选取预测结果与标记结果一致、并且位于第一分类器的分类间隔以外的数据；第一训练集筛选模块34，用于采用第二分类器对第一训练集进行预测，从第一训练集中选取预测结果与标记结果一致、并且位于第二分类器的分类间隔以外的数据；第三分类器获取模块35，用于采用从第一训练集和第二训练集中选取的数据训练支持向量机模型，获得第三分类器；预测模块36，用于采用第三分类器预测待测数据是否为威胁数据。

其中，第一训练集和第二训练集可以为：结构化查询语言注入数据集、网络应用跨站数据集、网络应用文件数据集、网页命令执行环境数据集或者远程命令执行数据集，或者，第一训练集和第二训练集中数据的特征包括网络流量的时间、数据包大小、网址中的字符格式中的至少一种。

其中，如果第一训练集筛选模块从第一训练集中选取的数据不包括第一分类器的支撑向量，或者，第二训练集筛选模块从第二训练集中选取的数据不包括第二分类器的支撑向量，第三分类器获取模块35可以用于采用从第一训练集和第二训练集中选取的数据、以及第一分类器的支撑向量和第二分类器的支撑向量，训练支持向量机模型，获得第三分类器。

下面结合图4描述本发明另一个实施例的网络攻击预警装置。

图4为本发明网络攻击预警装置另一个实施例的结构图。如图4所示，该实施例的第三分类器获取模块35还可以包括：目标函数建立单元452，用于建立距支持向量机模型对应的分割超平面最近的数据到分割超平面的距离的目标函数，目标函数包括核函数参数和拉格朗日乘子参数；参数值计算单元454，用于计算目标函数的值最小时，目标函数的核函数参数和拉格朗日乘子参数的取值；第三分类器确定单元456，用于将目标函数的核函数参数和拉格朗日乘子参数的取值分别作为支持向量机模型中核函数参数和拉格朗日乘子参数的取值，获得第三分类器。

此外，装置还可以用于进行迭代训练生成更新后的第三分类器；并且，装置还包括：第一训练集生成模块47，用于将上一次迭代训练中，第一训练集中采用第二分类器进行预测的结果与标记结果一致、并且位于第二分类器的分类间隔以外的数据添加至第一训练集，以及将上一次迭代训练中，第二训练集中采用第一分类器进行预测的结果与标记结果一致、并且位于第一分类器的分类间隔以外的数据添加至第一训练集；第一分类器获取模块31用于获取第三分类器获取模块35输出的第三分类器，作为第一分类器；第二分类器获取模块32用于采用新增的已标记数据组成的训练集训练支持向量机模型，获得第二分类器。

本领域内的技术人员应当明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网络攻击预警方法，其特征在于，包括：

采用第一训练集训练支持向量机模型，获得第一分类器，所述第一训练集包括已标记的威胁数据和安全数据；

采用第二训练集训练支持向量机模型，获得第二分类器，所述第二训练集包括已标记的威胁数据和安全数据；

采用第一分类器对第二训练集进行预测，从第二训练集中选取预测结果与标记结果一致、并且位于第一分类器的分类间隔以外的数据，其中，对于预测结果与标记结果一致、并且位于第一分类器的分类间隔以外的数据，将所述数据代入第一分类器的决策函数所得的函数值与所述数据的标记结果的乘积大于或等于1；

采用第二分类器对第一训练集进行预测，从第一训练集中选取预测结果与标记结果一致、并且位于第二分类器的分类间隔以外的数据，其中，对于预测结果与标记结果一致、并且位于第二分类器的分类间隔以外的数据，将所述数据代入第二分类器的决策函数所得的函数值与所述数据的标记结果的乘积大于或等于1；

采用从第一训练集和第二训练集中选取的数据训练支持向量机模型，获得第三分类器；

采用第三分类器预测待测数据是否为威胁数据。

2.根据权利要求1所述的方法，其特征在于，如果从第一训练集中选取的数据不包括第一分类器的支撑向量，或者，从第二训练集中选取的数据不包括第二分类器的支撑向量，

采用从第一训练集和第二训练集中选取的数据、以及第一分类器的支撑向量和第二分类器的支撑向量，训练支持向量机模型，获得第三分类器。

3.根据权利要求1所述的方法，其特征在于，所述采用从第一训练集和第二训练集中选取的数据训练支持向量机模型，获得第三分类器包括：

建立距支持向量机模型对应的分割超平面最近的数据到所述分割超平面的距离的目标函数，所述目标函数包括核函数参数和拉格朗日乘子参数；

计算所述目标函数的值最小时，所述目标函数的核函数参数和拉格朗日乘子参数的取值；

将所述目标函数的核函数参数和拉格朗日乘子参数的取值分别作为支持向量机模型中核函数参数和拉格朗日乘子参数的取值，获得第三分类器。

4.根据权利要求1所述的方法，其特征在于，在所述获得第三分类器后，还包括采用权利要求1所述的方法迭代训练生成更新后的第三分类器的步骤；并且，

在下一次迭代训练中:

第一分类器为上一次迭代训练中获得的第三分类器；

第一训练集包括：上一次迭代训练中，第一训练集中采用第二分类器进行预测的结果与标记结果一致、并且位于第二分类器的分类间隔以外的数据；以及，上一次迭代训练中，第二训练集中采用第一分类器进行预测的结果与标记结果一致、并且位于第一分类器的分类间隔以外的数据；

第二训练集为新增的已标记数据组成的训练集。

5.根据权利要求1所述的方法，其特征在于，所述第一训练集和所述第二训练集为：

结构化查询语言注入数据集、网络应用跨站数据集、网络应用文件数据集、网页命令执行环境数据集或者远程命令执行数据集，或者，

所述第一训练集和第二训练集中数据的特征包括网络流量的时间、数据包大小、网址中的字符格式中的至少一种。

6.一种网络攻击预警装置，其特征在于，包括：

第一分类器获取模块，用于采用第一训练集训练支持向量机模型，获得第一分类器，所述第一训练集包括已标记的威胁数据和安全数据；

第二分类器获取模块，用于采用第二训练集训练支持向量机模型，获得第二分类器，所述第二训练集包括已标记的威胁数据和安全数据；

第二训练集筛选模块，用于采用第一分类器对第二训练集进行预测，从第二训练集中选取预测结果与标记结果一致、并且位于第一分类器的分类间隔以外的数据，其中，对于预测结果与标记结果一致、并且位于第一分类器的分类间隔以外的数据，将所述数据代入第一分类器的决策函数所得的函数值与所述数据的标记结果的乘积大于或等于1；

第一训练集筛选模块，用于采用第二分类器对第一训练集进行预测，从第一训练集中选取预测结果与标记结果一致、并且位于第二分类器的分类间隔以外的数据，其中，对于预测结果与标记结果一致、并且位于第二分类器的分类间隔以外的数据，将所述数据代入第二分类器的决策函数所得的函数值与所述数据的标记结果的乘积大于或等于1；

第三分类器获取模块，用于采用从第一训练集和第二训练集中选取的数据训练支持向量机模型，获得第三分类器；

预测模块，用于采用第三分类器预测待测数据是否为威胁数据。

7.根据权利要求6所述的装置，其特征在于，如果所述第一训练集筛选模块从第一训练集中选取的数据不包括第一分类器的支撑向量，或者，所述第二训练集筛选模块从第二训练集中选取的数据不包括第二分类器的支撑向量，

所述第三分类器获取模块用于采用从第一训练集和第二训练集中选取的数据、以及第一分类器的支撑向量和第二分类器的支撑向量，训练支持向量机模型，获得第三分类器。

8.根据权利要求6所述的装置，其特征在于，所述第三分类器获取模块包括：

目标函数建立单元，用于建立距支持向量机模型对应的分割超平面最近的数据到所述分割超平面的距离的目标函数，所述目标函数包括核函数参数和拉格朗日乘子参数；

参数值计算单元，用于计算所述目标函数的值最小时，所述目标函数的核函数参数和拉格朗日乘子参数的取值；

第三分类器确定单元，用于将所述目标函数的核函数参数和拉格朗日乘子参数的取值分别作为支持向量机模型中核函数参数和拉格朗日乘子参数的取值，获得第三分类器。

9.根据权利要求6所述的装置，其特征在于，所述装置用于进行迭代训练生成更新后的第三分类器；并且，所述装置还包括：

第一训练集生成模块，用于将上一次迭代训练中，第一训练集中采用第二分类器进行预测的结果与标记结果一致、并且位于第二分类器的分类间隔以外的数据添加至第一训练集，以及将上一次迭代训练中，第二训练集中采用第一分类器进行预测的结果与标记结果一致、并且位于第一分类器的分类间隔以外的数据添加至第一训练集；

所述第一分类器获取模块用于获取所述第三分类器获取模块输出的第三分类器，作为第一分类器；

所述第二分类器获取模块用于采用新增的已标记数据组成的训练集训练支持向量机模型，获得第二分类器。

10.根据权利要求6所述的装置，其特征在于，所述第一训练集和所述第二训练集为：