CN111881289A

CN111881289A - 分类模型的训练方法、数据风险类别的检测方法及装置

Info

Publication number: CN111881289A
Application number: CN202010523818.7A
Authority: CN
Inventors: 刘洋; 卞超轶
Original assignee: Beijing Venus Information Security Technology Co Ltd; Venustech Group Inc
Current assignee: Beijing Venus Information Security Technology Co Ltd; Venustech Group Inc
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2020-11-03
Anticipated expiration: 2040-06-10
Also published as: CN111881289B

Abstract

本发明实施例公开了一种分类模型的训练方法、数据风险类别的检测方法及装置，其中该训练方法，包括：对原始训练数据进行数据增强得到新的数据类型的训练数据，所述原始训练数据包括数据类型为恶意数据的训练数据以及数据类型为正常数据的训练数据；根据全部训练数据对分类模型进行训练。如此，通过引入新的数据类型的训练数据解决了数据类别不均衡的问题，从而提升了机器学习的效果。

Description

分类模型的训练方法、数据风险类别的检测方法及装置

技术领域

本发明实施例涉及网络安全领域，尤指一种分类模型的训练方法、数据风险类别的检测方法及装置。

背景技术

近些年来，随着科技的发展，安全检测技术日益精进。但与此同时黑客技术也在持续发展，产生了大量新兴的恶意数据，例如恶意代码和DGA域名。而使用机器学习进行检测，相比于传统的特征码和人工规则的检测方法，具有更强的抽象和概括能力，能够预测出更多的未知黑数据。

但是利用机器学习识别恶意数据，其中重要的前置条件就是具有海量高质量的数据，高质量通常指的是数据干净无噪声。但在信息安全行业，训练集中的黑白数据(黑数据即恶意数据、白数据即正常数据)类别有时候会不均衡，从而导致机器学习效果不好。为了保证机器学习的效果，通常使用过采样或者欠采样的方式来抑制类别不均衡。但是过采样会导致信息冗余，欠采样会导致信息丢失，都无法提升机器学习的效果。

发明内容

有鉴于此，本发明一实施例提供了一种分类模型的训练方法，包括：

对原始训练数据进行数据增强得到新的数据类型的训练数据，所述原始训练数据包括数据类型为恶意数据的训练数据以及数据类型为正常数据的训练数据；

根据全部训练数据对分类模型进行训练。

本发明实施例提供的技术方案，通过引入新的数据类型的训练数据解决了数据类别不均衡的问题，从而提升了机器学习的效果。

本发明另一实施例还提供了一种数据风险类别的检测方法，包括：

将待检测数据输入预先训练好的分类模型，输出得到所述待检测数据的数据类型；

根据预设分数规则以及所述待检测数据的数据类型计算得到所述待检测数据的分数；

根据预设的分数与风险类别的对应关系以及所述待检测数据的分数确定所述待检测数据的风险类别；

其中，所述预先训练好的分类模型是根据上述训练方法训练得到的分类模型。

相较于现有的利用黑白二分类模型检测数据的风险类别，本发明实施例提供的技术方案，利用上一实施例提供的训练方法训练好的分类模型检测数据的风险类别，检测效果更精确。

本发明另一实施例还提供了一种电子装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述述分类模型的训练方法，或者上述述数据风险类别的检测方法。

本发明另一实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有信息处理程序，所述信息处理程序被处理器执行时实现上述分类模型的训练方法，或者上述述数据风险类别的检测方法。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。

附图说明

附图用来提供对本申请技术方案的理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本发明一实施例提供的一种分类模型的训练方法的流程示意图；

图2为本发明另一实施例提供的一种分类模型的训练方法的流程示意图；

图3为本发明另一实施例提供的一种分类模型的训练方法的流程示意图；

图4为本发明另一实施例提供的一种分类模型的训练方法的流程示意图；

图5为本发明另一实施例提供的一种分类模型的训练方法的流程示意图；

图6为本发明一实施例提供的一种数据风险类别的检测方法的流程示意图；

图7为本发明另一实施例提供的一种数据风险类别的检测方法的流程示意图；

图8为本发明另一实施例提供的一种数据风险类别的检测方法的流程示意图；

图9为本发明另一实施例提供的一种数据风险类别的检测方法的流程示意图；

图10为本发明另一实施例提供的一种数据风险类别的检测方法的流程示意图；

图11为本发明一实施例提供的一种电子装置的结构示意图。

具体实施方式

本申请描述了多个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合，并在具体实施方式中进行了讨论，但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外，任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用，或可以替代任何其它实施例中的任何其他特征或元件。

本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合，以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合，以形成另一个由权利要求限定的独特的发明方案。因此，应当理解，在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此，除了根据所附权利要求及其等同替换所做的限制以外，实施例不受其它限制。此外，可以在所附权利要求的保护范围内进行各种修改和改变。

此外，在描述具有代表性的实施例时，说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。因此，说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外，针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤，本领域技术人员可以容易地理解，这些顺序可以变化，并且仍然保持在本申请实施例的精神和范围内。

图1为本发明一实施例提供的一种分类模型的训练方法的流程示意图，如图1所示，该方法包括：

步骤101，对原始训练数据进行数据增强得到新的数据类型的训练数据，所述原始训练数据包括数据类型为恶意数据的训练数据以及数据类型为正常数据的训练数据；

步骤102，根据全部训练数据对分类模型进行训练。

在一示例中，所述对原始训练数据进行数据增强得到新的数据类型的训练数据，包括：

通过以下一种或者多种方式对原始训练数据进行数据增强得到新的数据类型的训练数据：

从原始训练数据中随机选择一个或者多个正常数据，对选择的每一个正常数据按照第一预设次数每次进行第一预定操作；

从原始训练数据中随机选择一个或者多个恶意数据，对选择的每一个恶意数据按照第二预设次数每次进行第二预定操作；

其中，每次进行的所述第一预定操作包括：在该正常数据中随机插入第一预设字段，将随机插入后得到的训练数据作为新的数据类型的训练数据；每次进行的所述第二预定操作包括：在该恶意数据中随机删除第二预设字段，将随机删除后得到的训练数据作为新的数据类型的训练数据。

在一示例中，所述新的数据类型为N种，N为1或2；

当所述新的数据类型为一种时，将随机插入和随机删除后得到的训练数据的数据类型定义为灰数据；当所述新的数据类型为两种时，将随机插入后得到的训练数据的数据类型定义为白灰数据，将随机删除后得到的训练数据的数据类型定义为黑灰数据；

所述根据全部训练数据对分类模型进行训练，包括：

将每种数据类型的训练数据按照数据类型两两组合成X种训练样本；N＝1时X＝3，N＝2时X＝6；

根据预设的分类算法对所述X种训练样本分别进行训练得到对应的X个二分类模型；

其中，每一个二分类模型以数据的特征向量为输入，以该数据的数据类型为输出；

或者，将全部训练数据作为一种训练样本；

根据预设的分类算法对所述一种训练样本进行训练得到对应的Y分类模型；N＝1时Y＝3，N＝2时Y＝4；

其中，所述Y分类模型以数据的特征向量为输入，以该数据的数据类型为输出。

在一示例中，所述恶意数据为恶意代码，所述正常数据为正常代码，所述第一预设字段为从原始训练数据对应编程语言的全部内建函数中随机选择第一预设比例的内建函数；所述第二预设字段为从原始训练数据对应编程语言的全部内建函数中随机选择第二预设比例的内建函数；或者，所述恶意数据为DGA域名，所述正常数据为正常域名；所述第一预设字段为从原始训练数据中DGA域名对应的全部字符中随机选择的一个或者多个字符，所述第二预设字段为从原始训练数据中DGA域名对应的全部字符中随机选择一个或者多个字符。

图2为本发明另一实施例提供的一种分类模型的训练方法的流程示意图，如图2所示，该方法包括：

步骤201，通过以下一种或者多种方式对原始训练数据进行数据增强得到新的数据类型的训练数据：

其中，每次进行的所述第一预定操作包括：在该正常数据中随机插入第一预设字段，将随机插入后得到的训练数据作为新的数据类型的训练数据；每次进行的所述第二预定操作包括：在该恶意数据中随机删除第二预设字段，将随机删除后得到的训练数据作为新的数据类型的训练数据；

其中，所述原始训练数据包括数据类型为恶意数据的训练数据以及数据类型为正常数据的训练数据；

其中，第一预设次数、第二预设次数可以预先设定，可以相同也可以不同。

其中，第一预设比例、第二预设比例可以预先设定。

有的情况下，恶意数据样本的数量远远大于正常数据样本的数量，有的情况下，正常数据样本的数量远远大于恶意数据样本的数量，为了缓解类别的极度倾斜，本实施例中通过数据增强算法可以生成大量灰数据，从而缓解了黑白数据类别不均衡的问题。

其中，数据增强是指根据数据类型和标定好的训练集数据衍生出新的数据。数据增强可以针对不同类型的数据进行不同的增强。

在一示例中，针对代码数据，需要确定代码数据对应编程语言的内建函数名，数据增强的方式包括随机插入和/或随机删除。其中随机插入是指是在正常代码的基础上随机插入预设比例的内建函数，随机删除是指的是在恶意代码的基础上随机删除预设比例的内建函数。例如，可以预先从原始训练数据中随机选择一个或者多个的正常代码，从确定的全部内建函数中随机选择20％的内建函数，将选择的内建函数随机插入选择的一个正常代码中产生的数据即为新的数据类型的代码数据，每随机插入一次就产生一个新的数据类型的代码数据。又例如，可以预先从原始训练数据中随机选择一个或者多个的恶意代码，从确定的全部内建函数中随机选择80％的内建函数，从一个选择的恶意代码中随机删除选择的内建函数产生的数据即为新的数据类型的代码数据，每随机删除一次就产生一个新的数据类型的代码数据。

在另一示例中，针对域名数据，需要从原始训练数据中DGA域名对应的全部字符中随机选择一个或者多个字符；随机插入是指是在正常域名的基础上随机插入选择的字符，随机删除是指的是在DGA域名的基础上随机删除选择的字符。例如，可以预先从原始训练数据中随机选择一个或者多个的正常域名，从原始训练数据中DGA域名对应的全部字符中随机选择一个字符，例如字符b，将选择的字符随机插入选择的一个正常域名中产生的域名数据即为新的数据类型的域名数据，每随机插入一次就产生一个新的数据类型的域名数据。又例如，可以预先从原始训练数据中随机选择一个或者多个的恶意代码，从原始训练数据中DGA域名对应的全部字符中随机选择两个字符，比如字符c和字符3，从一个选择的恶意代码中随机删除选择的字符产生的域名数据即为新的数据类型的域名数据，每随机删除一次就产生一个新的数据类型的域名数据。

步骤202，将随机插入和随机删除后得到的训练数据的数据类型定义为灰数据；将每种数据类型的训练数据按照数据类型两两组合成三种训练样本，

其中，将每种数据类型的训练数据按照数据类型两两组合成三种训练样本，包括：

将数据类型为恶意数据的训练数据和数据类型为正常数据的训练样本组合成第一种训练样本；

将数据类型为恶意数据的训练数据和数据类型为灰数据的训练样本组合成第二种训练样本；

将数据类型为正常数据的训练数据和数据类型为灰数据的训练样本组合成第三种训练样本。

步骤203，根据预设的分类算法对所述三种训练样本分别进行训练得到对应的三个二分类模型。

其中，每一个二分类模型以数据的特征向量为输入，以该数据的数据类型为输出。

其中，所述根据预设的分类算法对所述三种训练样本分别进行训练得到对应的三个二分类模型，包括：

根据预设的二分类算法对第一种训练样本的特征向量进行训练得到第一个二分类模型；

根据预设的二分类算法对第二种训练样本的特征向量进行训练得到第二个二分类模型；

根据预设的二分类算法对第三种训练样本的特征向量进行训练得到第三个二分类模型；

其中，所述第一个二分类模型以数据的特征向量为输入，以该数据的数据类型为恶意数据或者正常数据为输出；所述第二个二分类模型以数据的特征向量为输入，以该数据的数据类型为恶意数据或者灰数据为输出；所述第三二分类模型以数据的特征向量为输入，以该数据的数据类型为正常数据或者灰数据为输出。

其中，所述预设的二分类算法可以是现有的任一种二分类算法，例如XGBoost算法，如此将黑白灰的三分类问题，转化成三个二分类问题，即转化成黑vs白、黑vs灰、灰vs白的三个二分类问题，对于每个二分类问题来说，使用N-gram、Word2vec等词向量算法相加平均向量等特征来作为特征提取后的结果，然后将其输入到XGBoost进行学习。

由于噪声数据在一个模型的训练中会对训练效果带来不好的影响，而对一个样本的分类变成三个二分类模型的学习，能够降低噪声数据的影响。

另外，灰数据指的是介于白数据和黑数据之间的数据，它既不属于白数据，也不属于黑数据，而是它的恶意程度介于两者之间。

本实施例提供的技术方案，通过算法进行数据增强，产生大量的灰数据。灰数据区别于已有的白数据和恶意数据，它是介于两者之间的数据，在不同的场景中会更偏向于其中的一类。如此一来，就将正常数据和恶意数据的二分类问题变成了白、灰、恶意数据的三个二分类问题。

本发明实施例提供的技术方案，通过数据增强避免了黑白数据类别不均衡的问题，而且通过对一个样本的分类变成三个二分类模型的学习能够降低噪声数据的影响，从而极大地提升了训练效果。

图3为本发明另一实施例提供的一种分类模型的训练方法的流程示意图，如图3所示，该方法包括：

步骤301，通过以下一种或者多种方式对原始训练数据进行数据增强得到新的数据类型的训练数据：

其中，第一预设比例、第二预设比例可以预先设定。

步骤302，将随机插入和随机删除后得到的训练数据的数据类型定义为灰数据；将全部训练数据作为一种训练样本；

其中，全部训练数据包括原始训练数据和新的数据类型的训练数据。

步骤303，根据预设的分类算法对所述一种训练样本进行训练得到对应的三分类模型。

其中，所述三分类模型以数据的特征向量为输入，以该数据的数据类型为正常数据或者恶意数据或者灰数据为输出。

其中，所述预设的二分类算法可以是现有的任一种二分类算法，例如XGBoost算法，可以使用N-gram、Word2vec等词向量算法的相加平均向量等特征来作为特征提取后的结果，然后将其输入到XGBoost进行学习。

本实施例提供的技术方案，通过算法进行数据增强，产生大量的灰数据。灰数据区别于已有的白数据和恶意数据，它是介于两者之间的数据，在不同的场景中会更偏向于其中的一类。如此一来，就将正常数据和恶意数据的二分类问题变成了白、灰、恶意数据的三分类问题。

本发明实施例提供的技术方案，通过数据增强避免了黑白数据类别不均衡的问题，提升了训练效果。

图4为本发明另一实施例提供的一种分类模型的训练方法的流程示意图，如图4所示，该方法包括：

步骤401，通过以下一种或者多种方式对原始训练数据进行数据增强得到新的数据类型的训练数据：

其中，第一预设比例、第二预设比例可以预先设定。

有的情况下，恶意数据样本的数量远远大于正常数据样本的数量，有的情况下，正常数据样本的数量又远远大于恶意数据样本的数量，为了缓解类别的极度倾斜，本实施例中通过数据增强算法可以生成大量白灰数据和黑灰数据，从而缓解了黑白数据类别不均衡的问题。

步骤402，将随机插入后得到的训练数据的数据类型定义为白灰数据，将随机删除后得到的训练数据的数据类型定义为黑灰数据；将每种数据类型的训练数据按照数据类型两两组合成六种训练样本，

其中，将每种数据类型的训练数据按照数据类型两两组合成六种训练样本，包括：

将数据类型为恶意数据的训练数据和数据类型为白灰数据的训练样本组合成第二种训练样本；

将数据类型为恶意数据的训练数据和数据类型为黑灰数据的训练样本组合成第三种训练样本；

将数据类型为正常数据的训练数据和数据类型为黑灰数据的训练样本组合成第四种训练样本；

将数据类型为正常数据的训练数据和数据类型为白灰数据的训练样本组合成第五种训练样本；

将数据类型为黑灰数据的训练数据和数据类型为白灰数据的训练样本组合成第六种训练样本。

其中，黑灰数据和白灰数据指的是介于白数据和黑数据之间的数据，它既不属于白数据，也不属于黑数据，而是它的恶意程度介于两者之间。

步骤403，根据预设的分类算法对所述六种训练样本分别进行训练得到对应的六个二分类模型。

其中，所述根据预设的分类算法对所述六种训练样本分别进行训练得到对应的六个二分类模型，包括：

根据预设的二分类算法对第四种训练样本的特征向量进行训练得到第三个二分类模型；

根据预设的二分类算法对第五种训练样本的特征向量进行训练得到第五个二分类模型；

根据预设的二分类算法对第六种训练样本的特征向量进行训练得到第六个二分类模型；

其中，所述第一个二分类模型以数据的特征向量为输入，以该数据的数据类型为恶意数据或者正常数据为输出；所述第二个二分类模型以数据的特征向量为输入，以该数据的数据类型为恶意数据或者白灰数据为输出；所述第三二分类模型以数据的特征向量为输入，以该数据的数据类型为恶意数据或者黑灰数据为输出；所述第四二分类模型以数据的特征向量为输入，以该数据的数据类型为正常数据或者黑灰数据为输出；所述第五二分类模型以数据的特征向量为输入，以该数据的数据类型为正常数据或者白灰数据为输出；所述第六二分类模型以数据的特征向量为输入，以该数据的数据类型为黑灰数据或者白灰数据为输出。

其中，所述预设的二分类算法可以是现有的任一种二分类算法，例如XGBoost算法，如此将黑、白、黑灰、白灰的四分类问题，转化成六个二分类问题，即转化成黑vs白、黑vs黑灰、黑vs白灰、白vs黑灰、白vs白灰、白灰vs黑灰六个二分类问题，对于每个二分类问题来说，使用N-gram、Word2vec等词向量算法相加平均向量等特征来作为特征提取后的结果，然后将其输入到XGBoost进行学习。

由于噪声数据在一个模型的训练中会对训练效果带来不好的影响，而对一个样本的分类变成六个二分类模型的学习，能够降低噪声数据的影响。

本实施例提供的技术方案，通过算法进行数据增强，产生大量的黑灰数据和白灰数据。黑灰数据和白灰数据区别于已有的白数据和恶意数据，它们是介于两者之间的数据，在不同的场景中会更偏向于其中的一类。如此一来，就将正常数据和恶意数据的二分类问题变成了白、白灰、黑灰、恶意数据的六个二分类问题。

本发明实施例提供的技术方案，通过数据增强避免了黑白数据类别不均衡的问题，而且通过对一个样本的分类变成六个二分类模型的学习能够降低噪声数据的影响，从而极大地提升了训练效果。

图5为本发明另一实施例提供的一种分类模型的训练方法的流程示意图，如图5所示，该方法包括：

步骤501，通过以下一种或者多种方式对原始训练数据进行数据增强得到新的数据类型的训练数据：

其中，第一预设比例、第二预设比例可以预先设定。

步骤502，将随机插入后得到的训练数据的数据类型定义为白灰数据；将随机删除后得到的训练数据的数据类型定义为黑灰数据，将全部训练数据作为一种训练样本；

步骤503，根据预设的分类算法对所述一种训练样本进行训练得到对应的四分类模型。

其中，所述四分类模型以数据的特征向量为输入，以该数据的数据类型为正常数据或者恶意数据或者黑灰数据或者白灰数据为输出。

本实施例提供的技术方案，通过算法进行数据增强，产生大量的黑灰数据和白灰数据。黑灰和白灰数据区别于已有的白数据和恶意数据，它是介于两者之间的数据，在不同的场景中会更偏向于其中的一类。如此一来，就将正常数据和恶意数据的二分类问题变成了白、白灰、黑灰、恶意数据的四分类问题。

图6为本发明一实施例提供的一种数据风险类别的检测方法的流程示意图，如图6所示，该方法包括：

步骤601，将待检测数据输入预先训练好的分类模型，输出得到所述待检测数据的数据类型；

步骤602，根据预设分数规则以及所述待检测数据的数据类型计算得到所述待检测数据的分数；

步骤603，根据预设的分数与风险类别的对应关系以及所述待检测数据的分数确定所述待检测数据的风险类别；

其中，所述预先训练好的分类模型是根据上述任一实施例提供的所述训练方法训练得到的分类模型。

在一示例中，当所述待检测数据包括多个数据时，利用预设的聚类算法对所述多个数据进行聚类得到多个类簇；

对每一个类簇执行如下操作：

对该类簇中的每一个数据执行所述检测方法，当该类簇中风险类别为正常数据的个数占比超过预设阈值时，则将该类簇中全部数据的风险类别确定为正常。

在一示例中，所述预先训练好的分类模型为预先训练好的X个二分类模型，所述待检测数据的数据类型为X个数据类型；所述计算包括：将X个数据类型分别对应的黑分数相加得到融合后的黑分数；将X个数据类型分别对应的白分数相加得到融合后的白分数；将融合后的黑分数减去融合后的白分数得到的分数作为所述待检测数据的分数；

或者，所述预先训练好的分类模型为预先训练好的Y分类模型，所述待检测数据的数据类型为Y个数据类型中的一个；所述计算包括：将所述待检测数据的数据类型对应的黑分数减去对应的白分数得到的分数作为所述待检测数据的分数；

当X＝3或者Y＝3时，所述预设分数规则包括：

恶意数据对应的黑分数为第一预设分数，对应的白分数为第二预设分数，第一预设分数大于第二预设分数；正常数据对应的黑分数为第三预设分数，对应的白分数为第四预设分数，第四预设分数大于第三预设分数；灰数据对应的黑分数为第五预设分数，对应的白分数为第六预设分数，第五预设分数小于第一预设分数，第六预设分数小于第四预设分数；

当X＝6或者Y＝4时，所述预设分数规则包括：

恶意数据对应的黑分数为第一预设分数，对应的白分数为第二预设分数，第一预设分数大于第二预设分数；正常数据对应的黑分数为第三预设分数，对应的白分数为第四预设分数，第四预设分数大于第三预设分数；黑灰数据对应的黑分数为第七预设分数，对应的白分数为第八预设分数，第七预设分数小于第一预设分数，第八预设分数小于第四预设分数；白灰数据对应的黑分数为第九预设分数，对应的白分数为第十预设分数，第十预设分数小于第八预设分数，第九预设分数小于第七预设分数。

在一示例中，所述风险类别包括预设的M个类别，M为大于或者等于2的自然数；所述分数与风险类别的对应关系包括每一个类别对应的分数范围；

所述根据预设的分数与风险类别的对应关系以及所述待检测数据的分数确定所述待检测数据的风险类别，包括：

确定所述待检测数据的分数落入的分数范围；

将所述落入的分数范围对应的风险类别作为所述待检测数据的风险类别；

或者，所述分数与风险类别的对应关系包括每一个类别对应的概率值范围；所述根据预设的分数与风险类别的对应关系以及所述待检测数据的分数确定所述待检测数据的风险类别，包括：

确定所述待检测数据的分数对应的概率值；

将所述概率值对应的风险类别作为所述待检测数据的风险类别。

图7为本发明另一实施例提供的一种数据风险类别的检测方法的流程示意图，如图7所示，该方法包括：

步骤701，将待检测数据分别输入预先训练好的三个二分类模型，输出得到所述待检测数据的三个数据类型；

其中，第一个数据类型为正常数据或者恶意数据，第二个数据类型为恶意数据或者灰数据，第三个数据类型为正常数据或者灰数据。

步骤702，根据预设分数规则将三个数据类型分别对应的黑分数相加得到融合后的黑分数；将三个数据类型分别对应的白分数相加得到融合后的白分数；将融合后的黑分数减去融合后的白分数得到的分数作为所述待检测数据的分数；

其中，所述预设分数规则包括：

恶意数据对应的黑分数为第一预设分数，对应的白分数为第二预设分数，第一预设分数大于第二预设分数；

正常数据对应的黑分数为第三预设分数，对应的白分数为第四预设分数，第四预设分数大于第三预设分数；

灰数据对应的黑分数为第五预设分数，对应的白分数为第六预设分数，第五预设分数小于第一预设分数，第六预设分数小于第四预设分数。

在一示例中，对每个数据类型设置两个分数，即黑分数和白分数。如果在二分类被分成黑样本，则黑分数为100，白分数为0。如果在二分类中被分成灰样本，则黑分数为50，白分数为50。如果在二分类中被分成白样本，则黑分数为0，白分数为100。单个样本的黑分数和白分数等于三个模型对应的黑分数之和和白分数之和，而样本的最终分数为黑分数之和减去白分数之和。

在另一示例中，假设第一预设分数为100分，第二预设分数为0分，第三预设分数为0分，第四预设分数为100分，第五预设分数为50分，第六预设分数为50分。假设所述待检测数据的第一个类型为恶意数据、第二个数据类型为灰数据，第三个类型数据类型为灰数据，则第一个类型对应的黑分数为100，白分数为0，第一个类型对应的黑分数为50，白分数为50，第三个类型对应的黑分数为50，白分数为50，则将三个黑分数相加为100+50+50＝200，将三个白分数相加为0+50+50＝100，200-100＝100，则所述待检测数据的分值为100。

步骤703，风险类别包括正常、低危、中危、高危四个类别，每一个类别对应各自的分数范围，确定所述待检测数据的分数落入的分数范围；将所述落入的分数范围对应的风险类别作为所述待检测数据的风险类别。

其中，每一个类别对应的分数范围或概率值可以通过统计分析和/或专家经验预先进行确定。

在本示例中，假设正常对应分数类别为-200及以下，低危对应分数类别为-100到0、中危对应分数类别为0到200、高危对应分数类别为200及以上。如上所述所述待检测数据的分值为100，则确定该待检测数据的风险类别为中危。

在另一示例中，所述分数与风险类别的对应关系包括每一个类别对应的概率值范围；所述根据预设的分数与风险类别的对应关系以及所述待检测数据的分数确定所述待检测数据的风险类别，包括：

确定所述待检测数据的分数对应的概率值；

例如上面举例提到的待检测数据的分值为100，则根据预先设置的转换规则将分值100转换为概率值，假设预先设置的转换规则为-300对应概率值0％，300对应概率值100％，则分值100对应得概率值为17％。假设正常对应概率值为从等于0-25％，低危对应概率值为从等于25％到50％、中危对应概率值为从等于50％到75％、高危对应概率值为从等于75％到100％。如上所述所述待检测数据的概率值为17％，则确定该待检测数据的风险类别为正常。

本实施例中，通过设定黑、灰、白三类数据对应的黑分数和白分数，并将三分类问题再转换成三个二分类问题。再将三个二分类问题对应的三个模型预测出的黑分数和白分数进行相加，得到模型融合后汇总的黑分数和白分数，再将汇总的黑分数和白分数之差对应风险类别的分数范围或概率值，最后再将数据转化成正常、低危、中危、高危的四个类别。

相较于现有的利用黑白二分类模型检测数据的风险类别，本发明实施例提供的技术方案，利用上一实施例提供的训练方法训练好的三个二分类模型检测数据的风险类别，检测效果更精确。

图8为本发明另一实施例提供的一种数据风险类别的检测方法的流程示意图，如图8所示，该方法包括：

步骤801，将待检测数据分别输入预先训练好的三分类模型，输出得到所述待检测数据的数据类型；

其中，所述数据类型为正常数据或者恶意数据或者灰数据。

步骤802，根据预设分数规则将所述数据类型对应的黑分数减去对应的白分数得到的分数作为所述待检测数据的分数；

其中，所述预设分数规则包括：

在一示例中，对每个数据类型设置两个分数，即黑分数和白分数。如果在三分类被分成黑样本，则黑分数为100，白分数为0。如果在三分类中被分成灰样本，则黑分数为50，白分数为50。如果在三分类中被分成白样本，则黑分数为0，白分数为100。单个样本的黑分数减去白分数即为该样本的最终分数。

在另一示例中，假设第一预设分数为100分，第二预设分数为0分，第三预设分数为0分，第四预设分数为100分，第五预设分数为50分，第六预设分数为50分。假设所述待检测数据的数据类型为灰数据，则对应的黑分数为50，白分数为50，则将黑分数减去白分数为50-50＝0，则所述待检测数据的分值为0。

步骤803，风险类别包括正常、低危、中危、高危四个类别，每一个类别对应各自的分数范围，确定所述待检测数据的分数落入的分数范围；将所述落入的分数范围对应的风险类别作为所述待检测数据的风险类别。

在本示例中，假设正常对应分数类别为-200及以下，低危对应分数类别为-100到0(包含0)、中危对应分数类别为0(不包含0)到200、高危对应分数类别为200及以上。如上所述所述待检测数据的分值为0，则确定该待检测数据的风险类别为低危。

确定所述待检测数据的分数对应的概率值；

例如上面举例提到的待检测数据的分值为0，则根据预先设置的转换规则将分值0转换为概率值，假设预先设置的转换规则为-300对应概率值0％，300对应概率值100％，则分值0对应得概率值为50％。假设正常对应概率值为从等于0-25％，低危对应概率值为从等于25％到50％、中危对应概率值为从等于50％到75％、高危对应概率值为从等于75％到100％。如上所述所述待检测数据的概率值为50％，则确定该待检测数据的风险类别为中危。

本实施例中，通过设定黑、灰、白三类数据对应的黑分数和白分数，通过三分类模型预测出的黑分数和白分数进行相减，得到黑分数和白分数之差对应风险类别的分数范围或概率值，最后再将数据转化成正常、低危、中危、高危的四个类别。

相较于现有的利用黑白二分类模型检测数据的风险类别，本发明实施例提供的技术方案，利用上一实施例提供的训练方法训练好的三分类模型检测数据的风险类别，检测效果更精确。

图9为本发明另一实施例提供的一种数据风险类别的检测方法的流程示意图，如图9所示，该方法包括：

步骤901，将待检测数据分别输入预先训练好的六个二分类模型，输出得到所述待检测数据的六个数据类型；

其中，第一个数据类型为正常数据或者恶意数据，第二个数据类型为恶意数据或者黑灰数据，第三个数据类型为恶意数据或者白灰数据，第四个数据类型为正常数据或者白灰数据，第五个数据类型为正常数据或者黑灰数据，第六个数据类型为黑灰数据或者白灰数据，。

步骤902，根据预设分数规则将六个数据类型分别对应的黑分数相加得到融合后的黑分数；将六个数据类型分别对应的白分数相加得到融合后的白分数；将融合后的黑分数减去融合后的白分数得到的分数作为所述待检测数据的分数；

其中，所述预设分数规则包括：

黑灰数据对应的黑分数为第七预设分数，对应的白分数为第八预设分数，第七预设分数小于第一预设分数，第八预设分数小于第四预设分数；

白灰数据对应的黑分数为第九预设分数，对应的白分数为第十预设分数，第十预设分数小于第八预设分数，第九预设分数小于第七预设分数。

在一示例中，对每个数据类型设置两个分数，即黑分数和白分数。如果在二分类被分成黑样本，则黑分数为100，白分数为0。如果在二分类中被分成黑灰样本，则黑分数为80，白分数为20。如果在二分类中被分成白灰样本，则黑分数为20，白分数为80。如果在二分类中被分成白样本，则黑分数为0，白分数为100。单个样本的黑分数和白分数等于六个模型对应的黑分数之和和白分数之和，而样本的最终分数为黑分数之和减去白分数之和。

在另一示例中，假设第一预设分数为100分，第二预设分数为0分，第三预设分数为0分，第四预设分数为100分，第七预设分数为70分，第八预设分数为30分，第九预设分数为30分，第十预设分数为70分。假设所述待检测数据的第一个类型为恶意数据对应的黑分数为100，白分数为0；第二个数据类型为白灰数据对应的黑分数为30，白分数为70；第三个类型数据类型为黑灰数据对应的黑分数为70，白分数为30；第四个类型数据类型为黑灰数据对应的黑分数为70，白分数为30；第五个类型数据类型为白灰数据对应的黑分数为30，白分数为70，第六个类型数据类型为白灰数据对应的黑分数为30，白分数为70，则将六个黑分数相加为100+30+70+70+30+30＝330，将六个白分数相加为0+70+30+30+70+70＝270，则所述待检测数据的分值为330-270＝60。

步骤903，风险类别包括正常、低危、中危、高危四个类别，每一个类别对应各自的分数范围，确定所述待检测数据的分数落入的分数范围；将所述落入的分数范围对应的风险类别作为所述待检测数据的风险类别。

在本示例中，假设正常对应分数类别为-200及以下，低危对应分数类别为-100到0、中危对应分数类别为0到200、高危对应分数类别为200及以上。如上所述所述待检测数据的分值为60，则确定该待检测数据的风险类别为中危。

确定所述待检测数据的分数对应的概率值；

例如上面举例提到的待检测数据的分值为60，则根据预先设置的转换规则将分值60转换为概率值，假设预先设置的转换规则为-300对应概率值0％，300对应概率值100％，则分值60对应得概率值为10％。假设正常对应概率值为从等于0-25％，低危对应概率值为从等于25％到50％、中危对应概率值为从等于50％到75％、高危对应概率值为从等于75％到100％。如上所述所述待检测数据的概率值为10％，则确定该待检测数据的风险类别为正常。

本实施例中，通过设定黑、黑灰、白灰、白四类数据对应的黑分数和白分数，并将四分类问题再转换成六个二分类问题。再将六个二分类问题对应的六个模型预测出的黑分数和白分数进行相加，得到模型融合后汇总的黑分数和白分数，再将汇总的黑分数和白分数之差对应风险类别的分数范围或概率值，最后再将数据转化成正常、低危、中危、高危的四个类别。

相较于现有的利用黑白二分类模型检测数据的风险类别，本发明实施例提供的技术方案，利用上一实施例提供的训练方法训练好的流个二分类模型检测数据的风险类别，检测效果更精确。

图10为本发明另一实施例提供的一种数据风险类别的检测方法的流程示意图，如图10所示，该方法包括：

步骤1001，将待检测数据分别输入预先训练好的四分类模型，输出得到所述待检测数据的数据类型；

其中，所述数据类型为正常数据或者恶意数据或者黑灰数据或者白灰数据。

步骤1002，根据预设分数规则将所述数据类型对应的黑分数减去对应的白分数得到的分数作为所述待检测数据的分数；

其中，所述预设分数规则包括：

在一示例中，对每个数据类型设置两个分数，即黑分数和白分数。如果在四分类被分成黑样本，则黑分数为100，白分数为0。如果在四分类中被分成黑灰样本，则黑分数为80，白分数为20。如果在四分类中被分成白灰样本，则黑分数为20，白分数为80。如果在四分类中被分成白样本，则黑分数为0，白分数为100。单个样本的黑分数减去白分数即为该样本的最终分数。

在另一示例中，在另一示例中，假设第一预设分数为100分，第二预设分数为0分，第三预设分数为0分，第四预设分数为100分，第七预设分数为70分，第八预设分数为30分，第九预设分数为30分，第十预设分数为70分。假设所述待检测数据的数据类型为白灰数据，则对应的黑分数为30，白分数为70，则将黑分数减去白分数为70-30＝40，则所述待检测数据的分值为40。

步骤1003，风险类别包括正常、低危、中危、高危四个类别，每一个类别对应各自的分数范围，确定所述待检测数据的分数落入的分数范围；将所述落入的分数范围对应的风险类别作为所述待检测数据的风险类别。

在本示例中，假设正常对应分数类别为-200及以下，低危对应分数类别为-100到0(包含0)、中危对应分数类别为0(不包含0)到200、高危对应分数类别为200及以上。如上所述所述待检测数据的分值为40，则确定该待检测数据的风险类别为中危。

确定所述待检测数据的分数对应的概率值；

例如上面举例提到的待检测数据的分值为40，则根据预先设置的转换规则将分值40转换为概率值，假设预先设置的转换规则为-300对应概率值0％，300对应概率值100％，则分值40对应得概率值为7％。假设正常对应概率值为从等于0-25％，低危对应概率值为从等于25％到50％、中危对应概率值为从等于50％到75％、高危对应概率值为从等于75％到100％。如上所述所述待检测数据的概率值为7％，则确定该待检测数据的风险类别为正常。

本实施例中，通过设定黑、灰、白三类数据对应的黑分数和白分数，通过三分类模型预测出的黑分数和白分数进行相减，得到黑分数和白分数之差对应风险类别的分数范围或者概率值，最后再将数据转化成正常、低危、中危、高危的四个类别。

相较于现有的利用黑白二分类模型检测数据的风险类别，本发明实施例提供的技术方案，利用上一实施例提供的训练方法训练好的四分类模型检测数据的风险类别，检测效果更精确。

在本发明的另一实施例中，上述任一实施例提供的检测方法可以用于数据的离线预测和在线预测。

其中，针对离线预测包括两种模式：第一种模式是直接基于训练好的分类模型直接预测：第二种模式，当待检测的数据为多个时，结合聚类进行检测，包括：

利用预设的聚类算法对多个数据进行聚类得到多个类簇；

对每一个类簇执行如下操作：

对该类簇中的每一个数据执行上述任一项所述的检测方法；

当该类簇中风险类别为正常数据的个数占比超过预设阈值时，则将该类簇中全部数据的风险类别确定为正常。

其中，预设的聚类算法可以为现有的任一种聚类算法，例如DBSCAN算法。

在一示例中，先通过词向量算法对待检测数据进行特征提取，然后使用DBSCAN对提取的特征进行聚类，再对聚类后的每个样本进行分类。

如此，如果聚类后的簇中大多数样本为白样本，则将该簇都划分成白样本。之所以只修改为白样本，是由于白样本数量较少，如果误报率较大，就会导致系统的可用性急剧降低，因此降低误报率就显得很重要。在分类之前进行聚类，然后再进行分类，如果聚类后的簇中大多数样本都被分类成白样本，则将该簇中的所有样本都标定成白样本，从而将部分原本识别成恶意的数据标定为正常数据，降低了误报率。

其中，在线预测指的是使用服务的方式对线上的每个样本进行实时的预测，因此直接基于训练好的分类模型直接预测即可。

本实施例提供的技术方案，对批量测试数据先进行聚类然后再进行分类，从而降低误报率。

在本发明的另一实施例中，上述任一项检测方法，还包括：

显示所述待检测数据的风险类别。

在一示例中，可以利用检测系统的显示模型显示所述待检测数据的风险类别。例如，将待检测数据的风险类别最终显示为正常、低危、中危、高危的四个类别中的一个。

本发明的一实施例还提供了一种电子装置，如图11所示，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述任一项所述分类模型的训练方法，或者上述任一项所述数据风险类别的检测方法。

本发明的一实施例还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有信息处理程序，所述信息处理程序被处理器执行时实现上述任一项所述分类模型的训练方法，或者上述任一项所述数据风险类别的检测方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种分类模型的训练方法，包括：

根据全部训练数据对分类模型进行训练。

2.根据权利要求1所述的训练方法，其特征在于，所述对原始训练数据进行数据增强得到新的数据类型的训练数据，包括：

通过以下一种或者多种方式进行数据增强得到新的数据类型的训练数据：

3.根据权利要求2所述的训练方法，其特征在于，

所述新的数据类型为N种，N为1或2；

所述根据全部训练数据对分类模型进行训练，包括：

或者，将全部训练数据作为一种训练样本；

4.根据权利要求2所述的训练方法，其特征在于，

所述恶意数据为恶意代码，所述正常数据为正常代码，所述第一预设字段为从原始训练数据对应编程语言的全部内建函数中随机选择第一预设比例的内建函数；所述第二预设字段为从原始训练数据对应编程语言的全部内建函数中随机选择第二预设比例的内建函数；

或者，所述恶意数据为DGA域名，所述正常数据为正常域名；所述第一预设字段为从原始训练数据中DGA域名对应的全部字符中随机选择的一个或者多个字符，所述第二预设字段为从原始训练数据中DGA域名对应的全部字符中随机选择一个或者多个字符。

5.一种数据风险类别的检测方法，包括：

其中，所述预先训练好的分类模型是根据权利要求1-4中任一项所述训练方法训练得到的分类模型。

6.根据权利要求5所述的检测方法，其特征在于，当所述待检测数据包括多个数据时，

利用预设的聚类算法对所述多个数据进行聚类得到多个类簇；

对每一个类簇执行如下操作：

对该类簇中的每一个数据执行所述检测方法

7.根据权利要求5或6所述的检测方法，其特征在于，

所述预先训练好的分类模型为预先训练好的X个二分类模型，所述待检测数据的数据类型为X个数据类型；所述计算包括：将X个数据类型分别对应的黑分数相加得到融合后的黑分数；将X个数据类型分别对应的白分数相加得到融合后的白分数；将融合后的黑分数减去融合后的白分数得到的分数作为所述待检测数据的分数；

其中，当X＝3或者Y＝3时，所述预设分数规则包括：

当X＝6或者Y＝4时，所述预设分数规则包括：

8.根据权利要求5所述的检测方法，其特征在于，

所述风险类别包括预设的M个类别，M为大于或者等于2的自然数；

所述分数与风险类别的对应关系包括每一个类别对应的分数范围；所述根据预设的分数与风险类别的对应关系以及所述待检测数据的分数确定所述待检测数据的风险类别，包括：

确定所述待检测数据的分数落入的分数范围；

确定所述待检测数据的分数对应的概率值；

9.一种电子装置，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述分类模型的训练方法，或者如权利要求5至8中任一项所述数据风险类别的检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有信息处理程序，所述信息处理程序被处理器执行时实现如权利要求1至4中任一项所述分类模型的训练方法，或者如权利要求5至8中任一项所述数据风险类别的检测方法。