CN115118514A

CN115118514A - 一种数据检测方法、装置、设备及介质

Info

Publication number: CN115118514A
Application number: CN202210813783.XA
Authority: CN
Inventors: 黄忠强; 杨荣海
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2022-09-27

Abstract

本申请公开了一种数据检测方法、装置、设备及介质；其中，所述方法包括：获取待检测数据；通过第一模型对待检测数据进行特征检测，得到第一数据；其中，所述第一模型用于提取威胁数据的共性特征；通过第二模型对所述第一数据进行特征检测，得到第二数据；其中，所述的第二模型用于提取攻击类型特征；基于所述第二数据，确定所述待检测数据的类型信息。

Description

一种数据检测方法、装置、设备及介质

技术领域

本申请涉及数据检测技术领域，尤其涉及一种数据检测方法、装置、设备及介质。

背景技术

采用检测模型对数据进行检测以确定网络安全状态得到了广泛的应用。然而，在实际应用中，由于网络攻击的数据噪声过多，从而使得检测模型无法精确提取攻击特征，进而使得检测模型的检测精度不足。

发明内容

基于以上问题，本申请实施例提供了一种数据检测方法、装置、设备及介质。

本申请实施例提供的技术方案是这样的：

本申请实施例提供了一种数据检测方法，所述方法包括：

获取待检测数据；

通过第一模型对所述待检测数据进行特征检测，得到第一数据；其中，所述第一模型用于提取威胁数据的共性特征；

通过第二模型对所述第一数据进行特征检测，得到第二数据；其中，所述第二模型用于提取攻击类型特征；

基于所述第二数据，确定所述待检测数据的类型信息。

在一些实施例中，所述通过第二模型对所述第一数据进行特征检测，得到第二数据，包括：

若所述第一数据包括所述共性特征中的至少一种特征，通过所述第二模型对所述第一数据进行特征检测，得到所述第二数据。

在一些实施例中，所述第二模型包括K个子模型；第k子模型用于检测第k攻击类型特征；k为大于或等于1且小于或等于K的整数；所述通过第二模型对所述第一数据进行特征检测，得到第二数据，包括：

通过第一子模型至第K子模型分别对所述第一数据进行特征检测，得到第一子数据至第K子数据；

对所述第一子数据至所述第K子数据进行分析，得到所述第二数据。

在一些实施例中，所述方法还包括：

获取样本数据；其中，所述样本数据包括多种类型的所述威胁数据；所述样本数据还包括威胁特征标识；所述威胁特征标识包括多种类型的所述威胁数据的共性特征；

确定第一初始模型；

通过所述第一初始模型对所述样本数据进行特征检测，得到第三数据；

基于所述威胁特征标识与所述第三数据，对所述第一初始模型的参数进行调整，得到参数调整后的所述第一初始模型；

确定所述参数调整后的所述第一初始模型为所述第一模型。

在一些实施例中，所述方法还包括：

获取第k子样本数据；其中，所述第k子样本数据包括第k攻击类型的样本数据；所述第k子样本数据具备第k攻击特征标识；k为大于或等于1的整数；所述第k子样本数据的数据量小于所述样本数据的数据量；

确定与所述第k子样本数据对应的第k初始子模型；

通过第k初始子模型，对所述第k子样本数据进行处理，得到第四数据；

基于所述第四数据与所述第k攻击特征标识，对所述第k初始子模型的参数进行调整，得到参数调整后的第k初始子模型；

对参数调整后的k个初始子模型进行组合，得到所述第二模型。

在一些实施例中，所述对参数调整后的k个初始子模型进行组合，得到所述第二模型，包括：

获取所述样本数据中不同类型的所述威胁数据之间的关联信息；

基于所述关联信息，对参数调整后的第一初始子模型、至参数调整后的第K初始子模型进行组合，得到所述第二模型。

在一些实施例中，所述获取第k子样本数据，包括：

从所述第三数据或所述样本数据中获取所述第k子样本数据。

本申请实施例还提供了一种数据检测装置，所述装置包括：

获取模块，用于获取待检测数据；

检测模块，用于通过第一模型对待检测数据进行特征检测，得到第一数据；其中，第一模型用于提取威胁数据的共性特征；

所述检测模块，还用于通过第二模型对所述第一数据进行特征检测，得到第二数据；其中，所述第二数据用于提取攻击类型特征；

确定模块，用于基于所述第二数据，确定所述待检测数据的类型信息。

本申请实施例还提供了一种电子设备，所述电子设备包括处理器以及存储器；所述存储器中存储有计算机程序；所述计算机程序被所述处理器执行时，能够实现前任一所述的数据检测方法。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序；所述计算机程序被电子设备的处理器执行时，能够实现如前一所述的数据检测方法。

由以上可知，本申请实施例提供的数据检测方法，首先通过第一模型提取待检测数据中威胁数据的共性特征得到第一数据，从而使得第一数据中噪声信息大大减少，此时再通过第二模型提取第一数据中的攻击类型特征，不仅削弱了噪声数据对第二模型特征检测的影响，而且提高了对第一数据的特征检测的精度。

附图说明

图1为本申请实施例提供的数据检测方法的流程示意图；

图2为本申请实施例提供的得到第二数据的流程示意图；

图3为本申请实施例提供的得到第一模型的流程示意图；

图4为本申请实施例提供的得到第二模型的流程示意图；

图5为本申请实施例提供的数据检测方法的结构示意图；

图6为本申请提供的数据检测装置的结构示意图；

图7为本申请提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

当前主流的网络攻击检测技术，主要是通过攻击数据的攻击规则对网络数据进行过滤，以确定网络数据是否为威胁数据。在上述方案实现过程中，攻击规则需要首先确定。因此，专业技术人员需要先行收集已知的网络攻击数据，然后分析这些攻击数据的攻击规则或攻击特征，并构建攻击特征库，再根据攻击特征库中的特征或规则对网络数据进行检测，从而确定网络数据是否为攻击数据或威胁数据。

然而，在上述数据检测过程中，只能从已确定为攻击类型或威胁类型的攻击数据中提取攻击规则或攻击特征，因此，上述方案无法实现对潜在威胁数据或新类型的威胁数据的精确检测，所以上述方案的滞后性非常明显；与此同时，在实际应用中，随着攻击手法以及混淆绕过技术的不断更新，提取得到的攻击规则或攻击特征的有效性也难以确定，因此上述方案的漏检测和误检测的概率很高。

为了克服以上技术问题，相关技术中还提出了通过检测模型对待检测数据进行特征检测的方案，但是由于实际的网络攻击数据噪声过多，从而使得检测模型无法精确提取攻击特征，进而使得检测模型的检测精度不足。

基于以上问题，本申请实施例提供了一种数据检测方法、装置、设备及介质。本申请实施例提供的数据检测方法，首先通过第一模型提取待检测数据中威胁数据的共性特征得到第一数据，一方面能够从待检测数据中提取威胁数据的共性特征，另一方面还大大降低了第一数据中的噪声信息，在这种情况下，再通过第二模型提取第一数据中的攻击类型特征时，不仅降低了噪声信息对第二模型的影响，而且提高了检测精度。

需要说明的是，上述数据检测方法，可以是通过电子设备的处理器实现的，上述处理器可以为特定用途集成电路(Application Specific Integrated Circuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital SignalProcessing Device，DSPD)、可编程逻辑装置(Programmable Logic Device，PLD)、现场可编程逻辑门阵列(Field Programmable Gate Array，FPGA)、中央处理器(CentralProcessing Unit，CPU)、控制器、微控制器、微处理器中的至少一种。

图1为本申请实施例提供的数据检测方法的流程示意图，如图1所示，该流程可以包括步骤101至步骤104：

步骤101、获取待检测数据。

在一种实施方式中，待检测数据可以包括至少一种类型的数据，比如文本数据、图片数据、视频数据、可执行代码数据、命令行数据、以及网页数据等。

在一种实施方式中，待检测数据可以包括实时获取到的网络流量数据，也可以包括历史网络流量数据；示例性的，待检测数据可以是电子设备的网络流量数据，也可以是其它设备的网络流量数据。

步骤102、通过第一模型对待检测数据进行特征检测，得到第一数据。

其中，第一模型用于提取威胁数据的共性特征。

在一种实施方式中，威胁数据可以包括对电子设备的安全状态产生威胁的程度大于威胁阈值的数据，比如病毒数据或木马数据等。

在一种实施方式中，威胁数据的共性特征可以包括任意类型的威胁数据所具备的特征，比如主动闭合或者函数隐藏特征等。

在一种实施方式中，威胁数据的共性特征，可以包括用于区别威胁数据与安全数据的基本特征。

在一种实施方式中，第一数据可以包括至少一种共性特征。

示例性的，通过第一模型对待检测数据进行特征检测，可以是通过以下方式实现的：

通过第一模型中的威胁数据的共性特征参数，对待检测数据的数据结构、数据量、待检测数据中各个数据的数据类型、以及待检测数据中的各个数据可能的组合方式进行特征分析检测，从而得到第一数据。

步骤103、通过第二模型对第一数据进行特征检测，得到第二数据。

其中，第二模型用于提取攻击类型特征。

在一种实施方式中，攻击类型特征可以包括具体类型的攻击手段的特征；示例性的，具体类型的攻击手段可以包括跨站脚本攻击(Cross Site Scripting，XSS)、刺探与扫描、监听、拒绝服务、恶意程序以及命令注入等。其中，XSS是当前普遍的网络应用安全漏洞之一。

在一种实施方式中，攻击类型特征可以包括用于区分不同攻击手段或攻击方式的特征，比如，第一类攻击方式具备第一类型特征，第二类攻击方式具备第二类型特征，第一类型特征可以与第二类型特征不同。

示例性的，通过第二模型对第一数据进行特征检测得到第二数据，可以通过以下方式实现：

通过第二模型对第一数据中包含的威胁数据的共性特征的特征参数值、特征组合、以及特征关联关系中的至少一种进行特征检测，从而得到第二数据。

步骤104、基于第二数据，确定待检测数据的类型信息。

在一种实施方式中，待检测数据的类型信息可以包括与第二数据所包含的攻击类型特征对应的类型信息；示例性的，攻击类型特征与类型信息之间可以具备一一对应的关联关系，如此，通过关联关系中的攻击类型特征、与第二数据之间的匹配关系，就能从关联关系中确定与第二数据对应的类型信息。

在一种实施方式中，待检测数据的类型信息可以包括待检测数据是否为安全数据的信息；示例性的，若第二数据中包括至少一种攻击类型特征，可以确定待检测数据为威胁数据或潜在威胁数据；若第二数据中未包含任一攻击类型特征，则可以确定待检测数据为安全数据。

基于前述实施例，本申请实施例提供的数据检测方法中，通过第二模型对第一数据进行特征检测，得到第二数据，可以通过以下方式实现：

若第一数据包括共性特征中的至少一种特征，通过第二模型对第一数据进行特征检测，得到第二数据。

示例性的，若第一数据并未包括共性特征中的任一特征，则可以不执行通过第二模型对第一数据进行特征检测，从而得到第二数据的操作。

在一种实施方式中，可以根据第一数据中包含的共性特征的数量、类型、各种共性特征之间的关联关系中的至少一种，构建检测条件，然后通过检测条件对第二模型进行设置，并通过设置后的第二模型对第一数据进行特征检测，从而得到第二数据；示例性的，检测条件可以包括需要第二模型重点检测的特征或需要第二模型输出的数据格式等信息。

由以上可知，本申请实施例提供的数据检测方法中，在通过第一模型对待检测数据得到的第一数据包括共性特征中的至少一种特征的条件下，通过第二模型对第一数据进行特征检测，得到第二数据。

由此，本申请实施例提供的数据检测方法，第一数据包括共性特征中的至少一种特征，能够表示待检测数据为潜在威胁数据，此时再通过第二模型对第一数据进行特征检测，不仅能够提高特征检测精度，而且可以降低特征检测的运算量，从而大大提高检测效率。

基于前述实施例，本申请实施例提供的数据检测方法中，第二模型包括K个子模型；第k子模型用于检测第k攻击类型特征；k为大于或等于1且小于或等于K的整数。

在一种实施方式中，第二模型中的K个子模型可以包括依次串联的关联关系，比如，第k子模型的下一级联模型可以为第k+1子模型。

在一种实施方式中，第二模型中的K个子模型之间可以包括并联的连接关系。

在一种实施方式中，第二模型中的K个子模型之间可以包括串联与并联混合的连接关系；示例性的，可以将用于检测相关特征的子模型串联，得到串联模型集合，而将其他子模型与串联模型集合并联设置。

在一种实施方式中，第k攻击类型特征可以包括用于区分第k攻击方式与其它攻击类型的特征；示例性的，第k攻击类型特征可以是第k攻击方式独有的特征，也可以包括第k攻击方式与其它至少一种攻击方式具备的攻击特征，但第k攻击类型特征的特征取值，可以与其它至少一种攻击方式的相同攻击类型特征的特征取值不同。

示例性的，通过第二模型对第一数据进行特征检测，得到第二数据，可以通过图2所示的流程实现，图2为本申请实施例提供的得到第二数据的流程示意图，如图2所示，该流程可以包括步骤201至步骤202：

步骤201、通过第一子模型至第K子模型分别对第一数据进行特征检测，得到第一子数据至第K子数据。

在一种实施方式中，若第一子模型至第K子模型之间的连接关系包括依次串联的连接关系，则可以通过第k+1子模型对第k子模型的特征检测结果进行特征检测，从而得到第k+1子数据，以此类推，最终得到第一子数据至第K子数据；示例性的，第k+2子模型的输入可以仅包含第k+1子模型特征检测结果，还可以包括第k子模型与第k+2子模型之间的残差连接，即第k+1子模型的输入数据也可以输入至第k+2子模型，从而对抗梯度下降对特征检测的消极影响。

在一种实施方式中，若第一子模型至第K子模型之间的连接关系包括并联的连接关系，则可以分别将第一数据输入至第一子模型至第K子模型，第一子模型至第K子模型分别对第一数据进行特征检测，从而得到第一子数据至第K子数据。

步骤202、对第一子数据至第K子数据进行分析，得到第二数据。

示例性的，第二数据可以是通过以下任一方式得到的：

对第一子数据至第K子数据中是否携带有攻击类型特征进行分析，若第一子数据至第K子数据中均未携带攻击类型特征，则可以设置第二数据为安全数据的特征属性值。

对第一子数据至第K子数据中包含的攻击类型特征进行综合分析，得到包含至少一种攻击类型特征的综合结果，然后分析综合结果中至少一种攻击类型特征之间的关联关系，并将得到的分析结果确定为第二数据。

对第一子数据至第K子数据中包含的攻击类型特征进行分析，得到攻击类型特征集合，然后确定第二数据为具备上述攻击类型特征集合的攻击类型信息。

由以上可知，本申请实施例提供的数据检测方法中，第二模型包括K个子模型，且第k子模型用于检测第k攻击类型特征，并且，通过第一子模型至第K子模型分别对第一数据进行特征检测得到第一子数据至第K子数据之后，能够对第一子数据至第K子数据进行分析，从而得到第二数据。

由此，本申请实施例提供的数据检测方法中，第二模型中不同的子模型用于检测不同的攻击类型特征，相对于相关技术中通过一个模型实现对多种攻击类型特征检测的检测模型，本申请实施例中的第二模型的结构特点，不仅降低了第二模型的复杂度，而且还大大提高了攻击类型特征的检测精度。

基于前述实施例，本申请实施例提供的数据检测方法，还可以包括图3所示的流程，图3为本申请实施例提供的得到第一模型的流程示意图，如图3所示，该流程可以包括步骤301至步骤305：

步骤301、获取样本数据。

其中，样本数据包括多种类型的威胁数据；样本数据还包括威胁特征标识；威胁特征标识包括多种类型的威胁数据的共性特征。

在一种实施方式中，样本数据中包含的多种类型的威胁数据，可以包括历史检测到的多种类型的网络攻击数据；示例性的，在检测到网络攻击数据之后，可以对网络攻击数据进行清洗，祛除其中的冗余数据或噪声数据，并为清洗之后的网络攻击数据设置威胁特征标识，然后将设置威胁特征标识的数据确定为样本数据。

在一种实施方式中，样本数据可以包括对指定类型设备、在指定时间段、或者针对指定客户群体的多种类型的威胁数据；示例性的，指定类型设备可以包括服务器设备；指定时间段可以包括节假日时段；指定客户群体可以包括银行等保管有私密数据的客户群体。

步骤302、确定第一初始模型。

在一种实施方式中，第一初始模型可以根据样本数据所关联的设备类型、时间段、客户群体以及数据检测需求而确定或调整；示例性的，第一初始模型可以包括卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Networks，RNN)、长短期记忆模型循环神经网络(Long-Short Term Memory RNN，LSTM)、以及使用自注意力机制的Transformer中的任一，本申请实施例对此不作限定。

步骤303、通过第一初始模型对样本数据进行特征检测，得到第三数据。

在一种实施方式中，可以将样本数据输入至第一初始模型，并通过第一初始模型对样本数据的数据结构、数据量、以及样本数据中各个数据之间的关联关系中的至少一种，进行特征提取和检测，从而得到第三数据。

步骤304、基于威胁特征标识与第三数据，对第一初始模型的参数进行调整，得到参数调整后的第一初始模型。

在一种实施方式中，若威胁特征标识与第三数据不匹配，则确定威胁特征标识与第三数据中不匹配的特征集合，并根据特征集合调整第一初始模型的参数，从而得到参数调整后的第一初始模型；示例性的，可以基于参数调整后的第一初始模型递归执行步骤301至步骤304，直至威胁特征标识与第三数据之间的匹配程度大于或等于匹配阈值为止，此时可以得到最终的参数调整后的第一初始模型。

步骤305、确定参数调整后的第一初始模型为第一模型。

示例性的，在第一初始模型的参数调整过程中，可以采用机器学习或深度学习的方法，而不限于具体的学习算法。

在实际应用中，机器学习是一种专门用于研究如何通过计算机模拟或实现人类行为的学习行为，在机器学习过程中，算法能够不断获取新的知识或技能，并重新组织已有的知识结构，以不断的改善自身性能。在实际应用中，机器学习算法可以包括支持向量机(Support Vector Machine，SVM)算法、梯度下降决策树(Gradient Boosting DecisionTree，GBDT)算法、以及随机森林(Random Forest，RF)算法等。

而深度学习最初被人们认为是机器学习的一个分值。实际上，深度学习是指利用人工神经网络对数据进行表征学习的一种算法。近年来，得益于计算机硬件计算能力的提升，神经网络的结构可以设置的比较深，这使得深度学习在许多人工智能的计算和处理任务中的作用越来越重要。

在实际应用中，虽然每种网络攻击的特征不同，但不同的网络攻击之间存在着很多相似的特征，比如结构化查询语言(Structured Query Language，SQL)注入与XSS都常用一些主动闭合以及函数隐藏的攻击行为，比如命令注入与XSS也具备Eval函数的攻击特点。因此，通过包含多种类型的威胁数据的样本数据对第一初始模型进行训练得到第一模型，相当于在大量的恶意网络数据流量的基础上，得到了一个用于检测威胁数据的共性特征的威胁检测模型，示例性的，可以将该威胁检测模型或第一模型记为通用任务模型。

并且，不同类型的威胁数据对应的样本数据都携带有或多或少的噪声数据，在通常情况下，不同类型的威胁数据对应的样本数据所携带的噪声数据可能不同，比如对于命令注入类型的样本数据携带的噪声通常较少，而XSS类型的样本数据携带的噪声通常较多，在这种情况下，采用一种威胁数据对应的样本数据单独训练针对该类型威胁数据的检测模型，往往会导致检测模型的检测效率低下；而通过多种威胁数据的样本数据得到第一模型的过程中，携带噪声较多的威胁数据的样本数据、与携带噪声较少的威胁数据的样本数据之间可以相互平衡，从而实现多类型的共性特征的高效学习。

与此同时，不同种类的威胁数据对应的样本数据获取难易程度不同，比如XSS对应的样本数据较为丰富，而可扩展标记语言外部实体注入(Extensible Markup LanguageXML External Entity Injection，XXE)的样本较少，由于XSS与XXE的攻击特征相似度较高，因此，通过包含少量XXE以及大量XSS的样本数据训练得到的第一模型，可以通过学习XSS的特征实现对XXE的辅助检测，从而弱化XXE样本数据获取困难导致的样本数据偏少的影响。

并且，在实际的训练过程中，存在第一类型的样本数据在第一类型的检测模型训练过程中发挥的参数调整的作用不明显，而在第二类型的模型训练过程中发挥的参数调整的作用就比较明显的情况，因此，通过基于第一类型以及第二类型的样本数据同时对第一模型的参数调整，也可以增强第一模型的特征检测精度。

通过上述方式训练得到的第一模型，具备对抗0day的能力，比如在学习XSS以及SQL注入任务时，第一模型检测到主动闭合属于共性特征，那么，第一模型可以对应检测待检测数据中是否具备主动闭合的攻击手法，从而实现对任一类型的待检测数据的实时高效检测。

通过上述训练方式得到第一模型的过程中，由于能够实现对威胁数据的共性特征的检测，因此，对第一模型的训练过程相当于是多任务学习的过程；并且，通过上述训练过程，使得第一模型能够利用有效地利用样本数据中的威胁特征标识，降低各种类型的样本数据的噪声影响，提炼各种类型的样本数据之间的关联关系，从而增强第一模型对共性特征的提取效果。

相关技术中用于数据检测的机器学习以及深度学习方案，受限于某一类攻击样本的丰富程度、模型的表达能力、特征的识别能力等因素，效果波动较大；而本申请实施例中通过上述训练过程得到的第一模型，则可以克服以上问题。

由以上可知，本申请实施例提供的数据检测方法，在获取包括多种类型的威胁数据、且包含威胁特征标识的样本数据之后，能够通过样本数据对第一初始模型的参数进行调整得到参数调整后的第一初始模型，并将参数调整后的第一初始模型确定为第一模型。

由此，本申请实施例提供的数据检测方法，通过多种类型的样本数据对第一初始模型进行训练，能够有效降低样本数据中单一类型的威胁数据的噪声、或单一类型的威胁数据对参数调整作用不明显，对第一模型训练产生的消极影响，从而大大提高第一模型对威胁数据的共性特征的检测效率。

基于前述实施例，本申请实施例提供的数据检测方法，还可以包括图4所示的流程，图4为本申请实施例提供的得到第二模型的流程示意图，如图4所示，该流程可以包括步骤401至步骤405：

步骤401、获取第k子样本数据。

其中，第k子样本数据包括第k攻击类型的样本数据；第k子样本数据具备第k攻击特征标识；第k子样本数据的数据量小于样本数据的数据量。

在一种实施方式中，若第k攻击类型的威胁数据的噪声较少、且比较容易获取，则可以通过对的k攻击类型的网络流量数据进行分析清洗等方式获取第k子样本数据；示例性的，在获取第k子样本数据之后，可以标注第k攻击特征标识至第k子样本数据。

在一种实施方式中，若第k攻击类型的威胁数据的噪声较多、或者不容易获取，则可以通过专业技术人员对第k攻击类型的威胁数据的特征进行分析，人工构建第k子样本数据。

在一种实施方式中，第k子样本数据的数据量，可以远远小于样本数据。

步骤402、确定与第k子样本数据对应的第k初始子模型。

在一种实施方式中，可以根据第k子样本数据的数据量、数据结构、数据攻击特征、以及第k攻击类型的数据的攻击场景中的至少一种因素，确定第k初始子模型。

示例性的，第k初始子模型可以为CNN、RNN、以及LSTM中的任一，本申请实施例对此不作限定。

步骤403、通过第k初始子模型，对第k子样本数据进行处理，得到第四数据。

示例性的，通过第k初始子模型对第三数据进行处理得到第四数据的过程，可以与前述实施例中通过第一初始模型对样本数据进行处理得到第三数据的过程相同，此处不再赘述。

步骤404、基于第四数据与第k攻击特征标识，对第k初始子模型的参数进行调整，得到参数调整后的第k初始子模型。

示例性的，基于第四数据与第k攻击特征标识，对第k初始子模型的参数进行调整，得到参数调整后的第k初始子模型的构成，可以与前述实施例中就第三数据与威胁特征标识对第一初始模型的参数进行调整、得到参数调整后的第一初始模型的过程相同，此处不再赘述。

步骤405、对参数调整后的k个初始子模型进行组合，得到第二模型。

示例性的，在k大于或等于2的条件下，在得到参数调整后的第一初始子模型、以及参数调整后的第二初始子模型后，可以基于数据检测需求，对参数调整后的第一初始子模型、以及参数调整后的第二初始子模型进行组合，比如设置二者之间为并联或串联的连接关系。

示例性的，在得到参数调整后的第k初始子模型后，可以基于数据检测需求，对参数调整后的第一初始子模型至参数调整后的第k-1初始子模型、以及参数调整后的第k初始子模型进行组合，比如将参数调整后的第k初始子模型、与参数调整后的第一初始子模型至参数调整后的第k-1初始子模型进行串联或并联组合。

示例性的，当k的取值为K时，在得到K个参数调整后的初始子模型后，可以通过前述实施例中提供的方法对参数调整后的K个初始子模型进行组合，从而得到第二模型。

由以上可知，在本申请实施例提供的数据检测方法中，获取数据量小于第样本数据的数量的第k子样本数据之后，能够通过少量的第k子样本数据对第k子初始模型的参数进行调整，得到参数调整后的第k初始子模型，对参数调整后的k个初始子模型进行组合，得到第二模型。

由此，本申请实施例提供的数据检测方法，通过少量的第k攻击类型特征的第k子样本数据对第k子初始模型的参数进行调整，就能得到用于检测第k攻击类型特征的第二模型，从而降低了第二模型的训练要求，也能提高第二模型检测第k攻击类型特征的精度。

基于前述实施例，本申请实施例提供的数据检测方法中，获取第k子样本数据，可以通过以下方式实现：

从第三数据或样本数据中获取第k子样本数据。

示例性的，由于第三数据为第一初始子模型对样本数据检测得到的数据，因此，第三数据中携带的样本噪声较少，且还能够基于样本数据为第三数据设置第k攻击特征标识，从而进一步减少了第k子样本数据中的噪声数据，还能提高第k子样本数据的有效性。

示例性的，从样本数据中得到与第k攻击类型的子数据之后，可以根据第k攻击类型的子数据的噪声数据量对该子数据进行清洗或处理，从而能够提高第k子初始模型的模型训练速度和效率。

由以上可知，本申请实施例提供的数据检测方法中，用于对第k子初始模型进行训练的第k子数据，是从第三数据或样本数据中获取的，从而使得第k子数据中数据噪声较少，进而提高了第k子数据在第k初始子模型训练过程中的有效性。

基于前述实施例，本申请实施例提供的数据检测方法中，对参数调整后的k个初始子模型进行组合，得到第二模型，可以通过以下方式实现：

获取样本数据中不同类型的威胁数据之间的关联信息；基于关联信息，对参数调整后的第一初始子模型、至参数调整后的第K初始子模型进行组合，得到第二模型。

示例性的，第一初始子模型至第K初始子模型可以构成第二初始模型。

示例性的，关联信息可以表示不同类型的威胁数据之间是否具备关联关系，或者不同类型的威胁数据之间关联关系的强弱；示例性的，关联信息可以通过不同类型的威胁数据的攻击时段、攻击的目标数据、攻击结果返回方式、攻击结果返回的目标设备的设备标识、发动攻击的源设备的设备标识、以及攻击手法中的至少一种信息之间的相关性而确定，本申请实施例对此不作限定；示例性的，上述设备标识可以包括设备的网络地址；示例性的，网络地址可以包括域名系统(Domain Name System，DNS)和/或网络协议(InternetProtocol，IP)。

示例性的，参数调整后的第一初始子模型、至参数调整后的第K初始子模型中的任一，可以通过前述实施例提供的得到参数调整后的第k初始子模型的方式得到，此处不再赘述。

示例性的，参数调整后的第一初始子模型、至参数调整后的第K初始子模型，可以记为第一子模型、至第K子模型。

示例性的，参数调整后的第一初始子模型、至参数调整后的第K初始子模型，可以分别用于提取第一攻击类型特征、以及K攻击类型特征。

示例性的，对参数调整后的第一初始子模型、至参数调整后的第K初始子模型进行组合，得到第二模型，可以通过以下方式实现：

若关联信息表示第m类型的威胁数据与第p类型的威胁数据之间的关联信息大于关联阈值，可以表示第m类型的威胁数据与第p类型的威胁数据之间的关联性较强，那么，可以串联组合参数调整后的第m初始子模型以及参数调整后的第p初始子模型，以实现对第m类型的威胁数据与第p类型的威胁数据的相关检测；其中，m以及p可以为大于或等于1且小于或等于K的整数，且m与p不相等。

若关联信息表示第m类型的威胁数据与第p类型的威胁数据之间的关联信息小于或等于关联阈值，可以表示第m类型的威胁数据与第p类型的威胁数据之间的关联性较弱，那么，可以并联组合参数调整后的第m初始子模型以及参数调整后的第p初始子模型，从而实现对第m类型的待检测数据与第p类型的待检测数据的并行独立检测，如此，不仅能够实现不同类型待检测数据的检测效率，还能够降低不同类型的待检测数据之间的检测干扰，提高第二模型的检测精度，扩大第二模型的攻击类型检测范围。

示例性的，通过前述实施例提供的训练过程得到的第一模型，虽然能够提取出威胁数据的共性特征，但是这些共性特征通常不足以精确判定待检测数据或样本数据的具体攻击类型。因此通过包括参数调整后的第一初始子模型、至参数调整后的第K初始子模型的第二模型，可以实现对多种不同攻击类型的同步检测，从而大大改善数据检测效果。

由以上可知，本申请实施例提供的数据检测方法中，对参数调整后的第一初始子模型、至参数调整后的第K初始子模型进行组合得到第二模型。由此，本申请实施例提供的数据检测方法，通过以上方式得到的第二模型，不仅能够提高检测精度，而且能够实现对K种攻击类型的威胁数据的高效检测，从而进一步提高了数据检测的效率。

图5为本申请实施例提供的数据检测方法的结构示意图。如图5所示，该结构可以包括第一模型501以及第二模型502；示例性的，第二模型502可以包括第一子模型5021、第二子模型5022以及第三子模型5023。

示例性的，第一模型501可以通过包含多种类型的威胁数据的样本数据对第一初始模型进行训练得到；示例性的，第一子模型5021至第三子模型5023可以分别通过第一子样本数据对第一子初始模型、第二子样本数据对第二子初始模型、第三子样本数据对第三子初始模型进行训练得到。

示例性的，第一子模型5021至第三子模型5023可以分别用于检测第一攻击类型特征至第三攻击类型特征。

示例性的，第一模型501可以对待检测数据进行特征检测，得到第一数据；并在第一数据中包含共性特征中的至少一种特征的条件下，通过第二模型502中的第一子模型5021至第三子模型5023分别对第一数据进行特征检测，然后将第一子模型5021至第三子模型5023输出的数据确定为第二数据。

示例性的，可以对第一子模型5021至第三子模型5023输出的数据进行分析，从而确定待检测数据的类型信息；示例性的，若第一子模型5021输出的第一子数据中包括第一攻击类型特征，则可以确定待检测数据为第一攻击类型的威胁数据；若第二子模型5022输出的第二子数据中包括第二攻击类型特征，则可以确定待检测数据为第二攻击类型的威胁数据。

本申请实施例提供的数据检测方法以及数据检测架构，可以应用于网络攻击检测等场景，比如防火墙以及安全态势感知模块中，以改善网络攻击检测能力。

由以上可知，本申请实施例提供的数据检测方法，通过第一模型501与第二模型502依次对待检测数据中威胁数据的共性特征以及攻击类型特征的提取，不仅能够降低对第一模型501以及第二模型502特征提取的要求，也能够有效降低由于待检测数据中数据噪声对特征提取的影响，进而提高了数据检测的精度和效率。

基于前述实施例，本申请实施例还提供了一种数据检测装置6，图6为本申请实施例提供的数据检测装置6的结构示意图，如图6所示，该装置可以包括：

获取模块601，用于获取待监测数据；

检测模块602，用于通过第一模型对待检测数据进行特征检测，得到第一数据；其中，第一模型用于提取威胁数据的共性特征；

检测模块602，还用于通过第二模型对第一数据进行特征检测，得到第二数据；其中，第二模型用于提取攻击类型特征；

确定模块603，用于基于第二数据，确定待检测数据的类型信息。

在一些实施例中，检测模块602，用于若第一数据包括共性特征中的至少一种特征，通过第二模型对第一数据进行特征检测，得到第二数据。

在一些实施例中，第二模型包括K个子模型；第k子模型用于检测第k攻击类型特征；k为大于或等于1且小于或等于K的整数；

检测模块602，用于通过第一子模型至第K子模型分别对第一数据进行特征检测，得到第一子数据至第K子数据；

数据检测装置还可以包括处理模块，用于对第一子数据至第K子数据进行分析，得到第二数据。

在一些实施例中，获取模块601，用于获取样本数据；其中，样本数据包括多种类型的威胁数据；样本数据还包括威胁特征标识；威胁特征标识包括多种类型的威胁数据的共性特征；

确定模块603，用于确定第一初始模型；

检测模块602，用于通过第一初始模型对样本数据进行特征检测，得到第三数据；

处理模块，用于基于威胁特征标识与第三数据，对第一初始模型的参数进行调整，得到参数调整后的第一初始模型；

确定模块603，用于确定参数调整后的第一初始模型为第一模型。

在一些实施例中，获取模块601，用于获取第k子样本数据；其中，第k子样本数据包括第k攻击类型的样本数据；第k子样本数据具备第k攻击特征标识；k为大于或等于1的整数；第k子样本数据的数据量小于样本数据的数据量；

确定模块603，用于确定与第k子样本数据对应的第k初始子模型；

处理模块，用于通过第k初始子模型，对第k子样本数据进行处理，得到第四数据；基于第四数据与第k攻击特征标识，对第k初始子模型的参数进行调整，得到参数调整后的第k初始子模型；

处理模块，用于对参数调整后k个初始子模型进行组合，得到第二模型。

在一些实施例中，获取模块601，用于获取样本数据中不同类型的威胁数据之间的关联信息；

处理模块，用于基于关联信息，对参数调整后的第一初始子模型、至参数调整后的第K初始子模型进行组合，得到第二模型。

在一些实施例中，获取模块601，用于从第三数据或样本数据中获取第k子样本数据。

由以上可知，本申请实施例提供的数据检测装置6，首先通过第一模型提取待检测数据中威胁数据的共性特征得到第一数据，从而使得第一数据中噪声信息大大减少，此时再通过第二模型提取第一数据中的攻击类型特征，不仅削弱了噪声数据对第二模型特征检测的影响，而且提高了对第一数据的特征检测的精度。

基于前述实施例，本申请实施例还提供了一种电子设备7，图7为本申请实施例提供的电子设备7的结构示意图，如图7所示，该电子设备7可以包括处理器701以及存储器702；其中，存储器702中存储有计算机程序，该计算机程序被处理器701执行时，能够实现如前任一实施例提供的数据检测方法。

需要说明的是，上述处理器701可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。

上述存储器，可以是易失性存储器(volatile memory)，例如随机存取存储器(Random Access Memory，RAM)；或者非易失性存储器(non-volatile memory)，例如只读存储器(Read-Only Memory，ROM)，flash memory，硬盘驱动器(Hard Disk Drive，HDD)或固态硬盘(Solid State Disk，SSD)；或者上述种类的存储器的组合，并向处理器提供指令和数据。

前述实施例中的获取模块601、检测模块602、确定模块603以及处理模块可以通过处理器701实现。

基于前述实施例，本申请实施例还提供了一种计算机可读存储介质，该存储介质中存储有计算机程序，该计算机程序被电子设备的处理器执行时，能够实现如前任一所述的数据检测方法。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

本申请所提供的各方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的各产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的各方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

需要说明的是，上述计算机可读存储介质可以是只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等存储器；也可以是包括上述存储器之一或任意组合的各种电子设备，如移动电话、计算机、平板设备、个人数字助理等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件节点的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所描述的方法。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种数据检测方法，其特征在于，所述方法包括：

获取待检测数据；

基于所述第二数据，确定所述待检测数据的类型信息。

2.根据权利要求1所述的方法，其特征在于，所述通过第二模型对所述第一数据进行特征检测，得到第二数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述第二模型包括K个子模型；第k子模型用于检测第k攻击类型特征；k为大于或等于1且小于或等于K的整数；所述通过第二模型对所述第一数据进行特征检测，得到第二数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定第一初始模型；

确定所述参数调整后的所述第一初始模型为所述第一模型。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

确定与所述第k子样本数据对应的第k初始子模型；

6.根据权利要求5所述的方法，其特征在于，所述对参数调整后的k个初始子模型进行组合，得到所述第二模型，包括：

7.根据权利要求5所述的方法，其特征在于，所述获取第k子样本数据，包括：

从所述第三数据或所述样本数据中获取所述第k子样本数据。

8.一种数据检测装置，其特征在于，所述装置包括：

获取模块，用于获取待检测数据；

所述检测模块，还用于通过第二模型对所述第一数据进行特征检测，得到第二数据；其中，所述第二模型用于提取攻击类型特征；

9.一种电子设备，其特征在于，所述电子设备包括处理器以及存储器；所述存储器中存储有计算机程序；所述计算机程序被所述处理器执行时，能够实现权利要求1至7任一所述的数据检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序；所述计算机程序被电子设备的处理器执行时，能够实现权利要求1至7任一所述的数据检测方法。