CN116996271A

CN116996271A - 风险流量检测方法及装置、存储介质及电子设备

Info

Publication number: CN116996271A
Application number: CN202310860864.XA
Authority: CN
Inventors: 曹磊
Original assignee: China Telecom Technology Innovation Center; China Telecom Corp Ltd
Current assignee: China Telecom Technology Innovation Center; China Telecom Corp Ltd
Priority date: 2023-07-13
Filing date: 2023-07-13
Publication date: 2023-11-03

Abstract

本公开提供了一种风险流量检测方法及装置、存储介质及电子设备，涉及信息安全技术领域。该方法包括：获取资源池内的业务流量；根据资源池内的业务流量构建识别模型，利用迁移学习进行训练并通过工作场景参数进行修正得到风险流量判别模型；根据风险流量判别模型，确定出目标检测流量中的风险流量。基于机器学习思想，引入迁移学习方法对流量数据进行训练，使模型在面对未知风险网络流量时可以快速学习识别，无需额外更新训练数据集，降低对训练数据的特征要求，同时结合资源池的工作场景参数对模型进行修正，使其更贴近实际的资源池应用、开发及测试场景，在提升模型判别的精确率的前提下平衡召回率，控制模型训练学习的成本。

Description

风险流量检测方法及装置、存储介质及电子设备

技术领域

本公开涉及信息安全技术领域，尤其涉及一种风险流量检测方法及装置、存储介质及电子设备。

背景技术

随着互联网业务规模的不断扩大，云计算作为一种动态、易扩展，按需分配的资源计算方式受到更多青睐，作为云计算业务的实际载体，由各类服务器及交换机组成的资源池承担了全部的计算及存储功能。由于业务本身的复杂性，资源池内往往需要将网络虚拟化并统一纳管，从而达到多个网络平面的隔离以及互通等定制化需求，随着资源池规模逐渐膨胀，网络流量也在上升，出现单点故障的概率也成倍增加，在保障大量正常业务运行的场景下，任何网络节点故障或是恶意攻击产生的异常风险流量都可能使链路拥塞，从而影响业务正常运行。因此对池内流量进行及时的监控预警，可以显著提高云服务质量，提升可用性。

机器学习方法是一种较为优质的流量识别手段，它可通过大量的流量数据进行训练从而对风险流量进行判别。但由于风险流量复杂多样，为了训练出良好的识别模型，对训练数据的特征要求较高，需要耗费大量的时间精力去挖掘价值数据，且网络攻击手段层出不穷，传统的机器学习方法泛化性较差，造成识别风险流量的精度较低，而不断更新训练数据集又需要投入大量的成本。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供一种风险流量检测方法及装置、存储介质及电子设备，至少在一定程度上克服由于相关技术的模型训练成本高的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供了一种风险流量检测方法，包括：

获取资源池内的业务流量；

根据资源池内的业务流量构建识别模型，利用迁移学习进行训练并通过工作场景参数进行修正得到风险流量判别模型；

根据风险流量判别模型，确定出目标检测流量中的风险流量。

在一些实施例中，获取资源池内的业务流量，包括：

通过资源池内的节点进行抓包，确定数据包；

获取抓包时刻对应的流量统计信息和服务器运行信息；

将所述数据包与对应的流量统计信息和服务器运行信息确定为资源池内的业务流量。

在一些实施例中，根据资源池内的业务流量构建识别模型，利用迁移学习进行训练并通过工作场景参数进行修正得到风险流量判别模型，包括：

对资源池内的业务流量进行第一风险标注；

根据资源池内的业务流量的流量属性，确定目标流量特性；

根据目标流量特性，结合工作场景参数进行二次抓包，对具有第一风险标注的业务流量进行第二风险标注；

根据第二风险标注的业务流量对构建的识别模型进行预训练，确定预训练的识别模型；

利用迁移学习对预训练的识别模型进行训练并通过工作场景参数进行修正，确定风险流量判别模型。

在一些实施例中，对资源池内的业务流量进行第一风险标注，包括：

确定资源池内的业务流量的数据包特征；

将数据包特征与风险流量映射表进行匹配，对业务流量进行第一风险标注，确定业务流量对应的风险行为；所述风险流量映射表中包括多组具有映射关系的风险行为和对应的数据包特征。

在一些实施例中，根据资源池内的业务流量的流量属性，确定目标流量特性，包括：

根据资源池内的业务流量的流量属性，确定流量特征向量和风险得分向量；

计算流量特征向量和风险得分向量的协方差矩阵，进行线性组合，确定第一相关系数；

对第一相关系数添加约束，通过构造线性组合向量筛选出目标流量特性；所述目标流量特性为自变量权重超过设定阈值的自变量。

在一些实施例中，根据第二风险标注的业务流量对构建的识别模型进行预训练，确定预训练的识别模型，包括：

将第二风险标注的业务流量按照设定比例划分为训练集、测试集和验证集；

根据训练集、测试集和验证集，利用支持向量机对构建的识别模型进行预训练，确定预训练的识别模型。

在一些实施例中，所述工作场景参数，包括：工作时间段和工作场景；

利用迁移学习对预训练的识别模型进行训练并通过工作场景参数进行修正，确定风险流量判别模型，包括：

根据工作时间段和工作场景，确定模型修正函数；

根据预训练的识别模型，确定权重向量；

获取未标注的流量数据；

根据预训练的识别模型和权重向量，在未标注的流量数据上进行训练，确定第一分类器；

确定第一分类器在第二风险标注的业务流量上的错误率；

根据第一分类器在第二风险标注的业务流量上的错误率，更新权重向量；

根据更新后的权重向量和模型修正函数，利用迁移学习确定风险流量判别模型。

在一些实施例中，根据工作时间段和工作场景，确定模型修正函数，包括：

根据工作时间段，确定时间系数；

根据工作场景，确定工作函数；

根据时间系数和工作函数，确定模型修正函数。

在一些实施例中，根据更新后的权重向量和模型修正函数，利用迁移学习确定风险流量判别模型，包括：

将预训练的识别模型和更新后的权重向量，结合模型修正函数，输入预先根据迁移学习理论构建的迁移学习模型，按照设定迭代次数进行迭代训练，确定风险流量判别模型。

在一些实施例中，还包括：在确定出目标检测流量中的风险流量后，将风险流量的特征输入风险识别数据库，以更新自变量的权重。

根据本公开的另一个方面，还提供了一种风险流量检测装置，包括：

业务流量获取模块，用于获取资源池内的业务流量；

风险流量判别模型训练模块，用于根据资源池内的业务流量构建识别模型，利用迁移学习进行训练并通过工作场景参数进行修正得到风险流量判别模型；

风险流量检测模块，用于根据风险流量判别模型，确定出目标检测流量中的风险流量。

根据本公开的另一个方面，还提供了一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的一种风险流量检测方法。

根据本公开的另一个方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的一种风险流量检测方法。

根据本公开的另一个方面，还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述任意一项的一种风险流量检测方法。

本公开的实施例中提供的风险流量检测方法及装置、存储介质及电子设备，基于机器学习思想，引入迁移学习的方法对流量数据进行训练，使得训练得到的模型在面对未知的风险网络流量时可以快速学习识别风险流量，无需额外更新训练数据集，降低对训练数据的特征要求，同时结合资源池的工作场景参数对模型进行修正，使其更贴近实际的资源池应用、开发及测试场景，尽可能避免正常业务场景下的误判，在提升模型对风险流量判别的精确率的前提下，平衡召回率，控制模型训练学习的成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本公开一个实施例中风险流量检测方法的系统结构的示意图。

图2示出本公开一个实施例中风险流量检测方法的示意图。

图3示出本公开一个实施例中风险流量检测方法的获取资源池内的业务流量过程示意图。

图4示出本公开一个实施例中风险流量检测方法的确定风险流量判别模型过程示意图。

图5示出本公开一个实施例中风险流量检测方法的第一风险标注过程示意图。

图6示出本公开一个实施例中风险流量检测方法的确定目标流量特性过程示意图。

图7示出本公开一个实施例中一种风险流量检测方法的预训练过程示意图。

图8示出本公开一个实施例中一种风险流量检测方法的风险流量判别模型训练过程示意图。

图9示出本公开一个实施例中一种风险流量检测方法的确定模型修正函数程示意图。

图10示出本公开一个实施例中一种风险流量检测方法的流程图。

图11示出本公开一个实施例中一种风险流量检测装置示意图。

图12示出本公开一个实施例中一种风险流量检测方法的计算机设备的结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

下面结合附图，对本公开实施例的具体实施方式进行详细说明。

图1示出了可以应用本公开实施例中一种风险流量检测方法的示例性应用系统架构示意图。如图1所示，该系统架构可以包括终端设备101、网络102和服务器103。

网络102用以在终端设备101和服务器103之间提供通信链路的介质，可以是有线网络，也可以是无线网络。

可选地，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(ExtensibleMarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(InternetProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

终端设备101可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、增强现实设备、虚拟现实设备等。

可选地，不同的终端设备101中安装的应用程序的客户端是相同的，或基于不同操作系统的同一类型应用程序的客户端。基于终端平台的不同，该应用程序的客户端的具体形态也可以不同，比如，该应用程序客户端可以是手机客户端、PC客户端等。

服务器103可以是提供各种服务的服务器，例如对用户利用终端设备101所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以对接收到的请求等数据进行分析等处理，并将处理结果反馈给终端设备。

可选地，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本公开在此不做限制。

本领域技术人员可以知晓，图1中的终端设备、网络和服务器的数量仅仅是示意性的，根据实际需要，可以具有任意数目的终端设备、网络和服务器。本公开实施例对此不作限定。

在上述系统架构下，本公开实施例中提供了一种风险流量检测方法，该方法可以由任意具备计算处理能力的电子设备执行。

在一些实施例中，本公开实施例中提供的一种风险流量检测方法可以由上述系统架构的终端设备执行；在另一些实施例中，本公开实施例中提供的一种风险流量检测方法可以由上述系统架构中的服务器执行；在另一些实施例中，本公开实施例中提供的一种风险流量检测方法可以由上述系统架构中的终端设备和服务器通过交互的方式来实现。

风险流量的识别，一方面是根据其Clinet/Server端的收发特性，例如基于知名端口(如22端口、443端口、3306端口等)，或通过收发端接收的流量模式来识别。这种方式过于依赖Clinet/Server端的动作，且由于当前应用程序的多态性，其端口意义通常不易解读；另一方面，风险流量识别是通过流量本身的信息负载以及其统计特性进行区别，然而这类方法无法满足流量实时增长下的场景要求，同时针对加密流量的载荷进行检查也显著提高了计算成本。

利用机器学习的思想进行风险流量识别，是以不同的网络流量作为多组数据的集合，其复杂的学习网络有效整合了动态端口、流量负载以及流量统计特性等多种因素，可以实现风险流量的快速高效识别。

图2示出本公开实施例中一种风险流量检测方法的示意图，如图2所示，本公开实施例提供的基于机器学习思想的一种风险流量检测方法，包括：

S202：获取资源池内的业务流量；

S204：根据资源池内的业务流量构建识别模型，利用迁移学习进行训练并通过工作场景参数进行修正得到风险流量判别模型；

S206：根据风险流量判别模型，确定出目标检测流量中的风险流量。

上述实施例中，基于资源池内的业务流量构建识别模型，采用机器学习的思想实现风险流量的自动识别，利用迁移学习的方法进行训练，使得训练得到的模型在面对未知的风险网络流量时可以快速学习别风险流量，无需额外更新训练数据集，降低对训练数据的特征要求，同时结合资源池的工作场景参数对模型进行修正，使其更贴近实际的资源池应用、开发及测试场景，尽可能避免正常业务场景下的误判，在提升模型对风险流量判别的精确率的前提下，平衡召回率，控制模型训练学习的成本，利用训练得到的风险流量判别模型，可以快速准确的判断出目标检测流量中的风险流量。

本公开可以实现在私有云场景下的风险流量识别。在私有云场景下能够一定程度降低训练数据要求，可以根据私有云内的定制化需求，“自适应”的学习新的风险流量样本，借助迁移学习方法的“再学习”能力，可满足不同私有云场景下对风险流量判别的定制化需求，从而完成对资源池内风险流量的监控及预警。

如图3所示，具体实施本公开提供的一种风险流量检测方法时，在一个实施例中，上述步骤S202获取资源池内的业务流量，可以包括：

S302：通过资源池内的节点进行抓包，确定数据包；

S304：获取抓包时刻对应的流量统计信息和服务器运行信息；

S306：将所述数据包与对应的流量统计信息和服务器运行信息确定为资源池内的业务流量。

上述实施例中，资源池中存储有各种类型的业务流量，是以数据包的形式存在。资源池内设有多个不同的节点，通过tcpdump或netsh对资源池内的节点进行抓包，得到数据包；下一步，还需要获取抓包时刻对应的流量统计信息和服务器运行信息，其中，服务器运行信息可以通过linux系统/windows系统等自带的负载工具进行提取；接着，将数据包与对应的流量统计信息和服务器运行信息确定为资源池内的业务流量。

具体的，以项目内某私有云的资源池内具有公网地址的跳板机(linux系统)为例，针对公网及局域网两个不同的网卡，利用tcpdump进行抓包并写入后缀为pcap的文件，在工作时段与非工作时段连续抓包30分钟，结合抓包时刻对应的流量统计信息和服务器运行信息作为资源池内的业务流量。

如图4所示，具体实施本公开提供的一种风险流量检测方法时，在一个实施例中，根据资源池内的业务流量构建识别模型，利用迁移学习进行训练并通过工作场景参数进行修正得到风险流量判别模型，包括：

S402：对资源池内的业务流量进行第一风险标注；

S404：根据资源池内的业务流量的流量属性，确定目标流量特性；

S406：根据目标流量特性，结合工作场景参数进行二次抓包，对具有第一风险标注的业务流量进行第二风险标注；

S408：根据第二风险标注的业务流量对构建的识别模型进行预训练，确定预训练的识别模型；

S4010：利用迁移学习对预训练的识别模型进行训练并通过工作场景参数进行修正，确定风险流量判别模型。

上述实施例中，本公开利用迁移学习的方法对利用业务流量构建的识别模型进行训练，使得模型在面对未知的风险网络流量时可以快速学习，识别风险，同时结合私有云资源池工作场景参数，对模型进行修正，使其更贴近实际的资源池应用、开发及测试场景，尽可能避免正常业务场景下的误判，平衡模型判别的精确率与召回率。

如图5所示，具体实施本公开提供的一种风险流量检测方法时，在一个实施例中，上述步骤S402对资源池内的业务流量进行第一风险标注，包括：

S502：确定资源池内的业务流量的数据包特征；

S504：将数据包特征与风险流量映射表进行匹配，对业务流量进行第一风险标注，确定业务流量对应的风险行为；所述风险流量映射表中包括多组具有映射关系的风险行为和对应的数据包特征。

上述实施例中，业务流量中包含有基于IP源以及对端口及进程的嗅探行为、次数等特征，通过对业务流量进行分析，可以得到业务流量对应的数据包特征；基于预先建立的风险流量映射表，将数据包特征与风险流量映射表的数据包特征进行匹配，匹配成功时，获取风险流量映射表中数据包特征对应的风险行为，作为业务流量对应的风险行为。

具体的，还是以上述的某项目私有云为例，预先建立的风险流量映射表如表1所示；

表1

针对获取到的业务流量，以0.5秒为时间窗口，对每秒内的数据包流量的风险进行判定，得到对应的风险行为；

实施例中，还可以采用在时间窗口内借助移动平均算法对时间单位内的流量风险进行判定得到对应的风险行为；其中，上述的移动平均算法，按如下方式表示：

其中，y_t′为每个时间窗口内的得分；W为样本个数；y_m为m时刻的风险值；t′为目前时刻。

通过上述的移动平均算法，以每个时间窗口内的得分来表征业务流量的风险行为。例如，以0.5秒为时间窗口，针对30分钟内的流量可得到900组流量的其风险行为进行标注。

如图6所示，具体实施本公开提供的一种风险流量检测方法时，在一个实施例中，S404根据资源池内的业务流量的流量属性，确定目标流量特性，可以包括：

S602：根据资源池内的业务流量的流量属性，确定流量特征向量和风险得分向量；

S604：计算流量特征向量和风险得分向量的协方差矩阵，进行线性组合，确定第一相关系数；

S606：对第一相关系数添加约束，通过构造线性组合向量筛选出目标流量特性；所述目标流量特性为自变量权重超过设定阈值的自变量。

上述实施例中，如下表2所示，资源池内的业务流量的流量属性，可以包括：源/目的地址、协议类型、IP包长度、服务类型、路由记录、标志位以及数据包间隔、字节速率等，可以利用以上属性计算得到流量特征向量和风险得分向量。

表2

下一步，计算流量特征向量和风险得分向量的协方差矩阵，进行线性组合，确定第一相关系数；可以设定流量特征向量为X，风险得分向量为Y，计算协方差矩阵Cov，可以按照如下方式表示：

其中，cov为协方差矩阵；var(X)为流量特征向量X的流量自我特征的离散程度；var(Y)为风险得分向量Y的风险判别尺度的离散程度；cov(X,Y)以及cov(Y,X)代表了流量特征与风险得分之间的离散程度，用于标识流量特征是否可用来判断风险。

将流量特征向量和风险得分向量进行线性组合，其中系数向量为a、b；可以得到M＝a^TX，N＝b^TY，则M与N之间的第一相关系数可表示为：

其中，ρ_M,N为M与N之间的第一相关系数；a、b为系数向量；T为转置；var(X)为流量特征向量X的流量自我特征的离散程度；var(Y)为风险得分向量Y的风险判别尺度的离散程度；cov(X,Y)代表了流量特征与风险得分之间的离散程度；·为乘。

按照如下方式，对上述公式(3)的第一相关系数添加最简约束：

a^Ta·var(X)＝1, b^Tb·var(Y)＝1 (4)

其中，a、b为系数向量；T为转置；var(X)为流量特征向量X的流量自我特征的离散程度；var(Y)为风险得分向量Y的风险判别尺度的离散程度。

在对第一相关系数ρ_M,N添加最简约束后，会使得第一相关系数ρ_M,N达到最大值，然后通过构造线性组合向量筛选出目标流量特性。

在另一个实施例中，上述根据资源池内的业务流量的流量属性确定目标流量特性，还可以采用典型相关分析(Canonical Correlation Analysis，CCA)实现。具体的，可以借助Python中的statsmodels.formula.api模块对流量的关键因变量进行提取和训练，通过添加最简约束使得第一相关系数ρ_M,N达到最大值，筛选出合适的目标流量特性。

实施例中，上述步骤S405根据目标流量特性，结合工作场景参数进行二次抓包，对具有第一风险标注的业务流量进行第二风险标注，其中，根据资源池的实际业务场景，引入工作场景参数，上述的工作场景参数可以包括工作时间段和工作场景，工作时间段对流量捕获的时刻进行了关注，对每天不同时间段捕获的流量中的部分变量进行自适应加权处理；例如。将工作时间段分为正常工作时间段和非工作时间段，将8点至18点设为正常工作时间段，18点至下一日8点设为非工作时间段，按照历史处理结果来看，非工作时间段出现的异常流量更强于判定为风险事件，因此在对在非工作时间段出现的异常流量进行加权处理。工作场景，可以对特殊的业务场景进行适配，例如在压力测试时，使用测试仪进行压测时产生的流量具有明显的风险特性，但并非风险流量，因此需要通过工作场景进行标注。结合上述的工作场景参数，进行二次抓包，对具有第一风险标注的业务流量进行第二风险标注；通过第二风险标注，可以实现更精准的风险流量判定。

本公开对风险流量以时间窗口为切分进行分布标注，多次训练，避免了业务场景对流量正常风险指标提取的影响，确保能够得到切实与风险相关的目标流量特性。

如图7所示，具体实施本公开提供的一种风险流量检测方法时，在一个实施例中，上述步骤S408根据第二风险标注的业务流量对构建的识别模型进行预训练，确定预训练的识别模型，可以包括：

S702：将第二风险标注的业务流量按照设定比例划分为训练集、测试集和验证集；

S704：根据训练集、测试集和验证集，利用支持向量机对构建的识别模型进行预训练，确定预训练的识别模型。

上述实施例中，在得到第二风险标注的业务流量后，将第二风险标注的业务流量作为训练数据进行训练，首先，构建识别模型，将第二风险标注的业务流量按照设定比例划分为训练集、测试集和验证集，利用支持向量机(support vector machines，SVM)对识别模型进行训练，训练完成后，得到预训练的识别模型。

具体的，可以借助Python中的sklearn包中的svm方法对数据进行预训练，并借助sklearn.model_selection将数据划分为7:1:2的比例作为训练集，测试集和验证集，设定参数kernel＝“rbf”，代表对数据映射到高维进行拟合，设置gamma初始值为1，c为3，并借助sklearn中的cross_val_score方法进行交叉验证，对参数进行迭代调整训练，直至参数收敛完成训练，输出预训练的识别模型。

如图8所示，具体实施本公开提供的一种风险流量检测方法时，在一个实施例中，所述工作场景参数，包括：工作时间段和工作场景；

S802：根据工作时间段和工作场景，确定模型修正函数；

S804：根据预训练的识别模型，确定权重向量；

S806：获取未标注的流量数据；

S808：根据预训练的识别模型和权重向量，在未标注的流量数据上进行训练，确定第一分类器；

S8010：确定第一分类器在第二风险标注的业务流量上的错误率；

S8012：根据第一分类器在第二风险标注的业务流量上的错误率，更新权重向量；

S8014：根据更新后的权重向量和模型修正函数，利用迁移学习确定风险流量判别模型。

上述实施例中，如上述的工作时间段对对流量捕获的时刻进行了关注，工作场景对特殊的业务场景进行适配，因此可以根据工作时间段和工作场景得到模型修正函数；进一步的，上述对上述预训练的识别模型进行分析，得到权重向量；具体的，按照如下方式，确定权重向量：

其中，w为权重向量，表示第i个样本第1次迭代计算后的权重；p为风险样本数；q为非风险样本数。

进一步的，设置迭代次数为N，则有：

其中，β为权重修正因子；p为风险样本数；ln为自然对数；N为迭代总次数，其中，t表示第t次迭代，t≤N。

对于第t次迭代，权重分布P_t为：

其中，P_t为权重分布；w为权重向量，w^t表示第t次迭代后的权重向量，表示第i个样本第t次迭代后的权重；p为风险样本数；q为非风险样本数。

下一步，获取未标注的流量数据，调用预训练的识别模型，结合上述根据权重向量得到的权重分布，在未标注的流量数据上进行训练，确定第一分类器；上述的第一分类器是针对未标注的流量数据得到的，因此会存在一定的错误标注，因此，需要计算第一分类器在第二风险标注的业务流量上的错误率；上述错误率，可以按照如下方式计算：

其中，ε_t为第一分类器在第二风险标注的业务流量上的错误率；w为权重向量，表示第i个样本第t次迭代后的权重；p为风险样本数；q为非风险样本数；F(x_i)为流量的实际风险；F_t(x_i)为流量经判别器后的风险。

下一步，利用第一分类器在第二风险标注的业务流量上的错误率，更新权重向量，具体可以是，令则更新后的权重向量按如下方式计算：

其中，为更新后的权重向量；t为迭代次数；w为权重向量，/>表示第i个样本第t次迭代后的权重；β_t为第t次迭代后的权重修正因子；β为首次迭代时的权重修正因子；p为风险样本数；q为非风险样本数；F(x_i)为流量的实际风险；F_t(x_i)为流量经判别器后的风险。

最后，根据更新后的权重向量和模型修正函数，利用迁移学习确定风险流量判别模型。

如图9所示，具体实施本公开提供的一种风险流量检测方法时，在一个实施例中，根据工作时间段和工作场景，确定模型修正函数，包括：

S902：根据工作时间段，确定时间系数；

S904：根据工作场景，确定工作函数；

S906：根据时间系数和工作函数，确定模型修正函数。

上述实施例中，首先，可以利用时间段得到时间系数，其中，时间系数的向量设为Q，然后，可以借助sigmoid函数对工作场景进行描述得到工作函数，其中，工作函数的工作系数设为η，则可以按照如下方式，根据时间系数和工作函数确定模型修正函数：

其中，M(x)为模型修正函数；Q为时间系数的向量；η为工作系数；ln为自然对数；e为自然常数；T为转置。

本公开实施例引入工作场景参数构造模型修正函数，对实际业务场景及风险进行了拟合，避免正常业务场景下的误判，增强其业务自适应性。

具体实施本公开提供的一种风险流量检测方法时，在一个实施例中，根据更新后的权重向量和模型修正函数，利用迁移学习确定风险流量判别模型，包括：

上述实施例中，根据迁移学习理论构建迁移学习模型，将预训练的识别模型和更新后的权重向量，结合利用工作场景参数得到的模型修正函数，一起输入迁移学习模型，设定迭代次数，按照迭代次数进行迭代训练，训练完成后输出风险流量判别模型。

本公开实施例基于迁移学习的方法对模型进行二次训练，使其增强对未知风险流量的识别能力，自我更新风险流量特征库。

具体实施本公开提供的一种风险流量检测方法时，在一个实施例中，还包括：在确定出目标检测流量中的风险流量后，将风险流量的特征输入风险识别数据库，以更新自变量的权重。

实施例中，通过更新自变量的权重，可以实现模型的自适应学习和自适应更新，从而可以进一步提升模型判定风险流量准确率。

本公开结合业务流量及流量统计信息和服务器运行信息对风险流量进行标注，后通过筛选关键要素得到目标流量特性，并借助SVM进行预训练，得到预训的识别练模型后，结合实际业务场景下的工作场景参数提出模型修正函数，并基于迁移学习方法进行再标注和再训练，得到更新权重后的最终分类器，得到的风险流量判别模型对风险流量的较好判别效果。本公开不仅可以通过调整模型修正函数，增强模型在不同业务场景下的“自适应”能力，同时对未知风险流量也有着较好的判别能力，将有可能挖掘出新的攻击模式。本公开可适用于任何业务场景较为复杂的私有云资源池，通过对入口及池内流量的分析管控，可及时侦测池内网络风险并抵御外网的各种攻击，其学习能力可以最大程度避免0-day事件，保证安全的同时，保障业务的高可用性。

本公开实施例还提供一种风险流量检测方法的流程图，如图10所示，主要流程包括：

对资源池内的节点进行抓包得到业务流量，进行第一风险标注；

对业务流量的流量属性进行筛选，得到目标流量特性；

结合工作场景参数进行第二风险标注，借助支持向量机进行预训练，得到预训练的识别模型；

引入模型修正函数，在未标注的流量数据上进行训练得到第一分类器；

计算新分类器在第二风险标注的业务流量上的错误率，更新权重向量，结合模型修正函数，输出风险流量判别模型；

识别出目标检测流量中的风险流量；

将识别出的风险流量输入风险识别数据库，以更新自变量的权重。

提取资源池内真实的网络业务流量，通过抓包等方式对流量特性进行统计分析并结合其行为进行标注，基于典型相关分析找出判定流量是否风险的关键成分，并基于SVM算法对模型进行预训练，初步得到判别模型，而后基于实际业务场景引入模型修正函数进行修正，并基于迁移学习理论对模型进行“再训练”，提高其面对未知风险的捕获能力以及不同业务场景的“自适应”能力；基于传统的机器学习思想，引入迁移学习的方法对流量数据进行训练，使得模型在面对未知的风险网络流量时可以快速学习，识别风险，同时结合私有云资源池工作场景，对模型进行修正，使其更贴近实际的资源池应用、开发及测试场景，尽可能避免正常业务场景下的误判，平衡模型判别的精确率与召回率。

需要注意的是，本公开技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定，本公开实施例中获取的个人、客户和人群等相关的个人身份数据、操作数据、行为数据等多种类型的数据，均已获得授权。

基于同一发明构思，本公开实施例中还提供了一种风险流量检测装置，如下面的实施例所述。由于该装置实施例解决问题的原理与上述方法实施例相似，因此该装置实施例的实施可以参见上述方法实施例的实施，重复之处不再赘述。

图11示出本公开实施例中一种风险流量检测装置示意图，如图11所示，该装置包括：

业务流量获取模块1101，用于获取资源池内的业务流量；

风险流量判别模型训练模块1102，用于根据资源池内的业务流量构建识别模型，利用迁移学习进行训练并通过工作场景参数进行修正得到风险流量判别模型；

风险流量检测模块1103，用于根据风险流量判别模型，确定出目标检测流量中的风险流量。

此处需要说明的是，上述业务流量获取模块1101、风险流量判别模型训练模块1102和风险流量检测模块1103对应于方法实施例中的S202～S206，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述方法实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图12来描述根据本公开的这种实施方式的电子设备1200。图12显示的电子设备1200仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图12所示，电子设备1200以通用计算设备的形式表现。电子设备1200的组件可以包括但不限于：上述至少一个处理单元1210、上述至少一个存储单元1220、连接不同系统组件(包括存储单元1220和处理单元1210)的总线1230。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1210执行，使得所述处理单元1210执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元1210可以执行上述方法实施例的如下步骤：获取资源池内的业务流量；根据资源池内的业务流量构建识别模型，利用迁移学习进行训练并通过工作场景参数进行修正得到风险流量判别模型；根据风险流量判别模型，确定出目标检测流量中的风险流量。

存储单元1220可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)12201和/或高速缓存存储单元12202，还可以进一步包括只读存储单元(ROM)12203。

存储单元1220还可以包括具有一组(至少一个)程序模块12205的程序/实用工具12204，这样的程序模块12205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1230可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1200也可以与一个或多个外部设备1240(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1200交互的设备通信，和/或与使得该电子设备1200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1250进行。并且，电子设备1200还可以通过网络适配器1260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1260通过总线1230与电子设备1200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机程序产品，该计算机程序产品包括：计算机程序，所述计算机程序被处理器执行时实现上述一种风险流量检测方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质可以是可读信号介质或者可读存储介质。其上存储有能够实现本公开上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

本公开中的计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本公开中，计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可选地，计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

在具体实施时，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

1.一种风险流量检测方法，其特征在于，包括：

获取资源池内的业务流量；

2.根据权利要求1所述的风险流量检测方法，其特征在于，获取资源池内的业务流量，包括：

通过资源池内的节点进行抓包，确定数据包；

获取抓包时刻对应的流量统计信息和服务器运行信息；

3.根据权利要求1所述的风险流量检测方法，其特征在于，根据资源池内的业务流量构建识别模型，利用迁移学习进行训练并通过工作场景参数进行修正得到风险流量判别模型，包括：

对资源池内的业务流量进行第一风险标注；

根据资源池内的业务流量的流量属性，确定目标流量特性；

4.根据权利要求3所述的风险流量检测方法，其特征在于，对资源池内的业务流量进行第一风险标注，包括：

确定资源池内的业务流量的数据包特征；

5.根据权利要求3所述的风险流量检测方法，其特征在于，根据资源池内的业务流量的流量属性，确定目标流量特性，包括：

6.根据权利要求3所述的风险流量检测方法，其特征在于，根据第二风险标注的业务流量对构建的识别模型进行预训练，确定预训练的识别模型，包括：

7.根据权利要求3所述的风险流量检测方法，其特征在于，所述工作场景参数，包括：工作时间段和工作场景；

根据工作时间段和工作场景，确定模型修正函数；

根据预训练的识别模型，确定权重向量；

获取未标注的流量数据；

确定第一分类器在第二风险标注的业务流量上的错误率；

8.根据权利要求7所述的风险流量检测方法，其特征在于，根据工作时间段和工作场景，确定模型修正函数，包括：

根据工作时间段，确定时间系数；

根据工作场景，确定工作函数；

根据时间系数和工作函数，确定模型修正函数。

9.根据权利要求7所述的风险流量检测方法，其特征在于，根据更新后的权重向量和模型修正函数，利用迁移学习确定风险流量判别模型，包括：

10.根据权利要求5所述的风险流量检测方法，其特征在于，还包括：在确定出目标检测流量中的风险流量后，将风险流量的特征输入风险识别数据库，以更新自变量的权重。

11.一种风险流量检测装置，其特征在于，包括：

业务流量获取模块，用于获取资源池内的业务流量；

12.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～10中任意一项所述的风险流量检测方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～10中任意一项所述的风险流量检测方法。