CN115473850A

CN115473850A - 一种基于ai的实时数据过滤方法、系统及存储介质

Info

Publication number: CN115473850A
Application number: CN202211119207.1A
Authority: CN
Inventors: 赵利; 汪静; 邓毅; 尹磊
Original assignee: Tenth Research Institute Of Telecommunications Technology Co ltd
Current assignee: Tenth Research Institute Of Telecommunications Technology Co ltd
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2022-12-13
Anticipated expiration: 2042-09-14
Also published as: CN115473850B

Abstract

本发明提供了一种基于AI的实时数据过滤方法和系统，属于互联网数据处理领域，该方法包括：转发汇聚分流设备输出的全量数据采样报文；接收全量数据采样报文，并对全量数据采样报文进行预处理；对预处理后的数据流进行实时检测，识别流式数据采样信息；根据匹配结果初步识别协议结构特征，对相关数据流内容进行深度解析，识别内容资源；根据深度识别结果完成变更库计算、重复库计算、策略生成及输出；生成不同维度的过滤规则，实时回传至汇聚分流设备进行数据过滤；生成相应的过滤策略，输出到规则管理设备。本发明将基于AI的实时数据过滤方法与汇聚分流设备相结，可以根据场景化分析需求，动态化、智能化的快速定义相关过滤标准及策略。

Description

一种基于AI的实时数据过滤方法、系统及存储介质

技术领域

本发明属于互联网数据处理技术领域，具体涉及一种基于AI的实时数据过滤方法、系统及存储介质。

背景技术

互联网技术发展和大数据时代的到来，对大规模复杂网络的态势感知既是机遇又是挑战。一方面，纷繁多样的信息使得全面体现网络的运行态势成为可能；另一方面，海量、异构的数据则增加了数据处理的负担，大大制约着网络态势感知效益的发挥。为解决信息全面与维数灾难的矛盾，需要对采集的海量数据进行精细化筛选，提升相关工作的时效性、准确性以及智能化水平。

汇聚分流设备是实现互联网数据流量采集的关键设备。汇聚分流设备对串接/并接网络数据流量实现数据的汇聚、分流、同源同宿、均衡输出，满足各领域用户流量监控分析的部署需求。汇聚分流设备实现流量采集，就是将网络流量通过物理层、数据链路层的信号解析和解帧，实现IP原始报文的获取。由于以通用CPU为核心的大数据分析平台的存储和处理能力总是有限的，所以一定方式或规则的过滤(或称流量衰减)，如图1，可以有效降低大数据分析平台的负载，实现整个系统的建设成本和功耗。

国内外已开展了多种不同形式的规则过滤技术研究。目前规则过滤技术主要是通过大数据分析平台对接收的数据进行统计分析，并进行特征识别形成规则，然后反馈到汇聚分流设备，实现简单的数据过滤。基于AI的实时数据过滤方式的技术开展较少，针对信号分析尤其独特的特点，规则类型多样、数量庞大，评价标准复杂，对数据实时、精准的过滤一直是系统建设中的难题。

因此，目前针对信号分析的数据过滤方法存在指标单一、方式简单、实时性不足，数据过滤不够精准的问题。

发明内容

本发明的目的是提供一种基于AI的实时数据过滤方法对采集或汇聚分流后的数据进行智能化过滤，对异常数据、特定流量、重复载荷、无效资源、伪装数据进行智能化识别和行为判别，包括音/视频流量过滤、js/css/html/php图片及静态页面，使数据资源得到有效利用。

为了克服上述现有技术存在的不足，本发明提供了一种基于AI的实时数据过滤系统。

为了实现上述目的，本发明提供如下技术方案：

一种基于AI的实时数据过滤系统，包括以下步骤：

转发汇聚分流设备输出的全量数据采样报文；

接收全量数据采样报文，并对所述全量数据采样报文进行预处理；

对预处理后的数据流进行实时检测，识别流式数据采样信息，所述流式数据包括相关协议、应用及格式；

根据匹配结果初步识别协议结构特征，对相关数据流内容进行深度解析，识别内容资源，所述内容资源包括相关内容、关联关系、特定流量；

根据深度识别结果完成变更库计算、重复库计算、策略生成及输出；

生成不同维度的过滤规则，实时回传至汇聚分流设备进行数据过滤；

生成相应的过滤策略，输出到规则管理设备。

优选地，所述接收全量数据采样报文，并对所述全量数据采样报文进行预处理，具体包括以下步骤：

数据接收：以10GE或100GE端口作为数据接收接口，获取汇聚分流设备转发的互联网信号；

隧道报文解析：实现隧道报文、封装报文的解析识别，包括链路层报文识别、VLAN报文识别、IP层报文识别、IPv4/IPv6识别；

解析报文分发：解析后数据进行二次负载均衡分发，提高设备内多核间的负载均衡度；

对原始流量数据进行预处理。

优选地，所述对原始流量数据进行预处理，具体包括以下步骤：

对数据包进行解析，提取数据包的五元组：源ip地址、源端口、目的ip地址、目的端口、传输层协议，根据五元组将原始流量数据划分为会话；

在上一步得到的每个会话中随机生成两个新的ip地址和两个mac地址，将双方的ip地址和mac地址分别用新生成的随机地址来代替；

截取每个会话的前1024Bytes，如果不足1024Bytes，则在末尾补0至长度为1024Bytes；

根据会话中每一个字节对应的十进制值，将其转化为灰度为0～255的像素点，进而每个会话转化为一幅28×28的灰度图像。

优选地，所述对预处理后的数据流进行实时检测，识别流式数据采样信息，所述流式数据包括相关协议、应用及格式，具体包括以下步骤：

根据协议特征进行协议识别，包括协议类别、协议通信元素、协议通信特征，以及深度解析负载特征。

识别结果标注：根据协议特征对数据流识别结果进行标注，为后续处理提供数据流协议应用类别归属参考。

优选地，所述根据匹配结果初步识别协议结构特征，对相关数据流内容进行深度解析，识别内容资源，所述内容资源包括相关内容、关联关系、特定流量，具体包括：

对于标准协议按照其协议协议通信元素进行识别；

对于非标准协议需要根据其负载特征进行识别，各协议负载特征规则不相同；负载规则包括：应用大类名称、大类编号、负载特征、应用名称、应用ID、特征长度、特征起始位置、特征结束位置、标志位、保留字段。

优选地，所述根据深度识别结果完成变更库计算、重复库计算、策略生成及输出，具体包括以下步骤：

利用卷积神经网络CNN进行流量识别；

根据识别结果与原有特征集合进行比对，做存在新增过滤规则特征则将规则集合加入变更库中，并进行标记，作为后续识别待更新过滤规则集合；

重复库中存放的是重复数据判断特征的集合，根据系统中处理数据的重复数据归类特征进行累计。

优选地，所述过滤规则包括基于协议、应用、安全、五元组的组合规则。

优选地，所述生成相应的过滤策略，输出到规则管理设备，具体为：以过滤规则为主体，再辅以过滤规则生效时间、结束时间、生效设备和规则轮询策略生成相应的过滤策略，输出到规则管理设备。

本发明的另一目的在于还提供一种基于AI的实时数据过滤系统，其特征在于，包括：

数据接收模块，用于转发汇聚分流设备输出的全量数据采样报文；

预处理模块，用于接收全量数据采样报文，并对所述全量数据采样报文进行预处理；

模式匹配模块，用于对预处理后的数据流进行实时检测，识别流式数据采样信息，所述流式数据包括相关协议、应用及格式；

深度学习模块，用于根据匹配结果初步识别协议结构特征，对相关数据流内容进行深度解析，识别内容资源，所述内容资源包括相关内容、关联关系、特定流量；

智能引擎模块，用于根据深度识别结果完成变更库计算、重复库计算、策略生成及输出；

过滤规则生成模块，用于生成不同维度的过滤规则，实时回传至汇聚分流设备进行数据过滤；

过滤策略生成模块，用于生成相应的过滤策略，输出到规则管理设备。

本发明的另一目的还在于还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述的基于AI的实时数据过滤方法。

本发明提供的基于AI的实时数据过滤方法和系统具有以下有益效果：

本发明将基于AI的实时数据过滤方法与汇聚分流设备相结，通过汇聚分流设备实现互联网IP原始报文的获取，并按照规则进行数据过滤，可以根据场景化分析需求，动态化、智能化的快速定义相关过滤标准及策略，实现数据过滤，有效降低大数据分析平台的负载，实现整个系统的建设成本和功耗。

附图说明

为了更清楚地说明本发明实施例及其设计方案，下面将对本实施例所需的附图作简单地介绍。下面描述中的附图仅仅是本发明的部分实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有的数据过滤系统原理图；

图2为本发明实施例1的基于AI的实时数据过滤系统的原理图；

图3为本发明实施例1的基于AI的实时数据过滤方法的流程图。

具体实施方式

为了使本领域技术人员更好的理解本发明的技术方案并能予以实施，下面结合附图和具体实施例对本发明进行详细说明。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1

针对现有技术缺点，本发明根据采样的数据，通过模式识别引擎快速判别相关协议、应用、格式等流式数据信息，根据动态策略库的相关行为判别，执行对数据流相应的动作操作，如图2，形成协议过滤规则，并反馈至汇聚分流设备实现数据智能过滤。

基于此，本发明提供了一种基于AI的实时数据过滤方法，其关键步骤就是以模式识别、深度学习为核心，实现全量数据采样报文的内容识别、格式识别，包括以下步骤：

S1、转发汇聚分流设备输出的全量数据采样报文。

S2、接收全量数据采样报文，并对全量数据采样报文进行预处理，具体包括以下步骤：

(1)数据接收：以10GE或100GE端口作为数据接收接口，获取汇聚分流设备转发的互联网信号。

(2)隧道报文解析：实现隧道报文、封装报文的解析识别，包括链路层报文识别、VLAN报文识别、IP层报文识别、IPv4/IPv6识别等。

(3)解析报文分发：解析后数据进行二次负载均衡分发，提高设备内多核间的负载均衡度。

(4)对原始流量数据进行预处理。

其中，对原始流量数据进行预处理，具体包括以下步骤：

1)对数据包进行解析，提取数据包的五元组：源ip地址、源端口、目的ip地址、目的端口、传输层协议；具有相同五元组的数据包通过时间排序形成一个流，而一个会话包含了双向的流，即源ip地址/端口和目的ip地址/端口是可互换的。因此，可以根据五元组将原始流量数据划分为会话。

2)为了避免ip地址和mac地址对分类产生影响，在上一步得到的每个会话中随机生成两个新的ip地址和两个mac地址，将双方的ip地址和mac地址分别用新生成的随机地址来代替。

3)由于不同会话之间的长度差异较大，为了便于训练和分类，需要统一会话长度。本文截取了每个会话的前1024Bytes，如果不足1024Bytes，则在末尾补0至长度为1024Bytes。这样选取的主要依据是会话的前部分通常为连接数据和部分内容数据，一方面这些数据最能体现会话的内在特征，另一方面不同建立连接的过程与普通的TCP连接具有很大的差异，因此最能够区分私有协议流量和常规流量。

4)根据会话中每一个字节对应的十进制值，将其转化为灰度为0～255的像素点，进而每个会话转化为一幅28×28的灰度图像。

S3、对预处理后的数据流进行实时检测，识别流式数据采样信息，流式数据包括相关协议、应用及格式，具体包括以下步骤：

(1)根据协议特征进行协议识别，包括协议类别(标准协议(DNS、HTTP、SSL、博客)、私有协议(WX、QQ、钉钉等)、未知协议等)、协议通信元素(源IP、目的IP、源端口、目的端口、协议类别)、协议通信特征(协议头、负载长度、负载特征)等，以及深度解析负载特征等。

(2)识别结果标注：根据协议特征对数据流识别结果进行标注，为后续处理提供数据流协议应用类别归属参考。

S4、根据匹配结果初步识别协议结构特征，对相关数据流内容进行深度解析，识别内容资源，内容资源包括相关内容、关联关系、特定流量，具体包括以下步骤：

对于标准协议按照其协议协议通信元素进行识别。

对于非标准协议需要根据其负载特征进行识别，各协议负载特征规则不近相同。负载(payload)规则由以下几部分组成：{应用大类名称、大类编号、负载特征、应用名称、应用ID、特征长度、特征起始位置、特征结束位置、标志位、保留字段}。以某证券软件为例，其识别特征为{“Tools”，5，”\\x16\\x2F\\x65\\x91\\x7F”，“Tonghuashun”，60001，5，7，12，0，＂Null＂，0}。

S5、根据深度识别结果完成变更库计算、重复库计算、策略生成及输出，具体包括以下步骤：

(1)利用卷积神经网络CNN进行流量识别，其是一类包含卷积计算且具有深度结构的前馈神经网络。LeNet－5是CNN中最有代表性的网络之一，最早被应用于手写数字的识别，并取得了相当好的效果。本方法训练模型主要基于传统的LeNet－5结构进行。由输入层、卷积层、池化层、全连接层和输出层组成。

1)输入层：输入层用于数据的输入，将图像数据转化成像素矩阵，同时可以做一些预处理操作。常见的两种图像预处理方式是去均值和归一化。

2)卷积层：卷积层的主要工作是卷积核与图像做卷积运算得到新的特征面。计算方法是将卷积核按一定步长扫描图像，每扫描一次将其内所有对应元素做乘加运算，完整扫描后得到新的特征面。通常，卷积层可能有多个卷积核，每个卷积核需要分别做卷积运算生成新的特征面。由于卷积运算仍是一种线性运算，需要使用激励函数对卷积结果进行一个非线性映射。常用的激活函数有sigmoid、tanh和ReLU函数。

3)池化层：池化层的位置一般位于连续的卷积层中间。对输入的特征面进行压缩，一方面使特征面变小，简化网络的计算，另一方面进行特征压缩，提取主要特征。池化层一般有两种计算方式：一种是最大池化，取窗口内的最大值；另一种是平均池化，取窗口内的平均值。

4)全连接层和输出层：全连接层通常在卷积神经网络的尾部连接所有的特征，将输出值送给分类器。输出层负责最后目标结果的输出。

(2)根据识别结果与原有特征集合进行比对，做存在新增过滤规则特征则将规则集合加入变更库中，并进行标记。作为后续识别待更新过滤规则集合。

(3)重复库中存放的是重复数据判断特征的集合。根据系统中处理数据的重复数据归类特征进行累计(如：重复数据的不同服务端IP和不同端口集合)。

(4)策略生成以过滤规则为主体，再辅以过滤规则生效时间、结束时间、生效设备和规则轮询策略等生成相应的过滤策略。

S6、生成不同维度的过滤规则，实时回传至汇聚分流设备进行数据过滤，具体包括以下步骤：

生成不同维度的过滤规则，实时回传至汇聚分流设备进行数据过滤

生成不同维度的过滤规则，为实时数据过滤服务，是一组可信白名单数据特征集合。深度识别变更库、重复库为过滤规则生成提供数据依据(如不同服务器IP来源的HTTPGET的重复通信内容)。本文生成的过滤规则包括基于协议、应用、安全、五元组的组合规则。可实时回传至汇聚分流设备进行数据过滤。

S7、生成相应的过滤策略，输出到规则管理设备，具体包括以下步骤：

生成相应的过滤策略，输出到规则管理设备。

以过滤规则为主体，再辅以过滤规则生效时间、结束时间、生效设备和规则轮询策略等生成相应的过滤策略，输出到规则管理设备。

基于同一个发明构思，本发明还提供一种基于AI的实时数据过滤系统，包括数据接收模块、预处理模块、模式匹配模块、深度学习模块、智能引擎模块、过滤规则生成模块和过滤策略生成模块。

具体地，数据接收模块用于转发汇聚分流设备输出的全量数据采样报文。

预处理模块用于接收全量数据采样报文，并对全量数据采样报文进行预处理。

模式匹配模块用于对预处理后的数据流进行实时检测，识别流式数据采样信息，流式数据包括相关协议、应用及格式。

深度学习模块用于根据匹配结果初步识别协议结构特征，对相关数据流内容进行深度解析，识别内容资源，内容资源包括相关内容、关联关系、特定流量。

智能引擎模块用于根据深度识别结果完成变更库计算、重复库计算、策略生成及输出。

过滤规则生成模块用于生成不同维度的过滤规则，实时回传至汇聚分流设备进行数据过滤。

过滤策略生成模块用于生成相应的过滤策略，输出到规则管理设备。

同时，本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现如上述的基于AI的实时数据过滤方法。

将本实施例中提供的基于AI的实时数据过滤方法应用到大规模复杂网络海量数据进行精细化筛选中对数据进行处理，如图3所示，具体处理过程如下：

步骤101、汇聚分流设备对分光采集的实时数据流进行聚合收敛，并输出全量数据采样报文。

步骤102、接收汇聚分流设备输出的全量数据采样报文，并进行预处理。

步骤103：模式匹配模块对预处理后的数据实时检测，主要完成协议、应用匹配等功能，并将结果输出至深度学习模块。

步骤104：深度学习模块根据初步识别结构，对相关数据流内容进行深度解析，完成内容识别、格式识别等功能。

步骤105：AI模块根据深度识别结果完成变更库计算、重复库计算、策略生成及输出等功能。

步骤106：生成基于协议、应用、安全、五元组、组合规则等不同维度的过滤规则，并实时回传至汇聚分流设备。

步骤107：实时过滤系统实时生成相应过滤策略输出到规则管理设备.

步骤108：规则管理设备接收实时过滤系统的过滤策略，并转发到汇聚分流设备。

步骤109：汇聚分流设备根据相应规则及分析需求确定输出或丢弃符合规则的数据流，并将过滤后的数据输出至数据分析集群进行相关分析、应用。

本发明提供的基于AI的实时数据过滤方法关键点在于：

第一：基于模式识别的流式采样数据协议、应用匹配技术。

模式识别支持对流式采样数据按自定义特征码进行匹配，每个自定义特征支持灵活的偏移量设定，偏移量可从数据包头部、数据包三层IP头部、数据包四层传输协议头部开始设定偏移量的大小，实现链路层报文识别、VLAN报文识别、MPLS报文识别、IP层报文识别、IPv4/IPv6识别和TCP/UDP/SCTP识别。

第二：基于深度学习的内容识别、格式识别技术。

通过深度读取数据流中的IP数据包荷载的内容，抽取数据流特征，使用无监督或半监督学习算法对该数据流中的各种数据成分进行时序数据建模。通过时序分析模型建立，能通过对上一单位时间的历史数据流进行主成分分析，预测下一单位时间数据流成分及其置信度。系统该数据流分析结果和预测结果，使用系统定义的策略对数据流量进行分析、分类操作，实现内容识别、格式识别。

第三、现有技术的实施方案是基于大数据平台的离线计算方式对接入的数据进行分析，形成对应的过滤规则，并将过滤规则通过规则管理设备部署到汇聚分流设备，实现海量数据的筛选过滤。本发明的基于AI的实时数据过滤方法采用专用设备对接汇聚分流设备，接收采样数据，通过模式识别技术和深度学习技术，实时、快速判别相关协议、应用、格式等流式数据信息，形成过滤规则，并反馈至汇聚分流设备实现数据智能过滤。

以上所述实施例仅为本发明较佳的具体实施方式，本发明的保护范围不限于此，任何熟悉本领域的技术人员在本发明披露的技术范围内，可显而易见地得到的技术方案的简单变化或等效替换，均属于本发明的保护范围。

Claims

1.一种基于AI的实时数据过滤方法，其特征在于，包括以下步骤：

转发汇聚分流设备输出的全量数据采样报文；

生成相应的过滤策略，输出到规则管理设备。

2.根据权利要求1所述的基于AI的实时数据过滤方法，其特征在于，所述接收全量数据采样报文，并对所述全量数据采样报文进行预处理，具体包括以下步骤：

对原始流量数据进行预处理。

3.根据权利要求2所述的基于AI的实时数据过滤方法，其特征在于，所述对原始流量数据进行预处理，具体包括以下步骤：

4.根据权利要求3所述的基于AI的实时数据过滤方法，其特征在于，所述对预处理后的数据流进行实时检测，识别流式数据采样信息，所述流式数据包括相关协议、应用及格式，具体包括以下步骤：

根据协议特征进行协议识别，包括协议类别、协议通信元素、协议通信特征，以及深度解析负载特征；

5.根据权利要求4所述的基于AI的实时数据过滤方法，其特征在于，所述根据匹配结果初步识别协议结构特征，对相关数据流内容进行深度解析，识别内容资源，所述内容资源包括相关内容、关联关系、特定流量，具体包括：

对于标准协议按照其协议协议通信元素进行识别；

6.根据权利要求5所述的基于AI的实时数据过滤方法，其特征在于，所述根据深度识别结果完成变更库计算、重复库计算、策略生成及输出，具体包括以下步骤：

利用卷积神经网络CNN进行流量识别；

7.根据权利要求6所述的基于AI的实时数据过滤方法，其特征在于，所述过滤规则包括基于协议、应用、安全、五元组的组合规则。

8.根据权利要求7所述的基于AI的实时数据过滤方法，其特征在于，所述生成相应的过滤策略，输出到规则管理设备，具体为：以过滤规则为主体，再辅以过滤规则生效时间、结束时间、生效设备和规则轮询策略生成相应的过滤策略，输出到规则管理设备。

9.一种基于AI的实时数据过滤系统，其特征在于，包括：

智能引擎模块，用于根据深度识别结果完成变更库计算、重复库计算、策略生成及输出

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述方法。