CN112804123B - 一种用于调度数据网的网络协议识别方法及系统 - Google Patents
一种用于调度数据网的网络协议识别方法及系统 Download PDFInfo
- Publication number
- CN112804123B CN112804123B CN202110041898.7A CN202110041898A CN112804123B CN 112804123 B CN112804123 B CN 112804123B CN 202110041898 A CN202110041898 A CN 202110041898A CN 112804123 B CN112804123 B CN 112804123B
- Authority
- CN
- China
- Prior art keywords
- data
- network
- protocol
- convolutional neural
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/18—Protocol analysers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/50—Testing arrangements
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S40/00—Systems for electrical power generation, transmission, distribution or end-user application management characterised by the use of communication or information technologies, or communication or information technology specific aspects supporting them
- Y04S40/20—Information technology specific aspects, e.g. CAD, simulation, modelling, system security
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开的一种用于调度数据网的网络协议识别方法及系统,包括:采集主站与子站之间的通讯数据,按比例分为训练集和测试集;将训练集中的数据输入卷积神经网络模型中进行特征学习,得到主站与子站通讯的网络协议指纹特征数据;在测试集中测试卷积神经网络模型,优化所述卷积神经网络模型的参数;将待识别网络流量输入卷积神经网络模型,根据各协议特有的模式特征确定流量所属协议类型;本发明能够对网络流量数据进行自主特征学习,从而完成对流量的分类,无需花费精力于协议特征抽取与选择,提高了提取效率和准确。
Description
技术领域
本发明属于电力调度数据网网络安全的技术领域,具体涉及一种用于调度数据网的网络协议识别方法及系统。
背景技术
调度数据网中工控系统主要靠正反向隔离装置和纵向加密机进行横向和纵向访问控制,贯穿着整个主站与众多厂站之间的通信行为,但是在主站与厂站之间缺乏有效的监测、防护手段。为了调度数据网网络的可靠性、可用性和可管可控性,有必要对整个调度数据网网络通信协议进行分析识别,这样才有能力对网络上的信息流量及行为方式、信息的传播及内容进行控制。当前对网络协议识别的技术有四种:1)基于端口的流量识别技术;2)基于负载特征的识别技术;3)基于应用层网关的识别技术;4)基于流量统计特征的识别技术
结合调度数据网的实际情况,具体分析如下:
1)调度数据网是借助IEC104规约进行通信,端口固定,但是诸如网络装置以及正常的网络运维检修,会采用其他的端口进行网络通信,所以基于端口的流量识别技术方法不太适用于调度数据网。
2)基于负载特征的识别技术:首先对目标流量进行特征分析,分析所发送的数据包负载中携带的特征码;当数据包通过识别系统时,识别系统对其进行解包,检查数据包中是否携带目标流量类型的特征码,如果是则表示该流量与目标流量类型匹配;DPI技术对许多互联网应用流量解析都相当有效,并且准确程度相当高;但DPI技术只能识别特征已知的应用流量,并且需对网络数据包进行拆解,在高速网络环境下对设备的运算速度和内存都很高的要求。
3)调度数据网主要是采用TCP/UDP协议进行通信,未涉及具体的应用层协议,所以基于应用层网关的识别技术方法不太适用。
4)调度数据网采用IEC104规约协议实现主站与厂站之间的通信行为,协议较为单一,基于流量统计特征的识别技术主要是通过流量分析各个协议之间的差异性,所以也不太适用于调度数据网网络协议分析。
发明内容
本发明克服现有技术存在的不足,所要解决的技术问题为:提供一种能够对网络流量数据进行自主特征学习,从而完成流量分类且用于调度数据网的网络协议识别方法及系统。
为了解决上述技术问题,本发明采用的技术方案为:一种用于调度数据网的网络协议识别方法,包括:采集主站与子站之间的通讯数据,按比例分为训练集和测试集;将训练集中的数据输入卷积神经网络模型中进行特征学习,得到主站与子站通讯的网络协议指纹特征数据;在测试集中测试卷积神经网络模型,优化所述卷积神经网络模型的参数;将待识别网络流量输入卷积神经网络模型,根据各协议特有的模式特征确定流量所属协议类型。
优选地,所述采集主站与子站之间的通讯数据,按比例分为训练集和验证集之前,还包括:按照旁路接入的方式接入网络报文信息,对网络报文信息进行深度解析以获取五元组信息;根据所述五元组信息生成解析后的网络流量数据包,其中所述网络五元组信息包括:源IP地址、源端口、目标IP地址、目标端口和协议类型;判断解析出来的五元组信息中的源IP地址口、目标IP地址是否与预先输入的固有台账设备中IP地址匹配;判断解析出来的五元组信息中的源端口号、目标端口号是否为打标签以外的端口号;当解析出来的五元组信息中的源IP地址口、目标IP地址无法与预先输入的固有台账设备中IP地址匹配,或五元组信息中的源端口号、目标端口号为打标签以外的端口号时,生成风险预警信息,并重新开始数据解析。
优选地,将训练集中的数据输入卷积神经网络模型中进行特征学习,得到主站与子站通讯的网络协议指纹特征数据,具体包括:根据主站与子站之间的通信特征,将每个所述训练集切分为7个指标,具体包括:主站或子站的IP地址信息、发送包大小、发送包的频率、104协议发送包大小、104规约发送次数、04协议接收包大小和104规约接收次数;将所述训练数据集的7个指标按照时间维度构造成一个矩阵,并对训练数据集进行去均值和归一化处理,获得清洗后的训练集;通过卷积层、最大池化层对清洗后的训练集进行特征提取,结合激活层进行特征筛选,其中,卷积神经网络模型的具体结构包括:输入层→第一卷积层→第一最大池化层→第二卷积层→第二最大池化层→第一全连接层→REUL激活层→第二全连接层→输出层。
优选地,所述在测试集中测试卷积神经网络模型,优化所述卷积神经网络模型的参数,具体包括:采集主站与某子站之间的测试数据集、网络异常时的数据集和互联网的常规数据,并打上标签;将打标签后的测试数据输入该子站对应的卷积神经网络模型中进行训练,根据网络协议和异常网络时的识别率,调整卷积神经网络模型的模型参数,得到优化后的模型参数;所述模型参数包括:卷积层和卷积核个数。
优选地,还包括:将主站与不同子站通讯的卷积神经网络模型进行存储,形成网络协议指纹特征识别模型库。
相应地,一种用于调度数据网的网络协议识别系统,包括:数据采集单元:采集主站与子站之间的通讯数据,按比例分为训练集和测试集;卷积计算单元:将训练集中的数据输入卷积神经网络模型中进行特征学习,得到主站与子站通讯的网络协议指纹特征数据;优化单元:在测试集中测试卷积神经网络模型,优化所述卷积神经网络模型的参数;识别单元:将待识别网络流量输入卷积神经网络模型,根据各协议特有的模式特征确定流量所属协议类型。
优选地,还包括:数据解析单元:按照旁路接入的方式接入网络报文信息,对网络报文信息进行深度解析以获取五元组信息;根据所述五元组信息生成解析后的网络流量数据包,其中所述网络五元组信息包括:源IP地址、源端口、目标IP地址、目标端口和协议类型;第一判断单元:用于判断解析出来的五元组信息中的源IP地址口、目标IP地址是否与预先输入的固有台账设备中IP地址匹配;第二判断单元:用于判断解析出来的五元组信息中的源端口号、目标端口号是否为打标签以外的端口号;告警单元:当解析出来的五元组信息中的源IP地址口、目标IP地址无法与预先输入的固有台账设备中IP地址匹配,或五元组信息中的源端口号、目标端口号为打标签以外的端口号时,生成风险预警信息,并重新开始数据解析。
优选地,所述卷积计算单元包括:切分单元:根据主站与子站之间的通信特征,将每个所述训练集切分为7个指标,具体包括:主站或子站的IP地址信息、发送包大小、发送包的频率、104协议发送包大小、104规约发送次数、04协议接收包大小和104规约接收次数;预处理单元:将所述训练数据集的7个指标按照时间维度构造成一个矩阵,并对训练数据集进行去均值和归一化处理,获得清洗后的训练集;卷积单元:通过卷积层、最大池化层对清洗后的训练集进行特征提取,结合激活层进行特征筛选,其中,卷积神经网络模型的具体结构包括:输入层→第一卷积层→第一最大池化层→第二卷积层→第二最大池化层→第一全连接层→REUL激活层→第二全连接层→输出层。
优选地,所述优化单元包括:标记单元:采集主站与某子站之间的测试数据集、网络异常时的数据集和互联网的常规数据,并打上标签;测试单元:将打标签后的测试数据输入该子站对应的卷积神经网络模型中进行训练,根据网络协议和异常网络时的识别率,调整卷积神经网络模型的模型参数,得到优化后的模型参数;所述模型参数包括:卷积层和卷积核个数。
优选地,还包括:指纹特征识别模型库建立单元:用于将主站与不同子站通讯的卷积神经网络模型进行存储,形成网络协议指纹特征识别模型库。
本发明与现有技术相比具有以下有益效果:
本发明一种用于调度数据网的网络协议识别方法及系统,根据不同子站与主站之间的流量数据分别建立卷积神经网络模型,根据五元组信息里面的IP地址信息查找对应所属的子站,进而选择与子站对应的卷积神经网络模型进行训练,能够对网络流量数据进行自主特征学习,从而完成对流量的分类,无需花费精力于协议特征抽取与选择,提高了提取效率和准确性;该方法具备学习和扩展能力,可扩展应用到对包含恶意代码网络流量的识别和对应用程序流量的识别,具有极强的实用性。
附图说明
下面结合附图对本发明做进一步详细的说明;
图1为本发明实施例一提供的一种用于调度数据网的网络协议识别方法的流程示意图;
图2为本发明实施例一提供的一种用于调度数据网的网络协议识别系统的结构示意图;
图3为本发明实施例二提供的一种用于调度数据网的网络协议识别系统的结构示意图;
图4为本发明实施例三提供的一种用于调度数据网的网络协议识别系统的结构示意图;
图5为本发明实施例四提供的一种用于调度数据网的网络协议识别系统的结构示意图;
图6为本发明实施例五提供的一种用于调度数据网的网络协议识别系统的结构示意图;
图7为本发明卷积神经网络模型中卷积计算过程;
图中:101为数据采集单元,102为卷积计算单元,1021为切分单元,1022为预处理单元,1023为卷积单元,103为优化单元,1031为标记单元,1032为测试单元,104为识别单元,105为数据解析单元,106为第一判断单元,107为第二判断单元,108为告警单元,109为指纹特征识别模型库建立单元。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一提供的一种用于调度数据网的网络协议识别方法的流程示意图,如图1所示,一种用于调度数据网的网络协议识别方法,包括:
S101、采集主站与子站之间的通讯数据,按比例分为训练集和测试集;
S102、将训练集中的数据输入卷积神经网络模型中进行特征学习,得到主站与子站通讯的网络协议指纹特征数据;
S103、在测试集中测试卷积神经网络模型,优化所述卷积神经网络模型的参数;
S104、将待识别网络流量输入卷积神经网络模型,根据各协议特有的模式特征确定流量所属协议类型。
具体地,根据不同子站与主站之间的流量数据分别建立卷积神经网络模型,根据五元组信息里面的IP地址信息查找对应所属的子站,进而选择与子站对应的卷积神经网络模型进行训练,能够对网络流量数据进行自主特征学习,从而完成对流量的分类,无需花费精力于协议特征抽取与选择,提高了提取效率和准确性;该方法具备学习和扩展能力,可扩展应用到对包含恶意代码网络流量的识别和对应用程序流量的识别,具有极强的实用性。
进一步地,所述采集主站与子站之间的通讯数据,按比例分为训练集和验证集之前,还包括:
按照旁路接入的方式接入网络报文信息,对网络报文信息进行深度解析以获取五元组信息;根据所述五元组信息生成解析后的网络流量数据包,其中所述网络五元组信息包括:源IP地址、源端口、目标IP地址、目标端口和协议类型;判断解析出来的五元组信息中的源IP地址口、目标IP地址是否与预先输入的固有台账设备中IP地址匹配;判断解析出来的五元组信息中的源端口号、目标端口号是否为打标签以外的端口号;当解析出来的五元组信息中的源IP地址口、目标IP地址无法与预先输入的固有台账设备中IP地址匹配,或五元组信息中的源端口号、目标端口号为打标签以外的端口号时,生成风险预警信息,并重新开始数据解析。
具体地,按照旁路接入的方式接入网络报文信息,把网络五元组信息(源IP地址、源端口、目标IP地址、目标端口、协议类型)解析出来,然后再把一个完整网络流量包的数据解析出来,例如包的大小、传输时间、间隔时间等;通过上一步骤解析出来的网络五元组数据,跟预先输入的固有台账设备进行匹配,如果能在设备台账库里面找到对应的IP地址,则认为这是合法设备,否则为非常入侵设备;按照国网的安防要求,IEC104工控协议采用独立的端口进行通讯,再其他安防设备所需的端口打上标签排除在外,可以认为如果五元组数据中出现了标签以外的端口号,则认为是非法端口;如果出现非法设备、非法端口,直接生成风险预警信息,然后重新开始。
进一步地,将训练集中的数据输入卷积神经网络模型中进行特征学习,得到主站与子站通讯的网络协议指纹特征数据,具体包括:
根据主站与子站之间的通信特征,将每个所述训练集切分为7个指标,具体包括:主站或子站的IP地址信息、发送包大小、发送包的频率、104协议发送包大小、104规约发送次数、04协议接收包大小和104规约接收次数;
将所述训练数据集的7个指标按照时间维度构造成一个矩阵,并对训练数据集进行去均值和归一化处理,获得清洗后的训练集;通过卷积层、最大池化层对清洗后的训练集进行特征提取,结合激活层进行特征筛选,其中,卷积神经网络模型的具体结构包括:输入层→第一卷积层→第一最大池化层→第二卷积层→第二最大池化层→第一全连接层→REUL激活层→第二全连接层→输出层。
具体地,将上述7个指标按照时间维度构造成一个矩阵,生成了M*7的矩阵,构成了卷积神经网络的数据集,在进行卷积计算之前,对数据集进行去均值和归一化处理。
选定三个3*3卷积核(也可以理解为是过滤器、特征检测器),进行卷积计算,由于这里定义了三个卷积核,所以通过计算可以得到三个特征图。这里为了更好的凸显出局部特征值,选择最大值池化,得到三个新的特征图;为了更好的减低数据维度,进一步提取出关键特征值,本实施例对卷积计算和池化重复两次,即:卷积+池化==》卷积+池化;经过两次的卷积+池化计算后的特征图转换成一个列向量,为了增加了神经网络各层之间的非线性关系,把得到的结果放到Relu函数中进行激励,完整的卷积计算过程如图7所示。
进一步地,所述在测试集中测试卷积神经网络模型,优化所述卷积神经网络模型的参数,具体包括:采集主站与某子站之间的测试数据集、网络异常时的数据集和互联网的常规数据,并打上标签;将打标签后的测试数据输入该子站对应的卷积神经网络模型中进行训练,根据网络协议和异常网络时的识别率,调整卷积神经网络模型的模型参数,得到优化后的模型参数;所述模型参数包括:卷积层和卷积核个数。
本实施例着重对各种类型的104规约类型样本数据进行训练,提取出基于网络协议的指纹特征,如果跟网络协议指纹特征不符,则给出对应的预警。
具体训练中采用PMA工控模拟软件合成出各个场景下的104规约数据信息,如单点遥信、归一化遥测(整形)、浮点型遥测、双点遥信、对时、总召、电度、单点遥控、双点遥控等,通过上述的模型训练出工控协议指纹特征,测试数据选用亳州地区35kV的变电站对点时的测试数据集、网络消缺时的数据集、互联网的常规数据,并把这些数据打上标签,选用这三个数据集的原因一个是规约报文比较单一的应用场景,一个是网络异常的情况下,还有一个是跟工控协议无关的数据。初次的训练过后验证效果如表1所示:
表1 第一次模型训练验证表
如表1所示,模型识别率低,优化卷积神经网络的方法主要有正则化、增加神经网络层数、使用正确的代价函数、使用好的权重初始化技术、人为拓展训练集、弃权技术;本实施例新加一个卷积层和卷积核,将原来的卷积层变为3,卷积核个数为4,其他暂时不变,训练过后验证效果如表2所示:
表2 第二次模型训练验证表
如表2所示,通过本次参数调优,可以看到识别率明显上升,再次对卷积层数和卷积核进行调整,调整卷积层变为5,卷积核个数为7;训练后的验证效果如表3所示:
表3 第三次模型训练验证表
如表3所示,通过本次调优,发现工控协议和异常网络时的识别率都有较大的提升,但是常规网络下识别率提升空间较小,经过单独的分析发现,因为训练的主要训练集是以工控协议数据集为主,未对其他协议类型数据集进行训练,而且本专利也主要是为了提取工控协议的指纹特征,以为工控协议本身就是在TCP/UDP协议上的封装,常规的网络协议中也有好多的基于TCP/UDP的流量数据。
进一步地,所述一种用于调度数据网的网络协议识别方法,还包括:将主站与不同子站通讯的卷积神经网络模型进行存储,形成网络协议指纹特征识别模型库。
图2为本发明实施例一提供的一种用于调度数据网的网络协议识别系统的结构示意图,如图2所示,一种用于调度数据网的网络协议识别系统,包括:
数据采集单元101:采集主站与子站之间的通讯数据,按比例分为训练集和测试集;
卷积计算单元102:将训练集中的数据输入卷积神经网络模型中进行特征学习,得到主站与子站通讯的网络协议指纹特征数据;
优化单元103:在测试集中测试卷积神经网络模型,优化所述卷积神经网络模型的参数;
识别单元104:将待识别网络流量输入卷积神经网络模型,根据各协议特有的模式特征确定流量所属协议类型。
图3为本发明实施例二提供的一种用于调度数据网的网络协议识别系统的结构示意图,如图2所示,在实施例一的基础上,所述系统还包括:
数据解析单元105:按照旁路接入的方式接入网络报文信息,对网络报文信息进行深度解析以获取五元组信息;根据所述五元组信息生成解析后的网络流量数据包,其中所述网络五元组信息包括:源IP地址、源端口、目标IP地址、目标端口和协议类型;
第一判断单元106:用于判断解析出来的五元组信息中的源IP地址口、目标IP地址是否与预先输入的固有台账设备中IP地址匹配;
第二判断单元107:用于判断解析出来的五元组信息中的源端口号、目标端口号是否为打标签以外的端口号;
告警单元108:当解析出来的五元组信息中的源IP地址口、目标IP地址无法与预先输入的固有台账设备中IP地址匹配,或五元组信息中的源端口号、目标端口号为打标签以外的端口号时,生成风险预警信息,并重新开始数据解析。
图4为本发明实施例三提供的一种用于调度数据网的网络协议识别系统的结构示意图,如图4所示,在实施例二的基础上,所述卷积计算单元102包括:
切分单元1021:根据主站与子站之间的通信特征,将每个所述训练集切分为7个指标,具体包括:主站或子站的IP地址信息、发送包大小、发送包的频率、104协议发送包大小、104规约发送次数、04协议接收包大小和104规约接收次数;
预处理单元1022:将所述训练数据集的7个指标按照时间维度构造成一个矩阵,并对训练数据集进行去均值和归一化处理,获得清洗后的训练集;
卷积单元1023:通过卷积层、最大池化层对清洗后的训练集进行特征提取,结合激活层进行特征筛选,其中,卷积神经网络模型的具体结构包括:输入层→第一卷积层→第一最大池化层→第二卷积层→第二最大池化层→第一全连接层→REUL激活层→第二全连接层→输出层。
图5为本发明实施例四提供的一种用于调度数据网的网络协议识别系统的结构示意图,如图5所示,在实施例三的基础上,所述优化单元103包括:
标记单元1031:采集主站与某子站之间的测试数据集、网络异常时的数据集和互联网的常规数据,并打上标签;
测试单元1032:将打标签后的测试数据输入该子站对应的卷积神经网络模型中进行训练,根据网络协议和异常网络时的识别率,调整卷积神经网络模型的模型参数,得到优化后的模型参数;所述模型参数包括:卷积层和卷积核个数。
图6为本发明实施例五提供的一种用于调度数据网的网络协议识别系统的结构示意图,如图6所示,在实施例四的基础上,所述一种用于调度数据网的网络协议识别系统,还包括:
指纹特征识别模型库建立单元109:用于将主站与不同子站通讯的卷积神经网络模型进行存储,形成网络协议指纹特征识别模型库。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的一种用于调度数据网的网络协议识别方法。
处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器601可以运行程序指令,以实现上文的本申请的各个实施例的存储授权变更方法中的步骤以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如光线强度、补偿光强度、滤光片的位置等信息。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的一种用于调度数据网的网络协议识别方法。
计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器((RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种用于调度数据网的网络协议识别方法,其特征在于:包括:
采集主站与子站之间的通讯数据,按比例分为训练集和测试集;
将训练集中的数据输入卷积神经网络模型中进行特征学习,得到主站与子站通讯的网络协议指纹特征数据;
在测试集中测试卷积神经网络模型,优化所述卷积神经网络模型的参数;
将待识别网络流量输入卷积神经网络模型,根据各协议特有的模式特征确定流量所属协议类型;
将训练集中的数据输入卷积神经网络模型中进行特征学习,得到主站与子站通讯的网络协议指纹特征数据,具体包括:
根据主站与子站之间的通信特征,将每个所述训练集切分为7个指标,具体包括:主站或子站的IP地址信息、发送包大小、发送包的频率、104协议发送包大小、104协议发送次数、104协议接收包大小和104协议接收次数;
将所述训练集的7个指标按照时间维度构造成一个矩阵,并对训练数据集进行去均值和归一化处理,获得清洗后的训练集;
通过卷积层、最大池化层对清洗后的训练集进行特征提取,结合激活层进行特征筛选,其中,卷积神经网络模型的具体结构包括:输入层→第一卷积层→第一最大池化层→第二卷积层→第二最大池化层→第一全连接层→REUL激活层→第二全连接层→输出层。
2.根据权利要求1所述的一种用于调度数据网的网络协议识别方法,其特征在于:所述采集主站与子站之间的通讯数据,按比例分为训练集和验证集之前,还包括:
按照旁路接入的方式接入网络报文信息,对网络报文信息进行深度解析以获取五元组信息;根据所述五元组信息生成解析后的网络流量数据包,其中所述五元组信息包括:源IP地址、源端口、目标IP地址、目标端口和协议类型;
判断解析出来的五元组信息中的源IP地址口、目标IP地址是否与预先输入的固有台账设备中IP地址匹配;
判断解析出来的五元组信息中的源端口号、目标端口号是否为打标签以外的端口号;
当解析出来的五元组信息中的源IP地址口、目标IP地址无法与预先输入的固有台账设备中IP地址匹配,或五元组信息中的源端口号、目标端口号为打标签以外的端口号时,生成风险预警信息,并重新开始数据解析。
3.根据权利要求1所述的一种用于调度数据网的网络协议识别方法,其特征在于:所述在测试集中测试卷积神经网络模型,优化所述卷积神经网络模型的参数,具体包括:
采集主站与某子站之间的测试数据集、网络异常时的数据集和互联网的常规数据,并打上标签;
将打标签后的测试数据输入该子站对应的卷积神经网络模型中进行训练,根据网络协议和异常网络时的识别率,调整卷积神经网络模型的模型参数,得到优化后的模型参数;所述模型参数包括:卷积层和卷积核个数。
4.根据权利要求1所述的一种用于调度数据网的网络协议识别方法,其特征在于:还包括:
将主站与不同子站通讯的卷积神经网络模型进行存储,形成网络协议指纹特征识别模型库。
5.一种用于调度数据网的网络协议识别系统,其特征在于:包括:
数据采集单元:采集主站与子站之间的通讯数据,按比例分为训练集和测试集;
卷积计算单元:将训练集中的数据输入卷积神经网络模型中进行特征学习,得到主站与子站通讯的网络协议指纹特征数据;
优化单元:在测试集中测试卷积神经网络模型,优化所述卷积神经网络模型的参数;
识别单元:将待识别网络流量输入卷积神经网络模型,根据各协议特有的模式特征确定流量所属协议类型;
所述卷积计算单元包括:
切分单元:根据主站与子站之间的通信特征,将每个所述训练集切分为7个指标,具体包括:主站或子站的IP地址信息、发送包大小、发送包的频率、104协议发送包大小、104协议发送次数、104协议接收包大小和104协议接收次数;
预处理单元:将所述训练集的7个指标按照时间维度构造成一个矩阵,并对训练数据集进行去均值和归一化处理,获得清洗后的训练集;
卷积单元:通过卷积层、最大池化层对清洗后的训练集进行特征提取,结合激活层进行特征筛选,其中,卷积神经网络模型的具体结构包括:输入层→第一卷积层→第一最大池化层→第二卷积层→第二最大池化层→第一全连接层→REUL激活层→第二全连接层→输出层。
6.根据权利要求5所述的一种用于调度数据网的网络协议识别系统,其特征在于:还包括:
数据解析单元:按照旁路接入的方式接入网络报文信息,对网络报文信息进行深度解析以获取五元组信息;根据所述五元组信息生成解析后的网络流量数据包,其中所述五元组信息包括:源IP地址、源端口、目标IP地址、目标端口和协议类型;
第一判断单元:用于判断解析出来的五元组信息中的源IP地址口、目标IP地址是否与预先输入的固有台账设备中IP地址匹配;
第二判断单元:用于判断解析出来的五元组信息中的源端口号、目标端口号是否为打标签以外的端口号;
告警单元:当解析出来的五元组信息中的源IP地址口、目标IP地址无法与预先输入的固有台账设备中IP地址匹配,或五元组信息中的源端口号、目标端口号为打标签以外的端口号时,生成风险预警信息,并重新开始数据解析。
7.根据权利要求5所述的一种用于调度数据网的网络协议识别系统,其特征在于:所述优化单元包括:
标记单元:采集主站与某子站之间的测试数据集、网络异常时的数据集和互联网的常规数据,并打上标签;
测试单元:将打标签后的测试数据输入该子站对应的卷积神经网络模型中进行训练,根据网络协议和异常网络时的识别率,调整卷积神经网络模型的模型参数,得到优化后的模型参数;所述模型参数包括:卷积层和卷积核个数。
8.根据权利要求5所述的一种用于调度数据网的网络协议识别系统,其特征在于:还包括:
指纹特征识别模型库建立单元:用于将主站与不同子站通讯的卷积神经网络模型进行存储,形成网络协议指纹特征识别模型库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110041898.7A CN112804123B (zh) | 2021-01-13 | 2021-01-13 | 一种用于调度数据网的网络协议识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110041898.7A CN112804123B (zh) | 2021-01-13 | 2021-01-13 | 一种用于调度数据网的网络协议识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112804123A CN112804123A (zh) | 2021-05-14 |
CN112804123B true CN112804123B (zh) | 2022-08-12 |
Family
ID=75810436
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110041898.7A Active CN112804123B (zh) | 2021-01-13 | 2021-01-13 | 一种用于调度数据网的网络协议识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112804123B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113489675B (zh) * | 2021-05-25 | 2023-08-25 | 深圳供电局有限公司 | 电力终端入侵检测方法、装置、设备及存储介质 |
CN113329020A (zh) * | 2021-05-31 | 2021-08-31 | 上海驭胜信息技术有限公司 | 智能电网工控流量异常检测系统 |
CN113114541B (zh) * | 2021-06-15 | 2021-09-14 | 上海兴容信息技术有限公司 | 一种判断网络节点之间能否建立网络连接的方法和系统 |
CN114422623B (zh) * | 2022-01-17 | 2022-11-18 | 山西省信息通信网络技术保障中心 | 一种基于指令序列的车联网异常流量识别方法及装置 |
CN114866487B (zh) * | 2022-03-08 | 2024-03-05 | 国网江苏省电力有限公司南京供电分公司 | 一种海量电网调度数据采集与存储系统 |
CN116743506B (zh) * | 2023-08-14 | 2023-11-21 | 南京信息工程大学 | 一种基于四元数卷积神经网络的加密流量识别方法及装置 |
CN117596193B (zh) * | 2023-11-20 | 2024-05-31 | 中国三峡建工(集团)有限公司 | 一种基于神经网络的报文协议识别方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111277578A (zh) * | 2020-01-14 | 2020-06-12 | 西安电子科技大学 | 加密流量分析特征提取方法、系统、存储介质、安全设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101814977B (zh) * | 2010-04-22 | 2012-11-21 | 北京邮电大学 | 利用数据流头部特征的tcp流量在线识别方法及装置 |
CN107682216B (zh) * | 2017-09-01 | 2018-06-05 | 南京南瑞集团公司 | 一种基于深度学习的网络流量协议识别方法 |
CN111817981A (zh) * | 2020-07-01 | 2020-10-23 | 黄东 | 一种基于深度学习的网络流量分类方法 |
CN111860628A (zh) * | 2020-07-08 | 2020-10-30 | 上海乘安科技集团有限公司 | 一种基于深度学习的流量识别与特征提取方法 |
CN112152201B (zh) * | 2020-08-25 | 2021-09-17 | 国网山东综合能源服务有限公司 | 基于卷积长短时记忆神经网络的用电负荷预测方法及系统 |
-
2021
- 2021-01-13 CN CN202110041898.7A patent/CN112804123B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111277578A (zh) * | 2020-01-14 | 2020-06-12 | 西安电子科技大学 | 加密流量分析特征提取方法、系统、存储介质、安全设备 |
Non-Patent Citations (1)
Title |
---|
基于卷积神经网络的Android流量分类方法;郭益民等;《通信技术》;20200210(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112804123A (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112804123B (zh) | 一种用于调度数据网的网络协议识别方法及系统 | |
CN110909811B (zh) | 一种基于ocsvm的电网异常行为检测、分析方法与系统 | |
CN112333706B (zh) | 物联网设备异常检测方法、装置、计算设备及存储介质 | |
CN111935170A (zh) | 一种网络异常流量检测方法、装置及设备 | |
CN111191767A (zh) | 一种基于向量化的恶意流量攻击类型的判断方法 | |
CN114338195B (zh) | 基于改进孤立森林算法的web流量异常检测方法及装置 | |
CN110868312A (zh) | 一种基于遗传算法优化的工业行为异常检测方法 | |
CN115396204A (zh) | 一种基于序列预测的工控网络流量异常检测方法及装置 | |
CN113067798A (zh) | Ics入侵检测方法、装置、电子设备和存储介质 | |
CN114491524A (zh) | 一种应用于智慧网络安全的大数据通讯系统 | |
CN103324886A (zh) | 一种网络攻击检测中指纹库的提取方法和系统 | |
CN117201646A (zh) | 一种电力物联终端报文的深度解析方法 | |
CN117220920A (zh) | 基于人工智能的防火墙策略管理方法 | |
Xu et al. | [Retracted] DDoS Detection Using a Cloud‐Edge Collaboration Method Based on Entropy‐Measuring SOM and KD‐Tree in SDN | |
CN116915450A (zh) | 基于多步网络攻击识别和场景重构的拓扑剪枝优化方法 | |
CN114511330A (zh) | 一种基于改进的cnn-rf的以太坊庞氏骗局检测方法及系统 | |
CN111431872B (zh) | 一种基于tcp/ip协议特征的两阶段物联网设备识别方法 | |
CN117749499A (zh) | 一种网络信息系统场景下的恶意加密流量检测方法及系统 | |
CN116915720A (zh) | 物联网设备流量识别方法、系统、电子设备及存储介质 | |
CN117076862A (zh) | 一种基于属性图的电力物联网网络异常检测方法及系统 | |
CN113905405A (zh) | 一种电力无线接入专网异常流量检测方法 | |
CN110032596B (zh) | 流量异常用户识别方法及系统 | |
CN118381682B (zh) | 工控网络攻击事件综合分析溯源方法及装置 | |
Hoang et al. | A data sampling and two-stage convolution neural network for IoT devices identification | |
CN115118466B (zh) | 一种策略生成方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |