CN116389293A - 一种基于深度学习的信息安全保密方法和装置 - Google Patents

一种基于深度学习的信息安全保密方法和装置 Download PDF

Info

Publication number
CN116389293A
CN116389293A CN202310377320.8A CN202310377320A CN116389293A CN 116389293 A CN116389293 A CN 116389293A CN 202310377320 A CN202310377320 A CN 202310377320A CN 116389293 A CN116389293 A CN 116389293A
Authority
CN
China
Prior art keywords
session
information
text
deep learning
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310377320.8A
Other languages
English (en)
Inventor
南卫兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202310377320.8A priority Critical patent/CN116389293A/zh
Publication of CN116389293A publication Critical patent/CN116389293A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/026Capturing of monitoring data using flow identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种基于深度学习的信息安全保密方法和装置,通过以会话流量为基础识别单位,提取会话流量的传统时序特征和数据包头文本特征构成文本时序特征,也即加密流量时序特征,同时提取会话流量的载荷文本特征作为空间特征。再对加密流量时序特征和空间特征进行预训练,取各自的全连接网络中间层输出作为加密流量的新时序特征和新空间特征,拼接在一起得到会话流量的混合特征用于加密流量应用类型的识别和分类,从而能够根据不同环境下的加密流量数据情况,动态调整学习和特征提取的重心,始终保持极高的识别准确率。所以,本申请通过引入深度学习来进行信息加密,不仅能够丰富信息加密的业务能力,而且能够保证信息加密的准确性。

Description

一种基于深度学习的信息安全保密方法和装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种基于深度学习的信息安全保密方法和装置。
背景技术
网络信息传输是现代化市场中信息传递与资源流通的主要方式之一,也是各单位数据信息交互的核心渠道。但是,网络的开放性较强,导致网络信息在传输数据与资源时存在一定的安全风险。为了降低此种风险对信息安全造成的影响,现有技术提出了多种针对数据传输安全的处理算法;但是传统算法综合使用性能较差,导致数据处理过程存在一定的漏洞。因此,为实现对网络传输数据信息的安全处理,保证交互终端中信息的稳定性和隐私性,需要实现传输数据的有效加密,全面保障数据的传输安全。
随着深度学习在图像识别、文本翻译以及自动驾驶等领域取得的巨大成功,越来越多的研究者尝试将深度学习的模型和方法应用到信息加密领域。所以,如何利用深度学习来进行信息加密,是当前信息加密领域面临的一个大难题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于深度学习的信息安全保密方法和装置,用于解决中无法利用深度学习进行信息加密的技术问题。
为实现上述目的及其他相关目的,本发明提供一种基于深度学习的信息安全保密方法,包括以下步骤:
获取传输样本信息以及与所述传输样本信息关联的流量数据;
对所述流量数据进行格式转换,并根据预设五元组信息对完成格式转换后的流量数据进行会话划分,得到所述传输样本信息的会话流量;其中,所述预设五元组信息包括:源IP地址、源端口、目的IP地址、目的端口、网络协议;
对所述会话流量进行过滤,并从过滤后的会话流量中提取传统时序特征、头文本特征和载荷文本特征;其中,所述传统时序特征至少包括所述会话流量中对应会话的前K个数据包的长度、传输方向和发送时间间隔;所述头文本特征至少包括所述会话流量中对应会话的前K个数据包头部所携带的文本特征;载荷文本特征至少包括所述会话流量中对应会话传输层载荷部分前M个字节的信息;
基于所述传统时序特征和所述头文本特征形成文本时序特征,以及基于所述载荷文本特征形成空间特征;
将所述文本时序特征和空间特征输入至神经网络中进行深度学习,并计算深度学习过程中的训练损失值;
当所述训练损失值满足预设范围时,输出信息加密模型,并利用所述信息加密模型对待传输信息进行加密。
可选地,从过滤后的会话流量中提取传统时序特征的过程包括:
将所述会话流量中对应会话的第一个数据包的方向作为对应会话的正方向;
判断后续数据包的方向是否与所述正方向相同,并将与正方向相同的数据包的特征设置为+1,与正方向相反的数据包的特征设置为-1;
对单个会话流量的数据包的特征进行正则化,并按照发送时间间隔将每个会话流量的数据包的方向特征值与数据包长度进行相乘,得到每个会话流量的传统时序特征;
其中,当某个会话流量中的数据包的个数小于第一预设值时,将对应位置的传统时序特征用零填充。
可选地,从过滤后的会话流量中提取头文本特征的过程包括:
基于结构统一性和特征稳定性,从单个会话流量中提取通信协议结构网络层头部和传输层头部中前K个数据包头部所携带的文本特征;并在提取所述文本特征时,将所述网络层头部中的源IP地址和目的IP地址全部进行匿名化设置;
将传输层中协议为用户数据报协议UDP的数据包作为头文本数据包,并在用户数据报协议UDP头部结尾进行字节填充,以及在完成填充后,将每个数据包从IP包头的第一个字节开始,提取长度为第二预设值的信息作为数据包头特征;
对每个字节的信息将其转换为区间为[0,255]的十进制整数,并对转换后的整数进行归一化处理,得到每个会话流量的头文本特征。
可选地,从过滤后的会话流量中提取载荷文本特征的过程包括:
获取所述会话流量中对应会话的所有数据包的传输层载荷总长度,并在所述总长度小于M个字节时,记录对应会话所有传输层载荷后进行字节填充,直至会话长度大于或等于M个字节;
截取所述会话流量中对应会话传输层载荷部分前M个字节的信息,对每个字节的信息将其转换为区间为[0,255]的十进制整数,并对转换后的整数进行归一化处理,得到每个会话流量的载荷文本特征。
可选地,将所述文本时序特征和空间特征输入至神经网络中进行深度学习,并计算深度学习过程中的训练损失值的过程包括:
将所述文本时序特征和空间特征进行两两组合,得到多个特征集;
对所述多个特征集进行排序编号,并将排序编号后的特征集作为训练样本;
从所述训练样本中随机选择一个特征集作为基准点,并基于所述基准点按照随机间隔选择特征集作为私钥;
将所述私钥输入至神经网络中进行深度学习,并将同一个私钥筛选出的特征集合并成簇;
对每个簇进行卷积,并计算簇间的相似距离,以及将所述相似距离作为深度学习过程中的训练损失值。
可选地,在计算出训练损失值后,所述方法还包括:
将所述训练损失值分别与预设范围的最大值和最小值进行比对,判断所述训练损失值是否大于或等于预设范围的最小值,且小于或等于预设范围的最大值;
如果所述训练损失值大于或等于预设范围的最小值,且小于或等于预设范围的最大值,则输出此时的信息加密模型;
如果所述训练损失值小于预设范围的最小值,或者打于预设范围的最大值,则进行簇间合并,并计算簇间合并后的相似距离,以及将对应的相似距离作为新的训练损失值。
可选地,利用所述信息加密模型对待传输信息进行加密的过程还包括:
将所述信息加密模型作为基础加密模型,并对所述基础加密模型进行增量识别,并计算增量识别加密模型的交叉熵损失;
当所述交叉熵损失满足预设范围时,将此时的信息加密模型作为增强识别信息加密模型,并利用所述增强识别信息加密模型对待传输信息进行加密。
可选地,所述神经网络包括以下至少之一:卷积神经网络、循环神经网络、深度信任网络、自编码网络、生成对抗网络。
本申请还提供一种基于深度学习的信息安全保密装置,该装置包括有:
数据采集模块,用于获取传输样本信息以及与所述传输样本信息关联的流量数据;
会话划分模块,用于对所述流量数据进行格式转换,并根据预设五元组信息对完成格式转换后的流量数据进行会话划分,得到所述传输样本信息的会话流量;其中,所述预设五元组信息包括:源IP地址、源端口、目的IP地址、目的端口、网络协议;
特征提取模块,用于对所述会话流量进行过滤,并从过滤后的会话流量中提取传统时序特征、头文本特征和载荷文本特征;以及,基于所述传统时序特征和所述头文本特征形成文本时序特征,以及基于所述载荷文本特征形成空间特征;其中,所述传统时序特征至少包括所述会话流量中对应会话的前K个数据包的长度、传输方向和发送时间间隔;所述头文本特征至少包括所述会话流量中对应会话的前K个数据包头部所携带的文本特征;载荷文本特征至少包括所述会话流量中对应会话传输层载荷部分前M个字节的信息;
深度学习模块,用于将所述文本时序特征和空间特征输入至神经网络中进行深度学习,并计算深度学习过程中的训练损失值;
加密模块,用于在所述训练损失值满足预设范围时,输出信息加密模型,并利用所述信息加密模型对待传输信息进行加密。
可选地,所述神经网络包括以下至少之一:卷积神经网络、循环神经网络、深度信任网络、自编码网络、生成对抗网络。
如上所述,本发明提供一种基于深度学习的信息安全保密方法和装置,具有以下有益效果:本申请首先获取传输样本信息以及与所述传输样本信息关联的流量数据,然后对所述流量数据进行格式转换,并根据预设五元组信息对完成格式转换后的流量数据进行会话划分,得到所述传输样本信息的会话流量;其中,所述预设五元组信息包括:源IP地址、源端口、目的IP地址、目的端口、网络协议;再对所述会话流量进行过滤,并从过滤后的会话流量中提取传统时序特征、头文本特征和载荷文本特征;其中,所述传统时序特征至少包括所述会话流量中对应会话的前K个数据包的长度、传输方向和发送时间间隔;所述头文本特征至少包括所述会话流量中对应会话的前K个数据包头部所携带的文本特征;载荷文本特征至少包括所述会话流量中对应会话传输层载荷部分前M个字节的信息;再然后基于所述传统时序特征和所述头文本特征形成文本时序特征,以及基于所述载荷文本特征形成空间特征;最后将所述文本时序特征和空间特征输入至神经网络中进行深度学习,并计算深度学习过程中的训练损失值;当所述训练损失值满足预设范围时,输出信息加密模型,并利用所述信息加密模型对待传输信息进行加密。由此可知,本申请通过以会话流量为基础识别单位,提取会话流量的传统时序特征和数据包头文本特征构成文本时序特征,也即加密流量时序特征,同时提取会话流量的载荷文本特征作为空间特征。再对加密流量时序特征和空间特征进行预训练,取各自的全连接网络中间层输出作为加密流量的新时序特征和新空间特征,拼接在一起得到会话流量的混合特征用于加密流量应用类型的识别和分类,从而能够根据不同环境下的加密流量数据情况,动态调整学习和特征提取的重心,始终保持极高的识别准确率。所以,本申请通过引入深度学习来进行信息加密,不仅能够丰富信息加密的业务能力,而且能够保证信息加密的准确性。
附图说明
图1为本申请中一实施例提供的基于深度学习的信息安全保密方法的流程示意图;
图2为本申请中一实施例提供的基于深度学习的信息安全保密方法的原理框架示意图;
图3为本申请中一实施例提供的提取头文字特征的示意图;
图4为本申请中一实施例提供的卷积神经网络模型的整体框架示意图;
图5为本申请中一实施例提供的基于深度学习的信息保密装置的硬件结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1和图2所示,本发明提供一种基于深度学习的信息安全保密方法,该方法包括以下步骤:
S110,获取传输样本信息以及与所述传输样本信息关联的流量数据;
S120,对所述流量数据进行格式转换,并根据预设五元组信息对完成格式转换后的流量数据进行会话划分,得到所述传输样本信息的会话流量;其中,所述预设五元组信息包括:源IP地址、源端口、目的IP地址、目的端口、网络协议;
S130,对所述会话流量进行过滤,并从过滤后的会话流量中提取传统时序特征、头文本特征和载荷文本特征;其中,所述传统时序特征至少包括所述会话流量中对应会话的前K个数据包的长度、传输方向和发送时间间隔;所述头文本特征至少包括所述会话流量中对应会话的前K个数据包头部所携带的文本特征;载荷文本特征至少包括所述会话流量中对应会话传输层载荷部分前M个字节的信息;
S140,基于所述传统时序特征和所述头文本特征形成文本时序特征,以及基于所述载荷文本特征形成空间特征;
S150,将所述文本时序特征和空间特征输入至神经网络中进行深度学习,并计算深度学习过程中的训练损失值;
S160,当所述训练损失值满足预设范围时,输出信息加密模型,并利用所述信息加密模型对待传输信息进行加密。
根据上述记载,在一示例性实施例中,从过滤后的会话流量中提取传统时序特征的过程包括:将所述会话流量中对应会话的第一个数据包的方向作为对应会话的正方向;判断后续数据包的方向是否与所述正方向相同,并将与正方向相同的数据包的特征设置为+1,与正方向相反的数据包的特征设置为-1;对单个会话流量的数据包的特征进行正则化,并按照发送时间间隔将每个会话流量的数据包的方向特征值与数据包长度进行相乘,得到每个会话流量的传统时序特征;其中,当某个会话流量中的数据包的个数小于第一预设值时,将对应位置的传统时序特征用零填充。一个流量会话的传统时序特征包括该会话前n个数据包的长度,传输方向和发送时间间隔。将会话第一个数据包的方向设为该会话的正方向,对于后续的数据包,如果其方向与正方向相同,则方向特征设置为+1,反之则取-1。数据包长度的单位为字节,该特征值将除以1500进行正则化(互联网上绝大部分的数据包总长度小于1500B)。将数据包方向特征值与该数据包长度相乘,这样数据包长度值的正负可以代表数据包的方向,最终每个会话的传统时序特征的特征维度为(n1,2),如果会话的实际数据包个数少于n1,则在特征向量的对应位置以0填充。
在一示例性实施例中,从过滤后的会话流量中提取头文本特征的过程包括:基于结构统一性和特征稳定性,从单个会话流量中提取通信协议结构网络层头部和传输层头部中前K个数据包头部所携带的文本特征;并在提取所述文本特征时,将所述网络层头部中的源IP地址和目的IP地址全部进行匿名化设置;将传输层中协议为用户数据报协议UDP的数据包作为头文本数据包,并在用户数据报协议UDP头部结尾进行字节填充,以及在完成填充后,将每个数据包从IP包头的第一个字节开始,提取长度为第二预设值的信息作为数据包头特征;对每个字节的信息将其转换为区间为[0,255]的十进制整数,并对转换后的整数进行归一化处理,得到每个会话流量的头文本特征。具体地,数据包头文本特征提取情况如图3所示,一个流量会话的头文本特征选择的是该会话前n1个数据包头部所携带的文本特征。出于结构统一性和特征稳定性考虑,头文本特征提取的范围是TCP/IP四层结构中的网络层和传输层头部,同时为了避免模型将IP地址信息视为流量分类的关键特征,在特征提取过程中需要将网络层头部中的源IP地址和目的IP地址字段全部设置为0.0.0.0进行匿名化。由于网络层IP包头长度一般为20字节,传输层TCP协议包头长度一般为20个字节,UDP协议包头长度一般为8字节,为了统一特征格式,对于传输层协议为UDP的数据包,将在该数据包的UDP头部结尾填充12个字节的0x00使其长度也为20字节。完成填充操作后,每个数据包从IP包头的第一个字节开始,提取长度为40个字节的信息作为数据包头特征,对于每一个字节的信息先将其转换成区间为[0,255]的10进制整数,然后除以255进行归一化。最终得到的流量会话数据包头文本特征维度为(n1,40),如果该会话的数据包个数不足n1,则在特征向量的对应位置用0填充。此外,对于会话流量的传统时序特征和头文本特征,将以数据包为单位拼接在一起,得到维度为(n1,42)的新“时序特征”,即文本时序特征。
在一示例性实施例中,从过滤后的会话流量中提取载荷文本特征的过程包括:获取所述会话流量中对应会话的所有数据包的传输层载荷总长度,并在所述总长度小于M个字节时,记录对应会话所有传输层载荷后进行字节填充,直至会话长度大于或等于M个字节;截取所述会话流量中对应会话传输层载荷部分前M个字节的信息,对每个字节的信息将其转换为区间为[0,255]的十进制整数,并对转换后的整数进行归一化处理,得到每个会话流量的载荷文本特征。具体地,一个会话的载荷文本特征提取的是该会话传输层载荷部分前n2个字节的信息。如果该会话所有数据包的传输层载荷总长度不足n2个字节,则在记录该会话所有传输层载荷的基础上填充0x00直到长度为n2字节;反之,则截取该会话前n字节的传输层载荷来构成特征向量。对于提取的载荷文本特征向量,同样需要先将每个字节的信息从16进制转换成区间为[0,255]的10进制整数,然后除以255进行归一化,最终一个会话的传输层载荷文本特征维度为(1,n2)。
在一示例性实施例中,将所述文本时序特征和空间特征输入至神经网络中进行深度学习,并计算深度学习过程中的训练损失值的过程包括:将所述文本时序特征和空间特征进行两两组合,得到多个特征集;对所述多个特征集进行排序编号,并将排序编号后的特征集作为训练样本;从所述训练样本中随机选择一个特征集作为基准点,并基于所述基准点按照随机间隔选择特征集作为私钥;将所述私钥输入至神经网络中进行深度学习,并将同一个私钥筛选出的特征集合并成簇;对每个簇进行卷积,并计算簇间的相似距离,以及将所述相似距离作为深度学习过程中的训练损失值。此外,在计算出训练损失值后,本实施例还可以包括:将所述训练损失值分别与预设范围的最大值和最小值进行比对,判断所述训练损失值是否大于或等于预设范围的最小值,且小于或等于预设范围的最大值;如果所述训练损失值大于或等于预设范围的最小值,且小于或等于预设范围的最大值,则输出此时的信息加密模型;如果所述训练损失值小于预设范围的最小值,或者打于预设范围的最大值,则进行簇间合并,并计算簇间合并后的相似距离,以及将对应的相似距离作为新的训练损失值。
具体地,假设在本轮增量识别流程开始前,原加密流量识别框架已经对m种已知类加密流量具备识别和分类能力,对应的加密流量数据为Xm={(xi,yi),yi∈[1,2,…,m]};需要增量识别的未知类加密流量类型数为n,对应的加密流量数据为Xn={(xi,yi),yi∈[m+1,m+2,…,m+n]}。那么增量识别流程的目标是让模型快速具备对m+n种加密流量的识别和分类能力。
在一示例性实施例中,利用所述信息加密模型对待传输信息进行加密的过程还包括:将所述信息加密模型作为基础加密模型,并对所述基础加密模型进行增量识别,并计算增量识别加密模型的交叉熵损失;当所述交叉熵损失满足预设范围时,将此时的信息加密模型作为增强识别信息加密模型,并利用所述增强识别信息加密模型对待传输信息进行加密。其中,常规交叉熵损失L计算公式如下:
Figure BDA0004170868050000101
式中,ly=k为标签(labels)指示函数;pk(x)为模型判断样本x属于加密流量类型k的概率(1≤k≤m+n);
Figure BDA0004170868050000102
主要用于保持模型对已知类别的识别能力。
根据上述记载,在一些示例性实施例中,所述神经网络包括以下至少之一:卷积神经网络、循环神经网络、深度信任网络、自编码网络、生成对抗网络。作为示例,本实施例可以为卷积神经模型,例如为Attention-CNN模型。其中,Attention-CNN模型的整体框架如图4所示。
综上所述,本发明提供一种基于深度学习的信息安全保密方法,首先获取传输样本信息以及与所述传输样本信息关联的流量数据,然后对所述流量数据进行格式转换,并根据预设五元组信息对完成格式转换后的流量数据进行会话划分,得到所述传输样本信息的会话流量;其中,所述预设五元组信息包括:源IP地址、源端口、目的IP地址、目的端口、网络协议;再对所述会话流量进行过滤,并从过滤后的会话流量中提取传统时序特征、头文本特征和载荷文本特征;其中,所述传统时序特征至少包括所述会话流量中对应会话的前K个数据包的长度、传输方向和发送时间间隔;所述头文本特征至少包括所述会话流量中对应会话的前K个数据包头部所携带的文本特征;载荷文本特征至少包括所述会话流量中对应会话传输层载荷部分前M个字节的信息;再然后基于所述传统时序特征和所述头文本特征形成文本时序特征,以及基于所述载荷文本特征形成空间特征;最后将所述文本时序特征和空间特征输入至神经网络中进行深度学习,并计算深度学习过程中的训练损失值;当所述训练损失值满足预设范围时,输出信息加密模型,并利用所述信息加密模型对待传输信息进行加密。由此可知,本方法通过以会话流量为基础识别单位,提取会话流量的传统时序特征和数据包头文本特征构成文本时序特征,也即加密流量时序特征,同时提取会话流量的载荷文本特征作为空间特征。再对加密流量时序特征和空间特征进行预训练,取各自的全连接网络中间层输出作为加密流量的新时序特征和新空间特征,拼接在一起得到会话流量的混合特征用于加密流量应用类型的识别和分类,从而能够根据不同环境下的加密流量数据情况,动态调整学习和特征提取的重心,始终保持极高的识别准确率。所以,本方法通过引入深度学习来进行信息加密,不仅能够丰富信息加密的业务能力,而且能够保证信息加密的准确性。
如图5所示,本申请还提供一种基于深度学习的信息安全保密装置,该装置包括有:
数据采集模块510,用于获取传输样本信息以及与所述传输样本信息关联的流量数据;
会话划分模块520,用于对所述流量数据进行格式转换,并根据预设五元组信息对完成格式转换后的流量数据进行会话划分,得到所述传输样本信息的会话流量;其中,所述预设五元组信息包括:源IP地址、源端口、目的IP地址、目的端口、网络协议;
特征提取模块530,用于对所述会话流量进行过滤,并从过滤后的会话流量中提取传统时序特征、头文本特征和载荷文本特征;以及,基于所述传统时序特征和所述头文本特征形成文本时序特征,以及基于所述载荷文本特征形成空间特征;其中,所述传统时序特征至少包括所述会话流量中对应会话的前K个数据包的长度、传输方向和发送时间间隔;所述头文本特征至少包括所述会话流量中对应会话的前K个数据包头部所携带的文本特征;载荷文本特征至少包括所述会话流量中对应会话传输层载荷部分前M个字节的信息;
深度学习模块540,用于将所述文本时序特征和空间特征输入至神经网络中进行深度学习,并计算深度学习过程中的训练损失值;
加密模块550,用于在所述训练损失值满足预设范围时,输出信息加密模型,并利用所述信息加密模型对待传输信息进行加密。
根据上述记载,在一示例性实施例中,从过滤后的会话流量中提取传统时序特征的过程包括:将所述会话流量中对应会话的第一个数据包的方向作为对应会话的正方向;判断后续数据包的方向是否与所述正方向相同,并将与正方向相同的数据包的特征设置为+1,与正方向相反的数据包的特征设置为-1;对单个会话流量的数据包的特征进行正则化,并按照发送时间间隔将每个会话流量的数据包的方向特征值与数据包长度进行相乘,得到每个会话流量的传统时序特征;其中,当某个会话流量中的数据包的个数小于第一预设值时,将对应位置的传统时序特征用零填充。一个流量会话的传统时序特征包括该会话前n个数据包的长度,传输方向和发送时间间隔。将会话第一个数据包的方向设为该会话的正方向,对于后续的数据包,如果其方向与正方向相同,则方向特征设置为+1,反之则取-1。数据包长度的单位为字节,该特征值将除以1500进行正则化(互联网上绝大部分的数据包总长度小于1500B)。将数据包方向特征值与该数据包长度相乘,这样数据包长度值的正负可以代表数据包的方向,最终每个会话的传统时序特征的特征维度为(n1,2),如果会话的实际数据包个数少于n1,则在特征向量的对应位置以0填充。
在一示例性实施例中,从过滤后的会话流量中提取头文本特征的过程包括:基于结构统一性和特征稳定性,从单个会话流量中提取通信协议结构网络层头部和传输层头部中前K个数据包头部所携带的文本特征;并在提取所述文本特征时,将所述网络层头部中的源IP地址和目的IP地址全部进行匿名化设置;将传输层中协议为用户数据报协议UDP的数据包作为头文本数据包,并在用户数据报协议UDP头部结尾进行字节填充,以及在完成填充后,将每个数据包从IP包头的第一个字节开始,提取长度为第二预设值的信息作为数据包头特征;对每个字节的信息将其转换为区间为[0,255]的十进制整数,并对转换后的整数进行归一化处理,得到每个会话流量的头文本特征。具体地,数据包头文本特征提取情况如图3所示,一个流量会话的头文本特征选择的是该会话前n1个数据包头部所携带的文本特征。出于结构统一性和特征稳定性考虑,头文本特征提取的范围是TCP/IP四层结构中的网络层和传输层头部,同时为了避免模型将IP地址信息视为流量分类的关键特征,在特征提取过程中需要将网络层头部中的源IP地址和目的IP地址字段全部设置为0.0.0.0进行匿名化。由于网络层IP包头长度一般为20字节,传输层TCP协议包头长度一般为20个字节,UDP协议包头长度一般为8字节,为了统一特征格式,对于传输层协议为UDP的数据包,将在该数据包的UDP头部结尾填充12个字节的0x00使其长度也为20字节。完成填充操作后,每个数据包从IP包头的第一个字节开始,提取长度为40个字节的信息作为数据包头特征,对于每一个字节的信息先将其转换成区间为[0,255]的10进制整数,然后除以255进行归一化。最终得到的流量会话数据包头文本特征维度为(n1,40),如果该会话的数据包个数不足n1,则在特征向量的对应位置用0填充。此外,对于会话流量的传统时序特征和头文本特征,将以数据包为单位拼接在一起,得到维度为(n1,42)的新“时序特征”,即文本时序特征。
在一示例性实施例中,从过滤后的会话流量中提取载荷文本特征的过程包括:获取所述会话流量中对应会话的所有数据包的传输层载荷总长度,并在所述总长度小于M个字节时,记录对应会话所有传输层载荷后进行字节填充,直至会话长度大于或等于M个字节;截取所述会话流量中对应会话传输层载荷部分前M个字节的信息,对每个字节的信息将其转换为区间为[0,255]的十进制整数,并对转换后的整数进行归一化处理,得到每个会话流量的载荷文本特征。具体地,一个会话的载荷文本特征提取的是该会话传输层载荷部分前n2个字节的信息。如果该会话所有数据包的传输层载荷总长度不足n2个字节,则在记录该会话所有传输层载荷的基础上填充0x00直到长度为n2字节;反之,则截取该会话前n字节的传输层载荷来构成特征向量。对于提取的载荷文本特征向量,同样需要先将每个字节的信息从16进制转换成区间为[0,255]的10进制整数,然后除以255进行归一化,最终一个会话的传输层载荷文本特征维度为(1,n2)。
在一示例性实施例中,将所述文本时序特征和空间特征输入至神经网络中进行深度学习,并计算深度学习过程中的训练损失值的过程包括:将所述文本时序特征和空间特征进行两两组合,得到多个特征集;对所述多个特征集进行排序编号,并将排序编号后的特征集作为训练样本;从所述训练样本中随机选择一个特征集作为基准点,并基于所述基准点按照随机间隔选择特征集作为私钥;将所述私钥输入至神经网络中进行深度学习,并将同一个私钥筛选出的特征集合并成簇;对每个簇进行卷积,并计算簇间的相似距离,以及将所述相似距离作为深度学习过程中的训练损失值。此外,在计算出训练损失值后,本实施例还可以包括:将所述训练损失值分别与预设范围的最大值和最小值进行比对,判断所述训练损失值是否大于或等于预设范围的最小值,且小于或等于预设范围的最大值;如果所述训练损失值大于或等于预设范围的最小值,且小于或等于预设范围的最大值,则输出此时的信息加密模型;如果所述训练损失值小于预设范围的最小值,或者打于预设范围的最大值,则进行簇间合并,并计算簇间合并后的相似距离,以及将对应的相似距离作为新的训练损失值。
具体地,假设在本轮增量识别流程开始前,原加密流量识别框架已经对m种已知类加密流量具备识别和分类能力,对应的加密流量数据为Xm={(xi,yi),yi∈[1,2,…,m]};需要增量识别的未知类加密流量类型数为n,对应的加密流量数据为Xn={(xi,yi),yi∈[m+1,m+2,…,m+n]}。那么增量识别流程的目标是让模型快速具备对m+n种加密流量的识别和分类能力。
在一示例性实施例中,利用所述信息加密模型对待传输信息进行加密的过程还包括:将所述信息加密模型作为基础加密模型,并对所述基础加密模型进行增量识别,并计算增量识别加密模型的交叉熵损失;当所述交叉熵损失满足预设范围时,将此时的信息加密模型作为增强识别信息加密模型,并利用所述增强识别信息加密模型对待传输信息进行加密。其中,常规交叉熵损失L计算公式如下:
Figure BDA0004170868050000151
式中,ly=k为标签(labels)指示函数;pk(x)为模型判断样本x属于加密流量类型k的概率(1≤k≤m+n);
Figure BDA0004170868050000152
主要用于保持模型对已知类别的识别能力。
根据上述记载,在一些示例性实施例中,所述神经网络包括以下至少之一:卷积神经网络、循环神经网络、深度信任网络、自编码网络、生成对抗网络。作为示例,本实施例可以为卷积神经模型,例如为Attention-CNN模型。其中,Attention-CNN模型的整体框架如图4所示。
综上所述,本发明提供一种基于深度学习的信息安全保密装置,首先获取传输样本信息以及与所述传输样本信息关联的流量数据,然后对所述流量数据进行格式转换,并根据预设五元组信息对完成格式转换后的流量数据进行会话划分,得到所述传输样本信息的会话流量;其中,所述预设五元组信息包括:源IP地址、源端口、目的IP地址、目的端口、网络协议;再对所述会话流量进行过滤,并从过滤后的会话流量中提取传统时序特征、头文本特征和载荷文本特征;其中,所述传统时序特征至少包括所述会话流量中对应会话的前K个数据包的长度、传输方向和发送时间间隔;所述头文本特征至少包括所述会话流量中对应会话的前K个数据包头部所携带的文本特征;载荷文本特征至少包括所述会话流量中对应会话传输层载荷部分前M个字节的信息;再然后基于所述传统时序特征和所述头文本特征形成文本时序特征,以及基于所述载荷文本特征形成空间特征;最后将所述文本时序特征和空间特征输入至神经网络中进行深度学习,并计算深度学习过程中的训练损失值;当所述训练损失值满足预设范围时,输出信息加密模型,并利用所述信息加密模型对待传输信息进行加密。由此可知,本装置通过以会话流量为基础识别单位,提取会话流量的传统时序特征和数据包头文本特征构成文本时序特征,也即加密流量时序特征,同时提取会话流量的载荷文本特征作为空间特征。再对加密流量时序特征和空间特征进行预训练,取各自的全连接网络中间层输出作为加密流量的新时序特征和新空间特征,拼接在一起得到会话流量的混合特征用于加密流量应用类型的识别和分类,从而能够根据不同环境下的加密流量数据情况,动态调整学习和特征提取的重心,始终保持极高的识别准确率。所以,本装置通过引入深度学习来进行信息加密,不仅能够丰富信息加密的业务能力,而且能够保证信息加密的准确性。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种基于深度学习的信息安全保密方法,其特征在于,该方法包括以下步骤:
获取传输样本信息以及与所述传输样本信息关联的流量数据;
对所述流量数据进行格式转换,并根据预设五元组信息对完成格式转换后的流量数据进行会话划分,得到所述传输样本信息的会话流量;其中,所述预设五元组信息包括:源IP地址、源端口、目的IP地址、目的端口、网络协议;
对所述会话流量进行过滤,并从过滤后的会话流量中提取传统时序特征、头文本特征和载荷文本特征;其中,所述传统时序特征至少包括所述会话流量中对应会话的前K个数据包的长度、传输方向和发送时间间隔;所述头文本特征至少包括所述会话流量中对应会话的前K个数据包头部所携带的文本特征;载荷文本特征至少包括所述会话流量中对应会话传输层载荷部分前M个字节的信息;
基于所述传统时序特征和所述头文本特征形成文本时序特征,以及基于所述载荷文本特征形成空间特征;
将所述文本时序特征和空间特征输入至神经网络中进行深度学习,并计算深度学习过程中的训练损失值;
当所述训练损失值满足预设范围时,输出信息加密模型,并利用所述信息加密模型对待传输信息进行加密。
2.根据权利要求1所述的基于深度学习的信息安全保密方法,其特征在于,从过滤后的会话流量中提取传统时序特征的过程包括:
将所述会话流量中对应会话的第一个数据包的方向作为对应会话的正方向;
判断后续数据包的方向是否与所述正方向相同,并将与正方向相同的数据包的特征设置为+1,与正方向相反的数据包的特征设置为-1;
对单个会话流量的数据包的特征进行正则化,并按照发送时间间隔将每个会话流量的数据包的方向特征值与数据包长度进行相乘,得到每个会话流量的传统时序特征;
其中,当某个会话流量中的数据包的个数小于第一预设值时,将对应位置的传统时序特征用零填充。
3.根据权利要求1所述的基于深度学习的信息安全保密方法,其特征在于,从过滤后的会话流量中提取头文本特征的过程包括:
基于结构统一性和特征稳定性,从单个会话流量中提取通信协议结构网络层头部和传输层头部中前K个数据包头部所携带的文本特征;并在提取所述文本特征时,将所述网络层头部中的源IP地址和目的IP地址全部进行匿名化设置;
将传输层中协议为用户数据报协议UDP的数据包作为头文本数据包,并在用户数据报协议UDP头部结尾进行字节填充,以及在完成填充后,将每个数据包从IP包头的第一个字节开始,提取长度为第二预设值的信息作为数据包头特征;
对每个字节的信息将其转换为区间为[0,255]的十进制整数,并对转换后的整数进行归一化处理,得到每个会话流量的头文本特征。
4.根据权利要求1所述的基于深度学习的信息安全保密方法,其特征在于,从过滤后的会话流量中提取载荷文本特征的过程包括:
获取所述会话流量中对应会话的所有数据包的传输层载荷总长度,并在所述总长度小于M个字节时,记录对应会话所有传输层载荷后进行字节填充,直至会话长度大于或等于M个字节;
截取所述会话流量中对应会话传输层载荷部分前M个字节的信息,对每个字节的信息将其转换为区间为[0,255]的十进制整数,并对转换后的整数进行归一化处理,得到每个会话流量的载荷文本特征。
5.根据权利要求1所述的基于深度学习的信息安全保密方法,其特征在于,将所述文本时序特征和空间特征输入至神经网络中进行深度学习,并计算深度学习过程中的训练损失值的过程包括:
将所述文本时序特征和空间特征进行两两组合,得到多个特征集;
对所述多个特征集进行排序编号,并将排序编号后的特征集作为训练样本;
从所述训练样本中随机选择一个特征集作为基准点,并基于所述基准点按照随机间隔选择特征集作为私钥;
将所述私钥输入至神经网络中进行深度学习,并将同一个私钥筛选出的特征集合并成簇;
对每个簇进行卷积,并计算簇间的相似距离,以及将所述相似距离作为深度学习过程中的训练损失值。
6.根据权利要求1或5所述的基于深度学习的信息安全保密方法,其特征在于,在计算出训练损失值后,所述方法还包括:
将所述训练损失值分别与预设范围的最大值和最小值进行比对,判断所述训练损失值是否大于或等于预设范围的最小值,且小于或等于预设范围的最大值;
如果所述训练损失值大于或等于预设范围的最小值,且小于或等于预设范围的最大值,则输出此时的信息加密模型;
如果所述训练损失值小于预设范围的最小值,或者打于预设范围的最大值,则进行簇间合并,并计算簇间合并后的相似距离,以及将对应的相似距离作为新的训练损失值。
7.根据权利要求1所述的基于深度学习的信息安全保密方法,其特征在于,利用所述信息加密模型对待传输信息进行加密的过程还包括:
将所述信息加密模型作为基础加密模型,并对所述基础加密模型进行增量识别,并计算增量识别加密模型的交叉熵损失;
当所述交叉熵损失满足预设范围时,将此时的信息加密模型作为增强识别信息加密模型,并利用所述增强识别信息加密模型对待传输信息进行加密。
8.根据权利要求1所述的基于深度学习的信息安全保密方法,其特征在于,所述神经网络包括以下至少之一:卷积神经网络、循环神经网络、深度信任网络、自编码网络、生成对抗网络。
9.一种基于深度学习的信息安全保密装置,其特征在于,该装置包括有:
数据采集模块,用于获取传输样本信息以及与所述传输样本信息关联的流量数据;
会话划分模块,用于对所述流量数据进行格式转换,并根据预设五元组信息对完成格式转换后的流量数据进行会话划分,得到所述传输样本信息的会话流量;其中,所述预设五元组信息包括:源IP地址、源端口、目的IP地址、目的端口、网络协议;
特征提取模块,用于对所述会话流量进行过滤,并从过滤后的会话流量中提取传统时序特征、头文本特征和载荷文本特征;以及,基于所述传统时序特征和所述头文本特征形成文本时序特征,以及基于所述载荷文本特征形成空间特征;其中,所述传统时序特征至少包括所述会话流量中对应会话的前K个数据包的长度、传输方向和发送时间间隔;所述头文本特征至少包括所述会话流量中对应会话的前K个数据包头部所携带的文本特征;载荷文本特征至少包括所述会话流量中对应会话传输层载荷部分前M个字节的信息;
深度学习模块,用于将所述文本时序特征和空间特征输入至神经网络中进行深度学习,并计算深度学习过程中的训练损失值;
加密模块,用于在所述训练损失值满足预设范围时,输出信息加密模型,并利用所述信息加密模型对待传输信息进行加密。
10.根据权利要求9所述的基于深度学习的信息安全保密装置,其特征在于,所述神经网络包括以下至少之一:卷积神经网络、循环神经网络、深度信任网络、自编码网络、生成对抗网络。
CN202310377320.8A 2023-04-07 2023-04-07 一种基于深度学习的信息安全保密方法和装置 Pending CN116389293A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310377320.8A CN116389293A (zh) 2023-04-07 2023-04-07 一种基于深度学习的信息安全保密方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310377320.8A CN116389293A (zh) 2023-04-07 2023-04-07 一种基于深度学习的信息安全保密方法和装置

Publications (1)

Publication Number Publication Date
CN116389293A true CN116389293A (zh) 2023-07-04

Family

ID=86978491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310377320.8A Pending CN116389293A (zh) 2023-04-07 2023-04-07 一种基于深度学习的信息安全保密方法和装置

Country Status (1)

Country Link
CN (1) CN116389293A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117097674A (zh) * 2023-10-20 2023-11-21 南京邮电大学 一种采样时间不敏感频率维度可配置的网络特征提取方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117097674A (zh) * 2023-10-20 2023-11-21 南京邮电大学 一种采样时间不敏感频率维度可配置的网络特征提取方法

Similar Documents

Publication Publication Date Title
CN112163594B (zh) 一种网络加密流量识别方法及装置
CN111865815B (zh) 一种基于联邦学习的流量分类方法及系统
CN110012029B (zh) 一种区分加密和非加密压缩流量的方法和系统
CN111340191B (zh) 基于集成学习的僵尸网络恶意流量分类方法及系统
CN111901300B (zh) 一种对网络流量进行分类的方法和分类装置
CN113179223B (zh) 一种基于深度学习和序列化特征的网络应用识别方法及系统
CN105162626B (zh) 基于众核处理器的网络流量深度识别系统及识别方法
CN110730140A (zh) 基于时空特性相结合的深度学习流量分类方法
CN112511555A (zh) 基于稀疏表示和卷积神经网络的私有加密协议报文分类法
US10547523B2 (en) Systems and methods for extracting media from network traffic having unknown protocols
WO2022257436A1 (zh) 基于无线通信网络数据仓库构建方法、系统、设备及介质
CN105871619B (zh) 一种基于n-gram多特征的流量载荷类型检测方法
US20240064107A1 (en) System for classifying encrypted traffic based on data packet
CN110460502B (zh) 基于分布特征随机森林的vpn下应用程序流量识别方法
CN116389293A (zh) 一种基于深度学习的信息安全保密方法和装置
CN114257428B (zh) 一种基于深度学习的加密网络流量识别及分类方法
CN111147394A (zh) 一种远程桌面协议流量行为的多级分类检测方法
CN112887291A (zh) 基于深度学习的i2p流量识别方法及系统
Tong et al. BFSN: a novel method of encrypted traffic classification based on bidirectional flow sequence network
CN110365659B (zh) 一种小样本场景下的网络入侵检测数据集的构造方法
CN115473850B (zh) 一种基于ai的实时数据过滤方法、系统及存储介质
CN114362988B (zh) 网络流量的识别方法及装置
CN111835720B (zh) 基于特征增强的vpn流量web指纹识别方法
CN116743506B (zh) 一种基于四元数卷积神经网络的加密流量识别方法及装置
CN113949653A (zh) 一种基于深度学习的加密协议识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination