CN111507386A

CN111507386A - 一种存储文件及网络数据流加密通信检测方法及系统

Info

Publication number: CN111507386A
Application number: CN202010273477.2A
Authority: CN
Inventors: 李松斌; 刘鹏
Original assignee: Research Station Of South China Sea Institute Of Acoustics Chinese Academy Of Sciences
Current assignee: Research Station Of South China Sea Institute Of Acoustics Chinese Academy Of Sciences
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2020-08-07
Anticipated expiration: 2040-04-09
Also published as: CN111507386B

Abstract

本发明公开了一种存储文件及网络数据流加密通信检测方法及系统，该方法包括：对待检测数据进行字节转换处理，得到待检测数据对应的二维灰度图片；该待检测数据为存储文件数据或网络数据流数据；将二维灰度图片输入预先训练好的加密通信检测模型，输出待检测数据是否被加密的结果；加密通信检测模型包括特征提取模块和特征映射模块；其中，特征提取模块用于对二维灰度图片进行特征提取，得到该二维灰度图的信息相关性特征图；特征映射模块用于对信息相关性特征图进行特征映射，得到待测数据是否被加密的结果。本发明可解决网络输入问题，实现自动特征提取，并判断数据是否加密，在避免复杂特征提取的同时提高分类精度，并适用于多种类型的数据。

Description

一种存储文件及网络数据流加密通信检测方法及系统

技术领域

本发明涉及信息安全领域，特别涉及一种存储文件及网络数据流加密通信检测方法及系统。

背景技术

在计算机及网络通信时代，信息很容易被获取、复制和传播，因此，加密通信技术在信息时代获得了广阔的用武之地。事实上，近年来随着互联网普及率的提高以及人们保护隐私和信息安全等意识的提升，加密通信技术已被广泛深入使用于人们日常生活的方方面面。

加密通信技术可以为合法用户提供数据安全保护，例如，对自己计算机中存储的重要文件进行加密以防止被浏览和偷窃，在通过通讯工具传输文件时先进行加密等。但加密通信技术是一把双刃剑，它既可以作为保护伞保护用户的隐私和合法数据的安全，也同样可以被不法分子用于隐藏其违法行为数据，使得不法分子也能通过建立基于加密技术的安全信道来传输恶意数据，以达到隐藏其恶意性质和规避防火墙的检测等目的。因此，从网络安全监管的角度出发，研究加密通信检测及取证技术迫在眉睫。然而现有的加密检测方法大多基于传统特征工程技术，需要人工设计特征，过程繁琐，人工特征选取的好坏直接影响检测精度，且通常检测准确度并不高。

目前的加密通信检测，即隐写检测，需要进行检测和取证的加密通信检测场景通常有两种：一种是对数据进行加密后，存放于各类存储介质(如硬盘、U盘、光盘等，这些介质可以很容易的进行运输)，另一种是对数据进行加密后通过网络进行传输或直接通过加密信道，如虚拟专用网络(Virtual Private Network，VPN)，进行加密通信。通常可以通过计算待检测数据的熵值判断数据是否被加密，但是基于熵的方法对于压缩媒体数据和加密数据区分效果差，因此对于大量音视频数据的加密判定存在不足；还可以通过检验统计项对待检测的存储型数据进行测试，然后设定置信水平，如果检验统计特征值大于置信水平，则判定数据被加密，但该方法对于压缩型数据识别效果较差。还有通过机器学习来判断数据是否被加密，但现有的基于机器学习的方法通常需要人工设计特征，不是端到端的检测，因此过程较为繁琐，且检测准确度并不高。

也有一些加密通信检测方面的研究，如利用NIST SP800-22standard公布的15项测试项对待检测数据进行随机性测试，该测试总共提取188维特征，然后利用其提出的贪心算法进行特征选择，最后使用Support Vector Data Description(SVDD)算法利用选取的特征进行模型训练及检测。该贪心算法至少要进行375次特征选择，极端情况下最多需要进行17766次特征选取，因此至少需要训练375个SVDD模型并进行检测，最多需要训练17766个SVDD模型，非常繁琐；再如利用NIST测试标准进行15项测试，提取188维特征，通过寻找L1-norm正则化逻辑回归函数的最优解来进行特征选取，最后利用极速学习机进行模型训练与检测，该方法中特征维数的选取对结果影响较大；还有基于熵估计法的Skype加密流量实时检测方法，但该方法在加密数据流量较小时性能较差，也没有讨论对加密和非加密压缩流量的检测效果；Cisico公司提出的一种基于通信流上下文信息的加密恶意流量检测方法是比较好的工作，但是更偏重于恶意流量特征的提取和识别，并非通用的流量加密检测识别方法；还有一些基于端口的识别，或是基于内容签名的识别，再或是流量特征的识别方法，但这些方法只能针对特定的加密协议识别来实现。必须知道加密协议的细节。在开放的网络环境中，私有加密协议的出现使得这些方法难以实现。

发明内容

本发明的目的在于克服现有技术缺陷，提出了一种存储文件及网络数据流加密通信检测方法。

为了实现上述目的，本发明提出了一种存储文件及网络数据流加密通信检测方法，所述方法包括：

对待检测数据进行字节转换处理，得到待检测数据对应的二维灰度图片；该待检测数据为存储文件数据或网络数据流数据；

将二维灰度图片输入预先训练好的加密通信检测模型，输出待检测数据是否被加密的结果；所述加密通信检测模型包括特征提取模块和特征映射模块；其中，所述特征提取模块，用于对二维灰度图片进行特征提取，得到该二维灰度图的信息相关性特征图；所述特征映射模块，用于对信息相关性特征图进行特征映射，得到待测数据是否被加密的结果。

作为上述方法的一种改进，所述对待检测数据进行字节转换处理，得到待检测数据对应的二维灰度图片；该待检测数据为存储文件数据或网络数据流数据；具体包括：

将所述待检测数据的每个字节转换为二进制序列；所述待检测数据为存储文件数据或网络数据流数据；其中，所述存储文件数据为视频数据、音频数据或文本数据；所述网络数据流数据为网络流量浏览数据或FTP传输流量数据；

将二进制序列的每个字节转换为一个像素值，得到待检测数据对应的二维灰度图片。

作为上述方法的一种改进，所述特征提取模块包括多激活处理单元、多通道选择单元和池化降维单元；其中，

多激活处理单元，用于对二维灰度图片进行并行的多激活处理，得到该二维灰度图的多特性特征图；

多通道选择单元，用于根据多特性特征图的通道数量，对多特性特征图进行处理，输出多尺度高层特征图；

池化降维单元，用于对多尺度高层特征图进行池化降维，得到二维灰度图的信息相关性特征图。

作为上述方法的一种改进，所述多激活处理单元具体包括：依次连接的1个3*3、步长为1的卷积层，1个池化窗口为3*3、步长为1的均值池化层，1个并行的InceptionT结构和InceptionR结构以及拼接函数；将二维灰度图片经过卷积层的卷积和归一化处理，使用激活函数激活后输入均值池化层，将池化后的输出分别输入并行的InceptionT结构和InceptionR结构，对InceptionT结构和InceptionR结构输出的特征图进行拼接，得到该二维灰度图的多特性特征图；

所述InceptionT结构和InceptionR均包括2个分支；其中，

第一分支为一个1*1、步长为1的卷积层；

第二分支包由第一层和第二层堆叠构成；其中，第一层为依次连接的两个1*1、步长为1的卷积层和1个3*3、步长为1的均值池化层；第二层为依次连接的1个3*3、步长为1的卷积层，1个5*5、步长为1的卷积层和1个1*1、步长为1的卷积层；

所述InceptionT结构中的卷积层均采用第一激活方式进行处理，激活函数为：

所述InceptionR中的卷积层均采用第二激活方式进行处理；激活函数为：

其中，x表示输入数据；

拼接处理为：

O＝concat(O₁,O₂)

其中，concat(·)表示拼接操作，O₁为InceptionT结构输出的特征图，O₂为InceptionR输出的特征图；O为拼接处理后得到的该二维灰度图的多特性特征图。

作为上述方法的一种改进，所述多通道选择单元为2组依次连接的子单元，每组子单元均为依次连接的2个Mode block结构堆叠和1个InceptionA结构；其中，Mode block结构的处理方法为：

当所述多特性特征图的通道数量与Mode block输出端输出的特征图通道数量不一致时，采用第一模式进行处理；

当所述多特性特征图的通道数量与Mode block输出端输出的特征图通道数量一致时，采用第二模式进行处理；

其中，所述第一模式包括两个分支，第一分支为1个1*1、步长为1的卷积层；第二分支由1个1*1、步长为1的卷积层，1个3*3、步长为1的卷积层和1个1*1、步长为1的卷积层顺序堆叠；

所述第二模式包括两个分支，第一分支为直连通路；第二分支由1个1*1、步长为1的卷积层，1个3*3、步长为1的卷积层和1个1*1、步长为1的卷积层顺序堆叠；

所述InceptionA结构与InceptionR结构相同。

作为上述方法的一种改进，所述池化降维单元为依次连接的第一组子单元、第二组子单元、第三组子单元和第四组子单元，其中，

所述第一组子单元包括依次连接的3个堆叠的Mode block结构和池化窗口为3*3、步长为2的均值池化层；

所述第二组子单元包括依次连接的4个堆叠的Mode block结构和池化窗口为3*3、步长为2的均值池化层；

所述第三组子单元包括依次连接的6个堆叠的Mode block结构和池化窗口为3*3、步长为2的均值池化层；

所述第四组子单元包括依次连接的3个堆叠的Mode block结构。

作为上述方法的一种改进，所述特征映射模块包括依次连接的全局均值池化层、全连接层和Softmax层；其中，全局均值池化层将信息相关性特征图合并为一个特征向量；全连接层和Softmax层用于将特征向量转换为目标类的概率分布，选取概率最大值对应的类别作为待测数据是否被加密的结果，并输出；

所述全连接层包含两个神经元，用于实现特征向量向特征值的映射；

所述Softmax函数用于将特征值转化为输出概率p_i：

其中，i表示第i个得分值，eⁱ表示第i个特征值，∑_j e^j表示所有特征值的总和。

作为上述方法的一种改进，所述方法还包括：基于机器学习对加密通信检测模型进行训练的步骤，具体包括：

步骤1)获取存储文件数据和网络数据流数据；

步骤2)对存储文件数据和网络数据流数据进行字节转换处理，得到对应的二维灰度图片，构建加密通信检测模型的训练集和验证集；

步骤3)从训练集中随机选取一组二维灰度图片进行特征提取，得到信息相关性特征图；

步骤4)对信息相关性特征图进行特征映射，得到该数据是否被加密的预测输出；

步骤5)将预测输出与真实标签进行误差求取，得到误差损失，将误差损失进行反向传播获得权重的梯度，利用权重梯度对加密通信检测模型的参数进行更新；

所述误差求取采用交叉熵，表示为：

其中，

表示真实标签

与预测结果l之间的误差，p(x_i)表示真实标签的分布，q(x_i)表示网络模型的预测输出分布，Σ表示求和；

步骤6)重复执行步骤3)至步骤5)，根据预设的训练周期在验证集上检测加密通信检测模型的准确率，当加密通信检测模型在验证集上的检测准确率上升至预定值时，得到的模型参数作为当前最优的加密通信检测模型的参数组合，得到训练好的加密通信检测模型。

本发明还提出了一种存储文件及网络数据流加密通信检测系统，所述系统包括加密通信检测模型、预处理模块和检测输出模块；

所述加密通信检测模型包括特征提取模块和特征映射模块；其中，所述特征提取模块，用于对二维灰度图片进行特征提取，得到该二维灰度图的信息相关性特征图；所述特征映射模块，用于对信息相关性特征图进行特征映射，得到待测数据是否被加密的结果；

所述预处理模块，用于对待检测数据进行字节转换处理，得到该检测数据对应的二维灰度图片；

所述检测输出模块，用于将二维灰度图片输入所述加密通信检测模型，输出待检测数据是否被加密的结果。

与现有技术相比，本发明的优势在于：

本发明提供的存储文件及网络数据流加密通信检测方法及系统，创造性地将一维数据转换为二维灰度图片作为加密检测网络的输入，解决了网络的输入问题。通过对网络结构的设计，能够有效增强网络的特征表达能力，可实现自动从训练数据中进行网络学习并提取有效的检测特征，从而检测数据是否被嵌入了秘密信息，避免了人工提取特征的麻烦，能够很好的解决不同分类算法对特征选取的差异性，而且提高了检测精度，并适用于多种类型的数据检测。

附图说明

图1为本发明实施例1提供的一种存储文件及网络数据流加密通信检测方法流程示意图；

图2为本发明实施例1提供的InceptionT和InceptionR结构示意图；

图3为本发明实施例1提供的Mode block结构的模式示意图；

图4为本发明实施例1提供的加密通信检测模型的整体结构示意图；

图5为本发明实施例1通过提供不同的激活函数对输入图片进行处理后的特征分布示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案进行详细的说明。

需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部内容。一些示例性实施例被描述成作为流程示意图描绘的处理或方法，虽然流程示意图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。

实施例1

图1为本发明实施例提供的一种存储文件及网络数据流加密通信检测方法流程示意图，该方法基于深度卷积神经网络(Convolutional Neural Network，CNN)来实现，适用于检测数据是否被加密的情况。如图1所示，该方法具体可以包括如下步骤：

步骤110：将数据集中数据的每个字节转换为像素值，得到各数据对应的灰度图片。

在本实施例中，数据集中数据对应的文件类型为存储文件和网络数据流文件中的至少一种；存储文件的数据类型为视频数据、音频数据和文本数据中的至少一种；网络数据流文件的数据类型为网络浏览流量数据和FTP传输流量数据中的至少一种。可选地，在获取数据集之后，将数据集中的数据转换为0和1组成的二进制序列，将所述二进制序列的每一个字节值转换为灰度图片的每一个像素值，得到每个数据对应的二维灰度图片。若获取的数据直接为0和1组成的二进制序列，则无需进行二进制序列转换。

步骤120：从训练集中随机选取一组灰度图片进行特征提取，得到输出特征图。

基于CNN构建出加密通信检测模型，以用于自动对待检测数据进行特征提取。在将数据转换为灰度图片后，可以按预设比例将所有数据划分为训练集、验证集和测试集，每次进行训练时，均随机从训练集中选择一组灰度图片用于模型训练，使得加密通信检测模型输出用于表达灰度图片抽象特征的输出特征图。

步骤130：对输出特征图进行特征映射，得到预测输出。

步骤140：根据预测输出利用梯度下降法对加密通信检测模型参数进行更新。

可以利用线性分类器对输出特征图进行特征映射，得到预测的概率值。利用预测的输出概率值对应的类别作为预测类别，之后利用梯度下降法将预测类别与真实类别标签进行误差求取及反向传播，实现参数更新。

步骤150：重复执行步骤120至步骤140，直至训练出使加密通信检测模型检测效果最优的模型参数组合。

从训练集中一组一组随机不重复地选择灰度图片作为加密通信检测模型的输入，重复执行步骤120至步骤140，可以根据预设的训练周期在验证集上检测加密通信检测模型的准确率，当加密通信检测模型在验证集上的检测准确率上升至最大值时，得到的模型参数可以作为当前最优的模型参数组合。

步骤160：利用最优加密通信检测模型确定待检测数据是否被加密。

当加密通信检测模型完成训练，得到最优的模型参数组合后，利用具有最优参数组合的加密通信检测模型对待检测数据进行加密信息的检测。将待检测数据按步骤110的方式处理为灰度图片，输入具有最优模型参数组合的加密通信检测模型，自动检测出输入数据是否被加密。

本实施例提供的存储文件及网络数据流加密通信检测技术方案，通过创造性地将数据转换为二维灰度图片作为加密检测网络的输入，从而解决了基于CNN的加密检测网络的输入问题。通过对网络结构的设计，能够有效增强网络的特征表达能力，可实现自动从训练数据中进行网络学习并提取有效的检测特征，从而检测数据是否被加密，是一种端到端的高效加密通信检测方法，避免了人工提取特征的麻烦，能够很好的解决不同分类算法对特征选取的差异性，而且提高了检测精度，并适用于多种类型的数据检测。

可选地，在利用训练集对加密通信检测模型进行训练之前还包括利用预训练数据集对加密通信检测模型进行预训练；利用预训练数据集对加密通信检测模型进行预训练包括：随机下载数据作为预训练数据集，将预训练数据集按照步骤110至步骤150进行处理，以进行加密通信检测模型的预训练，得到在预训练数据集上最优的模型参数组合

迁移学习是一种将预训练模型应用在其他相关任务中的学习方式，并作为另一个任务模型的起点。为了使本发明实施例提供的加密通信检测模型训练时有一个比较好的参数初始值，使用预训练数据集先对本发明实施例提供的加密通信检测模型进行了预训练，然后将该预训练模型加载到加密通信检测任务中进行微调。

从训练集中随机选取一组灰度图片进行特征提取，得到输出特征图，包括：对每一灰度图片进行并行的多激活机制处理，得到每一灰度图片的多特性特征图；对多特性特征图进行通道选择机制与多尺度卷积处理，得到每一灰度图片的多尺度高层特征图；对多尺度高层特征图进行池化降维，得到每一灰度图片的信息相关性特征图。

本实施例通过对加密通信检测模型进行结构设计，使得模型能够实现对灰度图片提取到的抽象特征图进行多激活机制、通道选择机制、多尺度卷积及池化降维处理，从而自动提取出能够有效区分是否隐写的相关性特征，以用于判断数据是否被嵌入了秘密信息。

对每一灰度图片进行并行的多激活机制处理，提取每一灰度图片多特性特征图，包括：将每一灰度图片分别经第一卷积块和第二卷积块进行并行处理。其中第一卷积块采用InceptionT，第二卷积块采用InceptionR。图2为本发明实施例提供的InceptionT和InceptionR结构示意图，InceptionT和InceptionR均包含两个分支：第一分支包含：一个大小为1X1，步长为1的卷积层；第二分支包含两层：第一层为：两个大小为1X1，步长为1的卷积层和一个大小为3X3，步长为1的均值池化层；第二层为：一个大小为3X3，步长为1的卷积层、一个大小为5X5，步长为1的卷积层和一个大小为1X1，步长为1的卷积层，第一层和第二层堆叠构成第二分支；其中，卷积层均包含归一化处理(Batch Normalization，BN)和激活处理(activation)，InceptionT中均采用第一激活方式进行激活处理，InceptionR中均采用第二激活方式进行激活处理；

第一激活方式表示为：

第二激活方式表示为：

其中，x表示激活函数的输入；第一卷积块中的激活函数采用Tanh，第二卷积块中的激活函数采用线性整流函数(Relu)，将各卷积块中第一分支和第二分支的输出进行拼接，得到各卷积块的输出；将第一卷积块和第二卷积块的输出特征进行拼接处理，得到每一灰度图片多特性特征图。拼接处理可以表示为：

O＝concat(O₁,O₂)

其中，O表示经扩展后的特征图，concat(·)表示拼接操作，O₁,O₂分别对应每个卷积块的输出。

对多特性特征图进行通道选择机制与多尺度卷积处理，得到每一灰度图片的多尺度高层特征图，包括：根据多特性特征图的通道数量，确定模式选择卷积块对多特性特征图进行处理的模式，并采用确定出的模式对多特性特征图进行处理；将模式选择卷积块输出的特征图经多尺度卷积块处理，得到每一灰度图片的多尺度高层特征图；其中，多尺度卷积块与上述InceptionR结构相同。

具体的，根据多特性特征图的通道数量，确定模式选择卷积块对多特性特征图进行处理的模式，包括：当多特性特征图的通道数量与模式选择卷积块输出端输出的特征图通道数量不一致时，采用第一模式对多特性特征图进行处理；当多特性特征图的通道数量与模式选择卷积块输出端输出的特征图通道数量一致时，采用第二模式对多特性特征图进行处理；图3为本发明实施例提供的模式选择卷积块Mode block结构的模式示意图，如图3所示，(a)表示第一模式，(b)表示第二模式。第一模式包含两个分支，第一分支为一个大小为1X1，步长为1的卷积层；第二分支包含：一个大小为1X1，步长为1的卷积层、一个大小为3X3，步长为1的卷积层和一个大小为1X1，步长为1的卷积层顺序堆叠；第二模式也包含两个分支，与第一模式的区别在于，第二模式的第一分支不含卷积层。图3所示的不同模式中卷积之后的BN表示归一化处理，Relu表示以Relu(x)函数进行激活处理，处理顺序与图3所示的各操作顺序一致，即卷积之后进行归一化处理再进行激活处理。

对多尺度高层特征图进行池化降维，得到每一灰度图片的信息相关性特征图。包括：将多尺度高层特征图经一个大小为3X3，步长为2的均值池化层进行处理，得到能够保留每一灰度图片中像素之间相关性的信息相关性特征图。

对输出特征图进行特征映射，得到预测输出，包括：对输出特征图进行特征映射，将输出特征图转化为输出概率；其中，特征映射包含一个全连接层和一个Softmax函数；全连接层包含两个神经元，实现高层抽象特征向输出层输出结果的特征映射；Softmax函数用于将特征值转化为输出概率，表示为：

其中i表示第i个得分值，eⁱ表示第i个特征值，∑_j e^j表示所有特征值的总和；选取输出概率最大值对应的类别作为每一个训练数据是否被隐写的预测输出结果。

利用梯度下降法对加密通信检测模型参数进行更新，包括：将预测输出与真实标签进行误差求取，误差求取采用交叉熵，表示为：

其中，

表示真实标签

与预测结果l之间的误差，p(x_i)表示真实标签的分布，q(x_i)表示网络模型的预测输出分布，Σ表示求和。

将预测输出与真实标签进行误差求取，得到误差损失，将误差损失进行反向传播获得权重的梯度，利用权重梯度对加密通信检测模型参数模型参数进行更新。

下面对本发明实施例提供的加密通信检测模型的具体结构设计进行详细说明。

图4为本发明实施例提供的加密通信检测模型整体结构示意图，如图4所示，第一卷积块采用InceptionT，第二卷积块采用InceptionR，其具体结构展开参考图2；多尺度卷积块采用InceptionA，结构与InceptionR相同。图4中的Mode block对应上文提到的模式选择卷积块，具体设计如图3，包括两种模式结构，在对抽象特征图进行处理时，根据输入的特征图的通道数量和Mode block输出特征图的通道数，来确定采用哪一种模式对输入数据进行处理。Avgpoll表示均值池化，即上述实施例中所述的通过均值池化对特征图进行降维处理。另外，图4中的Conv(n×n+m(s))表示卷积层，n×n表示卷积核大小，m(s)表示卷积的步长为m。Avgpoll(a×a+b(s))表示均值池化层的池化窗口为a×a，步长为b，方括号内的数字“[c]”表示卷积层滤波器的个数，如“[64]”表示卷积层滤波器有64个，Mode block块外的数字“×d”对应示堆叠的Mode block数量，如“×4”表示4个Mode block堆叠。

图4所示的加密通信检测模型可以划分为三大部分：数据预处模块、特征提取模块和特征映射模块。其中特征提取模块包括第一层至第七层，特征映射模块包括全局均值池化层(GlobalAvgpoll)、全连接层(Full connect)和Softmax层。

数据预处理模块用于将原始输入数据转化为二维灰度图片。由于本发明实施例提供的加密通信检测模型是基于CNN设计的，而用于检测的数据通常是由0和1组成的长度不同的二进制序列，不符合二维CNN网络的输入要求，因此将输入加密通信检测模型的数据转换为固定大小的二维灰度图片格式，图片的每个像素值对应数据的每一个字节值，将二维灰度图片作为后续网络模块的输入，从而解决了CNN网络输入的问题。

如图4所示，特征映射模块由7组结构层组成，即图4中的中第一组～第七组，用于对输入图片进行特征提取。多激活处理单元对应第一组，首先将输入图片经过卷积，归一化处理，使用Relu激活后输入均值池化层，将池化后的输出分别输入并行的InceptionR和InceptionT结构，并将InceptionR和InceptionT结构输出的特征图进行拼接，作为Group 2的输入。

之所以采用多激活处理单元，是因为不同激活函数的统计建模特性不同，例如Tanh函数具有饱和区域，因此可以限制数据的分布范围，阻止了后边的网络层对较大的值进行建模；将Tanh与Relu激活函数混合使用，可以使本发明实施例提供的加密通信检测模型对加密数据具有不同的响应。

图5为本发明实施例提供的不同激活函数对输入图片进行处理后的特征分布示意图，以便于直观理解第一组中多激活函数模块的设计。图5中展示的是一张大小为224x224的图片分别经过InceptionR和InceptionT后产生的其中一张特征图热图以及该特征图的数据分布，其中，经Relu激活后得到的特征图为图5中左侧一列的两张图片，经Tanh激活后得到的特征图为图5中右侧一列的两张图片。从图5中可以看出，经过Relu激活后的特征图均值在0.1附近，而经过Tanh激活后的特征图均值在-0.03左右，说明采用不同激活函数的InceptionR和InceptionT对输入数据特征的响应不同，可以获得不同的特征，得到多特性特征图。

为了评估多激活函数模块在本发明实施例提供的加密通信检测模型中的有效性，进行了三组对比实验：本发明实施例提供的加密通信检测模型，即InceptionR和InceptionT并列；仅使用InceptionR；仅使用InceptionT。如表1所示为三种模型在本发明实施例提供的视频数据集中测试集上的检测准确率，可见本发明实施例提供的加密通信检测模型性能最好。

表1

模型	准确率
		InceptionR和InceptionT并列	98.83％
仅含InceptionR	98.70％
		仅含InceptionT	98.77％

如图4所示，第一组的输出数据经第二组中的Mode block处理后输入IncepionA；第三组进行与第二组相同的处理，多通道选择单元对应第二组和第三组；第四组～第六组中均为Mode block处理后，进行均值池化处理来实现特征图的降维。第七组中进行Modeblock处理后，送入特征映射模块，池化降维单元对应第四组至第七组。经过特征映射模块的全局均值池化层(global averaging pooling layer)将每个空间图合并为一个元素。例如，输入为224*224的灰度图像，则全局均值池化层通过计算每个14*14特征图的统计矩将1024个特征图转换为1024维的特征向量。将全局均值池化层输出的特征向量输入至线性分类单元，由线性分类单元将特征向量转换为目标类的概率分布，从而判断待检测的数据是否被加密。线性分类单元由图4所示的一个全连接层(full connect layer)和一个softmax层构成。图4中Mode block中方括号内的数字，例如，“[64]”表示”Mode block”结构的第二分支中第一个1x1和第一个3x3卷积层的滤波器个数均为64。

之所以采用Mode block提取特征，是由于随着网络的加深可以学习到更加高级的特征，网络越深，通常模型的效果就会越好。本发明实施例设计了具有跳跃连接(shortcutconnections)的Mode block结构来进行残差学习，并构造了第二组～第七组，可以大大增加网络的深度，增强加密通信检测模型的特征表达能力。

相关技术多采用卷积进行特征图的降维，而本发明实施例是在几个Mode block结构堆叠后再使用均值池化进行降维。这么做是因为本发明实施例提供的加密通信检测模型是应用于加密信息检测的，而加密检测和计算机视觉中的图像分类不同，图像分类是根据图像目标进行分类，可能只与某些局部区域有关，加密检测却是与整副图片的内容都相关。利用卷积进行特征图的降维会存在强化某个局部特征的同时亦会弱化某些局部特征的问题，而平均池化通过对相邻像素的平均求和可以更好的保留信息之间的特征相关性，使模型更好地提取到信息相关性特征。

为评估使用池化代替卷积进行降维在本发明实施例提供的加密通信检测模型中的有效性，做了两组对比实验：本发明实施例提供的网络模型，即使用池化进行降维；使用大小为3x3，步长为2的卷积进行降维。如表2所示为这两个模型在本发明实施例的视频数据集中测试集上的检测准确率，可见，采用均值池化进行降维的模型比采用卷积进行降维的模型性能约提升0.31％。

表2

模型	准确率
		均值池化降维	98.83％
卷积降维	98.52％

之所以引入Inception结构来增加网络宽度，是因为通常更宽的网络可以通过CNN层携带更多重要的信息，本发明实施例提供的加密通信检测模型通过在网络的前半部分增加网络的宽度来提升网络的性能，在第一组中采用Inception作为基本单元构建两个并行的多激活函数模块以提取多种不同特性的多尺度特征信息，在第二组和第三组中又插入Inception结构提取各种尺度特征的融合信息，这样做能够为后面层的特征提取提供良好的特征输入。

为了验证增加网络宽度对模型性能的影响，进行了两组对比实验：增加网络宽度，即本文的加密通信检测模型；不增加网络宽度，称为“no_inception”。“no_inception”模型中采用一个大小3x3的卷积层、BN和Relu代替第一组中的InceptionR和InceptionT模块，其输出特征图数量与多激活函数模块的输出特征图数量一致。同样的，各采用一个大小3x3的卷积层、BN和Relu代替第二组和第三组中的InceptionA模块，保证与本发明实施例提供的隐写监测模型的输出特征图数量一致。表3为这两个模型在本发明实施例所建视频数据集中测试集上的检测准确率。可见，增加网络宽度的模型比不增加网络宽度的模型性能约提升0.21％。

表3

模型	准确率
		增加网络宽度	98.83％
不增加网络宽度	98.62％

下面对本发明实施例提供的加密通信检测模型的具体训练过程及性能评估进行详细说明。

在本实施例中，采用了迁移学习策略，因此建立了两类数据集。一类用于模型的预训练，另一类用于加密通信检测任务。预训练数据集：从互联网上随机下载了353个视频，并通过数据预处理模块的方法将其转化成1335133张224X224大小的灰度图片。加密通信检测任务数据集：由于需要进行检测的加密通信检测场景有存储类数据和网络传输类数据，因此加密通信检测任务数据集分为存储类数据类型和网络流量数据类型。

对于存储类数据类型，从网络中下载音频、视频和文本文件，每种文件涵盖了多种数据格式。其中，音频和视频文件各12000个，文本文件10000个，每个文件大小均为1MB以上，如表4所示，为各种类型数据的数量。然后从每个文件的中间处开始取特定长度(例如49KB)的一段数据通过数据预处理模块的方法转化为二维灰度图片作为视频、音频和文本数据集，每个文件提取一张图片。

表4

对于网络流量数据类型，本实施例按场景分为网络浏览流量以及FTP传输流量。网络浏览流量中的VPN加密传输流量为通过加密代理软件VPN上网时抓取的加密数据流，非加密浏览流量为通过浏览器浏览时抓取的未经加密的网络流量。FTP传输流量中的非加密流量为上述音频、视频和文本通过FTP传输时抓取的流量，加密流量为上述的音频、视频和文本通过高级加密标准(Advanced Encryption Standard，AES)加密后通过FTP传输时抓取的流量。上述流量均通过wireshark软件进行流量捕获。最后，从这四种流量类型的数据流中分别选取32000段，每段长度均为49K字节，按数据预处理模块的方法将每段数据转化为224x224大小的二维灰度图片，作为网络流量数据集，如表5所示为不同网络流量数据转换为灰度图片之后的数量。

表5

在预训练时，本实施例按照7.5：1：1.5将预训练数据集随机划分训练集，验证集和测试集。每迭代50000次在验证集上做一次验证，观察加密通信检测模型的收敛情况。首先对预训练数据集选取0.001的学习率，当验证集上的准确率不再有提高之后，将学习率减小到0.0001继续训练，直到验证集上准确率不再提高停止训练。最后选取在验证集上准确率最高的模型作为预训练模型。

预训练结束后，加载预训练模型作为各种数据类型训练的初始模型进行微调。按照7：1：2来随机选取训练集、验证集和测试集。微调训练过程中，设置100个周期(epoch)进行迭代，每迭代1000次在验证集上做一次验证。初始学习率设为0.0001，迭代20个epoch后将学习率缩小到0.00005。当在验证集上的准确率不再提升停止训练。将在验证集上获得的最高准确率的模型选为最优模型。利用训练出的最优模型对待检测数据进行加密检测，确定出待检测数据是否被写入了秘密信息。

为了充分评估本实施例提供的加密通信检测模型的性能，进行了4组实验。

第一组实验：评估不同类型的数据使用不同加密算法对模型检测性能的影响。

由于加密数据的随机统计特性受加密算法影响，因此为了评估本实施例提供的加密通信检测模型的鲁棒性，选取AES和数据加密标准(Data Encryption Standard，DES)两种加密算法对不同数据类型进行加密并评估加密通信检测模型的性能，在加密通信检测任务数据集中测试集上的准确率实验结果如表6所示。

表6

根据表6的实验结果统计，可见本实施例提供的加密通信检测模型能够很好地自动学习加密和非加密数据的差异性，不管使用哪种加密算法，其性能均表现优异，本实施例提供的加密通信检测模型具有较好的鲁棒性。

第二组实验：评估数据长度对模型检测性能的影响。

由于随机性测试数值受数据长度影响比较大，而输入图片的分辨率对CNN模型的性能也有影响，因此对各种数据集取了三种不同的长度进行实验。采用不同类型的不同数据长度的数据对本实施例提供的加密通信检测模型进行测试，在加密通信检测任务数据集中测试集上的准确率结果如表7所示。

表7

数据长度(图片大小)	视频Video	音频Audio	文本Text
				5.06KB(72x72)	84.5％	99.94％	99.4％
10.16KB(102x102)	91.21％	100％	99.65％
				49KB(224x224)	98.81％	100％	100％

结果表明，本实施例提供的加密通信检测模型不管对哪种数据长度，检测性能均比较优越，受数据长度的影响小。

第三组实验：评估本实施例提供的加密通信检测模型对数据类型的通用性。

为了证明本实施例提供的加密通信检测模型对数据类型的通用性，进行了盲检测实验，即将视频、音频、文本数据集按不同混合方式进行了混合。在加密通信检测任务数据集中测试集上的准确率实验结果如表8所示。

表8

数据类型	准确率
		视频、音频、文本混合	99.17％
视频、音频混合	99.18％
		视频、文本混合	99.11％
音频、文本混合	99.99％

从表8可以看出，本实施例提供的加密通信检测模型在盲检测时对各种数据类型的组合检测均具有较高的准确率，对多种数据类型而言是通用的，可用于检测多种数据类型混合的情况。

第四组实验：评估本实施例提供的加密通信检测模型对网络加密流量的检测性能。

上述实验已经证明了本实施例提供的加密通信检测模型对存储型数据的有效性，为了证明该模型对网络环境下的数据同样具有适用性，选取网络流量对本实施例提供的加密通信检测模型进行实验。在加密通信检测任务数据集中测试集上的准确率实验结果如表9所示。

表9

数据类型	准确率
		上网网络流量	99.96％
FTP流量	98.8％

从表9可以看出，本实施例提供的加密通信检测模型在网络流量数据上依然表现出较好的检测性能，检测准确率达到99.96％。

本实施例提出了一种存储文件及网络数据流加密通信检测方法。该方法首先将待检测的数据映射成二维灰度图片作为神经网络的输入，然后通过设计不同的激活函数来响应不同的卷积数据，同时利用加宽网络来提取多尺度特征，通过加深网络提取各种复杂高层特征从而实现加密数据的检测。为了验证该方法的可行性，本文搜集了各种类型的数据形成数据集并进行实验。从实际的测试可以看出，本实施例提供的数据预处理方式及设计出的加密通信检测模型结构的分类性能非常优秀，可实现自动进行有效的特征提取及加密检测，能够提高检测精度，并且对多种类型的数据检测均适用，是一种高效的端到端加密检测方法。

实施例2

根据实施例1的方法，构建一种存储文件及网络数据流加密通信检测系统，该系统包括加密通信检测模型、预处理模块和检测输出模块；

加密通信检测模型包括特征提取模块和特征映射模块；其中，所述特征提取模块，用于对二维灰度图片进行特征提取，得到该二维灰度图的信息相关性特征图；所述特征映射模块，用于对信息相关性特征图进行特征映射，得到待测数据是否被加密的结果；

预处理模块，用于对待检测数据进行字节转换处理，得到该检测数据对应的二维灰度图片；

检测输出模块，用于将二维灰度图片输入所述加密通信检测模型，输出待检测数据是否被加密的结果。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种存储文件及网络数据流加密通信检测方法，所述方法包括：

2.根据权利要求1所述的存储文件及网络数据流加密通信检测方法，其特征在于，所述对待检测数据进行字节转换处理，得到待检测数据对应的二维灰度图片；该待检测数据为存储文件数据或网络数据流数据；具体包括：

将所述待检测数据的每个字节转换为二进制序列；该待检测数据为存储文件数据或网络数据流数据；其中，所述存储文件数据为视频数据、音频数据或文本数据；所述网络数据流数据为网络流量浏览数据或FTP传输流量数据；

3.根据权利1所述的存储文件及网络数据流加密通信检测方法，其特征在于，所述特征提取模块包括多激活处理单元、多通道选择单元和池化降维单元；其中，

4.根据权利要求3所述的存储文件及网络数据流加密通信检测方法，其特征在于，所述多激活处理单元具体包括：依次连接的1个3*3、步长为1的卷积层，1个池化窗口为3*3、步长为1的均值池化层，1个并行的InceptionT结构和InceptionR结构以及拼接函数；将二维灰度图片经过卷积层的卷积和归一化处理，使用激活函数激活后输入均值池化层，将池化后的输出分别输入并行的InceptionT结构和InceptionR结构，对InceptionT结构和InceptionR结构输出的特征图进行拼接，得到该二维灰度图的多特性特征图；

所述InceptionT结构和InceptionR均包括2个分支；其中，

第一分支为一个1*1、步长为1的卷积层；

其中，x表示输入数据；

拼接处理为：

O＝concat(O₁,O₂)

5.根据权利要求4所述的存储文件及网络数据流加密通信检测方法，其特征在于，所述多通道选择单元为2组依次连接的子单元，每组子单元均为依次连接的2个Mode block结构堆叠和1个InceptionA结构；其中，Mode block结构的处理方法为：

所述InceptionA结构与InceptionR结构相同。

6.根据权利要求5所述的存储文件及网络数据流加密通信检测方法，其特征在于，所述池化降维单元为依次连接的第一组子单元、第二组子单元、第三组子单元和第四组子单元，其中，

所述第四组子单元包括依次连接的3个堆叠的Mode block结构。

7.根据权利要求6所述的存储文件及网络数据流加密通信检测方法，其特征在于，所述特征映射模块包括依次连接的全局均值池化层、全连接层和Softmax层；其中，全局均值池化层将信息相关性特征图合并为一个特征向量；全连接层和Softmax层用于将特征向量转换为目标类的概率分布，选取概率最大值对应的类别作为待测数据是否被加密的结果，并输出；

所述Softmax函数用于将特征值转化为输出概率p_i：

其中，i表示第i个得分值，eⁱ表示第i个特征值，∑_je^j表示所有特征值的总和。

8.根据权利要求1所述的存储文件及网络数据流加密通信检测方法，所述方法还包括：基于机器学习对加密通信检测模型进行训练的步骤，具体包括：

步骤1)获取存储文件数据和网络数据流数据；

所述误差求取采用交叉熵，表示为：

其中，

表示真实标签

9.一种存储文件及网络数据流加密通信检测系统，所述系统包括加密通信检测模型、预处理模块和检测输出模块；

所述预处理模块，用于对待检测数据进行字节转换处理，得到待检测数据对应的二维灰度图片；