CN111159250B

CN111159250B - 基于嵌套式深度孪生神经网络的移动端用户行为检测方法

Info

Publication number: CN111159250B
Application number: CN201911314528.5A
Authority: CN
Inventors: 刘瑶; 娄云; 李佳洲; 鲁俊良; 刘梦娟
Original assignee: University of Electronic Science and Technology of China; CERNET Corp
Current assignee: University of Electronic Science and Technology of China; CERNET Corp
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2023-02-21
Anticipated expiration: 2039-12-19
Also published as: CN111159250A

Abstract

本发明公开了基于嵌套式深度孪生神经网络的移动端用户行为检测方法，包括以下步骤：分别采集纯净流量包和真实流量包，并构建训练数据；将纯净流量包和真实流量包的大小作为其特征，并对特征进行对10取模运算；分别用正数和负数表示流入和流出移动端的流量包；对纯净流量包和真实流量包进行重新排列后，滤除干扰纯净流量包和干扰真实流量包；构建嵌套式深度孪生神经网络，并根据训练数据对其进行训练；将待检测的真实流量包输入训练好的嵌套式深度孪生神经网络，得到移动端用户行为的识别结果。本发明需要的基础数据少，易于实现，且不用手动去除噪音流量，能够精准的识别移动端的用户行为。

Description

基于嵌套式深度孪生神经网络的移动端用户行为检测方法

技术领域

本发明属于移动应用流量分析领域，具体涉及基于嵌套式深度孪生神经网络的移动端用户行为检测方法。

背景技术

随着无线通信和移动互联网的迅速发展，移动终端和智能手机变得越来越普及和强大，移动用户的数量也在迅速增加。移动终端和智能手机的普及推动了计算机互联网向移动互联网的转型。智能手机用户通常会根据自己的兴趣来安装和使用应用程序。数以百万计的应用程序被开发出来，提供丰富的服务，从新闻、天气、社交、娱乐到医疗、健身、金融等行业。谷歌Play Store现在拥有超过210万个应用程序，苹果商店拥有180万多个应用程序。同时，由于智能手机与移动用户之间的高黏附性，使得数据敏感度更高，信息泄漏的可能性更大，对用户造成的损失更严重。因此，对移动应用流量进行分析和检测，提高移动终端的安全性和私密性，是移动安全领域最重要的任务之一。但是现有的技术有以下缺点：需要收集大量的用户行为数据用于模型的训练与提升；只能对单个APP的用户行为进行智能识别。

发明内容

针对现有技术中的上述不足，本发明提供的基于嵌套式深度孪生神经网络的移动端用户行为检测方法解决了现有技术存在的问题。

为了达到上述发明目的，本发明采用的技术方案为：基于嵌套式深度孪生神经网络的移动端用户行为检测方法，包括以下步骤：

S1、采集移动端用户n*m个行为的M个纯净流量包和M个真实流量包；

S2、将纯净流量包和真实流量包进行配对，构建训练数据；

S3、提取训练数据中纯净流量包和真实流量包的大小，将纯净流量包和真实流量包的大小作为其第一特征；

S4、将纯净流量包和真实流量包的第一特征进行对10取模运算，得到纯净流量包和真实流量包的第二特征；

S5、将流入移动端的纯净流量包和真实流量包的第二特征用正数表示方向，将流出移动端的纯净流量包和真实流量包的第二特征用负数表示方向；

S6、根据纯净流量包和真实流量包中的信息，对纯净流量包和真实流量包进行重新排列，并滤除干扰纯净流量包和干扰真实流量包；

S7、构建嵌套式深度孪生神经网络，并根据训练数据对其进行训练；

S8、将待检测的真实流量包输入训练完成的嵌套式深度孪生神经网络，通过嵌套式深度孪生神经网络检验真实流量包中包含的与纯净流量包相同的行为模式，得到移动端用户行为的识别结果。

进一步地，所述步骤S1包括以下分步骤：

S1.1、在移动端上安装待采集流量的n个APP，采集时单独运行一个APP，并在其每一个操作时，采集一个纯净流量包；

S1.2、采集n个APP的m个操作，得到移动端用户n*m个行为的纯净流量包；

S1.3、重复M次步骤S1.2，得到移动端用户n*m个行为的M个纯净流量包；

S1.4、在移动端上安装待采集流量的n个APP和若干日常APP，同时运行多个APP，采集n个APP的m个操作，每个操作采集一个真实流量包，得到移动端用户n*m个行为的真实流量包；

S1.5、重复M次步骤S1.4，得到移动端用户n*m个行为的M个真实流量包。

进一步地，所述纯净流量包和真实流量包的构成相同，均包括五元组、流量包产生时间和流量包大小；

所述五元组包括源IP地址、目的IP地址、源端口号、目的端口号和协议名。

进一步地，所述步骤S2包括以下分步骤：

S2.1、将同一APP的同一操作的纯净流量包和真实流量包进行配对；

S2.2、根据配对结果，构造训练数据。

进一步地，所述训练数据获取的具体方法为：将同一操作的1个真实流量包与2个纯净流量包进行组合，遍历每一个真实流量包，得到若干训练数据；

所述训练数据格式为：(真实流量包，第一纯净流量包，第二纯净流量包)。

进一步地，所述步骤S6包括以下分步骤：

S6.1、将具有相同五元组的纯净流量包相邻排列，将具有相同五元组的真实流量相邻排列；

S6.2、根据分组过后的纯净流量包和真实流量包，将协议名不是TCP、SSL、SSLv2和TLSv1.2的纯净流量包和真实流量包滤除，完成干扰纯净流量包和干扰真实流量包的滤除。

进一步地，所述步骤S7中嵌套式深度孪生神经网络包括输入模块、伪孪生模块和融合模块，所述伪孪生模块分别与输入模块和融合模块连接；

所述输入模块包括输入层，所述输入层分别与真实流量输入层的输入端、第一纯净流量输入层的输入端和第二流量输入层的输入端连接；

所述伪孪生模块包括内部孪生单元和外部孪生单元，所述内部孪生单元包括两条结构相同的串联通路；其中，一条串联通路与第一纯净流量输入层的输出端连接，其包括依次连接的第一卷积层、第一池化层、第十卷积层、第八池化层、第十二卷积层、第十池化层、第二批标准化层、第六展平层和第二全连接层；另一条串联通路与第二纯净流量输入层的输出端连接，其包括依次连接的第二卷积层、第二池化层、第十一卷积层、第九池化层、第十三卷积层、第十一池化层、第三批标准化层、第七展平层和第三全连接层；

所述伪孪生单元包括依次连接的第一联结层，所述第一联结层的输入端分别与真实流量输入层的输出端、第一纯净流量输入层的输出端和第二纯净流量输入层的输出端连接，所述第一联结层的输出端分别与第三卷积层的输入端、第四卷积层的输入端、第五卷积层的输入端、第六卷积层的输入端和第九卷积层的输入端连接，所述第三卷积层的输出端通过依次连接的第七卷积层、第五池化层和第三展平层与第二联结层的输入端连接；所述第四卷积层的输出端通过依次连接的第八卷积层、第六池化层和第四展平层与第二联结层的输入端连接；所述第五卷积层的输出端通过依次连接的第三池化层和第一展平层与第二联结层的输入端连接；所述第六卷积层的输出端通过依次连接的第四池化层和第二展平层与第二联结层的输入端连接；所述第九卷积的输出端通过依次连接的第七池化层和第五展平层与第二联结层的输入端连接；所述第二联结层的输出端通过第一批标准化层与第一全连接层的输入端连接，所述第一全连接层的输出端与融合模块连接；

所述融合模块包括第三联结层，所述第三联结层的输入端分别与第一全连接层的输出端、第二全连接层的输出端和第三全连接层的输出端连接，所述第三联结层的输出端通过依次连接的第四全连接层、第四批标准化层、失活层和逻辑回归层与输出层连接。

进一步地，所述步骤S7中根据训练数据对嵌套式深度孪生神经网络进行训练的具体方法为：

A1、随机取出训练数据集中的百分之二十的数据作为验证数据集；

A2、随机初始化嵌套式深度孪生神经网络参数，将训练数据的批量大小定义为128，并将其输入嵌套式深度孪生神经网络；

A3、使用二元交叉熵函数作为损失函数，以损失值最小为目标，使用Adam算法对嵌套式深度孪生神经网络的参数进行优化，并使用梯度下降法对嵌套式深度孪生神经网络的参数进行更新；

A5、利用验证数据集对损失值进行验证，当损失值不再减小，将此时的网络参数保存为最终的网络参数，得到训练完成的嵌套式深度孪生神经网络。

本发明的有益效果为：

(1)本发明可以直接对真实流量进行行为检测，不需要手动去除噪音流量，更加简单。

(2)本发明通过对比真实流量包和纯净流量，判断真实流量包中是否包含与某种纯净流量相同的行为模式，得到用户行为的识别结果，需要的数据较少，且实现了移动端用户行为的准确检测。

附图说明

图1为本发明提出的基于嵌套式深度孪生神经网络的移动端用户行为检测方法示意图。

图2为本发明提出的嵌套式深度孪生神经网络的示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

下面结合附图详细说明本发明的实施例。

如图1所示，基于嵌套式深度孪生神经网络的移动端用户行为检测方法，包括以下步骤：

S2、将纯净流量包和真实流量包进行配对，构建训练数据；

在本实施例中，真实流量包表示各种APP流量的混合，纯净流量包表示单独一个APP的单一操作所产生的流量。

步骤S1包括以下分步骤：

纯净流量包和真实流量包构成相同，均包括五元组、流量包产生时间和流量包大小；

步骤S2包括以下分步骤：

S2.2、根据配对结果，构造训练数据。

训练数据获取的具体方法为：将同一操作的1个真实流量包与2个纯净流量包进行组合，遍历每一个真实流量包，得到若干训练数据；

在本实施例中，训练数据包括正样本训练数据集和负样本训练数据集，所述正样本训练数据集和负样本训练数据集的具体方法：抽取同一操作的一个真实流量包和两个纯净流量包组成一条正样本训练数据，根据纯净流量包和真实流量包，获取所有一个真实流量包和两个纯净流量包的组合，得到正样本训练数据集。抽取一个操作的一个真实流量包和另一个操作的两个纯净流量包组成一条负样本训练数据，通过所述负样本训练数据的构造方式获取若干负样本训练数据，训练数据中正样本训练数据和负样本训练数据的比例为1:1。

步骤S6包括以下分步骤：

如图2所示，步骤S7中嵌套式深度孪生神经网络包括输入模块、伪孪生模块和融合模块，所述伪孪生模块分别与输入模块和融合模块连接。

所述输入模块包括输入层，所述输入层分别与真实流量输入层的输入端、第一纯净流量输入层的输入端和第二流量输入层的输入端连接。

所述伪孪生模块包括内部孪生单元和外部孪生单元，所述内部孪生单元包括两条结构相同的串联通路；其中，一条串联通路与第一纯净流量输入层的输出端连接，其包括依次连接的第一卷积层、第一池化层、第十卷积层、第八池化层、第十二卷积层、第十池化层、第二批标准化层、第六展平层和第二全连接层；另一条串联通路与第二纯净流量输入层的输出端连接，其包括依次连接的第二卷积层、第二池化层、第十一卷积层、第九池化层、第十三卷积层、第十一池化层、第三批标准化层、第七展平层和第三全连接层。

所述伪孪生单元包括依次连接的第一联结层，所述第一联结层的输入端分别与真实流量输入层的输出端、第一纯净流量输入层的输出端和第二纯净流量输入层的输出端连接，所述第一联结层的输出端分别与第三卷积层的输入端、第四卷积层的输入端、第五卷积层的输入端、第六卷积层的输入端和第九卷积层的输入端连接，所述第三卷积层的输出端通过依次连接的第七卷积层、第五池化层和第三展平层与第二联结层的输入端连接；所述第四卷积层的输出端通过依次连接的第八卷积层、第六池化层和第四展平层与第二联结层的输入端连接；所述第五卷积层的输出端通过依次连接的第三池化层和第一展平层与第二联结层的输入端连接；所述第六卷积层的输出端通过依次连接的第四池化层和第二展平层与第二联结层的输入端连接；所述第九卷积的输出端通过依次连接的第七池化层和第五展平层与第二联结层的输入端连接；所述第二联结层的输出端通过第一批标准化层与第一全连接层的输入端连接，所述第一全连接层的输出端与融合模块连接。

步骤S7中根据训练数据对嵌套式深度孪生神经网络进行训练的具体方法为：

A5、利用验证数据集对损失值进行验证，当损失值不再减小，将此时的网络参数保存为最终的网络参数，得到训练完成的嵌套式深度孪生神经网络。、

在本实施例中，使用Adam算法对嵌套式深度孪生神经网络的参数进行优化时，将学习率设定为0.001，训练损失值为0.6时，损失值不再下降，将此时的网络参数保存为最终的嵌套式深度孪生神经网络的参数。

在本实施例中，第一卷积层和第二卷积层参数相同，第一池化层和第二池化层参数相同，第十卷积层和第十一卷积层参数相同，第八池化层和第九池化层参数相同，第十二卷积层和第十三卷积层参数相同，第十池化层和第十一池化层参数相同，第二批标准化层和第三批标准化层参数相同，第六展平层和第七展平层参数相同，第二全连接层和第三全连接层参数相同，嵌套式深度孪生神经网络中结构参数如表1所示。

表1

本发明的工作原理为：采集真实流量包，将真实流量包输入嵌套式深度孪生神经网络中，通过嵌套式深度孪生神经网络对比真实流量包和已有纯净流量包的相似度，判断真实流量包中是否包含某一个或几个纯净流量，从而获取移动端用户行为。

Claims

1.基于嵌套式深度孪生神经网络的移动端用户行为检测方法，其特征在于，包括以下步骤：

S1、采集移动端用户n*m个行为的M个纯净流量包和M个真实流量包；其中，所述步骤S1包括以下分步骤：

S1.5、重复M次步骤S1.4，得到移动端用户n*m个行为的M个真实流量包；

S2、将纯净流量包和真实流量包进行配对，构建训练数据；

其中，所述纯净流量包和真实流量包的构成相同，均包括五元组、流量包产生时间和流量包大小；所述五元组包括源IP地址、目的IP地址、源端口号、目的端口号和协议名；

具体的，所述步骤S6包括以下分步骤：

S6.2、根据分组过后的纯净流量包和真实流量包，将协议名不是TCP、SSL、SSLv2和TLSv1.2的纯净流量包和真实流量包滤除，完成干扰纯净流量包和干扰真实流量包的滤除；

2.根据权利要求1所述的基于嵌套式深度孪生神经网络的移动端用户行为检测方法，其特征在于，所述步骤S2包括以下分步骤：

S2.2、根据配对结果，构造训练数据。

3.根据权利要求2所述的基于嵌套式深度孪生神经网络的移动端用户行为检测方法，其特征在于，所述训练数据获取的具体方法为：将同一操作的1个真实流量包与2个纯净流量包进行组合，遍历每一个真实流量包，得到若干训练数据；

4.根据权利要求1所述的基于嵌套式深度孪生神经网络的移动端用户行为检测方法，其特征在于，所述步骤S7中嵌套式深度孪生神经网络包括输入模块、伪孪生模块和融合模块，所述伪孪生模块分别与输入模块和融合模块连接；

所述外部孪生单元包括依次连接的第一联结层，所述第一联结层的输入端分别与真实流量输入层的输出端、第一纯净流量输入层的输出端和第二纯净流量输入层的输出端连接，所述第一联结层的输出端分别与第三卷积层的输入端、第四卷积层的输入端、第五卷积层的输入端、第六卷积层的输入端和第九卷积层的输入端连接，所述第三卷积层的输出端通过依次连接的第七卷积层、第五池化层和第三展平层与第二联结层的输入端连接；所述第四卷积层的输出端通过依次连接的第八卷积层、第六池化层和第四展平层与第二联结层的输入端连接；所述第五卷积层的输出端通过依次连接的第三池化层和第一展平层与第二联结层的输入端连接；所述第六卷积层的输出端通过依次连接的第四池化层和第二展平层与第二联结层的输入端连接；所述第九卷积的输出端通过依次连接的第七池化层和第五展平层与第二联结层的输入端连接；所述第二联结层的输出端通过第一批标准化层与第一全连接层的输入端连接，所述第一全连接层的输出端与融合模块连接；

5.根据权利要求1所述的基于嵌套式深度孪生神经网络的移动端用户行为检测方法，其特征在于，所述步骤S7中根据训练数据对嵌套式深度孪生神经网络进行训练的具体方法为：

A4、利用验证数据集对损失值进行验证，当损失值不再减小，将此时的网络参数保存为最终的网络参数，得到训练完成的嵌套式深度孪生神经网络。