CN113676348A

CN113676348A - 一种网络通道破解方法、装置、服务器及存储介质

Info

Publication number: CN113676348A
Application number: CN202110893599.6A
Authority: CN
Inventors: 李东方; 王翔; 张森鑫
Original assignee: Nanjing Fule Technology Co ltd
Current assignee: Nanjing Fule Technology Co ltd
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2021-11-19
Anticipated expiration: 2041-08-04
Also published as: CN113676348B

Abstract

本申请涉及一种网络通道破解方法、装置、服务器及存储介质，涉及网络安全领域，其方法包括：获取加密隧道对应的加密流量；基于加密流量确定目标应用；确定目标应用对应的先验字典；确定目标应用的第一密码字典，第一密码字典由目标应用对应的训练好的生成式对抗网络模型生成，训练好的生成式对抗网络模型的训练样本包括先验字典；基于先验字典以及第一密码字典确定专用密码字典；基于专用密码字典破解加密流量对应的密文。本申请提高了对网络通道的破解概率。

Description

一种网络通道破解方法、装置、服务器及存储介质

技术领域

本申请涉及网络安全的领域，尤其是涉及一种网络通道破解方法、装置、服务器及存储介质。

背景技术

随着人们对于数据安全的愈加重视，数据加密技术已经普遍地应用于网络数据传输之中，VPN(虚拟专用网络,Virtual Private Network)技术是指不需要使用长途专线，依靠Internet服务提供商(ISP)和其他的网络服务提供商(NSP)在公用网中建立自己的专用“隧道”的一种技术，不同的信息来源，可分别使用不同的“隧道”进行传输，VPN技术使用的安全隧道将网络流量进行传输，实现加密通信。VPN在现实中有多种实现方式，常见的有VPN服务器、软件VPN、硬件VPN以及集成VPN。参照图1，为典型的VPN隧道及其加密装置。

加密技术的广泛应用，也给犯罪分子提供了很好的隐匿途径，不法分子访问到外网资源时，利用VPN的犯罪途径就是在外网中架设VPN服务器，违法分子在当地连上互联网后，通过互联网连接VPN服务器，然后通过VPN服务器进入外网(目标服务器)，VPN服务器和客户端之间的通讯数据都进行了加密处理。

敏感流量隐藏在加密隧道中传输，为公安侦破案件带来了很大的阻碍，相关技术中，对敏感流量进行破解时采用暴力破解，暴力破解就是攻击者通过尝试所有可能的账号与密码组合远程登录他人的信息设备或系统，进而获得用户的全部使用权限，控制用户主机或系统、窃取用户资料或发动其他攻击。

针对上述相关技术，发明人认为存在以下缺陷：暴力破解包括两种方式：密钥猜测攻击和穷举，密钥猜测攻击是指攻击者根据截获的密文，猜测密钥；破解密码，穷举法是将密码进行逐个推算直到找出真正的密码为止，上述破解方式的破解成功概率较低。

发明内容

为了提高对隧道的破解概率，本申请提供一种网络通道破解方法、装置、服务器及存储介质。

第一方面，本申请提供一种网络通道破解方法，采用如下的技术方案：

一种网络通道破解方法，包括：

获取加密隧道对应的加密流量；

基于所述加密流量确定目标应用；

确定所述目标应用对应的先验字典；

确定所述目标应用的第一密码字典，所述第一密码字典由所述目标应用对应的训练好的生成式对抗网络模型生成，所述训练好的生成式对抗网络模型的训练样本包括所述先验字典；

基于所述先验字典以及所述第一密码字典确定专用密码字典；

基于所述专用密码字典破解所述加密流量对应的密文。

通过采用上述技术方案，基于加密流量确定目标应用，可以根据用户使用的目标应用，从已知密码字典集合中确定出该目标应用对应的先验字典，由于每个目标应用与每个先验字典之一一对应的关系，使得先验字典相较于整个密码字典集合更具有针对性，该先验字典对于该目标应用具有更高的破解概率；基于有针对性的先验字典生成专用密码字典，通过扩大字典集，进一步提高了对目标应用加密隧道内传输密文的破解概率；综上，对于不同的目标应用进行识别，而后确定更加精确、有效的密码字典，可以提高对加密隧道破解的概率。

在一种可能的实现方式中，所述基于所述加密流量确定目标应用，包括：

提取所述加密流量的通信特征信息，所述通信特征信息至少包括服务器名称索引SNI字段或IP地址；

基于所述服务器名称索引SNI字段或IP地址确定所述目标应用。

在一种可能的实现方式中，所述基于所述先验字典以及所述第一密码字典得到专用密码字典，包括：

基于所述先验字典并通过马尔科夫模型确定所述第二密码字典；

基于所述第一密码字典和所述第二密码字典确定所述专用密码字典。

在一种可能的实现方式中，训练所述目标应用对应的生成式对抗网络模型，包括：获取训练样本，所述训练样本包括所述先验字典和所述第二密码字典；

基于所述训练样本对生成式对抗网络进行训练，得到所述训练好的生成式对抗网络模型。

在一种可能的实现方式中，所述方法还包括：

若满足更新条件，则更新所述专用密码字典；

其中，所述更新专用密码字典包括：

更新所述先验字典得到更新后的先验字典；

基于所述更新后的先验字典以及马尔科夫模型得到更新后的第二密码字典；

基于所述更新后的先验字典以及所述更新后的第二密码字典，更新所述训练好的生成式对抗网络模型；

更新所述第一密码字典，所述更新后的所述第一密码字典由所述更新后的生成式对抗网络模型生成；

基于所述更新后的第二密码字典以及所述更新后的第一密码字典，更新所述专用密码字典。

在一种可能的实现方式中，更新所述先验字典得到更新后的先验字典，包括：

获取有效密钥，将所述有效密钥加入至所述先验字典以得到更新后的先验字典；

其中，所述有效密钥为所述专用密码字典中成功破解成功所述密文对应的密钥。

在一种可能的实现方式中，所述更新条件包括以下任一项：

获取到所述有效密钥且达到预设检测时间；

检测到基于所述专用密码字典对所述密文破解的成功率小于预设阈值。

第二方面，本申请提供一种网络通道破解装置，采用如下的技术方案：一种网络通道破解装置，包括：

获取模块，用于获取加密隧道对应的加密流量；

分析模块，用于基于所述加密流量确定目标应用；

匹配模块，用于确定所述目标应用对应的先验字典；

第一确定模块，用于确定所述目标应用的第一密码字典，所述第一密码字典由所述目标应用对应的训练好的生成式对抗网络模型生成，所述训练好的生成式对抗网络模型的训练样本包括所述先验字典；

第二确定模块，用于基于所述先验字典以及所述第一密码字典确定专用密码字典；

破解模块，用于基于所述专用密码字典破解所述加密流量对应的密文。

在一种可能的实现方式中，所述分析模块在基于所述加密流量确定目标应用时，具体用于：

在一种可能的实现方式中，所述第一确定模块在基于所述先验字典以及所述第一密码字典得到专用密码字典时，具体用于：

在一种可能的实现方式中，所述装置还包括训练模块，所述训练模块在训练所述目标应用对应的生成式对抗网络模型时，具体用于：

获取训练样本，所述训练样本包括所述先验字典和所述第二密码字典；

在一种可能的实现方式中，所述装置还包括更新模块，所述更新模块用于：

当满足更新条件时，更新所述专用密码字典；

其中，所述更新模块在更新专用密码字典时，具体用于：

更新所述先验字典得到更新后的先验字典；

在一种可能的实现方式中，所述更新模块在更新所述先验字典得到更新后的先验字典时，具体用于：

在一种可能的实现方式中，所述更新条件包括以下任一项：

获取到所述有效密钥且达到预设检测时间；

第三方面，本申请提供一种服务器，采用如下的技术方案：

一种服务器，该服务器包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行上述网络通道破解的方法。

第四方面，本申请提供一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，包括：存储有能够被处理器加载并执行上述网络通道破解方法的计算机程序。

综上所述，本申请具有以下有益效果：

基于加密流量确定目标应用，可以根据用户使用的目标应用，从已知密码字典集合中确定出该目标应用对应的先验字典，由于每个目标应用与每个先验字典之一一对应的关系，使得先验字典相较于整个密码字典集合更具有针对性，该先验字典对于该目标应用具有更高的破解概率；基于有针对性的先验字典生成专用密码字典，通过扩大字典集，进一步提高了对目标应用加密隧道内传输密文的破解概率；综上，对于不同的目标应用进行识别，而后确定更加精确、有效的密码字典，可以提高对加密隧道破解的概率。

附图说明

图1是VPN加密隧道的示意图；

图2是本申请实施例的流程示意图；

图3是HTTP报文的示意图；

图4是TCP协议的三次握手过程的示意图；

图5是生成式对抗网络的示意图；

图6是本申请实施例生成专用字典的流程示意图；

图7是训练生成式对抗网络模型的流程示意图；

图8是网络通道破解装置的装置示意图；

图9是服务器的示意图。

具体实施方式

以下结合附图对本申请作进一步详细说明。

本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本申请的权利要求范围内都受到专利法的保护。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

为了方便理解本申请提出的技术方案，首先在此介绍本申请描述中会引入的几个要素。应理解的是，以下介绍仅方便理解这些要素，以期理解实施例的内容，并非一定涵盖所有可能的情况。

流量：通过网络连通的设备之间发生交互，就会产生网络通信报文，这些报文被称为流量。流量是一个泛指。

数据流：在服务器与客户端的一次完整通信过程(从连接建立到连接结束)中产生的数据包，称为该次连接的数据流，应用使用过程中通常会执行多次交互，因此会产生多条数据流，组成应用流量。

例如：以建立TLS握手开始，以传输控制协议(transmission control protocol，TCP)FIN(finish)报文为终止的一次会话期间产生的流量。数据流表示两个主体之间的一次交互过程，例如应用进程与服务器间的一次交互。

流量分析：通过监听、抓取、拷贝等手段获取网络通信报文，并对其进行解析、重组、切分等还原其原本通信内容的操作，以了解网络通信双方的即时状态。

本申请实施例提供了一种网络通道破解方法，由服务器执行，如图2所示，该方法包括：

步骤S101、获取加密隧道对应的加密流量。

其中，VPN“翻墙”所用到的软件或者插件主要通过加密、代理和伪装等方法，实现对防火长城的突破：加密和伪装都是通过对原始信息的修改和掩盖，以达到翻墙的目的，代理技术是通过与第三方代理服务器(VPN境外服务器)建立连接，间接的访问被封锁的互联网。

例如：检测到的XX软件系VPN通道一端，是一个VPN应用，可与VPN服务器建立通道，实现相互的数据传输，当VPN服务器为境外服务器时，可使得境内计算机用户能够访问到在境内无法访问的境外网站。

根据VPN的实现技术和协议，可将VPN划分为OSI(开放式系统互联通信参考模型，Open System Interconnection Reference Model)不同层次的VPN，常见的VPN主要有SSL(安全套接字协议，Secure Sockets Layer)模式、IPSec(安全IP隧道，Internet ProtocolSecurity)模式、PPTP(点对点信道协议，Point-to-Point Tunneling Protocol)模式和MPLS(多协议标记转换，Multi-Protocol Label Switching)模式，上述几种模式的原理及特点对比如表1所示：

表1

在一般情况下，VPN类翻墙软件容易被检测和阻止，首先：VPN直接传输加密数据，在具有很高的安全性的同时，使VPN的流量特征变得很明显，即使在网络浏览时，也可以检测到长会话；其次，VPN控制的是客户端的整个网络，连接到互联网的流量都会经过VPN，但大多数在国内使用VPN的人使用的都是少数几个虚拟专用服务器(Virtual PrivateServer，VPS)供应商提供的服务；最后，VPN通常依赖于一些常见的互联网协议。这些协议的特征，现在已经能够被很好地被检测和识别。

基于以上三点，可以很容易地识别VPS供应商，然后阻止他们的流量；也可以使用机器学习，识别来自VPN的流量的特征；还可以在国内网络与国外网络相连的几个关键节点上，根据VPN传输的信息流来识别IP地址，通过这些方式检测和“封杀”VPN翻墙软件。

其中，基于机器学习对VPN流量进行识别，包括：

步骤S01(图中未示出)、在网络中抓取预设时长的网络流量并存储进数据库中。

具体地，所抓取的网络流量属于非加密的正常网络流量或VPN加密的网络流量。

步骤S02(图中未示出)、对数据库中的流量数据进行特征提取得到特征数据。

具体地，对流量数据中的一系列具有相同五元组信息的数据进行提取得到网络流数据；对网络流数据的统计特征进行特征提取得到特征数据，网络流的提取时间、网络流的包大小和/或网络流的包的数量。

其中，网络流Flow是由一系列具有相同五元组{源地址，目的地址，源端口，目的端口，协议}的包形成的，在flow中存在正向网络流和反向网络流，从每个网络流中提取时间、包大小、数量等相关的统计特征，统计特征具体可以包括：Flow的持续时间、Flow(forwardflow，backwardflow)总共的包数量、Flow(forwardflow，backwardflow)包的长度特征(min，mean，max，std)、Flow中每秒的发包数和每秒的字节数、Flow(forwardflow，backwardflow)发包间隔时间特征(min，mean，max，std)、Flow中FIN，SYN，RST，PSH，URG标志的数量、Subflow中包的数量和字节数量的平均值。

步骤S03(图中未示出)、对特征数据进行特征筛选得到筛选后的数据。

具体地，对数据集进行方差过滤处理；对方差过滤后的数据利用平均精确率减少和稳定性选择两种方式进行特征选择；将选择得到的特征进行融合，得到筛选后的数据。

步骤S04(图中未示出)、利用预设的模型对筛选后的数据进行分类。

具体地，预设的模型具体通过如下方式训练获得：

a)将正常的网络流量和VPN加密的网络流量存储到增量式数据库中。

其中，通过建立增量式数据库使得系统能够及时更新机器学习算法，学习新的VPN流量特征，增加检测准确性。

b)从增量式数据库的数据进行特征提取得到作为训练数据的特征数据。

利用特征构建程序对收集到的网络流量进行特征构建，自动提取特征得到固定格式的特征，保证格式的统一性。

c)对特征数据进行筛选。

其中，在特征筛选阶段，利用方差过滤法先过滤方差变化较小的特征，减少数据维度，有利于后续流程时间性能的提高；利用特征重要度进行特征选择，保证特征的有效性。

d)利用梯度提升决策树GBDT(Gradient Boosting Decision Tree)对筛选后的特征数据进行处理，得到新的离散特征向量；把离散特征向量输入逻辑回归LR模型进行训练。

其中，在模型训练上，首先利用XGBoost模型自动进行特征组合和离散化，将特征传入LR模型进行分类，可以发现和利用有效特征和特征组合。

对于本申请实施例，获取加密隧道对应的加密流量，包括：通过监听、抓取、拷贝等手段获取网络通信报文，确定通信报文是否为VPN应用产生的加密流量，具体可以包括以下(方式01—方式03)中的任一项：

(01)、将通信报文的协议特征与已知的VPN流量协议特征进行匹配，若匹配成功，通信报文为VPN应用产生的加密流量(即，VPN加密隧道内传输的加密流量)；

(02)、将通信报文对应的VPS供应商与已知的VPN流量对应VPS供应商进行匹配，若匹配成功，则通信报文为VPN应用产生的加密流量(即，VPN加密隧道内传输的加密流量)。

(03)、通过上述以机器学习(步骤S01—步骤S04)识别VPN流量。

步骤S102、基于加密流量确定目标应用。

对于本申请实施例，对加密流量进行分析，根据加密流量与已知的VPN应用之间的对应关系，确定加密流量是由哪一个VPN应用产生的，目标应用即为基于加密流量确定的VPN应用。

具体地，流量分析的其中一个目的是将流量中包含的报文(或数据流)归属到不同的应用，本申请实施例中将该过程称之为应用识别。

下面以应用层加密模式进行说明：

现有普遍使用的流量分析方案为明文特征识别方法，利用超文本传输协议(hypertext transfer protocol，HTTP)报文的明文特征和TLS(安全传输层协议，Transport Layer Security)握手报文的明文特征识别流量。

参照图3，HTTP报文包括请求报文和响应报文，HTTP报文由三部分组成，分别是：起始行、消息首部和主体。在流量分析中，通过起始行的动作就可以判断客户端和服务器端正在进行的交互行为。例如，利用统一资源标识符(uniform resource identifier,URI)标识的资源可以确定交互的内容，首部字段中的Host字段可以用来判断该报文是否属于某个应用，等等，明文特征分析方法通常直接利用这些可以被解析的字符或数字特征去推测网络通信双方的状态。

HTTP的不足之处包括：通信使用明文(不加密)，内容可能会被窃听；不验证通信方的身份，因此有可能遭遇伪装；无法证明报文的完整性，所以有可能已遭篡改。

后续当加密技术引入网络通信协议后，只有少部分未加密的流量能够继续使用该方法。即，由于协议加密技术的应用，原有HTTP报文的明文特征字段，全部被加密变成了基于超文本传输安全协议(hypertext transfer protocol secure,HTTPS)的字段，当前网络流量的90％以上全部为HTTPS协议，其结构是在原来的HTTP报文之上封装了一层TLS协议。

HTTPS相比于HTTP的加密包括：(1)通信的加密：通过和SSL或TSL的组合使用，加密HTTP的通信内容，与SSL组合使用的HTTP称为HTTPS；(2)内容加密：对报文主体加密后发送，客户端服务器必须同时具有加密解密过程。

对于通信双方的身份信息，参照图4，在SSL中存在一个被称为证书的手段，只要确认对方的证书，伪装身份的危险生成式对抗网络模型减小，为其握手过程，类此TCP协议的三次握手过程。

TLS协议客户端首先发送Client Hello给服务端，服务端返回Server Hello和证书，客户端接受证书后生成加密用的密钥，发送密钥和加密算法给服务端，服务端确认后结束握手过程，之后双方开始发送加密的应用数据报文(密文)。

需要说明的是，Change Cipher Spec协议并不属于握手协议的一部分，发送它表明双方的加密状态已经准备好了，接下来的通信使用双方协商好的密文加密通信，在本申请中不再详细介绍。客户端与服务器的通信过程实际是在TCP层先建立TCP握手，然后以TCP协议传送图4所示的TLS握手报文，然后传送业务报文，最后以TCPFIN报文结束本次交互。

对于本申请实施例，可利用上述TLS握手报文中的一种或多种来构造特征，将特征转化为机器可读的规则，如XML，并存储这些规则。当网络流量被解析完成后，读入这些规则按对应的协议格式过滤流量，过滤方式可以为顺序过滤，从Client Hello报文开始，到Finish报文结束，建立全量的匹配规则(即报文中所有明文字段全部输入)。当过滤完成后，将过滤流量送入业务逻辑匹配模块，根据规则对应的应用ID识别该流量所归属的应用，将匹配结果输出。

步骤S103、确定目标应用对应的先验字典。

密码破解分为两种：在线破解和离线破解，在线破解和离线破解主要区别就是猜测数目的限制，一般情况下在线破解的要求比较高，攻击者能够产生的猜测数目较少，离线破解要求低，能够产生大量的猜测。

在离线破解中，比较有效的方法也分为三种：猜测攻击法、字典攻击法和暴力攻击法。猜测攻击法尝试破解那些“容易记忆”的密码，这些密码一般与用户的个人信息相关，这种方法依靠的是经验和对目标用户的熟悉程度，这就使得猜测攻击法高度依赖于特定用户的个人信息，不能针对普通用户；字典攻击法事先把所有的明文密文对存储在字典中，当给定一个密文时候，就查询字典；暴力攻击法需要遍历密钥空间，一个一个尝试。

某个应用/网站对应的先验字典属于已泄露密码字典，已泄露密码字典中包括已泄露的密钥，获取泄露的密钥的方式包括：黑客非法获取/通过网络下载他人整理的免费密码字典获取/购买特定研究密码组织获取。

本申请中的先验字典即为字典攻击法中所用到的密码字典，先验密码中的密码即为流量以对称加密的方式加密的密钥。具体地，每个已知的VPN应用对应有密码字典，例如：VPN应用A对应有密码字典K1，VPN应用B对应有密码字典K2，VPN应用C对应有密码字典K3,VPN应用N对应有密码字典K_n…，此处不再赘述。

步骤S104、确定目标应用的第一密码字典。

其中，第一密码字典由目标应用对应的训练好的生成式对抗网络模型生成，训练好的生成式对抗网络模型的训练样本包括先验字典；在本申请实施例中，第一密码字典中包含的密码即为密钥，该密钥用于破解加密流量对应的密文。

步骤S105、基于先验字典以及第一密码字典确定专用密码字典。

具体地，每个已知的VPN应用对应有密码字典不同，通过分析每个VPN应用对应的先验字典，并利用机器学习对每个先验字典进行学习，得到每个目标应用对应的专用密码字典，专用密码字典基于先验字典的数据规则生成，对于其对应的VPN应用更具有针对性，通过扩大字典内的密码数量以且提高字典对VPN应用的针对性，提高了密码破解成功的概率。

步骤S106、基于专用密码字典破解加密流量对应的密文。

参照表2，为常见加密算法：

表2

具体地，加密隧道中采用对称加密的方式对流量进行加密；专用密码字典中包含的密码即为密钥，该密钥用于破解加密流量对应的密文；此时，只要生成的专用密码字典中的密钥与对称加密中的密钥匹配成功，则可将加密流量中的密文破解以得到明文，实现对加密隧道内加密流量的破解。

对于本申请实施例，基于加密流量确定目标应用，可以根据用户使用的目标应用，从已知密码字典集合中确定出该目标应用对应的先验字典，由于每个目标应用与每个先验字典之一一对应的关系，使得先验字典相较于密码字典集合更具有针对性，该先验字典对于该目标应用具有更高的破解概率；基于有针对性的先验字典生成专用密码字典，通过扩大字典集，进一步提高了对目标应用加密隧道内传输密文的破解概率；综上，对于不同的目标应用进行识别，而后确定更加精确的密码字典，可以提高对加密隧道破解的概率。

本申请实施例的一种可能的实现方式，在步骤S102中，基于加密流量确定目标应用，具体可以包括：提取加密流量的通信特征信息，基于服务器名称索引SNI字段或IP地址确定目标应用。其中，通信特征信息至少包括SNI字段或IP地址。

进一步地，在本申请实施例中，在协议加密的前提下通信特征信息包括TLS握手报文的特征，即：

1)通用流特征：请求时间、源IP地址、源端口号、目的IP地址、目的端口号、传输层协议、应用层协议、数据流持续时间、数据包数量、数据包时间间隔、数据包大小、载荷大小以及HASH1；

2)SSL/TLS特征：数据包时间戳、加密协议、SSL/TLS版本号、TLS密码套件、TLS拓展长度、TLS拓展组件类型、TLS压缩方法、是否含SNI、HASH1以及HASH2；

3)证书特征：数据包时间戳、证书主题、证书序列号、证书常用名称、证书时间有效性、证书公钥长度、证书签名算法、支持域名信息、证书使用者以及HASH2。

进一步地，在本申请实施例中，通信特征信息为IP地址时，确定目标应用，具体可以包括：

基于IP地址确定目标应用：

获取加密流量的目标IP地址；根据目标IP地址，查找预设缓存数据库，若缓存数据库中存在与目标IP地址相同的命中IP地址，则根据命中应用与命中IP地址的对应关系，确定与目标IP地址相同的命中IP地址所对应的命中应用为识别应用，识别应用即为目标应用。

和/或，要想使网络中的两台计算机(即，本申请中的客户端和VPN境外服务器)能够进行通信，必须为每台计算机指定一个标识号，通过这个标识号来指定接受数据的计算机或者发送数据的计算机，通过IP地址可以连接到指定计算机，但如果想访问目标计算机中的某个应用程序，还需要指定端口号，在计算机中，不同的应用程序是通过端口号区分的。即，通过解析加密流量中的IP地址以及端口号，可确定加密流量对应的目标应用为哪一个VPN应用。

进一步地，在本申请实施例中，通信特征信息为SNI字段时，确定目标应用，具体可以包括：

(1)根据收集到的域名和应用的键值对样本库，创建数据库和存储表，其中存储表包括域名规则及应用名称映射表、SNI字段和应用名称结果表和未识别的SNI字段的采集表；

(2)从加密流量中解析识别出服务器名称指示SNI字段，匹配预设的内存域名规则和应用名称映射表，判断是否匹配成功；

(3)若是，则获取对应应用名称，通过SNI字段和应用名称生成结果集，将结果集存入数据库,基于SNI字段对应的应用名称，确定目标应用。

其中，为了本身数据传输的安全性，会使用HTTPS协议进行数据交互，HTTPS的安全基础是SSL，所以HTTPS协议中一定含有SNI字段，SNI是一项用于改善SSL/TLS的技术，它允许客户端在发起SSL握手请求时(具体说来，是客户端发出SSL请求中的Client Hello阶段)，提交请求的域名信息，从而使得服务器能够切换到正确的域并返回相应的证书。

本申请实施例一种可能的实现方式，在步骤S105中，基于先验字典以及第一密码字典确定专用密码字典，包括：基于先验字典并通过马尔科夫模型确定第二密码字典；基于第一密码字典和第二密码字典确定专用密码字典。

具体地，对于任一密码字典S：

定义密码中的字符集为C＝{x₁,x₂,x₃,…，x_n}；

不同长度密码个数的集合为L＝{l₁,l₂，l₃，…l_n}；

密码首字符概率p定义为首字符与密码总个数的比值，记为P＝{p(x₁),p(x₂),p(x₃),…,p(x_n)}，字符之间的条件概率p(x_i+1|x_i,x_i-1,…,x₁)构成的矩阵记为V；

那么字典S的可以形式化表示为

S＝{C,L,P,V} 式(1)

C--字符集的最大个数n，本文仅考虑ASCII中的可打印字符集，所以n≤95；

L--密码长度的最大值m依赖于具体字典，一般设定m≤32；

P--首字符概率p(x_i)可能为0，仅当密码首字符中不存在字符x_i；

根据密码字典和马尔科夫链的性质，可以用式(1)中的P表示马尔科夫链的初始概率分布，V表示状态转移矩阵，L表示链的长度范围。这三个变量可以通过已知的密码字典计算得到，对于一阶转移矩阵可以认为是字符间条件概率的集合，根据马尔科夫链的性质和查尔曼-柯尔莫哥洛夫方程，K阶矩阵可以通过初始概率和一阶转移概率计算得到。

设定长度为len的用户密码是随机变量序列X₁,X₂…X_len，其X_i(i<len)从有限字符集C(即状态空间)中取值，该随机序列出现概率(联合概率)可表示为：

假设该序列中X_i(i<len)只与前一个或前几个字符相关，则相应的马尔科夫模型如下：

(1)零阶马尔科夫模型

随机变量X_i是根据潜在概率分布产生的，其取值与X₁,X₂…X_i-1无关,用零阶马尔科夫模型表示该密码的出现概率为：

(2)一阶马尔科夫模型:

随机变量X_i只与X_i-1相关.用一阶马尔科夫模型表示该密码出现概率为:

(3)n阶马尔科夫模型:

随机变量X_i与X_i-n+1…X_i-1相关，用n阶马尔科夫模型表示该密码出现概率为：

基于马尔科夫模型的字典生成方法包括：马尔科夫模型建立阶段和密码生成两个阶段：

1)马尔科夫模型建立阶段主要工作是统计训练集字符，然后计算相应概率得到马尔科夫模型；

2)密码生成主要工作是给定起始字符，根据构建的马尔科夫模型预测接下来的字符，从而生成密码。

用户密码可以看作随机变量序列，对于零阶马尔科夫模型，只需要统计已知密码不同字符出现概率，根据字符概率依次猜测随机变量取值，以此生成新的用户密码。

对于一阶马尔科夫模型，可以统计某个字符后面出现的字符概率分布，生成阶段根据前一个字符生成下一个字符。

例如：已知用户密码“AAAAB”和“BBA”，不考虑字符出现位置，只考虑字符之间的相对位置，使用零阶马尔科夫和一阶马尔科夫生成字符串及概率如表3所示：

表3

基于马尔科夫模型的字典生成方法通过样本(部分密码)来估计总体(所有可能的密码)，高阶马尔科夫通常会效果更好。

确定了先验字典后，将先验字典输入至马尔科夫模型，得到第二密码字典，在本申请实施例中，第二密码字典中包含的密码即为密钥，该密钥用于破解加密流量对应的密文，然后再将第一密码字典以及第二密码字典组合，得到专用密码字典。

在本申请实施例中，不同的应用对应不同的生成式对抗网络模型。在步骤S104中，第一密码字典由目标应用对应的训练好的生成式对抗网络模型生成，也即，在对生成式对抗网络模型训练之后，将生成式对抗网络模型中生成模型的输出作为第一密码字典。

进一步地，训练目标应用对应的生成式对抗网络模型，包括：获取训练样本；基于训练样本对初始网络模型进行训练，得到训练好的生成式对抗网络模型。其中，训练样本包括先验字典和第二密码字典。

对于本申请实施例，为进行区分，初始网络模型是指训练完成之前的网络模型，初始网络模型以生成式对抗网络为网络(Generative Adversarial Networks，GAN)基础，具体可以包括未训练完成的生成器和判别器。

生成式对抗网络模型是指由初始网络模型训练完成得到的网络模型，具体可以包括训练完成的生成模型和训练完成的判别模型。为进行区分，生成器训练完成后称为生成模型，判别器训练完成后称为判别模型。

参照图5，生成式对抗网络模型可以由初始网络模型通过大量训练样本训练得到，将训练样本作为初始网络模型的判别器的输入，对初始网络模型进行训练。通过自动化的学习大量密码的多维度、高阶性特征，得到最优的生成模型以生成第一密码字典，使得生成的第一密码字典更具有活力，具备更优的多样性、泛化性和通用性。

具体地，生成式对抗网络(GAN)：是非监督式学习的一种方法，生成器(Generator，以下简称G)从潜在空间(latent space)中随机取样作为输入，其输出结果需要尽量模仿训练集中的真实样本，尽可能地欺骗判别器；判别器(Discriminator，以下简称D)的输入则为训练样本(即真实密码)或生成器的输出，其目的是将生成网络的输出从真实密码中尽可能分辨出来，两个网络相互对抗、不断调整参数，最终目的是使判别器无法判断生成器的输出结果是否真实。

训练时，生成器的输入为随机噪声(即随机数)，判别器的输入为训练样本或生成器的输出，判别器的输出用于指示判别器的输入属于训练样本的概率，即属于真实密码的概率。将大量训练样本作为判别器的输入，反复优化迭代生成器和判别器，目标是使判别器可以准确判断出训练样本，即训练样本对应输出的概率尽可能接近1，生成器生成的密码使得判别器无法判别真伪，即生成器的输出作为判别器的输入时，输出的概率尽可能接近0.5，最后得到最优的生成式对抗网络即为训练完成的生成式对抗网络模型。

对于本申请实施例，基于每个目标应用对应的先验字典和第二密码字典作为训练样本对初始网络模型进行训练，得到与每个应用对应的训练完成的生成式对抗网络模型。

应用该训练好的生成式对抗网络模型时，根据加密流量确定目标应用后，根据目标应用确定与其对应的训练好的生成式对抗网络模型，将该目标应用对应的随机噪声(潜在空间)作为输入至该目标应用对应的训练好的生成式对抗网络模型，该生成式对抗网络模型的生成模型输出第一密码字典。

对于本申请实施例，参照图6，先验字典中的密码以及第二密码字典中的密码组成训练样本集，为了便于区分，将训练样本集中的密码记作真实密码；在生成式对抗网络模型训练完成之前，通过未训练完成的生成式对抗网络生成的密码可以称为密码样本；在生成式对抗网络模型训练完成之后，通过训练完成的生成式对抗网络生成的密码可以称为第一密码，基于一个先验字典生成的所有第一密码组成的集合即为第一密码字典。

参照图7，生成式对抗网络的训练过程具体可以包括：

步骤S11(图未示出)、通过初始网络模型的生成器生成密码样本。

其中，生成器是指未训练完成的初始网络模型中的生成网络，故生成器可以认为是生成模型的中间模型或初始网络模型；具体地，将任一字符类别和随机噪声作为初始网络模型的生成器的输入，获得生成器输出的密码样本。

步骤S12(图未示出)、将密码样本和真实密码分别作为初始网络模型的判别器的输入，获得判别器输出的密码真实性概率值。

具体地，此处判别器是指未训练完成的初始网络模型中的未训练完成的判别网络；密码真实性概率值用于表征输入的特征向量属于训练样本的可能性大小，最大值为1，最小值为0。

步骤S13(图未示出)、根据判别器输出的密码真实性概率值，交替优化生成器和判别器的网络参数，直到网络收敛，得到生成式对抗网络模型。

其中，交替优化是指先固化生成器的参数，优化判别器的参数，使训练样本对应的密码真实性概率值尽可能大，将生成器生成的结果作为判别器的输入，使判别器对应输出的密码真实性概率值尽可能小；之后固化判别器的参数，调整生成器的参数，将生成器生成的结果作为判别器的输入，使判别器对应输出的密码真实性概率值尽可能大。

本申请实施例一种可能的实现方式，基于上述要求，可以构建损失函数，通过交替优化生成器和判别器的网络参数，直到损失函数满足预设条件，例如损失函数稳定，可以认为网络收敛。

本申请实施例的另外一种实现方式，通过交替优化生成器和判别器的网络参数，具体可以包括：通过交替优化生成器和判别器的网络参数，直到生成式对抗网络模型输出结果的误差达到设定误差范围，例如误差小于目标值(即可接受的误差程度)，可以认为网络收敛。生成式对抗网络在网络收敛后，可以认为训练完成，得到生成式对抗网络模型。

对于本申请实施例，初始网络模型中的生成器G和判别器D可以是全连接神经网络(FCN)、卷积神经网路(CNN)、递归神经网络(RNN)、长短期记忆模型(LSTM)等结构。其中，生成式对抗网络的架构可以PassGAN网络结构。

基于训练完成后的生成式对抗网络模型得到第二密码字典后，基于第一密码字典和第二密码字典得到专用密码字典。具体地，将第二密码字典与第一密码字典组合后，即可得到专用密码字典。

进一步地，为了提高专用密码字典的有效性，需要根据更新的已泄露的先验字典，对专用密码字典进行更新。

本申请实施例的一种可能的实现方式，破解方法还包括步骤S107(图中未示出)，步骤S107可以在步骤S106之后执行,其中，

步骤S107、若满足更新条件，则更新专用密码字典。

具体地，更新条件包括以下(方式a和方式b)至少一项：

a.获取到有效密钥且达到预设检测时间。

其中，预设检测时间为用户预先设定的更新时间，更新时间可以为周期性的更新周期，例如：每个月更新一次，每2个月更新一次……。

b.检测到基于专用密码字典对密文破解的成功率小于预设阈值。

例如：当密文破解的成功率低于30％时，此时说明当前生成的专用密码字典的破解效果较差，即触发一次更新操作，以再次生成专用密码字典，提高破解成功的概率。

具体地，更新专用密码字典，具体可以包括：步骤S171(图中未示出)、步骤S172(图中未示出)、步骤S173(图中未示出)、步骤S174(图中未示出)以及步骤S175(图中未示出)，其中，

S171、更新先验字典得到更新后的先验字典。

具体地，更新先验字典包括：获取有效密钥，将有效密钥加入至先验字典以得到更新后的先验字典；其中，有效密钥为专用密码字典中成功破解成功密文对应的密钥。

S172、基于更新后的先验字典以及马尔科夫模型得到更新后的第二密码字典。

S173、基于更新后的先验字典以及更新后的第二密码字典，更新生成式对抗网络模型。

具体地，更新生成式对抗网络模型的方式与上述训练初始网络模型的方式相同，此处不再赘述。

S174、更新第一密码字典，更新后的第一密码字典由更新后的生成式对抗网络模型生成。

S175、基于更新后的第二密码字典以及更新后的第一密码字典，更新专用密码字典。

上述实施例从方法流程的角度介绍一种网络通道破解的方法，下述实施例从虚拟模块或者虚拟单元的角度介绍了一种网络通道破解的装置100，具体详见下述实施例。

本申请实施例提供一种网络通道破解的装置100，如图8所示，该网络通道破解的装置具体可以包括：

一种网络通道破解装置100，包括：

获取模块1001，用于获取加密隧道对应的加密流量；

分析模块1002，用于基于加密流量确定目标应用；

匹配模块1003，用于确定目标应用对应的先验字典；

第一确定模块1004，用于确定目标应用的第一密码字典，第一密码字典由目标应用对应的训练好的生成式对抗网络模型生成，训练好的生成式对抗网络模型的训练样本包括先验字典；第二确定模块1005，用于基于先验字典以及第一密码字典确定专用密码字典；

破解模块1006，用于基于专用密码字典破解加密流量对应的密文。

本申请实施例一种可能的实现方式，分析模块1002在基于加密流量确定目标应用时，具体用于：

提取加密流量的通信特征信息，通信特征信息至少包括SNI字段或IP地址；

基于服务器名称索引SNI字段或IP地址确定目标应用。

本申请实施例一种可能的实现方式，第一确定模块1004在基于先验字典以及第一密码字典得到专用密码字典时，具体用于：

基于先验字典并通过马尔科夫模型确定第二密码字典；

基于第一密码字典和第二密码字典确定专用密码字典。

本申请实施例一种可能的实现方式，装置还包括训练模块，训练模块在训练目标应用对应的生成式对抗网络模型时，具体用于：

获取训练样本，训练样本包括先验字典和第二密码字典；

基于训练样本对生成式对抗网络进行训练，得到训练好的生成式对抗网络模型。

本申请实施例一种可能的实现方式，装置还包括更新模块，更新模块用于：

当满足更新条件时，更新专用密码字典；

其中，更新模块在更新专用密码字典时，具体用于：

更新先验字典得到更新后的先验字典；

基于更新后的先验字典以及马尔科夫模型得到更新后的第二密码字典；

基于更新后的先验字典以及更新后的第二密码字典，更新生成式对抗网络模型；

更新第一密码字典，更新后的第一密码字典由更新后的生成式对抗网络模型生成；

基于更新后的第二密码字典以及更新后的第一密码字典，更新专用密码字典。

本申请实施例一种可能的实现方式，更新模块在更新先验字典得到更新后的先验字典时，具体用于：

获取有效密钥，将有效密钥加入至先验字典以得到更新后的先验字典；

其中，有效密钥为专用密码字典中成功破解成功密文对应的密钥。

本申请实施例一种可能的实现方式，更新条件包括以下任一项：

获取到有效密钥且达到预设检测时间；

检测到基于专用密码字典对密文破解的成功率小于预设阈值。

本申请实施例提供的网络通道破解装置适用于上述方法实施例，在此不再赘述。

本申请实施例还从实体装置的角度介绍了一种服务器，具体详见下述实施例。

本申请实施例提供了一种服务器，参照图9，图9所示的服务器1100包括：处理器1101和存储器1103。其中，处理器1101和存储器1103相连，如通过总线1102相连。可选地，服务器1100还可以包括收发器1104。需要说明的是，实际应用中收发器1104不限于一个，该服务器1100的结构并不构成对本申请实施例的限定。

处理器1101可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器1101也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线1102可包括一通路，在上述组件之间传送信息。总线1102可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线1102可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1103可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器1103用于存储执行本申请方案的应用程序代码，并由处理器1101来控制执行。处理器1101用于执行存储器1103中存储的应用程序代码，以实现前述方法实施例所示的内容。图9示出的服务器仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种网络通道破解方法，其特征在于，包括：

获取加密隧道对应的加密流量；

基于所述加密流量确定目标应用；

确定所述目标应用对应的先验字典；

基于所述专用密码字典破解所述加密流量对应的密文。

2.根据权利要求1所述的方法，其特征在于，所述基于所述加密流量确定目标应用，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述先验字典以及所述第一密码字典得到专用密码字典，包括：

基于所述先验字典并通过马尔科夫模型确定第二密码字典；

4.根据权利要求3所述的方法，其特征在于，训练所述目标应用对应的生成式对抗网络模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

若满足更新条件，则更新所述专用密码字典；

其中，所述更新专用密码字典包括：

更新所述先验字典得到更新后的先验字典；

6.根据权利要求5所述的方法，其特征在于，更新所述先验字典得到更新后的先验字典，包括：

7.根据权利要求6所述的方法，其特征在于，所述更新条件包括以下任一项：

获取到所述有效密钥且达到预设检测时间；

8.一种网络通道破解装置，其特征在于，包括：

获取模块，用于获取加密隧道对应的加密流量；

分析模块，用于基于所述加密流量确定目标应用；

匹配模块，用于确定所述目标应用对应的先验字典；

9.一种服务器，其特征在于，该服务器包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行权利要求1-7任一项所述网络通道破解的方法。

10.一种计算机可读存储介质，其特征在于，包括：存储有能够被处理器加载并执行如权利要求1至7中任一种网络通道破解方法的计算机程序。