CN111464525B

CN111464525B - 一种会话识别方法、装置、控制设备及存储介质

Info

Publication number: CN111464525B
Application number: CN202010236116.0A
Authority: CN
Inventors: 任家西; 何东静; 赵洪亮
Original assignee: Nsfocus Technologies Inc; Nsfocus Technologies Group Co Ltd
Current assignee: Nsfocus Technologies Inc; Nsfocus Technologies Group Co Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2022-06-07
Anticipated expiration: 2040-03-30
Also published as: CN111464525A

Abstract

本申请公开一种会话识别方法、装置、控制设备及存储介质，用于识别经过混淆插件混淆后的Tor流量。包括：获取第一报文，第一报文的报文类型为应用数据子协议类型；确定第一报文对应的第一会话的会话类型，会话类型包括第一会话类型和第二会话类型，第一会话类型中会话被识别为混淆处理会话的概率高于第二会话类型中的会话被识别为混淆处理会话的概率；若第一会话的会话类型为第一会话类型，统计第一会话的流量特征信息，流量特征信息表征第一会话在预设时间点的总报文数、疑似混淆处理会话对应的特征报文出现次数、报文长度分布情况信息；若确定流量特征信息中的至少一个流量特征信息的数值超过对应的第一阈值，确定第一会话为混淆处理会话。

Description

一种会话识别方法、装置、控制设备及存储介质

技术领域

本申请涉及通信技术领域，尤其涉及一种会话识别方法、装置、控制设备及存储介质。

背景技术

洋葱路由器(The Onion Router，TOR/Tor)是一种为用户提供匿名通信服务，帮助用户匿名上网、保护用户隐私的工具。基于Tor的隐匿性、难以溯源追踪的特点，部分用户利用Tor来进行黑客攻击、毒品交易等非法活动，因此，越来越多的国家、机构和单位将Tor纳入重点审查对象。而Tor社区为了绕过审计识别，陆续加入了多款流量混淆插件，目前在用的主流混淆插件中包括了meek插件，其依赖内容分发网络(Content delivery network，CDN)提供的域名前置中转资源流量的技术来绕过识别：meek插件对Tor流量进行了二次安全套接层(Secure Socket Layer，SSL)/安全传输层(Transport Layer Security，TLS)加密，将包裹后的SSL/TLS流量发送给CDN前置机，再由前置机“中继”给位于CDN中的meek节点，继而接入Tor网络。

现有技术中，对Tor网络以及Tor流量的识别和审计，主要是借助IP、Port黑名单模式识别各接入节点来实现：通过对各中继节点、桥节点的探测、枚举和识别，进行持续的屏蔽和跟踪，以实现IP层级的阻断。然而，从流量观测者的角度来看，其流量表象与普通用户访问CDN所产生的流量并无二致，两者与CDN平台均产生了实际的交互流量。因此，基于IP、Port黑名单或服务器名称标识(Server Name Indication，SNI)匹配的阻断方法，会误阻断大量访问CDN资源的非Tor流量。

因此，目前经过混淆插件混淆后的Tor流量缺乏有效的识别方法。

发明内容

本申请提供一种会话识别方法、装置、控制设备及存储介质，用于识别经过混淆插件混淆后的Tor流量。

第一方面，提供了一种会话识别方法，所述方法包括：

获取第一报文，所述第一报文的报文类型为应用数据子协议类型；

确定所述第一报文对应的第一会话的会话类型，所述会话类型包括第一会话类型和第二会话类型，所述第一会话类型中的会话被识别为混淆处理会话的概率高于所述第二会话类型中的会话被识别为混淆处理会话的概率；

在确定所述第一会话的会话类型为所述第一会话类型时，统计所述第一会话的流量特征信息，所述流量特征信息包括所述第一会话在预设时间点的总报文数、疑似混淆处理会话对应的特征报文出现次数以及报文长度分布情况信息；

若确定所述流量特征信息中的至少一个流量特征信息的数值超过对应的第一阈值，确定所述第一会话为所述混淆处理会话。

在一种可能的设计中，所述获取所述第一报文之前，所述方法还包括：

获取第二报文，所述第二报文用于初始化所述第一会话的上下文状态；

若所述第二报文中包括目标服务器的名称标识和/或所述目标服务器的证书标识信息，则为所述第一会话添加疑似标记，所述疑似标记用于指示所述第一会话被识别为所述混淆处理会话的概率高于或等于预设阈值。

在一种可能的设计中，确定所述第一报文对应的第一会话的会话类型，包括：

判断所述第一会话是否包括所述疑似标记；

在所述第一会话包括所述疑似标记时，确定所述第一会话为所述第一会话类型；

在所述第一会话不包括所述疑似标记时，确定所述第一会话为所述第二会话类型。

在一种可能的设计中，若所述流量特征信息中的所有流量特征信息的数值均未超过对应的所述第一阈值，所述方法还包括：

对所述流量特征信息中各个流量特征信息的数值进行加权计算，获得所述各个流量特征信息的数值的加权值；

根据所述加权值，计算所述第一会话为混淆处理会话的识别概率；

若所述识别概率超过第二阈值，则确定所述第一会话为混淆处理会话。

在一种可能的设计中，所述方法还包括：

若所述识别概率未超过所述第二阈值，则重新统计所述第一会话的流量特征信息，并根据重新统计的流量特征信息确定所述第一会话是否为混淆处理会话。

第二方面，提供一种会话识别装置，所述装置包括：

获取模块，获取第一报文，所述第一报文的报文类型为应用数据子协议类型；

第一确定模块，确定所述第一报文对应的第一会话的会话类型，所述会话类型包括第一会话类型和第二会话类型，所述第一会话类型中的会话被识别为混淆处理会话的概率高于所述第二会话类型中的会话被识别为混淆处理会话的概率；

统计模块，在确定所述第一会话的会话类型为所述第一会话类型时，统计所述第一会话的流量特征信息，所述流量特征信息包括所述第一会话在预设时间点的总报文数、疑似混淆处理会话对应的特征报文出现次数以及报文长度分布情况信息；

第二确定模块，若确定所述流量特征信息中的至少一个流量特征信息的数值超过对应的第一阈值，确定所述第一会话为所述混淆处理会话。

在一种可能的设计中，所述装置还包括标记模块，所述标记模块用于：

若所述第二报文中包括目标服务器的名称标识和/或所述目标服务器的证书标识信息，为所述第一会话添加疑似标记，所述疑似标记用于指示所述第一会话被识别为所述混淆处理会话的概率高于或等于预设阈值。

在一种可能的设计中，所述第一确定模块具体用于：

判断所述第一会话是否包括所述疑似标记；

在一种可能的设计中，所述标记模块具体用于：

在所述流量特征信息中的所有流量特征信息的数值均未超过对应的所述第一阈值时，对所述流量特征信息中各个流量特征信息的数值进行加权计算，获得所述各个流量特征信息的数值的加权值；

在一种可能的设计中，所述统计模块还用于：

在所述识别概率未超过所述第二阈值时，重新统计所述第一会话的流量特征信息，并根据重新统计的流量特征信息确定所述第一会话是否为混淆处理会话。

第三方面，提供了一种控制设备，所述控制设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述各方面中的会话识别方法包括的步骤。

第四方面，提供了一种存储介质，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行上述各方面中的会话识别方法包括的步骤。

本申请实施例至少具有以下技术效果：

在本申请实施例中，可以获取会话过程中的第一报文，该第一报文为应用数据子协议类型的报文，并确定对第一报文的对应的第一会话的会话类型；进而可以在第一会话类型为被混淆处理会话概率较高的第一会话类型时，统计第一会话相关的流量特征信息，从而可以在统计的流量特征信息中的至少一个流量特征信息的数值超过对应的第一阈值时，确定第一会话为混淆处理会话，例如，meek会话。也就是说，可以根据统计的第一会话的至少一个流量特征信息与对应的第一阈值的比较结果，识别出匿名通信过程中经过混淆插件混淆过后的Tor流量，即可以识别出混淆处理会话，如meek会话，进而可以实现对匿名通信流量的监督，避免非法用户使用匿名通信技术实施非法或犯罪行为，提升网络安全性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

图1为本申请实施例提供的应用场景的示意图；

图2a为本申请实施例提供的会话识别方法的流程图；

图2b为本申请实施例提供的另一种会话识别方法的流程图；

图3a为本申请实施例提供的会话识别装置的结构示意图；

图3b为本申请实施例提供的会话识别装置的另一结构示意图；

图4为本申请实施例提供的控制设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请中的“多个”可以表示至少两个，例如可以是两个、三个或者更多个，本申请实施例不做限制。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，在不做特别说明的情况下，一般表示前后关联对象是一种“或”的关系。

如前文所述，现有技术中在针对meek等混淆插件混淆后的Tor流量进行识别时，由于Tor混淆插件流量的表象与普通用户访问CDN所产生的流量大致一样，两者与CDN平台均产生了实际的交互流量。若仍借助IP、Port黑名单或SNI的识别模式，则会误阻断大量访问CDN资源的非Tor流量，影响正常通信；但若不对混淆插件流量进行排除、识别，则可能造成非法分子利用混淆插件在网络上实行非法或犯罪行为，给网络安全造成巨大的威胁。所以，现有技术对经过混淆插件混淆后的Tor流量缺乏有效的识别方法。

鉴于此，本申请的发明人提供了一种会话识别方案。在该方案中，可以先获得会话过程中(即匿名通信过程中)产生的第一报文，该第一报文为应用数据子协议类型的报文，确定对第一报文的对应的第一会话的会话类型；进而可以在第一会话类型为被混淆处理会话概率较高的第一会话类型时，统计第一会话相关的流量特征信息，例如，所述第一会话在预设时间点的总报文数、疑似混淆处理会话对应的特征报文出现次数以及报文长度分布情况信息，从而可以在统计的流量特征信息中的至少一个流量特征信息的数值超过对应的第一阈值时，确定第一会话为混淆处理会话，例如，meek会话。从而，可以识别出匿名通信过程中经过混淆插件混淆过后的Tor流量，即可以识别出混淆处理会话，如meek会话，以实现对匿名通信流量的监督，避免非法用户使用匿名通信技术实施非法或犯罪行为，提升网络安全性。

为了更好的理解本公开实施例，下面对本公开实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本公开实施例而非限定。在具体实施过程中，可以根据实际需要灵活地应用本公开实施例提供的技术方案。

请参考图1，为本申请实施例的一种应用场景图。在该应用场景中包括第一设备101和第二设备102，其中，第一设备101可以是智能手机、平板电脑、计算机等可用于网络通信，浏览网页的终端，图1中以第一设备为计算机为例进行示出；第二设备102可以是一台或者多台服务器。

第一设备101可以通过一台或者多台路由器，以及Tor网桥组成的Tor网络实现与第二设备102的匿名通信。举例说明，当第一设备101通过Tor网络对第二设备102进行访问时，第一设备101需要安装并运行洋葱代理(onion proxy，OP)，获得Tor节点列表，进而OP可以根据自身的访问策略和Tor节点状态选择入口节点，中间节点和出节点，进而在这三个节点之间建立层层加密的匿名通信链路，最终达到第二设备102。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。

请参考图2a，为本申请实施例提供的一种会话识别方法的流程图，该方法可以应用于图1所示的应用场景中，下面对该方法的具体实施流程进行描述。

步骤201：获取第一报文，该第一报文的报文类型为应用数据子协议类型。

在本申请实施例中，第一报文可以是如图1所示的第一设备101和第二设备102匿名通信过程中产生的应用数据子协议类型的报文。第一报文可以是一个报文，也可以是由若干报文组成的报文集合。其中，第一报文的报文类型为应用数据子协议类型，即图1所示的第一设备101和第二设备102已经建立好会话。

在本申请实施例中，当使用混淆插件对Tor流量进行混淆处理时，混淆插件客户端通常需要借助其他服务器进行流量中转或绕过，即对客户端产生的流量进行伪装，但混淆插件产生的流量的服务器名称标识中可能包含有借助的用于伪装的服务器的名称标识和/或证书标识信息，因此，当会话产生的流量中包含混淆插件用于伪装的服务器的名称标识和/或证书标识信息时，则可以认为这个会话可能是混淆会话。

因此，请参见图2b，在获取第一报文之前，可以从待进行识别的会话中获取第二报文，该第二报文可以用于初始化会话的上下文状态，例如，可以获取图1所示的第一设备101和第二设备102之间处于正在建立会话还未建立好会话阶段时对应的报文，换言之，第二报文可以为握手子协议类型的报文，进而可以确定第二报文中是否包括有目标服务器的名称标识和/或该目标服务器的第一证书标识信息，若包括目标服务器的名称标识和/或该目标服务器的第一证书标识信息，则可以判断出基于第二报文创建的第一会话为疑似混淆处理会话，并为疑似混淆处理的会话添加疑似标记，该疑似标记用于指示第一会话被识别为混淆处理会话的概率高于或等于预设阈值。其中，目标服务器是混淆插件对Tor流量进行混淆处理时所利用的服务器。

换言之，本申请实施例中，可以获取第一会话初始阶段的报文，即获取第二报文，进而可以根据第二报文中目标服务器的名称标识和/或该目标服务器的证书标识信息，对基于第二报文创建的第一会话进行初步筛选，以便于过滤掉待识别的会话中的干扰会话流量，缩小了待处理报文集合的大小，从而可以在一定程度上提高识别精度。

举例说明，第二会话报文可以是获取的SSL会话和/或TLS会话建立通信的初始阶段产生的握手报文，第一报文则可以是对基于第二报文创建的第一会话添加了疑似标记之后获得与第一会话相关的SSL报文和/或TLS报文。

这样，可以过滤掉大部分干扰流量，减轻识别负担，从而提高识别效率。并且，经过多次判断的结果来确定第一会话是否为混淆处理会话，还可以提高对混淆处理会话的识别准确度。

步骤202：确定第一报文对应的第一会话的会话类型，该会话类型包括第一会话类型和第二会话类型，第一会话类型中的会话被识别为混淆处理会话的概率高于第二会话类型中的会话被识别为混淆处理会话的概率。

本申请实施例中当第一报文指代多个报文时，该多个报文可以是同一会话产生的报文，也可以是多个会话产生的报文，也就是说，第一报文对应的第一会话可能包括多个会话，在此并不做具体限制。

在本申请实施例中，获取的第一报文对应的第一会话可能添加了疑似标记，也可能未添加有疑似标记，因此，在确定第一报文对应的第一会话的会话类型时，可以通过判断第一会话是否包括有疑似标记来确定第一会话的会话类型，若第一会话包括疑似标记，则可以确定第一会话为第一会话类型，若第一会话中未包括疑似标记，则可以确定第一会话为第二会话类型。

其中，第一会话类型可以是疑似混淆处理会话类型，即会话过程中的Tor会话流量可能经过伪装处理，例如，疑似meek会话，该会话对应的报文可能是经过meek混淆插件处理后的报文，需要进一步判断该会话的会话类型；第二会话类型可以是普通会话类型，对应的报文属于普通SSL/TLS会话报文，可以继续走普通SSL和/或TLS流量解析处理流程。因此，可以实现对获取的报文中干扰报文的初步筛选，减少待处理报文的数量。

步骤203：在确定第一会话的会话类型为第一会话类型时，统计第一会话的流量特征信息，该流量特征信息包括第一会话在预设时间点的总报文数、疑似混淆处理会话对应的特征报文出现次数以及报文长度分布情况信息。

本申请实施例中，如前文所述，在确定第一会话的会话类型为第一会话类型时，表明第一会话的会话类型为疑似混淆处理会话，需要进一步判断第一会话是否为混淆处理会话。这样，通过多次判断来确定第一会话是否为混淆处理会话，可以增加判断结果的准确性。

进一步地，由于普通会话流量和进行伪装处理后的会话流量所呈现流量特征属性存在一定差异，本申请实施例中可以根据第一会话流量所呈现出的至少一个流量特征信息来确定第一会话的会话类型。其中，第一会话的流量特征信息可以是第一会话在预设时间统计的总报文数，疑似混淆处理会话对应的特征报文出现次数以及报文长度分布情况信息等；其中，报文长度分布情况信息可以理解为在预设时间第一会话对应的所有报文的长度分布统计信息。

例如，以获取的流量特征信息为报文长度分布统计信息为例，假设有第一会话进行五分钟后，共有10条报文。其中，前5条报文的长度小于后5条的报文长度。这10条报文的长度情况可以理解为第一会话进行五分钟时报文长度分布情况信息。

在具体的实践过程中，可以对被确定为疑似混淆处理会话类型的第一会话中任意一个或者多个时间点的流量特征信息进行统计，获得每个时间点对应的至少一个流量特征信息，进而可以判断对每个时间点统计得到的至少一个流量特征信息的数值是否超过第一阈值，从而确定第一会话是否为混淆处理会话类型，也就是说，可以根据被确定为疑似混淆处理会话的第一会话的某个时间点统计的流量特征信息来进一步判断第一会话是否为混淆处理会话。

举例说明，假设被确定为疑似混淆处理会话第一会话为疑似meek会话为例，在进一步确定疑似meek会话是否为meek会话时，可以统计疑似meek会话中多个时间点的单会话报文数，疑似混淆处理会话对应的特征报文出现次数，报文长度分布情况信息，进而判断第一会话是否为meek会话。换言之，可以针对疑似meek会话其特有的单会话模式特点，根据其呈现的流量特征采用被动模式进行检测，可显著降低识别系统的算力消耗。并且，可以对第一会话的多个时间点统计的流量特征信息采用相互独立的预设阈值，从而降低模型各参数之间的线性相关性，提高针对性，以提高识别的准确度。

步骤204：若确定流量特征信息中的至少一个流量特征信息的数值超过对应的第一阈值，确定第一会话为混淆处理会话。

在本申请实施例中，第一会话过程的任意时间点可以对第一会话的流量特征信息进行统计，其中，统计的流量特征信息可以是预设时间点的第一会话产生的总报文数、疑似混淆处理会话对应的特征报文出现次数以及报文长度分布情况信息。

当统计的流量特征信息中任一流量特征信息的数值超过第一阈值，则表明第一会话为混淆处理会话，可以为第一会话打上混淆处理会话的标记。

具体的，若对第一会话中的M种流量特征信息进行统计时，可以根据下述公式(1)来确定第一会话是否为混淆处理会话，例如，meek会话。

其中，A_i为第一会话的第i种流量特征信息的统计结果；α_i为第一会话的第i种流量特征信息对应的判断阈值，即第一会话的M种流量特征信息都分别对应不同的判断阈值。

作为一种可选的实施方式，在本申请实施例中，请继续参见图2b，若确定所有流量特征信息的数值均未超过对应的第一阈值，即按照前述公式(1)无法判断被确定为第一会话类型的第一会话为混淆处理会话时，还可以按照下述方式进一步判断第一会话是否为混淆处理会话，避免遗漏判断混淆处理会话，从而提高识别准确性，进而提高网络的安全性。

具体的，可以统计第一会话在某一时间点的各种流量特征信息，并对流量特征信息的统计结果进行加权计算，进而可以按照下述公式(2)中的sigmoid函数对加权计算后的值进行映射，继而可以输出识别概率，以判断第一会话被确定为混淆处理会话的可能性。若按照公式(2)计算出的识别概率超过第二阈值，即大于或等于第二阈值，则可以确定第一会话为混淆处理会话。

其中：W_i为第一会话的第i种流量特征信息的权重系数；A_i为第一会话的第i种流量特征信息的统计结果；β为加权决策的第二阈值；M为流量特征信息种类数；A₁为采用公式(1)时对第一会话的报文数的统计结果；γ为第一会话报文数统计结果在公式(2)中的有效阈值；λ为计算系数。

举例说明，以统计预设时间点M种流量特征信息为例，来说明计算第一会话中各流量特征信息的加权计算值的具体步骤。

第一步，利用在第一会话中统计到的客户端到服务器端方向的报文的长度序列，即图1中第一设备101到第二设备102方向的报文的长度序列，构造特征长度关联矩阵。

具体的，可以先确定该类型流量的特征长度L_γ(特征模式1的典型长度值)和L_δ(特征模式2的典型长度值)。确定该会话中客户端到服务器端方向的报文数量v(即矩阵的维度)，构造一个v×v的关联度矩阵Q。对关联度矩阵Q的任意元素Q_ij，其取值按下述公式(3)计算：

其中，Q_ij为第一会话中第i个客户端到服务器端方向请求与第j个客户端到服务器端方向请求之间的长度特征关联度；θ为关联度修正系数；L_i为第i个客户端到服务器端方向请求的报文长度；L_j为第j个客户端到服务器端方向请求的报文长度；L_δ为特征模式1对应的报文的特征长度；L_γ为特征模式2对应的报文的特征长度。

第二步，根据第一步中构造的关联度矩阵，计算该矩阵的特征值(λ_i,i∈[0,c])及其对应的特征向量(ξ_i,i∈[0,c])。

第三步，根据第二步中计算出的特征值按照下述公式(4)，计算每个关联矩阵特征向量的加权系数：

其中，W_2i为第一会话的第2种流量特征信息的第i个关联特征加权系数；λ_i为前述构建的关联矩阵的第i个特征值。

第四步，根据第二步中计算出的特征向量按照下述公式(5)计算平均关联度：

其中，A_2i为第2种流量特征信息的第i个关联特征度；ξ_ij为关联矩阵的第i个特征向量的第j个元素的值；v为关联矩阵的维度；

第五步，根据上述结果，按下述公式(6)计算第2种流量特征信息的关联矩阵加权值：

其中，W₂为第2种流量特征信息的关联特征权重；A₂为第2种流量特征信息的关联特征度；λ_i为关联矩阵的第i个特征值；ξ_ik为关联矩阵的第i个特征向量的第k个元素的值；v为关联矩阵的维度。

进一步地，在本申请实施例中，若按照上述公式(2)计算得到的对第一会话的识别概率未超过第二阈值，即无法确定第一会话是否为混淆处理会话时，可以重新统计第一会话的流量特征信息，并在重新统计的流量特征后，按照前述方法重新确定第一会话是否为混淆处理会话，避免遗漏确定混淆处理会话，提高对混淆处理会话的识别率。

可选的，在本申请实施例中，在确定第一会话为混淆处理会话之后，可以为第一会话添加上混淆处理会话的标签，以便后续对混淆处理会话进行进一步处理，如提示，告警等等。

所以，通过上述方法，可以获取会话过程中(即匿名通信过程中)产生的第一报文，该第一报文为应用数据子协议类型的报文，确定对第一报文的对应的第一会话的会话类型；进而可以在第一会话类型为被混淆处理会话概率较高的第一会话类型时，统计第一会话相关的流量特征信息，从而可以在统计的流量特征信息中的任意一个或者多个流量特征信息的数值超过对应的第一阈值时，确定第一会话为混淆处理会话。从而可以识别出匿名通信过程中经过混淆插件混淆过后的Tor流量，即可以识别出混淆处理会话，如meek会话，以实现对匿名通信流量的监督，避免非法用户使用匿名通信技术实施非法或犯罪行为，提升网络安全性。

基于同一发明构思，本申请实施例还提供了一种会话识别装置，该会话识别装置可以是硬件结构、软件模块、或硬件结构加软件模块。该会话识别装置可以由芯片系统实现，芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。请参见图3a所示，本申请实施例中的会话识别装置包括获取模块301、第一确定模块302、统计模块303和第二确定模块304。其中：

获取模块301，获取第一报文，所述第一报文的报文类型为应用数据子协议类型；

第一确定模块302，确定所述第一报文对应的第一会话的会话类型，所述会话类型包括第一会话类型和第二会话类型，所述第一会话类型中的会话被识别为混淆处理会话的概率高于所述第二会话类型中的会话被识别为混淆处理会话的概率；

统计模块303，在确定所述第一会话的会话类型为所述第一会话类型时，统计所述第一会话的至少一个流量特征信息，所述流量特征信息包括所述第一会话在预设时间点的总报文数、疑似混淆处理会话对应的特征报文出现次数以及报文长度分布情况信息；

第二确定模块304，若确定所述流量特征信息中的至少一个流量特征信息的数值超过对应的第一阈值，确定所述第一会话为所述混淆处理会话。

在一种可选的实施方式中，如图3b所示的会话识别装置，还包括标记模块305，该标记模块305用于：

在一种可选的实施方式中，第一确定模块302具体用于：

判断所述第一会话是否包括所述疑似标记；

在一种可选的实施方式中，图3b所示的标记模块305具体用于：

在所述所有流量特征信息的数值均未超过对应的所述第一阈值时，对所述流量特征信息中各个流量特征信息的数值进行加权计算，获得所述各个流量特征信息的数值的加权值；

根据所述加权值计算对所述第一会话为混淆处理会话的识别概率；

在一种可选的实施方式中，统计模块303还用于：

在所述识别概率未超过所述第二阈值时，重新统计所述第一会话的流量特征信息，并根据重新统计的流量特征信息确定所述第一会话是否混淆处理会话。

关于上述实施例中的会话识别装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本公开各个实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

基于同一发明构思，本申请实施例还提供一种控制设备，如图4所示，本申请实施例中的控制设备包括至少一个处理器401，以及与至少一个处理器401连接的存储器402和通信接口403，本申请实施例中不限定处理器401与存储器402之间的具体连接介质，图4中是以处理器401和存储器402之间通过总线400连接为例，总线400在图4中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线400可以分为地址总线、数据总线、控制总线等，为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

在本申请实施例中，存储器402存储有可被至少一个处理器401执行的指令，至少一个处理器401通过执行存储器402存储的指令，可以执行前述的会话识别方法中所包括的步骤。

其中，处理器401是控制设备的控制中心，可以利用各种接口和线路连接整个控制设备的各个部分，通过运行或执行存储在存储器402内的指令以及调用存储在存储器402内的数据，计算设备的各种功能和处理数据，从而对计算设备进行整体监控。可选的，处理器401可包括一个或多个处理单元，处理器401可集成应用处理器和调制解调处理器，其中，处理器401主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。在一些实施例中，处理器401和存储器402可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器401可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器402作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器402可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器402是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器402还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

通信接口403是能够用于进行通信的传输接口，可以通过通信接口403接收数据或者发送数据。会话识别装置可以通过通信接口403接收多出服务器或客户端发送的数据。

基于同一发明构思，本申请实施例还提供一种存储介质，该存储介质存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行如前述的会话识别方法的步骤。

在一些可能的实施方式中，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种会话识别方法，其特征在于，所述方法包括：

若确定所述流量特征信息中的至少一个流量特征信息的数值超过对应的第一阈值，确定所述第一会话为所述混淆处理会话；

若所述流量特征信息中的所有流量特征信息的数值均未超过对应的所述第一阈值，对所述流量特征信息中各个流量特征信息的数值进行加权计算，获得所述各个流量特征信息的数值的加权值；根据所述加权值，计算所述第一会话为混淆处理会话的识别概率；若所述识别概率超过第二阈值，则确定所述第一会话为混淆处理会话。

2.如权利要求1所述的方法，其特征在于，所述获取第一报文之前，所述方法还包括：

3.如权利要求2所述的方法，其特征在于，确定所述第一报文对应的第一会话的会话类型，包括：

判断所述第一会话是否包括所述疑似标记；

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

5.一种会话识别装置，其特征在于，所述装置包括：

第二确定模块，若确定所述流量特征信息中的至少一个流量特征信息的数值超过对应的第一阈值，确定所述第一会话为所述混淆处理会话；

标记模块，用于在所述流量特征信息中的所有流量特征信息的数值均未超过对应的所述第一阈值时，对所述流量特征信息中各个流量特征信息的数值进行加权计算，获得所述各个流量特征信息的数值的加权值；根据所述加权值，计算所述第一会话为混淆处理会话的识别概率；若所述识别概率超过第二阈值，则确定所述第一会话为混淆处理会话。

6.如权利要求5所述的装置，其特征在于，所述标记模块还用于：

7.如权利要求6所述的装置，其特征在于，所述第一确定模块具体用于：

判断所述第一会话是否包括所述疑似标记；

8.一种控制设备，其特征在于，包括至少一个处理器、以及至少一个存储器，其中，所述存储器存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行权利要求1-4任一项所述方法的步骤。

9.一种存储介质，其特征在于，所述存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1-4任一项所述方法的步骤。