CN114915434A

CN114915434A - 一种网络代理检测方法、装置、存储介质及计算机设备

Info

Publication number: CN114915434A
Application number: CN202110180036.2A
Authority: CN
Inventors: 刘永钢; 董志强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2022-08-16

Abstract

本申请公开一种网络代理检测方法、装置、存储介质及计算机设备；本申请与人工智能的机器学习领域相关，本申请获取目标网络中的网络流量；对网络流量进行解析及匹配处理，以获取与待检测网络代理相匹配的多个目标访出流量，以及目标访出流量待访问的业务域名信息；基于设定业务域名信息与设定业务类别的映射关系进行类别查询，得到业务域名信息对应的业务类别；对待检测网络代理的所有目标访出流量对应的业务类别进行类别整合，以得到待检测网络代理的目标业务类别、以及目标业务类别的类别访问信息和类别相似信息；基于目标业务类别的类别访问信息和类别相似信息，对待检测网络代理进行异常检测，得到待检测网络代理的检测结果。

Description

一种网络代理检测方法、装置、存储介质及计算机设备

技术领域

本申请涉及网络领域，具体涉及一种网络代理检测方法、装置、存储介质及计算机设备。

背景技术

随着通信技术的发展，可以将网络代理服务引入数据传输过程，从而有效提升数据传输效率，但是在实际应用过程中，除了正规的网络代理服务，还存在非法的网络代理服务，非法的网络代理服务可能会给业务服务提供商带来安全以及合规等问题，因此，需要对网络中的非法网络代理服务进行检测，现有技术中，可以通过检测网络流量中的Socks协议(一种网络传输协议)、HTTP Connect方法等关键特征，来确定网络代理服务，进而确定非法的网络代理服务。

在对现有技术的研究和实践过程中，本申请的发明人发现，随着流量加密和流量伪装技术的发展，无法再通过检测网络流量中关键特征的方式确定网络代理服务，也难以确定非法的网络代理服务，导致极大的网络安全风险。

发明内容

本申请实施例提供一种网络代理检测方法、装置、存储介质及计算机设备，可以对目标网络中的网络代理进行检测，确定非法的网络代理服务，从而有效提升网络安全性。

本申请实施例提供一种网络代理检测方法，包括：

获取目标网络中的网络流量；

对所述网络流量进行解析及匹配处理，以获取与待检测网络代理相匹配的多个目标访出流量，以及所述目标访出流量待访问的业务域名信息；

基于设定业务域名信息与设定业务类别的映射关系进行类别查询，得到所述业务域名信息对应的业务类别；

对所述待检测网络代理的所有目标访出流量对应的业务类别进行类别整合，以得到所述待检测网络代理的目标业务类别、以及所述目标业务类别的类别访问信息和类别相似信息；

基于所述目标业务类别的类别访问信息和类别相似信息，对所述待检测网络代理进行异常检测，得到所述待检测网络代理的检测结果。

相应地，本申请提供一种网络代理检测装置，包括：

获取模块，用于获取目标网络中的网络流量；

解析模块，用于对所述网络流量进行解析及匹配处理，以获取与待检测网络代理相匹配的多个目标访出流量，以及所述目标访出流量待访问的业务域名信息；

类别确定模块，用于基于设定业务域名信息与设定业务类别的映射关系进行类别查询，得到所述业务域名信息对应的业务类别；

目标确定模块，用于对所述待检测网络代理的所有目标访出流量对应的业务类别进行类别整合，以得到所述待检测网络代理的目标业务类别、以及所述目标业务类别的类别访问信息和类别相似信息；

结果确定模块，用于基于所述目标业务类别的类别访问信息和类别相似信息，对确定所述待检测网络代理进行异常检测，得到所述待检测网络代理的检测结果。

在一些实施例中，目标确定模块包括：

类别整合子模块，用于对所述待检测网络代理的所有目标访出流量对应的业务类别进行类别整合，得到所述待检测网络代理的目标业务类别、以及所述目标业务类别的访问数量；

数量处理子模块，用于对所述目标业务类别的访问数量进行数量处理，得到所述目标业务类别的类别访问信息；

查询子模块，用于查询所述目标业务类别的类别相似信息。

在一些实施例中，访问确定子模块具体用于：

对所述目标业务类别的访问数量进行域名访问量归一化处理，生成所述目标业务类别的类别访问信息。

在一些实施例中，结果确定模块具体用于：

基于所述目标业务类别的类别访问信息和类别相似信息进行离散计算处理，得到所述待检测网络代理的访问行为度量；

当所述访问行为度量大于预设阈值时，确定所述待检测网络代理的检测结果。

在一些实施例中，网络代理检测装置还包括：

内容获取模块，用于获取设定业务域名信息对应的业务内容；

分析模块，用于对所述业务内容进行类别分析，得到所述设定业务域名信息对应的设定业务类别，以构建目标数据集，所述目标数据集包括设定业务域名信息与设定业务类别之间的映射关系。

在一些实施例中，网络代理检测装置还包括：

基准配置模块，用于从多个设定业务类别中确定业务基准类别，并为所述业务基准类型配置类别相似基准信息；

分配模块，用于根据待分配业务类别与所述业务基准类别之间的差异信息、以及所述类别相似基准信息，为所述待分配业务类别分配类别相似信息。

在一些实施例中，结果确定模块具体用于：

调用目标数据集的类别查询接口，所述目标数据集包括设定业务域名信息与设定业务类别的映射关系；

通过所述类别查询接口获取所述映射关系，根据所述映射关系进行类别查询，得到每一业务域名信息所属的业务类别。

在一些实施例中，解析模块包括解析子模块和获取子模块，其中，

解析子模块，用于对所述网络流量进行流量解析，得到所述网络流量对应的代理地址、流量进出类型和协议信息；

检测子模块，用于基于所述网络流量对应的代理地址、流量进出类型和协议信息进行流量检测，得到与待检测网络代理相匹配的多个目标访出流量、以及每一目标访出流量待访问的业务域名信息。

在一些实施例中，获取子模块包括确定单元、筛选单元和还原单元，其中，

确定单元，用于当所述网络流量对应的代理地址与目标代理地址相匹配时，确定所述网络流量为候选网络流量，所述目标代理地址与所述待检测网络代理对应；

查找单元，用于根据所述候选网络流量的流量进出类型和协议信息，从所有候选网络流量中查找出多个目标访出流量；

还原单元，用于对所述目标访出流量进行数据还原，得到所述目标访出流量待访问的业务域名信息。

在一些实施例中，筛选单元具体用于：

当所述候选网络流量的流量进出类型为目标类型，且所述候选网络流量的协议信息为目标协议时，确定所述候选网络流量为目标访出流量，以从所有候选网络流量中查找出多个目标访出流量。

在一些实施例中，还原单元具体用于：

当所述目标访出流量的协议信息为第一目标协议时，对所述目标访出流量进行数据还原，提取所述目标访出流量的请求数据；

从所述请求数据中，获取所述目标访出流量待访问的业务域名信息。

在一些实施例中，还原单元具体用于：

当所述目标访出流量的协议信息为第二目标协议时，对所述目标访出流量进行数据还原，得到所述目标访出流量的连接校验数据；

基于所述连接校验数据，确定所述目标访出流量待访问的业务域名信息。

相应的，本申请实施例还提供了一种存储介质，存储介质存储有计算机程序，计算机程序适于处理器进行加载，以执行本申请实施例提供的任一种网络代理检测方法。

相应的，本申请实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现本申请实施例提供的任一种网络代理检测方法。

本申请可以获取目标网络中的网络流量；对网络流量进行解析及匹配处理，以获取与待检测网络代理相匹配的多个目标访出流量，以及目标访出流量待访问的业务域名信息；基于设定业务域名信息与设定业务类别的映射关系进行类别查询，得到业务域名信息对应的业务类别；对待检测网络代理的所有目标访出流量对应的业务类别进行类别整合，以得到待检测网络代理的目标业务类别、以及目标业务类别的类别访问信息和类别相似信息；基于目标业务类别的类别访问信息和类别相似信息，对待检测网络代理进行异常检测，得到待检测网络代理的检测结果。

本申请可以通过解析网络流量，确定与待检测的网络代理相匹配的目标访出流量，然后根据目标访出流量对应的业务类别进行分析，得到待检测网络代理的目标业务类别、以及目标业务类别的类别访问信息和类别相似信息，进而确定待检测网络代理的检测结果，实现了对目标网络中网络代理的检测，可以确定非法的网络代理服务，从而有效提升网络安全性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的网络代理检测系统的场景示意图；

图2是本申请实施例提供的网络代理检测方法的流程示意图；

图3是本申请实施例提供的网络代理检测方法的内容示意图；

图4是本申请实施例提供的网络代理检测方法的数据示意图；

图5是本申请实施例提供的网络代理检测方法的交互示意图；

图6是本申请实施例提供的网络代理检测方法的另一数据示意图；

图7是本申请实施例提供的网络代理检测方法的另一数据示意图；

图8是本申请实施例提供的网络代理检测方法的另一流程示意图；

图9是本申请实施例提供的网络代理检测方法的实施示意图；

图10是本申请实施例提供的网络代理检测装置的结构示意图；

图11是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，本申请所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请中，确定待校测网络代理的目标业务类别、以及目标业务类别的类别访问信息和类别相似信息；确定待检测网络代理的检测结果等，可以通过人工智能的机器学习领域的相关技术实现，比如，可以通过检测网络模型输出待检测网络代理的检测解结果，等等。

本申请的网络代理检测方法可以集成在网络代理检测装置中，该网络代理检测装置可以集成在一个或多个计算机设备中，该计算机设备可以包括终端或服务器等，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

参见图1，网络代理检测系统可以包括网络代理检测装置，网络代理检测装置可以集成在检测服务器，具体地，检测服务器可以获取目标网络中的网络流量，对网络流量进行解析及匹配处理，以获取与待检测网络代理相匹配的多个目标访出流量，以及目标访出流量待访问的业务域名信息，再基于设定业务域名信息与设定业务类别的映射关系进行类别查询，得到业务域名信息对应的业务类别；对待检测网络代理的所有目标访出流量对应的业务类别进行类别整合，以得到待检测网络代理的目标业务类别、以及目标业务类别的类别访问信息和类别相似信息；基于目标业务类别的类别访问信息和类别相似信息，对待检测网络代理进行异常检测，得到待检测网络代理的检测结果。

需要说明的是，图1所示的网络代理检测系统的场景示意图仅仅是一个示例，本申请实施例描述的网络代理检测系统以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着网络代理检测装置的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

以下分别进行详细说明。在本实施例中，将对网络代理检测方法进行详细描述，该网络代理检测方法可以集成在服务器上，如图2所示，图2是本申请实施例提供的网络代理检测方法的流程示意图。该网络代理检测方法可以包括：

101、获取目标网络中的网络流量。

其中，目标网络可以包括互联网中具有特定作用范围的网络，根据作用范围的大小，目标网络可以包括局域网、或广域网等，目标网路中可以包括若干计算机设备，计算机设备可以包括业务服务提供设备和业务服务使用设备，在业务服务提供设备(如网页服务器)和业务服务使用设备(如客户端)之间，目标网络内还可以包括网络代理设备，网络代理设备可以提供网络代理服务，网络代理设备可以作为业务服务使用设备与业务服务提供设备之间的桥梁，可以存储数据、转发消息等。

其中，网络流量可以包括目标网络中计算机设备之间传输的数据帧。

本申请中，获取目标网络中的网络流量的方式可以包括多种，比如，镜像、网络流量复制等方式，获取到的网络流量可以包括目标网络中的网络流量副本、网络流量镜像文件等。

102、对网络流量进行解析及匹配处理，以获取与待检测网络代理相匹配的多个目标访出流量，以及目标访出流量待访问的业务域名信息。

目标网络中可以存在多个计算机设备。网络流量可以包括计算机设备之间传输的数据帧，本申请的目的是网络代理检测，因此需要首先从所有的网络流量中筛选出与待检测网络代理匹配的目标访出流量。

其中，待检测网络代理可以包括目标网络中的至少一个网络代理设备，即本申请可以对目标网络中的部分或全部网络代理设备进行检测，确定其检测结果，待检测网络代理数量的确定可以灵活设置，比如，可以基于实际需求、或计算机设备的数据处理能力等灵活确定。

其中，目标访出流量可以包括待检测网络代理发出且基于特定协议信息的数据帧，业务域名信息可以包括目标访出流量所指示的待访问业务的域名信息。

网络流量可以包括，将待传输的数据基于不同层的协议进行层层封装后得到的数据帧，因此，对网络流量的解析可以包括，基于封装过程中所采用的协议，对数据帧进行层层解析，协议不同，解析方式也会有所不同，具体可以在实际应用时灵活处理

比如，通过流量复制的方式获取目标网络W中的网络流量，然后对网络流量进行解析和匹配处理，从而确定其中与待检测网络代理1相匹配的多个目标访出流量，以及每个目标访出流量待访问的业务域名信息。

在一些实施例中，步骤“对网络流量进行解析及匹配处理，以获取与待检测网络代理相匹配的多个目标访出流量，以及目标访出流量待访问的业务域名信息”可以包括：

对网络流量进行流量解析，得到网络流量对应的代理地址、流量进出类型和协议信息；基于网络流量对应的代理地址、流量进出类型和协议信息进行流量检测，得到与待检测网络代理相匹配的多个目标访出流量、以及每一目标访出流量待访问的业务域名信息。

具体地，对网络流量进行解析，可以得到网络流量的代理地址、流量进出类型以及遵循的协议信息等内容，其中，代理地址可以包括发出网络流量的网络代理设备的地址信息，代理地址可以包括网络代理设备的逻辑地址或物理地址等，比如，逻辑地址可以包括互联网协议地址(IP地址，Internet Protocol Address)。

其中，流量进出类型可以包括网络流量相对于待检测网络代理的访出或访入类型，则流量进出类型可以包括访出类型以及访入类型等，协议信息可以包括网络流量在不同层采用的协议，比如，网络流量所采用的应用层协议(如请求-响应协议)等。

具体地，可以基于深度包检测技术进行流量解析和检测，得到网络流量中的三次握手信息，确定网络流量的代理地址以及流量进出类型等内容，可以通过分析网络流量中的数据格式等内容，确定网络流量的协议信息。

基于网络流量对应的代理地址、流量进出类型和协议信息确定与待检测网络代理匹配的目标访出流量，即可保存目标访出流量，以进行进一步的分析和处理，保存可以直接进行数据保存，也可以进行格式化处理后再保存，格式化处理可以为便于进数据保存而采用的步骤。

具体地，确定目标访出流量可以比如，当网络流量的代理地址、流量进出类型以及协议信息中的至少一个数据满足预设要求时，即可确定该网络流量为目标访出流量。

比如，可以通过深度包检测技术检测网络流量的代理地址1、流量进出类型1和协议信息1，然后基于深度包检测技术捕获基于网络流量的代理地址1、流量进出类型1和协议信息1确定的多个目标访出流量、以及每一个目标访出流量对应的业务域名信息。

在一些实施例中，步骤“基于网络流量对应的代理地址、流量进出类型和协议信息进行流量检测，得到与待检测网络代理相匹配的多个目标访出流量、以及每一目标访出流量待访问的业务域名信息”可以包括：

当网络流量对应的代理地址与目标代理地址相匹配时，确定网络流量为候选网络流量，目标代理地址与待检测网络代理对应；根据候选网络流量的流量进出类型和协议信息，从所有候选网络流量中查找出多个目标访出流量；对目标访出流量进行数据还原，得到目标访出流量待访问的业务域名信息。

其中，目标代理地址可以包括待检测网络代理对应的地址，候选网络流量可以包括与待检测网络代理相关的流量，具体地，当网络流量对应的代理地址与目标代理地址相匹配时，即该网络流量为与待检测网络代理相关的流量，可确定该网络流量为候选网络流量。

然后，可以对所有候选网络流量进行筛选，从中查找出目标访出流量，筛选可以基于候选网络流量的流量进出类型和协议信息进行，比如，当流量进出类型和协议信息满足预设对应关系，则确定该候选网络流量为目标访出流量。

其中，业务域名信息可以包括待访问的业务的地址信息，业务域名信息可以通过对目标访出流量进行还原得到，目标访出流量所使用的协议不同，可以通过不用的还原方式确定业务域名信息。

比如，待检测网络代理1对应目标代理地址X，当网络流量对应的代理地址与目标代理地址X相同时，即可确定该网络流量为候选网络流量，对所有网络流量执行上述操作，可确定目标网络中的所有候选网络流量，接着可以每一候选网络流量对应的流量进出类型和协议信息，从所有候选网络流量中得到目标访出流量，并对每一目标访出流量进行还原，得到每一目标访出流量对应的业务域名信息。

在一些实施例中，步骤“根据候选网络流量的流量进出类型和协议信息，从所有候选网络流量中查找出多个目标访出流量”可以包括：

当候选网络流量的流量进出类型为目标类型，且候选网络流量的协议信息为目标协议时，确定候选网络流量为目标访出流量，以从所有候选网络流量中查找出多个目标访出流量。

其中，目标类型可以包括至少一个类型，目标协议可以包括至少一个协议。

比如，目标访出流量对应的目标类型为访出类型，解析得到的流量进出类型包括访入类型和访出类型，目标访出流量对应目标协议1，则当候选网络流量对应访出类型和目标协议1时，即可确定该候选网络流量为目标访出流量，对每一候选网络类型进行上述筛查过程，即可从所有候选网络流量中确定多个目标访出流量。

在一些实施例中，步骤“对目标访出流量进行数据还原，得到目标访出流量待访问的业务域名信息”可以包括：

当目标访出流量的协议信息为第一目标协议时，对目标访出流量进行数据还原，提取目标访出流量的请求数据；从请求数据中，获取目标访出流量待访问的业务域名信息。

当网络流量的协议信息不同时，得到业务域名信息的方式也会有所差异，比如，第一目标协议可以包括超文本传输协议(HTTP，Hypertext Transfer Protocol)，可以对目标访出流量基于HTTP的请求报文进行解析还原，参见图3，HTTP的请求报文可以包括请求行、请求头以及请求体，请求报文中的请求头中通常包括将要访问的业务的域名信息，比如，请求头中host字段通常描述的为要访问的目标网站的域名。

因此，可以提取目标访出流量中的请求数据，再从请求数据中获取待待访问的业务域名信息。

比如，目标访出流量1基于HTTP协议，则可以对目标访出流量1进行还原，得到请求报文信息(参见图4)，并从请求报文信息中确定请求数据(参见图中的第一行POST/chapter17/user.html HTTP/1.1)，再从请求数据中得到业务域名信息1(比如图中的业务域名信息为/chapter17/user.html)。

当目标访出流量的协议信息为第二目标协议时，对目标访出流量进行数据还原，得到目标访出流量的连接校验数据；基于连接校验数据，确定目标访出流量待访问的业务域名信息。

比如，第二目标协议可以包括超文本传输安全协议(HTTPS，Hyper Text TransferProtocol over SecureSocket Layer)，HTTPS可以应用加密协议进行传输，比如，加密协议可以为安全传输层协议(TLS，Transport Layer Security)，基于HTTPS以及加密协议传输数据前，计算机设备之间会进行握手，交换相关信息，确保可靠的数据传输，比如，参见图5，客户端与服务端之间会进行信息传输，在此过程中数据会携带服务端的业务域名信息，比如客户端在ClientHlello阶段传输的数据会携带业务域名信息。

因此，可以通过解析还原目标访出流量中握手阶段的传输的数据，以从中确定目标访出流量待访问的业务域名信息。

比如，可以解析还原目标访出流量中的连接校验数据(如图6中第一行，连接校验数据为Handshake Protocol为ClientHlello下的数据，即图中内容),然后从连接校验数据中查找目标访出流量待访问的业务域名信息(如图7中，ClientHlello的数据中server_name字段内可以查询到业务域名信息tls13.cryto.mozilla.org)。

103、基于设定业务域名信息与设定业务类别的映射关系进行类别查询，得到业务域名信息对应的业务类别。

其中，设定业务域名信息与设定业务类别的映射关系可以预先确定，映射关系可以包括多组设定业务域名信息与设定业务类别之间关系。

具体地，可以从映射关系的设定业务域名信息中，查询与业务域名信息相同的目标设定域名信息，然后查找该目标设定域名信息对应的目标设定业务类别，该目标设定业务类别即为业务域名信息对应的业务类别。

比如，从映射关系集Y中，查找与业务域名信息1相同的目标设定业务域名信息1，确定该目标设定业务域名信息1对应的目标设定业务类别1，确定该目标设定业务类别1为业务域名信息1对应的业务类别。

在一些实施例中，步骤“基于设定业务域名信息与设定业务类别的映射关系进行类别查询，得到业务域名信息对应的业务类别”可以包括：

调用目标数据集的类别查询接口，目标数据集包括设定业务域名信息与设定业务类别的映射关系；通过类别查询接口获取映射关系，根据映射关系进行类别查询，得到每一业务域名信息所属的业务类别。

映射关系可以保存在数据库中，为了高效便捷地确定业务域名信息对应的业务类别，可以通过业务查询接口快速获取数据库中的映射关系，再根据映射关系确定业务域名信息对应的业务类别。

本申请也可以通过类别查询接口直接查询业务域名信息所属的业务类别。

在一些实施例中，网络代理检测方法还包括：

获取设定业务域名信息对应的业务内容；对业务内容进行类别分析，得到设定业务域名信息对应的设定业务类别，以构建目标数据集，目标数据集包括设定业务域名信息与设定业务类别之间的映射关系。

其中，业务内容可以包括基于业务域名信息进行访问可以得到的内容，业务内容可以以文本、图像或视频等形式展现，对业务内容进行分析，可以通过人工智能技术构建并训练内容分析模型，并通过训练好的内容分析模型确定业务内容所属的业务类别，即确定业务域名信息对应的业务类别；对业务内容进行分析，也可以

对每一设定业务域名信息进行上述操作，可以得到包含设定业务域名信息与设定业务类别之间的映射关系的目标数据集。

比如，设定业务域名信息1包括域名地址1，访问该域名地址1可以得到设定域名信息1对应的业务内容Q，通过训练后的类别确定模型L确定业务内容Q对应的设定业务类别1，以构建目标数据集，目标数据集可以包括多组设定业务域名信息与设定业务之间的映射关系。

104、对待检测网络代理的所有目标访出流量对应的业务类别进行类别整合，以得到待检测网络代理的目标业务类别、以及目标业务类别的类别访问信息和类别相似信息。

其中，目标业务类别可以包括待检测网络代理的目标访出流量对应的所有业务类别，类别访问信息可以包括待检测网络代理传输的该目标业务类别的信息与其传输的所有目标类别的信息中的比重信息，类别相似信息可以包括该目标业务类别与其他业务类别的相似程度。

具体地，待检测网络代理的目标访出流量可以有很多，每一个目标访出流量对应一个业务类别，不同的目标访出流量对应的业务类别可以相同，为了更好获取待检测网络代理所传输的数据内容，可以整合所有目标访出流量对应的业务类别，得到待检测网络代理的所传输的信息的目标业务类别及其相关信息(如类别访问信息和类别相似信息)，通过待检测网络代理对应的目标业务类别及其相关信息，实现对待检测网络代理的检测。

在一些实施例中，步骤“根据待检测网络代理的所有目标访出流量对应的业务类别，确定待检测网络代理的目标业务类别、以及目标业务类别的类别访问信息和类别相似信息”可以包括：

对待检测网络代理的所有目标访出流量对应的业务类别进行类别整合，得到待检测网络代理的目标业务类别、以及目标业务类别的访问数量；对目标业务类别的访问数量进行数量处理，得到目标业务类别的类别访问信息；查询目标业务类别的类别相似信息。

比如，待检测网络代理包括多个目标访出流量，每一目标访出流量对应一个业务类别，不同目标访出流量可以对应相同的业务类别，统计可得所有目标访出流量对应10个业务类别，这10个业务类别即为目标业务类别，统计每一目标业务类别对应的目标访出流量的数量，即为目标业务类别的访问数量。

根据所有目标业务类别对应的访问数据，可以确定每一个目标业务类别的类别访问信息，待检测网络代理中，目标业务类别的访问数量可能级数较大，且不同的目标业务类别的访问数量可能差异也较大，为了便于后续计算，此处可以根据所有目标业务类别的访问数量进行数量计算处理，得到每一目标业务类别的类别访问信息，具体地，可以通过标准化、归一化等方式进行计算处理。

最后，可以查询目标业务类别的类别相似信息，比如，可以从包含多个业务类别的设定类别相似信息的数据库中查询。

在一些实施例中，步骤“对目标业务类别的访问数量进行数量处理，得到目标业务类别的类别访问信息”可以包括：

对目标业务类别的访问数量进行域名访问量归一化处理，生成目标业务类别的类别访问信息。

具体地，归一化可以包括线性函数归一化、0均值标准化等方式，在实际应用场景可以灵活选择并处理，在此不做限制。

在一些实施例中，网络代理检测方法还包括：

从多个设定业务类别中确定业务基准类别，并为业务基准类型配置类别相似基准信息；根据待分配业务类别与业务基准类别之间的差异信息、以及类别相似基准信息，为待分配业务类别分配类别相似信息。

其中，业务基准类别可以包括作为参照对象的业务类别，类别相似基准信息可以包括作为参照信息的类别相似信息，业务基准类别与类别相似基准信息对应。

业务基准类别的确定方式可以包括多种，如随机抽签确定，又如根据对多个设定业务类别排序，根据排序结果确定业务基准类别等，类别相似基准信息可以代表所有类别相似信息中的最小/最大信息、中位信息、平均信息等，类别相似基准信息可以为数据、字符等形式，具体地可以在实际应用中灵活设置，比如，可以为业务基准类别配置类别相似基准信息10。

其中，差异信息可以包括待分配业务类别与业务基准类别之间的可量化的差异，差异信息的确定可以有多种方式，比如，可以由相关人员根据经验手动确定，又比如，也可以基于人工智能的自然语言处理领域的相关技术，通过自然语言处理模型，量化待你分配业务类别与业务基准类别之间的差异信息，等。

确定业务基准类别及其类别相似基准信息后，可以根据待分配业务类别与业务基准类别之间的差异信息，以业务相似基准信息为参照，为待分配业务类别分配类别相似信息。

在分配类别相似信息时，可以有多种分配原则，比如，待分配业务类别与业务基准类别之间的差异信息越小，待分配业务类别的类别相似信息与业务相似基准信息之间的差异可以也越小，具体地分配原则可以根据应用场景的实际情况灵活确定，在此不再赘述。

比如，可以从多个设定业务类别中确定业务基准类别(如财经类别)，并为财经类别配置类别相似基准信息m，根据财经类别与待分配业务类别(如娱乐类别)之间的差异值，以财经类别的类别相似基准信息m，为娱乐类别分配类别相似信息c。

105、基于目标业务类别的类别访问信息和类别相似信息，对待检测网络代理进行异常检测，得到待检测网络代理的检测结果。

其中，检测结果可以包括对待检测网络传输的信息所包含的目标业务类别分析后，确定的待检测网络可能传输的信息所属的业务类别的判断结果。

具体地，可以分别确定类别访问信息所在区间对应的访问度量值，以及类别相似信息所在区间对应的相似度量值，再通过访问度量值和相似度量值进行异常检测，得到待检测网络代理的检测结果。

比如，待检测网络代理可以包括多个目标业务类别，获取每一目标业务类别的类别访问信息和类别相似信息的计算权重，再根据计算权重对每一目标业务类别进行计算，并将每一目标业务类别的计算结果求和，求和结果即为待检测网络代理的检测结果。

在一些实施例中，步骤“基于目标业务类别的类别访问信息和类别相似信息，对待检测网络代理进行异常检测，得到待检测网络代理的检测结果”可以包括：

基于目标业务类别的类别访问信息和类别相似信息进行离散计算处理，得到待检测网络代理的访问行为度量；当访问行为度量大于预设阈值时，确定待检测网络代理的检测结果。

本实施例中，访问行为度量可以为数值形式，检测结果可以为文本、字符等更加直接的形式，访问行为度量可以通过计算标准差等方式实现。

具体地，当访问行为度量大于预设阈值时，确定待检测网络代理的检测结果为不可靠网络代理(即不安全的非法网络代理)，当访问行为度量小于预设阈值时，确定待检测网络代理的检测结果为可靠网络代理。

根据上述实施例所描述的方法，以下将举例作进一步详细说明。

本申请将以集成在计算机设备的网络代理检测系统为例，对网络代理检测方法进行介绍，如图8所示，图8是本申请实施例提供的网络代理检测方法的流程示意图。该网络代理检测方法可以包括：

201、计算机设备获取目标网络中的网络流量。

202、计算机设备对网络流量进行解析，以获取与待检测网络代理相匹配的多个目标访出流量，以及目标访出流量待访问的业务域名信息。

比如，待检测网络代理的IP地址可以为IP11，计算机设备基于深度检测技术，从目标网络中捕获待检测网络代理IP11的主动访出流量，具体可以基于挽网络流量中三次握手的信息来确定，并将主动访出流量以数据文件形式保存下来，接着从主动访出流量中，确定基于HTTP和HTTPS、且通过检查处理(检查处理的目的是筛选发现解析错误等意外情况)的目标访出流量，并根据HTTP和HTTPS，通过对应的网络流量还原方式，得到目标访出流量待访问的业务域名信息。

203、计算机设备基于设定业务域名信息与设定业务类别的映射关系，确定业务域名信息对应的业务类别。

比如，设定业务域名信息与设定业务类别的映射关系可以提前存储在数据集中，确定业务域名信息对应的业务类别，可以调用数据集的接口直接进行查询。

204、计算机设备根据待检测网络代理的所有目标访出流量对应的业务类别，确定待检测网络代理的目标业务类别、以及目标业务类别的访问数量。

比如，对待检测网络代理的所有目标访出流量进行整合统计，得到待检测网络代理的目标业务类别(类别1、类别2、类别3和类别4)，以及每一目标业务类别的访问数量(类别1为500、类别2为3000、类别3为100和类别4为2500)。

205、计算机设备对目标业务类别的访问数量进行归一化处理，生成目标业务类别的类别访问信息。

比如，通过线性函数归一化法对目标业务类别的访问数据进行归一化，得到目标业务类比的类别访问信息(类别1为0.83、类别2为1、类别3为0和类别4为0.83)。

206、计算机设备查询目标业务类别的类别相似信息。

比如，业务类别的类别相似信息可以预先存储在数据集中，可以调用数据集的相似信息查询接口，直接查询目标业务类别的类别相似信息。

207、计算机设备基于目标业务类别的类别访问信息和类别相似信息，计算待检测网络代理的访问行为度量。

比如，可以将目标业务类别的类别访问信息和类别相似信息进行加权计算，再将所有目标业务类别的加权计算结果计算标准差，得到待检测网络代理的访问行为度量。

208、计算机设备当访问行为度量与预设阈值相匹配时，确定待检测网络代理的检测结果。

比如，预设阈值可以为阈值1，当访问行为度量大于阈值1时，可以确定待检测网络代理为不可靠网络代理，当访问行为度量小于阈值1时，可以确定待检测网络代理为可靠网络代理。

参见图9，本申请可以首先确定需要分析的IP(即待检测网络代理的逻辑地址)，接着通过深度包检测技术步骤待分析IP的主动出会话流量，并对主动出会话流量的流量类型进行分析，当主动出会话流量基于http协议时，可以从主动出会话流量中的host字段中确定待访问的业务域名信息(即目标访出流量的业务域名信息)，当主动出会话流量基于https协议时，可以从主动出会话流量中的ServerName字段中确定待访问的业务域名信息(即目标访出流量的业务域名信息)。

然后对域名数据进行处理，并对域名访问量进行归一化处理(即对目标业务类别的访问数量进行归一化处理，生成目标业务类别的类别访问信息)，同时查询目标业务类别的类别相似信息，并基于归一化处理后得到的类别访问信息和类别相似信息，计算访问行为的离散值，当离散值超过阈值时，确定待检测网络代理为不可靠商业代理，当离散值不超过阈值时，确定待检测网络代理为可靠商业代理或非商业代理。

在此之前，本申请还可以预先定义域名分类(业务类别)以及域名分类的邻近性度量(类别相似信息)，并存储在数据集中，以便本方案可以确定目标访出流量的业务域名信息对应的业务类别，以及查询目标域名类别对应的类别相似信息。

为便于更好的实施本申请实施例提供的网络代理检测方法，本申请实施例还提供一种基于上述网络代理检测方法的装置。其中名词的含义与上述网络代理检测方法中相同，具体实现细节可以参考方法实施例中的说明。

如图10所示，图10本申请一实施例提供的网络代理检测装置的结构示意图，其中该网络代理检测装置可以包括获取模块301、解析模块302、类别确定模块303、目标确定模块304、以及结果确定模块305，其中，

获取模块301，用于获取目标网络中的网络流量；

解析模块302，用于对网络流量进行解析及匹配处理，以获取与待检测网络代理相匹配的多个目标访出流量，以及目标访出流量待访问的业务域名信息；

类别确定模块303，用于基于设定业务域名信息与设定业务类别的映射关系进行类别查询，得到业务域名信息对应的业务类别；

目标确定模块304，用于对待检测网络代理的所有目标访出流量对应的业务类别进行类别整合，以得到待检测网络代理的目标业务类别、以及目标业务类别的类别访问信息和类别相似信息；

结果确定模块305，用于基于目标业务类别的类别访问信息和类别相似信息，对待检测网络代理进行异常检测，得到待检测网络代理的检测结果。

在一些实施例中，目标确定模块包括：

类别整合子模块，用于对待检测网络代理的所有目标访出流量对应的业务类别进行类别整合，得到待检测网络代理的目标业务类别、以及目标业务类别的访问数量；

数量处理子模块，用于对目标业务类别的访问数量进行数量处理，得到目标业务类别的类别访问信息；

查询子模块，用于查询目标业务类别的类别相似信息。

在一些实施例中，访问确定子模块具体用于：

在一些实施例中，结果确定模块具体用于：

基于目标业务类别的类别访问信息和类别相似信息进行离散计算处理，得到待检测网络代理的访问行为度量；

当访问行为度量大于预设阈值时，确定待检测网络代理的检测结果。

在一些实施例中，网络代理检测装置还包括：

分析模块，用于对业务内容进行类别分析，得到设定业务域名信息对应的设定业务类别，以构建目标数据集，目标数据集包括设定业务域名信息与设定业务类别之间的映射关系。

在一些实施例中，网络代理检测装置还包括：

基准配置模块，用于从多个设定业务类别中确定业务基准类别，并为业务基准类型配置类别相似基准信息；

分配模块，用于根据待分配业务类别与业务基准类别之间的差异信息、以及类别相似基准信息，为待分配业务类别分配类别相似信息。

在一些实施例中，结果确定模块具体用于：

调用目标数据集的类别查询接口，目标数据集包括设定业务域名信息与设定业务类别的映射关系；

通过类别查询接口获取映射关系，根据映射关系进行类别查询，得到每一业务域名信息所属的业务类别。

解析子模块，用于对网络流量进行流量解析，得到网络流量对应的代理地址、流量进出类型和协议信息；

检测子模块，用于基于网络流量对应的代理地址、流量进出类型和协议信息进行流量检测，得到与待检测网络代理相匹配的多个目标访出流量、以及每一目标访出流量待访问的业务域名信息。

确定单元，用于当网络流量对应的代理地址与目标代理地址相匹配时，确定网络流量为候选网络流量，目标代理地址与待检测网络代理对应；

查找单元，用于根据候选网络流量的流量进出类型和协议信息，从所有候选网络流量中查找出多个目标访出流量；

还原单元，用于对目标访出流量进行数据还原，得到目标访出流量待访问的业务域名信息。

在一些实施例中，筛选单元具体用于：

在一些实施例中，还原单元具体用于：

当目标访出流量的协议信息为第一目标协议时，对目标访出流量进行数据还原，提取目标访出流量的请求数据；

从请求数据中，获取目标访出流量待访问的业务域名信息。

在一些实施例中，还原单元具体用于：

当目标访出流量的协议信息为第二目标协议时，对目标访出流量进行数据还原，得到目标访出流量的连接校验数据；

基于连接校验数据，确定目标访出流量待访问的业务域名信息。

本申请中，获取模块301获取目标网络中的网络流量，解析模块302对网络流量进行解析及匹配处理，以获取与待检测网络代理相匹配的多个目标访出流量，以及目标访出流量待访问的业务域名信息，然后类别确定模块303基于设定业务域名信息与设定业务类别的映射关系进行类别查询，得到业务域名信息对应的业务类别，目标确定模块304对待检测网络代理的所有目标访出流量对应的业务类别进行类别整合，以得到待检测网络代理的目标业务类别、以及目标业务类别的类别访问信息和类别相似信息，最后结果确定模块305基于目标业务类别的类别访问信息和类别相似信息，对待检测网络代理进行异常检测，得到待检测网络代理的检测结果。

此外，本申请实施例还提供一种计算机设备，该计算机设备可以为终端或者服务器，如图11所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图11中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户页面和应用程序等，调制解调处理器主要处理无线通讯。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取目标网络中的网络流量；对网络流量进行解析及匹配处理，以获取与待检测网络代理相匹配的多个目标访出流量，以及目标访出流量待访问的业务域名信息；基于设定业务域名信息与设定业务类别的映射关系进行类别查询，得到业务域名信息对应的业务类别；对待检测网络代理的所有目标访出流量对应的业务类别进行类别整合，以得到待检测网络代理的目标业务类别、以及目标业务类别的类别访问信息和类别相似信息；基于目标业务类别的类别访问信息和类别相似信息，对待检测网络代理进行异常检测，得到待检测网络代理的检测结果。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例还提供一种存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种网络代理检测方法中的步骤。例如，该计算机程序可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种网络代理检测方法中的步骤，因此，可以实现本申请实施例所提供的任一种网络代理检测方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种网络代理检测方法、装置、存储介质及计算机设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种网络代理检测方法，其特征在于，包括：

获取目标网络中的网络流量；

2.根据权利要求1所述的方法，其特征在于，所述对所述待检测网络代理的所有目标访出流量对应的业务类别进行类别整合，以得到所述待检测网络代理的目标业务类别、以及所述目标业务类别的类别访问信息和类别相似信息，包括：

对所述待检测网络代理的所有目标访出流量对应的业务类别进行类别整合，得到所述待检测网络代理的目标业务类别、以及所述目标业务类别的访问数量；

对所述目标业务类别的访问数量进行数量处理，得到所述目标业务类别的类别访问信息；

查询所述目标业务类别的类别相似信息。

3.根据权利要求2所述的方法，其特征在于，所述对所述目标业务类别的访问数量进行数量处理，得到所述目标业务类别的类别访问信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述目标业务类别的类别访问信息和类别相似信息，对所述待检测网络代理进行异常检测，得到所述待检测网络代理的检测结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取设定业务域名信息对应的业务内容；

对所述业务内容进行类别分析，得到所述设定业务域名信息对应的设定业务类别，以构建目标数据集，所述目标数据集包括设定业务域名信息与设定业务类别之间的映射关系。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从多个设定业务类别中确定业务基准类别，并为所述业务基准类型配置类别相似基准信息；

根据待分配业务类别与所述业务基准类别之间的差异信息、以及所述类别相似基准信息，为所述待分配业务类别分配类别相似信息。

7.根据权利要求1所述的方法，其特征在于，所述基于设定业务域名信息与设定业务类别的映射关系进行类别查询，得到所述业务域名信息对应的业务类别，包括：

8.根据权利要求1所述的方法，其特征在于，所述对所述网络流量进行解析及匹配处理，以获取与待检测网络代理相匹配的多个目标访出流量，以及所述目标访出流量待访问的业务域名信息，包括：

对所述网络流量进行流量解析，得到所述网络流量对应的代理地址、流量进出类型和协议信息；

基于所述网络流量对应的代理地址、流量进出类型和协议信息进行流量检测，得到与待检测网络代理相匹配的多个目标访出流量、以及每一目标访出流量待访问的业务域名信息。

9.根据权利要求8所述的方法，其特征在于，所述基于所述网络流量对应的代理地址、流量进出类型和协议信息进行流量检测，得到与待检测网络代理相匹配的多个目标访出流量、以及每一目标访出流量待访问的业务域名信息，包括：

当所述网络流量对应的代理地址与目标代理地址相匹配时，确定所述网络流量为候选网络流量，所述目标代理地址与所述待检测网络代理对应；

根据所述候选网络流量的流量进出类型和协议信息，从所有候选网络流量中查找出多个目标访出流量；

对所述目标访出流量进行数据还原，得到所述目标访出流量待访问的业务域名信息。

10.根据权利要求9所述的方法，其特征在于，所述根据所述候选网络流量的流量进出类型和协议信息，从所有候选网络流量中查找出多个目标访出流量，包括：

11.根据权利要求9所述的方法，其特征在于，所述对所述目标访出流量进行数据还原，得到所述目标访出流量待访问的业务域名信息，包括：

12.根据权利要求9所述的方法，其特征在于，所述对所述目标访出流量进行数据还原，得到所述目标访出流量待访问的业务域名信息，包括：

13.一种网络代理检测装置，其特征在于，包括：

获取模块，用于获取目标网络中的网络流量；

14.一种存储介质，其特征在于，所述存储介质存储有多条计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1至12任一项方法中的步骤。

15.一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1至12任一项所述方法的步骤。