CN115001861A

CN115001861A - 一种基于混合指纹特征的暗网服务异常检测方法及系统

Info

Publication number: CN115001861A
Application number: CN202210852995.9A
Authority: CN
Inventors: 刘志洁; 丁建伟; 陈周国; 孙晓晨; 张震; 沈亮; 李欣泽; 杨宇; 徐进; 李航
Original assignee: CETC 30 Research Institute; National Computer Network and Information Security Management Center
Current assignee: CETC 30 Research Institute; National Computer Network and Information Security Management Center
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-09-02
Anticipated expiration: 2042-07-20
Also published as: CN115001861B

Abstract

本发明涉及计算机网络技术领域，公开了一种基于混合指纹特征的暗网服务异常检测方法及系统，该异常检测方法，对暗网站点的流量数据和状态数据进行分析，通过分析状态数据和流量数据，提取暗网站点的单点指纹特征、话题关联的指纹特征、流量指纹信息,进行暗网服务异常检测。本发明解决了解决现有技术存在的难以对暗网站点的重要度进行整体地准确检测等问题。

Description

一种基于混合指纹特征的暗网服务异常检测方法及系统

技术领域

本发明涉及计算机网络技术领域，具体是一种基于混合指纹特征的暗网服务异常检测方法及系统。

背景技术

目前暗网站点检测（也称站点预警）基本采用两种方式，一是通过pagerank对暗网站点的重要度进行评估，二是通过关键词和nlp模型对敏感内容进行检测。前者利用站点间的网络结构进行评估，由于暗网站点的匿名性和跳转关系的稀疏性，获取的站点重要度准确率不高；后者利用站点内容进行检测，从单个站点内容出发进行检测，仅能检测具体的站点文本内容，无法对站点整体情况进行检测。

发明内容

为克服现有技术的不足，本发明提供了一种基于混合指纹特征的暗网服务异常检测方法及系统，解决现有技术存在的难以对暗网站点的重要度进行整体地准确检测等问题。

本发明解决上述问题所采用的技术方案是：

一种基于混合指纹特征的暗网服务异常检测方法，对暗网站点的流量数据和状态数据进行分析，通过分析状态数据和流量数据，提取暗网站点的单点指纹特征、话题关联的指纹特征、流量指纹信息,进行暗网服务异常检测。

作为一种优选的技术方案，包括以下步骤：

S1，数据准备：准备用于提取指纹特征的流量数据和状态数据；

S2，指纹特征提取：提取暗网服务流量数据中的单点指纹特征、话题关联的指纹特征、流量指纹特征；以及；提取暗网服务状态数据中的单点指纹特征、话题关联的指纹特征、流量指纹特征；

S3，服务异常检测：依据步骤S2提取的单点指纹特征、话题关联的指纹特征、流量指纹特征进行暗网服务异常检测。

作为一种优选的技术方案，步骤S2中，提取数据中的单点指纹特征包括以下步骤：

SA21，提取每个暗网服务的暗网数据状态特征；

SA22，分别按不同的时间间隔统计步骤SA21中的各个暗网数据状态特征的状态值；

SA23，以时间线的方式对步骤SA22中获取的状态值进行存储和输出，输出结果为三维特征方阵；其中，三维特征方阵的维度分别为状态名、时间粒度、时间点。

作为一种优选的技术方案，步骤S2中，提取数据中的话题关联的指纹特征包括以下步骤：

SB21，按话题类别区分服务的暗网数据状态特征；

SB22，提取暗网服务的关联的暗网数据状态特征；

SB23，分别按不同的时间间隔统计步骤SB21中的各个暗网数据状态特征的状态值；

SB24，以时间线的方式对步骤SB23中获取的状态值进行存储和输出，输出结果为四维特征方阵；其中，四维特征方阵的维度分别为状态名、话题名、时间粒度、时间点。

作为一种优选的技术方案，步骤S2中，提取数据中的流量指纹特征包括以下步骤：

SC21，构建暗网服务的流量指纹库；

SC22，将采集到的流量会话数据进行分类检测，计算流量会话数据的指纹特征，并判断该指纹特征是否存在于暗网服务流量指纹库；若是，则将待检测流量归类到对应的暗网服务；若否，则跳过该会话；

SC23，针对各暗网服务，统计归类到该暗网服务的流量会话个数，并分别按天、周、月统计流量会话个数；

SC24，以时间线的方式对步骤SC23中获取的流量统计值进行存储和输出，输出结果为三维特征方阵；其中，三维特征方阵的维度分别为服务名、时间粒度、时间点。

作为一种优选的技术方案，SC21包括以下步骤：

SC211，提取每条会话数据的有效载荷特征，并将有效载荷特串联后，利用md5算法生成指纹；

SC212，计算指纹在各个暗网服务会话中的簇内平均距离，以及与其他会话间的簇间平均距离；其中，其他会话指同一簇内除当前被计算指纹的暗网服务会话之外的会话；

SC213，判断是否需要存储指纹：若簇内聚合度>90%且簇间冲突度<10%，则进入步骤SC214；

SC214，将指纹存储至步骤SC211中被提取的有效载荷特征的会话数据的暗网服务流量指纹库。

作为一种优选的技术方案，步骤S3包括以下步骤：

S31，单点指纹特征异常检测：设步骤SA22一共按T个时间间隔进行统计，T个时间间隔按时间先后顺序的编号分别为1,2，...i，...，t，编号为

的时间间隔内提取的暗网服务的指纹特征值为

,构建指纹特征预测模型

，计算波动范围

，为波动范围

设置阈值，当波动范围超出阈值时，则编号为

的时间间隔的指纹特征检测为异常值；其中，指纹特征预测模型用于对编号为

的时间间隔的指纹特征值进行预估；t表示时间间隔的编号的最大值，i表示时间间隔的编号，1≤i≤t-1且i 为正整数；

S32，话题关联的指纹特征异常检测：设编号为

的时间间隔内、话题

提取的暗网服务的指纹特征值为

,构建指纹特征预测模型

，计算波动范围

，为波动范围

设置阈值，当波动范围超出阈值时，则编号为

的时间间隔、话题

的指纹特征检测为异常值；其中，指纹特征预测模型用于对

时刻的指纹特征值进行预估；

S33，流量指纹特征异常检测：设编号为

的时间间隔内、站点

提取的暗网服务的流量统计值为

,构建流量预测模型

，计算波动范围

，为波动范围

设置阈值，当波动范围超出阈值时，则编号为

的时间间隔、站点

的流量指纹特征检测为异常值；其中，流量预测模型用于对编号为

的时间间隔的流量进行预估。

作为一种优选的技术方案，步骤S1包括以下步骤：

SZ11，暗网服务状态数据采集：采集暗网服务状态数据；

SZ12，暗网服务流量数据采集：采集暗网服务流量数据，并存为Pcap文件；

SZ13，数据预处理：对服务状态数据进行转码、过滤；利用流量数据提取五元组信息和有效载荷数据。

作为一种优选的技术方案，暗网数据状态特征包括商品库存、用户量、贴文总量、评论总量中的一种或多种。

一种基于混合指纹特征的暗网服务异常检测系统，基于所述的一种基于混合指纹特征的暗网服务异常检测方法，包括依次电相连的以下模块：

数据准备模块：用以，准备用于提取指纹特征的流量数据和状态数据；

指纹特征提取模块：用以，提取暗网服务流量数据中的单点指纹特征、话题关联的指纹特征、流量指纹特征；以及；提取暗网服务状态数据中的单点指纹特征、话题关联的指纹特征、流量指纹特征；

服务异常检测模块：用以，依据步骤S2提取的单点指纹特征、话题关联的指纹特征、流量指纹特征进行暗网服务异常检测。

本发明相比于现有技术，具有以下有益效果：

（1）本发明提出一种基于混合指纹特征的暗网服务异常状态检测系统，综合利用单点指纹特征、话题关联的指纹特征、流量指纹特征三方面的特征数据，实现暗网服务异常状态检测，为相关部门决策提供异常目标支撑。

（2）本发明利用单点指纹特征融合时间粒度、状态粒度的服务状态，话题关联的指纹特征融合时间粒度、话题粒度、状态粒度的服务状态，流量指纹特征融合时间粒度、流量粒度的服务状态，解决暗网服务异常状态检测问题。

附图说明

图1为本发明所述的一种基于混合指纹特征的暗网服务异常检测方法的步骤示意图；

图2为本发明实施例的一种基于混合指纹特征的暗网服务异常检测方法的步骤示意图；

图3为单点指纹特征提取流程图；

图4为话题关联的指纹特征提取流程图；

图5为流量指纹特征提取流程图；

图6为暗网服务流量指纹库构建流程图；

图7为实施例的暗网服务异常状态检测流程图。

具体实施方式

下面结合实施例及附图，对本发明作进一步的详细说明，但本发明的实施方式不限于此。

实施例

如图1至图7所示，针对现有暗网站点预警方法的局限性，本文提出一种基于混合指纹特征的暗网服务异常状态检测方法，从暗网站点使用状态、流量特征出发，设计异常检测算法，实现暗网站点的异常情况监测与预警，为相关部门提供分析数据支撑；步骤如图1所示。

本发明对暗网站点的流量数据和库存数据进行分析，通过分析库存数据和流量数据，提取暗网站点的单点指纹特征、话题关联的指纹特征、流量指纹信息等特征，提出一种基于混合指纹特征的暗网服务异常状态检测系统，实现对暗网服务的快速检测和预警。该系统的技术架构如图2所示。

本发明共涉及7个模块，其中模块1-3为基础数据采集和预处理模块，利用通用的服务采集、流量采集手段获取数据并进行预处理；模块4-7为本发明核心保护模块，用于实现单点指纹特征、话题关联的指纹特征、流量指纹特征提取和依据混合指纹特征的异常监测。

（1）单点指纹特征提取：基于服务状态数据，提取暗网服务中的商品库存、用户量、贴文总量、评论总量等特征数据作为单点指纹特征。

（2）话题关联的指纹特征提取：基于服务状态数据，分析暗网服务中各类话题对应的商品库存、用户量、贴文总量、评论总量等特征数据作为话题关联的指纹特征。

（3）流量指纹特征提取：基于会话数据中的TLS的协议解析字段，选择包括但不限于版本、加密套件、加密算法、扩展列表等特征，生成流量指纹特征。

（4）暗网服务异常状态检测：基于单点指纹特征、话题关联的指纹特征、流量指纹特征数据，提出专用的暗网服务状态异常检测策略，使用无监督的方式从暗网服务中挖掘异常站点。

更具体地：

一、单点指纹特征提取：

暗网服务状态数据包含商品库存、商品量、用户量、贴文量、评论量、销量、交易额等站点服务状态信息，单点指纹特征指针对每个状态值，按天、周、月的形式分别进行统计，获取按天、周、月的趋势数据，具体流程如图3所示。

步骤1：为每个暗网服务提取状态值特征，具体包含商品库存、商品量、用户量、贴文量、评论量、销量、交易额等。其中商品库存根据暗网服务的发布商品获取当天的各个商品库存，假设共个商品，求和得到商品总库存；商品量为暗网服务中当前累计的商品个数；用户量为暗网服务中当前累计的用户总量；贴文量为暗网服务当前累计的贴文总量；评论量为暗网服务当前累计的评论总量；销量根据商品库存得到，设当天商品库存为,上一天商品库存为,则当天销量；当天交易额，其中为商品的单价。

步骤2：分别按天、周、月计算步骤1中的各个状态值。

步骤3：以时间线的方式对步骤2中获取的状态值进行存储和输出。输出结果为三维特征方阵，其中维度分别为状态名、时间粒度、时间点。

二、话题关联的指纹特征提取；

话题关联的指纹特征针对获取的单点指纹特征按话题进行区别分析，针对各个话题如毒品、数据、物品、色情、涉恐、涉暴等各类话题进行分别统计各状态值的天、周、月趋势，具体流程如图4所示。

步骤1：按类别区分服务状态数据，具体地，将服务中的商品、贴文、评论等内容进行话题区分，针对暗网服务，话题具体包含毒品、数据、物品、色情、涉恐、涉暴等类型，具体分类方式采用也有的文本分类模型如FastText即可。

步骤2：参考单点指纹特征提取流程，获取各个暗网服务下，各类话题的状态值，具体包含商品库存、商品量、贴文量、评论量、销量、交易额等，具体计算方式参考单点指纹特征提取公式。

步骤3：分别按天、周、月计算步骤2中的各个状态值。

步骤4：以时间线的方式对步骤3中获取的状态值进行存储和输出。输出结果为四维特征方阵，其中维度分别为状态名、话题名、时间粒度、时间点。

三、流量指纹特征提取：

设置流量指纹特征提取策略，构建指定暗网服务的流量指纹库，并基于指纹库筛选指定服务流量，基于流量统计数据检测暗网服务的异常状态。具体流程如图5所示：

步骤1：构建暗网服务的流量指纹库，具体流程如图6所示。

步骤2：将采集到的流量会话数据进行分类检测，计算流量会话数据的指纹特征，并判断该指纹特征是否存在于暗网服务流量指纹库，存在的话将待检测流量归类到对应的暗网服务，否则跳过该会话。

步骤3：针对各暗网服务，统计归类到该暗网服务的流量会话个数，并分别按天、周、月统计流量会话个数。

步骤4：以时间线的方式对步骤3中获取的流量统计值进行存储和输出。输出结果为三维特征方阵，其中维度分别为服务名、时间粒度、时间点。

四、暗网服务异常状态检测：

暗网服务状态异常检测分别检测单点指纹特征异常、话题关联的指纹特征异常、流量指纹特征异常。如图7所示。

步骤1：单点指纹特征异常检测：假设

的指纹特征值为

,构建指纹特征预测模型

，计算波动范围

，为波动范围

设置阈值，当波动范围超出阈值时，则

的指纹特征检测为异常值。其中函数

可以为任意时序预测模型，对

的指纹特征值进行预估。其中

包含为天、周、月三种粒度的数值，分别对各个时间粒度的状态值进行估计和检测。

步骤2：话题关联的指纹特征异常检测，假设

、话题

的指纹特征值为

,构建指纹特征预测模型

，计算波动范围

，为波动范围

设置阈值，当波动范围超出阈值时，则

、话题

的指纹特征检测为异常值。其中函数可以为任意时序预测模型，对

的指纹特征值进行预估。其中

包含为天、周、月三种粒度的数值，分别对各个时间粒度、各个话题的状态值进行估计和检测。

步骤3：流量指纹特征异常检测，假设

、站点

的流量统计值为

,构建流量预测模型

，计算波动范围

，为波动范围

设置阈值，当波动范围超出阈值时，则

、站点

的流量指纹特征检测为异常值。其中函数可以为任意时序预测模型，对

时刻的流量进行预估。其中

包含为天、周、月三种粒度的数值，分别对各个时间粒度、各个暗网服务的状态值进行估计和检测。

本发明具有以下有益效果和优点：

（1）提出一种基于混合指纹特征的暗网服务异常状态检测系统，综合利用单点指纹特征、话题关联的指纹特征、流量指纹特征三方面的特征数据，实现暗网服务异常状态检测，为相关部门决策提供异常目标支撑。

（2）单点指纹特征融合时间粒度、状态粒度的服务状态，话题关联的指纹特征融合时间粒度、话题粒度、状态粒度的服务状态，流量指纹特征融合时间粒度、流量粒度的服务状态，解决暗网服务异常状态检测问题。

如上所述，可较好地实现本发明。

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.一种基于混合指纹特征的暗网服务异常检测方法，其特征在于，对暗网站点的流量数据和状态数据进行分析，通过分析状态数据和流量数据，提取暗网站点的单点指纹特征、话题关联的指纹特征、流量指纹信息,进行暗网服务异常检测。

2.根据权利要求1所述的一种基于混合指纹特征的暗网服务异常检测方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的一种基于混合指纹特征的暗网服务异常检测方法，其特征在于，步骤S2中，提取数据中的单点指纹特征包括以下步骤：

SA21，提取每个暗网服务的暗网数据状态特征；

4.根据权利要求3所述的一种基于混合指纹特征的暗网服务异常检测方法，其特征在于，步骤S2中，提取数据中的话题关联的指纹特征包括以下步骤：

SB21，按话题类别区分服务的暗网数据状态特征；

SB22，提取暗网服务的关联的暗网数据状态特征；

5.根据权利要求4所述的一种基于混合指纹特征的暗网服务异常检测方法，其特征在于，步骤S2中，提取数据中的流量指纹特征包括以下步骤：

SC21，构建暗网服务的流量指纹库；

6.根据权利要求5所述的一种基于混合指纹特征的暗网服务异常检测方法，其特征在于，SC21包括以下步骤：

7.根据权利要求6所述的一种基于混合指纹特征的暗网服务异常检测方法，其特征在于，步骤S3包括以下步骤：

的时间间隔内提取的暗网服务的指纹特征值为

,构建指纹特征预测模型

，计算波动范围

，为波动范围

设置阈值，当波动范围超出阈值时，则编号为

的时间间隔的指纹特征值进行预估；t表示时间间隔的编号的最大值，i表示时间间隔的编号，1≤i≤t-1且i为正整数；

S32，话题关联的指纹特征异常检测：设编号为

的时间间隔内、话题

提取的暗网服务的指纹特征值为

,构建指纹特征预测模型

，计算波动范围

，为波动范围

设置阈值，当波动范围超出阈值时，则编号为

的时间间隔、话题

的指纹特征检测为异常值；其中，指纹特征预测模型用于对

时刻的指纹特征值进行预估；

S33，流量指纹特征异常检测：设编号为

的时间间隔内、站点

提取的暗网服务的流量统计值为

,构建流量预测模型

，计算波动范围

，为波动范围

设置阈值，当波动范围超出阈值时，则编号为

的时间间隔、站点

的时间间隔的流量进行预估。

8.根据权利要求2至7任一项所述的一种基于混合指纹特征的暗网服务异常检测方法，其特征在于，步骤S1包括以下步骤：

SZ11，暗网服务状态数据采集：采集暗网服务状态数据；

9.根据权利要求8所述的一种基于混合指纹特征的暗网服务异常检测方法，其特征在于，暗网数据状态特征包括商品库存、用户量、贴文总量、评论总量中的一种或多种。

10.一种基于混合指纹特征的暗网服务异常检测系统，其特征在于，基于权利要求2至9任一项所述的一种基于混合指纹特征的暗网服务异常检测方法，包括依次电相连的以下模块：