CN115051850A

CN115051850A - 一种全球暗网威胁线索智能检测方法及检测系统

Info

Publication number: CN115051850A
Application number: CN202210641303.6A
Authority: CN
Inventors: 庞文俊; 陈继; 周瑞双; 李小超
Original assignee: Qingchuang Wangyu Hefei Technology Co ltd
Current assignee: Qingchuang Wangyu Hefei Technology Co ltd
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-09-13

Abstract

本发明涉及暗网站点智能检测，具体涉及一种全球暗网威胁线索智能检测方法及检测系统，探测全球暗网活跃站点，对探测到的信息源进行处理，构建活跃站点信息源数据库；通过同时连接、动态调度和切换节点，实现访问行为的混淆，并通过单节点多实例并发采集数据，实现暗网数据规模化采集；对暗网数据进行数据处理，使用深度神经网络模型对输入文本进行检测，判定是否为威胁线索；本发明提供的技术方案能够有效克服现有技术所存在的规模化采集暗网数据存在较大困难、无法对暗网数据进行准确检测以得到威胁线索的缺陷。

Description

一种全球暗网威胁线索智能检测方法及检测系统

技术领域

本发明涉及暗网站点智能检测，具体涉及一种全球暗网威胁线索智能检测方法及检测系统。

背景技术

Tor、I2P、ZeroNet等暗网具有匿名反追踪、分布式反审查等特点，存在大量威胁公共安全、金融安全、信息安全的线索，发现暗网信息源，并对威胁线索进行智能检测，对防范上述风险具有重要价值。

利用明网爬虫和暗网爬虫技术探测暗网站点、采集暗网数据是目前主流的暗网站点探测与采集方法。但是，由于Tor、I2P、ZeroNet等暗网采用分布式、多跳路由技术，使得暗网站点具有分散性、生命周期短、网络带宽非常小等特点，造成爬虫探测效率低下，规模化采集暗网数据困难。针对此问题，本发明提出了基于中继节点流量分析的站点探测技术、互联网公开信息的站点汇集技术、暗网站内信息与即时通讯信息的站点检测技术的暗网站点探测与暗网活跃站点信息源数据库构建方法，为暗网威胁线索的检测提供有效支撑。

目前，针对暗网线索挖掘主要通过搭建各类暗网网站模型，根据关键字提取所需暗网线索。但是，由于暗网数据具有类型多样、语言种类非常多、中文信息占比较少的特点，目前的暗网线索挖掘方法难以准确检测所需暗网线索。针对暗网数据的特点，本发明提供了一种应用多语言自动翻译，结合自动翻译与复杂文本识别技术、深度神经网络等新技术检测威胁线索的方法，并通过在线主动学习提升威胁线索的检测效果。

发明内容

(一)解决的技术问题

针对现有技术所存在的上述缺点，本发明提供了一种全球暗网威胁线索智能检测方法及检测系统，能够有效克服现有技术所存在的规模化采集暗网数据存在较大困难、无法对暗网数据进行准确检测以得到威胁线索的缺陷。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种全球暗网威胁线索智能检测方法，包括以下步骤：

S1、探测全球暗网活跃站点，对探测到的信息源进行处理，构建活跃站点信息源数据库；

S2、通过同时连接、动态调度和切换节点，实现访问行为的混淆，并通过单节点多实例并发采集数据，实现暗网数据规模化采集；

S3、对暗网数据进行数据处理，使用深度神经网络模型对输入文本进行检测，判定是否为威胁线索。

优选地，S1中探测全球暗网活跃站点，包括：

在多个国家的云虚拟机布设代理节点，在代理节点中截取其访问流量，通过分析流量获取Tor暗网域名；

通过公开搜索引擎、暗网搜索引擎搜索“.onion”，从返回页面中提取Tor暗网域名；

从已采集Tor页面、Telegram群组信息中，识别和提取Tor暗网域名。

优选地，S1中探测全球暗网活跃站点，包括：

在多个国家的云虚拟机布设代理节点，在代理节点中截取其访问流量，提取其中的I2P暗网域名；

通过公开搜索引擎搜索“.i2p”，从返回结果中提取I2P暗网域名；

从已采集I2P页面、Telegram群组信息中，识别和提取I2P暗网域名。

优选地，S1中探测全球暗网活跃站点，包括：

通过在多个国家布设的代理节点，对ZeorNet网站进行漫爬扩展采集，通过站点之间的关联进行扩展，从而实现信息源探测，通过分析流量获取ZeorNet暗网域名；

通过公开搜索引擎搜索“zeronet”，从返回页面中提取ZeroNet暗网域名；

从已采集ZeroNet页面、Telegram群组信息中，识别和提取ZeroNet暗网域名。

优选地，S1中对探测到的信息源进行处理，构建活跃站点信息源数据库，包括：

对探测到的暗网信息源进行整理、去重、存活性验证，并计算站点语种、站点活跃度、情报线索标签、业务相关度，探索关联国家及地区的分析，从而构建形成活跃站点信息源数据库。

优选地，S2中通过同时连接、动态调度和切换节点，实现访问行为的混淆，并通过单节点多实例并发采集数据，实现暗网数据规模化采集，包括：

对于Tor暗网站点：

进行存活性验证，并根据站点活跃度、业务相关度进行采集调度，排列站点采集优先级；

针对网络带宽小的问题，采用单节点多实例并发技术，同时连接多个节点，实现大流量访问；

针对站点类型多的问题，对站点进行定向、慢爬、元搜索的综合采集，下载页面并抽取页面内容。

对于I2P暗网站点：

针对网络带宽小的问题，对客户端进行修改，利用单节点多实例并发技术，通过同时连接多个节点来扩大采集带宽；

针对站点类型多的问题，结合定向采集与慢爬采集，下载页面并抽取页面内容。

对于ZeorNet暗网站点：

采用慢爬采集优先的采集方式，根据站点活跃度、业务相关度、站点语种选择种子站点，进行慢爬采集；

对客户端进行修改，使其支持单节点多实例并发访问，提升采集效率；

针对ZeorNet暗网站点均为动态组装的特点，通过socket读取数据并动态组装为页面，再抽取页面内容。

优选地，S3中对暗网数据进行数据处理，使用深度神经网络模型对输入文本进行检测，判定是否为威胁线索，包括：

对暗网数据进行自动化语言翻译、自动降噪处理、结构化处理；

使用递归神经网络RNN识别短文本中的威胁线索，根据短文本中的词序关系、不同词的依赖和贡献程度的不同，给出输入文本属于威胁线索的概率；

使用图卷积神经网络GCN识别长文本中的威胁线索，在文本量化的基础上使用卷积神经网络构建端到端的判别模型，自动抽取文本特征，给出输入文本属于威胁线索的概率；

还包括以下步骤：

S4、对深度神经网络模型的输出结果进行检验，主动选择重要样本进行反馈，利用反馈样本对深度神经网络模型进行增量式学习。

一种全球暗网威胁线索智能检测系统，包括信息源数据库构建模块、数据规模化采集存储模块和威胁线索检测单元；

信息源数据库构建模块，探测全球暗网活跃站点，对探测到的信息源进行处理，构建活跃站点信息源数据库；

数据规模化采集存储模块，通过同时连接、动态调度和切换节点，实现访问行为的混淆，并通过单节点多实例并发采集数据，实现暗网数据规模化采集，同时对采集的暗网数据进行存储；

威胁线索检测单元，对暗网数据进行数据处理，使用深度神经网络模型对输入文本进行检测，判定是否为威胁线索；

其中，威胁线索检测单元包括训练模块和检测模块，所述检测模块对输入文本进行分词翻译并抽取文本特征，利用检测器基于文本特征进行威胁线索检测，收集用户关于威胁线索检测结果的反馈信息，并生成检测器下一轮训练所需的新训练样本；

所述训练模块以检测模块生成的新训练样本作为训练样本，对训练样本进行分词翻译并抽取文本特征，利用文本特征及对应已知结果对检测器进行训练。

(三)有益效果

与现有技术相比，本发明所提供的一种全球暗网威胁线索智能检测方法及检测系统，具有以下有益效果：

1)暗网站点探测方面，综合基于中继节点流量分析的站点探测技术、互联网公开信息的站点汇集技术、暗网站内信息与即时通讯信息的站点检测技术，针对实际应用中的难点，有效解决暗网站点非常分散、生命周期短，难以动态发现等问题，实现全面高效地暗网信息源探测；

2)暗网数据采集方面，通过同时连接、动态调度和切换多个节点，实现访问行为的混淆，并通过单节点多实例并发采集数据，扩大了采集带宽，解决了大规模暗网访问行为容易被第三方侦测到的问题，从而能够进行暗网大规模安全访问，实现了实用级的暗网数据访问和规模化采集；

3)暗网线索检测方面，应用多语言自动翻译，结合自动翻译与复杂文本识别技术、深度神经网络等新技术，解决页面结构化分析、社交复杂文本识别困难等问题，并通过在线主动学习提升威胁线索的检测效果，使得威胁线索检测具有较高的实用价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的示意图；

图2为本发明中构建活跃站点信息源数据库的流程示意图；

图3为本发明中暗网数据规模化采集的流程示意图；

图4为本发明中威胁线索检测的流程示意图；

图5为本发明中通过在线主动学习提升威胁线索检测效果的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种全球暗网威胁线索智能检测方法，如图1和图2所示，①探测全球暗网活跃站点，对探测到的信息源进行处理，构建活跃站点信息源数据库。

1)a、探测全球暗网活跃站点，包括：

在多个国家的云虚拟机布设代理节点，在代理节点中截取其访问流量，通过分析流量获取Tor暗网域名(即服务地址)；

通过Google等公开搜索引擎、Torch等暗网搜索引擎搜索“.onion”，从返回页面中提取Tor暗网域名；

从已采集(定向或慢爬)Tor页面、Telegram群组信息中，识别和提取Tor暗网域名。

b、探测全球暗网活跃站点，包括：

在多个国家的云虚拟机布设代理节点，在代理节点中截取其访问流量，提取其中的I2P暗网域名(即服务地址)；

通过Google等公开搜索引擎搜索“.i2p”，从返回结果中提取I2P暗网域名；

从已采集(定向或慢爬)I2P页面、Telegram群组信息中，识别和提取I2P暗网域名。

c、探测全球暗网活跃站点，包括：

通过在多个国家布设的代理节点，对ZeorNet网站进行漫爬扩展采集，通过站点之间的关联进行扩展，从而实现信息源探测，通过分析流量获取ZeorNet暗网域名(即服务地址)；

通过Google等公开搜索引擎搜索“zeronet”，从返回页面中提取ZeroNet暗网域名；

2)对探测到的信息源进行处理，构建活跃站点信息源数据库，包括：

对探测到的Tor、I2P、ZeorNet暗网信息源进行整理、去重、存活性验证，并计算站点语种、站点活跃度、情报线索标签、业务相关度，探索关联国家及地区的分析，从而构建形成活跃站点信息源数据库。

如图1和图3所示，②通过同时连接、动态调度和切换节点，实现访问行为的混淆，并通过单节点多实例并发采集数据，实现暗网数据规模化采集。

有规律的大规模暗网访问行为可能被第三方侦测，因此通过同时连接、动态调度和切换多个节点，实现访问行为的混淆，并通过单节点多实例并发技术，扩大采集带宽，实现暗网数据的规模化访问与采集。

a、通过同时连接、动态调度和切换节点，实现访问行为的混淆，并通过单节点多实例并发采集数据，实现暗网数据规模化采集，包括：

对于Tor暗网站点：

b、通过同时连接、动态调度和切换节点，实现访问行为的混淆，并通过单节点多实例并发采集数据，实现暗网数据规模化采集，包括：

对于I2P暗网站点：

c、通过同时连接、动态调度和切换节点，实现访问行为的混淆，并通过单节点多实例并发采集数据，实现暗网数据规模化采集，包括：

对于ZeorNet暗网站点：

如图1和图4所示，③对暗网数据进行数据处理，使用深度神经网络模型对输入文本进行检测，判定是否为威胁线索，具体包括：

使用递归神经网络RNN识别短文本中的威胁线索，根据短文本中的词序关系、不同词的依赖和贡献程度的不同，给出输入文本属于威胁线索的概率(递归神经网络RNN可将前后词语、上下文关联起来，通过不同词在句子中的权重、词间关联关系，将短文本映射为威胁线索标签)；

使用图卷积神经网络GCN识别长文本中的威胁线索，在文本量化的基础上使用卷积神经网络构建端到端的判别模型，自动抽取文本特征，给出输入文本属于威胁线索的概率。

暗网数据的类型多样、语言种类非常多、中文信息占比较少，无法直接进行威胁线索检测。本申请技术方案中，首先对暗网数据进行自动化语言翻译、自动降噪处理、结构化处理，再使用深度神经网络模型对输入文本进行检测，输出是否为威胁线索。

如图1和图5所示，还包括以下步骤：

④对深度神经网络模型的输出结果进行检验，主动选择重要样本进行反馈，利用反馈样本对深度神经网络模型进行增量式学习。

威胁线索检测主要有以下难点：多语种、表达不规范、暗语表达、口语分词准确率较低、语义演变快、噪声极高、线索与非线索信息量极不均衡。在这种情况下，要实现准确检测暗网数据以得到威胁线索，关键需要深度神经网络模型在线运行过程中进行主动学习。

因此，需要对深度神经网络模型的输出结果进行检验，主动选择重要样本进行反馈，利用反馈样本重新学习以提升威胁线索检测效果，高频次的重新学习需要采用高效的学习算法，即增量式学习。

一种全球暗网威胁线索智能检测系统，如图1所示，包括信息源数据库构建模块、数据规模化采集存储模块和威胁线索检测单元；

威胁线索检测单元，对暗网数据进行数据处理，使用深度神经网络模型对输入文本进行检测，判定是否为威胁线索。

其中，威胁线索检测单元包括训练模块和检测模块：

检测模块对输入文本进行分词翻译并抽取文本特征，利用检测器基于文本特征进行威胁线索检测，收集用户关于威胁线索检测结果的反馈信息(用户获得检测结果后给出肯定或否定意见)，并生成检测器下一轮训练所需的新训练样本；

训练模块以检测模块生成的新训练样本(反馈样本)作为训练样本，对训练样本进行分词翻译并抽取文本特征，利用文本特征及对应已知结果对检测器进行训练。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种全球暗网威胁线索智能检测方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的全球暗网威胁线索智能检测方法，其特征在于：S1中探测全球暗网活跃站点，包括：

3.根据权利要求1所述的全球暗网威胁线索智能检测方法，其特征在于：S1中探测全球暗网活跃站点，包括：

4.根据权利要求1所述的全球暗网威胁线索智能检测方法，其特征在于：S1中探测全球暗网活跃站点，包括：

5.根据权利要求2-4中任意一项所述的全球暗网威胁线索智能检测方法，其特征在于：S1中对探测到的信息源进行处理，构建活跃站点信息源数据库，包括：

6.根据权利要求5所述的全球暗网威胁线索智能检测方法，其特征在于：S2中通过同时连接、动态调度和切换节点，实现访问行为的混淆，并通过单节点多实例并发采集数据，实现暗网数据规模化采集，包括：

对于Tor暗网站点：

7.根据权利要求5所述的全球暗网威胁线索智能检测方法，其特征在于：S2中通过同时连接、动态调度和切换节点，实现访问行为的混淆，并通过单节点多实例并发采集数据，实现暗网数据规模化采集，包括：

对于I2P暗网站点：

8.根据权利要求5所述的全球暗网威胁线索智能检测方法，其特征在于：S2中通过同时连接、动态调度和切换节点，实现访问行为的混淆，并通过单节点多实例并发采集数据，实现暗网数据规模化采集，包括：

对于ZeorNet暗网站点：

9.根据权利要求1所述的全球暗网威胁线索智能检测方法，其特征在于：S3中对暗网数据进行数据处理，使用深度神经网络模型对输入文本进行检测，判定是否为威胁线索，包括：

还包括以下步骤：

10.一种基于权利要求9所述的全球暗网威胁线索智能检测方法的检测系统，其特征在于：包括信息源数据库构建模块、数据规模化采集存储模块和威胁线索检测单元；