CN115051850A - 一种全球暗网威胁线索智能检测方法及检测系统 - Google Patents
一种全球暗网威胁线索智能检测方法及检测系统 Download PDFInfo
- Publication number
- CN115051850A CN115051850A CN202210641303.6A CN202210641303A CN115051850A CN 115051850 A CN115051850 A CN 115051850A CN 202210641303 A CN202210641303 A CN 202210641303A CN 115051850 A CN115051850 A CN 115051850A
- Authority
- CN
- China
- Prior art keywords
- threat
- data
- darknet
- dark
- site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 75
- 238000012545 processing Methods 0.000 claims abstract description 26
- 230000006399 behavior Effects 0.000 claims abstract description 20
- 238000003062 neural network model Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims description 21
- 238000005516 engineering process Methods 0.000 claims description 19
- 230000009193 crawling Effects 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 14
- 238000013519 translation Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 238000005206 flow analysis Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 241000234282 Allium Species 0.000 claims description 3
- 235000002732 Allium cepa var. cepa Nutrition 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 3
- 238000005065 mining Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及暗网站点智能检测,具体涉及一种全球暗网威胁线索智能检测方法及检测系统,探测全球暗网活跃站点,对探测到的信息源进行处理,构建活跃站点信息源数据库;通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集;对暗网数据进行数据处理,使用深度神经网络模型对输入文本进行检测,判定是否为威胁线索;本发明提供的技术方案能够有效克服现有技术所存在的规模化采集暗网数据存在较大困难、无法对暗网数据进行准确检测以得到威胁线索的缺陷。
Description
技术领域
本发明涉及暗网站点智能检测,具体涉及一种全球暗网威胁线索智能检测方法及检测系统。
背景技术
Tor、I2P、ZeroNet等暗网具有匿名反追踪、分布式反审查等特点,存在大量威胁公共安全、金融安全、信息安全的线索,发现暗网信息源,并对威胁线索进行智能检测,对防范上述风险具有重要价值。
利用明网爬虫和暗网爬虫技术探测暗网站点、采集暗网数据是目前主流的暗网站点探测与采集方法。但是,由于Tor、I2P、ZeroNet等暗网采用分布式、多跳路由技术,使得暗网站点具有分散性、生命周期短、网络带宽非常小等特点,造成爬虫探测效率低下,规模化采集暗网数据困难。针对此问题,本发明提出了基于中继节点流量分析的站点探测技术、互联网公开信息的站点汇集技术、暗网站内信息与即时通讯信息的站点检测技术的暗网站点探测与暗网活跃站点信息源数据库构建方法,为暗网威胁线索的检测提供有效支撑。
目前,针对暗网线索挖掘主要通过搭建各类暗网网站模型,根据关键字提取所需暗网线索。但是,由于暗网数据具有类型多样、语言种类非常多、中文信息占比较少的特点,目前的暗网线索挖掘方法难以准确检测所需暗网线索。针对暗网数据的特点,本发明提供了一种应用多语言自动翻译,结合自动翻译与复杂文本识别技术、深度神经网络等新技术检测威胁线索的方法,并通过在线主动学习提升威胁线索的检测效果。
发明内容
(一)解决的技术问题
针对现有技术所存在的上述缺点,本发明提供了一种全球暗网威胁线索智能检测方法及检测系统,能够有效克服现有技术所存在的规模化采集暗网数据存在较大困难、无法对暗网数据进行准确检测以得到威胁线索的缺陷。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种全球暗网威胁线索智能检测方法,包括以下步骤:
S1、探测全球暗网活跃站点,对探测到的信息源进行处理,构建活跃站点信息源数据库;
S2、通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集;
S3、对暗网数据进行数据处理,使用深度神经网络模型对输入文本进行检测,判定是否为威胁线索。
优选地,S1中探测全球暗网活跃站点,包括:
在多个国家的云虚拟机布设代理节点,在代理节点中截取其访问流量,通过分析流量获取Tor暗网域名;
通过公开搜索引擎、暗网搜索引擎搜索“.onion”,从返回页面中提取Tor暗网域名;
从已采集Tor页面、Telegram群组信息中,识别和提取Tor暗网域名。
优选地,S1中探测全球暗网活跃站点,包括:
在多个国家的云虚拟机布设代理节点,在代理节点中截取其访问流量,提取其中的I2P暗网域名;
通过公开搜索引擎搜索“.i2p”,从返回结果中提取I2P暗网域名;
从已采集I2P页面、Telegram群组信息中,识别和提取I2P暗网域名。
优选地,S1中探测全球暗网活跃站点,包括:
通过在多个国家布设的代理节点,对ZeorNet网站进行漫爬扩展采集,通过站点之间的关联进行扩展,从而实现信息源探测,通过分析流量获取ZeorNet暗网域名;
通过公开搜索引擎搜索“zeronet”,从返回页面中提取ZeroNet暗网域名;
从已采集ZeroNet页面、Telegram群组信息中,识别和提取ZeroNet暗网域名。
优选地,S1中对探测到的信息源进行处理,构建活跃站点信息源数据库,包括:
对探测到的暗网信息源进行整理、去重、存活性验证,并计算站点语种、站点活跃度、情报线索标签、业务相关度,探索关联国家及地区的分析,从而构建形成活跃站点信息源数据库。
优选地,S2中通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集,包括:
对于Tor暗网站点:
进行存活性验证,并根据站点活跃度、业务相关度进行采集调度,排列站点采集优先级;
针对网络带宽小的问题,采用单节点多实例并发技术,同时连接多个节点,实现大流量访问;
针对站点类型多的问题,对站点进行定向、慢爬、元搜索的综合采集,下载页面并抽取页面内容。
优选地,S2中通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集,包括:
对于I2P暗网站点:
进行存活性验证,并根据站点活跃度、业务相关度进行采集调度,排列站点采集优先级;
针对网络带宽小的问题,对客户端进行修改,利用单节点多实例并发技术,通过同时连接多个节点来扩大采集带宽;
针对站点类型多的问题,结合定向采集与慢爬采集,下载页面并抽取页面内容。
优选地,S2中通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集,包括:
对于ZeorNet暗网站点:
采用慢爬采集优先的采集方式,根据站点活跃度、业务相关度、站点语种选择种子站点,进行慢爬采集;
对客户端进行修改,使其支持单节点多实例并发访问,提升采集效率;
针对ZeorNet暗网站点均为动态组装的特点,通过socket读取数据并动态组装为页面,再抽取页面内容。
优选地,S3中对暗网数据进行数据处理,使用深度神经网络模型对输入文本进行检测,判定是否为威胁线索,包括:
对暗网数据进行自动化语言翻译、自动降噪处理、结构化处理;
使用递归神经网络RNN识别短文本中的威胁线索,根据短文本中的词序关系、不同词的依赖和贡献程度的不同,给出输入文本属于威胁线索的概率;
使用图卷积神经网络GCN识别长文本中的威胁线索,在文本量化的基础上使用卷积神经网络构建端到端的判别模型,自动抽取文本特征,给出输入文本属于威胁线索的概率;
还包括以下步骤:
S4、对深度神经网络模型的输出结果进行检验,主动选择重要样本进行反馈,利用反馈样本对深度神经网络模型进行增量式学习。
一种全球暗网威胁线索智能检测系统,包括信息源数据库构建模块、数据规模化采集存储模块和威胁线索检测单元;
信息源数据库构建模块,探测全球暗网活跃站点,对探测到的信息源进行处理,构建活跃站点信息源数据库;
数据规模化采集存储模块,通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集,同时对采集的暗网数据进行存储;
威胁线索检测单元,对暗网数据进行数据处理,使用深度神经网络模型对输入文本进行检测,判定是否为威胁线索;
其中,威胁线索检测单元包括训练模块和检测模块,所述检测模块对输入文本进行分词翻译并抽取文本特征,利用检测器基于文本特征进行威胁线索检测,收集用户关于威胁线索检测结果的反馈信息,并生成检测器下一轮训练所需的新训练样本;
所述训练模块以检测模块生成的新训练样本作为训练样本,对训练样本进行分词翻译并抽取文本特征,利用文本特征及对应已知结果对检测器进行训练。
(三)有益效果
与现有技术相比,本发明所提供的一种全球暗网威胁线索智能检测方法及检测系统,具有以下有益效果:
1)暗网站点探测方面,综合基于中继节点流量分析的站点探测技术、互联网公开信息的站点汇集技术、暗网站内信息与即时通讯信息的站点检测技术,针对实际应用中的难点,有效解决暗网站点非常分散、生命周期短,难以动态发现等问题,实现全面高效地暗网信息源探测;
2)暗网数据采集方面,通过同时连接、动态调度和切换多个节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,扩大了采集带宽,解决了大规模暗网访问行为容易被第三方侦测到的问题,从而能够进行暗网大规模安全访问,实现了实用级的暗网数据访问和规模化采集;
3)暗网线索检测方面,应用多语言自动翻译,结合自动翻译与复杂文本识别技术、深度神经网络等新技术,解决页面结构化分析、社交复杂文本识别困难等问题,并通过在线主动学习提升威胁线索的检测效果,使得威胁线索检测具有较高的实用价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的示意图;
图2为本发明中构建活跃站点信息源数据库的流程示意图;
图3为本发明中暗网数据规模化采集的流程示意图;
图4为本发明中威胁线索检测的流程示意图;
图5为本发明中通过在线主动学习提升威胁线索检测效果的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种全球暗网威胁线索智能检测方法,如图1和图2所示,①探测全球暗网活跃站点,对探测到的信息源进行处理,构建活跃站点信息源数据库。
1)a、探测全球暗网活跃站点,包括:
在多个国家的云虚拟机布设代理节点,在代理节点中截取其访问流量,通过分析流量获取Tor暗网域名(即服务地址);
通过Google等公开搜索引擎、Torch等暗网搜索引擎搜索“.onion”,从返回页面中提取Tor暗网域名;
从已采集(定向或慢爬)Tor页面、Telegram群组信息中,识别和提取Tor暗网域名。
b、探测全球暗网活跃站点,包括:
在多个国家的云虚拟机布设代理节点,在代理节点中截取其访问流量,提取其中的I2P暗网域名(即服务地址);
通过Google等公开搜索引擎搜索“.i2p”,从返回结果中提取I2P暗网域名;
从已采集(定向或慢爬)I2P页面、Telegram群组信息中,识别和提取I2P暗网域名。
c、探测全球暗网活跃站点,包括:
通过在多个国家布设的代理节点,对ZeorNet网站进行漫爬扩展采集,通过站点之间的关联进行扩展,从而实现信息源探测,通过分析流量获取ZeorNet暗网域名(即服务地址);
通过Google等公开搜索引擎搜索“zeronet”,从返回页面中提取ZeroNet暗网域名;
从已采集ZeroNet页面、Telegram群组信息中,识别和提取ZeroNet暗网域名。
2)对探测到的信息源进行处理,构建活跃站点信息源数据库,包括:
对探测到的Tor、I2P、ZeorNet暗网信息源进行整理、去重、存活性验证,并计算站点语种、站点活跃度、情报线索标签、业务相关度,探索关联国家及地区的分析,从而构建形成活跃站点信息源数据库。
如图1和图3所示,②通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集。
有规律的大规模暗网访问行为可能被第三方侦测,因此通过同时连接、动态调度和切换多个节点,实现访问行为的混淆,并通过单节点多实例并发技术,扩大采集带宽,实现暗网数据的规模化访问与采集。
a、通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集,包括:
对于Tor暗网站点:
进行存活性验证,并根据站点活跃度、业务相关度进行采集调度,排列站点采集优先级;
针对网络带宽小的问题,采用单节点多实例并发技术,同时连接多个节点,实现大流量访问;
针对站点类型多的问题,对站点进行定向、慢爬、元搜索的综合采集,下载页面并抽取页面内容。
b、通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集,包括:
对于I2P暗网站点:
进行存活性验证,并根据站点活跃度、业务相关度进行采集调度,排列站点采集优先级;
针对网络带宽小的问题,对客户端进行修改,利用单节点多实例并发技术,通过同时连接多个节点来扩大采集带宽;
针对站点类型多的问题,结合定向采集与慢爬采集,下载页面并抽取页面内容。
c、通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集,包括:
对于ZeorNet暗网站点:
采用慢爬采集优先的采集方式,根据站点活跃度、业务相关度、站点语种选择种子站点,进行慢爬采集;
对客户端进行修改,使其支持单节点多实例并发访问,提升采集效率;
针对ZeorNet暗网站点均为动态组装的特点,通过socket读取数据并动态组装为页面,再抽取页面内容。
如图1和图4所示,③对暗网数据进行数据处理,使用深度神经网络模型对输入文本进行检测,判定是否为威胁线索,具体包括:
对暗网数据进行自动化语言翻译、自动降噪处理、结构化处理;
使用递归神经网络RNN识别短文本中的威胁线索,根据短文本中的词序关系、不同词的依赖和贡献程度的不同,给出输入文本属于威胁线索的概率(递归神经网络RNN可将前后词语、上下文关联起来,通过不同词在句子中的权重、词间关联关系,将短文本映射为威胁线索标签);
使用图卷积神经网络GCN识别长文本中的威胁线索,在文本量化的基础上使用卷积神经网络构建端到端的判别模型,自动抽取文本特征,给出输入文本属于威胁线索的概率。
暗网数据的类型多样、语言种类非常多、中文信息占比较少,无法直接进行威胁线索检测。本申请技术方案中,首先对暗网数据进行自动化语言翻译、自动降噪处理、结构化处理,再使用深度神经网络模型对输入文本进行检测,输出是否为威胁线索。
如图1和图5所示,还包括以下步骤:
④对深度神经网络模型的输出结果进行检验,主动选择重要样本进行反馈,利用反馈样本对深度神经网络模型进行增量式学习。
威胁线索检测主要有以下难点:多语种、表达不规范、暗语表达、口语分词准确率较低、语义演变快、噪声极高、线索与非线索信息量极不均衡。在这种情况下,要实现准确检测暗网数据以得到威胁线索,关键需要深度神经网络模型在线运行过程中进行主动学习。
因此,需要对深度神经网络模型的输出结果进行检验,主动选择重要样本进行反馈,利用反馈样本重新学习以提升威胁线索检测效果,高频次的重新学习需要采用高效的学习算法,即增量式学习。
一种全球暗网威胁线索智能检测系统,如图1所示,包括信息源数据库构建模块、数据规模化采集存储模块和威胁线索检测单元;
信息源数据库构建模块,探测全球暗网活跃站点,对探测到的信息源进行处理,构建活跃站点信息源数据库;
数据规模化采集存储模块,通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集,同时对采集的暗网数据进行存储;
威胁线索检测单元,对暗网数据进行数据处理,使用深度神经网络模型对输入文本进行检测,判定是否为威胁线索。
其中,威胁线索检测单元包括训练模块和检测模块:
检测模块对输入文本进行分词翻译并抽取文本特征,利用检测器基于文本特征进行威胁线索检测,收集用户关于威胁线索检测结果的反馈信息(用户获得检测结果后给出肯定或否定意见),并生成检测器下一轮训练所需的新训练样本;
训练模块以检测模块生成的新训练样本(反馈样本)作为训练样本,对训练样本进行分词翻译并抽取文本特征,利用文本特征及对应已知结果对检测器进行训练。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种全球暗网威胁线索智能检测方法,其特征在于:包括以下步骤:
S1、探测全球暗网活跃站点,对探测到的信息源进行处理,构建活跃站点信息源数据库;
S2、通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集;
S3、对暗网数据进行数据处理,使用深度神经网络模型对输入文本进行检测,判定是否为威胁线索。
2.根据权利要求1所述的全球暗网威胁线索智能检测方法,其特征在于:S1中探测全球暗网活跃站点,包括:
在多个国家的云虚拟机布设代理节点,在代理节点中截取其访问流量,通过分析流量获取Tor暗网域名;
通过公开搜索引擎、暗网搜索引擎搜索“.onion”,从返回页面中提取Tor暗网域名;
从已采集Tor页面、Telegram群组信息中,识别和提取Tor暗网域名。
3.根据权利要求1所述的全球暗网威胁线索智能检测方法,其特征在于:S1中探测全球暗网活跃站点,包括:
在多个国家的云虚拟机布设代理节点,在代理节点中截取其访问流量,提取其中的I2P暗网域名;
通过公开搜索引擎搜索“.i2p”,从返回结果中提取I2P暗网域名;
从已采集I2P页面、Telegram群组信息中,识别和提取I2P暗网域名。
4.根据权利要求1所述的全球暗网威胁线索智能检测方法,其特征在于:S1中探测全球暗网活跃站点,包括:
通过在多个国家布设的代理节点,对ZeorNet网站进行漫爬扩展采集,通过站点之间的关联进行扩展,从而实现信息源探测,通过分析流量获取ZeorNet暗网域名;
通过公开搜索引擎搜索“zeronet”,从返回页面中提取ZeroNet暗网域名;
从已采集ZeroNet页面、Telegram群组信息中,识别和提取ZeroNet暗网域名。
5.根据权利要求2-4中任意一项所述的全球暗网威胁线索智能检测方法,其特征在于:S1中对探测到的信息源进行处理,构建活跃站点信息源数据库,包括:
对探测到的暗网信息源进行整理、去重、存活性验证,并计算站点语种、站点活跃度、情报线索标签、业务相关度,探索关联国家及地区的分析,从而构建形成活跃站点信息源数据库。
6.根据权利要求5所述的全球暗网威胁线索智能检测方法,其特征在于:S2中通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集,包括:
对于Tor暗网站点:
进行存活性验证,并根据站点活跃度、业务相关度进行采集调度,排列站点采集优先级;
针对网络带宽小的问题,采用单节点多实例并发技术,同时连接多个节点,实现大流量访问;
针对站点类型多的问题,对站点进行定向、慢爬、元搜索的综合采集,下载页面并抽取页面内容。
7.根据权利要求5所述的全球暗网威胁线索智能检测方法,其特征在于:S2中通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集,包括:
对于I2P暗网站点:
进行存活性验证,并根据站点活跃度、业务相关度进行采集调度,排列站点采集优先级;
针对网络带宽小的问题,对客户端进行修改,利用单节点多实例并发技术,通过同时连接多个节点来扩大采集带宽;
针对站点类型多的问题,结合定向采集与慢爬采集,下载页面并抽取页面内容。
8.根据权利要求5所述的全球暗网威胁线索智能检测方法,其特征在于:S2中通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集,包括:
对于ZeorNet暗网站点:
采用慢爬采集优先的采集方式,根据站点活跃度、业务相关度、站点语种选择种子站点,进行慢爬采集;
对客户端进行修改,使其支持单节点多实例并发访问,提升采集效率;
针对ZeorNet暗网站点均为动态组装的特点,通过socket读取数据并动态组装为页面,再抽取页面内容。
9.根据权利要求1所述的全球暗网威胁线索智能检测方法,其特征在于:S3中对暗网数据进行数据处理,使用深度神经网络模型对输入文本进行检测,判定是否为威胁线索,包括:
对暗网数据进行自动化语言翻译、自动降噪处理、结构化处理;
使用递归神经网络RNN识别短文本中的威胁线索,根据短文本中的词序关系、不同词的依赖和贡献程度的不同,给出输入文本属于威胁线索的概率;
使用图卷积神经网络GCN识别长文本中的威胁线索,在文本量化的基础上使用卷积神经网络构建端到端的判别模型,自动抽取文本特征,给出输入文本属于威胁线索的概率;
还包括以下步骤:
S4、对深度神经网络模型的输出结果进行检验,主动选择重要样本进行反馈,利用反馈样本对深度神经网络模型进行增量式学习。
10.一种基于权利要求9所述的全球暗网威胁线索智能检测方法的检测系统,其特征在于:包括信息源数据库构建模块、数据规模化采集存储模块和威胁线索检测单元;
信息源数据库构建模块,探测全球暗网活跃站点,对探测到的信息源进行处理,构建活跃站点信息源数据库;
数据规模化采集存储模块,通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集,同时对采集的暗网数据进行存储;
威胁线索检测单元,对暗网数据进行数据处理,使用深度神经网络模型对输入文本进行检测,判定是否为威胁线索;
其中,威胁线索检测单元包括训练模块和检测模块,所述检测模块对输入文本进行分词翻译并抽取文本特征,利用检测器基于文本特征进行威胁线索检测,收集用户关于威胁线索检测结果的反馈信息,并生成检测器下一轮训练所需的新训练样本;
所述训练模块以检测模块生成的新训练样本作为训练样本,对训练样本进行分词翻译并抽取文本特征,利用文本特征及对应已知结果对检测器进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210641303.6A CN115051850A (zh) | 2022-06-08 | 2022-06-08 | 一种全球暗网威胁线索智能检测方法及检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210641303.6A CN115051850A (zh) | 2022-06-08 | 2022-06-08 | 一种全球暗网威胁线索智能检测方法及检测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115051850A true CN115051850A (zh) | 2022-09-13 |
Family
ID=83160520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210641303.6A Pending CN115051850A (zh) | 2022-06-08 | 2022-06-08 | 一种全球暗网威胁线索智能检测方法及检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115051850A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115914417A (zh) * | 2023-01-09 | 2023-04-04 | 北京源堡科技有限公司 | 面向暗网连接场景的连接构建方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874943A (zh) * | 2018-06-04 | 2018-11-23 | 上海交通大学 | 一种基于长短期记忆神经网络的暗网资源探测系统 |
CN110119469A (zh) * | 2019-05-22 | 2019-08-13 | 北京计算机技术及应用研究所 | 一种面向暗网的数据采集与分析系统及方法 |
CN110557385A (zh) * | 2019-08-22 | 2019-12-10 | 西安电子科技大学 | 一种基于行为混淆的信息隐匿访问方法及系统、服务器 |
CN112202782A (zh) * | 2020-09-30 | 2021-01-08 | 上海交通大学 | 一种基于网络流量的暗网用户行为检测方法和系统 |
-
2022
- 2022-06-08 CN CN202210641303.6A patent/CN115051850A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874943A (zh) * | 2018-06-04 | 2018-11-23 | 上海交通大学 | 一种基于长短期记忆神经网络的暗网资源探测系统 |
CN110119469A (zh) * | 2019-05-22 | 2019-08-13 | 北京计算机技术及应用研究所 | 一种面向暗网的数据采集与分析系统及方法 |
CN110557385A (zh) * | 2019-08-22 | 2019-12-10 | 西安电子科技大学 | 一种基于行为混淆的信息隐匿访问方法及系统、服务器 |
CN112202782A (zh) * | 2020-09-30 | 2021-01-08 | 上海交通大学 | 一种基于网络流量的暗网用户行为检测方法和系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115914417A (zh) * | 2023-01-09 | 2023-04-04 | 北京源堡科技有限公司 | 面向暗网连接场景的连接构建方法、装置、设备及介质 |
CN115914417B (zh) * | 2023-01-09 | 2023-05-26 | 北京源堡科技有限公司 | 暗网威胁情报的获取方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108376160B (zh) | 一种中文知识图谱构建方法和系统 | |
CN103491205B (zh) | 一种基于视频搜索的关联资源地址的推送方法和装置 | |
CN111459799B (zh) | 一种基于Github的软件缺陷检测模型建立、检测方法及系统 | |
CN103023714B (zh) | 基于网络话题的活跃度与集群结构分析系统及方法 | |
CN104715064B (zh) | 一种实现在网页上标注关键词的方法和服务器 | |
CN110266647A (zh) | 一种命令和控制通信检测方法及系统 | |
CN109905288B (zh) | 一种应用服务分类方法及装置 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN104573028A (zh) | 实现智能问答的方法和系统 | |
CN112165462A (zh) | 基于画像的攻击预测方法、装置、电子设备及存储介质 | |
CN111881290A (zh) | 一种基于加权语义相似度的配网多源网架实体融合方法 | |
CN106096040B (zh) | 基于搜索引擎的机构网站归属地判别方法及其装置 | |
CN108229170B (zh) | 利用大数据和神经网络的软件分析方法和装置 | |
CN107341399A (zh) | 评估代码文件安全性的方法及装置 | |
CN110019519A (zh) | 数据处理方法、装置、存储介质和电子装置 | |
CN110012122A (zh) | 一种基于词嵌入技术的域名相似性分析方法 | |
CN116756690A (zh) | 一种跨语言多模态信息融合方法及装置 | |
CN115051850A (zh) | 一种全球暗网威胁线索智能检测方法及检测系统 | |
Konys et al. | Ontology learning approaches to provide domain-specific knowledge base | |
Yang et al. | An exploration of link-based knowledge map in academic web space | |
CN106649875B (zh) | 舆情大数据的可视化系统 | |
CN112395513A (zh) | 一种舆情传播力分析方法 | |
CN110889632B (zh) | 一种公司形象提升系统的数据监测分析系统 | |
CN114238735B (zh) | 一种互联网数据智能采集方法 | |
CN115470489A (zh) | 检测模型训练方法、检测方法、设备以及计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |