CN112148956A - 一种基于机器学习的暗网威胁情报挖掘系统和方法 - Google Patents

一种基于机器学习的暗网威胁情报挖掘系统和方法 Download PDF

Info

Publication number
CN112148956A
CN112148956A CN202011065192.6A CN202011065192A CN112148956A CN 112148956 A CN112148956 A CN 112148956A CN 202011065192 A CN202011065192 A CN 202011065192A CN 112148956 A CN112148956 A CN 112148956A
Authority
CN
China
Prior art keywords
module
data
threat
webpage
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011065192.6A
Other languages
English (en)
Inventor
邹福泰
施纬
吴越
李林森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202011065192.6A priority Critical patent/CN112148956A/zh
Publication of CN112148956A publication Critical patent/CN112148956A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于机器学习的暗网威胁情报挖掘系统和方法,涉及计算机网络安全领域,暗网威胁情报挖掘系统包括数据下载模块、数据解析模块、数据库模块、威胁情报提取模块、数据接口模块;威胁情报提取模块包括用户信息提取模块、商品信息提取模块、网页威胁内容提取模块。本发明采用规则匹配、人工筛选、深度学习的方法提取暗网网页中的威胁情报,在保持较高准确率的同时大大提升了效率,同时也集成了完整的数据下载、数据存储、数据预处理以及多功能的数据接口,为暗网安全事件调查提供辅助作用。

Description

一种基于机器学习的暗网威胁情报挖掘系统和方法
技术领域
本发明涉及计算机网络安全领域,尤其涉及一种基于机器学习的暗网威胁情报挖掘系统和方法。
背景技术
暗网(Dark Web),是指只能用特殊软件、特殊授权或对电脑做特殊设置才能访问的网络,构成暗网的隐藏服务网络包括F2F的小型点对点网络以及由公共组织和个人 运营的大型流行网络,这些网络大部分都使用分布式网络系统,每个用户都作为暗网 中的中继节点,暗网中的流量也通过层层转发和加密来实现匿名的效果。常见的有 Tor(洋葱路由)、I2P、FREENET、ZERONET等,其中Tor是目前最常用的暗网网 络,其中的网站规模和数量远大于其他。由于访问门槛的存在与加密算法的应用,暗 网具有较高的匿名性。
事实上,在网络安全领域,对暗网的研究是公认的必要之举。许多安全事件都与暗网有着密不可分的联系。由于暗网的匿名性强,很多黑客(团体)都在暗网上进行违 法活动,包括出售漏洞信息、提供黑客服务、出售盗取的数据等严重危害网络空间安 全的活动,而这些内容在明网(Clearnet)上往往是滞后的。因此,针对暗网的威胁情报 研究有助于我们全面、迅速地捕捉到相关安全事件信息,及时减少损失,是非常有必 要的。
威胁情报是一种基于证据的知识,包括了情境、机制、指标、隐含和实际可行的 建议。威胁情报描述了现存的或者是即将出现针对资产的威胁或危险,并可以用于通 知主体针对相关威胁或危险采取某种响应;通俗来说,威胁情报是关于威胁的信息, 利用公开的资源,用于发现威胁并指导企业行动以改善安全状况。暗网中存在的威胁 情报是多方面的,例如数据贩卖信息、黑客身份信息、0day漏洞信息等。然而暗网中 的信息庞杂,真假难辨,如何从海量的暗网网页中提取出有用的威胁信息就是需要解 决的核心问题。
暗网安全难题主要有3个方面:一是暗网中的危险分子(主要指黑客)难以溯源,二是暗网中的违法交易(黑市)难以管控,三是暗网中的信息庞杂。这刚好形成三个方 面:黑客-黑市-信息,这三个方面又是相互关联的,黑客作为活动主体,黑市作为活 动场所,信息包含活动的内容。因此,所要提取的威胁情报也是针对这三个方面的: 黑客-对应暗网用户信息,黑市-对应着暗网市场、商品信息,信息-对应着网页威胁内 容。
传统的威胁情报提取方式多为人工提取结合规则匹配,效率较低。
因此,本领域的技术人员致力于开发一种基于机器学习的暗网威胁情报挖掘系统和方法,可以高效地从暗网中提取上述三个方面的威胁情报。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是建立一套高效自 动地从海量暗网网页中提取出有效的威胁情报的方法,收集暗网用户信息、黑市 信息、网页威胁内容,对这三者进一步分析,挖掘其中的关联,为暗网安全事件 调查提供辅助作用。
为实现上述目的,本发明提供了一种基于机器学习的暗网威胁情报挖掘系统, 包括数据下载模块、数据解析模块、数据库模块、威胁情报提取模块、数据接口 模块;
所述数据下载模块实现暗网原始数据的下载和更新;
所述数据解析模块实现对所述数据下载模块得到的原始数据的解析、格式化 及存储;
所述数据库模块实现对所述数据下载模块得到的原始数据、所述数据解析模 块得到的中间数据、所述威胁情报提取模块得到的结果数据的存储;
所述威胁情报提取模块实现对所述数据库模块中存储的数据的分析和内容提取;
所述数据接口模块实现对数据库的分类访问、数据搜索、数据下载。
进一步地,所述数据解析模块实现对原始数据的初步处理,实现格式统一, 通过hash值实现唯一标识,并以网页为单位进行存储。
进一步地,所述数据库模块基于MySQL,存储的信息包括关键站点信息、用 户信息、商品信息和威胁内容信息。
进一步地,所述威胁情报提取模块包括用户信息提取模块、商品信息提取模 块、网页威胁内容提取模块。
进一步地,所述网页威胁内容提取模块基于Glove词向量算法和GRU神经网 络模型,包括文本处理、词向量化、模型预测和结果输出。
进一步地,所述数据接口模块基于Flask。
进一步地,还包括一个基于react的可拓展前端框架,用户在此基础上实现二 次开发。
一种基于机器学习的暗网威胁情报挖掘方法,包括以下步骤:
步骤1、所述数据下载模块通过爬虫下载暗网原始数据,下载过程中实时统计 下载进度,验证文件完整性,下载完毕后原始数据存储到临时文件;
步骤2、所述数据解析模块处理原始数据,利用多线程方式并发处理每一个网 页文件,提取出域名、URL、时间戳、hash值、请求头、响应头、响应内容并按 照统一的格式并发写入所述数据库模块,其中hash值作为唯一标识;
步骤3、访问所述数据库模块中存储的网页,利用域名、标题以及网页内容从 中筛选出关键站点并进行网页数量统计;
步骤4、读取所述关键站点,将所述关键站点对应的网页内容输送到所述威胁 情报提取模块,最终提取的信息按统一格式写入所述数据库模块;
步骤5、对所述步骤4中提取的信息进行关联搜索,针对某个条目,系统搜索 出与之相关的条目,并将它们的ID存储到本条目中,实现条目之间的关联;
步骤6、用户访问所述数据接口模块进行操作,获取所需要的数据。
进一步地,所述步骤4包括:
步骤4.1、所述用户信息提取模块收到待处理的网页后,按照不同站点的站点 分为不同队列,接着启动多线程处理程序,并发提取不同站点的用户信息,包括 用户名、URL、站点详情、用户详情;
步骤4.2、所述商品信息提取模块收到待处理网页后,从中选出市场站点,并 按照不同站点的站点分为不同队列,接着启动多线处理程序,并发提取不同站点 的商品信息,包括商品名、卖家、价格、描述、市场;
步骤4.3、针对所述步骤4.1和所述步骤4.2未处理的页面,系统进行网页文 本提取,去除html标签、java script、CSS,再输送到所述网页威胁内容提取模块;
步骤4.4、所述网页威胁内容提取模块收到处理好的网页文本后,输入训练好 的威胁内容提取模型中提取出威胁文段。
进一步地,所述步骤4.4包括:
步骤4.4.1、对输入文本进行分句分段,使用spacy模型进行智能分句,去除 超短句,每3到4句作为一个待处理文段;
步骤4.4.2、对所述待处理文段进行处理,包括标准化、词性还原、去除标点, 得到预测文段;
步骤4.4.3、进行Glove词向量化,利用训练好的Glove模型将所述预测文段 转为向量组形式,一个所述预测文段对应一个向量组;
步骤4.4.4、所述向量组输入训练好的GRU加全连接层神经网络模型,得到输 出的预测结果向量,其中,1对应位置的文段为预测的包含威胁内容的文段;
步骤4.4.5、输出预测的威胁文段。
与现有技术相比,本发明至少具有如下有益技术效果:
1、采用多线程多进程的架构,在数据下载、数据解析、数据存储时大大提升 了效率;
2、针对不同的暗网市场、论坛等网站,提供了特定的处理程序,保持了较高 的准确率;
3、具有较完善的错误处理程序,可以应对运行时的中断等错误,避免资源浪 费;
4、提供多功能数据接口,便于提供可拓展的服务;
5、对提取到的每一条威胁情报(商品、用户或网页内容)都会进行关联搜索, 找出数据库中所有与之相关的威胁情报并储存这些相关关系,便于进一步分析。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明, 以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例的系统结构示意图;
图2是本发明的一个较佳实施例的用户信息和商品信息提取过程示意图;
图3是本发明的一个较佳实施例的网页威胁内容提取过程示意图。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚 和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护 范围并非仅限于文中提到的实施例。
在附图中,结构相同的部件以相同数字标号表示,各处结构或功能相似的组 件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的,本发 明并没有限定每个组件的尺寸和厚度。为了使图示更清晰,附图中有些地方适当 夸大了部件的厚度。
如图1所示,是本发明提供的一种基于机器学习的暗网威胁情报挖掘系统的 结构示意图,包括数据下载模块、数据解析模块、数据库模块、威胁情报提取模 块、数据接口模块。
数据下载模块负责从暗网爬虫提供的数据接口中下载原始数据,并通过时间 戳进行管理,确保数据可实现增量更新。
数据解析模块提供原始数据的解析、格式化以及存储功能。负责对下载好的 原始数据进行初步处理,转化为统一格式,以网页为单位进行存储,通过hash值 实现唯一标识,便于后续的数据处理。
数据库模块基于MySQL,用于存储数据下载模块得到的原始数据、数据解析 模块得到的中间数据、威胁情报提取模块得到的结果数据,存储的信息包括关键 站点信息、用户信息、商品信息和威胁内容信息,并且每个存储的条目都有唯一 的标识符便于数据管理。
威胁情报提取模块包括用户信息提取模块、商品信息提取模块、网页威胁内 容提取模块,其中,用户信息提取模块提供暗网用户信息提取功能,利用内容匹 配的方法从暗网网站中挖掘出用户信息并进行格式化存储;商品信息提取模块提 供暗网市场的商品信息提取功能,利用内容匹配的方法从市场网站中挖掘出商品 信息并进行格式化存储;网页威胁内容提取模块提供智能从网页当中提取出包含 威胁信息段落的功能。基于Glove词向量算法和GRU神经网络模型,以网页文本 作为输入,输出识别到有威胁内容的段落。
数据接口模块提供基于Flask的数据接口功能,通过访问数据库中存储的威胁 情报信息,向用户提供威胁情报接口,包括分类访问、数据搜索、数据下载等功 能。
此外,系统还包括一个基于react的可拓展前端框架,用户在此基础上实现二 次开发。
一种基于机器学习的暗网威胁情报挖掘方法,包括以下步骤:
步骤1、数据下载模块通过爬虫下载暗网原始数据,下载过程中实时统计下载 进度,验证文件完整性,下载完毕后原始数据存储到临时文件;
步骤2、数据解析模块处理原始数据,利用多线程方式并发处理每一个网页文 件,提取出域名、URL、时间戳、hash值、请求头、响应头、响应内容并按照统 一的格式并发写入数据库模块,其中hash值作为唯一标识;
步骤3、访问数据库模块中存储的网页,利用域名、标题以及网页内容从中筛 选出关键站点并进行网页数量统计;
步骤4、读取所述关键站点,将关键站点对应的网页内容输送到威胁情报提取 模块,最终提取的信息按统一格式写入数据库模块;
步骤5、对步骤4中提取的信息进行关联搜索,针对某个条目,系统搜索出与 之相关的条目,并将它们的ID存储到本条目中,实现条目之间的关联;
步骤6、用户访问数据接口模块进行操作,获取所需要的数据,用户可以指定 获取威胁情报的类型,可以对所有条目进行搜索筛选等操作。
其中,步骤4是本实施例的一个重要实施环节,包括暗网用户信息、商品信 息、网页威胁内容的提取。用户信息和商品信息提取过程如图2所示,由取出数 据、数据预处理、提取用户信息、提取商品信息、格式化、数据存储组成,系统 以数据库中的关键站点网页作为输入,此处的关键站点指用户数量或商品数量较 多的市场和论坛网站,输出为格式化的用户数据和商品数据,该提取过程包括以 下步骤:
步骤1、用户信息提取模块收到待处理的网页后,按照不同站点的站点分为不 同队列,接着启动多线程处理程序,并发提取不同站点的用户信息,包括用户名、 URL、站点详情、用户详情;
步骤2、商品信息提取模块收到待处理网页后,从中选出市场站点,并按照不 同站点的站点分为不同队列,接着启动多线处理程序,并发提取不同站点的商品 信息,包括商品名、卖家、价格、描述、市场;
步骤3、最后提取到的用户信息和商品信息都被存储到数据库中,用户可以通 过系统提供的数据接口查看。
网页威胁内容的提取,如图3所示,由文本处理、词向量化、模型预测、结 果输出组成。输入是网页的纯文本内容,即去除了html标签、java script、CSS的 文本,输出是包含威胁内容的文段,包含以下步骤:
步骤1、对输入文本进行分句分段,使用spacy模型进行智能分句,去除超短 句,每3到4句作为一个待处理文段;
步骤2、对待处理文段进行处理,包括标准化、词性还原、去除标点,得到预 测文段;
步骤3、进行Glove词向量化,利用训练好的Glove模型将预测文段转为向量 组形式,一个预测文段对应一个向量组;
步骤4、向量组输入训练好的GRU加全连接层神经网络模型,得到输出的预 测结果向量,其中,1对应位置的文段为预测的包含威胁内容的文段,经过训练, 该模型在验证集上取得了83%的准确率;
步骤5、输出预测的威胁文段。
之后,网页威胁内容模块将提取的文段和网页URL、页面hash、时间戳等信 息一同存入数据库中。
本系统实现了一个从爬取的暗网网页中筛选出关键暗网站点的方法,针对不 同的暗网市场、论坛等网站,针对不同的网页结构,都提供了特定的处理程序, 用于提取商品、用户信息,同时,本系统有一套完整的数据预处理流程,数据在 进行解析处理之前都会进行格式化处理,包括网页格式统一化,网页分句、词形 还原等处理流程。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无 需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领 域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限 的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于机器学习的暗网威胁情报挖掘系统,其特征在于,包括数据下载模块、数据解析模块、数据库模块、威胁情报提取模块、数据接口模块;
所述数据下载模块实现暗网原始数据的下载和更新;
所述数据解析模块实现对所述数据下载模块得到的原始数据的解析、格式化及存储;
所述数据库模块实现对所述数据下载模块得到的原始数据、所述数据解析模块得到的中间数据、所述威胁情报提取模块得到的结果数据的存储;
所述威胁情报提取模块实现对所述数据库模块中存储的数据的分析和内容提取;
所述数据接口模块实现对数据库的分类访问、数据搜索、数据下载。
2.如权利要求1所述的基于机器学习的暗网威胁情报挖掘系统,其特征在于,所述数据解析模块实现对原始数据的初步处理,实现格式统一,通过hash值实现唯一标识,并以网页为单位进行存储。
3.如权利要求1所述的基于机器学习的暗网威胁情报挖掘系统,其特征在于,所述数据库模块基于MySQL,存储的信息包括关键站点信息、用户信息、商品信息和威胁内容信息。
4.如权利要求1所述的基于机器学习的暗网威胁情报挖掘系统,其特征在于,所述威胁情报提取模块包括用户信息提取模块、商品信息提取模块、网页威胁内容提取模块。
5.如权利要求4所述的基于机器学习的暗网威胁情报挖掘系统,其特征在于,所述网页威胁内容提取模块基于Glove词向量算法和GRU神经网络模型,包括文本处理、词向量化、模型预测和结果输出。
6.如权利要求1所述的基于机器学习的暗网威胁情报挖掘系统,其特征在于,所述数据接口模块基于Flask。
7.如权利要求1所述的基于机器学习的暗网威胁情报挖掘系统,其特征在于,还包括一个基于react的可拓展前端框架,用户在此基础上实现二次开发。
8.一种基于机器学习的暗网威胁情报挖掘方法,其特征在于,包括以下步骤:
步骤1、所述数据下载模块通过爬虫下载暗网原始数据,下载过程中实时统计下载进度,验证文件完整性,下载完毕后原始数据存储到临时文件;
步骤2、所述数据解析模块处理原始数据,利用多线程方式并发处理每一个网页文件,提取出域名、URL、时间戳、hash值、请求头、响应头、响应内容并按照统一的格式并发写入所述数据库模块,其中hash值作为唯一标识;
步骤3、访问所述数据库模块中存储的网页,利用域名、标题以及网页内容从中筛选出关键站点并进行网页数量统计;
步骤4、读取所述关键站点,将所述关键站点对应的网页内容输送到所述威胁情报提取模块,最终提取的信息按统一格式写入所述数据库模块;
步骤5、对所述步骤4中提取的信息进行关联搜索,针对某个条目,系统搜索出与之相关的条目,并将它们的ID存储到本条目中,实现条目之间的关联;
步骤6、用户访问所述数据接口模块进行操作,获取所需要的数据。
9.如权利要求8所述的基于机器学习的暗网威胁情报挖掘方法,其特征在于,所述步骤4包括:
步骤4.1、所述用户信息提取模块收到待处理的网页后,按照不同站点的站点分为不同队列,接着启动多线程处理程序,并发提取不同站点的用户信息,包括用户名、URL、站点详情、用户详情;
步骤4.2、所述商品信息提取模块收到待处理网页后,从中选出市场站点,并按照不同站点的站点分为不同队列,接着启动多线处理程序,并发提取不同站点的商品信息,包括商品名、卖家、价格、描述、市场;
步骤4.3、针对所述步骤4.1和所述步骤4.2未处理的页面,系统进行网页文本提取,去除html标签、java script、CSS,再输送到所述网页威胁内容提取模块;
步骤4.4、所述网页威胁内容提取模块收到处理好的网页文本后,输入训练好的威胁内容提取模型中提取出威胁文段。
10.如权利要求9所述的基于机器学习的暗网威胁情报挖掘方法,其特征在于,所述步骤4.4包括:
步骤4.4.1、对输入文本进行分句分段,使用spacy模型进行智能分句,去除超短句,每3到4句作为一个待处理文段;
步骤4.4.2、对所述待处理文段进行处理,包括标准化、词性还原、去除标点,得到预测文段;
步骤4.4.3、进行Glove词向量化,利用训练好的Glove模型将所述预测文段转为向量组形式,一个所述预测文段对应一个向量组;
步骤4.4.4、所述向量组输入训练好的GRU加全连接层神经网络模型,得到输出的预测结果向量,其中,1对应位置的文段为预测的包含威胁内容的文段;
步骤4.4.5、输出预测的威胁文段。
CN202011065192.6A 2020-09-30 2020-09-30 一种基于机器学习的暗网威胁情报挖掘系统和方法 Pending CN112148956A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011065192.6A CN112148956A (zh) 2020-09-30 2020-09-30 一种基于机器学习的暗网威胁情报挖掘系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011065192.6A CN112148956A (zh) 2020-09-30 2020-09-30 一种基于机器学习的暗网威胁情报挖掘系统和方法

Publications (1)

Publication Number Publication Date
CN112148956A true CN112148956A (zh) 2020-12-29

Family

ID=73952319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011065192.6A Pending CN112148956A (zh) 2020-09-30 2020-09-30 一种基于机器学习的暗网威胁情报挖掘系统和方法

Country Status (1)

Country Link
CN (1) CN112148956A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113572781A (zh) * 2021-07-28 2021-10-29 中国南方电网有限责任公司 网络安全威胁信息归集方法
CN113923193A (zh) * 2021-10-27 2022-01-11 北京知道创宇信息技术股份有限公司 一种网络域名关联方法、装置、存储介质及电子设备
CN115002045A (zh) * 2022-07-19 2022-09-02 中国电子科技集团公司第三十研究所 一种基于孪生网络的暗网站点会话识别方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951539A (zh) * 2015-06-19 2015-09-30 成都艾尔普科技有限责任公司 互联网数据中心有害信息监测系统
CN108829792A (zh) * 2018-06-01 2018-11-16 成都康乔电子有限责任公司 基于scrapy的分布式暗网资源挖掘系统及方法
CN108874943A (zh) * 2018-06-04 2018-11-23 上海交通大学 一种基于长短期记忆神经网络的暗网资源探测系统
CN109783619A (zh) * 2018-12-14 2019-05-21 广东创我科技发展有限公司 一种数据过滤挖掘方法
CN109862021A (zh) * 2019-02-26 2019-06-07 武汉思普崚技术有限公司 威胁情报的获取方法及装置
CN110119469A (zh) * 2019-05-22 2019-08-13 北京计算机技术及应用研究所 一种面向暗网的数据采集与分析系统及方法
CN110532452A (zh) * 2019-07-12 2019-12-03 西安交通大学 一种基于gru神经网络的新闻网站通用爬虫设计方法
CN110909178A (zh) * 2019-11-22 2020-03-24 上海交通大学 一种暗网威胁情报收集与信息关联系统和方法
CN111538893A (zh) * 2020-04-29 2020-08-14 四川大学 一种从非结构化数据中提取网络安全新词的方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951539A (zh) * 2015-06-19 2015-09-30 成都艾尔普科技有限责任公司 互联网数据中心有害信息监测系统
CN108829792A (zh) * 2018-06-01 2018-11-16 成都康乔电子有限责任公司 基于scrapy的分布式暗网资源挖掘系统及方法
CN108874943A (zh) * 2018-06-04 2018-11-23 上海交通大学 一种基于长短期记忆神经网络的暗网资源探测系统
CN109783619A (zh) * 2018-12-14 2019-05-21 广东创我科技发展有限公司 一种数据过滤挖掘方法
CN109862021A (zh) * 2019-02-26 2019-06-07 武汉思普崚技术有限公司 威胁情报的获取方法及装置
CN110119469A (zh) * 2019-05-22 2019-08-13 北京计算机技术及应用研究所 一种面向暗网的数据采集与分析系统及方法
CN110532452A (zh) * 2019-07-12 2019-12-03 西安交通大学 一种基于gru神经网络的新闻网站通用爬虫设计方法
CN110909178A (zh) * 2019-11-22 2020-03-24 上海交通大学 一种暗网威胁情报收集与信息关联系统和方法
CN111538893A (zh) * 2020-04-29 2020-08-14 四川大学 一种从非结构化数据中提取网络安全新词的方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113572781A (zh) * 2021-07-28 2021-10-29 中国南方电网有限责任公司 网络安全威胁信息归集方法
CN113923193A (zh) * 2021-10-27 2022-01-11 北京知道创宇信息技术股份有限公司 一种网络域名关联方法、装置、存储介质及电子设备
CN113923193B (zh) * 2021-10-27 2023-11-28 北京知道创宇信息技术股份有限公司 一种网络域名关联方法、装置、存储介质及电子设备
CN115002045A (zh) * 2022-07-19 2022-09-02 中国电子科技集团公司第三十研究所 一种基于孪生网络的暗网站点会话识别方法及系统

Similar Documents

Publication Publication Date Title
CN104766014B (zh) 用于检测恶意网址的方法和系统
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
Urvoy et al. Tracking web spam with html style similarities
CN112148956A (zh) 一种基于机器学习的暗网威胁情报挖掘系统和方法
CN107341183B (zh) 一种基于暗网网站综合特征的网站分类方法
KR101852107B1 (ko) 다크웹 범죄정보 분석 시스템 및 그 방법
US10169005B2 (en) Consolidating and reusing portal information
CN106599160B (zh) 一种内容规则库管理系统及其编码方法
CN111125598A (zh) 数据智能查询方法、装置、设备及存储介质
US20200250015A1 (en) Api mashup exploration and recommendation
Zhou et al. CTI view: APT threat intelligence analysis system
CN113656805A (zh) 一种面向多源漏洞信息的事件图谱自动构建方法及系统
CN113971398A (zh) 一种面向网络安全领域实体快速识别的词典构造方法
US20220237240A1 (en) Method and apparatus for collecting information regarding dark web
CN116186759A (zh) 一种面向隐私计算的敏感数据识别与脱敏方法
Hu et al. Cross-site scripting detection with two-channel feature fusion embedded in self-attention mechanism
CN109194605B (zh) 一种基于开源信息的可疑威胁指标主动验证方法和系统
CN111797297B (zh) 页面数据处理方法、装置、计算机设备及存储介质
CN111859862A (zh) 文本的数据标注方法和装置、存储介质及电子装置
CN113918936A (zh) Sql注入攻击检测的方法以及装置
Park et al. Forensic investigation framework for cryptocurrency wallet in the end device
CN115859273A (zh) 一种数据库异常访问的检测方法、装置、设备及存储介质
CN110413909B (zh) 基于机器学习的大规模嵌入式设备在线固件智能识别方法
Bhatia et al. CFRF: cloud forensic readiness framework–A dependable framework for forensic readiness in cloud computing environment
Yasin et al. Behind the Bait: Delving into PhishTank's hidden data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201229