CN108874943A - 一种基于长短期记忆神经网络的暗网资源探测系统 - Google Patents

一种基于长短期记忆神经网络的暗网资源探测系统 Download PDF

Info

Publication number
CN108874943A
CN108874943A CN201810564633.3A CN201810564633A CN108874943A CN 108874943 A CN108874943 A CN 108874943A CN 201810564633 A CN201810564633 A CN 201810564633A CN 108874943 A CN108874943 A CN 108874943A
Authority
CN
China
Prior art keywords
darknet
resource
module
user
domain name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810564633.3A
Other languages
English (en)
Other versions
CN108874943B (zh
Inventor
吴越
邹福泰
赵鑫鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201810564633.3A priority Critical patent/CN108874943B/zh
Publication of CN108874943A publication Critical patent/CN108874943A/zh
Application granted granted Critical
Publication of CN108874943B publication Critical patent/CN108874943B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明涉及计算机网络安全领域,公开了一种基于长短期记忆神经网络的暗网资源探测系统,包括暗网域名收集模块、暗网页面获取模块、分析器模块、过滤器模块、分类器模块、数据库、暗网资源横向分析模块和检测器模块;通过暗网爬虫获取暗网论坛的内容,为每个暗网论坛建立论坛网络模型,将用户通过分类器按照不同的资源分为资源提供者、资源寻求者以及资源兴趣者,存入数据库,再将整个暗网的信息结合起来,构建暗网社会模型,将数据送入检测器进行训练,在有新的网络安全事件发生时,将安全事件的关键字输入到检测器中,即可得到相关论坛、用户的输出,实现暗网资源的探索。本发明能够及时发现黑客在暗网中发布的漏洞以及安全威胁信息。

Description

一种基于长短期记忆神经网络的暗网资源探测系统
技术领域
本发明涉及计算机网络安全领域,尤其涉及一种基于长短期记忆神经网络的暗网资源探测系统。
背景技术
暗网(Darknet)是指只能通过特殊的配置、软件、授权或者非标准的通信协议 和端口才能访问的网络,而无法通过普通的浏览器或者搜索引擎进行访问,是与 明网相对的网络。暗网的服务器地址和数据传输通常是匿名且匿踪的,因此,由 于暗网强大的匿名性,它除了可以用来从事和明网相同的活动外,还可以从事很 多非法活动,例如武器、毒品、色情信息等的交易,计算机网络犯罪,雇佣杀手 等等,此外,暗网也是暴力的滋生地、恐怖主义的避风港。并且,在网络空间安 全领域,很多安全漏洞都会在暗网论坛发布,很多恶意软件都会在暗网市场交易。 在由此可见,暗网被滥用将会给社会带来极大的负面影响。
暗网空间最常用的三大匿名系统分别是:Tor、Freenet和I2P。由于暗网不具 有明网那样强大的搜索引擎,所以暗网域名的探索相较于明网来说较为困难,而 暗网站点的站长为了推广自己的网站,会通过UGC(User-generated content,用 户生成内容)网站(如Twitter,微博等)上发布自己的域名,因此可以通过明网 爬虫在UGC网站上使用正则表达式进行匹配,从而获取暗网域名。此外,也可 以通过已知的暗网站点进行新的暗网域名的探索,例如可以从Ahmia、Enzo’s Index索引站点获取网站地址,也可以根据一些关键字在duckduckgo等暗网搜索 引擎上获取新的暗网域名。
Tor被称为第二代洋葱路由系统,其核心技术是“洋葱路由”,结合了Mix技术 和代理机制,可以抵御窃听、流量分析等攻击,Tor域名可以按照如下正则表达 式匹配:
^https?:\/\/(([a-z0-9_-]{1,64}\.){0,4}[a-z0-9=]{16}\.onion)(:|\/|$)
Freenet是一个分布式匿名信息存储和存储系统,去中心且匿名化,是一个独 立的网络环境。为了保护文件请求者和文件上传者的匿名性,Freenet同时也会 保护提供文件存储的节点的匿名性。为了访问Freenet,首先需要获取特定的文件 键值,而Freenet的使用者也会在UGC网站上发布文件键值,Freenet文件键值可 以按照如下正则表达式匹配:
^http://[^/]+/(freenet:)?((SSK|USK|CHK|KSK)@([^/]+))(.*?(\?|$))
I2P是一种基于对等网络的匿名通信系统,I2P的命名服务提供类似于DNS 的功能,用户可以通过该服务实现域名到路由地址的映射。I2P的命名格式为: xxx.i2p={destination},所有destination都是一个516Bytes(或者更长)的密 钥,它由一个256Bytes的公钥加上一个128Bytes的签名密钥组成,经base64 编码后长度是516Bytes。I2P的命名系统中包含了每个I2P节点本地都有的 hosts.txt或者hostsdb.blockfile文件,称为地址簿,其中存储了大量本地已知的 I2P域名和base64地址,因此也可以通过这些文件发现暗网域名。
LSTM(Long Short Term Memory)神经网络是RNN(Recurrent Neural Network)的一种,具有记忆功能。LSTM通过“门”来控制丢弃或者增加信息,从 而实现遗忘或者记忆的功能。“门”是一种使信息选择性通过的结构,由一个 sigmoid函数和一个点乘操作组成。sigmoid函数的输出值在[0,1]区间,0代表完 全丢弃,1代表完全通过。一个LSTM单元有三个这样的门,分别是遗忘门 (forget gate)、输入门(input gate)、输出门(output gate)。
因此,本领域的技术人员致力于开发一种基于基于长短期记忆神经网络的暗网资源探测系统。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是通过暗网爬虫在暗网的各个网站以及论坛上进行信息收集,将收集到的信息进行整合、分类,实现对暗网 的资源探测,能够及时的发现黑客在暗网中发布的漏洞以及安全威胁信息,做好安全 事件的实时响应。
为实现上述目的,本发明提供了一种基于长短期记忆神经网络的暗网资源探测系统。
在本发明的较佳实施方式中,一种基于长短期记忆神经网络的暗网资源探测系统包括暗网域名收集模块、暗网页面获取模块、分析器模块、过滤器模块、分类器 模块、数据库、暗网资源横向分析模块和检测器模块。具体地:
(1)暗网域名收集模块:实现暗网域名的收集,通过明网以及暗网爬虫实现, 明网爬虫在UGC站点上获取数据,并且按照正则表达式匹配暗网域名,暗网爬虫 则从暗网的索引站点获取域名,本模块将获得的域名存入到数据库的URL表中, 并作为输入输出到暗网页面获取模块。URL(Uniform Resource Locator)中文名称 是“全球资源定位器”,也被翻译做“通用资源位标”。
(2)暗网页面获取模块:实现暗网页面的获取,通过暗网爬虫实现,输出为 html文件。
(3)分析器模块:实现对暗网用户发言的分析,按照暗网论坛结构模型为该论 坛建立一棵树,并且遍历这棵树从根节点到每个叶子节点的路径,将这些路径按照 (URL;Section;User:post;User:reply;User:reply;User:reply;…)的格式输入到过 滤器模块中。
(4)过滤器模块:实现对数据的过滤,将与网络安全无关的分支过滤掉。
(5)分类器模块:实现对暗网论坛中用户的分类,也是对暗网论坛的纵向分析。 为了更加清晰地描述暗网中的社会模型,可以将暗网论坛中的用户分为三类:资源 提供者、资源寻求者以及资源兴趣者。其中,资源提供者是暗网论坛中提供资源(漏 洞、黑客工具、隐私数据等等)的用户,也是交易中的卖家,这些用户往往是顶尖 的黑客,可能持有最新的资源;资源寻求者是暗网论坛中企图获取或购买资源的用 户,也是交易中的买家,这些用户一般来说对于这些资源有一定的需求,而他们在 获得这些资源之后也有可能会成为资源提供者;资源兴趣者既不是买家也不是卖 家,只是对黑客技术感兴趣,会在论坛中参与一些讨论,这些用户也是潜在的资源 寻求者。分类器模块本质上是一个LSTM神经网络模型,以字符串数据为输入, 输出为(Time,URL,Resource,Provider,Requester,Interested),其中Provider, Requester,Interested是User Type的三类,是有用户名组成的。
(6)数据库:实现对关键数据的存储。数据库中主要有两张表:URL以及 UserRole。URL只有一个字段URL,数据类型为varchar;UserRole有六个字段: Time,URL,Resource,Provider,Requester,Interested,Time数据类型为timestamp, 其余数据类型均为varchar。
(7)暗网资源横向分析模块:实现暗网社会模型的建立,也是对暗网的横向分 析。由于暗网的匿名性,同一个用户在不同的论坛往往会使用不同的用户名,因此 想要追踪一个用户在不同论坛中的活动是不现实的,但是可以将不同论坛中扮演 相似角色的用户归为同一类人,分析同一资源在不同论坛中的用户关系。
(8)检测器模块:实现对网络安全事件的追踪,该模块的输入是安全事件的关 键字,输出为相关的暗网论坛的域名以及用户名。
进一步地,暗网域名收集模块根据暗网类型分为Tor域名收集模块、Freenet域 名收集模块、I2P域名收集模块和明网爬虫模块。具体说明:
1)Tor域名收集模块:该模块实现对于Tor域名的探测,使用暗网爬虫从duckduckgo等暗网搜索引擎或导航网站上获取暗网域名,并且根据已收集的暗网 域名递归地在各个暗网站点收集域名;
2)Freenet域名收集模块:该模块实现对Freenet域名的探测,使用暗网爬虫 则从Enzo’s Index等导航网站上获取暗网域名,并且根据已收集的暗网域名递归 地在各个暗网站点收集域名;;
3)I2P域名收集模块:该模块实现对I2P域名的探测,使用暗网爬虫则从已 知的I2P暗网站点中获取友情链接,此外,还要从hosts.txt或者hostsdb.blockfile 文件中或区域名。
4)明网爬虫模块:该模块使用明网爬虫从UGC网站上获取数据,根据正则 表达式获取Tor,I2P以及Freenet暗网域名,分别传送到上述三个模块中。
在本发明的另一较佳实施方式中,基于基于长短期记忆神经网络的暗网资源探测系统的探测方法,分为训练阶段和检测阶段两个阶段,步骤如下:
(1)训练阶段包括:
步骤1、暗网域名收集,通过暗网域名收集模块的明网爬虫以及暗网爬虫收集 暗网论坛的域名,得到URL,将URL存入数据库URL表中;
步骤2、暗网站点页面获取,根据的得到的URL,通过暗网爬虫在相应的暗 网站点中获取html文件;
步骤3、页面分析,在分析器模块中将html文件按照格式解析,得到论坛结 构树,并遍历根节点到每个叶子节点,得到若干数据Data=(URL;Section;User: post;User:reply;User:reply;User:reply;…)。
步骤4、数据过滤,将分析器模块中得到的数据输入过滤器模块:实现对数据 的过滤,将与网络安全无关的分支过滤掉。
步骤5、数据训练,将经过过滤的数据Data输入到分类器模块(LSTM神经 网络)中进行无监督训练得到classification=(Time,URL,Resource,Provider, Requester,Interested),并且将这些数据按照字段存入到数据库中的UserType表 中;
步骤6、数据存储,在暗网信息全部输入到数据库中后,遍历UserType表, 以资源为分类依据对用户进行筛选,得到target=(resource,URL,Provider, Requester,Interested),其中,每条数据中的resource是确定的,其余数据是根据 该resource在数据库中检索得到的数据,用户是按照对应的时间先后顺序排列 的。
步骤7、暗网的横向分析,在暗网资源横向分析模块实现暗网社会模型的建 立。由于暗网的匿名性,同一个用户在不同的论坛往往会使用不同的用户名,将 不同论坛中扮演相似角色的用户归为同一类人,分析同一资源在不同论坛中的用 户关系。
步骤8、得到检测模型,检测器模块实质是一个基于双向LSTM(BLSTM) 神经网络的问答系统,将经过暗网资源横向分析模块的target输入到检测器模块 中进行无监督训练,即可得到检测模型。
(2)检测阶段包括:
步骤1、检测内容输入,将网络安全事件的关键字以及日期Time输入到检测 器模块中,得到输出result=(URL,user)。
步骤2、检测结果输出,根据URL以及user去相应的站点进行检索,即可得 到安全事件的溯源结果。
为了更好的工作,本发明在部署时可以续使用明网爬虫以及暗网爬虫获取暗 网域名,并且对于可访问的暗网论坛持续的获取论坛新内容,每当有新内容更新时, 及时将数据送入送入分类器模块中进行分类,使用新数据对检测器模块进行训练。 当一个域名失效时,暂停对于该域名对应站点的探索,以避免资源的浪费。
本发明通过明网爬虫等措施获取暗网域名,通过暗网爬虫获取暗网论坛的内 容,并且为每个暗网论坛建立一个论坛网络模型,将其中的用户通过分类器按照不 同的资源分为资源提供者、资源寻求者以及资源兴趣者,存入到数据库中,再将整 个暗网的信息结合起来,构建一个暗网社会模型,将数据送入检测器进行训练,在 有新的网络安全事件发生时,将安全事件的关键字输入到检测器中,即可得到相关 论坛、用户的输出,由此便可实现暗网资源的探索。本发明能够及时的发现黑客在 暗网中发布的漏洞以及安全威胁信息,做好安全事件的实时响应。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例的暗网资源探测系统示意图;
图2是本发明的一个较佳实施例的暗网域名探测模块结构示意图;
图3是本发明的一个较佳实施例的暗网论坛结构示意图;
图4是本发明的一个较佳实施例的分类器模块示意图;
图5是本发明的一个较佳实施例的暗网社会网络模型示意图;
图6是本发明的一个较佳实施例的检测器模块示意图。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非 仅限于文中提到的实施例。
在附图中,结构相同的部件以相同数字标号表示,各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的,本发明并没有 限定每个组件的尺寸和厚度。为了使图示更清晰,附图中有些地方适当夸大了部件的 厚度。
如图1所示,本实施例包括暗网域名收集模块、暗网页面获取模块、分析器模 块、过滤器模块、分类器模块、数据库、暗网资源横向分析模块和检测器模块。
如图2所示,本实施例的暗网域名收集模块根据暗网类型分为Tor域名收集模 块、Freenet域名收集模块和I2P域名收集模块,此外还有在明网收集暗网域名的 明网爬虫模块。明网爬虫模块在各个UGC站点按照正则表达式匹配暗网域名,分 别传送到Tor、I2P、Freenet域名收集模块中。在Tor域名收集模块中,使用暗网 爬虫在Tor暗网索引站点、Tor暗网搜索引擎以及以及Tor暗网站点上收集暗网域 名,并将这些域名和明网爬虫获得的作为已知域名递归地在已知暗网站点收集暗 网域名;在I2P域名收集模块中,通过I2P本地文件获取暗网域名,将各个方式获 得的I2P域名作为已知域名,使用暗网爬虫在已知的暗网域名对应的暗网站点上 递归地获取新的域名;在Freenet域名收集模块中,使用暗网爬虫在Freenet暗网 索引站点、Freenet暗网搜索引擎以及以及Freenet暗网站点上收集暗网域名,并将 这些域名和明网爬虫获得的域名作为已知域名递归地在已知暗网站点收集暗网域 名。
如图3所示,暗网论坛以URL为顶点,以论坛版块(User:Section)为第二层节 点,包括Section1、Section2、Section3,该论坛中每个用户的回复都会创建一个新 的子节点,以Section1为例进行说明,Section1有User1的发言Post1、User2的发 言Post2、User3的发言Post3;User1的发言Post1下面有User7的回复Reply、 User8的回复Reply:对于User7的回复Reply,下有User9的回复Reply,下面继 续是User7的回复Reply;对于User8的回复Reply,下有User1的回复Reply,下 面继续是User8的回复Reply。User2的发言Post2下面有User9的回复Reply、 User10的回复Reply、User11的回复Reply。User3的发言Post3下面有User12的 回复Reply、User3的回复Reply。而两个不同用户对同一条消息的回复则会构成一 个新的分支,这样,整个论坛的结构就会构成一棵多叉树,建立好暗网论坛结构模 型之后,从根节点到每一个叶子节点的路径都是唯一的,将这条路径上节点的数据 拼接起来就可以构成一个字符串Data=(URL;Section;User:post;User:reply;User: reply;…),该结果将输入到分类器中对每个用户按照资源进行角色分类。分析器 模块对暗网用户发言的分析,按照暗网论坛结构模型为该论坛建立一棵树,并且遍 历这棵树从根节点到每个叶子节点的路径。
图4为分类器模型示意图,该分类器实质是一个LSTM神经网络,LSTM神经 网络具有记忆功能,并且不限制窗口大小,因此在自然语言处理方面有着无可比拟 的优势。本系统最上层为输入层,输入层下面是嵌入层,作用是将单词转换为向量, 接下来是LSTM层,LSTM有8层,每层512个LSTM神经元,每一层的输出作 为下一层的输入,再下面是Softmax层,作用是将输出映射到(0,1)之间的概率 空间,而这些概率的和为1,起到分类的效果,最后一层是输出层,按照输入的用 户进行角色的分类输出。
图5所示为暗网社会网络模型,该模型是对暗网社会网络结构的横向分析,将 不同论坛的用户通过相同的资源建立联系,并根据这些资源进行分类,作为训练数 据输入到检测器模块中。其中,Forum为论坛,resource是资源(包括安全漏洞, 黑客工具,敏感信息等等),Provider是在论坛中资源的提供者,Requester是论坛 中寻求资源的用户,Interested是论坛中对资源感兴趣的用户,但是并没有强烈的 想要得到该资源的意向。
图6所示为检测器模块,LSTM(BLSTM)神经网络的问答系统,输入的 (resource,time)是问题,输出的User则是答案,BLSTM的基本思想是提出每一个 训练序列前向和后向分别是两个LSTM神将网络,而且这两个都连接着一个输出 层,这个结构提供给输出层输入序列中每一个点的完整的过去和未来的上下文信 息,正向LSTM捕捉到了上文的特征信息,而反向LSTM捕捉到了下文的特征信 息。在输入层之上,叠加8层BLSTM层,每层512个节点,叠加方式是将每个 输入对应的BLSTM层的输出作为下一层BLSTM的输入,在最后一层BLSTM之 上,使用Mean Pooling机制融合各个BLSTM节点的信息,再套上一层Softmax 层,得到最终的输出。
为了更好的工作,本实施例持续使用明网爬虫以及暗网爬虫获取暗网域名,并 且对于可访问的暗网论坛持续的获取论坛新内容,每当有新内容更新时,及时将数 据送入送入分类器模块中进行分类,使用新数据对检测器模块进行训练。当一个域 名失效时,暂停对于该域名对应站点的探索,以避免资源的浪费。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术 人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得 到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于长短期记忆神经网络的暗网资源探测系统,其特征在于,包括暗网域名收集模块、暗网页面获取模块、分析器模块、过滤器模块、分类器模块、数据库、暗网资源横向分析模块和检测器模块;所述暗网域名收集模块实现暗网域名的收集;所述暗网页面获取模块实现暗网页面的获取;所述分析器模块实现对暗网用户发言的分析;所述过滤器模块实现对数据的过滤,将与网络安全无关的分支过滤掉;所述分类器模块实现对暗网论坛中用户的分类,对所述暗网论坛进行纵向分析;所述数据库实现对关键数据的存储,所述数据库中主要有两张表,即URL表以及UserRole表;所述暗网资源横向分析模块实现暗网社会模型的建立,对暗网进行横向分析;所述检测器模块实现对网络安全事件的追踪。
2.如权利要求1所述的基于长短期记忆神经网络的暗网资源探测系统,其特征在于,所述暗网域名收集模块通过明网以及暗网爬虫实现,明网爬虫在UGC站点上获取数据,并且按照正则表达式匹配暗网域名,暗网爬虫则从暗网的索引站点获取域名,本模块将获得的域名存入到数据库的URL表中,并作为输入输出到暗网页面获取模块。
3.如权利要求1或2所述的基于长短期记忆神经网络的暗网资源探测系统,其特征在于,所述暗网域名收集模块根据暗网类型分为Tor域名探测模块、Freenet域名探测模块和I2P域名探测模块。
4.如权利要求1所述的基于长短期记忆神经网络的暗网资源探测系统,其特征在于,所述暗网页面获取模块通过暗网爬虫实现,输出为html文件。
5.如权利要求1所述的基于长短期记忆神经网络的暗网资源探测系统,其特征在于,所述分析器模块按照所述暗网论坛的结构模型建立一棵树,并且遍历这棵树从根节点到每个叶子节点的路径,将这些路径按照(URL;Section;User:post;User:reply;User:reply;User:reply;…)的格式输入到过所述滤器模块中。
6.如权利要求1所述的基于长短期记忆神经网络的暗网资源探测系统,其特征在于,所述分类器模块将所述暗网论坛中的用户分为三类:资源提供者、资源寻求者以及资源兴趣者,所述分类器模块本质上是一个LSTM神经网络模型,以字符串数据为输入,输出为(Time,URL,Resource,Provider,Requester,Interested),其中Provider,Requester,Interested(即资源提供者、资源寻求者以及资源兴趣者)是User Type的三类,是由用户名组成的。
7.如权利要求1所述的基于长短期记忆神经网络的暗网资源探测系统,其特征在于,所述数据库中所述URL表只有一个字段URL,数据类型为varchar;所述UserRole表有六个字段,为Time,URL,Resource,Provider,Requester,Interested,Time数据类型为timestamp,其余数据类型均为varchar。
8.如权利要求1所述的基于长短期记忆神经网络的暗网资源探测系统,其特征在于,所述暗网资源横向分析模块将不同论坛中扮演相似角色的用户归为同一类人,分析同一资源在不同论坛中的用户关系。
9.如权利要求1所述的基于长短期记忆神经网络的暗网资源探测系统,其特征在于,所述检测器模块的输入是安全事件的关键字,输出为所述暗网论坛的域名以及用户名,所述检测器模块是一个基于双向LSTM(BLSTM)神经网络的问答系统。
10.一种如权利要求1-9任一所述的基于长短期记忆神经网络的暗网资源探测系统的暗网资源探测方法,其特征在于,所述探测方法分为训练阶段和检测阶段;
所述训练阶段包括:
步骤1、暗网域名收集,通过所述暗网域名收集模块的明网爬虫以及暗网爬虫收集暗网论坛的域名,得到URL,将所述URL存入所述数据库的所述URL表中;
步骤2、暗网站点页面获取,根据所述URL,通过所述暗网爬虫在暗网站点中获取html文件;
步骤3、页面分析,在所述分析器模块中将所述html文件按照格式解析,得到论坛结构树,并遍历根节点到每个叶子节点,得到若干数据Data=(URL;Section;User:post;User:reply;User:reply;User:reply;…);
步骤4、数据过滤,将所述分析器模块中得到的数据输入所述过滤器模块,将与网络安全无关的分支过滤掉;
步骤5、数据训练,将经过过滤的所述数据Data输入到所述分类器模块进行无监督训练得到classification=(Time,URL,Resource,Provider,Requester,Interested),并且将所述数据Data按照字段存入到所述数据库中的UserType表中;
步骤6、数据存储,在暗网信息全部输入到所述数据库中后,遍历所述UserType表,以资源为分类依据对用户进行筛选,得到target=(resource,URL,Provider,Requester,Interested),其中,每条数据中的所述resource是确定的,其余数据是根据所述resource在所述数据库中检索得到的数据,所述用户是按照对应的时间先后顺序排列的;
步骤7、暗网的横向分析,在所述暗网资源横向分析模块实现暗网社会模型的建立。由于暗网的匿名性,同一个用户在不同的论坛往往会使用不同的用户名,将不同论坛中扮演相似角色的用户归为同一类人,分析同一资源在不同论坛中的用户关系;
步骤8、得到检测模型,所述检测器模块是一个基于双向LSTM(BLSTM)神经网络的问答系统,将经过暗网资源横向分析模块的target输入到所述检测器模块中进行无监督训练,即可得到检测模型;
所述检测阶段包括:
步骤1、检测内容输入,将网络安全事件的关键字以及日期Time输入到所述检测器模块中,得到输出result=(URL,user);
步骤2、检测结果输出,根据URL以及user去相应的站点进行检索,即可得到安全事件的溯源结果。
CN201810564633.3A 2018-06-04 2018-06-04 一种基于长短期记忆神经网络的暗网资源探测系统 Active CN108874943B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810564633.3A CN108874943B (zh) 2018-06-04 2018-06-04 一种基于长短期记忆神经网络的暗网资源探测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810564633.3A CN108874943B (zh) 2018-06-04 2018-06-04 一种基于长短期记忆神经网络的暗网资源探测系统

Publications (2)

Publication Number Publication Date
CN108874943A true CN108874943A (zh) 2018-11-23
CN108874943B CN108874943B (zh) 2021-10-22

Family

ID=64336778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810564633.3A Active CN108874943B (zh) 2018-06-04 2018-06-04 一种基于长短期记忆神经网络的暗网资源探测系统

Country Status (1)

Country Link
CN (1) CN108874943B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321430A (zh) * 2019-04-16 2019-10-11 中国银行股份有限公司 域名识别和域名识别模型生成方法、装置及存储介质
CN110909178A (zh) * 2019-11-22 2020-03-24 上海交通大学 一种暗网威胁情报收集与信息关联系统和方法
CN111309572A (zh) * 2020-02-13 2020-06-19 上海复深蓝软件股份有限公司 测试分析方法、装置、计算机设备及存储介质
CN111835785A (zh) * 2020-05-19 2020-10-27 中国电子科技集团公司第三十研究所 一种基于查询机制的i2p网络节点的探测方法
CN112148956A (zh) * 2020-09-30 2020-12-29 上海交通大学 一种基于机器学习的暗网威胁情报挖掘系统和方法
CN112202788A (zh) * 2020-09-30 2021-01-08 上海交通大学 一种基于机器学习的暗网威胁预测系统
CN112202782A (zh) * 2020-09-30 2021-01-08 上海交通大学 一种基于网络流量的暗网用户行为检测方法和系统
CN112464666A (zh) * 2019-08-19 2021-03-09 四川大学 一种基于暗网数据的未知网络威胁自动发现方法
CN115001987A (zh) * 2022-07-19 2022-09-02 中国电子科技集团公司第三十研究所 一种Tor网络的域名规模评估方法及系统
CN115002045A (zh) * 2022-07-19 2022-09-02 中国电子科技集团公司第三十研究所 一种基于孪生网络的暗网站点会话识别方法及系统
CN115051850A (zh) * 2022-06-08 2022-09-13 清创网御(合肥)科技有限公司 一种全球暗网威胁线索智能检测方法及检测系统
CN115296892A (zh) * 2022-08-02 2022-11-04 中国电子科技集团公司信息科学研究院 数据信息服务系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116635A (zh) * 2013-02-07 2013-05-22 中国科学院计算技术研究所 面向领域的暗网资源采集方法和系统
CN104731962A (zh) * 2015-04-03 2015-06-24 重庆邮电大学 一种社交网络中基于相似社团的好友推荐方法及系统
CN105247564A (zh) * 2013-05-31 2016-01-13 英特尔公司 在线社交人物管理
US20170026391A1 (en) * 2014-07-23 2017-01-26 Saeed Abu-Nimeh System and method for the automated detection and prediction of online threats
CN107341183A (zh) * 2017-05-31 2017-11-10 中国科学院信息工程研究所 一种基于暗网网站综合特征的网站分类方法
CN107808000A (zh) * 2017-11-13 2018-03-16 哈尔滨工业大学(威海) 一种暗网数据采集与抽取系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116635A (zh) * 2013-02-07 2013-05-22 中国科学院计算技术研究所 面向领域的暗网资源采集方法和系统
CN105247564A (zh) * 2013-05-31 2016-01-13 英特尔公司 在线社交人物管理
US20170026391A1 (en) * 2014-07-23 2017-01-26 Saeed Abu-Nimeh System and method for the automated detection and prediction of online threats
CN104731962A (zh) * 2015-04-03 2015-06-24 重庆邮电大学 一种社交网络中基于相似社团的好友推荐方法及系统
CN107341183A (zh) * 2017-05-31 2017-11-10 中国科学院信息工程研究所 一种基于暗网网站综合特征的网站分类方法
CN107808000A (zh) * 2017-11-13 2018-03-16 哈尔滨工业大学(威海) 一种暗网数据采集与抽取系统及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
曹旭等: "暗网中I2P资源的初步探索", 《通信技术》 *
杨溢等: "基于 Tor 的暗网空间资源探测", 《通信技术》 *
郑佳谦等: "论坛社区用户时空特征建模与挖掘", 《计算机研究与发展》 *
郭晗等: "基于Freenet的暗网空间资源探测", 《通信技术》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321430A (zh) * 2019-04-16 2019-10-11 中国银行股份有限公司 域名识别和域名识别模型生成方法、装置及存储介质
CN110321430B (zh) * 2019-04-16 2021-08-06 中国银行股份有限公司 域名识别和域名识别模型生成方法、装置及存储介质
CN112464666A (zh) * 2019-08-19 2021-03-09 四川大学 一种基于暗网数据的未知网络威胁自动发现方法
CN112464666B (zh) * 2019-08-19 2023-07-21 四川大学 一种基于暗网数据的未知网络威胁自动发现方法
CN110909178A (zh) * 2019-11-22 2020-03-24 上海交通大学 一种暗网威胁情报收集与信息关联系统和方法
CN111309572A (zh) * 2020-02-13 2020-06-19 上海复深蓝软件股份有限公司 测试分析方法、装置、计算机设备及存储介质
CN111835785A (zh) * 2020-05-19 2020-10-27 中国电子科技集团公司第三十研究所 一种基于查询机制的i2p网络节点的探测方法
CN112148956A (zh) * 2020-09-30 2020-12-29 上海交通大学 一种基于机器学习的暗网威胁情报挖掘系统和方法
CN112202782A (zh) * 2020-09-30 2021-01-08 上海交通大学 一种基于网络流量的暗网用户行为检测方法和系统
CN112202788A (zh) * 2020-09-30 2021-01-08 上海交通大学 一种基于机器学习的暗网威胁预测系统
CN115051850A (zh) * 2022-06-08 2022-09-13 清创网御(合肥)科技有限公司 一种全球暗网威胁线索智能检测方法及检测系统
CN115001987A (zh) * 2022-07-19 2022-09-02 中国电子科技集团公司第三十研究所 一种Tor网络的域名规模评估方法及系统
CN115002045A (zh) * 2022-07-19 2022-09-02 中国电子科技集团公司第三十研究所 一种基于孪生网络的暗网站点会话识别方法及系统
CN115002045B (zh) * 2022-07-19 2022-12-09 中国电子科技集团公司第三十研究所 一种基于孪生网络的暗网站点会话识别方法及系统
CN115001987B (zh) * 2022-07-19 2022-12-09 中国电子科技集团公司第三十研究所 一种Tor网络的域名规模评估方法及系统
CN115296892A (zh) * 2022-08-02 2022-11-04 中国电子科技集团公司信息科学研究院 数据信息服务系统
CN115296892B (zh) * 2022-08-02 2023-11-24 中国电子科技集团公司信息科学研究院 数据信息服务系统

Also Published As

Publication number Publication date
CN108874943B (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN108874943A (zh) 一种基于长短期记忆神经网络的暗网资源探测系统
Kovic et al. Digital astroturfing in politics: Definition, typology, and countermeasures
Pacheco et al. Uncovering coordinated networks on social media: methods and case studies
Schäfer et al. BlackWidow: Monitoring the dark web for cyber security information
Pastor-Galindo et al. Spotting political social bots in Twitter: A use case of the 2019 Spanish general election
Miró-Llinares et al. Hate is in the air! But where? Introducing an algorithm to detect hate speech in digital microenvironments
Dambo et al. Office of the citizen: a qualitative analysis of Twitter activity during the Lekki shooting in Nigeria’s# EndSARS protests
Hajarian et al. SNEFL: Social network explicit fuzzy like dataset and its application for Incel detection
Jin et al. Modeling mass protest adoption in social network communities using geometric brownian motion
Zarei et al. Deep dive on politician impersonating accounts in social media
Cilleruelo et al. Interconnection between darknets
Tan et al. Research status of deep learning methods for rumor detection
Fu et al. KG-MFEND: an efficient knowledge graph-based model for multi-domain fake news detection
Zhu et al. Ontology-based approach for the measurement of privacy disclosure
Cascavilla et al. The insider on the outside: a novel system for the detection of information leakers in social networks
Phillips et al. Extracting social structure from darkweb forums
Bertram The Tao of open source intelligence
van der Wagen From cybercrime to Cyborg crime: An exploration of high-tech cybercrime, offenders and victims through the lens of actor-network theory
Singh et al. Fighting for Information Credibility: AnEnd-to-End Framework to Identify FakeNews during Natural Disasters.
Lazer et al. Political Networks and Computational Social Science
Elezaj et al. Crime Intelligence from Social Media Using CISMO
Azaza et al. Information fusion-based approach for studying influence on Twitter using belief theory
Reelfs Content & user behavior in anonymous hyperlocal online platforms
Senthil et al. A hybrid deep learning technique based integrated multi-model data fusion for forensic investigation
Pacheco et al. Uncovering coordinated networks on social media: Methods and case studies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant