CN110825950B

CN110825950B - 一种基于元搜索的隐藏服务发现方法

Info

Publication number: CN110825950B
Application number: CN201910911334.7A
Authority: CN
Inventors: 王学宾; 时金桥; 李全刚; 尹泽林; 赵璨; 高悦; 陈牧谦; 王美琪
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2022-05-17
Anticipated expiration: 2039-09-25
Also published as: CN110825950A

Abstract

本发明公开了一种基于元搜索的隐藏服务发现方法，其步骤包括：1)根据设定的初始关键词进行搜索，并将搜索结果页面中的链接加入集合U中；2)根据设定的隐藏服务地址匹配规则从该集合U中提取匹配的隐藏服务地址并加入到集合V中；3)访问集合V中的每一地址，提取各地址对应网页中的链接并加入到一集合L中；4)访问集合L的每一地址，根据设定的隐藏服务地址匹配规则提取各地址对应网页中匹配的链接作为隐藏服务地址并加入到一集合H中；5)将该集合H中的地址作为隐藏服务地址输出。本发明摆脱了匿名网络协议的限制，并且体现出了良好的效果，提高了隐藏服务发现。

Description

一种基于元搜索的隐藏服务发现方法

技术领域

本发明涉及一种基于元搜索的隐藏服务发现方法，属于网络通信技术领域。

背景技术

匿名通信技术最早起源于1981年David Chaum提出的Mix网络的概念。随后从Mix网络的设计理念而衍生出来的Tor、I2p等匿名通信系统在匿名通信领域大放异彩，成为了保障用户互联网隐私的有效技术手段。用户作为客户端访问互联网，匿名通信系统能够保证客户端的匿名性，使得服务端无法对客户端进行溯源，从而达到对用户的隐私保护目的。

随着匿名通信技术近年来的快速发展，现有的匿名通信系统不仅保证客户端的匿名访问，也已经能够保证服务端的匿名性，即服务端位置如同客户端位置一样不可溯源。这种服务被称作隐藏服务，具有代表性的隐藏服务有Tor网络中的Hidden Service和I2p网络中的Eepsite等，隐藏服务中的web服务在信息安全领域通常被称作暗网(Dark web)。暗网本身是一把双刃剑，作为服务的提供者，暗网隐藏服务在保障了自身的隐私安全的同时，这些在暗网中的非法内容甚至构成了比隐私安全还要严重的安全威胁。据2013年卡巴斯基实验室报告，Tor网络中的暗网隐藏服务已经成了僵尸网络、恶意软件指令服务器和网络黑市的庇护所。

随着暗网中非法活动的日益猖獗，针对隐藏服务的发现显得越来越有必要，是匿名网络领域中一个越来越重要的研究方向。本发明针对匿名网络之上的隐藏服务，提出了一种基于元搜索引擎的隐藏服务发现方法，并对该方法进行了相应的理论分析，最后通过实验论证了该方法的可行性与高效性。

当前对隐藏服务地址的发现都需要遵循相关匿名网络的协议来进行发现。以TorHidden Service为例，当前Hidden Service地址发现的一般过程为在Tor网络中部署具有日志记录功能的HSDir节点，当节点获得的HSDir记录标签之后，通过日志的方式将发布在该节点之上的隐藏服务地址记录下来，从而达到地址发现的目的。这样的方式往往具有较大的资源消耗，必须遵循匿名网络的相关协议，并且发现地址的数量受限于节点部署的数量。

发明内容

针对现有技术中存在的技术问题，为了发现匿名网络中的隐藏服务地址，本发明提出一种基于元搜索引擎的隐藏服务发现方法。本发明适用的对象包括Tor HiddenService、I2P EepSite、Zeronet Zsite三种暗网服务地址的发现本发明采用了匿名网络协议之外的方法，摆脱了匿名网络协议的限制，并且体现出了良好的效果，大大提高了隐藏服务发现能力。

本发明提出了关键词搜索算法，并设计了针对于不同匿名网络的搜索关键词。

本发明的技术方案为：

一种基于元搜索的隐藏服务发现方法，其步骤包括：

1)根据设定的初始关键词进行搜索，并将搜索结果页面中的链接加入集合U中；

2)根据设定的隐藏服务地址匹配规则从该集合U中提取匹配的隐藏服务地址并加入到集合V中；

3)访问集合V中的每一地址，提取各地址对应网页中的链接并加入到一集合L中；

4)访问集合L的每一地址，根据设定的隐藏服务地址匹配规则提取各地址对应网页中匹配的链接作为隐藏服务地址并加入到一集合H中；

5)将该集合H中的地址作为隐藏服务地址输出。

进一步的，Tor网络的隐藏服务地址的匹配规则为：^[A-Za-z0-9]{16}.onion$。

进一步的，I2P网络的隐藏服务地址的匹配规则为：^([A-Za-z0-9]{52}.b32)|([A-Za-z0-9]+).i2p$。

进一步的，Zeronet网络中的隐藏服务地址的匹配规则为：^([a-km-zA-HJ-NP-Z1-9]{34})|([A-Za-z0-9]+.bit)$。

进一步的，用于获取Tor网络隐藏服务地址的初始关键词为site:tor2web.org、site:tor2web.fi、site:torstorm.org、site:onion.city、site:onion.to、site:onion.cab、site:onion.direct、site:onion.lt、site:onion.nu、site:tor2web.blutmagie.de。

进一步的，用于获取I2P网络隐藏服务地址的初始关键词为：site:i2p、site:i2p.xyz。

进一步的，用于获取Zeronet网络隐藏服务地址的初始关键词为：site:bit.no。

进一步的，对于集合U、集合L和集合V中的地址进行在线验证，根据在线状态筛选出有效的、可访问的隐藏服务地址。

进一步的，对于集合H中的每一地址，根据设定的隐藏服务地址匹配规则提取各地址对应网页中匹配的链接作为隐藏服务地址并加入到一集合H(i)中；对于集合H(i)中的每一地址，根据设定的隐藏服务地址匹配规则提取各地址对应网页中匹配的链接作为隐藏服务地址并加入到一集合H(i+1)中，迭代执行，直至集合H(i+1)中地址数量相对集合H(i)中地址数量变化小于设定比例，或者集合H(i+1)中地址数量与一固定值N之差小于设定阈值。

附图说明

图1为本发明的方法流程图；

图2为算法执行次数与收集地址总数在不同f值下的关系图；

图3为算法执行次数与地址收集总数的理论与实际关系图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明。

首先指出基于元搜索引擎能够发现匿名网络隐藏服务的基础。以Tor HiddenService为例，由于2008年A.Swartz等人发起的Tor2web项目的开展，使得部分Tor暗网站点能够以代理服务的形式通过表层网络入口进行访问，这样促使了商业搜索引擎对部分Tor暗网站点信息索引的构建。同时，一些个人维护的Tor暗网黄页类型的表层网页同样记录有Tor暗网的地址，也能够被商业搜索引擎所索引。这样就提供给了利用商业搜索引擎提供的信息检索服务来发现隐藏服务地址的突破口。同时其他匿名网络也拥有类似于Tor2Web的相关项目，如I2P EepSite的I2P.XYZ，Zeronet的bit.no。

本发明的方法流程如图1所示，在具体实施中，本发明选取了一些特殊的关键词作为查询入口并进行搜索，提取搜索结果页面中的隐藏服务地址并作为关键词再进行迭代搜索。具体的算法描述如算法1所示。

算法1关键词搜索算法

输入：关键词集合S

输出：隐藏服务地址集合H

1.S表示搜索关键词集合

2.U表示第一次检索返回的网址集合

3.V表示U中的隐藏服务地址集合

4.while i<|S|

5.在搜索引擎中搜索关键词集合S中的第i个关键词，将搜索结果中的链接加入U

6.利用正则式匹配onion提取集合U中符合设定规则的地址作为隐藏服务的地址加入到V；隐藏服务的地址特征较为明显，可以通过正则表达式提取，如Tor中的隐藏服务地址，由16个随机的数字或字母组成，使用.onion域名。

7.end while

8.L表示第二次检索返回的地址集合

9.while i<|V|

10.在搜索引擎中搜索集合V中的第i个关键词(即提取的地址)，将搜索结果中第i个地址对应网页中的链接加入L

11.end while

12.H表示隐藏服务地址集合

13.while i<|L|

14.访问第i个链接，利用正则表达式匹配提取链接对应的页面中与设定特征匹配的地址作为隐藏服务地址，加入H

15.end while

16.返回H。

针对不同的匿名网络，根据其隐藏服务地址不同的特征进行正则匹配，以提取匿名网络中的隐藏服务地址。

其中，Tor网络的隐藏服务地址的匹配规则为：^[A-Za-z0-9]{16}.onion$。

I2P网络的I2P EepSite的匹配规则为：^([A-Za-z0-9]{52}.b32)|([A-Za-z0-9]+).i2p$。

Zeronet网络中zsite的匹配规则为：^([a-km-zA-HJ-NP-Z1-9]{34})|([A-Za-z0-9]+.bit)$。

搜索引擎的关键词选取方面，一方面，一些项目(如Tor2web项目)支持一些暗网站点能够以代理服务的形式通过表层网络入口进行访问，另一方面，暗网黄页类型的表层网页也记录有匿名网络隐藏服务的地址，这样的网页能够被商业搜索引擎所索引，因此，本发明选取这样的项目站点或匿名网络服务的黄页网页作为初始的关键词集合。

基于上述原则，对满足上述要求的站点进行搜集，得到不同匿名网络的关键词分别如下：

Tor Hidden Service的关键词为site:tor2web.org、site:tor2web.fi、site:torstorm.org、site:onion.city、site:onion.to、site:onion.cab、site:onion.direct、site:onion.lt、site:onion.nu、site:tor2web.blutmagie.de。

I2P EepSite的关键词为：site:i2p、site:i2p.xyz。

Zeronet的关键词为：site:bit.no。

下面将对关键词搜索算法的理论效果进行分析。由于搜索引擎每时每刻都在更新索引内容，所以每次搜索结果不一定完全一致。关键词算法的目的是尽可能的收集隐藏服务地址，每次通过关键词搜索算法获得的隐藏服务地址都将持久化到本地。本发明需要估算的是隐藏服务地址随着关键词搜索算法多次执行的累积总数，为了估算本发明使用中间场理论构建模型进行计算。两个重要的假设前提如下：

假设1：被搜索引擎索引的隐藏服务地址都有相同的概率被关键词搜索算法收集。

假设2：隐藏服务地址总数是一个固定的常数。

令隐藏服务地址总数为N，算法的每次执行收集到的隐藏服务地址数量为k，在算法执行t-1次时得到的隐藏服务地址累积总数为n(t)，第t次算法执行搜集到的隐藏服务地址中有m(t)个是旧地址，则：

那么本发明有k-m(t)个新地址，则关于n(t)的一个递推表达式为：

根据定义可知n(1)＝0,求解递推方程可得：

为了简化上述表达式，令f＝k/N，f表示每次算法执行获得的隐藏服务地址数量占隐藏服务总量的百分比，上述表达式变为：

n(t)＝N(1-(1-f)^t-1)

图2表示了展示了算法执行次数与收集地址总数在不同f值下的关系，当f越趋近于1，即每次收集过程收集的地址越全，收集的速度越快，算法执行的次数越少。

需要指出的是上述两个假设是对原问题的一个很大的简化。首先隐藏服务地址不应具有相同的概率被算法所收集，一些地址会相对其他地址更频繁的出现；其次本发明假设所有的隐藏服务地址总量是固定的常量，这个假设的基础在于隐藏服务历史地址数据很多而每日增量很少。如果隐藏服务地址呈现出大规模增长，那么上述的理论分析就不再有效。在接下来将通过实验来验证本发明的理论分析。

在实验中本发明选取了Tor Hidden Services的发现，采用了单机运行关键词搜索算法，采用了Google、Bing、Baidu三种搜索引擎。算法自2016年11月21日起，每周执行3次，共执行5周，总计收集到173667个不同的HS地址，平均每次收集170581个HS地址。根据f＝k/N可知，f＝170581/173667＝0.9822。图3展示了在f＝0.9822的条件下理论值与实际值的关系。可以看出理论值与实际值相符，由此证明了本发明方法本身的正确性。

在实际应用中，由于一些隐藏服务稳定性差，时效性强，因此有些地址虽然可以被搜索引擎搜索到，但是已经过时无法访问。为解决这一问题，本发明在收集到隐藏服务地址之后，需要模拟http访问，对这些地址进行在线验证。根据在线状态筛选出有效的、可访问的隐藏服务地址。这样可以保证收集到的地址的有效性。

另外，由于搜索引擎的特性，被关键词搜索算法发现的前提是被搜索引擎收录，隐藏服务地址被搜索引擎收录的前提是有人在表层网络的页面上发布了这个地址。另一方面，稳定的隐藏服务地址更容易被个人用户或组织在表层网络的页面上进行记录或推荐，这样就能够被搜索引擎所记录。因此，关键词搜索算法适用于对稳定的隐藏服务地址进行收集，越稳定的暗网服务效果越好。

尽管为说明目的公开了本发明的具体内容、实施算法以及附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于元搜索的隐藏服务发现方法，其步骤包括：

2)根据设定的隐藏服务地址匹配规则从该集合U中提取匹配的隐藏服务地址并加入到集合V中；其中，Tor网络的隐藏服务地址的匹配规则为：^[A-Za-z0-9]{16}.onion$；I2P网络的隐藏服务地址的匹配规则为：^([A-Za-z0-9]{52}.b32)|([A-Za-z0-9]+).i2p$；Zeronet网络中的隐藏服务地址的匹配规则为：^([a-km-zA-HJ-NP-Z1-9]{34})|([A-Za-z0-9]+.bit)$；

5)将该集合H中的地址作为隐藏服务地址输出。

2.如权利要求1所述的方法，其特征在于，用于获取Tor网络隐藏服务地址的初始关键词为site:tor2web.org、site:tor2web.fi、site:torstorm.org、site:onion.city、site:onion.to、site:onion.cab、site:onion.direct、site:onion.lt、site:onion.nu、site:tor2web.blutmagie.de。

3.如权利要求1所述的方法，其特征在于，用于获取I2P网络隐藏服务地址的初始关键词为：site:i2p、site:i2p.xyz。

4.如权利要求1所述的方法，其特征在于，用于获取Zeronet网络隐藏服务地址的初始关键词为：site:bit.no。

5.如权利要求1所述的方法，其特征在于，对于集合U、集合L和集合V中的地址进行在线验证，根据在线状态筛选出有效的、可访问的隐藏服务地址。

6.如权利要求1所述的方法，其特征在于，对于集合H中的每一地址，根据设定的隐藏服务地址匹配规则提取各地址对应网页中匹配的链接作为隐藏服务地址并加入到一集合H(i)中；对于集合H(i)中的每一地址，根据设定的隐藏服务地址匹配规则提取各地址对应网页中匹配的链接作为隐藏服务地址并加入到一集合H(i+1)中，迭代执行，直至集合H(i+1)中地址数量相对集合H(i)中地址数量变化小于设定比例，或者集合H(i+1)中地址数量与一固定值N之差小于设定阈值。