CN112887329B - 隐藏服务溯源方法、装置及电子设备 - Google Patents

隐藏服务溯源方法、装置及电子设备 Download PDF

Info

Publication number
CN112887329B
CN112887329B CN202110210087.5A CN202110210087A CN112887329B CN 112887329 B CN112887329 B CN 112887329B CN 202110210087 A CN202110210087 A CN 202110210087A CN 112887329 B CN112887329 B CN 112887329B
Authority
CN
China
Prior art keywords
link
classifier
hidden service
communication unit
basic communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110210087.5A
Other languages
English (en)
Other versions
CN112887329A (zh
Inventor
时金桥
张尼
苏马婧
王美琪
王学宾
宋栋
石瑞生
王东滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110210087.5A priority Critical patent/CN112887329B/zh
Publication of CN112887329A publication Critical patent/CN112887329A/zh
Application granted granted Critical
Publication of CN112887329B publication Critical patent/CN112887329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2463/00Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
    • H04L2463/146Tracing the source of attacks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开提供一种隐藏服务溯源方法、装置及电子设备,采用了链路指纹识别技术;首先部署在隐藏服务中的守卫节点运行流量监听程序,将得到的可观察流量转换为链路基本通信单元序列;将链路基本通信单元序列输入预先训练好的第一分类器,判断输入的序列是否为隐藏服务至会和节点的链路;将由第一分类器判断得到的隐藏服务至会和节点的链路输入第二分类器,输出该链路对应的隐藏服务类别,根据已知的隐藏服务IP地址,获取该隐藏服务的域名,完成隐藏服务溯源。使用该方法进行隐藏服务溯源的准确率达到了90%,提高了工作效率。

Description

隐藏服务溯源方法、装置及电子设备
技术领域
本公开涉及网络通信技术领域,尤其涉及一种隐藏服务溯源方法、装置及电子设备。
背景技术
流量指纹识别技术是通过将目标匿名网络用户访问网络服务的可观察流量收集为数据包序列,利用机器学习、深度学习等方法构建分类器,通过对匿名网络用户访问的数据包序列进行分类,进而推断用户的访问内容。该方法可以使流量监听者在没有解密任何数据包的情况下,使用流量分析的方法对匿名网络用户访问内容进行识别,因此多用于客户端的溯源。
常见流量指纹攻击技术大多用于客户端的识别。现有技术主要是围绕针对暗网服务访问用户匿名性破解方面进行开展,针对暗网隐藏服务物理位置匿名性破解的工作相对匮乏,如何将流量指纹相关技术应用到暗网隐藏服务溯源领域是目前需要进一步研究的问题。
发明内容
有鉴于此,本公开的目的在于提出一种隐藏服务溯源方法、装置及电子设备。
基于上述目的,本公开提供了一种隐藏服务溯源方法,包括:
为隐藏服务部署守护节点,在所述守护节点处进行流量监听,进行流量捕获以获取可观察流量,其中,将所述可观察流量转化为链路基本通信单元序列;
并包括如下步骤:
使用第一分类器进行链路指纹识别,将所述链路基本通信单元序列输入所述第一分类器,判断所述链路基本通信单元序列是否为所述隐藏服务到会和节点HS-RP的链路;
响应于确定所述第一分类器判断输入的所述链路基本通信单元序列为所述HS-RP链路,将所述HS-RP链路和所述隐藏服务的标签输入第二分类器,所述第二分类器输出该所述HS-RP链路对应的所述隐藏服务标签。
基于同一发明目的,本公开还提供了一种隐藏服务溯源装置,包括:
流量捕获模块,为隐藏服务部署守护节点,在所述守护节点处进行流量监听,并进行流量捕获以获取可观察流量,其中,将所述可观察流量转化为链路基本通信单元序列;
第一分类模块,使用第一分类器进行链路指纹识别,将链路基本通信单元序列输入所述第一分类器,判断所述链路基本通信单元序列是否为所述隐藏服务到会和节点HS-RP的链路;
第二分类模块,响应于确定所述第一分类器判断输入的所述链路基本通信单元序列为所述HS-RP链路,将所述HS-RP链路和隐藏服务标签输入第二分类器,所述第二分类器输出该所述HS-RP链路对应的所述隐藏服务标签。
基于同一发明目的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述隐藏服务溯源方法。
从上面所述可以看出,本公开提供的隐藏服务溯源方法、装置及电子设备,将链路指纹识别与流量指纹攻击技术结合起来,实现隐藏服务的溯源。使用本发明对隐藏服务守护节点与隐藏服务之间的流量进行链路识别,准确率可以达到96%;进一步对HS-RP链路的流量进行指纹识别溯源,准确率可达90%。
附图说明
为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例的隐藏服务溯源方法的步骤图;
图2为本公开实施例的隐藏服务溯源方法的流程图;
图3为本公开实施例的隐藏服务溯源装置的结构示意图;
图4为本公开实施例的电子设备示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
流量指纹识别技术是通过将目标匿名网络用户访问网络服务的可观察流量收集为数据包序列,利用机器学习、深度学习等方法构建分类器,通过对匿名网络用户访问的数据包序列进行分类,进而推断用户的访问内容。该方法可以使流量监听者在没有解密任何数据包的情况下,使用流量分析的方法对匿名网络用户访问内容进行识别,因此多用于客户端的溯源。近年来,研究者提出了一系列基于机器学习方法的网站指纹识别攻击,可以将准确率保持在90%,同时降低攻击成本。
常见的流量指纹攻击技术大多用于客户端的识别。相关技术主要是围绕针对暗网服务访问用户匿名性破解方面进行开展,针对暗网隐藏服务物理位置匿名性破解的工作相对匮乏,如何将流量指纹相关技术应用到暗网隐藏服务溯源领域是目前需要进一步研究的问题。
为解决上述问题,本公开提出一种隐藏服务溯源方法、装置及电子设备,本方法基于链路指纹识别技术,通过植入隐藏服务守护节点,在其上对隐藏服务的加密流量进行被动监听与分析,将加密流量转化为链路基本通信单元序列并输入第一分类器判断该序列是否为由隐藏服务至会和节点(Hidden Service-Rend-Point,HS-RP)的链路,然后将判断得到的HS-RP链路输入第二分类器,由第二分类器识别出每条HS-RP链路对应的隐藏服务标签;同时,技术人员可根据隐藏服务标签得到该隐藏服务的互联网协议地址(InternetProtocol Address,IP地址),并将隐藏服务的IP地址与其域名进行关联,进而对隐藏服务进行溯源。这种方法在进行隐藏服务溯源时,提高了识别和溯源的准确率。
基于深度模型的匿名网络链路指纹识别,其目的是在没有解密任何数据包的情况下,使用流量分析的方法,将隐藏服务守护节点的可观察流量收集为链路基本通信单元序列,将深度学习分类应用于该序列,进而判断链路是否为HS-R的链路。利用神经网络自学习、自组织性与强鲁棒性,使用基于深度模型自动学习特征的方法,将提取的数据包序列直接作为输入进行分类。我们使用卷积神经网络模型对其进行分类。卷积神经网络是神经网络的特定架构,广泛用于自然语言处理任务,文本分类任务和序列分类任务,其卷积运算可以从输入序列的片段中提取高级的统计特征。
网站指纹识别方法被广泛应用于破解客户端的匿名性,即识别目标用户访问的目的。在服务端,也可以使用网站指纹识别的方法来关联隐藏服务的IP地址与内容。
在此场景下,攻击者在暗网中部署了入口节点。因此,攻击者可以知道将受控入口节点作为入口的隐藏服务h的IP地址。同时,攻击者拥有一个关注的隐藏服务的集合H=(h_1,h_2,…,h_n),可以事先训练好相应的流量分类模型M(H)。接下来,攻击者收集h与受控入口节点之间的流量,输入到分类模型中,就可以判断h是否属于H,以及h是H中的哪一个隐藏服务。与客户端的网站指纹识别问题类似,服务端的网站指纹识别问题同样可以看作是一个多分类(n+1类)的问题,其中,为了训练流量分类模型M(H),攻击者需要收集足够的训练样本:控制客户端访问H集合中的每个隐藏服务h_i,收集服务端h_i与暗网入口之间的流量。然而在实际条件下,很难保证所有的h_i都将攻击者的受控入口节点选做自己的入口节点。因此,攻击者需要部署自己的隐藏服务h_i*,作为h_i的镜像,以模拟h_i与入口节点之间的流量模式。
在本公开的实施例中,攻击者有一个自己关注的隐藏服务集合H,里面是他关心的隐藏服务的洋葱地址。攻击者拥有受控的守卫节点,可以看到节点处的链路信息,因此可以知道和自己通信的目标隐藏服务的IP地址,并将该IP地址与隐藏服务的域名关联。他的目的是知道这个IP地址对应的域名是否在他关心的H集合里,以及如果在的话,是H集合中的哪个域名,从而实现隐藏服务溯源的目的。
参考图1,实现隐藏服务溯源方法的步骤包括:
步骤S101,为隐藏服务部署守护节点,在所述守护节点处运行流量监听程序,并进行流量捕获以获取可观察流量。
本步骤中,攻击者部署自己的镜像隐藏服务,模拟H集合中的真实隐藏服务,指定受控节点为守卫节点,控制客户端对镜像隐藏服务进行访问,然后收集受控守卫节点处的日志;其中,将所述可观察流量转化为链路基本通信单元序列包括:以链路为单位记录链路基本通信单元的方向序列,+1表示发送基本通信单元,-1表示接受基本通信单元。
步骤S102,使用第一分类器进行链路指纹识别。
本步骤中,将所有链路基本通信单元序列通过补0或截取使其长度达到第一阈值,将得到的链路基本通信单元序列输入第一分类器,由第一分类器判断输入的序列是否为HS-RP链路,判断为是,第一分类器输出1,否则输出0。
步骤S103,使用第二分类器对由第一分类器判断得到的HS-RP链路进一步分类,输出所述HS-RP链路对应的隐藏服务标签。
本步骤中,对由第一分类器判断得到的HS-RP链路进行补0或截取,使其长度达到第二阈值,将得到的HS-RP链路和预先准备好的隐藏服务标签输入第二分类器,由第二分类器判断输入的HS-RP链路属于哪一个隐藏服务,输出对应的隐藏服务标签。依此判断该隐藏服务是否位于H集合中,或其对应的隐藏服务域名。
作为一个可选的实施例,参考表1,
表1、链路指纹识别的实验结果
方法 序列长度 准确率
随机森林 10 0.1643
随机森林 20 0.9544
卷积神经网络 10 0.5535
卷积神经网络 20 0.9633
分别对比随机森林模型和卷积神经网络在截取序列长度不同时的分类准确率,得出在截取序列长度为20时,分类准确率高于序列长度为10时;截截取序列长度均为20时,卷积神经网络模型的分类准确率高于随机森林模型,故第一分类器和第二分类器均选用卷积神经网络模型,第一阈值能够设为20。
参考表2,
表2、隐藏服务溯源的实验结果
截取序列长度 准确率
40 0.5257
50 0.6386
80 0.8571
100 0.8760
200 0.9029
500 0.7971
1000 0.7586
1500 0.5514
当截取序列长度为200时,其分类准确率明显高于其余长度,故第二阈值能够设为200。
作为一个可选的实施例,第一分类器分别计算输入的链路基本通信单元序列属于或不属于HS-RP链路的概率,两个概率相加为1;可以取预设置信度为0.5,若计算得到的序列属于HS-RP链路的概率不低于0.5时,判断输入的序列不属于HS-RP链路,输出0;否则,判断该序列属于HS-RP链路输出1。
作为一个可选的实施例,攻击者模拟部署了10个隐藏服务,故第二分类器的类别为10,输出的类别为0-9,第二分类器分别计算输入的HS-RP链路被判断为每个类别的概率,所有概率相加为1;若输入的HS-RP链路被分到其中一个类别2分别大于其被分为其余类别的概率时,该HS-RP链路的类别为类别2。
作为一个可选的实施例,在训练第一分类器或第二分类器时,均采用从预先设立的数据集中调用数据并进行处理,将处理后的数据中70%划分为训练集,剩余30%划分为测试集;使用训练集数据对卷积神经网络模型进行训练,使用测试集数据验证训练后的模型的分类准确率,若分类准确率达到技术人员的预设标准,训练成功并得到对应的第一分类器或第二分类器,否则继续使用训练集进行模型的训练,直到测试集的验证结果达到预设标准,其中,继续对模型进行训练时,还需要对模型的参数进行优化调整。
其中,在训练第一分类器时,从链路指纹数据集中调用相同数量的HS-RP链路实例和背景流量链路实例,对其分别进行归一化处理和数据对齐后获得链路基本通信单元序列。训练第二分类器时,从隐藏服务数据集中选取相同数量的被关注的隐藏服务流量实例和其余隐藏服务流量实例,对其分别进行归一化处理和数据对齐后获得HS-RP链路和被关注的隐藏服务标签。
作为一个可选的实施例,参照图2,本公开的实施例实现隐藏服务溯源的流程,包括:
步骤S201,在守卫节点处进行流量捕获。
步骤S202,将流量转化为链路基本通信单元序列。
步骤S203,将转化得到的链路基本通信单元序列作为第一训练集。
本步骤中,将转化得到的链路基本通信单元按照70%和30%的比例划分出第一训练集和第一测试集;还可以把从链路指纹数据集中调用的链路基本通信单元序列和转化得到的链路基本通信单元序列混合,划分出70%作为第一训练集,剩余30%作为第一测试集。
步骤S204,采用第一训练集训练卷积神经网络模型得到第一分类器。
本步骤中,使用第一训练集训练卷积神经网络模型,并使用第一测试集验证训练后的模型的分类准确度,重复训练并调整模型参数直到第一测试集的分类准确度达到预设标准。
步骤S205,将链路基本单元序列输入第一分类器进行分类。
本步骤中,将由流量转化得到的链路基本通信单元序列输入训练好的第一分类器。
步骤S206,保留分类得到的HS-RP链路,抛弃分类得到的其余链路。
步骤S207,获取隐藏服务标签。
步骤S208,将HS-RP链路和隐藏服务标签作为第二训练集。
本步骤中,对第一分类器分类得到的HS-RP链路按照70%和30%的比例划分出第二训练集和第二测试集;还可以把从隐藏服务数据集中提取并转化得到的HS-RP链路和第一分类器分类得到的HS-RP链路混合,划分出70%作为第二训练集,剩余30%作为第二测试集。
步骤S209,采用第二训练集训练卷积神经网络模型得到第二分类器。
本步骤中,使用第二训练集对卷积神经网络模型进行训练,并使用第二测试集验证训练后的模型的分类准确度,重复训练并调整模型参数直到第二测试集的分类准确度达到预设标准。
步骤S210,将HS-RP链路和隐藏服务标签输入第二分类器。
本步骤中,将由第一分类器分类得到的HS-RP链路输入第二分类器进行分类,分类器输出的结果为输入的隐藏服务标签。
步骤S211,第二分类器输出每一条HS-RP链路对应的隐藏服务标签。
本步骤中,根据输出的隐藏服务标签可以得到隐藏服务的IP地址,将IP地址和隐藏服务的域名关联起来,进而完成隐藏服务的溯源。
本公开实施例提供的隐藏服务溯源方法,进行链路指纹识别时,使用以卷积神经网络为基础的深度学习算法,将收集的流量数据处理后输入预先训练好的第一分类器,进而判断该链路是否为HS-RP链路,准确率达到了96%;在进行链路指纹分类之后,提取所有HS-RP的链路,将其输入预先训练好的第二分类器,以识别链路具体访问了哪个暗网隐藏服务,将隐藏服务的IP地址与隐藏服务的域名关联起来,进而完成对匿名WEB服务的溯源,准确率达到的90%,有效的提升了工作效率。
需要说明的是,本公开实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种隐藏服务溯源装置。
参考图3,所述隐藏服务溯源装置,包括:
流量捕获模块301,为隐藏服务部署守护节点,在所述守护节点处进行流量监听,并进行流量捕获以获取可观察流量,其中,将所述可观察流量转化为链路基本通信单元序列。
第一分类模块302,使用第一分类器进行链路指纹识别,将链路基本通信单元序列输入所述第一分类器,判断所述链路基本通信单元序列是否为所述隐藏服务到会和节点HS-RP的链路。
第二分类模块303,响应于确定所述第一分类器判断输入的所述链路基本通信单元序列为所述HS-RP链路,将所述HS-RP链路和隐藏服务标签输入第二分类器,所述第二分类器输出该所述HS-RP链路对应的所述隐藏服务标签。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的隐藏服务溯源方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的隐藏服务溯源方法。
图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的隐藏服务溯源方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的隐藏服务溯源方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的隐藏服务溯源方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本公开实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本公开实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本公开实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本公开实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种隐藏服务溯源方法,其中,
为隐藏服务部署守护节点,在所述守护节点处进行流量监听,并进行流量捕获以获取可观察流量,其中,将所述可观察流量转化为链路基本通信单元序列;
并包括如下步骤:
使用第一分类器进行链路指纹识别,将所述链路基本通信单元序列输入所述第一分类器,判断所述链路基本通信单元序列是否为所述隐藏服务到汇合节点HS-RP的链路;
响应于确定所述第一分类器判断输入的所述链路基本通信单元序列为所述HS-RP链路,基于所述守护节点获取所述HS-RP链路的信息数据,并通过所述信息数据得到隐藏服务的IP地址,将所述HS-RP链路和隐藏服务标签输入第二分类器,通过所述第二分类器将所述HS-RP链路和对应隐藏服务的所述IP地址进行关联,所述第二分类器输出所述HS-RP链路对应的所述隐藏服务标签。
2.根据权利要求1所述的溯源方法,其中,所述将所述可观察流量转化为链路基本通信单元序列,包括:
修改所述流量监听的程序源码,使所述守护节点能够记录所述隐藏服务的访问日志;
在所述访问日志内以未分类的所述链路的ID区分不同的未分类所述链路,以未分类的所述链路为单位记录所述链路基本通信单元序列,+1表示发送基本通信单元,-1表示接收所述基本通信单元。
3.根据权利要求1所述的溯源方法,其中,输入所述第一分类器的所述链路基本通信单元序列的长度为第一阈值;
响应于确定所述链路基本通信单元序列的长度不足所述第一阈值,进行补0使所述链路基本通信单元序列的长度达到所述第一阈值,否则,截取所述第一阈值数量的所述基本通信单元作为待输入的所述链路基本通信单元序列。
4.根据权利要求2所述的溯源方法,其中,输入所述第二分类器的所述HS-RP链路长度为第二阈值;
响应于确定所述HS-RP链路长度不足所述第二阈值,进行补0使所述HS-RP链路的长度达到所述第二阈值,否则,截取所述第二阈值数量的所述基本通信单元作为待输入的所述HS-RP链路。
5.根据权利要求1所述的溯源方法,其中,所述第一分类器为二分类器,将所述链路基本通信单元序列输入所述第一分类器,经所述第一分类器输出类别标签,输出为0代表输入的是其余链路,输出为1代表输入的是所述HS-RP链路;
其中,所述第一分类器分别计算对输入的所述链路基本通信单元序列输出0或输出1的概率,输入的所述链路基本通信单元序列被判断为所述其余链路的概率不低于预设置信度时,所述第一分类器输出0;
同样,输入的所述链路基本通信单元序列被判断为所述HS-RP链路的概率不低于所述预设置信度时,所述第一分类器输出为1。
6.根据权利要求5所述的溯源方法,其中,所述第一分类器通过卷积神经网络模型训练得到,包括:
调用并预处理相同数量的预先建立的链路指纹数据集中的HS-RP链路实例和背景流量链路实例,其中,所述预处理操作包括归一化处理和数据对齐,通过所述预处理操作分别得到上述两种所述链路实例的所述链路基本通信单元序列和对应的链路标签;
将经过所述预处理的所述链路基本通信单元序列和所述对应的链路标签输入所述卷积神经网络模型中,取其中的70%作为训练集,剩余的30%作为测试集,使用所述训练集对所述卷积神经网络模型进行训练,并使用所述测试集验证训练后的所述卷积神经网络模型的分类准确度;
响应于确定所述分类准确度达到预设标准,将训练后的所述卷积神经网络模型作为所述第一分类器,否则,继续对所述卷积神经网络进行训练和验证,直至所述分类准确度达到所述预设标准。
7.根据权利要求1所述的溯源方法,其中,所述第二分类器为多分类器,类别数根据实际需求确定,将由所述第一分类器判断得到的所述HS-RP链路和所述隐藏服务标签输入到所述第二分类器中,输出所述HS-RP链路访问的所述隐藏服务标签;
其中,所述第二分类器分别计算输入的所述HS-RP链路访问某个目标隐藏服务的概率;
响应于确定所述HS-RP链路被划分为访问某个所述目标隐藏服务的概率分别大于被划分为访问其它所述隐藏服务的概率,则所述HS-RP链路被划分为访问了所述目标隐藏服务。
8.根据权利要求6所述的溯源方法,其中,所述第二分类器也通过所述卷积神经网络模型训练得到:
在所述第二分类器的训练过程中,从预先收集的隐藏服务数据集中选取预定数量待分类的隐藏服务数据,并对选取的所述隐藏服务数据进行所述预处理操作获取所述HS-RP链路和与其对应的所述隐藏服务标签;
选取70%的所述HS-RP链路和与其对应的所述隐藏服务标签作为所述卷积神经网络模型的所述训练集,剩余的30%为所述测试集,使用所述训练集对所述卷积神经网络模型训练,并使用所述测试集验证所述分类准确度;
响应于确定所述分类准确度达到预设标准,训练后的所述卷积神经网络模型即为所述第二分类器,否则,继续使用所述训练集进行训练直至所述测试集验证得到的所述分类准确度达到所述预设标准。
9.一种隐藏服务溯源装置,包括:
流量捕获模块,为隐藏服务部署守护节点,在所述守护节点处运行流量监听程序,并进行流量捕获以获取可观察流量,其中,将所述可观察流量转化为链路基本通信单元序列;
第一分类模块,使用第一分类器进行链路指纹识别,将链路基本通信单元序列输入所述第一分类器,判断所述链路基本通信单元序列是否为所述隐藏服务到汇合节点HS-RP的链路;
第二分类模块,响应于确定所述第一分类器判断输入的所述链路基本通信单元序列为所述HS-RP链路,基于所述守护节点获取所述HS-RP链路的信息数据,并通过所述信息数据得到隐藏服务的IP地址,将所述HS-RP链路和隐藏服务标签输入第二分类器,通过所述第二分类器将所述HS-RP链路和对应隐藏服务的所述IP地址进行关联,所述第二分类器输出所述HS-RP链路对应的所述隐藏服务标签。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。
CN202110210087.5A 2021-02-24 2021-02-24 隐藏服务溯源方法、装置及电子设备 Active CN112887329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110210087.5A CN112887329B (zh) 2021-02-24 2021-02-24 隐藏服务溯源方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110210087.5A CN112887329B (zh) 2021-02-24 2021-02-24 隐藏服务溯源方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112887329A CN112887329A (zh) 2021-06-01
CN112887329B true CN112887329B (zh) 2022-06-21

Family

ID=76054417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110210087.5A Active CN112887329B (zh) 2021-02-24 2021-02-24 隐藏服务溯源方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112887329B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114157713B (zh) * 2021-10-09 2023-06-16 北京邮电大学 一种捕获隐藏服务流量的方法和系统
CN114095242B (zh) * 2021-11-18 2024-02-06 东南大学 基于Tor隐藏服务域名状态的存储型隐蔽信道构建方法
CN115002045B (zh) * 2022-07-19 2022-12-09 中国电子科技集团公司第三十研究所 一种基于孪生网络的暗网站点会话识别方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107276978B (zh) * 2017-04-25 2019-12-03 中国科学院信息工程研究所 一种基于主机指纹的匿名网络隐藏服务溯源方法
US10805341B2 (en) * 2018-02-06 2020-10-13 Cisco Technology, Inc. Leveraging point inferences on HTTP transactions for HTTPS malware detection
CN108494769B (zh) * 2018-03-21 2020-01-14 广州大学 一种Tor匿名网络中隐藏服务的溯源方法
CN111382398B (zh) * 2018-12-27 2023-11-14 阿里巴巴集团控股有限公司 信息处理、隐藏信息解析和嵌入的方法、装置及设备
CN111953669B (zh) * 2020-07-30 2022-10-25 江苏大学 适用于SDN的Tor流量溯源与应用类型识别方法和系统
CN111930945A (zh) * 2020-08-17 2020-11-13 北京计算机技术及应用研究所 一种Tor隐藏服务非法内容分类方法
CN111818103B (zh) * 2020-09-09 2020-12-15 信联科技(南京)有限公司 一种网络靶场中基于流量的溯源攻击路径方法

Also Published As

Publication number Publication date
CN112887329A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN112887329B (zh) 隐藏服务溯源方法、装置及电子设备
US10410127B2 (en) Identification and classification of web traffic inside encrypted network tunnels
CN112417439B (zh) 账号检测方法、装置、服务器及存储介质
CN109922032B (zh) 用于确定登录账户的风险的方法、装置、设备及存储介质
CN108768883B (zh) 一种网络流量识别方法及装置
CN109976995B (zh) 用于测试的方法和装置
CN106874253A (zh) 识别敏感信息的方法及装置
KR20190022431A (ko) 랜덤 포레스트 모델의 훈련 방법, 전자장치 및 저장매체
CN102710770A (zh) 一种上网设备识别方法及其实现系统
CN108491714A (zh) 验证码的人机识别方法
CN109241733A (zh) 基于Web访问日志的爬虫行为识别方法及装置
CN113918526B (zh) 日志处理方法、装置、计算机设备和存储介质
CN106878108A (zh) 网络流量回放测试方法及装置
CN115941322B (zh) 基于人工智能的攻击检测方法、装置、设备及存储介质
CN111738199B (zh) 图像信息验证方法、装置、计算装置和介质
CN109450880A (zh) 基于决策树的钓鱼网站检测方法、装置及计算机设备
CN113794731B (zh) 识别基于cdn流量伪装攻击的方法、装置、设备和介质
CN106097403B (zh) 一种基于图像曲线推算的网络受保护指数数据的获取方法
CN116112287B (zh) 基于时空关联的网络攻击组织追踪方法与装置
CN116738369A (zh) 一种流量数据的分类方法、装置、设备及存储介质
CN108073803A (zh) 用于检测恶意应用的方法及装置
CN107995167B (zh) 一种设备识别方法及服务器
CN116055092A (zh) 一种隐蔽隧道攻击行为检测方法和装置
CN109359462B (zh) 虚假设备识别方法、设备、存储介质及装置
CN112532562B (zh) 一种对抗性网络的恶意数据流检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant