CN114793203B - 一种种子下载的ip溯源方法 - Google Patents

一种种子下载的ip溯源方法 Download PDF

Info

Publication number
CN114793203B
CN114793203B CN202210700807.0A CN202210700807A CN114793203B CN 114793203 B CN114793203 B CN 114793203B CN 202210700807 A CN202210700807 A CN 202210700807A CN 114793203 B CN114793203 B CN 114793203B
Authority
CN
China
Prior art keywords
dimension
seed
weight
seeds
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210700807.0A
Other languages
English (en)
Other versions
CN114793203A (zh
Inventor
陈千平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yiqian Technology Co ltd
Original Assignee
Beijing Yiqian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yiqian Technology Co ltd filed Critical Beijing Yiqian Technology Co ltd
Priority to CN202210700807.0A priority Critical patent/CN114793203B/zh
Publication of CN114793203A publication Critical patent/CN114793203A/zh
Application granted granted Critical
Publication of CN114793203B publication Critical patent/CN114793203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • H04L43/045Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1074Peer-to-peer [P2P] networks for supporting data block transmission mechanisms
    • H04L67/1078Resource delivery mechanisms
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于互联网技术领域,具体涉及一种种子下载的IP溯源方法,该方法包括:采集下载的初始种子的属性数据;对初始种子的属性数据进行预处理,得到中间种子;利用预设的权重分析模型对中间种子进行权重分析,得到分析结果;根据分析结果确定种子下载的IP溯源,并将种子下载的IP溯源进行可视化展示。本申请提供的技术方案,不仅提高了溯源的可靠性和准确性,实现对种子的散布者的准确溯源,还有助于人员筛查和落地。

Description

一种种子下载的IP溯源方法
技术领域
本发明属于互联网技术领域,具体涉及一种种子下载的IP溯源方法。
背景技术
种子下载就是现在流行的BT下载。上传到服务器上的torrent文件就是种子。它包含了下载的文件的引导信息。BT是一种类似于电驴的P2P共享软件,全名叫“BitTorrent”,中文全称是“比特流”,是一种新的类似于P2P共享软件,因为每个下载的人同时又可以上传,下载的人越多,文件越大,速度就越快,而且只要普通的电脑,一根ADSL电话线就可以安装BT服务器。
因为每个下载种子的人同时又可以上传种子,每个源头收到种子信息的时间和执行下载的时间也不一样,所以散布种子的源头可能不止一个人。每个种子,都有对应的唯一哈希值,通过对种子的哈希值进行长时间的监测,得到下载种子的IP数据库。但要想知道这些种子是从哪儿流传出来就必须对种子的溯源进行追踪。
目前只能通过单纯的从下载种子的探测时间这一项要素分析,即认为时间最早的,就认定为种子散布的源头,但此种方法可靠性低。因为种子下载技术,每个下载的人同时又可以上传,当几个人下载的时间比较接近时,还依然取第一探测时间的对象,很容易忽略与之时间接近的对象,使之成为漏网之鱼。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种种子下载的IP溯源方法,以解决现有技术中认为下载种子的时间最早的IP为种子散布的源头存在可靠性低的问题。
根据本申请实施例的第一方面,提供一种种子下载的IP溯源方法,所述方法包括:
采集下载的初始种子的属性数据;
对所述初始种子的属性数据进行预处理,得到中间种子;
利用预设的权重分析模型对所述中间种子进行权重分析,得到分析结果;
根据所述分析结果确定种子下载的IP溯源,并将所述种子下载的IP溯源进行可视化展示。
优选的,所述初始种子的属性数据,包括:IP地址、端口号、种子名称、哈希值、探测时间、探测状态、下载次数和邮编。
优选的,所述对所述初始种子的属性数据进行预处理,得到中间种子,包括:
对所述初始种子的属性数据进行数据清洗,以对属性数据中的脏数据进行清洗,并删除属性数据中存在脏数据的初始种子,得到中间种子;
利用IP定位技术,对所述中间种子进行IP定位,得到所述中间种子的经纬度和地理位置,并将所述中间种子的经纬度和地理位置添加至所述中间种子的属性数据;
其中,所述中间种子的属性数据,包括:IP地址、端口号、种子名称、哈希值、经纬度、地理位置、探测时间、探测状态、下载次数和邮编。
优选的,所述利用预设的权重分析模型对所述中间种子进行权重分析,得到分析结果,包括:
步骤a:令所述中间种子的探测状态为第一维度,所述中间种子的探测时间为第二维度,所述中间种子的下载次数为第三维度,与所述中间种子的IP地址相同的其他中间种子的下载次数分为第四维度;
为所述第一维度、所述第二维度、所述第三维度和所述第四维度分配不同的权重,其中,所述第一维度的权重为第一权重,所述第二维度的权重为第二权重,所述第三维度的权重为第三权重,所述第四维度的权重为第四权重;
步骤b:根据所述第一权重、所述第二权重、所述第三权重和所述第四权重,分别获取所述第一维度的目标分数、所述第二维度的目标分数、所述第三维度的目标分数和所述第四维度的目标分数;
步骤c:根据所述第一维度的目标分数获取所述第一维度的实际分数;
步骤d:根据所述第二维度的目标分数获取所述第二维度的实际分数;
步骤e:根据所述第三维度的目标分数获取所述第三维度的实际分数;
步骤f:根据所述第四维度的目标分数获取所述第四维度的实际分数;
步骤g:所述中间种子的最终分数为所述第一维度的实际分数、所述第二维度的实际分数、所述第三维度的实际分数和所述第四维度的实际分数的总和,所述中间种子的最终分数为所述分析结果。
优选的,所述步骤b,包括:
按下式确定所述第一维度的目标分数L1:
L1=f*W1
按下式确定所述第二维度的目标分数L2:
L2=f*W2
按下式确定所述第三维度的目标分数L3:
L3=f*W3
按下式确定所述第四维度的目标分数L4:
L4=f*W4
上式中,f为所述中间种子的目标分数,W1为所述第一权重,W2为所述第二权重,W3为所述第三权重,W4为所述第四权重。
优选的,所述步骤c,包括:
若所述中间种子的探测状态为SSL-HS、HS-Utp或PS,则按下式确定所述第一维度的实际分数F1:
F1=L1*a1
若所述中间种子的探测状态为SSL或PA,则按下式确定所述第一维度的实际分数F1:
F1=L1*a2
若所述中间种子的探测状态为P,则按下式确定所述第一维度的实际分数F1:
F1=L1*a3
上式中,L1为所述第一维度的目标分数,a1为预设的探测状态SSL-HS、HS-uTP和PS的权重,a2为预设的探测状态SSL和PA的权重,a3为预设的探测状态P的权重。
优选的,所述步骤d,包括:
对所有的所述中间种子的探测时间进行升序排序;
基于预设的分配权重的第一规则,根据所述中间种子的探测时间的排名,确定所述中间种子的探测时间的权重;
按下式确定所述第二维度的实际分数F2:
F2=L2*b
上式中,L2为所述第二维度的目标分数,b为所述中间种子的探测时间的权重。
优选的,所述步骤e,包括:
对所有的所述中间种子的下载次数进行降序排序;
基于预设的分配权重的第二规则,根据所述中间种子的下载次数的排名,确定所述中间种子的下载次数的权重;
按下式确定所述第三维度的实际分数F3:
F3=L3*c
上式中,L3为所述第三维度的目标分数,c为所述中间种子的下载次数的权重。
优选的,所述步骤f,包括:
对所述与所述中间种子的IP地址相同的其他中间种子的下载次数进行降序排序;
基于预设的分配权重的第三规则,根据所述与所述中间种子的IP地址相同的其他中间种子的下载次数的排名,确定所述与所述中间种子的IP地址相同的其他中间种子的下载次数的权重;
按下式确定所述第四维度的实际分数F4:
F4=L4*d
上式中,L4为所述第四维度的目标分数,d为所述与所述中间种子的IP地址相同的其他中间种子的下载次数的权重。
优选的,所述根据所述分析结果确定种子下载的IP溯源,包括:
当所述中间种子的最终分数F大于等于预设阈值时,所述中间种子的IP地址为种子下载的IP溯源;
将所述种子下载的IP溯源对应的中间种子的最终分数、IP地址、种子名称、哈希值、经纬度和地理位置,进行可视化展示。
本发明采用以上技术方案,能够达到的有益效果包括:通过采集下载的初始种子的属性数据,对初始种子的属性数据进行预处理,得到中间种子,以排除掉无效的种子,从而提高了溯源的准确性;通过利用预设的权重分析模型对中间种子进行权重分析,得到分析结果,根据分析结果确定种子下载的IP溯源,并将种子下载的IP溯源进行可视化展示。不仅提高了溯源的可靠性和准确性,实现对种子的散布者的准确溯源,还有助于人员筛查和落地。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种种子下载的IP溯源方法的流程图。
图2是根据一示例性实施例示出的对分析结果进行可视化展示的示意图;
图3是根据一示例性实施例示出的一种种子下载的IP溯源装置的结构框图;
图3中,1-采集模块,2-预处理模块,3-分析模块,4-获取模块,21-清洗单元,22-定位单元,31-分配单元,32-第一获取单元,33-第二获取单元,34-第三获取单元,35-第四获取单元,36-第五获取单元,37-第一确定单元,41-第二确定单元,42-可视化单元。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
实施例一
图1是根据一示例性实施例示出的一种种子下载的IP溯源方法的流程图,如图1所示,该方法可以但不限于用于终端中,包括以下步骤:
步骤101:采集下载的初始种子的属性数据;
步骤102:对初始种子的属性数据进行预处理,得到中间种子;
步骤103:利用预设的权重分析模型对中间种子进行权重分析,得到分析结果;
步骤104:根据分析结果确定种子下载的IP溯源,并将种子下载的IP溯源进行可视化展示。
一些实施例中,可以但不限于采集全国(球)范围内所有通过BT和电驴等P2P方式下载种子的属性数据。
本发明实施例提供的一种种子下载的IP溯源方法,通过采集下载的初始种子的属性数据,对初始种子的属性数据进行预处理,得到中间种子,以排除掉无效的种子,从而提高了溯源的准确性;通过利用预设的权重分析模型对中间种子进行权重分析,得到分析结果,根据分析结果确定种子下载的IP溯源,并将种子下载的IP溯源进行可视化展示,不仅提高了溯源的可靠性和准确性,实现对种子的散布者的准确溯源,还有助于人员筛查和落地。
进一步的,初始种子的属性数据,包括:IP地址、端口号、种子名称、哈希值、探测时间、探测状态、下载次数和邮编。
进一步的,步骤102,包括:
步骤1021:对初始种子的属性数据进行数据清洗,以对属性数据中的脏数据进行清洗,并删除属性数据中存在脏数据的初始种子,得到中间种子;
一些实施例中,可以但不限于按照数理统计技术、属性清洗、重复记录清洗等清洗策略和规则对初始种子的属性数据中的脏数据进行清洗,得到满足质量要求的数据,排除掉无效的种子,从而提高IP溯源的准确性;其中脏数据可以但不限于包括:重复记录、不合法值、噪声数据、空值和缺失值的数据;
步骤1022:利用IP定位技术,对中间种子进行IP定位,得到中间种子的经纬度和地理位置,并将中间种子的经纬度和地理位置添加至中间种子的属性数据;
具体的,中间种子的属性数据,包括:IP地址、端口号、种子名称、哈希值、经纬度、地理位置、探测时间、探测状态、下载次数和邮编。
可以理解的是,通过对中间种子进行IP定位,可以在追寻到下载种子的IP溯源后,通过种子的经纬度和地理位置准确找到下载种子的散布者,有助于人员筛查和落地。
进一步的,步骤103,包括:
步骤1031:令中间种子的探测状态为第一维度,中间种子的探测时间为第二维度,中间种子的下载次数为第三维度,与中间种子的IP地址相同的其他中间种子的下载次数分为第四维度;
为第一维度、第二维度、第三维度和第四维度分配不同的权重,其中,第一维度的权重为第一权重,第二维度的权重为第二权重,第三维度的权重为第三权重,第四维度的权重为第四权重;
可以理解的是,第一权重、第二权重、第三权重和第四权重的总和等于1,一些可选的实施例中,第一权重、第二权重、第三权重和第四权重分别为70%、20%、5%和5%;
步骤1032:根据第一权重、第二权重、第三权重和第四权重,分别获取第一维度的目标分数、第二维度的目标分数、第三维度的目标分数和第四维度的目标分数;
具体的,步骤1032,包括:
按下式确定第一维度的目标分数L1:
L1=f*W1
按下式确定第二维度的目标分数L2:
L2=f*W2
按下式确定第三维度的目标分数L3:
L3=f*W3
按下式确定第四维度的目标分数L4:
L4=f*W4
上式中,f为中间种子的目标分数,W1为第一权重,W2为第二权重,W3为第三权重,W4为第四权重;
步骤1033:根据第一维度的目标分数获取第一维度的实际分数;
步骤1034:根据第二维度的目标分数获取第二维度的实际分数;
步骤1035:根据第三维度的目标分数获取第三维度的实际分数;
步骤1036:根据第四维度的目标分数获取第四维度的实际分数;
步骤1037:中间种子的最终分数为第一维度的实际分数、第二维度的实际分数、第三维度的实际分数和第四维度的实际分数的总和,中间种子的最终分数为分析结果。
例如,假设第一权重、第二权重、第三权重和第四权重分别为70%、20%、5%和5%,中间种子的目标分数为100分,则第一维度的目标分数L1为70分,第二维度的目标分数L2为20分,第三维度的目标分数L3为5分,第四维度的目标分数L4为5分;
假设根据第一维度的目标分数获取第一维度的实际分数为70分,根据第二维度的目标分数获取第二维度的实际分数为18分,根据第三维度的目标分数获取第三维度的实际分数为4.5分,根据第四维度的目标分数获取第四维度的实际分数为4.5分,则中间种子的最终分数为97分,且中间种子的最终分数97分为分析结果。
可以理解的是,经过权重分析得出的种子的溯源,是权衡了种子的探测状态、种子的探测时间、种子的下载次数、与该种子同一IP地址的其他种子的下载次数四个维度得来的结果,相比单一的从探测时间判断,该方法对于找到种子的散布者和重点关注人员,更科学、可靠,提高了下载种子的IP溯源的准确性和可靠性。
进一步的,步骤1033,包括:
若中间种子的探测状态为SSL-HS、HS-Utp或PS,则按下式确定第一维度的实际分数F1:
F1=L1*a1
若中间种子的探测状态为SSL或PA,则按下式确定第一维度的实际分数F1:
F1=L1*a2
若中间种子的探测状态为P,则按下式确定第一维度的实际分数F1:
F1=L1*a3
上式中,L1为第一维度的目标分数,a1为预设的探测状态SSL-HS、HS-uTP和PS的权重,a2为预设的探测状态SSL和PA的权重,a3为预设的探测状态P的权重。
需要说明的是,当探测状态为SSL-HS、HS-uTP和PS时,表示探测时与该IP进行了bt连接通信,即代表曾经一定下载过,可以从该IP下载对应文件;
探测状态为SSL和PA时,表示探测时发现其bt客户端正在运行,即代表曾经一定下载过;
探测状态为P时,表示探测时发现其bt客户端没有在运行,即代表曾经一定下载过(包括下载完成或未完成)。
例如,假设第一维度的目标分数为70分,预设的探测状态SSL-HS、HS-uTP和PS的权重为100%,预设的探测状态SSL和PA的权重为75%,预设的探测状态P的权重为50%;
若中间种子的探测状态为SSL-HS、HS-uTP或PS,则第一维度的实际分数F1为70分;若中间种子的探测状态为SSL或PA,则第一维度的实际分数F1为52.5分;若中间种子的探测状态为P,则第一维度的实际分数F1为35分。
可以理解的是,通过将中间种子的探测状态作为预设的权重分析模型的一个维度,提高了下载种子的IP溯源的准确性。
进一步的,步骤1034,包括:
对所有的中间种子的探测时间进行升序排序;
基于预设的分配权重的第一规则,根据中间种子的探测时间的排名,确定中间种子的探测时间的权重;
按下式确定第二维度的实际分数F2:
F2=L2*b
上式中,L2为第二维度的目标分数,b为中间种子的探测时间的权重。
需要说明的是,本发明实施例对预设的分配权重的第一规则不做限定,一些实施例中,可以由本领域技术人员根据专家经验或实验数据等进行设置。
例如,假设对所有的中间种子的探测时间进行升序排序后,令最早下载(第一名下载)的权重为100%,下载时间前1%(不包括第一名)的权重为99%,下载时间前2%(不包括下载时间前1%)的权重为98%,下载时间前3%(不包括下载时间前2%)的权重为97%,……,以此类推,下载时间前100%(不包括下载时间前99%)的权重为1%;第二维度的目标分数为20分;
若中间种子的探测时间的排名为第一名,则该中间种子的探测时间的权重为100%,第二维度的实际分数F2为20分;
若中间种子的探测时间的排名为前1%(不包括第一名),则该中间种子的探测时间的权重为99%,第二维度的实际分数F2为19.8分;
以此类推;
若中间种子的探测时间的排名为前100%(不包括下载时间前99%),则该中间种子的探测时间的权重为1%,第二维度的实际分数F2为0.2分。
可以理解的是,通过将中间种子的探测时间作为预设的权重分析模型的一个维度,并根据探测时间的顺序,赋予不同的权重,提高了下载种子的IP溯源的准确性,也避免了现有技术中当几个人下载的时间比较接近时,还依然取第一探测时间的对象,很容易忽略与之时间接近的对象,使之成为漏网之鱼的情况发生。
进一步的,步骤1035,包括:
对所有的中间种子的下载次数进行降序排序;
基于预设的分配权重的第二规则,根据中间种子的下载次数的排名,确定中间种子的下载次数的权重;
按下式确定第三维度的实际分数F3:
F3=L3*c
上式中,L3为第三维度的目标分数,c为中间种子的下载次数的权重。
需要说明的是,本发明实施例对预设的分配权重的第二规则不做限定,一些实施例中,可以由本领域技术人员根据专家经验或实验数据等进行设置。
例如,假设对所有的中间种子的下载次数进行降序排序后,令下载次数最多(第一名下载)的权重为100%,下载次数前1%(不包括第一名)的权重为99%,下载次数前2%(不包括下载次数前1%)的权重为98%,下载次数前3%(不包括下载次数前2%)的权重为97%,……,以此类推,下载次数前100%(不包括下载次数前99%)的权重为1%;第三维度的目标分数为5分;
若中间种子的下载次数的排名为第一名,则该中间种子的下载次数的权重为100%,第三维度的实际分数F3为5分;
若中间种子的下载次数的排名为前1%(不包括第一名),则该中间种子的下载次数的权重为99%,第二维度的实际分数F3为4.9分;
以此类推;
若中间种子的下载次数的排名为前100%(不包括下载时间前99%),则该中间种子的下载次数的权重为1%,第二维度的实际分数F3为0.05分。
可以理解的是,通过将中间种子的下载次数作为预设的权重分析模型的一个维度,并根据下载次数的多少,赋予不同的权重,提高了下载种子的IP溯源的准确性。
进一步的,步骤1036,包括:
对与中间种子的IP地址相同的其他中间种子的下载次数进行降序排序;
基于预设的分配权重的第三规则,根据与中间种子的IP地址相同的其他中间种子的下载次数的排名,确定与中间种子的IP地址相同的其他中间种子的下载次数的权重;
按下式确定第四维度的实际分数F4:
F4=L4*d
上式中,L4为第四维度的目标分数,d为与中间种子的IP地址相同的其他中间种子的下载次数的权重。
需要说明的是,本发明实施例对预设的分配权重的第三规则不做限定,一些实施例中,可以由本领域技术人员根据专家经验或实验数据等进行设置。
例如,假设对与中间种子的IP地址相同的其他中间种子的下载次数进行降序排序后,令下载次数最多(第一名下载)的权重为100%,下载次数前1%(不包括第一名)的权重为99%,下载次数前2%(不包括下载次数前1%)的权重为98%,下载次数前3%(不包括下载次数前2%)的权重为97%,……,以此类推,下载次数前100%(不包括下载次数前99%)的权重为1%;第四维度的目标分数为5分;
若与中间种子的IP地址相同的其他中间种子的下载次数的排名为第一名,则该与中间种子的IP地址相同的其他中间种子的下载次数的权重为100%,第四维度的实际分数F4为5分;
若与中间种子的IP地址相同的其他中间种子的下载次数的排名为前1%(不包括第一名),则该与中间种子的IP地址相同的其他中间种子的下载次数的权重为99%,第二维度的实际分数F4为4.9分;
以此类推;
若与中间种子的IP地址相同的其他中间种子的下载次数的排名为前100%(不包括下载时间前99%),则该与中间种子的IP地址相同的其他中间种子的下载次数的权重为1%,第二维度的实际分数F4为0.05分。
可以理解的是,通过将与中间种子的IP地址相同的其他中间种子的下载次数作为预设的权重分析模型的一个维度,并根据下载次数的多少,赋予不同的权重,提高了下载种子的IP溯源的准确性。
进一步的,步骤104,包括:
当中间种子的最终分数F大于等于预设阈值时,中间种子的IP地址为种子下载的IP溯源;
将种子下载的IP溯源对应的中间种子的最终分数、IP地址、种子名称、哈希值、经纬度和地理位置,进行可视化展示。
一些其他实施例中,如图2所示,通过设置两个预设阈值进行筛选,即第一阈值和第二阈值;其中,第一阈值大于第二阈值;
然后,将大于等于第二阈值的最终分数及其对应的中间种子的IP地址、大于第二阈值且小于第一阈值的最终分数及其对应的中间种子的IP地址、大于等于第一阈值的最终分数及其对应的中间种子的IP地址,以及该中间种子的种子名称和该中间种子的哈希值,进行可视化展示。
可以理解的是,通过将大于等于预设阈值的最终分数及其对应的中间种子的IP地址,进行可视化展示,可以直观的帮助人员筛查和落地,提高了用户体验度。
需要说明的是,本发明实施例对“预设阈值”不做限定,可以由本领域技术人员根据实验数据或专家经验等进行设定。
可以理解的是,经过权重分析得出的种子的溯源,是权衡了种子的探测状态、种子的探测时间、种子的下载次数、与该种子同一IP地址的其他种子的下载次数四个维度得来的结果,相比单一的从探测时间判断,该方法对于找到种子的散布者和重点关注人员,更科学、可靠,同时,通过根据可调控的预设阈值进行可视化展示,可灵活、准确、高效、直观的帮助人员筛查和落地。
本发明实施例提供的一种种子下载的IP溯源方法,通过采集下载的初始种子的属性数据,对初始种子的属性数据进行预处理,得到中间种子,以排除掉无效的种子,从而提高了溯源的准确性;通过利用预设的权重分析模型对中间种子进行权重分析,得到分析结果,根据分析结果确定种子下载的IP溯源,不仅提高了溯源的可靠性和准确性,实现对种子的散布者的准确溯源,还有助于人员筛查和落地。
实施例二
为配合实现上述实施例提供的一种种子下载的IP溯源方法,本发明实施例提供一种种子下载的IP溯源装置,参照图3,该装置包括:
采集模块1,用于采集下载的初始种子的属性数据;
预处理模块2,用于对初始种子的属性数据进行预处理,得到中间种子;
分析模块3,用于利用预设的权重分析模型对中间种子进行权重分析,得到分析结果;
获取模块4,用于根据分析结果确定种子下载的IP溯源,并将种子下载的IP溯源进行可视化展示。
进一步的,初始种子的属性数据,包括:IP地址、端口号、种子名称、哈希值、探测时间、探测状态、下载次数和邮编。
进一步的,预处理模块2,包括:
清洗单元21,用于对初始种子的属性数据进行数据清洗,以对属性数据中的脏数据进行清洗,并删除属性数据中存在脏数据的初始种子,得到中间种子;
定位单元22,用于利用IP定位技术,对中间种子进行IP定位,得到中间种子的经纬度和地理位置,并将中间种子的经纬度和地理位置添加至中间种子的属性数据;
其中,中间种子的属性数据,包括:IP地址、端口号、种子名称、哈希值、经纬度、地理位置、探测时间、探测状态、下载次数和邮编。
进一步的,分析模块3,包括:
分配单元31,用于令中间种子的探测状态为第一维度,中间种子的探测时间为第二维度,中间种子的下载次数为第三维度,与中间种子的IP地址相同的其他中间种子的下载次数分为第四维度;
为第一维度、第二维度、第三维度和第四维度分配不同的权重,其中,第一维度的权重为第一权重,第二维度的权重为第二权重,第三维度的权重为第三权重,第四维度的权重为第四权重;
第一获取单元32,用于根据第一权重、第二权重、第三权重和第四权重,分别获取第一维度的目标分数、第二维度的目标分数、第三维度的目标分数和第四维度的目标分数;
第二获取单元33,用于根据第一维度的目标分数获取第一维度的实际分数;
第三获取单元34,用于根据第二维度的目标分数获取第二维度的实际分数;
第四获取单元35,用于根据第三维度的目标分数获取第三维度的实际分数;
第五获取单元36,用于根据第四维度的目标分数获取第四维度的实际分数;
第一确定单元37,用于中间种子的最终分数为第一维度的实际分数、第二维度的实际分数、第三维度的实际分数和第四维度的实际分数的总和,中间种子的最终分数为分析结果。
进一步的,第一获取单元32,具体用于:
按下式确定第一维度的目标分数L1:
L1=f*W1
按下式确定第二维度的目标分数L2:
L2=f*W2
按下式确定第三维度的目标分数L3:
L3=f*W3
按下式确定第四维度的目标分数L4:
L4=f*W4
上式中,f为中间种子的目标分数,W1为第一权重,W2为第二权重,W3为第三权重,W4为第四权重。
进一步的,第二获取单元33,具体用于:
若中间种子的探测状态为SSL-HS、HS-Utp或PS,则按下式确定第一维度的实际分数F1:
F1=L1*a1
若中间种子的探测状态为SSL或PA,则按下式确定第一维度的实际分数F1:
F1=L1*a2
若中间种子的探测状态为P,则按下式确定第一维度的实际分数F1:
F1=L1*a3
上式中,L1为第一维度的目标分数,a1为预设的探测状态SSL-HS、HS-uTP和PS的权重,a2为预设的探测状态SSL和PA的权重,a3为预设的探测状态P的权重。
进一步的,第三获取单元34,具体用于:
对所有的中间种子的探测时间进行升序排序;
基于预设的分配权重的第一规则,根据中间种子的探测时间的排名,确定中间种子的探测时间的权重;
按下式确定第二维度的实际分数F2:
F2=L2*b
上式中,L2为第二维度的目标分数,b为中间种子的探测时间的权重。
进一步的,第四获取单元35,具体用于:
对所有的中间种子的下载次数进行降序排序;
基于预设的分配权重的第二规则,根据中间种子的下载次数的排名,确定中间种子的下载次数的权重;
按下式确定第三维度的实际分数F3:
F3=L3*c
上式中,L3为第三维度的目标分数,c为中间种子的下载次数的权重。
进一步的,第五获取单元36,具体用于:
对与中间种子的IP地址相同的其他中间种子的下载次数进行降序排序;
基于预设的分配权重的第三规则,根据与中间种子的IP地址相同的其他中间种子的下载次数的排名,确定与中间种子的IP地址相同的其他中间种子的下载次数的权重;
按下式确定第四维度的实际分数F4:
F4=L4*d
上式中,L4为第四维度的目标分数,d为与中间种子的IP地址相同的其他中间种子的下载次数的权重。
进一步的,获取模块4,包括:
第二确定单元41,用于当中间种子的最终分数F大于等于预设阈值时,中间种子的IP地址为种子下载的IP溯源;
可视化单元42,用于将种子下载的IP溯源对应的中间种子的最终分数、IP地址、种子名称、哈希值、经纬度和地理位置,进行可视化展示。
本发明实施例提供的一种种子下载的IP溯源装置,通过采集模块1采集下载的初始种子的属性数据,预处理模块2对初始种子的属性数据进行预处理,得到中间种子,以排除掉无效的种子,从而提高了溯源的准确性;通过分析模块3利用预设的权重分析模型对中间种子进行权重分析,得到分析结果,通过获取模块4根据分析结果确定种子下载的IP溯源,并将种子下载的IP溯源进行可视化展示,不仅提高了溯源的可靠性和准确性,实现对种子的散布者的准确溯源,还有助于人员筛查和落地。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
实施例三
本发明实施例还提供一种可读存储介质,其上存储有可执行程序,该可执行程序被处理器执行时实现上述实施例提供的一种种子下载的IP溯源方法中的步骤。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品,该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种种子下载的IP溯源方法,其特征在于,所述方法包括:
采集下载的初始种子的属性数据;
对所述初始种子的属性数据进行预处理,得到中间种子;
利用预设的权重分析模型对所述中间种子进行权重分析,得到分析结果;
根据所述分析结果确定种子下载的IP溯源,并将所述种子下载的IP溯源进行可视化展示。
2.根据权利要求1所述的方法,其特征在于,所述初始种子的属性数据,包括:IP地址、端口号、种子名称、哈希值、探测时间、探测状态、下载次数和邮编。
3.根据权利要求1所述的方法,其特征在于,所述对所述初始种子的属性数据进行预处理,得到中间种子,包括:
对所述初始种子的属性数据进行数据清洗,以对属性数据中的脏数据进行清洗,并删除属性数据中存在脏数据的初始种子,得到中间种子;
利用IP定位技术,对所述中间种子进行IP定位,得到所述中间种子的经纬度和地理位置,并将所述中间种子的经纬度和地理位置添加至所述中间种子的属性数据;
其中,所述中间种子的属性数据,包括:IP地址、端口号、种子名称、哈希值、经纬度、地理位置、探测时间、探测状态、下载次数和邮编。
4.根据权利要求1所述的方法,其特征在于,所述利用预设的权重分析模型对所述中间种子进行权重分析,得到分析结果,包括:
步骤a:令所述中间种子的探测状态为第一维度,所述中间种子的探测时间为第二维度,所述中间种子的下载次数为第三维度,与所述中间种子的IP地址相同的其他中间种子的下载次数分为第四维度;
为所述第一维度、所述第二维度、所述第三维度和所述第四维度分配不同的权重,其中,所述第一维度的权重为第一权重,所述第二维度的权重为第二权重,所述第三维度的权重为第三权重,所述第四维度的权重为第四权重;
步骤b:根据所述第一权重、所述第二权重、所述第三权重和所述第四权重,分别获取所述第一维度的目标分数、所述第二维度的目标分数、所述第三维度的目标分数和所述第四维度的目标分数;
步骤c:根据所述第一维度的目标分数获取所述第一维度的实际分数;
步骤d:根据所述第二维度的目标分数获取所述第二维度的实际分数;
步骤e:根据所述第三维度的目标分数获取所述第三维度的实际分数;
步骤f:根据所述第四维度的目标分数获取所述第四维度的实际分数;
步骤g:所述中间种子的最终分数为所述第一维度的实际分数、所述第二维度的实际分数、所述第三维度的实际分数和所述第四维度的实际分数的总和,所述中间种子的最终分数为所述分析结果。
5.根据权利要求4所述的方法,其特征在于,所述步骤b,包括:
按下式确定所述第一维度的目标分数L1:
L1=f*W1
按下式确定所述第二维度的目标分数L2:
L2=f*W2
按下式确定所述第三维度的目标分数L3:
L3=f*W3
按下式确定所述第四维度的目标分数L4:
L4=f*W4
上式中,f为所述中间种子的目标分数,W1为所述第一权重,W2为所述第二权重,W3为所述第三权重,W4为所述第四权重。
6.根据权利要求4所述的方法,其特征在于,所述步骤c,包括:
若所述中间种子的探测状态为SSL-HS、HS-Utp或PS,则按下式确定所述第一维度的实际分数F1:
F1=L1*a1
若所述中间种子的探测状态为SSL或PA,则按下式确定所述第一维度的实际分数F1:
F1=L1*a2
若所述中间种子的探测状态为P,则按下式确定所述第一维度的实际分数F1:
F1=L1*a3
上式中,L1为所述第一维度的目标分数,a1为预设的探测状态SSL-HS、HS-uTP和PS的权重,a2为预设的探测状态SSL和PA的权重,a3为预设的探测状态P的权重。
7.根据权利要求4所述的方法,其特征在于,所述步骤d,包括:
对所有的所述中间种子的探测时间进行升序排序;
基于预设的分配权重的第一规则,根据所述中间种子的探测时间的排名,确定所述中间种子的探测时间的权重;
按下式确定所述第二维度的实际分数F2:
F2=L2*b
上式中,L2为所述第二维度的目标分数,b为所述中间种子的探测时间的权重。
8.根据权利要求4所述的方法,其特征在于,所述步骤e,包括:
对所有的所述中间种子的下载次数进行降序排序;
基于预设的分配权重的第二规则,根据所述中间种子的下载次数的排名,确定所述中间种子的下载次数的权重;
按下式确定所述第三维度的实际分数F3:
F3=L3*c
上式中,L3为所述第三维度的目标分数,c为所述中间种子的下载次数的权重。
9.根据权利要求4所述的方法,其特征在于,所述步骤f,包括:
对所述与所述中间种子的IP地址相同的其他中间种子的下载次数进行降序排序;
基于预设的分配权重的第三规则,根据所述与所述中间种子的IP地址相同的其他中间种子的下载次数的排名,确定所述与所述中间种子的IP地址相同的其他中间种子的下载次数的权重;
按下式确定所述第四维度的实际分数F4:
F4=L4*d
上式中,L4为所述第四维度的目标分数,d为所述与所述中间种子的IP地址相同的其他中间种子的下载次数的权重。
10.根据权利要求4所述的方法,其特征在于,所述根据所述分析结果确定种子下载的IP溯源,并将所述种子下载的IP溯源进行可视化展示,包括:
当所述中间种子的最终分数F大于等于预设阈值时,所述中间种子的IP地址为种子下载的IP溯源;
将所述种子下载的IP溯源对应的中间种子的最终分数、IP地址、种子名称、哈希值、经纬度和地理位置,进行可视化展示。
CN202210700807.0A 2022-06-21 2022-06-21 一种种子下载的ip溯源方法 Active CN114793203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210700807.0A CN114793203B (zh) 2022-06-21 2022-06-21 一种种子下载的ip溯源方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210700807.0A CN114793203B (zh) 2022-06-21 2022-06-21 一种种子下载的ip溯源方法

Publications (2)

Publication Number Publication Date
CN114793203A CN114793203A (zh) 2022-07-26
CN114793203B true CN114793203B (zh) 2022-08-30

Family

ID=82463429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210700807.0A Active CN114793203B (zh) 2022-06-21 2022-06-21 一种种子下载的ip溯源方法

Country Status (1)

Country Link
CN (1) CN114793203B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1901466A (zh) * 2006-01-10 2007-01-24 杭州每日科技有限公司 一种p2p网络的数据流向和流量计量方法
CN104092713B (zh) * 2013-05-31 2018-06-15 腾讯科技(深圳)有限公司 一种网络资源的下载信息展示方法及装置
US9208335B2 (en) * 2013-09-17 2015-12-08 Auburn University Space-time separated and jointly evolving relationship-based network access and data protection system
US10270788B2 (en) * 2016-06-06 2019-04-23 Netskope, Inc. Machine learning based anomaly detection
US10581886B1 (en) * 2016-06-14 2020-03-03 Amazon Technologies, Inc. Computer system anomaly detection
CN108011987B (zh) * 2017-10-11 2020-09-04 北京三快在线科技有限公司 Ip地址定位方法及装置,电子设备及存储介质
CN108959644B (zh) * 2018-07-27 2020-04-14 北京字节跳动网络技术有限公司 搜索排序方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN114793203A (zh) 2022-07-26

Similar Documents

Publication Publication Date Title
Hermosilla et al. Regional detection, characterization, and attribution of annual forest change from 1984 to 2012 using Landsat-derived time-series metrics
CN106600344A (zh) 目标产品活跃用户数据获取方法和装置
CN109064000A (zh) 自然资源审计的方法、装置和系统
Kadowaki Issues of chronological and geographical distributions of Middle and Upper Palaeolithic cultural variability in the Levant and implications for the learning behavior of Neanderthals and Homo sapiens
CN113220810B (zh) 一种多源物种分布数据处理方法及装置
Bone et al. Integrating high resolution remote sensing, GIS and fuzzy set theory for identifying susceptibility areas of forest insect infestations
Heath et al. Hind-casting the quantity and composition of discards by mixed demersal fisheries in the North Sea
EP3326109A1 (de) System und verfahren zur bereitstellung eines rezeptes
Steers et al. Determination of map unit composition by a random selection of transects
CN114793203B (zh) 一种种子下载的ip溯源方法
D'Amore et al. Early human peopling of Sicily: Evidence from the Mesolithic skeletal remains from Grotta d'Oriente
Cunningham et al. A statistical methodology for tracking long-term change in reporting rates of birds from volunteer-collected presence–absence data
CN103605670B (zh) 一种用于确定网络资源点的抓取频率的方法和装置
Southwell et al. Evaluation of analystical procedures for density estimation from line-transect data: data grouping, data truncation and the unit of analysis
CN112884244A (zh) 一种基于大数据的旅游路线规划导航系统及方法
Stevens Fractal dimension links responses to a visual scene to its biodiversity
CN116579521A (zh) 产量预测时间窗口确定方法、装置、设备及可读存储介质
CN108460630B (zh) 基于用户数据进行分类分析的方法和装置
Zimmermann et al. Accuracy assessment of normalized digital surface models from aerial images regarding tree height determination in Saxony, Germany
Schwarz et al. Forest canopy mortality during the 2018-2020 summer drought years in Central Europe: The application of a deep learning approach on aerial images across Luxembourg
CN114429286A (zh) 一种基于vr全景视觉感知的街道环境质量评价方法
Carr et al. Use of continuous cranial shape variation in the identification of divergent crocodile species of the genus Mecistops
CN111027599A (zh) 基于随机抽样的聚类可视化方法及装置
CN116390147B (zh) 一种无线网络质量的评估方法、装置和电子设备
Angeler et al. The role of rare avian species for spatial resilience of shifting biomes in the Great Plains of North America

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant