CN103258052B - 一种eMule网络上关联资源的发现方法 - Google Patents

一种eMule网络上关联资源的发现方法 Download PDF

Info

Publication number
CN103258052B
CN103258052B CN201310204314.9A CN201310204314A CN103258052B CN 103258052 B CN103258052 B CN 103258052B CN 201310204314 A CN201310204314 A CN 201310204314A CN 103258052 B CN103258052 B CN 103258052B
Authority
CN
China
Prior art keywords
keyword
user
emule
resource file
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310204314.9A
Other languages
English (en)
Other versions
CN103258052A (zh
Inventor
程学旗
冯凯
刘备
田红志
王元卓
陈雷
刘悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201310204314.9A priority Critical patent/CN103258052B/zh
Publication of CN103258052A publication Critical patent/CN103258052A/zh
Application granted granted Critical
Publication of CN103258052B publication Critical patent/CN103258052B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种eMule网络上关联资源的发现方法,包括下列步骤:1)获取用户设置的初始的关键词列表;2)对于当前关键词列表中的每个关键词,在eMule网络中搜索与该关键词相关的资源文件,并记录搜索到的资源文件信息;3)对进行了记录的资源文件的文件名进行分词处理,并将分词得到的新词加入关键词列表中,然后重新执行步骤2);重复执行步骤2)至3)直到满足结束条件。本发明能够全面地发现eMule网络中潜在的用户感兴趣的资源,还能够帮助用户发现特定领域相关的潜在的用户感兴趣的资源。

Description

一种eMule网络上关联资源的发现方法
技术领域
本发明涉及计算机网络技术领域,具体地说,本发明涉及一种eMule网络上关联资源的发现方法。
背景技术
eMule网络是一种典型的P2P网络,其特点是每个客户都可以与网络中其他客户共享自己的文件资源。当前,Kademlia协议已成为eMule网络中实现资源共享的一项重要协议,它是美国纽约大学PetarMaymounkov和DavidMezieres在2002年发表的一项研究成果。Kademlia是一种分布式哈希表(DistributedHashTable,DHT)技术,通过独特的异或(XOR)算法为距离度量基础,建立了一种全新的DHT拓扑结构,与其他算法相比大大提高了路由查询速度。Kademlia拥有一个庞大的抽象逻辑地址空间,用一个128位的二进制字符串来表示一个节点的ID,下文中将Kademlia网络(可简称为KAD网络)中的节点称为KAD节点。KAD节点ID通常在第一次启动时通过MD4哈希函数生成,哈希的随机性保证了节点的均匀性和无碰撞,根据DHT技术原理,<key,value>数据存放在ID值最接近key值的KAD节点上。在KAD网络中,节点的查找采用迭代式的查找,中间节点在收到源节点的查找请求后,不是直接转发该请求,而是向源节点回复下一跳的节点,再由源节点发送查找请求到下一跳节点,直至找到ID值最接近key值的KAD节点,从而获取<key,value>数据,进而通过value值获取所需要的资源。可以看出,在KAD网络中,任何一个KAD节点都可以方便地进行资源发布,所发布的<key,value>数据存放在其它KAD节点上,并可以被需要获取该资源的节点按照一定规律查找得到,从而大大方便了人与人之间的资源共享。
通常来说,人们通过基于特定关键词的检索来发现相应的资源。KAD网络属于一种典型的结构化P2P覆盖网络(StructuredP2POverlayNetwork),以分布式的应用层全网方式来进行信息的存储和检索。在KAD网络中,所有信息均以<key,value>的哈希表条目形式加以存储,只要是能够表述成为<key,value>字典条目形式的信息,KAD网络均能存储,一个KAD网络能够同时存储多张分布式哈希表。在eMule网络中,其KAD网络均存储并维护着两张分布式哈希表,一张为关键词字典,而另一张为文件索引字典。关键词字典主要用于根据给出的关键词查询其所对应的文件名称及相关文件信息,其中key的值等于所给出的关键词字符串的128比特md4散列,而其对应的value则为一个列表,可称为关键词字典列表。在这个关键词字典列表当中,给出了文件名中含有对应关键词的所有文件的文件信息,关键词字典列表中的每个条目都可以简单地用一个3元组条目表示,即:(文件名,文件长度,文件的MD4校验值)。容易看出,已知特定关键词,就能够找到相应的资源。
然而,某些情况下,用户感兴趣的资源并不局限于一个关键词。例如:庞大的eMule网络也不可避免地传播着一些不良信息和非法资源,而很多不良信息和非法资源在被发现之前对监管者来说是未知的,同时监管者往往不熟悉各种不良信息和非法资源之间的关联,所以也难以通过已知的检索关键词推测和联想到其它未知关键词,这导致使用目前的关键词检索方式难以在eMule网络中全面地发现不良信息和非法资源,造成监管出现漏洞。又例如:对于普通人来说,可能存在一些感兴趣的领域而又不知道相关的关键词,因而无法发现潜在的感兴趣的资源。
因此,当前迫切需要一种不局限于关键词的发现潜在的感兴趣的关联资源的解决方案。
发明内容
本发明的目的是提供一种eMule网络上不局限于关键词的发现潜在的感兴趣的关联资源的解决方案。
为实现上述发明目的,本发明提供了一种eMule网络上关联资源的发现方法,包括下列步骤:
1)获取用户设置的初始的关键词列表;
2)对于当前关键词列表中的每个关键词,在eMule网络中搜索与该关键词相关的资源文件,并记录搜索到的资源文件信息;
3)对进行了记录的资源文件的文件名进行分词处理,并将分词得到的新词加入关键词列表中,然后重新执行步骤2);
重复执行步骤2)至3)直到满足结束条件。
其中,所述步骤2)中,所记录的资源文件信息包括:文件名,文件长度和文件的MD4校验值。
其中,所述步骤3)中,所述结束条件是所搜索的文件数目达到预设的阈值,或者是关键词数目已达到预设的阈值。
其中,所述步骤3)中,利用分隔符对资源文件的文件名进行分词。
其中,所述步骤3)中,所述分隔符包括″空格″、″.″、″<>″、″{}″、″[]″、″-″、″_″以及其它英文输入状态下的特殊符号。
其中,所述步骤1)还包括,获取用户设置的关注主题;
所述步骤3)中,对记录的资源文件的文件名进行分词处理后,利用预先训练好的语料库,将新词按不同的主题分类,将与所用户关注主题一致的新词加入关键词列表,舍弃与用户关注主题不一致的新词,更新完关键词列表后,重新执行步骤2)。
与现有技术相比,本发明具有下列技术效果:
1、本发明能够全面的发现eMule网络中潜在的用户感兴趣的资源。
2、本发明能够帮助用户发现特定领域相关的潜在的用户感兴趣的资源。
附图说明
以下,结合附图来详细说明本发明的实施例,其中:
图1为本发明一个实施例的eMule网络上关联资源的发现方法;
图2为本发明一个优选实施例的eMule网络上关联资源的发现方法。具体实施方式
下面,结合附图和具体实施例对本发明做进一步地描述。
图1示出了一种eMule网络上关联资源的发现方法的流程图,它可以在关键词的基础上全面自动地发现相关的文件,从而帮助用户获得感兴趣的文件信息。参考图1,该关联资源的发现方法包括下列步骤:
步骤101:设置需要关注的关键词列表;其中的关键词可以是用户已知的感兴趣的关键词。
步骤102:计算关键词列表中各关键词的MD4哈希值。
步骤103:利用计算出的关键词的MD4哈希值,在eMule网络中搜索与该关键词相关的资源。
本实施例的eMule网络支持Kademlia协议,这种eMule网络也可以称为KAD网络。在KAD网络中,所有信息均以<key,value>的哈希表条目形式加以存储,只要是能够表述成为<key,value>字典条目形式的信息,KAD网络均能存储,一个KAD网络能够同时存储多张分布式哈希表。KAD网络均存储并维护着两张分布式哈希表,一张为关键词字典,而另一张为文件索引字典。其中,关键词字典主要用于根据给出的关键词查询其所对应的文件名称及相关文件信息,其中key的值等于所给出的关键词字符串的128比特md4散列,而其对应的value则为一个列表,可称为关键词字典列表。在这个关键词字典列表当中,给出了文件名中含有对应关键词的所有文件的文件信息,关键词字典列表中的每个条目都可以简单地用一个3元组条目表示,即:(文件名,文件长度,文件的MD4校验值)。因此,本步骤中,已知关键词哈希值,可以通过KAD网络中的关键词字典列表查找到文件名中含有对应关键词的所有文件的文件信息。
步骤104:记录搜索到的资源文件信息。
所记录的资源文件信息包括文件名,文件长度和文件的MD4校验值。
步骤105:对资源文件的文件名进行分词处理,得到一系列相关的关键词,然后将这些新的关键词加入关键词列表中,进而重新执行步骤102,重复执行步骤102至105直到满足结束条件。
本步骤中,结束条件可以是所搜索的文件数目达到预设的阈值,也可以是关键词数目已达到预设的阈值,当然,本领域技术人员也可以根据实际情况设置其它的结束条件。
本步骤中,可以利用分隔符对资源文件的文件名进行分词。eMule网络中的资源文件名常常含有分隔符,例如:″空格″、″.″、″<>″、″{}″、″[]″、″-″、″_″等英文输入状态下的特殊符号。在分词时,查找资源文件的文件名中是否含有上述分隔符,然后再利用分隔符将资源文件的文件名分为若干个词,再将这些词加入关键词列表。需要说明的是,eMule网络中的资源文件名中有时会含有版本号,例如:″1.2.3″,所以,在一个优选实施例中,可以进一步设计筛选规则来判别特殊符号是否为分隔符,例如设定筛选规则:当″.″位于数字之间时,判定其不是分隔符。
基于本实施例的方法,用户可以基于已知的关键词,不断获得与该关键词相关的新的关键词,进而查找到更多的相关资源,从而帮助用户发现潜在的感兴趣的资源。
在一个优选实施例中,更进一步地对分词所得到的新的关键词基于不同主题进行分类,从而更好地帮助用户找到潜在的感兴趣的资源。
该实施例的eMule网络上关联资源的发现方法包括步骤201~205。
其中,步骤201:获取关键词列表和用户关注主题;初始的关键词列表和用户关注主题可由用户设置。
步骤202~204与前文步骤102~104一致,此处不再赘述。
步骤205:对资源文件的文件名进行分词处理,得到一系列新词,然后利用训练好的语料库,将新词按不同的主题进行分类,如政治、经济、文化等,将主题与所设置的用户关注主题一致的新词加入关键词列表,舍弃主题与所设置的用户关注主题不一致的新词。更新完关键词列表后,重新执行步骤202,重复执行步骤202至205直到满足结束条件。
本步骤中,语料库是通过采集大量的互联网网站的各个板块(比如财经板块,体育板块、政治板块等)内容,然后再对所采集的内容进行抽取而形成。语料库中建立词汇与主题(即财经,体育、政治等)的关联,因此资源文件的文件名分词后的新词能够根据语料库进行分类。
本实施例中,结束条件的选择,分词的方法与前述实施例一致,不再赘述。
下面结合图2,给出一个执行步骤205的具体例子。该例子中,在对资源文件的文件名进行分词处理,得到一系列新词后,执行下列子步骤:
步骤301:获取分词后所得到新词的词汇列表。
步骤302:对词汇列表中的词汇,根据语料库按主题进行分类。
步骤303:对于各个分类,判断其是否是用户关注主题,如果是,执行步骤305,否则,执行步骤304。
步骤304:删除当前分类下的所有词汇。
步骤305:更新关键词列表。即,将当前分类下的词汇加入关键词列表中。当然,在加入前,可以先滤除已存在于关键词列表中的词汇,这是本领域技术人员易于理解的。
本实施例的方法不仅能够超越关键词的局限,还能够更加准确地发现潜在的感兴趣的关联资源,有利于提高用户体验。
本发明尤其适用于网络监控领域,它能够帮助监管者全面地发现与已知关键词相关或相近的资源信息,有利于及早发现非法信息和不良信息。
最后应说明的是,以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制,本发明在应用上可以延伸为其它的修改、变化、应用和实施例,并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims (6)

1.一种eMule网络上关联资源的发现方法,包括下列步骤:
1)获取用户设置的初始的关键词列表;
2)对于当前关键词列表中的每个关键词,在eMule网络中搜索与该关键词相关的资源文件,并记录搜索到的资源文件信息;其中,所述eMule网络为KAD网络;
3)对进行了记录的资源文件的文件名进行分词处理,并利用预先训练好的语料库,将分词得到的新词按不同的主题分类,将与用户所关注主题一致的新词加入关键词列表,舍弃与用户关注主题不一致的新词,然后重新执行步骤2),直到满足结束条件。
2.根据权利要求1所述的eMule网络上关联资源的发现方法,其特征在于,所述步骤2)中,所记录的资源文件信息包括:文件名,文件长度和文件的MD4校验值。
3.根据权利要求1所述的eMule网络上关联资源的发现方法,其特征在于,所述步骤3)中,所述结束条件是所搜索的文件数目达到预设的阈值,或者是关键词数目已达到预设的阈值。
4.根据权利要求1所述的eMule网络上关联资源的发现方法,其特征在于,所述步骤3)中,利用分隔符对资源文件的文件名进行分词。
5.根据权利要求4所述的eMule网络上关联资源的发现方法,其特征在于,所述步骤3)中,所述分隔符包括"空格"、"."、"<>"、"{}"、"[]"、"-"、"_"以及其它英文输入状态下的特殊符号。
6.根据权利要求1所述的eMule网络上关联资源的发现方法,其特征在于,所述步骤1)还包括,获取用户设置的关注主题。
CN201310204314.9A 2013-05-28 2013-05-28 一种eMule网络上关联资源的发现方法 Active CN103258052B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310204314.9A CN103258052B (zh) 2013-05-28 2013-05-28 一种eMule网络上关联资源的发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310204314.9A CN103258052B (zh) 2013-05-28 2013-05-28 一种eMule网络上关联资源的发现方法

Publications (2)

Publication Number Publication Date
CN103258052A CN103258052A (zh) 2013-08-21
CN103258052B true CN103258052B (zh) 2016-03-30

Family

ID=48961969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310204314.9A Active CN103258052B (zh) 2013-05-28 2013-05-28 一种eMule网络上关联资源的发现方法

Country Status (1)

Country Link
CN (1) CN103258052B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605708B (zh) * 2013-11-11 2017-12-08 中国科学院计算技术研究所 Kad网络中由关键词哈希值推测关键词的方法及系统
CN103618725B (zh) * 2013-12-04 2018-11-09 中国科学院计算技术研究所 一种kad网络资源信息的获取方法及系统
CN103605789A (zh) * 2013-12-04 2014-02-26 中国科学院计算技术研究所 一种获取kad网络上热门检索资源的方法和系统
CN107480229B (zh) * 2017-08-03 2020-10-30 太原学院 用于对象检索的分布式计算机数据库系统及其检索方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916291A (zh) * 2010-08-26 2010-12-15 北京大学 一种eDonkey网络共享文件及客户端信息爬取方法
CN102082820A (zh) * 2010-12-14 2011-06-01 西北工业大学 面向eMule文件享系统的综合污染方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130013583A1 (en) * 2011-05-30 2013-01-10 Lei Yu Online video tracking and identifying method and system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916291A (zh) * 2010-08-26 2010-12-15 北京大学 一种eDonkey网络共享文件及客户端信息爬取方法
CN102082820A (zh) * 2010-12-14 2011-06-01 西北工业大学 面向eMule文件享系统的综合污染方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向Kad网络的eMule文件下载控制方法;王磊等;《计算机工程》;20110930;第37卷(第18期);第74-76,80页 *

Also Published As

Publication number Publication date
CN103258052A (zh) 2013-08-21

Similar Documents

Publication Publication Date Title
US10180967B2 (en) Performing application searches
Cambazoglu et al. Scalability challenges in web search engines
US8150823B2 (en) Private searching on a public search engine
CN101436192B (zh) 用于优化针对垂直存储式数据库的查询的方法和设备
US9020951B2 (en) Methods for indexing and searching based on language locale
CN110321325A (zh) 文件索引节点查找方法、终端、服务器、系统及存储介质
CN103258052B (zh) 一种eMule网络上关联资源的发现方法
JP2016539401A (ja) 階層的データアーカイビング
Von der Weth et al. Multiterm keyword search in NoSQL systems
US20120109967A1 (en) Methods for prefix indexing
Hidalgo-Delgado et al. Methodological guidelines for publishing library data as linked data
Alkalbani et al. Design and implementation of the hadoop-based crawler for saas service discovery
KR100999408B1 (ko) 해시트리를 이용한 url 검색방법
CN108549679B (zh) 用于url分析系统的文件扩展名快速匹配方法和装置
CN109710860A (zh) 一种url分类匹配的方法及装置
CN110222156B (zh) 发现实体的方法和装置、电子设备、计算机可读介质
Joung et al. Wildcard search in structured peer-to-peer networks
Joung et al. On character-based index schemes for complex wildcard search in peer-to-peer networks
CN111831878B (zh) 构建价值索引关系的方法、索引系统及索引装置
CN111984807B (zh) 一种内容筛选存储方法及系统
Koh et al. Indirect weighted association rules mining for academic network collaboration recommendations
Li et al. Semantics‐Based Resource Discovery in Large‐Scale Grids
Prieto et al. Analysis and detection of Soft-404 pages
Skobeltsyn Query-driven indexing in large-scale distributed systems
Lee et al. Efficient content search in ishare, a p2p based internet-sharing system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20130821

Assignee: Branch DNT data Polytron Technologies Inc

Assignor: Institute of Computing Technology, Chinese Academy of Sciences

Contract record no.: 2018110000033

Denomination of invention: Method for discovering related resources on eMule network

Granted publication date: 20160330

License type: Common License

Record date: 20180807