CN103258052B

CN103258052B - 一种eMule网络上关联资源的发现方法

Info

Publication number: CN103258052B
Application number: CN201310204314.9A
Authority: CN
Inventors: 程学旗; 冯凯; 刘备; 田红志; 王元卓; 陈雷; 刘悦
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2013-05-28
Filing date: 2013-05-28
Publication date: 2016-03-30
Anticipated expiration: 2033-05-28
Also published as: CN103258052A

Abstract

本发明提供一种eMule网络上关联资源的发现方法，包括下列步骤：1）获取用户设置的初始的关键词列表；2）对于当前关键词列表中的每个关键词，在eMule网络中搜索与该关键词相关的资源文件，并记录搜索到的资源文件信息；3）对进行了记录的资源文件的文件名进行分词处理，并将分词得到的新词加入关键词列表中，然后重新执行步骤2）；重复执行步骤2）至3）直到满足结束条件。本发明能够全面地发现eMule网络中潜在的用户感兴趣的资源，还能够帮助用户发现特定领域相关的潜在的用户感兴趣的资源。

Description

一种eMule网络上关联资源的发现方法

技术领域

本发明涉及计算机网络技术领域，具体地说，本发明涉及一种eMule网络上关联资源的发现方法。

背景技术

eMule网络是一种典型的P2P网络，其特点是每个客户都可以与网络中其他客户共享自己的文件资源。当前，Kademlia协议已成为eMule网络中实现资源共享的一项重要协议，它是美国纽约大学PetarMaymounkov和DavidMezieres在2002年发表的一项研究成果。Kademlia是一种分布式哈希表（DistributedHashTable，DHT）技术，通过独特的异或（XOR）算法为距离度量基础，建立了一种全新的DHT拓扑结构，与其他算法相比大大提高了路由查询速度。Kademlia拥有一个庞大的抽象逻辑地址空间，用一个128位的二进制字符串来表示一个节点的ID，下文中将Kademlia网络（可简称为KAD网络）中的节点称为KAD节点。KAD节点ID通常在第一次启动时通过MD4哈希函数生成，哈希的随机性保证了节点的均匀性和无碰撞，根据DHT技术原理，<key,value>数据存放在ID值最接近key值的KAD节点上。在KAD网络中，节点的查找采用迭代式的查找，中间节点在收到源节点的查找请求后，不是直接转发该请求，而是向源节点回复下一跳的节点，再由源节点发送查找请求到下一跳节点，直至找到ID值最接近key值的KAD节点，从而获取<key,value>数据，进而通过value值获取所需要的资源。可以看出，在KAD网络中，任何一个KAD节点都可以方便地进行资源发布，所发布的<key,value>数据存放在其它KAD节点上，并可以被需要获取该资源的节点按照一定规律查找得到，从而大大方便了人与人之间的资源共享。

通常来说，人们通过基于特定关键词的检索来发现相应的资源。KAD网络属于一种典型的结构化P2P覆盖网络（StructuredP2POverlayNetwork），以分布式的应用层全网方式来进行信息的存储和检索。在KAD网络中，所有信息均以<key,value>的哈希表条目形式加以存储，只要是能够表述成为<key,value>字典条目形式的信息，KAD网络均能存储，一个KAD网络能够同时存储多张分布式哈希表。在eMule网络中，其KAD网络均存储并维护着两张分布式哈希表，一张为关键词字典，而另一张为文件索引字典。关键词字典主要用于根据给出的关键词查询其所对应的文件名称及相关文件信息，其中key的值等于所给出的关键词字符串的128比特md4散列，而其对应的value则为一个列表，可称为关键词字典列表。在这个关键词字典列表当中，给出了文件名中含有对应关键词的所有文件的文件信息，关键词字典列表中的每个条目都可以简单地用一个3元组条目表示，即：（文件名，文件长度，文件的MD4校验值）。容易看出，已知特定关键词，就能够找到相应的资源。

然而，某些情况下，用户感兴趣的资源并不局限于一个关键词。例如：庞大的eMule网络也不可避免地传播着一些不良信息和非法资源，而很多不良信息和非法资源在被发现之前对监管者来说是未知的，同时监管者往往不熟悉各种不良信息和非法资源之间的关联，所以也难以通过已知的检索关键词推测和联想到其它未知关键词，这导致使用目前的关键词检索方式难以在eMule网络中全面地发现不良信息和非法资源，造成监管出现漏洞。又例如：对于普通人来说，可能存在一些感兴趣的领域而又不知道相关的关键词，因而无法发现潜在的感兴趣的资源。

因此，当前迫切需要一种不局限于关键词的发现潜在的感兴趣的关联资源的解决方案。

发明内容

本发明的目的是提供一种eMule网络上不局限于关键词的发现潜在的感兴趣的关联资源的解决方案。

为实现上述发明目的，本发明提供了一种eMule网络上关联资源的发现方法，包括下列步骤：

1）获取用户设置的初始的关键词列表；

2）对于当前关键词列表中的每个关键词，在eMule网络中搜索与该关键词相关的资源文件，并记录搜索到的资源文件信息；

3）对进行了记录的资源文件的文件名进行分词处理，并将分词得到的新词加入关键词列表中，然后重新执行步骤2）；

重复执行步骤2）至3）直到满足结束条件。

其中，所述步骤2）中，所记录的资源文件信息包括：文件名，文件长度和文件的MD4校验值。

其中，所述步骤3）中，所述结束条件是所搜索的文件数目达到预设的阈值，或者是关键词数目已达到预设的阈值。

其中，所述步骤3）中，利用分隔符对资源文件的文件名进行分词。

其中，所述步骤3）中，所述分隔符包括″空格″、″.″、″<>″、″{}″、″[]″、″-″、″_″以及其它英文输入状态下的特殊符号。

其中，所述步骤1）还包括，获取用户设置的关注主题；

所述步骤3）中，对记录的资源文件的文件名进行分词处理后，利用预先训练好的语料库，将新词按不同的主题分类，将与所用户关注主题一致的新词加入关键词列表，舍弃与用户关注主题不一致的新词，更新完关键词列表后，重新执行步骤2）。

与现有技术相比，本发明具有下列技术效果：

1、本发明能够全面的发现eMule网络中潜在的用户感兴趣的资源。

2、本发明能够帮助用户发现特定领域相关的潜在的用户感兴趣的资源。

附图说明

以下，结合附图来详细说明本发明的实施例，其中：

图1为本发明一个实施例的eMule网络上关联资源的发现方法；

图2为本发明一个优选实施例的eMule网络上关联资源的发现方法。具体实施方式

下面，结合附图和具体实施例对本发明做进一步地描述。

图1示出了一种eMule网络上关联资源的发现方法的流程图，它可以在关键词的基础上全面自动地发现相关的文件，从而帮助用户获得感兴趣的文件信息。参考图1，该关联资源的发现方法包括下列步骤：

步骤101：设置需要关注的关键词列表；其中的关键词可以是用户已知的感兴趣的关键词。

步骤102：计算关键词列表中各关键词的MD4哈希值。

步骤103：利用计算出的关键词的MD4哈希值，在eMule网络中搜索与该关键词相关的资源。

本实施例的eMule网络支持Kademlia协议，这种eMule网络也可以称为KAD网络。在KAD网络中，所有信息均以<key,value>的哈希表条目形式加以存储，只要是能够表述成为<key,value>字典条目形式的信息，KAD网络均能存储，一个KAD网络能够同时存储多张分布式哈希表。KAD网络均存储并维护着两张分布式哈希表，一张为关键词字典，而另一张为文件索引字典。其中，关键词字典主要用于根据给出的关键词查询其所对应的文件名称及相关文件信息，其中key的值等于所给出的关键词字符串的128比特md4散列，而其对应的value则为一个列表，可称为关键词字典列表。在这个关键词字典列表当中，给出了文件名中含有对应关键词的所有文件的文件信息，关键词字典列表中的每个条目都可以简单地用一个3元组条目表示，即：（文件名，文件长度，文件的MD4校验值）。因此，本步骤中，已知关键词哈希值，可以通过KAD网络中的关键词字典列表查找到文件名中含有对应关键词的所有文件的文件信息。

步骤104：记录搜索到的资源文件信息。

所记录的资源文件信息包括文件名，文件长度和文件的MD4校验值。

步骤105：对资源文件的文件名进行分词处理，得到一系列相关的关键词，然后将这些新的关键词加入关键词列表中，进而重新执行步骤102，重复执行步骤102至105直到满足结束条件。

本步骤中，结束条件可以是所搜索的文件数目达到预设的阈值，也可以是关键词数目已达到预设的阈值，当然，本领域技术人员也可以根据实际情况设置其它的结束条件。

本步骤中，可以利用分隔符对资源文件的文件名进行分词。eMule网络中的资源文件名常常含有分隔符，例如：″空格″、″.″、″<>″、″{}″、″[]″、″-″、″_″等英文输入状态下的特殊符号。在分词时，查找资源文件的文件名中是否含有上述分隔符，然后再利用分隔符将资源文件的文件名分为若干个词，再将这些词加入关键词列表。需要说明的是，eMule网络中的资源文件名中有时会含有版本号，例如：″1.2.3″，所以，在一个优选实施例中，可以进一步设计筛选规则来判别特殊符号是否为分隔符，例如设定筛选规则：当″.″位于数字之间时，判定其不是分隔符。

基于本实施例的方法，用户可以基于已知的关键词，不断获得与该关键词相关的新的关键词，进而查找到更多的相关资源，从而帮助用户发现潜在的感兴趣的资源。

在一个优选实施例中，更进一步地对分词所得到的新的关键词基于不同主题进行分类，从而更好地帮助用户找到潜在的感兴趣的资源。

该实施例的eMule网络上关联资源的发现方法包括步骤201～205。

其中，步骤201：获取关键词列表和用户关注主题；初始的关键词列表和用户关注主题可由用户设置。

步骤202～204与前文步骤102～104一致，此处不再赘述。

步骤205：对资源文件的文件名进行分词处理，得到一系列新词，然后利用训练好的语料库，将新词按不同的主题进行分类，如政治、经济、文化等，将主题与所设置的用户关注主题一致的新词加入关键词列表，舍弃主题与所设置的用户关注主题不一致的新词。更新完关键词列表后，重新执行步骤202，重复执行步骤202至205直到满足结束条件。

本步骤中，语料库是通过采集大量的互联网网站的各个板块（比如财经板块，体育板块、政治板块等）内容，然后再对所采集的内容进行抽取而形成。语料库中建立词汇与主题（即财经，体育、政治等）的关联，因此资源文件的文件名分词后的新词能够根据语料库进行分类。

本实施例中，结束条件的选择，分词的方法与前述实施例一致，不再赘述。

下面结合图2，给出一个执行步骤205的具体例子。该例子中，在对资源文件的文件名进行分词处理，得到一系列新词后，执行下列子步骤：

步骤301：获取分词后所得到新词的词汇列表。

步骤302：对词汇列表中的词汇，根据语料库按主题进行分类。

步骤303：对于各个分类，判断其是否是用户关注主题，如果是，执行步骤305，否则，执行步骤304。

步骤304：删除当前分类下的所有词汇。

步骤305：更新关键词列表。即，将当前分类下的词汇加入关键词列表中。当然，在加入前，可以先滤除已存在于关键词列表中的词汇，这是本领域技术人员易于理解的。

本实施例的方法不仅能够超越关键词的局限，还能够更加准确地发现潜在的感兴趣的关联资源，有利于提高用户体验。

本发明尤其适用于网络监控领域，它能够帮助监管者全面地发现与已知关键词相关或相近的资源信息，有利于及早发现非法信息和不良信息。

最后应说明的是，以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制，本发明在应用上可以延伸为其它的修改、变化、应用和实施例，并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims

1.一种eMule网络上关联资源的发现方法，包括下列步骤：

1)获取用户设置的初始的关键词列表；

2)对于当前关键词列表中的每个关键词，在eMule网络中搜索与该关键词相关的资源文件，并记录搜索到的资源文件信息；其中，所述eMule网络为KAD网络；

3)对进行了记录的资源文件的文件名进行分词处理，并利用预先训练好的语料库，将分词得到的新词按不同的主题分类，将与用户所关注主题一致的新词加入关键词列表，舍弃与用户关注主题不一致的新词，然后重新执行步骤2)，直到满足结束条件。

2.根据权利要求1所述的eMule网络上关联资源的发现方法，其特征在于，所述步骤2)中，所记录的资源文件信息包括：文件名，文件长度和文件的MD4校验值。

3.根据权利要求1所述的eMule网络上关联资源的发现方法，其特征在于，所述步骤3)中，所述结束条件是所搜索的文件数目达到预设的阈值，或者是关键词数目已达到预设的阈值。

4.根据权利要求1所述的eMule网络上关联资源的发现方法，其特征在于，所述步骤3)中，利用分隔符对资源文件的文件名进行分词。

5.根据权利要求4所述的eMule网络上关联资源的发现方法，其特征在于，所述步骤3)中，所述分隔符包括"空格"、"."、"<>"、"{}"、"[]"、"-"、"_"以及其它英文输入状态下的特殊符号。

6.根据权利要求1所述的eMule网络上关联资源的发现方法，其特征在于，所述步骤1)还包括，获取用户设置的关注主题。