CN101196910B

CN101196910B - 一种确定网络资源的方法和装置

Info

Publication number: CN101196910B
Application number: CN200710195928XA
Authority: CN
Inventors: 何超; 刘智勇; 张晶白
Original assignee: Shenzhen Xunlei Network Technology Co Ltd
Current assignee: Shenzhen Xunlei Network Technology Co Ltd
Priority date: 2007-12-04
Filing date: 2007-12-04
Publication date: 2010-08-18
Anticipated expiration: 2027-12-04
Also published as: CN101196910A

Abstract

本发明实施例公开了一种确定网络资源的方法，包括：获取并保存第一统一资源定位器URL地址，第一URL地址对应的资源为二进制资源；确定保存的所述第一URL地址对应的站点；确定保存的站点对应的所述第一URL地址的数量；如果第一URL地址的数量不小于第一阈值，则查看所述第一URL地址对应的二进制资源的大小，如果二进制资源的大小小于第三阈值，则确定第一URL地址对应的二进制资源为第一网络资源。通过本发明实施例解决了二进制搜索引擎在获取Internet上的二进制资源的时候，由于不能对第一网络资源进行区分，从而降低了搜索引擎获取效率和搜索结果准确率的问题。本发明实施例同时公开了一种确定网络资源的装置。

Description

一种确定网络资源的方法和装置

技术领域

本发明涉及网络通信技术，特别涉及一种确定网络资源的方法和装置。

背景技术

随着网络技术的不断发展，网络上的资源也在快速地增加，网络搜索引擎成为了用户查找网络资源最主要的手段。

网络蜘蛛(Spider)技术是一个自动获取互联网(Internet)上各种资源的程序。Spider是当前万维网(Web)搜索引擎的基础，它为搜索引擎提供最原始的数据。

如图1所示，现有技术Spider装置的组成结构示意图中，包括：资源数据库(Resource DB)、统一资源定位器数据库(URL DB)、调度器(Scheduler)、资源获取器(Resource Crawler)、资源存储器(Resource Saver)和链接提取器(Link Extractor)。

其中，资源数据库，用于存储获取的资源结果；

统一资源定位器数据库，用于存储待获取资源的URL地址；

调度器，用于从统一资源定位器数据库中得到未获取过的URL(或需要更新获取)，发送给资源获取器；

资源获取器，用于根据收到的URL地址，使用相应的协议，从Internet上抓取资源(资源包括，但不限于文本、图片、音乐、软件、影视、游戏等)；

资源存储器，用于从资源获取器接收获取到的资源，保存到资源数据库；链接提取器，用于从资源获取器获取的资源中，提取该资源包含的URL地址，保存到统一资源定位器数据库中。

Spider技术执行的是一个循环过程，具体的步骤包括：

首先，初始化阶段，资源数据库存储有若干URL地址(比如一些网站主页的URL地址)；随后调度器从资源数据库中得到URL地址发送给资源获取器。资源获取器根据该URL地址，从Internet上获取对应的资源，发送给资源存储器和链接提取器；资源存储器将资源存储到资源数据库中；链接提取器从收到的资源中提取所有的URL地址，并存储于统一资源定位器数据库中。

Spider的目的是从上一层URL地址中获取资源以及下一层的URL地址，并从下一层的URL地址中获取资源以及更下一层的URL地址，如此循环，直到获取最后一层URL地址对应的资源为止，最终都会将获取的资源保存在资源数据库中。

获取结果侧重于二进制资源的Spider技术称为二进制Spider。二进制资源包括图片、软件、音乐、影视等所有非文本资源。二进制Spider中资源数据库主要存储二进制资源，以及与二进制资源相关的描述性信息。

但是目前的二进制网络资源中存在着大量的广告资源，这使得二进制搜索引擎在获取Internet上的二进制资源的时候，严重影响搜索引擎的获取效率，并且使得搜索结果出现偏差，甚至导致搜索结果与用户期望完全背离。

综上所述，目前的二进制搜索引擎在获取Internet上的二进制资源的时候，由于不能对广告资源进行区分，从而降低了搜索引擎获取的效率和搜索结果准确率。

发明内容

本发明实施例提供一种确定网络资源的方法和装置，用以解决现有技术中存在的二进制搜索引擎在获取Internet上的二进制资源的时候，由于不能对第一网络资源进行区分，从而降低了搜索引擎获取效率和搜索结果准确率的问题。

本发明实施例提供的一种确定网络资源的方法包括：

获取第一URL地址，查看保存的站点对应的所述第一URL地址的重复数量，如果重复数量小于第二阈值，则保存获取的所述第一URL地址；否则，放弃保存，所述第一URL地址对应的资源为二进制资源；

确定保存的所述第一URL地址对应的站点；

确定保存的所述站点对应的所述第一URL地址的数量；

如果所述第一URL地址的数量不小于第一阈值，则查看所述第一URL地址对应的二进制资源的大小，如果所述二进制资源的大小小于第三阈值，则确定所述第一URL地址对应的二进制资源为第一网络资源。

本发明实施例提供的一种确定网络资源的装置包括：

一种确定网络资源的装置，其特征在于，该装置包括：存储模块、站点确定模块、数量确定模块、容量确定模块和第一判断模块；其中，

存储模块包括：

第一模块，用于获取第一URL地址；

第二模块，用于查看保存的站点对应的所述第一URL地址的重复数量，如果重复数量小于第二阈值，则保存获取的所述第一URL地址；否则，放弃保存，所述第一URL地址对应的资源为二进制资源；

站点确定模块，用于确定保存的所述第一URL地址对应的站点；

数量确定模块，用确定保存的所述站点对应的所述第一URL地址的数量；

容量确定模块，用于如果所述第一URL地址的数量不小于第一阈值，确定所述第一URL地址对应的二进制资源的大小；

第一判断模块包括：

第二处理模块，用于查看所述二进制资源的大小是否小于第三阈值；

第三处理模块，如果所述二进制资源的大小小于第三阈值，则确定所述第一URL地址对应的二进制资源为第一网络资源。

本发明实施例获取并保存第一URL地址，所述第一URL地址对应的资源为二进制资源；确定保存的所述第一URL地址对应的站点；确定保存的所述站点对应的所述第一URL地址的数量；如果所述第一URL地址的数量不小于第一阈值，确定所述第一URL地址对应的二进制资源为第一网络资源，从而提高了搜索引擎获取二进制资源的效率，以及搜索结果的准确率和用户体验。

附图说明

图1为现有技术Spider装置的组成结构示意图；

图2为本发明实施例第一种确定网络资源的装置结构示意图；

图3为本发明实施例第二种确定网络资源的装置结构示意图；

图4为本发明实施例确定网络资源的方法流程示意图；

图5为本发明实施例获取并保存URL地址的方法流程示意图；

图6为本发明实施例判断二进制资源是否是第一网络资源的方法流程示意图。

具体实施方式

在本发明实施例中，根据保存的相同的第一URL地址在同一个站点中出现的次数，去判断第一URL地址对应的二进制资源是否是第一网络资源，从而在用户进行二进制资源搜索时，能够跳过二进制资源是第一网络资源的第一URL地址，提高了搜索引擎获取二进制资源的效率。

其中，第一URL地址为对应的资源是二进制资源的URL地址。

第一网络资源包括但不限于下列资源中的一种或几种：

广告资源、视频插件资源等。

下面结合说明书附图对本发明实施例作进一步详细描述。

如图2所示，本发明实施例第一种确定网络资源的装置包括：存储模块10、站点确定模块20、数量确定模块30和第一判断模块40。

存储模块10，与站点确定模块20链结，用于获取并保存第一URL地址，该第一URL地址对应的资源为二进制资源。

判断二进制资源的判别有很多方法，比如：

读取资源前N个字节；分析这N个字节，统计出文字、符号等可见字符的数目和不可见字符的数目；设可见字符的数目为n，不可见字符的数目为m，令v＝n/m；设定一个阀值V(0≤V≤1)；当v≥V时，确定该资源为二进制资源，否则确定该资源为非二进制资源。

站点确定模块20，与存储模块10和数量确定模块30链结，用于确定存储模块10中保存的第一URL地址对应的站点。

其中，站点确定模块20还可以进一步包括：获取模块200和第一处理模块210。

获取模块200，用于获取第一URL地址与站点的对应关系。

由于第一URL地址是从站点的网页中获取的，所以第一URL地址与站点是一一对应关系。

第一处理模块210，用于根据获取模块200获取的对应关系，确定存储模块10中保存的第一URL地址对应的站点。

其中，第一URL地址与站点的对应关系可以在存储模块10获取并保存第一URL地址时，进行建立。

具体的，第一URL地址与站点的对应关系可以采用下面一种或几种方式进行建立：

建立站点和从该站点获取并保存的所有第一URL地址的对应关系；在获取并保存第一URL地址时，建立该第一URL地址与站点的对应关系；对获取的第一URL地址进行配置，建立第一URL地址与站点的对应关系等等。

第一URL地址对应的站点可以是最上层的网址(即主页地址)，也可以是第一URL地址的上n层地址，(n为正整数，n的值可以根据需要设定)。

存储第一URL地址与站点的对应关系的实体可以采用数据库或文件或其他形式进行存储，当然根据需要可以将第一URL地址与站点的对应关系保存到存储模块中。

站点确定模块20确定的第一URL地址对应的站点是根据站点标识进行区分别的。

站点标识可以唯一识别对应的站点，站点标识包括但不限于下列标识中的一种或几种：

字符串、随机的数字、站点的域名、对站点域名进行哈希(Hash)计算后的数值等等。

只要能够保证每个站点都有唯一的标识即可。

数量确定模块30，与站点确定模块20和第一判断模块40连接，用于根据站点确定模块20确定的站点，确定存储模块10中保存的该站点对应的第一URL地址的数量。

这里是要确定保存的相同的第一URL地址中，有多少个第一URL是从同一个站点获取的。

第一判断模块40，与数量确定模块30连接，用于如果数量确定模块30确定的第一URL地址的数量不小于设定的第一阈值，则第一URL地址对应的二进制资源为第一网络资源。

其中，存储模块10还可以进一步包括：第一模块100和第二模块110。

第一模块100，用于获取第一URL地址。

第二模块110，用于查看保存的所述站点对应的该第一URL地址的重复数量，如果重复数量小于设定的第二阈值，则保存获取的第一URL地址；否则，放弃保存。

在具体实施过程中，存储模块10还可以根据图5或表1中的存储方法进行存储。

查看保存的所述站点对应的第一URL地址的重复数量可以采用Hash计算方式或者其他任何类似的计算方式实现。

Hash计算方式包括但不限于下列算法中的一种或几种：

Bloom Filter算法、信息-摘要算法(Message-Digest Algorithm，MD)5，MD4，安全散列算法(Secure Hash Algorithm，SHA)等等。

则确定网络资源的装置还可以进一步包括：容量确定模块50。

容量确定模块50，与数量确定模块30和第一判断模块40连接，用于如果数量确定模块30确定的第一URL地址的数量不小于第一阈值，则确定第一URL地址对应的二进制资源的大小(Size)。

所述二进制资源的Size可以通过HTTP或FTP等网络协议从所述第一URL地址获取，获取时机可以是在获取所述第一URL地址的同时或之后。

则第一判断模块40还可以进一步包括：第二处理模块400和第三处理模块410。

第二处理模块400，用于查看容量确定模块50确定的二进制资源的Size是否小于第三阈值。

第三处理模块410，用于如果第二处理模块400确定的二进制资源的Size小于设定的第三阈值，则确定第一URL地址对应的二进制资源为第一网络资源。

第一判断模块40还可以进一步包括：还可以进一步包括：第四处理模块420。

第四处理模块420，用于如果第二处理模块400确定的二进制资源的Size不小于设定的第三阈值，则确定第一URL地址对应的二进制资源为非第一网络资源。

在本实施例中，第一阈值、第二阈值和第三阈值可以根据实际情况进行设定。

在具体实施中，需要将第一URL地址在同一个站点出现的数量与第一阈值进行比较；将所述同一个站点对应的第一URL地址重复保存的数量与第二阈值进行比较；将第一网络资源Size与第三阈值进行比较。

由于第一网络资源会在同一个站点的不同网页重复出现，所以对于一个第一网络资源的第一URL地址来说，会被重复获取多次，这时只要查看获取的第一URL地址在同一个站点出现的次数就可以判断该第一URL地址对应的二进制资源是否是第一网络资源，并且第一阈值设定的数值越大，判断的结果越准确。

由于第一网络资源的Size相对其他二进制文件的Size要小得多，所以可以根据统计规律设定第三阈值；还可以根据经验设定第三阈值。

其中，确定网络资源的装置还可以进一步包括：第二判断模块60。

第二判断模块60，与数量确定模块30连接，用于如果数量确定模块30确定的第一URL地址的数量小于第一阈值，则确定第一URL地址对应的二进制资源为非第一网络资源。

由于本实施例可以将第一网络资源进行过滤，在搜索时只搜索非第一网络资源，所以可以提高搜索效率。

在具体实施过程中，本发明实施例确定网络资源的装置还可以和现有Spider装置结合使用，如图3所示，本发明实施例第二种确定网络资源的装置中，存储模块10从资源存储器中获取第一URL地址，并按照图2所示的方式进行操作，其他模块同样按照图2所示的方式进行操作。

判断网络资源是否为二进制资源还可以在Spider装置中进行，如果第一URL地址对应的资源二进制资源，可以进行标记，则确定网络资源的装置获取有标记的第一URL地址。

如图4所示，本发明实施例确定网络资源的方法包括下列步骤：

步骤400、获取并保存第一URL地址，该第一URL地址对应的资源为二进制资源。

判断二进制资源的判别有很多方法，比如：

步骤401、确定保存的第一URL地址对应的站点。

其中，步骤401还可以进一步包括：

根据建立的第一URL地址与站点的对应关系，确定保存的第一URL地址对应的站点。

第一URL地址与站点的对应关系可以在获取并保存第一URL地址时，进行建立。

存储第一URL地址与站点的对应关系的实体可以采用数据库或文件或其他形式进行存储。

第一URL地址对应的站点是根据站点标识进行区分别的。

站点标识可以唯一标识对应的站点，站点标识包括但不限于下列标识中的一种或几种：

字符串、随机的数字、站点的域名、对站点域名进行Hash计算后的数值等等。

只要能够保证每个站点都有唯一的标识即可。

比如：第一URL地址可以是http://www.网站地址.com/soft/1762.exe，该第一URL地址所对应的域名可以是www.网站地址.com，可以看出第一URL地址是指向二进制资源的URL地址，其所对应的域名可以作为站点标识。

步骤402、确定保存的该站点对应的第一URL地址的数量。

步骤403、如果第一URL地址的数量不小于第一阈值，确定第一URL地址对应的二进制资源为第一网络资源。

其中，步骤400还可以进一步包括：

获取第一URL地址，查看保存的所述站点对应的第一URL地址的重复数量，如果重复数量小于第二阈值，则保存获取的第一URL地址；否则，放弃保存。

在具体实施过程中，还可以根据图5或表1中的存储方法进行存储。

查看保存的第一URL地址的重复数量可以采用Hash计算方式或者其他任何类似的计算方式实现。

Hash计算方式包括但不限于下列算法中的一种或几种：

Bloom Filter算法、MD5，MD4，SHA等等。

则步骤403还可以进一步包括：

如果第一URL地址的数量不小于第一阈值，则查看第一URL地址对应的二进制资源的Size，如果二进制资源的Size小于第三阈值，则确定第一URL地址对应的二进制资源为第一网络资源。

如果二进制资源的Size不小于第三阈值，则确定第一URL地址对应的二进制资源为非第一网络资源。

由于一般情况下第一网络资源会在同一个站点的不同网页重复出现，所以对于一个第一网络资源的第一URL地址来说，可能会被重复获取多次，这时只要查看获取的第一URL地址在同一个站点出现的次数就可以判断该第一URL地址对应的二进制资源是否是第一网络资源，并且第一阈值设定的数值越大，判断的结果越准确。

其中，步骤403还可以进一步包括：如果第一URL地址的数量小于第一阈值，确定第一URL地址对应的二进制资源为非第一网络资源。

如图5所示，本发明实施例获取并保存URL地址的方法包括：

预先定义三个函数：

Hash(string)：采用某种Hash算法(比如：Bloom Filter算法、MD5，MD4，SHA，SHS等等)，计算并保存字符串string的hash值。

此Hash函数可以保证保存的第一URL地址的重复率较低，在具体实施过程中，Bloom Filter算法或其他任何类似的算法均可应用本实施例。

Check(string)：检查string的Hash值是否已经存在。

Save(string)：将字符串string进行保存。

具体的，如果与Spider装置结合使用，则可以保存到URL数据库中，如果不与Spider装置结合使用，则可以保存到图2所示的存储模块中，当然，只要能够保证获取到第一URL地址，还可以保存到任何存储实体中。

以上的Hash(string)和Check(string)函数的运算过程均在内存中进行，运算结果也都只保存在内存中，因此保证了运算的速度，但本实施例并不局限于内存中，在其他存储实体中同样可以实现，而实现的方法与在内存中类似，不再赘述。

步骤500、查看内存中是否存在第一URL地址和其上层URL地址组合的Hash值，如果是，则结束流程；否则，执行步骤501。

在具体实施过程中，可以通过Check(string)函数实现：

Check(url+refer_url)＝＝1

url+refer_url为第一URL地址和其上层URL地址的组合，比如：第一URL地址为http://www.网站网址/soft/1；上层URL地址为http://www.网站网址/soft，则url+refer_url为http://www.网站网址/soft/1 http://www.网站网址/soft。

步骤501、计算并保存第一URL地址和其上层URL地址组合的Hash值。

在具体实施过程中，可以通过Hash(string)函数实现：

Hash(url+refer_url)

步骤502、查看内存中是否存在第一URL地址的Hash值，如果是，则执行步骤504；否则，执行步骤503。

在具体实施过程中，可以通过Check(string)函数实现：

Check(url)＝＝1

步骤503、计算并保存第一URL地址的Hash值，保存第一URL地址，结束流程。

在具体实施过程中，可以通过Hash(string)和Save(string)函数实现：

Hash(url)；Save(url)；End

其中，在内存中计算并保存第一URL地址的Hash值，将第一URL地址保存到对应的存储实体中。

步骤504、查看内存中是否存在第一URL地址和第一URL地址对应的标识组合的Hash值，如果是，则结束流程；否则，执行步骤505。

第一URL地址对应的标识为预先设定的标识，可以是任意标识，比如：空格，“*”号，一组数字等等。

以“*”号为例，在具体实施过程中，可以通过Check(string)函数实现：

Check(url+“*”)＝＝1

即查看http://www.网站网址/soft/1*的Hash值。

上面是以“*”号为例进行说明，其他标识与*号类似，不再赘述。

步骤505、计算并保存第一URL地址和“*”组合的Hash值，保存第一URL地址，结束流程。

Hash(url+“*”)；Save(url)；End

需要说明的是，本实施例设定的第二阈值为2，根据需要可以设定其他值。

如果第二阈值为3，则还需要设定另一个第一URL地址对应的标识，依此类推。

设定了第一URL地址对应的标识顺序后，其他的第一URL地址都需要按照该表示顺序进行查看，比如：首先设定*号，下次设定为空格，则每次查看时，都要按照先*号后空格的顺序进行查看。

步骤500中的url+refer_url的格式还可以设定成refer_url+url，当然，后续的查看也都要按照refer_url+url的格式进行；同样的，url+“*”的格式也可以修改为“*”+url，后续的查看也都要按照“*”+url的格式进行；

在具体实施过程中，还可以修改成其他格式，但要保证后续查看都要按照修改的格式进行。

本实施例的流程还可以按照表1的方法实现：

if(Check(url+refer_url)＝＝1){ //如果url与refer_url //组合而成的字符串的哈希值 //存在(即之前某个时刻被计算且保存过) return； //结束}Hash(url+refer_url)； //计算由url和refer_url组合而成的字符串的哈希值， //并保存extra_string＝‘’； //首先赋值为空串(即不包含任何字符的字符串)for(inti＝0；i＜N；i++) //循环N次。N为设定的第二阈值{ extra_string＝extra_string+FLAG_STRING； //extra_string为由i个 //FLAG_STRING //组合而成的字符串 string＝url+extra_string； //字符串string由url和extra_string //组合而成 if(Check(string)！＝1){ //如果内存中存在字符串string的哈希值 Hash(string)； //计算字符串string的哈希值，并保存 Save(string)； //保存字符串string break； //退出for循环 }}return；//结束

表1

其中：

url为待保存的第一URL地址；

refer_url为第一URL地址的上层URL地址；

N为第二阈值；

FLAG_STRING是一个固定的字符串，可以使用除空串(即不包含任何字符的字符串，其长度为0)之外的任意字符串。

如图6所示，本发明实施例判断二进制资源是否是第一网络资源的方法包括下列步骤：

步骤600、查看保存的同一站点对应的第一URL地址的数量，是否不小于第一阈值，如果是，则执行步骤601、否则，执行步骤603。

其中同一站点对应的第一URL地址的数量是保存的相同第一URL地址在同一个站点中出现的次数。

步骤601、查看第一URL地址对应的二进制资源的Size是否小于设定的第三阈值，如果是，则执行步骤602；否则，执行步骤603。

步骤602、第一URL地址对应的二进制资源为第一网络资源，结束流程。

步骤603、第一URL地址对应的二进制资源为非第一网络资源，结束流程。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。应该明白，这些具体实施中的变化对于本领域的技术人员来说是显而易见的，不脱离本发明的精神保护范围。

从上述实施例中可以看出：本发明实施例获取并保存第一URL地址，所述第一URL地址对应的资源为二进制资源；确定保存的所述第一URL地址对应的站点；确定保存的所述站点对应的所述第一URL地址的数量；如果所述第一URL地址的数量不小于第一阈值，确定所述第一URL地址对应的二进制资源为第一网络资源，从而提高了搜索引擎获取二进制资源的效率，以及搜索结果的准确率和用户体验。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种确定网络资源的方法，其特征在于，该方法包括：

确定保存的所述第一URL地址对应的站点；

确定保存的所述站点对应的所述第一URL地址的数量；

2.如权利要求1所述的方法，其特征在于，该方法还包括：

如果所述第一URL地址的数量小于第一阈值，确定所述第一URL地址对应的二进制资源为非第一网络资源。

3.如权利要求1所述的方法，其特征在于，所述确定保存的所述第一URL地址对应的站点包括：

根据建立的第一URL地址与站点的对应关系，确定保存的所述第一URL地址对应的站点。

4.如权利要求1或3所述的方法，其特征在于，所述第一URL地址对应的所述站点是根据站点标识进行区分的。

5.如权利要求1所述的方法，其特征在于，如果所述二进制资源的大小不小于第三阈值，则确定所述第一URL地址对应的二进制资源为非第一网络资源。

6.一种确定网络资源的装置，其特征在于，该装置包括：存储模块、站点确定模块、数量确定模块、容量确定模块和第一判断模块；其中，

存储模块包括：

第一模块，用于获取第一URL地址；

数量确定模块，用于确定保存的所述站点对应的所述第一URL地址的数量；

第一判断模块包括：

第三处理模块，用于如果所述二进制资源的大小小于第三阈值，则确定所述第一URL地址对应的二进制资源为第一网络资源。

7.如权利要求6所述的装置，其特征在于，所述装置还包括：

第二判断模块，用于如果所述第一URL地址的数量小于第一阈值，确定所述第一URL地址对应的二进制资源为非第一网络资源。

8.如权利要求6所述的装置，其特征在于，所述站点确定模块包括：

获取模块，用于获取第一URL地址与站点的对应关系；

第一处理模块，用于根据所述对应关系，确定保存的所述第一URL地址对应的站点。

9.如权利要求6或8所述的装置，其特征在于，所述第一URL地址对应的所述站点是根据站点标识进行区分的。

10.如权利要求6所述的装置，其特征在于，所述第一判断模块还包括：

第四处理模块，用于如果所述二进制资源的大小不小于第三阈值，则确定所述第一URL地址对应的二进制资源为非第一网络资源。