CN105468683A

CN105468683A - 对网址进行查重的方法及装置

Info

Publication number: CN105468683A
Application number: CN201510784239.7A
Authority: CN
Inventors: 李雪峰
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-11-16
Filing date: 2015-11-16
Publication date: 2016-04-06

Abstract

本公开是关于一种对网址进行查重的方法及装置，属于网络技术领域。方法包括：获取训练样本；根据所述训练样本确定提取规则，所述提取规则用于指示在一个网址中提取对应网页的标识；根据所述提取规则提取目标网址集合中的各个网址对应网页的标识；将提取到的网页的标识相匹配的至少两个网址确定为页面内容相同的网址。只需要从待查重的网址中提取出网页的标识，根据网页的标识进行查重，能够有效的查找出对应内容相同的网址，提高查重的准确性，同时，只根据网页的标识进行查重，能够减少计算量，提高查重效率。

Description

对网址进行查重的方法及装置

技术领域

本公开涉及网络技术领域，特别涉及一种对网址进行查重的方法及装置。

背景技术

网络爬虫是一种自动爬取互联网上的信息的程序或者脚本。网络爬虫始于一张被称作种子的URL(UniformResourceLocator，统一资源定位符)列表。当网络爬虫访问这些URL时，会甄别出页面上所有的超链接(网址)，并将这些网址写入一张“待访列表”，之后对该“待访列表”中的各个网址进行循环访问，以爬取这些网址对应的页面内容。

由于互联网的拓扑结构，“待访列表”中有很多重复网址，因此，在爬取页面内容之前，需要对“待访列表”中的网址进行查重，根据查重结果去掉重复的网址。比如，对“待访列表”中的网址进行查重时，可以对“待访列表”中的各个网址进行哈希变换，用变换后的哈希值进行查重处理，将哈希值相同的网址确定为重复的网址。

在实际应用中，有很多不同的网址会指向相同的网页，比如，在一个电商网站中，同一个商品页面可能对应有多个不同的网址，仅仅通过比对网址的哈希值进行查重的方式并不能保证查重的准确率，另外，对整个网址进行哈希变换也需要消耗大量的时间，影响查重效率。

发明内容

本公开实施例提供了一种对网址进行查重的方法及装置，所述技术方案如下：

根据本公开实施例的第一方面，提供了一种对网址进行查重的方法，该方法包括：

获取训练样本，所述训练样本中包含有若干个训练组，每个训练组中包含至少一个网址，对于所述若干个训练组中的任意一个训练组，当所述训练组中包含两个或者两个以上网址时，所述两个或者两个以上网址指向同一网页；

根据所述训练样本确定提取规则，所述提取规则用于指示在一个网址中提取对应网页的标识；

根据所述提取规则提取目标网址集合中的各个网址对应网页的标识；

将提取到的网页的标识相匹配的至少两个网址确定为页面内容相同的网址。

可选的，所述根据所述训练样本确定提取规则，包括：

通过预设的训练模型对所述若干个训练组进行机器训练，根据训练结果确定所述提取规则，所述提取规则中包含特征字段以及所述特征字段与网页的标识之间的格式关系。

可选的，所述若干个训练组中包含的网址与所述目标网址集合中的各个网址属于同一电商网站；或者，所述若干个训练组中包含的网址与所述目标网址集合中的各个网址分别属于不同的电商网站，所述网页的标识为商品标识。

可选的，所述获取训练样本，包括：

获取样本网址集合，所述样本网址集合中包含所述若干个训练组中的各个网址；

对所述样本网址集合中的各个网址逐一进行网页内容爬取，获得所述样本网址集合中的各个网址各自对应的网页内容；

根据所述样本网址集合中的各个网址各自对应的网页内容进行查重；

根据查重结果，将所述样本网址集合中的各个网址中，对应相同网页内容的网址添加入同一训练组。

可选的，所述将提取到的网页的标识相匹配的至少两个网址确定为页面内容相同的网址，包括：

将提取到的网页的标识相同的至少两个网址确定为页面内容相同的网址；

或者，

对提取到的网页的标识进行哈希变换，获得所述各个网址对应的哈希值，将对应的哈希值相同的至少两个网址确定为页面内容相同的网址。

根据本公开实施例的第二方面，提供了一种对网址进行查重的装置，所述装置包括：

样本获取模块，用于获取训练样本，所述训练样本中包含有若干个训练组，每个训练组中包含至少一个网址，对于所述若干个训练组中的任意一个训练组，当所述训练组中包含两个或者两个以上网址时，所述两个或者两个以上网址指向同一网页；

规则确定模块，用于根据所述训练样本确定提取规则，所述提取规则用于指示在一个网址中提取对应网页的标识；

标识提取模块，用于根据所述提取规则提取目标网址集合中的各个网址对应网页的标识；

网址确定模块，用于将提取到的网页的标识相匹配的至少两个网址确定为页面内容相同的网址。

可选的，所述规则确定模块，用于通过预设的训练模型对所述若干个训练组进行机器训练，根据训练结果确定所述提取规则，所述提取规则中包含特征字段以及所述特征字段与网页的标识之间的格式关系。

可选的，所述若干个训练组中包含的网址与所述目标网址集合中的各个网址属于同一电商网站；或者，所述若干个训练组中包含的网址与所述目标网址集合中的各个网址分别属于不同的电商网站；所述网页的标识为商品标识。

可选的，所述样本获取模块，包括：

集合获取单元，用于获取样本网址集合，所述样本网址集合中包含所述若干个训练组中的各个网址；

内容爬取单元，用于对所述样本网址集合中的各个网址逐一进行网页内容爬取，获得所述样本网址集合中的各个网址各自对应的网页内容；

查重单元，用于根据所述样本网址集合中的各个网址各自对应的网页内容进行查重；

添加单元，用于根据查重结果，将所述样本网址集合中的各个网址中，对应相同网页内容的网址添加入同一训练组。

可选的，所述网址确定模块，包括：

第一确定单元，用于将提取到的网页的标识相同的至少两个网址确定为页面内容相同的网址；

第二确定单元，用于对提取到的网页的标识进行哈希变换，获得所述各个网址对应的哈希值，将对应的哈希值相同的至少两个网址确定为页面内容相同的网址。

本公开实施例提供的技术方案可以包括以下有益效果：

通过根据预先设置的训练样本确定从网址中提取网页的标识的提取规则，根据提取规则提取目标网址集合中的各个网址对应的网页的标识，将提取到的网页的标识相匹配的至少两个网址确定为页面内容相同的网址，只需要从待查重的网址中提取出网页的标识，根据网页的标识进行查重，能够有效的查找出对应内容相同的网址，提高查重的准确性，同时，只根据网页的标识进行查重，能够减少计算量，提高查重效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的对网址进行查重的方法的流程图；

图2A是根据另一示例性实施例示出的对网址进行查重的方法的流程图；

图2B是根据图2A所示实施例示出的获取训练样本的方法的流程图；

图3是根据一示例性实施例示出的对网址进行查重的装置的框图；

图4是根据另一示例性实施例示出的对网址进行查重的装置的框图；

图5是根据一示例性实施例示出的一种装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种对网址进行查重的方法的流程图，该方法可以由计算机设备所执行，该计算机设备可以是一台个人电脑、工作站或者网络服务器等。该对网址进行查重的方法可以包括如下几个步骤：

步骤101，获取训练样本，该训练样本中包含有若干个训练组，每个训练组中包含至少一个网址，对于该若干个训练组中的任意一个训练组，当该训练组中包含两个或者两个以上网址时，该两个或者两个以上网址指向同一网页。

步骤102，根据该训练样本确定提取规则，该提取规则用于指示在一个网址中提取对应网页的标识。

步骤103，根据该提取规则提取目标网址集合中的各个网址对应网页的标识。

步骤104，将提取到的网页的标识相匹配的至少两个网址确定为页面内容相同的网址。

综上所述，本公开实施例所示的对网址进行查重的方法，通过根据预先设置的训练样本确定从网址中提取网页的标识的提取规则，根据提取规则提取目标网址集合中的各个网址对应的网页的标识，将提取到的网页的标识相匹配的至少两个网址确定为页面内容相同的网址，只需要从待查重的网址中提取出网页的标识，根据网页的标识进行查重，能够有效的查找出对应内容相同的网址，提高查重的准确性，同时，只根据网页的标识进行查重，能够减少计算量，提高查重效率。

上述实施例所示的方法可以用于对电商网站或者网址结构与电商网站类似的其它类型网站进行网址查重。以电商网站为例，电商网站的网址都具有一定的规律性，一个电商网站中各个页面的网址中，每个部分都有特定的含义，能够从中确定出有效的提取规则。对于一个介绍商品的商品详情页面，其一般会有该商品在该网站的id(Identification，身份标识)号，该id号往往与某一个特征字段(比如id标签)之间具有固定的格式关系，通过该id号就能够找出唯一标示该商品的商品详情页。虽然有时网页的网址会发生一些变化，但是其中的商品id号却不会改变，仍然指向同一个商品详情页，因此，通过特征字段以及相应的格式关系就能找出网址中的商品id号，通过比较多个网址携带的商品id号是否相同，就能够知道该网址是否是指向同一个商品详情页。一方面，用商品id号代替整个网址，可以大大缩短整个网址的长度，减少了做哈希变换以及用哈希值进行查重所需的时间，从而带来更高效的查重效率；另一方面，通过商品id号可以识别出指向相同网页的不同网址，避免爬虫系统多次爬取同一网页，提高了查重的准确率。下面就以上述实施例所示的方法应用于对电商网站进行查重为例进行详细说明。

图2A是根据另一示例性实施例示出的一种对网址进行查重的方法的流程图，该方法可以由计算机设备所执行，该计算机设备可以是一台个人电脑、工作站或者网络服务器等。以该方法应用于对电商网站中的指向各个商品对应页面的网址进行查重为例，该对网址进行查重的方法可以包括如下几个步骤：

步骤201，获取训练样本，该训练样本中包含有若干个训练组，每个训练组中包含至少一个网址，对于该若干个训练组中的任意一个训练组，当该训练组中包含两个或者两个以上网址时，该两个或者两个以上网址指向同一网页。

具体的，请参考图2B，其示出了本公开实施例所示的获取训练样本的方法的流程图，该方法可以包括如下几个步骤：

步骤201a，获取样本网址集合，该样本网址集合中包含该若干个训练组中的各个网址。

步骤201b，对该样本网址集合中的各个网址逐一进行网页内容爬取，获得该样本网址集合中的各个网址各自对应的网页内容。

步骤201c，根据该样本网址集合中的各个网址各自对应的网页内容进行查重。

步骤201d，根据查重结果，将该样本网址集合中的各个网址中，对应相同网页内容的网址添加入同一训练组。

本公开所示的方法可以由运行在计算机设备中的爬虫系统来执行，比如，对于某一个作为样本的电商网站，爬虫系统获取该电商网站中的所有网址，将获取到的网址添加入一个样本地址集合，并对该样本地址集合中的每一个网址都进行页面内容的爬取，根据爬取获得的页面内容进行查重，确定每个不同的页面内容所对应的至少一个网址，将对应相同页面内容的至少一个网址组合成一个训练组，每个不同的页面内容都可以获得一个训练组，将各个不同页面内容对应的训练组组合成训练样本，并添加入训练库。

步骤202，根据该训练样本确定提取规则，该提取规则用于指示在一个网址中提取对应网页的标识。

对于电商网站来说，该网页的标识可以是具体的商品标识，比如一段数字。

具体的，爬虫系统可以通过预设的训练模型对该若干个训练组进行机器训练，根据训练结果确定该提取规则，该提取规则中包含特征字段以及该特征字段与网页的标识之间的格式关系。

其中，对于电商网站，爬虫系统可以利用预先设置的训练模型或学习算法对训练库中的训练样本进行训练，得到一个从整个网址中提取商品id号(或者是其他能够表征网页的标识)的提取规则。该提取规则可以是一个固定的特征字段与对应的商品id号按照一定的格式关系组成的组合。比如，某电商网站中的一个商品的网址为：“https://www.xxxxxxxxxxxxxx.id:980120885/xxxxx”，其中，“980120885”为商品的id号，“id:……/”为特征字段，基于该电商网站获得的训练样本按照预设的训练模型进行训练后，获得的一个提取规则为：从满足“id:”+数字串+“/”的格式的字段中提取数字串。

需要说明的是，本公开实施例仅以上述“id:”+数字串+“/”的格式进行举例说明，在实际应用中，还可以有其它类型的特征字段与商品id号之间的格式关系，对于特征字段与商品id号之间的格式关系的具体形式，本公开不做限定。

步骤203，根据该提取规则提取目标网址集合中的各个网址对应网页的标识。

获取提取规则之后，当爬虫系统对另一个电商网站中的各个网址的网页内容进行爬取之前，可以首先获取将待爬取的电商网站中包含的各个网址，将获取到的各个网址添加入目标网址集合，再按照该提取规则对待爬取的电商网站中的各个网址进行标识提取，即提取各个网址中的商品id号。

步骤204，将提取到的网页的标识相匹配的至少两个网址确定为页面内容相同的网址。

具体的，提取到的网页的标识相匹配可以是网页的标识相同，或者网页的标识的哈希值相同。爬虫系统可以将提取到的网页的标识相同的至少两个网址确定为页面内容相同的网址；或者，爬虫系统也可以对提取到的网页的标识进行哈希变换，获得该各个网址对应的哈希值，将对应的哈希值相同的至少两个网址确定为页面内容相同的网址。

以将对应的哈希值相同的至少两个网址确定为页面内容相同的网址为例，对于电商网站来说，爬虫系统获取待爬取的电商网站中的各个网址中的商品id号，对各个商品id号进行哈希计算，获得待爬取的电商网站中的各个网址对应的哈希值，将各个哈希值进行比对，将对应的哈希值相同的网址确定为指向同一商品页面的网址。

步骤205，对于提取到的网页的标识相匹配的至少两个网址，仅根据该至少两个网址中的一个网址进行页面内容的爬取。

若某一个网址对应的网页的标识与其它各个网址对应的网页的标识都不相同，则爬虫系统直接将该网址添加入待访列表；若有两个或者两个以上网址对应的网页的标识相匹配，则爬虫系统将该两个或者两个以上网址中的一个网址添加入该待访列表，其它网址则丢弃。等到对该待爬取的电商网站中所有的网址都进行标识提取和查重之后，爬虫系统根据待访列表中的各个网址，对该待爬取的网站中的各个页面内容进行爬取。

本公开所示的方法，先通过无差别的采集一个电商网站的网址和网址所对应的网页内容，对网页内容进行查重，找出网址不同但是网页内容相同的网页，将这些对应相同内容的网址之间的关系作为训练样本添加入训练库，用机器学习的方式对训练库中的训练样本进行训练，得到一个从整个网址中提取用来代表整个网址对应的网页的标识的提取规则，后续对另一个待爬取的电商网站进行网页内容爬取时，可以根据该提取规则从该待爬取的电商网站包含的各个网址中提取网页的标识，利用该网页的标识代表整个网址，对网页的标识进行哈希变换，用变换后的哈希值进行查重。当两个网址中网页的标识的哈希值相同时，则认为两个网址所指向的页面内容相同，将去除其中一个网址，只采集其中一个网址；若哈希值不同，则认为两个网址指向的网页内容不同，将分别采集两个网址。

需要说明的是，本公开实施例所示的方案中，该若干个训练组中包含的网址与该目标网址集合中的各个网址分别属于不同的电商网站，在另一种可能的实现方式中，该若干个训练组中包含的网址与该目标网址集合中的各个网址属于同一电商网站。

比如，对于某一个待爬取的电商网站，该电商网站中一共包含10000个网址，爬虫系统对前2000个网址进行无差别的网页内容爬取，对爬取的内容进行查重，按照上述方法获取训练样本并进行训练，得到提取规则，再根据该提取规则从该剩余的8000个网址中提取网页的标识，利用该网页的标识代表整个网址，进行查重。

进一步的，本公开实施例所示的方法不仅限于对电商网站中的网址进行查重，还可以应用于其它与电商网站有类似的网址结构特点的网站，或者其它一些网址内容含义较强，网址结构清晰的网站。

图3是根据一示例性实施例示出的一种对网址进行查重的装置的框图，该装置可以通过硬件或者软硬结合的方式实现为计算机设备的一部分，该计算机设备可以是一台个人电脑、工作站或者网络服务器等。该对网址进行查重的装置可以包括：

样本获取模块301，用于获取训练样本，所述训练样本中包含有若干个训练组，每个训练组中包含至少一个网址，对于所述若干个训练组中的任意一个训练组，当所述训练组中包含两个或者两个以上网址时，所述两个或者两个以上网址指向同一网页；

规则确定模块302，用于根据所述训练样本确定提取规则，所述提取规则用于指示在一个网址中提取对应网页的标识；

标识提取模块303，用于根据所述提取规则提取目标网址集合中的各个网址对应网页的标识；

网址确定模块304，用于将提取到的网页的标识相匹配的至少两个网址确定为页面内容相同的网址。

综上所述，本公开实施例所示的对网址进行查重的装置，通过根据预先设置的训练样本确定从网址中提取网页的标识的提取规则，根据提取规则提取目标网址集合中的各个网址对应的网页的标识，将提取到的网页的标识相匹配的至少两个网址确定为页面内容相同的网址，只需要从待查重的网址中提取出网页的标识，根据网页的标识进行查重，能够有效的查找出对应内容相同的网址，提高查重的准确性，同时，只根据网页的标识进行查重，能够减少计算量，提高查重效率。

图4是根据另一示例性实施例示出的一种对网址进行查重的装置的框图，该装置可以通过硬件或者软硬结合的方式实现为计算机设备的一部分，该计算机设备可以是一台个人电脑、工作站或者网络服务器等。该对网址进行查重的装置可以包括：

可选的，所述规则确定模块302，用于通过预设的训练模型对所述若干个训练组进行机器训练，根据训练结果确定所述提取规则，所述提取规则中包含特征字段以及所述特征字段与网页的标识之间的格式关系。

可选的，所述样本获取模块301，包括：

集合获取单元301a，用于获取样本网址集合，所述样本网址集合中包含所述若干个训练组中的各个网址；

内容爬取单元301b，用于对所述样本网址集合中的各个网址逐一进行网页内容爬取，获得所述样本网址集合中的各个网址各自对应的网页内容；

查重单元301c，用于根据所述样本网址集合中的各个网址各自对应的网页内容进行查重；

添加单元301d，用于根据查重结果，将所述样本网址集合中的各个网址中，对应相同网页内容的网址添加入同一训练组。

可选的，所述网址确定模块304，包括：

第一确定单元304a，用于将提取到的网页的标识相同的至少两个网址确定为页面内容相同的网址；

第二确定单元304b，用于对提取到的网页的标识进行哈希变换，获得所述各个网址对应的哈希值，将对应的哈希值相同的至少两个网址确定为页面内容相同的网址。

需要说明的一点是，上述实施例提供的装置在执行对网址进行查重的方法时，仅以上述各个功能模块的划分进行举例说明，实际应用中，可以根据实际需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种装置500的框图。例如，装置500可以被提供为一服务器。参照图5，装置500包括处理组件522，其进一步包括一个或多个处理器，以及由存储器532所代表的存储器资源，用于存储可由处理部件522执行的指令，例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件522被配置为执行指令，以执行上述图1或图2A所示的方法。

装置500还可以包括一个电源组件526被配置为执行装置500的电源管理，一个有线或无线网络接口550被配置为将装置500连接到网络，和一个输入输出(I/O)接口558。装置500可以操作基于存储在存储器532的操作系统，例如WindowsServerTM，MacOSXTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种对网址进行查重的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述训练样本确定提取规则，包括：

3.根据权利要求1所述的方法，其特征在于，

所述若干个训练组中包含的网址与所述目标网址集合中的各个网址属于同一电商网站；或者，所述若干个训练组中包含的网址与所述目标网址集合中的各个网址分别属于不同的电商网站，所述网页的标识为商品标识。

4.根据权利要求1所述的方法，其特征在于，所述获取训练样本，包括：

5.根据权利要求1所述的方法，其特征在于，所述将提取到的网页的标识相匹配的至少两个网址确定为页面内容相同的网址，包括：

或者，

6.一种对网址进行查重的装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，

所述规则确定模块，用于通过预设的训练模型对所述若干个训练组进行机器训练，根据训练结果确定所述提取规则，所述提取规则中包含特征字段以及所述特征字段与网页的标识之间的格式关系。

8.根据权利要求6所述的装置，其特征在于，

所述若干个训练组中包含的网址与所述目标网址集合中的各个网址属于同一电商网站；或者，所述若干个训练组中包含的网址与所述目标网址集合中的各个网址分别属于不同的电商网站；所述网页的标识为商品标识。

9.根据权利要求6所述的装置，其特征在于，所述样本获取模块，包括：

10.根据权利要求6所述的装置，其特征在于，所述网址确定模块，包括：