CN103699687A

CN103699687A - 一种基于枚举的网络实体爬取方法

Info

Publication number: CN103699687A
Application number: CN201410003459.7A
Authority: CN
Inventors: 肖仰华; 张俊骏; 汪卫
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2014-01-03
Filing date: 2014-01-03
Publication date: 2014-04-02
Anticipated expiration: 2034-01-03
Also published as: CN103699687B

Abstract

本发明属于网络爬虫技术领域，具体为一种基于枚举的网络实体爬取方法。该方法分为三个部分：对目标网络实体进行采样和预处理、对样本进行特征聚类和特征合并、生成可枚举的表达式。即；通过一定采样方式、采样规模来对目标网络实体进行采样，并对可转化样本进行样本分解；将分解后的样本进行k均值聚类操作，并进行类内噪音去除；利用特征合并、特征补全和优化枚举顺序的方法生成一个或者一组可以枚举的表达式。本发明建立了一种全新的爬取技术及其算法框架，在覆盖率、可分布性和额外时间代价等方面优于传统的基于关系的网络爬虫技术，在进行网络大规模实体爬取时具有更好的效果。

Description

一种基于枚举的网络实体爬取方法

技术领域

本发明属于网络爬虫应用技术领域，具体涉及一种基于枚举的网络实体爬取方法。

背景技术

如今网络上的信息越来越多，而在研究一些需要大量实体及其属性的问题时（例如知识图谱构建、垂直搜索、比较购物等），需要去获取特定的一些实体。获取实体的方法无非有两种：（1）利用包含目标实体的网站所直接提供的数据下载接口或API接口；（2）利用网页爬虫来进行网页爬取，再通过解析来获得实体及其属性。方法（1）虽然会比较方便快捷，但是会受到目标网站的访问权限限制、数据结构限制等，而且这些限制无法得到主观的改善，故经常不能满足实际应用的需求。所以本发明的目标是利用网页爬虫及相关的技术、策略来进行针对性的实体爬取。

现有的网页爬取策略主要是基于关系来进行爬取。例如搜索引擎的爬虫（谷歌、百度、必应），就是通过不停地爬取页面上的超链接来实现的。当然在绝大多数实际需求中，没有必要去全部爬取，更多时候会将超链接的域名限制在某一个较小的范围内。在一些情况中，实体之间并不直接存在关系，而是通过一些间接的关系来连接（比如实体的属性），这时候就需要进行实体->属性->实体循环的方式来进行爬取了。

上述基于关系的爬取策略容易实现，而且准确度很有保证，因而被广泛使用。然而，基于关系的爬取策略需要实体/页面之间有足够多的关系才能进行下去。如果实体/页面之间的关系太少甚至于没有关系，那么上述策略的代价就可能越来越大，乃至于无法实行。而且，基于关系的策略对覆盖率没有保证，因为无论多高质量的数据集，总会有不少孤立点（即与其他点没有关系的点）存在，这种孤立点在基于关系的爬取策略中是无法处理的。另外，鉴于爬取的实体规模可能会很庞大，在很多情况中需要将爬取任务分配至多台机器来进行，此种情况称为分布式爬取。基于关系的爬取策略在分布式爬取时会产生额外机器之间的通信代价和结果去重操作，并且每次爬下网页文本就需要立即进行解析以获取其中的链接。

相比于基于关系的爬取策略，基于枚举的URL爬取策略有如下几个优点：

覆盖率能得到很好的保证。由于基于枚举的策略并不依赖于相关链接，因此孤立点也能得到很好的覆盖；

适用于深层网络的情形。深层网络中的实体之间完全不存在链接，因此基于关系的策略是行不通的，而基于枚举的策略则不会受到影响；

当进行分布式爬取时，不会产生额外的时间和空间代价。如果采用基于枚举的爬取策略，就额外的机器之间的通信代价和结果去重操作，也不需要在线上进行文本解析操作。

上述的基于枚举的爬取策略虽然有诸多好处，但并不是每一个网站都会把实体所对应的网页地址（URL）设计成直接枚举的数字形式。但不可直接枚举不代表不可枚举，事实上，可以找到不少网站，其存储实体所对应的URL虽然不可直接枚举（事实上是直接枚举代价太大），但是可以通过变化来将之改变成可以枚举的形式。

发明内容

本发明的目的在于提供一种基于枚取的网络实体爬取方法，其通过生成一个算法框架将一个不可直接枚举的URL集合转变为可以枚举的集合，从而实现基于枚举的爬取尽可能多的网络实体的目的。

本发明中，通过一定采样方式、采样规模来对目标网络实体进行一定规模的采样并确定其网页地址URL是否可转化为可枚举的表达式，如果可转化则进行样本分解；将分解后的样本进行k均值聚类操作，并进行类内噪音去除；利用特征合并、特征补全和最优化枚举顺序的方法来生成一个或者一组可以枚举的表达式。

本发明提供的一种基于枚举的网络实体爬取方法，包括三个部分：对目标网络实体进行采样和预处理、对样本进行特征聚类和特征合并及生成可枚举表达式。

一、对目标网络实体进行采样和预处理

通过一定采样方式、采样规模来对目标网络实体进行一定规模的采样并确定其URL是否可转化为可枚举的表达式，如果可转化则进行样本分解。

采样方式

采样的方式主要有两种，第一种是通过某一个网络实体对应的URL文本中的链接来找到另外的网络实体，即基于关系的采样。另一种方法是通过存储目标网络实体的网站所提供的查询机制来进行采样。

采样规模

采样规模要视具体的目标网络实体规模而定，目标网络实体规模越大其对应的采样规模也越大。按照实际试验获得的经验，初始化的采样规模定为10，0,000并进行后续处理，如果结果不理想则进行规模调整，即适当增大采样规模。

采样预处理

通过分析样本来检验目标网络实体集合是不是符合条件。如果样本中的URL长度固定，而且URL中任何一个字符的取值为有限多种，那么目标网络实体就可以使用基于枚举的策略来爬取的。为了方便后续处理，如果目标网络实体符合条件，那么将URL之间的相同的字符去除，而将每一个不相同的字符看作是一个特征，从而将每一个样本分解成了由k个特征组成的向量。

二、对样本进行特征聚类和特征合并

在取得样本以后，一个直接的做法是将所有特征都看成是相互独立的，然后对所有样本的每一个特征上的取值进行合并，从而得到一个正则表达式。但是这样的做法所得的表达式的枚举规模往往非常巨大，以至于不实用。故通过k均值操作来寻找样本之间的相似性，然后再对每一个类中的样本进行特征取值的归并，从而在生成可枚举表达式时得到更好的结果。

相似度定义

要使用k均值聚类就要先确定两个样本之间的相似度定义。由于每个样本含有k个特征，故定义任意两个处理后的样本X和Y的相似度sim(X,Y)。

Figure 2014100034597100002DEST_PATH_IMAGE001

其中，

显然，若两个样本在越多的特征上取值相同，那么它们的相似性也就越高，它们也越可能在聚类中被聚如同一个类。

类数选取

通过选取一个合适的分类数目来最优化k均值聚类算法的效果：根据《Mining of Massive Datasets》（可否给出引文）中有关k均值的介绍，k值的选取可以通过考察平均类内距来判断其好坏。理想化的k值与平均类内距的关系大致如图2所示。假设当目前的k值等于或低于最佳k值的时候，平均类内距的下降会非常迅速，在图2中表现为曲线前半段的下降斜率很大。而当目前的k值等于或高于最佳的k值的时候，平均类内距的下降会非常慢，在图2中表现为曲线后半段的下降斜率很小。虽然这种规律并没有严格的证明，但是在实际使用中确实有较好的效果，尤其是在实际研究中并不需要一个非常精确的k值的情况下。

噪音去除

k均值聚类的第三个问题是聚类之后的类内噪音去除。在2.1节定义相似性公式时已经提到，当两个样本之间相同的特征越多，它们属于同一个较小的正则表达式的可能性也就越大。但是这仍旧不免会出现一些噪音样本。这些噪音对类内部归并的影响很大，要尽力去除。去除噪音的方法是去观察目标类中每一个特征上的具体分布。假设95%的样本在特征e上的取值都是3，而剩余的5%是其他，那么这5%就很可能是噪音。如果把这一原则应用到每一个特征上，就可以基本确定哪些样本是噪音。基于保障覆盖率的考虑，如果被去除的噪音比例较大，那么就可能是k均值时k的选取过于小了，可以将k增大一些以后再聚类，也可以将所得的所有噪音样本再进行一个聚类。

三、生成可枚举表达式

对已经聚类的样本进行特征合并、特征补全、最优化枚举顺序等操作，最终生成可枚举的且枚举代价最小的正则表达式。

特征合并

在经过了上一步的聚类操作之后，固然可以直接对每一个类内的样本进行每一位上的归并，然后去枚举每一个类产生的正则表达式。但是，这样产生的正则表达式的枚举规模仍然可能比较大，并不是最优化的正则表达式。在这种情况下，每一个特征之间并不是独立的，而是具有一定的相关联性的。如果能找到特征之间的相互关联性，就能利用这种关联性来进一步降低枚举规模。比如在某一个类中特征e1和e2分别有,0-3的4种可能的值，而且这4种值在类内的出现概率是大致均匀的。这样完全枚举这两个特征就需要4*4=16次。但是分析它们在类内的联合分布，就可以发现只出现01,12,23,30这四种可能。这样就可以将原有的正则表达式中的e1和e2合并成一个新的特征，而枚举这个新特征需要的次数就可以降为4次。一般地，如果两个特征有关联性，那么它们的联合分布的取值数肯定会小于它们单独取值数的乘积，而且两个特征越相关，它们的联合分布的取值数就越小。基于这一点，可以首先对特征进行两两之间的联合分布分析，如果两个特征的联合分布取值数远小于它们单独取值数之积，那么它们就能够合并成为一个新的特征。然后将第一轮合并之后的新的特征再进行合并，重复此步骤直到不能再合并或者满足某个条件为止。这就相当于利用特征之间的关联性将原来的k个特征重新合并成为了k’个新特征，再依据新特征来对原有的正则表达式进行进一步分割。

需要注意的是，上述的特征合并存在一个置信度的问题。正如上面的例子，当在样本中观测到e1和e2的联合分布只有4种取值，那么e1和e2的联合分布有且只有4种取值置信度是多少？如果把这个问题抽象化，就成为下面的命题：在整个类中，特征e1和e2各自存在的取值数之积为N，而当观察其联合分布时，取值数减少为n种。与此同时，类内的样本总共有m个。最佳的结果当然e1和e2的联合分布在总体数据集中的取值数n’与通过采样观测所得的取值数n尽可能的接近，这样才能说明特征合并这一步是有数学依据的。很容易看出，n，N和m就是决定n’取值的三个参数。实际上，由于m对置信度的的影响，置信度会影响到采样的规模和聚类的k值。n’的数学期望可以近似地用下式进行表达。

Figure 2014100034597100002DEST_PATH_IMAGE003

显然有E(n’)>n，所以只要设定一个阈值δ,使得当E(n’|X)<n+δ时，就采信n就是e1和e2的联合分布的在总体数据集中的实际取值数。在上面提到的例子中，有N=16，n=4。此时如果这个类中只有五个样本，那么令m=5代入公式就能得到E(n’)=7.5，这个值离n=4非常遥远，这就说明仅用5个样本来推出这个结果是完全不可靠的。但是令m=30，代入的结果就变成了4.006，可以说基本可以确定e1和e2的联合分布就只有这4中取值。这样，就完美地得到两个特征的合并条件为：如果两个特征的联合分布的取值数n小于它们单独取值数的乘积N，而且其合并后取值数的期望值E(n’) <n+δ,那么这两个特征可以进行合并，且合并后的取值数就是n。同时可以发现如果E(n’)>= n+δ时，那么这两个特征就很可能是相互独立的，两个特征不进行合并。

特征补全

这一步主要针对的是当e1和e2的联合分布观察所得的取值数为n时，E(n’)所得的结果比其略大了1或2时的情况。这时若我们就不进行合并，未免过于浪费。但是合并的话可能会造成覆盖率的丢失。这种情况并不常见，但是为了覆盖率的需求有必要去进行一下。例如e1和e2的联合分布中只被观测到了01,12,23,而E(n’)计算所得却为4，此时我们就可推测被漏掉的可能就是30。这种推断往往是基于e1和e2在总体上各个取值分布均匀的假设来进行的，然后再观察其联合分布，找到最有可能缺失的取值并将之补全。特征补全可能会造成精确度下降，因为所谓的“被漏掉”的情况可能实际仍旧是不存在的。

最优化枚举顺序

这一步主要针对的是在特征合并之后，所得的正则表达式规模仍然较大的情况。此时考虑利用两个实际存在的结果之间的距离分布情况。这一步中首先使用特征合并之后得到若干正则表达式进行完全的枚举。不妨假设正则表达式[0-f][0-f]的256个枚举结果中，只有16个是实际存在的。此时不仅得到了精确度，还得到了实际存在的结果之间的距离分布情况。根据这个距离分布的概率来重新安排枚举的顺序和策略，即在枚举到一个实际存在的点之后，优先枚举出现概率最高处的点，如果找到了就再向后寻找下一个，如果没找到则寻找出现概率次高处的点。这样的策略可能会丢失一点覆盖率（因为总会有一些分布不均匀的地方），但是可以大大提高枚举的精确度。

本发明方法采用的系统包括采样模块、聚类模块和可枚举表达式生成模块；其通过采样模块中确定的采样方式、采样规模对目标网络实体进行规模化的采样并确定其URL是否可转化为可枚举的表达式，如果可转化则进行样本分解；再通过聚类模块将分解后的样本进行k均值聚类操作，并进行类内噪音去除；最后通过可枚举表达式生成模块，对已经聚类的样本进行特征合并、特征补全和最优化枚举顺序操作，最终生成可枚举的且枚举代价最小的正则表达式。

本发明的有益效果在于：其建立了一种全新的爬取技术及其算法框架，在覆盖率、可分布性和额外时间代价等方面优于传统的基于关系的网络爬虫技术，在进行网络大规模实体爬取时具有更好的效果。

附图说明

图1为基于枚举的网络实体爬取的架构图。

图2为聚类数目选取的指标分布图。

图3为针对新浪POI最终生成的可枚举表达式的示意图。

具体实施方式

基于枚举的网络实体爬取的架构图如1所示。

实施例

下面以爬取新浪POI为例，进一步描述本发明。

模块一：采样

使用新浪POI提供的查询机制，随机地获取两万左右规模的样本点。查询所用关键词是一个尽量语义不相关的集合。

模块二：聚类

1. 相似度定义

采样后，可以观察到新浪POI的URL可变动部分由15个字符组成，故两个样本点之间的相似性可以细化地定义为如下公式：

2. 类数选取

首先，利用平均类内距的分布来找到最优的k值。对于新浪POI，k的最优值为2。

其次，对每一个类进行噪音去除，实际去除的样本为0个。

模块三：可枚举表达式生成

将模块二得到的两个类进行特征合并，所得结果如附图3所示。由于结果已经取得了足够的效果，故特征补全、最优化枚举顺序无需执行。

此时如果采用分布式爬取，则可以将结果所得的两个正则表达式拆分成若干个子表达式，使得子表达式之间大致相等，然后一次性地分布到各台机器上，在此之后再也无需机器之间的通信和去重工作，直到爬取任务全部执行完毕。在爬取任务完毕以后，再一次性地对所有爬取结果页面进行文本解析，而不需要消耗线上的时间。

对所得的可枚举表达式进行效果评估，发现生成的可枚举表达式可以覆盖100%的新浪POI实体，且95%的由可枚举表达式生成的URL是真实存在的。

Claims

1.一种基于枚举的网络实体爬取方法，其特征在于具体步骤如下：

（1）对目标网络实体进行采样和预处理

通过网络实体对应的URL文本中的链接或者存储目标网络实体的网站提供的查询机制进行规模化采样；选取样本中URL长度固定，而且URL中任何一个字符的取值为有限多种的目标网络实体样本，将URL之间相同的字符去除，而将每一个不相同的字符看作是一个特征，从而将每一个样本分解成特征组成的向量；

（2）对样本进行特征聚类和特征合并

根据k均值算法进行聚类，再根据平均类内距选取合适的类数对k均值算法效果进行优化；最后去除目标类中的类内噪音，其中噪音就是在某些特征上与类内大多数样本取值不同的点；

（3）生成可枚举表达式

对上述已经聚类的样本进行特征合并操作，最终生成可枚举的且枚举代价最小的正则表达式；具体描述如下：

首先对特征进行两两之间的联合分布分析，然后将第一轮合并之后的新的特征再进行合并，重复此步骤直到不能再合并为止；再依据合并后的新特征对原有的正则表达式进一步分割；假设在整个类中，样本总共为m个，两个特征的联合分布的取值数为n，两个特征单独取值数之积为N；两个特征合并后取值数的期望值为E(n’)；其中E(n’)用下式进行计算：

Figure 2014100034597100001DEST_PATH_IMAGE001

当（1）n<N，且E(n’) <n+δ，将两特征进行合并，δ为设定的阈值,一般情况下δ<0.5；

当E(n’)>= n+δ时，两个特征不进行合并。

2.根据权利要求1所述的网络实体爬取方法，其特征在于：步骤（3）中，当E(n’)比n大1或2时，进行特征合并操作后，还继续进行特征补全操作，即通过观察其联合分布，找到缺失取值并将之补全。

3.根据权利要求1所述的网络实体爬取方法，其特征在于：步骤（3）中，当特征合并之后，还进行最优化枚举顺序操作，根据距离分布的概率重新安排枚举的顺序和策略，即在枚举到一个实际存在的点之后，优先枚举出现概率最高处的点，如果找到了就再向后寻找下一个，如果没找到则寻找出现概率次高处的点。

4.根据权利要求1所述的网络实体爬取方法，其特征在于：其方法采用的系统包括采样模块、聚类模块和可枚举表达式生成模块；其通过采样模块中确定的采样方式、采样规模对目标网络实体进行规模化的采样并确定其URL是否可转化为可枚举的表达式，如果可转化则进行样本分解；再通过聚类模块将分解后的样本进行k均值聚类操作，并进行类内噪音去除；最后通过可枚举表达式生成模块，对已经聚类的样本进行特征合并、特征补全和最优化枚举顺序操作，最终生成可枚举的且枚举代价最小的正则表达式。