CN103942224A

CN103942224A - 一种获取网页分块的标注规则的方法及装置

Info

Publication number: CN103942224A
Application number: CN201310024439.3A
Authority: CN
Inventors: 田振雷; 吴一璞; 刘秋水; 黄金刚; 牛正雨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-01-23
Filing date: 2013-01-23
Publication date: 2014-07-23
Anticipated expiration: 2033-01-23
Also published as: CN103942224B

Abstract

本发明提供了一种获取网页分块的标注规则的方法及装置，其中所述方法包括：A.获取一个以上的网页集合中节点的多页面信息，其中一个节点的多页面信息用于描述该节点在所属网页集合中的分布状况；B.从所述一个以上的网页集合中获取分块样本集；C.利用预设的种子标注规则对所述分块样本集进行标注，以得到训练样本集；D.确定所述训练样本集的分类特征，其中一个训练样本的分类特征至少包括由该训练样本所包含节点的多页面信息构成的多页面特征；E.根据确定的分类特征，对所述训练样本集进行机器学习，以得到机器标注规则。通过上述方式，本发明能够提高对网页分块进行标注的准确性。

Description

一种获取网页分块的标注规则的方法及装置

【技术领域】

本发明涉及网页处理技术，特别涉及一种获取网页分块的标注规则的方法及装置。

【背景技术】

对网页分块进行标注，能够更好地对网页进行分析，从而有助于搜索引擎获取更为准确的搜索结果。

对网页分块进行标注依赖于标注规则，传统的方法是采用人工规则进行标注，但这难以适应大规模标注的需要。在中国发明专利申请号为CN201110035729.9的发明中，公开了一种获取网页分块的标注规则的方法，该方法能够适应大规模标注的需要，也能够实现较高的准确性。

但是，采用中国发明专利申请号为CN201110035729.9的方法，在某些情况下对网页分块标注的结果仍不够理想，例如对网页中的相关链接块和推荐链接块的标注，现有技术难以很好地将两者区分开来，标注的准确性较差。

【发明内容】

本发明所要解决的技术问题是提供一种获取网页分块的标注规则的方法及装置，以提高对网页分块进行标注的准确性。

本发明为解决技术问题而采用的技术方案是提供一种获取网页分块的标注规则的方法，包括：A.获取一个以上的网页集合中节点的多页面信息，其中一个节点的多页面信息用于描述该节点在所属网页集合中的分布状况；B.从所述一个以上的网页集合中获取分块样本集；C.利用预设的种子标注规则对所述分块样本集进行标注，以得到训练样本集；D.确定所述训练样本集的分类特征，其中一个训练样本的分类特征至少包括由该训练样本所包含节点的多页面信息构成的多页面特征；E.根据确定的分类特征，对所述训练样本集进行机器学习，以得到机器标注规则。

根据本发明之一优选实施例，一个节点的多页面信息包括该节点的重复度及该节点的唯一重复度中的至少一种，其中一个节点的重复度等于在该节点所属的网页集合中，以该节点的路径出现的节点总数与该节点所属网页集合包含的网页总数之间的比值，一个节点的唯一重复度等于在该节点所属的网页集合中，以该节点的路径在所属网页中唯一出现的节点总数与该节点所属网页集合包含的网页总数之间的比值。

根据本发明之一优选实施例，所述步骤C包括：采用特征选择算法对所述训练样本集的单页面特征进行选取，以得到重要的单页面特征，其中一个训练样本的单页面特征是指仅由该训练样本自身信息决定的特征；利用所述训练样本集中训练样本所包含节点的多页面信息得到训练样本集的多页面特征；将所述重要的单页面特征及所述多页面特征组合为分类特征。

根据本发明之一优选实施例，一个训练样本的单页面特征至少包括以下特征中的一种：视觉特征、内容特征、文本结构特征或网页结构特征。

根据本发明之一优选实施例，所述步骤E进一步包括：在满足终止条件前，将机器标注规则作为种子标注规则，以循环执行所述步骤C至所述步骤E。

根据本发明之一优选实施例，所述终止条件为当次循环得到的机器标注规则与上次循环得到的机器标注规则之间的差值小于预设值。

本发明还提供了一种获取网页分块的标注规则的装置，包括：挖掘单元，用于获取一个以上的网页集合中节点的多页面信息，其中一个节点的多页面信息用于描述该节点在所属网页集合中的分布状况；样本获取单元，用于从所述一个以上的网页集合中获取分块样本集；标注单元，用于利用预设的种子标注规则对分块样本集进行标注，以得到训练样本集；确定单元，用于确定所述训练样本集的分类特征，其中一个训练样本的分类特征至少包括由该训练样本所包含节点的多页面信息构成的多页面特征；学习单元，用于根据确定的分类特征，对训练样本集进行机器学习，以得到机器标注规则。

根据本发明之一优选实施例，所述确定单元包括：单页面特征选取单元，用于采用特征选择算法对所述训练样本集的单页面特征进行选取，以得到重要的单页面特征，其中一个训练样本的单页面特征是指仅由该训练样本自身信息决定的特征；多页面特征计算单元，用于利用所述训练样本集中训练样本所包含节点的多页面信息得到训练样本集的多页面特征；分类特征生成单元，用于将所述重要的单页面特征及所述多页面特征组合为分类特征。

根据本发明之一优选实施例，所述学习单元进一步用于，在满足终止条件前，将所述机器标注规则作为种子标注规则，以触发所述标注单元至所述学习单元循环执行。

由以上技术方案可以看出，本发明首先利用网页集合，获取到网页节点的多页面信息，然后再利用节点的多页面信息得到训练样本的多页面特征。本发明与现有技术相比，对训练样本的分类特征进行了改进，这使得最终得到的机器标注规则能够产生更为准确的标注效果，从而可以提高对网页分块进行标注的准确性。

【附图说明】

图1为本发明中获取网页分块的标注规则的方法的实施例一的流程示意图；

图2为本发明中网页DOM树的实施例一的示意图；

图3为本发明中网页DOM树的实施例二的示意图；

图4为本发明中网页DOM树的实施例三的示意图；

图5为本发明中分块样本的实施例的示意图；

图6为本发明中训练样本的实施例的示意图；

图7为本发明中获取网页分块的标注规则的方法的实施例二的流程示意图；

图8为本发明中相关链接块和推荐链接块的实施例的示意图；

图9为本发明中获取网页分块的标注规则的装置的实施例的结构示意框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明是对中国发明申请号为CN201110035729.9的发明进行的改进，以获取到比现有技术效果更优的网页分块标注规则。请参考图1，图1为本发明中获取网页分块的标注规则的方法的实施例的流程示意图。

下面对图1所示的实施例中的各个步骤进行具体介绍。

步骤S1中，作为网页集合的一种实施方式，可以将互联网中归属于相同站点的网页作为一个网页集合，也可以将互联网中的网页按照URL的相似度进行聚类，每类网页作为一个网页集合。

本实施例预先在步骤S1中，将网页按照网页集合划分，并借由划分的网页集合，计算集合中节点的多页面信息，其中一个节点的多页面信息用于描述该节点在所属网页集合中的分布状况。

具体地，本实施例中，节点的多页面信息可以包括以下两种信息中的至少一种：节点的重复度及节点的唯一重复度。

具体地，一个节点的重复度等于在该节点所属的网页集合中，以该节点的路径出现的节点总数与该节点所属网页集合包含的网页总数之间的比值。一个节点的唯一重复度等于在该节点所属的网页集合中，以该节点的路径在所属网页中唯一出现的节点总数与该节点所属网页集合包含的网页总数之间的比值。

作为一种实施方式，节点的路径由节点内容及距离节点内容最近的N层XPATH描述共同表示，其中N的值不超过最大可能值，并且N的具体值可根据本领域技术人员的需要自由设定。请参考图2，图2为本发明中网页DOM树的一个实施例的示意图。可以理解，对图2中的节点1而言，N的最大可能值是6，对节点4而言，N的最大可能值是7。

假设N的值为3，以图2中的节点1为例，节点1的路径由节点1的内容（abc）与距离节点1的内容最近的3层XPATH描述（tr-td-div）共同表示。则在图2的DOM树代表的网页中，以节点1的路径出现的节点包括节点1、节点3和节点4。假设N的值为6，则在图2的DOM树代表的网页中，以节点1的路径出现的节点仅包括节点1和节点3。

假设网页集合包含的网页有A、B、C（网页集合包含的网页总数为3），且网页A的DOM树如图2所示，网页B的DOM树如图3所示，网页C的DOM树如图4所示。对节点1而言，在网页A中，以节点1的路径出现的节点包括节点1、节点3和节点4（数量为3）；在网页B中，以节点1的路径出现的节点包括节点5、节点7和节点8（数量为3）；在网页C中，以节点1的路径出现的节点包括节点9、节点11和节点12（数量为3）。所以节点1的重复度就等于（3+3+3）/3=3。由于节点1的路径在网页A、B、C中均没有唯一出现，即以节点1的路径在网页A、B、C中唯一出现的节点数分别都是0，因此，节点1的唯一重复度等于（0+0+0）/3=0。对节点2而言，在网页A中，以节点2的路径出现的节点仅包括节点2；在网页B中，以节点2的路径出现的节点仅包括节点6；在网页C中，没有以节点2的路径出现的节点。所以节点2的重复度等于（1+1+0）/3=2/3。由于节点2的路径在网页A和网页B中均唯一出现，在网页C中没有出现，即以节点2的路径在网页A、B中唯一出现的节点数分别是1，以节点2的路径在网页C中唯一出现的节点数是0，因此，节点2的唯一重复度等于（1+1+0）/3=2/3。

根据上面的介绍，可以知道在步骤S1中，对各网页集合中的节点分别进行统计，即可得到各网页集合中节点的多页面信息。

在步骤S2中需要获取分块样本集，作为一种实施方式，可以接收人工从步骤S1中得到的具有节点的多页面信息的网页集合中选取的分块样本集。值得注意的是，在本发明中的一个分块样本，指的是网页中的某个分块，而不是一个网页，即分块样本是以网页中的一个部分为单位的，而不是以网页为单位进行划分的。请参考图5，图5中一个方框就可以作为一个分块样本。分块样本集就是由这样的分块样本构成的集合。

步骤S3中可以采用与中国发明专利申请号为CN201110035729.9的方法中类似的手段确定种子标注规则，即种子标注规则可以是一个高准确率，低召回率的规则。对分块样本集采用种子标注规则进行标注后，得到训练样本集，其中的训练样本，是带有类型信息的一个网页分块。请参考图6，图6中的标注过的各个网页分块即是训练样本的示意。

步骤S4中需要确定训练样本集中各训练样本的分类特征，作为一种实施方式，各训练样本的分类特征是训练样本所包含节点的多页面信息构成的多页面特征。如果一个训练样本仅包含一个节点，则该训练样本的多页面特征可以是所包含节点的多页面信息，如果一个训练样本包含多个节点，则该训练样本的多页面特征可以由所包含的各节点的多页面信息加权求和得到。例如一个训练样本包含节点1、2、3，这三个节点的重复度和唯一重复度构成的多页面信息分别表示为（1,1）、（1,1）和（1,1），假设这3个节点的权重相同，则该训练样本的多页面特征就可以表示为（1,1）。

作为一种更优的实施方式，训练样本的分类特征进一步还包括单页面特征。这里一个训练样本的单页面特征是指仅由该训练样本自身信息决定的特征。从前面的描述中可以看出，训练样本的多页面特征是依赖一个网页集合才能得到的特征，而训练样本的单页面特征则只需要训练样本所在的网页就可得到。例如单页面特征可以是以下任意一种或多种的组合：训练样本的视觉特征（包括训练样本中节点的大小、位置、面积、或/和训练样本与网页中其它分块的距离和相对位置等）、训练样本的内容特征（包括训练样本内容中的关键字、符号、训练样本内容与网页中其他分块内容之间的相似度、或/和训练样本内容与网页标题之间的相似度等）、训练样本的文本结构特征（包括训练样本中的文字数量、链接数量、或/和文字与链接之间的比例等）、训练样本的网页结构特征（包括训练样本中节点的标签ID、节点的XPATH的深度等）。总之，在现有技术中可以提取的各种由训练样本自身信息决定的特征都可以作为本发明中的单页面特征。

与对应的，步骤S4包括：

步骤S41：采用特征选择算法对训练样本集的单页面特征进行选取，以得到重要的单页面特征。

步骤S42：利用训练样本集中训练样本所包含节点的多页面信息得到训练样本集的多页面特征。

步骤S43：将步骤S41中得到的重要的单页面特征及步骤S42得到的多页面特征组合为分类特征。

步骤S41中，重要的单页面特征指的是类别区分度敏感的单页面特征，即加入该单页面特征有利于提高分类算法的效果。获取重要的单页面特征的方法与中国发明专利申请号为CN201110035729.9的发明中描述的获取重要的离散特征的方法是类似的，在本说明书中不再赘述。

步骤S42中得到各个训练样本的多页面特征的方法已经在前面介绍，即如果一个训练样本仅包含一个节点，则该训练样本的多页面特征可以是所包含节点的多页面信息，如果一个训练样本包含多个节点，则该训练样本的多页面特征可以由所包含的各节点的多页面信息加权求和得到。

步骤S43中，可以将重要的单页面特征与多页面特征组合为特征向量，作为步骤S5对训练样本集进行机器学习的依据。

机器学习的模型可以表示为Y=f(X1,X2，......Xn)的形式。其中X1,X2，......Xn表示一个训练样本的n维分类特征，Y表示该训练样本的标注类型，f表示机器标注规则。由于训练样本的X1,X2，......Xn已知且Y已知，通过对大量训练样本进行学习，就可以总结出机器标注规则f。本发明对机器学习算法不做限制，任何已知的机器学习算法均可在本发明中使用。

以上，对图1所示的实施例进行了详细介绍。作为本发明方法的另一个实施例，请参考图7。在图7所示的实施例中，步骤S5进一步包括：在满足终止条件前，将机器标注规则作为种子标注规则，以循环执行步骤S3至S5。也就是说，在图7所示的实施例中，在得到机器标注规则之后，会用得到的机器标注规则再次对分块样本集进行标注，得到训练样本集，并重复确定训练样本集的分类特征及机器学习的过程。作为一种实施方式，终止条件是当次循环得到的机器标注规则与上次循环得到的机器标注规则之间的差值小于预设值。以导航条的机器标注规则为例，如果当次循环得到的机器标注规则为距离网页顶端不超过20mm，上次循环得到的机器标注规则为距离网页顶端不超过21mm，如果这两者的差值已经小于预设值，则可以停止循环。经过上述循环迭代过程，最终的机器标注规则的准确性会大大提高。

在得到最终的机器标注规则之后，就可以采用最终的机器标注规则给任意的网页分块进行标注。具体地包括：对待标注的网页分块提取与获取机器标注规则时一致的分类特征，其中单页面特征的提取方式与现有技术类似。提取待标注的网页分块的多页面特征时，可先将该网页分块所属的页面归入步骤S1中的一个网页集合中，例如根据URL的相似性将该网页分块归入一个网页集合中，然后根据该集合中节点的多页面信息确定待标注的网页分块的多页面特征。在对待标注的网页分块提取了分类特征之后，就可以利用机器标注规则对该网页分块进行标注。

可以看出，本发明与现有技术相比，对分类特征进行了改进，由于在分类特征中采用了多页面特征，本发明能够很好地提高机器标注规则的准确性，从而可以利用更为准确的机器标注规则对网页分块进行标注，得到更准确的网页分块标注结果。例如，在使用本发明方法得到的机器标注规则对网页中的推荐链接块和相关链接块进行标注，其结果的准确性大为提高。网页中的推荐链接，通常是对当前热点新闻的推荐，与网页的主体内容没有关系，因此在一个网站的很多网页中，推荐链接的内容是相同的。而网页中的相关链接，通常是与网页的主体内容相关的其他网页的链接，由于网页的主体内容各自不同，因此在一个网站的各网页中，相关链接一般并不相同。由于相关链接块和推荐链接块在单页面特征上具有很大的相似性，因此在没有使用本发明之前，这两者的标注结果均不太理想，而在本发明对分类特征进行改进后，由于多页面特征使得这两者有了很好的区分度，因此标注效果也大大提高。相关链接块和推荐链接块的示意可参考图8。

请参考图9，图9为本发明中获取网页分块的标注规则的装置的实施例的结构示意框图。该实施例包括：挖掘单元201、样本获取单元202、标注单元203、确定单元204、学习单元205。

其中，挖掘单元201，用于获取一个以上的网页集合中节点的多页面信息，其中一个节点的多页面信息用于描述该节点在所属网页集合中的分布状况。

样本获取单元202，用于从一个以上的网页集合中获取分块样本集。

标注单元203，用于利用预设的种子标注规则对分块样本集进行标注，以得到训练样本集。

确定单元204，用于确定训练样本集的分类特征，其中一个训练样本的分类特征至少包括由该训练样本所包含节点的多页面信息构成的多页面特征。

学习单元205，用于根据确定的分类特征，对训练样本集进行机器学习，以得到机器标注规则。

在一个实施例中，一个节点的多页面信息包括该节点的重复度及该节点的唯一重复度中的至少一种，其中一个节点的重复度等于在该节点所属的网页集合中，以该节点的路径出现的节点总数与该节点所属网页集合包含的网页总数之间的比值，一个节点的唯一重复度等于在该节点所属的网页集合中，以该节点的路径在所属网页中唯一出现的节点总数与该节点所属网页集合包含的网页总数之间的比值。

在一个实施例中，一个训练样本的分类特征还包括单页面特征，其中训练样本的单页面特征是指仅由该训练样本自身信息决定的特征。具体地，一个训练样本的单页面特征至少包括以下特征中的一种：视觉特征、内容特征、文本结构特征或网页结构特征。与之对应的，确定单元204具体包括：单页面特征选取单元（图中未示出）、多页面特征计算单元（图中未示出）和分类特征生成单元（图中未示出）。其中单页面特征选取单元，用于采用特征选择算法对训练样本集的单页面特征进行选取，以得到重要的单页面特征。多页面特征计算单元，用于利用训练样本集中训练样本所包含节点的多页面信息得到训练样本集的多页面特征。分类特征生成单元，用于将重要的单页面特征及多页面特征组合为分类特征。

在一个实施例中，学习单元205进一步用于，在满足终止条件前，将机器标注规则作为种子标注规则，以触发标注单元203至学习单元205循环执行。作为一种实施方式，终止条件为当次循环得到的机器标注规则与上次循环得到的机器标注规则之间的差值小于预设值。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种获取网页分块的标注规则的方法，包括：

A.获取一个以上的网页集合中节点的多页面信息，其中一个节点的多页面信息用于描述该节点在所属网页集合中的分布状况；

B.从所述一个以上的网页集合中获取分块样本集；

C.利用预设的种子标注规则对所述分块样本集进行标注，以得到训练样本集；

D.确定所述训练样本集的分类特征，其中一个训练样本的分类特征至少包括由该训练样本所包含节点的多页面信息构成的多页面特征；

E.根据确定的分类特征，对所述训练样本集进行机器学习，以得到机器标注规则。

2.根据权利要求1所述的方法，其特征在于，一个节点的多页面信息包括该节点的重复度及该节点的唯一重复度中的至少一种，其中一个节点的重复度等于在该节点所属的网页集合中，以该节点的路径出现的节点总数与该节点所属网页集合包含的网页总数之间的比值，一个节点的唯一重复度等于在该节点所属的网页集合中，以该节点的路径在所属网页中唯一出现的节点总数与该节点所属网页集合包含的网页总数之间的比值。

3.根据权利要求1所述的方法，其特征在于，所述步骤C包括：

采用特征选择算法对所述训练样本集的单页面特征进行选取，以得到重要的单页面特征，其中一个训练样本的单页面特征是指仅由该训练样本自身信息决定的特征；

利用所述训练样本集中训练样本所包含节点的多页面信息得到训练样本集的多页面特征；

将所述重要的单页面特征及所述多页面特征组合为分类特征。

4.根据权利要求3所述的方法，其特征在于，一个训练样本的单页面特征至少包括以下特征中的一种：视觉特征、内容特征、文本结构特征或网页结构特征。

5.根据权利要求1所述的方法，其特征在于，所述步骤E进一步包括：

在满足终止条件前，将机器标注规则作为种子标注规则，以循环执行所述步骤C至所述步骤E。

6.根据权利要求5所述的方法，其特征在于，所述终止条件为当次循环得到的机器标注规则与上次循环得到的机器标注规则之间的差值小于预设值。

7.一种获取网页分块的标注规则的装置，包括：

挖掘单元，用于获取一个以上的网页集合中节点的多页面信息，其中一个节点的多页面信息用于描述该节点在所属网页集合中的分布状况；

样本获取单元，用于从所述一个以上的网页集合中获取分块样本集；

标注单元，用于利用预设的种子标注规则对分块样本集进行标注，以得到训练样本集；

确定单元，用于确定所述训练样本集的分类特征，其中一个训练样本的分类特征至少包括由该训练样本所包含节点的多页面信息构成的多页面特征；

学习单元，用于根据确定的分类特征，对训练样本集进行机器学习，以得到机器标注规则。

8.根据权利要求7所述的装置，其特征在于，一个节点的多页面信息包括该节点的重复度及该节点的唯一重复度中的至少一种，其中一个节点的重复度等于在该节点所属的网页集合中，以该节点的路径出现的节点总数与该节点所属网页集合包含的网页总数之间的比值，一个节点的唯一重复度等于在该节点所属的网页集合中，以该节点的路径在所属网页中唯一出现的节点总数与该节点所属网页集合包含的网页总数之间的比值。

9.根据权利要求7所述的装置，其特征在于，所述确定单元包括：

单页面特征选取单元，用于采用特征选择算法对所述训练样本集的单页面特征进行选取，以得到重要的单页面特征，其中一个训练样本的单页面特征是指仅由该训练样本自身信息决定的特征；

多页面特征计算单元，用于利用所述训练样本集中训练样本所包含节点的多页面信息得到训练样本集的多页面特征；

分类特征生成单元，用于将所述重要的单页面特征及所述多页面特征组合为分类特征。

10.根据权利要求9所述的装置，其特征在于，一个训练样本的单页面特征至少包括以下特征中的一种：视觉特征、内容特征、文本结构特征或网页结构特征。

11.根据权利要求10所述的装置，其特征在于，所述学习单元进一步用于，在满足终止条件前，将所述机器标注规则作为种子标注规则，以触发所述标注单元至所述学习单元循环执行。

12.根据权利要求11所述的装置，其特征在于，所述终止条件为当次循环得到的机器标注规则与上次循环得到的机器标注规则之间的差值小于预设值。