CN102637172B - 网页分块标注方法与系统 - Google Patents

网页分块标注方法与系统 Download PDF

Info

Publication number
CN102637172B
CN102637172B CN2011100357299A CN201110035729A CN102637172B CN 102637172 B CN102637172 B CN 102637172B CN 2011100357299 A CN2011100357299 A CN 2011100357299A CN 201110035729 A CN201110035729 A CN 201110035729A CN 102637172 B CN102637172 B CN 102637172B
Authority
CN
China
Prior art keywords
sample set
training sample
piecemeal
webpage
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2011100357299A
Other languages
English (en)
Other versions
CN102637172A (zh
Inventor
江岭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN2011100357299A priority Critical patent/CN102637172B/zh
Publication of CN102637172A publication Critical patent/CN102637172A/zh
Application granted granted Critical
Publication of CN102637172B publication Critical patent/CN102637172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网页分块标注方法与系统,所述方法包括以下步骤:提供一样本集;设定种子规则;根据所述种子规则对样本集进行标注,以建立第一训练样本集;对所述第一训练样本集采用特征选择算法,以选出所述第一训练样本集的重要特征;根据所述重要特征,对所述第一训练样本集采用机器学习算法,以产生第一分类规则;及根据所述第一分类规则对所述样本集进行标注,以产生第二训练样本集。本发明还公开了一种网页分块标注系统,用于提供网页分块标注所需的训练样本。本发明的网页分块标注方法与系统,可解决人工标注训练样本无法提供准确而大量的训练样本的问题。

Description

网页分块标注方法与系统
【技术领域】
本发明涉及一种网页分块标注方法与系统,特别涉及一种基于机器训练的网页分块标注方法与系统。
【背景技术】
目前,互联网不断发展,信息量剧增,对信息进行筛选时耗时费力,搜索引擎对于主题网页分类的要求也日趋迫切。一般而言,各个网页总是包含丰富而复杂的信息,例如导航、标题、翻页、广告、版权等等。当用户为了获取所需信息而通过搜索引擎抓取网页或建立索引时,需要对网页进行较为精细的分析。通过对网页进行分块标注的方法,可以实现对网页分类。
传统地,对网页进行分块标注的方法是采用人工设定规则,即将网页中满足特定规则的信息内容进行分块标注。主要的人工分块标注方法有基于网页信息的位置与基于文档对象模型(Document Object Model;DOM)分块标注的方法。基于网页信息的位置对网页进行分块,仅适用于比较简单的网页,而不能适用于实际结构复杂的网页;且由于其网页切分粒度较粗,难以充分包括整个网页的语义特征。基于DOM的分块标注方法需要找出网页HTML文档里的特定标签,利用标签项将HTML文档表示成一个DOM树的结构。由于在相当多的情形下,DOM不是用来表示网页内容结构的,所以不能准确地对网页中各分块的语义信息进行辨别。由此,在当前的信息爆炸时代,人工设定规则的方法无法提供复杂且大量的训练样本,已经很难满足对各种复杂多变的网页进行分块标注所需。
【发明内容】
本发明所要解决的技术问题是提供一种网页分块标注方法及系统,以能提供网页分块标注所需的训练数据与训练样本,满足对各种复杂多变的网页进行分块标注所需。
本发明为解决技术问题而采用的技术方案一是提供一种网页分块标注方法,所述网页分块标注方法包括以下步骤:
提供样本集;
根据预设的人工规则对样本集进行标注,以建立第一训练样本集;
对所述第一训练样本集采用特征选择算法进行计算,选出所述第一训练样本集的重要特征;
根据所述第一训练样本集的所述重要特征,对第一训练样本集采用机器学习算法进行计算,以产生第一分类规则;根据第一分类规则,计算所述样本集中属于目标类别的概率值,判断属于目标类别的概率值是否大于预设的概率阈值,以产生第二训练样本集;其中:若所述属于目标类别的概率值大于所述预设概率阈值,则根据所述第一分类规则在所述样本集中标注出正样本;若所述属于目标类别的概率值不大于所述预设概率阈值,则根据所述第一分类规则在所述样本集中标注出负样本;所述第二训练样本集则包括由正样本组成的正样本集,以及由负样本组成的负样本集。
本发明为解决技术问题而采用的技术方案二是提供一种网页分块标注系统,所述网页分块标注系统包括:
样本集模块,用于提供一样本集;
种子规则模块,所述种子规则模块中设定一人工规则,用于对所述样本集进行标注,以在所述样本集模块中建立第一训练样本集;
特征选择模块,用于对所述第一训练样本集采用特征选择算法,以选出所述第一训练样本集的重要特征;及
机器学习模块,用于根据所述第一训练样本集的重要特征,对所述第一训练样本集采用机器学习算法,以产生第一分类规则;根据第一分类规则,计算所述样本集中属于目标类别的概率值,判断属于目标类别的概率值是否大于预设的概率阈值,以产生第二训练样本集;其中:若所述属于目标类别的概率值大于所述预设概率阈值,则根据所述第一分类规则在所述样本集中标注出正样本;若所述属于目标类别的概率值不大于所述预设概率阈值,则根据所述第一分类规则在所述样本集中标注出负样本;所述第二训练样本集则包括由正样本组成的正样本集,以及由负样本组成的负样本集。
通过上述实施例,本发明的网页分块标注方法与系统能够自动产生网页分块标注的训练样本,并结合种子规则,总结出分类规则,建立分类模型,以实现网页分块标注。
【附图说明】
图1是本发明一实施例中的网页分块标注方法流程图;
图2是图1所示流程图中步骤5~6的详细流程图;
图3是本发明另一实施例中网页分块标注方法的迭代流程示意图;
图4是图3所示的网页分块标注方法的迭代流程示意图中第n次迭代示意图;
图5是图3所示的网页分块标注方法的迭代效果示意图;
图6是本发明又一实施例中网页分块标注系统示意图;
图7是本发明再一实施例中网页分块标注系统示意图;
图8是本发明又一实施例中的网页分块标注方法与系统的应用示意图。
【具体实施方式】
下面结合附图和实施例对本发明进行详细说明。如无特别说明,本发明所示的附图中,相同的标号表示同样的装置或元件。尽管本发明所示的具体实施例提供了最佳实施方式,但本领域的技术人员应当了解,本文所列出的具体实施例仅为阐明本发明的精神与要旨,而不应理解为对本发明的任何限制。
请配合参阅图1,所示为本发明一个实施例中的网页分块标注方法流程图。在本实施例中,所述的网页分块标注方法采用机器学习算法,并结合人工规则,提供对网页分块标注所需的训练样本,以实现对网页的分块标注。
通常,当通过搜索引擎抓取网页或建立索引时,如果仅对一个网页进行笼统的分析,常常无法得到足够好的效果。因而需要针对一个网页的各个组成部分进行更精确的分析。在本发明中,将网页中的不同部分,如导航栏、标题、翻页栏等视为网页的更小的基本分析单元,并对网页中分块的功能进行识别和标注的过程定义为网页分块标注。
目前互联网网页信息量巨大,传统的人工规则对网页中的分块功能进行识别的方法,是直接把人工规则作为分类器使用,但是由于互联网中的网页复杂多变,依靠人工制定的规则很难对其进行可靠有效的处理。
因此,本发明提出一种网页分块标注方法,其不将人工规则直接作为分类器使用,而只用于提供最初的训练样本,然后通过机器学习算法来自动产生网页分块标注的训练样本及分类规则,从而对样本集进行标注。这样既解决了人工规则可靠性低的问题,又解决了训练样本难以获取的问题。
在网页分类所需提供的训练样本(训练数据)中,只需对每个网页标注一个类别;而在对网页进行分块标注时,所需的训练样本(训练数据)是对网页内部的某些分块进行标注类别。由于每个网页均可表示成一个文档对象模型(Document Object Model;DOM)树的结构,分块标注就是对所述DOM树的各个子树分别标注类别,此时对子树标注的范围偏大或偏小,都认为是准确的;此外,每个分块的功能无法脱离所述分块所在的网页整体而单独存在,由此导致标注所需的训练样本(训练数据)很难通过人工方式提供。在本发明中,采用机器学习方法要求提供足够多的训练样本。当训练样本越多,最终通过机器学习而训练处的分类规则(分类器)的精确度就越好。
请参阅图1,在步骤1,提供一个样本集。在本实施例中,所述样本集是指网页所包含的内容样本的集合。其中所述网页内容样本的类型和数量可依据实际需求设置。目前,大多数网页根据内容可以分为三类:主题网页、目录型网页和图片网页。主题网页通过文字描述一个或多个主题,其中包括的图片和超链接并不构成所述主题网页的主体。目录型网页通常不会描述一件事物,而仅提供指向相关网页的超链接。图片型网页中的内容则主要通过图片展示,并不具备大量文字。此外,每个网页中还包含诸多素材,例如广告、导航、分栏等信息,该等信息位于网页的不同位置,具有不同的重要度,既可能属于网页的主题内容,也可能属于“噪声”内容。
通常,样本集包括但不限于上述各种网页内容信息,为简化说明起见,将本实施例中的样本集定义为包括至少一个网页主题内容与噪声内容的目标信息。在其他实施例中,所述样本集可以为基于文档对象模型(DOM)的特定标签,利用标签项将网页中的HTML文档表示成DOM树的结构,所述DOM树的结构则并不用于表示网页内容结构。在本发明其他实施例中,所述样本集还可以包括基于特定网页的不同信息,在此不一一赘述。
在步骤2,设定一种子规则,所述种子规则用于对所述样本集进行分块标注。在本实施例中,所述种子规则用于从大量的样本中筛选出目标样本(正样本)。其中所筛选出来的目标样本(正样本),更用做为机器学习算法的样本之一。在本实施例中,所述种子规则也称人工规则,是指人工制定的规则,所述种子规则并不要求从样本集中筛选出全部的目标样本(正样本),只要求筛选出一部分目标样本(正样本)即可。但是,所筛选出的目标样本(正样本)应该具有较高的准确率。
在本实施例中,以网页分块中的导航栏为例对所述种子规则予以说明。在所述种子规则中,先定义一目标类别,也就是所述种子规则需要识别的类别,其中,属于目标类别的为正样本;不属于目标类别的为负样本。在导航栏识别中,“导航栏”就是目标类别,属于“导航栏”类别的为正样本,不属于“导航栏”类别的为负样本。
当要从大量网页的大量分块中筛选出导航栏分块时,所述种子规则可以制定如下:所述导航栏分块处于页面上部;所述导航栏分块中的链接都比较短小且长度一样;所述导航栏分块中的链接指向都与当前页面在同一个站点;所述导航栏分块中的链接都处于同样的水平坐标。当一个分块满足这样的规则,那么就作为目标样本(或正样本)被筛选出来。当所述种子规则可以把10%的导航栏筛选出来,且筛选出来的分块有95%都的确是导航栏,那么所述种子规则就适用于本实施例的导航栏分块标注中。此外,所述目标样本(正样本)是通过所述种子规则筛选出来的,因此可以获得任意大的目标样本集(正样本集),如所述种子规则可以筛选出10%的正样本,那么当样本全集是1000个时,就可以得到100个正样本;10000个时,就可以得到1000个正样本。
举例而言,当所述样本集中有n(n=1,2,…N,N为正整数)个样本,有m(n>m=1,2,…M,M为正整数)个样本属于目标类别“导航栏”,有n-m个样本不属于目标类别“导航栏”。当通过所述种子规则识别出来的目标类别样本有x(x≤m)个,其中有y(y≤x)个的确属于目标类别“导航栏”。此时,所述召回率就是属于目标类别的样本中,被识别为目标类别的比例。即:召回率=y/m。
准确率就是被分类器识别为目标类别的样本中,的确属于目标类别的比例。即:准确率=y/x。
在本实施例中,所述种子规则可以设为按较高的准确率/识别率识别所述样本集,并对所述样本集进行分块标注。在本实施例中,对所述种子规则的召回率不作要求,也即在本实施例中,人工提供的所述种子规则是一个高准确率/识别率,低召回率的训练规则。
在本发明的其他实施方式中,为了满足不同网页分块标注的需求,所述种子规则的准确率/识别率与召回率的高低可分别依具体情形予以设定。
在步骤3,根据种子规则对所述样本集进行标注,以建立第一训练样本集。在本实施例中,所述种子规则识别所述样本集,以便识别出所述样本集中的正样本与负样本,并根据所述正样本与所述负样本对所述样本集进行标注。为简化说明起见,将所述种子规则识别出的正样本,也即按照正样本标注的网页分块定义为典型正样本。在本实施例中,所述第一训练样本集,为经正样本与负样本标注的样本集,即所述正样本与所述负样本的集合。
在步骤4,对所述第一训练样本集采用特征选择算法进行计算,选出所述第一训练样本集的重要特征。所述重要特征中的“重要”,可以是指这个特征的加入可以提高分类算法的效果,通常按照某一准则选择出一组具有良好区分特性的特征子集。所述特征选择算法利用一定的规则对所述第一训练样本集进行评估,以选出所述第一训练样本集的最佳特征子集。
所述特征选择算法可采用搜索性算法,例如神经网络算法(NN)、模拟烟火算法(SN)、遗传算法(GA)以及传统算法等。在本发明其他实施例中,所述特征选择算法可采用非搜索性算法,以满足其他高维特征选择,或时间复杂度相对较低的选择要求。特征选择算法可以采用过滤器模型和封装器模型,通常,过滤器模型将特征选择作为一个预处理过程,独立于其他机器学习算法。一般的过滤器模型时间复杂度低,准确性不高。封装器模型则采用将其他机器学习算法的结果作为特征子集选择的一部分,其时间复杂度较高,但准确性也较高。在本实施例中,所述的特征选择算法采用过滤器模型;在本发明的其他实施例中,所述特征选择算法也可采用封装器模型或其他模型。
在本实施例中,优选的特征选择算法是对离散特征(即只有0和1两种取值的特征)使用卡方检验,对连续特征(即其取值范围是连续的)使用基于信息增益的办法。以下以卡方检验为例予以说明:
卡方检验是比较具有一个特征的样本,和不具有该特征的样本归属于正样本的概率,这个概率相差越大,说明该特征的区分意义越显著。在训练导航栏时,设定特征一是“分块中的链接都在同一行”,并得到如下表一的统计结果:
表一
Figure GDA00003394644100081
设定特征二是“分块中有图片”,并得到如下表二的统计结果:
表二
从表一看出,具有特征一“分块中的链接都在同一行”的分块,是导航栏的概率为0.8;而不具有特征一“分块中的链接都在同一行”的分块,是导航栏的概率只有0.13。特征一“分块中的链接都在同一行”的区分意义明显。
从表二看出,具有特征二“分块中有图片”的分块,是导航栏的概率为0.47;而不具有特征二“分块中有图片”的分块,是导航栏的概率为0.46。特征二“分块中有图片”的区分意义则不明显。
从表一和表二可以看出,特征一“分块中的链接都在同一行”比特征二“分块中有图片”为更具有区分意义的特征。
对特征一与特征二分别计算卡方值:特征一“分块中的链接都在同一行”的卡方值=300*(120*130-20*30)2/(140*160*150*150)=133.9;特征二“分块中有图片”的卡方值=300*(80*70-90*60)2/(140*160*170*130)=0.024。因此,特征一比特征二的卡方值大,则特征一是一个更好的特征。当特征选择的阈值是100,特征选择算法则选择特征一“分块中的链接都在同一行”这个特征,而不会选择特征二“分块中是否有图片”。由此,在本实施例中,所述的重要特征为特征一“分块中的链接都在同一行”。
然而,本领域的技术人员应当了解,此处所列举的特征选择算法的不同模型仅为了阐明本发明的最佳实施例,而并不应理解为对本发明的限制。在本发明的其他可效仿的实施例中,无论采取何种特征选择算法模型,均不脱离本发明的精神和范围。
在步骤5,根据所述第一训练样本集的所述重要特征,对第一训练样本集采用机器学习算法进行计算,以产生第一分类规则。
在本实施例中,所述第一训练样本集,为经根据种子规则进行正样本与负样本标注的样本集,即所述正样本与所述负样本的集合。所述机器学习算法根据所述重要特征以及所述第一训练样本集进行计算,并自动总结产生出新的分类规则,在本实施例中,所述新的分类规则为第一分类规则。
在本实施例中,在所述机器学习算法过程中还预设一个概率阈值t。通过所述机器学习所得到的第一分类规则,会对所述样本集中的某个样本,计算其属于目标类别的概率。所述概率阈值就是利用属于目标类别的概率,来进行最终分类的界线,即,对某一样本,如果计算出来的属于目标类别的概率值大于或等于概率阈值t,则将其划分为正样本,否则划分为负样本。
当通过特征选择算法筛选出多个特征,每个特征均可在一定范围内取值。以导航栏分块为例,通过特征选择算法筛选出多个特征:X1,X2,…Xm,(m为正整数)每个特征均可在一定范围内取值。由此,在本实施例中,则根据所述机器学习算法对通过所述特征选择算法筛选出的多个特征以及所述第一训练样本集进行计算。在本实施例中,所述函数计算结果可以表示为函数:f(x1,x2,…,xm),用来计算某个分块属于目标类别的概率。在进行分块标注时,对于某个分块来说,如果这个函数计算出来的结果大于或等于所述预设的概率阈值t,那么就可以认为这个分块属于目标类别;反之,则不属于目标类别。
在本实施例中,同样以导航栏分块标注为例,当通过特征选择算法对于导航栏选择出的m(m为正整数)个特征,并且总结了出一个函数f,其中所述机器学习算法中所述预设的概率阈值t设为0.9。在使用所述规则用于分类时,对于某个分块来说,这m个特征的取值分别为:x1=v1,x2=v2,…,xm=vm,当f(v1,v2,…,vm)=0.95>t=0.9时,那么就会将这个分块划分在目标类别中。
在步骤6,依据所述第一分类规则对所述样本集进行标注,以产生第二训练样本集。在本实施例中,所述第一分类规则经由所述机器学习算法根据所述第一训练样本集的重要特征计算而得。依据所述特征选择算法及所述机器学习算法所得的第一分类规则的准确率及召回率高于所述人工设定的种子规则。
在本实施例中,还依据所述第一分类规则对所述样本集进行标注,所述第一分类规则控制其召回率的概率阈值,也即其召回正样本的概率阈值,从而使得根据所述第一分类规则的正样本召回具有更高的准确率。基于所述第一分类规则对所述样本集的标注,从而自动产生第二训练样本集。相应的,所述第二训练样本集比所述第一训练样本集具有更高的分块标注的准确度。
请进一步参阅图2,所示为图1中步骤5~6的详细流程图。在步骤502,根据第一分类规则计算所述样本集中属于目标类别的概率值。在本实施例中,通过所述机器学习所得到的第一分类规则,会对所述样本集中的某个样本,计算其属于目标类别的概率。所述概率阈值就是利用属于目标类别的概率,来进行最终分类的界线,即,对某一样本,如果计算出来的属于目标类别的概率值大于或等于概率阈值t,则将其划分为正样本,否则划分为负样本。
在步骤502,计算样本集中属于目标类别的概率值。当通过特征选择算法筛选出多个特征,每个特征均可在一定范围内取值。以导航栏分块为例,通过特征选择算法筛选出多个特征:X1,X2,…Xm,每个特征均可在一定范围内取值。由此,在本实施例中,则根据所述机器学习算法对通过所述特征选择算法筛选出的多个特征以及所述第一训练样本集进行计算。在本实施例中,所述函数计算结果可以表示为函数:f(x1,x2,…,xm),用来计算某个分块属于目标类别的概率。
在步骤504,判断属于目标类别的概率值是否大于所述预设概率阈值。在本实施例中,在进行分块标注时,对于某个分块来说,如果这个函数计算出来的结果大于或等于所述预设的概率阈值t,那么就可以认为这个分块属于目标类别;反之,则不属于目标类别。在本实施例中,同样以导航栏分块标注为例,当通过特征选择算法对于导航栏选择出的m(m为正整数)个特征,并且总结了出一个函数f,其中所述机器学习算法中所述预设的概率阈值t设为0.9。在使用所述规则用于分类时,对于某个分块来说,这m个特征的取值分别为:x1=v1,x2=v2,…,xm=vm,当f(v1,v2,…,vm)=0.95>t=0.9时,那么就会将这个分块划分在目标类别中。在本实施例中,更根据步骤504的判断结果进入步骤600。
在步骤600,根据所述第一分类规则对所述样本集进行标注,以产生第二训练样本集。其中,当所述属于目标类别的概率值大于所述预设概率阈值时,则进入步骤602,根据所述第一分类规则在所述样本集中标注出正样本。所述属于目标类别的概率值不大于所述预设概率阈值时,则进入步骤604,根据所述第一分类规则在所述样本集中标注出负样本。由此,所述第二训练样本集则包括由正样本组成的正样本集,以及由负样本组成的负样本集。
通过本实施例的网页分块标注方法,可以解决人工无法提供分块标注所需训练样本的技术难题,并可通过上述特征选择算法与机器学习算法建立稳定的分块标注模型,以实现对网页的准确高效的分块标注。
请参阅图3,所示为本发明另一实施例中网页分块标注方法的迭代流程示意图。由于本实施例中,步骤1~6与图1所示实施例中的步骤1~6相同,在此不再重复阐述。其与图1所示之流程不同之处在于,本实施例中,还包括将所述第二训练样本集迭代至所述第一训练样本集的步骤。并对所述第二训练样本集再次根据特征选择算法与所述机器学习算法进行计算,且进一步可通过重复循环执行步骤3~6,从而不断产生新的分类规则与新的训练样本集,直至所述分类规则趋于稳定为止。由此,可建立一个稳定的,对网页分块的进行识别和标注的分块模型。
请进一步参阅图4,所示是图3所示的网页分块标注方法的迭代流程示意图中第n(n为正整数)次迭代示意图。在本实施例中,在步骤3n,建立第n训练样本集。在本实施例中,所述第n训练样本集是根据第n-1分类规则对所述样本集进行标注,并迭代至第n-1训练样本集。其中所述第n训练样本集包括第n正样本集与第n负样本集。
在步骤4n,对第n训练样本集采用特征选择算法,选出重要特征。在本实施例中,所述特征选择算法利用一定的规则对所述第n训练样本集进行评估,以选出所述第n训练样本集的最佳特征子集。在本实施例中,优选的特征选择算法是对离散特征(即只有0和1两种取值的特征)使用卡方检验,对连续特征(即其取值范围是连续的)使用基于信息增益的办法。卡方检验是比较具有一个特征的样本,和不具有该特征的样本归属于正样本的概率,这个概率相差越大,说明该特征的区分意义越显著。
在步骤5n,根据重要特征,对第n训练样本集采用机器学习算法,以产生第n+1分类规则。在本实施例中,在所述机器学习算法过程中还预设一个概率阈值t。通过所述机器学习所得到的第一分类规则,会对所述样本集中的某个样本,计算其属于目标类别的概率。所述概率阈值就是利用属于目标类别的概率,来进行最终分类的界线,即,对某一样本,如果计算出来的属于目标类别的概率值大于或等于概率阈值t,则将其划分为正样本,否则划分为负样本。
当通过特征选择算法筛选出多个特征,每个特征均可在一定范围内取值。以导航栏分块为例,通过特征选择算法筛选出多个特征:X1,X2,…Xm,每个特征均可在一定范围内取值。由此,在本实施例中,则根据所述机器学习算法对通过所述特征选择算法筛选出的多个特征以及所述第一训练样本集进行计算。在本实施例中,所述函数计算结果可以表示为函数:f(x1,x2,…,xm),用来计算某个分块属于目标类别的概率。在进行分块标注时,对于某个分块来说,如果这个函数计算出来的结果大于或等于所述预设的概率阈值t,那么就可以认为这个分块属于目标类别;反之,则不属于目标类别。
请参阅图5,所示为本发明另一实施例中的网页分块标注方法的迭代效果示意图。在本实施例中,采用人工设定的种子规则,所召回的正样本数量不到50个。经过一次训练样本集的迭代之后,产生新的分类规则与训练样本集,则在第一次迭代时,所召回的正样本数量为200个。从图5所示的曲线图可见,随着迭代次数的增加,本实施例中正样本的召回不断升高,在第9次迭代时,正样本的召回达到420多个,并趋于稳定,由此建立了一个稳定的网页分块标注模型。
请配合参阅图3至图5,当采用如图3中步骤1所示的种子规则,对所述样本集进行识别标注时,正样本的召回个数不到50个。经过如图3所示的第一次迭代之后,依据所述第一分类规则对所述样本集进行识别标注时,正样本的召回数可达到200个。经过多次循环迭代,不断产生新的分类规则,该些新的分类规则的准确率增大,正样本的召回率增高。从而在对所述样本集的识别标注时,正样本的召回个数不断增多,如图5所示,至第9次迭代之后,正样本的召回达到420多个,并趋于稳定,由此建立了一个稳定的网页分块标注模型。在本实施例中,所述的机器学习方法根据典型正样本进行学习,比较适用于待学习的概念本身较为明确、边界清晰的情形。
通过本实施例中的网页分块标注方法,可以解决人工无法提供分块标注所需训练样本的技术难题,并可通过上述特征选择算法与机器学习算法的循环运行,依据需求建立稳定的分块标注模型,以实现对网页的准确高效的分块标注。
请进一步参阅图6,所示为本发明再一实施例中网页分块标注系统示意图。在本实施例中,所述网页分块标注系统6000包括:样本集模块1000、种子规则模块2000、特征选择模块3000以及机器学习模块4000。其中,样本集模块1000用于提供一样本集;在本实施例中,所述样本集是指网页所包含的内容样本的集合。其中所述网页内容样本的类型和数量可依据实际需求设置。目前,大多数网页根据内容可以分为三类:主题网页、目录型网页和图片网页。主题网页通过文字描述一个或多个主题,其中包括的图片和超链接并不构成所述主题网页的主体。目录型网页通常不会描述一件事物,而仅提供指向相关网页的超链接。图片型网页中的内容则主要通过图片展示,并不具备大量文字。此外,每个网页中还包含诸多素材,例如广告、导航、分栏等信息,该等信息位于网页的不同位置,具有不同的重要度,既可能属于网页的主题内容,也可能属于“噪声”内容。
通常,样本集包括但不限于上述各种网页内容信息,为简化说明起见,将本实施例中的样本集定义为包括至少一个网页主题内容与噪声内容的目标信息。在其他实施例中,所述样本集可以为基于文档对象模型(DOM)的特定标签,利用标签项将网页中的HTML文档表示成DOM树的结构,所述DOM树的结构则并不用于表示网页内容结构。在本发明其他实施例中,所述样本集还可以包括基于特定网页的不同信息,在此不一一赘述。
种子规则模块2000连接所述样本集模块1000,所述种子规则模块2000中设定一种子规则,所述种子规则用于对所述样本集进行标注,以在所述样本集模块1000中建立第一训练样本集。在本实施例中,所述种子规则用于从大量的样本中筛选出目标样本(正样本)。其中所筛选出来的目标样本(正样本),更用做为机器学习算法的样本之一。在本实施例中,所述种子规则也称人工规则,是指人工制定的规则,所述种子规则并不一定要求从样本集中筛选出全部的目标样本(正样本),只要求筛选出一部分目标样本(正样本)即可。但是,所筛选出的目标样本(正样本)应该具有较高的准确率。
特征选择模块3000连接所述样本集模块1000与所述种子规则模块2000,用于对所述第一训练样本集采用特征选择算法,以选出所述第一训练样本集的重要特征。在本实施例中,优选的特征选择算法是对离散特征(即只有0和1两种取值的特征)使用卡方检验,对连续特征(即其取值范围是连续的)使用基于信息增益的办法。
机器学习模块4000连接所述特征选择模块3000与所述样本集模块1000,用于根据所述第一训练样本集的重要特征,对所述第一训练样本集采用机器学习(Machine Learning)算法,以产生第一分类规则。在本实施例中,所述机器学习模块4000还根据所述第一分类规则对所述样本集进行标注,以产生第二训练样本集。
本实施例的网页分块标注系统,可根据机器学习算法自动产生分块标注的训练样本,从而结合人工设定的训练样本与规则,提供网页分块标注所需的训练数据与训练样本。
请参阅图7,所示为本发明又一实施例的网页分块标注系统7000,包括:样本集模块1000、种子规则模块2000、特征选择模块3000、机器学习模块4000以及迭代模块5000。样本集模块1000,用于提供一样本集;种子规则模块2000,连接所述样本集模块1000,其中设定一种子规则,所述种子规则用于对所述样本集进行标注,以在所述样本集模块1000中建立第一训练样本集;特征选择模块3000,连接所述样本集模块1000与所述种子规则模块2000,用于对所述第一训练样本集采用特征选择算法,以选出所述第一训练样本集的重要特征;以及机器学习模块4000,连接所述特征选择模块3000与所述样本集模块1000,用于根据所述第一训练样本集的重要特征,对所述第一训练样本集采用机器学习(Machine Learning)算法,以产生第一分类规则;并根据所述第一分类规则对所述样本集进行标注,以产生第二训练样本集;以及迭代模块5000,连接所述样本集模块1000与所述机器学习模块4000,用于将所述第二训练样本集迭代至所述第一训练样本集。
在本实施例中,所述样本集模块1000、种子规则模块2000、特征选择模块3000与机器学习模块4000与图6所示之实施例的样本集模块1000、种子规则模块2000、特征选择模块3000与机器学习模块4000相同,故在此不再重复阐述。其不同之处在于,本实施例中的网页分块标注系统还进一步包括迭代模块5000,连接所述样本集模块1000与所述机器学习模块4000,用于将所述第二训练样本集迭代至所述第一训练样本集。其中所述迭代模块5000还用于循环地将所述第二训练样本集迭代至所述第一训练样本集。
由此,本发明的网页分块标注系统,可根据机器学习算法自动产生分块标注的训练样本,并自动循环迭代,从而结合人工设定训练样本,总结出分类规则,建立分类模型,以实现网页分块标注。
请参阅图8,所示为本发明又一实施例中,所述网页分块标注方法与系统的应用示意图。如图8所示,未经分块标注的网页10可由一个网页DOM树表示。所述网页10的DOM树经过本发明所示的网页分块标注方法之后可建立分类模型20。在本实施例中,所述分类模型可包括多个分类模型如分类模型一、分类模型二以及分类模型三。在本实施例中,所述分类模型20系通过如图1与图3所示的网页分块标注方法以及图6~7所示的网页分块标注系统,采用特征选择算法与机器学习算法对样本集进行计算而建立。在本实施例中,所述分类模型一、二、三更可进一步用于分别标识网页中的导航栏、翻页栏、标题栏或正文栏,在实际应用中,更可通过本发明所述的网页分块标注方法建立更多数量的分类模型,以根据实际需求对网页分块进行标注。
当通过所述分块模型20对所述网页10进行标注之后,可获得一个含有标注信息的DOM树结构的网页30。所述含有标注信息的DOM树结构的网页30则可用于如应用示意40所示的如链接分析、内容分析以及网页分类等应用。
在本实施例中,当分块模型20随所述网页10进行标注,从而获得有标注信息的DOM树结构的网页30,也即将所述网页10的复杂的DOM树结构拆分为更为简单的子单元,可适用搜索引擎的诸多应用。
举例而言,本发明的网页分块标注方法与系统可应用于应用示意40所示的链接分析。由于网页中的链接,有的位于导航条、有的位于文章正文中,有的位于相关链接。同样一个网页中处于不同分块的链接,其重要程度是不一样的,对网页进行分块标注后,就可以更为准确地预测链接的重要程度,从而按不同的优先级对网页中的链接进行抓取。
举例而言,本发明的网页分块标注方法与系统还可应用于应用示意40所示的网页内容分析。同样的一个网页,处于不同分块中的内容,具有不同的重要程度,比如位于标题栏的文字就比广告块中的文字更重要。搜索引擎为了减少搜索结果中的不相关结果,会根据网页的分块标注结果,对不同分块中的内容赋予不同的权重。
举例而言,本发明的网页分块标注方法与系统还可应用于应用示意40所示的网页分类。如果将一个网页整体笼统地看待,网页分类常常不能抽取到有效的特征,从而不能取得很好的效果。而将网页拆分为更小的功能块后,对各个功能块进行分析,可以使网页分类更加简单,也能得到更好的效果。比如对于新闻页识别来说,文章标题下方的文章来源信息,例如“2010-10-1511:00:57来源:浙江在线编辑:张三”是一个很重要的特征,而文章来源块也是一种分块标注类型。
由此,本发明的网页分块标注方法与系统,可根据机器学习算法自动产生分块标注的训练样本,并自动循环迭代,从而结合人工设定训练样本,总结出分类规则,建立分类模型,以实现网页分块标注。
在上述实施例中,仅对本发明进行了示范性描述,但是本领域技术人员在阅读本专利申请后可以在不脱离本发明的精神和范围的情况下对本发明进行各种修改。
虽然本发明已通过实施方式揭示如上,但并非用来限定本发明,任何本领域的技术人员,在不脱离本发明的精神和范围内,可对本发明做出各种变更与修饰,因此本发明的保护范围应该以权利要求书所界定的范围为准。

Claims (11)

1.一种网页分块标注方法,其特征在于,包括以下步骤:
提供样本集;
根据预设的人工规则对样本集进行标注,以建立第一训练样本集;
对所述第一训练样本集采用特征选择算法进行计算,选出所述第一训练样本集的重要特征;
根据所述第一训练样本集的所述重要特征,对第一训练样本集采用机器学习算法进行计算,以产生第一分类规则;根据第一分类规则,计算所述样本集中属于目标类别的概率值,判断属于目标类别的概率值是否大于预设的概率阈值,以产生第二训练样本集;其中:若所述属于目标类别的概率值大于所述预设概率阈值,则根据所述第一分类规则在所述样本集中标注出正样本;若所述属于目标类别的概率值不大于所述预设概率阈值,则根据所述第一分类规则在所述样本集中标注出负样本;所述第二训练样本集则包括由正样本组成的正样本集,以及由负样本组成的负样本集。
2.如权利要求1所述的网页分块标注方法,其特征在于,还包括:将所述第二训练样本集迭代至所述第一训练样本集的步骤。
3.如权利要求2所述的网页分块标注方法,其特征在于,将所述第二训练样本集迭代至所述第一训练样本集的步骤循环运行。
4.如权利要求2所述的网页分块标注方法,其特征在于,所述人工规则包括需要识别的目标类别。
5.如权利要求4所述的网页分块标注方法,其特征在于,根据所述人工规则对样本集进行标注,以建立第一训练样本集还包括:将所述样本集中属于所述目标类别的样本标注为正样本。
6.如权利要求1所述的网页分块标注方法,其特征在于,所述特征选择算法是对离散特征使用卡方检验。
7.如权利要求1所述的网页分块标注方法,其特征在于,所述网页分块标注方法应用于网页链接分析、网页内容分析或网页分类。
8.一种网页分块标注系统,其特征在于,所述网页分块标注系统包括:
样本集模块,用于提供一样本集;
种子规则模块,所述种子规则模块中设定一人工规则,用于对所述样本集进行标注,以在所述样本集模块中建立第一训练样本集;
特征选择模块,用于对所述第一训练样本集采用特征选择算法,以选出所述第一训练样本集的重要特征;及
机器学习模块,用于根据所述第一训练样本集的重要特征,对所述第一训练样本集采用机器学习算法,以产生第一分类规则;根据第一分类规则,计算所述样本集中属于目标类别的概率值,判断属于目标类别的概率值是否大于预设的概率阈值,以产生第二训练样本集;其中:若所述属于目标类别的概率值大于所述预设概率阈值,则根据所述第一分类规则在所述样本集中标注出正样本;若所述属于目标类别的概率值不大于所述预设概率阈值,则根据所述第一分类规则在所述样本集中标注出负样本;所述第二训练样本集则包括由正样本组成的正样本集,以及由负样本组成的负样本集。
9.如权利要求8所述的网页分块标注系统,其特征在于,还包括迭代模块,用于将所述第二训练样本集迭代至所述第一训练样本集。
10.如权利要求9所述的网页分块标注系统,其特征在于,所述迭代模块更用于循环地将所述第二训练样本集迭代至所述第一训练样本集。
11.如权利要求8所述的网页分块标注系统,其特征在于,所述网页分块标注系统用于网页链接分析、网页内容分析或网页分类。
CN2011100357299A 2011-02-10 2011-02-10 网页分块标注方法与系统 Active CN102637172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100357299A CN102637172B (zh) 2011-02-10 2011-02-10 网页分块标注方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100357299A CN102637172B (zh) 2011-02-10 2011-02-10 网页分块标注方法与系统

Publications (2)

Publication Number Publication Date
CN102637172A CN102637172A (zh) 2012-08-15
CN102637172B true CN102637172B (zh) 2013-11-27

Family

ID=46621569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100357299A Active CN102637172B (zh) 2011-02-10 2011-02-10 网页分块标注方法与系统

Country Status (1)

Country Link
CN (1) CN102637172B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942224B (zh) * 2013-01-23 2018-12-14 百度在线网络技术(北京)有限公司 一种获取网页分块的标注规则的方法及装置
CN103440239B (zh) * 2013-05-14 2016-08-10 百度在线网络技术(北京)有限公司 一种基于功能区域识别的网页切分方法及装置
CN103559234B (zh) * 2013-10-24 2017-01-25 北京邮电大学 RESTful Web服务的自动化语义标注系统和方法
CN108241650B (zh) * 2016-12-23 2020-08-11 北京国双科技有限公司 训练分类标准的训练方法和装置
CN108345599B (zh) * 2017-01-23 2021-12-14 阿里巴巴集团控股有限公司 网页类型确定方法、装置及计算机可读介质
US11138514B2 (en) * 2017-03-23 2021-10-05 Futurewei Technologies, Inc. Review machine learning system
CN107256428B (zh) * 2017-05-25 2022-11-18 腾讯科技(深圳)有限公司 数据处理方法、数据处理装置、存储设备及网络设备
CN109740738B (zh) * 2018-12-29 2022-12-16 腾讯科技(深圳)有限公司 一种神经网络模型训练方法、装置、设备和介质
CN111611457B (zh) * 2020-05-20 2024-01-02 北京金山云网络技术有限公司 一种页面分类方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196918A (zh) * 2007-12-27 2008-06-11 腾讯科技(深圳)有限公司 一种分页方法及分页装置
CN101251855A (zh) * 2008-03-27 2008-08-27 腾讯科技(深圳)有限公司 一种互联网网页清洗方法、系统及设备
CN101464905A (zh) * 2009-01-08 2009-06-24 中国科学院计算技术研究所 一种网页信息抽取的系统及方法
CN101866342A (zh) * 2009-04-16 2010-10-20 富士通株式会社 生成或显示网页标注的方法和装置以及信息共享系统
CN101944104A (zh) * 2010-08-19 2011-01-12 百度在线网络技术(北京)有限公司 一种网页分块的重要度评估方法和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7171618B2 (en) * 2003-07-30 2007-01-30 Xerox Corporation Multi-versioned documents and method for creation and use thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196918A (zh) * 2007-12-27 2008-06-11 腾讯科技(深圳)有限公司 一种分页方法及分页装置
CN101251855A (zh) * 2008-03-27 2008-08-27 腾讯科技(深圳)有限公司 一种互联网网页清洗方法、系统及设备
CN101464905A (zh) * 2009-01-08 2009-06-24 中国科学院计算技术研究所 一种网页信息抽取的系统及方法
CN101866342A (zh) * 2009-04-16 2010-10-20 富士通株式会社 生成或显示网页标注的方法和装置以及信息共享系统
CN101944104A (zh) * 2010-08-19 2011-01-12 百度在线网络技术(北京)有限公司 一种网页分块的重要度评估方法和设备

Also Published As

Publication number Publication date
CN102637172A (zh) 2012-08-15

Similar Documents

Publication Publication Date Title
CN102637172B (zh) 网页分块标注方法与系统
CN101251855B (zh) 一种互联网网页清洗方法、系统及设备
CN102567494B (zh) 网站分类方法及装置
CN103164427B (zh) 新闻聚合方法及装置
CN101620608A (zh) 信息采集方法及系统
CN104462611A (zh) 信息排序模型的建模方法、排序方法及建模装置、排序装置
CN104239298A (zh) 文本信息推荐方法、服务器、浏览器及系统
CN104598462B (zh) 提取结构化数据的方法及装置
CN103577478A (zh) 网页推送方法及系统
CN104133868B (zh) 一种用于垂直爬虫数据分类整合的策略
CN102591612A (zh) 一种基于标点连续性的通用网页正文提取方法及其系统
CN105550169A (zh) 一种基于字符长度识别兴趣点名称的方法和装置
CN104252616A (zh) 人脸标注方法、装置及设备
CN105930507A (zh) 一种获得用户的Web浏览兴趣的方法及装置
WO2014000130A1 (en) Method or system for automated extraction of hyper-local events from one or more web pages
CN104317891A (zh) 一种对页面标注标签的方法及装置
CN108182294B (zh) 一种基于频繁项集增长算法的电影推荐方法及系统
CN102117289A (zh) 一种从网页中抽取评论内容的方法和装置
CN103198078B (zh) 一种互联网新闻事件报道趋势分析方法及系统
CN103853720A (zh) 基于用户关注度的网络敏感信息监控系统及方法
CN110516710A (zh) 网页分类方法、装置、计算机装置及计算机可读存储介质
CN103823847A (zh) 一种关键词的扩充方法及装置
CN102902792A (zh) 列表页识别系统及方法
CN109062946A (zh) 一种基于多网页的突出显示方法及装置
CN102929948B (zh) 列表页识别系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant