具体实施方式
图1是本发明实施例提供的网页分类方法流程图。
如图1所示,该方法包括:
步骤101,确定待分类网页显示的内容信息、以及所述内容信息在所述待分类网页中的位置信息。
步骤102,根据所述内容信息和所述位置信息对所述待分类网页进行分类。
在根据所述内容信息和所述位置信息对待分类网页进行分类时,可以先根据所述内容信息和所述位置信息将待分类网页分成多个网页块,然后根据分出的各个网页块的特征对待分类网页进行分类。
其中,可以根据网页的内容信息所处的位置、所述内容信息的语义特征和结构特征,和/或网页描述语言(例如html语言)中的标记特征,将网页分成多个网页块。
其中的语义特征是指,网页内容的语义含义,通常通过关键字的形式来表示。结构特征是指,网页内容中各种信息表现形式的数量或者不同信息表现形式之间的比例,例如文字的数量、图片的数量、链接文本的数量、或者文字、图片以及链接文本之间的比例。
具体地,位置相近的网页内容可能组成一个网页块,语义特征相似和/或结构特征相似的网页内容通常组成一个网页块,网页描述语言的一个标记特征下的信息往往能独立构成一个网页块。以html语言为例,标记为div特征的网页内容通常可以分为一个网页块,标记为table特征的网页内容可以分为另一个网页块。
通过将网页分成多个网页块,根据各个网页块在待分类网页中所处的位置、各个网页块的语义特征和各个网页块的结构特征中的任意一项或多项对网页进行分类,可以提高分类准确率。
首先,网页块是相近语义内容的集合,将网页块作为一个特征点来对网页分类,比利用单个关键词对网页分类更加准确。
其次,分出网页块后,可以识别出噪声块,去掉这些噪声块的影响会使网页分类结果更佳。比如,在广告块中出现的是某个新车的广告,但是网页正文块中描述的是体育新闻,如果去掉噪声块,会更容易识别出体育新闻来。
再者,在不同的网页块中出现的特征对网页分类的影响会不同,比如出现在二级导航块中的关键字比正文中出现的关键字更能说明网页的类别。
典型的网页块例如有:广告块、导航块、评论块、边框块和推荐链接块等。其中,广告块和推荐链接块通常都以链接文字为主,但是广告块其链接出的统一资源定位符(Uiform Resouse Locator,URL)通常含有advis等关键字;导航块通常出现在网页的最上方;评论块通常出现在网页正文的下方,包含对正文的评论信息;边框块通常出现在网页的左右两边,并且宽度较窄。根据各个网页块所具有的特征可以将待分类网页分成多个网页块。
将网页分成多个网页块后,可以根据各个网页块的结构特征和/或语义特征对待分类网页进行分类。其中的结构特征可以包括文字链接比、图片个数和/或图片链接个数等。所述文字链接比是网页块中的文字数与链接数的比值。
为了进一步提高网页分类结果的准确性,如上所述,本发明实施例还可以对网页内容进行去噪处理,然后根据去噪处理后的网页内容以及所述内容在网页中的位置对网页进行分类。
具体地,可以根据网页块在待分类网页中的位置和/或网页块中的关键词确定网页块是否是噪声块,然后根据不是噪声块的网页块对待分类网页进行分类。
例如,当需要将导航块作为噪声块时,可以首先将处于网页最上方,且关键字含有“导航”的网页块识别为噪声块。
除了考虑网页所显示的文字、图片、边框、flash、链接等内容信息及其所在位置外,本发明实施例还可以进一步考虑网页的URL特征,综合考虑网页显示的内容信息、所述内容信息在网页中的位置信息以及网页的URL特征对网页进行分类,从而进一步提高网页分类的准确率和召回率。
其中网页的URL特征通常包括语义特征、结构特征和位置特征中的任意一项或多项。通常网页的URL按照结构分段可以分为子域级、目录级、文件级以及cgi级,可以通过比较待分类网页URL各段的语义特征与某一类网页的URL的相应段的语义特征,判断待分类网页属于该某一类网页的概率。其中,由于结构特征在URL中所处的位置不同,因此处于URL不同结构特征中的语义特征对分类结果的影响一般不同,通常,位置越靠后的结构特征中的语义特征对分类结果影响越大;另外,结构特征的信息表现形式通常也可以影响分类结果。
例如,http://vipemarketing.qq.com/doov/con/show/act/detail?id=44892775中,子域是指“vipemarketing.qq.com”,目录是“/doov/con/show/act/”,资源名是“detail”,cgi是“id=44892775”。URL不同位置中出现的关键字对分类的影响不同,大体上说,位置越往后,准确率越高。比如:URL资源名中出现“news.html”,而目录中出现“/video/”,则该页面是新闻页的可能性比视频页的可能性大。除了关键字外,URL中的结构特征的信息表现形式也可以作为分类的因子,比如,资源名中全是数字组成,则该页面是信息页的可能性就比较大。
在具体实施过程中,本发明实施例可以通过自学习等方法离线训练出各类网页的特征库,即预先根据各类网页的内容信息和位置信息确定各类网页的特征库;然后在在线分类的过程中,根据所述内容信息和所述位置信息提取待分类网页的特征,根据提取的特征和所述确定的特征库对待分类网页进行分类。
图2是本发明实施例提供的网页分类装置的结构图。
如图2所述,该分类装置包括确定模块201和分类模块202。
确定模块201,用于确定待分类网页显示的内容信息、以及所述内容信息在所述待分类网页中的位置信息。
分类模块202,用于根据所述内容信息和所述位置信息对所述待分类网页进行分类。
分类模块202可以包括分块单元和分类单元。
所述分块单元,用于根据所述内容信息和所述位置信息将待分类网页分成多个网页块。
所述分类单元,用于根据分出的网页块对待分类网页进行分类。
所述分块单元,具体用于根据网页内容信息的语义特征和/或结构特征,以及所述内容信息在待分类网页中的位置信息,将待分类网页分成多个网页块;或者用于根据网页内容信息的语义特征和/或结构特征、所述内容信息在待分类网页中的位置信息以及待分类网页的网页描述语言中的标记特征,将待分类网页分成多个网页块。
分类模块202还可以进一步包括噪声确定单元。
所述噪声确定单元,用于根据网页块在待分类网页中的位置和/或网页块中的关键词确定网页块是否是噪声块。
相应地,所述分类单元,用于根据不是噪声块的网页块对待分类网页进行分类。
确定模块201,还可以进一步用于确定待分类网页的URL特征。
相应地,分类模块202,用于根据所述内容信息、所述位置信息以及所述URL特征对待分类网页进行分类。
所述URL特征通常包括URL的语义特征、结构特征或位置特征。
图2所示分类装置还可以包括特征库模块。
所述特征库模块,用于存储各类网页的特征,所述各类网页的特征是预先根据各类网页的内容信息和位置信息确定的。
所述分类模块202,还可以用于根据待分类网页的内容信息和位置信息以及所述特征库模块中存储的各类网页的特征对待分类网页进行分类。
下面结合具体的例子对本发明实施例的分类方法和分类装置进行示例性说明。
图3是本发明实施例提供的网页分类方法详细流程图。
图3所示网页分类方法分为离线训练阶段和在线分类阶段两部分。
图3中,步骤301-304是离线训练阶段,步骤301-302利用机器自学习的方法训练出网页分类器,步骤303-304利用机器自学习的方法训练出网页噪声块识别模型,其中网页分类器的训练阶段(步骤301-302)和网页噪声块识别模型的训练阶段(即步骤303-304)顺序可调。
步骤305-309是在线分类阶段,利用离线训练阶段训练出的网页噪声块识别模型对待分类网页进行降噪处理,然后提取降噪处理后的待分类网页的特征,利用离线训练阶段训练出的网页分类器对待分类网页进行分类。
具体地,图3所示流程包括如下步骤:
步骤301,根据预先分好的网页类型库中的各类网页,确定各类网页的特征库。
其中的网页类型库可以通过预先由人工区分网页类型的方式得到;各类网页的特征库可以通过分析得到,比如通过人工总结一些规则(比如总结一批新闻页的关键词),或者通过特征挖掘或者聚类的方法得到特征库(比如通过对同一个类型的网页,通过自动分词,找出词频较高的关键词作为该类型网页的特征)。
步骤302,利用离线训练样本和各类网页的特征库训练网页分类器。
其中的离线训练样本通常也是通过人工方式得到的,其网页类型通过人工方式预先确定。通过离线训练样本和所述特征库,可以训练出特征库中的各个特征对应的权值因子,网页分类器根据待分类网页所具有的特征及该特征的权值因子即可对待分类网页进行分类。
步骤303,确定网页噪声块特征库。
本步骤中,也可以通过人工方式确定网页噪声块的特征库。
步骤304,训练网页噪声块识别模型。
本步骤中,根据网页噪声块的特征库训练网页噪声块识别模型。
步骤305,对待分类网页进行网页分块。
其中,网页显示的文字内容是由文字以及相对结构关系组成的二维结构。根据网页中结构特征以及语义特征的不同,可以将处于相似结构特征以及相似语义特征中的文字切割成一个网页块。
步骤306,识别分出的各个网页块是否是噪声块。
其中,典型的噪声块包括广告块、导航块、评论块和推荐链接块等。
步骤307,根据识别结果对网页进行降噪处理。
具体地,本步骤中,可以删除网页中的噪声块,也可以标注出网页中的噪声块。
步骤308,从不是噪声块的网页块中提取出待分类网页的特征。
本步骤中的特征包括语义特征和/或结构特征。
步骤309,利用离线训练阶段训练出的网页分类器对待分类网页进行分类,得到待分类网页的网页类型。
其中,可以将分出类别的网页再送入相应类别的网页库中,以便丰富网页库的内容,根据更加丰富的网页库更新相应类型网页的特征库。
图3所示方法中,每一类网页的特征库中都包含网页显示的内容信息的语义特征和结构特征、网页显示的内容信息在网页中的位置信息,以及网页的URL特征,这样,根据该特征库训练出的网页分类器能够全面考虑网页的文字、除文字外的图片等内容信息、所述内容信息在网页中的位置信息、网页的URL特征等多种特征,从而提高网页分类的准确率和召回率。其中的URL特征例如可以包括URL的语义特征、结构特征或位置特征等。
下面以一个具体的例子来阐述本发明实施例中所描述的网页分类方法。
首先,我们定义两个网页类型:
信息页,网页的主题是以非链接文本为主,用以表述某个主题内容,例如我们经常见到的网络中某个新闻的页面。
索引页,网页的主题是以链接文本为主,网页主要是提供到其他信息的导航,例如网站的首页等。
我们以新闻页http://news.qq.com/a/20100519/000045.htm为例,看本发明实施例中的网页分类方法如何对其进行分类:
首先,输入待分类网页的URL以及该网页的html源码,其中,待分类网页的URL是http://news.qq.com/a/20100519/000045.htm。
然后,根据html语法中具有分块特征的标签将网页进行切分。具体而言,我们可以用最小的table,div,span,tbody,title等节点,将该网页切成若干个小网页块。
接下来进行网页噪声块识别。具体地,预先定义出导航块、边框块、广告块以及评论块等噪声块。根据这些噪声块的特征,识别出切割出来的网页块中哪些是噪声块,并将这些噪声块去除。其中,噪声块的特征包括:导航块通常在网页的最上方出现,用以在该网站中导航作用;边框块通常在网页的左右两边出现,其宽度较窄;广告块通常是以链接文字为主,并且链出的URL通常含有advis等关键词;评论块通常是对正文的评论信息,出现在正文的下方。
去除噪声块之后,页面的内容更加干净。从剩下的网页块中,提取出最能描述类别的特征点。在识别信息页的特征中,我们认为链接文本的字数与非链接文本的字数的比值,是最有效的特征。同时,在该网页中,具有信息页特征的网页块,比如,二级导航块,还有很多具有信息页特征的语义信息,比如二级导航中存在“正文”关键字。除了网页自身特征之外,网页对应的URL也有相应的特征点,例如该URL是一个静态URL,并且该URL的资源名000045.htm是由全数字组成,这些都是信息页URL的特征。
取出上述特征之后,根据离线训练的分类器模型,综合考虑各个特征因子对分类的贡献,最终产生出该网页的类别为信息页。
本发明实施例中提及到的网页分类器,是采用机器学习算法得到的分类器。这里也可以使用其他一些方法得到分类器,比如分支定界的方法,阙值分支法等。
本发明实施例中直接对网页的html源代码进行分析,也可以先对网页建立文档对象模型(Document Object Model,DOM)树,后续的分析过程都依赖于DOM树来实现,对DOM树描述的网页进行分类与对html语言描述的网页进行分类的方法是类似的,区别仅在于,对于DOM树描述的网页,通过遍历DOM树获取网页内容信息的语义特征和结构特征以及网页内容信息在网页中的位置信息,而无需遍历整个html页面。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本