具体实施方式
为了使本发明的技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例通过提取的网页源文件中文本块的特征点和标题标签和辅助性标签中的文字,对网页源文件中的各个文本块进行概率判断,将概率值最大的文本块作为网页标题提取出来,能够有效的过滤掉网页设计者在标题标签或者辅助性标签中堆砌的与网页内容无关的文字,将最能描述网页主题内容或者中心思想的文字作为网页标题提取出来,有效的提高网页搜索的准确率和召回率。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一:
图1示出了本发明实施例一提供的网页标题提取方法的实现流程,该方法过程详述如下:
在步骤S101中,提取网页源文件中标题标签和辅助性标签中的文字。
在本实施例中,通过文本解析器解析网页源文件中标题(title)标签和辅助性(meta)标签,提取标题标签和辅助性标签中的文字。例如:在所述网页源文件为HTML(HyperText Mark-up Language,超文本标记语言)源文件,通过HTML文本解析器把标题标签<title>经济中心</title>和meta标签<metaname=“keywords”content=“政治,经济,科技,文化”>中的文字“经济中心”和“政治经济科技文化”解析出来。
作为本发明的一个实施例,该方法还可以通过文档对象模型(DocumentObject Model,DOM)树来代替网页源文件,后续的分析过程都可依赖DOM树来实现。其中,DOM树是一种用于HTML和XML文档的编程接口。
在步骤S102中,提取所述网页源文件中每个文本块的特征点。
在本实施例中,对网页源文件中每个文本块,提取所述文本块的特征点,通过所述特征点判断所述文本块是否为网页标题。其中,所述特征点包括但不局限于标签特征、视觉特征、位置特征和内容特征中的至少一个,各特征点的具体描述如下:
1)标签特征
该标签特征指的是文本块的父节点的标签特征,不同的标签特征其文本块为网页标题的概率也会不同。例如:文本块的父节点是h标签(h1-h6)时,该文本块是网页标题的概率大于父节点是a标签的文本块。
2)视觉特征
网页源文件中的font tag标签描述了各文本块的显示属性,一般来说显示的突出程度(例如:大字体、彩色等)和内容的重要程度成正比,即突出显示的文本块是网页标题的概率大于普通显示的文本块。例如:三号字体的文本块是网页标题的概率大于四号字体的文本块,加粗(或者彩色)显示的文本块是网页标题的概率大于正常显示的文本块。
3)位置特征
位置特征指的是文本块在网页中所处的位置。一般来说出现在网页偏上方的文本块是网页标题的概率远大于出现在网页偏下方的文本块。当然,还可以辅助一些特征网页块的情况,例如:对出现在“二级导航块”的下方,“版权声明块”上方的文本块,其作为网页标题的概率较高。另外,如果可以得到网页分块以及网页块类型等信息,也可以作为网页标题提取中的“位置特征”来使用。
4)内容特征
内容特征是指文本块中的内容与网页正文内容以及提取的title和meta标签中文字的相关度。对与网页正文内容相关度较高,同时也与title和meta标签中提取的文字相关度较高的文本块,其作为网页标题的概率也较高。
在步骤S103中,根据所述提取的文本块的特征点以及标题标签和辅助性标签中的文字,计算所述网页源文件中每个文本块作为网页标题的概率值。
在步骤S104中,将概率值最大的文本块提取为网页标题。
在本实施例中,通过计算得到的网页源文件中每个文本块作为网页标题的概率值,输出的概率值最大的文本块,该文本块即为网页标题。
为了更好的提取网页标题,作为本发明的另一实施例,所述方法还包括以下步骤:
根据网页源文件中的标签,将所述网页源文件中连续的文本节点分割成多个独立的文本块。
在本实施例中,所述“根据网页源文件中的标签”中的“标签”包含标题标签和辅助性标签,指的是网页源文件中的所有标签。根据网页源文件中的标签,将网页源文件中连续的文本节点分割成多个独立的文本块,根据提取文本块的特征点以及标题标签和辅助性标签中的文字,计算每个独立文本块作为网页标题的概率值。
在本发明实施例中,根据提取的文本块中的特征点以及标题标签和辅助性标签中的文字,计算网页源文件中每个文本块作为网页标题的概率值,将概率值最大的文本块作为网页标题输出,能够有效的过滤掉网页设计者在标题标签或者辅助性标签中堆砌的与网页内容无关的文字,将最能描述网页主题内容或者中心思想的文字作为网页标题提取出来,有效的提高网页搜索的准确率和召回率。
实施例二:
图2是本发明实施例二提供的根据所述提取的文本块的特征点以及标题标签和辅助性标签中的文字,计算所述网页源文件中每个文本块作为网页标题的概率值的具体流程:
在步骤S201中,根据所述提取的文本块的特征点以及标题标签和辅助性标签中的文字,通过离线训练得到的决策模型获取所述文本块的特征点与网页标题相关的概率值。
在本实施例中,通过离线训练的方式从采集的网页样本中提取特征点,并将所述特征点存储至特征点数据库,根据所述数据库中的特征点,训练出一个决策模型,再根据该决策模型决策出各特征点与网页标题相关的概率值(例如:某文本块的视觉特征为二号字体,通过决策得出该特征点与网页标题相关的概率值为0.8),同时将决策后的特征点作为样本反馈给特征点数据库。其中,所述决策模型可通过机器学习算法、分支定界法或者阙值分支法等方法实现。
在步骤S202中,根据所述获取的文本块的特征点与网页标题相关的概率值,计算所述网页源文件中每个文本块作为网页标题的概率值。
在本实施例中,为了方便根据具体情况对特征点概率值的修改,提高文本块作为网页标题概率计算的准确率,通过离线训练得到的决策模型来获取所述文本块的特征点与网页标题相关的概率值来判断所述文本块作为网页标题的概率值。例如:当文本块的特征点包含标签特征,提取该本文块的标签特征(h1标签),通过离线训练得到的决策模型获取h1标签中与网页标题相关的具体概率值,当h1标签中文字与网页内容完全无关时,该特征点概率值为0。根据离线获取的特征点与网页标题相关的具体概率值,计算出对应的文本块的概率值。其中,所述文本块概率值的计算方式包括但不局限于以下方法:1)取该文本块中各特征点与网页标题相关概率值的平均值;2)为该文本块中各特征点设置权重,依据权重计算得出;3)直接将该文本块中各特征点的概率值相乘。例如:文本块包括特征点1、特征点2和特征点3。特征点1的概率值为0.6,特征点2的概率值为0.4,特征点3的概率值为0.5,则该文本块的概率值可以通过取特征点1、特征点2和特征点3的平均值即(0.6+0.5+0.4)/3=0.5得出;也可以为特征点设置权重,例如特征点1的权重为0.6,特征点2的权重为0.3,特征点1的权重为0.1,则该文本块的概率值为0.6*0.6+0.5*0.3+0.4*0.1=0.55;也可以通过将该文本块中各特征点的概率值相乘得出该文本块的概率值0.6*0.4*0.5=0.12。
作为本发明的一个实施例,如果可以得到页面的锚文本信息,也可以作为文本块提取的一个特征点参与计算。
实施例三:
为了更好的说明该网页标题提取方法,图3示出了本发明实施例三提供的网页标题提取方法的具体实例,该具体实例步骤如下:
1.输入URL(Universal Resource Locator,网页地址):http://news.qq.com/a/20101120/000780.htm,获取该网页的超文本标记语言源文件;
2.提取该源文件中titlte标签中的文字:“国务院出台16项措施稳定消费价格总水平新闻腾讯网”;
3.提取该源文件中meta标签中的文字:“国务院出台16项措施稳定消费价格总水平物价”;
4.将该源文件中连续的文本节点分割成多个独立的文本块,例如:“腾讯网首页”,“网站导航”,“邮箱”,“国务院出台16项措施稳定消费价格总水平”等文本块;
5.根据预设的特征点(标签特征、视觉特征、位置特征和内容特征)以及所述提取的标题标签和辅助性标签中的文字,计算该源文件中每个文本块作为网页标题的概率值。例如:“国务院出台16项措施稳定消费价格总水平”文本节点,其父节点是h1标签,因此,“标签特征”是标题的概率比较大;该文本节点中的字体是网页中的最大字体,因此,“视觉特征”是标题的概率比较大;该文本节点处于网页的上方,因此,“位置特征”是标题的概率比较大;该文本节点与网页中正文,title标签,meta标签中的文本的相关度很高,因此,“内容特征”是标题的概率比较大。可通过离线训练得到的决策模型获取各特征点与网页标题相关的具体概率值,根据获取的特征点的具体概率值,计算出对应的文本块的概率值。其他的文本块也作类似的计算;
6.通过计算得到的网页源文件中每个文本块作为网页标题的概率值,输出概率值最大的文本块“国务院出台16项措施稳定消费价格总水平”,该文本块即为网页标题。
实施例四:
图4示出了本发明实施例四提供的网页标题提取装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
该网页标题提取装置可以用于通过有线或者无线网络连接服务器的各种信息处理系统,例如掌上电脑、计算机、笔记本电脑、个人数字助理(Personal DigitalAssistant,PDA)等,可以是运行于这些信息处理系统内的软件单元、硬件单元或者软硬件相结合的单元,也可以作为独立的挂件集成到这些信息处理系统中或者运行于这些信息处理系统的应用系统中。
该网页标题提取装置包括文字提取单元41、特征点提取单元42、概率计算单元43和结果输出单元44。其中,各单元的具体功能如下:
文字提取单元41,用于提取网页源文件中标题标签和辅助性标签中的文字,其实现方式如上所述,在此不再赘述。
特征点提取单元42,用于提取所述网页源文件中每个文本块的特征点,其实现方式如上所述,在此不再赘述。
概率计算单元43,用于根据所述提取的文本块的特征点以及标题标签和辅助性标签中的文字,计算所述网页源文件中每个文本块作为网页标题的概率值。其中,所述概率计算单元43还包括特征点概率计算模块431和文本块概率计算模块432。
特征点概率计算模块431,用于根据所述提取的文本块的特征点以及标题标签和辅助性标签中的文字,通过离线训练得到的决策模型获取所述文本块的特征点与网页标题相关的概率值;
文本块概率计算模块432,用于根据所述获取的文本块的特征点与网页标题相关的概率值,计算所述网页源文件中每个文本块作为网页标题的概率值。
结果输出单元44,用于将概率值最大的文本块提取为网页标题。
在本实施例中,通过计算得到的网页源文件中每个文本块作为网页标题的概率值,输出的概率值最大的文本块,该文本块即为网页标题。
在本发明实施例中,根据提取的网页源文件中文本块的特征点和标题标签和辅助性标签中的文字,计算所述网页源文件中每个文本块作为网页标题的概率值,并根据计算得到的概率值,将概率值最大的文本块作为网页标题输出,能够有效的过滤掉网页设计者在标题标签或者辅助性标签中堆砌的与网页内容无关的文字,将最能描述网页主题内容或者中心思想的文字作为网页标题提取出来,有效的提高网页搜索的准确率和召回率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。