CN103064845B - 网页信息处理装置和网页信息处理方法 - Google Patents
网页信息处理装置和网页信息处理方法 Download PDFInfo
- Publication number
- CN103064845B CN103064845B CN201110319563.3A CN201110319563A CN103064845B CN 103064845 B CN103064845 B CN 103064845B CN 201110319563 A CN201110319563 A CN 201110319563A CN 103064845 B CN103064845 B CN 103064845B
- Authority
- CN
- China
- Prior art keywords
- title
- text
- weight
- content
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 32
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000012216 screening Methods 0.000 claims abstract description 13
- 238000004458 analytical method Methods 0.000 claims description 14
- 230000000052 comparative effect Effects 0.000 claims description 6
- 238000000034 method Methods 0.000 description 25
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000004744 fabric Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000465 moulding Methods 0.000 description 2
- DDSDPQHQLNAGLJ-YEBWQKSTSA-N (2z)-6-(2-chlorophenyl)-2-[(4-methylpiperazin-4-ium-1-yl)methylidene]-8-nitro-4h-imidazo[1,2-a][1,4]benzodiazepin-1-one;methanesulfonate Chemical compound CS(O)(=O)=O.C1CN(C)CCN1\C=C/1C(=O)N2C3=CC=C([N+]([O-])=O)C=C3C(C=3C(=CC=CC=3)Cl)=NCC2=N\1 DDSDPQHQLNAGLJ-YEBWQKSTSA-N 0.000 description 1
- 101100379079 Emericella variicolor andA gene Proteins 0.000 description 1
- 241000562516 Thisbe Species 0.000 description 1
- 241000135164 Timea Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种网页信息处理装置和一种网页信息处理方法,其中,网页信息处理装置100包括:网页处理模块102,将网页处理为DOM结构;权重计算模块104,遍历DOM结构的节点,根据DOM结构中的节点的特征,计算节点的权重;结果筛选模块106,根据文本节点的样式权重和内容权重,得到文本节点的标题权重,以判断是否将文本节点的内容作为候选标题,并从文本节点的内容中提取时间串,作为候选发布时间;结果生成模块108,从所有候选标题和所有候选发布时间,选出网页的信息标题和信息发布时间。通过本发明,能够通过对网页页面各部分元素的不同特征,来分析其在网页中的重要性,并由此选取标题和发布时间,简单高效。
Description
技术领域
本发明涉及信息检索领域,具体而言,涉及一种网页信息处理装置和一种网页信息处理方法。
背景技术
在资讯(或者新闻)搜索领域,资讯的主要元素(标题、发布时间)是资讯的核心要素。标题和发布时间是提供搜索服务的重要依据,其抽取的质量高低决定了资讯搜索的质量和用户体验。目前资讯主要元素的抽取方法基本有三类:基于人工模板方式的抽取、基于自动模板方式的抽取和基于非模板方式抽取。
基于人工模板的抽取方式:先由人工根据对资讯网页结构的分析定义模板(如正则表达式,或简单字符串标识),然后编写程序根据模板对资讯网页进行解析,得到相应的数据。其缺点在于,需要耗费巨大人力资源来编写模板。除此之外,随着目标网站的变化,模板需要及时进行更新,造成后期维护成本也很大。
基于自动模板的抽取方式:先从目标网站获取一部分网页数据,根据机器学习算法进行学习训练,取得公共部分,经人工或自动筛选之后得到模板,然后程序利用模板抽取数据。其缺点在于,算法复杂,同时仍然要对目标网站进行周期监控,以调整模板以适应目标网站的变化。调整模板的周期也比较长,在模板调整完毕以前,抽取的信息都可能是错误的,这很难满足搜索引擎的需要。
非模板方式抽取多基于统计和学习方式来实现。目前主要的算法有基于统计的,基于规则的,基于分块的,基于视觉的等等。其缺点在于,基于分块或基于视觉的页面分割算法由于规则复杂,性能不高,不太适合资讯搜索引擎的应用。
因此,需要一种新的对页面信息进行标题和发布时间进行提取的方法,能够适应不同类型的网页页面,且保证所提取的标题和发布时间的准确度,同时实现方式不会过于复杂,实现成本不会过高。
发明内容
本发明所要解决的技术方案在于,提供一种新的对页面信息进行标题和发布时间进行提取的方法,能够适应不同类型的网页页面,且保证所提取的标题和发布时间的准确度,同时实现方式不会过于复杂,实现成本不会过高。
有鉴于此,本发明提供一种网页信息处理装置,包括:网页处理模块,将网页处理为DOM结构;权重计算模块,遍历所述DOM结构的节点,根据所述DOM结构中的非文本节点的特征,计算所述非文本节点的样式权重,根据所述DOM结构中的文本节点的特征,计算所述文本节点的内容权重,其中,所述非文本节点的样式权重累加到其子节点上;结果筛选模块,根据所述文本节点的样式权重和内容权重,得到所述文本节点的标题权重,以判断是否将所述文本节点的内容作为候选标题,并从所述文本节点的内容中提取时间串,作为候选发布时间;结果生成模块,从所有候选标题和所有候选发布时间,选出所述网页的信息标题和信息发布时间。通过该技术方案,能够通过对网页页面各部分元素的不同特征,来分析其在网页中的重要性,并由此选取标题和发布时间,简单高效。
在上述技术方案中,优选地,所述结果筛选模块比较所述标题权重与全局最大标题权重,并在所述标题权重大于所述全局最大标题权重时,将所述文本节点的内容作为所述候选标题,并使用所述标题权重更新所述全局最大标题权重,如果所述全局最大标题权重不存在,将所述标题权重作为所述全局最大标题权重,并将所述文本节点的内容作为所述候选标题。通过该技术方案,通过各部分元素的特征来进行权重计算,可以通过具体值来,来进行重要性的分析,以选取标题和发布时间。
在上述技术方案中,优选地,还包括:类型分析模块,根据所述文本节点之上的非文本节点的类型,来判断是否启用结果筛选模块。通过该技术方案,对于页面中的某些元素的可以忽略掉,而不对其进行分析,例如A、IMG标签下的文本,就可以忽略,而对于TITLE标签下的文本,则应从中选取候选标题。
在上述技术方案中,优选地,所述权重计算模块还将TITLE下的文本节点的候选标题作为启发信息,并将其他文本节点的内容与所述启发信息比较,以计算所述其他文本节点的权重。所述启发信息还可以包括外锚链文本、网站名称和频道名称。
在上述技术方案中,优选地,还包括:正文选取模块,在所述文本节点的内容满足预定条件时,将所述文本节点的内容作为大段文本,并将第一个大段文本的位置作为所述网页的正文的起始位置,将最后一个大段文本的位置作为所述正文的结束位置;所述结果生成模块根据所述正文的起始位置和结束位置,来从所述所有候选发布时间中选出所述信息发布时间,并根据所述信息发布时间的位置,从所述所有候选标题中选出所述信息标题。通过该技术方案,可以准确地从文本中选取最终的发布时间。
在上述技术方案中,优选地,所述结果生成模块将所述信息发布时间之前的最后一个标题作为前标题,将所述信息发布时间之后的第一个标题作为后标题,比较所述前标题与所述后标题的标题权重和/或距所述信息发布时间的距离,并根据比较结果,从所述前标题和所述后标题中选出所述信息标题。通过该技术方案,可以准确地从文本中选取最终的标题。
本发明还提供一种网页信息处理方法,包括:步骤202,网页处理模块将网页处理为DOM结构;步骤204,权重计算模块遍历所述DOM结构的节点,根据所述DOM结构中的非文本节点的特征,计算所述非文本节点的样式权重,根据所述DOM结构中的文本节点的特征,计算所述文本节点的内容权重,其中,所述非文本节点的样式权重累加到其子节点上;步骤206,结果筛选模块根据所述文本节点的样式权重和内容权重,得到所述文本节点的标题权重,以判断是否将所述文本节点的内容作为候选标题,并从所述文本节点的内容中提取时间串,作为候选发布时间;步骤208,结果生成模块从所有候选标题和所有候选发布时间,选出所述网页的信息标题和信息发布时间。通过该技术方案,能够通过对网页页面各部分元素的不同特征,来分析其在网页中的重要性,并由此选取标题和发布时间,简单高效。
在上述技术方案中,优选地,所述步骤206具体包括:所述结果筛选模块比较所述标题权重与全局最大标题权重,并在所述标题权重大于所述全局最大标题权重时,将所述文本节点的内容作为所述候选标题,并使用所述标题权重更新所述全局最大标题权重,如果所述全局最大标题权重不存在,将所述标题权重作为所述全局最大标题权重,并将所述文本节点的内容作为所述候选标题。通过该技术方案,通过各部分元素的特征来进行权重计算,可以通过具体值来,来进行重要性的分析,以选取标题和发布时间。
在上述技术方案中,优选地,在所述步骤206之前,还包括:类型分析模块根据所述文本节点之上的非文本节点的类型,来判断是否进入所述步骤206。通过该技术方案,对于页面中的某些元素的可以忽略掉,而不对其进行分析,例如A、IMG标签下的文本,就可以忽略,而对于TITLE标签的文本,则应从中选取候选标题。
在上述技术方案中,优选地,在所述步骤204中,还包括:所述权重计算模块还将TITLE下的文本节点的候选标题作为启发信息,并将其他文本节点的内容与所述启发信息比较,以计算所述其他文本节点的权重。所述启发信息还可以包括外锚链文本、网站名称和频道名称。
在上述技术方案中,优选地,所述步骤206中,还包括:正文选取模块在所述文本节点的内容满足预定条件时,将所述文本节点的内容作为大段文本,并将第一个大段文本的位置作为所述网页的正文的起始位置,将最后一个大段文本的位置作为所述正文的结束位置;所述步骤208具体包括:所述结果生成模块根据所述正文的起始位置和结束位置,来从所述所有候选发布时间中选出所述信息发布时间,并根据所述信息发布时间的位置,从所述所有候选标题中选出所述信息标题。通过该技术方案,可以准确地从文本中选取最终的发布时间。
在上述技术方案中,优选地,所述步骤208具体包括:所述结果生成模块将所述信息发布时间之前的最后一个标题作为前标题,将所述信息发布时间之后的第一个标题作为后标题,比较所述前标题与所述后标题的标题权重和/或距所述信息发布时间的距离,并根据比较结果,从所述前标题和所述后标题中选出所述信息标题。通过该技术方案,可以准确地从文本中选取最终的标题。
通过以上技术方案,可以实现一种网页信息处理装置和一种网页信息处理方法,对网页页面的格式特征进行分析,来判断其中的元素的重要性,以提取标题和发布时间,能够适应不同类型的网页页面,且保证所提取的标题和发布时间的准确度,同时实现方式不会过于复杂,实现成本不会过高。
附图说明
图1是根据本发明的一个实施例的网页信息处理装置的框图;
图2是根据本发明的一个实施例的网页信息处理方法的流程图;
图3是根据本发明的一个实施例的网页信息处理方法的流程示意图;
图4是根据本发明的一个实施例的网页信息处理方法的部分流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例的限制。
图1是根据本发明的一个实施例的网页信息处理装置的框图。
如图1所示,本发明提供一种网页信息处理装置100,包括:网页处理模块102,将网页处理为DOM结构;权重计算模块104,遍历所述DOM结构的节点,根据所述DOM结构中的非文本节点的特征,计算所述非文本节点的样式权重,根据所述DOM结构中的文本节点的特征,计算所述文本节点的内容权重,其中,所述非文本节点的样式权重累加到其子节点上;结果筛选模块106,根据所述文本节点的样式权重和内容权重,得到所述文本节点的标题权重,以判断是否将所述文本节点的内容作为候选标题,并从所述文本节点的内容中提取时间串,作为候选发布时间;结果生成模块108,从所有候选标题和所有候选发布时间,选出所述网页的信息标题和信息发布时间。通过该技术方案,能够通过对网页页面各部分元素的不同特征,来分析其在网页中的重要性,并由此选取标题和发布时间,简单高效。
在上述技术方案中,所述结果筛选模块106比较所述标题权重与全局最大标题权重,并在所述标题权重大于所述全局最大标题权重时,将所述文本节点的内容作为所述候选标题,并使用所述标题权重更新所述全局最大标题权重,如果所述全局最大标题权重不存在,将所述标题权重作为所述全局最大标题权重,并将所述文本节点的内容作为所述候选标题。通过该技术方案,通过各部分元素的特征来进行权重计算,可以通过具体值来,来进行重要性的分析,以选取标题和发布时间。
在上述技术方案中,还包括:类型分析模块110,根据所述文本节点之上的非文本节点的类型,来判断是否启用结果筛选模块106。通过该技术方案,对于页面中的某些元素的可以忽略掉,而不对其进行分析,例如A、IMG标签下的文本,就可以忽略,而对于TITLE标签下的文本,则应从中选取候选标题。
在上述技术方案中,所述权重计算模块还将TITLE下的文本节点的候选标题作为启发信息,并将其他文本节点的内容与所述启发信息比较,以计算所述其他文本节点的权重。所述启发信息还可以包括外锚链文本、网站名称和频道名称。
在上述技术方案中,还包括:正文选取模块112,在所述文本节点的内容满足预定条件时,将所述文本节点的内容作为大段文本,并将第一个大段文本的位置作为所述网页的正文的起始位置,将最后一个大段文本的位置作为所述正文的结束位置;所述结果生成模块108根据所述正文的起始位置和结束位置,来从所述所有候选发布时间中选出所述信息发布时间,并根据所述信息发布时间的位置,从所述所有候选标题中选出所述信息标题。通过该技术方案,可以准确地从文本中选取最终的发布时间。
在上述技术方案中,所述结果生成模块108将所述信息发布时间之前的最后一个标题作为前标题,将所述信息发布时间之后的第一个标题作为后标题,比较所述前标题与所述后标题的标题权重和/或距所述信息发布时间的距离,并根据比较结果,从所述前标题和所述后标题中选出所述信息标题。通过该技术方案,可以准确地从文本中选取最终的标题。
图2是根据本发明的一个实施例的网页信息处理方法的流程图。
如图2所示,本发明还提供一种网页信息处理方法,包括:步骤202,网页处理模块将网页处理为DOM结构;步骤204,权重计算模块遍历所述DOM结构的节点,根据所述DOM结构中的非文本节点的特征,计算所述非文本节点的样式权重,根据所述DOM结构中的文本节点的特征,计算所述文本节点的内容权重,其中,所述非文本节点的样式权重累加到其子节点上;步骤206,结果筛选模块根据所述文本节点的样式权重和内容权重,得到所述文本节点的标题权重,以判断是否将所述文本节点的内容作为候选标题,并从所述文本节点的内容中提取时间串,作为候选发布时间;步骤208,结果生成模块从所有候选标题和所有候选发布时间,选出所述网页的信息标题和信息发布时间。通过该技术方案,能够通过对网页页面各部分元素的不同特征,来分析其在网页中的重要性,并由此选取标题和发布时间,简单高效。
在上述技术方案中,所述步骤206具体包括:所述结果筛选模块比较所述标题权重与全局最大标题权重,并在所述标题权重大于所述全局最大标题权重时,将所述文本节点的内容作为所述候选标题,并使用所述标题权重更新所述全局最大标题权重,如果所述全局最大标题权重不存在,将所述标题权重作为所述全局最大标题权重,并将所述文本节点的内容作为所述候选标题。通过该技术方案,通过各部分元素的特征来进行权重计算,可以通过具体值来,来进行重要性的分析,以选取标题和发布时间。
在上述技术方案中,在所述步骤206之前,还包括:类型分析模块根据所述文本节点之上的非文本节点的类型,来判断是否进入所述步骤206。通过该技术方案,对于页面中的某些元素的可以忽略掉,而不对其进行分析,例如A、IMG标签下的文本,就可以忽略,而对于TITLE标签下的文本,则应从中选取候选标题。
在上述技术方案中,优选地,所述权重计算模块还将TITLE下的文本节点的候选标题作为启发信息,并将其他文本节点的内容与所述启发信息比较,以计算所述其他文本节点的权重。所述启发信息还可以包括外锚链文本、网站名称和频道名称。
在上述技术方案中,所述步骤206中,还包括:正文选取模块在所述文本节点的内容满足预定条件时,将所述文本节点的内容作为大段文本,并将第一个大段文本的位置作为所述网页的正文的起始位置,将最后一个大段文本的位置作为所述正文的结束位置;所述步骤208具体包括:所述结果生成模块根据所述正文的起始位置和结束位置,来从所述所有候选发布时间中选出所述信息发布时间,并根据所述信息发布时间的位置,从所述所有候选标题中选出所述信息标题。通过该技术方案,可以准确地从文本中选取最终的发布时间。
在上述技术方案中,所述步骤208具体包括:所述结果生成模块将所述信息发布时间之前的最后一个标题作为前标题,将所述信息发布时间之后的第一个标题作为后标题,比较所述前标题与所述后标题的标题权重和/或距所述信息发布时间的距离,并根据比较结果,从所述前标题和所述后标题中选出所述信息标题。通过该技术方案,可以准确地从文本中选取最终的标题。
以下详细说明本发明的技术方案。
根据对多个资讯网页的统计发现,资讯标题在整个资讯页面中都非常醒目,资讯时间多在标题之后正文之前。而标题之所以显得醒目,是由其揭示资讯内容、吸引读者阅读的作用所决定的。从技术角度上看,这种醒目的效果主要是由页面样式所决定的。样式可能通过CSS进行指定,也可能通过HTML的代码进行指定的。基于以上结论,先对网页进行预处理,得到对应的DOM树;再对DOM树进行遍历,计算各个结点的权重;最后依据权重进行综合决策,得到资讯标题和资讯发布时间。流程如图3所示,具体步骤如下:
步骤302,网页预处理,构建DOM树。
对网页的标签进行整理,将不完整的标签按规则整理成为完整的标签。将整理之后的标签进行DOM结构构建。预处理的之后,可以根据网页的内容得到一个对应的DOM树形结构。
步骤304,遍历此DOM树,根据各个结点的特征,计算结点对应元素的权重。非文本结点,则计算其样式权重;文本结点则计算其内容权重。由于样式是作用于整个结点的,所以结点的样式权重也会累计到其子结点中。流程如图4所示,具体如下:
步骤402,判断是否为TITLE标签,是则进入步骤404,否则进入步骤406。
步骤404,若是TITLE标签,则记录其中的文本内容,作为候选标题,并将当前结点的标题权重作为全局最大标题权重的初始值。此处获得的标题还将作为随后计算文本内容权重的启发信息。由于一些网站会基于SEO的需要,在TITLE中的标题内添加网站名称和频道名称,所以,此时需要加入网站名称和频道名称的过滤,以得到更好的标题启发信息。从文本内容中提取标题等操作,在后续步骤中明确说明。
步骤406,判断是否为无效标签,是则进入步骤408,否则进入步骤410。
步骤408,若是无效标签,则忽略其中的文本内容,不将其作为候选标题或候选发布时间。无效标签包括A,IMG,META,COMMENT,IFRAME,OPTION,SCRIPT,INPUT,MARQUEE,HEAD。
步骤410,判断是否为区域标签,是则进入步骤412,否则进入步骤414。
步骤412,若是表示区域的标签,包括DIV,TABLE,SPAN,则增加其中内容的样式权重。
步骤414,判断是否为强调标签,是则进入步骤416,否则进入步骤418。
步骤416,若是表示强调的标签,包括BOLD,STRONG,B,则增加其中内容的样式权重。
步骤418,判断是否为HTML标签,是则进入步骤420,否则进入步骤422。
步骤420,若是HTML定义的标题标签,包括H1~H7,则增加其中内容的样式权重。
步骤422,判断是否为文本节点,是则进入步骤424,否则进入步骤426;
步骤424,若是文本结点,则分析文本内容:
1,清理文本中的噪音,包括不可见字符。
2,对转义字符进行转义。
3,清理无效数据,如文本中的CDATA标签。
4,计算文本内容中的中文字符数量、标点符号数量,若标点符号数量超过阈值,或中文和标点的比例高于阈值,则认定此文本是大段文本,停止对资讯标题的分析。将第一个发现的大段文本的起始位置记作正文的起始位置,将最后一个大段文本的结束位置记作正文的结束位置。
5,根据文本内容元素计算这段文本的内容权重,包括汉字、标点、字母、数字、间隔符。当文本长度小于标题的平均长度时,元素会增加当前文本的内容权重,若文本长度超出标题的平均长度时,增加部分的元素会减少当前文本的内容权重。
6,根据文本内容计算与TITLE标签内的标题启发信息的相似度,越相似则越增加当前文本的内容权重。
7,根据文本内容计算与外链锚文本的相似度,越相似则越增加当前文本的内容权重。
8,根据文本内容计算与网站名称和频道名称的相似度,越相似则越减少当前文本的内容权重。
9,累计当前文本结点的样式权重和内容权重,作为当前文本结点的标题权重。如果当前文本结点的标题权重大于全局最大标题权重,则将当前文本作为候选标题,并更新全局最大标题权重为当前文本节点的标题权重值。
10,从文本中分析时间串,得到时间值,作为候选发布时间。
步骤426,分析结点的属性:
1,属性为FONT-SIZE或HEIGHT,则根据其数值和单位,包括PX、PT、%、PC,计算得到样式权重,累加到当前结点的样式权重上。
2,属性为FONT-WEIGHT,或FONT-BOLD,则根据其值增加当前结点的样式权重。
3,属性为FONT-COLOR,则增加当前结点的样式权重。
4,属性为ALIGN-CENTER,则增加当前结点的样式权重。属性为ALIGN-LEFT或ALIGN-RIGHT,则减少当前结点的样式权重。
5,属性名为TYPE,且属性值为TEXT/CSS,则分析CSS其中的FONT信息,包括FONT-SIZE、FONT-FAMLIY、FONT-WEIGHT,将其换算成样式权重,加入CSS索引。
6,属性是CSS样式名称,则根据样式名称到CSS索引中查找对应的样式权重,累加到当前结点的样式权重之上。
步骤306,综合决策。
在候选标题和候选时间中选择资讯标题和资讯发布时间。具体方法如下:
1,根据正文起始位置选择资讯发布时间:使用在遍历DOM树时得到的正文起止位置作为启发信息,来从多个候选时间内选择资讯的发布时间。若在遍历DOM树的过程中没有遇到大段文本,则将正文起止位置设为一个超过网页长度的极大的值。具体选择规则是:若遇到选择正文之前的最后一个候选时间作为资讯发布时间。若正文之前无候选时间,则选择正文结束之前的最后一个时间作为资讯发布时间。若正文结束之前仍未有候选时间,则选择正文结束之后的第一个时间作为资讯发布时间。
2,根据资讯发布时间选择资讯标题:从资讯发布时间开始,向前找到最近的一个候选标题,记作前标题;从资讯发布时间开始,向后找到最近的一个候选标题,记作后标题。比较前标题与后标题:若后标题距离资讯发布时间更近,或后标题的标题权重比前标题的标题权重多很多,则使用后标题作为资讯标题;其他情况下都默认使用前标题作为资讯标题。
综上所述,通过本发明的技术方案,可以实现一种网页信息处理装置和一种网页信息处理方法,基于元素权重的方式实现资讯元素的抽取,具有以下优点:1,基于单网页分析,无需模板,节省大量人工;2,算法简明,分析效率高;3,使用简单易得的启发信息,如资讯网页的外链锚文本,资讯所属的网站名和频道名,大大提升了抽取准确率;4,结点权重计算方法基于页面自身特性,不会随页面框架的修改而变动,适应性强。
采用基于本发明的实施例的技术方案的元素权重资讯网页元素抽取,算法简明,效果显著。完全避免了人工标注模板带来的工作和无法及时更新的错误。经测试,未加外链锚文本的准确率在96%,使用外链锚文本做启发信息之后的准确率在97%,使用正文位置做启发信息之后的准确率高达98%。鉴于外链锚文本、网站名称和频道名称都是容易获得的启发信息,所以。经验证,对十大知名资讯网站(新华网、人民网、中国网、新浪网、搜狐网、网易、腾讯网、TOM、千龙新闻网、中国经济网)的资讯元素抽取正确率在99%以上。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种网页信息处理装置,其特征在于,包括:
网页处理模块,将网页处理为DOM结构;
权重计算模块,遍历所述DOM结构的节点,根据所述DOM结构中的非文本节点的特征,计算所述非文本节点的样式权重,根据所述DOM结构中的文本节点的特征,计算所述文本节点的内容权重,其中,所述非文本节点的样式权重累加到其子节点上;
所述权重计算模块还将标题下的文本节点的候选标题作为启发信息;
所述启发信息还可以包括外锚链文本、网站名称和频道名称;
根据文本内容计算与标题标签内的标题启发信息的相似度,越相似则越增加当前文本的内容权重;
根据文本内容计算与外锚链文本的相似度,越相似则越增加当前文本的内容权重;
根据文本内容计算与网站名称和频道名称的相似度,越相似则越减少当前文本的内容权重;
结果筛选模块,根据所述文本节点的样式权重和内容权重,得到所述文本节点的标题权重,以判断是否将所述文本节点的内容作为候选标题,并从所述文本节点的内容中提取时间串,作为候选发布时间;
结果生成模块,从所有候选标题和所有候选发布时间,选出所述网页的信息标题和信息发布时间;
根据正文起始位置选择所述网页的信息标题和信息发布时间。
2.根据权利要求1所述的网页信息处理装置,其特征在于,所述结果筛选模块比较所述标题权重与全局最大标题权重,并在所述标题权重大于所述全局最大标题权重时,将所述文本节点的内容作为所述候选标题,并使用所述标题权重更新所述全局最大标题权重,如果所述全局最大标题权重不存在,将所述标题权重作为所述全局最大标题权重,并将所述文本节点的内容作为所述候选标题。
3.根据权利要求2所述的网页信息处理装置,其特征在于,还包括:
类型分析模块,根据所述文本节点之上的非文本节点的类型,来判断是否启用结果筛选模块。
4.根据权利要求1至3中任一项所述的网页信息处理装置,其特征在于,还包括:
正文选取模块,在所述文本节点的内容满足预定条件时,将所述文本节点的内容作为大段文本,并将第一个大段文本的位置作为所述网页的正文的起始位置,将最后一个大段文本的位置作为所述正文的结束位置;
所述结果生成模块根据所述正文的起始位置和结束位置,来从所述所有候选发布时间中选出所述信息发布时间,并根据所述信息发布时间的位置,从所述所有候选标题中选出所述信息标题。
5.根据权利要求4所述的网页信息处理装置,其特征在于,所述结果生成模块将所述信息发布时间之前的最后一个标题作为前标题,将所述信息发布时间之后的第一个标题作为后标题,比较所述前标题与所述后标题的标题权重和/或距所述信息发布时间的距离,并根据比较结果,从所述前标题和所述后标题中选出所述信息标题。
6.一种网页信息处理方法,其特征在于,包括:
步骤202,网页处理模块将网页处理为DOM结构;
步骤204,权重计算模块遍历所述DOM结构的节点,根据所述DOM结构中的非文本节点的特征,计算所述非文本节点的样式权重,根据所述DOM结构中的文本节点的特征,计算所述文本节点的内容权重,其中,所述非文本节点的样式权重累加到其子节点上;
所述权重计算模块还将标题下的文本节点的候选标题作为启发信息;
所述启发信息还可以包括外锚链文本、网站名称和频道名称;
根据文本内容计算与标题标签内的标题启发信息的相似度,越相似则越增加当前文本的内容权重;
根据文本内容计算与外锚链文本的相似度,越相似则越增加当前文本的内容权重;
根据文本内容计算与网站名称和频道名称的相似度,越相似则越减少当前文本的内容权重;
步骤206,结果筛选模块根据所述文本节点的样式权重和内容权重,得到所述文本节点的标题权重,以判断是否将所述文本节点的内容作为候选标题,并从所述文本节点的内容中提取时间串,作为候选发布时间;
步骤208,结果生成模块从所有候选标题和所有候选发布时间,选出所述网页的信息标题和信息发布时间;
根据正文起始位置选择所述网页的信息标题和信息发布时间。
7.根据权利要求6所述的网页信息处理方法,其特征在于,所述步骤206具体包括:
所述结果筛选模块比较所述标题权重与全局最大标题权重,并在所述标题权重大于所述全局最大标题权重时,将所述文本节点的内容作为所述候选标题,并使用所述标题权重更新所述全局最大标题权重,如果所述全局最大标题权重不存在,将所述标题权重作为所述全局最大标题权重,并将所述文本节点的内容作为所述候选标题。
8.根据权利要求7所述的网页信息处理方法,其特征在于,在所述步骤206之前,还包括:
类型分析模块根据所述文本节点之上的非文本节点的类型,来判断是否进入所述步骤206。
9.根据权利要求6至8中任一项所述的网页信息处理方法,其特征在于,所述步骤206中,还包括:
正文选取模块在所述文本节点的内容满足预定条件时,将所述文本节点的内容作为大段文本,并将第一个大段文本的位置作为所述网页的正文的起始位置,将最后一个大段文本的位置作为所述正文的结束位置;
所述步骤208具体包括:所述结果生成模块根据所述正文的起始位置和结束位置,来从所述所有候选发布时间中选出所述信息发布时间,并根据所述信息发布时间的位置,从所述所有候选标题中选出所述信息标题。
10.根据权利要求9所述的网页信息处理方法,其特征在于,所述步骤208具体包括:所述结果生成模块将所述信息发布时间之前的最后一个标题作为前标题,将所述信息发布时间之后的第一个标题作为后标题,比较所述前标题与所述后标题的标题权重和/或距所述信息发布时间的距离,并根据比较结果,从所述前标题和所述后标题中选出所述信息标题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110319563.3A CN103064845B (zh) | 2011-10-20 | 2011-10-20 | 网页信息处理装置和网页信息处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110319563.3A CN103064845B (zh) | 2011-10-20 | 2011-10-20 | 网页信息处理装置和网页信息处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103064845A CN103064845A (zh) | 2013-04-24 |
CN103064845B true CN103064845B (zh) | 2016-05-18 |
Family
ID=48107475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110319563.3A Expired - Fee Related CN103064845B (zh) | 2011-10-20 | 2011-10-20 | 网页信息处理装置和网页信息处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103064845B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3005086A4 (en) * | 2013-05-29 | 2017-01-04 | Hewlett-Packard Development Company, L.P. | Web page output selection |
CN104462151B (zh) * | 2013-09-25 | 2019-02-05 | 腾讯科技(深圳)有限公司 | 评估网页发布时间的方法和相关装置 |
CN104794118B (zh) * | 2014-01-17 | 2019-03-26 | 腾讯科技(深圳)有限公司 | 一种网页信息处理方法、装置和系统 |
CN104965871A (zh) * | 2015-06-09 | 2015-10-07 | 北京金山安全软件有限公司 | 页面的加载方法、装置和电子设备 |
CN105610933B (zh) * | 2015-12-25 | 2019-03-05 | 北京奇虎科技有限公司 | 信息管理方法和设备 |
CN107766384A (zh) * | 2016-08-22 | 2018-03-06 | 北京国双科技有限公司 | 一种确定页面发布时间的方法和装置 |
CN107247742A (zh) * | 2017-05-17 | 2017-10-13 | 武汉工程大学 | 一种基于网页特征的正文信息抽取方法 |
CN108520007B (zh) * | 2018-03-15 | 2021-09-28 | 江河瑞通(北京)技术有限公司 | 万维网网页信息提取方法、存储介质及计算机设备 |
CN111428179B (zh) * | 2020-03-19 | 2023-09-19 | 新方正控股发展有限责任公司 | 图片监测方法、装置及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101196918A (zh) * | 2007-12-27 | 2008-06-11 | 腾讯科技(深圳)有限公司 | 一种分页方法及分页装置 |
CN101996190A (zh) * | 2009-08-12 | 2011-03-30 | 北京大学 | 一种从网页中抽取信息的方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100185684A1 (en) * | 2009-01-09 | 2010-07-22 | Amit Madaan | High precision multi entity extraction |
-
2011
- 2011-10-20 CN CN201110319563.3A patent/CN103064845B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101196918A (zh) * | 2007-12-27 | 2008-06-11 | 腾讯科技(深圳)有限公司 | 一种分页方法及分页装置 |
CN101996190A (zh) * | 2009-08-12 | 2011-03-30 | 北京大学 | 一种从网页中抽取信息的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103064845A (zh) | 2013-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103064845B (zh) | 网页信息处理装置和网页信息处理方法 | |
CN102184189B (zh) | 基于dom节点文本密度的网页核心块确定方法 | |
CN108920434B (zh) | 一种通用的网页主题内容提取方法和系统 | |
CN102663023B (zh) | 一种提取网页内容的实现方法 | |
CN103577466B (zh) | 一种在浏览器中显示网页内容的方法和装置 | |
CN102253979B (zh) | 基于视觉的web页面萃取方法 | |
CN103294781B (zh) | 一种用于处理页面数据的方法与设备 | |
CN102253937B (zh) | 获取网页中的感兴趣信息的方法及相关装置 | |
CN106503211B (zh) | 面向信息发布类网站的移动版自动生成的方法 | |
CN102270206A (zh) | 一种有效网页内容的抓取方法及装置 | |
CN103544210A (zh) | 一种识别网页类型的系统和方法 | |
CN106354861A (zh) | 电影标签自动标引方法及自动标引系统 | |
CN101593200A (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN103714176A (zh) | 基于最大文本密度的网页正文抽取方法 | |
CN101246494A (zh) | 一种互联网网页转换方法、系统及设备 | |
CN102402566A (zh) | 基于中文网页自动分类技术的Web用户行为分析方法 | |
CN103853834A (zh) | 基于文本结构分析的Web文档摘要的生成方法 | |
CN102314494B (zh) | 一种用于处理网页内容的方法和设备 | |
CN112699295A (zh) | 一种网页内容推荐方法、装置和计算机可读存储介质 | |
CN102063456A (zh) | 自动定位至网页的视觉中心的方法及设备 | |
CN105320734A (zh) | 一种网页核心内容提取方法 | |
CN107145591B (zh) | 一种基于标题的网页有效元数据内容提取方法 | |
CN105160016A (zh) | 用户属性的获取方法及装置 | |
CN102999511A (zh) | 一种页面快速转换方法、装置和系统 | |
CN104008213B (zh) | 一种网页信息更新发现与统计的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20170426 Address after: 100086 Beijing, Haidian District, North Third Ring Road West, No. 43, building 5, floor 08-09, No. 2 Patentee after: BEIJING ZHONGSOU CLOUD BUSINESS NETWORK TECHNOLOGY Co.,Ltd. Address before: 100191 Beijing, Xueyuan Road, No. 51, the first to enjoy science and technology building, room 0902, No. Patentee before: BEIJING ZHONGSOU NETWORK TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160518 |
|
CF01 | Termination of patent right due to non-payment of annual fee |