CN104462532B - 网页正文提取的方法和装置 - Google Patents
网页正文提取的方法和装置 Download PDFInfo
- Publication number
- CN104462532B CN104462532B CN201410816975.1A CN201410816975A CN104462532B CN 104462532 B CN104462532 B CN 104462532B CN 201410816975 A CN201410816975 A CN 201410816975A CN 104462532 B CN104462532 B CN 104462532B
- Authority
- CN
- China
- Prior art keywords
- label
- candidate
- pending
- tags
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 239000000284 extract Substances 0.000 claims abstract description 59
- 238000000605 extraction Methods 0.000 claims description 63
- 230000004044 response Effects 0.000 claims description 2
- 239000007787 solid Substances 0.000 claims 4
- 238000004458 analytical method Methods 0.000 abstract description 9
- 238000012216 screening Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 8
- 241000239290 Araneae Species 0.000 description 5
- 241000270322 Lepidosauria Species 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种网页正文提取的方法和装置,其中,提取并记录网页中包括的待处理标签及每个待处理标签所处路径的路径信息;基于路径信息对待处理标签分组,以确定多个标签组;计算每一标签组包括的有效文本信息的有效长度信息,以及每一标签组内每一待处理标签的平均有效长度信息;基于平均有效长度信息,对每一标签组内的多个待处理标签进行排序,确定每一标签组内排序前预定位置的多个第一候选标签;基于每个标签组包括的所述多个第一候选标签确定候选标签范围,提取候选标签范围中的文本信息。通过本方案的方法能够快速、准确地抽取各种类型网页的正文内容,由于基于完整健全的标签分析筛选方法,具有较高的正文提取准确率。
Description
技术领域
本发明涉及计算机技术领域,具体而言,本发明涉及一种网页正文提取的方法和装置。
背景技术
随着网络技术的不断发展,互联网已成为信息的主要来源,但是,目前互联网中的重复内容、广告内容及无意义内容等无效信息越来越多,而有效信息在网页中所占比重越来越少,使得人们通过互联网如搜索引擎获取其所需的有效信息的效率大幅降低。因此,需要使用自动化的方法对网页中的无效信息进行过滤,提取用户真正需要的网页正文内容,将网页正文内容提供至用户。
现有的网页正文提取方式,主要是将网页的HTML文件解析为DOM树,再从DOM树中选取路径较长的DOM路径,提取该DOM路径下的文本信息作为网页正文。但是这种基于DOM树解析的网页正文提取方式,对无法解析成DOM树的部分不规则的网页则无法提取其网页正文,对广告内容较多的网页的提取准确率也相对较低;同时,由于需要对HTML文件进行复杂度相对较高的DOM树解析,导致网页正文提取过程耗时较长,网页正文的提取效率较低。
发明内容
本发明的目的旨在至少解决上述技术缺陷之一,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种网页正文提取的方法,其特征在于,包括:
提取并记录网页中包括的待处理标签及每个待处理标签所处路径的路径信息;
基于路径信息对待处理标签分组,以确定多个标签组;
计算每一标签组包括的有效文本信息的有效长度信息,以及每一标签组内每一待处理标签的平均有效长度信息;
基于平均有效长度信息,对每一标签组内的多个待处理标签进行排序,确定每一标签组内排序前预定位置的多个第一候选标签;
基于每个标签组包括的所述多个第一候选标签确定候选标签范围,提取候选标签范围中的文本信息。
本发明还提供了一种网页正文提取的装置,其特征在于,包括:
路径提取模块,用于提取并记录网页中包括的待处理标签及每个待处理标签所处路径的路径信息;
分组模块,用于基于路径信息对待处理标签分组,以确定多个标签组;
计算模块,用于计算每一标签组包括的有效文本信息的有效长度信息,以及每一标签组内每一待处理标签的平均有效长度信息;
排序模块,用于基于平均有效长度信息,对每一标签组内的多个待处理标签进行排序,确定每一标签组内排序前预定位置的多个第一候选标签;
文本提取模块,用于基于每个标签组包括的多个第一候选标签所确定候选标签范围,提取候选标签范围中的文本信息。
本发明的实施例中,通过提取并记录网页HTML文件中的包括的标签及标签路径,对多个标签进行多次的分析筛选来确定候选标签范围,最终从候选标签范围中提取文本信息即为网页正文。通过本方案的方法能够快速、准确地抽取各种类型网页的正文内容,由于基于完整健全的标签分析筛选方法,即使是对无效内容非常多的广告类网页,也具有较高的正文提取准确率,即本方案的方法不受网页类型的限制;进一步地,由于本方案的网页正文提取方法无需将网页的HTML文件解析成DOM树,由于不需要相对复杂的DOM树解析过程,极大地提高了正文提取效率。进一步地,本发明的实施例可以用于新闻、小说、影视网页、音乐网页等搜索领域,也可以结合搜索引擎蜘蛛,爬虫等网页抓取技术用于自动提取网页正文信息的服务器或者系统中,通过提取较为准确的提取网页正文信息,从而可实现向用户提供滤除无效信息的各类网页正文内容。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明中的网页正文提取的方法一个实施例的流程图;
图2为本发明中的网页正文提取的方法一个优选实施例的流程图;
图3为本发明中的网页正文提取的装置一个实施例的结构示意图;
图4为本发明中的网页正文提取的装置一个优选实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
图1为本发明中的网页正文提取的方法一个实施例的流程图。
在步骤S110中,提取并记录网页中包括的待处理标签及每个待处理标签所处路径的路径信息;在步骤S120中,基于路径信息对待处理标签分组,以确定多个标签组;在步骤S130中,计算每一标签组包括的有效文本信息的有效长度信息,以及每一标签组内每一待处理标签的平均有效长度信息;在步骤S140中,基于平均有效长度信息,对每一标签组内的多个待处理标签进行排序,确定每一标签组内排序前预定位置的多个第一候选标签;在步骤S150中,基于每个标签组包括的多个第一候选标签确定候选标签范围,提取候选标签范围中的文本信息。
本发明的实施例中,通过提取并记录网页HTML文件中的包括的标签及标签路径,对多个标签进行多次的分析筛选来确定候选标签范围,最终从候选标签范围中提取文本信息即为网页正文。通过本方案的方法能够快速、准确地抽取各种类型网页的正文内容,由于基于完整健全的标签分析筛选方法,即使是对无效内容非常多的广告类网页,也具有较高的正文提取准确率,即本方案的方法不受网页类型的限制;进一步地,由于本方案的网页正文提取方法无需将网页的HTML文件解析成DOM树,由于不需要相对复杂的DOM树解析过程,极大地提高了正文提取效率。
在步骤S110中,提取并记录网页中包括的待处理标签及每个待处理标签所处路径的路径信息。
其中,待处理标签所处路径的路径信息指从HTML文件起始<html>标签至目标待处理标签之间包括的全部标签及标签间的顺序,如:/html/body/div/div/h1。
具体地,首先,解析网页的HTML文件中包括的待处理标签;其中,解析HTML文件中包括的标签的方式包括但不限于:通过查找“<”确定标签体开始位置,通过查找“>”确定标签体结束位置;包括“</”的标签确定为结束标签;当读取标签名称失败时,忽略该标签至结束边界“>”。随后,根据解析结果提取HTML文件中包括的标签,例如,通过调用html_extract_content_tag函数的方式提取标签及标签所处路径的路径信息;具体地,提取标签及标签路径的方式为:可通过压栈及弹栈的方式来提取标签及标签路径;例如,对于开标签,可通过压栈的方式提取,其中,在压栈前需要确定标签的ID属性、标签的href属性、目标标签与前一个标签之间的文本信息;对于闭标签,可通过弹栈的方式提取。
优选地(参照图1),步骤S110包括步骤S111(图中未示出)和步骤S112(图中未示出);在步骤S111中,提取网页中包括的全部标签,将全部标签中包括的预定忽略标签进行删除,确定网页中包括的待处理标签;在步骤S112中,提取并记录每个待处理标签所处路径的路径信息。
其中,预定忽略标签包括但不限于:注释、声明类标签;标签<script>、<noscript>、<style>、<form>;标签<iframe>、<link>、<embed>、<img>、<input>、<option>、<select>、<textarea>、<html>及<body>。
具体地,解析并提取网页的HTML文件中包括的全部标签,当解析并提取至注释、声明类标签时,删除该类标签,如以“<!—”开头、“-->”结束的标签,可确定其为html的注释,将“<!—”至“-->”之间的全部内容删除;以“<!DOCTYPE”或“<?xml”开头的标签,可确定其为声明标签,删除该标签至结束边界“>”;当解析并提取至特定标签<script>、<noscript>、<style>、<form>等时,删除标签及标签中包括的内容;当解析至特定标签<iframe>、<link>、<embed>、<img>、<input>、<option>、<select>、<textarea>、<html>及<body>标签时,删除标签本身;将该HTML文件中删除预定忽略标签后包括的标签确定为待处理标签;随后,通过调用html_extract_content_tag函数的方式,提取并记录每个待处理标签所处路径的路径信息。
在步骤S120中,基于路径信息对待处理标签分组,以确定多个标签组。
其中,基于路径信息对所述处理标签分组的方式,包括:将处于同一路径的待处理标签分至同一组。
具体地,基于路径信息对进行待处理标签进行分组,将处于同一路径的待处理标签分组同一标签组,确定多个标签组,每一标签组中的标签处于同一路径上。其中,记录每一标签组内的多个标签顺序信息以及每一标签组包括的标签数量。
在步骤S130中,计算每一标签组包括的有效文本信息的有效长度信息,以及每一标签组内每一待处理标签的平均有效长度信息。
具体地,每一标签组中包括多个待处理标签,计算每一标签组的全部待处理标签中包含的有效文本信息的字符串长度,来确定每一标签组包括的有效文本信息的有效长度信息;其中,有效文本信息指删除无意义符号的每一标签组的全部待处理标签中包含的文本内容,无意义符号可包括空格符、^等。
具体地,计算每一标签组内每一待处理标签的平均有效长度信息的方式包括:根据每一标签组的有效长度信息及该标签组内每一待处理标签所处路径的标签个数,计算每一标签组内每一标签的平均有效长度信息。
例如,在一个标签组/html/body/div/div/h1/p内,待处理标签h1所处路径的标签个数为5,待处理标签p所处路径的标签个数为6;根据已计算确定的该标签组的有效长度信息,与待处理标签所处路径的标签个数进行除法运算,可确定该标签组内该待处理标签的平均有效长度信息。
在步骤S140中,基于平均有效长度信息,对每一标签组内的多个待处理标签进行排序,确定每一标签组内排序前预定位置的多个第一候选标签。
具体地,基于平均有效长度信息,对每一标签组内的多个待处理标签按照其各自的平均有效长度从大到小的顺序进行排序,并将每一标签组内排序前预定位置,如排序前三位的多个待处理标签,确定为第一候选标签。
优选地,对每一标签组内的多个待处理标签进行排序的方式,还包括:判断每一标签组内多个待处理标签包括的文本信息中是否包括预定模板类文本信息;当判断任一待处理标签包括预定模板类文本信息时,将该待处理标签按照预定降序规则降低其排序位置。
其中,预定模板类文本信息包括但不限于:版权声明类文本信息。
具体地,首先,判断每一标签组内多个待处理标签包括的文本信息是否包括预定模板类文本信息,如判断文本信息中是否包括模板类字符串“All right reserved”、“版权所有”、“不允许复制”等;当判断某一待处理标签包括预定模板类文本信息时,将该多个待处理标签按照预定降序规则降低其排序位置,如将该多个待处理标签的平均有效长度减少至预定数值,以降低其排序位置。
再优选地,对每一标签组内的多个待处理标签进行排序的方式,还包括:判断每一标签组内多个待处理标签是否包括预定连续格式标签;当判断多个待处理标签包括预定连续格式标签时,将该预定连续格式的待处理标签按照预定降序规则降低其排序位置。
其中,预定连续格式标签包括但不限于:连续排列的<a>标签,且每个<a>标签中包括链接信息。
具体地,判断每一标签组内多个待处理标签是否包括预定连续格式标签,如连续排列的包括链接信息的<a>标签;当判断多个待处理标签包括预定连续格式标签时,将该多个待处理标签按照预定降序规则降低其排序位置,如将该多个待处理标签的平均有效长度减少至预定数值,以降低其排序位置。
在步骤S150中,基于每个标签组包括的多个第一候选标签确定候选标签范围,提取候选标签范围中的文本信息。
具体地,基于每个标签组包括的多个第一候选标签确定候选标签范围,在候选标签范围中,按照标签的顺序提取其中的文本信息,该文本信息就是网页的正文信息。
基于每个标签组包括的多个第一候选标签确定候选标签范围,具体包括:如图2所示,基于每个标签组包括的多个第一候选标签确定候选标签范围,提取候选标签范围中的文本信息的步骤,还包括步骤S251和步骤252。在步骤S251中,提取多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;在步骤S252中,根据第一候选标签和第二候选标签确定候选标签范围。
具体地,首先,提取多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签,如根据每个标签组包括的多个第一候选标签,查找与每个第一候选标签属于同一段落的其他标签,将该些其他标签确定为第二候选标签;根据第一候选标签和第二候选标签所覆盖的全部标签及文本信息范围,确定候选标签范围。
优选地,在确定第一候选标签和第二候选标签时,还包括以下方式:当第二候选标签的平均有效长度大于第一候选标签的平均有效长度预定比例数值时,删除该第二候选标签,例如,预定比例数值为1/2;当判断第二候选标签包括的文本信息包括预定模板类文本信息时,如判断文本信息中包括模板类字符串“All right reserved”、“版权所有”、“不允许复制”等时,删除第二候选标签;当第一候选标签包括<h1>标签时,将与该<h1>同级的<h2>、<h2>、<strong>等标签确定为第二候选标签;当在第一候选标签和第二候选标签中包括<h1>标签和<title>标签时,且<h1>标签是<title>标签的子元素,则删除<title>标签包括的文本信息;当在标签遍历过程中没找到预定模板类文本信息时,如版权声明类文本信息,则删除第一候选标签和第二候选标签中包括的最后一个<strong>标签;当在第一候选标签和第二候选标签中包括<h1>标签,且任一第一候选标签或任一第二候选标签的标签路径长度是该<h1>标签的标签路径长度的3倍时,删除该标签路径长度是<h1>标签的标签路径长度3倍的第一候选标签或第二候选标签;对于当前<a>标签、<strong>标签、<front>标签、<em>标签和<b>标签,若其前一个标签是<p>标签、<div>标签、<span>标签、<a>标签、<strong>标签、<front>标签和<em>标签,且同时前一个标签属于第一候选标签或第二候选标签,则将当前标签确定为第二候选标签。
在一个优选实施例中,本发明还提供了一种抽取新闻类或小说类网页中新闻或小说正文内容的方法,包括:
首先,提取并记录新闻类或小说类网页中包括的待处理标签及每个待处理标签所处路径的路径信息;基于路径信息对待处理标签分组,以确定多个标签组;计算每一标签组包括的有效文本信息的有效长度信息,以及每一标签组内每一待处理标签的平均有效长度信息;基于平均有效长度信息,对每一标签组内的多个待处理标签进行排序,确定每一标签组内排序前预定位置的多个第一候选标签;基于每个标签组包括的多个第一候选标签确定候选标签范围,提取候选标签范围中的新闻或小说正文信息。
本发明的实施例可以用于新闻、小说、影视网页、音乐网页等搜索领域,也可以结合搜索引擎蜘蛛,爬虫等网页抓取技术用于自动提取网页正文信息的服务器或者系统中,通过提取较为准确的提取网页正文信息,从而可实现向用户提供滤除无效信息的各类网页正文内容。
特别地,目前小说阅读是互联网用户的一种强需求,尤其在移动设备上更占有不小的需求比重。小说类网页大量存在,质量却良莠不齐。同一本网络小说会被不同网站大量转载,但受一些客观因素的影响,可能会导致在一些网站上该本小说的内容并不完整(缺少章节),甚至内容虚假(拼凑虚假章节)。搜索引擎的网页蜘蛛或爬虫在爬取到这些小说类网页后,需要提取小说类网页的小说正文内容,从而实现给用户呈现内容滤除广告等无效信息的小说正文内容,提升用户阅读体验。
图3为本发明中的网页正文提取的装置一个实施例的结构示意图。
首先,路径提取模块310提取并记录网页中包括的待处理标签及每个待处理标签所处路径的路径信息;随后,分组模块320基于路径信息对待处理标签分组,以确定多个标签组;接着,计算模块330计算每一标签组包括的有效文本信息的有效长度信息,以及每一标签组内每一待处理标签的平均有效长度信息;随后,排序模块340基于平均有效长度信息,对每一标签组内的多个待处理标签进行排序,确定每一标签组内排序前预定位置的多个第一候选标签;接着,文本提取模块350基于每个标签组包括的多个第一候选标签确定候选标签范围,提取候选标签范围中的文本信息。
本发明的实施例中,通过提取并记录网页HTML文件中的包括的标签及标签路径,对多个标签进行多次的分析筛选来确定候选标签范围,最终从候选标签范围中提取文本信息即为网页正文。通过本方案的方法能够快速、准确地抽取各种类型网页的正文内容,由于基于完整健全的标签分析筛选方法,即使是对无效内容非常多的广告类网页,也具有较高的正文提取准确率,即本方案的方法不受网页类型的限制;进一步地,由于本方案的网页正文提取方法无需将网页的HTML文件解析成DOM树,由于不需要相对复杂的DOM树解析过程,极大地提高了正文提取效率。
路径提取模块310提取并记录网页中包括的待处理标签及每个待处理标签所处路径的路径信息。
其中,待处理标签所处路径的路径信息指从HTML文件起始<html>标签至目标待处理标签之间包括的全部标签及标签间的顺序,如:/html/body/div/div/h1。
具体地,首先,解析网页的HTML文件中包括的待处理标签;其中,解析HTML文件中包括的标签的方式包括但不限于:通过查找“<”确定标签体开始位置,通过查找“>”确定标签体结束位置;包括“</”的标签确定为结束标签;当读取标签名称失败时,忽略该标签至结束边界“>”。随后,根据解析结果提取HTML文件中包括的标签,例如,通过调用html_extract_content_tag函数的方式提取标签及标签所处路径的路径信息;具体地,提取标签及标签路径的方式为:可通过压栈及弹栈的方式来提取标签及标签路径;例如,对于开标签,可通过压栈的方式提取,其中,在压栈前需要确定标签的ID属性、标签的href属性、目标标签与前一个标签之间的文本信息;对于闭标签,可通过弹栈的方式提取。
优选地(参照图3),路径提取模块310包括第一标签提取单元(图中未示出)和路径提取单元(图中未示出);第一标签提取单元提取网页中包括的全部标签,将全部标签中包括的预定忽略标签进行删除,确定网页中包括的待处理标签;随后,路径提取单元提取并记录每个待处理标签所处路径的路径信息。
其中,预定忽略标签包括但不限于:注释、声明类标签;标签<script>、<noscript>、<style>、<form>;标签<iframe>、<link>、<embed>、<img>、<input>、<option>、<select>、<textarea>、<html>及<body>。
具体地,解析并提取网页的HTML文件中包括的全部标签,当解析并提取至注释、声明类标签时,删除该类标签,如以“<!—”开头、“-->”结束的标签,可确定其为html的注释,将“<!—”至“-->”之间的全部内容删除;以“<!DOCTYPE”或“<?xml”开头的标签,可确定其为声明标签,删除该标签至结束边界“>”;当解析并提取至特定标签<script>、<noscript>、<style>、<form>等时,删除标签及标签中包括的内容;当解析至特定标签<iframe>、<link>、<embed>、<img>、<input>、<option>、<select>、<textarea>、<html>及<body>标签时,删除标签本身;将该HTML文件中删除预定忽略标签后包括的标签确定为待处理标签;随后,通过调用html_extract_content_tag函数的方式,提取并记录每个待处理标签所处路径的路径信息。
分组模块320基于路径信息对待处理标签分组,以确定多个标签组。
其中,基于路径信息对所述处理标签分组的方式,包括:将处于同一路径的待处理标签分至同一组。
具体地,基于路径信息对进行待处理标签进行分组,将处于同一路径的待处理标签分组同一标签组,确定多个标签组,每一标签组中的标签处于同一路径上。其中,记录每一标签组内的多个标签顺序信息以及每一标签组包括的标签数量。
计算模块330计算每一标签组包括的有效文本信息的有效长度信息,以及每一标签组内每一待处理标签的平均有效长度信息。
具体地,每一标签组中包括多个待处理标签,计算每一标签组的全部待处理标签中包含的有效文本信息的字符串长度,来确定每一标签组包括的有效文本信息的有效长度信息;其中,有效文本信息指删除无意义符号的每一标签组的全部待处理标签中包含的文本内容,无意义符号可包括空格符、^等。
具体地,计算模块330包括平均长度计算单元(图中未示出);平均长度计算单元根据每一标签组的有效长度信息及该标签组内每一待处理标签所处路径的标签个数,计算每一标签组内每一标签的平均有效长度信息。
例如,在一个标签组/html/body/div/div/h1/p内,待处理标签h1所处路径的标签个数为5,待处理标签p所处路径的标签个数为6;根据已计算确定的该标签组的有效长度信息,与待处理标签所处路径的标签个数进行除法运算,可确定该标签组内该待处理标签的平均有效长度信息。
排序模块340基于平均有效长度信息,对每一标签组内的多个待处理标签进行排序,确定每一标签组内排序前预定位置的多个第一候选标签。
具体地,基于平均有效长度信息,对每一标签组内的多个待处理标签按照其各自的平均有效长度从大到小的顺序进行排序,并将每一标签组内排序前预定位置,如排序前三位的多个待处理标签,确定为第一候选标签。
优选地(参照图3),排序装置还包括第一判断单元(图中未示出)和第一降序单元(图中未示出);第一判断单元判断每一标签组内多个待处理标签包括的文本信息中是否包括预定模板类文本信息;第一降序单元判断任一待处理标签包括预定模板类文本信息时,将该待处理标签按照预定降序规则降低其排序位置。
其中,预定模板类文本信息包括但不限于:版权声明类文本信息。
具体地,首先,判断每一标签组内多个待处理标签包括的文本信息是否包括预定模板类文本信息,如判断文本信息中是否包括模板类字符串“All right reserved”、“版权所有”、“不允许复制”等;当判断某一待处理标签包括预定模板类文本信息时,将该多个待处理标签按照预定降序规则降低其排序位置,如将该多个待处理标签的平均有效长度减少至预定数值,以降低其排序位置。
再优选地(参照图3),排序装置还包括第二判断单元(图中未示出)和第二降序单元(图中未示出);第二判断单元判断每一标签组内多个待处理标签是否包括预定连续格式标签;第二降序单元当判断多个待处理标签包括预定连续格式标签时,将该预定连续格式的待处理标签按照预定降序规则降低其排序位置。
其中,预定连续格式标签包括但不限于:连续排列的<a>标签,且每个<a>标签中包括链接信息。
具体地,判断每一标签组内多个待处理标签是否包括预定连续格式标签,如连续排列的包括链接信息的<a>标签;当判断多个待处理标签包括预定连续格式标签时,将该多个待处理标签按照预定降序规则降低其排序位置,如将该多个待处理标签的平均有效长度减少至预定数值,以降低其排序位置。
文本提取模块350基于每个标签组包括的多个第一候选标签确定候选标签范围,提取候选标签范围中的文本信息。
具体地,基于每个标签组包括的多个第一候选标签确定候选标签范围,在候选标签范围中,按照标签的顺序提取其中的文本信息,该文本信息就是网页的正文信息。
优选地,如图2所示,文本提取模块包括第二标签提取单元451和范围确定单元452;第二标签提取单元451提取多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;随后,范围确定单元452根据第一候选标签和第二候选标签确定候选标签范围。
具体地,首先,提取多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签,如根据每个标签组包括的多个第一候选标签,查找与每个第一候选标签属于同一段落的其他标签,将该些其他标签确定为第二候选标签;根据第一候选标签和第二候选标签所覆盖的全部标签及文本信息范围,确定候选标签范围。
优选地,在确定第一候选标签和第二候选标签时,还包括以下方式:当第二候选标签的平均有效长度大于第一候选标签的平均有效长度预定比例数值时,删除该第二候选标签,例如,预定比例数值为1/2;当判断第二候选标签包括的文本信息包括预定模板类文本信息时,如判断文本信息中包括模板类字符串“All right reserved”、“版权所有”、“不允许复制”等时,删除第二候选标签;当第一候选标签包括<h1>标签时,将与该<h1>同级的<h2>、<h2>、<strong>等标签确定为第二候选标签;当在第一候选标签和第二候选标签中包括<h1>标签和<title>标签时,且<h1>标签是<title>标签的子元素,则删除<title>标签包括的文本信息;当在标签遍历过程中没找到预定模板类文本信息时,如版权声明类文本信息,则删除第一候选标签和第二候选标签中包括的最后一个<strong>标签;当在第一候选标签和第二候选标签中包括<h1>标签,且任一第一候选标签或任一第二候选标签的标签路径长度是该<h1>标签的标签路径长度的3倍时,删除该标签路径长度是<h1>标签的标签路径长度3倍的第一候选标签或第二候选标签;对于当前<a>标签、<strong>标签、<front>标签、<em>标签和<b>标签,若其前一个标签是<p>标签、<div>标签、<span>标签、<a>标签、<strong>标签、<front>标签和<em>标签,且同时前一个标签属于第一候选标签或第二候选标签,则将当前标签确定为第二候选标签。
在一个优选实施例中,本发明还提供了一种网页提取服务器,包括网页获取模块、网页正文提取模块和网页正文提供模块。
首先,网页获取模块从新闻网站或小说网站提供的数据接口中获取新闻类网页或者小说类网页;接着,网页正文提取模块从新闻类网页或者小说类网页中提取新闻类网页或者小说类网页的网页正文信息;其中,提取新闻类网页或者小说类网页的网页正文信息,具体包括:提取并记录新闻类或小说类网页中包括的待处理标签及每个待处理标签所处路径的路径信息;基于路径信息对待处理标签分组,以确定多个标签组;计算每一标签组包括的有效文本信息的有效长度信息,以及每一标签组内每一待处理标签的平均有效长度信息;基于平均有效长度信息,对每一标签组内的多个待处理标签进行排序,确定每一标签组内排序前预定位置的多个第一候选标签;基于每个标签组包括的多个第一候选标签确定候选标签范围,提取候选标签范围中的新闻或小说正文信息;当网页提取服务器接收来自用户设备发送新闻信息或小说信息获取请求时,网页正文提供模块响应于新闻信息或小说信息获取请求,将与新闻信息或小说信息获取请求相匹配的新闻或小说正文信息反馈至所述用户设备。
本发明的实施例可以用于新闻、小说、影视网页、音乐网页等搜索领域,也可以结合搜索引擎蜘蛛,爬虫等网页抓取技术用于自动提取网页正文信息的服务器或者系统中,通过提取较为准确的提取网页正文信息,从而可实现向用户提供滤除无效信息的各类网页正文内容。
特别地,目前小说阅读是互联网用户的一种强需求,尤其在移动设备上更占有不小的需求比重。小说类网页大量存在,质量却良莠不齐。同一本网络小说会被不同网站大量转载,但受一些客观因素的影响,可能会导致在一些网站上该本小说的内容并不完整(缺少章节),甚至内容虚假(拼凑虚假章节)。搜索引擎的网页蜘蛛或爬虫在爬取到这些小说类网页后,需要提取小说类网页的小说正文内容,从而实现给用户呈现内容滤除广告等无效信息的小说正文内容,提升用户阅读体验。
本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (68)
1.一种网页正文提取的方法,其特征在于,包括:
提取并记录网页中包括的待处理标签及每个待处理标签所处路径的路径信息;
基于所述路径信息对所述待处理标签分组,以确定多个标签组;
计算每一标签组包括的有效文本信息的有效长度信息,以及每一标签组内每一待处理标签的平均有效长度信息;
基于所述平均有效长度信息,对每一标签组内的多个待处理标签进行排序,确定每一标签组内排序前预定位置的多个第一候选标签;
基于每个标签组包括的所述多个第一候选标签确定候选标签范围,提取所述候选标签范围中的文本信息。
2.根据权利要求1所述的网页正文提取的方法,其特征在于,提取并记录网页中包括的待处理标签及每个待处理标签所处路径的路径信息,包括:
提取网页中包括的全部标签,将所述全部标签中包括的预定忽略标签进行删除,确定网页中包括的待处理标签;
提取并记录每个待处理标签所处路径的路径信息。
3.根据权利要求1或2所述的网页正文提取的方法,其特征在于,基于所述路径信息对所述待处理标签分组,包括:
将处于同一路径的待处理标签分至同一组。
4.根据权利要求1或2所述的网页正文提取的方法,其特征在于,计算每一标签组内每一待处理标签的平均有效长度信息,具体包括:
根据每一标签组的有效长度信息及该标签组内每一待处理标签所处路径的标签个数,计算每一标签组内每一待处理标签的平均有效长度信息。
5.根据权利要求3所述的网页正文提取的方法,其特征在于,计算每一标签组内每一待处理标签的平均有效长度信息,具体包括:
根据每一标签组的有效长度信息及该标签组内每一待处理标签所处路径的标签个数,计算每一标签组内每一待处理标签的平均有效长度信息。
6.根据权利要求1或2所述的网页正文提取的方法,其特征在于,对每一标签组内的多个待处理标签进行排序,还包括:
判断每一标签组内多个待处理标签包括的文本信息中是否包括预定模板类文本信息;
当判断任一待处理标签包括所述预定模板类文本信息时,将该待处理标签按照预定降序规则降低其排序位置。
7.根据权利要求3所述的网页正文提取的方法,其特征在于,对每一标签组内的多个待处理标签进行排序,还包括:
判断每一标签组内多个待处理标签包括的文本信息中是否包括预定模板类文本信息;
当判断任一待处理标签包括所述预定模板类文本信息时,将该待处理标签按照预定降序规则降低其排序位置。
8.根据权利要求4所述的网页正文提取的方法,其特征在于,对每一标签组内的多个待处理标签进行排序,还包括:
判断每一标签组内多个待处理标签包括的文本信息中是否包括预定模板类文本信息;
当判断任一待处理标签包括所述预定模板类文本信息时,将该待处理标签按照预定降序规则降低其排序位置。
9.根据权利要求5所述的网页正文提取的方法,其特征在于,对每一标签组内的多个待处理标签进行排序,还包括:
判断每一标签组内多个待处理标签包括的文本信息中是否包括预定模板类文本信息;
当判断任一待处理标签包括所述预定模板类文本信息时,将该待处理标签按照预定降序规则降低其排序位置。
10.根据权利要求1或2所述的网页正文提取的方法,其特征在于,对每一标签组内的多个待处理标签进行排序,还包括:
判断每一标签组内多个待处理标签是否包括预定连续格式标签;
当判断多个待处理标签包括所述预定连续格式标签时,将该预定连续格式待处理标签的按照预定降序规则降低其排序位置。
11.根据权利要求3所述的网页正文提取的方法,其特征在于,对每一标签组内的多个待处理标签进行排序,还包括:
判断每一标签组内多个待处理标签是否包括预定连续格式标签;
当判断多个待处理标签包括所述预定连续格式标签时,将该预定连续格式待处理标签的按照预定降序规则降低其排序位置。
12.根据权利要求4所述的网页正文提取的方法,其特征在于,对每一标签组内的多个待处理标签进行排序,还包括:
判断每一标签组内多个待处理标签是否包括预定连续格式标签;
当判断多个待处理标签包括所述预定连续格式标签时,将该预定连续格式待处理标签的按照预定降序规则降低其排序位置。
13.根据权利要求5所述的网页正文提取的方法,其特征在于,对每一标签组内的多个待处理标签进行排序,还包括:
判断每一标签组内多个待处理标签是否包括预定连续格式标签;
当判断多个待处理标签包括所述预定连续格式标签时,将该预定连续格式待处理标签的按照预定降序规则降低其排序位置。
14.根据权利要求6所述的网页正文提取的方法,其特征在于,对每一标签组内的多个待处理标签进行排序,还包括:
判断每一标签组内多个待处理标签是否包括预定连续格式标签;
当判断多个待处理标签包括所述预定连续格式标签时,将该预定连续格式待处理标签的按照预定降序规则降低其排序位置。
15.根据权利要求7所述的网页正文提取的方法,其特征在于,对每一标签组内的多个待处理标签进行排序,还包括:
判断每一标签组内多个待处理标签是否包括预定连续格式标签;
当判断多个待处理标签包括所述预定连续格式标签时,将该预定连续格式待处理标签的按照预定降序规则降低其排序位置。
16.根据权利要求8所述的网页正文提取的方法,其特征在于,对每一标签组内的多个待处理标签进行排序,还包括:
判断每一标签组内多个待处理标签是否包括预定连续格式标签;
当判断多个待处理标签包括所述预定连续格式标签时,将该预定连续格式待处理标签的按照预定降序规则降低其排序位置。
17.根据权利要求9所述的网页正文提取的方法,其特征在于,对每一标签组内的多个待处理标签进行排序,还包括:
判断每一标签组内多个待处理标签是否包括预定连续格式标签;
当判断多个待处理标签包括所述预定连续格式标签时,将该预定连续格式待处理标签的按照预定降序规则降低其排序位置。
18.根据权利要求1或2所述的网页正文提取的方法,其特征在于,基于每个标签组包括的所述多个第一候选标签所确定候选标签范围,包括:
提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
根据所述第一候选标签和第二候选标签确定候选标签范围。
19.根据权利要求3所述的网页正文提取的方法,其特征在于,基于每个标签组包括的所述多个第一候选标签所确定候选标签范围,包括:
提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
根据所述第一候选标签和第二候选标签确定候选标签范围。
20.根据权利要求4所述的网页正文提取的方法,其特征在于,基于每个标签组包括的所述多个第一候选标签所确定候选标签范围,包括:
提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
根据所述第一候选标签和第二候选标签确定候选标签范围。
21.根据权利要求5所述的网页正文提取的方法,其特征在于,基于每个标签组包括的所述多个第一候选标签所确定候选标签范围,包括:
提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
根据所述第一候选标签和第二候选标签确定候选标签范围。
22.根据权利要求6所述的网页正文提取的方法,其特征在于,基于每个标签组包括的所述多个第一候选标签所确定候选标签范围,包括:
提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
根据所述第一候选标签和第二候选标签确定候选标签范围。
23.根据权利要求7所述的网页正文提取的方法,其特征在于,基于每个标签组包括的所述多个第一候选标签所确定候选标签范围,包括:
提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
根据所述第一候选标签和第二候选标签确定候选标签范围。
24.根据权利要求8所述的网页正文提取的方法,其特征在于,基于每个标签组包括的所述多个第一候选标签所确定候选标签范围,包括:
提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
根据所述第一候选标签和第二候选标签确定候选标签范围。
25.根据权利要求9所述的网页正文提取的方法,其特征在于,基于每个标签组包括的所述多个第一候选标签所确定候选标签范围,包括:
提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
根据所述第一候选标签和第二候选标签确定候选标签范围。
26.根据权利要求10所述的网页正文提取的方法,其特征在于,基于每个标签组包括的所述多个第一候选标签所确定候选标签范围,包括:
提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
根据所述第一候选标签和第二候选标签确定候选标签范围。
27.根据权利要求11所述的网页正文提取的方法,其特征在于,基于每个标签组包括的所述多个第一候选标签所确定候选标签范围,包括:
提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
根据所述第一候选标签和第二候选标签确定候选标签范围。
28.根据权利要求12所述的网页正文提取的方法,其特征在于,基于每个标签组包括的所述多个第一候选标签所确定候选标签范围,包括:
提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
根据所述第一候选标签和第二候选标签确定候选标签范围。
29.根据权利要求13所述的网页正文提取的方法,其特征在于,基于每个标签组包括的所述多个第一候选标签所确定候选标签范围,包括:
提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
根据所述第一候选标签和第二候选标签确定候选标签范围。
30.根据权利要求14所述的网页正文提取的方法,其特征在于,基于每个标签组包括的所述多个第一候选标签所确定候选标签范围,包括:
提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
根据所述第一候选标签和第二候选标签确定候选标签范围。
31.根据权利要求15所述的网页正文提取的方法,其特征在于,基于每个标签组包括的所述多个第一候选标签所确定候选标签范围,包括:
提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
根据所述第一候选标签和第二候选标签确定候选标签范围。
32.根据权利要求16所述的网页正文提取的方法,其特征在于,基于每个标签组包括的所述多个第一候选标签所确定候选标签范围,包括:
提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
根据所述第一候选标签和第二候选标签确定候选标签范围。
33.根据权利要求17所述的网页正文提取的方法,其特征在于,基于每个标签组包括的所述多个第一候选标签所确定候选标签范围,包括:
提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
根据所述第一候选标签和第二候选标签确定候选标签范围。
34.一种抽取新闻类或小说类网页中新闻或小说正文内容的方法,其特征在于,包括:
提取并记录新闻类或小说类网页中包括的待处理标签及每个待处理标签所处路径的路径信息;
基于所述路径信息对所述待处理标签分组,以确定多个标签组;
计算每一标签组包括的有效文本信息的有效长度信息,以及每一标签组内每一待处理标签的平均有效长度信息;
基于所述平均有效长度信息,对每一标签组内的多个待处理标签进行排序,确定每一标签组内排序前预定位置的多个第一候选标签;
基于每个标签组包括的所述多个第一候选标签确定候选标签范围,提取所述候选标签范围中的新闻或小说正文信息。
35.一种网页正文提取的装置,其特征在于,包括:
路径提取模块,用于提取并记录网页中包括的待处理标签及每个待处理标签所处路径的路径信息;
分组模块,用于基于所述路径信息对所述待处理标签分组,以确定多个标签组;
计算模块,用于计算每一标签组包括的有效文本信息的有效长度信息,以及每一标签组内每一待处理标签的平均有效长度信息;
排序模块,用于基于所述平均有效长度信息,对每一标签组内的多个待处理标签进行排序,确定每一标签组内排序前预定位置的多个第一候选标签;
文本提取模块,用于基于每个标签组包括的所述多个第一候选标签确定候选标签范围,提取所述候选标签范围中的文本信息。
36.根据权利要求35所述的网页正文提取的装置,其特征在于,所述路径提取模块包括:
第一标签提取单元,用于提取网页中包括的全部标签,将所述全部标签中包括的预定忽略标签进行删除,确定网页中包括的待处理标签;
路径提取单元,用于提取并记录每个待处理标签所处路径的路径信息。
37.根据权利要求35或36所述的网页正文提取的装置,其特征在于,所述分组模块具体用于将处于同一路径的待处理标签分至同一组。
38.根据权利要求35或36所述的网页正文提取的装置,其特征在于,所述计算模块包括:
平均长度计算单元,用于根据每一标签组的有效长度信息及该标签组内每一待处理标签所处路径的标签个数,计算每一标签组内每一标签的平均有效长度信息。
39.根据权利要求37所述的网页正文提取的装置,其特征在于,所述计算模块包括:
平均长度计算单元,用于根据每一标签组的有效长度信息及该标签组内每一待处理标签所处路径的标签个数,计算每一标签组内每一标签的平均有效长度信息。
40.根据权利要求35或36所述的网页正文提取的装置,其特征在于,所述排序装置还包括:
第一判断单元,用于判断每一标签组内多个待处理标签包括的文本信息中是否包括预定模板类文本信息;
第一降序单元,当判断任一待处理标签包括所述预定模板类文本信息时,将该待处理标签按照预定降序规则降低其排序位置。
41.根据权利要求37所述的网页正文提取的装置,其特征在于,所述排序装置还包括:
第一判断单元,用于判断每一标签组内多个待处理标签包括的文本信息中是否包括预定模板类文本信息;
第一降序单元,当判断任一待处理标签包括所述预定模板类文本信息时,将该待处理标签按照预定降序规则降低其排序位置。
42.根据权利要求38所述的网页正文提取的装置,其特征在于,所述排序装置还包括:
第一判断单元,用于判断每一标签组内多个待处理标签包括的文本信息中是否包括预定模板类文本信息;
第一降序单元,当判断任一待处理标签包括所述预定模板类文本信息时,将该待处理标签按照预定降序规则降低其排序位置。
43.根据权利要求39所述的网页正文提取的装置,其特征在于,所述排序装置还包括:
第一判断单元,用于判断每一标签组内多个待处理标签包括的文本信息中是否包括预定模板类文本信息;
第一降序单元,当判断任一待处理标签包括所述预定模板类文本信息时,将该待处理标签按照预定降序规则降低其排序位置。
44.根据权利要求35或36所述的网页正文提取的装置,其特征在于,所述排序模块还包括:
第二判断单元,用于判断每一标签组内多个待处理标签是否包括预定连续格式标签;
第二降序单元,用于当判断多个待处理标签包括所述预定连续格式标签时,将该预定连续格式的待处理标签按照预定降序规则降低其排序位置。
45.根据权利要求37所述的网页正文提取的装置,其特征在于,所述排序模块还包括:
第二判断单元,用于判断每一标签组内多个待处理标签是否包括预定连续格式标签;
第二降序单元,用于当判断多个待处理标签包括所述预定连续格式标签时,将该预定连续格式的待处理标签按照预定降序规则降低其排序位置。
46.根据权利要求38所述的网页正文提取的装置,其特征在于,所述排序模块还包括:
第二判断单元,用于判断每一标签组内多个待处理标签是否包括预定连续格式标签;
第二降序单元,用于当判断多个待处理标签包括所述预定连续格式标签时,将该预定连续格式的待处理标签按照预定降序规则降低其排序位置。
47.根据权利要求39所述的网页正文提取的装置,其特征在于,所述排序模块还包括:
第二判断单元,用于判断每一标签组内多个待处理标签是否包括预定连续格式标签;
第二降序单元,用于当判断多个待处理标签包括所述预定连续格式标签时,将该预定连续格式的待处理标签按照预定降序规则降低其排序位置。
48.根据权利要求40所述的网页正文提取的装置,其特征在于,所述排序模块还包括:
第二判断单元,用于判断每一标签组内多个待处理标签是否包括预定连续格式标签;
第二降序单元,用于当判断多个待处理标签包括所述预定连续格式标签时,将该预定连续格式的待处理标签按照预定降序规则降低其排序位置。
49.根据权利要求41所述的网页正文提取的装置,其特征在于,所述排序模块还包括:
第二判断单元,用于判断每一标签组内多个待处理标签是否包括预定连续格式标签;
第二降序单元,用于当判断多个待处理标签包括所述预定连续格式标签时,将该预定连续格式的待处理标签按照预定降序规则降低其排序位置。
50.根据权利要求42所述的网页正文提取的装置,其特征在于,所述排序模块还包括:
第二判断单元,用于判断每一标签组内多个待处理标签是否包括预定连续格式标签;
第二降序单元,用于当判断多个待处理标签包括所述预定连续格式标签时,将该预定连续格式的待处理标签按照预定降序规则降低其排序位置。
51.根据权利要求43所述的网页正文提取的装置,其特征在于,所述排序模块还包括:
第二判断单元,用于判断每一标签组内多个待处理标签是否包括预定连续格式标签;
第二降序单元,用于当判断多个待处理标签包括所述预定连续格式标签时,将该预定连续格式的待处理标签按照预定降序规则降低其排序位置。
52.根据权利要求35或36所述的网页正文提取的装置,其特征在于,所述文本提取模块包括:
第二标签提取单元,用于提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
范围确定单元,用于根据所述第一候选标签和第二候选标签确定候选标签范围。
53.根据权利要求37所述的网页正文提取的装置,其特征在于,所述文本提取模块包括:
第二标签提取单元,用于提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
范围确定单元,用于根据所述第一候选标签和第二候选标签确定候选标签范围。
54.根据权利要求38所述的网页正文提取的装置,其特征在于,所述文本提取模块包括:
第二标签提取单元,用于提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
范围确定单元,用于根据所述第一候选标签和第二候选标签确定候选标签范围。
55.根据权利要求39所述的网页正文提取的装置,其特征在于,所述文本提取模块包括:
第二标签提取单元,用于提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
范围确定单元,用于根据所述第一候选标签和第二候选标签确定候选标签范围。
56.根据权利要求40所述的网页正文提取的装置,其特征在于,所述文本提取模块包括:
第二标签提取单元,用于提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
范围确定单元,用于根据所述第一候选标签和第二候选标签确定候选标签范围。
57.根据权利要求41所述的网页正文提取的装置,其特征在于,所述文本提取模块包括:
第二标签提取单元,用于提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
范围确定单元,用于根据所述第一候选标签和第二候选标签确定候选标签范围。
58.根据权利要求42所述的网页正文提取的装置,其特征在于,所述文本提取模块包括:
第二标签提取单元,用于提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
范围确定单元,用于根据所述第一候选标签和第二候选标签确定候选标签范围。
59.根据权利要求43所述的网页正文提取的装置,其特征在于,所述文本提取模块包括:
第二标签提取单元,用于提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
范围确定单元,用于根据所述第一候选标签和第二候选标签确定候选标签范围。
60.根据权利要求44所述的网页正文提取的装置,其特征在于,所述文本提取模块包括:
第二标签提取单元,用于提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
范围确定单元,用于根据所述第一候选标签和第二候选标签确定候选标签范围。
61.根据权利要求45所述的网页正文提取的装置,其特征在于,所述文本提取模块包括:
第二标签提取单元,用于提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
范围确定单元,用于根据所述第一候选标签和第二候选标签确定候选标签范围。
62.根据权利要求46所述的网页正文提取的装置,其特征在于,所述文本提取模块包括:
第二标签提取单元,用于提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
范围确定单元,用于根据所述第一候选标签和第二候选标签确定候选标签范围。
63.根据权利要求47所述的网页正文提取的装置,其特征在于,所述文本提取模块包括:
第二标签提取单元,用于提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
范围确定单元,用于根据所述第一候选标签和第二候选标签确定候选标签范围。
64.根据权利要求48所述的网页正文提取的装置,其特征在于,所述文本提取模块包括:
第二标签提取单元,用于提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
范围确定单元,用于根据所述第一候选标签和第二候选标签确定候选标签范围。
65.根据权利要求49所述的网页正文提取的装置,其特征在于,所述文本提取模块包括:
第二标签提取单元,用于提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
范围确定单元,用于根据所述第一候选标签和第二候选标签确定候选标签范围。
66.根据权利要求50所述的网页正文提取的装置,其特征在于,所述文本提取模块包括:
第二标签提取单元,用于提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
范围确定单元,用于根据所述第一候选标签和第二候选标签确定候选标签范围。
67.根据权利要求51所述的网页正文提取的装置,其特征在于,所述文本提取模块包括:
第二标签提取单元,用于提取所述多个第一候选标签所在位置的预定上下文范围内的多个第二候选标签;
范围确定单元,用于根据所述第一候选标签和第二候选标签确定候选标签范围。
68.一种网页提取服务器,其特征在于,包括:
网页获取模块,用于从新闻网站或小说网站提供的数据接口中获取新闻类网页或者小说类网页;
网页正文提取模块,用于从所述新闻类网页或者小说类网页中提取新闻类网页或者小说类网页的网页正文信息;其中,提取新闻类网页或者小说类网页的网页正文信息,具体包括:
提取并记录新闻类或小说类网页中包括的待处理标签及每个待处理标签所处路径的路径信息;
基于所述路径信息对所述待处理标签分组,以确定多个标签组;
计算每一标签组包括的有效文本信息的有效长度信息,以及每一标签组内每一待处理标签的平均有效长度信息;
基于所述平均有效长度信息,对每一标签组内的多个待处理标签进行排序,确定每一标签组内排序前预定位置的多个第一候选标签;
基于每个标签组包括的所述多个第一候选标签确定候选标签范围,提取所述候选标签范围中的新闻或小说正文信息;
网页正文提供模块,用于当接收来自用户设备发送新闻信息或小说信息获取请求时,响应于所述新闻信息或小说信息获取请求,将与所述新闻信息或小说信息获取请求相匹配的新闻或小说正文信息反馈至所述用户设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410816975.1A CN104462532B (zh) | 2014-12-23 | 2014-12-23 | 网页正文提取的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410816975.1A CN104462532B (zh) | 2014-12-23 | 2014-12-23 | 网页正文提取的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104462532A CN104462532A (zh) | 2015-03-25 |
CN104462532B true CN104462532B (zh) | 2017-07-07 |
Family
ID=52908567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410816975.1A Active CN104462532B (zh) | 2014-12-23 | 2014-12-23 | 网页正文提取的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104462532B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105630941B (zh) * | 2015-12-23 | 2018-11-06 | 成都云数未来信息科学有限公司 | 基于统计和网页结构的Web正文内容抽取方法 |
CN105677764B (zh) | 2015-12-30 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 信息提取方法和装置 |
CN106021582B (zh) * | 2016-06-02 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 位置信息过滤的方法、提取有效网页信息的方法及装置 |
CN107579949B (zh) * | 2016-07-05 | 2021-05-28 | 阿里巴巴集团控股有限公司 | 数据报文处理方法及装置 |
CN106294722B (zh) * | 2016-08-09 | 2019-11-22 | 上海资誉网络科技有限公司 | 一种网页内容自动提取方法及装置 |
CN106339455B (zh) * | 2016-08-26 | 2019-06-04 | 电子科技大学 | 基于文本标签特征挖掘的网页正文提取方法 |
CN109885743B (zh) * | 2019-01-04 | 2024-01-02 | 上海七印信息科技有限公司 | 一种网页数据信息提取方法 |
CN112667940B (zh) * | 2020-10-15 | 2022-02-18 | 广东电子工业研究院有限公司 | 基于深度学习的网页正文抽取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982161A (zh) * | 2012-12-05 | 2013-03-20 | 北京奇虎科技有限公司 | 网页信息的获取方法和装置 |
CN102982162A (zh) * | 2012-12-05 | 2013-03-20 | 北京奇虎科技有限公司 | 网页信息的获取系统 |
CN103473285A (zh) * | 2013-08-29 | 2013-12-25 | 北京奇虎科技有限公司 | 基于位置标记的网页信息抽取方法和装置 |
CN103714116A (zh) * | 2013-10-31 | 2014-04-09 | 北京奇虎科技有限公司 | 网页信息提取方法及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100463835B1 (ko) * | 2002-10-17 | 2004-12-29 | 한국전자통신연구원 | 무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출시스템 및 그 방법 |
-
2014
- 2014-12-23 CN CN201410816975.1A patent/CN104462532B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982161A (zh) * | 2012-12-05 | 2013-03-20 | 北京奇虎科技有限公司 | 网页信息的获取方法和装置 |
CN102982162A (zh) * | 2012-12-05 | 2013-03-20 | 北京奇虎科技有限公司 | 网页信息的获取系统 |
CN103473285A (zh) * | 2013-08-29 | 2013-12-25 | 北京奇虎科技有限公司 | 基于位置标记的网页信息抽取方法和装置 |
CN103714116A (zh) * | 2013-10-31 | 2014-04-09 | 北京奇虎科技有限公司 | 网页信息提取方法及设备 |
Non-Patent Citations (1)
Title |
---|
"基于路径学习的信息自动抽取方法";于琨 等;《小型微型计算机系统》;20031231;第24卷(第12期);第2147-2149页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104462532A (zh) | 2015-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104462532B (zh) | 网页正文提取的方法和装置 | |
US7941420B2 (en) | Method for organizing structurally similar web pages from a web site | |
JP6203374B2 (ja) | ウェブページ・スタイルアドレスの統合 | |
CN109582945B (zh) | 文章生成方法、装置及存储介质 | |
US20150067476A1 (en) | Title and body extraction from web page | |
CN111079043B (zh) | 一种关键内容定位方法 | |
CN103309862B (zh) | 一种网页类型识别方法和系统 | |
CN102523130B (zh) | 不良网页检测方法及装置 | |
WO2014101783A1 (en) | Method and server for performing cloud detection for malicious information | |
CA2517599A1 (en) | Web server for adapted web content | |
TW201411520A (zh) | 廣告展示的監控方法和設備 | |
US10783192B1 (en) | System, method, and user interface for a search engine based on multi-document summarization | |
WO2004083990A2 (en) | Web content adaption process and system | |
CN110489649B (zh) | 标签关联内容的方法及装置 | |
CN113038153B (zh) | 金融直播违规检测方法、装置、设备及可读存储介质 | |
CN104281705A (zh) | 搜索方法及搜索装置 | |
CN109033282A (zh) | 一种基于抽取模板的网页正文抽取方法及装置 | |
US11651039B1 (en) | System, method, and user interface for a search engine based on multi-document summarization | |
CN108804472A (zh) | 一种网页内容抽取方法、装置及服务器 | |
CN106547895A (zh) | 一种网页信息的提取方法及装置 | |
CN104281641A (zh) | 丰富多媒体内容的方法和对应设备 | |
CN104216868B (zh) | 一种文档显示格式的适配方法及装置 | |
CN107729486B (zh) | 一种视频搜索方法及装置 | |
Luo et al. | Web article extraction for web printing: a dom+ visual based approach | |
CN110209906A (zh) | 用于提取网页信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220727 Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015 Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park) Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Patentee before: Qizhi software (Beijing) Co.,Ltd. |