CN106446072A - 网页内容的处理方法和装置 - Google Patents

网页内容的处理方法和装置 Download PDF

Info

Publication number
CN106446072A
CN106446072A CN201610807127.3A CN201610807127A CN106446072A CN 106446072 A CN106446072 A CN 106446072A CN 201610807127 A CN201610807127 A CN 201610807127A CN 106446072 A CN106446072 A CN 106446072A
Authority
CN
China
Prior art keywords
paragraph
title
text
catalogue
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610807127.3A
Other languages
English (en)
Other versions
CN106446072B (zh
Inventor
邵睿
徐国强
尹存祥
骆彬
钟辉强
沈剑平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610807127.3A priority Critical patent/CN106446072B/zh
Publication of CN106446072A publication Critical patent/CN106446072A/zh
Application granted granted Critical
Publication of CN106446072B publication Critical patent/CN106446072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明实施例公开了一种网页内容的处理方法和装置。所述方法包括:读取与待处理网页对应的HTML结构正文数据;以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表;根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对。本发明实施例的技术方案在识别出网页正文各段落中包括的标题以及段落正文,并将其整理归纳到一起生成标题文本对后,可以实现使用识别出的标题文本对中的标题来进一步描述网页内容,扩充网页内容的描述信息的技术效果,极大的简化了网页的分析过程,优化了现有的网页内容的处理技术,满足了人们日益增长的个性化、便捷化的网页内容的处理需求。

Description

网页内容的处理方法和装置
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种网页内容的处理方法和装置。
背景技术
随着网络信息技术的发展,网站、论坛、博客等网页信息越来越大,搜索引擎、内容分析以及舆情分析等技术都是针对这些信息进行分析处理的。因此,如何能够对海量的网站页面进行分析和结构化处理成了人们亟需解决的重要问题。
现有的网页结构化处理方法仅仅从页面的HTML(HyperText Markup Language,超文本标记语言)结构出发,对文本信息分层进行排列,最终以树形数据结构的方式产出结果并进行储存。
现有技术的主要缺陷在于:HTML的规范十分自由,很多网站的页面都或多或少的含有不符合规范的结构,这样的话,仅仅使用HTML结构会产生很多错误,导致结构化的数据准确性和可用性较低;同时,树形数据结构在存储和使用时相对复杂,而且不利于整理和优化,这使得数据的可用性又下降了一个等级;此外,现有的页面结构化方法只能处理一部分样式的网页,通用性并不高。
发明内容
有鉴于此,本发明实施例提供了一种网页内容的处理方法和装置,以优化现有的网页内容处理技术,满足人们日益增长的个性化、便捷化的网页内容的处理需求。
第一方面,本发明实施例提供了一种网页内容的处理方法,包括:
读取与待处理网页对应的HTML结构正文数据;
以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表;
根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对。
第二方面,本发明实施例还提供了一种网页内容的处理装置,包括:
正文数据读取模块,用于读取与待处理网页对应的HTML结构正文数据;
段落列表生成模块,用于以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表;
标题文本对转化模块,用于根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对。
本发明实施例通过读取与待处理网页对应的HTML结构正文数据;以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表;根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对的技术手段,在识别出网页正文各段落中包括的标题以及段落正文,并将其整理归纳到一起生成标题文本对后,可以实现使用识别出的标题文本对中的标题来进一步描述网页内容,扩充网页内容的描述信息的技术效果,极大地简化了页面分析的过程,优化了现有的网页内容的处理技术,满足了人们日益增长的个性化、便捷化的网页内容的处理需求。
附图说明
图1是本发明实施例一提供的一种网页内容的处理方法的流程图;
图2a是本发明实施例二提供的一种网页内容的处理方法的流程图;
图2b是某网页中显示的正文内容的示意图;
图2c是通过本发明实施例二提供的方法所生成的标题文本对的结构示意图;
图3a是本发明实施例三提供的一种网页内容的处理方法的流程图;
图3b是本发明实施例三提供的一种标题合并过程的结构示意图;
图4是本发明实施例四提供的一种网页内容的处理方法的流程图;
图5a是本发明实施例五提供的一种网页内容的处理方法的流程图;
图5b是通过本发明实施例五提供的方法生成的带有逻辑深度的标题文本对的结构示意图;
图6是本发明实施例的一种具体应用场景的流程图;
图7是本发明实施例六提供的一种网页内容的处理装置的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一提供的一种网页内容的处理方法的流程图,本实施例的方法可以由网页内容的处理装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于服务器中。本实施例的方法具体包括:
110、读取与待处理网页对应的HTML结构正文数据。
本发明实施例的技术方案,需要对待处理网页中的文本内容进行处理,以最终生成标题文本对,因此需要首先读取待处理网页中的文本内容。同时,由于网页是由HTML结构的超文本构成,在本实施例中,将待处理网页中的文本内容定义为所述HTML结构正文数据。
其中,本领域技术人员可以采取任何方式获取所述HTML结构正文数据,本实施例对此并不进行限制。可选的,可以根据HTML标签项将待处理网页表示成一个DOM(DocumentObject Model,文档对象模型)树的结构,之后根据特定HTML标签(典型的,heading标签、table标签、paragraph标签以及list标签等)来提取有效的树节点数据作为所述HTML结构正文数据。
120、以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表。
在本实施例中,可以进一步根据HTML结构正文数据中包括的HTML标签,将所述HTML结构正文数据划分为一个或者多个段落,并进而生成段落列表,其中,所述段落列表中包括有一个或者多个段落。
典型的,可以分别将HTML结构正文数据中,由<p>和</p>、<div>和</div>、<span>和</span>以及<br>和<br/>等HTML标签所围成的数据作为一个独立段落。
130、根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对。
在本实施例中,所述段落中具有标题属性的内容具体是指对一个段落中的核心描述内容。
典型的,具有标题属性的内容在网页中会以区别于一般文本内容的样式呈现,例如,加粗或者加黑等,或者会以编号形式的子标题呈现等。
相应的,在本实施例中,根据所述具有标题属性的内容在网页中各种可能的呈现形式,可以在所述段落列表中的各个段落中对所述具有标题属性的内容进行识别,进而可以根据识别结果,将各段落转化为标题文本对。
其中,所述标题文本对中的内容可以包括:标题以及段落中除去标题后的段落正文;所述标题文本对中的内容还可以包括:标题、段落中除去标题后的段落正文以及全部段落等。
当然,可以理解的是,在一个段落中可能不包括具有标题属性的内容,也可能仅包括具有标题属性的内容,相应的,在最终所生成的标题文本对中,可以仅包括标题,也可以仅包括段落正文,本实施例对此并不进行限制。
本发明实施例通过读取与待处理网页对应的HTML结构正文数据;以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表;根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对的技术手段,在识别出网页正文各段落中包括的标题以及段落正文,并将其整理归纳到一起生成标题文本对后,可以实现使用识别出的标题文本对中的标题来进一步描述网页内容,扩充网页内容的描述信息的技术效果,极大地简化了页面分析的过程,优化了现有的网页内容的处理技术,满足了人们日益增长的个性化、便捷化的网页内容的处理需求。
实施例二
图2a是本发明实施例二提供的一种网页内容的处理方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对具体优化为:提取所述段落列表中包括的一个段落作为目标段落;识别所述目标段落中包括的具有标题属性的内容作为标题;将所述目标段落中除去所述标题之外的内容作为段落正文;将所述标题、所述段落正文以及所述目标段落各自作为独立整体构成所述标题文本对。
相应的,本实施例的方法具体包括:
210、读取与待处理网页对应的HTML结构正文数据。
220、以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表。
230、提取所述段落列表中包括的一个段落作为目标段落。
240、识别所述目标段落中包括的具有标题属性的内容作为标题。
在本实施例中,所述具有标题属性的数据内容可以包括:设定样式的文本,和/或包括编号的点句文本;其中,所述设定样式可以包括:高亮、加粗或者设定字体(例如,楷体或者黑体等)。
其中,所述编号可以包括“1、2、3、…”以及“一、二、三、…”等数字编号,还可以包括“A、B、C、…”以及“I、II、III”等特殊符号编号等,本实施例对此并不进行限制。
相应的,可以通过样式识别或者编号识别的方式,获取所述目标段落中包括的具有标题属性的内容,并将上述内容作为标题。
250、将所述目标段落中除去所述标题之外的内容作为段落正文。
260、将所述标题、所述段落正文以及所述目标段落各自作为独立整体构成所述标题文本对。
其中,在图2b中示出了某网页中所显示的正文内容的示意图,在图2c中示出了通过本发明实施例二提供的方法所生成的标题文本对的结构示意图,其中,考虑到篇幅,在图2c仅示出了将图2b中的前三段转化为标题文本对。
其中,如图2b所示,由于“1、视力下降”以及“2、遗传倾向”中包括有编号1、2且上述内容的字体样式为加粗样式,所以将上述内容识别为各自段落的标题。进而可以将网页中的正文内容拆分为“标题-段落正文-全部段落”形式的标题文本对。
本实施例的技术方案通过提取所述段落列表中包括的一个段落作为目标段落;识别所述目标段落中包括的具有标题属性的内容作为标题;将所述目标段落中除去所述标题之外的内容作为段落正文;将所述标题、所述段落正文以及所述目标段落各自作为独立整体构成所述标题文本对的技术手段,达到了使用标题文本对来表示网页正文中各段落的段落内容的技术效果,特别的,当实际应用过程中需要提取网页中的核心内容来表达一个网页的主要内容时,可以直接提取各标题文本对中的标题来构成所述核心内容,极大地简化了页面分析的过程。
在上述各实施例的基础上,在所述提取所述段落列表中包括的一个段落作为目标段落之后,还可以包括:对所述目标段落进行内容识别,滤除所述目标段落中符合内容滤除条件的段落内容。
在本实施例中,考虑到目标段落中可以出现特殊符号集合或者广告语等无意义的数据,甚至整个目标段落由于文本过长而不适于拆分为标题文本对。因此,在提取目标段落后,首先需要滤除所述目标段落中符合内容滤除条件的段落内容,以提高后续标题文本对的生成效率。
其中,所述内容过滤条件可以包括:段落文本字符数滤除条件(例如,字符数大于3000),用于滤除长文本;特殊字符滤除条件,用于滤除特殊符号集;设定关键词滤除条件,用于滤除广告语。
实施例三
图3a是本发明实施例三提供的一种网页内容的处理方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,在所述根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对之后,还优选包括:如果相邻的两个均不包括段落正文的标题文本对中,前一标题文本对中的标题仅包括编号,则将所述相邻的两个均不包括段落正文的标题文本对进行标题合并,生成一个新的标题文本对;
此外,在所述根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对之后,还优选包括:如果相邻的两个标题文本对中,前一标题文本对中未包括段落正文,后一段落文本对中未包括标题,则分别提取所述相邻的两个标题文本对中的段落正文以及标题,生成一个新的标题文本对。
相应的,本实施例的方法具体包括:
310、读取与待处理网页对应的HTML结构正文数据。
320、以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表。
330、根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对。
340、依次顺序遍历两个相邻的标题文本对。
350、判断当前遍历的两个标题文本对是否均不包含段落正文:若是,执行360;否则,返回执行340。
360、判断前一标题文本对中的标题是否仅包括编号:若是,执行370;否则,返回执行340。
370、将当前遍历的两个标题文本对进行标题合并,生成一个新的标题文本对。
一般来说,由于HTML规范的高度自由化,在对待处理网页对应的HTML结构正文数据进行上述处理时,可能会将一个标题属性的段落,拆分为仅包括标题的两个标题文本对,即产生了标题断裂,其中,包括有编号形式的点句文本是产生标题断裂的主要来源。
典型的,如果一个段落中的全部段落内容为“1、癫痫病有遗传倾向”,如果产生标题断裂,上述内容会被拆分为两个段落“1、”以及“癫痫病有异常倾向”,相应的,上述断裂内容会进而被生成两个标题文本对。
通过340-370的操作,可以实现将与断裂内容对应的标题文本对进行合并,还原出实际的标题,其中,在图3b中示出了本发明实施例三提供的一种标题合并过程的结构示意图。
380、判断是否完成对全部相邻的标题文本对的处理:若是,执行390;否则,返回执行340。
390、重新依次顺序遍历两个相邻的标题文本对。
3100、判断当前遍历的两个标题文本对中,是否前一标题文本对中未包括段落正文,后一段落文本对中未包括标题:若是,执行3110;否则,返回390。
3110、分别提取所述相邻的两个标题文本对中的段落正文以及标题,生成一个新的标题文本对,执行3120。
3120、判断是否完成对全部相邻的标题文本对的处理:若是,执行3130;否则,返回执行390。
在本实施例中,发明人进一步考虑到一般在网页中比较标准的撰写形式是以标题作为独立的一个段落,在该段落之后另起一段,进一步对所述标题进行具体表述,而上述内容被合并入一个标题文本对则比较合理,因此,本实施例的技术方案在完成对标题断裂部分的修复后,重新遍历各个标题文本对,如果遍历出前一标题文本对仅包括标题,后一标题文本对仅包括段落正文的相邻两个标题文本对,则对上述两个标题文本对进行合并,生成新的标题文本对。
本实施例的技术方案在完成将待处理网页的HTML结构正文数据进行段落划分,并生成标题文本对的操作后,进一步对所生成的标题文本对进行处理,对标题断裂情况进行修复,将适宜合并的标题文本对进行合并等操作,可以进一步优化本发明实施例的技术方案,提高最终生成的标题文本对的数据质量。
实施例四
图4是本发明实施例四提供的一种网页内容的处理方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,在所述以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表之前,还优选包括:基于设定数据清洗模板,对所述HTML结构正文数据进行数据清洗;和/或在所述HTML结构正文数据中,对结构不规范的内容进行结构修正;
以及,在所述以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表之后,还优选包括:在所述HTML结构正文数据中,获取与所述段落列表中各段落分别对应的目标元数据;将与所述各段落分别对应的目标元数据与所述各段落对应存储于所述段落列表中;
以及,在所述根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对之后,还优选包括:如果所述段落文本对中包括繁体中文格式的文本,则将所述繁体中文格式的文本转换为简体中文格式的文本。
相应的,本实施例的方法具体包括:
410、读取与待处理网页对应的HTML结构正文数据。
420、基于设定数据清洗模板,对所述HTML结构正文数据进行数据清洗。
在本实施例中,考虑到HTML结构正文数据中会包括有很多无效的数据或者杂质,例如,广告链接文本以及无效文字等,因此,为了提高后续标题文本对的数据质量,可以首先对这些无效数据或者杂质进行数据清洗。
其中,典型的广告链接文本可以包括:“请点击XX链接,查看XX内容”等,典型的无效文字可以包括对图片的描述性文字等,例如:“下图表达了…”,因此,可以预先筛选出一些设定的关键词或者关键句式构造数据清洗模板,对所述HTML结构正文数据进行数据清洗。
430、在数据清洗后的所述HTML结构正文数据中,对结构不规范的内容进行结构修正。
如前所述,由于HTML规范的高度自由化,完成数据清洗后的所述HTML结构正文数据中,可能会包括结构不规范的内容,例如,一般来说,HTML标签是需要闭合的,即:<p>以及</p>成对出现,如果出现所述HTML结构正文数据中包括未完全闭合的HTML标签,则可以通过一定的结构修正策略,对上述结构不规范的内容进行修正。
440、以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表。
450、在所述HTML结构正文数据中,获取与所述段落列表中各段落分别对应的目标元数据。
460、将与所述各段落分别对应的目标元数据与所述各段落对应存储于所述段落列表中。
其中,所述目标元数据包括下述至少一项:
元素名称、元素深度、元素所包含的文本、元素及其子元素所包含的文本、元素包含的段内标记、元素的兄弟元素数量、元素所包含的超链接特性内容、元素的父层级以及元素是否为叶子节点,所述元素为所述HTML结构正文数据中,与段落对应的HTML元素。
在本实施例中,为了最大程度的保留HTML结构正文数据中包括的各种原始信息,在生成段落列表的同时,将段落列表中各段落的目标元数据与各段落一起进行存储。
470、根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对。
480、判断所述段落文本对中是否包括繁体中文格式的文本,若是,执行490;否则,结束流程。
490、将所述繁体中文格式的文本转换为简体中文格式的文本。
在本实施例中,为了进一步提高标题文本对的数据形式的标准化,可以将标题文本对中出现的繁体中文转换为简体中文。
本实施例的技术方案通过基于设定数据清洗模板,对所述HTML结构正文数据进行数据清洗;和/或在所述HTML结构正文数据中,对结构不规范的内容进行结构修正的技术手段,可以进一步对进行标题文本对转化的HTML结构正文数据进行优化与改进,进而可以提高后续标题文本对的数据质量,通过将与所述各段落分别对应的目标元数据与所述各段落对应存储于所述段落列表中的技术手段,可以在生成所述标题文本对的同时,最大程度的保留原始的HTML结构正文数据做包含的信息,以满足不同用户对所述标题文本对的使用需求。
实施例五
图5a是本发明实施例五提供的一种网页内容的处理方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,在所述根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对之后,还优选包括:将全部所述标题文本对的逻辑深度设置为预设初始值;顺序获取一个点句文本形式的标题作为当前操作标题,并确定所述当前操作标题所覆盖的段落范围;将所述段落范围内的标题文本对的逻辑深度增加设定加权值后,返回执行顺序获取一个点句文本形式的标题作为当前操作标题的操作,直至完成对全部点句文本形式的标题的处理,以得到与各所述标题文本对分别对应的逻辑深度。
相应的,本实施例的方法具体包括:
510、读取与待处理网页对应的HTML结构正文数据。
520、以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表。
530、根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对。
540、将全部所述标题文本对的逻辑深度设置为预设初始值。
其中,所述逻辑深度主要用于识别标题文本对之间的包含关系,方便后续对各不同逻辑深度的标题文本对的应用。
所述预设初始值可以根据实际情况进行预设,优先可以为0。
550、顺序获取一个点句文本形式的标题作为当前操作标题,并确定所述当前操作标题所覆盖的段落范围。
560、将所述段落范围内的标题文本对的逻辑深度增加设定加权值。
所述设定加权值可以根据实际情况进行预设,优选可以为1。
570、判断是否完成对全部点句文本形式的标题的处理:若是,结束流程;否则,返回550。
其中,在图5b中示出了通过本发明实施例五提供的方法生成的带有逻辑深度的标题文本对的结构示意图。
本实施例的技术方案在将所述段落列表中的各段落转化为标题文本对之后,增加了生成与各标题文本对对应的逻辑深度的操作,增加的逻辑深度主要可以有下述两方面应用:
1、提取子标题:提取页面子标题是一个扩充网页数据量的很好的方法。由于在一个网页的HTML结构正文数据中,所描述的信息一般都要多于一个,这就需要提取子标题来充分描述同一个页面。利用结构化的正文数据,可以提取逻辑深度大于0的标题文本对,然后再对其进行实体识别和意图识别,并过滤掉一些不需要的内容,则可以生成很多高质量的子标题。
2、内容模型中的标签抽取
在传统的标签抽取中,程序将输入的文本看作一个整体来进行扁平式的处理。这样的处理方式很多时候并不能完全反应出文本的主次结构。而利用已经结构化的数据,可以对不同逻辑深度的标题和段落正文分别赋予不同的权重,这种方法不仅考量了文本中单词的信息,还结合了单词所在句子在整体文章的重要性,使得结果更加立体和多元化,处理的结果更加准确。
具体应用场景
在图6中示出了本发明实施例的一种具体的应用场景,如图6所示,在本具体应用场景下的网页内容的处理方法主要包括:
1、对HTML进行清洗
读取的HTML正文文本中有很多无效的数据和杂质,比如广告链接、无效文字等。在后续处理之前先对这些杂质进行清洗,去除这些杂质在DOM树中的节点,方便对所述HTML正文文本的后续处理。HTML清洗包括广告链接清洗、图片及图片描述文字清洗、无用HTML标签清洗等。
在本操作中,输入:HTML DOM树;输出:清洗后的DOM树。
2、对HTML进行重结构化
HTML是一种有着高度嵌套性的数据结构,为了方便后续的处理,以段落为最小单位将HTML划分成段落列表,并对结构不规范的DOM结构进行修正。同时保留一些重要的HTML元数据信息,供后续处理。
重结构化得到的列表每一项为一个字典,其中包含的数据如表1所示。
表1
在本操作中,输入:HTML结构数据输出:列表数据,每项为一个字典。
3、数据格式化
这一步主要是对重结构化产出的列表数据进行初步的处理,将其中显示为高亮的文字和点句从正文中剥离开来,形成“标题-段落正文-全部段落”的文本对的数据结构,其中全部段落部分为原始的文本段落。在数据格式化过程中,发现的无意义数据会被过滤掉,如超长文本(>3000)、特殊符号集合、广告语等。
在本操作中,输入:重结构化后的列表数据;输出:格式化后的列表数据,每项为一个“标题-段落正文-全部段落”的文本对。
4、标题融合
在数据格式化的过程中,会将本身为一句话的标题内容拆分成两个标题或者“标题-段落正文-全部段落”的文本对的格式,形成了标题断裂,这主要是由于HTML结构不规范所引起的错误。标题融合就是用来消除该错误。
在本操作中,输入:格式化后的列表数据输出:格式化后的列表数据,融合点句标题。
5、合并邻近的文本对
若形成的文本对中,前面的文本对只有标题,后面的文本对只有段落正文,则将其合并为一个文本对,同时合并两者的全部段落部分。
在本操作中,输入:格式化后的list数据;输出:格式化后的list数据,合并文本对。
6、计算文本对逻辑深度
逻辑深度主要用于识别点句之间的包含关系,方便后续应用程序对本数据的操作。计算逻辑深度的方法如下:
将所有文本对的深度设为0;
针对不同的点句格式(如“1、”与“一、”属于不同的点句样式),分别计算出其覆盖范围;
对每一个范围中的文本对,将其深度加1。
在本操作中,输入:格式化后的列表数据;输出:格式化后的列表数据,加入逻辑深度。
7、正文文本繁简转换
针对有些页面是繁体中文的情况,对处理得到的文本进行繁简转换,将繁体中文转换成简体中文。
在本操作中,输入:格式化后的列表数据;输出:格式化后的列表数据,标题、段落正文和全部段落均为简体中文。
实施例六
图7是本发明实施例六提供的一种网页内容的处理装置的结构图。如图7所示,所述装置包括:正文数据读取模块71、段落列表生成模块72以及标题文本对转化模块73,其中:
正文数据读取模块71,用于读取与待处理网页对应的超文本标记语言HTML结构正文数据。
段落列表生成模块72,用于以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表。
标题文本对转化模块73,用于根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对。
本发明实施例通过读取与待处理网页对应的HTML结构正文数据;以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表;根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对的技术手段,在识别出网页正文各段落中包括的标题以及段落正文,并将其整理归纳到一起生成标题文本对后,可以实现使用识别出的标题文本对中的标题来进一步描述网页内容,扩充网页内容的描述信息的技术效果,极大地简化了页面分析的过程,优化了现有的网页内容的处理技术,满足了人们日益增长的个性化、便捷化的网页内容的处理需求。
在上述各实施例的基础上,所述标题文本对转化模块,可以包括:
目标段落提取单元,用于提取所述段落列表中包括的一个段落作为目标段落;
标题识别单元,用于识别所述目标段落中包括的具有标题属性的内容作为标题;
段落正文获取单元,用于将所述目标段落中除去所述标题之外的内容作为段落正文;
标题文本对构成单元,用于将所述标题、所述段落正文以及所述目标段落各自作为独立整体构成所述标题文本对。
在上述各实施例的基础上,还可以包括,内容滤除单元,用于:
在所述提取所述段落列表中包括的一个段落作为目标段落之后,对所述目标段落进行内容识别,滤除所述目标段落中符合内容滤除条件的段落内容。
在上述各实施例的基础上,所述具有标题属性的数据内容可以包括:设定样式的文本,和/或包括编号的点句文本;其中,所述设定样式包括:高亮、加粗或者设定字体。
在上述各实施例的基础上,还可以包括,第一标题文本对合并模块,用于:
在所述根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对之后,如果相邻的两个均不包括段落正文的标题文本对中,前一标题文本对中的标题仅包括编号,则将所述相邻的两个均不包括段落正文的标题文本对进行标题合并,生成一个新的标题文本对。
在上述各实施例的基础上,还可以包括,第二标题文本对合并模块,用于:
在所述根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对之后,如果相邻的两个标题文本对中,前一标题文本对中未包括段落正文,后一段落文本对中未包括标题,则分别提取所述相邻的两个标题文本对中的段落正文以及标题,生成一个新的标题文本对。
在上述各实施例的基础上,还可以包括,预处理模块,用于:
在所述以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表之前,基于设定数据清洗模板,对所述HTML结构正文数据进行数据清洗;和/或
在所述HTML结构正文数据中,对结构不规范的内容进行结构修正。
在上述各实施例的基础上,还可以包括,元数据信息存储模块,用于:
在所述以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表之后,在所述HTML结构正文数据中,获取与所述段落列表中各段落分别对应的目标元数据;
将与所述各段落分别对应的目标元数据与所述各段落对应存储于所述段落列表中;
其中,所述目标元数据包括下述至少一项:
元素名称、元素深度、元素所包含的文本、元素及其子元素所包含的文本、元素包含的段内标记、元素的兄弟元素数量、元素所包含的超链接特性内容、元素的父层级以及元素是否为叶子节点,所述元素为所述HTML结构正文数据中,与段落对应的HTML元素。
在上述各实施例的基础上,还可以包括,逻辑深度计算模块,用于:
在所述根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对之后,将全部所述标题文本对的逻辑深度设置为预设初始值;
顺序获取一个点句文本形式的标题作为当前操作标题,并确定所述当前操作标题所覆盖的段落范围;
将所述段落范围内的标题文本对的逻辑深度增加设定加权值后,返回执行顺序获取一个点句文本形式的标题作为当前操作标题的操作,直至完成对全部点句文本形式的标题的处理,以得到与各所述标题文本对分别对应的逻辑深度。
在上述各实施例的基础上,还可以包括:字体转换模块,用于:
在所述根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对之后,如果所述段落文本对中包括繁体中文格式的文本,则将所述繁体中文格式的文本转换为简体中文格式的文本。
本发明实施例所提供的网页内容的处理装置可用于执行本发明任意实施例提供的网页内容的处理方法,具备相应的功能模块,实现相同的有益效果。
显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以通过如上所述的服务器实施。可选地,本发明实施例可以用计算机装置可执行的程序来实现,从而可以将它们存储在存储装置中由处理器来执行,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等;或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (20)

1.一种网页内容的处理方法,其特征在于,包括:
读取与待处理网页对应的超文本标记语言HTML结构正文数据;
以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表;
根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对。
2.根据权利要求1所述的方法,其特征在于,根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对包括:
提取所述段落列表中包括的一个段落作为目标段落;
识别所述目标段落中包括的具有标题属性的内容作为标题;
将所述目标段落中除去所述标题之外的内容作为段落正文;
将所述标题、所述段落正文以及所述目标段落各自作为独立整体构成所述标题文本对。
3.根据权利要求2所述的方法,其特征在于,在所述提取所述段落列表中包括的一个段落作为目标段落之后,还包括:
对所述目标段落进行内容识别,滤除所述目标段落中符合内容滤除条件的段落内容。
4.根据权利要求2所述的方法,其特征在于,所述具有标题属性的数据内容包括:设定样式的文本,和/或包括编号的点句文本;
其中,所述设定样式包括:高亮、加粗或者设定字体。
5.根据权利要求2-4任一项所述的方法,其特征在于,在所述根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对之后,还包括:
如果相邻的两个均不包括段落正文的标题文本对中,前一标题文本对中的标题仅包括编号,则将所述相邻的两个均不包括段落正文的标题文本对进行标题合并,生成一个新的标题文本对。
6.根据权利要求2-4任一项所述的方法,其特征在于,在所述根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对之后,还包括:
如果相邻的两个标题文本对中,前一标题文本对中未包括段落正文,后一段落文本对中未包括标题,则分别提取所述相邻的两个标题文本对中的段落正文以及标题,生成一个新的标题文本对。
7.根据权利要求1所述的方法,其特征在于,在所述以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表之前,还包括:
基于设定数据清洗模板,对所述HTML结构正文数据进行数据清洗;和/或
在所述HTML结构正文数据中,对结构不规范的内容进行结构修正。
8.根据权利要求1所述的方法,其特征在于,在所述以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表之后,还包括:
在所述HTML结构正文数据中,获取与所述段落列表中各段落分别对应的目标元数据;
将与所述各段落分别对应的目标元数据与所述各段落对应存储于所述段落列表中;
其中,所述目标元数据包括下述至少一项:
元素名称、元素深度、元素所包含的文本、元素及其子元素所包含的文本、元素包含的段内标记、元素的兄弟元素数量、元素所包含的超链接特性内容、元素的父层级以及元素是否为叶子节点,所述元素为所述HTML结构正文数据中,与段落对应的HTML元素。
9.根据权利要求1所述的方法,其特征在于,在所述根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对之后,还包括:
将全部所述标题文本对的逻辑深度设置为预设初始值;
顺序获取一个点句文本形式的标题作为当前操作标题,并确定所述当前操作标题所覆盖的段落范围;
将所述段落范围内的标题文本对的逻辑深度增加设定加权值后,返回执行顺序获取一个点句文本形式的标题作为当前操作标题的操作,直至完成对全部点句文本形式的标题的处理,以得到与各所述标题文本对分别对应的逻辑深度。
10.根据权利要求1所述的方法,其特征在于,在所述根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对之后,还包括:
如果所述段落文本对中包括繁体中文格式的文本,则将所述繁体中文格式的文本转换为简体中文格式的文本。
11.一种网页内容的处理装置,其特征在于,包括:
正文数据读取模块,用于读取与待处理网页对应的超文本标记语言HTML结构正文数据;
段落列表生成模块,用于以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表;
标题文本对转化模块,用于根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对。
12.根据权利要求11所述的装置,其特征在于,所述标题文本对转化模块,包括:
目标段落提取单元,用于提取所述段落列表中包括的一个段落作为目标段落;
标题识别单元,用于识别所述目标段落中包括的具有标题属性的内容作为标题;
段落正文获取单元,用于将所述目标段落中除去所述标题之外的内容作为段落正文;
标题文本对构成单元,用于将所述标题、所述段落正文以及所述目标段落各自作为独立整体构成所述标题文本对。
13.根据权利要求12所述的装置,其特征在于,还包括,内容滤除单元,用于:
在所述提取所述段落列表中包括的一个段落作为目标段落之后,对所述目标段落进行内容识别,滤除所述目标段落中符合内容滤除条件的段落内容。
14.根据权利要求12所述的装置,其特征在于,所述具有标题属性的数据内容包括:设定样式的文本,和/或包括编号的点句文本;
其中,所述设定样式包括:高亮、加粗或者设定字体。
15.根据权利要求12-14任一项所述的装置,其特征在于,还包括,第一标题文本对合并模块,用于:
在所述根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对之后,如果相邻的两个均不包括段落正文的标题文本对中,前一标题文本对中的标题仅包括编号,则将所述相邻的两个均不包括段落正文的标题文本对进行标题合并,生成一个新的标题文本对。
16.根据权利要求12-14任一项所述的装置,其特征在于,还包括,第二标题文本对合并模块,用于:
在所述根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对之后,如果相邻的两个标题文本对中,前一标题文本对中未包括段落正文,后一段落文本对中未包括标题,则分别提取所述相邻的两个标题文本对中的段落正文以及标题,生成一个新的标题文本对。
17.根据权利要求11所述的装置,其特征在于,还包括,预处理模块,用于:
在所述以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表之前,基于设定数据清洗模板,对所述HTML结构正文数据进行数据清洗;和/或
在所述HTML结构正文数据中,对结构不规范的内容进行结构修正。
18.根据权利要求11所述的装置,其特征在于,还包括,元数据信息存储模块,用于:
在所述以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表之后,在所述HTML结构正文数据中,获取与所述段落列表中各段落分别对应的目标元数据;
将与所述各段落分别对应的目标元数据与所述各段落对应存储于所述段落列表中;
其中,所述目标元数据包括下述至少一项:
元素名称、元素深度、元素所包含的文本、元素及其子元素所包含的文本、元素包含的段内标记、元素的兄弟元素数量、元素所包含的超链接特性内容、元素的父层级以及元素是否为叶子节点,所述元素为所述HTML结构正文数据中,与段落对应的HTML元素。
19.根据权利要求11所述的装置,其特征在于,还包括,逻辑深度计算模块,用于:
在所述根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对之后,将全部所述标题文本对的逻辑深度设置为预设初始值;
顺序获取一个点句文本形式的标题作为当前操作标题,并确定所述当前操作标题所覆盖的段落范围;
将所述段落范围内的标题文本对的逻辑深度增加设定加权值后,返回执行顺序获取一个点句文本形式的标题作为当前操作标题的操作,直至完成对全部点句文本形式的标题的处理,以得到与各所述标题文本对分别对应的逻辑深度。
20.根据权利要求11所述的装置,其特征在于,还包括:字体转换模块,用于:
在所述根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对之后,如果所述段落文本对中包括繁体中文格式的文本,则将所述繁体中文格式的文本转换为简体中文格式的文本。
CN201610807127.3A 2016-09-07 2016-09-07 网页内容的处理方法和装置 Active CN106446072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610807127.3A CN106446072B (zh) 2016-09-07 2016-09-07 网页内容的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610807127.3A CN106446072B (zh) 2016-09-07 2016-09-07 网页内容的处理方法和装置

Publications (2)

Publication Number Publication Date
CN106446072A true CN106446072A (zh) 2017-02-22
CN106446072B CN106446072B (zh) 2019-10-18

Family

ID=58164796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610807127.3A Active CN106446072B (zh) 2016-09-07 2016-09-07 网页内容的处理方法和装置

Country Status (1)

Country Link
CN (1) CN106446072B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273491A (zh) * 2017-06-15 2017-10-20 华中师范大学 网页分割方法、装置及电子设备
CN107358208A (zh) * 2017-07-14 2017-11-17 北京神州泰岳软件股份有限公司 一种pdf文档结构化信息提取方法及装置
CN107766477A (zh) * 2017-09-30 2018-03-06 武汉汉思信息技术有限责任公司 页面结构化数据提取方法、终端设备及存储介质
CN109033282A (zh) * 2018-07-11 2018-12-18 山东邦尼信息科技有限公司 一种基于抽取模板的网页正文抽取方法及装置
CN110020268A (zh) * 2017-07-28 2019-07-16 北京国双科技有限公司 页面返回方法及装置
CN110377884A (zh) * 2019-06-13 2019-10-25 北京百度网讯科技有限公司 文档解析方法、装置、计算机设备及存储介质
CN112651217A (zh) * 2019-10-09 2021-04-13 珠海金山办公软件有限公司 论文文档的处理方法、处理装置、电子设备及存储介质
CN113283216A (zh) * 2021-05-31 2021-08-20 平安国际智慧城市科技股份有限公司 网页内容显示方法、装置、设备及存储介质
CN116304060A (zh) * 2023-05-16 2023-06-23 北京拓普丰联信息科技股份有限公司 一种基于聚类构建通用词库的方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070067370A1 (en) * 2005-09-16 2007-03-22 Tadashi Honda Information processing apparatus, information displaying apparatus, and information processing method
CN105359144A (zh) * 2013-06-04 2016-02-24 谷歌公司 用于意图查询的自然语言搜索结果
CN105677764A (zh) * 2015-12-30 2016-06-15 百度在线网络技术(北京)有限公司 信息提取方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070067370A1 (en) * 2005-09-16 2007-03-22 Tadashi Honda Information processing apparatus, information displaying apparatus, and information processing method
CN105359144A (zh) * 2013-06-04 2016-02-24 谷歌公司 用于意图查询的自然语言搜索结果
CN105677764A (zh) * 2015-12-30 2016-06-15 百度在线网络技术(北京)有限公司 信息提取方法和装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273491B (zh) * 2017-06-15 2020-07-24 华中师范大学 网页分割方法、装置及电子设备
CN107273491A (zh) * 2017-06-15 2017-10-20 华中师范大学 网页分割方法、装置及电子设备
CN107358208A (zh) * 2017-07-14 2017-11-17 北京神州泰岳软件股份有限公司 一种pdf文档结构化信息提取方法及装置
CN110020268B (zh) * 2017-07-28 2022-04-12 北京国双科技有限公司 页面返回方法及装置
CN110020268A (zh) * 2017-07-28 2019-07-16 北京国双科技有限公司 页面返回方法及装置
CN107766477A (zh) * 2017-09-30 2018-03-06 武汉汉思信息技术有限责任公司 页面结构化数据提取方法、终端设备及存储介质
CN109033282A (zh) * 2018-07-11 2018-12-18 山东邦尼信息科技有限公司 一种基于抽取模板的网页正文抽取方法及装置
CN110377884A (zh) * 2019-06-13 2019-10-25 北京百度网讯科技有限公司 文档解析方法、装置、计算机设备及存储介质
CN112651217A (zh) * 2019-10-09 2021-04-13 珠海金山办公软件有限公司 论文文档的处理方法、处理装置、电子设备及存储介质
CN112651217B (zh) * 2019-10-09 2023-12-26 珠海金山办公软件有限公司 论文文档的处理方法、处理装置、电子设备及存储介质
CN113283216A (zh) * 2021-05-31 2021-08-20 平安国际智慧城市科技股份有限公司 网页内容显示方法、装置、设备及存储介质
CN116304060A (zh) * 2023-05-16 2023-06-23 北京拓普丰联信息科技股份有限公司 一种基于聚类构建通用词库的方法、装置及电子设备
CN116304060B (zh) * 2023-05-16 2023-08-25 北京拓普丰联信息科技股份有限公司 一种基于聚类构建通用词库的方法、装置及电子设备

Also Published As

Publication number Publication date
CN106446072B (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN106446072A (zh) 网页内容的处理方法和装置
Zheng et al. Template-independent news extraction based on visual consistency
CN111581376B (zh) 一种知识图谱自动构建系统及方法
CN106021392A (zh) 一种新闻关键信息的提取方法及系统
CN111767732A (zh) 基于图注意力模型的文档内容理解方法及系统
CN110321549B (zh) 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法
CN103491116A (zh) 正文相关的结构化数据的处理方法及装置
Evert A Lightweight and Efficient Tool for Cleaning Web Pages.
CN108733813A (zh) 面向bbs论坛网页内容的信息提取方法、系统及介质
CN112257462A (zh) 一种基于神经机器翻译技术的超文本标记语言翻译方法
CN105740355B (zh) 基于聚集文本密度的网页正文提取方法及装置
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
CN111967267A (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN103699370A (zh) 一种基于xml的问卷脚本语言设计和开发方法
CN106227770A (zh) 一种智能化的新闻网页信息抽取方法
CN110489514B (zh) 提升事件抽取标注效率的系统及方法、事件抽取方法及系统
Jou Schema extraction for deep web query interfaces using heuristics rules
CN117034948A (zh) 基于多特征自适应融合的段落识别方法、系统及存储介质
CN110083760B (zh) 一种基于可视块的多记录型动态网页信息提取方法
CN111951079A (zh) 一种基于知识图谱的信用评级方法、装置及电子设备
CN107451215B (zh) 特征文本抽取方法及装置
CN116049437A (zh) 基于自标签与prompt的文档级低资源场景的要素抽取方法
CN116306506A (zh) 一种基于内容识别的智能邮件模板方法
Newman et al. A controllable QA-based framework for decontextualization
CN114564638A (zh) 一种基于深度图神经网络的新闻收集及自动化提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant