CN105786828A - 页面提取方法及装置、设备终端 - Google Patents

页面提取方法及装置、设备终端 Download PDF

Info

Publication number
CN105786828A
CN105786828A CN201410804957.1A CN201410804957A CN105786828A CN 105786828 A CN105786828 A CN 105786828A CN 201410804957 A CN201410804957 A CN 201410804957A CN 105786828 A CN105786828 A CN 105786828A
Authority
CN
China
Prior art keywords
web page
list area
daughter
list
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410804957.1A
Other languages
English (en)
Inventor
梁捷
唐俊开
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou UCWeb Computer Technology Co Ltd
Guangzhou Dongjing Computer Technology Co Ltd
Original Assignee
Guangzhou Dongjing Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Dongjing Computer Technology Co Ltd filed Critical Guangzhou Dongjing Computer Technology Co Ltd
Priority to CN201410804957.1A priority Critical patent/CN105786828A/zh
Publication of CN105786828A publication Critical patent/CN105786828A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种页面提取方法及装置、设备终端,其中的方法包括对HTML网页的网页元素进行列表区域识别;以及提取识别出的列表区域的页面内容。利用上述发明能够通过对列表区域的识别有效地抓取不同结构的页面内容,提高用户多种屏幕浏览网页的体验。

Description

页面提取方法及装置、设备终端
技术领域
本发明涉及移动互联网技术领域,更为具体地,涉及一种页面提取方法及装置、设备终端。
背景技术
随着科技的进步,互联网已进入多端多屏的时代,访问网站的终端设备也不再局限于PC时代的大屏浏览器。通过网页转码,可以将传统的PC网页页面转换为适合平板电脑、智能手机、TV(电视)等多种屏幕浏览的页面,从而提高用户体验。
传统的转码过程,都是按预设规则(如关键字)抽取页面内容,然后进行转码。然而,网站都会存在升级改版的现象,对于这些改版的页面再利用原有的预设规则很有可能抽取不到页面内容,此时若对这些新页面再次进行转码,就需要重新设置规则。如一个网站的导航,可以利用class或ID的属性作为关键字来识别是否为导航区域,然而导航的属性是会发生变化的,例如导航改版前的属性值为nav,改版后的属性变成navlist,此时,利用原有的针对nav设置的规则就不能正确抽取该区域的内容并进行转码。
一般情况下,同一类型的站点通常是由一套程序或模板生成出来的,例如论坛系统、博客系统等,对于这类站点,其网页结构都是相类似的,特别是网页的ID以及class等元素属性,都有部分相似或者相同。因此可以通过ID或class来区分各种有价值的页面内容进而分析页面特征。但实际上网页是海量的,而且网页的ID和class是开发人员定义的一套命名规则,不同的站点、不同的开发人员都可能有自己的一套命名规则。因此,不可能完全依赖ID或class属性来识别网页结构。另一方面,网页结构组合形式多样,也无法完全利用这些命名规则去判定一个页面特性。
综上所述,传统的网页转码方式,需要不断维护抽取页面内容的预设规则,不能有效地抽取页面以进行转码。
发明内容
鉴于上述问题,本发明的目的是提供一种页面提取方法及装置、设备终端,以解决传统网页转码方式中,需要不断维护抽取页面内容的预设规则,不能有效地抽取页面以进行转码的问题。
根据本发明的一个方面,提供了一种页面提取方法,包括对HTML网页的网页元素进行列表区域识别;提取识别出的列表区域的页面内容。
其中,对HTML网页的网页元素进行列表区域识别的过程包括:识别所述网页元素是否为table元素并确认识别出的网页元素是否为列表区域的步骤;其中,
在HTML网页的列表由table元素结合tr和td元素实现,且table元素所包含的多个tr子元素含有相等数量的td子元素,各td子元素的DOM结构均相同时,确定table元素为列表区域;或者,在table元素包含一个tr元素,且tr元素的td子元素的DOM结构相同时,确定table元素为列表区域。
其中,对HTML网页的网页元素进行列表区域识别的过程还包括:识别所述网页元素是否为ul/ol元素,并确认识别出的网页元素是否为列表区域的步骤;其中,
在HTML网页的列表由ul/ol元素结合li元素实现,且ul/ol元素的子元素均为li元素以及各li元素的子元素的DOM结构均相同时,确定ul/ol元素为列表区域。
其中,对HTML网页的网页元素进行列表区域识别的过程还包括:识别所述网页元素是否为dt元素,并确认识别出的网页元素是否为列表区域的步骤;其中,
在HTML网页的列表由dt结合dl元素实现,且dt元素的子元素均为dl元素,各dl元素的DOM结构均相同时,确定dt元素为列表区域。
其中,对HTML网页的网页元素进行列表区域识别的过程还包括:识别所述网页元素是否为div元素,并确认识别出的网页元素是否为列表区域的步骤;其中,
在HTML网页的列表由div元素实现,且div元素的子元素均相同,div元素的子元素的DOM结构均相同时,确定div元素为列表区域。
其中,在对HTML网页的网页元素进行列表区域识别的过程中,依次识别网页元素是否为table元素、ul/ol元素、dt元素或div元素,并确认识别出的网页元素是否为列表区域。
根据本发明的另一方面,提供了一种页面提取装置,包括识别单元,用于对获取的HTML网页的网页元素进行列表区域识别;提取单元,用于提取识别出的列表区域的页面内容。
其中,识别单元包括以下识别单元的至少一个:
table元素识别单元,用于在HTML网页的列表由table元素结合tr和td元素实现,且table元素所包含的多个tr子元素含有相等数量的td子元素,td子元素的DOM结构均相同时,确定table元素为列表区域;或者,在table元素包含一个tr元素,且tr元素的td子元素的DOM结构相同时,确定table元素为列表区域;
ul/ol元素识别单元,用于在HTML网页的列表由ul/ol元素结合li元素实现,且ul/ol元素的子元素均为li元素以及各li元素的子元素的DOM结构均相同时,确定ul/ol元素为列表区域;
dt元素识别单元,用于在HTML网页的列表由dt结合dl元素实现,且dt元素的子元素均为dl元素,各dl元素的DOM结构均相同时,确定dt元素为列表区域;
div元素识别单元,用于在HTML网页的列表由div元素实现,且div元素的子元素均相同,div元素的子元素的DOM结构均相同时,确定div元素为列表区域。
其中,在对获取的HTML网页的网页元素进行列表区域识别的过程中,识别单元依次识别网页元素是否为table元素、ul/ol元素、dt元素或div元素,并确认识别出的网页元素是否为列表区域。
本发明还提供一种设备终端,包括上述页面提取装置。
利用上述根据本发明的页面提取方法及装置、设备终端,通过对网页元素进行列表区域的识别,确认网页的列表区域,进而提取识别出的列表区域的页面内容并进行转码,不需要预设规则来抽取页面,当有新增页面或者是页面改版时,也不用增加预设规则,能够通过对网页元素的判断,有效地提取页面信息并进行转码,抓取不同结构的网页内容,提高用户多种屏幕浏览网页的体验。
为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。
附图说明
通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1为根据本发明实施例的页面提取方法的流程图;
图2为根据本发明实施例的页面提取方法的详细流程图;
图3为根据本发明实施例的页面提取装置的方框示意图;
图4为根据本发明实施例的设备终端的方框示意图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。
为了更清楚地说明本发明的技术方案,下面先简单说明本发明中所涉及的一些概念。
列表,由一或多个相同特征的数据项组成,每一种列表都含有各种有价值的数据信息,这些数据信息有可以是导航、友情链接、精华列表、文章列表、排行榜、分类列表等。网页中使用HTML(HypertextMarkupLanguage,超文本标记语言)实现的列表功能通常有以下几种方式:
1)使用table结合tr(tablerow,定义表格的行)和td(tabledatacell,定义表格单元)元素实现列表;
2)使用ul(unorderedlist,定义无序列表)或ol(orderedlist,定义有序列表)结合li(listitem,定义列表的项目)元素实现列表;
3)使用dt(definitionterm,定义定义项目)和dl(definitionlist,定义定义列表)元素结合实现列表;
4)使用div(division,定义文档中的节)元素实现。
“网页结构”和“网页展现形式”之间的关系。简单地说,网页结构是一棵具有树状结构的代码组合,网页的展现形式由一个或多个区域/块组合而成,这些区域/块之间又存在着相互嵌套的关系,因此可以将网页视为一个或多个区域的组合。组合为网页的每个区域都有其各自的功能,而且每个区域的结构也各有不同,比如导航、用户信息、图片列表等区域。但是,对于每一个区域而言,只要存在具有平等关系的数据项,就可以据此判断出这些数据项所对应的区域/块必然具有同等的网页结构,这种网页结构可以被视为一种特殊的列表。
列表区域是由一个或多个列表内部的数据项组成的可视化界面区域,通常这些区域的界面展现形式是具有多样性的,但是使用HTML实现的列表其数据结构模式是单一的,有规律可循的,也就是说使用HTML实现的列表内的每一个数据项所对应的网页结构是一致的。结合网页结构和列表区域原理,通过分析即可判断网页结构中的区域是否为列表区域,从而可以根据列表区域抽取页面内容。
根据上述理论依据,本发明对页面列表区域进行全面抽取,当列表区域抽取成功后,通过程序对这些区域进行分析抓取有价值的数据并进行转码,不依赖各站点,也不用增加预设规则,进而解决前述对于改版后的页面不能利用原有的预设规则进行网页抽取,需重新设置规则对新页面进行转码的问题。
以下将结合附图对本发明的具体实施例进行详细描述。
图1示出了根据本发明实施例的页面提取方法的流程。
如图1所示,本发明提供的页面提取方法包括:
S110:对HTML网页的网页元素进行列表区域识别。
具体地,在对网页元素进行列表区域识别的过程中,针对不同实现方式形成的列表,分别对其构成元素进行列别区域的识别。
1)、识别网页元素是否为table元素并确认识别出的网页元素是否为列表区域的步骤;其中,在HTML网页的列表由table元素结合tr和td元素实现,且table元素所包含的多个tr子元素含有相等数量的td子元素,各td子元素的DOM结构均相同时,确定table元素为列表区域;或者,在table元素包含一个tr元素,且tr元素的td子元素的DOM结构相同时,确定table元素为列表区域。
换言之,在列表由table元素结合tr和td元素实现时,对table元素是否为列表区域进行判断。其中,若网页元素为table元素,则判断该table元素是否含有多个tr子元素,如果是则判断各tr子元素是否含有相等数量的td子元素以及各td子元素的DOM(DocumentObjectModel,文件对象模型)结构是否相同,如果是则确定该table元素为列表区域,否则,如果table元素含有一个tr子元素,则判断tr元素的td子元素的DOM结构是否相同,如果是则确定table元素为列表区域。
需要说明的是,在获取HTML网页的网页元素后,首先判断该元素是否为table元素,若该网页元素为table元素则进一步分析该table元素是否含有多个tr元素,如果是则进一步判断各tr子元素是否含有相等数量的td子元素以及各td子元素的DOM结构是否相同,在各tr元素含有相同数量的td元素以及各td元素的DOM结构均相同的情况下,即可确定该table元素为列表区域,否则,直接退出;
如果table元素只含有一个tr元素,则判断该tr元素是否含有多个td元素,如果是则进一步判断各td元素的DOM结构是否相同,如果是则确定该table元素为列表区域,否则如果该tr元素不含有多个td元素,则直接退出,并执行下一步操作。
2)、识别网页元素是否为ul/ol元素,并确认识别出的网页元素是否为列表区域的步骤;其中,在HTML网页的列表由ul/ol元素结合li元素实现,且ul/ol元素的子元素均为li元素以及各li元素的子元素的DOM结构均相同时,确定ul/ol元素为列表区域。
换言之,在HTML网页的列表由ul元素结合li元素实现,且ul元素的子元素均为li元素以及各li元素的子元素的DOM结构均相同时,确定ul元素为列表区域;同时,在HTML网页的列表由ol元素结合li元素实现,且ol元素的子元素均为li元素以及各li元素的子元素的DOM结构均相同时,确定ol元素为列表区域。
具体地,在列表由ul/ol元素结合li元素实现时,对ul/ol元素是否为列表区域进行判断。其中,若网页元素是ul/ol元素,判断ul/ol元素的子元素是否均为li元素以及各li元素的子元素的DOM结构是否相同,如果是则确定ul/ol元素为列表区域。即在网页元素为ul/ol元素时,判断该ul/ol元素的子元素是否全部为li元素以及各li元素的子元素的DOM结构是否相同,在ul/ol元素的子元素全部为li元素且各li元素的子元素的DOM结构相同的情况下,即可确定该ul/ol元素为列表区域,否则,在ul/ol元素的子元素不全为li元素或者ul/ol元素的子元素全为li元素,但各li元素的子元素的DOM结构不全相同时,ul/ol元素不是列表区域,可直接退出并执行下一步判断。
3)、识别网页元素是否为dt元素,并确认识别出的网页元素是否为列表区域的步骤;其中,在HTML网页的列表由dt结合dl元素实现,且dt元素的子元素均为dl元素,各dl元素的DOM结构均相同时,确定dt元素为列表区域。
具体地,在网页元素为dt元素时,对dt元素是否为列表区域进行判断。其中,在网页元素为dt元素时,判断dt元素的子元素是否全部为dl子元素以及各dl子元素的DOM结构是否相同,如果是则确定dt元素为列表区域。否则,在dt元素的子元素不全部为dl元素或者dl元素的DOM结构不相同时,直接退出识别,进行下一步骤。
4)、识别网页元素是否为div元素,并确认识别出的网页元素是否为列表区域的步骤;其中,在HTML网页的列表由div元素实现,且div元素的子元素均相同,div元素的子元素的DOM结构均相同时,确定div元素为列表区域。
具体地,判断div元素是否为列表区域的过程包括判断div元素的子元素是否均为相同的元素以及div元素的子元素的DOM结构是否相同,如果是则确定div元素为列表区域。即在网页元素不是table元素也不是ol或ul元素时,判断该网页元素是否为div元素,如果是则进一步判断该div元素的子元素是否全部为同一种元素以及该div元素的子元素的DOM结构是否相同,如果是即确定div元素为列表区域,也就是说在div元素的子元素为同一种元素且该子元素的DOM结构相同的情况下,可以确定该div元素为列表区域。
需要说明的是,本发明提供的页面提取方法,在对HTML网页的网页元素进行列表区域识别的过程中,依次识别网页元素是否为table元素、ul/ol元素、dt元素或div元素,并确认识别出的网页元素是否为列表区域。
具体地,在获取HTML网页的网页元素后,首先判断所获取的HTML网页的网页元素是否为table元素;如果网页元素是table元素,则判断table元素是否为列表区域;如果网页元素不是table元素,则判断网页元素是否为ul或ol元素;如果网页元素是ul或ol元素,则判断ul或ol元素是否为列表区域;如果网页元素不是ul或ol元素,则判断网页元素是否为dt元素,如果网页元素为dt元素,则判断dt元素是否为列表区域;否则,进一步判断网页元素是否为div元素;如果网页元素是div元素,则判断div元素是否为列表区域。
此外,在各网页元素的判断步骤中,每确认出一个列表区域后,直接退出并返回列表区域对应的元素,否则,直接退出并返回不是区域列表的标识。并在确认列表区域后,获取列表区域的页面数据,进行网页转码。
S220:提取识别出的所述列表区域的页面内容。
针对识别出的列别区域,提取其页面内容,并进行转码,将传统网页页面转换为适合多种屏幕浏览的页面,从而提高用户的浏览体验。
通过本发明的页面提取方法,依次对网页元素进行判断,能够全面地对页面列表区域进行抽取,并在列表区域抽取成功之后,通过相应的程序对这些列表区域进行分析并抓取有价值的数据,通过对这些有价值的数据进行转码操作,实现适用于多种终端平台下的页面浏览服务,提高用户体验。同时,在列表是由多个div元素、多个table元素、多个ul或ol元素组成的数据项的情况下,通过读取网页的ID或class属性,分析确定列表区域。
具体地,为了进一步的描述本发明的页面提取方法,以下将对该方法的详细步骤进行阐述,图2示出了根据本发明实施例的页面提取方法的详细流程。
如图2所示,本发明提供的页面提取方法的详细步骤包括:
S201:开始对页面列表区域的识别操作;
S202:获取网页元素,并进行判断;
S203:判断网页元素是否为table元素,如果是则执行步骤S204,否则执行步骤S207;
S204:在网页元素确定为table元素后,判断table元素是否含有多个tr元素,如果是则执行步骤S205,否则执行步骤S206;
S205:在table元素含有多个tr元素的情况下,判断各tr元素是否含有相同数量的td元素,如果是则执行步骤S206,否则执行步骤S207;
S206:在tr元素含有相同数量的td元素时或者是table元素只含有一个tr元素时,进一步判断td元素的DOM结构是否相同,如果是则执行步骤S210,确认table元素为列表区域,否则执行步骤S207;
S207:在网页元素不为table元素,或者是在元素为table元素但其所含子元素不符合列表区域条件时,进一步判断网页元素是否为ul或ol元素,如果是执行步骤S208,否则执行步骤S210;
S208:在网页元素为ul或ol元素时,进一步判断ul或ol元素的子元素是否全部为li元素,如果是执行步骤S209,否则执行步骤S210;
S209:在ul或ol元素的子元素全部为li元素的情况下,判断各li元素的子元素的DOM结构是否相同,如果是则执行步骤S213,否则执行步骤S210;
S210:在网页元素不为ul或ol元素,或者是在元素为ul或ol元素但其所含子元素不符合列表区域条件时,进一步判断网页元素是否为div元素;
S211:在获取的网页元素为div元素时,判断该div元素的子元素是否为同一种元素,即该div元素的所有子元素是否相同,如果是执行步骤S212,否则执行步骤S214,直接退出。
S212:当div元素仅含有一种子元素时,判断子元素的DOM结构是否相同,如果是则确认div元素为列表区域,否则直接退出。
S213:确认页面列表区域,并返回与列表区域对应的网页元素。
S214:提取所确认的列表区域的页面内容。
S215:结束并退出。
列表区域是由一个或多个列表数据项组成的可视化界面区域,通常这种区域的界面展现形式是多种多样的,但是HTML的数据结构模式确是单一、有规律可循的,也就是说每一种数据项对应的网页结构是一致的,而网页由具有树形结构的DOM组成,DOM主要由div、table、ul等关键元素标签组合而成。在上述网页的特点的基础上,本发明认识到,根据W3C(WorldWideWebConsortium,万维网联盟)标准的要求,只要使用标准定义的元素进行页面布局和排版,再结合DOM结构和列表区域的原理,通过一定的分析流程就能够判断网页区域是否为列表区域,从而根据列表区域抽取页面内容进行转码,增强用户在多种终端浏览网页的体验。
对应上述页面提取方法,本发明还提供一种页面提取装置,用于对获取的HTML网页的网页元素进行列表区域识别,并提取识别出的列表区域的页面内容。具体地,图3示出了根据本发明实施例的页面提取装置的结构。
如图3所示,本发明提供的页面提取装置300包括识别单元310和提取单元320;其中,识别单元310用于对获取的HTML网页的网页元素进行列表区域识别,提取单元320用于提取识别出的列表区域的页面内容。
具体地,识别单元310可以包括以下识别单元的至少一个:able元素识别单元311、ul/ol元素识别单元312、dt元素识别单元313、div元素识别单元314:其中,
table元素识别单元311,用于在HTML网页的列表由table元素结合tr和td元素实现,且table元素所包含的多个tr子元素含有相等数量的td子元素,td子元素的DOM结构均相同时,确定table元素为列表区域;或者,在table元素包含一个tr元素,且tr元素的td子元素的DOM结构相同时,确定table元素为列表区域。
即判断table元素是否含有多个tr元素,如果是则判断各tr元素是否含有相等数量的td子元素以及各td子元素的DOM结构是否相同,如果是则确定table元素为列表区域,否则,如果table元素含有一个tr子元素,则判断tr元素的td子元素的DOM结构是否相同,如果是则确定table元素为列表区域,否则直接退出对该元素的识别。
ul/ol元素识别单元312,用于在HTML网页的列表由ul/ol元素结合li元素实现,且ul/ol元素的子元素均为li元素以及各li元素的子元素的DOM结构均相同时,确定ul/ol元素为列表区域。
在网页元素不是table元素时,判断网页元素是否为ul或ol元素,如果是则判断ul或ol元素是否为列表区域。即判断ul或ol元素的子元素是否全部为li元素以及各li元素的子元素的DOM结构是否相同,如果是则确定ul或ol元素为列表区域。
dt元素识别单元313,用于在HTML网页的列表由dt结合dl元素实现,且dt元素的子元素均为dl元素,各dl元素的DOM结构均相同时,确定dt元素为列表区域。
具体地,在判断出网页元素不是ul或ol元素时,进一步判断网页元素是否为dt元素,如果是则判断dt元素的子元素是否全部为dl子元素以及各dl子元素的DOM结构是否相同,如果是则确定dt元素为列表区域。在网页元素不为dt元素或者dt元素的子元素不全部为dl元素或者dl元素的DOM结构不相同的情况下,进一步分析该网页元素是否为div元素。在此过程中,分析dt元素的过程与分析ul或ol元素的原理是相同的。
div元素识别单元314,用于在HTML网页的列表由div元素实现,且div元素的子元素均相同,div元素的子元素的DOM结构均相同时,确定div元素为列表区域。
网页元素不是ul元素时,判断网页元素是否为div元素,如果是则判断div元素是否为列表区域。即判断div元素的子元素是否全部为相同的元素以及div元素的子元素的DOM结构是否相同,如果是则确定div元素为列表区域。
其中,在本发明的一个具体实施方式中,识别单元在对获取的HTML网页的网页元素进行列表区域识别的过程中,依次识别网页元素是否为table元素、ul/ol元素、dt元素或div元素,并确认识别出的网页元素是否为列表区域。
具体地,在对页面列表区域识别过程中,首先获取HTML网页的网页元素,并通过table元素判断单元311,判断该元素是否为table元素以及在该元素为table元素时判断其是否为列表区域,如果是则退出并返回与列表区域对应的网页元素table元素;
否则,通过ul或ol元素判断单元312,判断该元素是否为ul或ol元素以及在该元素为ul或ol元素时判断其是否为列表区域,如果是则退出并返回与列表区域对应的网页元素ul或ol元素;
否则,通过dt元素识别单元313判断该元素是够为dt元素,并在该元素为dt元素时判断其是否为列表区域,如果是则退出并返回与列表区域对应的网页元素dt元素;
否则,通过div元素判断单元313,判断该元素是否为div元素以及该元素为div元素时,判断其是否为列表区域,如果是则退出并返回与列表区域对应的网页元素div元素。
在通过识别单元310识别出页面列表区域后,通过提取单元320提取识别出的列表区域的页面内容。并对获取的列表区域的页面内容进行转码,在上述各识别单元中,每确认出一个列表区域后,直接退出并返回列表区域对应的元素,否则退出返回不是列表区域的标识。
此外,本发明还提供一种设备终端,参见图4,该设备终端400包括上述页面提取装置300,其中页面提取装置300为前述实施例中所描述的结构,具体参见前面描述,此处不再赘述。
如上参照附图以示例的方式描述根据本发明的页面提取方法及装置、设备终端。但是,本领域技术人员应当理解,对于上述本发明所提出的页面提取方法及装置、设备终端,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。

Claims (10)

1.一种页面提取方法,包括:
对HTML网页的网页元素进行列表区域识别;
提取识别出的所述列表区域的页面内容。
2.如权利要求1所述的页面提取方法,其中,对HTML网页的网页元素进行列表区域识别的过程包括:识别所述网页元素是否为table元素并确认识别出的网页元素是否为列表区域的步骤;其中,
在所述HTML网页的列表由table元素结合tr和td元素实现,且所述table元素所包含的多个tr子元素含有相等数量的td子元素,各td子元素的DOM结构均相同时,确定所述table元素为列表区域;或者,
在所述table元素包含一个tr元素,且所述tr元素的td子元素的DOM结构相同时,确定所述table元素为列表区域。
3.如权利要求2所述的页面提取方法,其中,对HTML网页的网页元素进行列表区域识别的过程还包括:识别所述网页元素是否为ul/ol元素,并确认识别出的网页元素是否为列表区域的步骤;其中,
在所述HTML网页的列表由ul/ol元素结合li元素实现,且所述ul/ol元素的子元素均为li元素以及所述各li元素的子元素的DOM结构均相同时,确定所述ul/ol元素为列表区域。
4.如权利要求3所述的页面提取方法,其中,对HTML网页的网页元素进行列表区域识别的过程还包括:识别所述网页元素是否为dt元素,并确认识别出的网页元素是否为列表区域的步骤;其中,
在所述HTML网页的列表由dt结合dl元素实现,且所述dt元素的子元素均为dl元素,各dl元素的DOM结构均相同时,确定所述dt元素为列表区域。
5.如权利要求4所述的页面提取方法,其中,对HTML网页的网页元素进行列表区域识别的过程还包括:识别所述网页元素是否为div元素,并确认识别出的网页元素是否为列表区域的步骤;其中,
在所述HTML网页的列表由div元素实现,且所述div元素的子元素均相同,所述div元素的子元素的DOM结构均相同时,确定所述div元素为列表区域。
6.如权利要求5所述的页面提取方法,其中,在对HTML网页的网页元素进行列表区域识别的过程中,
依次识别所述网页元素是否为table元素、ul/ol元素、dt元素或div元素,并依次确认识别出的网页元素是否为列表区域。
7.一种页面提取装置,包括:
识别单元,用于对获取的HTML网页的网页元素进行列表区域识别;
提取单元,用于提取识别出的所述列表区域的页面内容。
8.如权利要求7所述的页面提取装置,其中,
所述识别单元包括以下识别单元的至少一个:
table元素识别单元,用于在所述HTML网页的列表由table元素结合tr和td元素实现,且所述table元素所包含的多个tr子元素含有相等数量的td子元素,td子元素的DOM结构均相同时,确定所述table元素为列表区域;或者,在所述table元素包含一个tr元素,且所述tr元素的td子元素的DOM结构相同时,确定所述table元素为列表区域;
ul/ol元素识别单元,用于在所述HTML网页的列表由ul/ol元素结合li元素实现,且所述ul/ol元素的子元素均为li元素以及所述各li元素的子元素的DOM结构均相同时,确定所述ul/ol元素为列表区域;
dt元素识别单元,用于在所述HTML网页的列表由dt结合dl元素实现,且所述dt元素的子元素均为dl元素,各dl元素的DOM结构均相同时,确定所述dt元素为列表区域;
div元素识别单元,用于在所述HTML网页的列表由div元素实现,且所述div元素的子元素均相同,所述div元素的子元素的DOM结构均相同时,确定所述div元素为列表区域。
9.如权利要求8所述的页面提取装置,其中,在对获取的HTML网页的网页元素进行列表区域识别的过程中,
所述识别单元依次识别所述网页元素是否为table元素、ul/ol元素、dt元素或div元素,并确认识别出的网页元素是否为列表区域。
10.一种设备终端,包括如权利要求7至9所述的页面提取装置。
CN201410804957.1A 2014-12-19 2014-12-19 页面提取方法及装置、设备终端 Pending CN105786828A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410804957.1A CN105786828A (zh) 2014-12-19 2014-12-19 页面提取方法及装置、设备终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410804957.1A CN105786828A (zh) 2014-12-19 2014-12-19 页面提取方法及装置、设备终端

Publications (1)

Publication Number Publication Date
CN105786828A true CN105786828A (zh) 2016-07-20

Family

ID=56385580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410804957.1A Pending CN105786828A (zh) 2014-12-19 2014-12-19 页面提取方法及装置、设备终端

Country Status (1)

Country Link
CN (1) CN105786828A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038240A (zh) * 2017-04-20 2017-08-11 金电联行(北京)信息技术有限公司 一种网页列表内容检测方法
CN109284292A (zh) * 2018-09-28 2019-01-29 广东电网有限责任公司 一种移动式作业表单的生成方法、生成系统及相关装置
CN109359221A (zh) * 2018-10-29 2019-02-19 广东电网有限责任公司 移动式作业表单生成方法、装置、设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1732019A1 (en) * 2005-06-06 2006-12-13 THOMSON Licensing Method and device for searching a data unit in a database
CN101105797A (zh) * 2007-08-21 2008-01-16 南京新恺拓网络技术有限公司 一种表格定位的数据挖掘方法
CN101515272A (zh) * 2008-02-18 2009-08-26 株式会社理光 提取网页内容的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1732019A1 (en) * 2005-06-06 2006-12-13 THOMSON Licensing Method and device for searching a data unit in a database
CN101105797A (zh) * 2007-08-21 2008-01-16 南京新恺拓网络技术有限公司 一种表格定位的数据挖掘方法
CN101515272A (zh) * 2008-02-18 2009-08-26 株式会社理光 提取网页内容的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐琴 等: "《CSS+DIV网页样式与布局案例教程》", 31 August 2012 *
潘正才: "《相关实体抽取和主页及支持文档查找研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038240A (zh) * 2017-04-20 2017-08-11 金电联行(北京)信息技术有限公司 一种网页列表内容检测方法
CN107038240B (zh) * 2017-04-20 2020-07-24 金电联行(北京)信息技术有限公司 一种网页列表内容检测方法
CN109284292A (zh) * 2018-09-28 2019-01-29 广东电网有限责任公司 一种移动式作业表单的生成方法、生成系统及相关装置
CN109359221A (zh) * 2018-10-29 2019-02-19 广东电网有限责任公司 移动式作业表单生成方法、装置、设备、存储介质

Similar Documents

Publication Publication Date Title
CN102137306B (zh) 在电视上显示网页内容的方法及装置
KR102455232B1 (ko) 콘텍스트 기반 탭 관리를 위한 방법 및 전자 장치
US9471714B2 (en) Method for increasing the security level of a user device that is searching and browsing web pages on the internet
CN103166981B (zh) 一种无线网页转码方法及装置
US9934206B2 (en) Method and apparatus for extracting web page content
CN101515272B (zh) 提取网页内容的方法和装置
US11907644B2 (en) Detecting compatible layouts for content-based native ads
WO2014127535A1 (en) Systems and methods for automated content generation
CN101714164A (zh) 利用图像分析对互联网进行自动爬行的方法和装置
CN106503211B (zh) 面向信息发布类网站的移动版自动生成的方法
CN102375851A (zh) 一种显示页面的方法及设备
CN101477564B (zh) 一种在窄屏幕设备上显示宽网页的智能布局方法
CN105979393A (zh) 网页页面的显示方法和装置、及智能电视系统
CN106874271A (zh) 一种将pc网页转换为移动终端网页的方法及系统
CN103678497A (zh) 提供调整检索页浏览显示的方法和系统
KR100996037B1 (ko) 무선 인터넷 접속이 가능한 이동 통신 단말기에서 하이퍼링크 정보를 제공하기 위한 장치 및 방법
CN102629251A (zh) 一种网页信息显示方法和装置
CN112699295A (zh) 一种网页内容推荐方法、装置和计算机可读存储介质
JP4389707B2 (ja) 電子機器装置、サーバ装置、Webページ処理方法及びそのプログラム
CN105786828A (zh) 页面提取方法及装置、设备终端
CN104899203B (zh) 一种网页页面的生成方法、装置及终端设备
CN105447191B (zh) 提供图文引导步骤的智能摘要方法及相应装置
Xiang et al. Effective page segmentation combining pattern analysis and visual separators for browsing on small screens
CN111400575B (zh) 用户标识生成方法、用户识别方法及其装置
CN102135958A (zh) 网页撷取方法及网页撷取系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160720