CN102314494B - 一种用于处理网页内容的方法和设备 - Google Patents

一种用于处理网页内容的方法和设备 Download PDF

Info

Publication number
CN102314494B
CN102314494B CN201110247492.0A CN201110247492A CN102314494B CN 102314494 B CN102314494 B CN 102314494B CN 201110247492 A CN201110247492 A CN 201110247492A CN 102314494 B CN102314494 B CN 102314494B
Authority
CN
China
Prior art keywords
webpage
node
feature text
web page
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110247492.0A
Other languages
English (en)
Other versions
CN102314494A (zh
Inventor
张建荣
薛晶晶
李伟刚
秦玄铮
黄胤人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110247492.0A priority Critical patent/CN102314494B/zh
Publication of CN102314494A publication Critical patent/CN102314494A/zh
Application granted granted Critical
Publication of CN102314494B publication Critical patent/CN102314494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明的目的是提供一种用于处理网页内容的方法和设备,其中,本发明根据待处理的网页的相关信息,在特征文本库中进行匹配查询,以获得与所述网页相对应的特征文本,进而用于将所述特征文本在与所述网页相对应的DOM树的各节点中进行匹配查询,以获得包含所述特征文本的特征文本节点,从而根据所述特征文本节点中的特征节点内容,生成与所述网页相对应的新网页。与现有技术相比,本发明将网页中的特征文本在网页的DOM树中进行匹配查询,以提取包含特征文本的特征文本节点的内容,进而生成新的网页,其对于具有特定内容和结构特征的网页的处理效率高,同时,可对网页内容进行重新布局以满足用户的浏览需求,进而提升用户体验。

Description

一种用于处理网页内容的方法和设备
技术领域
本发明涉及互联网技术,尤其涉及用于处理网页内容的技术。
背景技术
随着移动互联网技术的快速发展,越来越多的用户通过移动终端,如智能手机等,访问互联网网页,但因移动终端的屏幕尺寸的限制,当在计算机中浏览的超文本标记语言(HTML)网页在移动终端的屏幕上显示时,现有技术通常利用关键字在该网页的HTML文件中进行匹配查询以获得目标网页内容,并根据约定的规则对该目标网页内容保留或删除,但所述方法对于具有特定内容和结构特征的网页,如论坛页、问答页等,的处理效率偏低,处理的时间成本高,同时,由于其基于原有的网页对网页内容进行处理,不能对网页内容进行重新布局,因此不能很好满足用户的浏览需求,从而降低用户体验。
因此,如何实现有效地对网页内容进行处理,成为目前亟待解决的问题之一。
发明内容
本发明的目的是提供一种用于处理网页内容的方法和设备。
根据本发明的一个方面,提供一种计算机实现的用于处理网页内容的方法:
a获取待处理的网页;
b根据所述网页的相关信息,在特征文本库中进行匹配查询,以获得与所述网页相对应的特征文本;
c将所述特征文本在与所述网页相对应的DOM树的各节点中进行匹配查询,以获得包含所述特征文本的特征文本节点;
d根据所述特征文本节点中的特征节点内容,生成与所述网页相对应的新网页。
根据本发明的另一个方面,还提供了一种用于处理网页内容的设备,该设备包括:
网页获取装置,用于获取待处理的网页;
特征文本获取装置,用于根据所述网页的相关信息,在特征文本库中进行匹配查询,以获得与所述网页相对应的特征文本;
节点获取装置,用于将所述特征文本在与所述网页相对应的DOM树的各节点中进行匹配查询,以获得包含所述特征文本的特征文本节点;
网页生成装置,用于根据所述特征文本节点中的特征节点内容,生成与所述网页相对应的新网页。
与现有技术相比,本发明将网页中的特征文本在网页的DOM树中进行匹配查询,以提取包含特征文本的特征文本节点的内容,进而生成新的网页,其对于具有特定内容和结构特征的网页的处理效率高,同时,可对网页内容进行重新布局以满足用户的浏览需求,进而提升用户体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面用于处理网页内容的设备示意图;
图2示出根据本发明一个用于处理网页内容的示例图;
图3示出根据本发明另一用于处理网页内容的示例图;
图4示出根据本发明一个优选实施例的用于处理网页内容的设备示意图;
图5示出根据本发明另一个优选实施例的用于处理网页内容的设备示意图;
图6示出根据本发明另一个方面用于处理网页内容的方法流程图;
图7示出根据本发明一个优选实施例的用于处理网页内容的方法流程图;
图8示出根据本发明另一优选实施例的用于处理网页内容的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面用于处理网页内容的设备示意图。处理设备1包括网页获取装置11、特征文本获取装置12、节点获取装置13和网页生成装置14。在此,处理设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云,在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
如图1所示,首先,网页获取装置11获取待处理的网页。
具体地,网页获取装置11应事件触发实时地、或定期地从第三方设备中获取待处理的网页。
在一示例中,网页获取装置11根据第三方设备提供的应用编程接口(API),应事件触发实时地、或定期地向该第三方设备发送接收待处理的网页的请求消息,并接收该第三方设备响应于该请求消息返回的一个或多个待处理的网页;或第三方设备主动向处理设备1推送待处理的网页,网页获取装置11接收该(等)待处理的网页。
本领域技术人员应能理解上述获取待处理的网页的方式仅为举例,其他现有的或今后可能出现的获取待处理的网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
接着,特征文本获取装置12根据网页获取装置11获取的待处理的网页的相关信息,在特征文本库中进行匹配查询,以获得与所述网页相对应的特征文本。
具体地,特征文本获取装置12根据网页获取装置11获取的待处理的网页的相关信息,在特征文本库中进行匹配查询,以获得与该待处理的网页相对应的特征文本。
其中,所述网页的相关信息包括但不限于以下至少任一项:
1)所述网页的网络地址,如网页的URL;
2)所述网页所属网站的网络地址。例如,特征文本获取装置12从网页的URL中提取其所属网站的域名或IP地址,以作为该网站的网络地址。
3)所述网页所属网站的网站类型。其中,所述网站类型包括但不限于:论坛网站、问答网站、购物网站等。例如,特征文本获取装置12根据网页所属网站的网络地址,在网页数据库中进行匹配查询,以获得该网页所属网站的网站类型。在此,所述网页数据库中包含网站的网络地址及其相应的网站类型。
本领域技术人员应能理解上述网页的相关信息仅为举例,其他现有的或今后可能出现的网页的相关信息如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
其中,所述特征文本意指用于标注网页中特定内容的文本。例如问答网页中的特征文本可为“最佳答案”、“其他回答”。又例如,购物网页中的特征文本“商品”、“价格”、“评价”等。
其中,所述特征文本库中存储的内容包括但不限于:
1)网页所属网站的网站类型所对应的特征文本。例如,论坛网站的特征文本包括但不限于:“发帖人”、“发布时间”。
2)网页所属网站所对应的特征文本。例如,同一类型网站的特征文本会不同,在博客网站A中标注博文作者的特征文本为“博主”,而在博客网站B中标注博文作者的特征文本为“发布者”。
3)网页所对应的特征文本。
在一示例中,特征文本获取装置12根据网页获取装置11获取的待处理的网页的URL:
http://bbs.life.abc.com.cn/12/thread-289319-1-1.html,
提取该网页所属网站的域名“bbs.life.abc.com.cn”,并据此在网页数据库中进行匹配查询,获得该网页所属网站的网站类型为论坛网站,并根据该网站类型,在特征文本库中进行匹配查询,以获得与论坛网站所对应的特征文本为“发帖人”、“发布时间”等,并将该等特征文本作为与该网页相对应的特征文本。
在另一示例中,特征文本获取装置12根据网页获取装置11获取的待处理的网页的URL:
http://sportshirts.com.cn/11/thread-226319-1-1.html,
提取该网页所属网站的域名“sportshirts.com.cn”作为该网页所属网站的网络地址,并根据该网站的网络地址,在特征文本库中进行匹配查询,获得与该网络地址所对应的特征文本为“商品名称”、“价格”、“评价”等,并将该等特征文本作为与该网页相对应的特征文本。
本领域技术人员应能理解上述获取特征文本的方式仅为举例,其他现有的或今后可能出现的获取特征文本的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,节点获取装置13将特征文本获取装置12获取的网页的特征文本,在与该网页相对应的(文档对象模型)DOM树的各节点中进行匹配查询,以获得包含所述特征文本的特征文本节点。
具体地,节点获取装置13将网页获取装置11获得的网页所对应的标记语言文件解析为DOM树,然后,将特征文本获取装置12获取的与该网页相对应的特征文本在该DOM树的各节点中进行匹配查询,以获得包含该(等)特征文本的特征文本节点。在此,所述DOM树意指通过对标记语言文件进行解析而获得的树结构数据,该树中的各节点与标记语言文件中的标签以及标签内容相对应。其中,所述标记语言文件包括但不限于:
1)超文本标记语言(HTML)文件;
2)可扩展超文本标记语言(XHTML)文件;
3)可扩展标记语言(XML)文件等。
在一示例中,特征文本获取装置12获取的网页的特征文本为“发帖人”、“发布时间”等;则节点获取装置13对该网页包含的HTML文件进行解析并生成与其相对应的DOM树,如图2所示,然后节点获取装置13对该DOM树各个节点中的HTML文件内容分别进行解析,并将该等特征文本在该DOM树的各节点解析后的内容中进行匹配。例如,节点N4包含的HTML文件内容为标签:
“<author name=“发帖人”>”,
节点获取装置13在该节点中获得标签<author>的属性name的属性值为“发帖人”,该“发帖人”与特征文本获取装置12获取的一特征文本相匹配,则节点获取装置13将节点N4作为特征文本节点。
在另一示例中,特征文本获取装置12获取的网页的特征文本为“商品名称”、“价格”、“评价”,节点获取装置13对该网页包含的HTML文件进行解析并生成与其相对应的DOM树,如图2所示,然后对该DOM树的各节点中的HTML文件内容分别进行解析,并将特征文本在各节点解析后的内容中进行匹配。例如,节点N8包含的HTML文件内容为段落文本“商品名称:男士短袖衬衫12M10”,该文本中“商品名称”与特征文本获取装置12获取的一特征文本相匹配,则获取装置13将节点N8作为特征文本节点。
本领域技术人员应能理解上述获取特征文本节点的方式仅为举例,其他现有的或今后可能出现的获取特征文本节点的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,网页生成装置14根据节点获取装置13获取的特征文本节点中的特征节点内容,生成与所述网页相对应的新网页。
具体地,网页生成装置14参照各特征文本节点在其DOM树中的位置,将节点获取装置13获取的该各特征文本节点中的特征节点内容布局在新的网页中,进而生成与网页相对应的新网页。
在一示例中,如图2所示,当网页所属网站类型为论坛网站时,节点获取装置13获取的与网页对应的DOM树中的特征文本节点为N7和N8,且特征文本节点N7中包含特征文本“发帖人”,特征文本节点N8中包含特征文本“发布时间”;网页生成装置14根据该两个特征文本节点N7和N8中的内容,按照N7和N8在该DOM树中从左到右的顺序排列的方式,将N7和N8中的内容布局在新的网页中。
本领域技术人员应能理解上述生成新网页的方式仅为举例,其他现有的或今后可能出现的生成新网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,网页生成装置14可根据节点获取装置13获取的特征文本节点中特征节点内容,并基于与网页所属网站相对应网页模板,生成所述新网页。其中,所述网页模板决定文档的基本结构和文档设置,例如字符格式、段落格式、页面格式等,其可采用层叠样式表(CSS)等技术实现。在此,所述预置的网页模板包括但不限于:
1)对同一网站中的所有网页预置的将该网站网页所对应的特征文本节点内容进行重新布局的网页模板;
2)对同一网站类型预置的将具有该网站类型的所有网页所对应的特征文本节点内容进行重新布局的网页模板。
在一示例中,当网页所属网站类型为论坛网站时,节点获取装置13获取的特征文本节点为N7和N8;网页生成装置14根据N7和N8中的内容,例如N7包含特征文本“发帖人”,N8中包含特征文本“发布时间”,基于网站类型为论坛网站的预置网页模板,将“发帖人”置于网页左上方,“发布时间”置于网页右上方,且字体均设置为宋体,进而布局生成新网页。
本领域技术人员应能理解上述基于网页模板生成新网页的方式仅为举例,其他现有的或今后可能出现的基于网页模板生成新网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,网页生成装置14还可根据节点获取装置13获取的特征文本节点及其相关节点中的特征节点内容,生成所述新网页。其中,所述相关节点包括但不限于以下至少任一项:
1)所述特征文本节点在其DOM树中的子树节点。
在一个示例中,如图3所示,网页所属网站类型为论坛网站,节点获取装置13在该网页所对应的DOM树中获取的特征文本节点为N5,则网页生成装置14提取特征文本节点N5及其在该DOM树中的子树节点N11、N12和N16中节点内容作为特征节点内容,并基于为论坛网站预置的网页模板,将该特征节点内容布局在新网页中。
2)所述特征文本节点在所述其DOM树中的相邻兄弟节点及其子树节点。
在一示例中,如图3所示,网页所属网站类型为购物网站,节点获取装置13在该网页所对应的DOM树中获取的特征文本节点为N3,且特征文本节点N3中包含特征文本“商品名称”;网页生成装置14解析得到N3的相邻右侧兄弟节点N4的节点内容为HTML标签“<DIV>”,则网页生成装置14根据该网页结构信息,可确定该节点N4及其在DOM树中的子树节点N9、N10和N15中的节点内容即为商品的具体商品信息,并据此提取N3、N4、N9、N10和N15中节点内容作为特征节点内容,以用于生成新的网页。
本领域技术人员应能理解,上述两种相关节点不仅可以单独用于网页生成装置14生成新网页,还可以将两项结合用于网页生成装置14生成新网页。
本领域技术人员应能理解上述相关节点仅为举例,其他现有的或今后可能出现的相关节点如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,网页获取装置11、特征文本获取装置12、节点获取装置13和网页生成装置14之间是持续不断地工作。具体地,网页获取装置11持续地获取待处理的网页;接着,特征文本获取装置12也持续地根据所述网页的相关信息,在特征文本库中进行匹配查询,以获得与所述网页相对应的特征文本;随后,节点获取装置13也持续地将所述特征文本在与所述网页相对应的DOM树的各节点中进行匹配查询,以获得包含所述特征文本的特征文本节点;随后,网页生成装置14也持续地根据所述特征文本节点中的特征节点内容,生成与所述网页相对应的新网页。在此,本领域技术人员应理解“持续”是指各装置不断进行上述待处理网页的获取、特征文本的获取、特征文本节点的获取及新网页的生成,直至满足预定停止条件,例如网页获取装置11在较长时间内停止对待处理网页的获取。
图4示出根据本发明一个优选实施例的用于处理网页内容的设备示意图。具体地,特征文本获取装置12’包括查询单元121’和过滤单元122’,查询单元121’根据所述网页的相关信息,在所述特征文本库中进行匹配查询,以获得多个备选特征文本;过滤单元122’根据用户相关信息,对所述多个备选特征文本进行过滤,以获得所述特征文本。
在此,图4中所示装置11’、13’和14’的功能与前面参照图1所描述的装置11、13和14的内容相同,为简明起见,将其以引用方式包含于此,而不做赘述。
具体地,查询单元121’根据网页的相关信息,在特征文本库中进行匹配查询,以获得多个备选特征文本;接着,过滤单元122’根据用户相关信息,对查询单元121’获得的多个备选特征文本进行过滤,以获得所述特征文本。其中,所述用户相关信息包括以下至少任一项:
1)用户偏好,其包含但不限于:用户针对不同网站类型预先设置的一些偏好选择,如问答网站设置只显示最佳答案、论坛网站设置只显示发帖人和网帖内容等。
2)用户历史访问记录,例如,通过记录和统计用户先前的搜索和点击浏览历史,从而可判断或预测用户的需求。
3)用户的移动终端的IP地址,其可以反映该用户当前所处地域。其中,所述移动终端意指可以在移动中使用的计算机设备,包括但不限于手机、笔记本、POS机、车载电脑等,其显示屏尺寸通常远远小于台式电脑的显示器尺寸。
在一示例中,查询单元121’根据网页所属网站的网站类型为问答网站,在特征文本库中进行匹配查询,以获得与论坛网站所对应的备选特征文本为“问题”、“最佳答案”、“其他答案”;接着,过滤单元122’根据用户偏好设置中仅显示最佳答案的设置,将“其他答案”滤除,以获得特征文本为“问题”、“最佳答案”。
在另一示例中,网页所属网站的网站类型为购物网站,查询单元121’获得与购物网站所对应的备选特征文本为“商品信息”、“价格”、“评价信息”;接着,过滤单元122’通过对用户历史访问记录进行统计,获得该用户在最新20次访问购物网站过程中均未点击浏览网页中的商品评价信息,则过滤单元122’据此可滤除备选特征文本“评价信息”,以获得特征文本为“商品信息”、“价格”。
在又一示例中,网页所属网站的网站类型为论坛网站,查询单元121’获得与论坛网站所对应的备选特征文本为“商品信息”、“价格”、“评价信息”、“产地:北京”、“产地:上海”;接着,过滤单元122’通过用户的移动终端提供的应用编程接口(API),应事件触发实时地检测移动终端的IP地址,当移动终端的IP地址示出该移动终端位于北京时,则过滤单元122’滤除备选特征文本中的“产地:上海”,进而获得特征文本为“商品信息”、“价格”、“评价信息”、“产地:北京”。
优选地,过滤单元122’还可根据用户的移动终端的设备参数信息,对多个备选特征文本进行过滤;例如,当移动终端的屏幕尺寸小于预设尺寸阈值时,过滤单元122’将查询单元121’获取的备选特征文本中展示优先级低的特征文本滤除。
本领域技术人员应能理解,上述各项用户相关信息不仅可以单独用于过滤单元122’获得特征文本,还可以将其中多项结合用于过滤单元122’获得特征文本。
本领域技术人员应能理解上述用户相关信息和/或获得备选特征文本和/或获得特征文本的方式仅为举例,其他现有的或今后可能出现的用户相关信息和/或获得备选特征文本和/或获得特征文本的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
图5示出根据本发明另一个优选实施例的用于处理网页内容的设备示意图,网页生成装置14”包括预处理单元141”和第一生成单元142”,预处理单元141”对所述特征节点内容进行预处理,以获得预处理节点内容;接着,第一生成单元142”根据所述预处理节点内容,生成所述新网页。
在此,图5中所示装置11”-13”的功能与前面参照图1所描述的装置11-13的内容相同,为简明起见,将其以引用方式包含于此,而不做赘述。
具体地,预处理单元141”对节点获取装置13”获取的特征文本节点中的特征节点内容进行解析,并对解析获得内容进行预处理,以获得预处理节点内容;接着,第一生成单元142”根据预处理单元141”获得的该预处理节点内容,可基于预置的网页模板,生成所述新网页。其中,所述预处理的方式包括以下至少任一项:
1)对所述特征节点内容进行排序;例如,对于所属网站为论坛网站的网页,该网页的DOM树中的各特征节点内容对应于该网页中的各个网帖,则预处理单元141”可根据特征节点内容中的“发布时间”信息,将各个特征节点内容按照发布时间由早至晚或有晚至早的顺序进行排序;
2)对所述特征节点内容进行过滤;例如,对于所属网站为论坛网站的网页,该网页的DOM树中的各特征节点内容对应的是该论坛页中的各个网帖,则预处理单元141”可根据特征节点内容中“发帖人”信息,获取特定发帖人发布的网帖,而滤除其他网帖。
本领域技术人员应能理解,上述两项预处理的方式不仅可以单独用于预处理单元141”获取预处理节点内容,还可以将两项结合用于预处理单元141”获取预处理节点内容。
本领域技术人员应能理解上述预处理的方式仅为举例,其他现有的或今后可能出现的预处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在一示例中,当网页所属网站的网站类型为论坛网站时,预处理单元141”对各特征节点内容进行解析,以获得其中的发帖人及其所发网帖内容、发帖时间等信息,接着预处理单元141”将该等特征节点内容按照发帖时间由晚至早的顺序进行排列,以获得排序后的各特征节点内容;接着,第一生成单元142”’根据该排序后的特征节点内容内容,并基于为论坛网站预置的网页模板,生成新网页。
本领域技术人员应能理解上述获得预处理节点内容和/或生成新网页的方式仅为举例,其他现有的或今后可能出现的获得预处理节点内容和/或生成新网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在根据本发明的再一个优选实施例中(参照图1),处理设备1还包括请求获取装置(未示出)和提供装置(未示出),请求获取装置获取用户通过移动终端输入的页面访问请求;接着,网页获取装置11根据所述页面访问请求,获取所述网页;提供装置将所述新网页提供给所述用户。
以下参照图1对该再一优选实施例进行详细描述,其中,特征文本获取装置12根据所述网页的相关信息,在特征文本库中进行匹配查询,以获得与所述网页相对应的特征文本;接着,节点获取装置13将所述特征文本在与所述网页相对应的DOM树的各节点中进行匹配查询,以获得包含所述特征文本的特征文本节点;随后,网页生成装置14根据所述特征文本节点中的特征节点内容,生成与所述网页相对应的新网页。其具体过程与前述参照图1所描述的实施例中特征文本获取装置12、节点获取装置13和网页生成装置14所执行的过程相同,为简明起见,将其以引用方式包含于此,而不做赘述。
具体地,用户通过移动终端中的浏览器软件或客户端软件与处理设备1进行交互,在该浏览器或客户端的地址栏输入窗口中输入时,处理设备1的请求获取装置通过页面技术,如JSP、ASP、PHP技术,实时地获取用户输入的按键序列,即用户输入的一条URL,并记录为与该用户输入操作相对应的页面访问请求;接着,请求获取装置根据该页面访问请求包含的页面URL,向该URL所指向网页所在的第三方网络服务器发送获取该页面访问请求,例如,可将其封装为一请求消息,如http请求消息,并通过相应的通信协议,如http、https通信协议,发送至该第三方网络服务器,该第三方网络服务器通过实时监控的方式接收并解析该请求消息,获取来自请求获取装置的页面访问请求,并进行相应的处理,将处理获得的该网页按照约定的通信方式发送至处理设备1,接着,处理设备1的网页获取装置11接收来自该网络服务器的该网页,并作为待处理的网页。
提供装置将网页生成装置14生成的新网页,采用任何已知的移动终端提供人可读信息的技术手段,例如屏幕显示、扬声器播放等,将该网页通过移动终端提供给该用户。在一示例中,以屏幕显示为例,提供装置将网页生成装置14生成的新网页,利用约定的通信方式,按一定顺序和格式提供给所述移动终端,例如以链接、页面显示等方式提供给该移动终端,供用户进行浏览。
本领域技术人员应能理解上述获取页面访问请求和/或获取待处理的网页和/或提供新网页的方式仅为举例,其他现有的或今后可能出现的获取页面访问请求和/或获取待处理的网页和/或提供新网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
图6示出根据本发明一个方面用于处理网页内容的方法流程图。处理设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云,在此,云由基于云计算(CloudComputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
如图6所示,首先,在步骤S1中,处理设备1获取待处理的网页。
具体地,在步骤S1中,处理设备1应事件触发实时地、或定期地从第三方设备中获取待处理的网页。
在一示例中,在步骤S1中,处理设备1根据第三方设备提供的应用编程接口(API),应事件触发实时地、或定期地向该第三方设备发送接收待处理的网页的请求消息,并接收该第三方设备响应于该请求消息返回的一个或多个待处理的网页;或第三方设备主动向处理设备1推送待处理的网页,在步骤S1中,处理设备1接收该(等)待处理的网页。
本领域技术人员应能理解上述获取待处理的网页的方式仅为举例,其他现有的或今后可能出现的获取待处理的网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
接着,在步骤S2中,处理设备1根据其在步骤S1中获取的待处理的网页的相关信息,在特征文本库中进行匹配查询,以获得与所述网页相对应的特征文本。
具体地,在步骤S2中,处理设备1根据其在步骤S1中获取的待处理的网页的相关信息,在特征文本库中进行匹配查询,以获得与该待处理的网页相对应的特征文本。
其中,所述网页的相关信息包括但不限于以下至少任一项:
1)所述网页的网络地址,如网页的URL;
2)所述网页所属网站的网络地址。例如,在步骤S2中,处理设备1从网页的URL中提取其所属网站的域名或IP地址,以作为该网站的网络地址。
3)所述网页所属网站的网站类型。其中,所述网站类型包括但不限于:论坛网站、问答网站、购物网站等。例如,在步骤S2中,处理设备1根据网页所属网站的网络地址,在网页数据库中进行匹配查询,以获得该网页所属网站的网站类型。在此,所述网页数据库中包含网站的网络地址及其相应的网站类型。
本领域技术人员应能理解上述网页的相关信息仅为举例,其他现有的或今后可能出现的网页的相关信息如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
其中,所述特征文本意指用于标注网页中特定内容的文本。例如问答网页中的特征文本可为“最佳答案”、“其他回答”。又例如,购物网页中的特征文本“商品”、“价格”、“评价”等。
其中,所述特征文本库中存储的内容包括但不限于:
1)网页所属网站的网站类型所对应的特征文本。例如,论坛网站的特征文本包括但不限于:“发帖人”、“发布时间”。
2)网页所属网站所对应的特征文本。例如,同一类型网站的特征文本会不同,在博客网站A中标注博文作者的特征文本为“博主”,而在博客网站B中标注博文作者的特征文本为“发布者”。
3)网页所对应的特征文本。
在一示例中,在步骤S2中,处理设备1根据其在步骤S1中获取的待处理的网页的URL:
http://bbs.life.abc.com.cn/12/thread-289319-1-1.html,
提取该网页所属网站的域名“bbs.life.abc.com.cn”,并据此在网页数据库中进行匹配查询,获得该网页所属网站的网站类型为论坛网站,并根据该网站类型,在特征文本库中进行匹配查询,以获得与论坛网站所对应的特征文本为“发帖人”、“发布时间”等,并将该等特征文本作为与该网页相对应的特征文本。
在另一示例中,在步骤S2中,处理设备1根据其在步骤S1中获取的待处理的网页的URL:
http://sportshirts.com.cn/11/thread-226319-1-1.html,
提取该网页所属网站的域名“sportshirts.com.cn”作为该网页所属网站的网络地址,并根据该网站的网络地址,在特征文本库中进行匹配查询,获得与该网络地址所对应的特征文本为“商品名称”、“价格”、“评价”等,并将该等特征文本作为与该网页相对应的特征文本。
本领域技术人员应能理解上述获取特征文本的方式仅为举例,其他现有的或今后可能出现的获取特征文本的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,在步骤S3中,处理设备1将其在步骤S2中获取的网页的特征文本,在与该网页相对应的(文档对象模型)DOM树的各节点中进行匹配查询,以获得包含所述特征文本的特征文本节点。
具体地,在步骤S3中,处理设备1将其在步骤S1中获得的网页所对应的标记语言文件解析为DOM树,然后,将处理设备1在步骤S2中获取的与该网页相对应的特征文本在该DOM树的各节点中进行匹配查询,以获得包含该(等)特征文本的特征文本节点。在此,所述DOM树意指通过对标记语言文件进行解析而获得的树结构数据,该树中的各节点与标记语言文件中的标签以及标签内容相对应。其中,所述标记语言文件包括但不限于:
1)超文本标记语言(HTML)文件;
2)可扩展超文本标记语言(XHTML)文件;
3)可扩展标记语言(XML)文件等。
在一示例中,在步骤S2中,处理设备1获取的网页的特征文本为“发帖人”、“发布时间”等;则在步骤S3中,处理设备1对该网页包含的HTML文件进行解析并生成与其相对应的DOM树,如图2所示,然后处理设备1对该DOM树各个节点中的HTML文件内容分别进行解析,并将该等特征文本在该DOM树的各节点解析后的内容中进行匹配。例如,节点N4包含的HTML文件内容为标签:
“<author name=“发帖人”>”,
在步骤S3中,处理设备1在该节点中获得标签<author>的属性name的属性值为“发帖人”,该“发帖人”与其在步骤S2中获取的一特征文本相匹配,则在步骤S3中,处理设备1将节点N4作为特征文本节点。
在另一示例中,在步骤S2中,处理设备1获取的网页的特征文本为“商品名称”、“价格”、“评价”,在步骤S3中,处理设备1对该网页包含的HTML文件进行解析并生成与其相对应的DOM树,如图2所示,然后对该DOM树的各节点中的HTML文件内容分别进行解析,并将特征文本在各节点解析后的内容中进行匹配。例如,节点N8包含的HTML文件内容为段落文本“商品名称:男士短袖衬衫12M10”,该文本中“商品名称”与处理设备1在步骤S2中获取的一特征文本相匹配,则在步骤S3中,处理设备1将节点N8作为特征文本节点。
本领域技术人员应能理解上述获取特征文本节点的方式仅为举例,其他现有的或今后可能出现的获取特征文本节点的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,在步骤S4中,处理设备1根据其在步骤S3中获取的特征文本节点中的特征节点内容,生成与所述网页相对应的新网页。
具体地,在步骤S4中,处理设备1参照各特征文本节点在其DOM树中的位置,将其在步骤S3中获取的该各特征文本节点中的特征节点内容布局在新的网页中,进而生成与网页相对应的新网页。
在一示例中,如图2所示,当网页所属网站类型为论坛网站时,在步骤S3中,处理设备1获取的与网页对应的DOM树中的特征文本节点为N7和N8,且特征文本节点N7中包含特征文本“发帖人”,特征文本节点N8中包含特征文本“发布时间”;在步骤S4中,处理设备1根据该两个特征文本节点N7和N8中的内容,按照N7和N8在该DOM树中从左到右的顺序排列的方式,将N7和N8中的内容布局在新的网页中。
本领域技术人员应能理解上述生成新网页的方式仅为举例,其他现有的或今后可能出现的生成新网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,在步骤S4中,处理设备1可根据其在步骤S3中获取的特征文本节点中特征节点内容,并基于与网页所属网站相对应网页模板,生成所述新网页。其中,所述网页模板决定文档的基本结构和文档设置,例如字符格式、段落格式、页面格式等,其可采用层叠样式表(CSS)等技术实现。在此,所述预置的网页模板包括但不限于:
1)对同一网站中的所有网页预置的将该网站网页所对应的特征文本节点内容进行重新布局的网页模板;
2)对同一网站类型预置的将具有该网站类型的所有网页所对应的特征文本节点内容进行重新布局的网页模板。
在一示例中,当网页所属网站类型为论坛网站时,在步骤S3中,处理设备1获取的特征文本节点为N7和N8;在步骤S4中,处理设备1根据N7和N8中的内容,例如N7包含特征文本“发帖人”,N8中包含特征文本“发布时间”,基于网站类型为论坛网站的预置网页模板,将“发帖人”置于网页左上方,“发布时间”置于网页右上方,且字体均设置为宋体,进而布局生成新网页。
本领域技术人员应能理解上述基于网页模板生成新网页的方式仅为举例,其他现有的或今后可能出现的基于网页模板生成新网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,在步骤S4中,处理设备1还可根据其在步骤S3中获取的特征文本节点及其相关节点中的特征节点内容,生成所述新网页。其中,所述相关节点包括但不限于以下至少任一项:
1)所述特征文本节点在其DOM树中的子树节点。
在一个示例中,如图3所示,网页所属网站类型为论坛网站,在步骤S3中,处理设备1在该网页所对应的DOM树中获取的特征文本节点为N5,则在步骤S4中,处理设备1提取特征文本节点N5及其在该DOM树中的子树节点N11、N12和N16中节点内容作为特征节点内容,并基于为论坛网站预置的网页模板,将该特征节点内容布局在新网页中。
2)所述特征文本节点在所述其DOM树中的相邻兄弟节点及其子树节点。
在一示例中,如图3所示,网页所属网站类型为购物网站,在步骤S3中,处理设备1在该网页所对应的DOM树中获取的特征文本节点为N3,且特征文本节点N3中包含特征文本“商品名称”;在步骤S4中,处理设备1解析得到N3的相邻右侧兄弟节点N4的节点内容为HTML标签“<DIV>”,则处理设备1根据该网页结构信息,可确定该节点N4及其在DOM树中的子树节点N9、N10和N15中的节点内容即为商品的具体商品信息,并据此提取N3、N4、N9、N10和N15中节点内容作为特征节点内容,以用于生成新的网页。
本领域技术人员应能理解,上述两种相关节点不仅可以单独用于处理设备1在步骤S4中生成新网页,还可以将两项结合用于处理设备1在步骤S4中生成新网页。
本领域技术人员应能理解上述相关节点仅为举例,其他现有的或今后可能出现的相关节点如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,处理设备1在步骤S1、步骤S2、步骤S3和步骤S4中是持续不断地工作。具体地,在步骤S1中,处理设备1持续地获取待处理的网页;接着,在步骤S2中,处理设备1也持续地根据所述网页的相关信息,在特征文本库中进行匹配查询,以获得与所述网页相对应的特征文本;随后,在步骤S3中,处理设备1也持续地将所述特征文本在与所述网页相对应的DOM树的各节点中进行匹配查询,以获得包含所述特征文本的特征文本节点;随后,在步骤S4中,处理设备1也持续地根据所述特征文本节点中的特征节点内容,生成与所述网页相对应的新网页。在此,本领域技术人员应理解“持续”是指各步骤不断进行上述待处理网页的获取、特征文本的获取、特征文本节点的获取及新网页的生成,直至满足预定停止条件,例如处理设备1在较长时间内停止对待处理网页的获取。
图7示出根据本发明一个优选实施例的用于处理网页内容的方法流程图。具体地,在步骤S21’中,处理设备1根据所述网页的相关信息,在所述特征文本库中进行匹配查询,以获得多个备选特征文本;在步骤S22’中,处理设备1根据用户相关信息,对所述多个备选特征文本进行过滤,以获得所述特征文本。
在此,图7中所示处理设备1在步骤S1’、步骤S3’和步骤S4’中的功能与前面参照图6所描述的处理设备1在步骤S1、步骤S3和步骤S4中的内容相同,为简明起见,将其以引用方式包含于此,而不做赘述。
具体地,在步骤S21’中,处理设备1根据网页的相关信息,在特征文本库中进行匹配查询,以获得多个备选特征文本;接着,在步骤S22’中,处理设备1根据用户相关信息,对其在步骤S21’中获得的多个备选特征文本进行过滤,以获得所述特征文本。其中,所述用户相关信息包括以下至少任一项:
1)用户偏好,其包含但不限于:用户针对不同网站类型预先设置的一些偏好选择,如问答网站设置只显示最佳答案、论坛网站设置只显示发帖人和网帖内容等。
2)用户历史访问记录,例如,通过记录和统计用户先前的搜索和点击浏览历史,从而可判断或预测用户的需求。
3)用户的移动终端的IP地址,其可以反映该用户当前所处地域。其中,所述移动终端意指可以在移动中使用的计算机设备,包括但不限于手机、笔记本、POS机、车载电脑等,其显示屏尺寸通常远远小于台式电脑的显示器尺寸。
在一示例中,在步骤S21’中,处理设备1根据网页所属网站的网站类型为问答网站,在特征文本库中进行匹配查询,以获得与论坛网站所对应的备选特征文本为“问题”、“最佳答案”、“其他答案”;接着,在步骤S22’中,处理设备1根据用户偏好设置中仅显示最佳答案的设置,将“其他答案”滤除,以获得特征文本为“问题”、“最佳答案”。
在另一示例中,网页所属网站的网站类型为购物网站,在步骤S21’中,处理设备1获得与购物网站所对应的备选特征文本为“商品信息”、“价格”、“评价信息”;接着,在步骤S22’中,处理设备1通过对用户历史访问记录进行统计,获得该用户在最新20次访问购物网站过程中均未点击浏览网页中的商品评价信息,则处理设备1据此可滤除备选特征文本“评价信息”,以获得特征文本为“商品信息”、“价格”。
在又一示例中,网页所属网站的网站类型为论坛网站,在步骤S21’中,处理设备1获得与论坛网站所对应的备选特征文本为“商品信息”、“价格”、“评价信息”、“产地:北京”、“产地:上海”;接着,在步骤S22’中,处理设备1通过用户的移动终端提供的应用编程接口(API),应事件触发实时地检测移动终端的IP地址,当移动终端的IP地址示出该移动终端位于北京时,则处理设备1滤除备选特征文本中的“产地:上海”,进而获得特征文本为“商品信息”、“价格”、“评价信息”、“产地:北京”。
优选地,在步骤S22’中,处理设备1还可根据用户的移动终端的设备参数信息,对多个备选特征文本进行过滤;例如,当移动终端的屏幕尺寸小于预设尺寸阈值时,在步骤S22’中,处理设备1将其在步骤S21’中获取的备选特征文本中展示优先级低的特征文本滤除。
本领域技术人员应能理解,上述各项用户相关信息不仅可以单独用于处理设备1在步骤S22’中获得特征文本,还可以将其中多项结合用于处理设备1在步骤S22’中获得特征文本。
本领域技术人员应能理解上述用户相关信息和/或获得备选特征文本和/或获得特征文本的方式仅为举例,其他现有的或今后可能出现的用户相关信息和/或获得备选特征文本和/或获得特征文本的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
图8示出根据本发明另一个优选实施例的用于处理网页内容的方法流程图,在步骤S41”中,处理装置1对所述特征节点内容进行预处理,以获得预处理节点内容;接着,在步骤S42”中,处理装置1根据所述预处理节点内容,生成所述新网页。
在此,图8中所示处理装置1在步骤S1”至步骤S3”中的功能与前面参照图6所描述的处理装置1在步骤S1至步骤S3中的内容相同,为简明起见,将其以引用方式包含于此,而不做赘述。
具体地,在步骤S41”中,处理装置1对其在步骤S3”中获取的特征文本节点中的特征节点内容进行解析,并对解析获得内容进行预处理,以获得预处理节点内容;接着,在步骤S42”中,处理装置1根据其在步骤S41”中获得的该预处理节点内容,可基于预置的网页模板,生成所述新网页。其中,所述预处理的方式包括以下至少任一项:
1)对所述特征节点内容进行排序;例如,对于所属网站为论坛网站的网页,该网页的DOM树中的各特征节点内容对应于该网页中的各个网帖,则在步骤S41”中,处理装置1可根据特征节点内容中的“发布时间”信息,将各个特征节点内容按照发布时间由早至晚或有晚至早的顺序进行排序;
2)对所述特征节点内容进行过滤;例如,对于所属网站为论坛网站的网页,该网页的DOM树中的各特征节点内容对应的是该论坛页中的各个网帖,则在步骤S41”中,处理装置1可根据特征节点内容中“发帖人”信息,获取特定发帖人发布的网帖,而滤除其他网帖。
本领域技术人员应能理解,上述两项预处理的方式不仅可以单独用于处理装置1在步骤S41”中获取预处理节点内容,还可以将两项结合用于处理装置1在步骤S41”中获取预处理节点内容。
本领域技术人员应能理解上述预处理的方式仅为举例,其他现有的或今后可能出现的预处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在一示例中,当网页所属网站的网站类型为论坛网站时,在步骤S41”中,处理装置1对各特征节点内容进行解析,以获得其中的发帖人及其所发网帖内容、发帖时间等信息,接着处理装置1将该等特征节点内容按照发帖时间由晚至早的顺序进行排列,以获得排序后的各特征节点内容;接着,在步骤S42”中,处理装置1根据该排序后的特征节点内容内容,并基于为论坛网站预置的网页模板,生成新网页。
本领域技术人员应能理解上述获得预处理节点内容和/或生成新网页的方式仅为举例,其他现有的或今后可能出现的获得预处理节点内容和/或生成新网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在根据本发明的再一个优选实施例中(参照图6),该方法还包括步骤S5(未示出)和步骤S6(未示出),在步骤S5中,处理装置1获取用户通过移动终端输入的页面访问请求;接着,在步骤S1中,处理装置1根据所述页面访问请求,获取所述网页;在步骤S6中,处理装置1将所述新网页提供给所述用户。
以下参照图6对该再一优选实施例进行详细描述,其中,在步骤S2中,处理装置1根据所述网页的相关信息,在特征文本库中进行匹配查询,以获得与所述网页相对应的特征文本;接着,在步骤S3中,处理装置1将所述特征文本在与所述网页相对应的DOM树的各节点中进行匹配查询,以获得包含所述特征文本的特征文本节点;随后,在步骤S4中,处理装置1根据所述特征文本节点中的特征节点内容,生成与所述网页相对应的新网页。其具体过程与前述参照图6所描述的实施例中处理装置1在步骤S2、步骤S3和步骤S4中所执行的过程相同,为简明起见,将其以引用方式包含于此,而不做赘述。
具体地,用户通过移动终端中的浏览器软件或客户端软件与处理设备1进行交互,在该浏览器或客户端的地址栏输入窗口中输入时,在步骤S5中,处理装置1通过页面技术,如JSP、ASP、PHP技术,实时地获取用户输入的按键序列,即用户输入的一条URL,并记录为与该用户输入操作相对应的页面访问请求;接着,处理装置1根据该页面访问请求包含的页面URL,向该URL所指向网页所在的第三方网络服务器发送获取该页面访问请求,例如,可将其封装为一请求消息,如http请求消息,并通过相应的通信协议,如http、https通信协议,发送至该第三方网络服务器,该第三方网络服务器通过实时监控的方式接收并解析该请求消息,获取来自处理装置1的页面访问请求,并进行相应的处理,将处理获得的该网页按照约定的通信方式发送至处理设备1,接着,在步骤S1中,处理装置1接收来自该网络服务器的该网页,并作为待处理的网页。
在步骤S6中,处理装置1将其在步骤S4中生成的新网页,采用任何已知的移动终端提供人可读信息的技术手段,例如屏幕显示、扬声器播放等,将该网页通过移动终端提供给该用户。在一示例中,以屏幕显示为例,在步骤S6中,处理装置1将其在步骤S4中生成的新网页,利用约定的通信方式,按一定顺序和格式提供给所述移动终端,例如以链接、页面显示等方式提供给该移动终端,供用户进行浏览。
本领域技术人员应能理解上述获取页面访问请求和/或获取待处理的网页和/或提供新网页的方式仅为举例,其他现有的或今后可能出现的获取页面访问请求和/或获取待处理的网页和/或提供新网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (18)

1.一种计算机实现的用于处理网页内容的方法,其中,该方法包括以下步骤:
a获取待处理的网页;
b根据所述网页的相关信息,在特征文本库中进行匹配查询,以获得与所述网页相对应的特征文本;
c将所述特征文本在与所述网页相对应的DOM树的各节点中进行匹配查询,以获得包含所述特征文本的特征文本节点;
d根据所述特征文本节点中的特征节点内容,生成与所述网页相对应的新网页;
其中,所述网页的相关信息包括以下至少任一项:
-所述网页的网络地址;
-所述网页所属网站的网络地址;
-所述网页所属网站的网站类型。
2.根据权利要求1所述的方法,其中,所述步骤b包括:
-根据所述网页的相关信息,在所述特征文本库中进行匹配查询,以获得多个备选特征文本;
-根据用户相关信息,对所述多个备选特征文本进行过滤,以获得所述特征文本。
3.根据权利要求2所述的方法,其中,所述用户相关信息包括以下至少任一项:
-用户偏好;
-用户历史访问记录;
-移动终端的IP地址。
4.根据权利要求1所述的方法,其中,所述步骤d包括:
-根据所述特征文本节点及其相关节点中的特征节点内容,生成所述新网页。
5.根据权利要求4所述的方法,其中,所述相关节点包括以下至少任一项:
-所述特征文本节点在所述DOM树中的子树节点;
-所述特征文本节点在所述DOM树中的相邻兄弟节点及其子树节点。
6.根据权利要求1至5中任一项所述的方法,其中,所述步骤d包括:
-根据所述特征节点内容,并基于与所述网页所属的网站相对应网页模板,生成所述新网页。
7.根据权利要求1至5中任一项所述的方法,其中,所述步骤d包括:
-对所述特征节点内容进行预处理,以获得预处理节点内容;
-根据所述预处理节点内容,生成所述新网页。
8.根据权利要求7所述的方法,其中,所述预处理包括以下至少任一项:
-对所述特征节点内容进行排序;
-对所述特征节点内容进行过滤。
9.根据权利要求1至5中任一项所述的方法,其中,该方法还包括:
-获取用户通过移动终端输入的页面访问请求;
其中,所述步骤a包括:
-根据所述页面访问请求,获取所述网页;
其中,该方法还包括:
-将所述新网页提供给所述用户。
10.一种用于处理网页内容的设备,其中,该设备包括:
网页获取装置,用于获取待处理的网页;
特征文本获取装置,用于根据所述网页的相关信息,在特征文本库中进行匹配查询,以获得与所述网页相对应的特征文本;
节点获取装置,用于将所述特征文本在与所述网页相对应的DOM树的各节点中进行匹配查询,以获得包含所述特征文本的特征文本节点;
网页生成装置,用于根据所述特征文本节点中的特征节点内容,生成与所述网页相对应的新网页;
其中,所述网页的相关信息包括以下至少任一项:
-所述网页的网络地址;
-所述网页所属网站的网络地址;
-所述网页所属网站的网站类型。
11.根据权利要求10所述的设备,其中,所述特征文本获取装置包括:
查询单元,用于根据所述网页的相关信息,在所述特征文本库中进行匹配查询,以获得多个备选特征文本;
过滤单元,用于根据用户相关信息,对所述多个备选特征文本进行过滤,以获得所述特征文本。
12.根据权利要求11所述的设备,其中,所述用户相关信息包括以下至少任一项:
-用户偏好;
-用户历史访问记录;
-移动终端的IP地址。
13.根据权利要求10所述的设备,其中,所述网页生成装置用于根据所述特征文本节点及其相关节点中的特征节点内容,生成所述新网页。
14.根据权利要求13所述的设备,其中,所述相关节点包括以下至少任一项:
-所述特征文本节点在所述DOM树中的子树节点;
-所述特征文本节点在所述DOM树中的相邻兄弟节点及其子树节点。
15.根据权利要求10至14中任一项所述的设备,其中,所述网页生成装置用于根据所述特征节点内容,并基于与所述网页所属的网站相对应网页模板,生成所述新网页。
16.根据权利要求10至14中任一项所述的设备,其中,所述网页生成装置包括:
预处理单元,用于对所述特征节点内容进行预处理,以获得预处理节点内容;
第一生成单元,用于根据所述预处理节点内容,生成所述新网页。
17.根据权利要求16所述的设备,其中,所述预处理包括以下至少任一项:
-对所述特征节点内容进行排序;
-对所述特征节点内容进行过滤。
18.根据权利要求10至14中任一项所述的设备,其中,该设备还包括:
请求获取装置,用于获取用户通过移动终端输入的页面访问请求;
其中,所述网页获取装置用于根据所述页面访问请求,获取所述网页;
其中,该设备还包括:
提供装置,用于将所述新网页提供给所述用户。
CN201110247492.0A 2011-08-24 2011-08-24 一种用于处理网页内容的方法和设备 Active CN102314494B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110247492.0A CN102314494B (zh) 2011-08-24 2011-08-24 一种用于处理网页内容的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110247492.0A CN102314494B (zh) 2011-08-24 2011-08-24 一种用于处理网页内容的方法和设备

Publications (2)

Publication Number Publication Date
CN102314494A CN102314494A (zh) 2012-01-11
CN102314494B true CN102314494B (zh) 2014-04-02

Family

ID=45427659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110247492.0A Active CN102314494B (zh) 2011-08-24 2011-08-24 一种用于处理网页内容的方法和设备

Country Status (1)

Country Link
CN (1) CN102314494B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789474B (zh) * 2012-04-12 2014-02-05 北京京东世纪贸易有限公司 处理网页数据的方法和装置
CN102915360B (zh) * 2012-10-17 2016-09-28 北京奇虎科技有限公司 呈现网站的相关信息的系统
CN103294781B (zh) * 2013-05-14 2016-12-28 百度在线网络技术(北京)有限公司 一种用于处理页面数据的方法与设备
CN106469036B (zh) * 2015-08-14 2021-02-05 腾讯科技(深圳)有限公司 信息显示方法及客户端
CN106933840A (zh) * 2015-12-29 2017-07-07 北京国双科技有限公司 论坛目录页内容爬取方法和装置
CN105912578A (zh) * 2016-03-31 2016-08-31 北京奇虎科技有限公司 自定义过滤网页内容的方法和装置
CN110020318B (zh) * 2017-12-26 2022-09-23 腾讯科技(深圳)有限公司 关键词与扩展阅读行为的处理方法、浏览器及电子设备
CN112487319A (zh) * 2020-11-26 2021-03-12 清创网御(合肥)科技有限公司 一种基于dom树路径匹配的文章解析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101197849A (zh) * 2007-12-21 2008-06-11 腾讯科技(深圳)有限公司 将互联网页面转换为无线应用协议页面的转换方法和装置
CN101446983A (zh) * 2009-01-12 2009-06-03 腾讯科技(深圳)有限公司 一种实现移动终端获取网页的方法、系统和设备
CN101534306A (zh) * 2009-04-14 2009-09-16 深圳市腾讯计算机系统有限公司 一种钓鱼网站的检测方法及装置
CN102073654A (zh) * 2009-11-20 2011-05-25 富士通株式会社 生成与维护网页内容抽取模板的方法和设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6901585B2 (en) * 2001-04-12 2005-05-31 International Business Machines Corporation Active ALT tag in HTML documents to increase the accessibility to users with visual, audio impairment
CN102004805B (zh) * 2010-12-30 2013-06-19 上海交通大学 基于最大相似性匹配的网页去噪系统及其去噪方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101197849A (zh) * 2007-12-21 2008-06-11 腾讯科技(深圳)有限公司 将互联网页面转换为无线应用协议页面的转换方法和装置
CN101446983A (zh) * 2009-01-12 2009-06-03 腾讯科技(深圳)有限公司 一种实现移动终端获取网页的方法、系统和设备
CN101534306A (zh) * 2009-04-14 2009-09-16 深圳市腾讯计算机系统有限公司 一种钓鱼网站的检测方法及装置
CN102073654A (zh) * 2009-11-20 2011-05-25 富士通株式会社 生成与维护网页内容抽取模板的方法和设备

Also Published As

Publication number Publication date
CN102314494A (zh) 2012-01-11

Similar Documents

Publication Publication Date Title
CN102314494B (zh) 一种用于处理网页内容的方法和设备
CN103294781B (zh) 一种用于处理页面数据的方法与设备
CN104461484B (zh) 前端模板的实现方法和装置
CN101515272B (zh) 提取网页内容的方法和装置
CN103544178A (zh) 一种用于提供与目标页面相对应的重构页面的方法和设备
CN102137306B (zh) 在电视上显示网页内容的方法及装置
CN103544176A (zh) 用于生成多个页面所对应的页面结构模板的方法和设备
CN102339311B (zh) 在用户设备上基于查询分类搜索网页内容的方法与设备
US20210042466A1 (en) Detecting compatible layouts for content-based native ads
CN104239298A (zh) 文本信息推荐方法、服务器、浏览器及系统
CN103136259B (zh) 一种基于内容块标识处理网页内容的方法与设备
CN103034633A (zh) 生成扩展的搜索结果页面摘要的方法及装置
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN102169501A (zh) 基于搜索结果对应文档的类型信息生成摘要的方法与设备
CN108021598A (zh) 页面抽取模板匹配方法、装置及服务器
WO2014153457A1 (en) Merging web page style addresses
CN103678325A (zh) 一种用于提供与初始页面相对应的浏览页面的方法和设备
CN103559194B (zh) 一种搜索方法、服务器、系统
CN104217038A (zh) 一种针对财经新闻的知识网络构建方法
CN103365876B (zh) 基于关系图谱生成网络操作辅助信息的方法与设备
CN103886016A (zh) 一种用于确定页面中的垃圾文本信息的方法与设备
Krüpl-Sypien et al. A versatile model for web page representation, information extraction and content re-packaging
CN102567521A (zh) 网页数据抓取过滤方法
CN106874368B (zh) 一种rtb竞价广告位价值分析方法及系统
Liu et al. Main content extraction from web pages based on node characteristics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant