CN102929871A - 一种网页浏览方法、装置及移动终端 - Google Patents

一种网页浏览方法、装置及移动终端 Download PDF

Info

Publication number
CN102929871A
CN102929871A CN2011102253133A CN201110225313A CN102929871A CN 102929871 A CN102929871 A CN 102929871A CN 2011102253133 A CN2011102253133 A CN 2011102253133A CN 201110225313 A CN201110225313 A CN 201110225313A CN 102929871 A CN102929871 A CN 102929871A
Authority
CN
China
Prior art keywords
page
webpage
web page
html
multimedia messages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011102253133A
Other languages
English (en)
Inventor
杨巍
张立明
朱靖君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN2011102253133A priority Critical patent/CN102929871A/zh
Priority to PCT/CN2012/079053 priority patent/WO2013020450A1/zh
Publication of CN102929871A publication Critical patent/CN102929871A/zh
Priority to US14/040,607 priority patent/US10261983B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种网页浏览方法,包括:当接收到用户的网页请求时,下载所请求的网页的页面信息;对所述页面信息进行分析处理,获得所请求的网页的页面核心内容;对所述页面核心内容进行排版处理,并显示排版处理后的所请求的网页。本发明实施例还公开了一种网页浏览装置及移动终端。采用本发明,可节省传输带宽,提高网页请求的响应速度,同时提升网页浏览效果和用户的浏览体验。

Description

一种网页浏览方法、装置及移动终端
技术领域
本发明涉及互联网技术领域,尤其涉及一种网页浏览方法、装置及移动终端。
背景技术
互联网已成为人们生活中不可缺少的部分。传统的互联网采用PC(Personal Computer,个人计算机)机接入,通过PC访问互联网。随着移动终端技术的蓬勃发展,人们已能够通过移动终端无时无刻、随时随地的访问互联网。
移动终端访问互联网与传统的PC访问互联网有着极大的区别,首先:移动终端的操作平台类型丰富,比如:安卓(Android)平台、赛班(Symbian)平台、苹果(Apple)平台等等,各平台所支持的浏览器设备存在差异,使得各种移动终端无法统一浏览器设备,从而使传统的HTML(Hypertext Markup Language,超文本标记语言)网页无法在所有类型的移动终端中进行很好的展示。其次:移动终端的配置通常不及PC机,比如:一些非智能手机或普通的智能手机,其配置往往较低,此类移动终端对于一些内容较为丰富的HTML网页无法很好的支持。再次,移动终端通常采用无线网络接入,无线网络与传统的有线网络相比,具有带宽低、网速慢的特点,因此对于传统的HTML网页(大小通常为几十K),移动终端的浏览效果非常差。
针对上述移动终端无法很好地支持HTML网页的问题,目前存在一些解决方案,主要包括:
(1)将WAP(Wireless Application Protocol,无线应用协议)网页不支持的HTML标签进行删除和替换,从而将HTML网页转换成标准的WAP网页,以便移动终端可以正常访问。由于移动终端的显示界面相比于PC机较小,这种方案仅对HTML网页的标签进行处理,无法实现网页的压缩和页面核心内容的展现,使得用户无法从移动终端显示的WAP网页中直接查看到有用信息。
(2)将HTML网页中的多媒体信息进行删除,使移动终端能够实现对HTML网页的浏览。这种方案使移动终端显示的HTML网页缺少丰富的多媒体信息,降低了网页的可读性,降低了用户的阅读兴趣。
(3)对HTML网页进行剪裁,压缩原始网页,节省传输带宽。这种方案并未对网页的标签、多媒体信息进行处理,使得许多移动终端无法正常显示网页,降低用户的浏览体验。
发明内容
本发明实施例所要解决的技术问题在于,提供一种网页浏览方法、装置及移动终端,可节省传输带宽,提高网页请求的响应速度,同时提升网页浏览效果和用户的浏览体验。
为了解决上述技术问题,本发明实施例提供了一种网页浏览方法,包括:
当接收到用户的网页请求时,下载所请求的网页的页面信息;
对所述页面信息进行分析处理,获得所请求的网页的页面核心内容;
对所述页面核心内容进行排版处理,并显示排版处理后的所请求的网页。
相应地,本发明实施例还提供了一种网页浏览装置,包括:
网页下载模块,用于当接收到用户的网页请求时,下载所请求的网页的页面信息;
网页分析模块,用于对所述网页下载模块下载的页面信息进行分析处理,获得所请求的网页的页面核心内容;
排版处理模块,用于对所述网页分析模块获得的页面核心内容进行排版处理;
显示模块,用于显示所述排版处理模块处理后的所述所请求的网页。
相应地,本发明实施例还提供了一种移动终端,包括网页浏览装置,所述网页浏览装置包括:
网页下载模块,用于当接收到用户的网页请求时,下载所请求的网页的页面信息;
网页分析模块,用于对所述网页下载模块下载的页面信息进行分析处理,获得所请求的网页的页面核心内容;
排版处理模块,用于对所述网页分析模块获得的页面核心内容进行排版处理;
显示模块,用于显示所述排版处理模块处理后的所述所请求的网页。
实施本发明实施例,具有如下有益效果:
本发明实施例对用户所请求的网页进行分析处理,获得所请求的网页的页面核心内容,对该页面核心内容进行排版处理后进行展示;由于仅提取传统的HTML网页的页面核心内容,节省了传输带宽,提高了网页请求的响应速度;由于仅对页面核心内容进行排版处理,使得移动终端能够正常的展示排版处理后的网页,同时使用户能够从移动终端显示的网页中直接查看到有用信息(即页面核心内容),提升了网页浏览效果,提升了用户的浏览体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的网页浏览装置的第一实施例的结构示意图;
图2为本发明的网页浏览装置的第二实施例的结构示意图;
图3为本发明的网页浏览装置中的多媒体处理模块的实施例的结构示意图;
图4为本发明的网页浏览装置中的网页下载模块的实施例的结构示意图;
图5为本发明的网页浏览装置中的网页分析模块的第一实施例的结构示意图;
图6为本发明的网页浏览装置中的网页分析模块的第二实施例的结构示意图;
图7为本发明的网页浏览装置中的排版处理模块的实施例的结构示意图;
图8为本发明的网页浏览方法的第一实施例的流程图;
图9为本发明的网页浏览方法的第二实施例的流程图;
图10为本发明的网页浏览方法的应用的第一示意图;
图11为本发明的网页浏览方法的应用的第二示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种移动终端,该移动终端包括网页浏览装置,所述网页浏览装置能够为移动终端用户提供较好的网页浏览服务。需要说明的是,所述移动终端可以为:手机、智能手机、PDA(Personal Digital Assistant,个人数字助理)、便携式平板电脑等终端;所述网页浏览装置可以为:浏览器设备。
为了更清楚地说明本发明,下面将对本发明的移动终端中的网页浏览装置进行详细介绍。
请参见图1,为本发明的网页浏览装置的第一实施例的结构示意图;所述网页浏览装置包括:
网页下载模块101,用于当接收到用户的网页请求时,下载所请求的网页的页面信息。
所述网页浏览装置提供人机交互的界面,用户可以在该界面中发出网页请求,比如:所述网页浏览装置为用户提供地址输入栏,用户可在该地址输入栏中输入所请求的网页的URL(Uniform / Universal Resource Locator,统一资源定位符),并在确认之后向所述网页浏览装置发出网页请求,该网页请求中携带用户输入的URL;再如:所述网页浏览装置为用户显示某个网页,当用户在当前网页中点击其他网页的链接时,所述网页浏览装置接收到用户的网页请求,该网页请求中携带用户所请求的网页的链接地址(URL)。当所述网页浏览装置接收到用户的网页请求时,所述网页下载模块101根据该网页请求,从互联网中下载所请求的网页的页面信息,其中,所述页面信息包括: HTML源网页和相关附件;所述HTML源网页可以包括:HTML源码信息、HTML标签和多媒体信息的源地址;所述相关附件包括:CSS(Cascading Style Sheet,层叠样式表)、Frame(一种控件)及JS(JavaScript,一种网页脚本语言)中的任一种或多种。
网页分析模块102,用于对所述网页下载模块101下载的页面信息进行分析处理,获得所请求的网页的页面核心内容。
所述网页分析模块102对所述网页下载模块101下载的HTML源网页和相关附件进行分析处理,该分析处理的过程可以为:对HTML源网页中的HTML标签进行处理,得到页面标题;和/或对HTML源网页中的页面核心正文进行提取;和/或对HTML源网页中的页面核心多媒体信息进行提取。经所述网页分析模块102分析处理后,可以获得所请求的网页的页面核心内容。可以理解的是,除所述网页分析模块102分析获得的所述页面核心内容之外,所请求的网页中的其他内容即为噪声信息。
排版处理模块103,用于对所述网页分析模块102获得的页面核心内容进行排版处理。
所述排版处理模块103对所述网页分析模块102获得的页面核心内容进行排版处理,该页面核心内容包括:页面标题、页面核心正文和页面核心多媒体信息。所述排版处理模块103的处理过程可以包括:依据HTML源网页和相关附件,按照所述页面核心内容在原始的所请求的网页的位置和显示方式进行排版;依据所述网页浏览装置所支持的显示界面的要求,对排版形成的HTML网页进行转换处理,得到所述网页浏览装置所支持的网页格式,比如:HTML网页、WAP1.0网页格式或WAP2.0网页格式。
需要说明的是,所述排版处理模块103在对页面核心内容进行排版处理的过程中,对于HTML网页中除所述页面核心内容之外的其他噪声信息,可以根据实际需要进行丢弃、折叠或隐藏等处理。
显示模块104,用于显示所述排版处理模块103处理后的所述所请求的网页。
由于所述排版处理模块103进行处理后,所述所请求的网页被转换为所述网页浏览装置所支持网页格式,所述显示模块104可直接显示所述所请求的网页。可以理解的是,所述显示模块104可以在所述网页浏览装置所提供的显示界面中显示所请求的网页,比如:在所述网页浏览装置所在的移动终端的显示界面中显示所请求的网页;所述显示模块104还可以在所述网页浏览装置所支持的显示界面中显示所请求的网页,比如:在与所述网页浏览装置相连接的外部显示界面中显示所请求的网页。
本发明实施例可节省传输带宽,提高了网页请求的响应速度;同时提升了网页浏览效果和用户的浏览体验。
请参见图2,为本发明的网页浏览装置的第二实施例的结构示意图;与上一实施例相同,所述网页浏览装置包括:网页下载模块101、网页分析模块102、排版处理模块103和显示模块104。本实施例中,所述网页浏览装置进一步包括:
多媒体下载模块105,用于根据所述页面核心多媒体信息对应的源地址,从互联网中下载所述页面核心多媒体信息。
如前述,所述网页分析模块102可以获得所请求的网页的页面核心多媒体信息,所述多媒体下载模块105可以从HTML源网页中读取该页面核心多媒体信息对应源地址,并根据该源地址,从互联网中下载所述页面核心多媒体信息。其中,所述页面核心多媒体信息为所述页面核心正文相关的多媒体信息,包括但不限于:图片、视频、Flash中的任一种或多种。
多媒体处理模块106,用于按照显示界面的要求,对所述多媒体下载模块106下载的页面核心多媒体信息进行缩略处理,获得缩略图并存储,保存所述缩略图的存储地址。
由于所述网页浏览装置所提供或所支持的显示界面的大小有限,比如:所述网页浏览装置所在的移动终端的显示界面的大小远小于传统PC的显示界面大小,所述多媒体下载模块105下载的页面核心多媒体信息不适于在所述移动终端的显示界面中进行显示;同时,为了提高多媒体信息的传输速率,提高网页响应速度,所述页面核心多媒体信息需要经过所述多媒体处理模块106的缩略处理,该处理过程可以为:若所述页面核心多媒体信息为图片,则按照显示界面的长度和宽度,对所述图片进行缩略处理形成缩略图并存储,保存所述缩略图的存储地址;若所述页面核心多媒体信息为视频或Flash,则首先提取所述视频或Flash的至少一帧关键帧图像;然后按照显示界面的长度和宽度,对所述关键帧图像进行缩略处理形成缩略图并存储,保存该缩略图的存储地址;其中,所述多媒体处理模块106获得的缩略图的长度不大于所述显示界面的长度,所述缩略图的宽度不大于所述显示界面的宽度。
具体实现中,请一并参见图3,为本发明的网页浏览装置中的多媒体处理模块的实施例的结构示意图;所述多媒体处理模块106包括:
第一处理单元611,用于当所述页面核心多媒体信息为图片时,按照显示界面的长度和宽度,对所述图片进行缩略处理形成缩略图。
第二处理单元612,用于当所述页面核心多媒体信息为视频或Flash时,提取所述视频或Flash的至少一帧关键帧图像,按照显示界面的长度和宽度,对所述关键帧图像进行缩略处理形成缩略图。
所述第一处理单元611和所述第二处理单元612获得的缩略图的长度均不大于所述显示界面的长度,宽度均不大于所述显示界面的宽度。可以理解的是,所述第一处理单元611和所述第二处理单元612的缩略处理过程可以与现有对图片的缩略处理过程相同,在此不赘述。
需要说明的是,所述多媒体处理模块106获得的缩略图最终提供给所述排版处理模块103进行排版处理后进行显示,既能够保证多媒体显示效果,又可以增加网页的可读性,同时可提高多媒体信息的传输速率,提高网页响应速度。
本发明实施例可节省传输带宽,提高了网页请求的响应速度;同时保证网页的可读性,提升了网页浏览效果和用户的浏览体验。
为了更清楚地说明本发明,下面将对本发明的网页浏览装置中的网页下载模块进行详细介绍。
请参见图4,为本发明的网页浏览装置中的网页下载模块的实施例的结构示意图;所述网页下载模块101包括:
地址获取单元111,用于当接收到用户的网页请求时,获取所述用户所请求的网页的URL。
如前述,用户可以直接输入所请求的网页的URL,或通过点击所请求的网页的链接地址,向所述网页浏览装置发送网页请求,该网页请求中携带所请求的网页的URL,当接收到用户的网页请求时,所述地址获取单元111从该网页请求中提取所述用户所请求的网页的URL。
下载单元112,用于从互联网中下载所述地址获取单元111获取的URL对应的网页的页面信息。所述下载单元112根据所述地址获取单元111获取的URL,从互联网中下载用户所请求的网页的页面信息,包括: HTML源网页和相关附件;所述HTML源网页可以包括:HTML源码信息、HTML标签和多媒体信息的源地址;所述相关附件包括:CSS、Frame及JS中的任一种或多种。
为了更清楚地说明本发明,下面将对本发明的网页浏览装置中的网页分析模块进行详细介绍。
请参见图5,为本发明的网页浏览装置中的网页分析模块的第一实施例的结构示意图;本实施例中,所请求的网页的所述页面核心内容包括:页面标题和页面核心正文,则所述网页分析模块102包括:
读取单元211,用于从所述HTML源网页中读取H标签(文本标题标签)中的文本和Title标签(标题标签)中的文本。
其中,所述H标签包括:H1标签、H2标签、H3标签、H4标签、H5标签和H6标签中的任一种。H标签(H1标签-H6标签)是指HTML网页中对文本标题所进行的着重强调的一种标签,以标签<H1>、<H2>、<H3>、<H4>、<H5>和<H6>依次表示重要性的递减,<H1>标签代表最重要的文本标题,<H6>标签代表相对最不重要的文本标题。优选地,所述读取单元211从所述HTML源网页中读取H1标签中的文本,并读取Title标签中的文本。其中,Title标签位于HTML源网页的Head标签内,被用来定义页面文档的标题,主要用于告知访问者该篇文章的主题以及提供给搜索引擎索引;Title标签与H标签(H1标签-H6标签)中的文本可以相同,也可以不同。
第一判断单元212,用于判断所述读取单元211读取的所述H标签中的文本与所述Title标签中的文本的相似度是否大于预设的阈值。
所述预设的阈值可以根据实际需要进行设定,该阈值的取值范围可以为:0-100%,比如:可设定阈值为90%,所述第一判断单元212判断H1标签中的文本是否与Title标签中的文本达到90%以上的相似,此处可以一个例子进行说明,假设所述读取单元211从所述H1标签中读取到11个字的文本,从所述Title也读取到11个字的文本,所述第一判断单元212判断H1标签中的文本有10个字与所述Title中的文本相同,则判断二者相似度大于90%。可以理解的是,所述预设的阈值还可以为其他值,所述第一判断单元212还可以采用其他方式进行相似度的判断,其他情况下可类似分析,在此不赘述。
标题确定单元213,用于当所述第一判断单元212判断结果为是时,将所述H标签中的文本确定为所请求的网页的页面标题。
如果所述第一判断单元212判断H1标签中的文本与所述Title标签中的文本相似度超过预设的阈值,所述标题确定单元213将H1标签中的文本确定为所请求的网页的页面标题。
识别单元214,用于从所述标题确定单元213确定的页面标题在所述HTML源网页中所在位置开始,识别所述HTML源网页中的HTML源码信息。
实际应用中,页面标题在HTML源网页中的位置一般为所请求的该网页的页面核心正文的开头,当所述标题确定单元213确定了页面标题后,所述识别单元214则从所述页面标题在所述HTML源网页中的所在位置开始识别所述HTML源网页中的HTML源码信息。
正文确定单元215,用于当所述识别单元214识别到与预设的结尾标记相匹配的HTML源码信息时,将所述HTML源网页中所述页面标题所在位置至所述匹配的HTML源码信息所在位置之间的部分,确定为所请求的网页的页面核心正文。
其中,所述预设的结尾标记包括但不限于:“相关评论”标识、“相关链接”标识、“相关阅读”标识、“相关推荐”标识中的任一种或多种。一般地,当网页中出现“相关评论”或“相关链接”的关键字时,一般表明该网页的页面核心正文的内容已结束,因此,出现“相关评论”或“相关链接”的关键字的位置可以确定为该网页的页面核心正文的结尾。当所述识别单元214从所述HTML源网页中识别到与预设的结尾标记相匹配的HTML源码信息时,所述正文确定单元215将所述HTML源网页中所述页面标题所在位置(页面核心正文的开头)至所述匹配的HTML源码信息所在位置(页面核心正文的结尾)之间的部分,确定为所请求的网页的页面核心正文。
需要说明的是,本实施例中所述网页分析模块102对页面标题和页面核心正文的分析过程仅为举例,其他情况下,比如:所述网页分析模块102还可采用朴素贝耶斯分类器、分支定界、阈值分支等方法来确定页面标题和页面核心正文;再如:所述网页分析模块102还可先对HTML源网页建立DOM(Document Object Model,文档对象模型)树,基于DOM树来实现页面标题和页面核心正文的确定;又如:所述网页分析模块102还可对HTML源网页进行分块,对重要的网页块进行识别来查找页面标题和页面核心正文,等等,采用上述其他情况均是为了获得页面标题和页面核心正文,在此不赘述。
请参见图6,为本发明的网页浏览装置中的网页分析模块的第二实施例的结构示意图;与上一实施例相同,所述网页分析模块102包括:读取单元211、第一判断单元212、标题确定单元213、识别单元214、正文确定单元215。本实施例中,所请求的网页的所述页面核心内容包括:页面标题、页面核心正文和页面核心多媒体信息,则所述网页分析模块102进一步包括:
提取单元216,用于从所述HTML源网页中提取位于所述正文确定单元215确定的页面核心正文内的多媒体信息的源地址。
其中,所述页面核心多媒体信息为所述页面核心正文相关的多媒体信息,包括但不限于:图片、视频、Flash中的任一种或多种。传统的HTML网页中的多媒体信息较多,但大部分为该网页的页面核心正文无关的噪声信息,比如:广告图片、广告Flash等,这些噪声信息一些位于HTML网页中的页面核心正文内,一些则仅仅是环绕在页面核心正文周边,所述提取单元216过滤掉环绕在页面核心正文周边的多媒体信息,从所述HTML源网页中提取位于所述页面核心正文内的多媒体信息的源地址。
第二判断单元217,用于判断所述提取单元216提取的所述源地址是否包含广告标识。
由于噪声信息对应的源地址本身会携带广告标识,包括:广告提供商的信息、广告提示信息等。如前述,由于所述页面核心正文内的多媒体信息也有可能是噪声信息,所述第二判断单元217进一步判断所述提取单元216从所述页面核心正文内提取的多媒体信息的源地址是否包含广告标识,若判断结果为是,则包含广告标识的源地址对应的多媒体信息应当为噪声信息;若判断结果为否,则未包含广告标识的源地址对应的多媒体信息应当为页面核心正文相关的多媒体信息。
多媒体确定单元218,用于根据所述第二判断单元217的判断结果,将未包含广告标识的源地址对应的多媒体信息确定为页面核心多媒体信息。
为了更清楚地说明本发明,下面将对本发明的网页浏览装置中的排版处理模块进行详细介绍。
请参见图7,为本发明的网页浏览装置中的排版处理模块的实施例的结构示意图;所述排版处理模块103包括:
排版单元311,用于根据所述HTML源网页和相关附件,对所述页面核心内容进行排版,形成HTML网页。
所述排版单元311对所述页面核心内容进行排版处理,该页面核心内容包括:页面标题、页面核心正文和页面核心多媒体信息。所述排版单元311的处理过程可以包括:依据HTML源网页和相关附件,按照所述页面核心内容在原始的所请求的网页的位置和显示方式进行排版,形成HTML网页;比如:HTML源网页中记载了页面标题在HTML源网页中的位置,同时CSS中记载了页面标题的字体类型和颜色,所述排版单元311依据HTML源网页的记录,将页面标题排版在HTML网页中相应的位置,同时将该页面标题处理为CSS记录的相应字体类型和颜色。所述排版单元311的排版处理,使得形成的HTML网页与原始所请求的HTML网页对页面核心内容的展示效果相同,不损失页面的可读性。
转换处理单元312,用于按照显示界面的要求对所述排版单元311形成的HTML网页进行转换处理,形成转换后的所请求的网页。
所述转换处理单元312的转换处理过程可以包括:将所述HTML网页中的页面核心多媒体信息对应的源地址替换为相应的缩略图的存储地址;和/或,按照显示界面的格式要求,将所述HTML网页中所述显示界面不支持的HTML标签进行替换或删除,形成WAP网页;其中,所述WAP网页为WAP1.0网页或WAP2.0网页。具体实现中,所述转换处理单元312基于所述网页浏览装置所支持或所提供的显示界面的要求进行转换处理,比如:若所述网页浏览装置所在的移动终端可以支持HTML网页,但无法很好的支持原始HTML网页的多媒体信息,所述转换处理单元312的转换处理过程可以仅包括:将所述排版后的HTML网页中的页面核心多媒体信息对应的源地址替换为相应的缩略图的存储地址,最终形成HTML网页提供给移动终端进行显示;再如:若所述网页浏览装置所在的移动终端无法很好的支持HTML网页,但其显示界面功能较为强大,可以支持多媒体信息,则所述转换处理单元312可以仅仅按照显示界面的格式要求,将所述HTML网页中所述显示界面不支持的HTML标签进行替换或删除,最终形成WAP1.0网页或WAP2.0网页提供给移动终端进行显示;又如:若所述网页浏览装置所在的移动终端无法很好的支持HTML网页,仅支持WAP1.0网页或WAP2.0网页,则所述转换处理单元312首先将所述HTML网页中的页面核心多媒体信息对应的源地址替换为相应的缩略图的存储地址;然后按照显示界面的格式要求,将所述HTML网页中所述显示界面不支持的HTML标签进行替换或删除,最终形成WAP1.0网页或WAP2.0网页提供给移动终端进行显示。
需要说明的是,本发明实施例的网页浏览装置不仅可以应用于本发明实施例所述的移动终端中,还可应用于PC机等传统的固定终端中,当应用于PC机等传统终端中时,由于仅对网页的页面核心内容进行排版展示,因此能够提高PC机对网页的展示速度,从而提高了网页请求的响应速率,提高了用户的浏览体验。
本发明实施例对用户所请求的网页进行分析处理,获得所请求的网页的页面核心内容,对该页面核心内容进行排版处理后进行展示;由于仅提取传统的HTML网页的页面核心内容,节省了传输带宽,提高了网页请求的响应速度;由于仅对页面核心内容进行排版处理,使得移动终端能够正常的展示排版处理后的网页,同时使用户能够从移动终端显示的网页中直接查看到有用信息(即页面核心内容),提升了网页浏览效果,提升了用户的浏览体验。
为了更清楚地说明本发明,下面将对本发明的网页浏览装置所执行的网页浏览方法进行详细介绍。
请参见图8,为本发明的网页浏览方法的第一实施例的流程图;本实施例中,所述方法的执行主体为上述的网页浏览装置,所述网页浏览装置按以下流程执行所述方法,包括:
S101,当接收到用户的网页请求时,下载所请求的网页的页面信息。
所述网页浏览装置提供人机交互的界面,用户可以在该界面中发出网页请求,比如:所述网页浏览装置为用户提供地址输入栏,用户可在该地址输入栏中输入所请求的网页的URL,并在确认之后向所述网页浏览装置发出网页请求,该网页请求中携带用户输入的URL;再如:所述网页浏览装置为用户显示某个网页,当用户在当前网页中点击其他网页的链接时,所述网页浏览装置接收到用户的网页请求,该网页请求中携带用户所请求的网页的链接地址(URL)。步骤S101中,当所述网页浏览装置接收到用户的网页请求时,根据该网页请求,从互联网中下载所请求的网页的页面信息,其中,所述页面信息包括: HTML源网页和相关附件;所述HTML源网页可以包括:HTML源码信息、HTML标签和多媒体信息的源地址;所述相关附件包括:CSS、Frame及JS中的任一种或多种。
S102,对所述页面信息进行分析处理,获得所请求的网页的页面核心内容。
步骤S102中,对步骤S101下载的HTML源网页和相关附件进行分析处理,该分析处理的过程可以为:对HTML源网页中的HTML标签进行处理,得到页面标题;和/或对HTML源网页中的页面核心正文进行提取;和/或对HTML源网页中的页面核心多媒体信息进行提取。经步骤S102分析处理后,可以获得所请求的网页的页面核心内容。可以理解的是,除步骤S102分析获得的所述页面核心内容之外,所请求的网页中的其他内容即为噪声信息。
S103,对所述页面核心内容进行排版处理,并显示排版处理后的所请求的网页。
步骤S103中,对步骤S102获得的页面核心内容进行排版处理,该页面核心内容包括:页面标题、页面核心正文和页面核心多媒体信息。步骤S103的处理过程可以包括:依据HTML源网页和相关附件,按照所述页面核心内容在原始的所请求的网页的位置和显示方式进行排版;依据所述网页浏览装置所支持的显示界面的要求,对排版形成的HTML网页进行转换处理,得到所述网页浏览装置所支持的网页格式,比如:HTML网页、WAP1.0网页格式或WAP2.0网页格式。需要说明的是,步骤S103在对页面核心内容进行排版处理的过程中,对于HTML网页中除所述页面核心内容之外的其他噪声信息,可以根据实际需要进行丢弃、折叠或隐藏等处理。
由于排版处理后,所述所请求的网页被转换为所述网页浏览装置所支持网页格式,可直接显示所述所请求的网页。可以理解的是,步骤S103可以在所述网页浏览装置所提供的显示界面中显示所请求的网页,比如:在所述网页浏览装置所在的移动终端的显示界面中显示所请求的网页;步骤S103还可以在所述网页浏览装置所支持的显示界面中显示所请求的网页,比如:在与所述网页浏览装置相连接的外部显示界面中显示所请求的网页。
本发明实施例可节省传输带宽,提高了网页请求的响应速度;同时提升了网页浏览效果和用户的浏览体验。
请参见图9,为本发明的网页浏览方法的第二实施例的流程图;本实施例中,所述方法的执行主体为上述的网页浏览装置,所述网页浏览装置按以下流程执行所述方法,所述方法包括:
S201,当接收到用户的网页请求时,获取所述用户所请求的网页的URL。
用户可以直接输入所请求的网页的URL,或通过点击所请求的网页的链接地址,向所述网页浏览装置发送网页请求,该网页请求中携带所请求的网页的URL,步骤S201中,当接收到用户的网页请求时,从该网页请求中提取所述用户所请求的网页的URL。
S202,从互联网中下载所述URL对应的网页的页面信息。
步骤S102中,根据步骤S201获取的URL,从互联网中下载用户所请求的网页的页面信息,包括: HTML源网页和相关附件;所述HTML源网页包括:HTML源码信息、HTML标签和多媒体信息的源地址;所述相关附件包括:CSS、Frame及JS中的任一种或多种。
本实施例中,步骤S201-步骤S202为上一实施例中的步骤S101的具体细化流程。
S203,从所述HTML源网页中读取H标签中的文本和Title标签中的文本。
其中,所述H标签包括:H1标签、H2标签、H3标签、H4标签、H5标签和H6标签中的任一种。H标签(H1标签-H6标签)是指HTML网页中对文本标题所进行的着重强调的一种标签,以标签<H1>、<H2>、<H3>、<H4>、<H5>和<H6>依次表示重要性的递减,<H1>标签代表最重要的文本标题,<H6>标签代表相对最不重要的文本标题。优选地,步骤S203中,从所述HTML源网页中读取H1标签中的文本,并读取Title标签中的文本。其中,Title标签位于HTML源网页的Head标签内,被用来定义页面文档的标题,主要用于告知访问者该篇文章的主题以及提供给搜索引擎索引;Title标签与H标签(H1标签-H6标签)中的文本可以相同,也可以不同。
S204,判断所述H标签中的文本与所述Title标签中的文本的相似度是否大于预设的阈值;若判断结果为是,转入执行步骤S205;否则,结束。
所述预设的阈值可以根据实际需要进行设定,该阈值的取值范围可以为:0-100%,比如:可设定阈值为90%,步骤S204中,判断H1标签中的文本是否与Title标签中的文本达到90%以上的相似,此处可以一个例子进行说明,假设步骤S203从所述H1标签中读取到11个字的文本,从所述Title也读取到11个字的文本,步骤S204中,判断H1标签中的文本有10个字与所述Title中的文本相同,则判断二者相似度大于90%。可以理解的是,所述预设的阈值还可以为其他值,步骤S204中还可以采用其他方式进行相似度的判断,其他情况下可类似分析,在此不赘述。
S205,将所述H标签中的文本确定为所请求的网页的页面标题。
如果步骤S204中判断H1标签中的文本与所述Title标签中的文本相似度超过预设的阈值,步骤S205中,则将H1标签中的文本确定为所请求的网页的页面标题。
S206,从所述页面标题在所述HTML源网页中所在位置开始,识别所述HTML源网页中的HTML源码信息。
实际应用中,页面标题在HTML源网页中的位置一般为所请求的该网页的页面核心正文的开头,当步骤S205确定了页面标题后,步骤S206中,从所述页面标题在所述HTML源网页中的所在位置开始识别所述HTML源网页中的HTML源码信息。
S207,当识别到与预设的结尾标记相匹配的HTML源码信息时,将所述HTML源网页中所述页面标题所在位置至所述匹配的HTML源码信息所在位置之间的部分,确定为所请求的网页的页面核心正文。
其中,所述预设的结尾标记包括但不限于:“相关评论”标识、“相关链接”标识、“相关阅读”标识、“相关推荐”标识中的任一种或多种。一般地,当网页中出现“相关评论”或“相关链接”的关键字时,一般表明该网页的页面核心正文的内容已结束,因此,出现“相关评论”或“相关链接”的关键字的位置可以确定为该网页的页面核心正文的结尾。步骤S207中,当从所述HTML源网页中识别到与预设的结尾标记相匹配的HTML源码信息时,将所述HTML源网页中所述页面标题所在位置(页面核心正文的开头)至所述匹配的HTML源码信息所在位置(页面核心正文的结尾)之间的部分,确定为所请求的网页的页面核心正文。
S208,从所述HTML源网页中提取位于所述页面核心正文内的多媒体信息的源地址。
其中,所述页面核心多媒体信息为所述页面核心正文相关的多媒体信息,包括但不限于:图片、视频、Flash中的任一种或多种。传统的HTML网页中的多媒体信息较多,但大部分为该网页的页面核心正文无关的噪声信息,比如:广告图片、广告Flash等,这些噪声信息一些位于HTML网页中的页面核心正文内,一些则仅仅是环绕在页面核心正文周边,步骤S208中,过滤掉环绕在页面核心正文周边的多媒体信息,从所述HTML源网页中提取位于所述页面核心正文内的多媒体信息的源地址。
S209,判断提取的所述源地址是否包含广告标识;若判断结果为否,转入执行步骤S210;否则,结束。
由于噪声信息对应的源地址本身会携带广告标识,包括:广告提供商的信息、广告提示信息等。如前述,由于所述页面核心正文内的多媒体信息也有可能是噪声信息,步骤S209在步骤S208的基础上,进一步判断从所述页面核心正文内提取的多媒体信息的源地址是否包含广告标识,若判断结果为是,则包含广告标识的源地址对应的多媒体信息应当为噪声信息;若判断结果为否,则未包含广告标识的源地址对应的多媒体信息应当为页面核心正文相关的多媒体信息。
S210,将未包含广告标识的源地址对应的多媒体信息确定为页面核心多媒体信息。
本实施例中,步骤S203-步骤S210为上一实施例中的步骤S102的具体细化流程。
S211,根据所述页面核心多媒体信息对应的源地址,从互联网中下载所述页面核心多媒体信息。
当步骤S210确定了请求的网页的页面核心多媒体信息之后,步骤S211中,可以从HTML源网页中读取该页面核心多媒体信息对应源地址,并根据该源地址,从互联网中下载所述页面核心多媒体信息。其中,所述页面核心多媒体信息为所述页面核心正文相关的多媒体信息,包括但不限于:图片、视频、Flash中的任一种或多种。
S212,按照显示界面的要求,对所述页面核心多媒体信息进行缩略处理,获得缩略图并存储,保存所述缩略图的存储地址。
由于所述网页浏览装置所提供或所支持的显示界面的大小有限,比如:所述网页浏览装置所在的移动终端的显示界面的大小远小于传统PC的显示界面大小,步骤S211下载的页面核心多媒体信息不适于在所述移动终端的显示界面中进行显示;同时,为了提高多媒体信息的传输速率,提高网页响应速度,所述页面核心多媒体信息需要经过缩略处理,步骤S212中,该缩略处理过程可以为:若所述页面核心多媒体信息为图片,则按照显示界面的长度和宽度,对所述图片进行缩略处理形成缩略图并存储,保存所述缩略图的存储地址;若所述页面核心多媒体信息为视频或Flash,则首先提取所述视频或Flash的至少一帧关键帧图像;然后按照显示界面的长度和宽度,对所述关键帧图像进行缩略处理形成缩略图并存储,保存该缩略图的存储地址;其中,所述缩略图的长度不大于所述显示界面的长度,所述缩略图的宽度不大于所述显示界面的宽度。
S213,根据所述HTML源网页和相关附件,对所述页面核心内容进行排版,形成HTML网页。
步骤S213中,对所述页面核心内容进行排版处理,该页面核心内容包括:页面标题、页面核心正文和页面核心多媒体信息。步骤S213的处理过程可以包括:依据HTML源网页和相关附件,按照所述页面核心内容在原始的所请求的网页的位置和显示方式进行排版,形成HTML网页;比如:HTML源网页中记载了页面标题在HTML源网页中的位置,同时CSS中记载了页面标题的字体类型和颜色,步骤S213依据HTML源网页的记录,将页面标题排版在HTML网页中相应的位置,同时将该页面标题处理为CSS记录的相应字体类型和颜色。步骤S213中,对所述页面核心内容的排版处理,使得形成的HTML网页与原始所请求的HTML网页对页面核心内容的展示效果相同,不损失页面的可读性。
S214,按照显示界面的要求对所述HTML网页进行转换处理,显示转换后的所请求的网页。
步骤S214中,转换处理过程可以包括:将所述HTML网页中的页面核心多媒体信息对应的源地址替换为相应的缩略图的存储地址;和/或,按照显示界面的格式要求,将所述HTML网页中所述显示界面不支持的HTML标签进行替换或删除,形成WAP网页;其中,所述WAP网页为WAP1.0网页或WAP2.0网页。具体实现中,步骤S214基于所述网页浏览装置所支持或所提供的显示界面的要求进行转换处理,比如:若所述网页浏览装置所在的移动终端可以支持HTML网页,但无法很好的支持原始HTML网页的多媒体信息,所述转换处理过程可以仅包括:将所述排版后的HTML网页中的页面核心多媒体信息对应的源地址替换为相应的缩略图的存储地址,最终形成HTML网页提供给移动终端进行显示;再如:若所述网页浏览装置所在的移动终端无法很好的支持HTML网页,但其显示界面功能较为强大,可以支持多媒体信息,则所述转换处理过程可以仅包括:按照显示界面的格式要求,将所述HTML网页中所述显示界面不支持的HTML标签进行替换或删除,最终形成WAP1.0网页或WAP2.0网页提供给移动终端进行显示;又如:若所述网页浏览装置所在的移动终端无法很好的支持HTML网页,仅支持WAP1.0网页或WAP2.0网页,则所述转换处理过程可以为:首先将所述HTML网页中的页面核心多媒体信息对应的源地址替换为相应的缩略图的存储地址;然后按照显示界面的格式要求,将所述HTML网页中所述显示界面不支持的HTML标签进行替换或删除,最终形成WAP1.0网页或WAP2.0网页提供给移动终端进行显示。
为了更清楚地说明本发明,下面将以一个具体示例来进行说明。
请参见图10,为本发明的网页浏览方法的应用的第一示意图;当用户在地址输入栏中输入:http://news.qq.com/a/20110719/000584.htm;或在QQ新闻主页中点击该网页的链接时,步骤S201则可接收用户的网页请求,并获取到所请求的网页的URL(即:http://news.qq.com/a/20110719/000584.htm);步骤S202依据该URL,从互联网中下载图10所示的HTML网页对应的页面信息,包括:HTML源网页和相关附件。步骤S203读取<H1>标签中的文本为“云南发生伪造矿难事件,6人谋害智障流浪汉骗取赔偿”,<Title>标签中的文本为“云南网 云南伪造矿难事件,6人谋害智障流浪汉骗赔偿”。步骤S204判断步骤S203读取的二个文本相似度很高,超过预设的阈值如90%。步骤S205则将<H1>标签中的文本“云南发生伪造矿难事件,6人谋害智障流浪汉骗取赔偿”确定为网页的页面标题,同时也是页面核心正文的开始。步骤S206从该页面标题所在位置开始识别HTML源网页中的HTML源码信息,当识别到图10所示的“相关阅读”标识时,步骤S207确定该位置为页面核心正文的结尾,则从所述HTML源网页中所述页面标题所在位置至所述“相关阅读”标识所在位置之间的部分,为所请求的网页的页面核心正文。
步骤S208-步骤S212将页面核心正文内与页面核心正文相关的图片进行下载、缩略处理,形成缩略图并存储,保存存储地址。步骤S213将页面标题、页面核心正文和页面核心正文内的页面核心多媒体信息(即图片)按原网页的排布和比例进行排版处理,最后依照移动终端的显示界面要求,将图片源地址替换为缩略图存储地址,并将HTML标签进行替换或删除处理后,形成图11所示的WAP1.0网页,在移动终端中进行展示。请一并参见图11,为本发明的网页浏览方法的应用的第二示意图,图11即为移动终端最终显示的WAP1.0网页的示意图,该WAP1.0网页中仅包括了页面核心内容,其他的周边的噪声信息均被丢弃、折叠或隐藏,使用户可以直接读取所请求的网页的核心的信息,提高了移动终端的浏览效果。
本发明实施例对用户所请求的网页进行分析处理,获得所请求的网页的页面核心内容,对该页面核心内容进行排版处理后进行展示;由于仅提取传统的HTML网页的页面核心内容,节省了传输带宽,提高了网页请求的响应速度;由于仅对页面核心内容进行排版处理,使得移动终端能够正常的展示排版处理后的网页,同时使用户能够从移动终端显示的网页中直接查看到有用信息(即页面核心内容),提升了网页浏览效果,提升了用户的浏览体验。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (17)

1.一种网页浏览方法,其特征在于,包括:
当接收到用户的网页请求时,下载所请求的网页的页面信息;
对所述页面信息进行分析处理,获得所请求的网页的页面核心内容;
对所述页面核心内容进行排版处理,并显示排版处理后的所请求的网页。
2.如权利要求1所述的方法,其特征在于,所述当接收到用户的网页请求时,下载所请求的网页信息,包括:
当接收到用户的网页请求时,获取所述用户所请求的网页的统一资源定位符URL;
从互联网中下载所述URL对应的网页的页面信息;
其中,所述页面信息包括:超文本标记语言HTML源网页和相关附件;
所述HTML源网页包括:HTML源码信息和HTML标签;
所述相关附件包括:层叠样式表CSS、控件Frame及网页脚本语言JS中的任一种或多种。
3.如权利要求2所述的方法,其特征在于,所述页面核心内容包括:页面标题和页面核心正文;
所述对所述页面信息进行分析处理,获得所请求的网页的页面核心内容,包括:
从所述HTML源网页中读取文本标题H标签中的文本和标题Title标签中的文本;
判断所述H标签中的文本与所述Title标签中的文本的相似度是否大于预设的阈值;
若判断结果为是,将所述H标签中的文本确定为所请求的网页的页面标题;
从所述页面标题在所述HTML源网页中所在位置开始,识别所述HTML源网页中的HTML源码信息;
当识别到与预设的结尾标记相匹配的HTML源码信息时,将所述HTML源网页中所述页面标题所在位置至所述匹配的HTML源码信息所在位置之间的部分,确定为所请求的网页的页面核心正文;
其中,所述H标签包括:H1标签、H2标签、H3标签、H4标签、H5标签和H6标签中的任一种;
所述预设的结尾标记包括:“相关评论”标识、“相关链接”标识、“相关阅读”标识、“相关推荐”标识中的任一种或多种。
4.如权利要求3所述的方法,其特征在于,所述HTML源网页还包括:多媒体信息的源地址,所述页面核心内容还包括:页面核心多媒体信息,在确定了所请求的网页的页面核心正文之后,还包括:
从所述HTML源网页中提取位于所述页面核心正文内的多媒体信息的源地址;
判断提取的所述源地址是否包含广告标识,将未包含广告标识的源地址对应的多媒体信息确定为页面核心多媒体信息;
其中,所述页面核心多媒体信息为所述页面核心正文相关的多媒体信息,包括:图片、视频、闪存Flash中的任一种或多种。
5.如权利要求4所述的方法,其特征在于,在确定了页面核心多媒体信息之后,还包括:
根据所述页面核心多媒体信息对应的源地址,从互联网中下载所述页面核心多媒体信息;
按照显示界面的要求,对所述页面核心多媒体信息进行缩略处理,获得缩略图并存储,保存所述缩略图的存储地址。
6.如权利要求5所述的方法,其特征在于,若所述页面核心多媒体信息为图片,则所述按照显示界面的要求,对所述页面核心多媒体信息进行缩略处理,获得缩略图,包括:
按照显示界面的长度和宽度,对所述图片进行缩略处理形成缩略图;
若所述页面核心多媒体信息为视频或Flash,则所述按照显示界面的要求,对所述页面核心多媒体信息进行缩略处理,获得缩略图,包括:
提取所述视频或Flash的至少一帧关键帧图像;
按照显示界面的长度和宽度,对所述关键帧图像进行缩略处理形成缩略图;
其中,所述缩略图的长度不大于所述显示界面的长度,所述缩略图的宽度不大于所述显示界面的宽度。
7.如权利要求2-6任一项所述的方法,其特征在于,所述对所述页面核心内容进行排版处理,并显示排版处理后的所请求的网页,包括:
根据所述HTML源网页和相关附件,对所述页面核心内容进行排版,形成HTML网页;
按照显示界面的要求对所述HTML网页进行转换处理,显示转换后的所请求的网页。
8.如权利要求7所述的方法,其特征在于,所述按照显示界面的要求对所述HTML网页进行转换处理,显示转换后的所请求的网页,包括:
将所述HTML网页中的页面核心多媒体信息对应的源地址替换为相应的缩略图的存储地址;和/或,
按照显示界面的格式要求,将所述HTML网页中所述显示界面不支持的HTML标签进行替换或删除,形成无线应用协议WAP网页;
其中,所述WAP网页为WAP1.0网页或WAP2.0网页。
9.一种网页浏览装置,其特征在于,包括:
网页下载模块,用于当接收到用户的网页请求时,下载所请求的网页的页面信息;
网页分析模块,用于对所述网页下载模块下载的页面信息进行分析处理,获得所请求的网页的页面核心内容;
排版处理模块,用于对所述网页分析模块获得的页面核心内容进行排版处理;
显示模块,用于显示所述排版处理模块处理后的所述所请求的网页。
10.如权利要求9所述的装置,其特征在于,所述网页下载模块包括:
地址获取单元,用于当接收到用户的网页请求时,获取所述用户所请求的网页的URL;
下载单元,用于从互联网中下载所述地址获取单元获取的URL对应的网页的页面信息;
其中,所述页面信息包括: HTML源网页和相关附件;
所述HTML源网页包括:HTML源码信息和HTML标签;
所述相关附件包括:CSS、Frame及JS中的任一种或多种。
11.如权利要求10所述的装置,其特征在于,所述页面核心内容包括:页面标题和页面核心正文,所述网页分析模块包括:
读取单元,用于从所述HTML源网页中读取H标签中的文本和Title标签中的文本;
第一判断单元,用于判断所述读取单元读取的所述H标签中的文本与所述Title标签中的文本的相似度是否大于预设的阈值;
标题确定单元,用于当所述第一判断单元判断结果为是时,将所述H标签中的文本确定为所请求的网页的页面标题;
识别单元,用于从所述标题确定单元确定的页面标题在所述HTML源网页中所在位置开始,识别所述HTML源网页中的HTML源码信息;
正文确定单元,用于当所述识别单元识别到与预设的结尾标记相匹配的HTML源码信息时,将所述HTML源网页中所述页面标题所在位置至所述匹配的HTML源码信息所在位置之间的部分,确定为所请求的网页的页面核心正文;
其中,所述H标签包括:H1标签、H2标签、H3标签、H4标签、H5标签和H6标签中的任一种;
所述预设的结尾标记包括:“相关评论”标识、“相关链接”标识、“相关阅读”标识、“相关推荐”标识中的任一种或多种。
12.如权利要求11所述的装置,其特征在于,所述HTML源网页还包括:多媒体信息的源地址,所述页面核心内容还包括:页面核心多媒体信息,所述网页分析模块还包括:
提取单元,用于从所述HTML源网页中提取位于所述正文确定单元确定的页面核心正文内的多媒体信息的源地址;
第二判断单元,用于判断所述提取单元提取的所述源地址是否包含广告标识;
多媒体确定单元,用于根据所述第二判断单元的判断结果,将未包含广告标识的源地址对应的多媒体信息确定为页面核心多媒体信息;
其中,所述页面核心多媒体信息为所述页面核心正文相关的多媒体信息,包括:图片、视频、Flash中的任一种或多种。
13.如权利要求12所述的装置,其特征在于,还包括:
多媒体下载模块,用于根据所述页面核心多媒体信息对应的源地址,从互联网中下载所述页面核心多媒体信息;
多媒体处理模块,用于按照显示界面的要求,对所述多媒体下载模块下载的页面核心多媒体信息进行缩略处理,获得缩略图并存储,保存所述缩略图的存储地址。
14.如权利要求13所述的装置,其特征在于,所述多媒体处理模块包括:
第一处理单元,用于当所述页面核心多媒体信息为图片时,按照显示界面的长度和宽度,对所述图片进行缩略处理形成缩略图;
第二处理单元,用于当所述页面核心多媒体信息为视频或Flash时,提取所述视频或Flash的至少一帧关键帧图像,按照显示界面的长度和宽度,对所述关键帧图像进行缩略处理形成缩略图;
其中,所述缩略图的长度不大于所述显示界面的长度,所述缩略图的宽度不大于所述显示界面的宽度。
15.如权利要求10-14任一项所述的装置,其特征在于,所述排版处理模块包括:
排版单元,用于根据所述HTML源网页和相关附件,对所述页面核心内容进行排版,形成HTML网页;
转换处理单元,用于按照显示界面的要求对所述排版单元形成的HTML网页进行转换处理,形成转换后的所请求的网页。
16.如权利要求15所述的装置,其特征在于,所述转换处理单元按照显示界面的要求对所述排版单元形成的HTML网页进行转换处理,包括:
将所述HTML网页中的页面核心多媒体信息对应的源地址替换为相应的缩略图的存储地址;和/或,
按照显示界面的格式要求,将所述HTML网页中所述显示界面不支持的HTML标签进行替换或删除,形成WAP网页;
其中,所述WAP网页为WAP1.0网页或WAP2.0网页。
17.一种移动终端,其特征在于,包括网页浏览装置,所述网页浏览装置包括:
网页下载模块,用于当接收到用户的网页请求时,下载所请求的网页的页面信息;
网页分析模块,用于对所述网页下载模块下载的页面信息进行分析处理,获得所请求的网页的页面核心内容;
排版处理模块,用于对所述网页分析模块获得的页面核心内容进行排版处理;
显示模块,用于显示所述排版处理模块处理后的所述所请求的网页。
CN2011102253133A 2011-08-08 2011-08-08 一种网页浏览方法、装置及移动终端 Pending CN102929871A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2011102253133A CN102929871A (zh) 2011-08-08 2011-08-08 一种网页浏览方法、装置及移动终端
PCT/CN2012/079053 WO2013020450A1 (zh) 2011-08-08 2012-07-23 一种网页浏览方法、装置及移动终端
US14/040,607 US10261983B2 (en) 2011-08-08 2013-09-27 Method and device for webpage browsing, and mobile terminal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102253133A CN102929871A (zh) 2011-08-08 2011-08-08 一种网页浏览方法、装置及移动终端

Publications (1)

Publication Number Publication Date
CN102929871A true CN102929871A (zh) 2013-02-13

Family

ID=47644672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102253133A Pending CN102929871A (zh) 2011-08-08 2011-08-08 一种网页浏览方法、装置及移动终端

Country Status (3)

Country Link
US (1) US10261983B2 (zh)
CN (1) CN102929871A (zh)
WO (1) WO2013020450A1 (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258058A (zh) * 2013-06-03 2013-08-21 贝壳网际(北京)安全技术有限公司 页面展现方法、系统及浏览器
CN103353842A (zh) * 2013-06-20 2013-10-16 北京小米科技有限责任公司 一种网页的加载方法和装置
CN103425765A (zh) * 2013-08-06 2013-12-04 优视科技有限公司 网页正文的提取方法和装置、网页预览方法和系统
CN104021158A (zh) * 2014-05-23 2014-09-03 北京金山网络科技有限公司 网页中网页元素的调整方法、装置和移动终端
CN104065632A (zh) * 2013-04-08 2014-09-24 腾讯科技(深圳)有限公司 分享内容的处理方法、服务器、客户端及系统
CN104077273A (zh) * 2013-03-27 2014-10-01 腾讯科技(深圳)有限公司 一种对网页内容抽取的方法及装置
WO2014169455A1 (zh) * 2013-04-18 2014-10-23 华为技术有限公司 一种控制服务质量的方法、应用服务器及终端
WO2014206169A1 (zh) * 2013-06-28 2014-12-31 优视科技有限公司 基于html5的网页文字元素绘制方法、装置及存储介质
CN104572996A (zh) * 2015-01-06 2015-04-29 百度在线网络技术(北京)有限公司 视频网页的处理方法和装置
CN104820690A (zh) * 2015-04-24 2015-08-05 美通云动(北京)科技有限公司 一种对终端显示的图片进行适配的方法及其系统
CN105447201A (zh) * 2015-12-30 2016-03-30 广东欧珀移动通信有限公司 一种分享信息的优化方法及终端
CN106202579A (zh) * 2016-08-26 2016-12-07 乐视控股(北京)有限公司 网页正文提取处理方法及装置、服务器、终端
CN106528691A (zh) * 2016-10-25 2017-03-22 珠海市魅族科技有限公司 一种网页内容的处理方法及移动终端
CN107015785A (zh) * 2016-01-27 2017-08-04 广州博鳌纵横网络科技有限公司 一种网站模块化展示的方法及控件
CN108228609A (zh) * 2016-12-14 2018-06-29 北京国双科技有限公司 信息过滤方法和装置
CN108763591A (zh) * 2018-06-21 2018-11-06 湖南星汉数智科技有限公司 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质
CN109145244A (zh) * 2018-07-20 2019-01-04 重庆宝力优特科技有限公司 显示方法、电子设备和计算机可读存储介质
CN109726612A (zh) * 2017-10-27 2019-05-07 北京搜狗科技发展有限公司 一种识别方法、装置和用于识别的装置
WO2019200797A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 页面数字显示方法、装置、计算机设备及存储介质
CN112528205A (zh) * 2020-12-22 2021-03-19 中科院计算技术研究所大数据研究院 一种网页主体信息提取方法、装置及存储介质
CN113242223A (zh) * 2021-04-30 2021-08-10 刘厚泽 一种网址检测方法及装置

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140173413A1 (en) * 2012-12-18 2014-06-19 Andres Godoy Method and system to build a representative model for web pages to interact with users
CN103259802A (zh) * 2013-06-03 2013-08-21 贝壳网际(北京)安全技术有限公司 媒体文件的下载方法、装置及客户端设备
WO2015062388A1 (zh) * 2013-10-31 2015-05-07 优视科技有限公司 图片加载方法、装置及视频播放方法、装置
KR102146557B1 (ko) * 2013-11-06 2020-08-21 삼성전자주식회사 어플리케이션의 데이터를 렌더링하는 방법, 장치 및 기록매체
KR20170067260A (ko) * 2015-12-08 2017-06-16 삼성전자주식회사 웹 페이지 운용 방법 및 이를 지원하는 전자 장치
US10042880B1 (en) * 2016-01-06 2018-08-07 Amazon Technologies, Inc. Automated identification of start-of-reading location for ebooks
CN105760527B (zh) * 2016-03-02 2022-09-27 百度在线网络技术(北京)有限公司 第三方页面展示方法和装置
US20180205994A1 (en) * 2017-01-17 2018-07-19 Hong Fu Jin Precision Industry (Shenzhen) Co., Ltd Collection and processing method for information as to viewing of videos by user and device and server using the same
CN108920518B (zh) * 2018-06-04 2022-04-01 上海东方报业有限公司 数据生成方法及设备
CN108959495B (zh) * 2018-06-25 2019-12-06 百度在线网络技术(北京)有限公司 H5网页的页面显示方法、装置、设备和计算机存储介质
MX2021006912A (es) 2018-12-11 2021-08-24 Disruption Labs Inc Composiciones para la administracion de agentes terapeuticos y metodos de uso y fabricacion de las mismas.
CN110162748B (zh) * 2019-05-27 2020-10-09 北京字节跳动网络技术有限公司 文档处理方法、装置、设备及存储介质
CN111209488B (zh) * 2020-01-06 2021-10-26 腾讯科技(深圳)有限公司 信息分享方法以及装置
CN112765601B (zh) * 2021-01-18 2023-04-18 西安博达软件股份有限公司 基于云端的网站首页结构监测方法
CN114564668A (zh) * 2022-01-17 2022-05-31 广州文石信息科技有限公司 一种网页排版方法、装置、终端设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090070413A1 (en) * 2007-06-13 2009-03-12 Eswar Priyadarshan Displaying Content on a Mobile Device
CN101833586A (zh) * 2010-05-26 2010-09-15 卓望数码技术(深圳)有限公司 一种html小屏幕自适应排版方法及排版服务器
CN101918946A (zh) * 2007-11-30 2010-12-15 诺基亚公司 数据项的布置
CN102024028A (zh) * 2010-11-22 2011-04-20 百度在线网络技术(北京)有限公司 在移动终端上突出显示网页的主体内容的方法及设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040001952A1 (en) * 2002-06-26 2004-01-01 Eastman Kodak Company Protective laminate and process for thermal dye sublimation prints
US8050970B2 (en) * 2002-07-25 2011-11-01 Google Inc. Method and system for providing filtered and/or masked advertisements over the internet
US7372991B2 (en) * 2003-09-26 2008-05-13 Seiko Epson Corporation Method and apparatus for summarizing and indexing the contents of an audio-visual presentation
JP4636956B2 (ja) * 2005-07-07 2011-02-23 シブヤマシナリー株式会社 内部洗浄装置
US7788577B2 (en) * 2005-09-23 2010-08-31 Google Inc. Displaying information on a mobile device
KR100775176B1 (ko) * 2006-03-10 2007-11-12 엘지전자 주식회사 동영상 정보를 썸네일로 재생하는 방법 및 이를 이용한단말기
KR101377596B1 (ko) * 2006-06-02 2014-03-26 삼성전자주식회사 플렉시블 기판 상에 형성된 박막 트랜지스터 및 그제조방법
US20090010046A1 (en) * 2007-06-28 2009-01-08 Krishnakumar Mani magnetic memory device with non-rectangular cross section current carrying conductors
US8949169B2 (en) * 2009-11-17 2015-02-03 Jerome Naifeh Methods and apparatus for analyzing system events
EP2633432A4 (en) * 2010-10-26 2015-10-21 Hewlett Packard Development Co EXTRACTION OF CONTENT FROM ONE WEBSITE

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090070413A1 (en) * 2007-06-13 2009-03-12 Eswar Priyadarshan Displaying Content on a Mobile Device
CN101918946A (zh) * 2007-11-30 2010-12-15 诺基亚公司 数据项的布置
CN101833586A (zh) * 2010-05-26 2010-09-15 卓望数码技术(深圳)有限公司 一种html小屏幕自适应排版方法及排版服务器
CN102024028A (zh) * 2010-11-22 2011-04-20 百度在线网络技术(北京)有限公司 在移动终端上突出显示网页的主体内容的方法及设备

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077273A (zh) * 2013-03-27 2014-10-01 腾讯科技(深圳)有限公司 一种对网页内容抽取的方法及装置
US9934206B2 (en) 2013-03-27 2018-04-03 Tencent Technology (Shenzhen) Company Limited Method and apparatus for extracting web page content
US11546418B2 (en) 2013-04-08 2023-01-03 Tencent Technology (Shenzhen) Company Limited Method, client, server, and system for sharing content
CN104065632B (zh) * 2013-04-08 2015-07-29 腾讯科技(深圳)有限公司 分享内容的处理方法、服务器、客户端及系统
CN104065632A (zh) * 2013-04-08 2014-09-24 腾讯科技(深圳)有限公司 分享内容的处理方法、服务器、客户端及系统
US11201911B2 (en) 2013-04-08 2021-12-14 Tencent Technology (Shenzhen) Company Limited Method, client, server, and system for sharing content
WO2014169455A1 (zh) * 2013-04-18 2014-10-23 华为技术有限公司 一种控制服务质量的方法、应用服务器及终端
CN103258058A (zh) * 2013-06-03 2013-08-21 贝壳网际(北京)安全技术有限公司 页面展现方法、系统及浏览器
CN103353842A (zh) * 2013-06-20 2013-10-16 北京小米科技有限责任公司 一种网页的加载方法和装置
WO2014206169A1 (zh) * 2013-06-28 2014-12-31 优视科技有限公司 基于html5的网页文字元素绘制方法、装置及存储介质
CN103425765A (zh) * 2013-08-06 2013-12-04 优视科技有限公司 网页正文的提取方法和装置、网页预览方法和系统
CN104021158A (zh) * 2014-05-23 2014-09-03 北京金山网络科技有限公司 网页中网页元素的调整方法、装置和移动终端
CN104572996A (zh) * 2015-01-06 2015-04-29 百度在线网络技术(北京)有限公司 视频网页的处理方法和装置
CN104572996B (zh) * 2015-01-06 2018-09-07 百度在线网络技术(北京)有限公司 视频网页的处理方法和装置
CN104820690A (zh) * 2015-04-24 2015-08-05 美通云动(北京)科技有限公司 一种对终端显示的图片进行适配的方法及其系统
CN105447201A (zh) * 2015-12-30 2016-03-30 广东欧珀移动通信有限公司 一种分享信息的优化方法及终端
CN107015785A (zh) * 2016-01-27 2017-08-04 广州博鳌纵横网络科技有限公司 一种网站模块化展示的方法及控件
CN106202579A (zh) * 2016-08-26 2016-12-07 乐视控股(北京)有限公司 网页正文提取处理方法及装置、服务器、终端
CN106528691A (zh) * 2016-10-25 2017-03-22 珠海市魅族科技有限公司 一种网页内容的处理方法及移动终端
CN108228609A (zh) * 2016-12-14 2018-06-29 北京国双科技有限公司 信息过滤方法和装置
CN109726612A (zh) * 2017-10-27 2019-05-07 北京搜狗科技发展有限公司 一种识别方法、装置和用于识别的装置
CN109726612B (zh) * 2017-10-27 2021-04-16 北京搜狗科技发展有限公司 一种识别方法、装置和用于识别的装置
WO2019200797A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 页面数字显示方法、装置、计算机设备及存储介质
CN108763591A (zh) * 2018-06-21 2018-11-06 湖南星汉数智科技有限公司 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质
CN108763591B (zh) * 2018-06-21 2021-01-08 湖南星汉数智科技有限公司 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质
CN109145244A (zh) * 2018-07-20 2019-01-04 重庆宝力优特科技有限公司 显示方法、电子设备和计算机可读存储介质
CN112528205A (zh) * 2020-12-22 2021-03-19 中科院计算技术研究所大数据研究院 一种网页主体信息提取方法、装置及存储介质
CN113242223A (zh) * 2021-04-30 2021-08-10 刘厚泽 一种网址检测方法及装置
CN113242223B (zh) * 2021-04-30 2022-07-01 刘厚泽 一种网址检测方法及装置

Also Published As

Publication number Publication date
WO2013020450A1 (zh) 2013-02-14
US10261983B2 (en) 2019-04-16
US20140033023A1 (en) 2014-01-30

Similar Documents

Publication Publication Date Title
CN102929871A (zh) 一种网页浏览方法、装置及移动终端
CN108595583B (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
CN102254550B (zh) 网页文字朗读方法和系统
CN107885848B (zh) 基于web技术的网页截屏方法
CN102200971B (zh) 一种实现网页内容预览的方法和设备
RU2522103C2 (ru) Способ и браузер для уведомления об обновлении
CN103166981B (zh) 一种无线网页转码方法及装置
CN109614482B (zh) 标签的处理方法、装置、电子设备及存储介质
CN102325188B (zh) 在移动终端上实现网页浏览的方法和系统
CN102779167A (zh) 在移动终端中显示网页的方法及系统
CN103412928A (zh) 一种在移动终端实现浏览器页面智能响应式布局的方法与装置
CN101702160B (zh) 一种互联网主题信息采集方法及装置
CN107153716B (zh) 网页内容提取方法和装置
CN108334508B (zh) 网页信息的提取方法和装置
CN103365877B (zh) 对网页进行转码后建立目录的方法以及服务器
CN102012894A (zh) 一种终端文档显示方法及系统
CN102999511B (zh) 一种页面快速转换方法、装置和系统
CN108763500A (zh) 基于语音的网页浏览方法、装置、设备及存储介质
JP2001195391A (ja) フォーマット変換・ページ分割中継サーバ
CN102955852A (zh) 一种网页资源处理方法、装置及设备
CN104899212A (zh) 网页展示方法、服务器及系统
CN105204806A (zh) 移动终端网页个性化显示方法及装置
CN106934047B (zh) 一种将发帖内容在小程序中展示的方法及装置
CN104077323A (zh) 一种网页内容转换彩信的方法和装置
WO2002006981A1 (en) Method of reformatting web page and method of providing web page using the same

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131030

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20131030

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518057 Zhenxing Road, SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130213