具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种移动终端,该移动终端包括网页浏览装置,所述网页浏览装置能够为移动终端用户提供较好的网页浏览服务。需要说明的是,所述移动终端可以为:手机、智能手机、PDA(Personal Digital Assistant,个人数字助理)、便携式平板电脑等终端;所述网页浏览装置可以为:浏览器设备。
为了更清楚地说明本发明,下面将对本发明的移动终端中的网页浏览装置进行详细介绍。
请参见图1,为本发明的网页浏览装置的第一实施例的结构示意图;所述网页浏览装置包括:
网页下载模块101,用于当接收到用户的网页请求时,下载所请求的网页的页面信息。
所述网页浏览装置提供人机交互的界面,用户可以在该界面中发出网页请求,比如:所述网页浏览装置为用户提供地址输入栏,用户可在该地址输入栏中输入所请求的网页的URL(Uniform / Universal Resource Locator,统一资源定位符),并在确认之后向所述网页浏览装置发出网页请求,该网页请求中携带用户输入的URL;再如:所述网页浏览装置为用户显示某个网页,当用户在当前网页中点击其他网页的链接时,所述网页浏览装置接收到用户的网页请求,该网页请求中携带用户所请求的网页的链接地址(URL)。当所述网页浏览装置接收到用户的网页请求时,所述网页下载模块101根据该网页请求,从互联网中下载所请求的网页的页面信息,其中,所述页面信息包括: HTML源网页和相关附件;所述HTML源网页可以包括:HTML源码信息、HTML标签和多媒体信息的源地址;所述相关附件包括:CSS(Cascading Style Sheet,层叠样式表)、Frame(一种控件)及JS(JavaScript,一种网页脚本语言)中的任一种或多种。
网页分析模块102,用于对所述网页下载模块101下载的页面信息进行分析处理,获得所请求的网页的页面核心内容。
所述网页分析模块102对所述网页下载模块101下载的HTML源网页和相关附件进行分析处理,该分析处理的过程可以为:对HTML源网页中的HTML标签进行处理,得到页面标题;和/或对HTML源网页中的页面核心正文进行提取;和/或对HTML源网页中的页面核心多媒体信息进行提取。经所述网页分析模块102分析处理后,可以获得所请求的网页的页面核心内容。可以理解的是,除所述网页分析模块102分析获得的所述页面核心内容之外,所请求的网页中的其他内容即为噪声信息。
排版处理模块103,用于对所述网页分析模块102获得的页面核心内容进行排版处理。
所述排版处理模块103对所述网页分析模块102获得的页面核心内容进行排版处理,该页面核心内容包括:页面标题、页面核心正文和页面核心多媒体信息。所述排版处理模块103的处理过程可以包括:依据HTML源网页和相关附件,按照所述页面核心内容在原始的所请求的网页的位置和显示方式进行排版;依据所述网页浏览装置所支持的显示界面的要求,对排版形成的HTML网页进行转换处理,得到所述网页浏览装置所支持的网页格式,比如:HTML网页、WAP1.0网页格式或WAP2.0网页格式。
需要说明的是,所述排版处理模块103在对页面核心内容进行排版处理的过程中,对于HTML网页中除所述页面核心内容之外的其他噪声信息,可以根据实际需要进行丢弃、折叠或隐藏等处理。
显示模块104,用于显示所述排版处理模块103处理后的所述所请求的网页。
由于所述排版处理模块103进行处理后,所述所请求的网页被转换为所述网页浏览装置所支持网页格式,所述显示模块104可直接显示所述所请求的网页。可以理解的是,所述显示模块104可以在所述网页浏览装置所提供的显示界面中显示所请求的网页,比如:在所述网页浏览装置所在的移动终端的显示界面中显示所请求的网页;所述显示模块104还可以在所述网页浏览装置所支持的显示界面中显示所请求的网页,比如:在与所述网页浏览装置相连接的外部显示界面中显示所请求的网页。
本发明实施例可节省传输带宽,提高了网页请求的响应速度;同时提升了网页浏览效果和用户的浏览体验。
请参见图2,为本发明的网页浏览装置的第二实施例的结构示意图;与上一实施例相同,所述网页浏览装置包括:网页下载模块101、网页分析模块102、排版处理模块103和显示模块104。本实施例中,所述网页浏览装置进一步包括:
多媒体下载模块105,用于根据所述页面核心多媒体信息对应的源地址,从互联网中下载所述页面核心多媒体信息。
如前述,所述网页分析模块102可以获得所请求的网页的页面核心多媒体信息,所述多媒体下载模块105可以从HTML源网页中读取该页面核心多媒体信息对应源地址,并根据该源地址,从互联网中下载所述页面核心多媒体信息。其中,所述页面核心多媒体信息为所述页面核心正文相关的多媒体信息,包括但不限于:图片、视频、Flash中的任一种或多种。
多媒体处理模块106,用于按照显示界面的要求,对所述多媒体下载模块106下载的页面核心多媒体信息进行缩略处理,获得缩略图并存储,保存所述缩略图的存储地址。
由于所述网页浏览装置所提供或所支持的显示界面的大小有限,比如:所述网页浏览装置所在的移动终端的显示界面的大小远小于传统PC的显示界面大小,所述多媒体下载模块105下载的页面核心多媒体信息不适于在所述移动终端的显示界面中进行显示;同时,为了提高多媒体信息的传输速率,提高网页响应速度,所述页面核心多媒体信息需要经过所述多媒体处理模块106的缩略处理,该处理过程可以为:若所述页面核心多媒体信息为图片,则按照显示界面的长度和宽度,对所述图片进行缩略处理形成缩略图并存储,保存所述缩略图的存储地址;若所述页面核心多媒体信息为视频或Flash,则首先提取所述视频或Flash的至少一帧关键帧图像;然后按照显示界面的长度和宽度,对所述关键帧图像进行缩略处理形成缩略图并存储,保存该缩略图的存储地址;其中,所述多媒体处理模块106获得的缩略图的长度不大于所述显示界面的长度,所述缩略图的宽度不大于所述显示界面的宽度。
具体实现中,请一并参见图3,为本发明的网页浏览装置中的多媒体处理模块的实施例的结构示意图;所述多媒体处理模块106包括:
第一处理单元611,用于当所述页面核心多媒体信息为图片时,按照显示界面的长度和宽度,对所述图片进行缩略处理形成缩略图。
第二处理单元612,用于当所述页面核心多媒体信息为视频或Flash时,提取所述视频或Flash的至少一帧关键帧图像,按照显示界面的长度和宽度,对所述关键帧图像进行缩略处理形成缩略图。
所述第一处理单元611和所述第二处理单元612获得的缩略图的长度均不大于所述显示界面的长度,宽度均不大于所述显示界面的宽度。可以理解的是,所述第一处理单元611和所述第二处理单元612的缩略处理过程可以与现有对图片的缩略处理过程相同,在此不赘述。
需要说明的是,所述多媒体处理模块106获得的缩略图最终提供给所述排版处理模块103进行排版处理后进行显示,既能够保证多媒体显示效果,又可以增加网页的可读性,同时可提高多媒体信息的传输速率,提高网页响应速度。
本发明实施例可节省传输带宽,提高了网页请求的响应速度;同时保证网页的可读性,提升了网页浏览效果和用户的浏览体验。
为了更清楚地说明本发明,下面将对本发明的网页浏览装置中的网页下载模块进行详细介绍。
请参见图4,为本发明的网页浏览装置中的网页下载模块的实施例的结构示意图;所述网页下载模块101包括:
地址获取单元111,用于当接收到用户的网页请求时,获取所述用户所请求的网页的URL。
如前述,用户可以直接输入所请求的网页的URL,或通过点击所请求的网页的链接地址,向所述网页浏览装置发送网页请求,该网页请求中携带所请求的网页的URL,当接收到用户的网页请求时,所述地址获取单元111从该网页请求中提取所述用户所请求的网页的URL。
下载单元112,用于从互联网中下载所述地址获取单元111获取的URL对应的网页的页面信息。所述下载单元112根据所述地址获取单元111获取的URL,从互联网中下载用户所请求的网页的页面信息,包括: HTML源网页和相关附件;所述HTML源网页可以包括:HTML源码信息、HTML标签和多媒体信息的源地址;所述相关附件包括:CSS、Frame及JS中的任一种或多种。
为了更清楚地说明本发明,下面将对本发明的网页浏览装置中的网页分析模块进行详细介绍。
请参见图5,为本发明的网页浏览装置中的网页分析模块的第一实施例的结构示意图;本实施例中,所请求的网页的所述页面核心内容包括:页面标题和页面核心正文,则所述网页分析模块102包括:
读取单元211,用于从所述HTML源网页中读取H标签(文本标题标签)中的文本和Title标签(标题标签)中的文本。
其中,所述H标签包括:H1标签、H2标签、H3标签、H4标签、H5标签和H6标签中的任一种。H标签(H1标签-H6标签)是指HTML网页中对文本标题所进行的着重强调的一种标签,以标签<H1>、<H2>、<H3>、<H4>、<H5>和<H6>依次表示重要性的递减,<H1>标签代表最重要的文本标题,<H6>标签代表相对最不重要的文本标题。优选地,所述读取单元211从所述HTML源网页中读取H1标签中的文本,并读取Title标签中的文本。其中,Title标签位于HTML源网页的Head标签内,被用来定义页面文档的标题,主要用于告知访问者该篇文章的主题以及提供给搜索引擎索引;Title标签与H标签(H1标签-H6标签)中的文本可以相同,也可以不同。
第一判断单元212,用于判断所述读取单元211读取的所述H标签中的文本与所述Title标签中的文本的相似度是否大于预设的阈值。
所述预设的阈值可以根据实际需要进行设定,该阈值的取值范围可以为:0-100%,比如:可设定阈值为90%,所述第一判断单元212判断H1标签中的文本是否与Title标签中的文本达到90%以上的相似,此处可以一个例子进行说明,假设所述读取单元211从所述H1标签中读取到11个字的文本,从所述Title也读取到11个字的文本,所述第一判断单元212判断H1标签中的文本有10个字与所述Title中的文本相同,则判断二者相似度大于90%。可以理解的是,所述预设的阈值还可以为其他值,所述第一判断单元212还可以采用其他方式进行相似度的判断,其他情况下可类似分析,在此不赘述。
标题确定单元213,用于当所述第一判断单元212判断结果为是时,将所述H标签中的文本确定为所请求的网页的页面标题。
如果所述第一判断单元212判断H1标签中的文本与所述Title标签中的文本相似度超过预设的阈值,所述标题确定单元213将H1标签中的文本确定为所请求的网页的页面标题。
识别单元214,用于从所述标题确定单元213确定的页面标题在所述HTML源网页中所在位置开始,识别所述HTML源网页中的HTML源码信息。
实际应用中,页面标题在HTML源网页中的位置一般为所请求的该网页的页面核心正文的开头,当所述标题确定单元213确定了页面标题后,所述识别单元214则从所述页面标题在所述HTML源网页中的所在位置开始识别所述HTML源网页中的HTML源码信息。
正文确定单元215,用于当所述识别单元214识别到与预设的结尾标记相匹配的HTML源码信息时,将所述HTML源网页中所述页面标题所在位置至所述匹配的HTML源码信息所在位置之间的部分,确定为所请求的网页的页面核心正文。
其中,所述预设的结尾标记包括但不限于:“相关评论”标识、“相关链接”标识、“相关阅读”标识、“相关推荐”标识中的任一种或多种。一般地,当网页中出现“相关评论”或“相关链接”的关键字时,一般表明该网页的页面核心正文的内容已结束,因此,出现“相关评论”或“相关链接”的关键字的位置可以确定为该网页的页面核心正文的结尾。当所述识别单元214从所述HTML源网页中识别到与预设的结尾标记相匹配的HTML源码信息时,所述正文确定单元215将所述HTML源网页中所述页面标题所在位置(页面核心正文的开头)至所述匹配的HTML源码信息所在位置(页面核心正文的结尾)之间的部分,确定为所请求的网页的页面核心正文。
需要说明的是,本实施例中所述网页分析模块102对页面标题和页面核心正文的分析过程仅为举例,其他情况下,比如:所述网页分析模块102还可采用朴素贝耶斯分类器、分支定界、阈值分支等方法来确定页面标题和页面核心正文;再如:所述网页分析模块102还可先对HTML源网页建立DOM(Document Object Model,文档对象模型)树,基于DOM树来实现页面标题和页面核心正文的确定;又如:所述网页分析模块102还可对HTML源网页进行分块,对重要的网页块进行识别来查找页面标题和页面核心正文,等等,采用上述其他情况均是为了获得页面标题和页面核心正文,在此不赘述。
请参见图6,为本发明的网页浏览装置中的网页分析模块的第二实施例的结构示意图;与上一实施例相同,所述网页分析模块102包括:读取单元211、第一判断单元212、标题确定单元213、识别单元214、正文确定单元215。本实施例中,所请求的网页的所述页面核心内容包括:页面标题、页面核心正文和页面核心多媒体信息,则所述网页分析模块102进一步包括:
提取单元216,用于从所述HTML源网页中提取位于所述正文确定单元215确定的页面核心正文内的多媒体信息的源地址。
其中,所述页面核心多媒体信息为所述页面核心正文相关的多媒体信息,包括但不限于:图片、视频、Flash中的任一种或多种。传统的HTML网页中的多媒体信息较多,但大部分为该网页的页面核心正文无关的噪声信息,比如:广告图片、广告Flash等,这些噪声信息一些位于HTML网页中的页面核心正文内,一些则仅仅是环绕在页面核心正文周边,所述提取单元216过滤掉环绕在页面核心正文周边的多媒体信息,从所述HTML源网页中提取位于所述页面核心正文内的多媒体信息的源地址。
第二判断单元217,用于判断所述提取单元216提取的所述源地址是否包含广告标识。
由于噪声信息对应的源地址本身会携带广告标识,包括:广告提供商的信息、广告提示信息等。如前述,由于所述页面核心正文内的多媒体信息也有可能是噪声信息,所述第二判断单元217进一步判断所述提取单元216从所述页面核心正文内提取的多媒体信息的源地址是否包含广告标识,若判断结果为是,则包含广告标识的源地址对应的多媒体信息应当为噪声信息;若判断结果为否,则未包含广告标识的源地址对应的多媒体信息应当为页面核心正文相关的多媒体信息。
多媒体确定单元218,用于根据所述第二判断单元217的判断结果,将未包含广告标识的源地址对应的多媒体信息确定为页面核心多媒体信息。
为了更清楚地说明本发明,下面将对本发明的网页浏览装置中的排版处理模块进行详细介绍。
请参见图7,为本发明的网页浏览装置中的排版处理模块的实施例的结构示意图;所述排版处理模块103包括:
排版单元311,用于根据所述HTML源网页和相关附件,对所述页面核心内容进行排版,形成HTML网页。
所述排版单元311对所述页面核心内容进行排版处理,该页面核心内容包括:页面标题、页面核心正文和页面核心多媒体信息。所述排版单元311的处理过程可以包括:依据HTML源网页和相关附件,按照所述页面核心内容在原始的所请求的网页的位置和显示方式进行排版,形成HTML网页;比如:HTML源网页中记载了页面标题在HTML源网页中的位置,同时CSS中记载了页面标题的字体类型和颜色,所述排版单元311依据HTML源网页的记录,将页面标题排版在HTML网页中相应的位置,同时将该页面标题处理为CSS记录的相应字体类型和颜色。所述排版单元311的排版处理,使得形成的HTML网页与原始所请求的HTML网页对页面核心内容的展示效果相同,不损失页面的可读性。
转换处理单元312,用于按照显示界面的要求对所述排版单元311形成的HTML网页进行转换处理,形成转换后的所请求的网页。
所述转换处理单元312的转换处理过程可以包括:将所述HTML网页中的页面核心多媒体信息对应的源地址替换为相应的缩略图的存储地址;和/或,按照显示界面的格式要求,将所述HTML网页中所述显示界面不支持的HTML标签进行替换或删除,形成WAP网页;其中,所述WAP网页为WAP1.0网页或WAP2.0网页。具体实现中,所述转换处理单元312基于所述网页浏览装置所支持或所提供的显示界面的要求进行转换处理,比如:若所述网页浏览装置所在的移动终端可以支持HTML网页,但无法很好的支持原始HTML网页的多媒体信息,所述转换处理单元312的转换处理过程可以仅包括:将所述排版后的HTML网页中的页面核心多媒体信息对应的源地址替换为相应的缩略图的存储地址,最终形成HTML网页提供给移动终端进行显示;再如:若所述网页浏览装置所在的移动终端无法很好的支持HTML网页,但其显示界面功能较为强大,可以支持多媒体信息,则所述转换处理单元312可以仅仅按照显示界面的格式要求,将所述HTML网页中所述显示界面不支持的HTML标签进行替换或删除,最终形成WAP1.0网页或WAP2.0网页提供给移动终端进行显示;又如:若所述网页浏览装置所在的移动终端无法很好的支持HTML网页,仅支持WAP1.0网页或WAP2.0网页,则所述转换处理单元312首先将所述HTML网页中的页面核心多媒体信息对应的源地址替换为相应的缩略图的存储地址;然后按照显示界面的格式要求,将所述HTML网页中所述显示界面不支持的HTML标签进行替换或删除,最终形成WAP1.0网页或WAP2.0网页提供给移动终端进行显示。
需要说明的是,本发明实施例的网页浏览装置不仅可以应用于本发明实施例所述的移动终端中,还可应用于PC机等传统的固定终端中,当应用于PC机等传统终端中时,由于仅对网页的页面核心内容进行排版展示,因此能够提高PC机对网页的展示速度,从而提高了网页请求的响应速率,提高了用户的浏览体验。
本发明实施例对用户所请求的网页进行分析处理,获得所请求的网页的页面核心内容,对该页面核心内容进行排版处理后进行展示;由于仅提取传统的HTML网页的页面核心内容,节省了传输带宽,提高了网页请求的响应速度;由于仅对页面核心内容进行排版处理,使得移动终端能够正常的展示排版处理后的网页,同时使用户能够从移动终端显示的网页中直接查看到有用信息(即页面核心内容),提升了网页浏览效果,提升了用户的浏览体验。
为了更清楚地说明本发明,下面将对本发明的网页浏览装置所执行的网页浏览方法进行详细介绍。
请参见图8,为本发明的网页浏览方法的第一实施例的流程图;本实施例中,所述方法的执行主体为上述的网页浏览装置,所述网页浏览装置按以下流程执行所述方法,包括:
S101,当接收到用户的网页请求时,下载所请求的网页的页面信息。
所述网页浏览装置提供人机交互的界面,用户可以在该界面中发出网页请求,比如:所述网页浏览装置为用户提供地址输入栏,用户可在该地址输入栏中输入所请求的网页的URL,并在确认之后向所述网页浏览装置发出网页请求,该网页请求中携带用户输入的URL;再如:所述网页浏览装置为用户显示某个网页,当用户在当前网页中点击其他网页的链接时,所述网页浏览装置接收到用户的网页请求,该网页请求中携带用户所请求的网页的链接地址(URL)。步骤S101中,当所述网页浏览装置接收到用户的网页请求时,根据该网页请求,从互联网中下载所请求的网页的页面信息,其中,所述页面信息包括: HTML源网页和相关附件;所述HTML源网页可以包括:HTML源码信息、HTML标签和多媒体信息的源地址;所述相关附件包括:CSS、Frame及JS中的任一种或多种。
S102,对所述页面信息进行分析处理,获得所请求的网页的页面核心内容。
步骤S102中,对步骤S101下载的HTML源网页和相关附件进行分析处理,该分析处理的过程可以为:对HTML源网页中的HTML标签进行处理,得到页面标题;和/或对HTML源网页中的页面核心正文进行提取;和/或对HTML源网页中的页面核心多媒体信息进行提取。经步骤S102分析处理后,可以获得所请求的网页的页面核心内容。可以理解的是,除步骤S102分析获得的所述页面核心内容之外,所请求的网页中的其他内容即为噪声信息。
S103,对所述页面核心内容进行排版处理,并显示排版处理后的所请求的网页。
步骤S103中,对步骤S102获得的页面核心内容进行排版处理,该页面核心内容包括:页面标题、页面核心正文和页面核心多媒体信息。步骤S103的处理过程可以包括:依据HTML源网页和相关附件,按照所述页面核心内容在原始的所请求的网页的位置和显示方式进行排版;依据所述网页浏览装置所支持的显示界面的要求,对排版形成的HTML网页进行转换处理,得到所述网页浏览装置所支持的网页格式,比如:HTML网页、WAP1.0网页格式或WAP2.0网页格式。需要说明的是,步骤S103在对页面核心内容进行排版处理的过程中,对于HTML网页中除所述页面核心内容之外的其他噪声信息,可以根据实际需要进行丢弃、折叠或隐藏等处理。
由于排版处理后,所述所请求的网页被转换为所述网页浏览装置所支持网页格式,可直接显示所述所请求的网页。可以理解的是,步骤S103可以在所述网页浏览装置所提供的显示界面中显示所请求的网页,比如:在所述网页浏览装置所在的移动终端的显示界面中显示所请求的网页;步骤S103还可以在所述网页浏览装置所支持的显示界面中显示所请求的网页,比如:在与所述网页浏览装置相连接的外部显示界面中显示所请求的网页。
本发明实施例可节省传输带宽,提高了网页请求的响应速度;同时提升了网页浏览效果和用户的浏览体验。
请参见图9,为本发明的网页浏览方法的第二实施例的流程图;本实施例中,所述方法的执行主体为上述的网页浏览装置,所述网页浏览装置按以下流程执行所述方法,所述方法包括:
S201,当接收到用户的网页请求时,获取所述用户所请求的网页的URL。
用户可以直接输入所请求的网页的URL,或通过点击所请求的网页的链接地址,向所述网页浏览装置发送网页请求,该网页请求中携带所请求的网页的URL,步骤S201中,当接收到用户的网页请求时,从该网页请求中提取所述用户所请求的网页的URL。
S202,从互联网中下载所述URL对应的网页的页面信息。
步骤S102中,根据步骤S201获取的URL,从互联网中下载用户所请求的网页的页面信息,包括: HTML源网页和相关附件;所述HTML源网页包括:HTML源码信息、HTML标签和多媒体信息的源地址;所述相关附件包括:CSS、Frame及JS中的任一种或多种。
本实施例中,步骤S201-步骤S202为上一实施例中的步骤S101的具体细化流程。
S203,从所述HTML源网页中读取H标签中的文本和Title标签中的文本。
其中,所述H标签包括:H1标签、H2标签、H3标签、H4标签、H5标签和H6标签中的任一种。H标签(H1标签-H6标签)是指HTML网页中对文本标题所进行的着重强调的一种标签,以标签<H1>、<H2>、<H3>、<H4>、<H5>和<H6>依次表示重要性的递减,<H1>标签代表最重要的文本标题,<H6>标签代表相对最不重要的文本标题。优选地,步骤S203中,从所述HTML源网页中读取H1标签中的文本,并读取Title标签中的文本。其中,Title标签位于HTML源网页的Head标签内,被用来定义页面文档的标题,主要用于告知访问者该篇文章的主题以及提供给搜索引擎索引;Title标签与H标签(H1标签-H6标签)中的文本可以相同,也可以不同。
S204,判断所述H标签中的文本与所述Title标签中的文本的相似度是否大于预设的阈值;若判断结果为是,转入执行步骤S205;否则,结束。
所述预设的阈值可以根据实际需要进行设定,该阈值的取值范围可以为:0-100%,比如:可设定阈值为90%,步骤S204中,判断H1标签中的文本是否与Title标签中的文本达到90%以上的相似,此处可以一个例子进行说明,假设步骤S203从所述H1标签中读取到11个字的文本,从所述Title也读取到11个字的文本,步骤S204中,判断H1标签中的文本有10个字与所述Title中的文本相同,则判断二者相似度大于90%。可以理解的是,所述预设的阈值还可以为其他值,步骤S204中还可以采用其他方式进行相似度的判断,其他情况下可类似分析,在此不赘述。
S205,将所述H标签中的文本确定为所请求的网页的页面标题。
如果步骤S204中判断H1标签中的文本与所述Title标签中的文本相似度超过预设的阈值,步骤S205中,则将H1标签中的文本确定为所请求的网页的页面标题。
S206,从所述页面标题在所述HTML源网页中所在位置开始,识别所述HTML源网页中的HTML源码信息。
实际应用中,页面标题在HTML源网页中的位置一般为所请求的该网页的页面核心正文的开头,当步骤S205确定了页面标题后,步骤S206中,从所述页面标题在所述HTML源网页中的所在位置开始识别所述HTML源网页中的HTML源码信息。
S207,当识别到与预设的结尾标记相匹配的HTML源码信息时,将所述HTML源网页中所述页面标题所在位置至所述匹配的HTML源码信息所在位置之间的部分,确定为所请求的网页的页面核心正文。
其中,所述预设的结尾标记包括但不限于:“相关评论”标识、“相关链接”标识、“相关阅读”标识、“相关推荐”标识中的任一种或多种。一般地,当网页中出现“相关评论”或“相关链接”的关键字时,一般表明该网页的页面核心正文的内容已结束,因此,出现“相关评论”或“相关链接”的关键字的位置可以确定为该网页的页面核心正文的结尾。步骤S207中,当从所述HTML源网页中识别到与预设的结尾标记相匹配的HTML源码信息时,将所述HTML源网页中所述页面标题所在位置(页面核心正文的开头)至所述匹配的HTML源码信息所在位置(页面核心正文的结尾)之间的部分,确定为所请求的网页的页面核心正文。
S208,从所述HTML源网页中提取位于所述页面核心正文内的多媒体信息的源地址。
其中,所述页面核心多媒体信息为所述页面核心正文相关的多媒体信息,包括但不限于:图片、视频、Flash中的任一种或多种。传统的HTML网页中的多媒体信息较多,但大部分为该网页的页面核心正文无关的噪声信息,比如:广告图片、广告Flash等,这些噪声信息一些位于HTML网页中的页面核心正文内,一些则仅仅是环绕在页面核心正文周边,步骤S208中,过滤掉环绕在页面核心正文周边的多媒体信息,从所述HTML源网页中提取位于所述页面核心正文内的多媒体信息的源地址。
S209,判断提取的所述源地址是否包含广告标识;若判断结果为否,转入执行步骤S210;否则,结束。
由于噪声信息对应的源地址本身会携带广告标识,包括:广告提供商的信息、广告提示信息等。如前述,由于所述页面核心正文内的多媒体信息也有可能是噪声信息,步骤S209在步骤S208的基础上,进一步判断从所述页面核心正文内提取的多媒体信息的源地址是否包含广告标识,若判断结果为是,则包含广告标识的源地址对应的多媒体信息应当为噪声信息;若判断结果为否,则未包含广告标识的源地址对应的多媒体信息应当为页面核心正文相关的多媒体信息。
S210,将未包含广告标识的源地址对应的多媒体信息确定为页面核心多媒体信息。
本实施例中,步骤S203-步骤S210为上一实施例中的步骤S102的具体细化流程。
S211,根据所述页面核心多媒体信息对应的源地址,从互联网中下载所述页面核心多媒体信息。
当步骤S210确定了请求的网页的页面核心多媒体信息之后,步骤S211中,可以从HTML源网页中读取该页面核心多媒体信息对应源地址,并根据该源地址,从互联网中下载所述页面核心多媒体信息。其中,所述页面核心多媒体信息为所述页面核心正文相关的多媒体信息,包括但不限于:图片、视频、Flash中的任一种或多种。
S212,按照显示界面的要求,对所述页面核心多媒体信息进行缩略处理,获得缩略图并存储,保存所述缩略图的存储地址。
由于所述网页浏览装置所提供或所支持的显示界面的大小有限,比如:所述网页浏览装置所在的移动终端的显示界面的大小远小于传统PC的显示界面大小,步骤S211下载的页面核心多媒体信息不适于在所述移动终端的显示界面中进行显示;同时,为了提高多媒体信息的传输速率,提高网页响应速度,所述页面核心多媒体信息需要经过缩略处理,步骤S212中,该缩略处理过程可以为:若所述页面核心多媒体信息为图片,则按照显示界面的长度和宽度,对所述图片进行缩略处理形成缩略图并存储,保存所述缩略图的存储地址;若所述页面核心多媒体信息为视频或Flash,则首先提取所述视频或Flash的至少一帧关键帧图像;然后按照显示界面的长度和宽度,对所述关键帧图像进行缩略处理形成缩略图并存储,保存该缩略图的存储地址;其中,所述缩略图的长度不大于所述显示界面的长度,所述缩略图的宽度不大于所述显示界面的宽度。
S213,根据所述HTML源网页和相关附件,对所述页面核心内容进行排版,形成HTML网页。
步骤S213中,对所述页面核心内容进行排版处理,该页面核心内容包括:页面标题、页面核心正文和页面核心多媒体信息。步骤S213的处理过程可以包括:依据HTML源网页和相关附件,按照所述页面核心内容在原始的所请求的网页的位置和显示方式进行排版,形成HTML网页;比如:HTML源网页中记载了页面标题在HTML源网页中的位置,同时CSS中记载了页面标题的字体类型和颜色,步骤S213依据HTML源网页的记录,将页面标题排版在HTML网页中相应的位置,同时将该页面标题处理为CSS记录的相应字体类型和颜色。步骤S213中,对所述页面核心内容的排版处理,使得形成的HTML网页与原始所请求的HTML网页对页面核心内容的展示效果相同,不损失页面的可读性。
S214,按照显示界面的要求对所述HTML网页进行转换处理,显示转换后的所请求的网页。
步骤S214中,转换处理过程可以包括:将所述HTML网页中的页面核心多媒体信息对应的源地址替换为相应的缩略图的存储地址;和/或,按照显示界面的格式要求,将所述HTML网页中所述显示界面不支持的HTML标签进行替换或删除,形成WAP网页;其中,所述WAP网页为WAP1.0网页或WAP2.0网页。具体实现中,步骤S214基于所述网页浏览装置所支持或所提供的显示界面的要求进行转换处理,比如:若所述网页浏览装置所在的移动终端可以支持HTML网页,但无法很好的支持原始HTML网页的多媒体信息,所述转换处理过程可以仅包括:将所述排版后的HTML网页中的页面核心多媒体信息对应的源地址替换为相应的缩略图的存储地址,最终形成HTML网页提供给移动终端进行显示;再如:若所述网页浏览装置所在的移动终端无法很好的支持HTML网页,但其显示界面功能较为强大,可以支持多媒体信息,则所述转换处理过程可以仅包括:按照显示界面的格式要求,将所述HTML网页中所述显示界面不支持的HTML标签进行替换或删除,最终形成WAP1.0网页或WAP2.0网页提供给移动终端进行显示;又如:若所述网页浏览装置所在的移动终端无法很好的支持HTML网页,仅支持WAP1.0网页或WAP2.0网页,则所述转换处理过程可以为:首先将所述HTML网页中的页面核心多媒体信息对应的源地址替换为相应的缩略图的存储地址;然后按照显示界面的格式要求,将所述HTML网页中所述显示界面不支持的HTML标签进行替换或删除,最终形成WAP1.0网页或WAP2.0网页提供给移动终端进行显示。
为了更清楚地说明本发明,下面将以一个具体示例来进行说明。
请参见图10,为本发明的网页浏览方法的应用的第一示意图;当用户在地址输入栏中输入:http://news.qq.com/a/20110719/000584.htm;或在QQ新闻主页中点击该网页的链接时,步骤S201则可接收用户的网页请求,并获取到所请求的网页的URL(即:http://news.qq.com/a/20110719/000584.htm);步骤S202依据该URL,从互联网中下载图10所示的HTML网页对应的页面信息,包括:HTML源网页和相关附件。步骤S203读取<H1>标签中的文本为“云南发生伪造矿难事件,6人谋害智障流浪汉骗取赔偿”,<Title>标签中的文本为“云南网 云南伪造矿难事件,6人谋害智障流浪汉骗赔偿”。步骤S204判断步骤S203读取的二个文本相似度很高,超过预设的阈值如90%。步骤S205则将<H1>标签中的文本“云南发生伪造矿难事件,6人谋害智障流浪汉骗取赔偿”确定为网页的页面标题,同时也是页面核心正文的开始。步骤S206从该页面标题所在位置开始识别HTML源网页中的HTML源码信息,当识别到图10所示的“相关阅读”标识时,步骤S207确定该位置为页面核心正文的结尾,则从所述HTML源网页中所述页面标题所在位置至所述“相关阅读”标识所在位置之间的部分,为所请求的网页的页面核心正文。
步骤S208-步骤S212将页面核心正文内与页面核心正文相关的图片进行下载、缩略处理,形成缩略图并存储,保存存储地址。步骤S213将页面标题、页面核心正文和页面核心正文内的页面核心多媒体信息(即图片)按原网页的排布和比例进行排版处理,最后依照移动终端的显示界面要求,将图片源地址替换为缩略图存储地址,并将HTML标签进行替换或删除处理后,形成图11所示的WAP1.0网页,在移动终端中进行展示。请一并参见图11,为本发明的网页浏览方法的应用的第二示意图,图11即为移动终端最终显示的WAP1.0网页的示意图,该WAP1.0网页中仅包括了页面核心内容,其他的周边的噪声信息均被丢弃、折叠或隐藏,使用户可以直接读取所请求的网页的核心的信息,提高了移动终端的浏览效果。
本发明实施例对用户所请求的网页进行分析处理,获得所请求的网页的页面核心内容,对该页面核心内容进行排版处理后进行展示;由于仅提取传统的HTML网页的页面核心内容,节省了传输带宽,提高了网页请求的响应速度;由于仅对页面核心内容进行排版处理,使得移动终端能够正常的展示排版处理后的网页,同时使用户能够从移动终端显示的网页中直接查看到有用信息(即页面核心内容),提升了网页浏览效果,提升了用户的浏览体验。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。