CN103383695A - 一种用于识别wap页面的方法与设备 - Google Patents

一种用于识别wap页面的方法与设备 Download PDF

Info

Publication number
CN103383695A
CN103383695A CN2013102527081A CN201310252708A CN103383695A CN 103383695 A CN103383695 A CN 103383695A CN 2013102527081 A CN2013102527081 A CN 2013102527081A CN 201310252708 A CN201310252708 A CN 201310252708A CN 103383695 A CN103383695 A CN 103383695A
Authority
CN
China
Prior art keywords
page
wap
feature
web page
pending
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013102527081A
Other languages
English (en)
Other versions
CN103383695B (zh
Inventor
蒲鹏
李冠兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310252708.1A priority Critical patent/CN103383695B/zh
Publication of CN103383695A publication Critical patent/CN103383695A/zh
Application granted granted Critical
Publication of CN103383695B publication Critical patent/CN103383695B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明的目的是提供一种用于识别WAP页面的方法与设备;获取待处理页面;自所述待处理页面的页面标签中,提取WEB页面特征与WAP页面特征;基于所述WEB页面特征与WAP页面特征,识别所述待处理页面中的WAP页面。与现有技术相比,本发明自待处理页面的页面标签中,提取WEB页面特征与WAP页面特征,同时基于该WEB页面特征与WAP页面特征,识别所述待处理页面中的WAP页面;由于在识别WAP页面的过程中,同时考虑WAP页面特征,即正向页面特征,与WEB页面特征,即反向页面特征,避免仅基于WAP页面特征来识别WAP页面所造成的误召回不规范WEB页面的情况,提高了识别WAP页面的准确率,提升了用户的使用体验。

Description

一种用于识别WAP页面的方法与设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于识别WAP页面的技术。
背景技术
由于页面编码的不规范,很多站点会经常在WEB页面中使用手机页面特有的标签属性,即,WEB页面中经常会包含WAP页面特征。而传统的WAP页面识别方式仅针对页面中的WAP页面特征进行识别,即,只要在页面中识别出WAP页面特征,就将其识别为WAP页面。这种识别方式导致传统的WAP页面识别误召回很多不规范的WEB页面,极大地影响了用户的使用体验。
因此,如何准确、高效地识别WAP页面,成为本领域技术人员亟需解决的问题之一。
发明内容
本发明的目的是提供一种用于识别WAP页面的方法与设备。
根据本发明的一个方面,提供了一种用于识别WAP页面的方法,其中,该方法包括以下步骤:
a获取待处理页面;
b自所述待处理页面的页面标签中,提取WEB页面特征与WAP页面特征;
c基于所述WEB页面特征与WAP页面特征,识别所述待处理页面中的WAP页面。
根据本发明的另一方面,还提供了一种用于识别WAP页面的识别设备,其中,该设备包括:
页面获取装置,用于获取待处理页面;
特征提取装置,用于自所述待处理页面的页面标签中,提取WEB页面特征与WAP页面特征;
第一识别装置,用于基于所述WEB页面特征与WAP页面特征,识别所述待处理页面中的WAP页面。
与现有技术相比,本发明自待处理页面的页面标签中,提取WEB页面特征与WAP页面特征,同时基于该WEB页面特征与WAP页面特征,识别所述待处理页面中的WAP页面;由于在识别WAP页面的过程中,同时考虑WAP页面特征,即正向页面特征,与WEB页面特征,即反向页面特征,避免仅基于WAP页面特征来识别WAP页面所造成的误召回不规范WEB页面的情况,提高了识别WAP页面的准确率,提升了用户的使用体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于识别WAP页面的设备示意图;
图2示出根据本发明一个优选实施例的用于识别WAP页面的设备示意图;
图3示出根据本发明一个优选实施例的用于识别WAP页面的流程设图;
图4示出根据本发明另一个方面的用于识别WAP页面的方法流程图;
图5示出根据本发明一个优选实施例的用于识别WAP页面的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的用于识别WAP页面的设备示意图。识别设备1包括页面获取装置101、特征提取装置102和第一识别装置103。
页面获取装置101获取待处理页面。具体地,页面获取装置101例如通过与搜索引擎等设备的交互,获取该搜索引擎所爬取的页面,作为待处理页面,或者,直接通过爬取的方式,爬取各站点的页面,以作为待处理页面。
本领域技术人员应能理解上述获取待处理页面的方式仅为举例,其他现有的或今后可能出现的获取待处理页面的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
特征提取装置102自所述待处理页面的页面标签中,提取WEB页面特征与WAP页面特征。具体地,特征提取装置102例如通过页面分析器,或通过其他预定的特征提取的方式,自该待处理页面的页面标签中,提取WEB页面与WAP页面特征。在此,该WEB页面特征包括但不限于-HTML属性标签、FLASH属性标签等;该WAP特征包括但不限于WML属性标签、XHTML-MP文档类型属性标签、META移动优化属性标签、META特征视图属性标签等。
本领域技术人员应能理解上述WEB页面特征与WAP页面特征的提取方式仅为举例,其他现有的或今后可能出现的WEB页面特征与WAP页面特征的提取方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
第一识别装置103基于所述WEB页面特征与WAP页面特征,识别所述待处理页面中的WAP页面。具体地,第一识别装置103基于该特征提取装置102所提取的WEB页面特征与WAP页面特征,对该待处理页面进行识别,例如,当该待处理页面中的WAP页面特征多于WEB页面特征时,将其识别为WAP页面,当该待处理页面中的WEB页面特征多于WAP页面特征时,将其识别为WEB页面。又如,该第一识别装置103将该待处理页面中的WEB页面特征作为反向特征,基于该反向特征,确定该待处理页面的WEB特征值,例如,为每一个WEB页面特征预设一权值,在该待处理页面中每出现一次则计一次该权值,通过累加的方式,计算该待处理页面的WEB特征值,当该WEB特征值大于预定阈值时,将该待处理页面识别为WEB页面,则对于多个待处理页面来讲,剩余的待处理页面则可识别为WAP页面。相类似地,该第一识别装置103还可根据该待处理页面中的WAP页面特征,确定该待处理页面的WAP特征值,例如,为每一个WAP页面特征预设一权值,在该待处理页面中每出现一次则计一次该权值,通过累加的方式,计算该待处理页面的WAP特征值,则当该待处理页面的WAP特征值大于WEB特征值时,将该待处理页面识别为WAP页面,否则识别为WEB页面。
本领域技术人员应能理解上述识别WAP页面的方式仅为举例,其他现有的或今后可能出现的识别WAP页面的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,识别设备1的各个装置之间是持续不断工作的。具体地,页面获取装置101获取待处理页面;特征提取装置102自所述待处理页面的页面标签中,提取WEB页面特征与WAP页面特征;第一识别装置103基于所述WEB页面特征与WAP页面特征,识别所述待处理页面中的WAP页面。在此,本领域技术人员应理解“持续”是指识别设备1的各装置分别按照设定的或实时调整的工作模式要求进行待处理页面的获取、WEB页面特征与WAP页面特征的提取、WAP页面的识别,直至该识别设备1在较长时间内停止获取待处理页面。
在此,识别设备1自待处理页面的页面标签中,提取WEB页面特征与WAP页面特征,同时基于该WEB页面特征与WAP页面特征,识别该待处理页面中的WAP页面;由于在识别WAP页面的过程中,同时考虑WAP页面特征,即正向页面特征,与WEB页面特征,即反向页面特征,避免仅基于WAP页面特征来识别WAP页面所造成的误召回不规范WEB页面的情况,提高了识别WAP页面的准确率,提升了用户的使用体验。
优选地,所述特征提取装置102对所述待处理页面进行WML属性检验,以提取所述待处理页面中的WML(Wireless Markup Language,无线标记语言)属性标签;其中,所述第一识别装置103当所述待处理页面包括所述WML属性标签时,将所述待处理页面识别为WAP页面。具体地,特征提取装置102根据页面获取装置101所获取的待处理页面,自该待处理页面中提取WML属性标签,以对该待处理页面进行WML属性检验;随后,当该特征提取装置102自该待处理页面中提取出WML属性标签时,该第一识别装置103将该待处理页面识别为WAP页面。
在此,WML是一种从HTML继承而来的标记语言,比HTML编写的内容要消耗网络浏览器更少的内存和CPU时间,使得WML对广域网和移动设备来说更加友好。但是WML基于XML,因此其较HTML更严格。WML被用来创建可显示在WAP浏览器中的WAP页面。
较佳地,该识别设备1可以预先设置一白名单,该白名单中存储有WML属性标签,该识别设备1对该待处理页面进行白名单过滤,过滤其中包括有WML属性标签的待处理页面,并将该待处理页面识别为WAP页面。
优选地,所述WEB页面特征包括以下至少任一项:
-HTML属性标签;
-FLASH属性标签。
在此,HTML(Hypertext Markup Language,超文本标记语言)是用于描述网页文档的一种标记语言,通过标记符号来标记要显示的网页中的各个部分。FLASH属性标签是WEB页面的一种强特征,若该待处理页面包括FLASH属性标签,则该待处理页面为WEB页面的概率较大。例如,当该第一识别装置103通过上述权值累加的方式,计算待处理页面的WEB特征值并判断是否为WEB页面时,可将该FLASH属性标签的权值预设为一较大的值。
更优选地,当该WEB页面特征包括HTML属性标签,其中,该识别设备1还包括第二识别装置(未示出)。该第二识别装置当所述待处理页面包括所述HTML属性标签时,直接将所述待处理页面识别为WEB页面。
本领域技术人员应能理解上述WEB页面特征仅为举例,其他现有的或今后可能出现的WEB页面特征如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
较佳地,该识别设备1可以预先设置一黑名单,该黑名单中存储有HTML属性标签,该识别设备1对该待处理页面进行黑名单过滤,过滤其中包括有HTML属性标签的待处理页面,并将该待处理页面识别为WEB页面。
优选地,所述WAP页面特征包括以下至少任一项:
-XHTML-MP文档类型属性标签;
-META移动优化属性标签;
-META特征视图属性标签;
-WML属性标签。
在此,XHTML(Extensible HyperText Markup Language,可扩展超文本标记语言)是一种标记语言,表现方式与HTML类似,不过语法上更加严格。从继承关系上讲,HTML是一种基于标准通用标记语言(SGML)的应用,是一种非常灵活的标记语言,而XHTML则基于可扩展标记语言(XML),XML是SGML的一个子集。
XHTML MP(XHTML Mobile Profile,可扩展标记语言移动概要)是WAP2.0中定义的标记语言(markup language)。XHTML MP是XHTML的子集,在XHTML MP出现之前,WAP网站的开发者们只能用WML和WML script来创建WAP的网站。而与此同时,WEB的开发者们却在用强大的多的HTML、CSS、XHTML等来进行传统网站的开发。因此,XHTML MP的目标就是浏览者在WAP和WEB上获得尽可能相似的浏览体验。
文档类型(DOCTYPE)属性标签位于文档中的最前面的位置,处于<html>标签之前,是一种标准通用标记语言的文档类型声明。此标签可告知浏览器文档使用哪种HTML或XHTML规范。该标签可声明三种文档类型定义(DTD)类型,分别表示严格版本、过渡版本以及基于框架的HTML文档。
在此,META是用来在HTML文档中模拟HTTP协议的响应头报文。META标签用于网页的<head>与</head>中,可提供有关页面的元信息(meta-information),比如针对搜索引擎和更新频度的描述和关键词。<meta>标签位于文档的头部,不包含任何内容。<meta>标签的属性定义了与文档相关联的名称/值对。在HTML中,<meta>标签没有结束标签;而在XHTML中,<meta>标签必须被正确地关闭。
在此,移动优化(Mobile Optimize)是一种能够转换网站结构的工具,以使得其能够适用于更小的空间,例如移动设备的屏幕。移动优化具有方便使用、减少网页的加载时间等特点,且包括多种设置,可适用于所有类型的网站,在转换的同时存储网页显示以避免WEB服务器过载。META移动优化属性标签表明该待处理页面经过了移动优化的转换,以适应移动设备的屏幕。
为了让手机用户获得良好的网页浏览体验,Apple在移动版(iOS)的Safari中定义了特征视图(viewport meta)属性标签,其作用在于创建一个虚拟的窗口(viewport),而且这个虚拟窗口的分辨率接近于桌面显示器,Apple将其定位为980px。以iphone的Safari为例,在iphone的320px物理屏幕上——视觉窗口(visual viewport),创建出了一个980px的虚拟窗口——布局窗口(layout viewport),在视觉窗口(visualviewport)中我们可以拖动横向竖向滑动条或者放大缩小网页,来达到最佳的浏览效果(类似桌面浏览器);而布局窗口(layout viewport)用来配合CSS渲染布局,例如当设置一个容器的宽度为100%时,这个容器的实际值为980px而不是320px。如此一来大部分网页就能以缩放的形式正常的显示在手机屏幕上了。
本领域技术人员应能理解上述WAP页面特征仅为举例,其他现有的或今后可能出现的WAP页面特征如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
图2示出根据本发明一个优选实施例的用于识别WAP页面的设备示意图。该识别设备1还包括属性检验装置204和第三识别装置205。以下参照图2对该优选实施例进行详细描述:具体地,页面获取装置201获取待处理页面;特征提取装置202自所述待处理页面的页面标签中,提取WEB页面特征与WAP页面特征;第一识别装置203基于所述WEB页面特征与WAP页面特征,识别所述待处理页面中的WAP页面;属性检验装置204当所述待处理页面包括所述WAP页面特征,对所述待处理页面进行HTML5属性检验,以提取所述待处理页面中的HTML5属性标签;第三识别装置205根据所述HTML5属性标签,识别所述待处理页面是否为HTML5WAP页面。其中,页面获取装置201、特征提取装置202和第一识别装置203与图1所示对应装置相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
其中,属性检验装置204当所述待处理页面包括所述WAP页面特征,对所述待处理页面进行HTML5属性检验,以提取所述待处理页面中的HTML5属性标签。
在此,HTML5是用于取代1999年所制定的HTML4.01和XHTML1.0标准的HTML标准版本,现在仍处于发展阶段,但大部分浏览器已经支持某些HTML5技术。HTML5有两大特点:首先,强化了WEB网页的表现性能;其次,追加了本地数据库等WEB应用的功能。
第三识别装置205根据所述HTML5属性标签,识别所述待处理页面是否为HTML5WAP页面。例如,当该待处理页面包括WAP页面特征时,进一步对该待处理页面进行HTML5属性检验,若可自该待处理页面中提取出HTML5属性标签,则该待处理页面被识别为HTML5WAP页面的概率的较大,如对已经识别为WAP页面的待处理页面,当该页面还包括HTML5属性标签时,直接将其判断为HTML5WAP;又如,对于未识别出结果的待处理页面,当检验出该待处理页面还包括HTML5属性标签时,为该HTML5属性标签预设一较大的权值,以最终基于该待处理页面的各个WEB页面特征、WAP页面特征、及其对应的权值,判断该待处理页面为WEB页面还是WAP页面。
优选地,当所述WAP页面特征包括META特征视图属性标签;其中,该识别设备1还包括第二提取装置(未示出)。该第二提取装置当所述待处理页面包括所述META特征视图属性标签,进一步提取所述待处理页面的WEB页面特征;其中,所述属性检验装置204当所述待处理页面的WAP页面特征多于所述WEB页面特征,对所述待处理页面进行HTML5属性检验,以提取所述待处理页面中的HTML5属性标签。进而,第三识别装置205根据所述HTML5属性标签,识别所述待处理页面是否为HTML5WAP页面。
一个优选实施例如图3所示:
在步骤S301中,识别设备1进行黑/白名单过滤,例如,基于存储有HTML属性标签的黑名单,过滤掉包括HTML属性标签的待处理页面,并将其识别为WEB页面;又如,基于存储有WML属性标签的白名单,过滤掉包括WML属性标签的待处理页面,并将其识别为WAP页面。
在步骤S302中,识别设备1对所述待处理页面进行WML属性检验,以提取所述待处理页面中的WML属性标签;当所述待处理页面包括所述WML属性标签时,将所述待处理页面识别为WAP页面。
在步骤S303中,识别设备1提取该待处理页面中的协议数据,如提取该待处理页面中的WEB页面标签、WAP页面标签等。
在步骤S304中,识别设备1对该待处理页面进行FLASH属性标签检验,以提取所述待处理页面中的FLASH属性标签;当所述待处理页面包括所述FLASH属性标签时,提高将该待处理页面识别为WEB页面的概率,或较佳地,直接将该待处理页面识别为WEB页面;若该待处理页面不包括该FLASH属性标签,则继续进行下一个步骤。
在步骤S305中,识别设备1进一步提取该待处理页面中的XHTML-MP文档类型属性标签;当该待处理页面包括该XHTML-MP文档类型属性标签时,进入步骤S310,若不包括,则进入步骤S306。
在步骤S306中,识别设备1进一步提取该待处理页面中的META移动优化属性标签;当该待处理页面包括该META移动优化属性标签时,进入步骤S310,若不包括,则进入步骤S307。
在步骤S307中,识别设备1进一步提取该待处理页面中的META特征视图属性标签;当该待处理页面包括该META特征视图属性标签时,进入步骤S310,若不包括,则进入步骤S308。
在步骤S308中,识别设备1提取该待处理页面的WEB页面特征。
在步骤S309中,识别设备1对该待处理页面中的WEB页面特征与WAP页面特征进行判断,当该WEB页面特征大于WAP页面特征时,将其判断为WEB页面,否则,进入步骤S310。
在步骤S310中,识别设备1对该待处理页面进行HTML5检验,当该待处理页面包括HTML5属性标签时,提高将其判断为HTML5WAP页面的概率,或较佳地,直接将其判断为HTML5WAP页面;若该待处理页面不包括HTML5属性标签,则提高将其判断为WAP页面的概率,或较佳地,直接将其判断为WAP页面。
图4示出根据本发明另一个方面的用于识别WAP页面的方法流程图。
在步骤S401中,识别设备1获取待处理页面。具体地,在步骤S401中,识别设备1例如通过与搜索引擎等设备的交互,获取该搜索引擎所爬取的页面,作为待处理页面,或者,直接通过爬取的方式,爬取各站点的页面,以作为待处理页面。
本领域技术人员应能理解上述获取待处理页面的方式仅为举例,其他现有的或今后可能出现的获取待处理页面的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S402中,识别设备1自所述待处理页面的页面标签中,提取WEB页面特征与WAP页面特征。具体地,在步骤S402中,识别设备1例如通过页面分析器,或通过其他预定的特征提取的方式,自该待处理页面的页面标签中,提取WEB页面与WAP页面特征。在此,该WEB页面特征包括但不限于-HTML属性标签、FLASH属性标签等;该WAP特征包括但不限于WML属性标签、XHTML-MP文档类型属性标签、META移动优化属性标签、META特征视图属性标签等。
本领域技术人员应能理解上述WEB页面特征与WAP页面特征的提取方式仅为举例,其他现有的或今后可能出现的WEB页面特征与WAP页面特征的提取方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S403中,识别设备1基于所述WEB页面特征与WAP页面特征,识别所述待处理页面中的WAP页面。具体地,在步骤S403中,识别设备1基于在步骤S402中所提取的WEB页面特征与WAP页面特征,对该待处理页面进行识别,例如,当该待处理页面中的WAP页面特征多于WEB页面特征时,将其识别为WAP页面,当该待处理页面中的WEB页面特征多于WAP页面特征时,将其识别为WEB页面。又如,在步骤S403中,识别设备1将该待处理页面中的WEB页面特征作为反向特征,基于该反向特征,确定该待处理页面的WEB特征值,例如,为每一个WEB页面特征预设一权值,在该待处理页面中每出现一次则计一次该权值,通过累加的方式,计算该待处理页面的WEB特征值,当该WEB特征值大于预定阈值时,将该待处理页面识别为WEB页面,则对于多个待处理页面来讲,剩余的待处理页面则可识别为WAP页面。相类似地,在步骤S403中,识别设备1还可根据该待处理页面中的WAP页面特征,确定该待处理页面的WAP特征值,例如,为每一个WAP页面特征预设一权值,在该待处理页面中每出现一次则计一次该权值,通过累加的方式,计算该待处理页面的WAP特征值,则当该待处理页面的WAP特征值大于WEB特征值时,将该待处理页面识别为WAP页面,否则识别为WEB页面。
本领域技术人员应能理解上述识别WAP页面的方式仅为举例,其他现有的或今后可能出现的识别WAP页面的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,识别设备1的各个步骤之间是持续不断工作的。具体地,在步骤S401中,识别设备1获取待处理页面;在步骤S402中,识别设备1自所述待处理页面的页面标签中,提取WEB页面特征与WAP页面特征;在步骤S403中,识别设备1基于所述WEB页面特征与WAP页面特征,识别所述待处理页面中的WAP页面。在此,本领域技术人员应理解“持续”是指识别设备1的各步骤分别按照设定的或实时调整的工作模式要求进行待处理页面的获取、WEB页面特征与WAP页面特征的提取、WAP页面的识别,直至该识别设备1在较长时间内停止获取待处理页面。
在此,识别设备1自待处理页面的页面标签中,提取WEB页面特征与WAP页面特征,同时基于该WEB页面特征与WAP页面特征,识别该待处理页面中的WAP页面;由于在识别WAP页面的过程中,同时考虑WAP页面特征,即正向页面特征,与WEB页面特征,即反向页面特征,避免仅基于WAP页面特征来识别WAP页面所造成的误召回不规范WEB页面的情况,提高了识别WAP页面的准确率,提升了用户的使用体验。
优选地,在步骤S402中,识别设备1对所述待处理页面进行WML属性检验,以提取所述待处理页面中的WML(Wireless MarkupLanguage,无线标记语言)属性标签;随后,在步骤S403中,识别设备1当所述待处理页面包括所述WML属性标签时,将所述待处理页面识别为WAP页面。具体地,在步骤S402中,识别设备1根据在步骤S401中所获取的待处理页面,自该待处理页面中提取WML属性标签,以对该待处理页面进行WML属性检验;随后,当在步骤S402中,识别设备1自该待处理页面中提取出WML属性标签时,在步骤S403中,识别设备1将该待处理页面识别为WAP页面。
在此,WML是一种从HTML继承而来的标记语言,比HTML编写的内容要消耗网络浏览器更少的内存和CPU时间,使得WML对广域网和移动设备来说更加友好。但是WML基于XML,因此其较HTML更严格。WML被用来创建可显示在WAP浏览器中的WAP页面。
较佳地,该识别设备1可以预先设置一白名单,该白名单中存储有WML属性标签,该识别设备1对该待处理页面进行白名单过滤,过滤其中包括有WML属性标签的待处理页面,并将该待处理页面识别为WAP页面。
优选地,所述WEB页面特征包括以下至少任一项:
-HTML属性标签;
-FLASH属性标签。
在此,HTML(Hypertext Markup Language,超文本标记语言)是用于描述网页文档的一种标记语言,通过标记符号来标记要显示的网页中的各个部分。FLASH属性标签是WEB页面的一种强特征,若该待处理页面包括FLASH属性标签,则该待处理页面为WEB页面的概率较大。例如,当在步骤S403中,识别设备1通过上述权值累加的方式,计算待处理页面的WEB特征值并判断是否为WEB页面时,可将该FLASH属性标签的权值预设为一较大的值。
更优选地,当该WEB页面特征包括HTML属性标签,其中,该方法还包括步骤S406(未示出)。当所述待处理页面包括所述HTML属性标签时,在步骤S406中,识别设备1直接将所述待处理页面识别为WEB页面。
本领域技术人员应能理解上述WEB页面特征仅为举例,其他现有的或今后可能出现的WEB页面特征如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
较佳地,该识别设备1可以预先设置一黑名单,该黑名单中存储有HTML属性标签,该识别设备1对该待处理页面进行黑名单过滤,过滤其中包括有HTML属性标签的待处理页面,并将该待处理页面识别为WEB页面。
优选地,所述WAP页面特征包括以下至少任一项:
-XHTML-MP文档类型属性标签;
-META移动优化属性标签;
-META特征视图属性标签;
-WML属性标签。
在此,XHTML(Extensible HyperText Markup Language,可扩展超文本标记语言)是一种标记语言,表现方式与HTML类似,不过语法上更加严格。从继承关系上讲,HTML是一种基于标准通用标记语言(SGML)的应用,是一种非常灵活的标记语言,而XHTML则基于可扩展标记语言(XML),XML是SGML的一个子集。
XHTML MP(XHTML Mobile Profile,可扩展标记语言移动概要)是WAP2.0中定义的标记语言(markup language)。XHTML MP是XHTML的子集,在XHTML MP出现之前,WAP网站的开发者们只能用WML和WML script来创建WAP的网站。而与此同时,WEB的开发者们却在用强大的多的HTML、CSS、XHTML等来进行传统网站的开发。因此,XHTML MP的目标就是浏览者在WAP和WEB上获得尽可能相似的浏览体验。
文档类型(DOCTYPE)属性标签位于文档中的最前面的位置,处于<html>标签之前,是一种标准通用标记语言的文档类型声明。此标签可告知浏览器文档使用哪种HTML或XHTML规范。该标签可声明三种文档类型定义(DTD)类型,分别表示严格版本、过渡版本以及基于框架的HTML文档。
在此,META是用来在HTML文档中模拟HTTP协议的响应头报文。META标签用于网页的<head>与</head>中,可提供有关页面的元信息(meta-information),比如针对搜索引擎和更新频度的描述和关键词。<meta>标签位于文档的头部,不包含任何内容。<meta>标签的属性定义了与文档相关联的名称/值对。在HTML中,<meta>标签没有结束标签;而在XHTML中,<meta>标签必须被正确地关闭。
在此,移动优化(Mobile Optimize)是一种能够转换网站结构的工具,以使得其能够适用于更小的空间,例如移动设备的屏幕。移动优化具有方便使用、减少网页的加载时间等特点,且包括多种设置,可适用于所有类型的网站,在转换的同时存储网页显示以避免WEB服务器过载。META移动优化属性标签表明该待处理页面经过了移动优化的转换,以适应移动设备的屏幕。
为了让手机用户获得良好的网页浏览体验,Apple在移动版(iOS)的Safari中定义了特征视图(viewport meta)属性标签,其作用在于创建一个虚拟的窗口(viewport),而且这个虚拟窗口的分辨率接近于桌面显示器,Apple将其定位为980px。以iphone的Safari为例,在iphone的320px物理屏幕上——视觉窗口(visual viewport),创建出了一个980px的虚拟窗口——布局窗口(layout viewport),在视觉窗口(visualviewport)中我们可以拖动横向竖向滑动条或者放大缩小网页,来达到最佳的浏览效果(类似桌面浏览器);而布局窗口(layout viewport)用来配合CSS渲染布局,例如当设置一个容器的宽度为100%时,这个容器的实际值为980px而不是320px。如此一来大部分网页就能以缩放的形式正常的显示在手机屏幕上了。
本领域技术人员应能理解上述WAP页面特征仅为举例,其他现有的或今后可能出现的WAP页面特征如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
图5示出根据本发明一个优选实施例的用于识别WAP页面的方法流程图。以下参照图5对该优选实施例进行详细描述:具体地,在步骤S501中,识别设备1获取待处理页面;在步骤S502中,识别设备1自所述待处理页面的页面标签中,提取WEB页面特征与WAP页面特征;在步骤S503中,识别设备1基于所述WEB页面特征与WAP页面特征,识别所述待处理页面中的WAP页面;在步骤S504中,识别设备1当所述待处理页面包括所述WAP页面特征,对所述待处理页面进行HTML5属性检验,以提取所述待处理页面中的HTML5属性标签;在步骤S505中,识别设备1根据所述HTML5属性标签,识别所述待处理页面是否为HTML5WAP页面。其中,步骤S501-S503与图4所示对应步骤相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
其中,在步骤S504中,识别设备1当所述待处理页面包括所述WAP页面特征,对所述待处理页面进行HTML5属性检验,以提取所述待处理页面中的HTML5属性标签。
在此,HTML5是用于取代1999年所制定的HTML4.01和XHTML1.0标准的HTML标准版本,现在仍处于发展阶段,但大部分浏览器已经支持某些HTML5技术。HTML5有两大特点:首先,强化了WEB网页的表现性能;其次,追加了本地数据库等WEB应用的功能。
在步骤S505中,识别设备1根据所述HTML5属性标签,识别所述待处理页面是否为HTML5WAP页面。例如,当该待处理页面包括WAP页面特征时,进一步对该待处理页面进行HTML5属性检验,若可自该待处理页面中提取出HTML5属性标签,则该待处理页面被识别为HTML5WAP页面的概率的较大,如对已经识别为WAP页面的待处理页面,当该页面还包括HTML5属性标签时,直接将其判断为HTML5WAP;又如,对于未识别出结果的待处理页面,当检验出该待处理页面还包括HTML5属性标签时,为该HTML5属性标签预设一较大的权值,以最终基于该待处理页面的各个WEB页面特征、WAP页面特征、及其对应的权值,判断该待处理页面为WEB页面还是WAP页面。
优选地,当所述WAP页面特征包括META特征视图属性标签;其中,该方法还包括S507(未示出)。当所述待处理页面包括所述META特征视图属性标签,在步骤S507中,识别设备1进一步提取所述待处理页面的WEB页面特征;随后,在步骤S504中,识别设备1当所述待处理页面的WAP页面特征多于所述WEB页面特征,对所述待处理页面进行HTML5属性检验,以提取所述待处理页面中的HTML5属性标签。进而,在步骤S505中,识别设备1根据所述HTML5属性标签,识别所述待处理页面是否为HTML5WAP页面。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (14)

1.一种用于识别WAP页面的方法,其中,该方法包括以下步骤:
a获取待处理页面;
b自所述待处理页面的页面标签中,提取WEB页面特征与WAP页面特征;
c基于所述WEB页面特征与WAP页面特征,识别所述待处理页面中的WAP页面。
2.根据权利要求1所述的方法,其中,所述WEB页面特征包括以下至少任一项:
-HTML属性标签;
-FLASH属性标签。
3.根据权利要求2所述的方法,其中,所述WEB页面特征包括HTML属性标签,其中,该方法还包括:
-当所述待处理页面包括所述HTML属性标签时,将所述待处理页面识别为WEB页面。
4.根据权利要求1至3中任一项所述的方法,其中,所述WAP页面特征包括以下至少任一项:
-XHTML-MP文档类型属性标签;
-META移动优化属性标签;
-META特征视图属性标签;
-WML属性标签。
5.根据权利要求4所述的方法,其中,所述WAP页面特征包括WML属性标签,其中,所述步骤c包括:
-当所述待处理页面包括所述WML属性标签时,将所述待处理页面识别为WAP页面。
6.根据权利要求4或5所述的方法,其中,该方法还包括:
x当所述待处理页面包括所述WAP页面特征,对所述待处理页面进行HTML5属性检验,以提取所述待处理页面中的HTML5属性标签;
-根据所述HTML5属性标签,识别所述待处理页面是否为HTML5WAP页面。
7.根据权利要求6所述的方法,其中,所述WAP页面特征包括META特征视图属性标签;其中,该方法还包括:
-当所述待处理页面包括所述META特征视图属性标签,进一步提取所述待处理页面的WEB页面特征;
其中,所述步骤x包括:
-当所述待处理页面的WAP页面特征多于所述WEB页面特征,对所述待处理页面进行HTML5属性检验,以提取所述待处理页面中的HTML5属性标签。
8.一种用于识别WAP页面的识别设备,其中,该设备包括:
页面获取装置,用于获取待处理页面;
特征提取装置,用于自所述待处理页面的页面标签中,提取WEB页面特征与WAP页面特征;
第一识别装置,用于基于所述WEB页面特征与WAP页面特征,识别所述待处理页面中的WAP页面。
9.根据权利要求8所述的识别设备,其中,所述WEB页面特征包括以下至少任一项:
-HTML属性标签;
-FLASH属性标签。
10.根据权利要求9所述的识别设备,其中,所述WEB页面特征包括HTML属性标签,其中,该识别设备还包括:
第二识别装置,用于当所述待处理页面包括所述HTML属性标签时,将所述待处理页面识别为WEB页面。
11.根据权利要求8至10中任一项所述的识别设备,其中,所述WAP页面特征包括以下至少任一项:
-XHTML-MP文档类型属性标签;
-META移动优化属性标签;
-META特征视图属性标签;
-WML属性标签。
12.根据权利要求11所述的识别设备,其中,所述WAP页面特征包括WML属性标签,其中,所述第一识别装置用于:
-当所述待处理页面包括所述WML属性标签时,将所述待处理页面识别为WAP页面。
13.根据权利要求11或12所述的识别设备,其中,该设备还包括:
属性检验装置,用于当所述待处理页面包括所述WAP页面特征,对所述待处理页面进行HTML5属性检验,以提取所述待处理页面中的HTML5属性标签;
第三识别装置,用于根据所述HTML5属性标签,识别所述待处理页面是否为HTML5WAP页面。
14.根据权利要求13所述的识别设备,其中,所述WAP页面特征包括META特征视图属性标签;其中,该设备还包括:
第二提取装置,用于当所述待处理页面包括所述META特征视图属性标签,进一步提取所述待处理页面的WEB页面特征;
其中,所述属性检验装置用于:
-当所述待处理页面的WAP页面特征多于所述WEB页面特征,对所述待处理页面进行HTML5属性检验,以提取所述待处理页面中的HTML5属性标签。
CN201310252708.1A 2013-06-24 2013-06-24 一种用于识别wap页面的方法与设备 Active CN103383695B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310252708.1A CN103383695B (zh) 2013-06-24 2013-06-24 一种用于识别wap页面的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310252708.1A CN103383695B (zh) 2013-06-24 2013-06-24 一种用于识别wap页面的方法与设备

Publications (2)

Publication Number Publication Date
CN103383695A true CN103383695A (zh) 2013-11-06
CN103383695B CN103383695B (zh) 2018-01-12

Family

ID=49491485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310252708.1A Active CN103383695B (zh) 2013-06-24 2013-06-24 一种用于识别wap页面的方法与设备

Country Status (1)

Country Link
CN (1) CN103383695B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408208A (zh) * 2014-12-22 2015-03-11 上海斐讯数据通信技术有限公司 一种html5布局检测方法及系统
CN106850548A (zh) * 2016-12-15 2017-06-13 大唐网络有限公司 页面标签验证方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050086262A1 (en) * 2003-10-21 2005-04-21 Arto Kiiskinen Method and apparatus for WAP and XHTML site management
CN101526953A (zh) * 2009-01-19 2009-09-09 北京跳网无限科技发展有限公司 Www转换技术
CN101727498A (zh) * 2010-01-15 2010-06-09 西安交通大学 一种基于web结构的网页信息自动提取方法
CN102306185A (zh) * 2011-08-30 2012-01-04 百度在线网络技术(北京)有限公司 一种用于识别wap网页的方法、装置和设备
CN103870486A (zh) * 2012-12-13 2014-06-18 深圳市世纪光速信息技术有限公司 确定网页类型的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050086262A1 (en) * 2003-10-21 2005-04-21 Arto Kiiskinen Method and apparatus for WAP and XHTML site management
CN101526953A (zh) * 2009-01-19 2009-09-09 北京跳网无限科技发展有限公司 Www转换技术
CN101727498A (zh) * 2010-01-15 2010-06-09 西安交通大学 一种基于web结构的网页信息自动提取方法
CN102306185A (zh) * 2011-08-30 2012-01-04 百度在线网络技术(北京)有限公司 一种用于识别wap网页的方法、装置和设备
CN103870486A (zh) * 2012-12-13 2014-06-18 深圳市世纪光速信息技术有限公司 确定网页类型的方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408208A (zh) * 2014-12-22 2015-03-11 上海斐讯数据通信技术有限公司 一种html5布局检测方法及系统
CN106850548A (zh) * 2016-12-15 2017-06-13 大唐网络有限公司 页面标签验证方法及装置

Also Published As

Publication number Publication date
CN103383695B (zh) 2018-01-12

Similar Documents

Publication Publication Date Title
CN107885848B (zh) 基于web技术的网页截屏方法
CN107783899B (zh) 应用程序中h5页面的测试方法、装置和计算机设备
US10261983B2 (en) Method and device for webpage browsing, and mobile terminal
US8869025B2 (en) Method and system for identifying advertisement in web page
CN102123195A (zh) 在通信终端中提供书签服务的设备和方法
CN111310693B (zh) 图像中文本的智能标注方法、装置及存储介质
CN103412928A (zh) 一种在移动终端实现浏览器页面智能响应式布局的方法与装置
US20160314348A1 (en) Mathematical formula learner support system
CN102137306B (zh) 在电视上显示网页内容的方法及装置
CN102411614A (zh) 图像搜索结果的显示
US20130262983A1 (en) System, method, software arrangement and computer-accessible medium for a generator that automatically identifies regions of interest in electronic documents for transcoding
CN103870486A (zh) 确定网页类型的方法和装置
CN104965871A (zh) 页面的加载方法、装置和电子设备
CN112417338B (zh) 一种页面适配方法、系统及设备
CN103365877B (zh) 对网页进行转码后建立目录的方法以及服务器
EP3851981A1 (en) Page processing method and apparatus, electronic device and computer readable medium
CN103577447A (zh) 一种用于确定目标页面的页面类型信息的方法和设备
CN111723265A (zh) 一种可扩展的新闻网站通用爬虫方法及系统
CN103838862A (zh) 一种视频搜索的方法、装置及终端
US20140053051A1 (en) Application server and method for editing drawings of webpage
CN103020179A (zh) 一种网页内容的提取方法、装置和设备
US20150205769A1 (en) System and method for recognizing non-body text in webpage
CN107451163B (zh) 一种动画显示方法和装置
CN106575303B (zh) 显示网页的方法和设备
CN107871128B (zh) 一种基于svg动态图表的高鲁棒性图像识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant