网站类型识别方法及相关设备
技术领域
本发明涉及互联网技术领域,特别涉及一种网站类型识别系统、服务器、客户端、白名单存储器及方法。
背景技术
随着手机上网的普及,WAP(无线应用协议)概念越来越多地被人们所熟悉,手机能够访问的WAP站点和服务越来越多。
目前WAP站点分为两种,WAP1.X和WAP2.0。
WAP1.0标准,在1998年4月公布,WAP1.1在1999年发布,WAP1.2是WAP1.X的最后一个更新,在2000年6月公布。WAP1.X规定无线设备访问的页面是用WML(XML语言的一种)语言编写的,但是WAP2.0将XHTML-MP做为主要内容格式。
WAP2.0协议在2002年发布,是重新设计的WAP,使用了端到端HTTP的精简XHTML版本,去除了网关和用于通信的CustomProtocol Suite,并支持CSS,使得网页具有更丰富的版面呈现。
WAP1.X与WAP2.0是完全不同,不可能兼容的。目前大多数WAP站点都采用了最新的WAP2.0技术,但是仍有相当一部分WAP1.X的站点存在。手机浏览器在显示WAP1.X和WAP2.0时需采用不同的解析技术。如果使用WAP2.0的解析器去解析WAP1.X的网页,就会导致无法显示网页。
随着网络技术的发展,以后也还会出现WAP3.0,4.0甚至说不限于WAP格式,使用其他编程语言的站点技术,其不同版本,不同类型的网站的共存的情况,也都会出现对不同类型、不同版本的网站无法正确解析、识别的问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网站类型识别方法及相关设备。
本发明提供一种服务器,其包括:请求接收接口和分析器;
所述请求接收接口,适于接收来自客户端的网页请求;
所述分析器,适于根据所述网页请求和白名单存储器中存储的第一类型的网站名单,分析所述客户端请求的网页的类型,并根据分析结果通知所述客户端采用相应的解析引擎对所述客户端请求的网页进行解析。
可选地,所述服务器还包括:白名单更新器;
所述白名单更新器,适于根据所述分析结果更新所述白名单存储器。
可选地,所述分析器进一步包括:白名单读取器和URL比较器;
所述白名单读取器,适于读取所述白名单存储器中的第一类型的网站名单;
所述URL比较器,适于将所述网页请求对应的URL与所述第一类型的网站名单中的第一类型的网站进行比较,以判断所述网页请求对应的URL是否属于所述第一类型的网站名单,如果是,通知所述客户端采用第一解析引擎对所述客户端请求的网页进行解析。
可选地,所述服务器还包括:页面判断单元;
所述页面判断单元,适于在所述网页请求对应的URL不属于所述第一类型的网站名单时,判断所述网页请求中是否包含第一子类型的网站的特征码,如果是,通知所述白名单更新器将所述网页请求对应的URL放入所述第一类型的网站名单,并通知所述客户端采用第一解析引擎对所述客户端请求的网页进行解析;否则,通知所述客户端采用第二解析引擎对所述客户端请求的网页进行解析;
其中,所述第一子类型的网站是所述第一类型的网站中的一种。
可选地,所述服务器还包括:名单发送单元;
所述名单发送单元,适于将所述第一类型的网站名单发送给所述客户端。
可选地,所述服务器还包括:页面推送单元;
所述页面推送单元,适于从页面服务器请求所述客户端请求的网页后发送给所述客户端。
本发明还提供一种客户端,所述客户端包括:请求发送接口、消息接收接口、控制器、第一解析器和第二解析器;
所述请求发送接口,适于向服务器发送网页请求;
所述消息接收接口,适于接收服务器返回的通知消息,以及接收服务器返回的网页;
所述控制器,适于根据所述服务器的通知消息控制所述第一解析器或者第二解析器对所述服务器返回的网页进行解析,以及在所述第二解析器对所述服务器返回的网页解析失败的情况下,通知白名单存储器添加所述网页请求对应的URL,并控制所述第一解析器对所述服务器返回的网页进行解析;
所述第一解析器,适于采用解析第一类型网页的第一解析引擎;
所述第二解析器,适于采用解析第二类型网页的第二解析引擎。
可选地,所述客户端还包括:白名单数据库;
所述白名单数据库,适于存储所述服务器或者所述白名单存储器发来的第一类型的网站名单;
所述消息接收接口,进一步适于接收所述服务器或者所述白名单存储器发来的第一类型的网站名单。
本发明还提供一种白名单存储器,其包括:名单数据库、输入输出接口和更新单元;
所述名单数据库,适于存储所述第一类型的网站名单;
所述输入输出接口,适于接收权利要求1-5任一项所述的服务器或者权利要求6所述的客户端发来的读取请求或更新通知,将所请求的数据返回给所述服务器或客户端;
所述更新单元,适于根据所述更新通知,更新所述第一类型的网站名单。
可选地,所述白名单存储器还包括:名单推送单元;
所述名单推送单元,适于在所述服务器读取所述白名单存储器时,以及所述第一类型的网站名单有更新后,向所述客户端或服务器推送所述第一类型的名单。
可选地,所述白名单存储器还包括:名单自检单元;
所述名单自检单元,适于定期扫描所述第一类型的网站名单中的网站条目是否仍然属于第一类型的网站,如果否,则删除相应的网站条目。
可选地,所述白名单存储器设置在云端。
本发明还提供一种网站类型识别方法,其包括步骤:
客户端向服务器发送网页请求;
所述服务器根据所述网页请求和白名单存储器中存储的第一类型的网站名单分析所述客户端请求的网页的类型,并根据分析结果通知所述客户端采用相应的解析引擎对所述客户端请求的网页进行解析;
所述客户端根据所述服务器的通知消息对所述客户端请求的网页进行解析。
可选地,所述服务器根据所述网页请求和白名单存储器中存储的第一类型的网站名单分析所述客户端请求的网页的类型,并根据分析结果通知所述客户端采用相应的解析引擎对所述客户端请求的网页进行解析,进一步包括子步骤:
所述服务器接收来自客户端的网页请求;
所述服务器读取所述白名单存储器中的第一类型的网站名单;
所述服务器将所述网页请求对应的URL与所述第一类型的网站名单进行比较,以判断所述网页请求对应的URL是否属于所述第一类型的网站名单,如果是,通知所述客户端采用第一解析引擎对所述客户端请求的网页进行解析;否则,
判断所述网页请求中是否包含第一子类型的网站的特征码,如果是,通知所述白名单存储器将所述网页请求对应的URL放入所述第一类型的网站名单,并通知所述客户端采用第一解析引擎对所述客户端请求的网页进行解析;否则,通知所述客户端采用第二解析引擎对所述客户端请求的网页进行解析;
其中,所述第一子类型的网站是所述第一类型的网站中的一种。
可选地,所述服务器根据分析结果通知所述客户端采用相应的解析引擎对所述客户端请求的网页进行解析,之前还包括步骤:
所述服务器从页面服务器请求所述客户端请求的网页后发送给所述客户端。
可选地,所述客户端根据所述服务器的通知消息对所述客户端请求的网页进行解析,进一步包括子步骤:
当所述服务器通知所述客户端采用第一解析引擎对所述客户端请求的网页进行解析时,所述客户端控制第一解析引擎对所述客户端请求的网页进行解析;
当所述服务器通知所述客户端采用第二解析引擎对所述客户端请求的网页进行解析时,所述客户端控制第二解析引擎对所述客户端请求的网页进行解析,并判断解析是否成功,如果成功,结束流程;否则,所述客户端通知所述白名单存储器添加所述网页请求对应的URL,以及控制所述第一解析引擎对所述客户端请求的网页进行解析。
可选地,所述方法还包括步骤:
在所述服务器读取所述白名单存储器时,以及所述白名单存储器中的第一类型的网站名单有更新后,所述白名单存储器向所述服务器或者所述客户端推送所述第一类型的网站名单。
可选地,所述方法还包括步骤:
所述白名单存储器定期扫描所述第一类型的网站名单中的网站条目,以判断所述网站条目是否仍然属于第一类型的网站,如果属于,在所述第一类型的网站名单中保持相应的网站条目;否则,在所述第一类型的网站名单中删除相应的网站条目。
本发明所述网站类型识别方法及相关设备,通过在白名单存储器中动态维护一个第一类型的网站名单,以供服务器调用后判断客户端请求网页的类型,进而通知客户端采用相应的解析引擎对其所请求的网页进行解析,解决了客户端对不同类型、不同版本的网站无法正确解析、识别的问题,提高了解析效率和准确度。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的网站类型识别系统的模块结构示意图;
图2示出了根据本发明一个实施例的服务器的模块结构示意图;
图3示出了根据本发明一个实施例的分析器的模块结构示意图;
图4示出了根据本发明另一个实施例的服务器的模块结构示意图;
图5示出了根据本发明一个实施例的客户端的模块结构示意图;
图6示出了根据本发明另一个实施例的客户端的模块结构示意图;
图7示出了根据本发明一个实施例的白名单存储器的模块结构示意图;
图8示出了根据本发明另一个实施例的白名单存储器的模块结构示意图;
图9示出了根据本发明一个实施例的网站类型识别方法的流程图;
图10示出了根据本发明一个实施例的网站类型识别方法的步骤S200的细化流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的网站类型识别系统的模块结构示意图,如图1所示,所述系统包括:服务器100、客户端200和白名单存储器300。所述客户端200可以为一个或者多个,其通过有线或者无线方式与所述服务器100和/或所述白名单存储器300相连接。接下来对本发明所述系统进行详细说明如下:
图2示出了根据本发明一个实施例的服务器的模块结构示意图,如图2所示,所述服务器100包括:请求接收接口110和分析器120。
所述请求接收接口110,适于接收来自客户端200的网页请求。
所述分析器120,适于根据所述网页请求和白名单存储器300中存储的第一类型的网站名单,分析所述客户端200请求的网页的类型,并根据分析结果通知所述客户端200采用相应的解析引擎对所述客户端请求的网页进行解析。对于现有的WAP网站,所述第一类型的网站可以是采用WAP1.X(包括WAP1.0、WAP1.1和WAP1.2)标准的网站。
图3示出了本实施例的分析器的模块结构示意图,如图3所示,本实施例中,所述分析器120包括:白名单读取器121和URL(UniversalResource Locator,统一资源定位符)比较器122。所述白名单读取器121,适于读取所述白名单存储器300中的第一类型的网站名单。所述URL比较器122,适于将所述网页请求对应的URL与所述第一类型的网站名单中的第一类型的网站进行比较,以判断所述网页请求对应的URL是否属于所述第一类型的网站名单,如果是,通知所述客户端200采用第一解析引擎对所述客户端200请求的网页进行解析。
图4示出了根据本发明另一个实施例的服务器的模块结构示意图,如图3所示,本实施例所述服务器与上一实施例所述服务器基本相同,其不同之处仅在于,本实施例所述服务器100还包括:白名单更新器130、页面判断单元140、名单发送单元150和页面推送单元160。
其中,所述页面判断单元140,适于在所述网页请求对应的URL不属于所述第一类型的网站名单时,判断所述网页请求中是否包含第一子类型的网站的特征码,如果是,通知所述白名单更新器130将所述网页请求对应的URL放入所述第一类型的网站名单,并通知所述客户端采用第一解析引擎对所述客户端请求的网页进行解析;否则,通知所述客户端采用第二解析引擎对所述客户端请求的网页进行解析。
其中,所述第一子类型的网站(比如WAP1.0标准的网站)是所述第一类型的网站中的一种。
所述白名单更新器130,适于根据所述页面判断单元140的分析结果更新所述白名单存储器300,即当所述页面判断单元140通知所述白名单更新器130将所述网页请求对应的URL放入所述第一类型的网站名单时,所述白名单更新器130更新所述白名单存储器300中的所述第一类型的网站名单。
所述名单发送单元150,适于将所述第一类型的网站名单发送给所述客户端200。所述客户端200收到所述第一类型的网站名单后会进行本地存储,这样当所述客户端200与页面服务器直连时,所述客户端200可以自行对网站类型进行判断,进而选择相应的解析引擎进行解析。
所述页面推送单元160,适于从页面服务器请求所述客户端请求的网页后发送给所述客户端200。
图5示出了根据本发明一个实施例的客户端的模块结构示意图,如图5所示,所述客户端200包括:请求发送接口210、消息接收接口220、控制器230、第一解析器240和第二解析器250。本实施例中,所述客户端一般是手机浏览器。
所述请求发送接口210,适于向服务器100发送网页请求。
所述消息接收接口220,适于接收服务器100返回的通知消息,以及接收服务器100返回的网页。
所述控制器230,适于根据所述服务器100的通知消息控制所述第一解析器240或者第二解析器250对所述服务器100返回的网页进行解析,以及在所述第二解析器250对所述服务器100返回的网页解析失败的情况下,通知白名单存储器300添加所述网页请求对应的URL,并控制所述第一解析器240对所述服务器100返回的网页进行解析。
所述第一解析器240,适于采用解析第一类型网页的第一解析引擎。
所述第二解析器250,适于采用解析第二类型网页的第二解析引擎。本实施例所述第二类型的网页可以是WAP2.0标准的网页。
图6示出了根据本发明另一个实施例的客户端的模块结构示意图,如图6所示,本实施例所述客户端与上一实施例所述客户端基本相同,其不同之处仅在于,本实施例所述客户端200还包括:白名单数据库260。所述白名单数据库260,适于存储所述服务器100或者所述白名单存储器300发来的第一类型的网站名单。所述客户端200采用所述白名单数据库260对所述第一类型的网站名单进行本地存储,这样当所述客户端200与页面服务器直连时,所述客户端200可以自行对网站类型进行判断,进而选择相应的解析引擎进行解析。所述消息接收接口220,进一步适于接收所述服务器100或者所述白名单存储器300发来的第一类型的网站名单。
图7示出了根据本发明一个实施例的白名单存储器的模块结构示意图,如图7所示,所述白名单存储器300包括:名单数据库310、输入输出接口320和更新单元330。所述白名单存储器300可以与所述服务器100集成设置;另外,本发明还提供一种优选的设置方式,即将所述白名单存储器300设置在云端,这样多个所述服务器100可以共用一个所述白名单存储器300,既节省成本,又有利于其所存储的第一类型的网站名单的及时更新。
所述名单数据库310,适于存储所述第一类型的网站名单。
所述输入输出接口320,适于接收所述服务器100或者所述客户端200发来的读取请求或更新通知,将所请求的数据返回给所述服务器100或客户端200。
所述更新单元330,适于根据所述更新通知,更新所述第一类型的网站名单。
图8示出了根据本发明另一个实施例的白名单存储器的模块结构示意图,如图8所示,本实施例所述白名单存储器与上一实施例所述白名单存储器基本相同,其不同之处仅在于,本实施例所述白名单存储器300还包括:名单推送单元340和名单自检单元350。
所述名单推送单元340,适于在所述服务器100读取所述白名单存储器300时,以及所述第一类型的网站名单有更新后,向所述客户端200或服务器100推送所述第一类型的名单。
所述名单自检单元350,适于定期(比如每天凌晨用户量最少的时候)扫描所述第一类型的网站名单中的网站条目是否仍然属于第一类型的网站,如果否,则删除相应的网站条目。
图9示出了根据本发明一个实施例的网站类型识别方法的流程图,如图9所示,本实施例所述方法包括步骤:
S100:客户端向服务器发送网页请求。
S200:所述服务器根据所述网页请求和白名单存储器中存储的第一类型的网站名单分析所述客户端请求的网页的类型,并根据分析结果通知所述客户端采用相应的解析引擎对所述客户端请求的网页进行解析。
图10示出了根据本发明一个实施例的网站类型识别方法的步骤S200的细化流程图,如图10所示,所述步骤S200进一步包括:
S210:所述服务器接收来自客户端的网页请求;
S220:所述服务器读取所述白名单存储器中的第一类型的网站名单;
S230:所述服务器将所述网页请求对应的URL与所述第一类型的网站名单进行比较,以判断所述网页请求对应的URL是否属于所述第一类型的网站名单,如果是,通知所述客户端采用第一解析引擎对所述客户端请求的网页进行解析;否则,
判断所述网页请求中是否包含第一子类型的网站的特征码,如果是,通知所述白名单存储器将所述网页请求对应的URL放入所述第一类型的网站名单,并通知所述客户端采用第一解析引擎对所述客户端请求的网页进行解析;否则,通知所述客户端采用第二解析引擎对所述客户端请求的网页进行解析;
其中,所述第一子类型的网站是所述第一类型的网站中的一种。
S300:所述客户端根据所述服务器的通知消息对所述客户端请求的网页进行解析。
所述步骤S300进一步包括:
当所述服务器通知所述客户端采用第一解析引擎对所述客户端请求的网页进行解析时,所述客户端控制第一解析引擎对所述客户端请求的网页进行解析;
当所述服务器通知所述客户端采用第二解析引擎对所述客户端请求的网页进行解析时,所述客户端控制第二解析引擎对所述客户端请求的网页进行解析,并判断解析是否成功,如果成功,结束流程;否则,所述客户端通知所述白名单存储器添加所述网页请求对应的URL,以及控制所述第一解析引擎对所述客户端请求的网页进行解析。
本发明还提供另一实施例的网站类型识别方法,其与上一实施例所述方法基本相同,其不同之处在于:
在所述步骤S300之前还包括步骤:所述服务器从页面服务器请求所述客户端请求的网页后发送给所述客户端。
另外,所述方法还包括步骤:
在所述服务器读取所述白名单存储器时,以及所述白名单存储器中的第一类型的网站名单有更新后,所述白名单存储器向所述服务器或者所述客户端推送所述第一类型的网站名单。以及,
所述方法还包括步骤:
所述白名单存储器定期扫描所述第一类型的网站名单中的网站条目,以判断所述网站条目是否仍然属于第一类型的网站,如果属于,在所述第一类型的网站名单中保持相应的网站条目;否则,在所述第一类型的网站名单中删除相应的网站条目。
本发明实施例所述网站类型识别系统、服务器、客户端、白名单存储器及方法,通过在白名单存储器中动态维护一个第一类型的网站名单,以供服务器调用后判断客户端请求网页的类型,进而通知客户端采用相应的解析引擎对其所请求的网页进行解析,解决了客户端对不同类型、不同版本的网站无法正确解析、识别的问题,提高了解析效率和准确度。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网站类型识别系统、服务器、客户端、白名单存储器中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。