CN101808114A - 实现网页访问的方法、系统及前端服务器 - Google Patents

实现网页访问的方法、系统及前端服务器 Download PDF

Info

Publication number
CN101808114A
CN101808114A CN201010112317A CN201010112317A CN101808114A CN 101808114 A CN101808114 A CN 101808114A CN 201010112317 A CN201010112317 A CN 201010112317A CN 201010112317 A CN201010112317 A CN 201010112317A CN 101808114 A CN101808114 A CN 101808114A
Authority
CN
China
Prior art keywords
data
web
receiving terminal
digital television
web data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201010112317A
Other languages
English (en)
Inventor
易睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Coship Electronics Co Ltd
Original Assignee
Shenzhen Coship Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Coship Electronics Co Ltd filed Critical Shenzhen Coship Electronics Co Ltd
Priority to CN201010112317A priority Critical patent/CN101808114A/zh
Publication of CN101808114A publication Critical patent/CN101808114A/zh
Priority to PCT/CN2011/070703 priority patent/WO2011097992A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • H04N21/4355Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reformatting operations of additional data, e.g. HTML pages on a television screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种实现网页访问的方法,包括:根据网页采集策略采集网页数据;对所述采集的网页数据进行分析处理,并对所述分析处理后的网页数据进行数据转换;根据数字电视接收终端的网页访问请求,将所述转换后的网页数据发送给所述数字电视接收终端,以使所述数字电视接收终端根据所述转换后的网页数据进行相应的网页显示。相应地,本发明还公开了一种前端服务器和实现网页访问的系统。本发明能够即时的把互联网的网页内容简化,解决数字电视接收终端由于CPU低速率的问题所带的访问速度慢,以及功能不完整导致的无法访问到完整网页的问题。

Description

实现网页访问的方法、系统及前端服务器
技术领域
本发明涉及通信领域,尤其涉及实现网页访问的方法、系统及前端服务器。
背景技术
随着网络技术发展,以及数字电视接收终端的功能多样化,使用数字电视接收终端访问互联网上的网页也变得十分的容易和普遍。现有的数字电视接收终端(比如:机顶盒)直接通过自身的嵌入式浏览器访问网站上的网页。发明人在实施本发明的过程中发现,现有的这种实现网页访问的方案存在以下缺陷:
1、由于机顶盒等数字电视接收终端一般为嵌入式系统,其CPU的性能较低,因此,通过其访问网页的速度较慢;
2、由于某些机顶盒等数字电视接收终端的功能较弱,如在硬件上不支持rmvb解码,软件上不支持把动画转换成F1ash播放等功能,因此,导致无法访问到完整的网页功能。
发明内容
本发明的目的在于,提供一种实现网页访问的方法、系统及前端服务器,在数字电视接收终端与互联网之间搭建中转的平台,能够即时的把互联网的网页内容简化,解决数字电视接收终端由于CPU低速率的问题所带的访问速度慢和访问功能不完整的问题。
为了实现上述目的,本发明实施例公开了一种实现网页访问的方法,包括:
根据网页采集策略采集网页数据;
对所述采集的网页数据进行分析处理,并对所述分析处理后的网页数据进行数据转换;
根据数字电视接收终端的网页访问请求,将所述转换后的网页数据发送给所述数字电视接收终端,以使所述数字电视接收终端根据所述转换后的网页数据进行相应的网页显示。
相应地,本发明实施例还公开了一种前端服务器,包括:
采集模块,用于根据网页采集策略采集网页数据;
数据处理模块,用于对所述采集模块采集的所述网页数据进行分析处理,并对所述分析处理后的网页数据进行数据转换;
发送模块,用于根据数字电视接收终端的网页访问请求,将所述数据处理模块进行数据转换后的网页数据发送给所述数字电视接收终端,以使所述数字电视接收终端根据所述网页数据进行相应在的网页显示。
相应地,本发明实施例还公开了一种实现网页访问的系统,包括数字电视接收终端,还包括:前端服务器,
所述数字电视接收终端,用于向所述前端服务器发送网页访问请求,并接收所述前端服务器所发送的网页数据,根据所述接收的网页数据进行相应的网页显示;
所述前端服务器,用于根据网页采集策略采集网页数据;对所述采集的网页数据进行分析处理,并对所述分析处理后的网页数据进行数据转换;根据所述数字电视接收终端的网页访问请求,将所述转换后的网页数据发送给所述数字电视接收终端,以使所述数字电视接收终端根据所述转换后的网页数据进行相应的网页显示。
本发明通过在数字电视接收终端与互联网之间搭建中转的平台,根据数字电视接收终端发出的网页访问请求,由中转的服务器进行网页数据的采集、处理及转换,对网页(包括:大型网页)进行简化,其简化后的网页内容能够成为数字电视接收终端中的浏览器所能支持的功能,使数字电视接收终端的浏览器后台化,让复杂繁琐的网页解析和处理均在服务器进行,解决了数字电视终端的CPU低速率导致的访问网页的速度较慢的问题,以及数字电视接收终端的功能较弱,如在硬件上不支持rmvb解码,软件上不支持把动画转换成Flash播放等,所导致的不能完整访问网页的问题。
附图说明
图1为本发明的实现网页访问的系统的实施例的结构示意图;
图2为本发明的前端服务器的实施例的结构示意图;
图3为本发明的实现网页访问的方法的第一实施例的流程图;
图4为本发明的实现网页访问的方法的第二实施例的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,为本发明的实现网页访问的系统的实施例的结构示意图。所述实现网页访问的系统包括:数字电视接收终端10和前端服务器20。
所述数字电视接收终端10,用于向所述前端服务器20发送网页访问请求,并接收所述前端服务器20所发送的网页数据,根据所述接收的网页数据进行相应的网页显示;
具体实现中,所述数字电视接收终端10包括但不限于:机顶盒(Set Top Box,STB)、IPTV(Intemet Protocol Television,网络电视)、电视手机、数字电视一体机等具有接收数字电视功能的终端。具体地,本发明实施例所述的数字电视接收终端10包括嵌入式的浏览器,以支持网页访问的功能。
具体地,所述数字电视接收终端10的网页访问请求包括:所述数字电视接收终端10的型号、所请求访问的网页的显示要求、所请求访问的网页的关键词、所请求访问的网页URL(Uniform/Universal Resource Locator,统一资源定位符)中的任一种或多种;
所述前端服务器20,用于根据网页采集策略采集所请求访问的网页数据;对所述采集的网页数据进行分析处理,并对所述分析处理后的网页数据进行数据转换;根据所述数字电视接收终端10的网页访问请求,将所述转换后的网页数据发送给所述数字电视接收终端10,以使所述数字电视接收终端10根据所述转换后的网页数据进行相应的网页显示。
具体实现中,所述数字电视接收终端10的浏览器通过电视网络向前端服务器20发送网页访问请求,比如:http(HyperText Transfer Protocol,超文本传输协议)请求,所述前端服务器20通过互联网去访问网站,采集网页数据,并根据网页访问请求中所包括的对网页的显示要求等,对采集的网页数据进行分析处理、数据转换等处理,使其网页数据形成一个适合于在所述数字电视接收终端10显示的较小、较简化的页面,根据网页访问请求中所包含的数字电视接收终端10的型号,再将该网页数据传送给所述数字电视接收终端10。所述数字电视接收终端10根据接收到网页数据,进行网页的显示,比如:当所述数字电视接收终端10为机顶盒等类似设备时,可以利用与机顶盒相连接的电视机的显示功能,将最终的页面内容显示给用户,并可提供人机交互,由用户在显示的页面上进行音视频播放、图片浏览等操作;再如,当该数字电视接收终端10为数字电视一体机等类似设备时,可以利用该一体机的显示功能单元,将最终的页面内容显示给用户,并可提供人机交互,由用户在显示的页面上进行音视频播放、图片浏览等操作。
本发明通过在数字电视接收终端与互联网之间搭建中转的平台,根据数字电视接收终端发出的网页访问请求,由中转的服务器进行网页数据的采集、处理及转换,对网页(包括:大型网页)进行简化,其简化后的网页内容能够成为数字电视接收终端中的浏览器所能支持的功能,使数字电视接收终端的浏览器后台化,让复杂繁琐的网页解析和处理均在服务器进行,解决了数字电视终端的CPU低速率的问题;同时,加快了数字电视接收终端对于网页的访问速度。
为了更清楚的说明本发明,下面将对前端服务器作详细介绍。
请参见图2,为本发明的前端服务器的实施例的结构示意图。所述前端服务器20包括:采集模块201,数据处理模块202和发送模块203。
所述采集模块201,用于根据网页采集策略采集网页数据。
具体实现中,所述前端服务器20包括数据库,其主要包括:临时网页数据库、URL数据库,网页缓存数据库、内容数据库,关键词索引数据库、URL索引数据库和行为数据库。所述采集模块201主要是通过加载网页采集程序(又称:网络爬虫)进行相应的网页数据的采集。所述前端服务器20还可包括DNS(Domain Name System,域名系统)缓存,网页采集程序进行采集时,直接从DNS缓存中去获取网页的IP(Intemet Protocol,网协),而不需要每次解析域名,以减少解析的时间。另外,网页访问程序可以分布式布置,只需要根据采集策略将URL进行分组,每组布置一个网页访问程序,那么各网页访问程序根据不同的URL分组进行网页数据的采集,可以有效的避免重复采集。
具体地,所述采集模块201的采集策略可以包括广度优先、深度优先、或线性优先等策略,还可以通过用户行为数据分析,可以分析出用户常用链接,常用关键字,访问数量等信息,根据这些信息制定URL的加权系数,URL数据库会有优先级之分,比如:用户的即时请求,其URL的加权系数较大,其优先级较高。所述采集模块201根据URL数据库的优先级和采集策略,加载网页采集程序,进行网页的URL的提取,同时采集到原始的网页数据,即所请求访问的网页数据。具体实现中,在进行网页数据采集时,可采用记录表,记录表中包括已访问、未访问、内容摘要等信息,这样,也可以避免网页的重复采集,具体的记录表的方法与现有的数据访问中的存储和记录的方法类似,在此不进行赘述。
所述数据处理模块202,用于对所述采集模块201采集的所述网页数据进行分析处理,并对所述分析处理后的网页数据进行数据转换;
具体实现中,所述数据处理模块202通过加载网页分析程序对网页数据进行分析处理,具体包括:网页数据去噪、去除广告数据、去除导航栏数据、去除不支持的功能标签和属性数据、去除Javascript脚本数据、去除CSS(CascadingStyle Sheets,层叠样式表)语法数据和网页数据压缩中的任一种或多种。经过分析处理之后,会保留网页实质的内容和基本的HTML(HyperText Mark-upLanguage,超文本标记语言)标签,为后序的数据转换和索引生成提供高质量素材。
经过上述的分析处理之后,所述数据处理模块202即对得到的网页数据进行数据转换,包括:图片数据转换、音视频数据格式转换和简化转换中的任一种或多种。所述的数据转换后的数据会被导入内容数据库中进行相应的存储。
经过所述数据处理模块202处理后的网页数据,已经是比较适合所述数字电视接收终端10的浏览器进行显示的数据了。
所述发送模块203,用于将所述数据处理模块202进行数据转换后的网页数据发送给所述数字电视接收终端10。使所述数字电视接收终端10根据所述网页数据进行相应在的网页显示。
本发明通过在数字电视接收终端与互联网之间搭建中转的平台,,预先根据一定的网页采集策略由中转的服务器进行网页数据的采集、处理及转换,对网页(包括:大型网页)进行简化,其简化后的网页内容能够成为数字电视接收终端中的浏览器所能支持的功能,并根据数字电视接收终端发出的网页访问请求将简化后的网页内容发给数字电视接收终端,使数字电视接收终端的浏览器后台化,让复杂繁琐的网页解析和处理均在服务器进行,解决了数字电视终端的CPU低速率的问题;同时,加快了数字电视接收终端对于网页的访问速度。
再请参见图2,所述前端服务器20还包括:检索模块204,重排模块205,索引生成模块206和更新模块207。
所述检索模块204,用于根据数字电视接收终端10的网页访问请求,检索数据库内是否存在所请求访问的网页数据;如果所述检索模块204检索的结果为是,则使所述发送模块203将所述检索到的网页数据发送给所述数字电视接收终端10;如果所述检索模块204检索的结果为否,则使所述采集模块201对所请求访问的网页数据进行采集。
具体实现中,所述检索模块204根据所述数字电视接收终端10的网页访问请求中包括的所请求访问的网页的关键词、所请求访问的网页URL等,首先去检索网页缓存数据库中是否有所请求的网页数据,如果有,则直接将检索到的网页数据发送给所述数字电视接收终端10;如果没有,则所述检索模块204会继续根据所请求访问的URL,检索URL索引数据库,如果检索到存在所请求访问的URL,则根据URL索引数据库的索引,从内容数据库中找出相应的网页数据,发送给所述数字电视接收终端;如果在URL索引数据库中未检索到所请求访问的URL,还可根据输入的关键词,检索索引数据库,看是否存在相应的关键词,如果有,则直接根据索引数据库中的关键词,在内容数据库中找出相应的网页数据;如果没有,则由所述采集模块201从互联网进行网页数据采集。
具体地,上述索引数据库存储了网页的关键词、所述URL索引数据库存储了网页的URL、所述内容数据库存储了相应的网页数据,其中,索引数据库、URL索引数据库、内容数据库相互关联。
所述重排模块205,用于在所述数据处理模块202对网页数据进行数据转换后,根据所述数字电视接收终端10的网页访问请求,对所述转换后的网页数据进行排版,所述排版后的网页数据由所述发送模块203发送给所述数字电视接收终端10。
具体实现中,由于各数据字电视接收终端10的型号不同,对网页的显示要求不同,因此,所述重排模块205会根据所述数字电视接收终端10的网页访问请求中所包括的数字电视接收终端10的型号以及显示要求,对数据转换后的网页数据再进行重新排版,使其适合数字电视接收终端10的浏览器的排版显示。比如:根据数字电视接收终端10的显示请求,将高清晰的视频数据重新排版为普通的视频数据发送给所述数字电视接收终端10来显示;再比如:当网页数据转换后,其所述数字电视接收终端10的型号类型依然不能够快速的打开大型网页时,可以将其重新排版为更小页面的网页数据,然后发送给所述数字电视接收终端10进行显示。
所述索引生成模块206,用于在所述数据处理模块202对网页数据进行数据转换时,根据所述分析处理后的网页数据,生成关键词索引和URL索引。
具体实现中,对于分析处理后的网页数据,所述索引生成模块206会进行相应的索引生成过程,除了常规的关键字或关键词的索引生成外,还会有URL索引生成,这是因为数字电视接收终端10的网页访问是一个URL访问的过程,因此,为了保证网页访问的实时性,生成关键词索引和URL索引就是必要的,其生成的关键字词索引和URL索引分别放入索引数据库和URL索引数据库中。具体地,为了加快访问速度,各数据库中必须存储一些用户经常访问的网站内容(网页数据),比如:新浪、网易、搜狐、腾讯等。
所述更新模块207,用于根据所述数字电视接收终端10的网页访问请求,更新所述数据库。
由于数据库中需要存储一些常用的网页数据,以加快网页访问的速度,并且,需要保证数据库中的网页数据必须是最新的、未过时的数据,以实时响应网页访问请求。因此,所述更新模块207,根据所述数字电视接收终端10的网页访问请求,更新所述数据库。具体实现中,所述更新模块207可以通过加载行为分析程序实现数据库的更新,在接收到所述数字电视接收终端10的网页访问请求时,其行为分析程序会自动分析该请求,分析出常用链接、常用关键字、访问数量等信息,根据这些信息再重新去制定数据库的存储策略,然后更新数据库,例如根据分析用户的访问内容即常用链接等,实时更新URL数据库,将常用的URL数据存储在所述URL数据库中。另外,通过网页采集程序采集(抓取)一些网页,再通过行为分析程序进行相应的分析,然后根据分析结果更新数据库,这样,可以保证网页访问系统的实时性。
本发明通过在数字电视接收终端与互联网之间搭建中转的平台,根据数字电视接收终端发出的网页访问请求,由中转的服务器进行网页数据的采集、处理及转换,对网页(包括:大型网页)进行简化,其简化后的网页内容能够成为数字电视接收终端中的浏览器所能支持的功能,使数字电视接收终端的浏览器后台化,让复杂繁琐的网页解析和处理均在服务器进行,解决了数字电视终端的CPU低速率的问题;同时,加快了数字电视接收终端对于网页的访问速度。
为了更清楚的说明本发明,下面将对实现网页访问的方法作详细介绍。
请参见图3,为本发明的实现网页访问的方法的第一实施例的流程图。该方法包括:
S101,根据网页采集策略采集网页数据。具体实现中,网页数据的采集策略可以包括广度优先、深度优先、或线性优先等策略,还可以通过用户行为数据分析,可以分析出用户常用链接,常用关键字,访问数量等信息,根据这些信息制定URL的加权系数,URL数据库会有优先级之分,比如:用户的即时请求,其URL的加权系数较大,其优先级较高。所述采集模块201根据URL数据库的优先级和采集策略,加载网页采集程序,进行网页的URL的提取,同时采集到原始的网页数据,即所请求访问的网页数据。具体实现中,在进行网页数据采集时,可采用记录表,记录表中包括已访问、未访问、内容摘要等信息,这样,也可以避免网页的重复采集,具体的记录表的方法与现有的数据访问中的存储和记录的方法类似,在此不进行赘述。
S102,对所述采集的网页数据进行分析处理,并对所述分析处理后的网页数据进行数据转换;具体实现中,对所述采集的网页数据进行分析处理,包括:网页数据去噪、去除广告数据、去除导航栏数据、去除不支持的功能标签和属性数据、去除Javascript脚本数据、去除CSS语法数据和网页数据压缩中的任一种或多种。所述数据转换包括:图片数据转换、音视频数据格式转换和简化转换中的任一种或多种。
S103,根据数字电视接收终端的网页访问请求,将所述转换后的网页数据发送给数字电视接收终端,数字电视接收终端根据转换后的网页数据进行相应的网页显示。具体实现中,所述数字电视接收终端的网页访问请求包括:数字电视接收终端的型号、所请求访问的网页的显示要求、所请求访问的网页的关键词、所请求访问的网页URL(Uniform/Universal Resource Locator,统一资源定位符)中的任一种或多种。
本发明通过在数字电视接收终端与互联网之间搭建中转的平台,根据数字电视接收终端发出的网页访问请求,由中转的服务器进行网页数据的采集、处理及转换,对网页(包括:大型网页)进行简化,其简化后的网页内容能够成为数字电视接收终端中的浏览器所能支持的功能,使数字电视接收终端的浏览器后台化,让复杂繁琐的网页解析和处理均在服务器进行,解决了数字电视终端的CPU低速率的问题;同时,加快了数字电视接收终端对于网页的访问速度。
请参见图4,为本发明的实现网页访问的方法的第二实施例的流程图。该方法包括:
S201,数字电视接收终端发出网页访问请求;
S202,检索数据库是否存在所请求访问的网页数据;如果检索结果为是,则执行步骤S206,如果检索结果为否,则执行步骤S203;
具体实现中,前端服务器根据所述网页访问请求中包括的所请求访问的网页的关键词、所请求访问的网页URL等,由S202首先去检索网页缓存数据库中是否有所请求的网页数据,如果有,则执行步骤S206;如果没有,S202会继续根据所请求访问的URL,检索URL索引数据库,如果检索到存在所请求访问的URL,则根据URL索引数据库的索引,从内容数据库中找出相应的网页数据,然后执行步骤S206;如果在URL索引数据库中未检索到所请求访问的URL,还可根据输入的关键词,检索索引数据库中,看是否存在相应的关键词,如果有,则直接根据索引数据库中的关键词,在内容数据库中找出相应的网页数据,然后执行步骤S206;如果没有,则执行步骤S203。
具体地,上述索引数据库存储了网页的关键词、所述URL索引数据库存储了网页的URL、所述内容数据库存储了相应的网页数据,其中,索引数据库、URL索引数据库、内容数据库相互关联。具体实现中,S202需要保证,当在数据库中检索到所请求访问的网页数据,并以所述网页数据响应所述网页访问请求时,必须保证其检索到的网页数据为最新的网页数据(即:保证该网页数据未过时)。
S203,采集所请求访问的网页数据;
具体实现中,S203主要是通过加载网页采集程序(又称:网络爬虫)进行相应的网页数据的采集。所述网页采集程序进行采集时,直接从DNS缓存中去获取网页的IP,不需要每次解析域名,以减少解析的时间。另外,网页访问程序可以分布式布置,只需要根据采集策略将URL进行分组,每组布置一个网页访问程序,那么各网页访问程序根据不同的URL分组进行网页数据的采集,可以有效的避免重复采集。具体地,S203根据URL数据库的优先级和采集策略,加载网页采集程序,进行网页的URL的提取,同时采集到原始的网页数据,即所请求访问的网页数据。具体实现中,在进行网页数据采集时,可采用记录表,记录表中包括已访问、未访问、内容摘要等信息,这样,也可以避免网页的重复采集,具体的记录表的方法与现有的数据访问中的存储和记录的方法类似,在此不进行赘述。
S204,对采集的网页数据进行分析处理、数据转换;
具体实现中,S204通过加载网页分析程序对网页数据进行分析处理,具体包括:网页数据去噪、去除广告数据、去除导航栏数据、去除不支持的功能标签和属性数据、去除Javascript脚本数据、去除CSS语法数据和网页数据压缩中的任一种或多种。经过分析处理之后,会保留网页实质的内容和基本的HTML标签,为后序的数据转换和索引生成提供高质量素材。经过上述的分析处理之后,S204对得到的网页数据进行数据转换,包括:图片数据转换、音视频数据格式转换和简化转换中的任一种或多种。所述的数据转换后的数据会被导入内容数据库中进行相应的存储。经过S204上述处理后的网页数据,已经是比较适合所述数字电视接收终端10的浏览器进行显示的数据了。
S205,对分析处理后的网页数据排版;
具体实现中,由于各数字电视接收终端10的型号不同,对网页的显示要求不同,因此,S205会根据所述数字电视接收终端10的型号以及显示要求,对数据转换后的网页数据再进行重新排版,使其适合数字电视接收终端10的浏览器的排版显示。比如:根据数字电视接收终端10的显示请求,将高清晰的视频数据重新排版为普通的视频数据;再比如:当网页数据转换后,其所述数字电视接收终端10的型号类型依然不能够快速的打开大型网页时,可以将其重新排版为更小页面的网页数据。
S206,将网页数据发送给所述数字电视接收终端;
S207,数字电视接收终端根据网页数据显示相应的网页;
S208,对经S204分析处理后的网页数据生成关键词索引和URL索引;
具体实现中,对于分析处理后的网页数据,S208会进行相应的索引生成过程,除了常规的关键字或关键词的索引生成外,还会有URL索引生成,这是因为数字电视接收终端10的网页访问是一个URL访问的过程,因此,为了保证网页访问的实时性,生成关键词索引和URL索引就是必要的,其生成的关键字词索引和URL索引分别放入索引数据库和URL索引数据库中。具体地,为了加快访问速度,各数据库中必须存储一些用户经常访问的网站内容(网页数据),比如:新浪、网易、搜狐、腾讯等。
S209,根据S201的网页访问请求,和/或S208生成的关键词索引和URL索引,更新数据库。
由于数据库中需要存储一些常用的网页数据,以加快网页访问的速度,并且,需要保证数据库中的网页数据必须是最新的、未过时的数据,以实时响应网页访问请求。因此,S209根据S201的网页访问请求,更新所述数据库。具体实现中,S209可以通过加载行为分析程序实现数据库的更新,在S201的数字电视接收终端发送网页访问请求时,其行为分析程序会自动分析该请求,分析出常用链接、常用关键字、访问数量等信息,根据这些信息再重新去制定数据库的存储策略,然后更新数据库。另外,可在平时(即数字电视接收终端10未发送网页访问请求的时候),由网页采集程序随机的采集(抓取)一些网页,再通过行为分析程序进行相应的分析,然后根据分析结果更新数据库,这样,可以保证网页访问系统的实时性。
上述各步骤中,除S201和S207的执行主体为数字电视接收终端外,其余的处理过程的执行主体均为前端服务器。
本发明通过在数字电视接收终端与互联网之间搭建中转的平台,根据数字电视接收终端发出的网页访问请求,由中转的服务器进行网页数据的采集、处理及转换,对网页(包括:大型网页)进行简化,其简化后的网页内容能够成为数字电视接收终端中的浏览器所能支持的功能,使数字电视接收终端的浏览器后台化,让复杂繁琐的网页解析和处理均在服务器进行,解决了数字电视终端的CPU低速率的问题;同时,加快了数字电视接收终端对于网页的访问速度。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (12)

1.一种实现网页访问的方法,其特征在于:
根据网页采集策略采集网页数据;
对所述采集的网页数据进行分析处理,并对所述分析处理后的网页数据进行数据转换;
根据数字电视接收终端的网页访问请求,将所述转换后的网页数据发送给所述数字电视接收终端,以使所述数字电视接收终端根据所述转换后的网页数据进行相应的网页显示。
2.如权利要求1所述的方法,其特征在于,所述采集所请求访问的网页数据之前,还包括:
根据数字电视接收终端的网页访问请求,检索数据库内是否存在所请求访问的网页数据;
如果检索结果为是,则将所述检索到的网页数据发送给所述数字电视接收终端,以使所述数字电视接收终端根据所述检索到的网页数据进行相应的网页显示;
如果检索结果为否,则进行所请求访问的网页数据的采集。
3.如权利要求1所述的方法,其特征在于,所述进行数据转换之后,将所述转换后的网页数据发送给所述数字电视接收终端之前,还包括:
根据所述数字电视接收终端的网页访问请求,对所述转换后的网页数据进行排版。
4.如权利要求1所述的方法,其特征在于,所述对所述分析处理后的网页数据进行数据转换时,还包括:
根据所述分析处理后的网页数据,生成关键词索引和URL索引。
5.如权利要求1所述的方法,其特征在于,还包括:
根据所述数字电视接收终端的网页访问请求,更新所述数据库。
6.如权利要求1-5任一项所述的方法,其特征在于:
所述数字电视接收终端的网页访问请求包括:所述数字电视接收终端的型号、所请求访问的网页的显示要求、所请求访问的网页的关键词、所请求访问的网页URL中的任一种或多种;
所述数据库包括:临时网页数据库、URL数据库,网页缓存数据库、内容数据库,关键词索引数据库、URL索引数据库和行为数据库。
7.一种前端服务器,其特征在于,包括:
采集模块,用于根据网页采集策略采集网页数据;
数据处理模块,用于对所述采集模块采集的所述网页数据进行分析处理,并对所述分析处理后的网页数据进行数据转换;
发送模块,用于根据数字电视接收终端的网页访问请求将所述数据处理模块进行数据转换后的网页数据发送给所述数字电视接收终端,以使所述数字电视接收终端根据所述网页数据进行相应的网页显示。
8.如权利要求7所述的服务器,其特征在于,还包括:
检索模块,用于在采集模块进行网页数据采集之前,根据数字电视接收终端的网页访问请求,检索数据库内是否存在所请求访问的网页数据;
如果所述检索模块检索的结果为是,则使所述发送模块将所述检索到的网页数据发送给所述数字电视接收终端;
如果所述检索模块检索的结果为否,则使所述采集模块对所请求访问的网页数据进行采集。
9.如权利要求7所述的服务器,其特征在于,还包括:
重排模块,用于在所述数据处理模块对网页数据进行数据转换后,根据所述数字电视接收终端的网页访问请求,对所述转换后的网页数据进行排版,所述排版后的网页数据由所述发送模块发送给所述数字电视接收终端。
10.如权利要求7所述的服务器,其特征在于,还包括:
索引生成模块,用于在所述数据处理模块对网页数据进行数据转换时,根据所述分析处理后的网页数据,生成关键词索引和URL索引。
11.如权利要求7所述的服务器,其特征在于,还包括:
更新模块,用于根据所述数字电视接收终端的网页访问请求,更新所述数据库。
12.一种实现网页访问的系统,包括数字电视接收终端,其特征在于,还包括:前端服务器,
所述数字电视接收终端,用于向所述前端服务器发送网页访问请求,并接收所述前端服务器所发送的网页数据,根据所述接收的网页数据进行相应的网页显示;
所述前端服务器,用于根据网页采集策略采集网页数据;对所述采集的网页数据进行分析处理,并对所述分析处理后的网页数据进行数据转换;根据所述数字电视接收终端的网页访问请求,将所述转换后的网页数据发送给所述数字电视接收终端,以使所述数字电视接收终端根据所述转换后的网页数据进行相应的网页显示。
CN201010112317A 2010-02-09 2010-02-09 实现网页访问的方法、系统及前端服务器 Pending CN101808114A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201010112317A CN101808114A (zh) 2010-02-09 2010-02-09 实现网页访问的方法、系统及前端服务器
PCT/CN2011/070703 WO2011097992A1 (zh) 2010-02-09 2011-01-27 实现网页访问的方法、系统及前端服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010112317A CN101808114A (zh) 2010-02-09 2010-02-09 实现网页访问的方法、系统及前端服务器

Publications (1)

Publication Number Publication Date
CN101808114A true CN101808114A (zh) 2010-08-18

Family

ID=42609734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010112317A Pending CN101808114A (zh) 2010-02-09 2010-02-09 实现网页访问的方法、系统及前端服务器

Country Status (2)

Country Link
CN (1) CN101808114A (zh)
WO (1) WO2011097992A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011097992A1 (zh) * 2010-02-09 2011-08-18 深圳市同洲电子股份有限公司 实现网页访问的方法、系统及前端服务器
CN102255970A (zh) * 2011-07-20 2011-11-23 北京视博云科技有限公司 一种互动业务远程访问系统
CN102411576A (zh) * 2010-09-25 2012-04-11 盛乐信息技术(上海)有限公司 用电子书阅读器浏览论坛的方法
CN102447728A (zh) * 2010-12-01 2012-05-09 深圳市同洲电子股份有限公司 移动终端与数字电视接收终端分享网页方法及装置和系统
CN102611913A (zh) * 2011-01-24 2012-07-25 北京东方广视科技股份有限公司 用于有线电视访问网页的服务平台、机顶盒、系统及方法
CN102724189A (zh) * 2012-06-06 2012-10-10 杭州华三通信技术有限公司 一种控制用户url访问的方法及装置
CN106021615A (zh) * 2016-07-01 2016-10-12 广东小天才科技有限公司 题目搜索优化方法及装置
CN106202264A (zh) * 2016-06-29 2016-12-07 乐视控股(北京)有限公司 一种数据处理方法及装置
CN106599239A (zh) * 2011-06-30 2017-04-26 广州市动景计算机科技有限公司 网页内容数据获取方法及服务器
WO2018098880A1 (zh) * 2016-11-30 2018-06-07 深圳Tcl数字技术有限公司 网站信息下载方法及装置
CN112988860A (zh) * 2019-12-18 2021-06-18 菜鸟智能物流控股有限公司 数据加速处理方法、装置及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211349A (zh) * 2006-12-28 2008-07-02 深圳市同洲电子股份有限公司 一种生成数字电视开机门户页面的系统及其方法
US20090064223A1 (en) * 2007-08-27 2009-03-05 Himax Technologies Limited Dtv viewing terminal, epg service system and method for exhibiting epg
CN101527783B (zh) * 2008-12-25 2014-03-12 深圳市同洲电子股份有限公司 一种获取界面数据方法、系统及数字电视接收终端
CN101908048B (zh) * 2009-06-04 2012-09-12 深圳市彪骐数码科技有限公司 一种互联网影视内容搜索的方法及系统
CN101808114A (zh) * 2010-02-09 2010-08-18 深圳市同洲电子股份有限公司 实现网页访问的方法、系统及前端服务器

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011097992A1 (zh) * 2010-02-09 2011-08-18 深圳市同洲电子股份有限公司 实现网页访问的方法、系统及前端服务器
CN102411576A (zh) * 2010-09-25 2012-04-11 盛乐信息技术(上海)有限公司 用电子书阅读器浏览论坛的方法
CN102411576B (zh) * 2010-09-25 2017-03-08 上海掌门科技有限公司 用电子书阅读器浏览论坛的方法
CN102447728B (zh) * 2010-12-01 2014-12-31 深圳市同洲电子股份有限公司 移动终端与数字电视接收终端分享网页方法及装置和系统
CN102447728A (zh) * 2010-12-01 2012-05-09 深圳市同洲电子股份有限公司 移动终端与数字电视接收终端分享网页方法及装置和系统
CN102611913A (zh) * 2011-01-24 2012-07-25 北京东方广视科技股份有限公司 用于有线电视访问网页的服务平台、机顶盒、系统及方法
CN106599239A (zh) * 2011-06-30 2017-04-26 广州市动景计算机科技有限公司 网页内容数据获取方法及服务器
CN102255970B (zh) * 2011-07-20 2013-12-18 北京视博云科技有限公司 一种互动业务远程访问系统
CN102255970A (zh) * 2011-07-20 2011-11-23 北京视博云科技有限公司 一种互动业务远程访问系统
CN102724189B (zh) * 2012-06-06 2016-06-15 杭州华三通信技术有限公司 一种控制用户url访问的方法及装置
CN102724189A (zh) * 2012-06-06 2012-10-10 杭州华三通信技术有限公司 一种控制用户url访问的方法及装置
CN106202264A (zh) * 2016-06-29 2016-12-07 乐视控股(北京)有限公司 一种数据处理方法及装置
CN106021615A (zh) * 2016-07-01 2016-10-12 广东小天才科技有限公司 题目搜索优化方法及装置
WO2018098880A1 (zh) * 2016-11-30 2018-06-07 深圳Tcl数字技术有限公司 网站信息下载方法及装置
CN112988860A (zh) * 2019-12-18 2021-06-18 菜鸟智能物流控股有限公司 数据加速处理方法、装置及电子设备

Also Published As

Publication number Publication date
WO2011097992A1 (zh) 2011-08-18

Similar Documents

Publication Publication Date Title
CN101808114A (zh) 实现网页访问的方法、系统及前端服务器
RU2679729C2 (ru) Способ и устройство для процесса демонстрации сетевых данных
CN101364979B (zh) 下载资料解析及处理系统及方法
US20140201617A1 (en) Method for Browsing Web Page on Mobile Terminal
CN102737116B (zh) 一种网页资源保存方法和装置
CN103577596B (zh) 基于当前浏览页面的关键词搜索方法及装置
CN104063460A (zh) 一种在浏览器中加载网页的方法和装置
CN102075570B (zh) 一种基于关键字的http报文缓存机制的实现方法
CN103577595B (zh) 基于当前浏览页面的关键词推送方法及装置
CN103577392B (zh) 基于当前浏览页面的关键词推送方法及装置
US20160364373A1 (en) Method and apparatus for extracting webpage information
CN103412890A (zh) 一种网页加载方法和装置
US20140046938A1 (en) History records sorting method and apparatus
CN101369280A (zh) 一种数字电视终端网页浏览的方法和装置
CN102413297A (zh) 一种在电视机上实现网页浏览的方法及电视机
CN102065114A (zh) 一种移动终端访问网页的方法及装置
CN106126693A (zh) 一种网页的相关数据的发送方法及装置
CN108256092A (zh) 设备上的组合活动历史
CN104284250A (zh) 一种视频处理方法、装置、服务器和客户端设备
CN110855766A (zh) 一种访问Web资源的方法、装置及代理服务器
CN102880679B (zh) 一种网页信息存储方法和装置
RU2562397C2 (ru) Способ и устройство для добавления адреса гиперссылки в закладку
CN101354706A (zh) 一种收集网页信息的方法及装置
CN111339456A (zh) 预加载方法和装置
CN105653724A (zh) 一种页面曝光量的监控方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1147620

Country of ref document: HK

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20100818

REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1147620

Country of ref document: HK