CN101436181A - 一种通用web媒体获取与展示的方法 - Google Patents

一种通用web媒体获取与展示的方法 Download PDF

Info

Publication number
CN101436181A
CN101436181A CNA2007100942224A CN200710094222A CN101436181A CN 101436181 A CN101436181 A CN 101436181A CN A2007100942224 A CNA2007100942224 A CN A2007100942224A CN 200710094222 A CN200710094222 A CN 200710094222A CN 101436181 A CN101436181 A CN 101436181A
Authority
CN
China
Prior art keywords
web
media
medium
obtains
dom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007100942224A
Other languages
English (en)
Inventor
陈少坡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shengle Information Technolpogy Shanghai Co Ltd
Original Assignee
Shengle Information Technolpogy Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shengle Information Technolpogy Shanghai Co Ltd filed Critical Shengle Information Technolpogy Shanghai Co Ltd
Priority to CNA2007100942224A priority Critical patent/CN101436181A/zh
Publication of CN101436181A publication Critical patent/CN101436181A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了一种通用web媒体获取与展示的方法,包含以下步骤:一、获取包含媒体或媒体信息源的网页;二、提取指定Web媒体对象并就地重新组织;三、将指定Web媒体对象展示给客户。本发明用于在不适合改变媒体显示的宿主或主域的情况下,提供一个稳定、简洁通用的web媒体呈现系统,主要包括媒体查找与媒体组织两个方面。由于本发明不二次获取网络数据,所以也可以明显减少网络流量,改善系统的反应速度。

Description

一种通用web媒体获取与展示的方法
技术领域
本发明属于计算机与应用技术领域,涉及一种网页子内容提取,聚合,重新组织展示的方法,尤其涉及一种通用web媒体获取与展示的方法。
背景技术
WEB媒体,是对互联网络的WEB页面中存在的数据的统称,这包括文本、图片、图像、视频等等,以及这些数据的局部或部分。例如我们说的HTML,全称是“Hyper Text Mark-up Language”(超文本标记语言),而超文本更学术的分类是“html/text”媒体类型;又例如视频流媒体,其实在网络上传输过程的、视频媒体的某个部分。
DOM数据分析处理,DOM全称为“Domcument Object Model(文档对象模型)”,是面向HTML组织数据的层次结构进行可编程描述的规范。所谓“可编程描述”,是指用DOM描述的“对象模型(Object Model)”是可以被其它高级语言用在编程环境中的——通常被理解为一个树型结构的对象模型,被称为“DOM树”。而DOM数据分析处理,即是指在DOM的可编程能力范围内,用高级语言对DOM结构中包含的数据信息进行分析处理的方法。
媒体获取,是指从一个包含媒体的目标中得到该媒体数据的部分或全部的一个过程。根据媒体源的不同,又可以分为网络获取、本地缓存获取、静态文件获取、数据流内获取、可编程结构内部获取等。例如在互联网络中,RSS(Rich Site Summary,丰富站点摘要)技术是一种根据特定协议,从远程网络获取媒体的技术。
媒体展示,是指将获得的媒体重新组织并展示在相同的或不同的界面、介质上的技术。例如,利用RSS技术可以从异地获取WEB媒体,并在本地重新组织并展示在一个3D游戏内部物件的材质表面。
媒体展示中会遇到宿主与主域的问题。通常宿主是指适合播放该媒体的应用程序或组件,不同的媒体所使用的宿主不同,因此难于使用同一宿主来展示不同媒体;宿主的性质(可控性、安全性)以及操作界面、编程界面也不相同,因此如果使用原宿主来展示该媒体,则既难于通用也难以控制。所谓主域,是浏览器对不同网站/网页的限定,部分媒体在检测到自身被跨域访问时将不能正常显示。
传统的web内容获取查询方式有三种:一是用户进入网站搜索或者选择对应连接,然后在返回新页面中才可能是自己需要的内容;二是网站作为中间代理为用户搜索特定范围的内容,在服务器端重新组织并显现为新的网页结构;三是软件商发布桌面应用软件产品,由该软件从网络中获取数据并在本地(用户的桌面环境中)显示。这些方法浪费了大量的网络带宽,内容杂乱或冗余(部分并不是用户需要媒体内容)。
现有web媒体数据获取和展示技术大多只能对特定的内容信息处理,无通用性,例如RSS阅读器只能处理RSS格式的网络信息。而实际用户通常对获取图形、视频、Flash等内容有更多的需求。处理这些复杂的、非格式化的或流数据形式的网络媒体,对传统的技术方案而言是一个重大的疑难。
发明内容
本发明要解决的技术问题是提供一种通用web媒体获取与展示的方法,可有效避免媒体数据对网络域检测的限制,可明显减少网络流量,改善系统的反应速度,适用于不同内容的网站。
为解决上述技术问题,本发明一种通用web媒体获取与展示的方法,包含以下步骤:
一、获取包含媒体或媒体信息源的网页;
二、提取指定Web媒体对象并就地重新组织;
三、将指定Web媒体对象展示给客户。
步骤一具体为:从Web上通过支持DOM的浏览器或浏览器控件获取网页;或通过HTTP协议直接获取该网页并在一个支持DOM/XML(XML是eXtensible Markup Language的缩写,它是一种可扩展性标识语言,能够让你自己创造标识,标识你所表示的内容;DOM全称是Document ObjectModel(文档对象模型),定义了一组与平台和语言无关的接口,以便程序和脚本能够动态访问和修改XML文档内容、结构及样式;XML创建了标识,而DOM的作用就是告诉程序如何操作和显示这些标识。)解析的渲染引用中分析。
步骤二具体包括:A、从上述结果中得到DOM树;B、从DOM树中找到指定的Web媒体对象,返回该媒体的唯一标识;C、根据唯一标识,从DOM树中清除或隐藏上述Web媒体对象之外的其它媒体。
步骤B中所述从DOM树中找到指定的Web媒体对象,是采用某种既定描述规则的方法。
步骤三具体为:调整上述Web媒体对象的展示属性,使其符合展示需求进行展示。
本发明的有益效果在于:本发明一种通用web媒体获取与展示的方法,用于在不适合改变媒体显示的宿主或主域的情况下,提供一个稳定、简洁通用的web媒体呈现系统,主要包括媒体查找与媒体组织两个方面。由于本发明不二次获取网络数据,所以也可以明显减少网络流量,改善系统的反应速度。
采用本发明技术方案,可以在不改变媒体对象所在的宿主页面,以及所在的主域设置的情况下,使一个复杂的网页页面变成展示唯一媒体元素的(亦或称之为该媒体元素及其展示环境的)一个独立对象。这样的一个复合体,可以直接用于更复杂的界面组织——例如在界面中重新布局、显示或设计控制界面,而不会影响新的界面的可操作性。
采用本发明技术方案,网站设计人员可以在不增加成本、不重构网页的情况下重新组织资源,或者联合不同的网站。这是组织大型网络或提供复杂网络服务的基本要求,因此本发明具有相当明显的实用性。
采用本发明技术方案,网页或网页媒体可以在不考虑具体媒体展示方法、控制方法以及权限与系统安全设置的情况下,有效地使用该媒体对象。除了这种应用环境之外,一些客户端程序(例如操作系统的桌面应用)也可以使用该技术方案将Web网站与桌面服务提供联合起来:例如在对服务器设计没有变更和技术要求的情况下,将Web媒体展示移植或嵌入到客户端程序中。
附图说明
图1是传统的媒体获取与展示的方法流程图;
图2是本发明一种通用web媒体获取与展示的方法流程图;
图3是本发明实施例中的DOM结构示意图;
图4是本发明中媒体展示方法的流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细的说明:
一、基本媒体类型与媒体处理框架
根据宿主与主域的限制,可以将媒体分为如下类型:
Figure A200710094222D00071
传统处理方法将媒体或媒体信息提取出来做二次展示,其步骤如图1所示。图1中所谓“规则”是指对媒体信息格式的规则化描述,所谓“策略”是指媒体到媒体内容之后,用于存储、表现或其它功能的、可变的处理逻辑。传统处理方法因为存在“提取内容并存储后进行重新组织”的二次展示过程,所以对上表中后三种媒体的处理都存在或多或少的问题。
本发明采用不改变宿主、主域的“就地展示”方式,从根本上避免了上述问题。其步骤如图2所示,由于规则、策略直接作用于提取与组织内容的子系统,提取内容并就地重新组织,而不是象传统处理方法一样在提取内容的同时需存储内容,然后再重新组织,从而会影响存储中的内容,因此本发明也能适用于没有本地存储或远程存储能力的客户端应用,例如Web富客户端应用(Rich Web Client)。
二、媒体获取的基本方法
下面以一个规则为例来说明获取媒体的方法。例如:
[get_from_web_source]
srcHttp=http://domain/aPage.html
skipObject=2
getNmb=1
incObject=swf
为了下文的描述方便,假设从指定srcHttp中获取的http://domain/aPage.html存在如图3所示的DOM结构。那么上述规则说明表示:从内容开始位置忽略两个object块,然后从第三个object块开始获取一个object对象,最后如果确认该对象是swf媒体文件,则找到并返回该对象。当通过这一过程(或其它通过某种规则化的过程)查找到媒体源中的媒体对象时,本发明对该对象的使用做出如下限定:首先,取出该对象包含内容的任何部分是不必须的;其次,对于这一对象的内容进行修改的行为是不必须的;最后是对于外部编程系统而言,该过程必须返回一个该对象的唯一标识。
上述三条限定的前两条,用以保证所有对该对象的处理都是“就地”进行,而无需转置到其它存储设施中的。最后一条限定中,所谓“唯一标识”是指能够通过程序方式唯一指示该对象的方式,例如InternetExplorer浏览器DOM环境中的唯一标识属性uniqueID、编程环境中的对象引用,以及对象的XPATH路径(XPATH是一种专门用来在XML文档中查找信息的路径描述语言)等。
这也描述了本发明方法与传统方法的一种关键区别:本发明对媒体的“获取”是在网页内进行的、不分离、不转储的。
三、媒体展示的方法
按照标准技术规范,DOM结构中的媒体节点是可以进行移动、删除等操作的。我们得到了指定媒体对象之后,可以简单地在DOM结构中移动它,使它成为DOM中的第一个节点,然后我们可以顺理成章地认为:该节点之后的其它所有DOM节点(所代表的媒体)都不是我们关注的媒体内容。也就是说,我们可以清除掉或隐藏掉这些媒体。本发明基于这样一个简单的原理:采用移除/隐藏多余DOM结点的方法,使我们关注的媒体(上述被查找的目标媒体)成为当前网页中唯一存在或被显示的对象,这样,在效果上也达到了“获取并展示该媒体”的效果。
是否要将指定媒体对象移至DOM结构中的第一节点,并不是本发明所强调的关键,而只是处理较为方便的一种实现技巧。本发明提出的如下两个步骤是发明中关键的实现方法:其一,本发明认为隐藏所有非关注媒体对象等同于展示关注媒体对象;其二,本发明认为在网页中唯一展示关注对象(在效果上)等同于将该对象从网页中提取出来并展示。该媒体展示方法表达的实现流程如图4所示:获取源网页;查找指定媒体对象,并获取该对象的一个唯一标识;根据唯一标识清除或隐藏其它非关注对象;在网页中只剩下关注对象,可以调整该对象位置、大小等使其符合展示需求。
本发明所采用的媒体获取技术,特指在包含该媒体的WEB页面已经成为DOM对象结构的前提下,一种在该可编程的DOM对象结构中获取媒体对象的片断以及全部的方法。它是一种“可编程结构内部获取”的方法。
本发明所采用的媒体展示技术,特指在包含该媒体的WEB页面已经成为DOM对象结构的前提下,一种在该可编程的DOM对象结构的可编程能力支持的范围内,对媒体进行重新展示的方法。它是一种将媒体在相同界面或介质中重新组织与展示的方法。
基本上来说,本发明所做的就是分析动态的DOM网页数据块特征码。经过循环的、渐次地筛选分析判断识别出符合特征的DOM数据块,然后处理掉不需要的HTML特征标记,最后使用DOM的可编程能力在WEB环境中重新显示。
本发明一种通用web媒体获取与展示的方法的具体实现步骤如下:
1.从Web上通过支持DOM的浏览器或浏览器控件获取网页;或通过HTTP协议直接获取该网页并在一个支持DOM/XML解析的渲染引用中分析。
2.从上述结果中得到DOM树。
3.从DOM树中按某种既定描述规则的方法找到指定的Web媒体对象,返回该媒体对象的唯一标识。
4.根据唯一标识,从DOM树中清除或隐藏上述Web媒体对象之外的其它媒体。
5.调整上述Web媒体对象媒体代码块的展示属性(如位置、大小等),使其符合展示需求。

Claims (5)

1、一种通用web媒体获取与展示的方法,其特征在于,包含以下步骤:
一、获取包含媒体或媒体信息源的网页;
二、提取指定Web媒体对象并就地重新组织;
三、将指定Web媒体对象展示给客户。
2、根据权利要求1所述的通用web媒体获取与展示的方法,其特征在于,步骤一具体为:从Web上通过支持DOM的浏览器或浏览器控件获取网页;或通过HTTP协议直接获取该网页并在一个支持DOM/XML解析的渲染引用中分析。
3、根据权利要求1所述的通用web媒体获取与展示的方法,其特征在于,步骤二具体包括:A、从上述结果中得到DOM树;B、从DOM树中找到指定的Web媒体对象,返回该媒体的唯一标识;C、根据唯一标识,从DOM树中清除或隐藏上述Web媒体对象之外的其它媒体。
4、根据权利要求3所述的通用web媒体获取与展示的方法,其特征在于,步骤B中所述从DOM树中找到指定的Web媒体对象,是采用某种既定描述规则的方法。
5、根据权利要求1所述的通用web媒体获取与展示的方法,其特征在于,步骤三具体为:调整上述Web媒体对象的展示属性,使其符合展示需求进行展示。
CNA2007100942224A 2007-11-13 2007-11-13 一种通用web媒体获取与展示的方法 Pending CN101436181A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007100942224A CN101436181A (zh) 2007-11-13 2007-11-13 一种通用web媒体获取与展示的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007100942224A CN101436181A (zh) 2007-11-13 2007-11-13 一种通用web媒体获取与展示的方法

Publications (1)

Publication Number Publication Date
CN101436181A true CN101436181A (zh) 2009-05-20

Family

ID=40710622

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007100942224A Pending CN101436181A (zh) 2007-11-13 2007-11-13 一种通用web媒体获取与展示的方法

Country Status (1)

Country Link
CN (1) CN101436181A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799655A (zh) * 2012-06-29 2012-11-28 奇智软件(北京)有限公司 一种网页中不良图片信息的处理方法和装置
WO2013010291A1 (en) * 2011-07-20 2013-01-24 Hewlett-Packard Development Company, L.P. Rendering selected content objects for printing
CN104951445A (zh) * 2014-03-25 2015-09-30 小米科技有限责任公司 一种网页处理方法及装置
CN108733673A (zh) * 2017-04-14 2018-11-02 北京京东尚科信息技术有限公司 跨域图片的导出方法及导出装置、电子设备、存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013010291A1 (en) * 2011-07-20 2013-01-24 Hewlett-Packard Development Company, L.P. Rendering selected content objects for printing
CN102799655A (zh) * 2012-06-29 2012-11-28 奇智软件(北京)有限公司 一种网页中不良图片信息的处理方法和装置
CN102799655B (zh) * 2012-06-29 2018-03-27 北京奇虎科技有限公司 一种网页中不良图片信息的处理方法和装置
CN104951445A (zh) * 2014-03-25 2015-09-30 小米科技有限责任公司 一种网页处理方法及装置
CN104951445B (zh) * 2014-03-25 2020-06-02 小米科技有限责任公司 一种网页处理方法及装置
CN108733673A (zh) * 2017-04-14 2018-11-02 北京京东尚科信息技术有限公司 跨域图片的导出方法及导出装置、电子设备、存储介质
CN108733673B (zh) * 2017-04-14 2020-11-20 北京京东尚科信息技术有限公司 跨域图片的导出方法及导出装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
US11294968B2 (en) Combining website characteristics in an automatically generated website
US20180293307A1 (en) User driven computerized selection, categorization, and layout of live content components
US20130326333A1 (en) Mobile Content Management System
US9285977B1 (en) Card based package for distributing electronic media and services
US9135311B2 (en) Gathering and contributing content across diverse sources
CN103635901B (zh) 使用阅读列表面板呈现文档的方法
US9201672B1 (en) Method and system for aggregation of search results
JP6702950B2 (ja) マルチメディアコンテンツ用の方法およびシステム
US9443014B2 (en) Custom web page themes
US20180191798A1 (en) Methods and systems for server-side rendering of native content for presentation
US20140026037A1 (en) Creating personalized networked documents
CN104424232B (zh) 一种网页标注方法和装置
US20150227276A1 (en) Method and system for providing an interactive user guide on a webpage
US10628853B2 (en) Location-based filtering and advertising enhancements for merged browsing of network contents
US10942984B2 (en) Portal connected to a social backend
US20200073925A1 (en) Method and system for generating a website from collected content
CN101436181A (zh) 一种通用web媒体获取与展示的方法
Hoff et al. From paper‐and‐pen annotations to artefact‐based mobile learning
CN106951405B (zh) 基于排版引擎的数据处理方法及装置
US8775924B1 (en) Processing web pages based on content quality
KR102213871B1 (ko) 광고 제공 시스템 및 그 방법, 그리고 이에 적용되는 장치
Mallia et al. Automatic creation of a virtual/augmented gallery based on user defined queries on online public repositories
Ju et al. Design and implementation of a dynamic educational content viewer with big data analytics functionality
KR101079766B1 (ko) 인터넷 검색과 연동하여 부가적인 설명이나 링크 관련 메타 데이터 입력이 자유로운 문서 편집 방법 및 시스템
WO2017134487A1 (en) Method for dynamically displaying multimedia contents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090520