CN101808104A - 一种以流式方式运行的互联网建立方法 - Google Patents

一种以流式方式运行的互联网建立方法 Download PDF

Info

Publication number
CN101808104A
CN101808104A CN200910008694A CN200910008694A CN101808104A CN 101808104 A CN101808104 A CN 101808104A CN 200910008694 A CN200910008694 A CN 200910008694A CN 200910008694 A CN200910008694 A CN 200910008694A CN 101808104 A CN101808104 A CN 101808104A
Authority
CN
China
Prior art keywords
data
internet
node
cluster
stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910008694A
Other languages
English (en)
Inventor
李冰
刘鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN200910008694A priority Critical patent/CN101808104A/zh
Publication of CN101808104A publication Critical patent/CN101808104A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明为一种以流式方式运行的互联网建立方法,属于互联网技术领域,特别是利用大规模分布式技术在互联网中的应用领域;为解决现有互联网存在的问题,本发明提出了一个全新互联网传输协议,并在此基础上形成流式互联网;本发明通过建立大规模对等分布式互联网系统、建立群落和社会网络系统、采用复杂网络系统中的路由算法和集群算法,建立高效动态计算集群、更新互联网中流的定义、建立新的互联网数据单元描述方式以及建立基于流网对象的传输协议等来建立流式互联网;本发明通过对分布式结构的改变,达到对计算资源充分利用的目的,从而改善当前互联网中数据传输的方式,更有效地利用网络计算资源,满足用户在流式互联网环境中的应用需要。

Description

一种以流式方式运行的互联网建立方法
技术领域
本发明属于大规模分布式技术在互联网中的应用研究。通过对分布式结构的改变,达到对计算资源充分利用的目的,从而改善当前互联网中数据传输的方式。
背景技术
当前互联网数据传输的主要是基于轻量级数据的请求回应方式。客户端节点向服务器发出请求,服务器处理用户请求并对客户端做出回应。这种方式适合于规模不大的分布式应用。对于规模大的互联网应用,由于计算资源完全依赖于服务器,造成对服务器的严重压力。计算资源的限制必然导致应用上的缺陷,这可以从现有互联网通行的传输协议上体现出来。
在当前的网络环境下,基于应用层的数据传输协议主要有HTTP协议【1】、BT协议【2】以及其他流媒体传输协议【3】【4】。其中HTTP协议解决了多种异质数据在互联网应用层上的传输问题。但由于分布式结构的限制,每个基于HTTP回应的数据量都被人为严格限制,这严重影响了用户使用互联网时的直观感受。BT协议由于基于新的分布式结构,因此可以承受重量级数据传输压力,从而达到稳定传输重量级数据的目的;但由于BT协议所基于的片段选择策略,致使无法满足对于时序敏感数据的传输要求,例如视频数据。对于这个限制,其他一些协议提出了改进方法,力图既利用BT协议优点,又能够满足数据时序要求,如BiToS协议和BASS协议等等。但是BT协议、BiToS协议【3】以及BASS协议【4】现在只是针对同质数据来进行传输。实际应用中,经常会有多种异质数据组成一个集合来进行传输的情况。这和HTTP协议面临的情况类似,比如一个HTTP回应中通常包含多个异质数据。
HTTP协议是当前互联网系统中标准传输协议。这个协议完全基于纯粹的客户端/服务器模式、或者叫作中心服务器模式来工作。从应用层数据传输的角度看,它解决了互联网上多种异质数据同时传输的问题。比如,当服务器接受到HTTP请求后,它会把事先组织好的数据形成回应传输给用户。这个回应通常由多个异质数据组成。HTTP协议首先会把对整个数据的描述(即HTML【5】)传送到客户端;然后再根据HTML的描述去请求其中包括的其他数据。在后一步过程中,HTTP协议并没有对数据传输做出任何调度,这有可能影响多种数据共同传输过程中的公平性。由于一般网页的大小都作了严格限制,不同性质数据之间的大小差别不显著,所以这个问题对系统造成的影响并不明显。
之所以现有互联网系统会对每个回应或者说网页大小作严格限制,主要是因为纯粹的客户端/服务器结构(即中心结构)造成的。这样的结构中系统计算资源完全来自于单一或少数服务器。为了在大量访问用户和有限资源间达到一种平衡或者说兼顾,系统开发人员力图缩短对每个HTTP请求的回应时间,尽量减小对服务器的压力。为此,人为减小每个网页或者HTTP回应大小就成了一个简便的解决方案。当面临必须应付大数据量回应(如文件下载)时,只有牺牲用户对该数据的并发访问量来求得回应能够稳定完成。除了普通重量级数据以外,对于和时序相关的重量级数据(如视频数据),HTTP协议也只能采取尽量减小并发量的办法;这致使HTTP协议难以应付诸流媒体数据在高并发或者大规模状态下的传输要求。图1对HTTP协议运行机制做了简单说明。
BT协议是一种新的互联网数据传输协议。和HTTP协议一样,它也是一种应用层协议。BT协议是建立在非中心分布式结构之上,因此避免了计算资源对单个或少数服务器的依赖。要在这样的分布式结构上完成稳定的数据传输,必须采取和HTTP协议完全不同的方式。首先,在非中心结构的互联网系统中,计算资源必须由参与计算的所有计算节点来提供。基于这样的认识,以BT协议工作的节点组成了相对稳定的集群。在这样的集群中,节点之间相互配合,共享计算资源,从而达到稳定传输数据的目的。其次,非中心结构缺陷之一就是计算资源不稳定或者说处于高动态当中。这要求BT协议必须提供适当方式保证在这样的条件下维持相对稳定的计算环境。BT协议通过基于互惠原则【3】的节点选择方式达到了上述目的。再次,节点间相互配合各取所需也是BT建立相对稳定集群的关键。为此,BT协议提出了片段选择策略【3】来解决,使相互合作的节点能够尽可能以高并发合作方式工作。上述这些方法解决了HTTP协议由于计算资源有限而出现的问题;利用BT协议可以有效完成重量级数据的传输,并且不会对系统规模提出上限。相反,当系统规模小时,基于BT协议的系统性能反而会下降。BT协议的问题之一是没有对被传输的数据性质做区分,如时序相关或者时序无关等;也没有针对不同应用场合形成对具体应用的有效支持。对一个具体互联网应用,通常会出现由多个异质数据组成的集合,合理调度使BT协议充分发挥作用成了一个关键问题。图2展示了计算节点基于BT协议形成的拓扑结构。
针对BT协议在与时序相关重量级数据(流媒体)传输上的不足,一些建立在BT协议基础之上的流媒体传输协议试图在并发传输和有序传输之间找到一个平衡点,从而既利用了BT协议的优点又能够满足流媒体数据要求。BiToS协议和BASS协议就是两个典型解决方案。鉴于BT协议在传输重量级数据上的优势,这两个协议都以其为基础,只对影响流媒体传输的片段选择策略作了修改。
在BiToS中,被传输的流媒体数据被分为两大部分,即高优先级集合和低优先级集合。高优先级集合指为满足播放时序的要求即将要播放的数据,或者叫作时序敏感数据;而低优先级集合指的是那些与播放还有相对长间隔时间的数据。这两个集合的大小可以按照播放速率和下载速率之间的关系来计算的,并在传输过程根据传输状态变化来动态调整。在将数据分为上述两大集合后,BiToS在两个集合中仍然采取了稀少优先策略进行片段选择。但作了一个修改,即当多个片段具有相同稀少比例时,时序上更接近播放的片段会优先被下载。还有一个重要参数是,上述两个集合虽然都在并行被传输,但系统为上述两个集合分配的CPU时间是不同的:即单位时间内,有更多CPU时间花费在高优先级集合;在低优先级集合上分配的CPU时间相对少。CPU时间片分配比例也可以根据系统实际运行状态动态调整。
在BASS中,被传输的流媒体数据同样被分为两大部分,即高优先级集合和低优先级集合。这个划分和BiToS的原则一样。系统也会在这两个集合之间分配不同的CPU时间:单位时间内,高优先级集合会获得比低优先级集合更多的CPU时间。这个比例也是可以动态调整的。与BiToS重大不同在于BASS中引入了计算能力相对强的服务器来辅助数据传输而不仅仅依赖于系统中的普通对等节点。相对于普通对等节点来说,服务器的支持会显著提高数据传输效果。这里有两个假设,即服务器的资源没有耗尽并且服务器上已经具有正在被传输的数据完整备份。在这样的前提下,可以保证来自服务器的支持是可靠的。对于片段选择策略,BASS也作了相应调整。对于高优先级集合,节点从服务器上严格按照要求时序获得,即不采用稀少优先策略。对于低优先级集合,节点采取BT协议进行传输,以期减少对服务器的压力;这是由于低优先级集合数据随着时间推移会变成高优先级集合数据,从而不用再向服务器请求了。图3说明了BiToS和BASS协议。
上述协议解决了互联网上数据传输的一些问题,如多个轻量级异质数据的传输、单个重量级数据传输以及单个重量级流媒体数据传输。但都没有触及多个量级差别大且异质数据作为一个集合的传输问题。这里的集合指的是组合在一起具有独特含义的异质数据。在基于HTTP协议的互联网中,一个回应(集合)被人为作了大小限制。而BT协议、BiToS协议和BASS协议没有考虑异质数据之间的关系,只是对同性质重量级进行传输。当量级差别大且多个异质数据组合成集合时,上述协议都不能兼顾数据和应用特征。这会影响具体互联网应用给用户的感受;因此必须为这样的数据集合设计新的传输协议,进而提出流式互联网的概念。
发明内容
为解决现有互联网存在的问题,本发明提出了一个全新互联网传输协议,并在此基础上形成流式互联网。通过对分布式结构的改变,达到对计算资源充分利用的目的,从而改善当前互联网中数据传输的方式。流式互联网摆脱了当前互联网基于请求回应方式的数据传输模式,建立了基于流的对等交互模式。当量级差别大的异质数据组成集合传输的时候,系统为此进行合理调度;利用本发明的流式互联网可以在保证稳定传输的前提下,更有效地利用网络计算资源,来保证多异质数据集合能够在大小不受限制和保证时序的前提下稳定传输,满足用户在流式互联网环境中应用需要。
为完成上述发明目的,本发明主要内容如下:
第一步,建立大规模对等分布式互联网系统,图4说明了大规模对等互联网基本结构,包括:
(1)设置帐户管理服务器,为所有计算设备建立设备帐户管理;
(2)建立所有计算设备之间直接通信方式,通过TCP或者UDP建立连接,并彼此交换数据。
第二步,建立群落和社会网络系统;具体包括:
(1)由系统首先做一个粗略划分,同时允许用户在这样的划分之下进行更细致的群落建立工作;
(2)用户可以任意建立自己所喜好的群落并通过各种渠道吸引其他用户加入;其他用户则可以根据意愿任意加入某个群落;
(3)系统规模在无限扩大的同时逐渐形成一个社会网络系统。
第三步,采用复杂网络系统中的路由算法和集群算法,建立高效动态计算集群;具体包括:
(1)利用BT算法建立大规模非中心互联网环境中与时序无关的重量级数据多播机制;
(2)通过结合BiToS协议和BASS协议并改造传统互联网服务器,建立大规模非中心互联网环境中与时序有关的重量级数据多播机制;
(3)对动态集群运行状态进行监测,来判断其性能的变化;并根据动态集群运行状态判断动态集群性能,引起贡献型节点有选择地辅助集群;
在判断集群性能时,一般可以根据集群中所包含的节点数量;
更准确的方法是根据集群中每个节点单位时间平均要求增加新连接的个数来判断这个集群的性能;当这个数值相对高时,表示集群中多数节点带宽有剩余或者现存连接带宽利用率不高;当这个数值相对低时,表示集群中多数节点带宽剩余少并且已存在带宽连接质量高。
还可以根据跟踪服务器上单位时间内和单位大小数据传输中成为种子节点的个数来确定集群计算性能;如果这个个数相对大,说明这个集群中在同样负荷下存在相对多的节点能以相对快的速度成为种子,即集群计算性能高;如果这个个数相对低,说明这个集群中在同样负荷下成为种子的速度慢,即集群计算性能低;
(4)针对发布、搜索和访问三种行为形成的数据多播在社会网络系统中确定对相应数据感兴趣的节点,选择计算节点从而形成动态集群;
当用户把组织好的数据发布到群落内时,群落内所有在线节点都可以作为动态集群的节点;
当用户进行搜索时,其搜索结果也是以数据多播的形式出现。根据社会网络系统的特点,可以将搜索路径所经过的节点作为动态集群候选节点;
当用户访问某个节点时,把访问节点和被访问节点的邻居作为形成多播的节点;必要时也可以将二者路径上所经过的节点作为动态集群节点;
上述三种方式中,允许用户对收到的数据进行推荐,以此增加节点的数量。
第四步,更新互联网中流的概念,把流定义为在应用层上具有时序要求的异质数据集合,形成流的数据不仅包括流媒体数据,任何在互联网节点间传送的数据都可以形成流,或者说都有时序的要求。
第五步,建立新的互联网数据单元描述方式,流网对象将不同性质的数据组织在一起,包括数据描述、展示描述以及交互描述三个部分:
(1)数据描述部分包含一个流网对象所拥有的数据、这些数据在互联网上的地址以及本流网对象和其他流网对象的关系;
(2)展示描述部分对不同数据在一个视图中的展示方式进行了定义;
(3)交互描述部分向用户提供了可能的交互方式来辅助浏览过程,用户可以通过这些交互方式与系统或者其他用户进行相互交换数据。
第六步,建立基于流网对象的传输协议,合理寻找、组织和分配计算资源,使得流数据能够在高动态大规模环境中稳定传输,具体包括:
(1)适应流所拥有计算节点数量的动态变化;在大规模非中心互联网中,可以根据社会网络系统的特征找到计算节点;
(2)通过在社会网络中寻找新节点以及布置贡献型计算节点支持弱流;
(3)了解流网对象之间可能存在的关系;在发布和访问过程中,使流以流网对象间的顺序在计算节点上展示;在搜索过程中,根据搜索排序标准等相关信息重新制定新的静态和动态顺序;
(4)采用轻量级数据优先以及分时调度策略保证流的合理传输;在拥有足够计算资源支持流的形成后,在具体传输流时,使用恰当调度策略以提高流的传输效率以及计算资源利用率;首先传输流的描述数据;其次传输文本数据;在描述数据传输结束和流中文本数据开始传输后,系统就可以根据描述数据在展示层为正在传输的流产生一个大致视图;随后,系统开始处理非文本数据或者叫作重量级数据,这时的传输策略重点在于按照流网对象间固有关系,把每个流网对象剩余的重量级数据传输到位;最后,在调度策略中考虑分时操作,即在单位时间段内为流中每个流网对象都提供传输时段。
本发明的积极效果为:
本发明是应用层上下一代互联网的关键技术,它将代替当前的互联网数据交互协议HTTP,使互联网数据分享方式由访问回应转变为持续流的方式。本发明涉及的方法会成为下一代互联网信息传输的主流协议。
附图说明
图1.HTTP协议运行机制示意图;
图2.计算节点基于BT协议形成的拓扑结构;
图3.BiToS和BASS传输协议示意图;
图4.大规模对等互联网示意图;
图5.社会网络中的群落和动态集群;
图6.基于流的互联网形成示意。
具体实施方式
第一步,建立大规模对等分布式互联网系统。所谓大规模对等分布式互联网系统指的是构成计算的所有计算节点都以对等方式出现在系统中,并按照自由意愿组合成的互联网系统。这个系统具备如下特征:在这样的计算环境中,不存在纯粹提供计算资源的计算节点,即没有传统服务器存在。计算资源的压力会通过相关路由算法【6】和集群算法【3】【4】【5】的支持相对均衡地分担在每个加入系统的计算节点上。同时,通常这样的环境具有规模大高动态的特点,这是互联网应用自然特征;这是充足计算资源的保证。基于这个环境进行计算资源重新组合和利用能够大大降低建立互联网应用系统成本。当然,在获得这个利益时,必须付出相关的代价。在主要计算资源都来自于被分别独立控制的计算设备条件下,必须对分散的计算资源作出有效管理,这是系统的额外开销。所谓对等,指的是系统中任何两个节点间处于平等计算地位,其相互间可以互为对方提供服务,每个节点既可以作为服务的请求者,也可以作为服务的提供者。这和现有系统中绝大多数计算节点处于服务请求者、少数服务器作为服务提供者形成对照。
要完成上述目标,具体步骤如下:
(1)设置帐户管理服务器,为所有计算设备建立设备帐户管理。由于当前互联网IP地址资源有限、不可能为每个互联网节点都分配一个IP地址,在大规模对等分布式系统中必须为每个节点分配一个唯一标识。这可以通过设置帐户管理服务器来完成;用户登陆时必须通过这个服务器的验证。用户之间可以通过这个唯一标识来联系和识别。
(2)建立所有计算设备之间直接通信方式,通过TCP【7】或者UDP【7】建立连接,并彼此交换数据。在当前的互联网中,作为客户端的计算设备是不能直接通信的。根据互联网中计算设备所处网络情况的不同,个人计算机之间的通信方式有多种不同情况,局域网内通信、直接通信、穿透通信以及间接通信等。所谓直接通信指的是任意两个计算设备通过TCP或者UDP建立连接,并彼此交换数据。当前的互联网是基于中心结构的分布式系统,又可以称作基于服务器的互联网;并且这个系统是一个不对等系统,即数据访问是通过客户端/服务器模式来工作。同时,由于IP地址资源【8】的限制和局域网安全的考虑【8】,在互联网上形成了很多访问屏障。这些因素造成了任意两个作为客户端的计算设备只能通过访问服务器间接地联系;同时任意两个作为服务器端的设备又永远没有联系。而由于作为客户端的计算设备规模庞大,服务器计算能力对计算设备之间的连接造成了限制;另外,网络带宽的限制以及数据资源不断向多媒体演进,使服务器的承载能力成为了计算设备间联系的瓶颈。与此同时,计算设备的计算能力以及拥有的带宽也在不断增长,这使得计算设备之间突破传统服务器/客户端模式完成独立通信成为可能。这些问题已经得到解决:根据互联网中计算设备所处网络情况【8】【9】的不同,个人计算机之间的通信方式有多种不同情况【8】【9】,局域网内通信【8】【9】、直接通信【8】【9】、穿透通信【8】【9】以及间接通信【8】【9】等。这些方式能确保互联网计算设备之间能够不借助其他资源帮助直接交换数据。
第二步,建立群落和社会网络系统;由系统首先做一个粗略划分,同时允许用户在这样的划分之下进行更细致的群落建立工作;用户可以任意建立自己所喜好的群落并通过各种渠道吸引其他用户加入;其他用户则可以根据意愿任意加入某个群落;系统规模在无限扩大的同时逐渐形成一个社会网络系统。这里的群落指的是社会科学意义上人群的聚合形式或者说是人类互联网行为学和心理学上的聚合特征。人类在互联网上主要行为按照对数据的存取特征可分为发布、搜索和访问三类。发布指的是某个用户主动向系统中多个节点发送自身生成的数据或者服务。搜索指的是某个用户向系统发出请求以获得其所需要的数据或者服务。访问则指用户根据特定的地址直接获取位于该地址上发布的数据。无论属于何种性质的行为都会发生在特定人群当中或者影响到特定人群;这是人类文化、信仰、生活习惯、教育和语言等多方面因素所决定的。这样就有必要在符合用户意愿的前提下,把用户分成不同的群落。这个群落的建立可以由系统首先做一个粗略划分,比如政治、经济、军事和体育等;同时允许用户在这样的划分之下进行更细致的群落建立工作。用户可以任意建立自己所喜好的群落并通过各种渠道吸引其他用户加入;其他用户则可以根据意愿任意加入某个群落。由于对等互联网具备强伸缩性的特征,系统规模可以在无限扩大的同时逐渐形成一个社会网络系统【10】。一个社会网络系统具备复杂网络的基本特征,即小世界性【10】、幂律性【10】以及群聚性【10】。当用户行为在这样的网络环境中进行时,计算资源的组织会有其特殊的方式和策略【11】。需要进一步强调的是,社会网络系统完全是社会科学意义上的概念在计算科学上的模拟或者对应。它体现的是人类智慧。人类在这个网络上的行为,如发布、搜索和访问,会逐步成为除计算资源之外另一种重要资源,即智力资源。
第三步,采用复杂网络系统中的路由算法和集群算法,建立高效动态计算集群【2】【3】【4】。在具备了大规模对等分布式互联网环境后,另一个关键问题就是采用适当的算法有效利用计算资源。通常在这样的系统中,计算资源的总和要远远大于基于中心结构的互联网系统。但如果没有适合的方式组织这些处于分散状态的资源,并不能保证计算性能高于中心结构的系统。本发明采取了建立高效动态集群的办法将这些分散计算资源组织起来,在每个集群中计算资源会得到充分共享,实现计算资源总和的最大化,从而完成相应的计算。需要注意的一点是,由于每个节点都是由各自用户来控制,这样的集群处于高动态变化当中,即每个节点随时都可能加入、也随时可能离开。这为建立高效计算集群带来困难。本发明采用了在复杂网络系统【10】中的路由算法【6】和集群算法【2】【3】【4】等手段来保证集群的高效运行。实现动态集群的主要步骤如下:
(1)利用BT算法建立大规模非中心互联网环境中与时序无关的重量级数据多播机制。在一个非中心结构分布式系统中,要求有高质量的多播机制以确保加入系统的节点之间能够保持一致状态以及高效交互,进入完成并进行高性能集群计算。但要把大量并且在不同用户控制下的计算设备组织起来,一个可行的多播算法除了面对潜在无限制的系统规模外,还要面对用户不同的行为模式给系统带来的动态变化。本发明中采取了BT算法【2】来完成在这种环境中计算节点之间的多播。BT算法是由Bram Cohen【2】首先提出并实现的。但对BT算法的实现并不是固定不变。BT算法最重要的贡献是提出了一些基本原则,而并不是对具体做法的限定。
(2)通过结合BiToS协议和BASS协议并改造传统互联网服务器,建立大规模非中心互联网环境中与时序有关的重量级数据多播机制。和与时序无关重量级数据不同,与时序有关的重量级数据要求做到在获得有限部分数据的情况下可以处理数据,如流媒体数据的播放。本发明中采用了将BiToS和BASS结合的方法。在利用BASS时,服务器不是BASS当中以被动响应方式工作的,而是被改造成了非中心分布式系统中的贡献型节点以主动和被动结合的方式提高与时序相关数据的传输效率。在非中心分布式系统中,贡献型节点所拥有的计算资源是有限的;并且,在整个非中心分布式环境中又同时存在多个性能不同的集群。因此在进行与时序相关数据传输过程中,首先要尽量形成性能高的集群;当这个集群性能不足以使每个节点计算能力充分发挥作用时,可以由贡献型节点提供辅助。这个方案同样适用于基于BT算法形成的计算集群中。当一个集群性能足够高时,就不需要贡献型节点来辅助;集群内部只要基于BiToS协议就足够了。
(3)对动态集群运行状态进行监测,来判断其性能的变化;根据动态集群运行状态判断动态集群性能,引起贡献型节点有选择地辅助集群;通过上述论述,可以了解判断集群的性能对保证集群中的多播效率非常关键。本发明通过对动态集群运行状态的监测来判断其性能的变化。在判断集群性能时,一般可以根据集群中所包含的节点数量。这个指标虽然并不绝对准确,但却简单易行。通常来说,集群规模越小,集群性能越差。更准确的方法是根据集群中每个节点单位时间平均要求增加新连接的个数来判断这个集群的性能。当这个数值相对高时,表示集群中多数节点带宽有剩余或者现存连接带宽利用率不高。当这个数值相对低时,表示集群中多数节点带宽剩余少并且已存在带宽连接质量高。另外,还可以根据跟踪服务器上单位时间内和单位大小数据传输中成为种子节点的个数来确定集群计算性能。如果这个个数相对大,说明这个集群中在同样负荷下存在相对多的节点能以相对快的速度成为种子,即集群计算性能高;如果这个个数相对低,说明这个集群中在同样负荷下成为种子的速度慢,即集群计算性能低。无论那种方法都会引起贡献型节点有选择地辅助集群,提高与时序相关数据多播性能。
(4)针对发布、搜索和访问三种行为形成的数据多播在社会网络系统中确定对相应数据感兴趣的节点,选择计算节点从而形成动态集群,建立计算资源基础。非中心互联网由于没有强大的服务器支持,必须在具体应用中形成足够数量的节点参与。但参与节点通常要求对流所表达的含义有兴趣。这个要求避免了无偿占用计算资源以及对用户计算需求的干扰。通常这些节点的寻找都从重量级数据的发起者开始。所谓发起者指的是行为引发互联网中形成数据多播的节点。在大规模非中心互联网中,主要三种行为可以引起数据多播的形成,即发布、搜索和访问。本发明针对这三种行为形成的数据多播在社会网络系统中确定对相应数据感兴趣的节点。由于发布通常在一个群落内进行,当用户把组织好的数据发布到群落内时,群落内所有在线节点都可以作为动态集群的节点。当一个用户进行搜索时,其搜索结果也是以数据多播的形式出现。根据社会网络系统的特点,可以将搜索路径所经过的节点作为动态集群候选节点。当一个用户访问某个节点时,可以把访问节点和被访问节点的邻居作为形成多播的节点;必要时也可以将二者路径上所经过的节点作为动态集群节点。最后,在这三种方式中,本发明允许用户对收到的数据进行推荐,比如向别的群推荐或者向朋友推荐。这样也会增加节点的数量。上述方式实际上是为多播机制的有效运行建立计算资源基础,也可以理解为基于社会网络的路由算法。
在大规模对等互联网中,计算发生在众多独立节点组成的动态分布式环境中。在这样的节点上形成高性能集群成为提高整个系统计算能力的前提。当前互联网环境中带宽仍然是提高分布式系统性能的主要瓶颈;对于基于重量级数据的互联网应用来说更是如此。基于BT算法的多播系统在利用有限带宽资源传输重量级数据上有着重要作用,因此在大规模对等互联网上形成高性能动态集群时必须得到BT算法的支持。在本发明中,流的形成依赖于动态集群的质量,所以BT算法成为流式互联网中关键技术。不过需要指出的是,由于BT算法中基于稀少片段的选择策略,BT算法只实现了与时序无关重量级数据的多播。而这个问题可以通过与时序有关的多播机制来解决。
总而言之,在大规模非中心互联网系统中,重量级数据的多播机制是形成高性能集群的关键。本发明通过对现有技术的利用和改造,为高性能动态集群的形成建立了基础。图5说明了社会网络中的群落和动态集群。
第四步,更新互联网中流的定义。把互联网中的流定义为在应用层上具有时序要求的异质数据集合,形成流的数据不仅包括流媒体数据,任何在互联网节点间传送的数据都可以形成流,或者说都有时序的要求。
本发明对互联网中流的概念进行了重新认识,现有对流的认识一般局限在流媒体数据。这样的数据在传输过程中对时序敏感,即要求数据传输速率不低于数据播放速率,同时播放设备要求接受到的数据必须满足流媒体数据本身固有的顺序关系,从而达到在传输过程中就可以展示或播放的目的。在本发明中,形成流的数据不仅包括流媒体数据,任何在互联网节点间传送的数据都可以形成流,或者说都有时序的要求。因此,本发明把流定义为在应用层上具有时序要求的异质数据集合。这里强调应用层的原因在于,对于大多数互联网应用来说,为了表达数据作者本意,通常会使用多种不同性质的数据,如文本、图片、音频和视频等。至于时序要求指的是这些不同性质的数据组合在一起来表达特定的含义;同时,这样形式下多个特定含义的集合又会形成层次关系,如顺序、树状甚至是网状等。这些集合在展示给用户时必须保持这样的关系来确保特定含义的正确表达。这要求这样的数据在传输中保证时间和顺序要求的同时,尽量采用合理调度手段,保证计算资源的充分利用。这就构成了本发明对于流的定义。
第五步,建立新的互联网数据单元描述方式,通过流网对象的设计,将不同性质的数据组织在一起,包括数据描述、展示描述以及交互描述三个部分。根据对流的定义,本发明基于大小不限多个异质数据组成的具有特定含义数据单元来进行传输。本发明提出了流网对象的概念对上述数据单元作了完整描述。流网对象将不同性质的数据组织在一起,从而达到表达某一基本含义的目的。一个流网对象通常包含数据描述、展示描述以及交互描述三部分。数据描述部分包含一个流网对象所拥有的数据、这些数据在互联网上的地址以及本流网对象和其他流网对象的关系。在传输过程中,流网对象数据描述是对整个流进行搜索、组合和调度的重要依据。展示描述部分对不同数据在一个视图中的展示方式进行了定义;这个描述对传输来说没有影响。交互描述部分向用户提供了可能的交互方式来辅助浏览过程,用户可以通过这些交互方式与系统或者其他用户进行相互交换数据。
流网对象设计的基本步骤如下:
(1)保证数据描述和数据本身的分离,使它们之间相互独立、没有依赖关系。这种分离使同样数据可以出现在不同流网对象当中,不会和某个流网对象形成紧耦合。这克服了HTML【5】的缺陷。在HTML当中数据和其描述绑定,这不利于数据的重用。
(2)完整地对数据进行描述,以有利于流网对象的分类、查询和维护。HTML是一种半结构化数据描述,主要用来展示;根据HTML进行数据管理难度大效果差。
(3)容纳可能的各种数据。流网对象描述包含的数据没有大小限制;但对于一些高质量流媒体数据,由于带宽的限制,一般要做质量上的衰减处理,以达到在相对低的带宽上可接受的质量。原则上,HTML也没有对此做限制,但由于当前互联网结构上的缺陷,在实际应用当中数据大小都严格受限。
(4)赋予流网对象中以交互描述。流网对象描述中主要交互可以基于本地进行,交互反应速度迅速。同时,本地计算也使得交互更丰富,比如所有的数据都可以动态形式表现并由用户通过交互来控制等。更重要的是,这种交互是在大量数据、大量用户和本地用户共同作用下进行的,打破了基于HTML有限数据和简单人机交互的方式。HTML中也具有交互描述,但这些交互描述针对的数据一般处于远程节点上,这使系统性能下降。另外,在交互种类上也由于这种基于远程请求的运行模式,导致交互方式受限于简单的轻量级数据请求回应模式。
(5)对流网对象进行展示描述。流网对象的展示更加丰富。同样是由于对于本地资源的充分利用,展示层会表现出和基于传统HTML截然不同的形式,多媒体、图象化和图形化趋势更加明显,成为丰富互联网应用【12】新的解决方案。
第六步,建立基于流网对象的传输协议。在本发明中多个大小不限的异质数据首先形成流网对象,而一个流至少包含一个流网对象,多数情况下会有多个。并且,由于每个流网对象都表达一个特定的含义,它们之间形成的特定层次关系从作者和最终用户角度看是不能被破坏的;否则,会影响这些对象所表示的意义。但是,从传输角度看,并不需要严格受制于这种层次关系。在从作者和最终用户角度看保持流网对象间关系的前提下,本发明合理寻找、组织和分配计算资源,使得流数据能够在高动态大规模环境中稳定传输。这个传输方式就表现为本发明所提出的传输协议。
(1)适应流所拥有计算节点数量的动态变化;在大规模非中心互联网中,可以根据社会网络系统的特征找到计算节点。但由于流的传输是一个时间相对长的过程,在这个过程中计算节点的个数也在不停变化。这种变化或者是因为用户正常加入或者离开造成的,或者是因为对流的好恶而造成的。在发布过程中,由于流是在一个特定群落内进行的,只要这个群落当前在线节点足够,流就可以形成了。但形成流之后,并不能保证这个数量一直不变。理想情况下,这个数量会增加。这可能是因为群内新节点加入形成的,也可能是由于流所表达的意义受欢迎而引发推荐造成的。如果这种推荐数量大,那么一个有价值的流在极端情况下就会迅速在整个大规模非中心互联网系统中散播。由此可以认为,有价值的流通常不需要担心其计算节点多寡的问题。当然可能存在其他情况,被发布流影响力平淡,最多仅限群内计算节点共享;只要群的规模不太小,流还是可以形成。最坏的情况时,流在发布过程中被接收用户中断,并且这种中断数量占整个计算节点比例大,以致剩余的计算节点不足以维持流的完全发布。通常这种中断流的情况会在群内成员对流浏览了一段时间后出现。这时候传输协议需要对剩余计算节点提供支持。在搜索时,流所需要的计算节点来自于群内或者群外;其数量决定于被搜索流的流行程度。另外,由于搜索时会要求与搜索节点相邻的节点共同完成搜索,这两部分节点形成了对搜索流的支持。通常搜索结果被按照流的流行程度(被复制量)排序,拥有复制量大的流网对象被排在前面,而拥有复制量少的流网对象排在后面。由此会出现流在开始阶段相对稳定而在后段随着复制节点的减少以及流价值下降造成计算节点有减少的趋势。这时需要传输协议引入贡献型计算节点提供支持,保证流的顺利传输。在访问时,传输协议会要求访问者或者被访问者的读者或者邻居节点成为计算节点;这些节点也处在不同的群落中。根据社会网络的知识,在一个团体当中能够成为超级节点【10】的被访问者很少;而多数访问又集中于这些被访问者。因此,在多数情况下,基于访问形成的流可以找到足够的计算节点。少部分访问普通节点而形成的流需要贡献型计算节点提供协助。
(2)通过在社会网络中寻找新节点以及布置贡献型计算节点支持弱流。由于流在大规模非中心互联网中的强度是处在不断变动当中,价值高的流会广受欢迎而强度稳定,价值低的流则会由强变弱,因此需要在协议里考虑对弱流的支持;这是系统公平性的要求。这种对弱流的帮助可采取两种方式,即通过专门布置的贡献型节点和寻找更多的计算节点来支持。贡献型节点的支持类似于前面对BASS协议的改造。弱流一般是参与节点相对少的流,而这些参与节点并不是孤立存在的。可以通过其在社会网络的位置得到更多的计算节点。这里其实存在系统推荐和人为推荐两种方式。无论是那种推荐,都是在社会网络中试探性地寻找对当前流感兴趣的计算节点。在理想情况下,这种寻找会带来稳定的计算节点支持,即最终找到了对这个流感兴趣的多个计算节点。在最差情况下,协议难以在社会网络中寻找到对这个弱流感兴趣的节点,由此不得不寻求专门布置的贡献型节点来帮助。在一个私有环境中,这种情况会很普遍;但这不是本发明所要关注的。当这种情况发生后,专门布置的贡献型节点可以对此流实行有效帮助。
(3)了解流网对象之间可能存在的关系,在发布和访问过程中,使流以流网对象间的顺序在计算节点上展示;在搜索过程中,根据搜索排序标准等相关信息重新制定新的静态和动态顺序。流中流网对象间是有顺序的,并且这种顺序关系是不能因为传输而破坏,导致在目标节点和在源节点上的不一致,进而造成流所要表达意义的缺失。但这种关系并不要求传输时严格遵守,关键是在展示时能够与源节点一致就可以了。这种关系实际上是一种人为定义的知识结构。从拓扑关系上看,可以是线性的、树状的和网状的。但无论哪种形式,都要求传输协议保证在远程计算节点上以同样的形式复制,从而完整地反映流创作者的原意。除了静态的拓扑关系外,流的作者也可以指定流的动态关系,即根据前面展示过程中交互结果,决定后续流网对象间展示的拓扑关系。在发布和访问过程中,必须保证流以流网对象间的顺序在计算节点上展示;在搜索过程中,由于流的来源可能不只一个节点,可以根据搜索排序标准等相关信息重新制定新的静态和动态顺序,即搜索相当于在重新组合知识。
(4)采用轻量级数据优先以及分时调度策略保证流的合理传输。在拥有足够计算资源支持流的形成后,在具体传输流时要在保证流本身具备的意义正确表达的前提下,使用恰当调度策略以提高流的传输效率以及计算资源利用率。调度策略是针对流中数据性质、大小以及对用户造成的影响而提出来的。本发明中的流包含多个流网对象;而每个流网对象又包括多个异质数据;这些异质数据具有不同的传输和展示要求;另外这些异质数据的大小差别也很大。在传输数据时应该采取相应的策略,充分利用计算资源;同时,能够考虑上述不同因素,采取不同的调度策略保证用户获得符合流本身含义的展示效果。对于一个具体的流来说,其描述数据对整个传输最为重要;通过对描述数据的分析,可以获得整个流的基本情况,无论对于传输流还是展示流都具有指导作用;并且描述数据通常都是对系统压力小的文本数据。基于上述认识,首先,流的描述数据要被传输;其次,传输文本数据,在每个流中又包含一些文本数据,这些数据是表达流的含义所必须的;而且,这些数据也不会对传输造成很大压力。通常在传输描述数据后,可以传输每个流网对象所包含的文本数据。这个传输很快会完成。在描述数据传输结束和流中文本数据开始传输后,系统就可以根据描述数据在展示层为正在传输的流产生一个大致视图,使用户对流所包括的内容有基本了解。随后,系统开始处理非文本数据或者叫作重量级数据,比如图片、音频和视频。这时的传输策略重点在于按照流网对象间固有关系,把每个流网对象剩余的重量级数据传输到位。这其中图片传输和音视频又不相同。图片大小一般也小于音视频,并且图片没有时序的要求。在调度策略中,图片具有比音视频更高的优先级。最后,由于大规模非中心互联网具有高动态的特征,要求把多个流网对象在尽可能短的时间内传输到计算节点上;但多个流网对象会有大小差别,而这种差别可能造成传输时系统资源分配不合理。当一个大的流网对象在流中的顺序先于一个小的流网对象、并且这个大小相差过于悬殊时,如果按照流网对象固有的顺序传输就会造成小任务等待大任务的现象;而系统的动态特征有可能使得后面的小任务在大任务传输完毕后丢失。这就要求在调度策略中考虑分时操作,即在单位时间段内为流中每个流网对象都提供传输时段,避免出现系统资源分配的不合理。
综上,在大规模对等分布式系统和高效计算集群的基础上,互联网中数据传输方式发生了变化。原来依赖单个或者少数服务器资源提供数据响应的方式转化成了依靠高效集群形成的数据流。这种转换使得整个系统性能摆脱了来自于少数服务器的限制,同时数据交互方式也产生了不同。在互联网应用中,本发明中的流表现为数据在有请求或者无请求的情况下,以多种异质数据形成的集合按照特定次序在多个节点之间传输;并且,在这样的传输过程中,没有对流的数据量以及节点规模的大小进行限制。从最终用户角度看,流具有语义上的含义,即多个异质数据形成了从用户角度看具备独特的意义;而这个意义是与异质数据之间前后顺序或者层次关系相关。这种基于流的互联网与当前基于非流的互联网形成对照。所谓非流互联网也可以理解为数据交互受限于请求回应模式的互联网,即基于当前HTTP协议的互联网。图6是基于流的互联网形成示意图。
具体实施案例
下面给出本发明的具体实施方式,以下描述均为对本发明内容的说明与解释,是为帮助理解本发明之技术内容,而非对本发明的任何限制;任何采用等同替代的技术手段实施本发明的方案均属于本发明权利要求保护范围内。
实施例一,建立基于个人计算设备的流式互联网网站。
本发明的重要应用之一就是能够为计算能力弱的个人计算设备提供一个计算环境,使之能够充分利用其有限计算资源建立功能相对强大的互联网网站。区别于传统互联网网站基于被动响应轻量级小规模系统,利用本发明可以实现主动发布与被动响应兼顾、重量级以及大规模互联网网站系统。通常在传统互联网系统中,即使是大型计算设备要实现上述目标都会遇到计算资源的压力。这进一步说明了本发明的重要性。要实现上述目标,需要满足以下条件。
(1)计算资源有最低限制。本发明虽然能够为计算能力弱的个人计算设备提供当前互联网系统难以支持的强大计算能力,但仍然对个人计算设备所拥有的计算资源有基本要求。这个要求集中体现在中央处理器能力、存贮能力以及带宽能力等方面。相对来说,带宽能力在当前互联网条件下是实现上述目标最为重要的因素。对于大部分互联网应用来说,基于数据的应用仍然是主流,即数据传输完成了就意味着整个计算的结束。由于当前互联网带宽资源的限制,形成了基于数据的互联网应用的瓶颈。当然,中央处理器和存贮能力也很重要,只是相对来说矛盾没有带宽那么突出。尤其在使用了本发明中的多播协议后,对上述二者的要求相对要小些。对于带宽来说,其最低限制决定于控制这个计算设备的作者试图发送的数据,尤其是与时序相关的重量级数据。如果时序要求高,那么对个人计算设备所要求的基本带宽也就高;反之亦然。
(2)所拥有用户数量有最低限制。除了对于个人计算设备本身具有最低计算资源的要求外,要保证基于个人计算设备网站的目标实现,还需要拥有足够数量的用户。这些用户是通过控制个人计算设备进入本发明涉及的系统的。要求这个条件的原因是直接的,虽然个人计算设备通常计算资源有限,但要实现复杂的计算仍然需要有足够的计算资源。这个原则在任何情况下都是一致的。本发明并不能导致计算资源的增加,而只是使得计算资源的来源发生变化:由单纯数据或者服务提供者保证计算资源转变为所有参与互联网计算的节点都贡献计算资源。正是基于上述原因,在利用本发明建立基于个人计算设备的流式互联网网站时,要求拥有足够数量的用户数,从而为网站高效运行提供计算资源基础。至于这个最低限制的具体数值,一方面决定于本网站用户可能发布的数据,当重量级数据相对多时,用户数也要求多;当重量级数据相对少,用户总数也要求少。另一方面也决定于这些用户各自所具备的计算资源。这个意思是,众多用户所控制的计算设备存在计算能力上的差别。如果其中存在一些强计算设备,它会降低对用户数量的要求;如果众多用户能够控制的计算设备普遍能力差,对用户数量上的要求就要提高。还有一个因素是系统中是否存在贡献型计算节点。当存在时,所要求的用户数量下降;反之提高。
(3)通过本发明的协议进行数据发布。在计算资源和基本环境有了保证后,本发明提出的流式互联网以及相关协议就可以得以运行。这时,控制个人计算设备的用户就成了发布者;他可以利用本发明提供的计算环境,把自己创作的数据以主动方式发布给所拥有的用户;用户则可以在其控制的计算设备上以流的方式获得数据或者服务。这改变了传统互联网被动等待用户访问来完成发布的基本运行模式,保证了发布数据及时由用户获得。在迅速完成发布的同时,作者也可以即刻获得发布效果。当发布面对用户数量相对稳定时,发布效果可以从两个方面获得,即发布效率和用户反馈。当发布效率高时,通常说明用户对发布数据感兴趣;反之,则说明用户对发布数据没有兴趣,并予以抵制,造成发布效率下降。另一方面,从用户给予的直接反馈也可以判断出发布数据效果。这些直接反馈通常包括即时评论、推荐操作以及拒绝操作等。
(4)通过本发明的协议进行访问响应。与主动发布相对应的是,用户还可以利用本发明基于个人计算设备被动响应用户的访问请求。这个模式与当前互联网访问机制形式上有相似之处,但实际运行机理是不同的。当一个用户访问本发明支持的网站时,与传统网站不同,访问者实际上是加入了一个动态计算集群。由于动态集群的高效运行,使得访问者能够获得高质量访问效果。当然,如前所述,并不是在任何情况下访问效果都是高效的。与传统互联网不同,本发明的网站访问效果决定于被访问数据的受欢迎程度,而不仅仅是计算资源的多寡。当被访问数据受欢迎程度高时,其访问效果也好;反之,则只能在贡献型计算资源的支持下维持最低效率的访问。
(5)利用本发明根据数据受欢迎程度响应用户的搜索请求。作为一个网站应用来说,应该为用户提供搜索服务,尤其是当所发布的数据量大时。本发明支持的网站系统可以提供合理的排序机制。这个排序机制的依据就是数据在用户中的备份数或者受欢迎程度。由于发布者可以即时通过发布和访问获得发布数据的受欢迎程度,当搜索结果多时,可以把搜索结果按照受欢迎程度进行排序,从而达到高质量搜索结果。当然,在本发明中,由于用户只是通过个人计算设备建立网站,在多数情况下其创作的数据量有限。这样搜索结果一般不会太多,排序在这样条件下重要性会下降。当然,对于个别用户来说,不排除其发布的数据量大、质量高。这时本发明支持的排序方式作用就显著了。
实施例二,成为流式互联网中的一个普通计算节点。
本发明涉及的技术除了提供建立个人网站系统以外,在多数情况下,多数计算设备使用本发明后是作为流式互联网上一个普通计算节点而存在的。所谓普通计算节点在此指的是以获取满足个人兴趣的数据或服务为主的计算资源。对于绝大多数互联网用户来说,这种需求是主要的。这个现象从复杂网络或者社会网络的特征上也反映出来。需要强调的是,正是这种特征导致了流式互联网计算资源的充足。这些以普通计算节点模式运行的计算资源是流得以存在的基础。这从前面的论述中可以得到上述结论。这些节点的运行方式及作用包括以下几个方面。
(1)通过被动接受发布数据形成群落和动态集群。流式互联网中一个普通计算节点的重要需求就是被动接受来自于发布节点的数据。这里“被动”是与流式互联网特征相符合的。对于发布者来说发布由当前互联网的“被动”变为“主动”;对于作为接收者来说发布就由当前互联网的“主动”变为“被动”。重要的是,处于接收状态的节点会与其他普通计算节点依照本发明的协议形成动态集群;形成动态集群的前提条件是这些节点都在接收来自于同一数据源节点的被发布数据。正是由于普通计算节点众多,才为流式互联网中动态集群的形成在规模上有了保证。在流式互联网中,除了动态集群以外,还有群落的概念。这两个概念既相关,又有区别。群落指的是一个静态非运行意义上计算节点由于兴趣而形成的集合;动态集群指的是一个运行时由于兴趣而形成的集合。通常群落的规模要大于动态集群;而一个节点进入一个群落的前提是曾经参与过一个动态集群的运行。但一个节点也可以离开一个群落;其标致是长期与群落内形成的任何动态集群没有任何关系。群落的形成为流式互联网提供了相对稳定可靠丰富的计算资源。
(2)通过访问与其他节点形成群落和动态集群。普通计算节点在流式互联网中与当前互联网相似之处还在于具有访问要求。这是普通计算节点独特的需求造成的。但需要指出的是,这种访问也是在有限范围内进行的,即经常访问的网站数目是有限的。与此同时,访问造成的结果是与其他兴趣相同的节点形成动态集群。群落与此类似,也会逐步形成。需要进一步强调的是,主动访问发布数据与被动接收发布数据都会形成动态集群以及群落。在多数情况下,两种基于不同因素形成的动态集群和群落是重合的。可以进一步推断,在经过多次访问后,一个普通节点节点会与少数网站形成固定联系;这种固定联系导致普通节点主动访问的频率下降,其访问形式转化为被动接收来自于那些形成固定联系网站的数据。
(3)通过搜索与其他节点形成群落和动态集群。搜索也是普通计算节点经常要进行的行为。严格来说,搜索也是访问的一种形式。在流式互联网中,用户通过搜索行为会寻找的不仅仅是具体数据,更重要的是寻找到能够持续甚至永久提供数据的节点或者用户。流式互联网系统就实现了这样的目标。作为普通计算节点的用户通过搜索获得了满足其有限需求的新的网站或者计算节点,从而建立固定联系,成为这些节点被动发布数据的接收者。这个结果与访问得到的最终结果一致。可以这么认为,在流式互联网上所有的访问或者搜索最终都会指向形成固定联系并以被动接受发布数据为主的互联网行为模式。
实施例三,建立基于大型计算设备的流式互联网网站。
本发明提出的流式互联网技术不仅仅为普通用户利用个人计算设备建立新型互联网网站提供了便利,更为互联网企业建立更强大的互联网网站建立了基础。固然,利用流式互联网技术,通过充分利用整个互联网计算资源能够使得建立互联网网站的投入下降同时性能提高,但并不意味着一个普通计算设备就可以承担全部互联网应用的功能并达到高性能。对于数据资源丰富的互联网网站来说,结合流式互联网的强计算能力会为互联网应用提供更高效和有意义的功能。
(1)基于丰富数据资源的流式互联网网站。所谓大型计算设备明显区别于基于个跟人计算设备的是计算资源(中央处理器、存贮资源以及带宽资源等等)。作为网站来说,这些资源保证了丰富数据服务的物质基础。首先,大型网站通常都有众多数据来源,在强计算资源的支持下,这些数据资源能够以更高的质量来发布。这个高质量一方面体现在系统性能高;另一方面体现在数据质量高,如流媒体的清晰程度等。其次,对于大量数据存在的流式互联网网站来说,数据管理的任务压力大。所谓数据管理主要的任务是决定网站上被发布数据的生命周期。流式互联网网站判定这个周期的方法相对于当前互联网要准确和简单。当前互联网网站由于数据必须被动等待用户访问,数据是否过期更多地决定于发布者的主观判断。流式互联网则不同。由于能够同步获得发布状态,系统可以根据这个客观指标决定数据的生命周期,从而节约数据管理代价。
(2)更大规模的流式互联网网站。基于本身计算资源尤其是数据资源的丰富,流式互联网网站可以达到比个人计算设备更高的计算规模。规模的提高除了系统伸缩性强这个原因外,更重要的原因来自于所提供数据的丰富程度。个人计算设备网站数据丰富程度低,获得大规模的可能性也低。对于大型流式互联网网站来说,丰富数据会使得网站拥有的规模更大。
(3)多频道的流式互联网发布网站。本发明所提出的流式互联网在进行发布时,依赖于其大规模计算环境中的动态集群和群落。由于大型流式互联网网站丰富的数据资源,直接引发了多种不同性质的动态集群和群落的形成。所谓多种不同性质决定于数据对于用户来说的意义。这些动态集群和群落无论对于网站发布者来说还是网站访问者来说都是有重要辅助作用的,即能够帮助用户获得更高的发布效率以及更有价值的数据。对于发布者,可以将数据有意识地发布到相关群落或者动态集群中;对于访问者,可以主动加入一个群落或者动态集群,从而获得群落中的数据。无论是群落还是动态集群,在此可以抽象为所谓频道,并以直观的形式表达给发布者和访问者。这为提高互联网应用的质量具有重要作用。
(4)公平的流式互联网网站。流式互联网在满足用户对广受欢迎的数据发布和访问时能够提供有效计算资源的支持;但对于相对冷门的数据发布和访问的帮助会受到限制。对于冷门数据来说,由于缺少计算节点形成的动态集群和群落,发布和访问效率会低。为此,在流式互联网中必须布置贡献型计算节点或者发现贡献型计算节点来辅助冷门数据的发布和访问。而基于大型计算设备形成的流式互联网就能够起到这个作用。对于网站上的流行数据,网站甚至只需花费很低的代价就可以完成发布和访问;而对于网站上的非流行数据,节省出来的计算资源正好可以对于弱集群或群落形成帮助,起到贡献型计算节点的作用。这就是所谓公平的意义。
(5)利用本发明传输异质数据。对于大型流式互联网网站来说,数据的丰富必然导致数据组合上的复杂。数据作者可以通过多种性质的数据来进行表达:在创作数据时数据可以利用本发明提出的流网对象来表达基本意义;同时,还可以把多个流网对象组织起来形成更生动和有力的作品。这样的作品在流式互联网上进行传输时,可以按照本发明中的调度方案来进行。
实施例四,实现丰富互联网应用。
所谓丰富互联网应用指的是在互联网上通过有效的资源组织和利用、实现远程应用本地化的互联网应用模式。本发明提出的流式互联网是一个具有开拓意义的互联网机制及其基本实现方式和协议,为丰富互联网应用建立了坚实基础。利用本发明,当前互联网应用中存在的大量远程数据或者服务请求被转化成了本地请求,或者说远程互联网应用被流式互联网技术最大程度上转化为本地应用。用户通过这样的机制会发现互联网应用响应迅速、展示丰富,接近于本地化应用所具有的性能。
实施例五、建立统一互联网系统。
统一互联网系统指的是任何一个互联网服务提供者都具有为全部互联网用户提供服务的计算潜力;同时全部互联网用户都可以通过一致的标识和状态享用所有互联网服务。当前互联网由于分布式计算模式上的限制,造成计算资源相对于全体互联网用户的需求差距巨大。所以,当前互联网应用不得不呈现出轻量级、小规模和服务单一等特点。轻量级和小规模在前面已经有了详细介绍。所谓服务单一指的是每个互联网服务提供者都只能支持单一内容和形式的数据或者服务。这里排除了服务提供者知识、技能和商业等非技术因素,而只局限在计算环境本身是否有足够资源容纳这样潜在的互联网服务提供者。至少对于重量级、大规模和多种服务这样的应用,当前互联网技术是无法达到的。但是,利用本发明提出的流式互联网及其传输协议,在技术上可以保证构造出这样的互联网服务提供商。当然,在实际互联网的服务是由包括技术在内多种因素决定的,不可能形成一个服务提供商包办所有服务的情况。但是,即使在流式互联网上同样存在大量服务提供者,对于用户来说仍然可以使用一致的标识、拥有一致的状态:实现这个目的资源支持来自于每个用户自身独立支配的计算设备;服务提供者则可以投入小得多的计算资源成本而具备拥有全部互联网用户的潜力:这个目标的实现是流式互联网基本技术的结果。简言之,流式互联网及其传输协议为建立统一互联网系统提供了计算基础。
参考文献:
【1】Hypertext Transfer Protocol;http://www.w3.org/Protocols/
【2】Cohen B.;Incentives Build Robustness in BitTorrent,in Workshop on Economics ofPeer-to-Peer Systems,Berkeley USA,May 2003
【3】Vlavianos Aggelos,et al;BiToS:Enhancing BitTorrent for Supporting StreamingApplications;INFOCOM 2006,25th IEEE International Conference on ComputerCommunications Proceedings,April 2006,Page(s):1-6
【4】Dana C.,Li D.,Harrison D.,Chuah C.N.;BASS:BitTorrent Assisted StreamingSystem for Video-on-Demand,Multimedia Signal Processing,2005IEEE 7th Workshop,Page(s):1-4
【5】HTML 4.0Specification;http://www.w3.org/TR/REC-html40-971218/
【6】Hari Prasad Thadakamalla;Decentralized Algorithms for Search and Routing inLarge-Scale Networks,PhD Dissertation,Pennsylvania State University,December 2007
【7】Douglas E.Comer;Internetworking with TCP/IP-Principles,Protocols andArchitecture,ISBN 86-7991-142-9
【8】Rosenberg J.,et al;STUN-Simple Traversal of User Datagram Protocol(UDP)Through Network Address Translators(NATs);RFC 3489,March 2003
【9】Paul Francis;Is the Internet Going NUTSS?IEEE Internet Computing,November/December 2003,Pages:97-99
【10】Newman M E J.;The Structure and Function of Complex Networks,SIAM Review,2003,45,Page(s):167-256
【11】Yilei Shao;Exploring Social Networks in Computer Systems,PhD Dissertation,Princeton University,June 2007
【12】Adam Nathan;Windows Presentation Foundation Unleashed,Sams Publishing,2007,ISBN:0-672-32891-7

Claims (9)

1.一种以流式方式运行的互联网建立方法,其特征在于,所述互联网由以下几个部分组成:建立大规模对等分布式互联网系统;建立群落和社会网络系统;采用复杂网络系统中的路由算法和集群算法,建立高效动态计算集群;更新互联网中流的定义;建立新的互联网数据单元描述方式;建立基于流网对象的传输协议。
2.如权利要求1所述的一种以流式运行的互联网建立方法,其特征在于,所述建立大规模对等分布式互联网系统由以下步骤来实现:
1)设置帐户管理服务器,为所有计算设备建立设备帐户管理;
2)建立所有计算设备之间直接通信方式,通过TCP或者UDP建立连接,并彼此交换数据。
3.如权利要求1所述的一种流式互联网,其特征在于,所述建立群落和社会网络系统包括:
1)由系统首先做一个粗略划分,同时允许用户在这样的划分之下进行更细致的群落建立工作;
2)用户可以任意建立自己所喜好的群落并通过各种渠道吸引其他用户加入;其他用户则可以根据意愿任意加入某个群落;
3)系统规模在无限扩大的同时逐渐形成一个社会网络系统。
4.如权利要求1所述的一种流式互联网,其特征在于,所述采用复杂网络系统中的路由算法和集群算法,建立高效动态计算集群的具体步骤如下:
1)利用BT算法建立大规模非中心互联网环境中与时序无关的重量级数据多播机制;
2)通过结合BiToS协议和BASS协议并改造传统互联网服务器,建立大规模非中心互联网环境中与时序有关的重量级数据多播机制;
3)对动态集群运行状态进行监测,来判断其性能的变化;并根据动态集群运行状态判断动态集群性能,引起贡献型节点有选择地辅助集群;
4)针对发布、搜索和访问三种行为形成的数据多播在社会网络系统中确定对相应数据感兴趣的节点,选择计算节点从而形成动态集群:A.当用户把组织好的数据发布到群落内时,群落内所有在线节点都可以作为动态集群的节点;B.当用户进行搜索时,其搜索结果也是以数据多播的形式出现;根据社会网络系统的特点,可以将搜索路径所经过的节点作为动态集群候选节点;C.当用户访问某个节点时,把访问节点和被访问节点的邻居作为形成多播的节点;必要时也可以将二者路径上所经过的节点作为动态集群节点。上述三种方式中,允许用户对收到的数据进行推荐,以此增加节点的数量。
5.如权利要求4所述的一种流式互联网,其特征在于,所述判断集群性能的方法,一般可以根据集群中所包含的节点数量进行判断。所述判断集群性能的方法,还可采用更准确的方法是根据集群中每个节点单位时间平均要求增加新连接的个数来判断这个集群的性能;当这个数值相对高时,表示集群中多数节点带宽有剩余或者现存连接带宽利用率不高;当这个数值相对低时,表示集群中多数节点带宽剩余少并且已存在带宽连接质量高;还可根据跟踪服务器上单位时间内和单位大小数据传输中成为种子节点的个数来确定集群计算性能。
6.如权利要求1所述的一种流式互联网,其特征在于,所述更新互联网中流的定义,是把互联网中的流定义为在应用层上具有时序要求的异质数据集合,形成流的数据不仅包括流媒体数据,任何在互联网节点间传送的数据都可以形成流,或者说都有时序的要求。
7.如权利要求1所述的一种流式互联网,其特征在于,所述建立新的互联网数据单元描述方式,是指通过流网对象的设计,将不同性质的数据组织在一起,包括数据描述、展示描述以及交互描述三个部分:
1)数据描述部分包含一个流网对象所拥有的文件、这些文件在互联网上的地址以及本流网对象和其他流网对象的关系;
2)展示描述部分对不同数据在一个视图中的展示方式进行了定义;
3)交互描述部分向用户提供了可能的交互方式来辅助浏览过程,用户可以通过这些交互方式与系统或者其他用户进行相互交换数据。
流网对象的具体实现步骤如下:
1)保证数据描述和数据本身的分离,使它们之间相互独立、没有依赖关系;
2)完整地对数据进行描述,以有利于流网对象的分类、查询和维护;
3)容纳可能的各种数据;流网对象描述包含的数据没有大小限制;但对于一些高质量流媒体数据,由于带宽的限制,一般要做质量上的衰减处理,以达到在相对低的带宽上可接受的质量;
4)赋予流网对象中以交互描述;
5)对流网对象进行展示描述,使流网对象的展示更加丰富。
8.如权利要求1所述的一种流式互联网,其特征在于,所述建立基于流网对象的传输协议,是指合理寻找、组织和分配计算资源,使得流数据能够在高动态大规模环境中稳定传输,具体包括:
1)适应流所拥有计算节点数量的动态变化;在大规模非中心互联网中,可以根据社会网络系统的特征找到计算节点;
2)通过在社会网络中寻找新节点以及布置贡献型计算节点支持弱流;
3)了解流网对象之间可能存在的关系;在发布和访问过程中,使流以流网对象间的顺序在计算节点上展示;在搜索过程中,根据搜索排序标准等相关信息重新制定新的静态和动态顺序;
4)采用轻量级数据优先以及分时调度策略保证流的合理传输;在拥有足够计算资源支持流的形成后,在具体传输流时,使用恰当调度策略以提高流的传输效率以及计算资源利用率。
9.如权利要求9所述的恰当调度策略,其特征在于具体实现步骤如下:
1)首先传输流的描述文件;
2)其次传输文本数据;在描述文件传输结束和流中文本数据开始传输后,系统就可以根据描述文件在展示层为正在传输的流产生一个大致视图;
3)随后,系统开始处理非文本数据或者叫作重量级数据,这时的传输策略重点在于按照流网对象间固有关系,把每个流网对象剩余的重量级数据传输到位;
4)最后,在调度策略中考虑分时操作,即在单位时间段内为流中每个流网对象都提供传输时段。
CN200910008694A 2009-02-12 2009-02-12 一种以流式方式运行的互联网建立方法 Pending CN101808104A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910008694A CN101808104A (zh) 2009-02-12 2009-02-12 一种以流式方式运行的互联网建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910008694A CN101808104A (zh) 2009-02-12 2009-02-12 一种以流式方式运行的互联网建立方法

Publications (1)

Publication Number Publication Date
CN101808104A true CN101808104A (zh) 2010-08-18

Family

ID=42609724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910008694A Pending CN101808104A (zh) 2009-02-12 2009-02-12 一种以流式方式运行的互联网建立方法

Country Status (1)

Country Link
CN (1) CN101808104A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968424A (zh) * 2011-06-22 2013-03-13 刘镇崇 互动式云端广播供播方法
CN103971160A (zh) * 2014-05-05 2014-08-06 北京航空航天大学 基于复杂网络的粒子群优化方法
CN104112026A (zh) * 2014-08-01 2014-10-22 中国联合网络通信集团有限公司 一种短信文本分类方法及系统
CN104683488A (zh) * 2015-03-31 2015-06-03 百度在线网络技术(北京)有限公司 流式计算系统及其调度方法和装置
CN109309622A (zh) * 2018-10-24 2019-02-05 常熟理工学院 一种动态的数据发布和网络通信实现方法
CN110245135A (zh) * 2019-05-05 2019-09-17 华中科技大学 一种基于numa架构的大规模流式图数据更新方法
CN115277695A (zh) * 2022-07-13 2022-11-01 浪潮云信息技术股份公司 一种实现跨区域生产和消费事件的方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968424A (zh) * 2011-06-22 2013-03-13 刘镇崇 互动式云端广播供播方法
CN102968424B (zh) * 2011-06-22 2017-04-26 刘镇崇 互动式云端广播供播方法
CN103971160A (zh) * 2014-05-05 2014-08-06 北京航空航天大学 基于复杂网络的粒子群优化方法
CN103971160B (zh) * 2014-05-05 2017-02-15 北京航空航天大学 基于复杂网络的粒子群优化方法
CN104112026B (zh) * 2014-08-01 2017-09-08 中国联合网络通信集团有限公司 一种短信文本分类方法及系统
CN104112026A (zh) * 2014-08-01 2014-10-22 中国联合网络通信集团有限公司 一种短信文本分类方法及系统
CN104683488A (zh) * 2015-03-31 2015-06-03 百度在线网络技术(北京)有限公司 流式计算系统及其调度方法和装置
CN104683488B (zh) * 2015-03-31 2018-03-30 百度在线网络技术(北京)有限公司 流式计算系统及其调度方法和装置
CN109309622A (zh) * 2018-10-24 2019-02-05 常熟理工学院 一种动态的数据发布和网络通信实现方法
CN109309622B (zh) * 2018-10-24 2020-11-27 常熟理工学院 一种动态的数据发布和网络通信实现方法
CN110245135A (zh) * 2019-05-05 2019-09-17 华中科技大学 一种基于numa架构的大规模流式图数据更新方法
CN110245135B (zh) * 2019-05-05 2021-05-18 华中科技大学 一种基于numa架构的大规模流式图数据更新方法
CN115277695A (zh) * 2022-07-13 2022-11-01 浪潮云信息技术股份公司 一种实现跨区域生产和消费事件的方法

Similar Documents

Publication Publication Date Title
CN101808104A (zh) 一种以流式方式运行的互联网建立方法
Wang et al. Modeling of large-scale social network services based on mechanisms of information diffusion: Sina Weibo as a case study
CN102571839A (zh) 基于用户社会属性的p2p内容分发方法及系统
US20100050181A1 (en) Method and System of Group-to-Group Computing
Terranova Securing the social: Foucault and social networks
CN103260050A (zh) 基于Google App Engine云平台的视频点播系统
CN108124168A (zh) 一种无线移动网络下基于用户兴趣感知的视频共享方法
Cañas et al. Graps: A graph publish/subscribe middleware
Zhu et al. Ripple: A publish/subscribe service for multidata item updates propagation in the cloud
Wang et al. Interest‐driven avatar neighbor‐organizing for P2P transmission in distributed virtual worlds
CN101645911B (zh) 一种基于动态集群的新闻服务方法
Shen et al. SOS: A distributed mobile Q&A systembased on social networks
Badis et al. P2pcf: a collaborative filtering based recommender system for peer to peer social networks
CN101645872B (zh) 一种互联网大规模应用环境的商用服务系统及其工作方法
Kim How did the information flow in the# alphago hashtag network? a social network analysis of the large-scale information network on twitter
Li et al. On the source switching problem of Peer-to-Peer streaming
De Meo et al. Improving the compactness in social network thematic groups by exploiting a multi-dimensional user-to-group matching algorithm
Böttcher Twitter, News Aggegators & Co: journalistic gatekeeping in the age of digital media culture
Setty Publish/subscribe for large-scale social interaction: Design, analysis and resource provisioning
CN101800655A (zh) 一种为大规模互联网应用贡献资源的对等服务系统建立方法
Xu et al. A Cooperative Dynamic Cluster in Multitasking Mobile Networks
Yu Design of P2P English Teaching Platform Based on Network Technology and Streaming Media
CN101930441A (zh) 一种建立互联网全息搜索服务的方法
Hamdy et al. Service-orientation in mobile computing-an overview
CN101800670A (zh) 一种主动寻找客户端以实现规模扩张的网站建立方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB02 Change of applicant information

Address after: Seoul Weiyang District 710021 Township marsh in Shaanxi province Xi'an city Changle Xiyuan road room 10A-904 Li Bing

Applicant after: Li Bing

Address before: 102600 Beijing City, Daxing District Daxing Industrial Development Zone Jinyuan Road No. 24, room D151

Applicant before: Li Bing

DD01 Delivery of document by public notice

Addressee: Li Bing

Document name: Notification that Application Deemed to be Withdrawn

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20100818