CN103838847A - 一种面向海云协同网络计算环境的数据组织方法 - Google Patents

一种面向海云协同网络计算环境的数据组织方法 Download PDF

Info

Publication number
CN103838847A
CN103838847A CN201410081199.5A CN201410081199A CN103838847A CN 103838847 A CN103838847 A CN 103838847A CN 201410081199 A CN201410081199 A CN 201410081199A CN 103838847 A CN103838847 A CN 103838847A
Authority
CN
China
Prior art keywords
data
layer
data layer
volume
algebra
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410081199.5A
Other languages
English (en)
Other versions
CN103838847B (zh
Inventor
刘奎恩
武延军
李明树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN201410081199.5A priority Critical patent/CN103838847B/zh
Publication of CN103838847A publication Critical patent/CN103838847A/zh
Application granted granted Critical
Publication of CN103838847B publication Critical patent/CN103838847B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种适应海云协同网络计算环境的数据组织方法,称为DataCap(数据胶囊)。其基层构件是数据体与数据代数,前者是提供数据内容的容器及元数据描述信息,后者是数据体的操作子的集合。一个数据体以及其配套的一个(或多个)数据代数共同构成一个数据层,对应于具体软件业务流程中的一个环节。根据业务流程的上下游依赖关系,数据层之间组成数据层链,对应数据在业务流程中不断被加工、融合以及转换的过程。这些核心构件通过数据单元统一标识和数据组织描述语言两个辅助模块来约定与描述。本发明能够实现信息系统中计算资源的灵活配置,适应海云协同网络下弹性计算架构以及全局资源优化目标。

Description

一种面向海云协同网络计算环境的数据组织方法
技术领域
本发明涉及物联网、云计算及大数据管理等领域,面向“感知中国”的新一代信息技术研究战略性先导规划中“人-机-物”三元融合型信息社会建设需求,提出了一种适应海云协同网络计算环境的数据组织方法—DataCap(数据胶囊)。
背景技术
随着Internet向物理世界延伸,以物联网为代表的信息化技术加快了世界信息化进程,将人类社会信息网络向物理世界迅速扩展。数亿或者数十亿个传感设备在不断的感知动态变化的物理世界,并彼此连接和整合,通过各类移动通讯设备、计算机与Internet共同构成人类未来信息网络,将涵盖传统人类社会网络和物理世界的绝大部分信息,最终形成人-机-物三元融合型信息世界。这次信息技术产业发展的新浪潮受到国家和各部委普遍重视,而高效地获取并利用物理信息数据,将是我国希望通过建设“感知中国”成为未来社会深度信息化信息强国的重要基础。
海云协同网络计算模式作为面向“感知中国”的新一代信息技术研究战略性先导规划中的核心技术特征被提出并深入研究。该模式综合了云计算、物联网、大数据的特点,概括了泛在感知设备、移动智能终端、未来网络、海量弹性化云端存储与处理的融合特征,是一种人机物融合、海云一体化、以数据服务为目标的新型计算模式。
在人机物融合的时代,海云协同网络计算模式旨在实现人类社会资源的优化配比和和谐发展,但同时也会产生并积累巨大的数据量。据预测,三元融合带来的信息量将远远超过现有的人类社会信息,达到数十倍以上。伴随着数据规模的爆炸式增长,数据的获取方式、表现形态、相互关系、存取速度和语义演化都发生了一系列根本变化,给目前的海量信息处理技术带来了前所未有的挑战。
依赖于传统数据组织技术难以满足海云协同网络环境下大数据处理需求。比如起源于70年代的关系数据库(DBMS),采用集中式设计,不利于分布式协同计算环境。最近几年内随着云计算和大数据技术提出的键-值模型以及列存储系统一定程度上缓解了海量数据并行处理问题,但其在海云协同网络数据管理上还存在诸多的局限性,具体体现在:
1)现有云计算与大数据技术中的数据组织架构不适用于海云协同网络环境。具体体现在,现有云计算和大数据技术遵循“大数据中心”(big centralized datacenter)+XaaS,属于数据集中型(data intensive)架构,难以直接匹配海云协同网络计算环境中海端以及海云协同特性,无法利用海端的局部计算能力与网络的任务协同分发能力,造成信息社会基础设施资源的不必要浪费。
2)现有云计算与大数据技术中的数据组织方式不适用于海云协同网络环境。主要体现在三个方面:a)所处理的数据局限于非结构化的文本数据(raw string data)形式,数据表征方式太过简单,但是由终端和用户产生的数据格式越来越丰富,如社交、数码、通讯、行程、娱乐等;b)支持的数据操作很少,以关键词查询为主,缺乏对丰富的数据语义与关联关系的表征与检索能力,比如难以支持普遍存在的Join类操作;c)性能上很难优化,处理过程的时间复杂度很少有低于O(n)的,且随着数据规模增长“云”的维护成本在增高,比如分布式缓存(cache)命中率将极低。
在海云协同网络计算环境中,数据组织任务具有一些新的特性,具体体现为:
1.数据自然地生成及存储在海云两端。不仅云端需要集中管理数据,海云两端都可以有数据,且可以是通过网络进行快速分发与交换的。计算任务的第一件工作就是向计算单元复制数据,计算完毕生成的新的数据再写回;现有云计算与大数据(如Hadoop)数据组织模式主要适用于分布式批处理集中分析场景,但难以适用于分布式的低延迟海云协同计算场景中数据组织需求。
2.数据的组织形态正逐渐呈现多样化与个性化趋势。随着硬件处理能力与计算技术发展,正逐渐形成以数据为核心的应用发展态势。在这些应用的特征之一是屏蔽数据的原生型态(如文件系统),比如手机操作系统中主要管理照片、音乐、通讯录、邮件等,对用户屏蔽了文件系统;Web操作系统和远程工作环境上的应用也是根据数据应用定制的,如在线文档(online doc),邮件引擎(Email engine)。总的来说,数据正在逐渐组织为个性化定制的“使用形态”而非单一的“生成形态”。
3.数据组织要适应数据的规模化与逐渐体现出的智能性。随着信息化进展,智能正面临中从计算智能到数据智能转变的过程。比如原来导航用A*算法找最短或最快路线,现在导航还可以参考大家多是怎么走(热门道路),“算法计算”变成了“数据检索”。但是,规模化数据的使用不是单层的、单调的,从语义上可以公认地分成数据、信息、知识、智能等四层,从使用上包括结构(文件、DB、KV)、操作(增删改查等)、约束条件(有效期、完整校验、访问控制等)等。数据组织需要兼顾不同的数据规模、智能语义和使用方式,以便于数据智能的表征与计算。
4.数据的分发与使用需要适应网络与计算环境。在海云协同网络中数据的分发与使用具有以下特性:a)数据在海端及云端节点之间是无缝互联的,数据在分发与使用过程中可以做到底层系统无关、网络协议无关以及计算环境无关;b)海云协同网络中的数据是分级自治的,从而可以充分利用局部计算资源,以实现全局最优资源利用;c)实现海云“数据互联”还需要考虑数据的自修复与自复制传播等特性,以保障数据的高可用性与高扩展性。
针对现有云计算与大数据技术中组织方法的不足与挑战,本发明提出一种面向海云协同网络计算模式的数据组织方法(简称DataCap,数据胶囊),并结合应用案例进行详细阐述。与本发明相似的工作有:1)微软研究院(MSR)的“云+端”战略规划与海云协同网络的部分概念稍像,但是微软主要侧重于集成与包装现有产品与技术进行商业化运作,数据组织仍依赖基于SQL Server及SkyDrive等存储产品的混合方案;2)布鲁金斯研究所(Brookings)于2005年发布的“Data DNA”报告,他们仅侧重于为统计数据制定标准化的元数据描述规范,不考虑数据的处理与分发过程以及计算模式;3)加州大学伯克利分校(UCB)的AMPLab研发的Tachyon系统,其中通过弹性分布式数据集(RDD)及其之间的关联(Lineage)来表征数据的加工过程以及相关修复方法,主要适用于Hadoop、Spark等云计算平台,没有考虑含瘦终端(海端)的协同计算场景。
发明内容
针对目前社会信息化进展背景下产生的海云协同网络计算模式中数据管理需求,本发明提出了一种灵活的数据组织方式—DataCap,其基本思想是:“数据自理、计算互联”,将“数据”与“计算”分层关联组织,以数据为中心组织相关的计算任务,保留与具体业务对应的计算逻辑顺序,可以适应海云协同网络下弹性计算架构以及全局资源优化目标。
之所以为本发明取名为“数据胶囊”,正是出于对其描述的完整性、封装的独立性和紧凑性等特性来命名的,也是对其在未来数据科学与计算技术可能做出的贡献寄予希望,在未来的操作系统中人们使用机器的模式从“下载程序、打开软件”,变成“下载胶囊、展开数据、释放计算”的新型模式。
为实现上述目的,本发明采用的技术方案如下:
一种面向海云协同网络计算环境的数据组织方法,其步骤包括:
1)将海云协同网络计算环境中的数据组织为数据胶囊(DataCap),所述数据胶囊包括数据相关构件以及辅助构件,所述数据相关构件包括数据体、数据代数、数据层和数据层链,所述辅助构件包括数据统一标识服务和数据组织描述语言;
2)利用所述数据胶囊,将数据与计算分层关联组织,以数据为中心组织相关的计算任务,保留与具体业务对应的计算逻辑顺序,以适应海云协同网络下弹性计算架构以及全局资源优化目标。
进一步地,所述数据胶囊还包括辅助机制,所述辅助机制包括:数据胶囊的创建与迁移机制、数据层链的修复机制。更进一步地,所述辅助机制还可包括保障数据胶囊有效部署与优化的机制,主要是:支持异构环境的数据代数运行环境,及可视化的部署与监控工具。
进一步地,所述数据体是一个数据对象,包括数据内容自身以及数据内容相关的描述信息,提供数据内容的容器及元数据描述信息;所述描述信息包括:整体描述信息、使用约束信息、安全可信信息以及其他扩展信息。
进一步地,所述数据代数是数据体的操作子的集合,给出如何使用该数据的标准接口与计算逻辑,实现为标准的代码、应用接口或动态链接库;所述操作子包含:数据维护操作、数据检索操作、数据转换操作及其他扩展操作。
进一步地,所述数据层由一个数据体以及其配套的一个或多个数据代数共同构成,其中:
a)每个数据层都对应一个相对独立的数据计算任务,或者说对应具体软件业务流程中的一个环节;
b)每个数据层具有独立运行的能力,根据其所兼容的软件环境来执行数据代数中的操作子及业务逻辑;
c)数据层链DLC之间的依赖关系来自于具体业务需求,并且能够借鉴软件工程中类图方法,为其开发相应的可视化工具以及可视化的管理工具,进行快速的测试与部署。
进一步地,根据业务流程的上下游依赖关系,数据层之间组成所述数据层链,对应数据在业务流程中不断被加工、融合以及转换的过程;每个数据层需要声明其依赖的一个或多个下层的数据层,共同构成数据层链。
进一步地,所述数据胶囊的创建与迁移机制不仅仅是创建或迁移数据内容的模板和容器,而是既要创建或迁移完整的数据体容器,又要约定相应的数据代数。
进一步地,当数据层链中某一个数据体损坏或者丢失时,通过数据层链进行修复;当某个数据层的数据需要修复时,通过重算所依赖的数据层重新获得;如果所依赖的数据层中的数据体不完整或者不存在,通过迭代的方法重算该层所依赖的数据层实现数据层链的自我修复;其中,
1)每个数据体上带有生成与更新时候标记的时间戳,根据时间戳信息可以判断所依赖的数据层中数据体是否需要更新,从而实现数据版本的一致性;
2)数据体允许为空,采用延迟计算的形式按需生成,即当用到某层数据体时,检测到数据体为空,根据数据层链进行实时生成。
本发明的面向海云协同网络计算环境的数据组织方法,克服了现有云计算技术(如Hadoop、Spark)中数据与计算的深度耦合的不足,将业务逻辑中的数据独立出来组织,以数据为中心组织计算任务,整个业务流程转化为以数据关联的计算链条,链条的每个环节可以根据异构的执行环境(如云中心、家庭网关、个人电脑以及移动终端等)选择合适的计算技术,能够实现信息系统中计算资源的灵活配置,适应海云协同网络下弹性计算架构以及全局资源优化目标。
附图说明
图1是DataCap体系结构示意图。
图2是DataCap数据层链(DLC)构造示意图。
图3是DataCap数据修复过程示意图。
图4是DataCap应用示例的“智慧城市”中异常事件监测示意图。
具体实施方式
下面首先介绍本发明的DataCap的框架,然后介绍其复制、修复与运行等辅助机制,最后通过一个例子展示DataCap如何使用。
1.DataCap(数据胶囊)概述
图1给出了DataCap的体系结构及主要构件。DataCap包括数据分层(或称数据层,DataLayer,如图1中间部分的斜四边形方框所示)与两个辅助模块。其中,数据分层又包括数据体(Data Cell)与数据代数(Data Algebra);前者是数据集合及其描述信息,后者是对如何管理、使用数据体的操作实现,如API代码。
辅助模块包括数据单元统一标识(Unique Data ID Service,简称UDID)和数据组织描述语言(Data Organization Description Language,简称DDDL)。其中,UDID实现了对数据体的惟一性标识,以便于数据进行管理与传播。在具体生成UDID时,可以参照数据使用范围(如公共社区、企业内部或个人用户)与数据产生时间进行标识的生成,此外还可以增加CA安全认证中心为每个UDID生成数字证书,以辨别其真实性。DDDL是对DataCap中数据体表征、数据代数使用以及数据层之间关联关系等的规范性描述语言,以便于在数据在海云协同网络环境中被广泛的理解与处理。
下面重点介绍数据体、数据代数和数据层的具体内容以及相关的协议约定。
1.1.数据体定义及其实现形式
数据体(Data Cell)是一个数据对象,除了数据内容(Data Content)自身,还包括数据内容相关的描述信息(或称元数据,Meta-data或Data about Data)。
数据体的描述信息包括以下四类:
a)整体描述信息,包含数据唯一标识(Data Cell ID,简称DCID)、数据来源、数据获取方式、数据载体信息、数据内容描述、数据发布时间、数据发布版本、有关联系方式等;
b)使用约束信息,包含数据格式(Data Scheme)、数据操作方法(如数据索引)、数据元素枚举(如字典、枚举值范围)、数据的样本分布情况、数据的分发权限、数据的质量与精度、数据的有效期限、数据相关使用手册等;
c)安全可信信息,包含数据的加密方式、数据完整性验证信息(如MD5)、数据真实性验证信息(如数字签名)、数据的样本信息、数据的置信度度量方法等。
d)其他扩展信息,用于记录上述情况未涉及的但实践中需要扩展声明的信息。
这些信息保障了数据是可读的、可用的和可信的。比如,基于安全可信信息,数据体就具有了防伪验证能力,可以检测数据元信息的完整性、数据DCID的真实性和数据是否被污染(如格式破坏或内容篡改)等。
1.2.数据代数及其实现形式
数据代数(Data Algebra)是对数据体尤其是数据内容的操作子(Data Operator)的集合,给出了如何使用该数据的标准接口与主要计算逻辑,可以实现为标准的代码、应用接口或动态链接库。
数据代数所包含的操作子(Data Operator)可大致分为四类:
a)数据维护操作,包含可以对当前数据内容(Data Content)执行的维护与调整操作,比如更新、插入、删除、备份等基本的输入输出(I/O)操作,以及对数据体的描述信息(Meta-data)的初始化、更新与维护等操作;
b)数据检索操作,包括对数据内容的查询与使用操作,比如局部数据截取、高纬度向低维的投影、数据分布的统计操作、误差允许内的小规模采样等操作;
c)数据转换操作,包含向目标数据的转换操作,比如数据匹配性验证操作、格式转换操作、编码转换操作、数据抽取操作、数据加工操作等。
d)其他扩展操作,用于记录上述内容未涉及的但实践中需要扩展实现的操作。
数据代数的语义通过DDDL进行描述,其数据形态可以表征为:
DataCell×DataAlgebra→DataCell
其工程形态可以表征为:
Input:Data Cell                  /*待处理的数据体*/
Output:Data Cell                 /*生成的数据体*/
Procedure:Data Algebra           /*数据的处理逻辑*/
这里需要补充说明的是:
1.数据代数的设计需要考虑其一定的完备性和平台无关性。之所以需要完备性,是因为数据体的设计不一定是通用的,在复杂的计算环境中需要尽量保障数据体可以被解读与处理,而且要一定程度上提供相对完善的操作集合,有利于延长数据体的生命周期。强调平台无关性的原因也源自海运网络协同计算环境的复杂性,需要对多样性的软硬件平台提供数据代数支撑。
2.数据代数每次执行完毕,不仅需要生成输出数据体的描述信息(见前面工程形态中的Output项),还需要对应更新输入数据体(见前面工程形态中的Input项)的描述信息,以保证数据一致性性。
3.数据代数可以根据不用的计算环境进行代码编写,比如桌面系统(如Windows)上可以用C++语言编写、在手机系统(如Android)可以用Java语言编写、在云计算系统(如Spark)可以用Scala语言编写;数据代数也可以根据不同的计算环境编写多套相似功能,以便适应具体执行的系统,或者用于数据在不同系统之间进行数据迁移后随时恢复计算能力。
1.3.数据分层定义及其实现形式
我们将一个数据体以及其配套的一个(或多个)数据代数集合称之为一个数据分层(DataLayer)。举例说明:用户浏览网页的日志数据,可以保存文件中,通过文件打开(FileOpen)、网页计数(WebCount)、关键词计数(WordCount)、页面排序(PageRank)等操作集合,实现对热门网页的发现以及推荐功能的支撑;我们将这些操作与数据合称为一个数据层,每个数据层都对应一个相对独立的数据计算任务。
一个具体的业务流程,所涉及的工作流程(Work-flow)可以组织成数据分层的序列及其间的关联关系。这是因为根据使用目的的差异,数据具备不同的语义,需要不断的被加工、融合以及转换。我们将数据层以及其间关联关系称作数据层链(Data Layer Chain,简称DLC),根据DDDL规范进行描述。数据层链的简化表征形式是:
DLC:{DataLayer←{DataLayer,…}}
即,每个数据层需要声明其依赖的一个(或多个)下层的数据层,共同构成数据层链。之所以要声明一个数据层所依赖的下层数据层,在于我们可以籍此实现数据的溯源与可信回复,提高数据可用性;同时,不约束上层的数据层,以最大支持系统开发性和灵活性。
图2给出了一个数据层链DLC的构造示例,每个数据层包含一个数据体以及配套的数据代数(由一组标准数据操作构成),并声明其所依赖的数据层。这里面需要注意:
1.数据层链DLC的最大优势是可以非常弹性的适应不同的计算环境与业务流程,快速组装以适应新的应用场景,并且根据海云网络协同计算环境的计算资源的分布进行自适应调整。例如,可以为同一个数据体提供两套数据代数,分别支持云计算中Map/Reduce并行批处理操作和传统集群上MPI操作,以适应不同的计算集群。
2.数据层链DLC之间的依赖关系来自于具体业务需求,系统研发人员可以根据业务需求和基础架构进行灵活配置;既便是针对同样的数据源,不同的数据层链所获得的结果可以是完全不同的。例如,同一组数据,采用不同的清洗、装配、过滤等预处理操作、分析算法及可视化方法,所获得的结果更容易符合用户个性化需求。
3.数据层链DLC这种组织方式的另外一个便利是可以为其开发相应的可视化工具以及可视化的管理工具,进行快速的测试与部署。这得益于其组织结构有些类似于类图(class)的形式,与主流表征程序开发流程的方法非常接近,所以一些现有的可视化技术可以快速应用于数据层链的表征与管理。
2.DataCap辅助机制
2.1.数据的创建与迁移机制
在DataCap中,数据的创建(迁移)不仅仅是创建(迁移)数据内容(Data Content)的容器,而是既要创建(迁移)完整的数据体(Data Cell)容器又要约定相应的数据代数(Data Algebra)。这是DataCap区域于传统数据组织方法的地方之一。在传统方法中,数据的创建(迁移)形式可以体现为:新建(拷贝)一个数据文件(File)到新的文件系统(File System)或者文件目录,或者创建(导入\导出)一份数据库关系表(Table)到数据库(Database)中。而DataCap中,我们还要记录该文件(表格)的元数据信息,比如所属者(Owner)信息、完整性验证信息、访问权利描述信息、有效期限等,以及操作该文件(表格)的功能接口,如打开(Open)、插入(Insert)、关键词计数(WordCount)、频繁子串模式(FrequentSubstring)等。
将数据代数与数据体一起创建与迁移,其合理性在于:
1.这符合信息技术发展的趋势之一,即:计算向数据靠近的趋势。随着信息化社会进展,人们可以获取的数据规模的增长、智能终端与网络技术的发展,之前的数据从分布式终端汇聚到云端再统一进行计算的模式已经发生了变化,开始转为在数据的生成端和存储端进行数据的计算与处理运算。这么做的好处是:降低数据迁移的开销,加强实时处理能力。
2.这符合海云协同计算环境的自然特性,即:数据既可以在海端处理,也可以在云端处理,还可以根据需要迁移到合适的位置进行计算,在不同的计算环境下调用所匹配的数据代数。这么做的好处是:充分利用局部计算能力,缩小业务半径以避免放大和扩散带来的安全隐患。
2.2.数据的修复机制
在分布式环境中,数据损坏或丢失是常见问题,多发生在存储磁盘故障、内存掉电或网络拥塞引发的数据丢失等情景,即便是采用多副本(replication)或者纠删码(erasure code)等冗余技术进行高可用存储,也不能完全避免。当某一个数据体损坏或者丢失的时候,我们可以通过数据层链(DLC)进行修复。当某个数据层的数据需要修复的时候,可以通过重算所依赖的数据层重新获得;如果所依赖的数据层中的数据体不完整或者不存在,可以通过迭代的方法重算该层所依赖的数据层实现数据层链的自我修复。
图3给出了数据修复的过程,当数据层DL2和数据层DL3的数据损坏或丢失时(如图3(a)所示),DL2的数据内容可以通过所依赖的DL1进行重算恢复,然后DL3的数据内容可以通过DL2进行重算恢复,最终保证整个数据层链上数据的正确性。
这里有两个问题值得注意:
1.每个数据体上带有生成与更新时候标记的时间戳。根据时间戳信息可以判断所依赖的数据层中数据体是否需要更新,从而实现数据版本的一致性。对于可靠性要求较高的应用,可以为每个数据体生成多个历史版本,以便于支持更加丰富的业务数据回放。其中,关于时间戳的生成,可以通过与UDID标识服务器申请配套的子版本号,通过验证子版本号来保证数据集合版本的一致性。
2.数据体允许为空,可以采用“延迟计算”的形式按需生成。即,当用到某层数据体时候,检测到数据体为空,可以根据数据层链进行实时生成。该做法的好处是可以有效降低中间结果的存储成本与网络交换成本,提高计算资源(如内存)的利用率。
此外,如果在初始化时或重新部署整个数据层链时,也可以充分延迟计算策略。即,不用完全复制所有的中间数据,而只是保存最初的数据源;当需要用到某一层的数据时,通过修复机制重算得到所需数据。这种延迟技术对于初始化系统或快速部署时尤为高效。
2.3.其他辅助机制
为了保障DataCap可以有效部署与优化,还需要设计一些辅助机制。其中最重要的有两个:
1.支持异构环境的数据代数运行环境。在海云网络协同计算环境中,需要面临海端设备与云端设备的异构问题,比如具有不同的内存、处理能力以及软件生态。如果计算任务的分配与调度不能适应设备各自的处理能力,或者没有针对软件生态群(如Android、Linux及其他专用的操作系统生态群)开发提供相应的数据代数设计与运行环境,将大大削弱海云协同计算环境的适应能力。
2.可视化的部署与监控工具。在数据层链的部署过程中,还需要对其运行情况实施监控,以保证发生异常或错误时候能够及时预警与修复。最好是以可视化与可交互的方式来设计相关工具,并通过Web等途径进行远程监管。
3.最后:给出一个本发明所提出的DataCap示例
下面通过当下国家科技战略重点发展的“智慧城市”应用中异常事件检测作为例子来演示DataCap是如何使用的。该场景为:通过部署在城市街头巷尾的视频摄像头数据来实现异常事件的实时检测,比如交通安全、非法集会和其他有违社会和谐的异常事件。
以非法飙车为例,图4给出了该情景中各数据层中数据体与数据代数的构成。其中左边的灰色框为数据体,右边的圆角矩形为数据代数;数据体与数据代数一一对应,组成一个数据层;各数据层语义如下:
1.在数据层DL1中,数据内容为摄像头记录的多媒体视频的采样数据,通过靠近摄像头附近的计算单元进行数据活化,即从视频中获得车牌号、行驶速度及方向等信息,并以摄像头的位置和记录时间组织为时空序列数据。
2.在数据层DL2中,数据内容为数值型导出数据(即,在多媒体数据上经过数据活化获得的数值型数据,如车牌号、行驶速度与方向),可以通过关键数据筛选操作进行数据的清理,只记录符合超速行驶、逆向行驶等违章行为的数据。
3.在数据层DL3中,数据内容为异常个体数据,如"2012/12/1110:25,京PR001,北四环中段,速度100km/h,超速",通过个体状态统计,可以得到该车连续超速的路段与时间。
4.在数据层DL4中,数据内容为异常群体数据,如"2012/12/1110:00~10:30,北四环中段,连续有10辆车超速行驶",通过异常事件检测来分析全城市交通异常信息。
5.在数据层DL5中,数据内容为时空线索数据,通过分析异常群体数据中非法飙车的发生区域与时间段等线索,可以调出所有那个时间段飙车车队经过的所有路口的摄像头记录,从而统计该次飙车事件对城市交通带来的破坏及安全事故,提高事故统计、响应与救援的全面性、及时性与针对性。
以上通过实例及图文对本发明进行了详细的描述,仅用以说明本发明的技术方案而非对其进行限制,本领域的技术人员应当理解,在不超出本发明的精神和实质的范围内,对本发明做出一定的修改和变动,比如对海端与云端的软件环境(如操作系统和软件栈)及网络通讯方式(如WLAN和3G)进行统一选型,或结合特定场景对元数据的属性列表及表征方式进行局部修改,仍然可以实现本发明的目的。

Claims (10)

1.一种面向海云协同网络计算环境的数据组织方法,其步骤包括:
1)将海云协同网络计算环境中的数据组织为数据胶囊,所述数据胶囊包括数据相关构件以及辅助构件,所述数据相关构件包括数据体、数据代数、数据层和数据层链,所述辅助构件包括数据统一标识服务和数据组织描述语言;
2)利用所述数据胶囊,将数据与计算分层关联组织,以数据为中心组织相关的计算任务,保留与具体业务对应的计算逻辑顺序,以适应海云协同网络下弹性计算架构以及全局资源优化目标。
2.如权利要求1所述的方法,其特征在于:所述数据胶囊还包括辅助机制,所述辅助机制包括数据胶囊的创建与迁移机制和数据层链的修复机制。
3.如权利要求2所述的方法,其特征在于:所述辅助机制还包括保障数据胶囊有效部署与优化的机制,具体包括:支持异构环境的数据代数运行环境,及可视化的部署与监控工具。
4.如权利要求1所述的方法,其特征在于:所述数据体是一个数据对象,包括数据内容自身以及数据内容相关的描述信息,提供数据内容的容器及元数据描述信息;所述描述信息包括:整体描述信息、使用约束信息、安全可信信息以及其他扩展信息。
5.如权利要求1所述的方法,其特征在于:所述数据代数是数据体的操作子的集合,给出如何使用该数据的标准接口与计算逻辑,实现为标准的代码、应用接口或动态链接库;所述操作子包含:数据维护操作、数据检索操作、数据转换操作及其他扩展操作。
6.如权利要求1所述的方法,其特征在于,所述数据层由一个数据体以及其配套的一个或多个数据代数共同构成,其中:
a)每个数据层都对应一个相对独立的数据计算任务,或者说对应具体软件业务流程中的一个环节;
b)每个数据层具有独立运行的能力,根据其所兼容的软件环境来执行数据代数中的操作子及业务逻辑;
c)数据层链DLC之间的依赖关系来自于具体业务需求,并且能够借鉴软件工程中类图方法,为其开发相应的可视化工具以及可视化的管理工具,进行快速的测试与部署。
7.如权利要求1所述的方法,其特征在于:根据业务流程的上下游依赖关系,数据层之间组成所述数据层链,对应数据在业务流程中不断被加工、融合以及转换的过程;每个数据层需要声明其依赖的一个或多个下层的数据层,共同构成数据层链。
8.如权利要求2所述的方法,其特征在于:通过数据单元统一标识和数据组织描述语言两个辅助模块来约定与描述数据体。
9.如权利要求2所述的方法,其特征在于:所述数据胶囊的创建与迁移机制不仅仅是创建或迁移数据内容的模板和容器,而是既创建或迁移完整的数据体容器,又约定相应的数据代数。
10.如权利要求1或9所述的方法,其特征在于:当数据层链中某一个数据体损坏或者丢失时,通过数据层链进行修复;当某个数据层的数据需要修复时,通过重算所依赖的数据层重新获得;如果所依赖的数据层中的数据体不完整或者不存在,通过迭代的方法重算该层所依赖的数据层实现数据层链的自我修复;其中,
1)每个数据体上带有生成与更新时候标记的时间戳,根据时间戳信息可以判断所依赖的数据层中数据体是否需要更新,从而实现数据版本的一致性;
2)数据体允许为空,采用延迟计算的形式按需生成,即当用到某层数据体时,检测到数据体为空,根据数据层链进行实时生成。
CN201410081199.5A 2014-03-06 2014-03-06 一种面向海云协同网络计算环境的数据组织方法 Expired - Fee Related CN103838847B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410081199.5A CN103838847B (zh) 2014-03-06 2014-03-06 一种面向海云协同网络计算环境的数据组织方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410081199.5A CN103838847B (zh) 2014-03-06 2014-03-06 一种面向海云协同网络计算环境的数据组织方法

Publications (2)

Publication Number Publication Date
CN103838847A true CN103838847A (zh) 2014-06-04
CN103838847B CN103838847B (zh) 2017-01-25

Family

ID=50802344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410081199.5A Expired - Fee Related CN103838847B (zh) 2014-03-06 2014-03-06 一种面向海云协同网络计算环境的数据组织方法

Country Status (1)

Country Link
CN (1) CN103838847B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740411A (zh) * 2016-01-30 2016-07-06 武汉大学 一种基于SOA和WebService的数据迁移方法
CN105808354A (zh) * 2016-03-10 2016-07-27 西北大学 利用WLAN网络组建临时Hadoop环境的方法
CN105893542A (zh) * 2016-03-31 2016-08-24 华中科技大学 一种云存储系统中的冷数据文件重分布方法及系统
CN107256158A (zh) * 2017-06-07 2017-10-17 广州供电局有限公司 电力系统负荷削减量的检测方法和系统
CN107451246A (zh) * 2017-07-28 2017-12-08 深圳航天智慧城市系统技术研究院有限公司 一种适用于大型城市的信息资源一体化处理系统
CN107741925A (zh) * 2017-11-07 2018-02-27 济南市市政工程设计研究院(集团)有限责任公司 地下管线勘测数据自动转换方法、装置
CN109309622A (zh) * 2018-10-24 2019-02-05 常熟理工学院 一种动态的数据发布和网络通信实现方法
CN109379435A (zh) * 2018-11-14 2019-02-22 胡青 一种船端业务服务互联互通平台系统
CN110032553A (zh) * 2019-04-08 2019-07-19 中国人民大学 一种数据对象的dna生成和校验方法
WO2020034157A1 (zh) * 2018-08-16 2020-02-20 朱小军 一种自主架构型仿生数据传输系统
WO2020034156A1 (zh) * 2018-08-16 2020-02-20 朱小军 一种中心架构型仿生数据传输系统
CN110888881A (zh) * 2019-11-21 2020-03-17 望海康信(北京)科技股份公司 图片关联方法、装置、计算机设备及存储介质
CN111527474A (zh) * 2018-01-03 2020-08-11 国际商业机器公司 软件功能的动态交付
US11061942B2 (en) 2018-09-07 2021-07-13 Graywell, Inc. Unstructured data fusion by content-aware concurrent data processing pipeline

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103200242B (zh) * 2013-03-20 2016-04-06 成都康赛信息技术有限公司 基于物联网构建跨层面数据分析枢纽的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁治明,刘奎恩: "海-云计算数据管理技术", 《金融电子化》 *
武延军: "大数据时代已经来临——人机物融合的大数据时代", 《高科技与产业化》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740411A (zh) * 2016-01-30 2016-07-06 武汉大学 一种基于SOA和WebService的数据迁移方法
CN105740411B (zh) * 2016-01-30 2018-11-13 武汉大学 一种基于SOA和WebService的数据迁移方法
CN105808354A (zh) * 2016-03-10 2016-07-27 西北大学 利用WLAN网络组建临时Hadoop环境的方法
CN105808354B (zh) * 2016-03-10 2019-02-15 西北大学 利用WLAN网络组建临时Hadoop环境的方法
CN105893542B (zh) * 2016-03-31 2019-04-12 华中科技大学 一种云存储系统中的冷数据文件重分布方法及系统
CN105893542A (zh) * 2016-03-31 2016-08-24 华中科技大学 一种云存储系统中的冷数据文件重分布方法及系统
CN107256158A (zh) * 2017-06-07 2017-10-17 广州供电局有限公司 电力系统负荷削减量的检测方法和系统
CN107256158B (zh) * 2017-06-07 2021-06-18 广州供电局有限公司 电力系统负荷削减量的检测方法和系统
CN107451246A (zh) * 2017-07-28 2017-12-08 深圳航天智慧城市系统技术研究院有限公司 一种适用于大型城市的信息资源一体化处理系统
CN107741925A (zh) * 2017-11-07 2018-02-27 济南市市政工程设计研究院(集团)有限责任公司 地下管线勘测数据自动转换方法、装置
CN107741925B (zh) * 2017-11-07 2020-11-20 济南市市政工程设计研究院(集团)有限责任公司 地下管线勘测数据自动转换方法、装置
CN111527474A (zh) * 2018-01-03 2020-08-11 国际商业机器公司 软件功能的动态交付
CN111527474B (zh) * 2018-01-03 2023-12-26 国际商业机器公司 软件功能的动态交付
WO2020034156A1 (zh) * 2018-08-16 2020-02-20 朱小军 一种中心架构型仿生数据传输系统
WO2020034157A1 (zh) * 2018-08-16 2020-02-20 朱小军 一种自主架构型仿生数据传输系统
US11061942B2 (en) 2018-09-07 2021-07-13 Graywell, Inc. Unstructured data fusion by content-aware concurrent data processing pipeline
CN109309622B (zh) * 2018-10-24 2020-11-27 常熟理工学院 一种动态的数据发布和网络通信实现方法
CN109309622A (zh) * 2018-10-24 2019-02-05 常熟理工学院 一种动态的数据发布和网络通信实现方法
CN109379435A (zh) * 2018-11-14 2019-02-22 胡青 一种船端业务服务互联互通平台系统
CN110032553B (zh) * 2019-04-08 2021-04-06 中国人民大学 一种数据对象的dna生成和校验方法
CN110032553A (zh) * 2019-04-08 2019-07-19 中国人民大学 一种数据对象的dna生成和校验方法
CN110888881A (zh) * 2019-11-21 2020-03-17 望海康信(北京)科技股份公司 图片关联方法、装置、计算机设备及存储介质
CN110888881B (zh) * 2019-11-21 2023-03-10 望海康信(北京)科技股份公司 图片关联方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN103838847B (zh) 2017-01-25

Similar Documents

Publication Publication Date Title
CN103838847A (zh) 一种面向海云协同网络计算环境的数据组织方法
CN116307757B (zh) 一种数据智能交互方法、交互系统、计算机设备及应用
CN104657903A (zh) 基于ietm的装备综合保障系统
US9123006B2 (en) Techniques for parallel business intelligence evaluation and management
Xia et al. Big traffic data processing framework for intelligent monitoring and recording systems
WO2016168211A1 (en) High performance big data computing system and platform
CN112241402A (zh) 一种空管数据供应链系统及数据治理方法
CN110716897A (zh) 一种基于云计算的海洋档案数据库并行化构建方法和装置
Salma et al. Domain-driven design of big data systems based on a reference architecture
CN111427869A (zh) 一种基于区块链的日志系统
CN112306992B (zh) 一种基于互联网的大数据平台系统
Siewert Big data in the cloud
CN101930473A (zh) 一种具有可执行结构的云计算视窗搜索体系的架构方法
TW201947492A (zh) 運營資料匯流系統與方法
CN112101894A (zh) 选煤智能系统
Jiang Investigation on the construction of urban intelligent emergency management system based on data mining technology
CN117076463B (zh) 一种智慧城市多源数据汇聚存储系统
Peng Analysis of Computer Information Processing Technology Based on Unstructured Data
Qu Information resource sharing model of coastal city library based on cloud computing
Liu A public opinion monitoring system based on big data technology
Santoso et al. Semantic enhancement framework for e-government using ontology versioning approach
Zong Complex data collection and reconstruction analysis of English information display platform based on ASP. NET
Chen Research on the application of cloud computing technology in computer big data analysis
Wen et al. Research on Haikou Smart City Management Platform Based on Real-time Data Flow
CN117764794A (zh) 一种基于低代码的构建警务过程数据平台的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170125

Termination date: 20190306