CN102662890A - 一种高效的数据流存储方法 - Google Patents

一种高效的数据流存储方法 Download PDF

Info

Publication number
CN102662890A
CN102662890A CN2012100473487A CN201210047348A CN102662890A CN 102662890 A CN102662890 A CN 102662890A CN 2012100473487 A CN2012100473487 A CN 2012100473487A CN 201210047348 A CN201210047348 A CN 201210047348A CN 102662890 A CN102662890 A CN 102662890A
Authority
CN
China
Prior art keywords
data stream
access efficiency
module
data
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100473487A
Other languages
English (en)
Inventor
刘奇志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN2012100473487A priority Critical patent/CN102662890A/zh
Publication of CN102662890A publication Critical patent/CN102662890A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种高效的数据流存储方法,设置一个时钟控制模块,一个批量存储模块和一个访问效率优化模块;所述批量存储模块用于将到达系统缓冲区的数据流批量存入存储设备;所述访问效率优化模块用于根据最近存入的一批数据流更新存储设备里数据流的访问效率优化结构;所述时钟控制模块用于控制批量存储模块和访问效率优化模块按节拍交替工作。本发明将提高数据流访问效率的操作从数据流存储过程中剥离出来,避免访问效率优化的操作影响数据流存储的效率,能保证在有关提高数据流访问效率的操作进行时,不降低数据流存储操作的效率。

Description

一种高效的数据流存储方法
技术领域
本发明涉及数据流领域,特别涉及一种高效的数据流存储方法。
背景技术
在许多数据管理应用中,数据常常以流的形式到达系统,数据流存储管理的特点是持续追加式存储,而且要求每一批数据流的存储速度要快,所有数据流的后期访问效率要高。已有数据流存储方法可以分为两大类:
一类是简单存储到达的数据流,比如把每组数据流作为一个记录存储起来,不作其它更多的处理,这种方法可以获得比较高的存储效率,但未经优化处理或稍作整理的组织结构往往比较杂乱,不利于以后对数据流的访问;
另一类是在数据流到达的同时不仅存储数据流,还进行相关的分析和处理,包括分类、设置标记、更新相应的索引结构等操作,这些操作可以提高以后对数据流的访问效率,属于访问效率优化操作,但在数据流到达系统时,同时进行存储和优化两类操作会影响数据流的存储效率,比如在存入数据流的同时进行索引更新会严重降低数据流的存储速度,在大量实时数据流到达时甚至会发生宕机现象,不能满足高速数据流的存储需求。
上述第一类方法在自动化数据采集与控制系统中使用比较多,因为自动化数据采集与控制系统需要将采集数据实时地存储起来,对数据存储效率要求较高。这种方法引起的不利于以后数据访问的问题,一般通过间接访问的办法解决,即将存储的原始数据导入其它离线数据管理系统,重新按一定的结构组织数据,建立索引结构,于是造成数据管理系统重复建设、数据版本不一致等新的问题。
上述第二类方法一般适用于对数据存储实时性要求不是特别高的大规模软实时数据库系统。这类系统往往采用垂直分区和位(bitwise)索引等新型索引技术,需要利用一定的时空开销,在存储数据的同时做标记或建立和更新索引,或者进行数据分类存储,以提高以后数据的访问效率。
简言之,现有数据存储技术应用在数据流系统中,要么存储效率低,要么以后访问效率低,不能满足大量高速数据流的处理需求。
中国专利201010210307.6申请文件公开了一种“高速数据实时采集存储设备”,它是通过PCI-E总线连接高速数据采集模块和高速数据存储控制模块,将数据存储到磁盘阵列中,完成高速、实时的数据存储。用户可以通过高速数据存储控制模块对磁盘阵列中的数据进行访问。该发明不是解决数据存储和访问效率互相影响问题的方法。
中国专利200880013143.9号申请文件公开了一种“用于连接到主机的存储设备的优化的提示模型和用于存储设备的写优化方案”(国际申请号:PCT/US2008/058482),该方案的实质是将数据分为频繁修改和较不频繁修改的数据,不同的数据分类存储到不同速度不同成本的存储器中,没有区别对待数据流的存储和访问效率。
中国专利200910116130.0号申请文件公开了“一种交替式存储同步连续传输的数据采集方法”,该方法通过将采集的数据交替写入两个大容量存储单元,实现在数据输出率高于传输率条件下的数据长时间连续采集与同步传输,未涉及数据的访问效率。
美国专利US11/821477号申请文件(公开号US 8090925B2)公开了“Storingdata streams in memory based on upper and lower stream size thresholds”,该发明将数据流作为一个系统文件存储,并设定数据流规模的上下限。这种方法没有区别对待数据流的存储和访问效率。
实际上,数据流的存储效率与以后的访问效率在一定程度上存在矛盾。现有技术没有将二者很好的协调起来,多数技术(如各种各样的索引技术)更关注数据(流)后期访问效率,忽略了数据(流)首次存储效率,从而影响系统的整体性能,如载于《软件学报》2005,16(12):2089-2098的《数据流历史数据的存储与聚集查询处理算法》。在数据流场景下,甚至会发生系统崩溃现象(当大量数据流快速到达时,资源被数据流索引的建立与更新占用,不能进行数据存储操作,看起来像死机)。
发明内容
发明目的:针对上述现有技术存在的问题和不足,本发明的目的是提供一种高效的数据流存储方法,克服数据流存储及访问效率低的问题,特别是克服目前已有数据存储方法没有兼顾数据存储效率和数据访问效率的问题。
技术方案:为实现上述发明目的,本发明采用的技术方案为一种高效的数据流存储方法,设置一个时钟控制模块,一个批量存储模块和一个访问效率优化模块;所述批量存储模块用于将到达系统缓冲区的数据流批量存入存储设备;所述访问效率优化模块用于根据存储设备里最近存入的一批数据流更新访问效率优化结构;所述时钟控制模块用于控制批量存储模块和访问效率优化模块按节拍交替工作。
所述时钟控制模块可根据数据流到达的速度和数量调整节拍,当数据流到达的速度快和/或数据流到达的数量大时,减少访问效率优化操作或不进行访问效率优化操作,具体的量化标准可以根据不同系统的指标进行设定。
所述数据流可包括RDF数据流。
有益效果:本发明将数据流的存储效率和访问效率分开考虑,尤其重视数据流存储效率和访问效率相互影响的特征,将提高数据流访问效率的操作从数据流存储过程中剥离出来,避免访问效率优化的操作影响数据流存储的效率,能保证在有关提高数据流访问效率的操作进行时,不降低数据流存储操作的效率。采用本发明的技术方案,开发人员可以比较容易地兼顾数据流存储效率和数据流访问效率,实现数据流存储和访问效率的共同提高。
附图说明
图1为本发明实施例的流程图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
首先,设置一个时钟控制模块,一个数据流批量存储模块和一个访问效率优化模块。在本实例中,访问效率优化操作是索引更新,因此访问效率优化模块是索引更新模块,如图1所示。
然后在时钟控制模块的控制作用下,数据流批量存储模块和索引更新模块按节拍交替工作。当数据流批量存储模块工作时,数据流从缓冲器存入存储器;当索引更新模块工作时,根据存储器里的数据流更新索引结构。
设起始时刻为t,所注册的批量存储周期为T,则在t+nT时刻进行批量存储,n为正整数,在t+nT-T/2+δ时刻进行索引更新,其中δ为微调参数,|δ|<T/2,T与δ可根据数据流的速率和每批数据流的数据量,以及具体系统的硬件指标等进行调节。当在T时间段内,数据流到达的数据量大于或等于缓冲器的容量时,不进行索引更新操作。
值得说明的是,数据流可以是包括RDF(Resource Description Framework,资源描述框架)数据流在内的各种形式的数据流。

Claims (3)

1.一种高效的数据流存储方法,其特征在于:设置一个时钟控制模块,一个批量存储模块和一个访问效率优化模块;所述批量存储模块用于将到达系统缓冲区的数据流批量存入存储设备;所述访问效率优化模块用于根据存储设备里最近存入的一批数据流更新访问效率优化结构;所述时钟控制模块用于控制批量存储模块和访问效率优化模块按节拍交替工作。
2.根据权利要求1所述一种高效的数据流存储方法,其特征在于:所述时钟控制模块根据数据流到达的速度和数量调整节拍,当数据流到达的速度快和/或数据流到达的数量大时,减少访问效率优化操作或不进行访问效率优化操作。
3.根据权利要求1所述一种高效的数据流存储方法,其特征在于:所述数据流包括RDF数据流。
CN2012100473487A 2012-02-28 2012-02-28 一种高效的数据流存储方法 Pending CN102662890A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100473487A CN102662890A (zh) 2012-02-28 2012-02-28 一种高效的数据流存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100473487A CN102662890A (zh) 2012-02-28 2012-02-28 一种高效的数据流存储方法

Publications (1)

Publication Number Publication Date
CN102662890A true CN102662890A (zh) 2012-09-12

Family

ID=46772386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100473487A Pending CN102662890A (zh) 2012-02-28 2012-02-28 一种高效的数据流存储方法

Country Status (1)

Country Link
CN (1) CN102662890A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050100A (zh) * 2014-05-27 2014-09-17 重庆大学 一种适用于大数据环境的数据流存储管理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04112240A (ja) * 1990-08-31 1992-04-14 Fujitsu Ltd データベース処理装置および処理手順生成方法
US5335346A (en) * 1989-05-15 1994-08-02 International Business Machines Corporation Access control policies for an object oriented database, including access control lists which span across object boundaries
US5574952A (en) * 1994-05-11 1996-11-12 International Business Machines Corporation Data storage system and method for operating a disk controller including allocating disk space for compressed data
US20080126674A1 (en) * 2006-09-13 2008-05-29 Xiaohua Cheng Portable storage device and method for improving data access speed
CN101446966A (zh) * 2008-12-31 2009-06-03 中国建设银行股份有限公司 数据存储方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5335346A (en) * 1989-05-15 1994-08-02 International Business Machines Corporation Access control policies for an object oriented database, including access control lists which span across object boundaries
JPH04112240A (ja) * 1990-08-31 1992-04-14 Fujitsu Ltd データベース処理装置および処理手順生成方法
US5574952A (en) * 1994-05-11 1996-11-12 International Business Machines Corporation Data storage system and method for operating a disk controller including allocating disk space for compressed data
US20080126674A1 (en) * 2006-09-13 2008-05-29 Xiaohua Cheng Portable storage device and method for improving data access speed
CN101446966A (zh) * 2008-12-31 2009-06-03 中国建设银行股份有限公司 数据存储方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050100A (zh) * 2014-05-27 2014-09-17 重庆大学 一种适用于大数据环境的数据流存储管理方法及系统
CN104050100B (zh) * 2014-05-27 2017-07-14 重庆大学 一种适用于大数据环境的数据流存储管理方法及系统

Similar Documents

Publication Publication Date Title
CN103559217B (zh) 一种面向异构数据库的海量组播数据入库实现方法
CN102521406B (zh) 海量结构化数据复杂查询任务的分布式查询方法和系统
CN102930062B (zh) 一种数据库快速水平扩展的方法
CN102081625B (zh) 一种数据查询的方法及查询服务器
CN101436207B (zh) 一种基于日志快照的数据恢复和同步方法
CN103412803B (zh) 数据恢复的方法及装置
CN102307206B (zh) 基于云存储的快速访问虚拟机镜像的缓存系统的缓存方法
CN107038162A (zh) 基于数据库日志的实时数据查询方法和系统
CN102202072A (zh) 互联网站数据的单向同步方法
CN102662642B (zh) 一种基于嵌套滑动窗口和遗传算法的并行处理方法
CN103152393A (zh) 一种云计算的计费方法和计费系统
CN1866833A (zh) 分布式数据管理系统及其动态订阅数据的方法
CN102508908A (zh) 一种下级财政业务数据的采集方法和系统
CN102932846A (zh) 分布式异构传感网数据管理系统及其数据管理方法
CN101329686A (zh) 一种实现网络查询缓存的系统和查询方法
CN106339475A (zh) 一种海量数据的分布式存储系统
CN105740068A (zh) 面向大数据平台基于内存数据局部性的调度方法及系统
CN1595905A (zh) 基于集群的流媒体缓存代理服务器系统
CN103392169A (zh) 排序
CN106649869A (zh) 数据库大数据的统计方法及装置
CN107203330A (zh) 一种面向读写数据流的闪存数据分布方法
CN101719131B (zh) 一种报表数据的处理方法、装置和系统
CN101674193B (zh) 传输控制协议连接的管理方法和装置
CN102662890A (zh) 一种高效的数据流存储方法
CN101859349B (zh) 用于查杀恶意程序的文件筛选系统和文件筛选方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120912