CN104156400A - 一种海量网络流数据的存储方法及装置 - Google Patents

一种海量网络流数据的存储方法及装置 Download PDF

Info

Publication number
CN104156400A
CN104156400A CN201410350005.7A CN201410350005A CN104156400A CN 104156400 A CN104156400 A CN 104156400A CN 201410350005 A CN201410350005 A CN 201410350005A CN 104156400 A CN104156400 A CN 104156400A
Authority
CN
China
Prior art keywords
data
network flow
flow data
file server
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410350005.7A
Other languages
English (en)
Other versions
CN104156400B (zh
Inventor
陈重韬
王伟平
孟丹
胡斌
崔甲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201410350005.7A priority Critical patent/CN104156400B/zh
Publication of CN104156400A publication Critical patent/CN104156400A/zh
Application granted granted Critical
Publication of CN104156400B publication Critical patent/CN104156400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/183Provision of network file services by network file servers, e.g. by using NFS, CIFS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种海量网络流数据的存储方法及装置,包括以下步骤:采集任一时段内用户提交的数据查询请求,根据数据查询请求得到查询条件;分析查询条件中的时间属性及特征属性,选择超出预设出现频率的阈值的特征属性作为聚簇属性;为待查询数据选定分段的数量和分段的端点,根据划分的分段中待查询数据的存储量选定缓存区的大小,根据聚簇属性、待查询数据中分段的数量、分段的端点和待写入的缓存区的大小生成配置文件;采集机接收网络流数据并转发给文件服务器,文件服务器按照配置文件存储接收到的网络流数据。本发明使查询条件直接映射到相应的空间划分中,直接进行数据的写入或查询,在最大程度上降低加载和存储的开销的同时,保证查询性能。

Description

一种海量网络流数据的存储方法及装置
技术领域
本发明涉及海量流数据存储和查询领域,特别涉及一种海量网络流数据的存储方法及装置。
背景技术
NetFlow是由Cisco公司于1996年发布,用来收集和监控网络流数据的一种网络协议。由于它能为应用提供一些关键服务,包括网络数据采集、网络流量统计、拒绝服务监控、入侵检测等,因而具有很高的应用价值和实际意义。
关系数据库作为NetFlow流数据管理的传统解决方案得到了广泛的应用。得益于成熟的索引以及查询机制,数据库在数据查询处理方面的优势非常明显。但是随着数据规模的不断扩大,数据库方案在可扩展性、数据存储等方面遇到严重的挑战。首先,NetFlow流数据到来的速度快,关系型数据库加载速度不能满足要求。关系型数据库中严格的一致性保证和事物操作牺牲了加载的性能。而NetFlow流数据采用实时传输并以追加的方式进行存储,数据存储之后不再进行修改,并不需要上述严格的要求。其次虽然索引技术对于查询速度的提升效果明显,但NetFlow流数据数据条数非常大,对其建立索引的时间和空间开销是不容忽视的,因而数据库的索引机制也影响了数据加载能力。因而,传统的关系型数据库并不适用于海量NetFlow流数据的存储。
SILk作为面向NetFlow流数据的专用存储系统,是由CERT NetSA开发并应用于大型网络的安全分析工具。它提供对网络流数据的收集、存储以及分析。相比于关系数据库,SILk的存储格式简练,数据的加载性能优越,能够满足较大的流量加载性能要求。它的缺点也很明显,由于只能在时间维度上对数据进行过滤,因而只能采用全扫描的方式对数据进行进一步筛选,造成冗余数据的扫描,影响了查询性能。
Hbase作为Google Bigtable的一个开源实现,以其良好的扩展性和快速查询能力,被广泛应用于结构化数据的存储。但在面对NetFlow流数据时,存储和加载性能均存在问题。首先,是数据膨胀问题,由于Hbase采用列存储,原始数据加载到Hbase时会有很多关于列和列簇的信息加入,会造成严重的数据膨胀,直接导致存储开销成倍增长。其次Hbase的单点加载能力一般为单条记录毫秒级,由于NetFlow流数据到来的速度非常快,Hbase现有的加载速度完全不能满足实际环境的要求。最后,现有的Hbase只针对包含主键列的查询拥有,而类似Hive+Hadoop这种数据仓库通用的解决方式,其实质还是强行扫描数据,其查询性能不能满足实时性的要求。
综上所述,现有关于NetFlow流数据存储方面的研究成果在管理TB及以上级别的数据规模时,均存在问题,因而需要研究面向海量NetFlow数据存储与管理的新型体系结构。
发明内容
本发明所要解决的技术问题是提供一种使查询条件直接映射到相应的空间划分中,进而直接进行数据的写入或查询扫描的海量网络流数据的存储方法及装置。
本发明解决上述技术问题的技术方案如下:一种海量网络流数据的存储方法,包括以下步骤:
步骤1:采集任一时段内用户提交的数据查询请求,并根据数据查询请求得到查询条件,所述数据查询请求用于查询待查询数据;
步骤2:分析查询条件中的时间属性及特征属性,统计时间属性的时间跨度及每个特征属性的出现频率,根据每个特征属性的出现频率,选择超出预设出现频率的阈值的特征属性作为聚簇属性;
步骤3:根据聚簇属性及时间跨度为待查询数据选定分段的数量和分段的端点,根据划分的分段中待查询数据的存储量选定待写入的缓存区的大小,根据聚簇属性、待查询数据中分段的数量、分段的端点和待写入的缓存区的大小生成配置文件,并将配置文件存储于文件服务器上;
步骤4:采集机接收网络流数据,并将网络流数据转发给文件服务器,文件服务器上的接收进程接收转发来的网络流数据;
步骤5:文件服务器读取配置文件,按照配置文件存储接收到的网络流数据。
本发明的有益效果是:本发明通过建立多维属性聚簇模型,使查询条件直接映射到相应的空间划分中,进而直接进行数据的写入或查询扫描,在最大程度上降低额外的加载和存储的开销的同时,保证了所需的查询性能。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,还包括步骤6:客户端向文件服务器发送查询请求,文件服务器解析查询请求得到查询信息,根据查询信息及配置文件对待查询的网络流数据进行查找和分析,得到查询结果,文件服务器将查找结果发送给客户端。
进一步,所述步骤4中当网络正常、文件服务器正常且采集机上无暂存数据时,采集机将网络流数据转发给文件服务器上的数据接收进程;
数据接收进程将接收到的网络流数据存储于文件服务器中的数据仓库中。
进一步,所述步骤4中当网络出现故障或者文件服务器发生故障时,采集机将网络流数据保存在采集机的本地暂存目录中。
进一步,所述步骤4中当网络及文件服务器在故障修复后恢复正常的一段时间内:
在采集机的本地暂存目录中存储有网络流数据时,采集机上的数据补发进程将存储于本地暂存目录中的网络流数据转发给文件服务器上的数据接收进程,与此同时,采集机上的数据转发进程将正常的网络流数据转发给文件服务器上的数据接收进程;
直到采集机的本地暂存目录中的网络流数据全部转发完毕时,采集机恢复到正常的数据转发流程,由采集机上的数据转发进程将网络流数据转发给文件服务器上的数据接收进程采集机上的数据转发进程将网络流数据转发给文件服务器上的数据接收进程。
进一步,所述步骤5中数据存储过程具体包括以下步骤:
步骤5.1:文件服务器上的数据接收进程将网络流数据转发给数据存储进程,数据存储进程按照配置文件将网络流数据分配到对应的一级缓存区中进行存储;
步骤5.2:每个一级缓存区分别对分配过来的网络流数据进行排序和压缩;
步骤5.3:将排序和压缩后的网络流数据写入二级缓存区,当二级缓存区达到预定的大小时,采用追加写的方式将压缩后的数据文件写入到相应的存储文件中。
进一步,一种海量网络流数据的存储装置,包括采集机和文件服务器;
所述采集机,用于接收网络流数据,并将网络流数据转发给文件服务器;
所述文件服务器,用于采集任一时段内用户提交的数据查询请求,并根据数据查询请求得到查询条件,所述数据查询请求用于查询待查询数据;分析查询条件中的时间属性及特征属性,统计时间属性的时间跨度及每个特征属性的出现频率,根据每个特征属性的出现频率,选择超出预设出现频率的阈值的特征属性作为聚簇属性;根据聚簇属性及时间跨度为待查询数据选定分段的数量和分段的端点,根据划分的分段中待查询数据的存储量选定待写入的缓存区的大小,根据聚簇属性、待查询数据中分段的数量、分段的端点和待写入的缓存区的大小生成配置文件,并存储配置文件;接收网络流数据;读取配置文件,按照配置文件存储接收到的网络流数据。
进一步,还包括客户端,所述客户端用于向文件服务器发送查询请求,接收文件服务器发送的查询结果;
文件服务器还用于解析查询请求得到查询信息,根据查询信息及配置文件对待查询的网络流数据进行查找和分析,得到查询结果,将查询结果发送给客户端。
进一步,所述文件服务器上设置有数据接收进程和数据存储进程;
所述数据接收进程用于将网络流数据转发给数据存储进程;
所述数据存储进程用于按照配置文件将网络流数据分配到对应的一级缓存区中进行存储;每个一级缓存区分别对分配过来的网络流数据进行排序和压缩;将排序和压缩后的网络流数据写入二级缓存区,当二级缓存区达到预定的大小时,采用追加写的方式将压缩后的数据文件写入到相应的存储文件中。
附图说明
图1为本发明方法步骤流程图;
图2为本发明装置结构图;
图3为本发明三维空间聚簇存储逻辑示意图;
图4为本发明采集机正常转发流程时数据传递示意图;
图5为本发明采集机暂存流程时数据传递示意图;
图6为本发明采集机补发流程时数据传递示意图。
附图中,各标号所代表的部件列表如下:
1、采集机,2、文件服务器,3、客户端。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明方法步骤流程图;图2为本发明装置结构图;图3为本发明三维空间聚簇存储逻辑示意图;图4为本发明采集机正常转发流程时数据传递示意图;图5为本发明采集机暂存流程时数据传递示意图;图6为本发明采集机补发流程时数据传递示意图。
实施例1
一种海量网络流数据的存储方法,包括以下步骤:
步骤1:采集任一时段内用户提交的数据查询请求,并根据数据查询请求得到查询条件,所述数据查询请求用于查询待查询数据;
查询请求是真实环境中一段时间内用户提交的查询语句;
Sql语句都是类似这样的语句:Select a from table1where a=2;后面的where语句是查询的条件;
Where语句的提取是直接硬解析,直接拿到查询语句,每个词分析,到了where直接截取后面跟着的条件;
步骤2:分析查询条件中的时间属性及特征属性,统计时间属性的时间跨度及每个特征属性的出现频率,根据每个特征属性的出现频率,选择超出预设出现频率的阈值的特征属性作为聚簇属性;
步骤3:根据聚簇属性及时间跨度为待查询数据选定分段的数量和分段的端点,根据划分的分段中待查询数据的存储量选定待写入的缓存区的大小,根据聚簇属性、待查询数据中分段的数量、分段的端点和待写入的缓存区的大小生成配置文件,并将配置文件存储于文件服务器上;
步骤4:采集机接收网络流数据,并将网络流数据转发给文件服务器,文件服务器上的接收进程接收转发来的网络流数据;
步骤5:文件服务器读取配置文件,按照配置文件存储接收到的网络流数据。
还包括步骤6:客户端向文件服务器发送查询请求,文件服务器解析查询请求得到查询信息,根据查询信息及配置文件对待查询的网络流数据进行查找和分析,得到查询结果,文件服务器将查找结果发送给客户端。
所述步骤4中当网络正常、文件服务器正常且采集机上无暂存数据时,采集机将网络流数据转发给文件服务器上的数据接收进程;
数据接收进程将接收到的网络流数据存储于文件服务器中的数据仓库中。
所述步骤4中当网络出现故障或者文件服务器发生故障时,采集机将网络流数据保存在采集机的本地暂存目录中。
所述步骤4中当网络及文件服务器在故障修复后恢复正常的一段时间内:
在采集机的本地暂存目录中存储有网络流数据时,采集机上的数据补发进程将存储于本地暂存目录中的网络流数据转发给文件服务器上的数据接收进程,与此同时,采集机上的数据转发进程将正常的网络流数据转发给文件服务器上的数据接收进程;
直到采集机的本地暂存目录中的网络流数据全部转发完毕时,采集机恢复到正常的数据转发流程,由采集机上的数据转发进程将网络流数据转发给文件服务器上的数据接收进程。
所述步骤5中数据存储过程具体包括以下步骤:
步骤5.1:文件服务器上的数据接收进程将网络流数据转发给数据存储进程,数据存储进程按照配置文件将网络流数据分配到对应的一级缓存区中进行存储;
步骤5.2:每个一级缓存区分别对分配过来的网络流数据进行排序和压缩;
步骤5.3:将排序和压缩后的网络流数据写入二级缓存区,当二级缓存区达到预定的大小时,采用追加写的方式将压缩后的数据文件写入到相应的存储文件中。
写入磁盘的方式,作用是保证文件的顺序性,抑制文件内碎片的产生。现有的本地文件系统,只能保证单文件写的过程是连续的,在进行多文件并发写的过程中,并不能保证数据的顺序写,这就使得读取数据的过程中,大量随机读的存在,这在很大程度上影响了最终的性能,因而采用大块缓存追加写的方式,尽可能的保证文件的顺序写入。经测试,采用上述方式的进行数据的写入最大程度上避免了数据的随机写入,最大程度上降低的文件的碎片化。
一种海量网络流数据的存储装置,包括采集机1和文件服务器2;
所述采集机1,用于接收网络流数据,并将网络流数据转发给文件服务器;
所述文件服务器2,用于采集任一时段内用户提交的数据查询请求,并根据数据查询请求得到查询条件,所述数据查询请求用于查询待查询数据;分析查询条件中的时间属性及特征属性,统计时间属性的时间跨度及每个特征属性的出现频率,根据每个特征属性的出现频率,选择超出预设出现频率的阈值的特征属性作为聚簇属性;根据聚簇属性及时间跨度为待查询数据选定分段的数量和分段的端点,根据划分的分段中待查询数据的存储量选定待写入的缓存区的大小,根据聚簇属性、待查询数据中分段的数量、分段的端点和待写入的缓存区的大小生成配置文件,并存储配置文件;接收网络流数据;读取配置文件,按照配置文件存储接收到的网络流数据。
还包括客户端3,所述客户端3用于向文件服务器2发送查询请求,接收文件服务器2发送的查询结果;
文件服务器2还用于解析查询请求得到查询信息,根据查询信息及配置文件对待查询的网络流数据查找和分析,得到查询结果,将查询结果发送给客户端。
所述文件服务器2上设置有数据接收进程和数据存储进程;
所述数据接收进程用于将网络流数据转发给数据存储进程;
所述数据存储进程用于按照配置文件将网络流数据分配到对应的一级缓存区中进行存储;每个一级缓存区分别对分配过来的网络流数据进行排序和压缩;将排序和压缩后的网络流数据写入二级缓存区,当二级缓存区达到预定的大小时,采用追加写的方式将压缩后的数据文件写入到相应的存储文件中。
如图3所示按照三个维度作为划分属性,对流数据做出了划分。对于任意一条网络流记录按照上述三维属性的值,都可以在此空间内找到唯一的一块空间与之对应。在真实的环境下,随着流数据不断的到来,依据定义的各个属性的划分,会逐渐填充相应的空间,直至该时间段结束。在整个的模型所针对的属性中,时间作为固有属性,天然的将数据进行分割,其他属性则作为附属属性将该时间片中的数据按照划分规则划分为不同的空间分片。而在查询的过程中,依据查询条件也可找到与空间分片的映射,从而只需扫描分片中的数据即可拿到所需的结果。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种海量网络流数据的存储方法,其特征在于,包括以下步骤:
步骤1:采集任一时段内用户提交的数据查询请求,并根据数据查询请求得到查询条件,所述数据查询请求用于查询待查询数据;
步骤2:分析查询条件中的时间属性及特征属性,统计时间属性的时间跨度及每个特征属性的出现频率,根据每个特征属性的出现频率,选择超出预设出现频率的阈值的特征属性作为聚簇属性;
步骤3:根据聚簇属性及时间跨度为待查询数据选定分段的数量和分段的端点,根据划分的分段中待查询数据的存储量选定待写入的缓存区的大小,根据聚簇属性、待查询数据中分段的数量、分段的端点和待写入的缓存区的大小生成配置文件,并将配置文件存储于文件服务器上;
步骤4:采集机接收网络流数据,并将网络流数据转发给文件服务器,文件服务器上的接收进程接收转发来的网络流数据;
步骤5:文件服务器读取配置文件,按照配置文件存储接收到的网络流数据。
2.根据权利要求1所述的存储方法,其特征在于,还包括步骤6:客户端向文件服务器发送查询请求,文件服务器解析查询请求得到查询信息,根据查询信息及配置文件对待查询的网络流数据进行查找和分析,得到查询结果,文件服务器将查找结果发送给客户端。
3.根据权利要求1所述的存储方法,其特征在于:所述步骤4中当网络正常、文件服务器正常且采集机上无暂存数据时,采集机将网络流数据转发给文件服务器上的数据接收进程;
数据接收进程将接收到的网络流数据存储于文件服务器中的数据仓库中。
4.根据权利要求1所述的存储方法,其特征在于:所述步骤4中当网络出现故障或者文件服务器发生故障时,采集机将网络流数据保存在采集机的本地暂存目录中。
5.根据权利要求1所述的存储方法,其特征在于:所述步骤4中当网络及文件服务器在故障修复后恢复正常的一段时间内:
在采集机的本地暂存目录中存储有网络流数据时,采集机上的数据补发进程将存储于本地暂存目录中的网络流数据转发给文件服务器上的数据接收进程,与此同时,采集机上的数据转发进程将正常的网络流数据转发给文件服务器上的数据接收进程;
直到采集机的本地暂存目录中的网络流数据全部转发完毕时,采集机恢复到正常的数据转发流程,由采集机上的数据转发进程将网络流数据转发给文件服务器上的数据接收进程。
6.根据权利要求1所述的存储方法,其特征在于:所述步骤5中数据存储过程具体包括以下步骤:
步骤5.1:文件服务器上的数据接收进程将网络流数据转发给数据存储进程,数据存储进程按照配置文件将网络流数据分配到对应的一级缓存区中进行存储;
步骤5.2:每个一级缓存区分别对分配过来的网络流数据进行排序和压缩;
步骤5.3:将排序和压缩后的网络流数据写入二级缓存区,当二级缓存区达到预定的大小时,采用追加写的方式将压缩后的数据文件写入到相应的存储文件中。
7.一种海量网络流数据的存储装置,其特征在于:包括采集机(1)和文件服务器(2);
所述采集机(1),用于接收网络流数据,并将网络流数据转发给文件服务器;
所述文件服务器(2),用于采集任一时段内用户提交的数据查询请求,并根据数据查询请求得到查询条件,所述数据查询请求用于查询待查询数据;分析查询条件中的时间属性及特征属性,统计时间属性的时间跨度及每个特征属性的出现频率,根据每个特征属性的出现频率,选择超出预设出现频率的阈值的特征属性作为聚簇属性;根据聚簇属性及时间跨度为待查询数据选定分段的数量和分段的端点,根据划分的分段中待查询数据的存储量选定待写入的缓存区的大小,根据聚簇属性、待查询数据中分段的数量、分段的端点和待写入的缓存区的大小生成配置文件,并存储配置文件;接收网络流数据;读取配置文件,按照配置文件存储接收到的网络流数据。
8.根据权利要求7所述的存储装置,其特征在于:还包括客户端(3),所述客户端(3)用于向文件服务器(2)发送查询请求,接收文件服务器(2)发送的查询结果;
文件服务器(2)还用于解析查询请求得到查询信息,根据查询信息及配置文件对待查询的网络流数据进行查找和分析,得到查询结果,将查询结果发送给客户端。
9.根据权利要求7所述的存储装置,其特征在于:所述文件服务器(2)上设置有数据接收进程和数据存储进程;
所述数据接收进程用于将网络流数据转发给数据存储进程;
所述数据存储进程用于按照配置文件将网络流数据分配到对应的一级缓存区中进行存储;每个一级缓存区分别对分配过来的网络流数据进行排序和压缩;将排序和压缩后的网络流数据写入二级缓存区,当二级缓存区达到预定的大小时,采用追加写的方式将压缩后的数据文件写入到相应的存储文件中。
CN201410350005.7A 2014-07-22 2014-07-22 一种海量网络流数据的存储方法及装置 Active CN104156400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410350005.7A CN104156400B (zh) 2014-07-22 2014-07-22 一种海量网络流数据的存储方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410350005.7A CN104156400B (zh) 2014-07-22 2014-07-22 一种海量网络流数据的存储方法及装置

Publications (2)

Publication Number Publication Date
CN104156400A true CN104156400A (zh) 2014-11-19
CN104156400B CN104156400B (zh) 2017-07-11

Family

ID=51881904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410350005.7A Active CN104156400B (zh) 2014-07-22 2014-07-22 一种海量网络流数据的存储方法及装置

Country Status (1)

Country Link
CN (1) CN104156400B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557469A (zh) * 2015-09-24 2017-04-05 阿里巴巴集团控股有限公司 一种处理数据仓库中数据的方法及装置
CN106649691A (zh) * 2016-12-19 2017-05-10 雷桦松 一种流数据存储方法及装置
CN107330114A (zh) * 2017-07-11 2017-11-07 王焱华 一种大数据处理方法
CN107463623A (zh) * 2017-07-06 2017-12-12 积成电子股份有限公司 一种变电站历史事项数据库的动态查询方法
CN108009195A (zh) * 2017-10-23 2018-05-08 苏州市环亚数据技术有限公司 一种基于大数据的降维转换方法、电子设备、存储介质
CN110505314A (zh) * 2019-09-26 2019-11-26 浪潮电子信息产业股份有限公司 一种并发追加上传请求的处理方法
CN111124259A (zh) * 2018-10-31 2020-05-08 深信服科技股份有限公司 一种基于全闪存阵列的数据压缩方法及系统
CN111400351A (zh) * 2020-03-18 2020-07-10 威讯柏睿数据科技(北京)有限公司 一种基于分布式并行架构对流数据进行查询的方法和设备
CN112714031A (zh) * 2021-03-29 2021-04-27 中南大学 一种基于带宽感知的故障节点快速修复方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5937408A (en) * 1997-05-29 1999-08-10 Oracle Corporation Method, article of manufacture, and apparatus for generating a multi-dimensional record structure foundation
CN102567495A (zh) * 2011-12-22 2012-07-11 国网信息通信有限公司 一种海量信息存储系统及实现方法
CN103207835A (zh) * 2013-04-15 2013-07-17 东莞市公安局 一种通过自适应的Range分区存储海量数据的方法
CN103399943A (zh) * 2013-08-14 2013-11-20 曙光信息产业(北京)有限公司 集群数据库并行查询的通讯方法和通讯装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5937408A (en) * 1997-05-29 1999-08-10 Oracle Corporation Method, article of manufacture, and apparatus for generating a multi-dimensional record structure foundation
CN102567495A (zh) * 2011-12-22 2012-07-11 国网信息通信有限公司 一种海量信息存储系统及实现方法
CN103207835A (zh) * 2013-04-15 2013-07-17 东莞市公安局 一种通过自适应的Range分区存储海量数据的方法
CN103399943A (zh) * 2013-08-14 2013-11-20 曙光信息产业(北京)有限公司 集群数据库并行查询的通讯方法和通讯装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴广君等: "网络数据流分段存储模型的研究与实现", 《通信学报》 *
白杨等: "NetFlow流量数据的压缩存储与多维度聚合", 《中国电子科学研究院学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557469A (zh) * 2015-09-24 2017-04-05 阿里巴巴集团控股有限公司 一种处理数据仓库中数据的方法及装置
CN106557469B (zh) * 2015-09-24 2020-11-20 创新先进技术有限公司 一种处理数据仓库中数据的方法及装置
CN106649691A (zh) * 2016-12-19 2017-05-10 雷桦松 一种流数据存储方法及装置
CN107463623A (zh) * 2017-07-06 2017-12-12 积成电子股份有限公司 一种变电站历史事项数据库的动态查询方法
CN107463623B (zh) * 2017-07-06 2020-06-09 积成电子股份有限公司 一种变电站历史事项数据库的动态查询方法
CN107330114A (zh) * 2017-07-11 2017-11-07 王焱华 一种大数据处理方法
CN108009195A (zh) * 2017-10-23 2018-05-08 苏州市环亚数据技术有限公司 一种基于大数据的降维转换方法、电子设备、存储介质
CN108009195B (zh) * 2017-10-23 2022-06-28 环亚数据技术有限公司 一种基于大数据的降维转换方法、电子设备、存储介质
CN111124259A (zh) * 2018-10-31 2020-05-08 深信服科技股份有限公司 一种基于全闪存阵列的数据压缩方法及系统
CN110505314A (zh) * 2019-09-26 2019-11-26 浪潮电子信息产业股份有限公司 一种并发追加上传请求的处理方法
CN111400351A (zh) * 2020-03-18 2020-07-10 威讯柏睿数据科技(北京)有限公司 一种基于分布式并行架构对流数据进行查询的方法和设备
CN112714031A (zh) * 2021-03-29 2021-04-27 中南大学 一种基于带宽感知的故障节点快速修复方法
CN112714031B (zh) * 2021-03-29 2021-06-22 中南大学 一种基于带宽感知的故障节点快速修复方法

Also Published As

Publication number Publication date
CN104156400B (zh) 2017-07-11

Similar Documents

Publication Publication Date Title
CN104156400A (zh) 一种海量网络流数据的存储方法及装置
US11036799B2 (en) Low RAM space, high-throughput persistent key value store using secondary memory
US10652265B2 (en) Method and apparatus for network forensics compression and storage
CN103412916B (zh) 一种监控系统的多维度数据存储、检索方法及装置
US9323685B2 (en) Data storage space processing method and processing system, and data storage server
CN102521405B (zh) 支持高速加载的海量结构化数据存储、查询方法和系统
US20160306810A1 (en) Big data statistics at data-block level
CN105824744A (zh) 一种基于b2b平台的实时日志采集分析方法
CN2791752Y (zh) 高速数据存储设备
CN106033324B (zh) 一种数据存储的方法和装置
CN111339103B (zh) 一种基于全量分片和增量日志解析的数据交换方法及系统
CN101478684B (zh) 检测存储视频数据完整性的方法和系统
CN107317838A (zh) 一种基于流式数据处理架构的天文元数据归档方法及系统
CN103678491A (zh) 一种基于Hadoop中小文件优化和倒排索引的方法
EP3285186B1 (en) Methods and procedures for timestamp-based indexing of items in real-time storage
CN103744913A (zh) 一种基于搜索引擎技术的数据库检索方法
US20220343047A1 (en) Method and system for processing simulation data
CN105159845A (zh) 存储器读取方法
CN110413571A (zh) 基于MongoDB大规模遥感影像数据分布式存储方法
JP2018511861A (ja) 分散データベースにおけるデータブロックを処理する方法およびデバイス
CN107820052A (zh) 基于评标业务数据和视频数据的融合方法及系统
CN104780019A (zh) 光纤通信数据的存储方法
WO2017000592A1 (zh) 数据处理方法、装置及系统
US20200341958A1 (en) Efficient database management system and method for use therewith
CN114363304B (zh) Rtp视频流存储、播放方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant