CN107317838A - 一种基于流式数据处理架构的天文元数据归档方法及系统 - Google Patents

一种基于流式数据处理架构的天文元数据归档方法及系统 Download PDF

Info

Publication number
CN107317838A
CN107317838A CN201710371260.3A CN201710371260A CN107317838A CN 107317838 A CN107317838 A CN 107317838A CN 201710371260 A CN201710371260 A CN 201710371260A CN 107317838 A CN107317838 A CN 107317838A
Authority
CN
China
Prior art keywords
metadata
data
module
agent
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710371260.3A
Other languages
English (en)
Other versions
CN107317838B (zh
Inventor
徐川
郭航
赵国锋
蔡宇
唐彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201710371260.3A priority Critical patent/CN107317838B/zh
Publication of CN107317838A publication Critical patent/CN107317838A/zh
Application granted granted Critical
Publication of CN107317838B publication Critical patent/CN107317838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • H04L67/5681Pre-fetching or pre-delivering data based on network characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/06Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
    • H04L9/0643Hash functions, e.g. MD5, SHA, HMAC or f9 MAC

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Power Engineering (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明请求保护一种基于流式数据处理架构的天文元数据归档方法及系统,属天文数据处理领域。首先,在数据源部署Agent。Agent实时监控数据源,一旦有新的数据产生,Agent的监控模块会立即解析新的观测数据并生成相应的元数据;其次,Agent的数据采集模块会实时采集监控模块生成的元数据,并通过网络传输到指定元数据归档平台;而后归档平台的缓存模块会实时接收数据源过来的元数据,并将元数据写入分布式缓存队列中;最后归档平台的流式数据处理组件会实时从缓存队列中读取元数据,并处理成时空维度的关联子图写入到图形数据库中。通过实时元数据归档,可减少冗余数据占据的网络带宽,减少系统占用的物理缓存成本,同时保证观测数据的实时共享。

Description

一种基于流式数据处理架构的天文元数据归档方法及系统
技术领域
本发明属于天文数据处理领域,具体涉及基于流式处理架构的实时天文数据归档系统。
背景技术
随着各地天文观测站的建成和各种高精度观测仪器的使用,天文观测数据呈现了爆发增长的趋势。面对庞大的数据集,如何实现有效管理和检索是提高科研产出的关键问题之一。在实际的天文观测中,FITS文件是天文观测数据的最主要存储格式。FITS包括数据头和数据体。在FITS头中包含着丰富的描述性元数据信息,以基本的key/value形式存储。相对于庞大的原始FITS数据集来说,FITS元数据不仅具有丰富的语义信息,同时在数据量级上要小得多。天文工作者可以通过查看元数据的方式来定位数据集。所以在天文学领域中也常常通过存储元数据的方式,来实现对数据资源的管理。天文数据归档是天文数据存储和检索的重要步骤,其主要思想是基于检索天文元数据信息来定位符合用户限定条件的天文观测数据集,从而达到观测数据共享、减少数据集检索消耗的时间成本的目的。而当前的天文观测数据归档方法特别是远程数据归档往往需要用户上传原始数据集,或者归档平台以周期性扫描数据源的方式进行离线归档,从而导致了大量的观测数据占用过多的网络带宽,占用较大的缓存空间,以及对一些实时性要求比较高的应用来说数据发布的时延过大的问题。而本发明采用数据源先抽取元数据的方式,再将元数据通过网络传输到归档平台进行数据处理。而元数据的数据量级相比原始数据要小的多,因此本发明节约了大量的网络带宽,也降低了时延,提高了实时性,同时减少了归档平台所需要的缓存成本。
流式数据处理平台Storm属于Apache旗下的一个开源项目,是一款高性能的分布式实时流式数据处理平台,近年来已经被应用到许多实时数据处理的场景。通过搭建Storm分布式集群以及设计流数据处理逻辑拓扑,实现海量数据的实时高效处理。同时基于Flume+Kafka+Storm分布式流式数据处理架构近年来已经被应用于许多海量数据处理的场所。其中Apache Kafka是一款高性能消息缓存队列,Apache Flume是一款实时日志采集系统。流式数据处理架构的出现也给天文元数据的归档设计带来了新的契机,可以通过流式数据处理架构来提升归档系统的数据处理能力和实时性。相比传统归档系统中先传输原始数据,然后再采用脚本处理元数据,本发明采用的基于流式数据处理架构的归档方式可提高系统吞吐量同时又可以减少数据处理时延。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种减少了离线归档所占用的临时缓存空间,同时提高了观测数据发布的实时性、使得系统的实时性大大提高,对提高天文数据的应用效率具有较大意义的方法。本发明的技术方案如下:
一种基于流式数据处理架构的天文元数据归档方法,其包括以下步骤:
101、在不同的数据源部署Agent代理,Agent实时监控数据源,一旦有新的原始观测数据产生,Agent的监控模块会立即解析新的原始观测数据并生成相应的元数据;
102、Agent的数据采集模块会实时采集监控模块生成的元数据,并通过网络传输到指定元数据归档平台;元数据归档平台的缓存模块会实时接收数据源发送过来的元数据,并将元数据写入分布式缓存队列中;
103、归档平台的流式数据处理组件实时从缓存队列中读取元数据,并处理成时空维度的关联子图写入到图形数据库中,完成天文元数据归档。
进一步的,所述步骤101在数据源部署Agent,实时监控数据源变化并生成元数据信息,包括:
Agent通过实时识别数据源文件存储目录MD5码的方式来获取数据源动态信息,并通过实时解析观测数据文件的方式来生成相应的元数据信息。
进一步的,所述Agent通过实时识别数据源文件存储目录MD5码的方式来获取数据源动态信息,具体实现方法为:
Agent通过设定一个文件目录MD5码观察器,以5s为周期扫描数据源所在文件目录的动态变化,如果数据源向文件目录写入新的观测数据,那么该文件目录的MD5码会发生变化,这时候观察器会依据MD5码的变化获取到新的观测数据文件信息,而后Agent数据解析器会从观测数据中提取元数据信息并按照预定的格式写入文本文件中。
进一步的,所述的102步骤Agent的数据采集模块会实时采集监控模块生成的元数据,并通过网络传输到指定元数据归档平台的消息缓存队列具体包括:数据源通过Flume实时采集Agent生成的元数据信息,同时Flume采用Exec Source的方式实时地将采集到的元数据信息发送到归档平台的消息队列,
进一步的,所述归档平台的消息队列采用Kafka分布存储,所以数据源和归档平台之间的元数据传输采用Kafka Producer标准。
进一步的,所述步骤103归档平台的流式数据处理组件实时从缓存队列中读取元数据,并处理成时空维度的关联子图写入到图形数据库中具体包括步骤:
设计Storm Topology流式数据处理拓扑实时从缓存消息队列中读取元数据信息,并对每一条元数据信息进行关联性处理而后生成和Neo4j的Cypher交互语句。
进一步的,所述对每一条元数据信息进行关联性处理具体包括:
Storm Topology流式数据处理拓扑对每条观测数据的元数据信息抽取空间维度上的二维赤经RA和赤纬DEC坐标信息、所属天区信息,以及时间维度上的具体观测时间,依据不同观测数据元数据在时空维度上的关联特性建立数据模型,处理成一张具有时空维度关联特性的子图。
一种基于流式数据处理架构的天文元数据归档系统,其包括:
采集模块、缓存模块、数据处理模块及数据库模块,其中所述采集模块部署在不同的数据源,实时监控数据源是否有新的观测数据产生,一旦检测有新的原始观测数据产生,采集模块会实时解析原始观测数据并抽取元数据并发送到归档平台的缓存模块;所述缓存模块用于缓存采集模块发送来的元数据,并采用分布式消息缓存队列;所述数据处理模块的流式数据处理组件会实时从缓存模块实时读取元数据并进行数据处理,最终生成时空维度相关联的子图,并转发给数据库模块;数据库模块,用于存储数据处理模块发送来的生成时空维度相关联的子图。
进一步的,所述数据源部署的采集模块为Agent,Agent包括元数据生产模块MetaProudcer和元数据采集模块Flume,Agent的元数据生产模块MetaProudcer负责实时监控数据源,一旦有新的数据产生,则立即解析新的观测数据并生成相应的元数据,而元数据采集模块Flume采用Exec Source的方式实时地将采集到的元数据信息发送到归档平台的消息队列,其中归档平台的元数据缓存采用Kafka分布式消息队列系统。
进一步的,所述Agent的元数据生产模块MetaProudcer首先开启MD5码观
察器,以5s为周期扫描数据源所在文件目录的动态变化,如果数据源往文件
目录写入新的观测数据,那么该文件目录的MD5码会发生变化,
MetaProudcer的数据解析器同时实时识别数据源存储的文件目录MD5码的
方式来获取数据源动态信息,而后通过I/O流的方式读取原始观测数据并过
滤掉无用信息,最后按照预定格式将元数据信息写入到指定文本。
本发明的优点及有益效果如下:
本发明基于流式数据处理架构的天文元数据归档方法,摈弃了离线的归档模式,采用了实时归档的方式,适用于对实时性要求较高的天文元数据归档场景,提高了系统的实时性,减少了网络带宽的占用以及物理缓存的消耗。系统实现方法为在数据源部署Agent,由Agent实时监控原始数据的产生以及元数据的抽取和预处理,因此减少了网络传输过程中大量无用冗余信息所消耗的带宽;归档平台采用了流式数据处理组件对元数据进行实时处理,避免了离线归档模式先存储再处理时需要占用大量物理缓存的问题。
附图说明
图1是本发明提供优选实施例实时天文元数据归档流程图;
图2数据源代理Agent模块示意图;
图3Storm Topology示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
为了对本发明实施例进行清楚详细的介绍,此处结合图1来简要介绍本发明的步骤。基于流式数据处理架构的天文元数据归档方法大体包括4个模块:采集模块、缓存模块、数据处理模块、数据库模块。
采集模块部署在数据源,实时监控数据源是否有新的观测数据产生。一旦检测有新的原始观测数据产生,采集模块会实时解析原始观测数据并抽取元数据并发送到归档平台的缓存模块。而后数据处理模块的流式数据处理组件会实时从缓存模块实时读取元数据并进行数据处理,最终生成时空维度相关联的子图存进数据库模块中。
如图2所示,首先,在不同的数据源部署Agent。Agent包括元数据生产模块MetaProudcer和元数据采集模块Flume。Agent的元数据生产模块MetaProudcer负责实时监控数据源,一旦有新的数据产生,则立即解析新的观测数据并生成相应的元数据。Agent的MetaProudcer首先开启MD5码观察器,以5s为周期扫描数据源所在文件目录的动态变化。如果数据源往文件目录写入新的观测数据,那么该文件目录的MD5码会发生变化。MetaProudcer的数据解析器同时实时识别数据源存储的文件目录MD5码的方式来获取数据源动态信息,而后通过I/O流的方式读取原始观测数据并过滤掉无用信息,最后按照预定格式将元数据信息写入到指定文本。而元数据采集模块Flume采用Exec Source的方式实时地将采集到的元数据信息发送到归档平台的消息队列。其中归档平台的元数据缓存采用Kafka分布式消息队列系统。
如图1中所示数据处理模块采用Storm分布式流式数据处理组件。需要设计StormTopology流式数据处理拓扑中每个Spout、Bolt在数据处理中的作用,具体Topology设计如图3所示。Spout负责从缓存模块Kafka中实时读取消息,而后通过Shuffle Grouping(随机分组)的流分组方式发送到Bolt1进行数据过滤。而后Bolt2(负责从时间维度建模)和Bolt3(负责从空间维度建模)分别以Field Grouping(字段分组)的流分组方式订阅Bolt1过滤后的数据,分别从时间维度和空间维度进行数据关联。其中Bolt2抽取观测时间元数据信息,把属于同一个观测时间的不同元数据进行关联。而Bolt3对每条元数据信息抽取空间维度上的二维赤经(RA)赤纬(DEC)坐标信息、所属天区信息,并把属于相同空间坐标、相同天区的元数据进行数据关联。最后Bolt4(负责JDBC数据库交互)同时订阅来自Bolt2和Bolt3的数据流,生成和Neo4j数据库交互的Cypher语句,完成天文元数据的实时归档。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (10)

1.一种基于流式数据处理架构的天文元数据归档方法,其特征在于,包括以下步骤:
101、在不同的数据源部署Agent代理,Agent实时监控数据源,一旦有新的原始观测数据产生,Agent的监控模块会立即解析新的原始观测数据并生成相应的元数据;
102、Agent的数据采集模块会实时采集监控模块生成的元数据,并通过网络传输到指定元数据归档平台;元数据归档平台的缓存模块会实时接收数据源发送过来的元数据,并将元数据写入分布式缓存队列中;
103、归档平台的流式数据处理组件实时从缓存队列中读取元数据,并处理成时空维度的关联子图写入到图形数据库中,完成天文元数据归档。
2.根据权利要求1所述的基于流式数据处理架构的天文元数据归档方法,其特征在于,所述步骤101在数据源部署Agent,实时监控数据源变化并生成元数据信息,包括:
Agent通过实时识别数据源文件存储目录MD5码的方式来获取数据源动态信息,并通过实时解析观测数据文件的方式来生成相应的元数据信息。
3.根据权利要求2所述的基于流式数据处理架构的天文元数据归档方法,其特征在于,所述Agent通过实时识别数据源文件存储目录MD5码的方式来获取数据源动态信息,具体实现方法为:
Agent通过设定一个文件目录MD5码观察器,以5s为周期扫描数据源所在文件目录的动态变化,如果数据源向文件目录写入新的观测数据,那么该文件目录的MD5码会发生变化,这时候观察器会依据MD5码的变化获取到新的观测数据文件信息,而后Agent数据解析器会从观测数据中提取元数据信息并按照预定的格式写入文本文件中。
4.根据权利要求1所述的基于流式数据处理架构的天文元数据归档方法,其特征在于,所述的102步骤Agent的数据采集模块会实时采集监控模块生成的元数据,并通过网络传输到指定元数据归档平台的消息缓存队列具体包括:数据源通过Flume实时采集Agent生成的元数据信息,同时Flume采用ExecSource的方式实时地将采集到的元数据信息发送到归档平台的消息队列。
5.根据权利要求4所述的基于流式数据处理架构的天文元数据归档方法,其特征在于,所述归档平台的消息队列采用Kafka分布存储,所以数据源和归档平台之间的元数据传输采用Kafka Producer标准。
6.根据权利要求1所述的基于流式数据处理架构的天文元数据归档方法,其特征在于,所述步骤103归档平台的流式数据处理组件实时从缓存队列中读取元数据,并处理成时空维度的关联子图写入到图形数据库中具体包括步骤:
设计Storm Topology实时从缓存消息队列中读取元数据信息,并对每一条元数据信息进行关联性处理而后生成和Neo4j的Cypher交互语句。
7.根据权利要求6所述的基于流式数据处理架构的天文元数据归档方法,其特征在于,所述对每一条元数据信息进行关联性处理具体包括:
Storm Topology流式数据处理拓扑对每条观测数据的元数据信息抽取空间维度上的二维赤经RA和赤纬DEC坐标信息、所属天区信息,以及时间维度上的具体观测时间,依据不同观测数据元数据在时空维度上的关联特性建立数据模型,处理成一张具有时空维度关联特性的子图。
8.一种基于流式数据处理架构的天文元数据归档系统,其特征在于,包括:采集模块、缓存模块、数据处理模块及数据库模块,其中所述采集模块部署在不同的数据源,实时监控数据源是否有新的观测数据产生,一旦检测有新的原始观测数据产生,采集模块会实时解析原始观测数据并抽取元数据并发送到归档平台的缓存模块;所述缓存模块用于缓存采集模块发送来的元数据,并采用分布式消息缓存队列;所述数据处理模块的流式数据处理组件会实时从缓存模块实时读取元数据并进行数据处理,最终生成时空维度相关联的子图,并转发给数据库模块;数据库模块,用于存储数据处理模块发送来的生成时空维度相关联的子图。
9.根据权利要求8所述的基于流式数据处理架构的天文元数据归档系统,其特征在于,所述数据源部署的采集模块为Agent,Agent包括元数据生产模块MetaProudcer和元数据采集模块Flume,Agent的元数据生产模块MetaProudcer负责实时监控数据源,一旦有新的数据产生,则立即解析新的观测数据并生成相应的元数据,而元数据采集模块Flume采用ExecSource的方式实时地将采集到的元数据信息发送到归档平台的消息队列,其中归档平台的元数据缓存采用Kafka分布式消息队列系统。
10.根据权利要求9所述的基于流式数据处理架构的天文元数据归档系统,其特征在于,所述Agent的元数据生产模块MetaProudcer首先开启MD5码观察器,以5s为周期扫描数据源所在文件目录的动态变化,如果数据源往文件目录写入新的观测数据,那么该文件目录的MD5码会发生变化,MetaProudcer的数据解析器同时实时识别数据源存储的文件目录MD5码的方式来获取数据源动态信息,而后通过I/O流的方式读取原始观测数据并过滤掉无用信息,最后按照预定格式将元数据信息写入到指定文本。
CN201710371260.3A 2017-05-24 2017-05-24 一种基于流式数据处理架构的天文元数据归档方法及系统 Active CN107317838B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710371260.3A CN107317838B (zh) 2017-05-24 2017-05-24 一种基于流式数据处理架构的天文元数据归档方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710371260.3A CN107317838B (zh) 2017-05-24 2017-05-24 一种基于流式数据处理架构的天文元数据归档方法及系统

Publications (2)

Publication Number Publication Date
CN107317838A true CN107317838A (zh) 2017-11-03
CN107317838B CN107317838B (zh) 2020-11-17

Family

ID=60183529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710371260.3A Active CN107317838B (zh) 2017-05-24 2017-05-24 一种基于流式数据处理架构的天文元数据归档方法及系统

Country Status (1)

Country Link
CN (1) CN107317838B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107979640A (zh) * 2017-11-21 2018-05-01 广东电网有限责任公司电力科学研究院 一种数据传输方法及装置
CN110278411A (zh) * 2019-05-27 2019-09-24 云南大学 一种天文望远镜图像远程监视系统及方法
CN110377653A (zh) * 2019-07-15 2019-10-25 武汉中地数码科技有限公司 一种实时大数据计算与存储方法及系统
CN110572478A (zh) * 2019-09-30 2019-12-13 重庆紫光华山智安科技有限公司 基于分布式架构服务和ftp服务的数据传输方法及系统
CN111641700A (zh) * 2020-05-25 2020-09-08 上海德拓信息技术股份有限公司 基于Ceph对象存储元数据的管理及检索的实现方法
CN111797158A (zh) * 2019-04-08 2020-10-20 北京沃东天骏信息技术有限公司 数据同步系统、方法和计算机可读存储介质
CN112631508A (zh) * 2020-11-25 2021-04-09 广州大学 射电天文数据存储性能优化方法、装置、服务器及存储介质
CN113779137A (zh) * 2020-06-29 2021-12-10 北京沃东天骏信息技术有限公司 一种数据归档的方法和装置
CN115499244A (zh) * 2022-11-16 2022-12-20 江花集团有限公司 一种基于数据湖的流式数据安全传输和存储方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030169290A1 (en) * 2002-03-11 2003-09-11 Fujitsu Limited User interface in network environment
CN103731298A (zh) * 2013-11-15 2014-04-16 中国航天科工集团第二研究院七〇六所 一种大规模分布式网络安全数据采集方法与系统
CN105512297A (zh) * 2015-12-10 2016-04-20 中国测绘科学研究院 一种基于分布式流式计算的空间数据处理方法与系统
CN105930381A (zh) * 2016-04-13 2016-09-07 国家海洋局第二海洋研究所 基于混合数据库架构的全球Argo数据存储与更新方法
CN106504169A (zh) * 2016-11-22 2017-03-15 苏州航天系统工程有限公司 一种基于流处理的内涝数据处理系统及其处理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030169290A1 (en) * 2002-03-11 2003-09-11 Fujitsu Limited User interface in network environment
CN103731298A (zh) * 2013-11-15 2014-04-16 中国航天科工集团第二研究院七〇六所 一种大规模分布式网络安全数据采集方法与系统
CN105512297A (zh) * 2015-12-10 2016-04-20 中国测绘科学研究院 一种基于分布式流式计算的空间数据处理方法与系统
CN105930381A (zh) * 2016-04-13 2016-09-07 国家海洋局第二海洋研究所 基于混合数据库架构的全球Argo数据存储与更新方法
CN106504169A (zh) * 2016-11-22 2017-03-15 苏州航天系统工程有限公司 一种基于流处理的内涝数据处理系统及其处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHAO ZHANG,KYLE BARARY,FRANK AUSTIN NOTHAF,EVAN SPARK: "《Scientific Computing Meets Big Data Technology An Astronomy Use Case》", 《IEEE INTERNATIONAL CONFERENCE ON BIG DATA》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107979640A (zh) * 2017-11-21 2018-05-01 广东电网有限责任公司电力科学研究院 一种数据传输方法及装置
CN107979640B (zh) * 2017-11-21 2020-08-14 广东电网有限责任公司电力科学研究院 一种数据传输方法及装置
CN111797158A (zh) * 2019-04-08 2020-10-20 北京沃东天骏信息技术有限公司 数据同步系统、方法和计算机可读存储介质
CN111797158B (zh) * 2019-04-08 2024-04-05 北京沃东天骏信息技术有限公司 数据同步系统、方法和计算机可读存储介质
CN110278411A (zh) * 2019-05-27 2019-09-24 云南大学 一种天文望远镜图像远程监视系统及方法
CN110377653A (zh) * 2019-07-15 2019-10-25 武汉中地数码科技有限公司 一种实时大数据计算与存储方法及系统
CN110572478A (zh) * 2019-09-30 2019-12-13 重庆紫光华山智安科技有限公司 基于分布式架构服务和ftp服务的数据传输方法及系统
CN111641700A (zh) * 2020-05-25 2020-09-08 上海德拓信息技术股份有限公司 基于Ceph对象存储元数据的管理及检索的实现方法
CN113779137A (zh) * 2020-06-29 2021-12-10 北京沃东天骏信息技术有限公司 一种数据归档的方法和装置
CN112631508A (zh) * 2020-11-25 2021-04-09 广州大学 射电天文数据存储性能优化方法、装置、服务器及存储介质
CN115499244A (zh) * 2022-11-16 2022-12-20 江花集团有限公司 一种基于数据湖的流式数据安全传输和存储方法

Also Published As

Publication number Publication date
CN107317838B (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN107317838A (zh) 一种基于流式数据处理架构的天文元数据归档方法及系统
US10423582B2 (en) System and method for investigating large amounts of data
US20190222603A1 (en) Method and apparatus for network forensics compression and storage
CN102436513B (zh) 分布式检索方法和系统
CN100449543C (zh) 一种日志保存方法及装置
US9501507B1 (en) Geo-temporal indexing and searching
CN104090889A (zh) 数据处理方法及系统
CN106528847A (zh) 一种海量数据的多维度处理方法及系统
US20150319238A1 (en) Method, device and storage medium for data processing
CN103678694A (zh) 视频资源的倒排索引文件建立方法及其系统
CN103942210A (zh) 海量日志信息的处理方法、装置与系统
CN103646073A (zh) 一种基于HBase表的条件查询优化方法
CN105550222A (zh) 一种基于分布式存储的图像服务系统及方法
CN103678491A (zh) 一种基于Hadoop中小文件优化和倒排索引的方法
CN106033324B (zh) 一种数据存储的方法和装置
CN103593418A (zh) 一种面向大数据的分布式主题发现方法及系统
CN111367991B (zh) 一种基于消息队列的MongoDB数据实时同步方法及系统
CN104156400A (zh) 一种海量网络流数据的存储方法及装置
CN111949850B (zh) 多源数据的采集方法、装置、设备及存储介质
CN106250287A (zh) 一种日志信息处理装置
CN106649578A (zh) 一种基于社交网络平台的舆情分析方法及系统
CN105205189A (zh) 基于容器的bim模型与高速采集数据系统的集成方法
KR101830504B1 (ko) 분산 환경 기반 빅데이터 실시간 분석을 위한 인-메모리 db 연결 지원형 스케줄링 방법 및 시스템
CN105245394A (zh) 一种基于分层方式分析网络访问日志的方法和设备
CN113010483A (zh) 一种海量日志管理方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant