CN111914031B - 一种基于大数据的星载磁场数据处理系统 - Google Patents
一种基于大数据的星载磁场数据处理系统 Download PDFInfo
- Publication number
- CN111914031B CN111914031B CN202010800766.3A CN202010800766A CN111914031B CN 111914031 B CN111914031 B CN 111914031B CN 202010800766 A CN202010800766 A CN 202010800766A CN 111914031 B CN111914031 B CN 111914031B
- Authority
- CN
- China
- Prior art keywords
- data
- satellite
- magnetic field
- module
- field data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
- G06F16/278—Data partitioning, e.g. horizontal or vertical partitioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/144—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/1851—Systems using a satellite or space-based relay
- H04B7/18517—Transmission equipment in earth stations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/06—Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Computing Systems (AREA)
- Astronomy & Astrophysics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Position Fixing By Use Of Radio Waves (AREA)
Abstract
本发明公开了一种基于大数据的星载磁场数据处理系统,包括数据传输模块、数据预处理模块、数据导入模块、数据存储管理模块、数据标定模块、数据应用模块,通过数据传输模块将地面接收的包括星载磁场数据的数据文件传送给具有多个预处理节点的数据预处理模块,对星载磁场数据进行并行预处理,使预处理后的数据存储到分布式数据库和时间序列数据库中,通过任务调度功能定时自动启动数据标定处理任务,基于大数据的并行处理框架进行标定处理,加快了自动标定的时间,标定后的数据仍存回分布式数据库和时间序列数据库中,为数据应用模块提供数据星载磁场数据,应用处理包含数据查询、可视化、处理、结果展示等功能,为用户提供了数据处理挖掘和探索的有效途径。
Description
技术领域
本发明涉及磁数据处理的技术领域,尤其涉及一种基于大数据的星载磁场数据处理系统。
背景技术
目前已有越来越多的卫星配置了磁场测量设备,特别是低轨卫星中的高采样率磁场传感器设备每天24小时长期运行,由于采样率高,每天将产生大量的磁场数据,以每颗星配置一个128Hz采样率的磁场传感器为例,多个探头同时采集时每帧的数据量可达60多个字节,因此每秒的数据量约为7.5KB,每天的数据量约为633MB的数据量,24颗小卫星每天产生的数量将超过15GB,再加上卫星姿态等多种辅助数据,长期运行后,需要处理的星载磁数据量将是非常庞大。
因此,采用常规的磁场数据处理方式对如此庞大的数据量进行处理,将存在效率极低的问题,将不能满足自动处理要求,需要开发一种新的数据处理系统,以处理庞大的星载磁数据。
发明内容
本申请实施例通过提供一种基于大数据的星载磁场数据处理系统,解决了现有技术中随着星载磁数据量的日益增大,常规的磁场数据处理方式存在的效率低的问题。
本申请通过本申请的一实施例提供如下技术方案:
一种基于大数据的星载磁场数据处理系统,包括:数据传输模块、数据预处理模块、数据导入模块、数据存储管理模块、数据标定模块、数据应用模块,其中,所述数据传输模块,用于将从卫星站接收的数据文件传送给所述数据预处理模块,其中,所述数据文件包括多个卫星对应的数据记录,单个卫星对应的数据记录包括所述卫星的多条星载磁场数据、所述卫星的辅助数据及所属信息,所述星载磁场数据包括星上时间戳,所述所属信息包括卫星编号或设备编号;所述数据预处理模块,包括一个预处理管道和多个预处理节点,所述预处理管道用于接收所述数据文件,并基于负载均衡策略将所述数据文件内的所述每条星载磁场数据分发给所述多个预处理节点,所述预处理节点,基于所述星上时间戳及所述所属信息,对所述星载磁场数据进行预处理,经过预处理后的所述星载磁场数据包括所述所属信息和所述星上时间戳对应的地面时间信息;所述数据导入模块,用于将所述预处理后的星载磁场数据导入所述数据存储管理模块;所述数据标定模块,包括调度子模块和多个标定节点,调度子模块,用于自动定时地启动标定处理任务,以使所述多个标定节点,基于所述负载均衡策略从所述数据存储管理模块中,获取所述预处理后的星载磁场数据及对应的所述辅助数据进行标定,将标定后的所述星载磁场数据存入所述数据存储管理模块;所述数据存储管理模块,包括:分布式数据库和/或时间序列数据库,所述分布式数据库基于所述所属信息和所述地面时间信息对所述预处理后的星载磁场数据及所述标定后的星载磁场数据进行分区,所述时间序列数据库基于时间的顺序变化对所述预处理后的星载磁场数据及所述标定后的星载磁场数据进行排序;所述数据应用模块,基于所述数据存储管理模块中的所述预处理后的星载磁场数据和/或所述标定后的星载磁场数据,输出目标服务。
在一个实施例中,所述数据传输模块包括:位于地面接收站的发送模块,用于从所述卫星站接收所述数据文件,将所述数据文件划分为多个第一数据子文件后,将每个所述第一数据子文件发送给接收模块;位于数据处理中心的所述接收模块,用于接收所述每个第一数据子文件,并将所述第一数据子文件发送给所述预处理管道。
在一个实施例中,所述发送模块,还用于每发送完一个所述第一数据子文件后,将所述第一数据子文件的属性信息记录到key-value数据库,所述属性信息包括文件名称、大小、传输状态,并在发送下一个所述第一数据子文件之前,对所述key-value数据库进行查询,以避免重复发送相同的第一数据子文件。
在一个实施例中,所述预处理节点,还用于根据所述所属信息和时间信息,将所述预处理后的星载磁场数据存储到对应的第二数据子文件中,其中,所述时间信息包括所述星上时间戳或所述地面时间信息,同一个所述第二数据子文件中存储的各条所述预处理后的星载磁场数据携带的所述所属信息相同,且所述时间信息属于同一预设时间段,并基于所述时间信息对每个所述第二数据子文件内的多条所述预处理后的星载磁场数据进行时间排序后,进行去重处理。
在一个实施例中,所述预处理节点,还基于预设数据格式对所述星载磁场数据的数据格式进行有效性检查,其中,当所述星载磁场数据存在缺失字段时,对所述星载磁场数据进行所述缺失字段的填充;当所述星载磁场数据不满足所述预设数据格式时,对所述星载磁场数据进行删除。
在一个实施例中,所述分布式数据库包括高采样率分布式数据库和低采样率分布式数据库。
在一个实施例中,所述数据导入模块包括:监控目录、降采样模块及数据库操作模块;所述监控目录,用于自动对目录进行监控,当目录中有数据时,将所述数据发送给所述降采样模块,所述目录中的数据由所述预处理节点在对所述星载磁场数据进行预处理后存入;所述降采样模块,用于对所述预处理后的星载磁场数据进行降采样,获得降采样后的所述星载磁场数据;所述数据库操作模块,用于将所述预处理后的星载磁场数据分别存入所述高采样率分布式数据库和所述时间序列数据库,还用于将所述降采样后的星载磁场数据存入所述时间序列数据库。
在一个实施例中,所述标定节点,对所述预处理后的星载磁场数据进行温度补偿、坐标变换、背景噪声过滤和有效信号提取,以获得所述标定后的星载磁场数据。
在一个实施例中,所述数据标定模块,还用于在获得标定后的星载磁场数据的过程中,发生数据处理出错、数据改动或者标定算法变动时,重新执行获得所述标定后的星载磁场数据的过程,并在执行完成后,将重新获得的所述标定后的星载磁场数据存回所述数据存储管理模块。
在一个实施例中,所述目标服务包括:数据查询、数据下载、数据处理、处理结果输出、处理结果上传中的一种或多种。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
申请人发现,现有的常规的磁场数据处理方式,采用集中式、手动的方式对星载磁场数据进行处理,且数据的存储管理也是按照存入时间进行单一的管理,对于庞大的数据量,显然存在效率极低的问题,本申请实施例提供的基于大数据的星载磁场数据处理系统,通过设置具有多个预处理节点的数据预处理模块,对星载磁场数据进行预处理,实现数据预处理过程的并行处理;通过调度子模块的调度功能,实现标定处理的定时自动处理;通过基于大数据的并行处理框架,对预处理后的星载磁场数据进行标定,实现数据标定过程的并行执行;通过对分布式数据库基于卫星信息和地面时间进行分区存储,以及借助时间序列数据库对时间序列数据的处理优化能力,提高了数据标定处理以及数据应用处理的速度;通过数据应用模块,给用户提供了数据查询、可视化、处理等探索手段以及处理结果展示功能。
本发明可实现PB级的数据存储、标校、挖掘探索和展示,并且实现了整个处理过程的自动化,且通过日志等手段使得整个过程具备高可用和高可靠性,功能完备,运维简单,解决了现有技术中随着星载磁数据量的日益增大,常规的磁场数据处理方式存在的问题,特别适应于长时间运行的星载高采样率磁场数据处理。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一提供的一种基于大数据的星载磁场数据处理系统的架构图;
图2为本申请实施例一提供的数据存储管理模块的架构图;
图3为本申请实施例一提供的数据导入模块进行数据导入的过程示意图。
具体实施方式
本申请实施例通过提供一种基于大数据的星载磁场数据处理系统,解决了现有技术中随着星载磁数据量的日益增大,常规的磁场数据处理方式存在的效率低的问题。
本申请实施例的技术方案为解决上述技术问题,总体思路如下:
申请人发现,现有的常规的磁场数据处理方式,采用集中式、手动的方式对星载磁场数据进行处理,且数据的存储管理也是按照存入时间进行单一的管理,对于庞大的数据量,显然存在效率极低的问题,本申请实施例提供的基于大数据的星载磁场数据处理系统,通过设置具有多个预处理节点的数据预处理模块,对星载磁场数据进行预处理,实现数据预处理过程的并行处理;通过调度子模块的调度功能,实现标定处理的定时自动处理;通过基于大数据的并行处理框架,对预处理后的星载磁场数据进行标定,实现数据标定过程的并行执行;通过对分布式数据库基于卫星信息和地面时间进行分区存储,以及借助时间序列数据库对时间序列数据的处理优化能力,提高了数据标定处理以及数据应用处理的速度;通过数据应用模块,给用户提供了数据查询、可视化、处理等探索手段以及处理结果展示功能。
本发明可实现PB级的数据存储、标校、挖掘探索和展示,并且实现了整个处理过程的自动化,且通过日志等手段使得整个过程具备高可用和高可靠性,功能完备,运维简单,解决了现有技术中随着星载磁数据量的日益增大,常规的磁场数据处理方式存在的问题,特别适应于长时间运行的星载高采样率磁场数据处理。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
首先说明,本文中出现的术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
实施例一
如图1所示,本实施例提供了一种基于大数据的星载磁场数据处理系统,包括:
数据传输模块101、数据预处理模块102、数据导入模块103、数据存储管理模块104、数据标定模块105、数据应用模块106,其中,
数据传输模块101,与数据预处理模块102连接,用于将从卫星站接收的数据文件传送给数据预处理模块102,其中,数据文件包括多个卫星对应的数据记录,单个卫星对应的数据记录包括该卫星的多条星载磁场数据、该卫星的辅助数据及所属信息,星载磁场数据包括星上时间戳,所属信息包括卫星编号或设备编号;
具体实施过程中,数据传输模块101将从卫星站接收的数据文件以卫星为单位划分为多个第一数据子文件,每个第一数据子文件为单个卫星对应的数据记录,每个第一数据子文件包括该卫星的多条星载磁场数据、该卫星的辅助数据及所属信息。
进一步地,每个第一数据子文件以所属信息(例如:卫星编号或设备编号)作为文件名称,以使第一数据子文件包括所属信息,此处的设备编号为用于测量该数据文件对应的卫星的磁场传感器的编号。
星载磁场数据本身包括:磁场传感器测定的携带有三分量的磁场数据信息(X方向的磁场分量、Y方向的磁场分量、Z方向的磁场分量)及星上时间戳,该星上时间戳为基于卫星站的系统时间形成的时间戳,卫星站的系统时间和地面的系统时间属于不同的两个系统时间。
每颗卫星的第一数据子文件中的辅助数据,具体包括该卫星的卫星轨道姿态、卫星站的温度数据。
作为一种可选的实施例,数据传输模块101包括:发送模块和接收模块,其中,
发送模块位于远端的地面接收站,接收模块位于数据处理中心,本星载磁场数据处理系统中的数据预处理模块102、数据导入模块103、数据存储管理模块104、数据标定模块105、数据应用模块106均处于该数据处理中心处。
具体的,发送模块包括登录子模块、传输子模块、日志记录子模块,其中,
登录子模块用于用户管理,通过获取数据处理中心的IP地址及用户通过应用前端输入的用户名称、密码,登录传输子模块;
传输子模块负责数据的传输,具体为:从卫星站接收数据文件,将数据文件划分为多个第一数据子文件后,将每个第一数据子文件通过TCP协议(Transmission ControlProtocol,传输控制协议)或FTP协议(File Transfer Protocol,文件传输协议)依次发送给接收模块,对于未完成传输的数据文件,还能够将该未完成传输的数据文件进行再次传输,具备断点续传的能力。
日志记录子模块,还用于在每发送完一个第一数据子文件后,将第一数据子文件的属性信息记录到key-value(关键对)数据库,属性信息包括文件名称、大小、传输状态。
本实施例中,传输子模块在传输每一个第一数据子文件前,还基于key-value数据库按文件名称进行检索,避免已经传输的第一数据子文件重复传输。
进一步地,发送模块还包括加解密子模块,用于在传输第一数据子文件之前进行加密,将加密后的第一数据子文件传输给接收模块,保障数据安全。
本实施例中的接收模块,用于接收每个第一数据子文件,并将每个第一数据子文件发送给数据预处理模块102的预处理管道。
针对于本星载磁场数据处理系统的数据预处理模块102:
该数据预处理模块102包括一个预处理管道和多个预处理节点,预处理管道用于接收数据文件,并基于负载均衡策略将数据文件内的每条星载磁场数据分发给多个预处理节点,预处理节点,基于星上时间戳及所属信息,对星载磁场数据进行预处理,经过预处理后的星载磁场数据包括所属信息和星上时间戳对应的地面时间信息。
具体实施过程中,数据预处理模块102的预处理管道和多个预处理节点可借助分布式订阅消息系统kafka实现,在该系统中,包括数据消息生产者(即预处理管道)和多个消费者(即预处理节点),接收模块负责将星载磁场数据包发送到数据预处理模块102的生产者服务器中,多个消费者服务器并行地从生产者服务器中获取要预处理的数据进行预处理,此种实现方式,使得数据预处理模块102为分布式架构,对于预处理的数据具有高吞吐量,并且能够对进入管道的数据持久化,保障数据的稳定安全。
需要说明的是,本实施例中,预处理为对数据的标准化处理,是为提供目标服务而必须对数据执行的处理,包括:时间转换、添加所属信息字段、数据有效性检查、数据去重,下面分别对上述预处理过程进行详述,具体如下:
作为一种可选的实施例,上述时间转换、添加所属信息的预处理过程中,预处理节点,针对每条星载磁场数据,将星载磁场数据对应的星上时间戳转换为地面时间信息,还用于将地面时间信息及该星载磁场数据对应卫星的所属信息添加到星载磁场数据中,以获得预处理后的星载磁场数据。
上述数据有效性检查的预处理过程中,预处理节点,还基于预设数据格式对数据文件中的每条星载磁场数据的数据格式进行有效性检查,其中,
当星载磁场数据存在缺失字段时,对星载磁场数据进行缺失字段的填充;
当星载磁场数据不满足预设数据格式时,对星载磁场数据进行删除。
进一步地,上述时间转换、添加所属信息和数据有效性检查完成后,还根据所属信息和地面时间信息,将预处理后的星载磁场数据存储到对应的第二数据子文件中,其中,时间信息包括星上时间戳或地面时间信息,同一个第二数据子文件中存储的各条预处理后的星载磁场数据携带的所属信息相同,且时间信息属于同一预设时间段,进而将所有的预处理后的星载磁场数据划分到多个第二数据子文件中。
在获取到第二数据子文件后,基于时间信息对每个第二数据子文件内的多条预处理后的星载磁场数据进行时间排序后,进行去重处理。
具体的,第二数据子文件首先以卫星编号或星载磁场传感器的设备编号进行划分,并以每一小时的间隔为预设时间段,预处理节点根据每条预处理后的星载磁场数据上携带的所属信息、以及地面时间信息,判断此条数据记录属于哪个设备以及位于哪个小时内,就将该星载磁场数据划分到对应的数据子文件中。
本实施例中,将地面时间信息及所属信息添加到星载磁场数据中,获得的预处理后的星载磁场数据,便于后续存储和管理的便捷,也能避免数据处理时的混乱。
另外,需要说明的是,本实施中,数据去重的预处理过程是基于一个卫星对应的数据下的第二数据子文件进行的,该第二数据子文件不涉及其他卫星的数据,因此,省去了从海量数据中搜索同一个卫星的数据的繁琐计算,同时,将数据基于时间的排列划分为多个第二数据子文件,减小了数据去重处理时的数据量。
针对于本星载磁场数据处理系统的数据存储管理模块104:
作为一种可选的实施例,如图2所示,数据存储管理模块104,包括:分布式数据库1041和/或时间序列数据库1042,分布式数据库1041基于所属信息(卫星编号或设备编号)、及地面时间信息对存储的数据进行分区,时间序列数据库1042基于时间的顺序变化对存储的数据进行排序,进一步地,分布式数据库1041包括高采样率分布式数据库10411和低采样率分布式数据库10412。
作为一个示例,分布式数据库1041使用Hive数据库实现,由于Hive数据库底层依靠HDFS(Hadoop Distributed File System)分布式文件系统实现,可自动实现数据备份以及负载均衡,保障数据的安全和处理效率,分布式数据库提供了命令行、浏览器和客户端的用户接口对数据进行查询、插入、删除等操作,方便用户使用和管理数据。
作为一个示例,时间序列数据库1042使用Opentsdb数据库,opentsdb数据库支持毫秒级的数据存储查询,因此适合高采样率的数据存储,同时能够按照时间、标签快速查询,支持数据的降采样、值过滤以及平均、求和等聚合查询功能,另外,时间序列数据库1042还使用Grafana可视化工具作为可视化操作管理客户端,可快速可视化数据,同时实现仪表盘功能,便于对数据进行监控和探索。
上述Hive数据库和Opentsdb都是可伸缩、可扩展、高容错的数据库,可处理PB级的数据,适合大数据量的存储和处理。
本实施例中,分布式数据库基于所属信息和地面时间信息对存储的数据进行分区,便于基于所属信息和地面时间信息的搜索对数据进行快速定位,将分布式数据库分为高采样率分布式数据库10411和低采样率分布式数据库10412,便于根据自身对数据的采样率的高、低需求,快速定位所需求的数据。
针对于本星载磁场数据处理系统的数据导入模块103:
该数据导入模块103与数据存储管理模块104连接,用于将预处理后的星载磁场数据导入数据存储管理模块104。
作为一种可选的实施例,如图3所示,数据导入模块103包括:监控目录1031、降采样模块1032以及数据库操作模块;
监控目录1031自动对目录中的数据进行导入到降采样模块1032中进行处理,当导入完毕后自动删除源文件,目录中的数据来源于预处理节点,预处理节点在对星载磁场数据进行预处理后,将获得的预处理后的星载磁场数据存入到数据导入模块103中的监控目录1031中。
降采样模块1032,用于对预处理后的星载磁场数据进行降采样,获得降采样后的星载磁场数据;
数据库操作模块,用于将预处理后的星载磁场数据(128Hz的高采样数据)分别存入高采样率分布式数据库10411和时间序列数据库1042,还用于将降采样后的星载磁场数据存入低采样率分布式数据库10412。
具体实施过程中,数据导入模块103可用ETL(Extract-Transform-Load)数据仓库工具实现,作为一种示例,可用streamsets工具实现,基于streamsets工具实现的数据导入模块103能够可视化整个导入过程,包括导入的状态,记录条数,目前导入进度等,便于对数据导入过程的监控和管理。
本实施例中,降采样模块1032一方面直接将高采样率的数据传递到高采样率分布式数据库驱动模块,作为一个示例,高采样率分布式数据库操作模块1041操作的数据库为Hive数据库;另一方面,对高采样的数据进行降采样处理,并将降采样后的数据传递到低采样分布式数据库操作模块中,低采样率分布式数据库操作模块操作的数据库仍使用Hive数据库。
作为一个示例,降采样处理是通过Jython处理单元实现,使用CIC滤波(Cascadedintegrator–comb,级联积分-梳状滤波)和FIR滤波(Finite Impulse Response,有限长单位冲激响应滤波)算法,将原始高采样率(128HZ)的星载磁场数据通过滤波抽取至1Hz的数据。
需要说明的是,上述将原始的高采样的星载磁场数据直接存入高采样率分布式数据库10411,一方面将经过降采样的星载磁场数据直接存入低采样率分布式数据库10412中,能够满足各种用户对于不同分辨率数据的需求,避免后续处理需要时,才对数据进行降采样导致的低效率问题。
上述存入高采样率分布式数据库10411中的预处理后的星载磁场数据和存入低采样率分布式数据库10412中的降采样后的星载磁场数据均基于所属信息和地面时间信息对存储的数据进行分区,便于基于所属信息和地面时间信息的搜索对数据进行快速定位。
上述存入时间序列数据库1042中的预处理后的星载磁场数据基于时间的顺序变化进行分区,便于充分利用时间序列数据库1042针对时间序列数据的优化特性对数据进行快速处理。
针对于本星载磁场数据处理系统的数据标定模块105:
数据标定模块105,与数据存储管理模块104连接,包括调度子模块和多个标定节点,调度子模块,用于自动定时地启动标定处理任务,以使多个标定节点,基于负载均衡策略从数据存储管理模块104中,获取预处理后的星载磁场数据及对应的辅助数据进行标定,将标定后的星载磁场数据存入数据存储管理模块104。
数据标定模块105为由多个标定节点构成的分布式架构,通过标定节点实现任务的执行,数据标定模块105还包括:调度子模块,用于实现标定任务的自动化执行。作为一个示例,数据标定模块105基于Airflow实现,包括:元数据库、调度器、执行器和多个worker(工作组,即本实施例中的标定节点),基于Airflow的有向无环图,可以将多个处理步骤可靠的整合,并能进行细粒度监控,可查看每个处理步骤执行状态以及执行时间。
本实施例中,标定包括:对预处理后的星载磁场数据进行温度补偿、坐标变换、背景噪声过滤和有效信号提取,以获得标定后的星载磁场数据。下面分别对上述标定过程进行详述,具体如下:
数据标定模块105基于调度子模块的任务自动定时调度功能,每天定时自动处理前一天的数据内容,还可以手动指定要处理的数据内容。当标定处理开始后,首先执行数据库查询,将前一天的星载磁场数据和辅助数据读出到临时文件中,然后,利用卫星站的温度数据对星载磁场数据进行温度补偿处理,温度补偿需要利用在地面标定时,磁场传感器和温度的关系进行校正。
再利用卫星轨道姿态对星载磁场数据进行坐标变换,具体为,通过磁场传感器的安装坐标与卫星坐标关系,将星载磁场数据的磁场测量坐标转为实际的磁场坐标。
最后通过磁场传感器的多个探头之间测量的磁场强度差异以及卫星的工作工况,判断并去除背景干扰磁场的影响,提取出有效的星载磁场数据,得到标定后的星载磁场数据,然后将星载磁场数据存回原始储存位置,为数据共享和应用处理提供数据。
本实施例中标定处理的各个步骤均通过spark计算引擎进行并行处理,加快了处理的速度。
进一步地,数据标定模块105,还用于在获得标定后的星载磁场数据的过程中,发生数据处理出错、数据改动或者标定算法变动时,重新执行获得标定后的星载磁场数据的过程,并在执行完成后,将重新获得的标定后的星载磁场数据存回数据存储管理模块104。
即本实施例中,数据标定过程具备数据回填的能力,当某一天的数据处理出错、数据有改动或者标定算法有改动时,可以清除以前的处理记录,然后手动启动数据回填,重新将当天的数据处理一遍,实现数据修正的能力。
数据应用模块106,与数据存储管理模块104连接,基于数据存储管理模块104中的预处理后的星载磁场数据和/或标定后的星载磁场数据,输出目标服务。
具体的,数据应用模块106提供的目标服务为数据查询、数据下载、数据处理、处理结果输出、处理结果上传中的一种或多种。
数据处理可以为:数据噪声水平的计算、主磁场模型图的获取、岩石图的获取。
为提供上述目标服务,该数据应用模块106分为前端和后端两个部分,前端为浏览器,后端为web处理服务器,其中,
前端,用于接收用户的请求信息,该请求信息用于向系统请求提供目标服务,并向用户呈现目标服务,作为一个示例,对于数据查询服务,用户可以在前端输时间段作为筛选条件进行查询预处理后的星载磁场数据和标定后的星载磁场数据,同时可以通过为所属信息(设备编号或卫星编号)、及磁场方向(包括X、Y、Z三个方向,依据该过滤条件可以获得不同分量的磁场数据)作为过滤条件进行查询;
后端,用于根据用户输入的请求信息,从数据存储管理模块104中获取预处理后的星载磁场数据和/或标定后的星载磁场数据进行处理,以输出目标服务,作为一个示例,沿用上述数据查询服务,可以根据用户通过前端输入的磁场方向、所属信息、时间段,通过spark并行对数据库进行筛选,并以数据表格和数据曲线两种方式输出查询结果,以使前端向用户呈现目标服务,曲线显示是通过D3.js实现。
进一步地,数据应用模块106可以对查询结果的曲线进行缩放、去掉平均值显示(查看波动细节)、显示本段时间内的噪声水平等功能。
数据应用模块106,还具有用户和权限管理功能,保障数据的安全,同时具有所属信息配置功能,可对卫星的信息进行配置。
数据应用模块106,还用于提供数据在线处理功能,提供python、IDL(InteractiveData Language,交互式数据语言)和matlab语言的运行环境,并提供了相应语言的数据库查询接口,具体的,本功能通过在后端搭建Jupyter Hub服务器并安装IDL和matlab的kernel(实时操作系统)实现,用户通过前端数据处理界面,调用提供的对应语言的数据查询接口返回要处理的数据,然后可进一步编程对数据进行处理。
数据应用模块还具有数据处理结果展示功能,用户将处理的数据或图片通过浏览器网页前端上传至后端服务器,在结果展示界面可查看到上传的处理结果文件以及用户信息,例如:可上传处理的主磁场模型或岩石圈模型等进行展示。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
本发明提出了一种基于大数据平台的星载磁场数据处理系统,此系统可以自动实现从地面接收站接收数据开始到数据预处理、标定处理以及数据应用处理的整个星载磁场数据处理的全部过程。该系统基于分布式架构的大数据平台,可以实现PB级数据的存储和快速处理,通过使用分布式数据库保障了数据的存储安全以及高扩展性,通过大数据并行处理的能力,提高了处理的速度,通过大数据的ETL工具的处理能力,实现了各个流程的可视化和细粒度管理。并且系统提供了多种数据查询、可视化以及处理的方式,极大方便了用对数据的处理和探索。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于大数据的星载磁场数据处理系统,其特征在于,包括:
数据传输模块、数据预处理模块、数据导入模块、数据存储管理模块、数据标定模块、数据应用模块,其中,
所述数据传输模块,用于将从卫星站接收的数据文件传送给所述数据预处理模块,其中,所述数据文件包括多个卫星对应的数据记录,单个卫星对应的数据记录包括所述卫星的多条星载磁场数据、所述卫星的辅助数据及所属信息,所述星载磁场数据包括星上时间戳,所述所属信息包括卫星编号或设备编号;
所述数据预处理模块,包括一个预处理管道和多个预处理节点,所述预处理管道用于接收所述数据文件,并基于负载均衡策略将所述数据文件内的每条所述星载磁场数据分发给所述多个预处理节点,所述预处理节点,基于所述星上时间戳及所述所属信息,对所述星载磁场数据进行预处理,经过预处理后的所述星载磁场数据包括所述所属信息和所述星上时间戳对应的地面时间信息;
所述数据导入模块,用于将所述预处理后的星载磁场数据导入所述数据存储管理模块;
所述数据标定模块,包括调度子模块和多个标定节点,调度子模块,用于自动定时地启动标定处理任务,以使所述多个标定节点,基于所述负载均衡策略从所述数据存储管理模块中,获取所述预处理后的星载磁场数据及对应的所述辅助数据进行标定,将标定后的所述星载磁场数据存入所述数据存储管理模块;
所述数据存储管理模块,包括:分布式数据库和/或时间序列数据库,所述分布式数据库基于所述所属信息和所述地面时间信息对所述预处理后的星载磁场数据及所述标定后的星载磁场数据进行分区,所述时间序列数据库基于时间的顺序变化对所述预处理后的星载磁场数据及所述标定后的星载磁场数据进行排序;
所述数据应用模块,基于所述数据存储管理模块中的所述预处理后的星载磁场数据和/或所述标定后的星载磁场数据,输出目标服务。
2.如权利要求1所述的星载磁场数据处理系统,其特征在于,所述数据传输模块包括:
位于地面接收站的发送模块,用于从所述卫星站接收所述数据文件,将所述数据文件划分为多个第一数据子文件后,将每个所述第一数据子文件发送给接收模块;
位于数据处理中心的所述接收模块,用于接收每个所述第一数据子文件,并将所述第一数据子文件发送给所述预处理管道。
3.如权利要求2所述的星载磁场数据处理系统,其特征在于,
所述发送模块,还用于每发送完一个所述第一数据子文件后,将所述第一数据子文件的属性信息记录到key-value数据库,所述属性信息包括文件名称、大小、传输状态,并在发送下一个所述第一数据子文件之前,对所述key-value数据库进行查询,以避免重复发送相同的第一数据子文件。
4.如权利要求1所述的星载磁场数据处理系统,其特征在于,
所述预处理节点,还用于根据所述所属信息和时间信息,将所述预处理后的星载磁场数据存储到对应的第二数据子文件中,其中,
所述时间信息包括所述星上时间戳或所述地面时间信息,同一个所述第二数据子文件中存储的各条所述预处理后的星载磁场数据携带的所述所属信息相同,且所述时间信息属于同一预设时间段,并基于所述时间信息对每个所述第二数据子文件内的多条所述预处理后的星载磁场数据进行时间排序后,进行去重处理。
5.如权利要求1所述的星载磁场数据处理系统,其特征在于,
所述预处理节点,还基于预设数据格式对所述星载磁场数据的数据格式进行有效性检查,其中,
当所述星载磁场数据存在缺失字段时,对所述星载磁场数据进行所述缺失字段的填充;
当所述星载磁场数据不满足所述预设数据格式时,对所述星载磁场数据进行删除。
6.如权利要求1所述的星载磁场数据处理系统,其特征在于,所述分布式数据库包括高采样率分布式数据库和低采样率分布式数据库。
7.如权利要求6所述的星载磁场数据处理系统,其特征在于,
所述数据导入模块包括:监控目录、降采样模块及数据库操作模块;
所述监控目录,用于自动对目录进行监控,当目录中有数据时,将所述数据发送给所述降采样模块,所述目录中的数据由所述预处理节点在对所述星载磁场数据进行预处理后存入;
所述降采样模块,用于对所述预处理后的星载磁场数据进行降采样,获得降采样后的所述星载磁场数据;
所述数据库操作模块,用于将所述预处理后的星载磁场数据分别存入所述高采样率分布式数据库和所述时间序列数据库,还用于将所述降采样后的星载磁场数据存入所述时间序列数据库。
8.如权利要求1所述的星载磁场数据处理系统,其特征在于,所述标定节点,对所述预处理后的星载磁场数据进行温度补偿、坐标变换、背景噪声过滤和有效信号提取,以获得所述标定后的星载磁场数据。
9.如权利要求1所述的星载磁场数据处理系统,其特征在于,所述数据标定模块,还用于在获得标定后的星载磁场数据的过程中,发生数据处理出错、数据改动或者标定算法变动时,重新执行获得所述标定后的星载磁场数据的过程,并在执行完成后,将重新获得的所述标定后的星载磁场数据存回所述数据存储管理模块。
10.如权利要求1所述的星载磁场数据处理系统,其特征在于,所述目标服务包括:数据查询、数据下载、数据处理、处理结果输出、处理结果上传中的一种或多种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010800766.3A CN111914031B (zh) | 2020-08-11 | 2020-08-11 | 一种基于大数据的星载磁场数据处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010800766.3A CN111914031B (zh) | 2020-08-11 | 2020-08-11 | 一种基于大数据的星载磁场数据处理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111914031A CN111914031A (zh) | 2020-11-10 |
CN111914031B true CN111914031B (zh) | 2021-03-16 |
Family
ID=73283826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010800766.3A Active CN111914031B (zh) | 2020-08-11 | 2020-08-11 | 一种基于大数据的星载磁场数据处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914031B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010490A (zh) * | 2021-02-22 | 2021-06-22 | 北京字节跳动网络技术有限公司 | 数据存储方法、装置和电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081641A (zh) * | 2010-10-15 | 2011-06-01 | 上海海洋大学 | 基于gpu的实时数据流高速匹配分析系统的设计 |
CN105094982A (zh) * | 2014-09-23 | 2015-11-25 | 航天恒星科技有限公司 | 一种多星遥感数据处理系统 |
CN105631027A (zh) * | 2015-12-30 | 2016-06-01 | 中国农业大学 | 一种面向企业商务智能的数据可视化分析方法和系统 |
CN108874982A (zh) * | 2018-06-11 | 2018-11-23 | 华南理工大学 | 一种基于Spark大数据框架离线实时处理数据的方法 |
CN109001776A (zh) * | 2018-06-04 | 2018-12-14 | 北京未来导航科技有限公司 | 一种基于云计算的导航数据处理方法及系统 |
CN109165272A (zh) * | 2018-08-21 | 2019-01-08 | 东北大学 | 面向高分遥感影像的地理信息可视化分析系统 |
US10348810B1 (en) * | 2015-04-06 | 2019-07-09 | EMC IP Holding Company LLC | Scalable distributed computations utilizing multiple distinct clouds |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413599A (zh) * | 2019-06-18 | 2019-11-05 | 上海展湾信息科技有限公司 | 数据实时处理与存储系统及方法 |
CN111124679B (zh) * | 2019-12-19 | 2023-11-21 | 南京莱斯信息技术股份有限公司 | 一种面向多源异构海量数据限时自动处理方法 |
-
2020
- 2020-08-11 CN CN202010800766.3A patent/CN111914031B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081641A (zh) * | 2010-10-15 | 2011-06-01 | 上海海洋大学 | 基于gpu的实时数据流高速匹配分析系统的设计 |
CN105094982A (zh) * | 2014-09-23 | 2015-11-25 | 航天恒星科技有限公司 | 一种多星遥感数据处理系统 |
US10348810B1 (en) * | 2015-04-06 | 2019-07-09 | EMC IP Holding Company LLC | Scalable distributed computations utilizing multiple distinct clouds |
CN105631027A (zh) * | 2015-12-30 | 2016-06-01 | 中国农业大学 | 一种面向企业商务智能的数据可视化分析方法和系统 |
CN109001776A (zh) * | 2018-06-04 | 2018-12-14 | 北京未来导航科技有限公司 | 一种基于云计算的导航数据处理方法及系统 |
CN108874982A (zh) * | 2018-06-11 | 2018-11-23 | 华南理工大学 | 一种基于Spark大数据框架离线实时处理数据的方法 |
CN109165272A (zh) * | 2018-08-21 | 2019-01-08 | 东北大学 | 面向高分遥感影像的地理信息可视化分析系统 |
Non-Patent Citations (2)
Title |
---|
Analisys of Kazakhstan satellite images by distributed system Hadoop;Andrey Bogdanchikov等;《ResearchGate》;20160406;第1-5页 * |
基于kubernetes的海洋遥感数据产品服务平台设计与实现;金九平等;《信息技术》;20200131;第27-34页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111914031A (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11507594B2 (en) | Bulk data distribution system | |
CN111078488B (zh) | 数据采集方法、装置、存储介质及系统 | |
US11669507B2 (en) | Indexing and relaying data to hot storage | |
US20160004734A1 (en) | Secure data isolation in a multi-tenant historization system | |
CN112559475B (zh) | 数据实时捕获和传输方法及系统 | |
CN112995327B (zh) | 一种云平台系统、工厂端、工业云平台及服务对接系统 | |
CN103020169A (zh) | 一种电力数据的有效性及唯一性处理方法 | |
CN111914031B (zh) | 一种基于大数据的星载磁场数据处理系统 | |
CN101446951A (zh) | 用于提供最近和摘要数据的压缩数据存储 | |
CN113946294A (zh) | 一种分布式储存系统及其数据处理方法 | |
CA3167981A1 (en) | Offloading statistics collection | |
CN112069264A (zh) | 异构数据源采集方法、装置、电子设备及存储介质 | |
WO2022057640A1 (zh) | 数据处理方法和汽车大数据管理云平台 | |
Casaní et al. | ATLAS EventIndex general dataflow and monitoring infrastructure | |
US11719857B1 (en) | System and method for providing a reanalysis ensemble service | |
Viazilov et al. | On the Development of a Pipeline for Processing Hydrometeorological Data. | |
CN110096638B (zh) | 一种灌区气象与遥感信息监测平台 | |
CN111914146A (zh) | 一种便于大数据交互且自动提取的商务软件平台 | |
Hodgkinson et al. | SAFAL: A mapreduce spatio-temporal analyzer for UNAVCO FTP logs | |
CN117609315B (zh) | 一种数据处理方法、装置、设备及可读存储介质 | |
CN110955709A (zh) | 一种数据的处理方法、装置及电子设备 | |
US11501394B1 (en) | System and method for providing an improved earth observing system forward processing data analytic service | |
Lynnes et al. | Archive management of NASA earth observation data to support cloud analysis | |
Han et al. | Latency analysis of large volume satellite data transmissions | |
CN112905695B (zh) | 基于数据同步服务的辅助勘察设计系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |