CN116089366B - 通用可配置的非结构化气象数据处理方法和装置 - Google Patents

通用可配置的非结构化气象数据处理方法和装置 Download PDF

Info

Publication number
CN116089366B
CN116089366B CN202211678248.4A CN202211678248A CN116089366B CN 116089366 B CN116089366 B CN 116089366B CN 202211678248 A CN202211678248 A CN 202211678248A CN 116089366 B CN116089366 B CN 116089366B
Authority
CN
China
Prior art keywords
index
data
configuration
file
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211678248.4A
Other languages
English (en)
Other versions
CN116089366A (zh
Inventor
肖卫青
王佳强
薛蕾
郭萍
刘振
王颖
韩书丽
李媛翯
霍庆
高峰
陈士旺
何文春
刘媛媛
郑波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Meteorological Information Center Meteorological Data Center Of China Meteorological Administration
Original Assignee
National Meteorological Information Center Meteorological Data Center Of China Meteorological Administration
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Meteorological Information Center Meteorological Data Center Of China Meteorological Administration filed Critical National Meteorological Information Center Meteorological Data Center Of China Meteorological Administration
Priority to CN202211678248.4A priority Critical patent/CN116089366B/zh
Publication of CN116089366A publication Critical patent/CN116089366A/zh
Application granted granted Critical
Publication of CN116089366B publication Critical patent/CN116089366B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/119Details of migration of file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种通用可配置的非结构化气象数据处理方法和装置,属于气象信息处理领域。本发明针对气象数据中非结构化数据存储过程需要的索引提取过程,设计了通用的计算引擎,通过支持函数计算等,实现了可配置化的通用处理,可以快速实现对各类数据文件的规范化存储和索引入库,在气象大数据云平台中400多类非结构化数据存储和索引入库,均采用本发明实现,相较于固定开发,将非结构化数据根据文件名提取索引的开发效率提升了几十倍,节省了90%以上的工作量,节省了大量投资,极大的缩短了新数据的接入时的开发时间。

Description

通用可配置的非结构化气象数据处理方法和装置
技术领域
本发明涉及气象信息处理领域,特别是指一种通用可配置的非结构化气象数据处理方法和装置。
背景技术
目前气象观测每天都在产生多种多样的非结构化数据,包括地面、高空、雷达、卫星等原始观测数据以及模式等多种多样的产品。这些数据在气象部门大都以文件方式存储,各种各样的专门应用读取这些数据文件,应用到天气预报、模式计算、科学研究等领域。数据文件存储一般配合结构化索引技术以方便检索,索引一般取自文件名称和数据本身。原有索引提取技术一般针对特定资料的文件名进行一次性处理,遇到不一样规则的文件名需要重新开发程序或者修改程序增加相应逻辑,面对成百上千类的资料处理时费时费力。
由于气象技术发展日新月异,各种新的观探设备部断涌现,生成了各式各样的新数据,对新数据的处理程序开发越来越多,不仅程序开发费时费力,而且使用繁琐。
发明内容
为解决现有技术的缺陷,本发明提供一种通用可配置的非结构化气象数据处理方法和装置,实现了可配置化的通用处理,可以快速实现对各类数据文件的规范化存储和索引入库,节省了开发的工作量和投资,缩短了新数据的接入时的开发时间。
本发明提供技术方案如下:
一种通用可配置的非结构化气象数据处理方法,所述方法包括:
接收通知消息,所述通知消息包括数据类型和数据文件全路径;根据所述数据文件全路径读取数据文件;
根据所述数据类型调用预先配置好的通用处理配置,自动生成所述数据文件的索引sql语句;
将所述数据文件迁移到目标存储路径下,并调用数据库入库接口实现索引sql语句的入库。
进一步的,所述通用处理配置包括处理策略通用配置和索引生成通用配置,其中:
所述处理策略通用配置用于配置每一种数据类型的处理策略、索引数据库表名、表格存储表名、数据编码、文件名拆分规则和目标存储路径;
所述索引生成通用配置用于进行索引信息提取,并根据提取的索引信息自动生成索引sql语句。
进一步的,所述处理策略通用配置的可配置项包括:
CTS四级编码、存储方式、文件索引库的表名、Cassandra表格存储的表名、SOD存储四级编码、文件名拆分正则表达式、目标存储路径策略配置、内置函数处理、DI开关配置和预留配置项。
进一步的,根据数据文件的文件名、数据文件预设的属性信息和/或固定字符串进行信息提取,得到所述索引信息。
进一步的,根据文件名和固定字符串提取的信息进行组合,确定目标存储路径。
进一步的,根据索引生成通用配置对提取的不同的索引信息的要素进行转换运算,实现索引sql语句的自动生成。
进一步的,所述方法还包括:
对每一个处理的数据文件生成相应的监控信息。
一种通用可配置的非结构化气象数据处理装置,所述装置包括:
接收模块,用于接收通知消息,所述通知消息包括数据类型和数据文件全路径;根据所述数据文件全路径读取数据文件;
索引生成模块,用于根据所述数据类型调用预先配置好的通用处理配置,自动生成所述数据文件的索引sql语句;
入库模块,用于将所述数据文件迁移到目标存储路径下,并调用数据库入库接口实现索引sql语句的入库。
进一步的,所述通用处理配置包括处理策略通用配置和索引生成通用配置,其中:
所述处理策略通用配置用于配置每一种数据类型的处理策略、索引数据库表名、表格存储表名、数据编码、文件名拆分规则和目标存储路径;
所述索引生成通用配置用于进行索引信息提取,并根据提取的索引信息自动生成索引sql语句。
进一步的,所述处理策略通用配置的可配置项包括:
CTS四级编码、存储方式、文件索引库的表名、Cassandra表格存储的表名、SOD存储四级编码、文件名拆分正则表达式、目标存储路径策略配置、内置函数处理、DI开关配置和预留配置项。
进一步的,根据数据文件的文件名、数据文件预设的属性信息和/或固定字符串进行信息提取,得到所述索引信息。
进一步的,根据文件名和固定字符串提取的信息进行组合,确定目标存储路径。
进一步的,根据索引生成通用配置对提取的不同的索引信息的要素进行转换运算,实现索引sql语句的自动生成。
进一步的,所述装置还包括:
监控模块,用于对每一个处理的数据文件生成相应的监控信息。
本发明具有以下有益效果:
本发明针对气象数据中非结构化数据存储过程需要的索引提取过程,设计了通用的计算引擎,通过支持函数计算等,实现了可配置化的通用处理,可以快速实现对各类数据文件的规范化存储和索引入库,在气象大数据云平台中400多类非结构化数据存储和索引入库,均采用本发明实现,相较于固定开发,将非结构化数据根据文件名提取索引的开发效率提升了几十倍,节省了90%以上的工作量,节省了大量投资,极大的缩短了新数据的接入时的开发时间。
附图说明
图1为本发明的通用可配置的非结构化气象数据处理方法的流程图;
图2为本发明的处理过程示意图;
图3为可配置的通用处理框架的部署示意图;
图4为本发明的通用可配置的非结构化气象数据处理装置的示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种通用可配置的非结构化气象数据处理方法,如图1所示,所述方法包括:
S100:接收通知消息,通知消息包括数据类型和数据文件全路径;根据数据文件全路径读取数据文件。
本发明通过可配置的通用处理框架实现非结构化数据存储过程和索引提取过程,通用处理框架采用通知消息+文件的方式,通知消息采用RabbitMQ消息中间件,每个通知消息包括数据的数据文件的数据类型和文件全路径信息,通知消息的格式为数据类型:数据文件全路径。例如,J.0001.0003.R001:/space/dpc/work/data/J/J.0001.0003.R001/202209/2022090800/Z_RADR_I_Z9351_20220907235520_O_DOR-CUT_CC_CAP_99_9_FMT.bin.bz2
其中,J.0001.0003.R001表示数据类型,为数据文件的CTS四级编码,为气象部门内部设计的数据类型代码,一般同一类数据类型拥有类似的文件名规则。冒号后面为数据文件的全路径。可配置的通用处理框架rabbitMQ指定队列收到该通知消息后,按照全路径从文件系统(VCS、NAS或本地磁盘等)上读取该数据文件。
S200:根据数据类型调用预先配置好的通用处理配置,自动生成数据文件的索引sql语句。
通用处理配置包括处理策略通用配置和索引生成通用配置等几类通用配置。其中:
1、处理策略通用配置。
其主要配置每一种数据类型的处理策略、索引数据库表名、表格存储表名、数据编码、文件名拆分规则和目标存储路径等内容。配置文件采用XML格式,配置格式的示例如下:
各个可配置项说明如下:
dataType:数据文件的数据类型,即CTS四级编码,为气象数据内部设计的代码。
storeType:存储方式,以数字表示。0表示只转移文件不入库,1表示格点实况产品通用入库,4表示雷达pup产品通用入库,5表示风廓线雷达通用入库,9表示通过index.txt索引生成通用配置入库。
indexTable:文件索引库的表名,索引表各个字段取值策略在索引index.txt文件里配置。
AtsTable:Cassandra表格存储的表名(如果数据不需要入Cassandra数据库,则可以为空,如果需要入库,则配置入库表名,同时需要配置ATSConfig.xml)。
sodDataType:SOD存储四级编码,为气象数据内部设计的代码。
splitRegex:文件名拆分正则表达式(支持标准正则表达式),可以是一个字符或者多个字符组成的字符串,文件名按照其拆分之后生成一个字符串数组,用于后续的处理。
storyPath:目标存储路径策略配置,包括固定字符串和变量两部分。变量部分使用文件名按照splitRegex拆分后的数组下标,下标从0开始。例如:[4]表示取拆分文件名后数组下标为4的字符串。[4(0,4)]表示采用splitRegex配置的拆分文件名后数组下标为4的字符串的前4个字符。处理框架会自动计算目标存储路径,并将其保存到内部变量newpath中,供后续的数据文件迁移和索引生成使用。
内置函数处理:对于部分需要特殊处理的逻辑,框架内置了处理函数进行特殊处理。例如序日转换为月日的函数,其表示方式为${YYYYDDD|[6(1,5)]|[6(5,8)]},${}表示里面的内容需要特殊转换,YYYYDDD表示后面的把内容是按照年序日转为年月日的规则进行转化。
diSendFlag:DI开关配置,对于每一种数据类型是否发送DI开关,1为发送retweetDir,0为不发送。
retweetDir:目录轮询的路径配置,采用目论轮询方式启动应用程序,需要配置改选项,配置需要轮询的目录的绝对路径。
newFileName:预留配置项,配置需要文件命名的规则。
通过上述配置项,实现了处理策略、索引数据库表名、表格存储表名、数据编码、文件名拆分规则和目标存储路径等内容的可配置。
2、索引生成通用配置。
索引生成通用配置是整个通用处理框架的核心,其包括了索引信息提取,索引自动生成等模块,用于进行索引信息提取,并根据提取的索引信息自动生成索引sql语句,实现了从根据文件名和处理策略配置自动生成需要的索引sql语句。
(1)索引信息提取。
在非结构化气象数据处理过程中,核心的是索引信息的自动提取生成技术。索引信息的提取主要有三种来源:一是取自数据文件的文件名的信息,二是取自数据文件预设的属性信息,三是取自配置的值,一般指固定字符串。
对于取自数据文件的文件名的信息,首先将文件名按照指定字符进行分割,形成若干段,用特定字符${n}表示,n表示从0开始文件名中的第几段;${n:2:4}表示取第n段第2个字符开始4个字符长度的字符串。如下文件名,以‘_’和‘.’做为分割符分割后,形成14段,为${0}到${13};其中${4}=20211020000858,为时间,${4:0:4}表示取时间前4位,即为表示年。这样文件名的任意段的任意内容都可以再用设计好的变量来表示,适用于任意数据类型的文件名获取索引信息。
Z_SATE_C_RJTD_20211020000858_PI_H08_20211020_0000_TRC_R301_R10_PLLTG.png
预设的属性信息需要在程序内部开发,用预定的变量来表示。例如原始文件名、转换后的新文件名、文件的大小、收到时间、更新时间、入库时间、处理开始时间、处理结束时间等内容,例如:
#filesize:文件大小。
#filename:转换后的新文件名。
#end_time:处理结束时间;例如,2016-08-17 01:04:44,为oracle字符类型。
#start_time:处理开始时间;例如,2016-08-17 01:04:44,为oracle字符类型。
#recvtime:文件生成时间,适合oracle日期类型,例如,to_date('2017-07-2413:22:08','yyyy-mm-dd hh24:mi:ss')。
#newpath:新存储路径。
#srcfilename:源文件名。
对于一些固定的字符串,一般直接在配置文件中预先配置好。例如卫星名称'HIMAWARI-8',编报中心等相对比较固定内容。
例如,#cts_type:cts四级编码,从通知消息(前16字符)中获取。
#sod_type:sod四级编码,取值于配置文件tables.xml中对应的sodDataType值。
(2)数据存储规范化。
对于数据的存储,设计了通用的配置文件来实现规范化存储。可以通过固定字符串和文件名中提取的变量信息组合来进行存储路径的确定,实现不同资料的分类规范化存储。例如,
Z_SATE_C_RJTD_20211020000858_PI_H08_20211020_0000_TRC_R301_R10_PLLTG.png
Filepath=/DATA/SATE/${3}/${6}/${7}
表示该类数据可以最终会存储到/DATA/SATE/目录下并根据文件名的第四个字段【RJTD】和卫星名称【H08】、时间【20211020】生成对应的目录。对于示例文件名,根据配置自动生成的存储全路径为/DATA/SATE/RJTD/H08/20211020/Z_SATE_C_RJTD_20211020000858_PI_H08_20211020_0000_TRC_R301_R10_PLLTG.png
新生成的文件存储路径,用预设的变量newpath表示,可以用于后续的索引自动生成。
在实现了前述3种不同来源的索引信息提取和表示后,可以根据索引生成通用配置对提取的不同的索引信息的要素进行转换运算,实现索引sql语句的自动生成。
一个典型的配置采用键值对模式,左边为数据库索引字段的名称,右侧为提取后的各种变量和转换逻辑,可以采用增减键值对的方式,方便的实现数据库字段的增减,有效应对业务逻辑的变化;转换逻辑支持对多个不同变量间字符串操作,函数运算、时间转换、四则运算等,可以方便的通过配置实现复杂的入库逻辑。
例如:D_DATETIME=to_date('${13}','yyyymmddhh24')-8/24表示将从文件里提取的时间减去8小时后赋值给数据库表的d_datatime字段。
针对一类数据文件的完整配置示例如下:
示例文件名:
Z_SATE_C_RJTD_20211020000858_PI_H08_20211020_0000_TRC_R301_R10_PLLTG.png
【K.0538.0001.R001】
Tablename=SATE_FILE_PART_TAB
D_datetime=to_date('${7}${8}','yyyymmddhh24mi')-8/24
V_filename=filename
V_filesize=filesize
V_filepath=newpath
V_CCCC=‘${3}’
D_data_id=‘K.0538.0001.R001’
NNNN
【K.0538.0001.R001】:标记某类数据文件的配置开始,K.0538.0001.R001表示其资料划分的类型,NNNN表示结束。
Tablename:表示要入库的索引表名,为固定字符。
D_datetime:为索引表里的资料时间字段,为多变量参与的函数运算结果。
V_filename:为索引表里的文件名字段,取值为程序预设的属性信息,取自文件名
V_filepath:为索引表里的新文件字段,为程序预设的属性信息。
V_filesize:为索引表里的文件长度字段,取值为程序预设的属性信息,取自文件大小。
V_CCCC:为索引表里的编报中心字段,取自文件名。
D_data_id:为索引表里的资料类型字段,配置为固定字符串。
根据配置文件自动生成的入库语句为,insert into SATE_FILE_PART_TAB(D_datetime,V_filename,V_filepath,V_filesize,V_CCCC,D_data_id)values(to_date('202110200000','yyyymmddhh24mi')-8/24,‘Z_S ATE_C_RJTD_20211020000858_PI_H08_20211020_0000_TRC_R301_R10_PLLTG.png‘,1048782,‘/DATA/SATE/RJTD/H08/20211020/Z_SATE_C_RJTD_20211020000858_PI_H08_20211020_0000_TRC_R301_R10_PLLTG.png’,‘RJTD’,‘K.0538.0001.R001)。
S300:将数据文件迁移到目标存储路径下,并调用数据库入库接口实现索引sql语句的入库。
在根据通用配置生成入库Sql语句后,根据配置判断目标目录是否存在,不存在时先创建相应的目标目录,然后将数据迁移到目标存储路径下,然后调用数据库入库接口实现索引的入库。目标存储支持NAS、共享SAN存储等支持POSIX标准的存储,同时也支持对象存储(OBS),方便了不同资料的个性化存储设计。索引数据库支持气象大数据云平台采用的分布式关系型虚谷数据库,同时还支持ORACLE、MYSQL等传统关系型数据库。
本发明的方法还可以包括:对每一个处理的数据文件生成相应的监控信息,用于数据处理全流程的监控。
本发明结合RabbitMQ消息通知和目录轮询两种方式来获取待处理的数据文件,根据数据类型调用预先配置好的处理逻辑实现对该数据文件的解析、存储、索引生成入库、监控信息发送等全流程业务逻辑。根据配置将数据文件存储到NAS文件系统或者对象存储,可以根据配置实现非结构化数据的规范化存储;成功后根据配置的索引入库规则配置文件自动生成相应的包含新路径的入库索引,调用关系型数据库入库接口实现索引信息的入库。最终,索引库中的路径指向指定的NAS存储或者对象存储,其他应用可以通过检索索引快速定位需要的数据文件路径,然后到对应存储上访问,如图2所示。
本发明针对气象数据中非结构化数据存储过程需要的索引提取过程,设计了通用的计算引擎,通过支持函数计算等,实现了可配置化的通用处理,可以快速实现对各类数据文件的规范化存储和索引入库,在气象大数据云平台中400多类非结构化数据存储和索引入库,均采用本发明实现,相较于固定开发,将非结构化数据根据文件名提取索引的开发效率提升了几十倍,节省了90%以上的工作量,节省了大量投资,极大的缩短了新数据的接入时的开发时间。
本发明的通用可配置处理框架可以部署到一台或者多台服务器上。单节点部署简单快速,但是处理能力弱,可靠性低。多节点部署可以实现各个节点之间的负载均衡,同时也互为备份,任何一个节点损坏都不影响处理任务。RabbitMQ用于接收数据或者通知消息。文件系统(VCS或者NAS)为集群内各个节点提供一致的数据存储,使集群内各个服务器可以看到相同路径下的数据文件。本地盘只适用于单节点部署情形。后端对象存储和NAS用于存储最终的数据,虚谷、oracle、mysql等关系型数据库用于存储数据文件的路径信息,如图3所示。
本发明实施例提供一种通用可配置的非结构化气象数据处理装置,如图4所示,该装置包括:
接收模块1,用于接收通知消息,通知消息包括数据类型和数据文件全路径;根据数据文件全路径读取数据文件。
索引生成模块2,用于根据数据类型调用预先配置好的通用处理配置,自动生成数据文件的索引sql语句。
入库模块3,用于将数据文件迁移到目标存储路径下,并调用数据库入库接口实现索引sql语句的入库。
前述的通用处理配置包括处理策略通用配置和索引生成通用配置,其中:
处理策略通用配置用于配置每一种数据类型的处理策略、索引数据库表名、表格存储表名、数据编码、文件名拆分规则和目标存储路径。
处理策略通用配置的可配置项包括:
CTS四级编码、存储方式、文件索引库的表名、Cassandra表格存储的表名、SOD存储四级编码、文件名拆分正则表达式、目标存储路径策略配置、内置函数处理、DI开关配置和预留配置项。
索引生成通用配置用于进行索引信息提取,并根据提取的索引信息自动生成索引sql语句。
例如,可以根据数据文件的文件名、数据文件预设的属性信息和/或固定字符串进行信息提取,得到索引信息。
并且,根据文件名和固定字符串提取的信息进行组合,确定目标存储路径。
之后,根据索引生成通用配置对提取的不同的索引信息的要素进行转换运算,实现索引sql语句的自动生成。
作为一种改进,本发明的装置还可以包括:
监控模块,用于对每一个处理的数据文件生成相应的监控信息。
本发明针对气象数据中非结构化数据存储过程需要的索引提取过程,设计了通用的计算引擎,通过支持函数计算等,实现了可配置化的通用处理,可以快速实现对各类数据文件的规范化存储和索引入库,在气象大数据云平台中400多类非结构化数据存储和索引入库,均采用本发明实现,相较于固定开发,将非结构化数据根据文件名提取索引的开发效率提升了几十倍,节省了90%以上的工作量,节省了大量投资,极大的缩短了新数据的接入时的开发时间。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,该装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (3)

1.一种通用可配置的非结构化气象数据处理方法,其特征在于,所述方法包括:
接收通知消息,所述通知消息包括数据类型和数据文件全路径;根据所述数据文件全路径读取数据文件;
根据所述数据类型调用预先配置好的通用处理配置,自动生成所述数据文件的索引sql语句;
将所述数据文件迁移到目标存储路径下,并调用数据库入库接口实现索引sql语句的入库;
所述通用处理配置包括处理策略通用配置和索引生成通用配置,其中:
所述处理策略通用配置用于配置每一种数据类型的处理策略、索引数据库表名、表格存储表名、数据编码、文件名拆分规则和目标存储路径;
所述索引生成通用配置用于进行索引信息提取,并根据提取的索引信息自动生成索引sql语句;
所述处理策略通用配置的可配置项包括:
CTS四级编码、存储方式、文件索引库的表名、Cassandra表格存储的表名、SOD存储四级编码、文件名拆分正则表达式、目标存储路径策略配置、内置函数处理、DI开关配置和预留配置项;
根据数据文件的文件名、数据文件预设的属性信息和/或固定字符串进行信息提取,得到所述索引信息;
根据文件名和固定字符串提取的信息进行组合,确定目标存储路径;
根据索引生成通用配置对提取的不同的索引信息的要素进行转换运算,实现索引sql语句的自动生成。
2.根据权利要求1所述的通用可配置的非结构化气象数据处理方法,其特征在于,所述方法还包括:
对每一个处理的数据文件生成相应的监控信息。
3.一种通用可配置的非结构化气象数据处理装置,其特征在于,所述装置包括:
接收模块,用于接收通知消息,所述通知消息包括数据类型和数据文件全路径;根据所述数据文件全路径读取数据文件;
索引生成模块,用于根据所述数据类型调用预先配置好的通用处理配置,自动生成所述数据文件的索引sql语句;
入库模块,用于将所述数据文件迁移到目标存储路径下,并调用数据库入库接口实现索引sql语句的入库;
所述通用处理配置包括处理策略通用配置和索引生成通用配置,其中:
所述处理策略通用配置用于配置每一种数据类型的处理策略、索引数据库表名、表格存储表名、数据编码、文件名拆分规则和目标存储路径;
所述索引生成通用配置用于进行索引信息提取,并根据提取的索引信息自动生成索引sql语句;
所述处理策略通用配置的可配置项包括:
CTS四级编码、存储方式、文件索引库的表名、Cassandra表格存储的表名、SOD存储四级编码、文件名拆分正则表达式、目标存储路径策略配置、内置函数处理、DI开关配置和预留配置项;
根据数据文件的文件名、数据文件预设的属性信息和/或固定字符串进行信息提取,得到所述索引信息;
根据文件名和固定字符串提取的信息进行组合,确定目标存储路径;
根据索引生成通用配置对提取的不同的索引信息的要素进行转换运算,实现索引sql语句的自动生成。
CN202211678248.4A 2022-12-26 2022-12-26 通用可配置的非结构化气象数据处理方法和装置 Active CN116089366B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211678248.4A CN116089366B (zh) 2022-12-26 2022-12-26 通用可配置的非结构化气象数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211678248.4A CN116089366B (zh) 2022-12-26 2022-12-26 通用可配置的非结构化气象数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN116089366A CN116089366A (zh) 2023-05-09
CN116089366B true CN116089366B (zh) 2023-09-01

Family

ID=86186141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211678248.4A Active CN116089366B (zh) 2022-12-26 2022-12-26 通用可配置的非结构化气象数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN116089366B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5732262A (en) * 1994-01-31 1998-03-24 International Business Machines Corporation Database definition language generator
CN108073644A (zh) * 2016-11-15 2018-05-25 南京南瑞继保电气有限公司 一种电网气象海量数据处理方法
CN108763323A (zh) * 2018-05-03 2018-11-06 华风象辑(北京)气象科技有限公司 基于资源集和大数据技术的气象格点文件应用方法
CN108776699A (zh) * 2018-06-08 2018-11-09 北京华云星地通科技有限公司 一种气象数据和卫星遥感数据处理方法及装置
CN109086353A (zh) * 2018-07-17 2018-12-25 长威信息科技发展股份有限公司 气象数据云平台软件数字化档案资料分类归档方法及系统
CN114090374A (zh) * 2021-11-08 2022-02-25 北京许继电气有限公司 网络安全运营管理平台

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5732262A (en) * 1994-01-31 1998-03-24 International Business Machines Corporation Database definition language generator
CN108073644A (zh) * 2016-11-15 2018-05-25 南京南瑞继保电气有限公司 一种电网气象海量数据处理方法
CN108763323A (zh) * 2018-05-03 2018-11-06 华风象辑(北京)气象科技有限公司 基于资源集和大数据技术的气象格点文件应用方法
CN108776699A (zh) * 2018-06-08 2018-11-09 北京华云星地通科技有限公司 一种气象数据和卫星遥感数据处理方法及装置
CN109086353A (zh) * 2018-07-17 2018-12-25 长威信息科技发展股份有限公司 气象数据云平台软件数字化档案资料分类归档方法及系统
CN114090374A (zh) * 2021-11-08 2022-02-25 北京许继电气有限公司 网络安全运营管理平台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CIMISS中气象观测资料处理入库效率优化方法;季永华;孙超;刘一鸣;肖卫青;;气象科技(01);全文 *

Also Published As

Publication number Publication date
CN116089366A (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN106611046B (zh) 一种基于大数据技术的空间数据存储处理中间件系统
CA2603901C (en) System and methods for facilitating a linear grid database with data organization by dimension
CN111241203B (zh) Hive数据仓库同步方法、系统、设备及存储介质
CN102508913A (zh) 一种带有数据立方存储索引结构的云计算系统
CN102236706B (zh) 一种海量中文文件名快速模糊拼音查询方法
CN112132954B (zh) 一种面向三维激光点云实体对象的分布式管理方法及系统
CN113468199B (zh) 索引更新方法及系统
CN112672370B (zh) 网元指标数据的自动检测方法及系统、设备和存储介质
Fang et al. Meteorological data analysis using mapreduce
CN110706125A (zh) 水利大数据分析信息服务系统和平台服务系统
CN109741034B (zh) 一种网格树形组织管理方法及装置
CN108984626B (zh) 一种数据处理方法、装置及服务器
CN116089366B (zh) 通用可配置的非结构化气象数据处理方法和装置
CN108108478B (zh) 数据格式转换方法、系统及电子设备
CN117591532A (zh) 一种分布式能源系统的海量数据管理系统及其应用方法
CN112540987A (zh) 一种基于数据集市的配用电大数据管理系统
CN110738453A (zh) 一种基于云计算的气象综合业务系统
CN105761164A (zh) 一种基于Hadoop的电力系统事故追忆的方法
CN112488642B (zh) 一种基于结构化标签并以对象为核心的云端文件管理方法
CN115795187A (zh) 资源访问方法、装置及设备
CN116150236A (zh) 数据同步方法及装置、电子设备、计算机可读存储介质
Deng et al. Flight test data processing and analysis platform based on new generation information technology Design and Application
CN109992573B (zh) 一种实现hdfs文件占用率自动监控的方法及系统
CN111914146A (zh) 一种便于大数据交互且自动提取的商务软件平台
CN113448957A (zh) 一种数据查询方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant