CN113111140A - 快速解析多源海洋业务化观测数据的方法 - Google Patents
快速解析多源海洋业务化观测数据的方法 Download PDFInfo
- Publication number
- CN113111140A CN113111140A CN202110516907.3A CN202110516907A CN113111140A CN 113111140 A CN113111140 A CN 113111140A CN 202110516907 A CN202110516907 A CN 202110516907A CN 113111140 A CN113111140 A CN 113111140A
- Authority
- CN
- China
- Prior art keywords
- analysis
- data
- rule
- window
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000004458 analytical method Methods 0.000 claims abstract description 58
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 33
- 238000005516 engineering process Methods 0.000 claims abstract description 13
- 230000010354 integration Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 19
- 238000004364 calculation method Methods 0.000 abstract description 12
- 238000003908 quality control method Methods 0.000 abstract description 4
- 230000004927 fusion Effects 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种快速解析多源海洋业务化观测数据的方法,包括如下步骤S1,接收多源海洋业务化观测数据的原始数据文件,根据智能识别规则进行分类,采用构建的多驱动并行规则窗口按照分类结果分别转发到解析器的不同解析窗口;S2,解析窗口根据配置信息解析原始数据文件,得到标准数据;S3,对标准数据文件进行验证,批量加载存入数据库。本发明方法解决了数据处理技术在特定应用场景中解析速度的问题,同时采用复杂配置规则算法,完成对窗口中的数据计算、排重质控以降低数据计算与存储耗费计算资源的情况。
Description
技术领域
本发明属于数据处理技术领域,尤其是涉及一种快速解析多源海洋业务化观测数据的方法。
背景技术
海洋环境观测是获取各种海洋环境因素数据的核心方法,而海洋环境观测平台、系统的多样化,海洋观测仪器获取的业务数据种类繁多、格式类型各异,这些均为海洋环境观测业务数据的综合分析、利用带来了一定的难度。随着近些年对海洋观测业务的深入,海洋环境观测技术的进步,以及设备平台的增加,出现了海洋环境观测数据量越来越大,海洋观测数据格式样式越来越多,以及国内外数据文件存储格式的各异,这些均对海洋业务化观测数据的分析、利用提出了更高的挑战。
目前对于数据的处理多集中于数据预处理技术与方法的研究,是针对采集数据的缺失值、重复值等特性进行处理,去除唯一属性、处理缺失值、属性编码、特征选择、主成分分析等通用处理方法。而海洋业务化观测数据存在多源、多类型、多格式、专业性等特征,现有针对海洋业务化数据的处理方法也多集中于传统预处理方法在纵向学科的深入应用,存在如下问题:现有处理方法针对多源数据采用分服务处理策略,无法做到多源处理需求的自动化识别,缺少统一化快速处理能力。现有处理方法仅针对去重、缺失等预处理内容,无法满足专业领域复杂数据转换算法的融合需求。
发明内容
有鉴于此,本发明旨在提出一种快速解析多源海洋业务化观测数据的方法,以实现解析效率的提升。
为达到上述目的,本发明的技术方案是这样实现的:
一种快速解析多源海洋业务化观测数据的方法,包括如下步骤:
S1,接收多源海洋业务化观测数据的原始数据文件,根据智能识别规则进行分类,采用构建的多驱动并行规则窗口按照分类结果分别转发到解析器的不同解析窗口;
S2,解析窗口根据配置信息解析原始数据文件,得到标准数据;
S3,对标准数据文件进行验证,批量加载存入数据库。
进一步的,在步骤S1中具体包括如下步骤:
S11,识别原始数据文件的数据类别及来源,并配置标签;
S12,依据标签通过智能识别规则对原始数据文件进行分类;
S13,采用多驱动并行规则窗口根据分类结果调度分发链路,推送到解析器的解析窗口;其中,所述多驱动并行规则窗口在创建过程中调度多线程并行消费模式,实现并行技术融合,实现调度多驱动、多窗口,形成并行算法调度能力。
进一步的,在步骤S12中,若判断原始数据文件不符合智能识别规则,则将原始文件备份到指定目录并进行告警。
进一步的,在步骤S2中,所述配置信息包含解析规则配置、复杂算法配置、算法与解析的优先级规则配置;其中,
解析规则配置是针对海洋观测数据的特殊性进行对应的解析规则构建,形成解析规则集;
复杂算法配置是依据各业务数据的解析需求,在通常解析规则的基础上,增加算法解析的步骤。
进一步的,在步骤S3中,通过输出器接收到输出触发命令,并判断是否符合校验标准要求,若符合标准要求则存入数据库,并同时触发移除解析窗口命令,返回输出成功记录;若不符合要求,则打标机并返回解析流程。
相对于现有技术,本发明所述的方法具有以下优势:
本发明方法解决了数据处理技术在特定应用场景中解析速度的问题,同时采用复杂配置规则算法,完成对窗口中的数据计算、排重质控以降低数据计算与存储耗费计算资源的情况。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例所述的数据转发规则与处理流程图;
图2为本发明实施例所述的数据解析整体流程图;
图3为本发明实施例所述的解析器解析处理流程图;
图4为本发明实施例所述的数据输出处理流程图;
图5为本发明实施例所述的原始数据文件样例图;
图6为本发明实施例所述的解析处理后数据文件样例图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本发明。
本发明的一种快速解析多源海洋业务化观测数据的方法,包括:
步骤1、构建转发器,用于分类转发接收到的多源海洋业务化观测数据的原始数据文件;
转发器接收多源海洋业务化观测数据的原始数据文件,根据智能识别规则进行分类,采用构建的多驱动并行规则窗口按照分类结果分别转发到解析器的不同解析窗口。
因此,在步骤1的原始数据文件分发之前,要先根据海洋业务化观测数据特点,配置多驱动并行规则窗口,提升转发及解析效率;
多驱动并行规则窗口是本发明的效率提升的关键技术之一,由于在海洋业务化观测数据文件资料向解析器处理窗口推送时,将形成较长时间的排队,随着海洋业务数据流的增加,解析过程将出现严重拥堵。且在解析器对文件进行解析的阶段,复杂算法规则的解析计算过程也是在多并发的支持下实现的,如果不利用多驱动并行将受到并发能力的影响,无法达到高效、快速解析的目标。
本发明实施例的所述多驱动并行规则窗口在创建过程中调度多线程并行消费模式,实现并行技术融合,实现调度多驱动、多窗口,形成并行算法调度能力。
本方案的转发器以分发技术为构建基础,依据海洋业务化观测领域的特殊应用场景,进行分发技术与智能识别技术的融合,如图1所示,依托规则标签的配置,实现智能识别接收数据文件的类型与来源,将识别结果在数据标签表进行返回记录,以实现文件的追踪。
依据智能识别规则的设定,自动判定文件分类,调度分发链路,将海洋业务化观测数据文件资料推送至解析器多处理窗口,形成多窗口并发转发调度手段。
智能识别规则通过对海洋业务化观测数据的来源以及类型进行规则配置。例如,北海浮标、东海浮标来源,报文数据格式、Xml数据格式等。
依据智能识别对来源与类型的组合配置规则,进行分类标签,形成分类规则表,与接收的多源数据属性进行映射匹配,自动形成分类链路,自动转发数据文件至解析器的处理窗口。
若判断原始数据文件不符合智能识别规则,则将原始文件备份到指定目录并进行告警。
步骤2、构建包含复杂配置规则算法的解析器,解析窗口根据配置信息解析原始数据文件,得到标准数据;
传统的数据解析的整体流程如图2所示,主要是将原始数据文件转换为标准数据文件,并发布文件加载事件。但是本发明的解析器的构建,用于解决现有预处理技术与专业领域复杂算法融合的问题。所述复杂配置规则算法是用于实现海洋业务化观测数据的特定应用场景的数据解析需求,实现海洋U分量质量因子、经纬度、空间、时间等海洋多维度数据的解析算法的规则配置,实现海洋特殊解析算法与解析技术的融合。
解析器需要调动步骤1构建的多驱动并行规则窗口,将步骤1转发器推送的数据文件,借由多驱动并行规则窗口配合解析规则进行解析。采用多驱动并行规则窗口对转发器推送的文件进行按分类规则进行推送,当前依据步骤1的分类进行解析规则的调度,完成并发解析。
解析器需要构建算法配置组件,实现复杂配置规则算法需求,完成包含lVal*sin(lDir)、(LatDuFen-LatDu)*60等复杂规则算法、模型的融合,在解析过程实现U分量质量因子、经纬度、空间、时间等多维度专业领域的复杂算法解析规则配置。
解析器规则配置包含解析规则配置、复杂算法配置、算法与解析的优先级规则等的解析规则配置,如图3所示。
1)解析规则配置是针对海洋观测数据的特殊性进行对应的解析规则构建,形成解析规则集,例如OSMAR-041、OSMAR-S ASSIC、志愿船正点报文等规则。
2)配置复杂算法是依据各业务数据的解析需求,在通常解析规则的基础上,增加算法解析的步骤,将lVal*sin(lDir)、(LatDuFen-LatDu)*60等复杂规则算法融入计算。
3)对解析后的文件进行排重、质控等标准处理的功能。
通过解析器算法配置组件的构建,解析器具有了对窗口中的数据计算、排重质控的处理能力,且将计算算法融合进解析器,处理流程参见附图,以降低数据计算与存储耗费计算资源等问题。
步骤3、构建输出器,用于快速输出解析器窗口完成的标准文件。
解析后的标准数据文件,需要通过构建的“输出器”,实现自动、批量输出,加载至海洋环境基础数据库。
输出器的构建,接收并行解析窗口的结果值的输出触发,将解析后的数据转换为标准文件,批量、自动输出落地,并触发加载程序,进行入库。
如图4所示,输出器接收到输出触发命令,并校验标准要求,若符合标准要求则自动落地,并同时负责触发移除解析窗口命令,返回输出成功记录。若不符合要求,则打标机并返回解析流程。
实施例
本发明的主要目标是实现多源海洋业务化观测数据的快速解析,下面依据海洋业务化观测数据的解析需求,对接收的南海浮标观测文件进行解析,形成标准锚系浮标标准记录格式,以此示例说明具体的解析过程。
步骤1,多源原始观测文件的转发
转发器接收到南海浮标分钟报文数据、浮标观测实时数据后,转发器自动识别数据类别与类型特性,依据文件数量与特性进行链路调度,按转发规则进行转发,调度解析器解析窗口。其中原始数据文件样例如图5所示。
步骤2,多源观测文件解析
依据转发器触发解析窗口的规则进行解析规则映射,对南海浮标分钟报文数据、南海浮标观测实时数据按各自数据文件特性,进行复杂算法计算。
依据U分量质量因子要求,进行lVal*sin(lDir)算法调取,并行计算并推送计算结果,
依据缺测值、质量符合度等处理规则进行文件规则处理,以并行模式形成高效解析结果,解析处理后的数据文件样例如图6所示。
步骤3,标准文件格式输出
将解析成功的标准数据文件格式(锚系浮标标准记录格式),进行加载入库以及导出使用。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.快速解析多源海洋业务化观测数据的方法,其特征在于,包括如下步骤:
S1,接收多源海洋业务化观测数据的原始数据文件,根据智能识别规则进行分类,采用构建的多驱动并行规则窗口按照分类结果分别转发到解析器的不同解析窗口;
S2,解析窗口根据配置信息解析原始数据文件,得到标准文件;
S3,对标准数据文件进行验证,批量加载存入数据库。
2.根据权利要求1所述的方法,其特征在于:在步骤S1中具体包括如下步骤:
S11,识别原始数据文件的数据类别及来源,并配置标签;
S12,依据标签通过智能识别规则对原始数据文件进行分类;
S13,采用多驱动并行规则窗口根据分类结果调度分发链路,推送到解析器的解析窗口;其中,
所述多驱动并行规则窗口在创建过程中调度多线程并行消费模式,实现并行技术融合,实现调度多驱动、多窗口,形成并行算法调度能力。
3.根据权利要求2所述的方法,其特征在于:在步骤S12中,若判断原始数据文件不符合智能识别规则,则将原始文件备份到指定目录并进行告警。
4.根据权利要求1所述的方法,其特征在于:在步骤S2中,所述配置信息包含解析规则配置、复杂算法配置、算法与解析的优先级规则配置;其中,
解析规则配置是针对海洋观测数据的特殊性进行对应的解析规则构建,形成解析规则集;
复杂算法配置是依据各业务数据的解析需求,在通常解析规则的基础上,增加算法解析的步骤。
5.根据权利要求1所述的方法,其特征在于:在步骤S3中,通过输出器接收到输出触发命令,并判断是否符合校验标准要求,
若符合标准要求则存入数据库,并同时触发移除解析窗口命令,返回输出成功记录;
若不符合要求,则打标机并返回解析流程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110516907.3A CN113111140A (zh) | 2021-05-12 | 2021-05-12 | 快速解析多源海洋业务化观测数据的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110516907.3A CN113111140A (zh) | 2021-05-12 | 2021-05-12 | 快速解析多源海洋业务化观测数据的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113111140A true CN113111140A (zh) | 2021-07-13 |
Family
ID=76722065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110516907.3A Pending CN113111140A (zh) | 2021-05-12 | 2021-05-12 | 快速解析多源海洋业务化观测数据的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113111140A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306574A (zh) * | 2023-04-10 | 2023-06-23 | 黄石宏付信息科技有限公司 | 应用于智慧风控任务分析的大数据挖掘方法及服务器 |
CN116303475A (zh) * | 2023-05-17 | 2023-06-23 | 吉奥时空信息技术股份有限公司 | 一种多源指标数据智能存储的管理方法及装置 |
CN116628451A (zh) * | 2023-05-31 | 2023-08-22 | 江苏华存电子科技有限公司 | 一种待处理信息的高速解析方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030235194A1 (en) * | 2002-06-04 | 2003-12-25 | Mike Morrison | Network processor with multiple multi-threaded packet-type specific engines |
CN110716897A (zh) * | 2019-10-15 | 2020-01-21 | 北部湾大学 | 一种基于云计算的海洋档案数据库并行化构建方法和装置 |
-
2021
- 2021-05-12 CN CN202110516907.3A patent/CN113111140A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030235194A1 (en) * | 2002-06-04 | 2003-12-25 | Mike Morrison | Network processor with multiple multi-threaded packet-type specific engines |
CN110716897A (zh) * | 2019-10-15 | 2020-01-21 | 北部湾大学 | 一种基于云计算的海洋档案数据库并行化构建方法和装置 |
Non-Patent Citations (4)
Title |
---|
刘志杰等: "海洋底质标准化处理系统设计与开发", 《海洋信息》 * |
宋晓等: "基于多架构混搭模式的极地海洋数据库建模技术研究", 《极地研究》 * |
李彦等: "基于 XML 的海洋环境数据处理技术研究", 《海洋通报》 * |
陈继香: "XML 在海洋数据服务领域的应用研究", 《海洋通报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306574A (zh) * | 2023-04-10 | 2023-06-23 | 黄石宏付信息科技有限公司 | 应用于智慧风控任务分析的大数据挖掘方法及服务器 |
CN116306574B (zh) * | 2023-04-10 | 2024-01-09 | 乌鲁木齐汇智兴业信息科技有限公司 | 应用于智慧风控任务分析的大数据挖掘方法及服务器 |
CN116303475A (zh) * | 2023-05-17 | 2023-06-23 | 吉奥时空信息技术股份有限公司 | 一种多源指标数据智能存储的管理方法及装置 |
CN116303475B (zh) * | 2023-05-17 | 2023-08-08 | 吉奥时空信息技术股份有限公司 | 一种多源指标数据智能存储的管理方法及装置 |
CN116628451A (zh) * | 2023-05-31 | 2023-08-22 | 江苏华存电子科技有限公司 | 一种待处理信息的高速解析方法 |
CN116628451B (zh) * | 2023-05-31 | 2023-11-14 | 江苏华存电子科技有限公司 | 一种待处理信息的高速解析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113111140A (zh) | 快速解析多源海洋业务化观测数据的方法 | |
CN105045820B (zh) | 一种处理海量级数据的视频图像信息的方法及数据库系统 | |
CN102662988B (zh) | 一种用于rfid中间件的冗余数据过滤方法 | |
CN109408746A (zh) | 画像信息查询方法、装置、计算机设备和存储介质 | |
CN102156799A (zh) | 一种可级联的复杂事件处理引擎及列车检修自动记录方法 | |
CN114979309A (zh) | 一种支持网络化目标数据随遇接入与处理的方法 | |
CN111182577A (zh) | 一种适用于5g路测仪的cdr合成监测系统及方法 | |
CN115514784A (zh) | 基于物联网的多源数据采集中台 | |
CN111600993A (zh) | 一种根据短信进行行程提醒的方法和装置 | |
CN114090529A (zh) | 一种日志管理方法、装置、系统和存储介质 | |
CN111427695A (zh) | 一种分布式数据库中存储过程的并发调度装置 | |
CN109508244B (zh) | 数据处理方法及计算机可读介质 | |
CN212569771U (zh) | 一种轨迹大数据特征提取装置 | |
CN114153938A (zh) | 一种用于非结构化数据的采集方法及其系统 | |
CN113641768A (zh) | 一种基于电网多源数据的处理方法、系统和设备 | |
CN112612841A (zh) | 一种知识抽取构建方法、装置、设备及存储介质 | |
CN112434877A (zh) | 一种基于云计算的智慧城市数据处理方法及装置 | |
CN111563123A (zh) | 一种hive仓库元数据实时同步方法 | |
CN115080808B (zh) | 一种行车记录仪信息管理方法及系统 | |
CN113268363B (zh) | 基于全局能力的调用追踪方法、装置、服务器及存储介质 | |
CN116644039B (zh) | 一种基于大数据的在线能力运营日志自动采集分析的方法 | |
CN112000728B (zh) | 一种业务数据处理方法、可读存储介质及计算机设备 | |
CN117670402A (zh) | 一种智能交互的数字化转型平台 | |
CN117787617A (zh) | 一种自由流程引擎管理方法及系统 | |
CN117851200A (zh) | 一种调用链监控多线程异步调用的性能剖析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210713 |