CN113111140A - 快速解析多源海洋业务化观测数据的方法 - Google Patents

快速解析多源海洋业务化观测数据的方法 Download PDF

Info

Publication number
CN113111140A
CN113111140A CN202110516907.3A CN202110516907A CN113111140A CN 113111140 A CN113111140 A CN 113111140A CN 202110516907 A CN202110516907 A CN 202110516907A CN 113111140 A CN113111140 A CN 113111140A
Authority
CN
China
Prior art keywords
analysis
data
rule
window
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110516907.3A
Other languages
English (en)
Inventor
梁建峰
宋晓
韩璐遥
郑兵
韦广昊
杨锦坤
杨扬
耿姗姗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NATIONAL MARINE DATA AND INFORMATION SERVICE
Original Assignee
NATIONAL MARINE DATA AND INFORMATION SERVICE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NATIONAL MARINE DATA AND INFORMATION SERVICE filed Critical NATIONAL MARINE DATA AND INFORMATION SERVICE
Priority to CN202110516907.3A priority Critical patent/CN113111140A/zh
Publication of CN113111140A publication Critical patent/CN113111140A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种快速解析多源海洋业务化观测数据的方法,包括如下步骤S1,接收多源海洋业务化观测数据的原始数据文件,根据智能识别规则进行分类,采用构建的多驱动并行规则窗口按照分类结果分别转发到解析器的不同解析窗口;S2,解析窗口根据配置信息解析原始数据文件,得到标准数据;S3,对标准数据文件进行验证,批量加载存入数据库。本发明方法解决了数据处理技术在特定应用场景中解析速度的问题,同时采用复杂配置规则算法,完成对窗口中的数据计算、排重质控以降低数据计算与存储耗费计算资源的情况。

Description

快速解析多源海洋业务化观测数据的方法
技术领域
本发明属于数据处理技术领域,尤其是涉及一种快速解析多源海洋业务化观测数据的方法。
背景技术
海洋环境观测是获取各种海洋环境因素数据的核心方法,而海洋环境观测平台、系统的多样化,海洋观测仪器获取的业务数据种类繁多、格式类型各异,这些均为海洋环境观测业务数据的综合分析、利用带来了一定的难度。随着近些年对海洋观测业务的深入,海洋环境观测技术的进步,以及设备平台的增加,出现了海洋环境观测数据量越来越大,海洋观测数据格式样式越来越多,以及国内外数据文件存储格式的各异,这些均对海洋业务化观测数据的分析、利用提出了更高的挑战。
目前对于数据的处理多集中于数据预处理技术与方法的研究,是针对采集数据的缺失值、重复值等特性进行处理,去除唯一属性、处理缺失值、属性编码、特征选择、主成分分析等通用处理方法。而海洋业务化观测数据存在多源、多类型、多格式、专业性等特征,现有针对海洋业务化数据的处理方法也多集中于传统预处理方法在纵向学科的深入应用,存在如下问题:现有处理方法针对多源数据采用分服务处理策略,无法做到多源处理需求的自动化识别,缺少统一化快速处理能力。现有处理方法仅针对去重、缺失等预处理内容,无法满足专业领域复杂数据转换算法的融合需求。
发明内容
有鉴于此,本发明旨在提出一种快速解析多源海洋业务化观测数据的方法,以实现解析效率的提升。
为达到上述目的,本发明的技术方案是这样实现的:
一种快速解析多源海洋业务化观测数据的方法,包括如下步骤:
S1,接收多源海洋业务化观测数据的原始数据文件,根据智能识别规则进行分类,采用构建的多驱动并行规则窗口按照分类结果分别转发到解析器的不同解析窗口;
S2,解析窗口根据配置信息解析原始数据文件,得到标准数据;
S3,对标准数据文件进行验证,批量加载存入数据库。
进一步的,在步骤S1中具体包括如下步骤:
S11,识别原始数据文件的数据类别及来源,并配置标签;
S12,依据标签通过智能识别规则对原始数据文件进行分类;
S13,采用多驱动并行规则窗口根据分类结果调度分发链路,推送到解析器的解析窗口;其中,所述多驱动并行规则窗口在创建过程中调度多线程并行消费模式,实现并行技术融合,实现调度多驱动、多窗口,形成并行算法调度能力。
进一步的,在步骤S12中,若判断原始数据文件不符合智能识别规则,则将原始文件备份到指定目录并进行告警。
进一步的,在步骤S2中,所述配置信息包含解析规则配置、复杂算法配置、算法与解析的优先级规则配置;其中,
解析规则配置是针对海洋观测数据的特殊性进行对应的解析规则构建,形成解析规则集;
复杂算法配置是依据各业务数据的解析需求,在通常解析规则的基础上,增加算法解析的步骤。
进一步的,在步骤S3中,通过输出器接收到输出触发命令,并判断是否符合校验标准要求,若符合标准要求则存入数据库,并同时触发移除解析窗口命令,返回输出成功记录;若不符合要求,则打标机并返回解析流程。
相对于现有技术,本发明所述的方法具有以下优势:
本发明方法解决了数据处理技术在特定应用场景中解析速度的问题,同时采用复杂配置规则算法,完成对窗口中的数据计算、排重质控以降低数据计算与存储耗费计算资源的情况。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例所述的数据转发规则与处理流程图;
图2为本发明实施例所述的数据解析整体流程图;
图3为本发明实施例所述的解析器解析处理流程图;
图4为本发明实施例所述的数据输出处理流程图;
图5为本发明实施例所述的原始数据文件样例图;
图6为本发明实施例所述的解析处理后数据文件样例图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本发明。
本发明的一种快速解析多源海洋业务化观测数据的方法,包括:
步骤1、构建转发器,用于分类转发接收到的多源海洋业务化观测数据的原始数据文件;
转发器接收多源海洋业务化观测数据的原始数据文件,根据智能识别规则进行分类,采用构建的多驱动并行规则窗口按照分类结果分别转发到解析器的不同解析窗口。
因此,在步骤1的原始数据文件分发之前,要先根据海洋业务化观测数据特点,配置多驱动并行规则窗口,提升转发及解析效率;
多驱动并行规则窗口是本发明的效率提升的关键技术之一,由于在海洋业务化观测数据文件资料向解析器处理窗口推送时,将形成较长时间的排队,随着海洋业务数据流的增加,解析过程将出现严重拥堵。且在解析器对文件进行解析的阶段,复杂算法规则的解析计算过程也是在多并发的支持下实现的,如果不利用多驱动并行将受到并发能力的影响,无法达到高效、快速解析的目标。
本发明实施例的所述多驱动并行规则窗口在创建过程中调度多线程并行消费模式,实现并行技术融合,实现调度多驱动、多窗口,形成并行算法调度能力。
本方案的转发器以分发技术为构建基础,依据海洋业务化观测领域的特殊应用场景,进行分发技术与智能识别技术的融合,如图1所示,依托规则标签的配置,实现智能识别接收数据文件的类型与来源,将识别结果在数据标签表进行返回记录,以实现文件的追踪。
依据智能识别规则的设定,自动判定文件分类,调度分发链路,将海洋业务化观测数据文件资料推送至解析器多处理窗口,形成多窗口并发转发调度手段。
智能识别规则通过对海洋业务化观测数据的来源以及类型进行规则配置。例如,北海浮标、东海浮标来源,报文数据格式、Xml数据格式等。
依据智能识别对来源与类型的组合配置规则,进行分类标签,形成分类规则表,与接收的多源数据属性进行映射匹配,自动形成分类链路,自动转发数据文件至解析器的处理窗口。
若判断原始数据文件不符合智能识别规则,则将原始文件备份到指定目录并进行告警。
步骤2、构建包含复杂配置规则算法的解析器,解析窗口根据配置信息解析原始数据文件,得到标准数据;
传统的数据解析的整体流程如图2所示,主要是将原始数据文件转换为标准数据文件,并发布文件加载事件。但是本发明的解析器的构建,用于解决现有预处理技术与专业领域复杂算法融合的问题。所述复杂配置规则算法是用于实现海洋业务化观测数据的特定应用场景的数据解析需求,实现海洋U分量质量因子、经纬度、空间、时间等海洋多维度数据的解析算法的规则配置,实现海洋特殊解析算法与解析技术的融合。
解析器需要调动步骤1构建的多驱动并行规则窗口,将步骤1转发器推送的数据文件,借由多驱动并行规则窗口配合解析规则进行解析。采用多驱动并行规则窗口对转发器推送的文件进行按分类规则进行推送,当前依据步骤1的分类进行解析规则的调度,完成并发解析。
解析器需要构建算法配置组件,实现复杂配置规则算法需求,完成包含lVal*sin(lDir)、(LatDuFen-LatDu)*60等复杂规则算法、模型的融合,在解析过程实现U分量质量因子、经纬度、空间、时间等多维度专业领域的复杂算法解析规则配置。
解析器规则配置包含解析规则配置、复杂算法配置、算法与解析的优先级规则等的解析规则配置,如图3所示。
1)解析规则配置是针对海洋观测数据的特殊性进行对应的解析规则构建,形成解析规则集,例如OSMAR-041、OSMAR-S ASSIC、志愿船正点报文等规则。
2)配置复杂算法是依据各业务数据的解析需求,在通常解析规则的基础上,增加算法解析的步骤,将lVal*sin(lDir)、(LatDuFen-LatDu)*60等复杂规则算法融入计算。
3)对解析后的文件进行排重、质控等标准处理的功能。
通过解析器算法配置组件的构建,解析器具有了对窗口中的数据计算、排重质控的处理能力,且将计算算法融合进解析器,处理流程参见附图,以降低数据计算与存储耗费计算资源等问题。
步骤3、构建输出器,用于快速输出解析器窗口完成的标准文件。
解析后的标准数据文件,需要通过构建的“输出器”,实现自动、批量输出,加载至海洋环境基础数据库。
输出器的构建,接收并行解析窗口的结果值的输出触发,将解析后的数据转换为标准文件,批量、自动输出落地,并触发加载程序,进行入库。
如图4所示,输出器接收到输出触发命令,并校验标准要求,若符合标准要求则自动落地,并同时负责触发移除解析窗口命令,返回输出成功记录。若不符合要求,则打标机并返回解析流程。
实施例
本发明的主要目标是实现多源海洋业务化观测数据的快速解析,下面依据海洋业务化观测数据的解析需求,对接收的南海浮标观测文件进行解析,形成标准锚系浮标标准记录格式,以此示例说明具体的解析过程。
步骤1,多源原始观测文件的转发
转发器接收到南海浮标分钟报文数据、浮标观测实时数据后,转发器自动识别数据类别与类型特性,依据文件数量与特性进行链路调度,按转发规则进行转发,调度解析器解析窗口。其中原始数据文件样例如图5所示。
步骤2,多源观测文件解析
依据转发器触发解析窗口的规则进行解析规则映射,对南海浮标分钟报文数据、南海浮标观测实时数据按各自数据文件特性,进行复杂算法计算。
依据U分量质量因子要求,进行lVal*sin(lDir)算法调取,并行计算并推送计算结果,
依据缺测值、质量符合度等处理规则进行文件规则处理,以并行模式形成高效解析结果,解析处理后的数据文件样例如图6所示。
步骤3,标准文件格式输出
将解析成功的标准数据文件格式(锚系浮标标准记录格式),进行加载入库以及导出使用。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.快速解析多源海洋业务化观测数据的方法,其特征在于,包括如下步骤:
S1,接收多源海洋业务化观测数据的原始数据文件,根据智能识别规则进行分类,采用构建的多驱动并行规则窗口按照分类结果分别转发到解析器的不同解析窗口;
S2,解析窗口根据配置信息解析原始数据文件,得到标准文件;
S3,对标准数据文件进行验证,批量加载存入数据库。
2.根据权利要求1所述的方法,其特征在于:在步骤S1中具体包括如下步骤:
S11,识别原始数据文件的数据类别及来源,并配置标签;
S12,依据标签通过智能识别规则对原始数据文件进行分类;
S13,采用多驱动并行规则窗口根据分类结果调度分发链路,推送到解析器的解析窗口;其中,
所述多驱动并行规则窗口在创建过程中调度多线程并行消费模式,实现并行技术融合,实现调度多驱动、多窗口,形成并行算法调度能力。
3.根据权利要求2所述的方法,其特征在于:在步骤S12中,若判断原始数据文件不符合智能识别规则,则将原始文件备份到指定目录并进行告警。
4.根据权利要求1所述的方法,其特征在于:在步骤S2中,所述配置信息包含解析规则配置、复杂算法配置、算法与解析的优先级规则配置;其中,
解析规则配置是针对海洋观测数据的特殊性进行对应的解析规则构建,形成解析规则集;
复杂算法配置是依据各业务数据的解析需求,在通常解析规则的基础上,增加算法解析的步骤。
5.根据权利要求1所述的方法,其特征在于:在步骤S3中,通过输出器接收到输出触发命令,并判断是否符合校验标准要求,
若符合标准要求则存入数据库,并同时触发移除解析窗口命令,返回输出成功记录;
若不符合要求,则打标机并返回解析流程。
CN202110516907.3A 2021-05-12 2021-05-12 快速解析多源海洋业务化观测数据的方法 Pending CN113111140A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110516907.3A CN113111140A (zh) 2021-05-12 2021-05-12 快速解析多源海洋业务化观测数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110516907.3A CN113111140A (zh) 2021-05-12 2021-05-12 快速解析多源海洋业务化观测数据的方法

Publications (1)

Publication Number Publication Date
CN113111140A true CN113111140A (zh) 2021-07-13

Family

ID=76722065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110516907.3A Pending CN113111140A (zh) 2021-05-12 2021-05-12 快速解析多源海洋业务化观测数据的方法

Country Status (1)

Country Link
CN (1) CN113111140A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116303475A (zh) * 2023-05-17 2023-06-23 吉奥时空信息技术股份有限公司 一种多源指标数据智能存储的管理方法及装置
CN116306574A (zh) * 2023-04-10 2023-06-23 黄石宏付信息科技有限公司 应用于智慧风控任务分析的大数据挖掘方法及服务器
CN116628451A (zh) * 2023-05-31 2023-08-22 江苏华存电子科技有限公司 一种待处理信息的高速解析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030235194A1 (en) * 2002-06-04 2003-12-25 Mike Morrison Network processor with multiple multi-threaded packet-type specific engines
CN110716897A (zh) * 2019-10-15 2020-01-21 北部湾大学 一种基于云计算的海洋档案数据库并行化构建方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030235194A1 (en) * 2002-06-04 2003-12-25 Mike Morrison Network processor with multiple multi-threaded packet-type specific engines
CN110716897A (zh) * 2019-10-15 2020-01-21 北部湾大学 一种基于云计算的海洋档案数据库并行化构建方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘志杰等: "海洋底质标准化处理系统设计与开发", 《海洋信息》 *
宋晓等: "基于多架构混搭模式的极地海洋数据库建模技术研究", 《极地研究》 *
李彦等: "基于 XML 的海洋环境数据处理技术研究", 《海洋通报》 *
陈继香: "XML 在海洋数据服务领域的应用研究", 《海洋通报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306574A (zh) * 2023-04-10 2023-06-23 黄石宏付信息科技有限公司 应用于智慧风控任务分析的大数据挖掘方法及服务器
CN116306574B (zh) * 2023-04-10 2024-01-09 乌鲁木齐汇智兴业信息科技有限公司 应用于智慧风控任务分析的大数据挖掘方法及服务器
CN116303475A (zh) * 2023-05-17 2023-06-23 吉奥时空信息技术股份有限公司 一种多源指标数据智能存储的管理方法及装置
CN116303475B (zh) * 2023-05-17 2023-08-08 吉奥时空信息技术股份有限公司 一种多源指标数据智能存储的管理方法及装置
CN116628451A (zh) * 2023-05-31 2023-08-22 江苏华存电子科技有限公司 一种待处理信息的高速解析方法
CN116628451B (zh) * 2023-05-31 2023-11-14 江苏华存电子科技有限公司 一种待处理信息的高速解析方法

Similar Documents

Publication Publication Date Title
CN113111140A (zh) 快速解析多源海洋业务化观测数据的方法
CN105045820B (zh) 一种处理海量级数据的视频图像信息的方法及数据库系统
CN102662988B (zh) 一种用于rfid中间件的冗余数据过滤方法
CN109408746A (zh) 画像信息查询方法、装置、计算机设备和存储介质
CN102156799A (zh) 一种可级联的复杂事件处理引擎及列车检修自动记录方法
CN114979309A (zh) 一种支持网络化目标数据随遇接入与处理的方法
CN111182577A (zh) 一种适用于5g路测仪的cdr合成监测系统及方法
CN114090529A (zh) 一种日志管理方法、装置、系统和存储介质
CN111427695A (zh) 一种分布式数据库中存储过程的并发调度装置
CN112052248A (zh) 一种审计大数据处理方法及系统
CN115514784A (zh) 基于物联网的多源数据采集中台
CN114528041A (zh) 一种可配置的自动化解析方法和装置
CN115022402A (zh) 一种基于一栈式集成技术的agent采集方法及系统
CN112434877A (zh) 一种基于云计算的智慧城市数据处理方法及装置
CN110532071A (zh) 一种基于gpu的多应用调度系统和方法
CN115080808B (zh) 一种行车记录仪信息管理方法及系统
CN113268363B (zh) 基于全局能力的调用追踪方法、装置、服务器及存储介质
CN116644039B (zh) 一种基于大数据的在线能力运营日志自动采集分析的方法
CN116974526A (zh) 数据开发方法、装置、终端设备以及存储介质
CN112000728B (zh) 一种业务数据处理方法、可读存储介质及计算机设备
CN212569771U (zh) 一种轨迹大数据特征提取装置
CN113934744A (zh) 一种数据共享的方法及设备
CN116975660A (zh) 面向商业聚集区域的识别方法及装置
CN117670402A (zh) 一种智能交互的数字化转型平台
CN117787617A (zh) 一种自由流程引擎管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210713