CN114385601A - 基于超算的云边协同高通量海洋数据智能处理方法及系统 - Google Patents

基于超算的云边协同高通量海洋数据智能处理方法及系统 Download PDF

Info

Publication number
CN114385601A
CN114385601A CN202210291801.2A CN202210291801A CN114385601A CN 114385601 A CN114385601 A CN 114385601A CN 202210291801 A CN202210291801 A CN 202210291801A CN 114385601 A CN114385601 A CN 114385601A
Authority
CN
China
Prior art keywords
data
ocean
model
intelligent processing
marine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210291801.2A
Other languages
English (en)
Other versions
CN114385601B (zh
Inventor
王英龙
杨美红
赵志刚
李响
王春晓
武鲁
吴晓明
霍吉东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Computer Science Center National Super Computing Center in Jinan
Original Assignee
Shandong Computer Science Center National Super Computing Center in Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Computer Science Center National Super Computing Center in Jinan filed Critical Shandong Computer Science Center National Super Computing Center in Jinan
Priority to CN202210291801.2A priority Critical patent/CN114385601B/zh
Publication of CN114385601A publication Critical patent/CN114385601A/zh
Application granted granted Critical
Publication of CN114385601B publication Critical patent/CN114385601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及流式数据智能处理技术领域,提供了基于超算的云边协同高通量海洋数据智能处理方法及系统,包括基于历史海洋观测数据构建每个海洋观测数据流的初始海洋数据智能处理模型;实时获取每个海洋观测数据流的数据并进行预处理;基于预处理后的每个海洋观测数据流数据,对相应的初始海洋数据智能处理模型进行实时迭代训练更新,得到每个海洋观测数据流的最新海洋数据智能处理模型,保存在模型版本库中;通过调用每个海洋观测数据流的最新海洋数据智能处理模型对每个海洋观测数据流中不断流入的数据进行实时推理与预测;将超算训练优化后的模型推送到边缘端,在边缘端进行模型更新,并进行具体推理应用,从而避免了数据远程传输,降低了延迟。

Description

基于超算的云边协同高通量海洋数据智能处理方法及系统
技术领域
本发明属于流式数据智能处理技术领域,具体涉及一种基于超算的云边协同高通量海洋数据智能处理方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着物联网、大数据、人工智能的发展,越来越多的海洋观/监测网统被搭建起来,并发挥着日益重要的作用。海洋观/监测网形成了大量数据流,具有显著的“高通量”特征,此外每个数据流的数据分布随时间不断变化,呈现出“不平稳”特征。海洋数据智能处理可分为两类:一类是数据本身质量控制,传感器本身质量问题、传感器工作环境复杂性及传输网络可靠性等问题导致物联网数据异常频发,如数据漂移、数据缺失、数据失真等,物联网采集的数据质量已成为制约海洋数据深度应用、人工智能发挥作用的关键性问题,通过流式数据异常分析,可及时发现异常并进行应对,从而提升数据本身质量;另一类是数据综合分析应用,数据本身质量没问题,但借助流式数据异常分析可识别数据模式异常,从而发现一些海洋现象异常事件。
当前大数据时代,人工识别数据异常的速度难以满足需求,更快地检测数据中的异常情况成为了当下非常重要的任务。业界正在尝试用人工智能方法分析数据,以及时发现数据异常并进行相应处理。常见的数据异常检测方法包括:基于统计的方法、基于分类的方法、基于预测的方法及其他方法等。基于统计的方法主要指利用数据的分布规律,发现其中的异常点,包括3σ原则、方差、Z分数等。基于分类的异常检测方法通过将异常检测问题转换为分类问题,利用置信区间进行判断异常,除了基于神经网络、贝叶斯网络等分类方法外,还包括One-class-SVMs单分类方法。基于预测的异常检测方法,通过将异常检测问题转换为预测问题,利用置信区间进行判断,即通过时间序列数据预测方法来预测下一个时间点的值,然后与实际监测值进行比较,通过差值来识别异常,常见的时间序列数据预测方法,主要有三种:传统ML方法、特征工程+ML类方法、深度学习方法。其他异常检测方法,包括贝叶斯变换点检测方法、局部离群因子检测LOF方法、孤立森林iForest方法等。
海洋流式数据异常检测相比传统时序数据异常检测更有挑战性。流式数据异常检测必须实时处理数据并实时输出决策,而不是通过批量文件进行多次传递,其时效性要求很高。因此,以无人监督的自动方式运行通常是必要的。此外,流式数据通常是非平稳的,流式数据异常检测器必须不断学习,并适应不断变化的统计数据,即异常检测模型必须能动态更新。可见,流式数据异常检测需具有更高的时效性、自动化和动态性要求。
当前海洋流式数据智能处理主要采用“One Size Fit All”思路,即为每类数据设计一个数据智能分析模型,然后应用到所有同类数据流上,未考虑数据流的时空差异,导致模型精度在不同数据流或同一数据流的不同时期差异很大,性能时好时坏。
发明内容
为了解决上述问题,本发明提出了一种基于超算的云边协同高通量海洋数据智能处理方法及系统,本发明为海洋观测系统采集的每个海洋观测数据流设置专门对应于该路数据的模型及相应的模型训练更新作业任务,并对每个海洋观测数据流进行模型版本控制,随着数据的不断消耗,相应的模型会不断更新。当获得更多海洋观测数据时,模型对目标海洋观测数据流的底层分布和时间演化规律的建模将愈加精确。
根据一些实施例,本发明的第一方案提供了一种基于超算的云边协同高通量海洋数据智能处理方法,采用如下技术方案:
基于超算的云边协同高通量海洋数据智能处理方法,包括:
基于历史海洋观测数据构建每个海洋观测数据流的初始海洋数据智能处理模型;
实时获取每个海洋观测数据流的数据并进行预处理;
基于预处理后的每个海洋观测数据流数据,对相应的初始海洋数据智能处理模型进行实时迭代训练更新,得到每个海洋观测数据流的最新海洋数据智能处理模型,保存在模型版本库中;
通过调用每个海洋观测数据流的最新海洋数据智能处理模型对相应海洋观测数据流中不断流入的数据进行实时推理与预测。
进一步地,所述基于历史海洋观测数据构建初始海洋数据智能处理模型,包括:
从海洋观测系统获取历史海洋观测数据;
对获取的历史海洋观测数据进行格式转换、校验预处理操作;
将预处理后的历史海洋观测数据保存到原始数据库;
基于历史海洋观测数据,为每个海洋观测数据流训练初始海洋数据智能处理模型。
进一步地,将历史海洋观测数据保存到原始数据库采用分路分级数据存储方法,具体为:
为每路数据创建创建4个文件--“天”文件、“月”文件、“年”文件、全量文件,分别存储1天、1月、1年、全量数据;
命名规则为“<数据流id>+YYYYMMDD.dat”,其中<数据流id>是每个数据流的编号,YYYY为4位年标识,MM为2位月标识,DD为2位日期。
进一步地,还包括:
对实时推理与预测结果进行存储,存储到推理结果库中;
调取原始数据库、模型版本库以及推理结果库并进行展示。
进一步地,所述每个海洋观测数据流的最新海洋数据智能处理模型,保存在模型版本库中,具体为:
以文件的方式保存到模型版库中;
文件命名规则为“<数据流id>+<时间戳>.dat”,
其中<数据流id>是每个数据流的编号,<时间戳>采用全局唯一标识符。
进一步地,基于超级计算机,为每个海洋观测数据流训练初始海洋数据智能处理模型和更新海洋数据智能处理模型。
根据一些实施例,本发明的第二方案提供了一种基于超算的云边协同高通量海洋数据智能处理系统,采用如下技术方案:
基于超算的云边协同高通量海洋数据智能处理系统,包括云端和多个边缘端;其中,所述云端和所述边缘端均包含有数据采集模块、数据存储模块、数据智能处理模块及数据可视化模块;所述云端还包括智能模型训练模块;
所述数据采集模块采集海洋观测数据并进行预处理,并将预处理后的海洋观测数据存储到原始数据库中;
所述智能模型训练模块被配置为基于历史海洋观测数据构建每个海洋观测数据流的初始海洋数据智能处理模型,还基于预处理后的每个海洋观测数据流实时数据,对相应的初始海洋数据智能处理模型进行实时迭代训练更新,得到每个海洋观测数据流的最新海洋数据智能处理模型,保存在模型版本库中;
所述数据智能处理模块被配置为基于数据采集模块采集的数据,通过调用每个海洋观测数据流的最新海洋数据智能处理模型对每个海洋观测数据流中不断流入的数据进行实时推理与预测,对实时推理与预测结果进行存储,存储到推理结果库中;
所述数据可视化模块被配置为读取原始数据库、推理结果库和模型版本库,并进行展示。
进一步地,数据采集的过程在云端和边缘端同时进行,所述边缘端采集的数据经预处理后先保存在边缘端原始数据库中,基于消息队列的远程数据传输通道,接入到云端的数据采集模块。
进一步地,所述可视化模块通过两个曲线表对原始数据、模型预测值、以及实时计算得到的异常概率进行输出。
进一步地,边缘端的所述数据智能处理模块在处理新数据的同时,通过基于基于消息队列的远程数据传输通道,不断接收从云端下发的最新海洋数据智能处理模型并进行本地模型更新。
与现有技术相比,本发明的有益效果为:
1、本发明考虑到海洋观/监测网中,数据流的“高通量”及“不平稳”特性,严重影响着数据智能方法的精度,致力于解决高通量数据智能处理面临的适应性问题,提出了“OneSize Fit One”思路,即为每个数据流定制专用的数据智能分析模型,并支持模型动态进化,以适应数据流的变化,综合利用离线训练和在线训练,实现模型在线更新,从而提高了模型的自适应性水平。
2、本发明针对海量模型若在边缘端进行训练,受制于计算性能,需耗费过长时间,不能满足需求的问题,提出了基于超算的海量模型并发训练方法,基于超算计算优势,充分发挥超算核心多的特点,将海量模型以负载均衡的方式分配到不同超算核心上,从而实现海量模型并发训练,可实现分钟级完成万级模型优化。
3、传统方法以离线方式对批量数据进行训练,训练出一个通用模型,再由此模型对于实时数据流进行在线推理预测。虽可以支持在线预测,却无法满足在线训练,只能对每一批次的数据进行再训练并更新模型,在模型再训练与更新的过程中,一切会重新开始,会占用一定的时间而无法保证实时性,且无法有效应对概念漂移等问题。针对此问题,本发明提出批流结合的海洋流式数据智能处理方法,综合利用离线训练和在线训练,实现模型在线更新。
4、海量模型在超算训练虽解决了限定时间内模型优化问题,但如果模型推理也在超算进行,就需要把边缘端数据通过远程网络传输至超算,从而导致延迟过长,无法满足应用需求。针对此问题,本发明提出了基于云边协同的模型更新及推理方法,将超算训练优化后的模型推送到边缘端,在边缘端进行模型更新,并进行具体推理应用,从而避免了数据远程传输,降低了延迟。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例一所述的基于超算的云边协同高通量海洋数据智能处理方法流程图;
图2是本发明实施例一所述的基于超算的海量模型并发训练方法流程图;
图3是本发明实施例二所述的基于超算的云边协同高通量海洋数据智能处理系统架构图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例提供了一种基于超算的云边协同高通量海洋数据智能处理方法,包括:
根据一些实施例,本发明的第一方案提供了一种基于超算的云边协同高通量海洋数据智能处理方法,采用如下技术方案:
基于超算的云边协同高通量海洋数据智能处理方法,包括:
基于历史观测海洋数据构建每个海洋观测数据流的初始海洋数据智能处理模型;
实时获取每个海洋观测数据流的数据并进行预处理,并放入消息队列;
从消息队列获取预处理后的每个海洋观测数据流数据,采用在线训练方式,对相应的初始海洋数据智能处理模型进行实时迭代训练更新,得到每个海洋观测数据流的最新海洋数据智能处理模型,保存在模型版本库中;
通过调用每个海洋观测数据流的最新海洋数据智能处理模型对每个海洋观测数据流中不断流入的数据进行实时推理与预测。
本实施例的具体方案如图1所示,针对海洋流式数据“不平稳”问题,本实施例提出了基于超算的云边协同高通量海洋数据智能处理方法,综合利用离线训练和在线训练,实现模型在线更新,从而提高了模型的自适应性水平。
该方法包括以下步骤:
步骤S1:离线路径负责对历史海洋数据进行预处理和海洋数据智能处理模型的离线训练,产生的海洋数据智能处理模型作为在线学习和推理过程中的初始海洋数据智能处理模型;
步骤S1.1:从海洋观测系统获取历史海洋观测数据;
步骤S1.2:对获取的历史海洋观测数据进行格式转换、校验等预处理;
步骤S1.3:将预处理后的历史海洋观测数据保存到原始数据库;
步骤S1.4:基于历史海洋观测数据,采用离线训练方式,为每个海洋观测数据流训练初始海洋数据智能处理模型。
其中,海洋数据智能处理模型可根据需要选择贝叶斯变换点检测、局部离群因子检测、孤立森林等机器学习模型,进行海洋观测数据的处理。
步骤S1.3中,将预处理后的历史海洋观测数据保存到原始数据库采用分路分级数据存储方法,具体为:
为每路数据创建创建4个文件--“天”文件、“月”文件、“年”文件、全量文件,分别存储1天、1月、1年、全量数据;
命名规则为“<数据流id>+YYYYMMDD.dat”,其中<数据流id>是每个数据流的编号,YYYY为4位年标识,MM为2位月标识,DD为2位日期。
每个数据流的初始海洋数据智能处理模型也采用文件的方式存储在模型版本库中,具体为:
以文件的方式保存到模型版库中;
文件命名规则为“<数据流id>+<时间戳>.dat”,
其中<数据流id>是每个数据流的编号,<时间戳>采用全局唯一标识符。
步骤S2:数据流不断流入并实时进行预处理,然后进入消息队列等待消费;
步骤S3:在线路径结合流入的数据对海洋数据智能处理模型进行实时或周期性地迭代训练,更新海洋数据智能处理模型,存入模型版本库中。在这个过程中,模型是动态更新的,从而可以很好应对概念漂移等问题。
所述每个海洋观测数据流的最新海洋数据智能处理模型,保存在模型版本库中,具体为:
以文件的方式保存到模型版库中;
文件命名规则为“<数据流id>+<时间戳>.dat”,
其中<数据流id>是每个数据流的编号,<时间戳>采用全局唯一标识符。
海洋观测区域覆盖范围广,每个海洋观测数据流的数据分布和演化机制极为不同。因此,海洋数据智能处理模型训练,需要考虑两个原则:(1)每个观测数据流数据的海洋数据智能处理模型都应该是专门针对该路数据特点的;(2)每个观测数据流数据的海洋数据智能处理模型都应该是随着时间和新流入数据一起更新的。
本实施例为每个海洋观测数据流设置专门对应于该路数据的模型及相应的模型训练更新作业任务,并对每个数据流进行模型版本控制。本实施例提出一种基于超算的海量模型并发训练方法,如图2所示,所有数据流的海洋数据智能处理模型在线学习任务通过MPI作业提交给超级计算机。超级计算机有大量节点,每个节点有多个计算核心,每个计算核心可运行一个计算进程。为了充分利用超级计算机计算特点,为一个进程只分配一个数据流的在线学习任务,以达到最佳性能。对于一个海洋观测数据流,新采集的数据将持续输入到相应的在线学习进程,以训练和更新模型,不同版本模型将定期存储在模型版本库中。随着数据的不断消耗,相应的模型会不断更新。当获得越来越多海洋观测数据时,模型对目标观测数据流的底层分布和时间演化规律的建模将愈加精确。
步骤S4:推理模块通过模型版本库中最新的模型对不断流入的数据进行实时推理与预测;
步骤S5:推理结果保存在推理结果库(时序数据库)中;
步骤S6:最终流式推理结果由上层相关应用的接口调取并呈现。
实施例二
如图3所示,本实施例提供了一种基于超算的云边协同高通量海洋数据智能处理系统,包括云端和多个边缘端;其中,所述云端和所述边缘端均包含有数据采集模块、数据存储模块、数据智能处理模块及数据可视化模块;所述云端还包括智能模型训练模块;在云端、边缘端之间存在远程数据传输通道。
所述数据采集模块采集海洋观测数据并进行预处理,并将预处理后的海洋观测数据存储到原始数据库中;
所述智能模型训练模块被配置为基于历史海洋观测数据构建每个海洋观测数据流的初始海洋数据智能处理模型,还基于预处理后的每个海洋观测数据流实时数据,对相应的初始海洋数据智能处理模型进行实时迭代训练更新,得到每个海洋观测数据流的最新海洋数据智能处理模型,保存在模型版本库中;
所述数据智能处理模块被配置为基于数据采集模块采集的数据,通过调用每个海洋观测数据流的最新海洋数据智能处理模型对每个海洋观测数据流中不断流入的数据进行实时推理与预测,对实时推理与预测结果进行存储,存储到推理结果库中;
所述数据可视化模块被配置为读取原始数据库、推理结果库和模型版本库,并进行展示。
整个基于超算的云边协同高通量海洋数据智能处理系统在使用时包含两个阶段:准备阶段、运行阶段。
(1)准备阶段
此阶段主要是获得一定量数据,并进行初始海洋数据智能处理模型训练,包括是数据采集、存储、预处理及模型训练等。具体流程如下:
①借助数据采集模块,从海洋观测网、互联网及其他涉海系统获取海洋数据,在获取过程中对数据进行格式转换、校验等预处理,然后将数据保存到原始数据库。
数据采集在云端和边缘端同时进行。不过边缘端采集的数据经预处理后,先保存到本地原始数据库,然后通过基于消息队列的远程数据传输通道,接入云端的数据采集模块,从而实现数据汇交。在云端为了保存海量流式数据并满足并行处理需求,设计了分路分级数据存储方法,即为每路数据创建4个文件--“天”文件、“月”文件、“年”文件、全量文件,分别存储1天、1月、1年、全量数据,命名规则为“<数据流id>+YYYYMMDD.dat”,其中<数据流id>是每个数据流的编号,YYYY为4位年标识,MM为2位月标识,DD为2位日期。需要注意是全量文件名称中仅有数据流id,无日期标识。最新的数据首先保存到“天”文件,然后在特定的时间间隔被依次合并到“月”、“年”及“全量”文件。所有上述流数据文件被统一存储到超算的高速文件系统(包括但不限于Lustre)中,以便后续数据处理进程高效处理数据。
②借助智能模型训练模块,基于超级计算机,为每个数据流训练初始海洋数据智能处理模型。
海洋观测区域覆盖范围广,每个海洋观测数据流的数据分布和演化机制极为不同。因此需针对每路数据特点,为每路数据至少训练一个专门的数据智能处理模型。智能模型训练模块,基于上文提出的“基于超算的海量模型并发训练方法”,综合利用超算核数多、计算能力强的特点完成模型训练。训练后的基础模型将被保存到模型库,即以文件的方式保存到超算的高速文件系统(包括但不限于Lustre)中。文件命名规则为“<数据流id>+<时间戳>.dat”,其中<数据流id>是每个数据流的编号,<时间戳>采用全局唯一标识符(GUID,Globally Unique Identifier)。
(2)运行阶段
此阶段主要是对初始海洋数据智能处理模型,进行在线训练和使用,从而对流式数据进行实时智能处理。具体流程如下:
A.数据智能处理模块加载初始海洋数据智能处理模型。云端、边缘端均有数据智能处理模块,可根据实际需求灵活选择在云端还是边缘端进行数据处理,也可同时进行。为了实现边缘端基础数据智能处理模型,需通过基于消息队列的远程数据传输通道,将云端的基础数据智能处理模型下发到边缘端。为了应对边缘端异构计算环境和提高模型分发效率,采用基于容器的模型分发方法,在云端将模型封装到容器中,在边缘端加载整个模型容器,从而可实现秒级模型上线和更新,保证边缘端业务的持续性。
B.数据智能处理模块接收数据流新数据,并进行智能处理。在处理过程中,将处理后的数据保存到有效数据库。在云端仍采用分路分级数据存储方法,为每路数据创建4个文件--“天”文件、“月”文件、“年”文件、全量文件,分别存储1天、1月、1年、全量数据,命名规则为“<TAG>+<数据流id>+YYYYMMDD.dat”,其中<TAG>是有效数据标识,可选择特定字符,<数据流id>是每个数据流的编号,YYYY为4位年标识,MM为2位月标识,DD为2位日期。需要注意是全量文件名称中仅有数据流id,无日期标识。最新的数据首先保存到“天”文件,然后在特定的时间间隔被依次合并到“月”、“年”及“全量”文件。所有上述流数据文件被统一存储到超算的高速文件系统(包括但不限于Lustre)中。在边缘端只存储最近3个月的数据,采用时序数据库来进行数据存储。
C.数据可视化模块对数据智能处理结果进行可视化展示。可视化模块是一个B/S结构的Web应用程序,它读取原始数据库、有效数据库和模型库数据,并进行展示。可视化模块通过两个曲线表对接入的原始数据、模型的预测值、以及实时计算得到的异常概率进行输出。当出现潜在异常数据时,异常分数以及异常概率值会显著升高。但是否异常需要基于设定的异常概率阈值进行判定,超过异常概率阈值水平线才会被判定为异常点。当计算得到的异常概率超过设定的阈值线则会触发异常报警,前端会在曲线图上对异常点进行标定并呈现,具体地,会在异常所在点上线标注一条红色虚线,可在虚线顶部标注异常等字样。
D.边缘端数据智能处理模块在处理新数据的同时,通过基于消息队列的远程数据传输通道,将数据发送回云端。
F.智能模型训练模块对海洋数据智能处理模型进行更新。智能模型训练模块以数据流为单位,获取来自云端和边缘端的最新数据,按预先设好的时间窗口,基于上文提出的“基于超算的海量模型并发训练方法”,综合利用超算核数多、计算能力强的特点完成模型训练。训练后的的海洋数据智能处理模型将被保存到模型版本库,并通过基于消息队列的远程数据传输通道下发到边缘端。
G.数据智能处理模块加载新的数据智能处理模型,然后进行第B步-数据智能处理和存储。如此循环往复。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.基于超算的云边协同高通量海洋数据智能处理方法,其特征在于,包括:
基于历史海洋观测数据构建每个海洋观测数据流的初始海洋数据智能处理模型;
实时获取每个海洋观测数据流的数据并进行预处理;
基于预处理后的每个海洋观测数据流的数据,对相应的初始海洋数据智能处理模型进行实时迭代训练更新,得到每个海洋观测数据流的最新海洋数据智能处理模型,保存在模型版本库中;
通过调用每个海洋观测数据流的最新海洋数据智能处理模型对每个海洋观测数据流中不断流入的数据进行实时推理与预测。
2.如权利要求1所述的基于超算的云边协同高通量海洋数据智能处理方法,其特征在于,所述基于历史海洋观测数据构建初始海洋数据智能处理模型,包括:
从海洋观测系统获取历史海洋观测数据;
对获取的历史海洋观测数据进行格式转换、校验预处理操作;
将预处理后的历史海洋观测数据保存到原始数据库;
基于历史海洋观测数据,为每个数据流训练初始海洋数据智能处理模型。
3.如权利要求2所述的基于超算的云边协同高通量海洋数据智能处理方法,其特征在于,将历史海洋观测数据保存到原始数据库采用分路分级数据存储方法,具体为:
为每路数据创建创建4个文件--“天”文件、“月”文件、“年”文件、全量文件,分别存储1天、1月、1年、全量数据;
命名规则为“<数据流id>+YYYYMMDD.dat”,其中<数据流id>是每个数据流的编号,YYYY为4位年标识,MM为2位月标识,DD为2位日期。
4.如权利要求1所述的基于超算的云边协同高通量海洋数据智能处理方法,其特征在于,还包括:
对实时推理与预测结果进行存储,存储到推理结果库中;
调取原始数据库、模型版本库以及推理结果库并进行展示。
5.如权利要求1所述的基于超算的云边协同高通量海洋数据智能处理方法,其特征在于,所述每个海洋观测数据流的最新海洋数据智能处理模型,保存在模型版本库中,具体为:
以文件的方式保存到模型版库中;
文件命名规则为“<数据流id>+<时间戳>.dat”,
其中<数据流id>是每个数据流的编号,<时间戳>采用全局唯一标识符。
6.如权利要求5所述的基于超算的云边协同高通量海洋数据智能处理方法,其特征在于,基于超级计算机,为每个海洋观测数据流训练初始海洋数据智能处理模型和更新海洋数据智能处理模型。
7.基于超算的云边协同高通量海洋数据智能处理系统,其特征在于,包括云端和多个边缘端;其中,所述云端和所述边缘端均包含有数据采集模块、数据存储模块、数据智能处理模块及数据可视化模块;所述云端还包括智能模型训练模块;
所述数据采集模块采集海洋观测数据并进行预处理,并将预处理后的海洋观测数据存储到原始数据库中;
所述智能模型训练模块被配置为基于历史海洋观测数据构建每个海洋观测数据流的初始海洋数据智能处理模型,还基于预处理后的每个海洋观测数据流实时数据,对相应的初始海洋数据智能处理模型进行实时迭代训练更新,得到每个海洋观测数据流的最新海洋数据智能处理模型,保存在模型版本库中;
所述数据智能处理模块被配置为基于数据采集模块采集的数据,通过调用每个海洋观测数据流的最新海洋数据智能处理模型对每个海洋观测数据流中不断流入的数据进行实时推理与预测,对实时推理与预测结果进行存储,存储到推理结果库中;
所述数据可视化模块被配置为读取原始数据库、推理结果库和模型版本库,并进行展示。
8.如权利要求7所述的基于超算的云边协同高通量海洋数据智能处理系统,其特征在于,数据采集的过程在云端和边缘端同时进行,所述边缘端采集的数据经预处理后先保存在边缘端原始数据库中,基于消息队列的远程数据传输通道,接入到云端的数据采集模块。
9.如权利要求7所述的基于超算的云边协同高通量海洋数据智能处理系统,其特征在于,所述可视化模块通过两个曲线表对原始数据、模型预测值、以及实时计算得到的异常概率进行输出。
10.如权利要求7所述的基于超算的云边协同高通量海洋数据智能处理系统,其特征在于,边缘端的所述数据智能处理模块在处理新数据的同时,通过基于消息队列的远程数据传输通道,不断接收云端下发的最新海洋数据智能处理模型。
CN202210291801.2A 2022-03-24 2022-03-24 基于超算的云边协同高通量海洋数据智能处理方法及系统 Active CN114385601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210291801.2A CN114385601B (zh) 2022-03-24 2022-03-24 基于超算的云边协同高通量海洋数据智能处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210291801.2A CN114385601B (zh) 2022-03-24 2022-03-24 基于超算的云边协同高通量海洋数据智能处理方法及系统

Publications (2)

Publication Number Publication Date
CN114385601A true CN114385601A (zh) 2022-04-22
CN114385601B CN114385601B (zh) 2022-07-08

Family

ID=81204869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210291801.2A Active CN114385601B (zh) 2022-03-24 2022-03-24 基于超算的云边协同高通量海洋数据智能处理方法及系统

Country Status (1)

Country Link
CN (1) CN114385601B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115293662A (zh) * 2022-10-10 2022-11-04 山东省计算中心(国家超级计算济南中心) 融合并行与分布式的海洋观测数据智能计算方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783875A (zh) * 2018-12-19 2019-05-21 东南大学 一种海洋重力数据的自我迭代更新优化算法
CN110909181A (zh) * 2019-09-30 2020-03-24 中国海洋大学 一种面向多类型海洋数据的跨模态检索方法及系统
CN111199279A (zh) * 2019-10-30 2020-05-26 山东浪潮人工智能研究院有限公司 一种警务行业云端边缘计算和人工智能融合方法及装置
CN111506855A (zh) * 2020-02-18 2020-08-07 华北理工大学 利用tlbo算法优化深度置信网络模型在海洋数据预测中的应用
CN111626324A (zh) * 2020-04-13 2020-09-04 山东省科学院海洋仪器仪表研究所 基于边缘计算的海底观测网数据异构解析集成方法
US20210110710A1 (en) * 2019-10-14 2021-04-15 Fujitsu Limited Edge-accelerated artificial intelligence for collaborative sensing of physical intelligent moving objects
CN112685139A (zh) * 2021-01-11 2021-04-20 东北大学 基于K8S和Kubeedge的云边深度学习模型管理系统及模型训练方法
CN112931318A (zh) * 2021-03-25 2021-06-11 浙江大学 一种边云协同的海洋大黄鱼智能化养殖管理系统
CN113220455A (zh) * 2021-05-21 2021-08-06 润联软件系统(深圳)有限公司 一种基于云边协同的数据预处理方法和系统
CN113867263A (zh) * 2021-08-27 2021-12-31 大唐互联科技(武汉)有限公司 一种基于云边协同及机器学习的智能刀具管理系统
CN113963251A (zh) * 2021-11-26 2022-01-21 山东省计算中心(国家超级计算济南中心) 一种海洋生物检测方法、系统和设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783875A (zh) * 2018-12-19 2019-05-21 东南大学 一种海洋重力数据的自我迭代更新优化算法
CN110909181A (zh) * 2019-09-30 2020-03-24 中国海洋大学 一种面向多类型海洋数据的跨模态检索方法及系统
US20210110710A1 (en) * 2019-10-14 2021-04-15 Fujitsu Limited Edge-accelerated artificial intelligence for collaborative sensing of physical intelligent moving objects
CN111199279A (zh) * 2019-10-30 2020-05-26 山东浪潮人工智能研究院有限公司 一种警务行业云端边缘计算和人工智能融合方法及装置
CN111506855A (zh) * 2020-02-18 2020-08-07 华北理工大学 利用tlbo算法优化深度置信网络模型在海洋数据预测中的应用
CN111626324A (zh) * 2020-04-13 2020-09-04 山东省科学院海洋仪器仪表研究所 基于边缘计算的海底观测网数据异构解析集成方法
CN112685139A (zh) * 2021-01-11 2021-04-20 东北大学 基于K8S和Kubeedge的云边深度学习模型管理系统及模型训练方法
CN112931318A (zh) * 2021-03-25 2021-06-11 浙江大学 一种边云协同的海洋大黄鱼智能化养殖管理系统
CN113220455A (zh) * 2021-05-21 2021-08-06 润联软件系统(深圳)有限公司 一种基于云边协同的数据预处理方法和系统
CN113867263A (zh) * 2021-08-27 2021-12-31 大唐互联科技(武汉)有限公司 一种基于云边协同及机器学习的智能刀具管理系统
CN113963251A (zh) * 2021-11-26 2022-01-21 山东省计算中心(国家超级计算济南中心) 一种海洋生物检测方法、系统和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
金志刚 等: ""基于水下云边协同架构的珊瑚礁监测新机制"", 《系统工程与电子技术》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115293662A (zh) * 2022-10-10 2022-11-04 山东省计算中心(国家超级计算济南中心) 融合并行与分布式的海洋观测数据智能计算方法及系统

Also Published As

Publication number Publication date
CN114385601B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
Wang et al. Big data analytics for intelligent manufacturing systems: A review
Christou et al. End-to-end industrial IoT platform for Quality 4.0 applications
US11409962B2 (en) System and method for automated insight curation and alerting
US20090089231A1 (en) Adaptive industrial systems via embedded historian data
Subramaniyan et al. Artificial intelligence for throughput bottleneck analysis–State-of-the-art and future directions
Wang et al. Distributed ARIMA models for ultra-long time series
CN114385601B (zh) 基于超算的云边协同高通量海洋数据智能处理方法及系统
CN112183868B (zh) 交通流量预测模型的构建方法及电子设备
US7974937B2 (en) Adaptive embedded historians with aggregator component
CN110750455B (zh) 基于系统日志分析的智能在线自更新故障诊断方法和系统
CN115098278B (zh) 一种基于微服务的数字孪生车间多场景交互方法
Patwardhan et al. Applications of advanced analytics at Saudi Aramco: A practitioners’ perspective
Genkin et al. B-SMART: A reference architecture for artificially intelligent autonomic smart buildings
CN111258984B (zh) 工业大数据环境下的产品质量端-边-云协同预报方法
CN114757307A (zh) 一种人工智能自动训练方法、系统、装置及存储介质
CN113448808B (zh) 一种批处理任务中单任务时间的预测方法、系统及存储介质
CN114239385A (zh) 一种面向仓库资源配给的智能决策系统及方法
CN107818523B (zh) 基于非稳定频率分布与频率因子学习的电力通信系统数据真值判别与推断方法
CN112861364A (zh) 一种基于状态时延转换图二次标注的工控系统设备行为建模方法及装置
CN117182910A (zh) 一种智能装配机器人装配控制方法及控制系统
CN112783740B (zh) 一种基于时间序列特征的服务器性能预测方法及系统
CN111950691A (zh) 一种基于潜在动作表示空间的强化学习策略学习方法
Wu et al. A distributed real-time data prediction framework for large-scale time-series data using stream processing
CN117787444B (zh) 一种面向集群对抗场景的智能算法快速集成方法及装置
CN112508276B (zh) 一种电网快速诊断与优化系统及优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant