CN114840673B - 基于NetCDF的多源异构海洋环境数据集成方法 - Google Patents

基于NetCDF的多源异构海洋环境数据集成方法 Download PDF

Info

Publication number
CN114840673B
CN114840673B CN202210496217.0A CN202210496217A CN114840673B CN 114840673 B CN114840673 B CN 114840673B CN 202210496217 A CN202210496217 A CN 202210496217A CN 114840673 B CN114840673 B CN 114840673B
Authority
CN
China
Prior art keywords
data
space
time
netcdf
marine environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210496217.0A
Other languages
English (en)
Other versions
CN114840673A (zh
Inventor
邹丹
王文珂
肖汶斌
王得志
程兴华
包长春
陆丽娜
赵飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202210496217.0A priority Critical patent/CN114840673B/zh
Publication of CN114840673A publication Critical patent/CN114840673A/zh
Application granted granted Critical
Publication of CN114840673B publication Critical patent/CN114840673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请属于海洋环境数据集成方法技术领域,尤其涉及一种基于NetCDF的多源异构海洋环境数据集成方法。包括如下步骤:提取NetCDF文件元数据;基于预训练文本分类模型进行文件分类;基于命名实体识别技术提取数据的时空维名称及范围;基于字符串模式匹配方法识别并提取数据变量;基于预定义网格进行数据时空对齐;数据存储入库;本申请将多源异构海洋环境数据集成到数据库系统,形成统一的海洋环境数据,实现整体上的数据一致性,提高数据共享访问的效率,实现基于NetCDF标准的多源异构海洋环境数据集成,提供高质量海洋环境数据服务,提高大规模海洋环境数据集成的效率。

Description

基于NetCDF的多源异构海洋环境数据集成方法
技术领域
本申请属于海洋环境数据集成方法技术领域,尤其涉及一种基于NetCDF的多源异构海洋环境数据集成方法。
背景技术
NetCDF是一种面向数组并适于网络共享的数据描述和编码标准,广泛应用于大气、水文、海洋等诸多领域。NetCDF是海洋环境数据文件的主要存储文件格式之一,具有自描述性、可移植性和可扩展性,多数海洋环境数据源都提供NetCDF数据文件下载或提供可转换为NetCDF格式的兼容数据文件。由于缺乏规范的数据存储标准,传统的NetCDF多源异构海洋环境数据集成主要通过人工进行,首先批量下载数据文件或者数据源,然后对数据文件按照来源和类别进行归类,接下来对每一类数据文件内容进行人工解析并编写定制的数据变量抽取脚本程序,最后通过程序实现数据内容导入。整个过程需要人工参与,既耗时费力且可复用性低,制约了大规模多源异构海洋环境数据的集成。
发明内容
本申请的目的在于,针对现有技术的问题,提供一种基于NetCDF的多源异构海洋环境数据集成方法,利用海洋环境数据NetCDF文件中提取文件元数据,基于预训练文本分类模型、命名实体识别技术,通过解析海洋环境数据的时间维、空间维,进而获取数据变量;最后基于预定义统一时空网格,将数据存入海洋环境数据库,实现NetCDF数据自动识别和抽取,提高大规模海洋环境数据集成的效率。
为实现上述目的,本申请采用如下技术方案。
一种基于NetCDF的多源异构海洋环境数据集成方法,包括如下步骤:
步骤(1)提取NetCDF文件元数据
从NetCDF源文件中读取元数据,将文件名和全局属性字段保存为海洋环境数据摘要文本文件,将维度相关信息字段保存为维度文本文件,将变量相关信息字段保存为变量文本文件;
步骤(2)基于预训练文本分类模型进行文件分类
使用预训练文本分类模型对海洋环境数据摘要文本文件进行分类,输出NetCDF文件的数据类型;
步骤(3)基于命名实体识别技术提取数据的时空维名称及范围
将海洋环境数据摘要文本文件和维度文本文件作为输入,基于NetCDF文件数据类型所对应的词典进行命名实体识别,提取出NetCDF文件的时间维和空间维的名称和时空范围;
步骤(4)基于字符串模式匹配方法识别并提取数据变量
将变量文本文件和时空维名称作为输入,基于字符串模式匹配方法识别出NetCDF文件的数据变量名称和维度顺序,然后从NetCDF文件中读取数据变量;
步骤(5)基于预定义网格进行数据时空对齐
通过插值的方法,将数据变量的时空网格与预定义数据时空网格进行对齐,计算数据变量的时空网格与预定义时空网格重叠区域内预定义时空网格的各格点处的数值;
步骤(6)数据存储入库
将时空对齐的海洋环境数据存入数据库并建立数据索引,根据实际业务场景,数据库使用关系数据库或非关系数据库。
对前述基于NetCDF的多源异构海洋环境数据集成方法的进一步补充和完善,所述全局属性字段包括NetCDF文件的Global Attributes全局属性标签下的所有自定义字段;
所述维度相关信息字段包括NetCDF文件的Dimensions维度标签下的所有自定义字段;
所述变量相关信息字段包括NetCDF文件的Variables变量标签下的所有自定义字段。
对前述基于NetCDF的多源异构海洋环境数据集成方法的进一步补充和完善,所述步骤(2)具体包括
b1收集用于训练的NetCDF中的海洋环境数据摘要文本文件;
b2根据NetCDF文件的数据类型进行分类;
b2按照预设比例将分类数据分成训练集、验证集和测试集三个部分
b3将海洋环境数据摘要文本文件作为输入,使用预训练文本分类模型进行分类,输出NetCDF文件的数据类型。
对前述基于NetCDF的多源异构海洋环境数据集成方法的进一步补充和完善,所述预训练文本分类模型是指BERT模型;
所述NetCDF文件的数据类型包括:海浪数据类、海流数据类、温度数据类、盐度数据类、密度数据类和海面风数据类;
在新增数据源或新增数据类别的时候需要重新训练。
对前述基于NetCDF的多源异构海洋环境数据集成方法的进一步补充和完善,所述步骤(3)具体包括:
c1基于不同的NetCDF文件的数据类型所涉及的维度名称分别构建字典;
c2基于Standford CoreNLP模型,将海洋环境数据摘要文本文件和维度文本作为输入,基于NetCDF文件的数据类型所对应的词典进行命名实体识别,
c3提取出NetCDF文件中时间变量和空间变量的名称,并进一步识别时空维范围及分辨率。
对前述基于NetCDF的多源异构海洋环境数据集成方法的进一步补充和完善,其中,盐度数据的命名实体字典包括经度、纬度、时间和深度的常用名称和缩写;海浪数据的命名实体字典包括经度、纬度、时间和高度的常用名称和缩写;密度数据的命名实体字典包括经度、纬度、时间和深度的常用名称和缩写;海面风数据的命名实体字典包括经度、纬度、时间和方向的常用名称和缩写;海流数据的命名实体字典包括经度、纬度、时间和方向的常用名称和缩写;温度数据的命名实体字典包括经度、纬度、时间和深度的常用名称和缩写;
对前述基于NetCDF的多源异构海洋环境数据集成方法的进一步补充和完善,所述步骤(4)具体包括:
d1将海洋环境数据变量文本文件和时空维的变量名称作为输入;使用正则表达式技术,基于字符串模式匹配方法识别出NetCDF文件的数据变量名称;相当于识别出数组名称、数组维度和每个维度的下标范围。
对前述基于NetCDF的多源异构海洋环境数据集成方法的进一步补充和完善,根据环境数据变量时空维度数量以及每个时空维度的范围及分辨率建立对应规模的多维数组,按照各个时空维度的范围及分辨率从NetCDF文件中读取数据变量到多维数组。
对前述基于NetCDF的多源异构海洋环境数据集成方法的进一步补充和完善,所述步骤(5)具体包括:
e1建立预定义数据时空网格,用于对齐所有同类型海洋环境数据的数据变量的时间和空间坐标。
e2通过插值方法,将数据变量的时间和空间坐标构成的时空网格与预定义数据时空网格的时空坐标进行对齐,所述对齐是指即将数据变量的时空坐标映射到统一的时空坐标,从而使得所集成的数据变量具有相同的时空分辨率;如果数据变量的时空网格坐标系与预定义数据时空网格坐标系不同,则首先需要将数据变量的时空网格坐标系转换为预定义数据时空网格坐标系;
e3空间方面,获取当前数据变量的空间网格边界,计算得到网格的各维度的数据范围,数据范围的上界为当前数据变量的空间维度的最小值按照预定义时空网格分辨率取上界,数据范围的上界为当前数据变量的空间维度的最大值按照预定义时空网格分辨率取下界。对属于数据范围的每个网格点,采用K最近距离邻法,根据欧式距离确定距离网格点最近的K个数据,加权平均后计算得到该网格点的数据;
e4时间方面,获取当前数据变量的时间区间边界,计算得到时间区间的起点ts、终点te和间隔ti;对于预定义数据时空网格的时间坐标tp,如果满足ts≤tp≤te,则作为待填充数据区域;对属于待填充数据区域的每个网格点,采用K最近距离邻法,根据欧式距离确定距离网格点最近的K个数据,加权平均后计算得到该网格点的数据。
对前述基于NetCDF的多源异构海洋环境数据集成方法的进一步补充和完善,所述步骤(6)具体包括:
采用PostgreSQL数据库和TimescaleDB插件的数据存储方案,将时空对齐的海洋环境数据通过TimescaleDB插件作为时序数据存入PostgreSQL数据库,并建立数据索引。
本申请将多源异构海洋环境数据集成到数据库系统,形成统一的海洋环境数据,实现整体上的数据一致性,提高数据共享访问的效率,实现基于NetCDF标准的多源异构海洋环境数据集成,提供高质量海洋环境数据服务;NetCDF是自描述的通用数据格式,不仅包含数据,还包含即对数据各种属性进行描述的元数据。不同机构不同类型的NetCDF元数据具有不同特征,本申请利用预训练语言模型、命名实体识别技术和字符串模板匹配,对NetCDF元数据自动分类后进行NetCDF数据自动识别和抽取,降低多源异构数据集成过程中的人工数据处理工作量,提高大规模海洋环境数据集成的效率。
附图说明
图1是本发明实施例方法的基本流程示意图。
具体实施方式
以下结合具体实施例对本申请作详细说明。
海洋环境数据种类繁多,包括海浪、海流、温度、盐度、密度和海面风等类型;且来源多样,不仅包括不同的机构、还包括不同的平台或不同的设备。不同类型的海洋环境数据具有不同的存储内容,不同来源的同一类型的海洋环境数据往往具有不同的存储格式。
下文将通过实际算例对本发明的技术方案的实施方式进行详细介绍。以从某数据源获取的NetCDF文件A9_1_2000m_salinity_year_1950_month_01.nc为例,如图1所示,其基本步骤包括步骤(1)~(6):
步骤(1)提取NetCDF文件元数据
从NetCDF源文件中读取元数据,将文件名和全局属性字段保存为海洋环境数据摘要文本文件,将维度相关信息字段保存为维度文本文件,将变量相关信息字段保存为变量文本文件;所述全局属性字段包括NetCDF文件的Global Attributes全局属性标签下的所有自定义字段;所述维度相关信息字段包括NetCDF文件的Dimensions维度标签下的所有自定义字段;所述变量相关信息字段包括NetCDF文件的Variables变量标签下的所有自定义字段。
具体而言,首先从NetCDF文件中读取元数据,然后根据元数据类别分别保存为不同的文本文件。将文件名A9_1_2000m_salinity_year_1950_month_01和所有的全局属性字段,包括Title、StartYear、StartMonth、StartDay、EndYear、EndMonth、EndDay、Period等保存为海洋环境数据摘要文本文件summary.txt;将维度相关信息包括lat、lon、time和depth_std保存为维度文本文件dim.txt;将变量相关信息包括变量lat、lon、time和depth_std的size、dimensions、datatype和attributes等保存为变量文本文件var.txt;
步骤(2)基于预训练文本分类模型进行文件分类
使用预训练文本分类模型对海洋环境数据摘要文本文件进行分类,输出NetCDF文件的数据类型;具体步骤包括:
b1收集用于训练的NetCDF中的海洋环境数据摘要文本文件;
b2根据NetCDF文件的数据类型进行分类;
b2按照预设比例将分类数据分成训练集、验证集和测试集三个部分
b3将海洋环境数据摘要文本文件作为输入,使用预训练文本分类模型进行分类,输出NetCDF文件的数据类型。
本实施例中,预训练文本分类模型选用BERT模型,在新增数据源或新增数据类别的时候需要重新训练。当前用于训练的数据集是来自6个数据源的海洋环境数据摘要文本数据集,共包含4730条数据,分为海浪数据、海流数据、温度数据、盐度数据、密度数据和海面风数据共6个类别,将所有数据合并为一个集合后以7:2:1的比例划分成训练集、验证集和测试集三个部分;
将海洋环境数据摘要文本文件summary.txt作为输入,使用预训练文本分类模型进行分类,输出分类为盐度数据。
步骤(3)基于命名实体识别技术提取数据的时空维名称及范围
将海洋环境数据摘要文本文件和维度文本文件作为输入,基于NetCDF文件数据类型所对应的词典进行命名实体识别,提取出NetCDF文件的时间维和空间维的名称和时空范围;具体包括:
c1基于不同的NetCDF文件的数据类型所涉及的维度名称分别构建字典;
c2基于Standford CoreNLP模型,将海洋环境数据摘要文本文件和维度文本作为输入,基于NetCDF文件的数据类型所对应的词典进行命名实体识别,
c3提取出NetCDF文件中时间变量和空间变量的名称,并进一步识别时空维范围及分辨率。
目标是找到时间和空间的变量在具体的netcdf中的名称,比如在一些文件里的纬度名称叫lat,另外一些文件里的纬度名称却叫latitude或者Lat或者Lati。
本实施例中,命名实体识别模块基于Standford CoreNLP实现,其中字典按照不同的数据类型所涉及的维度名称分别构建,其中,盐度数据的命名实体字典包括经度、纬度、时间和深度的常用名称和缩写;海浪数据的命名实体字典包括经度、纬度、时间和高度的常用名称和缩写;密度数据的命名实体字典包括经度、纬度、时间和深度的常用名称和缩写;海面风数据的命名实体字典包括经度、纬度、时间和方向的常用名称和缩写;海流数据的命名实体字典包括经度、纬度、时间和方向的常用名称和缩写;温度数据的命名实体字典包括经度、纬度、时间和深度的常用名称和缩写;
将海洋环境数据摘要文本文件summary.txt和维度文本dim.txt作为输入,基于盐度数据类型所对应的词典进行命名实体识别,提取出NetCDF文件的时间维名称为time,时间维范围为1950年1月1日0时起共24个时间点,每个时间点间隔1小时;空间维的纬度名称为lat,维度坐标范围为1到180;空间维的经度名称为lon,经度坐标范围为1到360。
步骤(4)基于字符串模式匹配方法识别并提取数据变量
将变量文本文件和时空维名称作为输入,基于字符串模式匹配方法识别出NetCDF文件的数据变量名称和维度顺序,然后从NetCDF文件中读取数据变量;具体包括:将海洋环境数据变量文本文件和时空维名称time、lat和lon作为输入;使用正则表达式技术,基于字符串模式匹配方法识别出NetCDF文件的数据变量名称。
这里识别出的海洋环境数据多维数组的名称,由于在不同数据中名称并不是固定的,因此根据维度等信息进行识别;具体而言,具体实施时,将海洋环境数据变量文本文件var.txt和时空维名称time、lat和lon作为输入,使用正则表达式技术,基于字符串模式匹配方法识别出NetCDF文件的数据变量名称,其中环境数据变量名称为salinity,其维度数量为3,每个维度的数据规模按顺序分别为41、360和180,然后建立规模为41*360*180的三维数组,按照各个维度的规模从NetCDF文件中读取数据变量到三维数组。
前面识别时空维的名称,这里识别数据变量的名称;海洋环境数据保存在一个多维数组中,数据变量可以看成是这个多维数组的变量名A,而时空维对应的是数组的各个维度的下标名称和范围A[time][lat][lon]。
步骤(5)基于预定义网格进行数据时空对齐
通过插值的方法,将数据变量的时空网格与预定义数据时空网格进行对齐,计算数据变量的时空网格与预定义时空网格重叠区域内预定义时空网格的各格点处的数值;具体包括:
e1通过插值方法,将数据变量的时间和空间坐标构成的时空网格与预定义数据时空网格的时空坐标进行对齐,所述对齐是指即将数据变量的时空坐标映射到统一的时空坐标,从而使得所集成的数据变量具有相同的时空;如果数据变量的时空网格坐标系与预定义数据时空网格坐标系不同,则首先需要将数据变量的时空网格坐标系转换为预定义数据时空网格坐标系;
e2空间方面,获取当前数据变量的空间网格边界,计算得到网格的各维度的数据范围;数据范围的上界为当前数据变量的空间维度的最小值按照预定义时空网格分辨率取上界,数据范围的上界为当前数据变量的空间维度的最大值按照预定义时空网格分辨率取下界。对属于数据范围的每个网格点,采用K最近距离邻法,根据欧式距离确定距离网格点最近的K个数据,加权平均后计算得到该网格点的数据;
e3时间方面,获取当前数据变量的时间区间边界,计算得到时间区间的起点ts、终点te和间隔ti;对于预定义数据时空网格的时间坐标tp,如果满足ts≤tp≤te,则作为待填充数据区域;对属于待填充数据区域的每个网格点,采用K最近距离邻法,根据欧式距离确定距离网格点最近的K个数据,加权平均后计算得到该网格点的数据。
如果数据变量的时空网格坐标系与预定义数据时空网格坐标系不同,则首先需要将数据变量的时空网格坐标系转换为预定义数据时空网格坐标系;
空间方面,获取当前数据变量的空间网格边界,空间网格包括二维网格和三维网格,以三维网格为例,计算得到三维网格的最小值组合(xmin,ymin,zmin)和最大值组合(xmax,ymax,zmax),其中xmin和xmax分别是第一维度的最小值和最大值,ymin和ymax分别是第二维度的最小值和最大值,zmin和zmax分别是第三维度的最小值和最大值。对于预定义数据时空网格的空间坐标(xp,yp,zp),如果同时满足xmin≤xp≤xmax,ymin≤yp≤ymax,zmin≤zp≤zmax,则作为待填充数据区域。对属于待填充数据区域的每个网格点,采用K最近距离邻法,根据欧式距离确定距离网格点最近的K个数据,加权平均后计算得到该网格点的数据。
时间方面,获取当前数据变量的时间区间边界,计算得到时间区间的起点ts、终点te和间隔ti。对于预定义数据时空网格的时间坐标tp,如果满足ts≤tp≤te,则作为待填充数据区域。对属于待填充数据区域的每个网格点,采用K最近距离邻法,根据欧式距离确定距离网格点最近的K个数据,加权平均后计算得到该网格点的数据。
步骤(6)数据存储入库
将时空对齐的海洋环境数据存入数据库并建立数据索引,根据实际业务场景,数据库使用关系数据库或非关系数据库。
本实施例中,采用PostgreSQL数据库和TimescaleDB插件的数据存储方案,将时空对齐的海洋环境数据通过TimescaleDB插件作为时序数据存入PostgreSQL数据库,并建立数据索引。
最后应当说明的是,以上实施例仅用以说明本申请的技术方案,而非对本申请保护范围的限制,尽管参照较佳实施例对本申请作了详细地说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或者等同替换,而不脱离本申请技术方案的实质和范围。

Claims (10)

1.一种基于NetCDF的多源异构海洋环境数据集成方法,其特征在于,包括如下步骤:
步骤(1)提取NetCDF文件元数据
从NetCDF源文件中读取元数据,将文件名和全局属性字段保存为海洋环境数据摘要文本文件,将维度相关信息字段保存为维度文本文件,将变量相关信息字段保存为变量文本文件;
步骤(2)基于预训练文本分类模型进行文件分类
使用预训练文本分类模型对海洋环境数据摘要文本文件进行分类,输出NetCDF文件的数据类型;
步骤(3)基于命名实体识别技术提取数据的时空维名称及范围
将海洋环境数据摘要文本文件和维度文本文件作为输入,基于NetCDF文件数据类型所对应的词典进行命名实体识别,提取出NetCDF文件的时间维和空间维的名称和时空范围;
步骤(4)基于字符串模式匹配方法识别并提取数据变量
将变量文本文件和时空维名称作为输入,基于字符串模式匹配方法识别出NetCDF文件的数据变量名称和维度顺序,然后从NetCDF文件中读取数据变量;
步骤(5)基于预定义网格进行数据时空对齐
通过插值的方法,将数据变量的时空网格与预定义数据时空网格进行对齐,计算数据变量的时空网格与预定义时空网格重叠区域内预定义时空网格的各格点处的数值;
步骤(6)数据存储入库
将时空对齐的海洋环境数据存入数据库并建立数据索引,根据实际业务场景,数据库使用关系数据库或非关系数据库。
2.根据权利要求1所述的一种基于NetCDF的多源异构海洋环境数据集成方法,其特征在于,所述全局属性字段包括NetCDF文件的GlobalAttributes全局属性标签下的所有自定义字段;
所述维度相关信息字段包括NetCDF文件的Dimensions维度标签下的所有自定义字段;
所述变量相关信息字段包括NetCDF文件的Variables变量标签下的所有自定义字段。
3.根据权利要求2所述的一种基于NetCDF的多源异构海洋环境数据集成方法,其特征在于,所述步骤(2)具体包括
b1收集用于训练的NetCDF中的海洋环境数据摘要文本文件;
b2根据NetCDF文件的数据类型进行分类;
b2按照预设比例将分类数据分成训练集、验证集和测试集三个部分
b3将海洋环境数据摘要文本文件作为输入,使用预训练文本分类模型进行分类,输出NetCDF文件的数据类型。
4.根据权利要求3所述的一种基于NetCDF的多源异构海洋环境数据集成方法,其特征在于,
所述预训练文本分类模型是指BERT模型;
所述NetCDF文件的数据类型包括:海浪数据类、海流数据类、温度数据类、盐度数据类、密度数据类和海面风数据类;
在新增数据源或新增数据类别的时候需要重新训练。
5.根据权利要求3所述的一种基于NetCDF的多源异构海洋环境数据集成方法,其特征在于,所述步骤(3)具体包括:
c1基于不同的NetCDF文件的数据类型所涉及的维度名称分别构建字典;
c2基于Standford CoreNLP模型,将海洋环境数据摘要文本文件和维度文本作为输入,基于NetCDF文件的数据类型所对应的词典进行命名实体识别,
c3提取出NetCDF文件中时间变量和空间变量的名称,并进一步识别时空维范围及分辨率。
6.根据权利要求5所述的一种基于NetCDF的多源异构海洋环境数据集成方法,其特征在于,
其中,盐度数据的命名实体字典包括经度、纬度、时间和深度的常用名称和缩写;海浪数据的命名实体字典包括经度、纬度、时间和高度的常用名称和缩写;密度数据的命名实体字典包括经度、纬度、时间和深度的常用名称和缩写;海面风数据的命名实体字典包括经度、纬度、时间和方向的常用名称和缩写;海流数据的命名实体字典包括经度、纬度、时间和方向的常用名称和缩写;温度数据的命名实体字典包括经度、纬度、时间和深度的常用名称和缩写。
7.根据权利要求5所述的一种基于NetCDF的多源异构海洋环境数据集成方法,其特征在于,所述步骤(4)具体包括:
d1将海洋环境数据变量文本文件和时空维的变量名称作为输入;使用正则表达式技术,基于字符串模式匹配方法识别出NetCDF文件的数据变量名称。
8.根据权利要求7所述的一种基于NetCDF的多源异构海洋环境数据集成方法,其特征在于,根据环境数据变量时空维度数量以及每个时空维度的范围及分辨率建立对应规模的多维数组,按照各个时空维度的范围及分辨率从NetCDF文件中读取数据变量到多维数组。
9.根据权利要求5所述的一种基于NetCDF的多源异构海洋环境数据集成方法,其特征在于,所述步骤(5)具体包括:
e1建立预定义数据时空网格,用于对齐所有同类型海洋环境数据的数据变量的时间和空间坐标;
e2通过插值方法,将数据变量的时间和空间坐标构成的时空网格与预定义数据时空网格的时空坐标进行对齐,所述对齐是指即将数据变量的时空坐标映射到统一的时空坐标,从而使得所集成的数据变量具有相同的时空分辨率;如果数据变量的时空网格坐标系与预定义数据时空网格坐标系不同,则首先需要将数据变量的时空网格坐标系转换为预定义数据时空网格坐标系;
e3空间方面,获取当前数据变量的空间网格边界,计算得到网格的各维度的数据范围,数据范围的上界为当前数据变量的空间维度的最小值按照预定义时空网格分辨率取上界,数据范围的上界为当前数据变量的空间维度的最大值按照预定义时空网格分辨率取下界;对属于数据范围的每个网格点,采用K最近距离邻法,根据欧式距离确定距离网格点最近的K个数据,加权平均后计算得到该网格点的数据;
e4时间方面,获取当前数据变量的时间区间边界,计算得到时间区间的起点ts、终点te和间隔ti;对于预定义数据时空网格的时间坐标tp,如果满足ts≤tp≤te,则作为待填充数据区域;对属于待填充数据区域的每个网格点,采用K最近距离邻法,根据欧式距离确定距离网格点最近的K个数据,加权平均后计算得到该网格点的数据。
10.根据权利要求1所述的一种基于NetCDF的多源异构海洋环境数据集成方法,其特征在于,所述步骤(6)具体包括:
采用PostgreSQL数据库和TimescaleDB插件的数据存储方案,将时空对齐的海洋环境数据通过TimescaleDB插件作为时序数据存入PostgreSQL数据库,并建立数据索引。
CN202210496217.0A 2022-05-09 2022-05-09 基于NetCDF的多源异构海洋环境数据集成方法 Active CN114840673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210496217.0A CN114840673B (zh) 2022-05-09 2022-05-09 基于NetCDF的多源异构海洋环境数据集成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210496217.0A CN114840673B (zh) 2022-05-09 2022-05-09 基于NetCDF的多源异构海洋环境数据集成方法

Publications (2)

Publication Number Publication Date
CN114840673A CN114840673A (zh) 2022-08-02
CN114840673B true CN114840673B (zh) 2024-04-16

Family

ID=82568403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210496217.0A Active CN114840673B (zh) 2022-05-09 2022-05-09 基于NetCDF的多源异构海洋环境数据集成方法

Country Status (1)

Country Link
CN (1) CN114840673B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117093641A (zh) * 2023-10-20 2023-11-21 中国电子科技集团公司第十五研究所 一种气象海洋格点数据综合处理方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111311081A (zh) * 2020-01-22 2020-06-19 国家海洋局南海预报中心(国家海洋局广州海洋预报台) 基于多源异构数据的海洋生态异常危险识别方法及装置
CN113535788A (zh) * 2021-07-12 2021-10-22 中国海洋大学 一种面向海洋环境数据的检索方法、系统、设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949246B2 (en) * 2012-01-01 2015-02-03 The United States Of America, As Represented By The Secretary Of The Navy System and method for importing NetCDF data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111311081A (zh) * 2020-01-22 2020-06-19 国家海洋局南海预报中心(国家海洋局广州海洋预报台) 基于多源异构数据的海洋生态异常危险识别方法及装置
CN113535788A (zh) * 2021-07-12 2021-10-22 中国海洋大学 一种面向海洋环境数据的检索方法、系统、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
海洋环境数据存储技术的研究与实现;赵美珍;;舰船电子工程;20120920(第09期);全文 *

Also Published As

Publication number Publication date
CN114840673A (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN107766371B (zh) 一种文本信息分类方法及其装置
CN107273502B (zh) 一种基于空间认知学习的图像地理标注方法
Rusinol et al. Field extraction from administrative documents by incremental structural templates
CN110442710B (zh) 一种基于知识图谱的短文本语义理解与精准匹配方法及装置
CN112069319B (zh) 文本抽取方法、装置、计算机设备和可读存储介质
CN114444507A (zh) 基于水环境知识图谱增强关系的上下文参数中文实体预测方法
CN112417100A (zh) 辽代历史文化领域知识图谱及其智能问答系统的构建方法
CN114840673B (zh) 基于NetCDF的多源异构海洋环境数据集成方法
Xu et al. A modified change vector approach for quantifying land cover change
CN113609892A (zh) 深度学习与景区知识图谱融合的手写诗词识别方法
CN108491543A (zh) 图像检索方法、图像存储方法及图像检索系统
CN116127065A (zh) 一种简单易用的增量学习文本分类方法及系统
Liu et al. A novel unsupervised adversarial domain adaptation network for remotely sensed scene classification
Benetazzo et al. Correction of ERA5 wind for regional climate projections of sea waves
Lehenmeier et al. Layout detection and table recognition–recent challenges in digitizing historical documents and handwritten tabular data
CN109710628B (zh) 信息处理方法及装置、系统、计算机及可读存储介质
CN112989811B (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
CN110852376B (zh) 用于识别生物种类的方法及系统
CN107203813A (zh) 一种新型缺省实体命名方法及其系统
CN115964468A (zh) 一种基于多层次模板匹配的乡村信息智能问答方法及装置
CN113032372B (zh) 一种基于ClickHouse数据库的空间大数据管理方法
CN111046934B (zh) 一种swift报文软条款识别方法及装置
CN111723164B (zh) 地址信息的处理方法和装置
CN113032504A (zh) 村镇社区公共服务时空数据汇聚方法及装置
He et al. ISLKG: The Construction of Island Knowledge Graph and Knowledge Reasoning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant