CN113535788A - 一种面向海洋环境数据的检索方法、系统、设备及介质 - Google Patents

一种面向海洋环境数据的检索方法、系统、设备及介质 Download PDF

Info

Publication number
CN113535788A
CN113535788A CN202110786516.3A CN202110786516A CN113535788A CN 113535788 A CN113535788 A CN 113535788A CN 202110786516 A CN202110786516 A CN 202110786516A CN 113535788 A CN113535788 A CN 113535788A
Authority
CN
China
Prior art keywords
data
marine environment
index
keywords
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110786516.3A
Other languages
English (en)
Other versions
CN113535788B (zh
Inventor
黄磊
张天择
秦琦冰
王瑞学
安辰
魏志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202110786516.3A priority Critical patent/CN113535788B/zh
Publication of CN113535788A publication Critical patent/CN113535788A/zh
Application granted granted Critical
Publication of CN113535788B publication Critical patent/CN113535788B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/256Integrating or interfacing systems involving database management systems in federated or virtual databases

Abstract

本发明公开了一种面向海洋环境数据的检索方法、系统、设备及介质,通过提取海洋环境数据关键词,统一整合多源同义的变量,解决多源异构的复杂数据出现相同含义的元素却使用不同命名的差异问题,通过构建基于多信息融合的空间索引结构和基于多关键词的多层双向B‑Tree索引结构,满足复杂多样的查询需求,提高了海洋环境数据检索的效率。

Description

一种面向海洋环境数据的检索方法、系统、设备及介质
技术领域
本发明属于信息检索技术领域,涉及多信息融合和多关键词索引检索方法,具体涉及一种面向海洋环境数据的检索方法、系统、设备及介质。
背景技术
随着海洋环境信息技术的不断发展和探测设备的不断升级,使得收集的海洋环境数据种类不断丰富的同时,数据量也呈爆炸式增长。从海量的海洋环境数据中高效准确地检索用户感兴趣的数据为当前工业界和学术届关注的热点问题之一。海洋环境数据与普通的数据不同,具有多源异构的特点:多源指海洋环境数据的来源众多,异构指数据存储的类型、结构等不一致。不同的数据来源和多样的采样设备导致了复杂的海洋环境数据格式,如何有效的处理数据问题,是解决海洋环境数据检索问题的关键。
传统的基于词频的索引构建及检索方法在面对具有上述特点的海洋环境数据时,无法提取海洋环境数据的有效描述信息。在面对大规模的异构数据时,可能无法读取某些格式(如NetCDF)的数据内容,即使读取数据内容后,也无法依靠词频的高低表明数据相关性的远近,不能将待检索的关键词和数据内容相匹配。此外,不同数据源具有不同的资料集说明,存在相同含义的海洋环境元素却使用不同命名的差异问题。面对上述问题,基于文本词频的方法无法分析并整合同义词,提取的大多是意义重复且无效的数据,很难确定文件对应的关键词。常见的基于文本词频的索引方式是通过分析词语的出现的次数和统计出现的位置来构建索引,无法获取有效描述信息,因此不能适用于海洋环境数据检索任务。
在真实场景下,不同的数据源由于获取设备或者标准不一等问题导致收集的数据质量参差不齐,海洋环境自身包含的领域又宽泛,身处不同领域的使用者关注数据信息的侧重方向千差万别,因此,使用现有的空间索引不能高效的查询到用户感兴趣的海洋环境数据。
此外,由于海洋环境数据来源广泛、数据体量大,存在构建的索引结构复杂、体系庞大,传统多关键词索引支持的检索格式有限且检索需求复杂多样等问题。
发明内容
针对现有技术存在的不足,本发明提供一种面向海洋环境数据的检索方法、系统、设备及介质,针对多源异构的复杂数据出现相同含义的元素却使用不同命名的差异问题,设计海洋环境数据关键词提取模块及方法,能够结合调研获取的知识,统一整合多源同义的变量,确定文件对应的关键词;针对数据源的质量参差不齐、不同领域关注信息的侧重方向差异等问题,设计基于多信息融合的空间索引结构,通过在空间索引中融合数据源和数据领域等信息,满足不同用户基于自身特点的查询需求;针对现有的索引结构复杂且庞大、支持的检索格式有限等问题,设计一种基于多关键词的多层双向B-Tree索引结构,提高了多关键词检索的多样性,满足复杂多样的查询需求。
为了解决上述技术问题,本发明采用的技术方案是:
首先,本发明提供一种面向海洋环境数据的检索方法,包括以下步骤:
S1、提取海洋环境数据关键词:通过统计分析不同机构海洋环境数据,结合打分排序算法确定文件对应的关键词,整合多源同义的变量,统一规范化不同机构数据间的差异;然后提取对应值,同时完成经纬度区间、分辨率计算、不同时间格式转换操作,并将海洋数据文件与所包含的关键词及对应值作为一条元数据存入库中;
S2、构建海洋环境数据索引:包括基于多信息融合的空间索引结构和基于多关键词的多层双向B-Tree索引结构两部分,所述空间索引结构中融合了步骤S1提取的海洋数据的属性;所述的多层双向B-Tree索引结构是利用B-Tree结构对步骤S1提取的海洋数据的属性分层构建单属性索引树,并通过指针双向链接索引树节点,实现节点间的连接关系,同时添加缓存索引表,存储每一层索引树根节点,实现两种查找:一种是对于单个属性的查找,另一种是多个属性的匹配查找。
进一步的,步骤S1中,海洋环境数据关键词提取的具体步骤如下:
S11.设计海洋环境数据关键词
分析不同研究机构的海洋环境数据现有资料与数据,统计分析数据中要素的命名和描述信息,抽取数据的要素名作为候选关键词,将所有的候选词结合海洋环境文献、资料集说明及用户使用期望三者综合打分,根据打分排序高低取topN个海洋环境数据中常见元素,并将其作为构建索引的关键词;
S12.整合多源同义的变量
根据数据来源的不同,识别并抽取所有海洋环境数据变量,按来源分析变量的描述类属性以确定变量内容,并统一规范化不同机构间的命名差异,将海洋环境中的同义变量名与设计的唯一关键词相结合;
S13.判断数据包含的关键词并存储为元数据
通过上述两步确定了关键词后,遍历数据并判断数据包含的关键词及对应值,将每个海洋数据文件与所包含的关键词及对应值作为元数据存入元数据库中。
进一步的,步骤S2中,所述基于多信息融合的空间索引结构的构建方法如下:
(1)在步骤一的元数据库中获取海洋环境数据信息,读取经纬度数据的范围Lspan及数据源和所属领域;
(2)利用墨卡托投影思想将三维球面数据压缩为二维坐标数据;
(3)用n阶的Hilbert曲线表示平面,将二维数据降为一维数据;
(4)用哈希码LHash融合数据源和数据领域和数据位置信息,以此表示一维数据点;将LHash存入B-Tree结构,构建B-Tree索引;
(5)构建倒排缓存表,优化查询速度。
进一步的,步骤S2中,所述基于多关键词的多层双向B-Tree索引结构的构建方法如下:
(1)从步骤S1提取的海洋环境元数据中,指定n个关键词作为索引构建的关键词组M-Keys【k1,k2,…,kn】,其中ki(i=1,2,…,n)为第i个关键词;
(2)依据指定顺序i和顺序ii对M-Keys关键词组进行排序;
(3)针对每一关键词ki依据顺序i构建一个单层索引树;
(4)依据顺序ii从关键词k1索引树的根节点开始,使用指针连接多个单层索引树,构建多层次双向B-Tree索引结构网络;
(5)构建缓存索引表,存放每一层B-Tree索引结构的根节点,丰富查询多样性。
进一步的,所述的多层双向B-Tree索引结构的根节点存放关键词名称、关键词对应的索引值、指向下一层索引节点的指针数组,普通索引节点存放关键词对应的索引值、指向下一层索引节点的指针数组和指向上一层索引节点的指针数组。
进一步的,顺序i代表对每个关键词单独排序;顺序ii代表对照关键词的先后顺序进行排序:先对ki进行顺序排列,在ki相等的索引节点中,按照ki+1指定的顺序排序。
然后,本发明还提供一种面向海洋环境数据的检索系统,包括:
海洋环境数据关键词提取模块,通过统计分析不同机构海洋环境数据,结合打分排序算法确定文件对应的关键词,整合多源同义的变量,统一规范化不同机构数据间的差异;然后提取对应值,同时完成经纬度区间、分辨率计算、不同时间格式转换操作,并将海洋数据文件与所包含的关键词及对应值作为一条元数据存入库中;
海洋环境数据索引构建模块,通过融合海洋环境数据关键词提取模块提取的海洋数据的属性,并经墨卡托投影及Hilbert曲线对经纬度区间数据降维、哈希码Lhash唯一表示融合数据源和数据领域信息后的属性,构建基于多信息融合的空间索引结构,实现不同数据源和应用领域下的空间检索;利用B-Tree结构对海洋环境数据关键词提取模块提取的海洋数据的属性分层构建单属性索引树,并通过指针双向链接索引树节点,实现节点间的连接关系,同时添加缓存索引表,存储每一层索引树根节点,构建基于多关键词的多层双向B-Tree索引结构,实现两种查找:一种是对于单个属性的查找,另一种是多个属性的匹配查找。
本发明还提供一种面向海洋环境数据的检索设备,包括终端设备的处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行如前所述的面向海洋环境数据的检索方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的面向海洋环境数据的检索方法。
与现有技术相比,本发明优点在于:
(1)设计一个关键词提取模块,通过关键词提取方法确定海洋环境数据文件中常见的元素作为关键词,解决多源异构的复杂数据出现相同含义的元素却使用不同命名的差异问题,能够结合调研获取的知识,统一整合多源同义的变量,确定文件对应的关键词。
(2)本发明提出了一种基于多信息融合的空间索引结构,通过在空间索引中融合数据源和数据领域等信息,满足不同用户基于自身特点的查询需求,实现查询特定应用领域和真实可靠数据的空间检索,以提供良好的用户体验,更好地应用于真实场景。
(3)本发明提出了一种基于多关键词多层双向的B-Tree索引结构,在满足索引的最左匹配原则的基础上,增添了最右匹配检索和以及反向检索等功能,提高了多关键词检索的多样性,满足复杂多样的查询需求,进一步实现高效检索。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的关键词提取流程示意图;
图2为本发明的B-tree结构图;
图3为本发明的系统框图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
实施例1
本实施例提出一种面向海洋环境数据的检索方法,通过设计海洋环境数据关键词提取功能,针对多源异构的复杂数据,编写程序识别并分析数据内容,统一整合多源同义的变量,确定文件对应的关键词;设计了多信息融合的空间索引和多关键词索引,提高检索速度。
S1、提取海洋环境数据关键词
由于现有的关键词提取是从一个文本数据中选出比较重要的词作为关键词,而海洋环境数据多源异构,海洋环境数据并不都是文本格式的,如netcdf格式并不是文本类型的数据格式,并且不同机构存储的信息和数据名称不同,一个文件中词频的高低无法说明数据的相关性。
所以,本发明统计了现有海洋环境数据的所有要素名和描述信息并设计了关键词,整合了不同机构数据间的差异,规范化关键词命名后,在每一个海洋环境数据中定位信息存储的区域并与上一步规范化的名字相匹配,并利用这个流程对每一个海洋环境数据进行判断,以此将一个数据文件分析后变成一条信息存储,目的是给数据提供描述信息,以期满足不同用户的查询需求,实现数据的有效查询。
设计思路是:通过统计分析不同机构海洋环境数据,结合打分排序算法确定文件对应的关键词,整合多源同义的变量,统一规范化不同机构数据间的差异;然后提取对应值,同时完成经纬度区间、分辨率计算、不同时间格式转换操作,并将海洋数据文件与所包含的关键词及对应值作为一条信息存入库中。
结合图1所示的关键词提取流程,详细介绍具体实施步骤:
S11.设计海洋环境数据关键词
分析不同研究机构的海洋环境数据现有资料与数据,并对大量海洋环境数据集中处理,在定位到具体的数据存储区域后,统计分析数据中要素的命名和描述信息,抽取数据的要素名作为候选关键词,将所有的候选词结合海洋环境文献、资料集说明及用户使用期望三者综合打分,根据打分排序高低取topN个海洋环境数据中常见元素,并将其作为构建索引的关键词(在特定数据集下的top30如表所示),以满足用户的查询需求。
S12.整合多源同义的变量
在数据文件的关键词提取方面,以NetCDF(network Common Data Form)文件格式为例,不同的科研机构和政府部门,都有自己的命名规范,会出现相同含义的变量却使用不同命名的差异。
根据数据来源的不同,利用netcdf4模块编写程序识别并抽取所有海洋环境数据变量,按来源分析变量的描述类属性以确定变量内容,并统一规范化不同机构间的命名差异,将海洋环境中的同义变量名与设计的唯一关键词相结合。
S13.判断数据包含的关键词并存储为元数据
通过上述两步确定了关键词后,使用python计算扩展工具包,遍历数据并判断数据包含的关键词及对应值,如果文件含有关键词则将关键词的对应值设为1。此外,完成时间格式、范围等对应值的提取、经纬度区间和分辨率计算、不同的时间格式转换等操作后,将每个海洋数据文件与所包含的关键词及对应值作为元数据存入元数据库中。
S2、构建海洋环境数据索引
索引构建是实现海洋环境数据查询的基础,由于传统的基于词频的索引构建方法不能满足需求。因此我们采用B-tree结构结合针对海洋环境数据提取的关键词,构建数据索引。针对海洋环境的特点和多样化的查询需求,构建多信息融合空间索引和多关键词的索引。
图2所示为B-tree结构图,B-tree是一种多路搜索树,一个m阶的B-树根结点最少有2个子结点,非叶子结点最多可以有m个子结点,除根结点以外的所有非叶子结点至少有
Figure BDA0003159052200000071
个子结点,叶子结点出现在同一层次上且不存储任何信息,所有的非叶子结点中包含(n,A0,K1,A1,K2,…,Kn,An)结构,其中Ki(i=1,2,…,n)为关键字,且Ki按照从小到大的顺序排序;Ai(i=0,1,…,n)为指向子树根结点的指针,
Figure BDA0003159052200000072
为关键字的个数。
B-tree在每一个结点上都将key和Data域聚合在一起,每个索引结点都有Data域,单次查询时,B-树索引只要找到对应的索引就可以立即访问结点数据,可实现海洋环境数据的高效检索。
(a)基于多信息融合的空间索引结构
为了实现基于所设计和提取的关键词构建海洋环境数据检索,结合真实场景下不同数据源的数据质量参差不齐和不同领域的数据查询倾向不同等问题,提出了基于多信息融合的空间索引,主要是针对经纬度等属性,融合数据源和应用领域等信息对其建立空间索引,以满足使用者对海洋环境数据文件中空间属性上的查询需求。
在构建经纬度范围的索引时,由于经纬度范围信息是多维的数据,无法存入B-Tree结构,所以需要对数据做降维处理再存入索引结构。方法如下:
(1)在步骤一的元数据库中获取海洋环境数据信息,读取经纬度数据的范围Lspan【Latmax,Latmin,Lonmax,Lonmin】及数据源和所属领域。
(2)利用墨卡托投影思想将三维球面数据压缩为二维坐标数据(x,y)。
(3)在展开的平面地图中,构建n阶Hilbert曲线,将该平面内划分成四等分的区块,在每一区块中,构建n-1阶Hilbert曲线,并把4个Hilbert曲线相连,递归该过程后,将二维的数据降维转换成一维的点。
(4)构建二进制哈希码LHash,用哈希码LHash融合数据源和数据领域和数据位置信息,以此来唯一表示上述每一个一维数据点,其中前四位哈希码表示数据源信息,五到八位表示数据的所属领域,余下的位表示点在面内的位置顺序。使用降维后的哈希码表示一维数据点具有提高查询速度、整合多信息融合、减少存储代价等多方面优点。
然后,将LHash存入B-Tree结构,构建B-Tree索引:向排序器添加属性键和哈希码与键值的位置信息并排序,实例化B-Tree索引对象,使用迭代器将以上信息存入B-Tree结构中。至此,根据实际应用结合不同粒度的转换方式(即不同的Hilbert曲线阶数),每一个具体的经纬度范围将由一或多个存在B-Tree结构中的LHash表示。
(5)构建倒排缓存表,优化查询速度:对经常访问的数据节点构建缓存表,使用倒排结构对用户的高频访问的空间位置进行缓存。当查询高频位置时,跳过上述降维步骤,直接读取倒排表的值,既链表形式连接的包含访问数据位置的文件,来加快查询速度。
通过上述方法空间索引结构中融合了步骤S1提取的海洋数据的经纬度、数据源及应用领域等属性。
(b)基于多关键词的多层双向B-Tree索引结构
为了满足多样化的现实检索需求,除了以上基于多信息融合的空间索引结构,本发明构建了基于多关键词的多层双向B-Tree索引结构,支持结合多个关键词进行检索。在多条件查询中该B-Tree索引可以匹配具有查询条件中全部或部分索引字段的海洋环境数据进行数据检索,甚至实现多关键词的反向检索。
设计思路是:利用B-Tree结构对步骤S1提取的海洋数据的属性分层构建单属性索引树,并通过指针双向链接索引树节点,实现节点间的连接关系,同时添加缓存索引表,存储每一层索引树根节点,实现两种查找:一种是对于单个属性的查找,另一种是多个属性的匹配查找。在满足最基础的多关键词数据检索的同时,实现反向检索、随机单属性检索、部分属性检索等多样化检索功能。
构建方法如下:
(1)从步骤S1提取的海洋环境元数据中,指定n个关键词作为索引构建的关键词组M-Keys【k1,k2,…,kn】,其中ki(i=1,2,…,n)为第i个关键词;
(2)遍历海洋环境数据元数据表中关键词组M-Keys对应的属性值,提取海洋环境数据对象中的键值信息和_id序号。对关键词的值按照索引构建的指定顺序进行排序。本方法设计了两种排序顺序:i)对每个关键词单独排序。ii)按照关键词的先后顺序进行排序:即先对k1进行顺序排列,在k1相等的索引节点中,按照k2指定的顺序排序。排序部分工作量大,为了有效的缩短构建索引时的排序时间,提高索引构建的效率,本方法在对关键词ki排序时,按照设定大小对关键词ki作分块处理,得到数据块组S【s1,s2,…,sn】,si为第i(i=1,2,3,…,n)个数据块。使用多线程对数据块组S中的si(i=1,2,3,…,n)进行排序,再将有序的si两两归并排序,递归该过程,顺序i排序完成。顺序ii则是对k1归并排序后,按照关键词顺序对剩余关键词排序即可。
(3)多层双向B-Tree索引结构,有两种节点类型:i)根节点,存放关键词名称、关键词对应的索引值,指向下一层索引节点的指针数组ii)普通索引节点,存放关键词对应的索引值、指向下一层索引节点的指针数组和指向上一层索引节点的指针数组。
多层次双向B-Tree索引结构以一个关键词为一层,分层构建多层索引。该索引一共有n层,通过双向指针实现层与层之间的连接。实现步骤具体如下:
①针对每一个关键词ki,使用多线程实例化B-Tree对象,依据顺序i构建一个单属性索引树。由于海洋环境数据具有数据量大,数据范围有限,数据重复率高的特点,为了初步减少构建索引时存储空间的使用和时间的消耗,过滤重复数据,本方法每个关键词中相同的数据存放在一个索引节点。
②依据顺序ii从关键词k1索引树的根节点开始,依次将每一条信息的前后关系以指针的形式添加到节点数组中,建立索引节点之间的双向链接,可以实现多关键词反向检索的功能需求。指针名由该条数据的_id序号和层数组成,可以唯一识别前后数据的匹配问题。
(4)构建缓存索引表,该缓存表存放每一层B-Tree索引结构的根节点(存储每一层索引树的关键词名称和指向下一层索引树根节点的指针数组),实现部分关键词的高效检索,丰富查询多样性。
表1海洋环境数据关键词
Figure BDA0003159052200000101
Figure BDA0003159052200000111
实施例2
本实施例提供一种面向海洋环境数据的检索系统,如图3所示,包括:
海洋环境数据关键词提取模块,通过统计分析不同机构海洋环境数据,结合打分排序算法确定文件对应的关键词,整合多源同义的变量,统一规范化不同机构数据间的差异;然后提取对应值,同时完成经纬度区间、分辨率计算、不同时间格式转换操作,并将海洋数据文件与所包含的关键词及对应值作为一条元数据存入库中;
海洋环境数据索引构建模块,通过融合海洋环境数据关键词提取模块提取的海洋数据的属性,并经墨卡托投影及Hilbert曲线对经纬度区间数据降维、哈希码Lhash唯一表示融合数据源和数据领域信息后的属性,构建基于多信息融合的空间索引结构,实现不同数据源和应用领域下的空间检索;利用B-Tree结构对海洋环境数据关键词提取模块提取的海洋数据的属性构建基于多信息融合的空间索引结构;利用B-Tree结构对海洋环境属性分层构建单属性索引树,并通过指针双向链接索引树节点,实现节点间的连接关系,同时添加缓存索引表,存储每一层索引树根节点,构建基于多关键词的多层双向B-Tree索引结构,实现两种查找:一种是对于单个属性的查找,另一种是多个属性的匹配查找。由于本实施例各模块功能具体实现方式与前述实施例1对应,此处不再重复赘述。
实施例3
本实施例提供一种面向海洋环境数据的检索设备,包括终端设备的处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行如前所述的任一项面向海洋环境数据的检索方法。具体实现方式与前述实施例1对应,此处不再重复赘述。
此外,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的任一项面向海洋环境数据的检索方法。具体实现方式与前述实施例1对应,此处不再重复赘述。
综上所述,本发明能够读取多源异构数据的组成,能够分析异构数据中的描述类属性从而确定变量内容,能够解决命名差异问题,能够结合打分排序算法确定海洋环境数据对应的关键词,并进行时间格式、范围等对应值的提取,完成经纬度区间和分辨率计算、不同时间格式的转换等操作,能够在此基础上根据海洋环境特点,结合真实场景下数据质量参差不齐和不同领域数据查询倾向不同等问题,建立多信息融合的空间索引,能够结合多关键词的现实检索需要,针对目前索引满足的检索格式受限、格式普遍满足最左匹配原则而缺少右侧匹配以及反向匹配等问题,建立多关键词的多层双向B-Tree索引,能够丰富索引的检索格式,提高查询速度并满足多样化的检索需求。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。

Claims (9)

1.一种面向海洋环境数据的检索方法,其特征在于,包括以下步骤:
S1、提取海洋环境数据关键词:通过统计分析不同机构海洋环境数据,结合打分排序算法确定文件对应的关键词,整合多源同义的变量,统一规范化不同机构数据间的差异;然后提取对应值,同时完成经纬度区间、分辨率计算、不同时间格式转换操作,并将海洋数据文件与所包含的关键词及对应值作为一条元数据存入库中;
S2、构建海洋环境数据索引:包括基于多信息融合的空间索引结构和基于多关键词的多层双向B-Tree索引结构两部分,所述空间索引结构中融合了步骤S1提取的海洋数据的属性;所述的多层双向B-Tree索引结构是利用B-Tree结构对步骤S1提取的海洋数据的属性分层构建单属性索引树,并通过指针双向链接索引树节点,实现节点间的连接关系,同时添加缓存索引表,存储每一层索引树根节点,实现两种查找:一种是对于单个属性的查找,另一种是多个属性的匹配查找。
2.根据权利要求1所述的一种面向海洋环境数据的检索方法,其特征在于,步骤S1中,海洋环境数据关键词提取的具体步骤如下:
S11.设计海洋环境数据关键词
分析不同研究机构的海洋环境数据现有资料与数据,统计分析数据中要素的命名和描述信息,抽取数据的要素名作为候选关键词,将所有的候选词结合海洋环境文献、资料集说明及用户使用期望三者综合打分,根据打分排序高低取topN个海洋环境数据中常见元素,并将其作为构建索引的关键词;
S12.整合多源同义的变量
根据数据来源的不同,识别并抽取所有海洋环境数据变量,按来源分析变量的描述类属性以确定变量内容,并统一规范化不同机构间的命名差异,将海洋环境中的同义变量名与设计的唯一关键词相结合;
S13.判断数据包含的关键词并存储为元数据
通过上述两步确定了关键词后,遍历数据并判断数据包含的关键词及对应值,将每个海洋数据文件与所包含的关键词及对应值作为元数据存入元数据库中。
3.根据权利要求1所述的一种面向海洋环境数据的检索方法,其特征在于,步骤S2中,所述基于多信息融合的空间索引结构的构建方法如下:
(1)在步骤一的元数据库中获取海洋环境数据信息,读取经纬度数据的范围Lspan及数据源和所属领域;
(2)利用墨卡托投影思想将三维球面数据压缩为二维坐标数据;
(3)用n阶的Hilbert曲线表示平面,将二维数据降为一维数据;
(4)用哈希码LHash融合数据源和数据领域和数据位置信息,以此表示一维数据点;将LHash存入B-Tree结构,构建B-Tree索引;
(5)构建倒排缓存表,优化查询速度。
4.根据权利要求1所述的一种面向海洋环境数据的检索方法,其特征在于,步骤S2中,所述基于多关键词的多层双向B-Tree索引结构的构建方法如下:
(1)从步骤S1提取的海洋环境元数据中,指定n个关键词作为索引构建的关键词组M-Keys【k1,k2,…,kn】,其中ki为第i个关键词;
(2)依据指定顺序i和顺序ii对M-Keys关键词组进行排序;
(3)针对每一关键词ki依据顺序i构建一个单层索引树;
(4)依据顺序ii从关键词k1索引树的根节点开始,使用指针连接多个单层索引树,构建多层次双向B-Tree索引结构网络;
(5)构建缓存索引表,存放每一层B-Tree索引结构的根节点,丰富查询多样性。
5.根据权利要求4所述的一种面向海洋环境数据的检索方法,其特征在于,所述的多层双向B-Tree索引结构的根节点存放关键词名称、关键词对应的索引值、指向下一层索引节点的指针数组,普通索引节点存放关键词对应的索引值、指向下一层索引节点的指针数组和指向上一层索引节点的指针数组。
6.根据权利要求5所述的一种面向海洋环境数据的检索方法,其特征在于,顺序i代表对每个关键词单独排序;顺序ii代表按照关键词的先后顺序进行排序:先对ki进行顺序排列,在ki相等的索引节点中,按照ki+1指定的顺序排序。
7.一种面向海洋环境数据的检索系统,其特征在于,包括:
海洋环境数据关键词提取模块,通过统计分析不同机构海洋环境数据,结合打分排序算法确定文件对应的关键词,整合多源同义的变量,统一规范化不同机构数据间的差异;然后提取对应值,同时完成经纬度区间、分辨率计算、不同时间格式转换操作,并将海洋数据文件与所包含的关键词及对应值作为一条元数据存入库中;
海洋环境数据索引构建模块,通过融合海洋环境数据关键词提取模块提取的海洋数据的属性,并经墨卡托投影及Hilbert曲线对经纬度区间数据降维、哈希码Lhash唯一表示融合数据源和数据领域信息后的属性,构建基于多信息融合的空间索引结构,实现不同数据源和应用领域下的空间检索;利用B-Tree结构对海洋环境数据关键词提取模块提取的海洋数据的属性分层构建单属性索引树,并通过指针双向链接索引树节点,实现节点间的连接关系,同时添加缓存索引表,存储每一层索引树根节点,构建基于多关键词的多层双向B-Tree索引结构,实现两种查找:一种是对于单个属性的查找,另一种是多个属性的匹配查找。
8.一种面向海洋环境数据的检索设备,包括终端设备的处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,其特征在于:所述指令适于由处理器加载并执行如权利要求1-6任一项所述的面向海洋环境数据的检索方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的面向海洋环境数据的检索方法。
CN202110786516.3A 2021-07-12 2021-07-12 一种面向海洋环境数据的检索方法、系统、设备及介质 Active CN113535788B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110786516.3A CN113535788B (zh) 2021-07-12 2021-07-12 一种面向海洋环境数据的检索方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110786516.3A CN113535788B (zh) 2021-07-12 2021-07-12 一种面向海洋环境数据的检索方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN113535788A true CN113535788A (zh) 2021-10-22
CN113535788B CN113535788B (zh) 2024-03-05

Family

ID=78098706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110786516.3A Active CN113535788B (zh) 2021-07-12 2021-07-12 一种面向海洋环境数据的检索方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN113535788B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113961603A (zh) * 2021-10-28 2022-01-21 神彩科技股份有限公司 一种大屏数据展示方法、装置、电子设备及存储介质
CN114461746A (zh) * 2021-12-31 2022-05-10 安徽科大讯飞医疗信息技术有限公司武汉分公司 用于检索数据的方法和检索引擎系统
CN114840673A (zh) * 2022-05-09 2022-08-02 中国人民解放军国防科技大学 基于NetCDF的多源异构海洋环境数据集成方法
CN117078501A (zh) * 2023-10-17 2023-11-17 中科星图深海科技有限公司 一种提高海洋环境数据二维成像效率的方法
CN117453751A (zh) * 2023-12-22 2024-01-26 中国海洋大学 海洋大数据缓存加载系统、运行方法、装置和介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050177554A1 (en) * 2004-02-10 2005-08-11 Peltonen Kyle G. System and method for facilitating full text searching utilizing inverted keyword indices
US20070112795A1 (en) * 2005-11-15 2007-05-17 Microsoft Corporation Scalable retrieval of data entries using an array index or a secondary key
US20070174309A1 (en) * 2006-01-18 2007-07-26 Pettovello Primo M Mtreeini: intermediate nodes and indexes
WO2007085187A1 (fr) * 2006-01-25 2007-08-02 Huawei Technologies Co., Ltd. Procédé d'extraction de données, procédé de production de fichiers d'index et moteur de recherche
CN102609530A (zh) * 2012-02-14 2012-07-25 江苏新大诚信息技术有限公司 一种分区域双树结构的空间数据库索引方法
US20160306811A1 (en) * 2013-12-26 2016-10-20 Le Holdings (Beijing) Co., Ltd. Method and system for creating inverted index file of video resource
CN106777261A (zh) * 2016-12-28 2017-05-31 深圳市华傲数据技术有限公司 基于多源异构数据集的数据查询方法及装置
CN110083601A (zh) * 2019-04-04 2019-08-02 中国科学院计算技术研究所 面向键值存储系统的索引树构建方法及系统
KR102128037B1 (ko) * 2019-03-18 2020-06-29 주식회사 로그프레소 다계층 메모리 구조에 최적화된 데이터 인덱스 방법 및 그 방법에 의해 인덱스된 데이터의 검색 방법
US20200210482A1 (en) * 2018-12-26 2020-07-02 Greg A. Becker Data tree with order-based node traversal
CN111666370A (zh) * 2020-07-28 2020-09-15 中国人民解放军国防科技大学 面向多源异构航天数据的语义索引方法和装置
CN112307225A (zh) * 2020-11-02 2021-02-02 中国海洋大学 基于改进哈希学习算法的大规模数据检索方法
CN112328623A (zh) * 2020-11-06 2021-02-05 昆山数字城市信息技术有限公司 基于混合本体模式的多源异构数据管理方法
CN112947856A (zh) * 2021-02-05 2021-06-11 彩讯科技股份有限公司 一种内存数据的管理方法、装置、计算机设备及存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050177554A1 (en) * 2004-02-10 2005-08-11 Peltonen Kyle G. System and method for facilitating full text searching utilizing inverted keyword indices
US20070112795A1 (en) * 2005-11-15 2007-05-17 Microsoft Corporation Scalable retrieval of data entries using an array index or a secondary key
US20070174309A1 (en) * 2006-01-18 2007-07-26 Pettovello Primo M Mtreeini: intermediate nodes and indexes
WO2007085187A1 (fr) * 2006-01-25 2007-08-02 Huawei Technologies Co., Ltd. Procédé d'extraction de données, procédé de production de fichiers d'index et moteur de recherche
CN102609530A (zh) * 2012-02-14 2012-07-25 江苏新大诚信息技术有限公司 一种分区域双树结构的空间数据库索引方法
US20160306811A1 (en) * 2013-12-26 2016-10-20 Le Holdings (Beijing) Co., Ltd. Method and system for creating inverted index file of video resource
CN106777261A (zh) * 2016-12-28 2017-05-31 深圳市华傲数据技术有限公司 基于多源异构数据集的数据查询方法及装置
US20200210482A1 (en) * 2018-12-26 2020-07-02 Greg A. Becker Data tree with order-based node traversal
KR102128037B1 (ko) * 2019-03-18 2020-06-29 주식회사 로그프레소 다계층 메모리 구조에 최적화된 데이터 인덱스 방법 및 그 방법에 의해 인덱스된 데이터의 검색 방법
CN110083601A (zh) * 2019-04-04 2019-08-02 中国科学院计算技术研究所 面向键值存储系统的索引树构建方法及系统
CN111666370A (zh) * 2020-07-28 2020-09-15 中国人民解放军国防科技大学 面向多源异构航天数据的语义索引方法和装置
CN112307225A (zh) * 2020-11-02 2021-02-02 中国海洋大学 基于改进哈希学习算法的大规模数据检索方法
CN112328623A (zh) * 2020-11-06 2021-02-05 昆山数字城市信息技术有限公司 基于混合本体模式的多源异构数据管理方法
CN112947856A (zh) * 2021-02-05 2021-06-11 彩讯科技股份有限公司 一种内存数据的管理方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
江宇 等: "倒排链表多层自索引结构的分析与设计", 计算机应用研究, vol. 34, no. 02, 28 February 2017 (2017-02-28), pages 473 - 476 *
龚俊 等: "一种集成R树、哈希表和B*树的高效轨迹数据索引方法", 测绘学报, vol. 44, no. 05, 31 May 2015 (2015-05-31), pages 570 - 577 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113961603A (zh) * 2021-10-28 2022-01-21 神彩科技股份有限公司 一种大屏数据展示方法、装置、电子设备及存储介质
CN113961603B (zh) * 2021-10-28 2023-03-24 神彩科技股份有限公司 一种大屏数据展示方法、装置、电子设备及存储介质
CN114461746A (zh) * 2021-12-31 2022-05-10 安徽科大讯飞医疗信息技术有限公司武汉分公司 用于检索数据的方法和检索引擎系统
CN114840673A (zh) * 2022-05-09 2022-08-02 中国人民解放军国防科技大学 基于NetCDF的多源异构海洋环境数据集成方法
CN114840673B (zh) * 2022-05-09 2024-04-16 中国人民解放军国防科技大学 基于NetCDF的多源异构海洋环境数据集成方法
CN117078501A (zh) * 2023-10-17 2023-11-17 中科星图深海科技有限公司 一种提高海洋环境数据二维成像效率的方法
CN117078501B (zh) * 2023-10-17 2023-12-29 中科星图深海科技有限公司 一种提高海洋环境数据二维成像效率的方法
CN117453751A (zh) * 2023-12-22 2024-01-26 中国海洋大学 海洋大数据缓存加载系统、运行方法、装置和介质
CN117453751B (zh) * 2023-12-22 2024-03-26 中国海洋大学 海洋大数据缓存加载系统、运行方法、装置和介质

Also Published As

Publication number Publication date
CN113535788B (zh) 2024-03-05

Similar Documents

Publication Publication Date Title
CN113535788B (zh) 一种面向海洋环境数据的检索方法、系统、设备及介质
CN105706078B (zh) 实体集合的自动定义
Liang et al. Express supervision system based on NodeJS and MongoDB
CN106503223B (zh) 一种结合位置和关键词信息的在线房源搜索方法及装置
CN102982103A (zh) 一种olap海量多维数据维存储方法
US20220382733A1 (en) Methods And Systems For Extracting And Visualizing Patterns In Large-Scale Data Sets
Loudcher et al. Combining OLAP and information networks for bibliographic data analysis: a survey
EP3561688A1 (en) Hierarchical tree data structures and uses thereof
CN113190687A (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN113360599A (zh) 一种基于内容识别的多源异构情报汇聚协同处理平台
Gou et al. A/sup*/search: an efficient and flexible approach to materialized view selection
Shakhovska et al. Big Data Model" Entity and Features"
CN112800023B (zh) 基于语义分类的多模型数据分布式存储和分级查询方法
CN113254517A (zh) 一种基于互联网大数据的服务提供方法
Álvarez-García et al. Compact and efficient representation of general graph databases
CN114077652A (zh) 一种基于多维数据立方体的数据处理方法及电子装置
CN108804580B (zh) 一种在联邦型rdf数据库中查询关键字的方法
CN107291875B (zh) 一种基于元数据图的元数据组织管理方法和系统
Vieira et al. Incremental entity resolution process over query results for data integration systems
Ren et al. Intelligent visualization system for big multi-source medical data based on data lake
CN117271577B (zh) 一种基于智能分析的关键字检索方法
Sheng et al. Fast Access and Retrieval of Big Data Based on Unique Identification.
Shelake et al. A Novel Approach for Multi-Source Heterogeneous Database Integration
CN112487015B (zh) 基于增量重划分的分布式rdf系统及其查询优化方法
JIA Grid and angular based partitioning skyline and top-k skyline queries with spark

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant