CN113535788B - 一种面向海洋环境数据的检索方法、系统、设备及介质 - Google Patents
一种面向海洋环境数据的检索方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN113535788B CN113535788B CN202110786516.3A CN202110786516A CN113535788B CN 113535788 B CN113535788 B CN 113535788B CN 202110786516 A CN202110786516 A CN 202110786516A CN 113535788 B CN113535788 B CN 113535788B
- Authority
- CN
- China
- Prior art keywords
- data
- index
- tree
- keywords
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 29
- 230000004927 fusion Effects 0.000 claims abstract description 20
- 239000010410 layer Substances 0.000 claims description 52
- 238000000605 extraction Methods 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 239000002356 single layer Substances 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000011160 research Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/256—Integrating or interfacing systems involving database management systems in federated or virtual databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向海洋环境数据的检索方法、系统、设备及介质,通过提取海洋环境数据关键词,统一整合多源同义的变量,解决多源异构的复杂数据出现相同含义的元素却使用不同命名的差异问题,通过构建基于多信息融合的空间索引结构和基于多关键词的多层双向B‑Tree索引结构,满足复杂多样的查询需求,提高了海洋环境数据检索的效率。
Description
技术领域
本发明属于信息检索技术领域,涉及多信息融合和多关键词索引检索方法,具体涉及一种面向海洋环境数据的检索方法、系统、设备及介质。
背景技术
随着海洋环境信息技术的不断发展和探测设备的不断升级,使得收集的海洋环境数据种类不断丰富的同时,数据量也呈爆炸式增长。从海量的海洋环境数据中高效准确地检索用户感兴趣的数据为当前工业界和学术届关注的热点问题之一。海洋环境数据与普通的数据不同,具有多源异构的特点:多源指海洋环境数据的来源众多,异构指数据存储的类型、结构等不一致。不同的数据来源和多样的采样设备导致了复杂的海洋环境数据格式,如何有效的处理数据问题,是解决海洋环境数据检索问题的关键。
传统的基于词频的索引构建及检索方法在面对具有上述特点的海洋环境数据时,无法提取海洋环境数据的有效描述信息。在面对大规模的异构数据时,可能无法读取某些格式(如NetCDF)的数据内容,即使读取数据内容后,也无法依靠词频的高低表明数据相关性的远近,不能将待检索的关键词和数据内容相匹配。此外,不同数据源具有不同的资料集说明,存在相同含义的海洋环境元素却使用不同命名的差异问题。面对上述问题,基于文本词频的方法无法分析并整合同义词,提取的大多是意义重复且无效的数据,很难确定文件对应的关键词。常见的基于文本词频的索引方式是通过分析词语的出现的次数和统计出现的位置来构建索引,无法获取有效描述信息,因此不能适用于海洋环境数据检索任务。
在真实场景下,不同的数据源由于获取设备或者标准不一等问题导致收集的数据质量参差不齐,海洋环境自身包含的领域又宽泛,身处不同领域的使用者关注数据信息的侧重方向千差万别,因此,使用现有的空间索引不能高效的查询到用户感兴趣的海洋环境数据。
此外,由于海洋环境数据来源广泛、数据体量大,存在构建的索引结构复杂、体系庞大,传统多关键词索引支持的检索格式有限且检索需求复杂多样等问题。
发明内容
针对现有技术存在的不足,本发明提供一种面向海洋环境数据的检索方法、系统、设备及介质,针对多源异构的复杂数据出现相同含义的元素却使用不同命名的差异问题,设计海洋环境数据关键词提取模块及方法,能够结合调研获取的知识,统一整合多源同义的变量,确定文件对应的关键词;针对数据源的质量参差不齐、不同领域关注信息的侧重方向差异等问题,设计基于多信息融合的空间索引结构,通过在空间索引中融合数据源和数据领域等信息,满足不同用户基于自身特点的查询需求;针对现有的索引结构复杂且庞大、支持的检索格式有限等问题,设计一种基于多关键词的多层双向B-Tree索引结构,提高了多关键词检索的多样性,满足复杂多样的查询需求。
为了解决上述技术问题,本发明采用的技术方案是:
首先,本发明提供一种面向海洋环境数据的检索方法,包括以下步骤:
S1、提取海洋环境数据关键词:通过统计分析不同机构海洋环境数据,结合打分排序算法确定文件对应的关键词,整合多源同义的变量,统一规范化不同机构数据间的差异;然后提取对应值,同时完成经纬度区间、分辨率计算、不同时间格式转换操作,并将海洋数据文件与所包含的关键词及对应值作为一条元数据存入库中;
S2、构建海洋环境数据索引:包括基于多信息融合的空间索引结构和基于多关键词的多层双向B-Tree索引结构两部分,所述空间索引结构中融合了步骤S1提取的海洋数据的属性;所述的多层双向B-Tree索引结构是利用B-Tree结构对步骤S1提取的海洋数据的属性分层构建单属性索引树,并通过指针双向链接索引树节点,实现节点间的连接关系,同时添加缓存索引表,存储每一层索引树根节点,实现两种查找:一种是对于单个属性的查找,另一种是多个属性的匹配查找。
进一步的,步骤S1中,海洋环境数据关键词提取的具体步骤如下:
S11.设计海洋环境数据关键词
分析不同研究机构的海洋环境数据现有资料与数据,统计分析数据中要素的命名和描述信息,抽取数据的要素名作为候选关键词,将所有的候选词结合海洋环境文献、资料集说明及用户使用期望三者综合打分,根据打分排序高低取topN个海洋环境数据中常见元素,并将其作为构建索引的关键词;
S12.整合多源同义的变量
根据数据来源的不同,识别并抽取所有海洋环境数据变量,按来源分析变量的描述类属性以确定变量内容,并统一规范化不同机构间的命名差异,将海洋环境中的同义变量名与设计的唯一关键词相结合;
S13.判断数据包含的关键词并存储为元数据
通过上述两步确定了关键词后,遍历数据并判断数据包含的关键词及对应值,将每个海洋数据文件与所包含的关键词及对应值作为元数据存入元数据库中。
进一步的,步骤S2中,所述基于多信息融合的空间索引结构的构建方法如下:
(1)在步骤一的元数据库中获取海洋环境数据信息,读取经纬度数据的范围Lspan及数据源和所属领域;
(2)利用墨卡托投影思想将三维球面数据压缩为二维坐标数据;
(3)用n阶的Hilbert曲线表示平面,将二维数据降为一维数据;
(4)用哈希码LHash融合数据源和数据领域和数据位置信息,以此表示一维数据点;将LHash存入B-Tree结构,构建B-Tree索引;
(5)构建倒排缓存表,优化查询速度。
进一步的,步骤S2中,所述基于多关键词的多层双向B-Tree索引结构的构建方法如下:
(1)从步骤S1提取的海洋环境元数据中,指定n个关键词作为索引构建的关键词组M-Keys【k1,k2,…,kn】,其中ki(i=1,2,…,n)为第i个关键词;
(2)依据指定顺序i和顺序ii对M-Keys关键词组进行排序;
(3)针对每一关键词ki依据顺序i构建一个单层索引树;
(4)依据顺序ii从关键词k1索引树的根节点开始,使用指针连接多个单层索引树,构建多层次双向B-Tree索引结构网络;
(5)构建缓存索引表,存放每一层B-Tree索引结构的根节点,丰富查询多样性。
进一步的,所述的多层双向B-Tree索引结构的根节点存放关键词名称、关键词对应的索引值、指向下一层索引节点的指针数组,普通索引节点存放关键词对应的索引值、指向下一层索引节点的指针数组和指向上一层索引节点的指针数组。
进一步的,顺序i代表对每个关键词单独排序;顺序ii代表对照关键词的先后顺序进行排序:先对ki进行顺序排列,在ki相等的索引节点中,按照ki+1指定的顺序排序。
然后,本发明还提供一种面向海洋环境数据的检索系统,包括:
海洋环境数据关键词提取模块,通过统计分析不同机构海洋环境数据,结合打分排序算法确定文件对应的关键词,整合多源同义的变量,统一规范化不同机构数据间的差异;然后提取对应值,同时完成经纬度区间、分辨率计算、不同时间格式转换操作,并将海洋数据文件与所包含的关键词及对应值作为一条元数据存入库中;
海洋环境数据索引构建模块,通过融合海洋环境数据关键词提取模块提取的海洋数据的属性,并经墨卡托投影及Hilbert曲线对经纬度区间数据降维、哈希码Lhash唯一表示融合数据源和数据领域信息后的属性,构建基于多信息融合的空间索引结构,实现不同数据源和应用领域下的空间检索;利用B-Tree结构对海洋环境数据关键词提取模块提取的海洋数据的属性分层构建单属性索引树,并通过指针双向链接索引树节点,实现节点间的连接关系,同时添加缓存索引表,存储每一层索引树根节点,构建基于多关键词的多层双向B-Tree索引结构,实现两种查找:一种是对于单个属性的查找,另一种是多个属性的匹配查找。
本发明还提供一种面向海洋环境数据的检索设备,包括终端设备的处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行如前所述的面向海洋环境数据的检索方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的面向海洋环境数据的检索方法。
与现有技术相比,本发明优点在于:
(1)设计一个关键词提取模块,通过关键词提取方法确定海洋环境数据文件中常见的元素作为关键词,解决多源异构的复杂数据出现相同含义的元素却使用不同命名的差异问题,能够结合调研获取的知识,统一整合多源同义的变量,确定文件对应的关键词。
(2)本发明提出了一种基于多信息融合的空间索引结构,通过在空间索引中融合数据源和数据领域等信息,满足不同用户基于自身特点的查询需求,实现查询特定应用领域和真实可靠数据的空间检索,以提供良好的用户体验,更好地应用于真实场景。
(3)本发明提出了一种基于多关键词多层双向的B-Tree索引结构,在满足索引的最左匹配原则的基础上,增添了最右匹配检索和以及反向检索等功能,提高了多关键词检索的多样性,满足复杂多样的查询需求,进一步实现高效检索。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的关键词提取流程示意图;
图2为本发明的B-tree结构图;
图3为本发明的系统框图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
实施例1
本实施例提出一种面向海洋环境数据的检索方法,通过设计海洋环境数据关键词提取功能,针对多源异构的复杂数据,编写程序识别并分析数据内容,统一整合多源同义的变量,确定文件对应的关键词;设计了多信息融合的空间索引和多关键词索引,提高检索速度。
S1、提取海洋环境数据关键词
由于现有的关键词提取是从一个文本数据中选出比较重要的词作为关键词,而海洋环境数据多源异构,海洋环境数据并不都是文本格式的,如netcdf格式并不是文本类型的数据格式,并且不同机构存储的信息和数据名称不同,一个文件中词频的高低无法说明数据的相关性。
所以,本发明统计了现有海洋环境数据的所有要素名和描述信息并设计了关键词,整合了不同机构数据间的差异,规范化关键词命名后,在每一个海洋环境数据中定位信息存储的区域并与上一步规范化的名字相匹配,并利用这个流程对每一个海洋环境数据进行判断,以此将一个数据文件分析后变成一条信息存储,目的是给数据提供描述信息,以期满足不同用户的查询需求,实现数据的有效查询。
设计思路是:通过统计分析不同机构海洋环境数据,结合打分排序算法确定文件对应的关键词,整合多源同义的变量,统一规范化不同机构数据间的差异;然后提取对应值,同时完成经纬度区间、分辨率计算、不同时间格式转换操作,并将海洋数据文件与所包含的关键词及对应值作为一条信息存入库中。
结合图1所示的关键词提取流程,详细介绍具体实施步骤:
S11.设计海洋环境数据关键词
分析不同研究机构的海洋环境数据现有资料与数据,并对大量海洋环境数据集中处理,在定位到具体的数据存储区域后,统计分析数据中要素的命名和描述信息,抽取数据的要素名作为候选关键词,将所有的候选词结合海洋环境文献、资料集说明及用户使用期望三者综合打分,根据打分排序高低取topN个海洋环境数据中常见元素,并将其作为构建索引的关键词(在特定数据集下的top30如表所示),以满足用户的查询需求。
S12.整合多源同义的变量
在数据文件的关键词提取方面,以NetCDF(network Common Data Form)文件格式为例,不同的科研机构和政府部门,都有自己的命名规范,会出现相同含义的变量却使用不同命名的差异。
根据数据来源的不同,利用netcdf4模块编写程序识别并抽取所有海洋环境数据变量,按来源分析变量的描述类属性以确定变量内容,并统一规范化不同机构间的命名差异,将海洋环境中的同义变量名与设计的唯一关键词相结合。
S13.判断数据包含的关键词并存储为元数据
通过上述两步确定了关键词后,使用python计算扩展工具包,遍历数据并判断数据包含的关键词及对应值,如果文件含有关键词则将关键词的对应值设为1。此外,完成时间格式、范围等对应值的提取、经纬度区间和分辨率计算、不同的时间格式转换等操作后,将每个海洋数据文件与所包含的关键词及对应值作为元数据存入元数据库中。
S2、构建海洋环境数据索引
索引构建是实现海洋环境数据查询的基础,由于传统的基于词频的索引构建方法不能满足需求。因此我们采用B-tree结构结合针对海洋环境数据提取的关键词,构建数据索引。针对海洋环境的特点和多样化的查询需求,构建多信息融合空间索引和多关键词的索引。
图2所示为B-tree结构图,B-tree是一种多路搜索树,一个m阶的B-树根结点最少有2个子结点,非叶子结点最多可以有m个子结点,除根结点以外的所有非叶子结点至少有个子结点,叶子结点出现在同一层次上且不存储任何信息,所有的非叶子结点中包含(n,A0,K1,A1,K2,…,Kn,An)结构,其中Ki(i=1,2,…,n)为关键字,且Ki按照从小到大的顺序排序;Ai(i=0,1,…,n)为指向子树根结点的指针,/>为关键字的个数。
B-tree在每一个结点上都将key和Data域聚合在一起,每个索引结点都有Data域,单次查询时,B-树索引只要找到对应的索引就可以立即访问结点数据,可实现海洋环境数据的高效检索。
(a)基于多信息融合的空间索引结构
为了实现基于所设计和提取的关键词构建海洋环境数据检索,结合真实场景下不同数据源的数据质量参差不齐和不同领域的数据查询倾向不同等问题,提出了基于多信息融合的空间索引,主要是针对经纬度等属性,融合数据源和应用领域等信息对其建立空间索引,以满足使用者对海洋环境数据文件中空间属性上的查询需求。
在构建经纬度范围的索引时,由于经纬度范围信息是多维的数据,无法存入B-Tree结构,所以需要对数据做降维处理再存入索引结构。方法如下:
(1)在步骤一的元数据库中获取海洋环境数据信息,读取经纬度数据的范围Lspan【Latmax,Latmin,Lonmax,Lonmin】及数据源和所属领域。
(2)利用墨卡托投影思想将三维球面数据压缩为二维坐标数据(x,y)。
(3)在展开的平面地图中,构建n阶Hilbert曲线,将该平面内划分成四等分的区块,在每一区块中,构建n-1阶Hilbert曲线,并把4个Hilbert曲线相连,递归该过程后,将二维的数据降维转换成一维的点。
(4)构建二进制哈希码LHash,用哈希码LHash融合数据源和数据领域和数据位置信息,以此来唯一表示上述每一个一维数据点,其中前四位哈希码表示数据源信息,五到八位表示数据的所属领域,余下的位表示点在面内的位置顺序。使用降维后的哈希码表示一维数据点具有提高查询速度、整合多信息融合、减少存储代价等多方面优点。
然后,将LHash存入B-Tree结构,构建B-Tree索引:向排序器添加属性键和哈希码与键值的位置信息并排序,实例化B-Tree索引对象,使用迭代器将以上信息存入B-Tree结构中。至此,根据实际应用结合不同粒度的转换方式(即不同的Hilbert曲线阶数),每一个具体的经纬度范围将由一或多个存在B-Tree结构中的LHash表示。
(5)构建倒排缓存表,优化查询速度:对经常访问的数据节点构建缓存表,使用倒排结构对用户的高频访问的空间位置进行缓存。当查询高频位置时,跳过上述降维步骤,直接读取倒排表的值,既链表形式连接的包含访问数据位置的文件,来加快查询速度。
通过上述方法空间索引结构中融合了步骤S1提取的海洋数据的经纬度、数据源及应用领域等属性。
(b)基于多关键词的多层双向B-Tree索引结构
为了满足多样化的现实检索需求,除了以上基于多信息融合的空间索引结构,本发明构建了基于多关键词的多层双向B-Tree索引结构,支持结合多个关键词进行检索。在多条件查询中该B-Tree索引可以匹配具有查询条件中全部或部分索引字段的海洋环境数据进行数据检索,甚至实现多关键词的反向检索。
设计思路是:利用B-Tree结构对步骤S1提取的海洋数据的属性分层构建单属性索引树,并通过指针双向链接索引树节点,实现节点间的连接关系,同时添加缓存索引表,存储每一层索引树根节点,实现两种查找:一种是对于单个属性的查找,另一种是多个属性的匹配查找。在满足最基础的多关键词数据检索的同时,实现反向检索、随机单属性检索、部分属性检索等多样化检索功能。
构建方法如下:
(1)从步骤S1提取的海洋环境元数据中,指定n个关键词作为索引构建的关键词组M-Keys【k1,k2,…,kn】,其中ki(i=1,2,…,n)为第i个关键词;
(2)遍历海洋环境数据元数据表中关键词组M-Keys对应的属性值,提取海洋环境数据对象中的键值信息和_id序号。对关键词的值按照索引构建的指定顺序进行排序。本方法设计了两种排序顺序:i)对每个关键词单独排序。ii)按照关键词的先后顺序进行排序:即先对k1进行顺序排列,在k1相等的索引节点中,按照k2指定的顺序排序。排序部分工作量大,为了有效的缩短构建索引时的排序时间,提高索引构建的效率,本方法在对关键词ki排序时,按照设定大小对关键词ki作分块处理,得到数据块组S【s1,s2,…,sn】,si为第i(i=1,2,3,…,n)个数据块。使用多线程对数据块组S中的si(i=1,2,3,…,n)进行排序,再将有序的si两两归并排序,递归该过程,顺序i排序完成。顺序ii则是对k1归并排序后,按照关键词顺序对剩余关键词排序即可。
(3)多层双向B-Tree索引结构,有两种节点类型:i)根节点,存放关键词名称、关键词对应的索引值,指向下一层索引节点的指针数组ii)普通索引节点,存放关键词对应的索引值、指向下一层索引节点的指针数组和指向上一层索引节点的指针数组。
多层次双向B-Tree索引结构以一个关键词为一层,分层构建多层索引。该索引一共有n层,通过双向指针实现层与层之间的连接。实现步骤具体如下:
①针对每一个关键词ki,使用多线程实例化B-Tree对象,依据顺序i构建一个单属性索引树。由于海洋环境数据具有数据量大,数据范围有限,数据重复率高的特点,为了初步减少构建索引时存储空间的使用和时间的消耗,过滤重复数据,本方法每个关键词中相同的数据存放在一个索引节点。
②依据顺序ii从关键词k1索引树的根节点开始,依次将每一条信息的前后关系以指针的形式添加到节点数组中,建立索引节点之间的双向链接,可以实现多关键词反向检索的功能需求。指针名由该条数据的_id序号和层数组成,可以唯一识别前后数据的匹配问题。
(4)构建缓存索引表,该缓存表存放每一层B-Tree索引结构的根节点(存储每一层索引树的关键词名称和指向下一层索引树根节点的指针数组),实现部分关键词的高效检索,丰富查询多样性。
表1海洋环境数据关键词
实施例2
本实施例提供一种面向海洋环境数据的检索系统,如图3所示,包括:
海洋环境数据关键词提取模块,通过统计分析不同机构海洋环境数据,结合打分排序算法确定文件对应的关键词,整合多源同义的变量,统一规范化不同机构数据间的差异;然后提取对应值,同时完成经纬度区间、分辨率计算、不同时间格式转换操作,并将海洋数据文件与所包含的关键词及对应值作为一条元数据存入库中;
海洋环境数据索引构建模块,通过融合海洋环境数据关键词提取模块提取的海洋数据的属性,并经墨卡托投影及Hilbert曲线对经纬度区间数据降维、哈希码Lhash唯一表示融合数据源和数据领域信息后的属性,构建基于多信息融合的空间索引结构,实现不同数据源和应用领域下的空间检索;利用B-Tree结构对海洋环境数据关键词提取模块提取的海洋数据的属性构建基于多信息融合的空间索引结构;利用B-Tree结构对海洋环境属性分层构建单属性索引树,并通过指针双向链接索引树节点,实现节点间的连接关系,同时添加缓存索引表,存储每一层索引树根节点,构建基于多关键词的多层双向B-Tree索引结构,实现两种查找:一种是对于单个属性的查找,另一种是多个属性的匹配查找。由于本实施例各模块功能具体实现方式与前述实施例1对应,此处不再重复赘述。
实施例3
本实施例提供一种面向海洋环境数据的检索设备,包括终端设备的处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行如前所述的任一项面向海洋环境数据的检索方法。具体实现方式与前述实施例1对应,此处不再重复赘述。
此外,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的任一项面向海洋环境数据的检索方法。具体实现方式与前述实施例1对应,此处不再重复赘述。
综上所述,本发明能够读取多源异构数据的组成,能够分析异构数据中的描述类属性从而确定变量内容,能够解决命名差异问题,能够结合打分排序算法确定海洋环境数据对应的关键词,并进行时间格式、范围等对应值的提取,完成经纬度区间和分辨率计算、不同时间格式的转换等操作,能够在此基础上根据海洋环境特点,结合真实场景下数据质量参差不齐和不同领域数据查询倾向不同等问题,建立多信息融合的空间索引,能够结合多关键词的现实检索需要,针对目前索引满足的检索格式受限、格式普遍满足最左匹配原则而缺少右侧匹配以及反向匹配等问题,建立多关键词的多层双向B-Tree索引,能够丰富索引的检索格式,提高查询速度并满足多样化的检索需求。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。
Claims (5)
1.一种面向海洋环境数据的检索方法,其特征在于,包括以下步骤:
S1、提取海洋环境数据关键词:通过统计分析不同机构海洋环境数据,结合打分排序算法确定文件对应的关键词,整合多源同义的变量,统一规范化不同机构数据间的差异;然后提取对应值,同时完成经纬度区间、分辨率计算、不同时间格式转换操作,并将海洋数据文件与所包含的关键词及对应值作为一条元数据存入库中;
S2、构建海洋环境数据索引:包括基于多信息融合的空间索引结构和基于多关键词的多层双向B-Tree索引结构两部分,所述空间索引结构中融合了步骤S1提取的海洋数据的属性;所述的多层双向B-Tree索引结构是利用B-Tree结构对步骤S1提取的海洋数据的属性分层构建单属性索引树,并通过指针双向链接索引树节点,实现节点间的连接关系,同时添加缓存索引表,存储每一层索引树根节点,实现两种查找:一种是对于单个属性的查找,另一种是多个属性的匹配查找;
其中,所述基于多信息融合的空间索引结构的构建方法如下:
(1)在元数据库中获取海洋环境数据信息,读取经纬度数据的范围Lspan及数据源和所属领域;
(2)利用墨卡托投影思想将三维球面数据压缩为二维坐标数据;
(3)用n阶的Hilbert曲线表示平面,将二维数据降为一维数据;
(4)用哈希码LHash融合数据源和数据领域和数据位置信息,以此表示一维数据点;将LHash存入B-Tree结构,构建B-Tree索引;
(5)构建倒排缓存表,优化查询速度;
所述基于多关键词的多层双向B-Tree索引结构的构建方法如下:
(1)从步骤S1提取的海洋环境元数据中,指定n个关键词作为索引构建的关键词组M-Keys【k1,k2,…,kn】,其中ki为第i个关键词;
(2)依据指定顺序i和顺序ii对M-Keys关键词组进行排序;
顺序i代表对每个关键词单独排序;顺序ii代表按照关键词的先后顺序进行排序:先对ki进行顺序排列,在ki相等的索引节点中,按照ki+1指定的顺序排序;
(3)针对每一关键词ki依据顺序i构建一个单层索引树;
(4)依据顺序ii从关键词k1索引树的根节点开始,使用指针连接多个单层索引树,构建多层次双向B-Tree索引结构网络;
所述的多层双向B-Tree索引结构的根节点存放关键词名称、关键词对应的索引值、指向下一层索引节点的指针数组,普通索引节点存放关键词对应的索引值、指向下一层索引节点的指针数组和指向上一层索引节点的指针数组;
(5)构建缓存索引表,存放每一层B-Tree索引结构的根节点,丰富查询多样性。
2.根据权利要求1所述的一种面向海洋环境数据的检索方法,其特征在于,步骤S1中,海洋环境数据关键词提取的具体步骤如下:
S11.设计海洋环境数据关键词
分析不同研究机构的海洋环境数据现有资料与数据,统计分析数据中要素的命名和描述信息,抽取数据的要素名作为候选关键词,将所有的候选词结合海洋环境文献、资料集说明及用户使用期望三者综合打分,根据打分排序高低取topN个海洋环境数据中常见元素,并将其作为构建索引的关键词;
S12.整合多源同义的变量
根据数据来源的不同,识别并抽取所有海洋环境数据变量,按来源分析变量的描述类属性以确定变量内容,并统一规范化不同机构间的命名差异,将海洋环境中的同义变量名与设计的唯一关键词相结合;
S13.判断数据包含的关键词并存储为元数据
通过上述两步确定了关键词后,遍历数据并判断数据包含的关键词及对应值,将每个海洋数据文件与所包含的关键词及对应值作为元数据存入元数据库中。
3.一种面向海洋环境数据的检索系统,其特征在于,包括:
海洋环境数据关键词提取模块,通过统计分析不同机构海洋环境数据,结合打分排序算法确定文件对应的关键词,整合多源同义的变量,统一规范化不同机构数据间的差异;然后提取对应值,同时完成经纬度区间、分辨率计算、不同时间格式转换操作,并将海洋数据文件与所包含的关键词及对应值作为一条元数据存入库中;
海洋环境数据索引构建模块,通过融合海洋环境数据关键词提取模块提取的海洋数据的属性,并经墨卡托投影及Hilbert曲线对经纬度区间数据降维、哈希码Lhash唯一表示融合数据源和数据领域信息和数据位置信息后的属性,构建基于多信息融合的空间索引结构,实现不同数据源和应用领域下的空间检索;利用B-Tree结构对海洋环境数据关键词提取模块提取的海洋数据的属性分层构建单属性索引树,并通过指针双向链接索引树节点,实现节点间的连接关系,同时添加缓存索引表,存储每一层索引树根节点,构建基于多关键词的多层双向B-Tree索引结构,实现两种查找:一种是对于单个属性的查找,另一种是多个属性的匹配查找;
其中构建基于多信息融合的空间索引结构的方法如下:
(1)在元数据库中获取海洋环境数据信息,读取经纬度数据的范围Lspan及数据源和所属领域;
(2)利用墨卡托投影思想将三维球面数据压缩为二维坐标数据;
(3)用n阶的Hilbert曲线表示平面,将二维数据降为一维数据;
(4)用哈希码LHash融合数据源和数据领域和数据位置信息,以此表示一维数据点;将LHash存入B-Tree结构,构建B-Tree索引;
(5)构建倒排缓存表,优化查询速度;
构建基于多关键词的多层双向B-Tree索引结构的方法如下:
(1)从步骤S1提取的海洋环境元数据中,指定n个关键词作为索引构建的关键词组M-Keys【k1,k2,…,kn】,其中ki为第i个关键词;
(2)依据指定顺序i和顺序ii对M-Keys关键词组进行排序;
顺序i代表对每个关键词单独排序;顺序ii代表按照关键词的先后顺序进行排序:先对ki进行顺序排列,在ki相等的索引节点中,按照ki+1指定的顺序排序;
(3)针对每一关键词ki依据顺序i构建一个单层索引树;
(4)依据顺序ii从关键词k1索引树的根节点开始,使用指针连接多个单层索引树,构建多层次双向B-Tree索引结构网络;
所述的多层双向B-Tree索引结构的根节点存放关键词名称、关键词对应的索引值、指向下一层索引节点的指针数组,普通索引节点存放关键词对应的索引值、指向下一层索引节点的指针数组和指向上一层索引节点的指针数组;
(5)构建缓存索引表,存放每一层B-Tree索引结构的根节点,丰富查询多样性。
4.一种面向海洋环境数据的检索设备,包括终端设备的处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,其特征在于:所述指令适于由处理器加载并执行如权利要求1-2任一项所述的面向海洋环境数据的检索方法。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-2任一项所述的面向海洋环境数据的检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110786516.3A CN113535788B (zh) | 2021-07-12 | 2021-07-12 | 一种面向海洋环境数据的检索方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110786516.3A CN113535788B (zh) | 2021-07-12 | 2021-07-12 | 一种面向海洋环境数据的检索方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113535788A CN113535788A (zh) | 2021-10-22 |
CN113535788B true CN113535788B (zh) | 2024-03-05 |
Family
ID=78098706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110786516.3A Active CN113535788B (zh) | 2021-07-12 | 2021-07-12 | 一种面向海洋环境数据的检索方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113535788B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113961603B (zh) * | 2021-10-28 | 2023-03-24 | 神彩科技股份有限公司 | 一种大屏数据展示方法、装置、电子设备及存储介质 |
CN114461746A (zh) * | 2021-12-31 | 2022-05-10 | 安徽科大讯飞医疗信息技术有限公司武汉分公司 | 用于检索数据的方法和检索引擎系统 |
CN114840673B (zh) * | 2022-05-09 | 2024-04-16 | 中国人民解放军国防科技大学 | 基于NetCDF的多源异构海洋环境数据集成方法 |
CN117078501B (zh) * | 2023-10-17 | 2023-12-29 | 中科星图深海科技有限公司 | 一种提高海洋环境数据二维成像效率的方法 |
CN117453751B (zh) * | 2023-12-22 | 2024-03-26 | 中国海洋大学 | 海洋大数据缓存加载系统、运行方法、装置和介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007085187A1 (fr) * | 2006-01-25 | 2007-08-02 | Huawei Technologies Co., Ltd. | Procédé d'extraction de données, procédé de production de fichiers d'index et moteur de recherche |
CN102609530A (zh) * | 2012-02-14 | 2012-07-25 | 江苏新大诚信息技术有限公司 | 一种分区域双树结构的空间数据库索引方法 |
CN106777261A (zh) * | 2016-12-28 | 2017-05-31 | 深圳市华傲数据技术有限公司 | 基于多源异构数据集的数据查询方法及装置 |
CN110083601A (zh) * | 2019-04-04 | 2019-08-02 | 中国科学院计算技术研究所 | 面向键值存储系统的索引树构建方法及系统 |
KR102128037B1 (ko) * | 2019-03-18 | 2020-06-29 | 주식회사 로그프레소 | 다계층 메모리 구조에 최적화된 데이터 인덱스 방법 및 그 방법에 의해 인덱스된 데이터의 검색 방법 |
CN111666370A (zh) * | 2020-07-28 | 2020-09-15 | 中国人民解放军国防科技大学 | 面向多源异构航天数据的语义索引方法和装置 |
CN112307225A (zh) * | 2020-11-02 | 2021-02-02 | 中国海洋大学 | 基于改进哈希学习算法的大规模数据检索方法 |
CN112328623A (zh) * | 2020-11-06 | 2021-02-05 | 昆山数字城市信息技术有限公司 | 基于混合本体模式的多源异构数据管理方法 |
CN112947856A (zh) * | 2021-02-05 | 2021-06-11 | 彩讯科技股份有限公司 | 一种内存数据的管理方法、装置、计算机设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7716211B2 (en) * | 2004-02-10 | 2010-05-11 | Microsoft Corporation | System and method for facilitating full text searching utilizing inverted keyword indices |
US7505960B2 (en) * | 2005-11-15 | 2009-03-17 | Microsoft Corporation | Scalable retrieval of data entries using an array index or a secondary key |
US20070174309A1 (en) * | 2006-01-18 | 2007-07-26 | Pettovello Primo M | Mtreeini: intermediate nodes and indexes |
WO2015096609A1 (zh) * | 2013-12-26 | 2015-07-02 | 乐视网信息技术(北京)股份有限公司 | 视频资源的倒排索引文件建立方法及其系统 |
US10936661B2 (en) * | 2018-12-26 | 2021-03-02 | Micron Technology, Inc. | Data tree with order-based node traversal |
-
2021
- 2021-07-12 CN CN202110786516.3A patent/CN113535788B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007085187A1 (fr) * | 2006-01-25 | 2007-08-02 | Huawei Technologies Co., Ltd. | Procédé d'extraction de données, procédé de production de fichiers d'index et moteur de recherche |
CN102609530A (zh) * | 2012-02-14 | 2012-07-25 | 江苏新大诚信息技术有限公司 | 一种分区域双树结构的空间数据库索引方法 |
CN106777261A (zh) * | 2016-12-28 | 2017-05-31 | 深圳市华傲数据技术有限公司 | 基于多源异构数据集的数据查询方法及装置 |
KR102128037B1 (ko) * | 2019-03-18 | 2020-06-29 | 주식회사 로그프레소 | 다계층 메모리 구조에 최적화된 데이터 인덱스 방법 및 그 방법에 의해 인덱스된 데이터의 검색 방법 |
CN110083601A (zh) * | 2019-04-04 | 2019-08-02 | 中国科学院计算技术研究所 | 面向键值存储系统的索引树构建方法及系统 |
CN111666370A (zh) * | 2020-07-28 | 2020-09-15 | 中国人民解放军国防科技大学 | 面向多源异构航天数据的语义索引方法和装置 |
CN112307225A (zh) * | 2020-11-02 | 2021-02-02 | 中国海洋大学 | 基于改进哈希学习算法的大规模数据检索方法 |
CN112328623A (zh) * | 2020-11-06 | 2021-02-05 | 昆山数字城市信息技术有限公司 | 基于混合本体模式的多源异构数据管理方法 |
CN112947856A (zh) * | 2021-02-05 | 2021-06-11 | 彩讯科技股份有限公司 | 一种内存数据的管理方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
江宇 等.倒排链表多层自索引结构的分析与设计.计算机应用研究.2017,第34卷(第02期),473-476. * |
龚俊 等.一种集成R树、哈希表和B*树的高效轨迹数据索引方法.测绘学报.2015,第44卷(第05期),570-577. * |
Also Published As
Publication number | Publication date |
---|---|
CN113535788A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113535788B (zh) | 一种面向海洋环境数据的检索方法、系统、设备及介质 | |
CN109284338B (zh) | 一种基于混合索引的卫星遥感大数据优化查询方法 | |
Zhang et al. | Bed-tree: an all-purpose index structure for string similarity search based on edit distance | |
CN106933833B (zh) | 一种基于空间索引技术的位置信息快速查询方法 | |
CN106503223B (zh) | 一种结合位置和关键词信息的在线房源搜索方法及装置 | |
CN102982103A (zh) | 一种olap海量多维数据维存储方法 | |
CN109166615B (zh) | 一种随机森林哈希的医学ct图像存储与检索方法 | |
Abdelguerfi et al. | The 2-3TR-tree, a trajectory-oriented index structure for fully evolving valid-time spatio-temporal datasets | |
CN111522892B (zh) | 地理要素的检索方法及装置 | |
CN111611266A (zh) | 知识驱动的联合大数据查询和分析平台 | |
WO2005008519A1 (en) | Combined search method for content-based image retrieval | |
CN114168705B (zh) | 一种基于地址要素索引的中文地址匹配方法 | |
CN108804580B (zh) | 一种在联邦型rdf数据库中查询关键字的方法 | |
Álvarez-García et al. | Compact and efficient representation of general graph databases | |
Yadav et al. | Wavelet tree based hybrid geo-textual indexing technique for geographical search | |
Bianchi et al. | On the performance and use of spatial OLAP tools | |
Luaces et al. | An ontology-based index to retrieve documents with geographic information | |
Abel et al. | Caching strategies for spatial joins | |
Navarro | Compact data structures meet databases (invited talk) | |
CN117290355B (zh) | 一种元数据地图构建系统 | |
Arslan et al. | Content and concept indexing for high-dimensional multimedia data | |
Yang et al. | An Efficient Indexing Structure for Multidimensional Categorical Range Aggregation Query | |
US20220188311A1 (en) | Finding Dimensional Correlation Using Hyperloglog | |
Huang et al. | Accelerating XML Query Processing on Views | |
JIA | Grid and angular based partitioning skyline and top-k skyline queries with spark |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |