CN111352937A - 一种海洋生态环境监测并行数据检索方法 - Google Patents

一种海洋生态环境监测并行数据检索方法 Download PDF

Info

Publication number
CN111352937A
CN111352937A CN202010091942.0A CN202010091942A CN111352937A CN 111352937 A CN111352937 A CN 111352937A CN 202010091942 A CN202010091942 A CN 202010091942A CN 111352937 A CN111352937 A CN 111352937A
Authority
CN
China
Prior art keywords
data
group
ecological environment
environment monitoring
marine ecological
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010091942.0A
Other languages
English (en)
Inventor
程岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oceanographic Instrumentation Research Institute Shandong Academy of Sciences
Institute of Oceanographic Instrumentation Shandong Academy of Sciences
Original Assignee
Oceanographic Instrumentation Research Institute Shandong Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oceanographic Instrumentation Research Institute Shandong Academy of Sciences filed Critical Oceanographic Instrumentation Research Institute Shandong Academy of Sciences
Priority to CN202010091942.0A priority Critical patent/CN111352937A/zh
Publication of CN111352937A publication Critical patent/CN111352937A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Software Systems (AREA)
  • Educational Administration (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种海洋生态环境监测并行数据检索方法,包括以下步骤:遍历海洋生态环境监测数据库的数据表,根据采集参数计算欧几里得距离,并排序,记为A组;根据所要检索的条件,遍历索引数据库中的索引表,根据检索项目,计算欧几里得距离,并排序,记为B组;根据B组中数据的个数m,分成k=m/log10m个段,分别为
Figure DDA0002383972380000011
Figure DDA0002383972380000012
根据B组的划分结果将A组也分成k个段:a1,……,aj(1);aj(1)+1,……,aj(2);……;aj(k(m)‑1),……,an;将划分好的组作为各子任务分配到多个处理器上并行执行,各处理器独立执行归并排序。最后,汇总各处理器所得到的结果,就完成了整个大的排序的任务。本发明提供的方法解决海洋生态环境监测并行数据检索方法,能够提高海洋生态环境监测数据检索的速度。

Description

一种海洋生态环境监测并行数据检索方法
技术领域
本发明涉及海水生态环境监测技术领域,特别涉及一种海洋生态环境监测并行数据检索方法。
背景技术
在海洋生态环境监测数据分析过程中,需要检索其他同类型的仪器所采集的数据,与本海洋实验监测仪器所采集的数据进行对比分析,同时也有可能在对比分析的过程中,也同样需要检索其他相似的海洋监测有关的数据。在海量的各种海洋生态环境监测数据库中,需要快速查询到与本仪器相关的数据,所以一种海洋生态环境监测并行数据检索方法,是海洋生态环境监测分析过程所必须的,是目前国内海洋生态环境监测仪器研发的核心。现有海洋生态环境监测数据检索,检索信息有限,检索产生延迟。
并行计算就是研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,分配给多个计算机进行处理,并把这些计算结果综合起来得到最终结果的问题。构建并行信息检索系统模型,实现并行信息检索系统。
基于以上原因,现有的海洋生态环境监测并行数据检索方法,其检测不具有现场实时性,没有有效检索出相关数据。
发明内容
为解决上述技术问题,本发明提供了一种海洋生态环境监测并行数据检索方法,以达到提高海洋生态环境监测数据分析过程中,数据检索速度的目的。
为达到上述目的,本发明的技术方案如下:
一种海洋生态环境监测并行数据检索方法,包括以下步骤:
(1)遍历海洋生态环境监测数据库的数据表,根据采集参数计算欧几里得距离,并排序,记为A组;
(2)根据所要检索的条件,遍历索引数据库中的索引表,根据检索项目,计算欧几里得距离,并排序,记为B组;
(3)根据B组中数据的个数m,分成k=m/log10m个段,k为正整数,分别为
Figure BDA0002383972360000011
Figure BDA0002383972360000021
(4)根据B组划分好的段,将A组也分成k=m/log10m个段,分别为a1,……,aj(1);aj(1)+1,……,aj(2);……;aj(k(m)-1),……,an;其中,
Figure BDA0002383972360000022
Figure BDA0002383972360000023
将每一段A组数据段和相应的B组数据段作为一个比对区间;
(5)将步骤(4)划分好的所有比对区间的数据比对作为子任务,分配到多个处理器上并行执行,各处理器独立执行归并排序,汇总各处理器所得到的结果。
上述方案中,所述步骤(1)中,对于数据表中的每条数据,包含的采集参数记为0,不包含的采集参数,则记为1,计算每个数据的欧几里得距离,并将计算结果升序排列,记为A组。
所述采集参数,是根据海洋生态环境监测项目所设定的,比如溶解氧监测中,设定的采集参数为溶解氧、饱和度、温度、相位差。
欧几里得距离(Euclidean distance)
Figure BDA0002383972360000024
上述方案中,所述步骤(2)中,对于数据库中的每条索引表数据,包含的检索条件中的项目记为0,不包含的项目记为1,计算每条索引表数据的欧几里得距离,并将计算结果升序排列,记为B组。索引项目,就是用户的检索条件,比如仪器的品牌,检索内容,时间范围。
上述方案中,A组的划分方案是根据B组的划分结果来确定的:
Figure BDA0002383972360000025
Figure BDA0002383972360000026
函数就是在另一组中找比这个数小的所有元素的个数;rank(1000:A)就是遍历A数组,所有小于1000的元素的个数。
上述方案中,按照上述方案划分好的各任务组分配到多个处理器上并行执行,各处理器独立执行归并排序,汇总各处理器所得到的结果。就完成了整个大的排序的任务。
本发明提供的一种海洋生态环境监测并行数据检索方法,只针对海洋生态监测的数据,在分析的过程中,采集参数是在对数据采集前已经设定好的,不同的监测项目,采集参数也是不同的。通过对比计算采集参数和检索条件各自的欧几里得距离,找到与检索更匹配的数据,另外使用并行的排序方法,从而提高检索的速度。
附图说明
图1为本发明实施例所公开的一种海洋生态环境监测并行数据检索方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明提供了一种海洋生态环境监测并行数据检索方法,如图1所示,具体流程如下:
S101、遍历海洋生态环境监测数据库的数据表,根据采集参数计算欧几里得距离,并排序,按照由小到大,记为A组。
采集参数,是根据海洋生态环境监测项目所设定的,比如溶解氧监测中,设定的采集参数为溶解氧、饱和度、温度、相位差。
欧几里得距离(Euclidean distance)
Figure BDA0002383972360000031
遍历海洋生态环境监测数据库的数据表,比如数据表中的一项数据,如果数据含有溶解氧的值,那么该位为0,如果没有溶解氧的值,那么该位为1;溶解氧需要采集四个参数,所以如果这四个参数都没有就是sqrt(1+1+1+1)=2;如果这四个参数都有就是sqrt(0+0+0+0)=0;如果该条数据只含有这四个参数中其中的中间二项,饱和度、温度,那么欧几里得距离就是sqrt(0+1+1+0)=sqrt(2)。
S102、遍根据所要检索的条件,遍历索引数据库中的索引表,根据检索项目,计算欧几里得距离,并排序,按照由小到大,记为B组。比如为10000条。
欧几里得距离(Euclidean distance)
Figure BDA0002383972360000032
比如该仪器的检索项目的条件为品牌是安德拉,时间近一个月,数据内容为溶解氧;遍历检索数据库的索引表,如果索引表中的数据含有安德拉德的,时间为一个月内,但不是溶解氧的数据,那么欧几里得距离就是sqrt(0+0+1)=1;如果这三项都包含,那么计算的结果就是sqrt(0+0+0)=0。
比如为0的有8条数据,为1的有100条数据,为sqrt(2)的有5000条数据,剩下的为sqrt(3)。
S103、根据B组中数据的个数m,分成k=m/log10m个段,k为正整数,分别为
Figure BDA0002383972360000041
Figure BDA0002383972360000042
m为检索索引数据库中数据表中,数据的个数,比如为10000;分成k段,k=10000/log10 10000=10000/4=250段;第1段数据为第1到第log10 10000个数据;第2段数据为第1+log10 1000到第2*log10 10000,以此类推。
需要说明的是,如果B组中数据的个数m不是10的整数次幂,log10m不是整数时,则取m中最大的10的整数次幂q=10n,k取m/log10 q的整数部分,进行分段,每一段有log10 q个元素。例如:当m为100000120时,k取m/log10 100000000的整数部分,对B组数据进行分段,每一段有log10 100000000=8个数据。
S104、根据划分好的B组的数据段,将A组也分成k个段:
a1,……,aj(1);aj(1)+1,……,aj(2);……;aj(k(m)-1),……,an
其中,
Figure BDA0002383972360000043
Figure BDA0002383972360000044
aj(1)的数据值为B组中第1段中最后一个数据点的值,也就是第log10 10000的数据的数据值,第4条数据的值为0;也就是只能是A组所有为0的数据和B组第1段的数据,作为第一个比对的区间。
aj(2)的数据值为B组中第2段中最后一个数据点的值,也就是第2*log10 10000的数据的数据值,第8条数据的值为0;也就是只能是A组所有为0的数据和B组第2段的数据,作为第二个比对的区间。
这二个区间的比对作为子任务,分别放在不同的计算机线程中,并行执行比较排序;当然实例中这二个区间数据值都相等,所以排序的结果为B的数据序列在先,之后A的数据序列;
S105、根据上述方法以次类推,将A组所有的数据都划分成段(每段数据个数可能不同),与B组中相应的数据段组成比对区间。每一个比对区间作为子任务分配到多个不同处理器上并行执行,各处理器独立执行归并排序,汇总各处理器所得到的结果。
在本实施实例中,由于第一区间的数据值都是最小的,而且比较的个数少,所以先执行完成,所以用户可以第一时间收到与所要查找检索内容最匹配的数据,进行对比分析;之后随着后续的几个线程比较完成,这时用户已经感受不到索引的延时,而且排序的最终结果,是根据用户检索的,最相关的数据在前,不太相关的数据在后。
本发明所公开的上述实施例,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (3)

1.一种海洋生态环境监测并行数据检索方法,其特征在于,包括以下步骤:
(1)遍历海洋生态环境监测数据库的数据表,根据采集参数计算欧几里得距离,并排序,记为A组;
(2)根据所要检索的条件,遍历索引数据库中的索引表,根据检索项目,计算欧几里得距离,并排序,记为B组;
(3)根据B组中数据的个数m,分成k=m/log10 m个段,k为正整数,分别为
Figure FDA0002383972350000011
Figure FDA0002383972350000012
(4)根据B组划分好的段,将A组也分成k=m/log10 m个段,分别为a1,……,aj(1);aj(1)+1,……,aj(2);……;aj(k(m)-1),……,an;其中,
Figure FDA0002383972350000013
Figure FDA0002383972350000014
将每一段A组数据段和相应的B组数据段作为一个比对区间;
(5)将步骤(4)划分好的所有比对区间的数据比对作为子任务,分配到多个处理器上并行执行,各处理器独立执行归并排序,汇总各处理器所得到的结果。
2.根据权利要求1所述的一种海洋生态环境监测并行数据检索方法,其特征在于,所述步骤(1)中,对于数据表中的每条数据,包含的采集参数记为0,不包含的采集参数,则记为1,计算每个数据的欧几里得距离,并将计算结果升序排列。
3.根据权利要求1所述的一种海洋生态环境监测并行数据检索方法,其特征在于,所述步骤(2)中,对于数据库中的每条索引表数据,包含的检索条件中的项目记为0,不包含的项目记为1,计算每条索引表数据的欧几里得距离,并将计算结果升序排列。
CN202010091942.0A 2020-02-14 2020-02-14 一种海洋生态环境监测并行数据检索方法 Pending CN111352937A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010091942.0A CN111352937A (zh) 2020-02-14 2020-02-14 一种海洋生态环境监测并行数据检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010091942.0A CN111352937A (zh) 2020-02-14 2020-02-14 一种海洋生态环境监测并行数据检索方法

Publications (1)

Publication Number Publication Date
CN111352937A true CN111352937A (zh) 2020-06-30

Family

ID=71194033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010091942.0A Pending CN111352937A (zh) 2020-02-14 2020-02-14 一种海洋生态环境监测并行数据检索方法

Country Status (1)

Country Link
CN (1) CN111352937A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268153A (zh) * 2014-09-01 2015-01-07 北京航天金盾科技有限公司 一种人口数据查重方法和装置
CN104679891A (zh) * 2015-03-18 2015-06-03 成都影泰科技有限公司 一种海量数据处理方法
CN105653661A (zh) * 2015-12-29 2016-06-08 云南电网有限责任公司电力科学研究院 一种检索结果重排方法及装置
CN107133290A (zh) * 2017-04-19 2017-09-05 中国人民解放军国防科学技术大学 一种个性化信息检索方法与装置
CN107679104A (zh) * 2017-09-12 2018-02-09 杭州美创科技有限公司 大表流式并行高速数据比对方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268153A (zh) * 2014-09-01 2015-01-07 北京航天金盾科技有限公司 一种人口数据查重方法和装置
CN104679891A (zh) * 2015-03-18 2015-06-03 成都影泰科技有限公司 一种海量数据处理方法
CN105653661A (zh) * 2015-12-29 2016-06-08 云南电网有限责任公司电力科学研究院 一种检索结果重排方法及装置
CN107133290A (zh) * 2017-04-19 2017-09-05 中国人民解放军国防科学技术大学 一种个性化信息检索方法与装置
CN107679104A (zh) * 2017-09-12 2018-02-09 杭州美创科技有限公司 大表流式并行高速数据比对方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
唐向阳: "分段快速排序法" *

Similar Documents

Publication Publication Date Title
Ding et al. Tsunami: A learned multi-dimensional index for correlated data and skewed workloads
US9442929B2 (en) Determining documents that match a query
US8533203B2 (en) Identifying synonyms of entities using a document collection
US10521441B2 (en) System and method for approximate searching very large data
Chang et al. Efficient pattern-based time series classification on GPU
US9305076B1 (en) Flattening a cluster hierarchy tree to filter documents
Pérez-Wohlfeil et al. Ultra-fast genome comparison for large-scale genomic experiments
Adamu et al. A survey on big data indexing strategies
CN1783092A (zh) 数据分析装置和数据分析方法
CN110717092A (zh) 为文章匹配对象的方法、系统、设备及存储介质
US20210182293A1 (en) Candidate projection enumeration based query response generation
Zheng et al. Creating and using minimizer sketches in computational genomics
CN110795469B (zh) 基于Spark的高维序列数据相似性查询方法及系统
CN111352937A (zh) 一种海洋生态环境监测并行数据检索方法
CN113495901B (zh) 一种面向可变长数据块的快速检索方法
CN112214494B (zh) 检索方法及装置
Jemal et al. What if mixing technologies for Big Data mining and queries optimization
CN111723105A (zh) 计算数据相似性的方法和装置
Song et al. An efficient parallel approach of parsing and indexing for large-scale XML datasets
Rheinländer et al. Scalable sequence similarity search and join in main memory on multi-cores
CN114386384B (zh) 一种大规模长文本数据的近似重复检测方法、系统及终端
Ferreira et al. Mongodb: Analysis of performance with data from the national high school exam (enem)
Xie et al. Data-dependent locality sensitive hashing
CN117391071B (zh) 一种新闻话题数据挖掘方法、装置及存储介质
Horiuchi et al. Similarity Search on Computational Notebooks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination