CN111352937A - 一种海洋生态环境监测并行数据检索方法 - Google Patents
一种海洋生态环境监测并行数据检索方法 Download PDFInfo
- Publication number
- CN111352937A CN111352937A CN202010091942.0A CN202010091942A CN111352937A CN 111352937 A CN111352937 A CN 111352937A CN 202010091942 A CN202010091942 A CN 202010091942A CN 111352937 A CN111352937 A CN 111352937A
- Authority
- CN
- China
- Prior art keywords
- data
- group
- ecological environment
- environment monitoring
- marine ecological
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012163 sequencing technique Methods 0.000 claims abstract description 10
- 230000001174 ascending effect Effects 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 3
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 9
- 229910052760 oxygen Inorganic materials 0.000 description 9
- 239000001301 oxygen Substances 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 3
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000013535 sea water Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Educational Administration (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种海洋生态环境监测并行数据检索方法,包括以下步骤:遍历海洋生态环境监测数据库的数据表,根据采集参数计算欧几里得距离,并排序,记为A组;根据所要检索的条件,遍历索引数据库中的索引表,根据检索项目,计算欧几里得距离,并排序,记为B组;根据B组中数据的个数m,分成k=m/log10m个段,分别为 根据B组的划分结果将A组也分成k个段:a1,……,aj(1);aj(1)+1,……,aj(2);……;aj(k(m)‑1),……,an;将划分好的组作为各子任务分配到多个处理器上并行执行,各处理器独立执行归并排序。最后,汇总各处理器所得到的结果,就完成了整个大的排序的任务。本发明提供的方法解决海洋生态环境监测并行数据检索方法,能够提高海洋生态环境监测数据检索的速度。
Description
技术领域
本发明涉及海水生态环境监测技术领域,特别涉及一种海洋生态环境监测并行数据检索方法。
背景技术
在海洋生态环境监测数据分析过程中,需要检索其他同类型的仪器所采集的数据,与本海洋实验监测仪器所采集的数据进行对比分析,同时也有可能在对比分析的过程中,也同样需要检索其他相似的海洋监测有关的数据。在海量的各种海洋生态环境监测数据库中,需要快速查询到与本仪器相关的数据,所以一种海洋生态环境监测并行数据检索方法,是海洋生态环境监测分析过程所必须的,是目前国内海洋生态环境监测仪器研发的核心。现有海洋生态环境监测数据检索,检索信息有限,检索产生延迟。
并行计算就是研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,分配给多个计算机进行处理,并把这些计算结果综合起来得到最终结果的问题。构建并行信息检索系统模型,实现并行信息检索系统。
基于以上原因,现有的海洋生态环境监测并行数据检索方法,其检测不具有现场实时性,没有有效检索出相关数据。
发明内容
为解决上述技术问题,本发明提供了一种海洋生态环境监测并行数据检索方法,以达到提高海洋生态环境监测数据分析过程中,数据检索速度的目的。
为达到上述目的,本发明的技术方案如下:
一种海洋生态环境监测并行数据检索方法,包括以下步骤:
(1)遍历海洋生态环境监测数据库的数据表,根据采集参数计算欧几里得距离,并排序,记为A组;
(2)根据所要检索的条件,遍历索引数据库中的索引表,根据检索项目,计算欧几里得距离,并排序,记为B组;
将每一段A组数据段和相应的B组数据段作为一个比对区间;
(5)将步骤(4)划分好的所有比对区间的数据比对作为子任务,分配到多个处理器上并行执行,各处理器独立执行归并排序,汇总各处理器所得到的结果。
上述方案中,所述步骤(1)中,对于数据表中的每条数据,包含的采集参数记为0,不包含的采集参数,则记为1,计算每个数据的欧几里得距离,并将计算结果升序排列,记为A组。
所述采集参数,是根据海洋生态环境监测项目所设定的,比如溶解氧监测中,设定的采集参数为溶解氧、饱和度、温度、相位差。
欧几里得距离(Euclidean distance)
上述方案中,所述步骤(2)中,对于数据库中的每条索引表数据,包含的检索条件中的项目记为0,不包含的项目记为1,计算每条索引表数据的欧几里得距离,并将计算结果升序排列,记为B组。索引项目,就是用户的检索条件,比如仪器的品牌,检索内容,时间范围。
上述方案中,A组的划分方案是根据B组的划分结果来确定的:
上述方案中,按照上述方案划分好的各任务组分配到多个处理器上并行执行,各处理器独立执行归并排序,汇总各处理器所得到的结果。就完成了整个大的排序的任务。
本发明提供的一种海洋生态环境监测并行数据检索方法,只针对海洋生态监测的数据,在分析的过程中,采集参数是在对数据采集前已经设定好的,不同的监测项目,采集参数也是不同的。通过对比计算采集参数和检索条件各自的欧几里得距离,找到与检索更匹配的数据,另外使用并行的排序方法,从而提高检索的速度。
附图说明
图1为本发明实施例所公开的一种海洋生态环境监测并行数据检索方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明提供了一种海洋生态环境监测并行数据检索方法,如图1所示,具体流程如下:
S101、遍历海洋生态环境监测数据库的数据表,根据采集参数计算欧几里得距离,并排序,按照由小到大,记为A组。
采集参数,是根据海洋生态环境监测项目所设定的,比如溶解氧监测中,设定的采集参数为溶解氧、饱和度、温度、相位差。
欧几里得距离(Euclidean distance)
遍历海洋生态环境监测数据库的数据表,比如数据表中的一项数据,如果数据含有溶解氧的值,那么该位为0,如果没有溶解氧的值,那么该位为1;溶解氧需要采集四个参数,所以如果这四个参数都没有就是sqrt(1+1+1+1)=2;如果这四个参数都有就是sqrt(0+0+0+0)=0;如果该条数据只含有这四个参数中其中的中间二项,饱和度、温度,那么欧几里得距离就是sqrt(0+1+1+0)=sqrt(2)。
S102、遍根据所要检索的条件,遍历索引数据库中的索引表,根据检索项目,计算欧几里得距离,并排序,按照由小到大,记为B组。比如为10000条。
欧几里得距离(Euclidean distance)
比如该仪器的检索项目的条件为品牌是安德拉,时间近一个月,数据内容为溶解氧;遍历检索数据库的索引表,如果索引表中的数据含有安德拉德的,时间为一个月内,但不是溶解氧的数据,那么欧几里得距离就是sqrt(0+0+1)=1;如果这三项都包含,那么计算的结果就是sqrt(0+0+0)=0。
比如为0的有8条数据,为1的有100条数据,为sqrt(2)的有5000条数据,剩下的为sqrt(3)。
m为检索索引数据库中数据表中,数据的个数,比如为10000;分成k段,k=10000/log10 10000=10000/4=250段;第1段数据为第1到第log10 10000个数据;第2段数据为第1+log10 1000到第2*log10 10000,以此类推。
需要说明的是,如果B组中数据的个数m不是10的整数次幂,log10m不是整数时,则取m中最大的10的整数次幂q=10n,k取m/log10 q的整数部分,进行分段,每一段有log10 q个元素。例如:当m为100000120时,k取m/log10 100000000的整数部分,对B组数据进行分段,每一段有log10 100000000=8个数据。
S104、根据划分好的B组的数据段,将A组也分成k个段:
a1,……,aj(1);aj(1)+1,……,aj(2);……;aj(k(m)-1),……,an;
aj(1)的数据值为B组中第1段中最后一个数据点的值,也就是第log10 10000的数据的数据值,第4条数据的值为0;也就是只能是A组所有为0的数据和B组第1段的数据,作为第一个比对的区间。
aj(2)的数据值为B组中第2段中最后一个数据点的值,也就是第2*log10 10000的数据的数据值,第8条数据的值为0;也就是只能是A组所有为0的数据和B组第2段的数据,作为第二个比对的区间。
这二个区间的比对作为子任务,分别放在不同的计算机线程中,并行执行比较排序;当然实例中这二个区间数据值都相等,所以排序的结果为B的数据序列在先,之后A的数据序列;
S105、根据上述方法以次类推,将A组所有的数据都划分成段(每段数据个数可能不同),与B组中相应的数据段组成比对区间。每一个比对区间作为子任务分配到多个不同处理器上并行执行,各处理器独立执行归并排序,汇总各处理器所得到的结果。
在本实施实例中,由于第一区间的数据值都是最小的,而且比较的个数少,所以先执行完成,所以用户可以第一时间收到与所要查找检索内容最匹配的数据,进行对比分析;之后随着后续的几个线程比较完成,这时用户已经感受不到索引的延时,而且排序的最终结果,是根据用户检索的,最相关的数据在前,不太相关的数据在后。
本发明所公开的上述实施例,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (3)
1.一种海洋生态环境监测并行数据检索方法,其特征在于,包括以下步骤:
(1)遍历海洋生态环境监测数据库的数据表,根据采集参数计算欧几里得距离,并排序,记为A组;
(2)根据所要检索的条件,遍历索引数据库中的索引表,根据检索项目,计算欧几里得距离,并排序,记为B组;
将每一段A组数据段和相应的B组数据段作为一个比对区间;
(5)将步骤(4)划分好的所有比对区间的数据比对作为子任务,分配到多个处理器上并行执行,各处理器独立执行归并排序,汇总各处理器所得到的结果。
2.根据权利要求1所述的一种海洋生态环境监测并行数据检索方法,其特征在于,所述步骤(1)中,对于数据表中的每条数据,包含的采集参数记为0,不包含的采集参数,则记为1,计算每个数据的欧几里得距离,并将计算结果升序排列。
3.根据权利要求1所述的一种海洋生态环境监测并行数据检索方法,其特征在于,所述步骤(2)中,对于数据库中的每条索引表数据,包含的检索条件中的项目记为0,不包含的项目记为1,计算每条索引表数据的欧几里得距离,并将计算结果升序排列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010091942.0A CN111352937A (zh) | 2020-02-14 | 2020-02-14 | 一种海洋生态环境监测并行数据检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010091942.0A CN111352937A (zh) | 2020-02-14 | 2020-02-14 | 一种海洋生态环境监测并行数据检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111352937A true CN111352937A (zh) | 2020-06-30 |
Family
ID=71194033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010091942.0A Pending CN111352937A (zh) | 2020-02-14 | 2020-02-14 | 一种海洋生态环境监测并行数据检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111352937A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268153A (zh) * | 2014-09-01 | 2015-01-07 | 北京航天金盾科技有限公司 | 一种人口数据查重方法和装置 |
CN104679891A (zh) * | 2015-03-18 | 2015-06-03 | 成都影泰科技有限公司 | 一种海量数据处理方法 |
CN105653661A (zh) * | 2015-12-29 | 2016-06-08 | 云南电网有限责任公司电力科学研究院 | 一种检索结果重排方法及装置 |
CN107133290A (zh) * | 2017-04-19 | 2017-09-05 | 中国人民解放军国防科学技术大学 | 一种个性化信息检索方法与装置 |
CN107679104A (zh) * | 2017-09-12 | 2018-02-09 | 杭州美创科技有限公司 | 大表流式并行高速数据比对方法 |
-
2020
- 2020-02-14 CN CN202010091942.0A patent/CN111352937A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268153A (zh) * | 2014-09-01 | 2015-01-07 | 北京航天金盾科技有限公司 | 一种人口数据查重方法和装置 |
CN104679891A (zh) * | 2015-03-18 | 2015-06-03 | 成都影泰科技有限公司 | 一种海量数据处理方法 |
CN105653661A (zh) * | 2015-12-29 | 2016-06-08 | 云南电网有限责任公司电力科学研究院 | 一种检索结果重排方法及装置 |
CN107133290A (zh) * | 2017-04-19 | 2017-09-05 | 中国人民解放军国防科学技术大学 | 一种个性化信息检索方法与装置 |
CN107679104A (zh) * | 2017-09-12 | 2018-02-09 | 杭州美创科技有限公司 | 大表流式并行高速数据比对方法 |
Non-Patent Citations (1)
Title |
---|
唐向阳: "分段快速排序法" * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ding et al. | Tsunami: A learned multi-dimensional index for correlated data and skewed workloads | |
US9442929B2 (en) | Determining documents that match a query | |
US8533203B2 (en) | Identifying synonyms of entities using a document collection | |
US10521441B2 (en) | System and method for approximate searching very large data | |
Chang et al. | Efficient pattern-based time series classification on GPU | |
US9305076B1 (en) | Flattening a cluster hierarchy tree to filter documents | |
Pérez-Wohlfeil et al. | Ultra-fast genome comparison for large-scale genomic experiments | |
Adamu et al. | A survey on big data indexing strategies | |
CN1783092A (zh) | 数据分析装置和数据分析方法 | |
CN110717092A (zh) | 为文章匹配对象的方法、系统、设备及存储介质 | |
US20210182293A1 (en) | Candidate projection enumeration based query response generation | |
Zheng et al. | Creating and using minimizer sketches in computational genomics | |
CN110795469B (zh) | 基于Spark的高维序列数据相似性查询方法及系统 | |
CN111352937A (zh) | 一种海洋生态环境监测并行数据检索方法 | |
CN113495901B (zh) | 一种面向可变长数据块的快速检索方法 | |
CN112214494B (zh) | 检索方法及装置 | |
Jemal et al. | What if mixing technologies for Big Data mining and queries optimization | |
CN111723105A (zh) | 计算数据相似性的方法和装置 | |
Song et al. | An efficient parallel approach of parsing and indexing for large-scale XML datasets | |
Rheinländer et al. | Scalable sequence similarity search and join in main memory on multi-cores | |
CN114386384B (zh) | 一种大规模长文本数据的近似重复检测方法、系统及终端 | |
Ferreira et al. | Mongodb: Analysis of performance with data from the national high school exam (enem) | |
Xie et al. | Data-dependent locality sensitive hashing | |
CN117391071B (zh) | 一种新闻话题数据挖掘方法、装置及存储介质 | |
Horiuchi et al. | Similarity Search on Computational Notebooks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |