CN111723093A - 基于数据划分的不确定间隔数据查询方法 - Google Patents

基于数据划分的不确定间隔数据查询方法 Download PDF

Info

Publication number
CN111723093A
CN111723093A CN202010556911.8A CN202010556911A CN111723093A CN 111723093 A CN111723093 A CN 111723093A CN 202010556911 A CN202010556911 A CN 202010556911A CN 111723093 A CN111723093 A CN 111723093A
Authority
CN
China
Prior art keywords
data
partition
interval data
uncertain
uncertain interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010556911.8A
Other languages
English (en)
Other versions
CN111723093B (zh
Inventor
孙杰
裴海俊
许建秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Sea Level Data Technology Co ltd
Original Assignee
Jiangsu Sea Level Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Sea Level Data Technology Co ltd filed Critical Jiangsu Sea Level Data Technology Co ltd
Priority to CN202010556911.8A priority Critical patent/CN111723093B/zh
Publication of CN111723093A publication Critical patent/CN111723093A/zh
Application granted granted Critical
Publication of CN111723093B publication Critical patent/CN111723093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于数据划分的不确定间隔数据查询方法,所述方法应用于物联网中传感器数据处理领域。本发明能够在处理大规模不确定间隔数据查询时,可对部分数据直接定位到叶子节点以减少查询时间。本发明主要包含三个部分,第一部分是对不确定间隔数据进行逻辑划分,通过对不确定间隔数据整体范围划分并标记,将每一条不确定间隔数据与划分区间长度比较按规则为其分配分区标记并划分数据集。第二部分是构建双索引,依据第一部分划分的结果分别构建2D R‑tree。第三部分是确立双索引遍历规则,对于间隔数据较短的索引,查询时依据规则直接定位到叶子节点,对于间隔数据较长的索引,查询时自上而下。

Description

基于数据划分的不确定间隔数据查询方法
一、技术领域
本发明属于物联网中传感器数据处理和查询领域,主要针对由于传感器的误差而造成的不确定间隔数据的处理和查询。
二、背景技术
随着物联网技术的发展,传感器的应用无处不在,比如通过射频识别(RFID)、红外感应器、全球定位系统、激光扫描器等信息传感设备等等。而由于仪器构造上的不完善、环境误差(测量仪表工作的环境,如湿度、气压、温度等)、个人误差等因素,都会使得到的数据具有不确定性。对于要记录的一个间隔数据,比如时间间隔,在误差情况下,就需要给间隔数据一个误差范围,这就引出不确定间隔数据的应用。
所以如何高效管理这些不确定间隔数据使其在查询时有较高效率是一件很重要的工作。目前对于处理不确定间隔数据,常见的索引是2D R-tree,但对于大数据集,不确定间隔数据它的长短可能会存在很大差异,传统建树规则建树之后,一个叶子节点可能会包含长度相差较大的多个数据,不利于筛选数据,增加了查询时的负担。
所以本文提出一种基于数据划分的不确定间隔数据查询方法。此种方法在对不确定间隔数据做划分后,依据数据特点构建两棵2D R-tree,查询时,可依据分区标记对部分数据直接在索引中定位,无需访问非叶子节点,从而提高查询效率。
三、发明内容
【发明目的】
通过对传感器获得的不确定间隔数据做分割处理,依据数据特点构建双索引,以实现查询时可对部分数据直接定位到叶子节点以减少查询时间。
【技术方案】
一种基于数据划分的不确定间隔数据查询方法,所述方法基于对不确定间隔数据的范围做划分并分配一个分区标记值,将数据集中每一条不确定间隔数据与分区长度做比较为其分配对应的分区标记值,构建两棵2D R-tree;包括如下步骤:
(1)不确定间隔数据逻辑划分:依据不确定间隔数据集计算出数据集的整体范围,选取适当的分区长度将整体范围从起始点分为若干份,并为每一个子区间分配一个区间标记,将数据集中每一条数据与分区长度作比较,将数据集划分为两部分,一部分是不确定间隔数据长度较短的数据集,另一部分是不确定间隔数据范围较长的数据集;
(2)构建双索引:针对步骤(1)获得的两部分数据分别构建2D R-tree,索引中的叶子节点记录了相关的分区标记;
(3)双索引遍历规则:对于步骤(2)构建的两棵2D Rtree,当给定查询范围时,首先判断查询范围对应的分区标记,确定对应的分区标记后,对于不确定间隔数据范围较短的索引,直接依据分区标记定位到对应的叶子节点,对于不确定间隔数据范围较长的索引,从索引的根节点依次遍历。
【有益效果】
本发明所述的基于数据划分的不确定间隔数据查询方法,在大规模数据集下,通过对数据集的逻辑划分后构建双索引,能够减少对索引中非叶子节点数据的遍历,从而加快查询速度。
四、附图说明
图1不确定间隔数据划分图
图2较短间隔数据索引遍历图
图3较长间隔数据索引遍历图
五、具体实施方式
为了详细的说明本发明所公开的技术方案,下面结合说明书附图及具体实施例做进一步的阐述。
本发明所公开的是一种基于数据划分的不确定间隔数据查询方法,用于实现针对传感器误差所得的不确定间隔数据的管理和查询。首先根据不确定间隔数据的起始点和终止点找到数据的整体范围,对整体范围做区间划分并做分区标记,再将每一条间隔数据与分区长度作比较,根据不确定间隔数据长度L和区间划分长度g之间的关系将数据集分为两部分,最后针对两部分数据分别构建2D R-tree得到双索引结构(表1解释了各个符号含义);主要步骤如下:
表1
符号 符号说明
o 不确定间隔数据
q 查询数据
L 不确定间隔数据长度
g 分区长度
par_id 分区标记
(1)不确定间隔数据逻辑划分:
图1是不确定间隔数据逻辑划分,首先依据不确定间隔数据集计算出数据集的整体范围,然后选取适当的分区长度g将整体范围从起始点分为若干份,并为每一个子区间分配一个区间标记par_id,最后将数据集中每一条数据与分区长度作比较,将数据集划分为两部分,划分规则是:对于L≤2g的的间隔数据将其存为数据表S1中,并为其每一条数据分配分区标记par_id。对于只位于一个分区的数据,为其分配对应的分区标记par_id,对于跨越2-3个分区的数据,为其分配覆盖范围最大的分区对应的分区标记par_id。例如图1中o1位于第一个分区中,其分区标记par_id为1;o2跨过分区2和3,其在分区3上的长度大于分区2,因此为其分配分区标记par_id为3;o3跨过分区1、2和3,但其在分区2上的长度最大,因此其分区标记par_id为2;对于L>2g的数据,将其存为另一个数据表S2,建立索引R2;
(2)构建双索引:
对于步骤(1)中处理好的两部分数据集S1和S2,分别构建2D R-tree,记为R1和R2,建树时,首先判断数据的分区标记par_id是否一致,如果一致,则将它们放在一个叶子节点中,以此构建的索引,每一个叶子节点中的数据都有相同的分区标记par_id;
(3)双索引遍历规则:
针对步骤(2)构建的索引结构,对于R1,不再需要从索引根节点开始遍历直至叶子节点,只需判断查询数据所在的分区标记par_id的范围,直接在叶子层查找对应范围分区标记par_id以及左右的叶子节点中的数据;以图1中的数据为例。查询数据q所在的分区标记par_id={2,3}的区域,对于数据范围L≤2g的不确定间隔数据,其最多跨过3个分区,为避免查询时遗漏符合条件的数据,除访问和查询数据所在分区相同的叶子节点外,分别左右各扩展一个分区id,所以,此例中最终访问的叶子节点是分区标记par_id为{1,2,3,4}的叶子节点集合,在这个过程中,查询省去了访问内部节点;如图2所示;对于R2,访问时依旧自上而下,如图3,对于图1中的o7,它跨过分区3、4、5、6,并且在分区4、5、6上的长度一样,这种情况下如果为其分配分区标记par_id,那么这三个par_id中任意一个均可,但是如果分配的par_id为6,查询时即使左右各扩展一个分区id的叶子节点,o7所在的叶子节点也将不会被访问到,实际中这条数据与查询数据相交,这就造成了数据遗漏,因此需要自上而下遍历。

Claims (6)

1.一种基于数据划分的不确定间隔数据查询方法,所述方法基于对不确定间隔数据的范围做划分并分配一个分区标记值,将数据集中每一条不确定间隔数据与分区长度做比较为其分配对应的分区标记值,构建两棵2D R-tree;包括如下步骤:
(1)不确定间隔数据逻辑划分:依据不确定间隔数据集计算出数据集的整体范围,选取适当的分区长度将整体范围从起始点分为若干份,并为每一个子区间分配一个区间标记,将数据集中每一条数据与分区长度作比较,将数据集划分为两部分,一部分是不确定间隔数据长度较短的数据集,另一部分是不确定间隔数据范围较长的数据集;
(2)构建双索引:针对步骤(1)获得的两部分数据分别构建2D R-tree,索引中的叶子节点记录了相关的分区标记;
(3)双索引遍历规则:对于步骤(2)构建的两棵2D Rtree,当给定查询范围时,首先判断查询范围对应的分区标记,确定对应的分区标记后,对于不确定间隔数据范围较短的索引,直接依据分区标记定位到对应的叶子节点,对于不确定间隔数据范围较长的索引,从索引的根节点依次遍历。
2.根据权利要求1所述的基于数据划分的不确定间隔数据查询方法,其特征在于:步骤(1)包括根据不确定间隔数据的区间范围,对不确定间隔数据范围进行划分区间并给出分区标记,再将每一条不确定间隔数据的长度L与分区长度g做比较,按规则确定其所在的分区并分配分区标记。
3.根据权利要求2所述的基于数据划分的不确定间隔数据查询方法,其特征在于:划分规则是:对于L≤2g的的间隔数据将其存为数据表S1中,并为其每一条数据分配分区标记par_id;对于只位于一个分区的数据,为其分配对应的分区标记par_id,对于跨越2-3个分区的数据,为其分配覆盖范围最大的分区对应的标记par_id;对于L>2g的数据,将其存为另一个数据表S2。
4.根据权利要求1所述的基于数据划分的不确定间隔数据查询方法,其特征在于:步骤(2)根据步骤(1)所得的两部分数据S1,S2分别构建2D R-tree,最终得到一棵双索引结构。
5.根据权利要求4所述的基于数据划分的不确定间隔数据查询方法,其特征在于:双索引结构中的第一棵2D R-tree存储的是区间长度较短的不确定间隔数据,第二棵2D R-tree存储的是区间长度较长的不确定间隔数据。
6.根据权利要求1所述的基于数据划分的不确定间隔数据查询方法,其特征在于:步骤(3)中遍历双索引的方法是对两棵索引都要遍历,对于第一棵2D R-tree,在确定了查询数据所在的分区标记后,可直接根据分区标记定位到索引的叶子节点中,省去了对非叶子节点的访问时间;对于第二棵2D R-tree,由于其中的不确定间隔数据较分区长度较长,如果按分区标记定位容易遗漏数据,查询时依旧按照从根节点自上而下遍历。
CN202010556911.8A 2020-06-17 2020-06-17 基于数据划分的不确定间隔数据查询方法 Active CN111723093B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010556911.8A CN111723093B (zh) 2020-06-17 2020-06-17 基于数据划分的不确定间隔数据查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010556911.8A CN111723093B (zh) 2020-06-17 2020-06-17 基于数据划分的不确定间隔数据查询方法

Publications (2)

Publication Number Publication Date
CN111723093A true CN111723093A (zh) 2020-09-29
CN111723093B CN111723093B (zh) 2024-06-18

Family

ID=72567325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010556911.8A Active CN111723093B (zh) 2020-06-17 2020-06-17 基于数据划分的不确定间隔数据查询方法

Country Status (1)

Country Link
CN (1) CN111723093B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116991759A (zh) * 2023-09-25 2023-11-03 苏州元脑智能科技有限公司 片上存储空间的分配方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1231748A (zh) * 1996-08-29 1999-10-13 诺基亚电信公司 业务数据库系统中的事件记录
US7644005B1 (en) * 1999-04-21 2010-01-05 Jean-Marie Billiotte Method and automatic control for regulating a multiple-stage industrial production controlling random chained stress, application to noise and value at risk control of a clearing house
CN103106280A (zh) * 2013-02-22 2013-05-15 浙江大学 一种道路网络环境下不确定时空轨迹数据的范围查询方法
CN106095802A (zh) * 2016-05-31 2016-11-09 南京邮电大学 城市路网上基于r树的全时态移动对象索引方法
CN110287391A (zh) * 2019-06-12 2019-09-27 南京邮电大学 基于Hadoop的多层次轨迹数据存储方法、存储介质和终端
CN110347676A (zh) * 2019-06-11 2019-10-18 南京航空航天大学 基于关系r树的不确定性时态数据管理与查询方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1231748A (zh) * 1996-08-29 1999-10-13 诺基亚电信公司 业务数据库系统中的事件记录
US7644005B1 (en) * 1999-04-21 2010-01-05 Jean-Marie Billiotte Method and automatic control for regulating a multiple-stage industrial production controlling random chained stress, application to noise and value at risk control of a clearing house
CN103106280A (zh) * 2013-02-22 2013-05-15 浙江大学 一种道路网络环境下不确定时空轨迹数据的范围查询方法
CN106095802A (zh) * 2016-05-31 2016-11-09 南京邮电大学 城市路网上基于r树的全时态移动对象索引方法
CN110347676A (zh) * 2019-06-11 2019-10-18 南京航空航天大学 基于关系r树的不确定性时态数据管理与查询方法
CN110287391A (zh) * 2019-06-12 2019-09-27 南京邮电大学 基于Hadoop的多层次轨迹数据存储方法、存储介质和终端

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
T. DIETENBECK ET AL.: "Whole myocardium tracking in 2D-echocardiography in multiple orientations using a motion constrained level-set", 《MEDICAL IMAGE ANALYSIS》, pages 500 - 514 *
任淑霞: "基于概率的不确定时态数据建模与挖掘问题的研究", 《中国博士学位论文全文数据库 信息科技辑》, pages 138 - 12 *
韦建华: "不确定时态数据Top-k查询", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 138 - 214 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116991759A (zh) * 2023-09-25 2023-11-03 苏州元脑智能科技有限公司 片上存储空间的分配方法及装置
CN116991759B (zh) * 2023-09-25 2024-01-26 苏州元脑智能科技有限公司 片上存储空间的分配方法及装置

Also Published As

Publication number Publication date
CN111723093B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
CN102033954B (zh) 关系数据库中可扩展标记语言文档全文检索查询索引方法
CN102456053B (zh) 一种xml文档到数据库的映射方法
CN103488710B (zh) 大数据页中高效存储非定长数据方法
CN108509505B (zh) 一种基于分区双数组Trie的字符串检索方法及装置
CN103049473A (zh) 一种数据查询方法及装置
CN104090897A (zh) 访问元数据的方法、服务器及系统
CN111307164B (zh) 一种低采样率轨迹地图匹配方法
CN104158744A (zh) 用于网络处理器的建表和查找方法
US7464100B2 (en) Reorganization-free mapping of objects in databases using a mapping chain
CN113312369A (zh) 一种基于唯一标识码的多尺度地图数据库级联更新方法
CN109766100A (zh) 数据处理方法及装置
CN113656397A (zh) 一种针对时序数据的索引构建及查询的方法、装置
CN111723093B (zh) 基于数据划分的不确定间隔数据查询方法
CN101256579A (zh) 一种数据库范围查询数据组织的方法
CN116126864A (zh) 索引构建方法、数据查询方法及相关设备
CN114385587A (zh) 一种面向关系型数据库版本快照的构建方法及查询方法
US20090256685A1 (en) Data storage method and query processing method for supply chain management using rfid, and supply chain data management system using rfid
US8166043B2 (en) Bit strings search apparatus, search method, and program
CN116628025A (zh) 一种基于邻接矩阵的高效图流测量方法
US8073823B2 (en) Database management program
CN109522311A (zh) 数据存储方法、装置、服务器和存储介质
CN115495462A (zh) 批量数据更新方法、装置、电子设备和可读存储介质
KR100472948B1 (ko) 시계열 데이터베이스에서 서브 시퀀스 매칭의 후처리최적화 방법
CN107562872A (zh) 基于sql的度量空间数据相似度查询方法及装置
CN105930371A (zh) 一种面向大数据的基于hdfs的维存储及查询方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant