CN110457316A - 一种大规模数据集的Skyline查询方法及其系统 - Google Patents

一种大规模数据集的Skyline查询方法及其系统 Download PDF

Info

Publication number
CN110457316A
CN110457316A CN201910660654.XA CN201910660654A CN110457316A CN 110457316 A CN110457316 A CN 110457316A CN 201910660654 A CN201910660654 A CN 201910660654A CN 110457316 A CN110457316 A CN 110457316A
Authority
CN
China
Prior art keywords
data
skyline
data set
attribute
inquiry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910660654.XA
Other languages
English (en)
Inventor
代博
黄晓雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Technology and Business University
Original Assignee
Sichuan Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Technology and Business University filed Critical Sichuan Technology and Business University
Publication of CN110457316A publication Critical patent/CN110457316A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种大规模数据集的Skyline查询方法,应用于Skyline查询技术领域,包括以下步骤:基于用户终端发送的查询信息从传感器网络中获取用于查询Skyline的原始数据集;对原始数据集进行剪枝处理,基于预设的消除策略消除非Skyline数据,得到预处理数据集;对预处理数据集中的数据基于数据属性创建索引,得到与数据属性具有索引关系的子空间数据集;基于查询信息获取目标属性,基于索引关系在子空间数据集中提取具有目标属性的待查询数据集;对待查询数据集中的数据进行Skyline查询,将查询结果发送至用户终端。本发明同时公开了一种大规模数据集的Skyline查询系统。本发明能够有效减少大规模数据集中Skyline查询的运算量,提高查询系统的反应时间。

Description

一种大规模数据集的Skyline查询方法及其系统
技术领域
本发明涉及Skyline查询技术领域,尤其涉及一种大规模数据集的Skyline 查询方法及其系统。
背景技术
在环境监测预警中,由于温度、湿度、风力等参数数据在时刻发生改变,因 此数据量巨大,如何从这些参数的海量数据中快速检测出Skyline(临界点)是 一项技术要点和难点。基于Skyline检测,可以使监测系统提取出目标属性,从 而执行下一步的应对机制。
现有技术中,针对Skyline查询的方法较多。Borzsonyi等人最先介绍了关系 数据库中的Skyline操作,并于2001年提出了BNL和D&C两种算法。Chomicki 等人于2002年的《Skyline with presorting》中提出了使用SFS算法作为BNL的 变形算法。Pei等人于2006年首次在《Catching the best views of skyline:A semantic approach based ondecisive subspaces》中提出了针对子空间的Skyline查询算法, 主要是在分布式环境下,基于每个分离点计算本地Skyline点,再把这些Skyline 点合计算全局Skyline点。S.Wang和P.Wu等人在《Parallelizing skyline queries for scalable distribution》中提出在P2P网络中,使用非结构化的对等点或者有序索 引来定义相关对等点来实现Skyline查询。但是上述方法皆采用轻量化终端进行 处理,而大数据上的Skyline查询由于运算量巨大,无法在轻量化设备上运用。 在此基础上,基于对本地Skyline点集数据和最终结果的Skyline数据集进行划 分,从而减少本地Skyline查询计算量的想法,众多学者们在2011年提出了针对 Skyline查询的空间划分策略,应用较广的是2012年L.chen等人在《Paralleland Distributed Processing Symposium Workshops&PhD Forum》中提出利用并行编程模型Map Reduce的基于角度Skyline划分方法。然而,这种方法依然无法很好 的解决基础运算量大和运算耗时长的问题。
发明内容
本发明针对现有技术中大规模数据集下,提出一种大规模数据集的Skyline 查询方法,该方法中使用一种网格剪枝策略,并针对所有属性创造索引参数,方 便在查询时根据索引提取具有目标属性的数据,从而减少基础运算数据同时缩短Skyline的查询时长。
本发明为了实现上述目的具体采用以下技术方案:
第一方面,本发明公开一种大规模数据集的Skyline查询方法,包括以下步 骤:
基于用户终端发送的查询信息从传感器网络中获取用于查询Skyline的原始 数据集;
对原始数据集进行剪枝处理,基于预设的消除策略消除非Skyline数据,得 到预处理数据集;
对预处理数据集中的数据基于数据属性创建索引,得到与数据属性具有索引 关系的子空间数据集;
基于查询信息获取目标属性,基于索引关系在子空间数据集中提取具有目标 属性的待查询数据集;
对待查询数据集中的数据进行Skyline查询,将查询结果发送至用户终端。
进一步地,剪枝处理是基于网格的剪枝处理,消除策略具体包括:
基于数据的参数属性建立单元长度的网格,令每一单元网格中的数据对其左 下方所有网格中的数据具有支配关系;
遍历所有网格和数据,先消除没有数据的网格,再对被支配网格中的数据和 网格进行消除。
进一步地,消除策略执行前,对预处理数据集采用key-value的分布式存储。
进一步地,key-value的分布式采用正相关分布或反相关分布。
进一步地,创建索引的过程基于MapReduce模型创建,具体包括:
针对传感器网络中每一传感器建立对应的Map读取任务,并基于所有Map 读取任务中数据的相同属性建立Reduce联合映射,得到数据与数据属性之间的 索引关系。
进一步地,待查询数据集在进行Skyline查询之前在内部进行了排序处理。
进一步地,原始数据集是温度、湿度、风速、水速、浪高等环境参数的数据 信息。
第二方面,本发明公开一种大规模数据集的Skyline查询系统,包括:用户 终端、网络服务器、传感器网络WSNs、预处理模块和查询模块;
用户终端,用于向网络服务器发送查询信息,并接收查询模块发送的Skyline 查询结果;
网络服务器,用于接收用户终端发送的查询信息,并将查询信息发送至传感 器网络;
传感器网络WSNs,用于接收网络服务器发送的查询信息,并基于查询信息 提取用于查询Skyline的原始数据集;
预处理模块,用于对原始数据集对原始数据集进行剪枝处理,基于预设的消 除策略消除非Skyline数据,得到预处理数据集;并对预处理数据集中的数据基 于数据属性创建索引,得到与数据属性具有索引关系的子空间数据集。
查询模块,用于基于查询信息获取目标属性,并基于索引关系在子空间数据 集中提取具有目标属性的待查询数据集;对待查询数据集中的数据进行Skyline 查询,将查询结果发送至用户终端。
第三方面,本发明公开一种计算机可读存储介质,计算机可读存储介质存储 有一个或者多个程序,以实现如第一方面中任一项所述Skyline查询方法的步骤。
采用上述方案后,本发明的有益效果如下:
本发明提出一种大规模数据集的Skyline查询方法,通过对原始数据集进行 网格剪枝处理消除与Skyline查询无关的数据,能够有效减少查询的计算量,同 时基于数据属性创建索引,方便在查询时根据索引提取具有目标属性的数据,从 而减少基础运算数据同时缩短Skyline的查询时长。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用 的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此 不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳 动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例1提供的一种Skyline查询方法流程示意图;
图2为本发明实施例1提供的数据分布方式示意图;
图3为本发明实施例1提供的剪枝策略示意图;
图4为本发明实施例1提供的网格单元长度-数据处理数目示意图;
图5为本发明实施例1提供的基于MapReduce模型创建索引示意图;
图6为本发明实施例2提供的一种Skyline查询系统的功能结构示意图;
图7为本发明实施例3提供的一种Skyline查询设备的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施 例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以 解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施 例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件 可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求 保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例, 本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属 于本发明保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个 实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或 操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者 其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方 法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或 者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的 情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方 法、物品或者设备中还存在另外的相同要素。
下面结合附图和实施例对本发明实施例作详细说明。
实施例1
参照图1所示,本发明实施例提供一种大规模数据集的Skyline查询方法, 包括以下步骤:
S101、基于用户终端发送的查询信息从传感器网络中获取用于查询Skyline 的原始数据集;
S102、对原始数据集进行剪枝处理,基于预设的消除策略消除非Skyline数 据,得到预处理数据集;
S103、对预处理数据集中的数据基于数据属性创建索引,得到与数据属性具 有索引关系的子空间数据集;
S104、基于查询信息获取目标属性,基于索引关系在子空间数据集中提取具 有目标属性的待查询数据集;
S105、对待查询数据集中的数据进行Skyline查询,将查询结果发送至用户 终端。
可以理解地,本发明实施例中的用户终端可以是任意具有联网功能和数据收 发功能的硬件设备,包括:手机、笔记本电脑、平板电脑、PC等,此处不再赘 述。
进一步地,本发明实施例中,是基于用户终端发送的查询信息进行传感数据 的Skyline查询。一般地,传感数据是由分布于无线传感器网络(Wireless Sensor Networks,WSNs)中的传感器节点获得;以环境监测系统为例,传感器数据可 以是温度、湿度、风速、水速、浪高等各种属性的等环境参数的数据信息,那么 当用户通过手持终端发送一条关于风力的查询信息时,就可以基于WSNs获取 所有传感器节点的测量数据作为原始数据集。
进一步地,在获取到原始数据集后,在步骤S102中对原始数据集中的数据 进行剪枝的预处理,基于预设的消除策略消除与查询无关的非Skyline数据。
可以理解地,对于大规模数据集,Skyline的操作代价很高昂的。由于经剪 枝策略得到的预处理数据集比原始数据集要小的多,所以能极大的提高算法的效 率。具体地,传感器原始数据被划分成许多大小一致的网格区间,在每个区间单 元中的数据点采用key-value的分布式存储,比如存储成<温度,37℃>的这种数 据对形式,方便后续调用。
进一步地,key-value的分布式存储可以是正相关分布或反相关分布,图2 对于以上两种分布式存储方式进行了展示,其中(a)是采用独立分布的原始数 据集示意图,(b)是经key-value处理后的正相关分布的数据示意图,(c)是经 key-value处理后的反相关分布的数据示意图。由此可见,将原始数据进行 key-value处理后由于数据具有了一定的线性特征,因此有利于实施本发明实施 例的网格剪枝策略。
可以理解地,本发明实施例的剪枝策略是一种网格剪枝方法,根据查询信息 的参数设置单元网格,就可以得到原始数据在网格中的分布。如图3所示的剪枝 策略示意图,可见图3中是基于温度和风力两个参数设置了单元网格,从而得到 了传感数据P1~P15在网格C1~C16中的分布情况。此处预设的网格定义是按照 由下至上及由左至右的顺序排列的,也可以基于其他顺序对网格进行命名定义, 此处不再赘述。
进一步地,在单元网格和传感数据分布情况确定之后,可以进行消除策略。 本发明实施例的消除策略是令每一单元网格中的数据对其左下方所有网格中的 数据具有支配关系,然后对被支配的网格及其中的数据进行消除,这样可以保留 传感器数据中的最优势数据,举例来说,对于山火的报警临界点是气温45℃, 而分布于山林中不同位置的传感器因为其所属环境不同,发送的传感数据可能在 36℃~46℃之间,此时基于本发明实施例的消除策略,就可以对低于46℃的温度 数据进行消除,从而选择对于检测skyline最优势的数据46℃进行抓取,实现报 警提示。当然,上述例子针对的是一维参数的情况;以图3中的数据为例,该网 格是基于二维参数建立的,因此在消除时需要同时考虑温度和风力的支配情况, 图3中,C16网格中的数据P15总比C9~C11中的网格数据P8~P10风力大、温 度高,因此对网格C9~C11具有支配地位,同理,C9~C11的网格也对比它们低 的网格具有支配地位,经过遍历和轮询手段,C1~C16的16个网格可以消除 C1~C3、C5~C7、C9~C11这九个网格中的数据,从而将查询skyline的原始数据 减少了57%。进一步地,在本发明实施例中,可以在进行消除策略之前先删除无 数据的网格,从而减少消除策略所花费的时间,此处不再赘述。
此处需要注意的是,进行消除策略处理后的数据量与网格的单元长度设置有 关,还是以图3为例,若将网格单元长度设置为原单元长度的两倍,则处理后的 数据会更多,可见,经过消除策略得到的预处理数据数量与剪枝网格的单元长度 设置有关,具体地,图4对这种对应关系进行了展示。可见当单元格长度越大时, 消除的数据越少,保留的数据越多。毫无疑问地,预处理数据越少会使后续查询 时间越少,但是与此相对应的,网格数量增加会使剪枝时间增长,带来一定的数 据处理量,因此网格单元长度的选取应与原始数据的数量、范围和维度有关,对 于具体的选取过程,可依据操作人员的设定和经验完成,此处不再赘述。
为了能针对具有多参数属性数据的Skyline查询,例如在森林防火中往往需 要同时考虑风力和温度两种参数,因此需要为数据的每一种属性建立一个单独 的索引机制。
具体地,本发明实施例采用Map Reduce模型创建索引,包括:针对传感器 网络中每一传感器建立对应的Map读取任务,并基于所有Map读取任务中数据 的相同属性建立Reduce联合映射,从而得到数据与数据属性之间的索引关系。
以图5为例,其示出了本发明一实施例中建立索引的过程,其中node表示 与传感器对应的数据文件,数据文件中的数据以key-value的形式被存取,并通 过两个Map任务进行数据导入,Map函数读取输入数据并且隔离记录中的每个 属性,产生类似<数据属性,(数据值,数据ID)>作为key-value数据对,通过这 样的方式可以把相同属性的数据送到一个Reduce任务中,从而得到很多与数据 属性对应的Reduce列表;在获取了所有Reduce列表后,Reduce联合产生一个 输出格式为<(key属性,value值),数据ID>的索引文件作为待查询数据集,进 一步地,待查询数据集在进行Skyline查询之前基于属性和数据ID可以进行内 部排序处理,方便系统调用。上述建立索引的过程虽然占据一些时间,但是能 够显著加快后续Skyline查询的效率。
由此可见,本发明实施例方案通过对原始数据集进行网格剪枝处理消除与Skyline查询无关的数据,能够有效减少查询的计算量,同时基于数据属性创建 索引,方便在查询时根据索引提取具有目标属性的数据,从而减少基础运算数 据同时缩短Skyline的查询时长。
实施例2
如图6所示,本发明实施例2在实施例1方法的基础上公开一种大规模数据 集的skyline查询系统,该系统包括:用户终端、网络服务器、传感器网络WSNs、 预处理模块和查询模块;
用户终端,用于向网络服务器发送查询信息,并接收查询模块发送的Skyline 查询结果;
网络服务器,用于接收用户终端发送的查询信息,并将查询信息发送至传感 器网络;
传感器网络WSNs,用于接收网络服务器发送的查询信息,并基于查询信息 提取用于查询Skyline的原始数据集;
预处理模块,用于对原始数据集对原始数据集进行剪枝处理,基于预设的消 除策略消除非Skyline数据,得到预处理数据集;并对预处理数据集中的数据基 于数据属性创建索引,得到与数据属性具有索引关系的子空间数据集。
查询模块,用于基于查询信息获取目标属性,并基于索引关系在子空间数据 集中提取具有目标属性的待查询数据集;对待查询数据集中的数据进行Skyline 查询,将查询结果发送至用户终端。
由此可见,本发明实施例中的系统通过对原始数据集进行网格剪枝处理消除 与Skyline查询无关的数据,能够有效减少查询的计算量,同时基于数据属性创 建索引,方便在查询时根据索引提取具有目标属性的数据,从而减少基础运算数 据同时缩短Skyline的查询时长。
实施例3
基于前述实施例方案,参照图7所示,本发明实施例3还提供的一种大规模 数据集的Skyline查询设备的具体硬件结构,该Skyline查询设备7可以包括: 存储器72和处理器73;各个组件通过通讯总线71耦合在一起。可以理解地, 通讯总线71用于实现这些组件之间的连接通信。通讯总线71除包括数据总线之 外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图 7中将各种总线都标为通讯总线71。
存储器72,用于存储能够在处理器73上运行的Skyline查询方法程序;
处理器73,用于在运行Skyline查询方法程序时,执行以下步骤:
基于用户终端发送的查询信息从传感器网络中获取用于查询Skyline的原始 数据集;
对原始数据集进行剪枝处理,基于预设的消除策略消除非Skyline数据,得 到预处理数据集;
对预处理数据集中的数据基于数据属性创建索引,得到与数据属性具有索引 关系的子空间数据集;
基于查询信息获取目标属性,基于索引关系在子空间数据集中提取具有目标 属性的待查询数据集;
对待查询数据集中的数据进行Skyline查询,将查询结果发送至用户终端。
进一步地,剪枝处理是基于网格的剪枝处理,消除策略具体包括:
基于数据的参数属性建立单元长度的网格,令每一单元网格中的数据对其左 下方所有网格中的数据具有支配关系;
遍历所有网格和数据,先消除没有数据的网格,再对被支配网格中的数据和 网格进行消除。
进一步地,消除策略执行前,对预处理数据集采用key-value的分布式存储。
进一步地,key-value的分布式采用正相关分布或反相关分布。
进一步地,创建索引的过程基于Map Reduce模型创建,具体包括:
针对传感器网络中每一传感器建立对应的Map读取任务,并基于所有Map 读取任务中数据的相同属性建立Reduce联合映射,得到数据与数据属性之间的 索引关系。
进一步地,待查询数据集在进行Skyline查询之前在内部进行了排序处理。
进一步地,原始数据集是温度、湿度、风速、水速、浪高等环境参数的数据 信息。
可以理解,本发明实施例中的存储器72可以是易失性存储器或非易失性存 储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只 读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM, PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程 只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存 取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但 不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM, SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储 器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器 (EnhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM, SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本 文描述的系统和方法的存储器72旨在包括但不限于这些和任意其它适合类型的 存储器。
而处理器73可能是一种集成电路芯片,具有信号的处理能力。在实现过程 中,上述方法的各步骤可以通过处理器73中的硬件的集成逻辑电路或者软件形 式的指令完成。上述的处理器73可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit, ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可 编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行 本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器 或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的 步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软 件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编 程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。 该存储介质位于存储器72,处理器73读取存储器72中的信息,结合其硬件完 成上述方法的步骤。
基于前述实施例,本发明实施例提供一种计算机可读介质,该计算机可读介 质存储有Skyline查询方法程序,Skyline查询方法程序被至少一个处理器执行时 实现上述任一实施例中Skyline查询方法的步骤。
可以理解地,以上实施例中的方法步骤,可以存储在计算机可读取存储介质 中,基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡 献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算 机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可 以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本发明 实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读 存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、 微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成 电路(Application Specific Integrated Circuits,ASIC)、数字信号处理器(Digital SignalProcessing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑 设备(Programmable Logic Device,PLD)、现场可编程门阵列(Field-Programmable GateArray,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本 申请功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文功能的模块(例如过程、函数等)来实现本文 的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中 或在处理器外部实现。
具体来说,用户终端中的处理器73还配置为运行计算机程序时,执行前述 实施例中的方法步骤,这里不再进行赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算 机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件 方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用 程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上 实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的 流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框 图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。 可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可 编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据 处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或 方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备 以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指 令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得 在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从 而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或 多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是:本发明实施例所记载的技术方案之间,在不冲突的情况下, 可以任意组合。
以上实施例,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范 围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包 含在本发明的保护范围之内。

Claims (8)

1.一种大规模数据集的Skyline查询方法,其特征在于,包括以下步骤:
基于用户终端发送的查询信息从传感器网络中获取用于查询Skyline的原始数据集;
对原始数据集进行剪枝处理,基于预设的消除策略消除非Skyline数据,得到预处理数据集;
对预处理数据集中的数据基于数据属性创建索引,得到与数据属性具有索引关系的子空间数据集;
基于查询信息获取目标属性,基于索引关系在子空间数据集中提取具有目标属性的待查询数据集;
对待查询数据集中的数据进行Skyline查询,将查询结果发送至用户终端。
2.根据权利要求1所述的查询方法,其特征在于,所述剪枝处理是基于网格的剪枝处理,所述消除策略具体包括:
基于数据的参数属性建立单元长度的网格,令每一单元网格中的数据对其左下方所有网格中的数据具有支配关系;
遍历所有网格和数据,先消除没有数据的网格,再对被支配网格中的数据和网格进行消除。
3.根据权利要求2所述的查询方法,其特征在于,所述消除策略在执行前,对原始数据集采用key-value的分布式存储。
4.根据权利要求3所述的查询方法,其特征在于,所述key-value分布式采用正相关分布或反相关分布。
5.根据权利要求1所述的查询方法,其特征在于,所述创建索引的过程基于MapReduce模型创建,具体包括:
针对所述传感器网络中每一传感器建立对应的Map读取任务,并基于所有Map读取任务中数据的相同属性建立Reduce联合映射,得到数据与数据属性之间的索引关系。
6.根据权利要求1所述的查询方法,其特征在于,所述待查询数据集在进行Skyline查询之前在内部进行了排序处理。
7.根据权利要求1所述的查询方法,其特征在于,所述原始数据集是温度、湿度、风速、水速、浪高等环境参数的数据信息。
8.一种大规模数据集的Skyline查询系统,其特征在于,包括:
用户终端、网络服务器、传感器网络WSNs、预处理模块和查询模块;
用户终端,用于向网络服务器发送查询信息,并接收查询模块发送的Skyline查询结果;
网络服务器,用于接收用户终端发送的查询信息,并将所述查询信息发送至传感器网络;
传感器网络WSNs,用于接收网络服务器发送的查询信息,并基于所述查询信息提取用于查询Skyline的原始数据集;
预处理模块,用于对原始数据集对原始数据集进行剪枝处理,基于预设的消除策略消除非Skyline数据,得到预处理数据集;并对预处理数据集中的数据基于数据属性创建索引,得到与数据属性具有索引关系的子空间数据集。
查询模块,用于基于查询信息获取目标属性,并基于索引关系在子空间数据集中提取具有目标属性的待查询数据集;对待查询数据集中的数据进行Skyline查询,将查询结果发送至用户终端。
CN201910660654.XA 2019-06-27 2019-07-22 一种大规模数据集的Skyline查询方法及其系统 Withdrawn CN110457316A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019105684490 2019-06-27
CN201910568449 2019-06-27

Publications (1)

Publication Number Publication Date
CN110457316A true CN110457316A (zh) 2019-11-15

Family

ID=68481632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910660654.XA Withdrawn CN110457316A (zh) 2019-06-27 2019-07-22 一种大规模数据集的Skyline查询方法及其系统

Country Status (1)

Country Link
CN (1) CN110457316A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905571A (zh) * 2021-01-07 2021-06-04 中车工业研究院有限公司 一种列车轨道交通传感器数据管理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013143278A1 (zh) * 2012-03-30 2013-10-03 华为技术有限公司 数据的索引查询方法、装置及系统
CN105224609A (zh) * 2015-09-07 2016-01-06 北京金山安全软件有限公司 一种索引查询方法及装置
CN106777093A (zh) * 2016-12-14 2017-05-31 大连大学 基于空间时序数据流应用的Skyline查询系统
CN107046557A (zh) * 2016-12-14 2017-08-15 大连大学 移动云计算环境下动态Skyline查询的智能医疗呼叫查询系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013143278A1 (zh) * 2012-03-30 2013-10-03 华为技术有限公司 数据的索引查询方法、装置及系统
CN105224609A (zh) * 2015-09-07 2016-01-06 北京金山安全软件有限公司 一种索引查询方法及装置
CN106777093A (zh) * 2016-12-14 2017-05-31 大连大学 基于空间时序数据流应用的Skyline查询系统
CN107046557A (zh) * 2016-12-14 2017-08-15 大连大学 移动云计算环境下动态Skyline查询的智能医疗呼叫查询系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李建伟等: "MapReduce模型下基于R树索引的Skyline查询算法", 《吉林大学学报(理学版)》 *
李文俊等: "基于MapReduce的预处理高效Skyline算法", 《计算机应用与软件》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905571A (zh) * 2021-01-07 2021-06-04 中车工业研究院有限公司 一种列车轨道交通传感器数据管理方法及装置
CN112905571B (zh) * 2021-01-07 2024-03-19 中车工业研究院有限公司 一种列车轨道交通传感器数据管理方法及装置

Similar Documents

Publication Publication Date Title
Liang et al. A real-time detection framework for on-tree mango based on SSD network
CN104408163B (zh) 一种数据分级存储方法和装置
CN109033340A (zh) 一种基于Spark平台的点云K邻域的搜索方法及装置
JP4894580B2 (ja) 旬度解析システム、旬度解析方法、及び旬度解析プログラム
AU2020101071A4 (en) A Parallel Association Mining Algorithm for Analyzing Passenger Travel Characteristics
CN108460123A (zh) 高维数据检索方法、计算机设备和存储介质
CN108563715A (zh) 一种分布式的趋同行为挖掘方法与系统
CN110457316A (zh) 一种大规模数据集的Skyline查询方法及其系统
CN105843907A (zh) 一种内存索引结构-距离树的构建及基于距离树的相似性连接算法
CN117785834A (zh) 一种数据库结构与索引的优化方法、设备及介质
CN104794237B (zh) 网页信息处理方法及装置
CN117852717B (zh) 基于遗传算法优化反向传播神经网络的台风灾害预测方法
Liang et al. Surrogate-assisted Phasmatodea population evolution algorithm applied to wireless sensor networks
WO2024114456A2 (zh) 一种基于网络爬虫的台风强度自动化预报方法和相关装置
CN106250456A (zh) 一种中标公告的抽取方法及装置
JP2013164811A (ja) データ検索装置、データ検索方法、及びデータ検索プログラム
CN117131055A (zh) 多维数据的数据分析方法、数据分析装置和数据分析系统
CN110175151A (zh) 一种农业大数据的处理方法、装置、设备和存储介质
CN110059148A (zh) 应用于电子地图的空间关键字查询的准确搜索方法
Khan et al. A hybrid heuristic-driven technique to study the dynamics of savanna ecosystem
CN109558521A (zh) 大规模关键词多模匹配方法、装置以及设备
Meng et al. A generalized fuzzy data envelopment analysis with restricted fuzzy sets and determined constraint condition 1
CN107451866A (zh) 一种利用气象数据预测商品的销售数据的方法及装置
JP2019095831A (ja) 抽出装置、抽出方法、及び抽出プログラム
CN114116908A (zh) 一种数据管理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20191115

WW01 Invention patent application withdrawn after publication