CN105677840A - 一种基于多维渐增数据模型的数据查询方法 - Google Patents

一种基于多维渐增数据模型的数据查询方法 Download PDF

Info

Publication number
CN105677840A
CN105677840A CN201610005893.8A CN201610005893A CN105677840A CN 105677840 A CN105677840 A CN 105677840A CN 201610005893 A CN201610005893 A CN 201610005893A CN 105677840 A CN105677840 A CN 105677840A
Authority
CN
China
Prior art keywords
data
section
dimension
multidimensional
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610005893.8A
Other languages
English (en)
Other versions
CN105677840B (zh
Inventor
宋杰
何虹燕
张莉
张一川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201610005893.8A priority Critical patent/CN105677840B/zh
Publication of CN105677840A publication Critical patent/CN105677840A/zh
Application granted granted Critical
Publication of CN105677840B publication Critical patent/CN105677840B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/278Data partitioning, e.g. horizontal or vertical partitioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明一种基于多维渐增数据模型的数据查询方法,属于数据查询技术领域,本发明将某些频繁出现的键建立成为集合空间中的维,并根据值(value)在维上进行分段,而对于那些出现次数较少的键定义为平凡键,通过这样的方式,所有的数据都会被组织成一个高维的模型,简称为key-cube(键立方);在查询过程中,符合查询条件的数据会被锁定在相关的cell(单元格)之中,因此查询的范围大大的减小了;其次这个数据模型具有一定的适应性会根据数据中键值对出现的次数从而做出相应的反应;这个key-cube是渐增式的,随着键值中数据的增多,此模型会根据键的频繁程度拓展出新的维,从而形成新的key-cube。

Description

一种基于多维渐增数据模型的数据查询方法
技术领域
本发明属于数据查询技术领域,具体涉及一种基于多维渐增数据模型的数据查询方法。
背景技术
近些年,随着互联网技术的迅猛发展与数据采集技术的不断提高,人们可获得的数据量越来越大,然而随着如此海量数据的出现,传统的关系型数据库已经不能满足人们对拓展性以及可伸缩性的需求,尤其是在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站方面,传统的关系型数据库已经显得力不从心,暴露了很多难以克服的问题。因此研究者们强调找到一个有效的,成本低廉的,有着良好并行性和伸缩性的方式来存储这些海量的数据;经研究调查,目前来说,在工业和学术界广泛接受的是一种新型的非关系型数据库;与传统的基于行存储的数据库相比,它采取基于列的存储方式,不需要事先定义数据模式,预定义表结构,此外制表,列族或者列簇为它的基本数据模型。在这个模型中,一条记录或者数据被一系列键值对的集合来表示;然而,在这种情况下,当数据量达到TB甚至PB级的时候,数据的查询效率,以及数据查询的实时性仍然是我们所面临的一个巨大的挑战。
最近几年,为解决对海量数据中查询效率以及性能的问题,不同的大型数据库提出了层次结构;例如基于DHT的P2P系统。它使用的是两层架构,一层是为了资源共享,另一层是为了资源发现,以便加速多维数据查询的过程;但是这个方法依赖于一个具有顺序的hash函数,和一个较小数量的P2P节点来存储数据;由于被分配到节点数据都会降低它的维度到一维空间,因此P2P的节点上散布着一维数据的取值范围;随后作者也提出了一个多维查询算法,在一个稳定的网络环境下,该模型能够表现出良好的性能,但是在实际情况下,真实的网络环境并不如实验设想的那样稳定,查询效果并不像那样理想。
发明内容
针对现有技术的不足,本发明提出一种基于多维渐增数据模型的数据查询方法,以达到提高查询效率并优化查询时间目的。
一种基于多维渐增数据模型的数据查询方法,具体包括以下步骤:
步骤1、确定出数据库中高频率的属性类型,并根据所确定的属性类型建立多维渐增数据模型;
步骤2、对多维渐增数据模型中的每一维属性的值进行分段,包括空段、溢出段和合理段;
步骤3、将数据库中每一条记录中的数据按照每一维属性的分段进行划分,若某一段中数据量大于设定值,则对该段再进行下一层的分段,若每一段中的数据量均小于设定值,则停止分段;
步骤4、根据每个维所划分的段,在多维渐增数据模型中构成单元格,并将单元格各段的索引按照建维顺序进行线性化,将线性化后的数据作为单元格的标识号;
步骤5、当有新的数据导入数据库时,更新多维渐增数据模型;
步骤6、根据实际所需查询的属性类型,在当前多维渐增数据模型中查询所需属性的标识号,即获得对应单元格的所有数据;
步骤7、根据查询所获的数据采用回溯操作的方式查询历史数据,具体包括:
步骤7-1、对多维渐增数据模型的维进行回溯,获得每次更新时和初始时多维渐增数据模型的对应单元格;
步骤7-2、在所获的单元格中对各段进行回溯,即由子段寻找父段;
步骤7-3、对回溯后获得的父段的索引按照建维顺序进行线性化,从而查询获得对应单元格内的所有数据。
步骤1所述的高频率的属性类型为出现频率大于70%属性类型。
步骤3所述的设定值为:所有段数据量之和的30%。
步骤3所述的数据库中每一条记录中的数据,包括数值型和文本型;
当为数据型时:采用平均分的方式进行分段,即对数据的取值范围进行等宽划分;
当为文本型时:第一层时,按照属性的首字母将26个字母进行分段;
第n层时,按照属性从前向后的第n个字母将26个字母进行分段。
步骤7-3所述的单元格,若其位于边缘部分,则需将其内部不符合查询条件的数据进行滤除。
本发明优点:
本发明提出一种基于多维渐增数据模型的数据查询方法,通常真实环境中的一条数据都是由许多的键值(key-value)对所组成,对于这些键值对来说,它们可能具有相同的键(key),或者属于同一条记录;本发明将某些频繁出现的键建立成为集合空间中的维,并根据值(value)在维上进行分段,而对于那些出现次数较少的键定义为平凡键,通过这样的方式,所有的数据都会被组织成一个高维的模型,简称为key-cube(键立方);在查询过程中,符合查询条件的数据会被锁定在相关的cell(单元格)之中,因此查询的范围大大的减小了;其次这个数据模型具有一定的适应性会根据数据中键值对出现的次数从而做出相应的反应;这个key-cube是渐增式的,随着键值中数据的增多,此模型会根据键的频繁程度拓展出新的维,从而形成新的key-cube。
附图说明
图1为本发明一种具体实施方式中基于多维渐增数据模型的数据查询方法流程图;
图2为本发明一种具体实施方式中的所用数据的示意图;
图3为本发明一种具体实施方式中的对数值型数据分段划分的示意图;
图4为本发明一种具体实施方式中的对文本型数据分段划分的示意图;
图5为本发明一种具体实施方式中的对数值型数据的段进行再分的示意图;
图6为本发明一种具体实施方式中的对文本型数据的段进行再分的示意图;
图7为本发明一种具体实施方式中的对维进行回溯的示意图;
图8为本发明一种具体实施方式中的对段进行回溯的示意图。
具体实施方式
下面结合附图对本发明一种实施例做进一步说明。
本发明实施例中,以RITA中航班延迟的数据为例,记录了1987-2008年航班延迟的详细信息,每一条记录都包括了29个属性如Year(年),Month(月),DayofMonth(天数),DayOfWeek(周数),DepTime(实际离场时间),CRSDepTime(预计离场时间),ArrTime(实际到达时间),CRSArrTime(预计到达时间),UniqueCarrier(航空公司代码),FlightNum(航班号)等,但是在这29个属性中有些属性的值是可空的,如CancellationCode(取消的原因),而对于Cancelled(是否被取消),Diverted(改飞),CarrierDelay(货物晚点),WeatherDelay(天气晚点),NASDelay(NAS晚点),SecurityDelay(安全晚点),LateAircraftDelay(飞机晚点)这些属性中有部分数据非零数,大部分数据是0;当基于这些记录进行数据分析或执行特定查询时,整个操作的时间开销极大,并且浪费了大量的存储,通过本发明提出的基于多维渐增数据模型的查询方法对数据的查询进行优化;并且在此实验中,将每一条记录都看成是这29个键值对的集合,并且当某个键中的数据是0或空时,就在这条记录中去掉这个键,如图2所示,Rn表示记录;K表示键,即属性;V1表示值。
本发明实施例中,基于多维渐增数据模型的数据查询方法,方法流程图如图1所示,具体包括以下步骤:
步骤1、确定出数据库中出现频率大于70%属性类型,并根据所确定的属性类型建立多维渐增数据模型;
本发明实施例中,数据源都是由一系列的键值对所组成,根据某一个键在源数据或者新增数据中出现的次数从而可以判断出这个键在数据中出现的频繁程度,将出现不频繁的键称为不频繁键,将出现频繁的键称为维键;随着数据量的增多,某个不频繁的键在新增的数据中出现次数变得频繁,可将新增的频繁键建立成为维;将维键建立成一个维,每一个维都有一个唯一维名称(name),并且记录下每个维建立的顺序(index)以及维建立的版本号(version),因此一个维可用元祖<index,name,version,I>来表示,其中,I表示活跃段id(标识号)的集合;
本发明实施例中,运用Mapreduce计算工具对源数据或者新增数据中的键值对进行扫描,并对数据中的每个键出现的频数进行统计,将出现次数多于总数的70%的键称为维键,其余的键称为不频繁键,在本实施中,维键有21个,分别是Year(年),Month(月),DayofMonth(天数),DayOfWeek(周数),DepTime(实际离场时间),CRSDepTime(预计离场时间),ArrTime(实际到达时间),CRSArrTime(预计到达时间),UniqueCarrier(航空公司代码),FlightNum(航班号),TailNum(机翼的数量),Dest(目的地),ActualElapsedTime(实际起飞时间),CRSElapsedTime(预计起飞时间),AirTime(飞行时间),ArrDelay(到达延迟),DepDelay(出发晚点),Origin(出发地),Distance(距离),TaxiIn(到达滑行),TaxiOut(起飞滑行),不频繁键是Cancelled(是否被取消),CancellationCode(取消原因),Diverted(改飞),CarrierDelay(货物晚点),WeatherDelay(天气晚点),NASDelay(NAS晚点),SecurityDelay(安全晚点),LateAircraftDelay(飞机晚点);
本发明实施例中,将每个维键根据其出现的频繁程度排序,如果此模型中已经有维了,就依次在排序后的结果加上现有模型中最大维的顺序号,如果模型中还没有维,排序的结果就是建维的顺序,如果有频繁程度一样的维键,就根据字母序;本发明实施例中,维键ActualElapsedTime可以表示成<1,ActualElapsedTime,1,I>,维键AirTime可以表示成<2,AirTime,1,I>,维键Origin(出发地)可以表示成<16,Origin,1,I>,维键Month可以表示成<15,Month,1,I>;index从1开始计数,它不会随着模型的更新而重置,在第一次建立模型的时候version从1开始计数,以后每更新模型一次,都将version加1,以此来区别模型的不同版本;随着数据量的增多,CarrierDelay变得相当频繁,因此可将CarrierDelay建立成为新的维<22,CarrierDelay,2,I>;
步骤2、对多维渐增数据模型中的每一维属性的值进行分段,包括空段、溢出段和合理段;
本发明实施例中,将包含某个维键的特定范围的值的集合称作一个段,因此一个维可以由n个不相交的段组成;维上所有段的取值范围是维的一个覆盖;每个段可表示为一个二元组<i,sv>,其中i表示段的id号,sv表示每个段建立的时期,从1开始计数,并且以1递增,同一时期可以创建不同的段。
本发明实施例中,在维的初始阶段,为了表示对数值型数据与文本型数据分段方式的不同,分别以Origin和Month维举例;对数值型数据和文本型数据分别采用图3和图4的方式进行分段,其中s1表示值为空的情况(空段),s2,s4分别表示值超出正常范围的情况(溢出段),s3表示所属键正常范围的取值情况(合理段),基于常识可知,月份的正常的取值范围是1到12,并且在数据中发现对于Origin中,其字母的开头一般为c到q。对数值型数据与文本型数据分段的最大的不同是:由于文本型数据都是由各个字母所组成,因此在每一层的分段都是对文本型数据中的第i个字母进行分段,分段过程中不区分大小写。在维中,这些段也有唯一的id,这个id采用按序编码的方式进行编码,此编码方式应该能为段的回溯服务,此时Origin维中的段分别有:<s1,1>,<s2,1>,<s3,1>,<s4,1>,Month中的段有:<s1,1>,<s2,1>,<s3,1>,<s4,1>,与此同时一个新的多维的cube被建立起来;
步骤3、将数据库中每一条记录中的数据按照每一维属性的分段进行划分,若某一段中数据量大于所有段数据量之和的30%,则对该段再进行下一层的分段,若每一段中的数据量均小于所有段数据量之和的30%,则停止分段;
本发明实施例中,除了s1之外的所有段都可以进行再次被分成固定数量的子段,因此将没有子段的段成为活跃段,有子段的段成为休眠段;随着数据的增多,会造成段中所对应数据的不均衡,在这种情况下可对段进行再分操作;
本发明实施例中,当段中所对应的数据超过了200M,可以采取分段的方式,如图5和图6所示,对段中的数据进行再次划分,本发明实施例中,规定除了s1之外的其他段可固定的再分为3个子段,并且对于数值型数据,进行等宽划分,对于文本型数据,进行字符个数上的等宽划分,此时Origin维中的段分别有:<s1,1>,<s2,1>,<s8,2>,<s9,2>,<s10,2>,<s4,1>,Month中的段有:<s1,1>,<s2,1>,<s8,2>,<s9,2>,<s10,2>,<s4,1>;
步骤4、根据每个维所划分的段,在多维渐增数据模型中构成单元格,并将单元格各段的索引按照建维顺序进行线性化,将线性化后的数据作为单元格的标识号;
本发明实施例中,一条数据可以根据cube每个维上段的取值范围定位到空间中的一个单元格,在这个单元格中对应了包含具有相同键并且取值在同一个段中的多条数据,将构成单元格的段的Index按建维的顺序进行线性化,然后将线性化之后的结果作为每个cell的id;
本发明实施例中,采用z-ordering的方式对构成单元格的段的Index按建维的顺序进行线性化,然后将线性化之后的结果作为每个cell的id;
步骤5、当有新的数据导入数据库时,更新多维渐增数据模型;
步骤6、根据实际所需查询的属性类型,在当前多维渐增数据模型中查询所需属性的标识号,即获得对应单元格的所有数据;
本发明实施例中,对查询语句进行分析,形如select..from..where...,根据where后的查询条件定位到所要约束的维键,可以通过计算得出在当前的cube中维上符合查询条件的一系列段;将符合查询条件的段按照段所对应维的顺序进行线性化,线性化后的结果就是目前cube中符合查询结果的所有数据;
本发明实施例中,采用的查询语句是select*fromthiswhereMonth>3andOrigin=‘BOS’.;从查询语句可知,查询条件中包含的维键是Month<15,Month,1,Imonth>和Origin<16,Origin,1,IOrigin>,Imonth={1,2,8,9,10,4},IOrigin={1,2,8,9,10,4},因此在活跃段中只有Month中的s8,s9,s10,s4和Origin中的s2满足条件,然而对于Month中的s8和Origin中的s2会存在一些不符合查询条件的数据,由这些段所组成的单元格称为处于边缘部分的单元格,会对他们进行后续的过滤处理;将Month维和Origin维中符合查询条件的s8,s9,s10,s4和s2,与其他各个维的段,按照建维的顺序,采用z-ordering的方式进行线性化;
步骤7、根据查询所获的数据采用回溯操作的方式查询历史数据;
本发明实施例中,由于此模型是渐增的,目前的cube可能是增维之后的版本,因此目前所查询出的结果只是一部分查询结果,对于每一个线性化之后的结果,还需要进行回溯操作来寻找历史数据中的查询结果;
具体包括:
步骤7-1、对多维渐增数据模型的维进行回溯,获得每次更新时和初始时多维渐增数据模型的对应单元格;
本发明实施例中,对维的回溯找出由不同维版本够成的各个cube;维上的回溯过程如图7所示,图中,由上至下由最大维版本为n至最大维版本为1;记录下当前的所有维,在其中找出具有最高维版本的维,然后删除此版本的维,循环整个过程直到维中的版本只有1,最后在每个过程中记录的维的集合就是所对应的不同时期的键立方,即不同时期的历史数据;本发明实施例中,维版本最高为2,只增了CarrierDelay维,因此不同时期的cube只有两个,第一个cube由之前的21个维键组成,第二个cube由之前的21个维键加上新增的CarrierDelay维组成。
步骤7-2、在所获的单元格中对各段进行回溯,即由子段寻找父段;
本发明实施例中,对维上段的回溯,在各个cube中对段进行回溯;在各个时期的cube中会有不同的段发生改变,因此还需要在各个段的顺序列表中进行段的回溯,段的回溯就是由子段找父段的过程,如图8所示,即根据当前子段的id,得到父段id的过程,其过程主要为:将线性化的结果y进行反线性化,得到构成该结果的各个维中段a1,a2,...an,在这些中段中找出具有最大段版本号的段an,然后根据段的编码方式,可以由段的id进而得到其父段bn的id;在本实施中,例如对Month和Origin维中的段s3都进行了再分,并且除了s1不可再分,其他每个段可分子段的数量都固定为3,因此,当对s8,s9,s10进行回溯的时即可获得其父段s3;
步骤7-3、对回溯后获得的父段的索引按照建维顺序进行线性化,从而查询获得对应单元格内的所有数据;所述的单元格,若其位于边缘部分,则需将其内部不符合查询条件的数据进行滤除。
本发明实施例中,最后对所有的回溯结果进行线性化,从而查询出所有符合条件的单元格;查询结果中的一些处于边缘部分的单元格,它们所包含的数据中会有一些不符合查询条件的数据,因此只需对这些边缘单元格用mapreduce做过滤处理,在本实施中,例如对Month中的s8和Origin中的s2过滤处理中,1<=Month<3的数据和Origin中以a(不区分大小写)开头的数据会被过滤掉,当过滤过程完成之后,所有符合查询条件的数据会被查询出来。

Claims (5)

1.一种基于多维渐增数据模型的数据查询方法,其特征在于,具体包括以下步骤:
步骤1、确定出数据库中高频率的属性类型,并根据所确定的属性类型建立多维渐增数据模型;
步骤2、对多维渐增数据模型中的每一维属性的值进行分段,包括空段、溢出段和合理段;
步骤3、将数据库中每一条记录中的数据按照每一维属性的分段进行划分,若某一段中数据量大于设定值,则对该段再进行下一层的分段,若每一段中的数据量均小于设定值,则停止分段;
步骤4、根据每个维所划分的段,在多维渐增数据模型中构成单元格,并将单元格各段的索引按照建维顺序进行线性化,将线性化后的数据作为单元格的标识号;
步骤5、当有新的数据导入数据库时,更新多维渐增数据模型;
步骤6、根据实际所需查询的属性类型,在当前多维渐增数据模型中查询所需属性的标识号,即获得对应单元格的所有数据;
步骤7、根据查询所获的数据采用回溯操作的方式查询历史数据,具体包括:
步骤7-1、对多维渐增数据模型的维进行回溯,获得每次更新时和初始时多维渐增数据模型的对应单元格;
步骤7-2、在所获的单元格中对各段进行回溯,即由子段寻找父段;
步骤7-3、对回溯后获得的父段的索引按照建维顺序进行线性化,从而查询获得对应单元格内的所有数据。
2.根据权利要求1所述的基于多维渐增数据模型的数据查询方法,其特征在于,步骤1所述的高频率的属性类型为出现频率大于70%属性类型。
3.根据权利要求1所述的基于多维渐增数据模型的数据查询方法,其特征在于,步骤3所述的设定值为:所有段数据量之和的30%。
4.根据权利要求1所述的基于多维渐增数据模型的数据查询方法,其特征在于,步骤3所述的数据库中每一条记录中的数据,包括数值型和文本型;
当为数据型时:采用平均分的方式进行分段,即对数据的取值范围进行等宽划分;
当为文本型时:第一层时,按照属性的首字母将26个字母进行分段;
第n层时,按照属性从前向后的第n个字母将26个字母进行分段。
5.根据权利要求1所述的基于多维渐增数据模型的数据查询方法,其特征在于,步骤7-3所述的单元格,若其位于边缘部分,则需将其内部不符合查询条件的数据进行滤除。
CN201610005893.8A 2016-01-06 2016-01-06 一种基于多维渐增数据模型的数据查询方法 Expired - Fee Related CN105677840B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610005893.8A CN105677840B (zh) 2016-01-06 2016-01-06 一种基于多维渐增数据模型的数据查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610005893.8A CN105677840B (zh) 2016-01-06 2016-01-06 一种基于多维渐增数据模型的数据查询方法

Publications (2)

Publication Number Publication Date
CN105677840A true CN105677840A (zh) 2016-06-15
CN105677840B CN105677840B (zh) 2019-02-05

Family

ID=56299057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610005893.8A Expired - Fee Related CN105677840B (zh) 2016-01-06 2016-01-06 一种基于多维渐增数据模型的数据查询方法

Country Status (1)

Country Link
CN (1) CN105677840B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577745A (zh) * 2017-08-29 2018-01-12 飞友科技有限公司 一种航班时刻数据的合并与冲突处理的方法
CN109101595A (zh) * 2018-07-27 2018-12-28 郑州云海信息技术有限公司 一种信息查询方法、装置、设备及计算机可读存储介质
CN110704548A (zh) * 2019-09-30 2020-01-17 北京元年科技股份有限公司 用于多维数据库的筛选有效计算数据的系统和方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063486A (zh) * 2010-12-28 2011-05-18 东北大学 一种面向多维数据管理的云计算平台查询处理方法
CN102298631A (zh) * 2011-08-31 2011-12-28 江苏大学 一种新型元数据管理系统和一种元数据属性混合索引方法
CN102323947A (zh) * 2011-09-05 2012-01-18 东北大学 环形架构数据库上预连接表的生成方法
CN102542005A (zh) * 2011-12-13 2012-07-04 中国电子科技集团公司第十五研究所 增长型数据库的数据统计查询系统及方法
CN103425772A (zh) * 2013-08-13 2013-12-04 东北大学 一种具有多维信息的海量数据查询方法
CN104317801A (zh) * 2014-09-19 2015-01-28 东北大学 一种面向大数据的数据清洗系统及方法
CN104750860A (zh) * 2015-04-16 2015-07-01 东北大学 一种不确定数据的数据存储方法
CN105117442A (zh) * 2015-08-12 2015-12-02 东北大学 一种基于概率的大数据查询方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063486A (zh) * 2010-12-28 2011-05-18 东北大学 一种面向多维数据管理的云计算平台查询处理方法
CN102298631A (zh) * 2011-08-31 2011-12-28 江苏大学 一种新型元数据管理系统和一种元数据属性混合索引方法
CN102323947A (zh) * 2011-09-05 2012-01-18 东北大学 环形架构数据库上预连接表的生成方法
CN102542005A (zh) * 2011-12-13 2012-07-04 中国电子科技集团公司第十五研究所 增长型数据库的数据统计查询系统及方法
CN103425772A (zh) * 2013-08-13 2013-12-04 东北大学 一种具有多维信息的海量数据查询方法
CN104317801A (zh) * 2014-09-19 2015-01-28 东北大学 一种面向大数据的数据清洗系统及方法
CN104750860A (zh) * 2015-04-16 2015-07-01 东北大学 一种不确定数据的数据存储方法
CN105117442A (zh) * 2015-08-12 2015-12-02 东北大学 一种基于概率的大数据查询方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
R THOLLOT ,N KUCHMANN-BEAUGER ,MA AUFAURE: "Semantics and Usage Statistics for Multi-dimensional Query Expansion", 《INTERNATIONAL CONFERENCE ON DATABASE SYSTEMS FOR ADVANCED APPLICATIONS. SPRINGER-VERLAG》 *
陈梦杰,陈勇旭,贾益斌,张一川,宋杰: "基于Hadoop的大数据查询系统简述", 《计算机与数字工程》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577745A (zh) * 2017-08-29 2018-01-12 飞友科技有限公司 一种航班时刻数据的合并与冲突处理的方法
CN107577745B (zh) * 2017-08-29 2020-08-21 飞友科技有限公司 一种航班时刻数据的合并与冲突处理的方法
CN109101595A (zh) * 2018-07-27 2018-12-28 郑州云海信息技术有限公司 一种信息查询方法、装置、设备及计算机可读存储介质
CN109101595B (zh) * 2018-07-27 2022-07-08 郑州云海信息技术有限公司 一种信息查询方法、装置、设备及计算机可读存储介质
CN110704548A (zh) * 2019-09-30 2020-01-17 北京元年科技股份有限公司 用于多维数据库的筛选有效计算数据的系统和方法
CN110704548B (zh) * 2019-09-30 2021-12-10 北京元年科技股份有限公司 用于多维数据库的筛选有效计算数据的系统和方法

Also Published As

Publication number Publication date
CN105677840B (zh) 2019-02-05

Similar Documents

Publication Publication Date Title
CN106227800B (zh) 一种高度关联大数据的存储方法及管理系统
US9576007B1 (en) Index and query serving for low latency search of large graphs
CN102521386B (zh) 基于集群存储的空间元数据分组方法
CN103631909B (zh) 对大规模结构化和非结构化数据联合处理的系统及方法
CN102662974B (zh) 一种基于邻接节点树的网络图索引方法
CN106933833B (zh) 一种基于空间索引技术的位置信息快速查询方法
Botea et al. PIST: an efficient and practical indexing technique for historical spatio-temporal point data
CN105808696B (zh) 一种基于全局和局部特征的跨在线社交网络用户匹配方法
US7761474B2 (en) Indexing stored data
CN103914493A (zh) 一种微博用户群体结构发现分析方法及系统
CN105426491A (zh) 一种时空地理大数据的检索方法及系统
CN105912666A (zh) 一种面向云平台的混合结构数据高性能存储、查询方法
CN103377237B (zh) 高维数据的近邻搜索方法以及快速近似图像搜索方法
CN102982103A (zh) 一种olap海量多维数据维存储方法
CN104820715A (zh) 基于多维度关联的数据共享和分析方法及系统
CN106372073A (zh) 一种数学公式检索方法与装置
CN106777163A (zh) 基于红黑树的ip地址所属地查询方法及系统
CN111639075B (zh) 一种基于扁平化r树的非关系数据库矢量数据管理方法
CN103678550A (zh) 一种基于动态索引结构的海量数据实时查询方法
CN104346444B (zh) 一种基于路网反空间关键字查询的最佳选址方法
CN108009265B (zh) 一种云计算环境下的空间数据索引方法
CN104731984B (zh) 汽车轮毂表面样点r树上溢结点增量式聚类优化方法
CN111813778B (zh) 一种面向大规模路网数据的近似关键字存储和查询方法
CN103500165B (zh) 一种结合聚类和双key值的高维向量检索方法
CN105677840A (zh) 一种基于多维渐增数据模型的数据查询方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190205

CF01 Termination of patent right due to non-payment of annual fee