CN102890714B

CN102890714B - 数据索引方法及装置

Info

Publication number: CN102890714B
Application number: CN201210356475.5A
Authority: CN
Inventors: 杨建洲; 王新宇
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2012-09-24
Filing date: 2012-09-24
Publication date: 2015-04-15
Anticipated expiration: 2032-09-24
Also published as: CN102890714A; EP2899649A1; JP6148732B2; US20150193491A1; WO2014044053A1; EP2899649A4; JP2015530666A

Abstract

本发明实施例公开了一种数据索引方法及装置。本发明实施例提供的数据索引方法及装置，根据N个维度获取与N个维度对应的、且相互独立的N个单维索引，判断与所述维度相对应的N个所述相互独立的单维索引包含的地址记录是否有交集，以获取交集相对应的地址记录所指向的数据为索引目标数据。解决了单维索引技术无法满足多维索引组合查询以及多维分析的需求。以及通过确定与N个所述单维索引包含的地址记录相对应的标签数标志位的计数值的大小，简单方便地满足了多维分析的速度要求，降低了索引的复杂度，提升了数据精确索引数据的性能。

Description

数据索引方法及装置

技术领域

本发明涉及数据索引技术领域，具体涉及数据的索引方法及装置。

背景技术

随着商业智能（Business Intelligent）的发展，在电信业务质量管理、网络性能管理、互联网应用分析等多种领域需要对海量数据进行快速统计以及索引，一般的单维索引技术已经满足不了对海量数据进行快速存储、统计以及索引的高要求。

目前，采用分布式存储系统（Hadoop Database）的数据索引技术解决了海量数据的索引问题，主要通过对海量数据进行区域划分建立索引数据，并以列存储形式存储在不同的域存储器上，依据单维索引技术索引数据。基于分布式存储系统（Hadoop Database）的数据建立的单维索引技术只能建立有限的索引数据，大量的索引数据必须在外部存储介质上存储。而且单维索引技术无法满足多维分析以及多维索引组合查询的需求，增加大量数据后单维索引速度存在衰减，继而不能快捷方便地查询目标数据，应用普遍性受限。因此，为了满足海量数据的快速统计以及索引，多维索引技术成为新的研究方向。

发明内容

鉴于此，本发明实施例提供了一种数据索引方法及装置，解决了单位索引应用普遍性受限，索引效率低的问题。

本发明实施例一方面提供的一种数据索引方法，包括：

获取与N个维度对应的、且相互独立的N个单维索引；所述N大于等于2；

判断所述N个单维索引中包含的地址记录是否有交集；

若有交集，则获取所述交集对应的地址记录所指向的数据作为索引目标数据。

作为一种可选的实施方式，所述判断所述N个单维索引中包含的地址记录是否有交集包括以下步骤：

判断所述N个单维索引中包含的地址记录是否存在相同地址记录；

若存在，则确认所述N个单维索引中包含的地址记录有交集。

作为一种可选的实施方式，所述判断所述N个单维索引包含的地址记录是否存在相同地址记录包括以下步骤：

根据N个维度获取所述N个维度相对应的单维索引的地址记录；

对所述地址记录对应的标签数标志位的计数值加1；

判断所述地址记录对应的标签数标志位的计数值是否等于所述N；

如果是，则选取所述地址记录对应的标签数标志位的计数值等于所述N的地址记录作为相同地址记录。

A、从所述N个单维索引中获取第K个单维索引作为当前单维索引，其中，K小于所述N且K大于零；

B、获取所述当前单维索引的地址记录；

C、对与所述地址记录相对应的标签数标志位的计数值加1；

D、从所述N个单维索引中获取第K+1个单维索引，作为当前单维索引；

E、判断K+1是否等于N；如果不等于N则执行步骤B；

F、根据K+1等于N的结果，则获取第N个单维索引的地址记录；

G、判断所述第N个单维索引的地址记录相对应的标签数标志位的计数值是否等于N-1；

H、如果是，则选取所述第N个单维索引的地址记录相对应的标签数标志位的计数值等于N-1的所述地址记录，作为相同地址记录。

作为一种可选的实施方式，对与所述地址记录相对应的标签数标志位进行计数之前，所述方法还包括：

初始化清零与所述地址记录对应的标签数标志位的计数值。

作为一种可选的实施方式，所述获取与N个维度对应的、且相互独立的N个单维索引之前，所述方法还包括：

根据元数据将若干数据进行分区存储，生成i个分区存储区；

根据分类标准对每个分区存储区中的数据建立互相独立的单维索引；

存储所述每个分区存储区及所述每个分区存储区对应包含的单维索引至相同的存储处理节点上，以生成包含i个不同存储处理节点的索引表。

作为一种可选的实施方式，所述索引表包含键值表和地址分配表，所述地址分配表记录了每个单维索引的键值对应的地址记录，所述键值表包括每个单维索引的键值及与所述键值对应的存储地址，与所述键值对应的存储地址用于指向所述键值对应的地址记录；

所述地址记录表示数据记录在分区存储区中的偏移位置，包括记录号和记录长度。

作为一种可选的实施方式，所述键值表的存储方式包括有序线性存储方式或者二叉树存储方式。

作为一种可选的实施方式，所述地址分配表的存储方式采用分块存储方式。

本发明实施例的另一方面提供了一种数据索引装置，包括：

第一单元，用于获取与N个维度对应的、且相互独立的N个单维索引；所述N大于等于2；

第二单元，用于判断所述N个单维索引包含的地址记录是否有交集；

第三单元，用于获取所述交集对应的地址记录所指向的数据作为索引目标数据。

作为一种可选的实施方式，所述第二单元，具体用于判断所述N个单维索引中包含的地址记录是否存在相同地址记录；若存在，则确认所述N个单维索引中包含的地址记录有交集。

作为一种可选的实施方式，所述第二单元包括：

第一子单元，用于获取所述N个单维索引的地址记录；

第二子单元，用于对所述地址记录对应的标签数标志位的计数值加1；

第三子单元，用于判断所述地址记录对应的标签数标志位的计数值是否等于所述N；

第四子单元，用于根据第三子单元判断所述地址记录对应的标签数标志位的计数值等于所述N的判断通知，选取所述地址记录对应的标签数标志位的计数值等于所述N的地址记录作为相同地址记录。

作为一种可选的实施方式，所述第二单元包括：

第一获取单元，用于从所述N个单维索引中获取第K个单维索引作为当前单维索引，其中，K小于所述N且K大于零；

第二获取单元，用于获取所述当前单维索引的地址记录；

计数单元，用于对与所述当前单维索引的地址记录相对应的标签数标志位的计数值加1；

所述第一获取单元，还用于从所述N个单维索引中获取第K+1个单维索引，作为当前单维索引；

控制单元，用于判断K+1是否等于N；如果不等于N，则控制第二获取单元获取所述当前单维索引的地址记录；

所述第一获取单元，还用于根据所述控制单元判断K+1等于N的结果，获取第N个单维索引的地址记录；

所述控制单元，还用于判断所述第N个单维索引的地址记录相对应的标签数标志位的计数值是否等于N-1；

所述第一获取单元，还用于根据所述控制单元判断所述第N个单维索引的地址记录相对应的标签数标志位的计数值等于N-1的判断通知，选取所述第N个单维索引的地址记录相对应的标签数标志位的计数值等于N-1的所述地址记录，作为相同地址记录。

作为一种可选的实施方式，所述第二单元还包括：

初始化单元，用于初始化清零与所述地址记录对应的标签数标志位的计数值。

作为一种可选的实施方式，所述数据索引装置还包括：

分区存储单元，用于根据元数据将若干数据进行分区存储，生成i个分区存储区；

处理单元，用于根据分类标准对每个分区存储区中的数据建立互相独立的单维索引；

所述处理单元，还用于存储所述每个分区存储区及所述每个分区存储区对应包含的单维索引至相同的存储处理节点上，以生成包含i个不同存储处理节点的索引表。

本发明实施例提供的数据索引方法，根据N个维度获取与N个维度对应的、且相互独立的N个单维索引，判断与所述维度相对应的N个所述相互独立的单维索引包含的地址记录是否有交集，以获取交集相对应的地址记录所指向的数据为索引目标数据。解决了单维索引技术无法满足多维索引组合查询以及多维分析的需求。以及通过确定与N个所述单维索引包含的地址记录相对应的标签数标志位的计数值的大小，简单方便地实现了多维分析的速度要求，降低了索引的复杂度，提升了精确索引数据的索引性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种数据索引方法示意图；

图2是本发明实施例一提供的另一种数据索引方法示意图；

图3是本发明实施例一提供的又一种数据索引方法示意图；

图4为本发明实施例一提供的数据进行分区存储建立单维索引的示意图；

图5为本发明实施例一提供的索引表中分区存储区CDF1包含的单维索引的键值与地址分配关系示意图；

图6a为本发明实施例提供的多维关键指标分布式存储应用示意图；

图6b为本发明实施例提供的数据索引方法在详单存储查询中的应用示意图；

图7为本发明实施例二提供的一种数据索引装置结构图；

图8为本发明实施例二提供的第二单元的一种结构图；

图9为本发明实施例二提供的第二单元的另一种结构图；

图10为本发明实施例二提供的又一种数据索引装置结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例一提供的一种数据索引方法示意图，如图1所示，本实施例提供的数据索引方法包括以下步骤：

S110、获取与N个维度对应的、且相互独立的N个单维索引；N大于等于2；

S120、判断N个单维索引包含的地址记录是否有交集；

若有交集，则执行步骤S130；若否，则执行步骤S131，即结束本流程。

S130、获取所述交集对应的地址记录所指向的数据作为索引目标数据。

本实施例根据N个维度获取与N个维度对应的、且相互独立的N个单维索引，判断与维度相对应的N个相互独立的单维索引包含的地址记录是否有交集，以获取交集相对应的地址记录所指向的数据为索引目标数据。解决了单维索引技术无法满足多维索引组合查询以及多维分析的需求。

作为一种可选的实施方式，基于图1所示的步骤S120，即判断所述N个单维索引中包含的地址记录是否有交集还可以包括以下步骤：

若存在，则确认所述N个单维索引中包含的地址记录有交集。

作为一种可选的实施方式，请参阅图2，图2是本发明实施例一提供的另一种数据索引方法的示意图，如图2所示，判断N个单维索引包含的地址记录是否存在相同地址记录包括以下步骤：

S121、获取N个单维索引包含的地址记录；

S122、对地址记录对应的标签数标志位的计数值加1；

S123、判断地址记录对应的标签数标志位的计数值是否等于N；如果是，则执行步骤S124；若果不是，则执行步骤S125，即结束本流程。

S124、选取地址记录对应的标签数标志位的计数值等于N的地址记录作为相同地址记录。

本实施方式通过标签计数的方式实现了选取相同地址记录的功能，技术实现简单可靠，无误差性。通过确定与N个单维索引包含的地址记录相对应的标签数标志位的计数值的大小，简单方便地实现了多维分析的速度要求，降低了索引的复杂度，提升了数据精确索引数据的性能。

作为一种可选的实施方式，请参阅图3，图3是本发明实施例一提供的又一种数据索引方法示意图，如图3所示，判断N个单维索引包含的地址记录是否存在相同地址记录包括以下步骤：

S1201、从N个单维索引中获取第K个单维索引作为当前单维索引；其中，K小于N且K大于零；

S1202、获取当前单维索引的地址记录；

S1203、对与地址记录相对应的标签数标志位的计数值加1；

S1204、从N个单维索引中获取第K+1个单维索引，作为当前单维索引；

S1205、判断K+1是否等于N；

如果不等于N，则执行步骤S1202；

若K+1等于N，则执行步骤S1206；

S1206、获取第N个单维索引的地址记录；

S1207、判断第N个单维索引的地址记录相对应的标签数标志位的计数值是否等于N-1；

如果是，则执行步骤S1208；如果否，则执行步骤S1209，即结束本流程。

S1208、选取第N个单维索引的地址记录相对应的标签数标志位的计数值等于N-1的地址记录，作为相同地址记录。

本实施方式也是通过标签计数的方式实现了选取相同地址记录的功能，技术实现简单可靠，无误差性。当对最后一个单维索引的地址记录进行对应的标签数标志位计数之前，已确定需要对当前的地址记录对应的标签数标志位的计数值加1，故只需判断当前的地址记录对应的标签数标志位的计数值是否等于N-1，如果等于，则可间接的确定当前的地址记录对应的标签数标志位的计数值为N，即当前的地址记录作为相同的地址记录。

作为一种可选的实施方式，对与地址记录相对应的标签数标志位进行计数之前，方法还包括：

初始化清零与地址记录对应的标签数标志位的计数值。

作为一种可选的实施方式，获取与N个维度对应的、且相互独立的N个单维索引之前，方法还可以包括：

根据元数据将若干数据进行分区存储，生成i个分区存储区；

根据分类标准对每个分区存储区中的数据建立相独立的单维索引；

存储每个分区存储区及每个分区存储区对应包含的单维索引至相同的存储处理节点上，以生成包含i个不同存储处理节点的索引表。

元数据包括记录信息，可以是时间信息，也可以是分类标准信息。分区存储区可存储至内存或者外部存储介质中。

其请参阅图4，图4为本发明实施例一提供的数据进行分区存储建立单维索引的示意图。通过元数据对海量数据按照时间记录信息或者其他分类标准信息进行分区存储，可以是若干个，在本实施例中分成三个分区存储区，如图4所示，共分成三个分区存储区(Container Data File,CDF)，分别是分区存储区CDF1、分区存储区CDF2以及分区存储区CDF3，根据分类标准针对每个分区存储区的数据建立单维索引，每个分区存储区中的有限数量的单维索引相互之间是独立的，即分区存储区CDF1中包含的单维索引Dimension1Index、Dimension2Index和Dimension3Index三者之间是相互独立的；同理，分区存储区CDF2中包含的单维索引Dimension1 Index、Dimension2Index和Dimension3Index三者之间也是相互独立的；分区存储区CDF3中包含的单维索引Dimension1 Index、Dimension2 Index和Dimension3 Index三者之间也是相互独立的。其中，存储分区存储区CDF1、分区存储区CDF1包含的单维索引Dimension1 Index、Dimension2 Index和Dimension3 Index至同一节点NodeA上，存储分区存储区CDF2、分区存储区CDF2包含的单维索引Dimension1 Index、Dimension2 Index和Dimension3 Index至同一节点NodeB上，存储分区存储区CDF3、分区存储区CDF3包含的单维索引Dimension 1Index、存储Dimension2 Index和Dimension3 Index至同一节点NodeC上。

请参阅图5，图5为本发明实施例一提供的索引表中分区存储区CDF1包含的单维索引的键值与地址分配关系示意图。如图5所示，索引表包含键值表和地址分配表，地址分配表记录了每个单维索引的键值对应的地址记录，键值表包括每个单维索引的键值及与键值对应的地址分配表的首地址记录的存储地址；地址记录可用记录号和记录长度表示，地址记录可定位记录地址偏移量，从而获取数据。其中，地址记录表示数据记录在分区存储区中的偏移位置，对于等长的数据，地址记录可简化用记录号表示。本实施例中，设定若干数据的类型为等长数据类型，则地址记录简化用记录号表示。例如，单维索引Dimension1 Index对应的键值表包括键值K1和键值K1对应的存储地址FirstAdd，其中，键值K1对应的存储地址FirstAdd用于指向键值K1对应的地址记录add1、地址记录add7、地址记录add15；其中，add1、add7、add15为地址记录的记录号。单维索引Dimension2Index对应的键值表包括键值K2和键值K2对应的存储地址FirstAdd，其中，键值K2对应的存储地址FirstAdd用于指向键值K2对应的地址记录add1、地址记录add9、地址记录add14；其中，add1、add9、add14为地址记录的记录号。单维索引Dimension3 Index对应的键值表包括键值K3和键值K3对应的存储地址FirstAdd，其中，键值K3对应的存储地址FirstAdd用于指向键值K3对应的地址记录add2、地址记录add9、地址记录add14；其中add2、add9、add14为记录号。当应用到具体地检索场景时，可以是话单查询，CDF1分区存储区存储的为9月1号的话单信息，单据至少包括两部分信息，分别是区号和计费标识，则检索条件对应区号和计费标识。其中，以键值K1对应区号“武汉”，键值K2对应计费标识“免费拨打”，则通过索引获得维度与索引信息“武汉”对应的单维索引，索引到键值K1对应的地址记录add1、地址记录add7、地址记录add15；以及通过索引获得维度与索引信息“免费拨打”对应的单位索引，则索引到键值K2对应的地址记录add1、地址记录add9、地址记录add14。地址记录add1、add9、add14指向的话单信息都是免费拨打的话单数据。址记录add1、地址记录add7、地址记录add15指向的话单信息都为打给武汉的话单数据，则索引到地址记录add1是相同的地址记录，则确定地址记录add1指向的话单信息是索引目标数据。

作为一种可选的实施方式，键值表的存储方式包括有序线性存储方式或者二叉树存储方式。

作为一种可选的实施方式，地址分配表的存储方式采用分块存储方式。

此外，需要说明的是，本实施例提供的数据索引方法可以有效地提高数据入库性能，以100万512字节的单据为例，包含12个维度，采用正交多维索引组织数据与SybaseIQ数据库入库性能测试结果如表（一）记录：可以看出，正交多维索引数据插入性能是SybaseIQ的9.84倍。

表（一）

本实施例提供的数据索引方法用过标签数标志位计数值叠加方式进行地址记录的正交运算，以取得相同的地址记录，降低了比较次数的算法复杂度，通过表（二）可以看出，标签叠加方式进行向量交集运算大幅降低了算法复杂度，提升了性能。

表（二）

在电信信令监测、网络性能管理（Service Quanlity Management，SQM）、客户经验管理（Customer Experience Management，CEM）及互联网数据分析中，根据输入的呼叫信息记录单据（Call Detail Record，CDR）计算多维关键指标(Key Performance Indicator，KPI)，挖掘数据中包含的信息。例如，移动用户上网产生的CDR包含终端类型、操作系统类型、设备类型、小区、网关支持节点(Gateway GPRS Support Node)、服务支持节点（Serving GPRS SUPPORTNODE）、浏览访问网站等维度，需要进行多维KPI分析。

请参阅图6a，图6a为本发明实施例提供的多维关键指标分布式存储应用示意图。如图6a所示，本实施例提供的多维KPI分布式存储可以基于数据索引方法实现，即基于本实施例提供的多维索引方法的实现，获取到包括目标数据的单据，对所述单据进行关键指标的计算。其中，多维关键指标的获取可以基于本实施例提供的索引表的获取方式进行计算得出，即先对所述单据进行分区存储，然后对每个分区存储区建立若干个单维索引，将每个分区存储区的若干个单位索引对应的关键指标元数据进行汇总得出每个分区存储区的关键指标，之后再汇总每个分区存储区的关键指标，以获得多维KPI，如图6a所示，获取多维KPI的方法包括如下步骤：

S610，接收数据；

S620，解析数据；

S630，分布式存储计算出KPI；

S640，联机分析处理；

S650，网络应用呈现多维KPI。

其中，执行步骤S630时，可参考图6a显示的虚线框部分，示出了分布式存储计算获得多维KPI的简单过程，主要是在内存或者外部存储介质中将数据中的呼叫信息记录单据CDR分区存储，图中示出了三个分区存储区，分别是CDF1、CDF2以及CDF3，并在每个分区存储区独立建立多个单维索引，图示中在每个分区存储区中示出三个单维索引，即Dimension1 Index、Dimension2 Index、Dimension3Index，然后对每个分布式节点执行计算任务，利用单维维度，获取CDR，计算每个分布式节点的关键指标即进行KPI分析；分布式节点计算完成后，将每个分布式节点的关键指标KPI发送到汇总节点进行汇总；汇总后的多维关键指标KPI存储在联机分析处理数据仓库中，供网络应用呈现多维关键指标KPI。

在电信信令监测、网络性能管理（Service Quanlity Management，简称SQM）、客户经验管理（Customer Experience Management，简称CEM）及互联网数据分析中，根据输入的呼叫信息记录单据（Call Detail Record，简称CDR）计算多维关键指标(Key Performance Indicator，简称KPI)，挖掘数据中包含的信息。例如，移动用户上网产生的CDR包含终端类型、操作系统类型、设备类型、小区、网关(Gateway GPRS Support Node)、服务支持节点（Serving GPRS SUPPORTNODE）、浏览访问网站等维度，需要进行多维详单查询。

请参阅图6b，图6b为本发明实施例提供的数据索引方法在详单存储查询中的应用示意图。如图6b所示，本实施例提供的数据索引方法在详单存储查询中的应用方法如下：

S710、接收数据；

S720、解析数据；

S730、查询详单；

S740、网络应用呈现详单。

其中，步骤S730的执行应基于本实施例提供的数据索引方法实现。如步骤S730指向的虚线框所示，通过本实施例提供的数据索引方法获得包括目标数据的单据后，通过网络应用呈现所述单据。

请参阅图7，图7为本发明实施例二提供的数据索引装置结构图。如图7所示，本实施例提供的数据索引装置包括：第一单元710、第二单元720和第三单元730。

其中，第一单元710，用于获取与N个维度对应的、且相互独立的N个单维索引；N大于等于2；

第二单元720，用于判断N个单维索引包含的地址记录是否有交集；

第三单元730，用于根据第二单元的判断为是的通知获取交集对应的地址记录所指向的数据作为索引目标数据。

本实施例通过第一单元710根据N个维度获取与N个维度对应的、且相互独立的N个单维索引，通过第二单元720判断与维度相对应的N个相互独立的单维索引包含的地址记录是否有交集，以通过第三单元730获取交集相对应的地址记录所指向的数据为索引目标数据。解决了单维索引技术无法满足多维索引组合查询以及多维分析的需求。

作为一种可选的实施方式，第二单元，具体用于判断所述N个单维索引中包含的地址记录是否存在相同地址记录；若存在，则确认所述N个单维索引中包含的地址记录有交集。

作为一种可选的实施方式，请参阅图8，图8为本发明实施例二提供的第二单元的一种结构图，如图8所示，第二单元720具体包括：

第一子单元721，用于获取N个单维索引的地址记录；

第二子单元722，用于对地址记录对应的标签数标志位的计数值加1；

第三子单元723，用于判断地址记录对应的标签数标志位的计数值是否等于N；

第四子单元724，用于根据第三子单元723判断地址记录对应的标签数标志位的计数值等于N的判断通知，选取地址记录对应的标签数标志位的计数值等于N的地址记录作为相同地址记录。

请参阅图9，图9为本发明实施例二提供的第二单元的另一种结构图。如图9所示，基于图7示出的第二单元720具体包括：

第一获取单元7201，用于从N个单维索引中获取第K个单维索引作为当前单维索引，其中，K小于N且K大于零；

第二获取单元7202，用于获取当前单维索引的地址记录；

计数单元7203，用于对与当前单维索引的地址记录相对应的标签数标志位的计数值加1；

第一获取单元7201，还用于从N个单维索引中获取第K+1个单维索引，作为当前单维索引；

控制单元7204，用于判断K+1是否等于N；如果不等于N，则控制第二获取单元7202获取当前单维索引的地址记录；

第一获取单元7201，还用于根据控制单元判断K+1等于N的结果，获取第N个单维索引的地址记录；

控制单元7204，还用于判断第N个单维索引的地址记录相对应的标签数标志位的计数值是否等于N-1；

第一获取单元7201，还用于根据控制单元7204判断第N个单维索引的地址记录相对应的标签数标志位的计数值等于N-1的判断通知，选取第N个单维索引的地址记录相对应的标签数标志位的计数值等于N-1的地址记录，作为相同地址记录。

作为一种可选的实施方式，第二单元还包括初始化单元，用于初始化清零与地址记录对应的标签数标志位的计数值。

作为一种可选的实施方式，数据索引装置还包括：

处理单元，还用于存储每个分区存储区及每个分区存储区对应包含的单维索引至相同的存储处理节点上，以生成包含i个不同存储处理节点的索引表。

作为一种可选的实施方式，索引表包含键值表和地址分配表，地址分配表记录了每个单维索引的键值对应的地址记录，键值表包括每个单维索引的键值及与键值对应的地址分配表的首地址记录的存储地址；

地址记录表示数据记录在分区存储区中的偏移位置，包括记录号和记录长度。

请参阅图10，图10为本发明实施例二提供的又一种数据索引装置结构图。如图10所示，该数据索引装置包括至少一个处理器1001，至少一个网络接口1004，存储器1005，至少一个通信总线1002和用户接口1003。

该通信总线1002用于实现上述组件之间的连接通信;该用户接口1003用于实现与用户交互。其中，该存储器1005可以存储指令，以使处理器1001执行以下流程：

获取与N个维度对应的、且相互独立的N个单维索引；所述N大于等于2。

判断所述N个单维索引中包含的地址记录是否有交集；

作为一种可选的实施方式，处理器1001还可以执行在判断N个单维索引中包含的地址记录是否存在相同地址记录；若存在，则确认所述N个单维索引中包含的地址记录有交集。

作为一种可选的实施方式，处理器1001还可以具体执行以下流程：

对所述地址记录对应的标签数标志位的计数值加1；

作为一种可选的实施方式，处理器1001还可以具体执行如下流程：

B、获取所述当前单维索引的地址记录；

C、对与所述地址记录相对应的标签数标志位的计数值加1；

E、判断K+1是否等于N；如果不等于N则执行步骤B；

F、根据K+1等于N的结果，则获取第N个单维索引的地址记录；

作为一种可选的实施方式，处理器1001对与所述地址记录相对应的标签数标志位进行计数之前，还用于初始化清零与所述地址记录对应的标签数标志位的计数值。

作为一种可选的实施方式，处理器1001获取与N个维度对应的、且相互独立的N个单维索引之前，还执行如下步骤：

根据元数据将若干数据进行分区存储，生成i个分区存储区；

作为一种可选的实施方式，所述索引表包含键值表和地址分配表，所述地址分配表记录了每个单维索引的键值对应的地址记录，所述键值表包括每个单维索引的键值及与所述键值对应的所述地址分配表的首地址记录的存储地址；

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置、模块或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的模块或单元可以是或者也可以不是物理上分开的，作为模块或单元显示的部件可以是或者也可以不是物理模块或单元，即可以位于一个地方，或者也可以分布到多个网络模块或单元上。可以根据实际的需要选择其中的部分或者全部模块或单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能模块或单元可以集成在一个处理模块或单元中，也可以是各个模块或单元单独物理存在，也可以是两个或两个以上模块或单元集成在一个模块或单元中。上述集成的模块或单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块或单元如果以软件功能模块或单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据索引方法，其特征在于，包括：

判断所述N个单维索引中包含的地址记录是否有交集；

若有交集，则获取所述交集对应的地址记录所指向的数据作为索引目标数据；

其中，所述获取与N个维度对应的、且相互独立的N个单维索引之前，所述方法还包括：

根据元数据将若干数据进行分区存储，生成i个分区存储区；

2.如权利要求1所述的数据索引方法，其特征在于，所述判断所述N个单维索引中包含的地址记录是否有交集包括以下步骤：

若存在，则确认所述N个单维索引中包含的地址记录有交集。

3.如权利要求2所述的数据索引方法，其特征在于，所述判断所述N个单维索引包含的地址记录是否存在相同地址记录包括以下步骤：

对所述地址记录对应的标签数标志位的计数值加1；

4.如权利要求2所述的数据索引方法，其特征在于，所述判断所述N个单维索引包含的地址记录是否存在相同地址记录包括以下步骤：

B、获取所述当前单维索引的地址记录；

C、对与所述地址记录相对应的标签数标志位的计数值加1；

E、判断K+1是否等于N；如果不等于N则执行步骤B；

F、根据K+1等于N的结果，则获取第N个单维索引的地址记录；

5.如权利要求3或4所述的数据索引方法，其特征在于，对与所述地址记录相对应的标签数标志位进行计数之前，所述方法还包括：

初始化清零与所述地址记录对应的标签数标志位的计数值。

6.如权利要求5所述的数据索引方法，其特征在于，所述索引表包含键值表和地址分配表，所述地址分配表记录了每个单维索引的键值对应的地址记录，所述键值表包括每个单维索引的键值及与所述键值对应的存储地址，与所述键值对应的存储地址用于指向所述键值对应的地址记录；

7.如权利要求6所述的数据索引方法，其特征在于，所述键值表的存储方式包括有序线性存储方式或者二叉树存储方式。

8.如权利要求7所述的数据索引方法，其特征在于，所述地址分配表的存储方式采用分块存储方式。

9.一种数据索引装置，其特征在于，包括：

第三单元，用于获取所述交集对应的地址记录所指向的数据作为索引目标数据；

其中，所述装置还包括：

10.如权利要求9所述的数据索引装置，其特征在于，所述第二单元，具体用于判断所述N个单维索引中包含的地址记录是否存在相同地址记录；若存在，则确认所述N个单维索引中包含的地址记录有交集。

11.如权利要求10所述的数据索引装置，其特征在于，所述第二单元包括：

第一子单元，用于获取所述N个单维索引的地址记录；

12.如权利要求10所述的数据索引装置，其特征在于，所述第二单元包括：

第二获取单元，用于获取所述当前单维索引的地址记录；

13.如权利要求11或12所述数据索引装置，其特征在于，所述第二单元还包括：

14.如权利要求13所述的数据索引装置，其特征在于，所述索引表包含键值表和地址分配表，所述地址分配表记录了每个单维索引的键值对应的地址记录，所述键值表包括每个单维索引的键值及与所述键值对应的存储地址，与所述键值对应的存储地址用于指向所述键值对应的地址记录；

15.如权利要求14所述的数据索引装置，其特征在于，所述键值表的存储方式包括有序线性存储方式或者二叉树存储方式。

16.如权利要求15所述的数据索引装置，其特征在于，所述地址分配表的存储方式采用分块存储方式。