CN108182209A - 一种数据索引方法、及设备 - Google Patents

一种数据索引方法、及设备 Download PDF

Info

Publication number
CN108182209A
CN108182209A CN201711365161.0A CN201711365161A CN108182209A CN 108182209 A CN108182209 A CN 108182209A CN 201711365161 A CN201711365161 A CN 201711365161A CN 108182209 A CN108182209 A CN 108182209A
Authority
CN
China
Prior art keywords
data
train value
index
file
retrieved
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711365161.0A
Other languages
English (en)
Inventor
何庆
邓晓东
许敬伟
冯运波
江为强
安宝宇
周晓阳
汤泰鼎
魏星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Guangdong Co Ltd
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
China Mobile Group Guangdong Co Ltd
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Guangdong Co Ltd, Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical China Mobile Group Guangdong Co Ltd
Priority to CN201711365161.0A priority Critical patent/CN108182209A/zh
Publication of CN108182209A publication Critical patent/CN108182209A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/134Distributed indices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据索引方法及设备,其中数据索引方法包括:根据多个文件的列值构建索引数据;当接收到检索条件时,确定需要检索的列值;根据确定的列值在索引数据中进行检索,得到包含需要检索的列值的文件。本发明实施例提供的数据索引方法、及设备,通过构建索引数据,在接收到检索条件时,能够快速检索到包含需要检索的列值的文件,支持海量数据索引,同时不影响原始数据的存储结构,可适配多种不同的原始数据格式。

Description

一种数据索引方法、及设备
技术领域
本发明涉及数据存储和管理领域,特别涉及一种数据索引方法、及设备。
背景技术
随着信息化的发展和大数据时代的来临,数据量呈爆炸式增长,为了支撑海量数据环境下数据的快速检索,数据索引的设计成为至关重要的环节。
在海量数据环境下,由于数据量过大,通常只为近期的数据建立索引并进行缓存,从而随着时间的推移,索引结构会有大量的增加和删除操作;另一方面,由于数据量过大,索引结构的设计需要尽量提高内存利用率。传统关系型数据中,通常采用B+Tree等结构来实现数据的索引结构,但该方式存在内存占用量较高、索引删除性能低等问题,不适用于海量数据环境下的索引管理。
在大数据技术背景下,数据存储和管理系统通常将外部数据源以文件方式进行存储和管理。一般情况下,存储系统将若干条记录(通常在100W级别以上)组织存储,形成一个文件,存储到如EXT4、HDFS等文件系统中。在系统总数据量达到千亿级别情况下,会产生数万甚至几十万个文件。在没有建立索引时,系统只能逐个扫描文件,以查找符合检索条件的数据,因此性能极低。
在现有技术方案中,1)索引一般与原始数据交叉共存,不适用与大数据环境下的scheme-on-read机制;2)索引通常指向每条记录的具体位置,粒度过细,难以支撑海量数据索引,同时难以支撑高效的批量删除机制。
发明内容
为了支撑海量数量索引,更快的检索到符合检索条件的文件,本发明提供了一种数据索引方法、及设备。
本发明提供的数据索引方法,包括:
根据多个文件的列值构建索引数据;
当接收到检索条件时,确定需要检索的列值;
根据确定的列值在所述索引数据中进行检索,得到包含所述需要检索的列值的文件。
可选的,在本发明所述的数据索引方法中,所述根据多个文件的列值构建索引数据,包括:
获取多个文件的原始数据,并分别对每个文件的原始数据进行解析得到该文件的列值;
对多个文件的列值进行合并、剔除重复列值、及排序得到列值有序表;
以所述文件的数量为行的数量,以所述列值有序表中列值的数量为列的数量,构建矩阵;
分别根据每个文件中的列值,在所述矩阵中填入相应的数据,表示每个文件是否包含所述列值有序表中的列值。
可选的,在本发明所述的数据索引方法中,当需要检索的列值为多个,且多个列值之间存在交集或/和并集关系时,根据确定的列值在所述索引数据中进行检索,得到包含所述需要检索的列值的文件,包括:
分别根据确定的每个列值在所述索引数据中进行检索,得到与每个列值对应的文件的位图信息;
将若干个与列值对应的文件的位图信息按照列值之间的关系进行交集或/和并集计算,得到符合检索条件的位图信息;
将所述符合检索条件的位图信息转换为包含所述需要检索的列值的文件。
可选的,在本发明所述的数据索引方法中,根据确定的列值在所述索引数据中进行检索,包括:
根据确定的列值利用预设的查询方法在所述索引数据中进行检索。
可选的,在本发明所述的数据索引方法中,所述预设的查询方法包括以下中一项或两项:二分法、跳表法。
可选的,在本发明所述的数据索引方法中,还包括:将所述的矩阵中的行数据置零,以删除所述行数据对应的文件的所有索引数据;或/和将所述的矩阵中的列数据置零,以删除所述列数据对应的列值的所有索引数据。
可选的,在本发明所述的数据索引方法中,在根据多个文件的列值构建索引数据之后,还包括:对所述索引数据利用预设的压缩算法进行压缩。
可选的,在本发明所述的数据索引方法中,在根据多个文件的列值构建索引数据之后,还包括:将所述索引数据进行保存。
本发明还提供了一种数据索引设备,所述数据索引设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的数据索引方法的步骤。
本发明的有益效果如下:
本发明实施例提供的数据索引方法、及设备,通过构建索引数据,在接收到检索条件时,能够快速检索到包含需要检索的列值的文件,支持海量数据索引,同时不影响原始数据的存储结构,可适配多种不同的原始数据格式。
附图说明
图1为本发明第一方法实施例中数据索引方法的流程示意图;
图2为本发明第二方法实施例中构建索引数据的示意图;
图3为本发明数据索引系统的结构示意图;
图4为本发明实例1中数据索引方法的流程示意图;
图5为本发明实例2中索引数据构建方法的流程示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了解决现有技术中海量环境下索引管理中存在的内存占用量高、索引删除性能低的问题,本发明提供了一种数据索引方法、及设备。以下结合附图对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
根据本发明的第一方法实施例,提供了一种数据索引方法,图1为本发明第一方法实施例中数据索引方法的流程示意图,如图1所示,本发明第一方法实施例的数据索引方法,包括以下步骤:
S101:根据多个文件的列值构建索引数据。
可选的,在本发明第一方法实施例所述的数据索引方法中,在根据多个文件的列值构建索引数据之后,还包括:对所述索引数据进行保存。
S102:当接收到检索条件时,确定需要检索的列值。
S103:根据确定的列值在所述索引数据中进行检索,得到包含所述需要检索的列值的文件。
可选的,在本发明所述的数据索引方法中,当需要检索的列值为多个,且多个列值之间存在交集或/和并集关系时,根据确定的列值在所述索引数据中进行检索,得到包含所述需要检索的列值的文件,包括:
分别根据确定的每个列值在所述索引数据中进行检索,得到与每个列值对应的文件的位图信息;
将若干个与列值对应的文件的位图信息按照列值之间的关系进行交集或/和并集计算,得到符合检索条件的位图信息;
将所述符合检索条件的位图信息转换为包含所述需要检索的列值的文件。
可选的,在本发明所述的数据索引方法中,根据确定的列值在所述索引数据中进行检索,包括:根据确定的列值利用预设的查询方法在所述索引数据中进行检索。所述预设的查询方法包括以下中一项或两项:二分法、跳表法,利用二分法或跳表法均能够实现高效检索。
本发明第一方法实施例提供的数据索引方法,在接收到检索条件时,能够快速检索到包含需要检索的列值的文件,支持海量数据索引,同时不影响原始数据的存储结构,可适配多种不同的原始数据格式。
根据本发明的第二方法实施例,提供了一种数据索引方法。本发明第二方法实施例与第一方法实施例的不同之处在于,在本发明第二方法实施例的数据索引方法中,给出了根据多个文件的列值构建索引数据的操作方式。
具体的,所述根据多个文件的列值构建索引数据,包括以下步骤:
获取多个文件的原始数据,并分别对每个文件的原始数据进行解析得到该文件的列值;
对多个文件的列值进行合并、剔除重复列值、及排序得到列值有序表;
以所述文件的数量为行的数量,以所述列值有序表中列值的数量为列的数量,构建矩阵;
分别根据每个文件中的列值,在所述矩阵中填入相应的数据,表示每个文件是否包含所述列值有序表中的列值。
图2为本发明第二方法实施例中构建索引数据的示意图,在图2中文件标识即为矩阵。例如,系统中原始数据分为m个文件进行存储,对于文件i,其j个KEY值形成一个列值有序表值对,形如<KEYi,1,KEYi,2,…KEYi,j>->Filei。在索引创建过程中,系统设置每x个文件合并生成一个索引,x个文件合并后生成KEY值个数为k个(k≥j),则系统形成索引m/x取顶个,每个索引形如<KEY1,KEY2,…,KEYk-1,KEYk>->Bitset[k][x]。
其中Bitset[i][j]表示第i个文件中是否包含KEYj。其中<KEY1,KEY2,…,KEYk-1,KEYk>可以为一个有序数组或跳表结构,从而支持高效的检索操作。Bitset[k][x]可以通过稀疏矩阵压缩等压缩算法,进一步降低内存占用量。
在本发明第二方法实施例中,如图2所示,在合并前,每个文件对应的列值形成一个单独的列值有序表;在合并过程中,多个列值有序表进行归并排序,形成一个大的列值有序表,列值有序表中的每个列值对应矩阵中的一列,每个位i代表文件i中是否包含该列值,例如TRUE表示包含,否则,表示不包含。合并后,列值(key值)为一个大的列值有序表,文件标识(矩阵)为一个二维位图v[][],其中v[i][j]表示第i个文件中是否存在值为第j个key的数据,若TRUE,表示包含,否则,表示不包含。
在内存占用方面,合并后的索引,一方面将多个文件中重复出现的列值(key值)进行合并,减少列值的数据量,另外,使用一个位来表示文件和key值的包含关系,从两个方面减少内存的占用量。
可选的,在本发明第二方法实施例所述的数据索引方法中,在根据多个文件的列值构建索引数据之后,还包括:对所述索引数据利用预设的压缩算法进行压缩。
本发明第二方法实施例提供的数据索引方法,通过构建索引数据,在接收到检索条件时,能够快速检索到包含需要检索的列值的文件,同时在构建索引数据时,形成的是列值到文件的映射,并通过列值的有序组织,能够支持精确检索、范围检索和前缀检索,而且利用矩阵压缩索引,可以减少对系统内存资源的占用。
根据本发明的第三方法实施例,提供了一种数据索引方法。本发明第三方法实施例在第一方法实施例的基础上还包括以下步骤:
将所述的矩阵中的行数据置零,以删除所述行数据对应的文件的所有索引数据;
或/和将所述的矩阵中的列数据置零,以删除所述列数据对应的列值的所有索引数据。
例如将二维位图v[][]中的行数据置零,即当v[0][1…n]时,高效的删除文件i对应的索引数据;将二维位图v[][]中的列数据置零,即当v[1…n][0]时,高效的删除列值j对应的索引数据;当二维位图v[][]全部置为0时,删除整个索引并释放内存和磁盘空间。另外,系统同时通过控制合并文件的个数,若干个文件合并生成一个独立索引,系统中同时存在多个这样的索引,从而以粗粒度进行索引的删除。综合上述方法,提高文件粒度索引删除性能。
本发明第三方法实施例提供的数据索引方法,能提高索引数据删除的效率,适用于海量数据环境下的索引管理。
根据本发明的方法实施例,本发明实施例还提供了一种数据索引设备,所述数据索引设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如下步骤:
步骤11:根据多个文件的列值构建索引数据。
可选的,所述根据多个文件的列值构建索引数据,包括:
获取多个文件的原始数据,并分别对每个文件的原始数据进行解析得到该文件的列值;
对多个文件的列值进行合并、剔除重复列值、及排序得到列值有序表;
以所述文件的数量为行的数量,以所述列值有序表中列值的数量为列的数量,构建矩阵;
分别根据每个文件中的列值,在所述矩阵中填入相应的数据,表示每个文件是否包含所述列值有序表中的列值。
可选的,所述计算机程序被所述处理器执行时还实现如下步骤,在根据多个文件的列值构建索引数据之后,对所述索引数据利用预设的压缩算法进行压缩。
可选的,所述计算机程序被所述处理器执行时还实现如下步骤,在根据多个文件的列值构建索引数据之后,还包括:对所述索引数据进行保存。
步骤12:当接收到检索条件时,确定需要检索的列值。
步骤13:根据确定的列值在所述索引数据中进行检索,得到包含所述需要检索的列值的文件。
可选的,当需要检索的列值为多个,且多个列值之间存在交集或/和并集关系时,根据确定的列值在所述索引数据中进行检索,得到包含所述需要检索的列值的文件,包括:
分别根据确定的每个列值在所述索引数据中进行检索,得到与每个列值对应的文件的位图信息;
将若干个与列值对应的文件的位图信息按照列值之间的关系进行交集或/和并集计算,得到符合检索条件的位图信息;
将所述符合检索条件的位图信息转换为包含所述需要检索的列值的文件。
可选的,根据确定的列值在所述索引数据中进行检索,包括:
根据确定的列值利用预设的查询方法在所述索引数据中进行检索。
可选的,所述计算机程序被所述处理器执行时还实现如下步骤:将所述的矩阵中的行数据置零,以删除所述行数据对应的文件的所有索引数据;或/和将所述的矩阵中的列数据置零,以删除所述列数据对应的列值的所有索引数据。
本发明还提供了一种数据索引系统(属于数据索引设备的一部分),图3为本发明数据索引系统的结构示意图,如图3所示,包括原始数据存储模块30、索引构建模块32、索引存储模块34、索引检索模块36。
索引构建模块32读取原始数据存储模块30中的原始数据,进行解析,并创建索引;索引构建模块32将创建的索引输入到索引存储模块34,存储新创建的索引数据,并根据内存设置,删除旧数据;索引检索模块36根据外部系统的检索请求,读取索引存储模块34的索引数据,进行检索,并返回对应的文件列表。
即,所述索引构建模块32,用于读取原始数据存储模块30中的原始数据,进行解析,并根据多个文件的列值构建索引数据;
所述索引存储模块34,用于存储索引构建模块32构建的索引数据;
所述索引检索模块36,用于当接收到检索条件时,确定需要检索的列值,根据确定的列值在所述索引数据中进行检索,得到包含所述需要检索的列值的文件。
为了更加详细的说明本发明的数据索引方法,给出实例1。图4为本发明实例1中数据索引方法的流程示意图,如图4所示,包括以下步骤:
步骤401:根据多个文件的列值构建索引数据;
步骤402:获取外部系统输入的检索条件;
步骤403:解析检索条件,确定需要检索的多个列值;
步骤404:每个列值独立进行检索,返回对应的文件列表位图信息,每个列值检索为列值有序表的查找操作,可使用二分法或通过跳表等技术实现高效的数据检索;
步骤405:多个返回的文件列表位图信息根据检索条件的交并关系进行交集或并集运算;
步骤406:将位图信息转换为其对应的文件列表,并返回。
为了更加详细的说明本发明实施例中索引数据的构建方法,给出实例2。图5为本发明实例2中索引数据构建方法的流程示意图,如图5所示,包括以下步骤:
步骤501:接收业务系统原始数据,解析原始数据,读取所需创建索引的列对应的值;
步骤502:将该文件中的值进行排序,形成列值有序表,形如<K1,K2,…KN>->FileName;
步骤503:将上述列值有序表中的列值批量添加并合并到索引中;
步骤504:判断缓存索引量是否达到内存上限,如果是,转步骤505执行,否则,转步骤506执行;
步骤505:将旧数据对应的索引剔除,释放对应的内存空间;
步骤506:存储新生成的索引数据。
本发明提供的数据索引方法及设备可应用于原始数据为文件存储格式条件下,包括但不限于HDFS、EXT3、EXT4,主要应用于大数据环境下的稀疏索引组织,能够适配大数据Scheme-on-read的机制,不影响原始数据的存储结,支持精确检索、范围检索、前缀检索,同时支持高效的批量删除机制。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (9)

1.一种数据索引方法,其特征在于,包括:
根据多个文件的列值构建索引数据;
当接收到检索条件时,确定需要检索的列值;
根据确定的列值在所述索引数据中进行检索,得到包含所述需要检索的列值的文件。
2.如权利要求1所述的数据索引方法,其特征在于,所述根据多个文件的列值构建索引数据,包括:
获取多个文件的原始数据,并分别对每个文件的原始数据进行解析得到该文件的列值;
对多个文件的列值进行合并、剔除重复列值、及排序得到列值有序表;
以所述文件的数量为行的数量,以所述列值有序表中列值的数量为列的数量,构建矩阵;
分别根据每个文件中的列值,在所述矩阵中填入相应的数据,表示每个文件是否包含所述列值有序表中的列值。
3.如权利要求1所述的数据索引方法,其特征在于,当需要检索的列值为多个,且多个列值之间存在交集或/和并集关系时,根据确定的列值在所述索引数据中进行检索,得到包含所述需要检索的列值的文件,包括:
分别根据确定的每个列值在所述索引数据中进行检索,得到与每个列值对应的文件的位图信息;
将若干个与列值对应的文件的位图信息按照列值之间的关系进行交集或/和并集计算,得到符合检索条件的位图信息;
将所述符合检索条件的位图信息转换为包含所述需要检索的列值的文件。
4.如权利要求1所述的数据索引方法,其特征在于,根据确定的列值在所述索引数据中进行检索,包括:
根据确定的列值利用预设的查询方法在所述索引数据中进行检索。
5.如权利要求4所述的数据索引方法,其特征在于,所述预设的查询方法包括以下中一项或两项:二分法、跳表法。
6.如权利要求1所述的数据索引方法,其特征在于,还包括:
将所述的矩阵中的行数据置零,以删除所述行数据对应的文件的所有索引数据;
或/和将所述的矩阵中的列数据置零,以删除所述列数据对应的列值的所有索引数据。
7.如权利要求1所述的数据索引方法,其特征在于,在根据多个文件的列值构建索引数据之后,还包括:对所述索引数据利用预设的压缩算法进行压缩。
8.如权利要求1所述的数据索引方法,其特征在于,在根据多个文件的列值构建索引数据之后,还包括:将所述索引数据进行保存。
9.一种数据索引设备,其特征在于,所述数据索引设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至8任一项所述的数据索引方法的步骤。
CN201711365161.0A 2017-12-18 2017-12-18 一种数据索引方法、及设备 Pending CN108182209A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711365161.0A CN108182209A (zh) 2017-12-18 2017-12-18 一种数据索引方法、及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711365161.0A CN108182209A (zh) 2017-12-18 2017-12-18 一种数据索引方法、及设备

Publications (1)

Publication Number Publication Date
CN108182209A true CN108182209A (zh) 2018-06-19

Family

ID=62546377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711365161.0A Pending CN108182209A (zh) 2017-12-18 2017-12-18 一种数据索引方法、及设备

Country Status (1)

Country Link
CN (1) CN108182209A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189763A (zh) * 2018-09-17 2019-01-11 北京锐安科技有限公司 一种数据存储方法、装置、服务器及存储介质
CN112214521A (zh) * 2020-11-20 2021-01-12 深圳前海微众银行股份有限公司 规则查询方法、装置、设备及计算机存储介质
CN117077179A (zh) * 2023-10-11 2023-11-17 中国移动紫金(江苏)创新研究院有限公司 基于差分隐私排序的可搜索加密方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102323947A (zh) * 2011-09-05 2012-01-18 东北大学 环形架构数据库上预连接表的生成方法
CN102750356A (zh) * 2012-06-11 2012-10-24 清华大学 一种键值库辅助索引的构建与管理方法
CN102760165A (zh) * 2012-06-12 2012-10-31 上海方正数字出版技术有限公司 一种使用位图索引的全文检索方法和装置
CN104346331A (zh) * 2013-07-23 2015-02-11 北大方正集团有限公司 Xml数据库的检索方法及系统
CN106557499A (zh) * 2015-09-25 2017-04-05 中兴通讯股份有限公司 HBase二级索引创建方法和装置
US9805100B1 (en) * 2016-04-29 2017-10-31 Pilosa Corp. Bitmap index including internal metadata storage
WO2017189020A1 (en) * 2016-04-29 2017-11-02 Umbel Corporation Systems and methods of using a bitmap index to determine bicliques

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102323947A (zh) * 2011-09-05 2012-01-18 东北大学 环形架构数据库上预连接表的生成方法
CN102750356A (zh) * 2012-06-11 2012-10-24 清华大学 一种键值库辅助索引的构建与管理方法
CN102760165A (zh) * 2012-06-12 2012-10-31 上海方正数字出版技术有限公司 一种使用位图索引的全文检索方法和装置
CN104346331A (zh) * 2013-07-23 2015-02-11 北大方正集团有限公司 Xml数据库的检索方法及系统
CN106557499A (zh) * 2015-09-25 2017-04-05 中兴通讯股份有限公司 HBase二级索引创建方法和装置
US9805100B1 (en) * 2016-04-29 2017-10-31 Pilosa Corp. Bitmap index including internal metadata storage
WO2017189020A1 (en) * 2016-04-29 2017-11-02 Umbel Corporation Systems and methods of using a bitmap index to determine bicliques

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189763A (zh) * 2018-09-17 2019-01-11 北京锐安科技有限公司 一种数据存储方法、装置、服务器及存储介质
CN112214521A (zh) * 2020-11-20 2021-01-12 深圳前海微众银行股份有限公司 规则查询方法、装置、设备及计算机存储介质
CN117077179A (zh) * 2023-10-11 2023-11-17 中国移动紫金(江苏)创新研究院有限公司 基于差分隐私排序的可搜索加密方法、装置、设备及介质
CN117077179B (zh) * 2023-10-11 2024-01-02 中国移动紫金(江苏)创新研究院有限公司 基于差分隐私排序的可搜索加密方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US11238098B2 (en) Heterogenous key-value sets in tree database
CN104794123B (zh) 一种为半结构化数据构建NoSQL数据库索引的方法及装置
US9858282B2 (en) Information searching apparatus, information managing apparatus, information searching method, information managing method, and computer product
CN104536959B (zh) 一种Hadoop存取海量小文件的优化方法
TWI603211B (zh) Construction of inverted index system based on Lucene, data processing method and device
CN110291518A (zh) 合并树无用单元指标
CN105989129B (zh) 实时数据统计方法和装置
CN103473239B (zh) 一种非关系型数据库数据更新方法和装置
US20160055191A1 (en) Executing constant time relational queries against structured and semi-structured data
CN110268399A (zh) 用于维护操作的合并树修改
CN103914483B (zh) 文件存储方法、装置及文件读取方法、装置
CN107169083A (zh) 公安卡口海量车辆数据存储与检索方法及装置、电子设备
CN103678491A (zh) 一种基于Hadoop中小文件优化和倒排索引的方法
CN107491487A (zh) 一种全文数据库架构及位图索引创建、数据查询方法、服务器及介质
CN108021717B (zh) 一种轻量级嵌入式文件系统的实现方法
CN103279502B (zh) 一种具有与并行文件系统结合的重复数据删除文件系统的架构及方法
CN108182209A (zh) 一种数据索引方法、及设备
CN106991102A (zh) 倒排索引中键值对的处理方法及处理系统
CN112148680B (zh) 一种基于分布式图数据库的文件系统元数据管理方法
CN107526550A (zh) 一种基于日志结构合并树的两阶段合并方法
CN102169491B (zh) 一种多数据集中重复记录动态检测方法
CN103198150A (zh) 一种大数据索引方法及系统
JPWO2013046667A1 (ja) 情報システム、その管理方法およびプログラム、データ処理方法およびプログラム、ならびに、データ構造
CN107577714A (zh) 一种基于HBase的数据查询方法
CN101833511B (zh) 数据管理方法、装置和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180619

RJ01 Rejection of invention patent application after publication