CN105631003A - 支持海量数据分组统计的智能索引构建、查询及维护方法 - Google Patents
支持海量数据分组统计的智能索引构建、查询及维护方法 Download PDFInfo
- Publication number
- CN105631003A CN105631003A CN201511001092.6A CN201511001092A CN105631003A CN 105631003 A CN105631003 A CN 105631003A CN 201511001092 A CN201511001092 A CN 201511001092A CN 105631003 A CN105631003 A CN 105631003A
- Authority
- CN
- China
- Prior art keywords
- index
- grouping
- data
- value
- chain table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种支持海量数据分组统计的智能索引构建、查询及维护方法,属于大数据处理技术领域。本方法建立了智能索引的数据组织结构,以使智能索引支持海量数据分组统计;智能索引的数据组织结构包括索引元数据和索引数据,索引元数据是创建索引的依据,包括分组列簇和统计列簇,索引数据是对原始数据构建的索引。本方法在写入数据时在内存中实时创建智能索引,利用智能索引进行分组统计的操作,也可快捷对智能索引进行删除。本发明实现了对海量数据的实时自动创建索引,在对海量数据进行分组统计时极大降低了磁盘I/O和计算时间,从而大幅提高了分组统计效率,并实现了对索引数据全生命周期的自动管理。
Description
技术领域
本发明涉及一种支持海量数据分组统计的智能索引构建、查询及维护方法,属于大数据处理技术领域。
背景技术
随着计算机技术的不断发展和信息化程度的不断提高,数据量迅速增长,面向海量数据存储及应用也随之蓬勃发展,大数据应用越来越广泛。如,在网络安全上,使用大数据技术分析网络攻击行为;在电子商务上,使用大数据技术分析用户购物喜好或最受青睐的商品;在城市建设上,利用大数据技术构建智慧城市,方便人民出行。诸如此类,大数据技术在建设节约型社会,提高生成效率等方面起到了积极的推动作用。
但随着数据量的持续增大和大数据应用的不断发展,对大数据处理能力的要求越来越高。在海量数据分析应用中,对数据分组统计是常用的应用模式,其处理效率直接影响了业务应用。目前常用的分组统计方法主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总。这些方法的主要特点是对涉及到的数据全盘扫描,其对系统资源,特别是I/O会有极大的占用,从而对整个存储系统带来巨大压力,其统计效率难以应对业务需求。因此,通过构建索引,降低磁盘I/O开销,成为提高分组统计效率需要解决的关键问题。
发明内容
为提高分组统计效率,降低磁盘I/O开销,本发明提供了一种支持分组统计的智能索引构建、查询和维护方法。
本发明提供的支持海量数据分组统计的智能索引构建、查询和维护方法,通过如下四方面实现:
第一方面,建立智能索引的数据组织结构,以使智能索引支持海量数据分组统计。
智能索引的数据组织结构包括索引元数据和索引数据。索引元数据是创建索引的依据,包括分组列簇和统计列簇。分组列簇采用二维表存储,存储信息包括分组字段名称、分组字段类型和分组方式;分组字段类型包括整型、字符型和时间类型,分组方式包括区间、等值和哈希三种方式。统计列簇采用二维表存储,存储信息包括统计字段名称、统计字段类型和统计方式;统计字段类型包括整型、字符型和时间类型,统计方式包括聚合、平均值、最大值、最小值、方差和求和。索引数据是对原始数据构建的索引,一个原始数据块对应一个索引数据块,每个索引数据块包括分组数值区和统计数值区两部分。分组数值区由多个字典组成,一个字典对应一个分组字段,每个字典包括分组字段值及其应用的位置ID,分组字段值和位置ID均使用有序链表存储;统计数值区根据位置ID分段按行存储,每个段按ID排序,使用有序链表存储。
第二方面,在写入数据时在内存中实时创建智能索引。
首先根据索引元数据确定分组字段和统计字段,然后对每条原始记录在内存中计算,包括对分组字段按分组方式计算和对统计字段按统计方式计算,更新维护好分组数值区链表和统计数值区链表,最终将索引数据持久化到磁盘。
第三方面,利用智能索引进行分组统计的操作。
首先通过判定器判读本次统计是否可以使用智能索引,当能使用时,通过执行器读取索引数据,最后通过汇聚器对分组值进行汇聚计算。
第四方面,实现对智能索引的删除操作。
预设原始数据与索引数据物理存储规则,根据待删除的原始数据块存储路径,来构造索引数据存储路径,将建立的索引数据删除。
本发明提出的支持海量数据分组统计的智能索引构建、查询及维护方法,相对于现有技术来说,实现了对海量数据的实时自动创建索引,在对海量数据进行分组统计时极大降低了磁盘I/O和计算时间,从而大幅提高了分组统计效率,并实现了对索引数据全生命周期的自动管理,符合目前的大数据分析应用需求,在大数据处理领域具有很强的实用性和应用范围,具有广阔的应用前景。
附图说明
图1为本发明支持海量数据分组统计的智能索引的数据组织结构示意图;
图2为本发明在存储备份数据时智能索引创建的流程图;
图3为本发明利用智能索引进行分组统计的操作流程图;
图4为智能索引删除的操作流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图,对根据本发明一个实施例的层次分段式的备份数据组织管理方法进一步详细说明。
本发明的支持海量数据分组统计的智能索引构建、查询及维护方法,包括四个实现方面:(1)建立支持海量数据分组统计的智能索引的数据组织结构;(2)智能索引创建操作;(3)利用智能索引进行分组统计的操作;(4)实现对智能索引的删除操作。通过本发明方法,可有效降统计时的磁盘I/O及系统计算资源,提高对大数据分组统计的效率。
图1给出了本发明支持海量数据分组统计的智能索引的数据组织结构示意图。
一种实现例中,智能索引采用如图1所示的数据结构来实现。智能索引包括索引元数据和索引数据两部分。其中,索引元数据是对索引的描述,是创建索引的依据。索引元数据包括分组列簇和统计列簇两部分。分组列簇采用二维表存储,存储信息包括分组字段名称、分组字段类型和分组方式,分组字段类型包括整型、字符型和时间类型,分组方式包括区间、等值和哈希三种方式。统计列簇采用二维表存储,存储信息包括统计字段名称、统计字段类型和统计方式,统计字段类型包括整型、字符型和时间类型,统计方式包括聚合、平均值、最大值、最小值、方差和求和。索引数据是对原始数据构建的索引,一个原始数据块对应一个索引数据块,每个索引数据块包括分组数值区和统计数值区两部分。分组数值区由多个字典组成,一个字典对应一个分组字段,每个字典包括分组字段值及其应用的位置ID,分组字段值和位置ID均使用有序链表存储。统计数值区根据位置ID分段按行存储,每个段按ID排序。
图1所示示例中,统计列簇的字段有NAME(名称)和NUM(数量),字符类型分别为char和Int,统计方式分别为Count(计数)和Sum(求和);分组列簇的字段包括CITY(城市)和TIME(时间),字符类型分别为char和Int,分组方式分别为等值和区间。图1也给出了一个依据该索引元数据所构建的一个索引数据块,例如,字段CITY的值包括有ZB、JN、QD、WF和HZ,均为某城市代码简写,每个字段值的应用的位置ID以链表组织,例如QD所应用的位置ID为4和5。在统计数值区根据位置ID分段按行存储,示例中分为3个段,每段中给出统计字段按所设置的统计方式得到的统计值,例如段1中的位置ID1对NAME按Count方式统计的值为20。
在写入数据时实时创建智能索引,通过智能索引创建操作。首先根据索引元数据描述,确定分组字段和统计字段,然后对每条原始记录在内存中计算,包括对分组字段按分区方式计算和对统计字段按统计方式计算,维护好分组数值区链表和统计数值区链表,最终将索引数据持久化到磁盘。图2示出了智能索引创建过程,具体步骤如下:
步骤201:读取索引元数据,并初始化索引数据存储结构;
步骤202:判断索引数据是否可以持久化到磁盘上,如果需要持久化到磁盘,则转到步骤206,否则转到步骤203。索引数据持久化到磁盘上的判断标准为其对应的原始数据块已经被稳定写入磁盘;
步骤203:读取下一条原始数据;
步骤204:根据分组方式,计算每个分组字段的分组值。计算分组值K,K依据分区方式计算得出:如果是等值方式,则K为字段值V;如果是区间方式,则K是通过字段值V计算得出,计算方法为字段值/区间跨度。然后将分组值K更新到分组数值区链表中,并按分组字段值进行排序,保持链表有序;
步骤205:计算统计值。根据所设定的统计方式,计算每个统计字段的统计值,并更新到统计数值区链表中,并位置ID进行排序,保持链表有序,转到步骤202;
步骤206:将统计数值区链表写入文件中,并按链表ID分段,依据数量分段,每个段内数量不大于预设数量N,每个段生成一个文件;
步骤207:将分组数值区链表写入文件中,并按分组字段分成不同字典链表,每个字典生成一个文件。
利用本发明提供的智能索引数据组织结构,可以从智能索引中获取对应数据的分组统计值,避免大量的I/O操作。首先通过判定器判读本次统计是否可以使用智能索引;然后通过执行器读取索引数据;最后通过汇聚器对分组值进行汇聚计算。从智能索引中获取对应数据的分组统计值,避免大量数据扫描而带来的I/O操作,同时由于统计值已经预先计算,节省了大量计算时间,极大提高了统计速度。
图3给出了利用智能索引进行分组统计的操作流程图,该步骤执行的输入为需要进行查询的数据块和查询语法树,具体步骤如下:
步骤301:读取索引元数据,包括分组列簇信息和统计列簇信息;
步骤302:解析查询语法树;
步骤303:判断是否可以使用智能索引,如果可以则执行步骤304,否则退出。可以使用智能索引的标准是,本次查询中的分组字段必须包含在索引元数据中分组字段中,且分组类型一致;本次查询中的统计字段必须包含在索引元数据中的统计字段中,且统计类型一致。
步骤304:将分组字段对应的字典文件一次读入到内存中;
步骤305:依次遍历字典文件的分组字段值;
步骤306:提取每个分组字段值对应的ID链表;
步骤307:根据ID链表,将对应的段文件读取到内存中;
统计数值区一个段存储的文件称为段文件;
步骤308:对每个ID链表对应的统计值按统计列分别进行汇聚计算;
例如图1示例中,对NAME按Count方式统计,对NUM按Sum方式统计。
步骤309:合并分组结果。
实现对智能索引的删除操作。索引数据块与原始数据块是一一对应关系,因此可基于对原始数据块的生命周期管理实现对索引数据块的管理。
图4给出了智能索引删除的操作流程图,该流程为对一个数据块对应的智能索引的删除操作,多个数据块的智能索引数据的删除可以通过重复执行该过程来实现,具体步骤如下:
步骤401:预设原始数据与索引数据物理存储规则,对应关系可采用物理存储目录对应表示,如原始数据块存储路径为~/shard/f1,对应智能索引块存储在~/index/f1,两个“~”表示相同路径;
步骤402:获取待删除的原始数据块存储路径,根原始数据存储路径构造索引数据存储路径;
步骤403:判断是否已经建立了索引数据,如果已经建立则执行步骤404,否则退出;
步骤404:判断索引数据是否正在被读,没有被读,则执行步骤405,否则退出;
步骤405:将索引数据块删除。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。
Claims (4)
1.一种支持海量数据分组统计的智能索引构建、查询及维护方法,其特征在于,通过如下四方面实现:
第一方面,建立智能索引的数据组织结构;
智能索引的数据组织结构包括索引元数据和索引数据;
索引元数据是创建索引的依据,包括分组列簇和统计列簇;分组列簇采用二维表存储,存储信息包括分组字段名称、分组字段类型和分组方式;统计列簇采用二维表存储,存储信息包括统计字段名称、统计字段类型和统计方式;分组字段类型和统计字段类型均包括整型、字符型和时间类型,分组方式包括区间、等值和哈希,统计方式包括聚合、平均值、最大值、最小值、方差和求和;
索引数据是对原始数据构建的索引,一个原始数据块对应一个索引数据块,每个索引数据块包括分组数值区和统计数值区两部分;分组数值区由字典组成,一个字典对应一个分组字段,每个字典包括分组字段值及应用的位置ID,分组字段值和位置ID均使用有序链表存储;统计数值区根据位置ID分段按行存储,每个段按位置ID排序,使用有序链表存储;
第二方面,在写入数据时在内存中实时创建智能索引;
根据索引元数据确定分组字段和统计字段,对每条原始记录在内存中计算,包括对分组字段按分组方式计算和对统计字段按统计方式计算,更新分组数值区链表和统计数值区链表,将索引数据持久化到磁盘;
第三方面,利用智能索引进行分组统计的操作;
通过判定器判读本次统计是否能使用智能索引,当能使用时,通过执行器读取索引数据,通过汇聚器对分组值进行汇聚计算;
第四方面,实现对智能索引的删除操作;
预设原始数据与索引数据物理存储规则,根据待删除的原始数据块存储路径,来构造索引数据存储路径,将建立的索引数据删除。
2.根据权利要求1所述的支持海量数据分组统计的智能索引构建、查询及维护方法,其特征在于,所述的在写入数据时在内存中实时创建智能索引,具体实现步骤为:
步骤201:读取索引元数据,并初始化索引数据存储结构;
步骤202:判断索引数据是否能持久化到磁盘上,如果要持久化到磁盘,则转到步骤206,否则转到步骤203;索引数据能持久化到磁盘上的判断标准为索引数据所对应的原始数据块已经被稳定写入磁盘;
步骤203:读取下一条原始数据;
步骤204:根据分组方式,计算每个分组字段的分组值,并更新到分组数值区链表中,并按分组字段值进行排序,保持链表有序;
步骤205:根据统计方式,计算每个统计字段的统计值,并更新到统计数值区链表中,并按数值进行排序,保持链表有序,转到步骤202;
步骤206:将统计数值区链表写入文件中,并按链表ID分段,每个段生成一个文件;
步骤207:将分组数值区链表写入文件中,并按分组字段分成不同字典链表,每个字典生成一个文件。
3.根据权利要求1所述的支持海量数据分组统计的智能索引构建、查询及维护方法,其特征在于,所述的利用智能索引进行分组统计的操作,实现过程为:
输入需要进行查询的数据块和查询语法树,然后执行:
步骤301:读取索引元数据;
步骤302:解析查询语法树;
步骤303:判断是否能使用智能索引,如果能执行步骤304,否则退出;能使用智能索引的标准是:本次查询中的分组字段必须包含在索引元数据中分组字段中,且分组类型一致;本次查询中的统计字段必须包含在索引元数据中的统计字段中,且统计类型一致;
步骤304:将分组字段对应的字典文件一次读入到内存中;
步骤305:依次遍历字典文件的分组字段值;
步骤306:提取每个分组字段值对应的位置ID的链表;
步骤307:根据位置ID链表,将对应的段文件读取到内存中;
步骤308:对每个位置ID链表对应的统计值按统计列分别进行汇聚计算;
步骤309:合并分组结果。
4.根据权利要求1所述的支持海量数据分组统计的智能索引构建、查询及维护方法,其特征在于,所述的实现对智能索引的删除操作,实现步骤为:
步骤401:预设原始数据与索引数据物理存储规则;
步骤402:获取待删除的原始数据块存储路径,根原始数据存储路径构造索引数据存储路径;
步骤403:判断是否已经建立了索引数据,如果已经建立则执行步骤404,否则退出;
步骤404:判断索引数据是否正在被读,没有被读,则执行步骤405,否则退出;
步骤405:将索引数据块删除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511001092.6A CN105631003B (zh) | 2015-12-28 | 2015-12-28 | 支持海量数据分组统计的智能索引构建、查询及维护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511001092.6A CN105631003B (zh) | 2015-12-28 | 2015-12-28 | 支持海量数据分组统计的智能索引构建、查询及维护方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105631003A true CN105631003A (zh) | 2016-06-01 |
CN105631003B CN105631003B (zh) | 2019-02-22 |
Family
ID=56045936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511001092.6A Active CN105631003B (zh) | 2015-12-28 | 2015-12-28 | 支持海量数据分组统计的智能索引构建、查询及维护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105631003B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844539A (zh) * | 2016-12-30 | 2017-06-13 | 曙光信息产业(北京)有限公司 | 实时数据分析方法及系统 |
CN107633347A (zh) * | 2017-08-22 | 2018-01-26 | 阿里巴巴集团控股有限公司 | 一种数据指标统计方法及装置 |
WO2018036155A1 (zh) * | 2016-08-23 | 2018-03-01 | 平安科技(深圳)有限公司 | 信息项存储方法、系统、设备及计算机可读存储介质 |
CN108846002A (zh) * | 2018-04-20 | 2018-11-20 | 广东数果科技有限公司 | 标签实时更新方法及系统 |
CN109543169A (zh) * | 2018-11-26 | 2019-03-29 | 成都四方伟业软件股份有限公司 | 报表处理方法及装置 |
CN109787851A (zh) * | 2017-11-13 | 2019-05-21 | 北京京东尚科信息技术有限公司 | 一种流量统计数据获取方法和装置 |
CN110019218A (zh) * | 2017-12-08 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 数据存储与查询方法及设备 |
CN110134663A (zh) * | 2019-04-02 | 2019-08-16 | 北京三快在线科技有限公司 | 组织结构数据处理方法、装置、电子设备 |
CN111078705A (zh) * | 2019-12-20 | 2020-04-28 | 南京聚力云成电子科技有限公司 | 基于Spark平台建立数据索引方法及数据查询方法 |
CN111782663A (zh) * | 2020-05-21 | 2020-10-16 | 浙江邦盛科技有限公司 | 一种提升聚合查询效率的聚合索引结构及聚合索引方法 |
WO2020248604A1 (zh) * | 2019-06-11 | 2020-12-17 | 中国人民大学 | 一种基于分组向量的哈希多表连接实现方法 |
CN112819412A (zh) * | 2021-02-19 | 2021-05-18 | 米思米(中国)精密机械贸易有限公司 | 工业品的选型订购方法 |
CN113688142A (zh) * | 2021-10-25 | 2021-11-23 | 北京金山云网络技术有限公司 | 索引管理方法、装置、存储介质和电子设备 |
CN114265849A (zh) * | 2022-02-28 | 2022-04-01 | 杭州广立微电子股份有限公司 | 数据聚合方法及系统 |
CN114943021A (zh) * | 2022-07-20 | 2022-08-26 | 之江实验室 | 一种tb级增量数据筛选方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070016600A1 (en) * | 2005-07-18 | 2007-01-18 | Inha-Industry Partnership Institute | System and method for index reorganization using partial index transfer in spatial data warehouse |
CN103366015A (zh) * | 2013-07-31 | 2013-10-23 | 东南大学 | 一种基于Hadoop的OLAP数据存储与查询方法 |
CN103399945A (zh) * | 2013-08-15 | 2013-11-20 | 成都博云科技有限公司 | 一种基于云计算数据库系统的数据结构 |
CN104090939A (zh) * | 2014-06-30 | 2014-10-08 | 国家电网公司 | 智能变电站海量数据存储及快速索引方法 |
-
2015
- 2015-12-28 CN CN201511001092.6A patent/CN105631003B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070016600A1 (en) * | 2005-07-18 | 2007-01-18 | Inha-Industry Partnership Institute | System and method for index reorganization using partial index transfer in spatial data warehouse |
CN103366015A (zh) * | 2013-07-31 | 2013-10-23 | 东南大学 | 一种基于Hadoop的OLAP数据存储与查询方法 |
CN103399945A (zh) * | 2013-08-15 | 2013-11-20 | 成都博云科技有限公司 | 一种基于云计算数据库系统的数据结构 |
CN104090939A (zh) * | 2014-06-30 | 2014-10-08 | 国家电网公司 | 智能变电站海量数据存储及快速索引方法 |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190013811A (ko) * | 2016-08-23 | 2019-02-11 | 핑 안 테크놀로지 (썬전) 컴퍼니 리미티드 | 정보 항목 저장 방법, 시스템, 설비 및 컴퓨터 판독가능 저장 매체 |
KR102142049B1 (ko) | 2016-08-23 | 2020-08-07 | 핑 안 테크놀로지 (썬전) 컴퍼니 리미티드 | 정보 항목 저장 방법, 시스템, 설비 및 컴퓨터 판독가능 저장 매체 |
WO2018036155A1 (zh) * | 2016-08-23 | 2018-03-01 | 平安科技(深圳)有限公司 | 信息项存储方法、系统、设备及计算机可读存储介质 |
CN106844539A (zh) * | 2016-12-30 | 2017-06-13 | 曙光信息产业(北京)有限公司 | 实时数据分析方法及系统 |
CN107633347A (zh) * | 2017-08-22 | 2018-01-26 | 阿里巴巴集团控股有限公司 | 一种数据指标统计方法及装置 |
CN109787851A (zh) * | 2017-11-13 | 2019-05-21 | 北京京东尚科信息技术有限公司 | 一种流量统计数据获取方法和装置 |
CN110019218A (zh) * | 2017-12-08 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 数据存储与查询方法及设备 |
CN110019218B (zh) * | 2017-12-08 | 2023-08-25 | 阿里巴巴集团控股有限公司 | 数据存储与查询方法及设备 |
CN108846002B (zh) * | 2018-04-20 | 2021-06-29 | 广东数果科技有限公司 | 标签实时更新方法及系统 |
CN108846002A (zh) * | 2018-04-20 | 2018-11-20 | 广东数果科技有限公司 | 标签实时更新方法及系统 |
CN109543169A (zh) * | 2018-11-26 | 2019-03-29 | 成都四方伟业软件股份有限公司 | 报表处理方法及装置 |
CN109543169B (zh) * | 2018-11-26 | 2023-06-13 | 成都四方伟业软件股份有限公司 | 报表处理方法及装置 |
CN110134663A (zh) * | 2019-04-02 | 2019-08-16 | 北京三快在线科技有限公司 | 组织结构数据处理方法、装置、电子设备 |
CN110134663B (zh) * | 2019-04-02 | 2020-04-28 | 北京三快在线科技有限公司 | 组织结构数据处理方法、装置、电子设备 |
WO2020248604A1 (zh) * | 2019-06-11 | 2020-12-17 | 中国人民大学 | 一种基于分组向量的哈希多表连接实现方法 |
US11797509B2 (en) | 2019-06-11 | 2023-10-24 | Renmin University Of China | Hash multi-table join implementation method based on grouping vector |
CN111078705A (zh) * | 2019-12-20 | 2020-04-28 | 南京聚力云成电子科技有限公司 | 基于Spark平台建立数据索引方法及数据查询方法 |
CN111782663A (zh) * | 2020-05-21 | 2020-10-16 | 浙江邦盛科技有限公司 | 一种提升聚合查询效率的聚合索引结构及聚合索引方法 |
CN111782663B (zh) * | 2020-05-21 | 2023-09-01 | 浙江邦盛科技股份有限公司 | 一种提升聚合查询效率的聚合索引结构及聚合索引方法 |
CN112819412A (zh) * | 2021-02-19 | 2021-05-18 | 米思米(中国)精密机械贸易有限公司 | 工业品的选型订购方法 |
CN113688142A (zh) * | 2021-10-25 | 2021-11-23 | 北京金山云网络技术有限公司 | 索引管理方法、装置、存储介质和电子设备 |
CN114265849A (zh) * | 2022-02-28 | 2022-04-01 | 杭州广立微电子股份有限公司 | 数据聚合方法及系统 |
CN114943021A (zh) * | 2022-07-20 | 2022-08-26 | 之江实验室 | 一种tb级增量数据筛选方法和装置 |
US11789639B1 (en) | 2022-07-20 | 2023-10-17 | Zhejiang Lab | Method and apparatus for screening TB-scale incremental data |
Also Published As
Publication number | Publication date |
---|---|
CN105631003B (zh) | 2019-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105631003A (zh) | 支持海量数据分组统计的智能索引构建、查询及维护方法 | |
CN106934014B (zh) | 一种基于Hadoop的网络数据挖掘与分析平台及其方法 | |
CN106897322B (zh) | 一种数据库和文件系统的访问方法和装置 | |
CN103729478B (zh) | 基于MapReduce的LBS兴趣点发现方法 | |
CN103473239B (zh) | 一种非关系型数据库数据更新方法和装置 | |
CN107408114B (zh) | 基于事务访问模式识别联结关系 | |
CN106528787B (zh) | 一种基于海量数据多维分析的查询方法及装置 | |
CN103577440A (zh) | 一种非关系型数据库中的数据处理方法和装置 | |
CN106611046A (zh) | 基于大数据技术的空间数据存储处理中间件框架 | |
CN102982103A (zh) | 一种olap海量多维数据维存储方法 | |
TW201530328A (zh) | 爲半結構化資料構建NoSQL資料庫索引的方法及裝置 | |
Liang et al. | Express supervision system based on NodeJS and MongoDB | |
CN103678694A (zh) | 视频资源的倒排索引文件建立方法及其系统 | |
CN108009265B (zh) | 一种云计算环境下的空间数据索引方法 | |
CN112015741A (zh) | 一种海量数据的分库分表存储方法与装置 | |
CN108009290A (zh) | 一种轨道交通指挥中心线网大数据的数据建模和存储方法 | |
CN105389367A (zh) | 基于Mongo数据库的电网图形多时态多级分布式存储方法 | |
CN102779138A (zh) | 实时数据的硬盘存取方法 | |
CN105095436A (zh) | 数据源数据自动建模方法 | |
CN103136244A (zh) | 基于云计算平台的并行数据挖掘方法及系统 | |
CN109828975A (zh) | 一种基于区块链的大规模快速账本存取系统 | |
CN104991741B (zh) | 一种基于键值模型的情境适配电网大数据存储方法 | |
CN103345527B (zh) | 数据智能统计系统 | |
CN110019017B (zh) | 一种基于访问特征的高能物理文件存储方法 | |
CN114281989A (zh) | 基于文本相似度的数据去重方法、装置及存储介质和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |