CN117290390B

CN117290390B - 一种基于特殊索引内存映射在大数据检索上的方法

Info

Publication number: CN117290390B
Application number: CN202311153069.3A
Authority: CN
Inventors: 何文云; 高建伟; 吕军伟; 徐龙君; 邓小付; 马邦红; 普艳萍; 王毅睿
Original assignee: Zhongtongfu Network Information Technology Co ltd
Current assignee: Zhongtongfu Network Information Technology Co ltd
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2024-05-17
Anticipated expiration: 2043-09-07
Also published as: CN117290390A

Abstract

本发明公开了一种基于特殊索引内存映射在大数据检索上的方法，包括以下步骤：根据检索需求确认检索内容，生成固定格式内容，生成固定大小的文件；将固定格式内容与需要检索内容放在一行作为一条记录，并将固定格式内容和需检索内容通过分隔符进行分割；遍历文件，根据文件的编号和固定格式内容创建索引文件，拆分固定格式内容字符，并采用B树索引生成与内存映射相对应的树形数据结构；映射到内存：索引文件和内存进行映射，内存映射实现进程虚拟地址空间和实际物理页帧之间映射，分配物理页后，建立页表将物理页映射到进程的虚拟地址空间。不是直接映射大数据文件，而是映射特定索引信息，提高检索效率同时减少映射内存资源、减少对磁盘的读写。

Description

一种基于特殊索引内存映射在大数据检索上的方法

技术领域

本发明涉及大数据检索领域，具体涉及一种基于特殊索引内存映射在大数据检索上的方法。

背景技术

大数据量的检索一直是影响数据使用效率的瓶颈，为了提高检索性能，通常采用的方法是增加资源性能，例如采用固态硬盘、内存数据库NOSQL的redis、mysql的内存表等进行存储查询，这种查询方式成本高，维护困难，数据容易丢失。采用大数据分片直接映射到内存的处理方法进行大数据量的检索可以提高效率，但是占用资源需要投入相应数据量大小的内存资源，本发明提供一种基于特殊索引内存映射在大数据检索上的方法，非直接映射大数据文件而是映射特殊索引文件，充分利用了内存映射的高效并减少磁盘读写，同时减少资源投入、降低维护成本。

发明内容

本发明的目的在于：针对目前大数据量的检索查询存在维护困难和成本高的问题，提供了一种基于特殊索引内存映射在大数据检索上的方法，采用将大数据量数据进行分片，并建立特殊索引，再通过内存映射的处理方法，提高大数据量查询的性能和效率，同时降低资源成本的使用。

本发明的技术方案如下：

一种基于特殊索引内存映射在大数据检索上的方法，包括以下步骤：

格式化处理：根据检索需求确认检索内容，生成固定格式内容，生成固定大小的文件；将固定格式内容与需要检索内容放在一行作为一条记录，并将固定格式内容和需检索内容通过分隔符进行分割；

创建索引：遍历文件，根据文件的编号和固定格式内容创建索引文件，拆分固定格式内容字符，并采用B树索引生成与内存映射相对应的树形数据结构；

映射到内存：索引文件和内存进行映射，内存映射实现进程虚拟地址空间和实际物理页帧之间映射，分配物理页后，建立页表将物理页映射到进程的虚拟地址空间。

进一步的，所述B树索引的生成是通过需要检索内容进行创建，包括以下步骤：将需要检索内容进行拆分成数字高分位到低分位排列，将拆分后的需要检索内容后结合文件名和偏移位置形成索引目录。

进一步的，所述格式化处理和创建索引之间还包括步骤：创建并打开文件。

进一步的，所述映射到内存后还包括以下步骤：

判断是否将大数据量文件索引映射完成，若是，结束映射关闭文件；若否，进而判断映射空间是否满，若未满，返回创建索引步骤进行循环；若已满，关闭文件，创建新的映射空间，进行新的大数据量文件检索。

进一步的，所述固定格式内容为主键字段；所述固定大小的文件大小为1G-4G。

进一步的，所述映射到内存还包括进程采用指针的方式读写操作内存，系统将自动回写页面到对应的文件磁盘。

进一步的，所述需要检索内容为关键字。

与现有的技术相比本发明的有益效果是：

1、一种基于特殊索引内存映射在大数据检索上的方法，将内存映射处理方法应用到大数据量的查询检索中，并建立特殊索引，提高查询大数据量的性能和效率，减少资源投入，降低维护成本；

2、一种基于特殊索引内存映射在大数据检索上的方法，索引记录了文件偏移量和检索内容偏移量，充分了利用了磁盘的读写逻辑，将T级文件检索效率提高到毫秒级，可用普通机械硬盘存放数据文件，减少设备投入的同时大幅度提升检索效率。

附图说明

图1为一种基于特殊索引内存映射在大数据检索上的方法的流程示意图。

具体实施方式

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合实施例对本发明的特征和性能作进一步的详细描述。

请参阅图1，一种基于特殊索引内存映射在大数据检索上的方法，包括以下步骤：

格式化处理：根据检索需求确认检索内容，生成固定格式内容，生成固定大小的文件；将固定格式内容与需要检索内容放在一行作为一条记录，并将固定格式内容和需检索内容通过分隔符进行分割；例如一条记录：id^customerName^。

所述B树索引的生成是通过需要检索内容(关键字)进行创建，包括以下步骤：将需要检索内容(关键字)进行拆分成数字高分位到低分位排列，将拆分后的需要检索内容(关键字)后结合文件名和偏移位置形成索引目录。例如id为530888，以拆分成:索引目录->5->3->0->8->8->8->文件名+偏移位置。

所述格式化处理和创建索引之间还包括步骤：创建并打开文件。

所述映射到内存后还包括以下步骤：

判断是否将大数据量文件映射完成，若是，结束映射关闭文件；若否，进而判断映射空间是否满，若未满，返回创建索引步骤进行循环；若已满，关闭文件，创建新的映射空间，进行新的大数据量文件检索。

所述固定格式内容为主键字段，例如：学号530123456；所述固定大小的文件大小为1G-4G。

所述映射到内存还包括进程采用指针的方式读写操作内存，系统将自动回写页面到对应的文件磁盘。完成了对文件的操作而不必调用read，write等系统调用函数。相反，内核空间的这段区域的修改也直接反应用户空间，从而可以实现不同进程的文件共享。

经测试，使用该技术方案后，T级文件检索效率可以提升到毫秒级，可以采用普通的机械硬盘存放文件数据，内存占用只要16G以内，减少了设备投入同时大幅提升了检索效率。实际应用中300T数据检索只需80毫秒左右。

以上所述实施例仅表达了本申请的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请技术方案构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。

Claims

1.一种基于特殊索引内存映射在大数据检索上的方法，其特征在于，包括以下步骤：

映射到内存：索引文件和内存进行映射，内存映射实现进程虚拟地址空间和实际物理页帧之间映射，分配物理页后，建立页表将物理页映射到进程的虚拟地址空间；

所述B树索引的生成是通过需要检索内容进行创建，包括以下步骤：将需要检索内容进行拆分成数字高分位到低分位排列，将拆分后的需要检索内容后结合文件名和偏移位置形成索引目录。

2.根据权利要求1所述的一种基于特殊索引内存映射在大数据检索上的方法，其特征在于，所述格式化处理和创建索引之间还包括步骤：创建并打开文件。

3.根据权利要求1所述的一种基于特殊索引内存映射在大数据检索上的方法，其特征在于，所述映射到内存后还包括以下步骤：

4.根据权利要求1所述的一种基于特殊索引内存映射在大数据检索上的方法，其特征在于，所述固定格式内容为主键字段；所述固定大小的文件大小为1G-4G。

5.根据权利要求1所述的一种基于特殊索引内存映射在大数据检索上的方法，其特征在于，所述映射到内存还包括进程采用指针的方式读写操作内存，系统将自动回写页面到对应的文件磁盘。

6.根据权利要求1-5任一权利要求所述的一种基于特殊索引内存映射在大数据检索上的方法，其特征在于，所述需要检索内容为关键字。