CN109947759A

CN109947759A - 一种数据索引建立方法、索引检索方法及装置

Info

Publication number: CN109947759A
Application number: CN201710582220.3A
Authority: CN
Inventors: 徐党生; 刘赫; 常剑飞; 辛术; 卞淑
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jilin Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jilin Co Ltd
Priority date: 2017-07-17
Filing date: 2017-07-17
Publication date: 2019-06-28

Abstract

本申请涉及数据存储和管理技术领域，尤其涉及一种数据索引建立方法、索引检索方法及装置，用以解决现有索引方式无法适用于海量数据环境下且很难实现高效率的批量删除的问题。本申请实施例提供的数据索引建立方法包括：提取待处理的数据文件中指定字段对应的字段值；生成包含有所述数据文件中指定字段对应的字段值与数据文件信息之间的关联关系的索引文件，其中，所述数据文件信息为数据文件名和/或数据文件存储位置。

Description

一种数据索引建立方法、索引检索方法及装置

技术领域

本申请涉及数据存储和管理技术领域，尤其涉及一种数据索引建立方法、索引检索方法及装置。

背景技术

随着信息化的发展和大数据时代的来临，数据量呈爆炸式增长，为了支撑海量数据环境下数据的快速检索，数据索引的设计成为至关重要的环节。

现有数据索引的建立多体现为关键词与具体记录的关系，用户可以输入某一关键词，在索引中查询到包含有该关键词的一条具体记录。比如，数据库中存储的一条信息为：“张三吃午饭”，那么在建立索引时，可以将“午饭”设置为关键词，后续可以输入“午饭”查找到具体记录为“张三吃午饭”。然而在海量数据环境下，若按照上述方法来为每个文件中的内容创建记录并建立索引，将索引指向每条记录的具体位置，可想而知所耗费的工作量是巨大的。并且，在海量数据环境下，由于数据量过大，一般只为近期的数据建立索引并进行缓存，同时将之前的存储的数据删除，而在删除数据时，还需查找索引中关键词对应的具体记录，然后逐条删除具体记录，故此，删除操作也需耗费很大的工作量，现有索引方式很难实现高效率地批量删除。

综上，目前需要一种能够适用于海量数据环境下且支持高效率批量删除的索引建立方法。

发明内容

本申请实施例提供一种数据索引建立方法、索引检索方法及装置，用以解决现有索引方式无法适用于海量数据环境下且很难实现高效率的批量删除的问题。

本申请实施例提供的具体技术方案如下：

第一方面，一种数据索引建立方法，包括：

提取待处理的数据文件中指定字段对应的字段值；

生成包含有所述数据文件中指定字段对应的字段值与数据文件信息之间的关联关系的索引文件，其中，所述数据文件信息为数据文件名和/或数据文件存储位置。

可选地，在提取待处理的数据文件中指定字段对应的字段值之后，所述方法还包括：

针对每一个数据文件，生成包含有该数据文件中指定字段以及所述指定字段对应的字段值的有序表；

所述生成包含有所述数据文件中指定字段对应的字段值与所述数据文件信息之间的关联关系的索引文件，包括：

将各数据文件的有序表合并；

将合并后的有序表中指定字段、字段值以及包含字段值的数据文件的数据文件信息关联存储在索引文件中。

可选地，在生成包含有所述数据文件中指定字段对应的字段值与所述数据文件信息之间的关联关系的索引文件之后，所述方法还包括：

判断内存中已缓存的索引文件量是否超出设定阈值；

若是，则将内存中创建时间在指定时间范围的索引文件删除，并将新生成的索引文件存储在内存中；

若否，则将新生成的索引文件存储在内存中。

可选地，在将新生成的索引文件存储在内存中之后，所述方法还包括：

将所述新生成的索引文件存储在磁盘中。

第二方面，一种索引检索方法，包括：

接收终端发送的检索请求；所述检索请求中携带有以下检索条件中的一种：指定字段对应的字段值、指定字段对应的字段值范围、前缀检索条件；

确定满足所述检索条件的索引文件；其中，所述索引文件中包含有数据文件中指定字段对应的字段值与数据文件信息之间的关联关系的索引文件，所述数据文件信息为数据文件名和/或数据文件存储位置；

在满足检索条件的索引文件中，查找满足检索条件的字段值，并确定满足检索条件的字段值对应的数据文件信息；

将确定的数据文件信息发送给所述终端。

第三方面，一种数据索引建立装置，包括：

提取模块，用于提取待处理的数据文件中指定字段对应的字段值；

生成模块，用于生成包含有所述数据文件中指定字段对应的字段值与数据文件信息之间的关联关系的索引文件，其中，所述数据文件信息为数据文件名和/或数据文件存储位置。

可选地，所述生成模块还用于：

在所述提取模块提取待处理的数据文件中指定字段对应的字段值之后，针对每一个数据文件，生成包含有该数据文件中指定字段以及所述指定字段对应的字段值的有序表；

所述生成模块具体用于：

将各数据文件的有序表合并；

可选地，所述装置还包括：

处理模块，用于在所述生成模块生成包含有所述数据文件中指定字段对应的字段值与所述数据文件信息之间的关联关系的索引文件之后，判断内存中已缓存的索引文件量是否超出设定阈值；若是，则将内存中创建时间在指定时间范围的索引文件删除，并将新生成的索引文件存储在内存中；若否，则将新生成的索引文件存储在内存中。

可选地，所述处理模块还用于：

在将新生成的索引文件存储在内存中之后，将所述新生成的索引文件存储在磁盘中。

第四方面，一种索引检索装置，该装置包括：

接收模块，用于接收终端发送的携带有检索条件的检索请求；所述检索请求中携带有以下检索条件中的一种：指定字段对应的字段值、指定字段对应的字段值范围、前缀检索条件；

确定模块，用于确定满足所述检索条件的索引文件；其中，所述索引文件中包含有数据文件中指定字段对应的字段值与数据文件信息之间的关联关系的索引文件，所述数据文件信息为数据文件名和/或数据文件存储位置；

处理模块，用于在满足检索条件的索引文件中，查找满足检索条件的字段值，并确定满足检索条件的字段值对应的数据文件信息；

发送模块，用于将确定的数据文件信息发送给所述终端。

第五方面，一种电子设备，包括：一个或多个处理器；以及一个或多个计算机可读介质，所述可读介质上存储有用于执行数据索引的建立的程序，其中，所述程序被所述一个或多个处理器执行时，实现上述第一方面任一项所述的方法的步骤。

第六方面，一个或多个计算机可读介质，所述可读介质上存储有用于执行数据索引的建立的程序，其中，所述程序被一个或多个处理器执行时，使得通信设备执行上述第一方面中任一项所述的方法。

第七方面，一种电子设备，包括：一个或多个处理器；以及一个或多个计算机可读介质，所述可读介质上存储有用于执行索引检索的程序，其中，所述程序被所述一个或多个处理器执行时，实现上述第二方面任一项所述的方法的步骤。

第八方面，一个或多个计算机可读介质，所述可读介质上存储有用于执行索引检索的程序，其中，所述程序被一个或多个处理器执行时，使得通信设备执行上述第二方面任一项所述的方法。

本申请实施例中，通过提取待处理的数据文件中指定字段对应的字段值，进而可以生成包含有数据文件中指定字段对应的字段值与数据文件信息(如数据文件名和/或数据文件存储位置)之间的关联关系的索引文件。其中，生成的索引文件能够表征出数据文件中指定字段对应的字段值与数据文件信息之间的关系，而非字段值与具体记录的关系，故可以支撑更丰富的数据类型与更大的数据量，能够适用于海量数据环境下。并且，本申请中生成的索引文件以数据文件信息作为索引粒度，在删除之前存储的数据时，可以通过输入字段值直接查找到对应的数据文件信息，进而可以直接将对应的数据文件进行删除，而无需逐条删除具体记录，从而实现了高效率地批量删除。

附图说明

图1为本申请实施例一提供的数据索引建立方法流程图；

图2为本申请实施例二提供的索引检索方法流程图；

图3为本申请实施例提供的索引的生成以及检索过程的具体实施场景图；

图4为本申请实施例三提供的数据索引的建立装置结构图；

图5为本申请实施例四提供的索引检索的装置结构图。

具体实施方式

下面结合说明书附图对本申请实施例作进一步详细描述。

实施例一

参照图1，为本申请实施例一提供的数据索引建立方法流程图，包括以下步骤：

步骤101：提取待处理的数据文件中指定字段对应的字段值。

这里，待处理的数据文件可为从各业务系统中采集的原始数据文件，如用户数据信息、日志文件等。并且，待处理的数据文件可以至少有一个。

在具体实施中，由于从各业务系统采集的数据文件的格式不一定相同，故本申请实施例中，为了适配多种不同的格式的数据文件，是在不影响数据文件的原始格式的基础上，具体通过对采集的待处理文件进行解析，提取出各数据文件中指定字段对应的字段值。其中，需要提取的指定字段可以根据具体需求预先配置。比如，若预先配置的指定字段为姓名、联系方式、日期等，相应地，提取出的指定字段对应的字段值分别为：张三、13811100110、2017年6月19日。

进一步地，在提取待处理的数据文件中指定字段对应的字段值之后，还可以针对每一个数据文件，生成包含有该数据文件中指定字段以及所述指定字段对应的字段值的有序表。比如，若数据文件M1中解析出的指定字段为A、B、C，A对应的字段值为A1、A2...An，B对应的字段值为B1、B2...Bn，C对应的字段值为C1、C2...Cn，那么，可以将指定字段作为有序表中列的名称，指定字段对应的字段值作为列值，具体生成的有序表可以参照如下表1：

表1

具体地，各数据文件对应的有序表中指定字段对应的字段值(即列值)可根据预设的排序方式进行排列，其中，排序方式可根据实际需求具体设定，比如，若指定字段A代表日期，那么对应日期的字段值可按照时间的先后顺序来进行排列。本申请对此不作限定。

步骤102：生成包含有所述数据文件中指定字段对应的字段值与数据文件信息之间的关联关系的索引文件，其中，所述数据文件信息为数据文件名和/或数据文件存储位置。

在具体实施中，若针对每一个数据文件，分别生成包含有该数据文件中指定字段以及指定字段对应的字段值的有序表，那么，可以进一步将各数据文件的有序表进行合并，将合并后的有序表中指定字段、字段值以及包含字段值的数据文件的数据文件信息关联存储在索引文件中。

比如，沿用上例，假设数据文件M2中解析出的指定字段为D、E，D对应的字段值为D1，E对应的字段值为E1，那么，将指定字段D、E作为列的名称，将字段值D1、E1作为列值，可以生成如表2所示的有序表：

表2

D	E
		D1	E1

进一步地，可将数据文件M1和M2的有序表进行合并，生成包含有指定字段对应的字段值与数据文件信息的索引文件，其中，假设数据文件信息为数据文件名，假设数据文件M1中n取值为2，具体生成的索引文件如表3所示：

表3

A	B	C	D	E	数据文件信息
						A1	B1	C1			M1
A2	B2	C2			M1
									D1	E1	M2

由此可见，本申请实施例中生成的索引文件可以表征出字段值与数据文件信息之间的关系。另外，各数据文件对应的有序表中可能存在相同的指定字段(即列的名称)，而指定字段对应的字段值(即列值)可能并不相同，在这种情况下合并有序表时，可以将各有序表中具有相同列的名称的列合并为同一列，将对应的列值添加至合并后的同一列中。

当然，具体实施时，也可以不采用合并有序表的方式生成索引，直接将提取出的指定字段的字段值与其对应的数据文件信息关联存储在索引文件中。

进一步地，在生成包含有所述数据文件中指定字段对应的字段值与所述数据文件信息之间的关联关系的索引文件之后，可以优先将索引文件缓存在内存中成为热索引，以提高查询效率。由于内存空间有限，故可首先判断内存中已缓存的索引文件量是否超出设定阈值，具体可执行为:

判断内存中已缓存的索引文件量是否超出设定阈值；若是，则将内存中创建时间在指定时间范围的索引文件删除，并将新生成的索引文件存储在内存中；若否，则将新生成的索引文件存储在内存中。

这里，设定阈值、指定时间范围可根据实际需求进行配置。具体实施时，若内存中已缓存的索引文件量超出设定阈值，则可将创建时间在较早的时间范围内创建的索引文件从内存中删除，以释放内存空间。

并且，在将新生成的索引文件存储在内存中之后，还可以将所述新生成的索引文件存储在磁盘中成为冷索引，以实现对索引文件的备份。

实施例二

参照图2，为本申请实施例二提供的索引检索方法流程图，包括以下步骤：

步骤201：接收终端发送的携带有检索条件的检索请求。

其中，所述检索请求中携带有以下检索条件中的一种：指定字段对应的字段值、指定字段对应的字段值范围、前缀检索条件。

步骤202：确定满足所述检索条件的索引文件。

其中，所述索引文件中包含有数据文件中指定字段对应的字段值与数据文件信息之间的关联关系的索引文件，所述数据文件信息为数据文件名和/或数据文件存储位置。

步骤203：在满足检索条件的索引文件中，查找满足检索条件的字段值，并确定满足检索条件的字段值对应的数据文件信息。

步骤204：将确定的数据文件信息发送给所述终端。

这里，本申请实施例生成的索引文件可支持精确检索，即可输入指定字段对应的字段值，查找与该字段值相关联的数据文件信息；还可支持范围检索，即可输入指定字段对应的字段值范围，查找在字段值范围内的各字段值相关联的数据文件信息；还可支持前缀检索，即可输入前缀检索条件，查找符合前缀检索条件的字段值相关联的数据文件信息。

在具体实施中，由于数据库中存储的索引文件有多个，故可以首先确定满足检索条件的索引文件。如，若检索条件为指定字段对应的字段值或指定字段对应的字段值范围，则包含有所述指定字段(即以所述指定字段为其中一列的名称)的索引文件确定为满足检索条件的索引文件。

本申请实施例支持多线程检索，若满足检索条件的索引文件有多个，则可同步进行在满足检索条件的索引文件中，查找满足检索条件的字段值的操作。其中，每个索引检索可以为有序表的查找操作，可使用二分法或采用跳表等技术来实现高效的数据检索，具体可参照现有流程，这里不再赘述。

进一步，若确定出的满足检索条件的字段值对应的数据文件信息有多个，在这种情况下可根据检索条件的交并关系进行交集或并集运算，将进行交集或并集运算后得到的数据文件信息发送给终端。

下面，结合上述具体实施方式，列举一种具体实施场景以详细说明索引的生成以及检索过程，具体可参照图3所示。

以HDFS分布式文件系统为例，假设该系统接收的原始数据文件为设备日志、人员组织机构信息、业务系统日志、资产管理数据等文件。其中，各数据文件的文件名以及包含的信息如图所示。

首先，对不同格式的数据文件进行解析，提取出指定字段对应的字段值。其中，从设备日志文件中提取出指定字段包括日期(date)、资产名称(asset_name)、源IP地址(rip)、目的IP地址(dip)、统一资源定位符(URL)分别对应的字段值；从人员组织机构信息文件中提取出指定字段包括姓名(name)，联系方式(tel)，部门(dept)分别对应的字段值；从业务系统日志中提取出指定字段为日期、目的IP地址以及http协议类型(http_type)分别对应的字段值；从资产管理数据文件中提取出姓名、部门以及资产IP地址(asset_ip)分别对应的字段值。

进一步地，针对每一个数据文件，将提取到的字段值进行排序，形成如图3中所示的<K1,K2,…KN>->FileName的有序表。

进一步地，对生成的这4个有序表进行合并，其中，文件名为“device_log1”与文件名为“BS_log1”的有序表中“date”列合并为一列、“dip”列合并为一列；文件名为“device_log1”与文件名为“asset_info1”的有序表中“asset_name”列合并为一列；文件名为“organization_info1”与文件名为“asset_info1”的有序表中“name”列合并为一列、“dept”合并为一列。进而将合并后的有序表中指定字段、字段值以及各数据所在文件(即包含字段值的数据文件的数据文件名)关联存储在索引文件中。至此，包含有数据文件中指定字段对应的字段值与数据文件信息之间的关联关系的索引文件已创建成功。

当然，具体实施时可以从业务系统中采集到除本申请实施例列举的上述四种数据文件之外的多个数据文件，也可以按照上述方式创建索引文件，这里不再赘述。

进一步地，以精确检索为例，假设接收终端发送的检索请求中携带的检索条件为“210.118.25.37”，则可遍历数据库中已存储的索引文件中哪些包含有表征IP的指定字段，定位到索引文件1，确定索引文件1满足检索条件。进一步地，查找索引文件1中字段值为“210.118.25.37”所对应的数据文件名，将查找到包含有“210.118.25.37”的字段值的数据文件名输出并反馈给终端。

当然，上述生成的索引文件还可以支持范围检索以及前缀检索，具体检索过程可参照上述流程来实施，这里不再一一详述。

基于同一申请构思，本申请实施例中还提供了一种与数据索引的建立方法对应的数据索引的建立装置，由于该装置解决问题的原理与本申请实施例中数据索引的建立方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

实施例三

如图4所示，为本申请实施例三提供的数据索引的建立装置结构图，包括：

提取模块41，用于提取待处理的数据文件中指定字段对应的字段值；

生成模块42，用于生成包含有所述数据文件中指定字段对应的字段值与数据文件信息之间的关联关系的索引文件，其中，所述数据文件信息为数据文件名和/或数据文件存储位置。

可选地，所述生成模块42还用于：

所述生成模块42具体用于：

将各数据文件的有序表合并；

可选地，所述装置还包括：

处理模块43，用于在所述生成模块生成包含有所述数据文件中指定字段对应的字段值与所述数据文件信息之间的关联关系的索引文件之后，判断内存中已缓存的索引文件量是否超出设定阈值；若是，则将内存中创建时间在指定时间范围的索引文件删除，并将新生成的索引文件存储在内存中；若否，则将新生成的索引文件存储在内存中。

可选地，所述处理模块43还用于：

实施例四

如图5所示，为本申请实施例四提供的索引检索的装置结构图，包括：

接收模块51，用于接收终端发送的携带有检索条件的检索请求；所述检索请求中携带有以下检索条件中的一种：指定字段对应的字段值、指定字段对应的字段值范围、前缀检索条件；

确定模块52，用于确定满足所述检索条件的索引文件；其中，所述索引文件中包含有数据文件中指定字段对应的字段值与数据文件信息之间的关联关系的索引文件，所述数据文件信息为数据文件名和/或数据文件存储位置；

处理模块53，用于在满足检索条件的索引文件中，查找满足检索条件的字段值，并确定满足检索条件的字段值对应的数据文件信息；

发送模块54，用于将确定的数据文件信息发送给所述终端。

本申请实施例五提供一种电子设备，包括：一个或多个处理器；以及一个或多个计算机可读介质，所述可读介质上存储有用于执行数据索引的建立的程序，其中，所述程序被所述一个或多个处理器执行时，实现上述实施例一中任一项所述的方法的步骤。

本申请实施例六提供一个或多个计算机可读介质，所述可读介质上存储有用于执行数据索引的建立的程序，其中，所述程序被一个或多个处理器执行时，使得通信设备执行上述实施例一中任一项所述的方法。

本申请实施例七提供一种电子设备，包括：一个或多个处理器；以及一个或多个计算机可读介质，所述可读介质上存储有用于执行索引检索的程序，其中，所述程序被所述一个或多个处理器执行时，实现上述实施例二任一项所述的方法的步骤。

本申请实施例八提供一个或多个计算机可读介质，所述可读介质上存储有用于执行索引检索的程序，其中，所述程序被一个或多个处理器执行时，使得通信设备执行上述实施例二任一项所述的方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据索引建立方法，其特征在于，该方法包括：

提取待处理的数据文件中指定字段对应的字段值；

2.如权利要求1所述的方法，其特征在于，在提取待处理的数据文件中指定字段对应的字段值之后，所述方法还包括：

将各数据文件的有序表合并；

3.如权利要求2所述的方法，其特征在于，在生成包含有所述数据文件中指定字段对应的字段值与所述数据文件信息之间的关联关系的索引文件之后，所述方法还包括：

判断内存中已缓存的索引文件量是否超出设定阈值；

若否，则将新生成的索引文件存储在内存中。

4.如权利要求3所述的方法，其特征在于，在将新生成的索引文件存储在内存中之后，所述方法还包括：

将所述新生成的索引文件存储在磁盘中。

5.一种索引检索方法，其特征在于，所述方法包括：

将确定的数据文件信息发送给所述终端。

6.一种数据索引建立装置，其特征在于，该装置包括：

7.一种索引检索装置，其特征在于，该装置包括：

发送模块，用于将确定的数据文件信息发送给所述终端。

8.一种电子设备，其特征在于，包括：一个或多个处理器；以及

一个或多个计算机可读介质，所述可读介质上存储有用于执行数据索引的建立的程序，其中，所述程序被所述一个或多个处理器执行时，实现如权利要求1～4中任一项所述的方法的步骤。

9.一个或多个计算机可读介质，其特征在于，所述可读介质上存储有用于执行数据索引的建立的程序，其中，所述程序被一个或多个处理器执行时，使得通信设备执行如权利要求1～4中任一项所述的方法。

10.一种电子设备，其特征在于，包括：一个或多个处理器；以及

一个或多个计算机可读介质，所述可读介质上存储有用于执行索引检索的程序，其中，所述程序被所述一个或多个处理器执行时，实现如权利要求5中所述的方法的步骤。

11.一个或多个计算机可读介质，其特征在于，所述可读介质上存储有用于执行索引检索的程序，其中，所述程序被一个或多个处理器执行时，使得通信设备执行如权利要求5中任一项所述的方法。