CN109947702A

CN109947702A - 索引构建方法及装置、电子设备

Info

Publication number: CN109947702A
Application number: CN201710617608.2A
Authority: CN
Inventors: 凌宏博; 李奘; 曹利锋; 杨文君; 常智华; 杨帆
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2017-07-26
Filing date: 2017-07-26
Publication date: 2019-06-28

Abstract

本说明书实施例公开了一种索引构建方法及装置、电子设备。其中方法包括：根据ES集群划分的索引分片的数量n，将待构建索引的用户集合划分为n个用户子集，其中每一用户子集对应一个索引分片。获取与各用户子集对应的原始用户数据。通过多个索引构建子任务并行地对各用户子集对应的原始用户数据执行索引创建动作，获得与各用户子集对应的索引数据。将所述用户子集对应的索引数据分发到所述ES集群中与所述用户子集对应的索引分片。

Description

索引构建方法及装置、电子设备

技术领域

本申请涉及数据库技术领域，尤其涉及一种索引构建方法及装置、电子设备。

背景技术

在各大网络平台(如网络支付平台、网约车平台等)上，随着业务的发展以及用户数的激增，产生了大量的用户数据，并且每一用户的用户数据可能包含上百个特征维度，这导致网络平台相关的用户数据的数据量极大。

目前，网络平台产生的用户数据可以为线上服务提供数据支持，通常，用户数据以Hive表的形式保存在分布式文件系统(Hadoop Distributed File System,HDFS)上，然而，这种方式并不能确保用户数据可以被稳定而快速地检索到。为了提高数据检索速度，需要针对用户数据构建索引(index)，然而，对数据量庞大的用户数据构建索引的过程较为耗时，效率低下。

发明内容

有鉴于此，本申请提供一种索引构建方法及装置、电子设备。

为实现上述目的，本申请提供的技术方案如下：

根据本申请的第一方面，提出了一种索引构建方法，包括：

根据ES集群划分的索引分片的数量n，将待构建索引的用户集合划分为n个用户子集，其中每一用户子集对应一个索引分片；

获取与各用户子集对应的原始用户数据；

通过多个索引构建子任务并行地对各用户子集对应的原始用户数据执行索引创建动作，获得与各用户子集对应的索引数据；

将所述用户子集对应的索引数据分发到所述ES集群中与所述用户子集对应的索引分片。

根据本申请的第二方面，提出了一种索引构建装置，包括：

切分单元，用于根据ES集群划分的索引分片的数量n，将待构建索引的用户集合划分为n个用户子集，其中每一用户子集对应一个索引分片；

数据获取单元，用于获取与各用户子集对应的原始用户数据；

任务执行单元，用于通过多个索引构建子任务并行地对各用户子集对应的原始用户数据执行索引创建动作，获得与各用户子集对应的索引数据；

分发存储单元，用于将所述用户子集对应的索引数据分发到所述ES集群中与所述用户子集对应的索引分片。

根据本申请的第三方面，提出了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

所述处理器被配置为：

获取与各用户子集对应的原始用户数据；

根据本申请的第四方面，提出了一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如下步骤：

获取与各用户子集对应的原始用户数据；

通过以上技术方案可以看出，通过将待构建索引的用户集合划分为n个用户子集，并利用多个索引构建子任务并行地对各用户子集对应的原始用户数据执行索引创建动作，最终，将所述用户子集对应的索引数据分发到所述ES集群中与所述用户子集对应的索引分片。利用多个索引构建子任务并行地执行索引创建过程，可以大大降低针对网络平台上产生的数据量庞大的用户数据的索引创建过程所需的耗时，提高效率。

附图说明

图1示出了一示例性实施例提供的一种索引构建方法的流程图；

图2示出了一示例性实施例提供的一种用于构建索引的网络环境；

图3示出了一示例性实施例提供的另一种索引构建方法的流程图；

图4示出了一示例性实施例提供的一种索引构建装置的框图；

图5示出了一示例性实施例提供的一种电子设备的结构。

具体实施方式

图1示出了一示例性实施例提供的一种索引构建方法的流程图，本申请实施例可采用MapReduce Job来实现索引构建过程，其中，MapReduce可包括若干Map任务和Reduce任务，Map任务用于将待构建索引的用户集合划分为n个用户子集，Reduce任务用于针对各用户子集对应的用户数据进行创建索引的过程。在一实施例中，该方法可包括如下步骤102～步骤108，其中：

在步骤102中，根据ES集群划分的索引分片的数量n，将待构建索引的用户集合划分为n个用户子集，其中，每一用户子集对应一个索引分片。

通常，索引分片的数量n可在索引创建前被确定，如：根据ES集群的硬件性能来确定所需划分的索引分片的数量n。

其中，需要对本文涉及的几个名词进行定义：

ES集群(cluster)：即ElasticSearch集群，集群中有多个ES节点。其中，ElasticSearch(简称为ES)为基于Lucene的搜索服务器。

索引分片(shards)：ES可以把一个完整索引分成多个索引分片并分布到不同的ES节点上，以实现分布式搜索。

用户集合：指网络平台(如：交通工具调度平台等)上的所有用户(如：交通工具调度平台上的乘客或司机)构成的集合。其中，用户集合可包含每一用户的用户ID。

用户子集：将一个用户集合进行切换成若干份，所得到的多个子集。

在一实施例中，在MapReduce的Mapper阶段，可以通过切分获得若干个用户子集，每个用户子集内包含若干用户ID(如：passenger_id)。其中，需要保证每个用户子集中包含的用户ID未在其他子集中出现，即用户子集内的用户ID不重复。例如，某网络平台包含1万个用户，用户ID从1到10000，若需要切分为20个用户子集，则子集1为：

在步骤104中，获取与各用户子集对应的原始用户数据。

原始用户数据是指没有创建索引之前的用户数据，如：以Hive表形式存在的离线数据。每一用户的用户数据可以包括若干个维度，如：用户名、年龄、所在城市、打车频率、消费类型等。在一实施例中，原始用户数据可以存放于分布式文件系统(Hadoop DistributedFile System,HDFS)上，故可从HDFS上获取创建索引所需的原始用户数据。

在步骤106中，通过多个索引构建子任务并行地对各用户子集对应的原始用户数据执行索引创建动作，获得与各用户子集对应的索引数据。

在一可选实施例中，所述索引构建子任务的个数等于所划分的索引分片的数量n，从而使得一个构建子任务与一个索引分片对应，提高构建索引的效率。

在MapReduce的Reducer阶段，每个索引构建子任务(即Reduce任务)可以各自启动一个ElasticSearch Node来为对应的用户子集创建索引，即，一个Reduce任务产生的索引数据对应于ElasticSearch的一个索引分片Shard。

在步骤108中，将所述用户子集对应的索引数据分发到所述ES集群中与所述用户子集对应的索引分片。

图2示出了一示例性实施例提供的一种用于构建索引的网络环境。如图2所示，该环境中可以包括ES集群、任务执行节点集群、HDFS以及任务池。其中，首先根据需要将ES集群划分为n个ES分片，每个ES分片是一个完整的搜索引擎并对应于一个ES节点。随后，通过ES将用户集合分为n个用户子集，创建n个索引创建子任务并放到任务池中，此后，任务执行节点集群(由多个具有并行运算能力的计算设备组成)根据任务池中的索引创建子任务，并行地执行每一索引创建子任务，以从HDFS上获取各个用户子集对应的原始用户数据并构建索引，例如：构建倒排索引。在各个索引创建子任务被执行完毕之后，每个索引创建子任务可以产生一个索引分片Shard对应的索引数据(索引数据是指创建索引后所得的文件)。最终，将产生的与各个索引分片Shard对应的索引数据分发给ES集群下的各个ES节点进行存储。

图3示出了一示例性实施例提供的另一种索引构建方法的流程图，在一实施例中，该方法可包括如下步骤101～步骤182，其中：

在步骤101中，创建与ES集群划分的n个索引分片对应的索引目录并上传到分布式文件系统HDFS。

索引目录说明补充：

在创建ES索引(index)之前，我们需要明确创建索引后的数据应该存放在哪里。在Elasticsearch中，文档归属于一种类型(type)，而这些类型存在于索引中，可以画一些简单的对比图来说明传统关系型数据库以及Elasticsearch数据库：

Mysql DB->Databases(数据库)->Tables(表)->Rows(行)->Columns(列)

Elasticsearch->Indices(索引)->Types(类型)->Documents(文档)->Fields(字段)

ES集群可以包含多个索引(indices)，每一个索引可以包含多个类型(types)(表)，每一个类型可以包含多个文档(documents)(行)，每个文档可以包含多个字段(Fields)(列)。

在一实施例中，与ES集群中的某个ES节点(即索引分片)的索引对应的目录结构可以为：

index/indexType/docId。

其中，indexType表示索引的类型，docId表示文档ID。

其中，创建索引目录的目的是为了建立可被ES识别的索引目录结构，以便后续将每一索引构建子任务产生的索引数据与索引目录一一对应。本文需要按照上述预先构建的索引目录的结构来对数据创建索引，以确保创建后的索引数据为ES可识别的格式。

在步骤104中，获取与各用户子集对应的原始用户数据。

在步骤181中，将与各用户子集对应的索引数据上传到所述HDFS上的与所述用户子集对应的索引目录。

通常，由于每一子任务可能会产生多个文件(每个文件中包含创建索引后所得到的数据)，如果将产生的索引数据(即多个文件)直接上传到HDFS，上传速度会比较慢，并且为后续将索引数据下拉到ES集群的速率造成隐患，对HDFS中的NameNode(Namenode管理着HDFS的Namespace)造成了较大的压力。但是，如果采用将索引数据进行压缩的方式，把产生的索引数据先压缩再上传到HDFS，由于压缩操作较为耗时，很可能会导致Reduce任务与NameNode的通信超时，最终导致Reduce任务被杀死。

鉴于上述原因，在一可选实施例中，步骤181可具体包括步骤1811和步骤1812，其中：

步骤1811：将与每一用户子集对应的索引数据通过非压缩方式处理为一个索引文件包。例如，通过Tar命令(即一种Linux系统命令)来实现。

步骤1812：将获得的索引文件包上传到所述分布式文件系统上的与所述索引数据对应的索引目录。

由于在构建索引的过程中往往会产生数量较多的文件，若将这些文件直接上传到HDFS上，则势必会导致上传速度较慢；另一方面，若将多个文件压缩成一个文件包，文件压缩过程往往也消耗较长的时间。鉴于上述两个方面的考虑，本申请实施例采用非压缩方式将多个文件处理为一个文件包的方式进行上传。

在步骤182中，从所述HDFS获取索引数据并存储到所述ES集群中与各索引分片对应的ES节点中。

在一可选实施例中，步骤182可以具体包括步骤1821和步骤1822，其中：

步骤1821：通过ES集群中的至少一个ES节点，从所述分布式文件系统获取索引文件包并对所述索引文件包进行拆解。由于在将索引数据(若干文件)上传到HDFS之前，先把索引数据采取非压缩方式处理为一个文件包，所以下拉到ES集群之后，需要进行文件包的拆解操作，所谓拆解操作可以将一个大的文件包根据ES数量拆解为多个相对较小的文件。

步骤1822：将拆解获得的索引数据分发到ES集群中与各个索引分片对应的ES节点进行存储。

实际上，下拉操作通常可以由ES集群中的单个ES节点来执行，并由该ES节点将下拉的索引数据分发并均分给ES集群中的其他各个ES节点。

综上所述，通过将待构建索引的用户集合划分为n个用户子集，并利用多个索引构建子任务并行地对各用户子集对应的原始用户数据执行索引创建动作，最终，将所述用户子集对应的索引数据分发到所述ES集群中与所述用户子集对应的索引分片。利用多个索引构建子任务并行地执行索引创建过程，可以大大降低针对网络平台上产生的数据量庞大的用户数据的索引创建过程所需的耗时，提高效率。

与上述方法相对应，本申请实施例还提供一种索引构建装置。

图4示出了一示例性实施例提供的一种索引构建装置的框图，如图4所示，一种索引构建装置200，包括：

切分单元210，用于根据ES集群划分的索引分片的数量n，将待构建索引的用户集合划分为n个用户子集，其中每一用户子集对应一个索引分片；

数据获取单元220，用于获取与各用户子集对应的原始用户数据；

任务执行单元230，用于通过多个索引构建子任务并行地对各用户子集对应的原始用户数据执行索引创建动作，获得与各用户子集对应的索引数据；

分发存储单元240，用于将所述用户子集对应的索引数据分发到所述ES集群中与所述用户子集对应的索引分片。

在一可选的实施例中，所述装置200还包括：

目录创建单元，用于创建与ES集群划分的n个索引分片对应的索引目录并上传到分布式文件系统HDFS；

相对应的，所述分发存储单元可以具体包括：

上传子单元，用于将与各用户子集对应的索引数据上传到所述HDFS上的与所述用户子集对应的索引目录；

分发子单元，用于从所述HDFS获取索引数据并存储到所述ES集群中与各索引分片对应的ES节点中。

在一可选的实施例中，所述任务执行单元具体用于：

通过n个索引构建子任务并行地对各用户子集对应的原始用户数据执行索引创建动作，其中每个索引构建子任务用于对一个用户子集执行索引创建动作。

在一可选的实施例中，所述上传子单元可以具体用于：

将与每一用户子集对应的索引数据通过非压缩方式处理为一个索引文件包；例如，通过Tar命令(即一种Linux系统命令)来实现。

将获得的索引文件包上传到所述分布式文件系统上的与所述索引数据对应的索引目录。

在一可选的实施例中，所述分发子单元可以具体用于：

通过ES集群中的至少一个ES节点，从所述分布式文件系统获取索引文件包并对所述索引文件包进行拆解；

将拆解获得的索引数据分发到ES集群中与各个索引分片对应的ES节点进行存储。

图5示出了一示例性实施例提供的一种电子设备的结构。如图5所示，该电子设备可以包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行。在一实施例中，所述处理器可以被配置为：

获取与各用户子集对应的原始用户数据；

当然，除了软件实现方式之外，本申请并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在本申请一实施例中，还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时可以实现如下步骤：

获取与各用户子集对应的原始用户数据；

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、设备实施例、计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种索引构建方法，其特征在于，所述方法包括：

获取与各用户子集对应的原始用户数据；

2.根据权利要求1所述的方法，其特征在于，在将待构建索引的用户集合划分为n个用户子集之前，还包括：

创建与ES集群划分的n个索引分片对应的索引目录并上传到分布式文件系统；

所述将所述用户子集对应的索引数据分发到所述ES集群中与所述用户子集对应的索引分片，包括：

将与各用户子集对应的索引数据上传到所述分布式文件系统上的与所述用户子集对应的索引目录；

从所述分布式文件系统获取索引数据并存储到所述ES集群中与各索引分片对应的ES节点中。

3.根据权利要求1所述的方法，其特征在于，所述通过多个索引构建子任务并行地对各用户子集对应的原始用户数据执行索引创建动作，包括：

4.根据权利要求2所述的方法，其特征在于，所述将与各用户子集对应的索引数据上传到所述分布式文件系统上的与所述用户子集对应的索引目录，包括：

将与每一用户子集对应的索引数据通过非压缩方式处理为一个索引文件包；

5.根据权利要求2所述的方法，其特征在于，所述从所述分布式文件系统获取索引数据并存储到所述ES集群中与各索引分片对应的ES节点中，包括：

6.一种索引构建装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

目录创建单元，用于创建与ES集群划分的n个索引分片对应的索引目录并上传到分布式文件系统；

所述分发存储单元包括：

上传子单元，用于将与各用户子集对应的索引数据上传到所述分布式文件系统上的与所述用户子集对应的索引目录；

分发子单元，用于从所述分布式文件系统获取索引数据并存储到所述ES集群中与各索引分片对应的ES节点中。

8.根据权利要求6所述的装置，其特征在于，所述任务执行单元具体用于：

9.根据权利要求7所述的装置，其特征在于，所述上传子单元具体用于：

10.根据权利要求7所述的装置，其特征在于，所述分发子单元具体用于：

11.一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其特征在于，所述处理器被配置为：

获取与各用户子集对应的原始用户数据；

12.一种计算机存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如下步骤：

获取与各用户子集对应的原始用户数据；