CN113986878A

CN113986878A - 一种数据写入方法、数据迁移方法、装置及电子设备

Info

Publication number: CN113986878A
Application number: CN202111248654.2A
Authority: CN
Inventors: 艾智远; 陈祥麟; 易乐天; 王卓
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-01-28

Abstract

本发明公开了一种数据写入方法、装置、数据迁移方法、装置、电子设备及可读存储介质，该数据写入方法包括：弹性搜索计算节点中的第一主分片接收目标弹性搜索计算节点发送的主分片写入数据；其中，第一主分片为弹性搜索计算节点中的任一主分片；将索引结构数据发送到第一副本分片；其中，索引结构数据为通过解析主分片写入数据得到的；将存储数据存储到分布式文件系统中第一主分片对应的存储目录下；本发明利用副本分片使用分布式文件系统中主分片的存储目录提供查询服务，减少副本分片的分词解析过程和单独数据存储，降低了CPU资源消耗和存储成本，从而能够利用分布式文件系统提高数据均衡速度，提升ES计算节点的扩容性能。

Description

一种数据写入方法、数据迁移方法、装置及电子设备

技术领域

本发明涉及数据存储技术领域，特别涉及一种数据写入方法、数据迁移方法、装置、电子设备及可读存储介质。

背景技术

目前开源的Elasticsearch(ES，弹性搜索)集群在海量数据存储以及高并发写入的场景下存在以下的问题：1、高水平的CPU资源消耗：为了保障集群的可靠性，ES集群存储的数据一般以双副本或三副本为主，而在ES的写入过程中，需要在主分片以及副本分片上同时解析相同的数据，造成了多倍的CPU资源消耗。2、高昂的存储成本：在海量日志的存储场景中，通常会遇到TB级甚至PB级的数据，在如此高数据量的情形下，为了避免数据丢失，保障集群的可靠性，会使用双副本甚至三副本来保障，因此产生了多倍，高昂的存储资源消耗。3、缓慢的扩缩容：当集群计算资源不足时，如果需要对ES集群扩缩容，数据将在不同的ES节点之间迁移和平衡，数据通过网络传输，而TB级数据需要小时级的时间进行再平衡。

因此，如何能够在保证ES集群的可靠性的基础上，降低CPU资源消耗和存储成本，提升ES计算节点的扩容性能，是现今急需解决问题。

发明内容

本发明的目的是提供一种数据写入方法、数据迁移方法、装置、电子设备及可读存储介质，以在保证ES集群的可靠性的基础上，降低CPU资源消耗和存储成本，提升ES计算节点的扩容性能。

为解决上述技术问题，本发明提供一种数据写入方法，包括：

弹性搜索计算节点中的第一主分片接收目标弹性搜索计算节点发送的主分片写入数据；其中，所述第一主分片为所述弹性搜索计算节点中的任一主分片；

将索引结构数据发送到所述第一副本分片；其中，所述索引结构数据为通过解析所述主分片写入数据得到的，所述第一副本分片为所述第一主分片对应的副本分片；

将存储数据存储到分布式文件系统中所述第一主分片对应的存储目录下；其中，所述存储数据包括所述主分片写入数据和所述索引结构数据。

本方案中，利用副本分片使用分布式文件系统中主分片的存储目录提供查询服务，减少副本分片的分词解析过程和单独数据存储，降低了CPU资源消耗和存储成本。

可选的，该数据写入方法还包括：

所述弹性搜索计算节点中的第二副本分片根据第二主分片发送的索引结构数据，更新保存的副本索引结构数据；其中，所述第二副本分片为所述弹性搜索计算节点中的任一副本分片，所述第二主分片为所述第二副本分片对应的主分片；

利用所述副本索引结构数据，对所述分布式文件系统中所述第二主分片对应的存储目录下的主分片写入数据进行查询。

本方案中，副本分片利用相应的主分片发送的索引结构数据，更新自身存储的副本索引结构数据，从而能够利用最新的副本索引结构数据提供查询服务，保证了数据查询的准确性。

可选的，所述目标弹性搜索计算节点为所述弹性搜索计算节点时，所述弹性搜索计算节点中的第一主分片接收目标弹性搜索计算节点发送的主分片写入数据之前，还包括：

所述弹性搜索计算节点接收客户端设备发送的所述主分片写入数据；

对所述主分片写入数据进行解析，确定所述主分片写入数据对应的第一主分片；

将所述主分片写入数据发送到所述第一主分片。

本方案中，各弹性搜索计算节点能够对客户端设备发送的待写入数据进行解析，自动识别数据写入位置，保证数据写入的效率。

可选的，该数据写入方法还包括：

所述弹性搜索计算节点中的第二副本分片根据弹性搜索主节点发送的升级指令，升级为主分片；其中，所述第二副本分片为所述弹性搜索计算节点中的任一副本分片。

本方案中，弹性搜索计算节点中副本分片更够在相应的主分片挂掉时，根据弹性搜索主节点的控制，快速升级为主分片，保证了弹性搜索集群的可靠性。

可选的，所述分布式文件系统具体为采用纠删码存储服务的分布式文件系统。

本方案中，利用采用纠删码存储服务的分布式文件系统，能够减少数据的存储成本。

可选的，所述弹性搜索计算节点为弹性搜索集群的弹性搜索主节点时，该数据写入方法还包括：

在所述弹性搜索集群中添加新弹性搜索计算节点后，确定旧弹性搜索计算节点的主分片中的迁移主分片；

控制所述新弹性搜索计算节点创建所述迁移主分片对应的副本分片；其中，所述迁移主分片对应的副本分片保存有各自对应的迁移主分片中保存的索引结构数据；

将所述分布式文件系统中所述迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下；其中，所述目标存储目录为所述分布式文件系统中各所述迁移主分片各自对应的所述新弹性搜索计算节点中的副本分片的存储目录；

将所述新弹性搜索计算节点中所述迁移主分片对应的副本分片升级为主分片，并关闭所述迁移主分片。

本方案中，通过将分布式文件系统中迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下，利用分布式文件系统实现主分片对应的存储数据的迁移，提升了提高数据均衡速度。

可选的，所述将所述分布式文件系统中所述迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下，包括：

控制所述迁移主分片停止处理各自新增的写入请求；

等待所述迁移主分片各自的当前写入请求处理完成后，将所述分布式文件系统中所述迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下；

对应的，所述将所述新弹性搜索计算节点中所述迁移主分片对应的副本分片升级为主分片，并关闭所述迁移主分片之后，还包括：

控制所述新弹性搜索计算节点中的主分片恢复处理各自新增的写入请求。

本方案中，通过在主分片迁移过程中，控制迁移主分片停止处理各自新增的写入请求，减少迁移主分片的数据迁移对写入请求处理的影响。

本发明还提供了一种数据写入装置，应用于弹性搜索计算节点，包括：

数据接收模块，用于利用第一主分片接收目标弹性搜索计算节点发送的主分片写入数据；其中，所述第一主分片为所述ES计算节点中的任一主分片；

数据发送模块，用于将所述索引结构数据发送到所述第一副本分片；其中，所述索引结构数据为通过解析所述主分片写入数据得到的，所述第一副本分片为所述第一主分片对应的副本分片；

数据存储模块，用于将存储数据存储到分布式文件系统中所述第一主分片对应的存储目录下；其中，所述存储数据包括所述主分片写入数据和所述索引结构数据。

本发明还提供了一种数据迁移方法，包括：

弹性搜索集群中添加新弹性搜索计算节点后，弹性搜索主节点确定旧弹性搜索计算节点的主分片中的迁移主分片；

控制所述新弹性搜索计算节点创建所述迁移主分片对应的副本分片；其中，所述副本分片保存有各自对应的迁移主分片中保存的索引结构数据；

将分布式文件系统中所述迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下；其中，所述目标存储目录为所述分布式文件系统中各所述迁移主分片各自对应的所述新弹性搜索计算节点中的副本分片的存储目录；

可选的，所述将分布式文件系统中所述迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下，包括：

控制所述迁移主分片停止处理各自新增的写入请求；

利用所述分布式文件系统的剪切接口，将所述分布式文件系统中所述迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下。

本方案中，利用分布式文件系统的剪切接口实现迁移主分片对应的存储数据的迁移，保证了数据迁移速度。

本发明还提供了一种数据迁移装置，应用于弹性搜索主节点，包括：

迁移确定模块，用于在弹性搜索集群中添加新弹性搜索计算节点后，确定旧弹性搜索计算节点的主分片中的迁移主分片；

副本创建模块，用于控制所述新弹性搜索计算节点创建所述迁移主分片对应的副本分片；其中，所述副本分片保存有各自对应的迁移主分片中保存的索引结构数据；

数据迁移模块，用于将分布式文件系统中所述迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下；其中，所述目标存储目录为分布式文件系统中各所述迁移主分片各自对应的所述新弹性搜索计算节点中的副本分片的存储目录；

副本升级模块，用于将所述新弹性搜索计算节点中所述迁移主分片对应的副本分片升级为主分片，并关闭所述迁移主分片。

本发明还提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述所述的数据写入方法或如上述所述的数据迁移方法的步骤。

此外，本发明还提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述的数据写入方法或如上述所述的数据迁移方法的步骤。

本发明所提供的一种数据写入方法，包括：弹性搜索计算节点中的第一主分片接收目标弹性搜索计算节点发送的主分片写入数据；其中，第一主分片为弹性搜索计算节点中的任一主分片；将索引结构数据发送到第一副本分片；其中，索引结构数据为通过解析主分片写入数据得到的；将存储数据存储到分布式文件系统中第一主分片对应的存储目录下；其中，第一副本分片为第一主分片对应的副本分片，存储数据包括主分片写入数据和索引结构数据；

可见，本发明通过将索引结构数据发送到第一副本分片，以及将存储数据存储到分布式文件系统中第一主分片对应的存储目录下，使得副本分片可以利用接收的索引结构数据和分布式文件系统中主分片的存储目录，提供查询服务，减少了副本分片的分词解析过程和单独数据存储，降低了CPU资源消耗和存储成本，从而能够利用分布式文件系统提高数据均衡速度，提升ES计算节点的扩容性能。此外，本发明还提供了一种数据写入装置、数据迁移方法、装置、电子设备及可读存储介质，同样具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例所提供的一种数据写入方法的流程图；

图2为本发明实施例所提供的一种数据写入装置的结构框图；

图3为本发明实施例所提供的一种数据迁移方法的流程图；

图4为本发明实施例所提供的一种数据迁移装置的结构框图；

图5为本发明实施例所提供的一种电子设备的结构示意图；

图6为本发明实施例所提供的一种电子设备的具体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明实施例所提供的一种数据写入方法的流程图。该方法可以包括：

步骤101：ES计算节点中的第一主分片接收目标ES计算节点发送的主分片写入数据；其中，第一主分片为ES计算节点中的任一主分片。

其中，本实施例中的ES计算节点可以为ES集群中的计算资源节点，每个ES计算节点中设置一个或多个分片(如主分片和副本分片)。本实施例中的第一主分片可以为ES计算节点中的任意一个主分片。

可以理解的是，本实施例是以ES集群中的一个ES计算节点中的一个主分片(即第一主分片)的写入请求处理过程(即数据写入过程)为例进行的展示，对于ES集群中的该ES计算节点和其他ES计算节点中的其他主分片的写入请求处理过程，可以采用与本实施例提供的方法相同或相似的方式实现，本实施例对此不做任何限制。

具体的，本实施例所提供的数据写入方法的系统架构可以包括：1、最顶层的ES集群中的主节点(Master)集群，主节点集群中同一时刻仅有一个主节点生效作为ES主节点；主节点集群中其他的主节点可以均为备用主节点，能够对ES主节点进行备份；ES主节点可以管理ES集群中全部ES计算节点中的所有分片，包括主分片(Primary Shard)与副本分片(Replica Shard)；ES主节点中可以保存所有分片的元数据(Meta)信息，如各分片是否为主分片和各分片所处的ES服务器实例(即ES计算节点)等信息。2、ES计算节点中的主分片可以提供完整的全文检索的服务，提供对进入的数据进行分词解析，构建如倒排索引的索引结构数据，存储数据，完成查询服务的需求。3、ES计算节点中的副本分片可以从对应的主分片同步索引结构数据，并且仅提供查询服务，在对应的主分片因各种原因(比如内存不足，服务器宕机)挂掉，能够迅速升级为主分片。4、下层的分布式文件系统，能够对外暴露为一个统一的存储空间，使得不同的ES服务器能够查询到同样的存储目录。5、最底层的物理磁盘，能够为分布式文件系统提供物理存储资源。

需要说明的是，本步骤中的目标ES计算节点可以为向第一主分片发送第一主分片需要写入的待写入数据(即主分片写入数据)的ES计算节点；本步骤中的主分片写入数据可以为目标ES计算节点分发的需要第一主分片写入的待写入数据；例如，写入请求中的待写入数据从客户端设备写入到目标ES计算节点(如ES服务器)后，目标ES计算节点可以对写入的待写入数据进行解析，判断该待写入数据属于哪一个主分片；目标ES计算节点可以将待写入数据分发到判定的所属的主分片(如第一主分片)，而不是主分片和相应的副本分片，即待写入数据会作为主分片写入数据仅会分发到对应的主分片，而不是现有的主分片与副本分片，以减少在副本分片中进行分词解析的CPU资源消耗和后续存储的存储资源消耗。

对应的，本实施例所提供的方法还可以包括ES计算节点对待写入数据的分发过程，如ES计算节点可以接收客户端设备发送的待写入数据；对待写入数据进行解析，确定目标主分片；将待写入数据发送到目标主分片；其中，目标主分片为待写入数据对应的主分片。例如，本步骤中的ES计算节点为目标计算计算节点时，该ES计算节点在接收客户端设备发送的主分片写入数据(即待写入数据)后，可以对待写入数据进行解析，确定待写入数据对应的第一主分片，之后将主分片写入数据发送到第一主分片，以利用第一主分片对主分片写入数据进行数据存储。

具体的，对于上述ES计算节点对待写入数据进行解析，确定目标主分片的具体方式，可以由设计人员根据实用场景和用户需求自行设置，如可以采用与现有技术中待写入数据所属的主分片的判定方法相同或相似的方式实现，本实施例对此不做任何限制。

步骤102：将索引结构数据发送到第一副本分片；其中，索引结构数据为通过解析主分片写入数据得到的，第一副本分片为第一主分片对应的副本分片。

可以理解的是，本步骤中的索引结构数据可以为ES计算节点解析主分片写入数据得到的可被全文检索的数据结构(即索引结构数据)。相应的，本步骤之前还可以包括ES计算节点的第一主分片对主分片写入数据进行解析，获取主分片写入数据对应的索引结构数据；例如ES计算节点可以利用第一主分片对主分片写入数据进行分词和解析等处理，生成索引结构数据。

具体的，对于上述ES计算节点的第一主分片对主分片写入数据进行解析，获取主分片写入数据对应的索引结构数据的具体方式，可以由设计人员根据实用场景和用户需求自行设置，如可以采用与现有技术中分片对写入数据的分词解析方法相同或相似的方式实现，只要第一主分片能够获取主分片写入数据对应的可被全文检索的索引结构数据(如倒排索引)，本实施例对此不做任何限制。

需要说明的是，本步骤中的第一副本分片可以为第一主分片的副本分片；本实施例并不限定第一副本分片的具体位置，如第一副本分片可以不与第一主分片处于同一ES计算节点。

其中，本步骤中ES计算节点中的第一主分片可以利用网络将已完成处理的索引结构数据同步到对应的副本分片(即第一副本分片)中，使得第一副本分片并不需要自行对主分片写入数据进行分词解析，减少了ES集群的CPU资源消耗，提升了写入性能；并且通过将存储数据存储到分布式文件系统中第一主分片对应的存储目录下，利用分布式文件系统对存储数据的存储，使得第一主分片和第一副本分片均可以利用各自内存中保存的索引结构数据和分布式文件系统中第一主分片对应的存储目录下的存储数据，提供查询服务。

也就是说，第一副本分片可以根据第一主分片发送的索引结构数据，更新自身保存的索引结构数据(即副本索引结构数据)；根据获取的查询请求，利用自身保存的副本索引结构数据，对分布式文件系统中第一主分片对应的存储目录下的主分片写入数据进行查询，以提供查询服务。相应的，第一主分片可以根据获取的查询请求，利用自身保存的索引结构数据，对分布式文件系统中自身对应的存储目录下的主分片写入数据进行查询，以提供查询服务。

对应的，本实施例中第一主分片所在的ES计算节点包括副本分片时，本实施例所提供的方法还可以包括该ES计算节点利用副本分片提供查询服务的过程，如ES计算节点中的第二副本分片根据第二主分片发送的索引结构数据，更新保存的副本索引结构数据；利用副本索引结构数据，对分布式文件系统中第二主分片对应的存储目录下的主分片写入数据进行查询；其中，第二副本分片为ES计算节点中的任一副本分片，第二主分片为第二副本分片对应的主分片。

步骤103：将存储数据存储到分布式文件系统中第一主分片对应的存储目录下；其中，第一副本分片为第一主分片对应的副本分片，存储数据包括主分片写入数据和索引结构数据。

需要说明的是，本实施例证第一主分片通过将存储数据存储到分布式文件系统中第一主分片对应的存储目录下，使得第一主分片对应的第一副本分片可以直接使用各自内存中保存的索引结构数据和分布式文件系统中第一主分片对应的存储目录下的存储数据，提供查询服务；也就是说，ES集群中的副本分片可以仅提供查询服务，而当对应的主分片因各种原因(比如内存不足，服务器宕机)挂掉后，可以迅速升级为主分片，提供完整的全文检索服务。例如，ES主节点可以在ES计算节点中的某个主分片挂掉后，通过输出升级指令，控制该主分片对应的一个副本升级为主分片。

具体的，本实施例中每个主分片可以对应一个或多个副本分片，从而在主分片挂掉后，将其对应的一个副本分片升级为主分片，以代替挂掉的主分片继续提供完整的全文检索服务。

对应的，本实施例中第一主分片所在的ES计算节点包括副本分片时，本实施例所提供的方法还可以包括该ES计算节点中副本分片的升级过程，如ES计算节点中的第二副本分片根据ES主节点发送的升级指令，升级为主分片；其中，第二副本分片为ES计算节点中的任一副本分片；也就是说，ES主节点可以在检测到第二副本分片对应的主分片挂掉后，通过向第二副本分片发送升级指令，控制第二副本分片升级为主分片，并提供完整的全文检索服务。

具体的，本实施例中ES计算节点的第一主分片将索引结构数据发送到第一副本分片，并将存储数据存储到分布式文件系统中第一主分片对应的存储目录下之后，可以向目标ES计算节点返回写入成功信息，以使目标ES计算节点可以根据接收的写入成功信息，向相应的客户端设备返回写入成功信息。

进一步的，本实施例中的分布式文件系统可以具体为采用纠删码(如8+2纠错码或12+4纠删码等)存储服务的分布式文件系统，以使用纠删码保证存储的数据的可靠性，并且相较于现有的两副本或三副本保障数据可靠性的方案，降低了存储成本；如采用8+2纠删码存储服务的分布式文件系统时，若单副本存储成本为1，则两副本存储成本为2，8+2纠删码的存储成本为(8+2)/8＝1.25，存储成本降低了(2-1.25)/2*100％＝37.5％；相较于现有的三副本保障数据可靠性的方案，存储成本可以下降(3-1.25)/3*100％＝58％。

并且，本实施例中向ES集群写入数据时使用了仅写入主分片的机制，相比于双副本，用于解析原始写入数据的CPU资源可以下降50％，提升了写入性能；在相同数据三节点集群的性能测试中，本实施例的写入性能相比于双副本方案，ES集群的写入性能提升了30％；并且可以避免单副本的ES集群无法保障可靠性，无法在生产环境中使用的情况，保证了ES集群的可靠性。

本实施例中，本发明实施例通将索引结构数据发送到第一副本分片，以及将存储数据存储到分布式文件系统中第一主分片对应的存储目录下，使得副本分片可以利用接收的索引结构数据和分布式文件系统中主分片的存储目录，提供查询服务，减少了副本分片的分词解析过程和单独数据存储，降低了CPU资源消耗和存储成本，从而能够利用分布式文件系统提高数据均衡速度，提升ES计算节点的扩容性能。

基于上述实施例，本实施例所提供的数据写入方法还可以包括ES集群的数据迁移过程；如ES计算节点为ES集群的ES主节点时，ES计算节点可以在ES集群中添加新ES计算节点后，确定旧ES计算节点的主分片中的迁移主分片；控制新ES计算节点创建迁移主分片对应的副本分片；其中，迁移主分片对应的副本分片保存有各自对应的迁移主分片中保存的索引结构数据；将分布式文件系统中迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下；其中，目标存储目录为分布式文件系统中各迁移主分片各自对应的新ES计算节点中的副本分片的存储目录；将新ES计算节点中迁移主分片对应的副本分片升级为主分片，并关闭迁移主分片，以完成ES集群新增新ES计算节点时主分片迁移对应的数据迁移，提升了提高数据均衡速度。

进一步的，ES主节点将分布式文件系统中迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下的过程可以包括：控制迁移主分片停止处理各自新增的写入请求；等待迁移主分片各自的当前写入请求处理完成后，将分布式文件系统中迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下；对应的，ES主节点在将新ES计算节点中迁移主分片对应的副本分片升级为主分片，并关闭迁移主分片之后，还可以控制新ES计算节点中的主分片恢复处理各自新增的写入请求，从而通过在主分片迁移过程中，控制迁移主分片暂停处理各自新增的写入请求，减少迁移主分片的数据迁移对写入请求处理的影响。

具体的，ES主节点可以利用分布式文件系统的剪切接口(mv接口)，将分布式文件系统中迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下，以利用分布式文件系统的剪切接口实现迁移主分片对应的存储数据的迁移，保证了数据迁移速度。

对应的，ES计算节点不为ES集群的ES主节点时，本实施例所提供的数据写入方法还可以包括ES计算节点的第一主分片的创建升级过程，如ES计算节点新加入ES集群时，可以根据ES主节点发送的副本分片创建指令，创建其他ES集群的原始第一主分片对应的副本分片；并在原始第一主分片关闭后，根据ES主节点发送的副本分片升级指令，将原始第一主分片对应的副本分片升级为主分片，得到第一主分片。

相应于上面的方法实施例，本发明实施例还提供了一种数据写入装置，下文描述的一种数据写入装置与上文描述的一种数据写入方法可相互对应参照。

请参考图2，图2为本发明实施例所提供的一种数据写入装置的结构框图。该数据写入装置应用于ES计算节点，可以包括：

数据接收模块10，用于利用第一主分片接收目标ES计算节点发送的主分片写入数据；其中，第一主分片为ES计算节点中的任一主分片；

数据发送模块20，用于将索引结构数据发送到第一副本分片；其中，索引结构数据为通过解析主分片写入数据得到的，第一副本分片为第一主分片对应的副本分片；

数据存储模块30，用于将存储数据存储到分布式文件系统中第一主分片对应的存储目录下；其中，存储数据包括主分片写入数据和索引结构数据。

可选的，该数据写入装置还可以包括：

索引更新模块，用于利用第二副本分片根据第二主分片发送的索引结构数据，更新保存的副本索引结构数据；其中，第二副本分片为ES计算节点中的任一副本分片，第二主分片为第二副本分片对应的主分片；

查询服务模块，用于利用副本索引结构数据，对分布式文件系统中第二主分片对应的存储目录下的主分片写入数据进行查询。

可选的，目标ES计算节点为ES计算节点时，该数据写入装置还可以包括：

写入接收模块，用于接收客户端设备发送的主分片写入数据；

写入解析模块，用于对主分片写入数据进行解析，确定主分片写入数据对应的第一主分片；

写入分发模块，用于将主分片写入数据发送到第一主分片。

可选的，该数据写入装置还可以包括：

分片升级模块，用于ES计算节点中的第二副本分片根据ES主节点发送的升级指令，升级为主分片；其中，第二副本分片为ES计算节点中的任一副本分片。

可选的，分布式文件系统可以具体为采用纠删码存储服务的分布式文件系统。

可选的，ES计算节点为ES集群的ES主节点时，该数据写入装置还可以包括：

确定模块，用于在ES集群中添加新ES计算节点后，确定旧ES计算节点的主分片中的迁移主分片；

创建模块，用于控制新ES计算节点创建迁移主分片对应的副本分片；其中，迁移主分片对应的副本分片保存有各自对应的迁移主分片中保存的索引结构数据；

迁移模块，用于将分布式文件系统中迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下；其中，目标存储目录为分布式文件系统中各迁移主分片各自对应的新ES计算节点中的副本分片的存储目录；

升级模块，用于将新ES计算节点中迁移主分片对应的副本分片升级为主分片，并关闭迁移主分片。

可选的，迁移模块可以包括：

停止子模块，用于控制迁移主分片停止处理各自新增的写入请求；

迁移子模块，用于等待迁移主分片各自的当前写入请求处理完成后，将分布式文件系统中迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下；

对应的，该数据写入装置还可以包括：

恢复模块，用于控制新ES计算节点中的主分片恢复处理各自新增的写入请求。

可选的，迁移模块可以具体用于利用分布式文件系统的剪切接口，将分布式文件系统中迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下。

本实施例中，本发明实施例通过数据发送模块20将索引结构数据发送到第一副本分片，以及数据存储模块30将存储数据存储到分布式文件系统中第一主分片对应的存储目录下，使得副本分片可以利用接收的索引结构数据和分布式文件系统中主分片的存储目录，提供查询服务，减少了副本分片的分词解析过程和单独数据存储，降低了CPU资源消耗和存储成本，从而能够利用分布式文件系统提高数据均衡速度，提升ES计算节点的扩容性能。

基于上述实施例，本发明实施例还提供了一种数据迁移方法，以分布式文件系统实现新增的ES计算节点的数据迁移，提升ES计算节点的扩容性能；下文描述的一种数据迁移方法与上文描述的一种数据写方法可相互对应参照。

请参考图3，图3为本发明实施例所提供的一种数据迁移方法的流程图。该数据迁移方法可以包括：

步骤201：ES集群中添加新ES计算节点后，ES主节点确定旧ES计算节点的主分片中的迁移主分片。

其中，本步骤中的新ES计算节点可以ES集群中新增的ES计算节点；本步骤中的旧ES计算节点可以为ES集群中新增的ES计算节点(即新ES计算节点)之外的其他正常工作的ES计算节点。

可以理解的是，本步骤中的迁移主分片可以为ES主节点确定的需要迁移到新ES计算节点中的旧ES计算节点的主分片。也就是说，本步骤中ES主节点在检测到ES集群添加新的ES计算节点(即新ES计算节点)后，触发再平衡机制，根据调度策略，计算出需要转移到新ES计算节点的分片(如主分片和副本分片)，并将计算出的分片中的主分片作为迁移主分片。

具体的，对于本步骤中ES主节点确定旧ES计算节点的主分片中的迁移主分片的具体方式，可以由设计人员自行设置，如可以采用与现有技术中ES主节点的分片调度平衡方法相同或相似的方式实现，本实施例对此不做任何限制。

需要说明的是，本实施例是以ES计算节点的扩容过程中主分片的转移和数据迁移为例进行的展示，本实施例还可以包括ES计算节点的扩容过程中副本分片的转移，如ES集群中添加新ES计算节点后，ES主节点确定旧ES计算节点的副本分片中的迁移副本分片；控制新ES计算节点创建迁移副本分片对应的副本分片；在新ES计算节点中迁移副本分片对应的副本分片创建完成后，关闭迁移副本分片。

步骤202：控制新ES计算节点创建迁移主分片对应的副本分片；其中，副本分片保存有各自对应的迁移主分片中保存的索引结构数据。

可以理解的是，本步骤中的ES主节点可以新ES计算节点构建各迁移主分片各自对应的一个副本分片，并在内存中同步相应的迁移主分片中的索引结构数据，以实现迁移主分片与新ES计算节点中创建的各自对应的一个副本分片的同步。

步骤203：将分布式文件系统中迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下；其中，目标存储目录为分布式文件系统中各迁移主分片各自对应的新ES计算节点中的副本分片的存储目录。

具体的，本步骤中ES主节点可以控制分布式文件系统将迁移主分片对应的存储目录下的存储数据迁移到新ES计算节点对应的副本分片的存储目录下，以利用分布式文件系统实现迁移主分片的数据迁移，提升ES集群扩容时分片再平衡的性能，能够在拥有1TB数据的三节点集群扩容计算节点时，将数据均衡消耗的时间从3个小时下降到1分钟以内；例如，ES主节点可以利用分布式文件系统的剪切接口(mv接口)，将分布式文件系统中迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下。

对应的，为了避免迁移主分片的数据迁移对写入请求处理的影响，本步骤中ES主节点可以先控制迁移主分片停止处理各自新增的写入请求；等待迁移主分片各自的当前写入请求处理完成后，将分布式文件系统中迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下；例如ES主节点可以在步骤202完成迁移主分片与新ES计算节点中各自对应的一个副本分片的同步后，停止迁移主分片处理新增的写入请求，等待各自的当前写入请求处理完成，即各自的主分片写入数据写入完成后，利用分布式文件系统的剪切接口，将分布式文件系统中迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下。

对应的，ES主节点可以在步骤204之后，控制新ES计算节点中升级完成的主分片恢复处理各自新增的写入请求，以恢复迁移完成的主分片的服务。

步骤204：将新ES计算节点中迁移主分片对应的副本分片升级为主分片，并关闭迁移主分片。

可以理解的是，本步骤中ES主节点可以通过控制新ES计算节点中迁移主分片各自对应的副本分片升级为主分片，并关闭原本的迁移主分片，实现旧ES计算节点中需要迁移的主分片向新ES计算节点的迁移，实现ES计算节点的扩容过程中的主分片迁移。

本实施例中，本发明实施例通过将分布式文件系统中迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下，利用分布式文件系统实现主分片对应的存储数据的迁移，提升了提高数据均衡速度。

相应于上面的方法实施例，本发明实施例还提供了一种数据迁移装置，下文描述的一种数据迁移装置与上文描述的一种数据迁移方法可相互对应参照。

请参考图4，图4为本发明实施例所提供的一种数据迁移装置的结构框图。该数据迁移装置应用于ES主节点，可以包括：

迁移确定模块40，用于在ES集群中添加新ES计算节点后，确定旧ES计算节点的主分片中的迁移主分片；

副本创建模块50，用于控制新ES计算节点创建迁移主分片对应的副本分片；其中，副本分片保存有各自对应的迁移主分片中保存的索引结构数据；

数据迁移模块60，用于将分布式文件系统中迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下；其中，目标存储目录为分布式文件系统中各迁移主分片各自对应的新ES计算节点中的副本分片的存储目录；

副本升级模块70，用于将新ES计算节点中迁移主分片对应的副本分片升级为主分片，并关闭迁移主分片。

可选的，数据迁移模块60可以包括：

写入暂停子模块，用于控制迁移主分片停止处理各自新增的写入请求；

数据迁移子模块，用于等待迁移主分片各自的当前写入请求处理完成后，将分布式文件系统中迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下；

对应的，该数据迁移装置还可以包括：

写入恢复模块，用于控制新ES计算节点中的主分片恢复处理各自新增的写入请求。

可选的，数据迁移模块60可以具体用于利用分布式文件系统的剪切接口，将分布式文件系统中迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下。

本实施例中，本发明实施例通过数据迁移模块60将分布式文件系统中迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下，利用分布式文件系统实现主分片对应的存储数据的迁移，提升了提高数据均衡速度。

相应于上面的方法实施例，本发明实施例还提供了一种电子设备，下文描述的一种电子设备与上文描述的一种数据写入方法和数据迁移方法可相互对应参照。

请参考图5，图5为本发明实施例所提供的一种电子设备的结构示意图。该电子设备可以包括：

存储器D1，用于存储计算机程序；

处理器D2，用于执行计算机程序时实现上述方法实施例所提供的数据写入方法或数据迁移方法的步骤。

具体的，请参考图6，图6为本发明实施例所提供的一种电子设备的具体结构示意图，该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上单元(图示没标出)，每个单元可以包括对电子设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在电子设备310上执行存储介质330中的一系列指令操作。

电子设备310还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。例如，Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等。

其中，电子设备310可以具体为ES集群的服务器(即ES服务器)。

上文所描述的数据写入方法或数据迁移方法中的步骤可以由电子设备的结构实现。

相应于上面的方法实施例，本发明实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种数据写入方法和数据迁移方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的数据写入方法或数据迁移方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

以上对本发明所提供的一种数据写入方法、数据迁移方法、装置、电子设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种数据写入方法，其特征在于，包括：

2.根据权利要求1所述的数据写入方法，其特征在于，还包括：

3.根据权利要求1所述的数据写入方法，其特征在于，所述目标弹性搜索计算节点为所述弹性搜索计算节点时，所述弹性搜索计算节点中的第一主分片接收目标弹性搜索计算节点发送的主分片写入数据之前，还包括：

将所述主分片写入数据发送到所述第一主分片。

4.根据权利要求1所述的数据写入方法，其特征在于，还包括：

5.根据权利要求1所述的数据写入方法，其特征在于，所述分布式文件系统具体为采用纠删码存储服务的分布式文件系统。

6.根据权利要求1至5任一项所述的数据写入方法，其特征在于，所述弹性搜索计算节点为弹性搜索集群的弹性搜索主节点时，还包括：

7.根据权利要求6所述的数据写入方法，其特征在于，所述将所述分布式文件系统中所述迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下，包括：

控制所述迁移主分片停止处理各自新增的写入请求；

8.一种数据写入装置，其特征在于，应用于弹性搜索计算节点，包括：

数据接收模块，用于利用第一主分片接收目标弹性搜索计算节点发送的主分片写入数据；其中，所述第一主分片为所述弹性搜索计算节点中的任一主分片；

9.一种数据迁移方法，其特征在于，包括：

10.根据权利要求9所述的数据迁移方法，其特征在于，所述将分布式文件系统中所述迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下，包括：

控制所述迁移主分片停止处理各自新增的写入请求；

11.根据权利要求9所述的数据迁移方法，其特征在于，所述将分布式文件系统中所述迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下，包括：

12.一种数据迁移装置，其特征在于，应用于弹性搜索主节点，包括：

数据迁移模块，用于将分布式文件系统中所述迁移主分片对应的存储目录下的存储数据迁移到各自对应的目标存储目录下；其中，所述目标存储目录为所述分布式文件系统中各所述迁移主分片各自对应的所述新弹性搜索计算节点中的副本分片的存储目录；

13.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的数据写入方法或如权利要求9至11任一项所述的数据迁移方法的步骤。

14.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据写入方法或如权利要求9至11任一项所述的数据迁移方法的步骤。