CN117743465A

CN117743465A - 基于Paxos算法的分布式数据库数据共享方法及系统

Info

Publication number: CN117743465A
Application number: CN202311794894.1A
Authority: CN
Inventors: 赵志宏; 李成钢; 李昆; 蒋思玉
Original assignee: China Telecom Corp Ltd; China Telecom Digital Intelligence Technology Co Ltd
Current assignee: China Telecom Corp Ltd; China Telecom Digital Intelligence Technology Co Ltd
Priority date: 2023-12-25
Filing date: 2023-12-25
Publication date: 2024-03-22

Abstract

本发明公开一种基于Paxos算法的分布式数据库数据共享方法及系统，方法包括：将数据分割成多个片段，并将这些片段分布到不同的分布式数据库的节点上；分布式数据库的节点之间建立连接以相互通信；用户安装和配置数据库客户端，连接数据库节点；用户请求对分布式数据库执行数据库操作；所述数据库操作包括查询数据、插入数据、更新数据和删除数据；分布式数据库所有节点使用Paxos算法对用户请求达成一致性决策；根据一致性决策的结果，分布式数据库所有节点响应用户请求；部署数据库管理系统以监控和管理数据库操作流程。本发明确保数据共享的高一致性和数据处理的可靠性。

Description

基于Paxos算法的分布式数据库数据共享方法及系统

技术领域

本发明属于计算机科学和数据库领域，具体涉及一种基于Paxos算法的分布式数据库数据共享方法及系统。

背景技术

分布式是指将系统的各个组件或节点分散部署在不同的物理或逻辑位置上，通过网络互联，并协同工作以实现特定的功能或服务。

数据库节点是指构成整个分布式数据库的各个独立的数据库实例。每个数据库节点都是一个独立的数据库服务器，负责存储和处理一部分数据，并与其他节点进行协作，共同组成一个分布式数据库系统。

用于连接分布式数据库节点的通信网络是分布式数据库系统中各个节点之间进行数据交换、数据同步、共享资源和通信的基础设施。

分布式数据库系统：是一种特殊类型的数据库系统，它将数据分散存储在多个节点上，并通过网络进行数据交换和协调，从而实现数据的分布式管理和处理。

对等架构（P2P）：Peer to Peer，与客户端-服务器架构相对，连接的计算机具有相同的功能和权限。不存在用于协调的中央服务器。计算机网络中的每台设备既可以充当为客户端，也可以充当为服务器。

中央集成架构：客户端-服务器（Client-Server）结构。它由一个中央服务器（或主机）和多个客户端组成。在这种结构中，所有的客户端设备通过网络连接到中央服务器，而服务器负责管理和控制所有的客户端。

一致性算法：一致性算法的出现是为了解决一致性问题，一致性问题是指对于一组服务器(集群)，给定一组操作，需要使用一种协议使得他们的结果最终达成一致，看起来好像是一台服务器一样。

事务的特征（ACID）：原子性（Atomicity）,一致性（consistency），隔离性（Isolation），持久性（Durability）。

数据库管理系统（DBMS）：数据库管理系统（Database Management System，简称DBMS）是一种软件系统，用于管理和组织大规模数据的存储、检索、修改和更新等操作。

分布式数据库系统是一种由网络连接的存在或分布在多个位置的数据库。Paxos算法是一种协议，用于在分布式系统中达成一致性，由Leslie Lamport于1990年提出。该算法解决了分布式系统中的共识问题，确保在多个节点之间达成一致的决策。Paxos算法是分布式系统领域中最经典、最重要的算法之一，确保了系统中的多个节点能够共享某个值。

目前，阿里巴巴的基于X-Paxos协议的高可用数据库，采用了客户端-服务器的架构，本质上还是中央集成的结构。X-Paxos算法是Paxos算法的演变，该算法在Paxos的双角色结构（领导和跟随者）中引入了日志记录者，存储最新的日志用于领导的多数派判定，使用小成本保证数据库一致性。这种系统结构复杂，不够灵活，容错率低。

发明内容

本发明针对现有技术中的不足，提供一种基于Paxos算法的分布式数据库数据共享方法及系统。

为实现上述目的，本发明采用以下技术方案：

一种基于Paxos算法的分布式数据库数据共享方法，包括：

将数据分割成多个片段，并将这些片段分布到不同的分布式数据库的节点上；

分布式数据库的节点之间建立连接以相互通信；

用户安装和配置数据库客户端，连接数据库节点；

用户请求对分布式数据库执行数据库操作；所述数据库操作包括查询数据、插入数据、更新数据和删除数据；

分布式数据库所有节点使用Paxos算法对用户请求达成一致性决策；根据一致性决策的结果，分布式数据库所有节点响应用户请求；

部署数据库管理系统以监控和管理数据库操作流程。

为优化上述技术方案，采取的具体措施还包括：

进一步地，所述将数据分割成多个片段采用的方法为横向切片；具体为按照数据的时间范围或ID范围进行切片。

进一步地，所述将数据分割成多个片段采用的方法为纵向切片；具体为按照数据表的列进行切片；同一个数据表的不同列用于存储在不同节点上。

进一步地，所述用户安装和配置数据库客户端，连接数据库节点具体为：

用户安装和配置数据库客户端，根据数据库客户端提供的API和文档，创建一个连接对象，并设置连接参数，所述连接参数包括主机名、端口号、用户名和密码。

进一步地，所述分布式数据库所有节点使用Paxos算法对用户请求达成一致性决策；根据一致性决策的结果，分布式数据库所有节点响应用户请求的具体过程为：

选举一个节点作为领导者节点来协调整个系统的操作；

领导者节点生成并提出与用户请求对应的提案；领导者节点将提案发送至其他节点，并等待其他节点的投票；

其他节点收到提案后对是否同意提案进行投票；

领导者节点收集其他节点的投票结果并根据投票结果进行一致性决策，一致性决策的结果被广播给所有节点；

其他节点按照领导者的指示响应用户请求，并将响应结果报告给领导者节点。

进一步地，所述选举一个节点作为领导者节点来协调整个系统的操作具体为：

当用户产生新的请求指令时，与用户连接的数据库节点生成一个轮回编号RD，在一轮更新回合的开始其他节点选取轮回编号RD最大的节点为领导者。

进一步地，所述部数据库管理系统以监控和管理数据库操作流程具体为：

监控数据一致性指标，所述一致性指标包括数据的复制延迟以及数据的冲突和重复；

搭建日志收集器来收集数据库操作更新和分析分布式数据库的数据一致性指标；

设定阈值，随机采样日志中的更新操作以及数据一致性指标，如果更新操作不一致或者数据一致性指标超过预设的阈值，则触发警报；

制订日志自动化检测时间，按照计划定期链接数据库检查日志情况；采用修复措施修复数据，修复措施包括数据同步和数据校验。

本发明还提出一种基于Paxos算法的分布式数据库数据共享系统，包括：数据分割模块、分布式数据库、数据库客户端和一致性决策模块，所述分布式数据库包括数据库管理系统、数据库节点和磁盘；

所述数据分割模块用于将数据分割成多个片段，并将这些片段分布到不同的分布式数据库的节点上；

所述数据库客户端用于用户与分布式数据库的节点建立连接，发布用户请求对分布式数据库执行数据库操作；

所述一致性决策模块基于Paxos算法使所有节点对用户请求达成一致性决策；

所述数据库管理系统用于监控和管理数据库操作流程。

本发明的有益效果是：

本发明的对等结构相较于中央集成结构有诸多好处，比如去中心化：对等结构没有中央服务器，所有节点都是对等的，彼此之间具有相同的地位。这种去中心化的特点意味着系统更加灵活和容错，任何节点的故障不会影响整个系统的运行；资源共享：在对等结构中，所有节点都可以共享资源，例如文件、带宽、处理能力等。这样可以更好地利用网络资源，提高网络的效率和性能；扩展性：对等结构的网络可以很容易地进行扩展，只需要增加更多的节点即可。这使得对等结构适用于大规模分布式系统，例如P2P文件共享网络；去中心化控制：对等结构的节点之间相互通信，不需要依赖中央服务器的控制。这样可以减少单点故障的风险，并提高网络的稳定性和安全性。

本发明提出的数据共享方法，将Paxos算法创新地运用于分布式系统中，这是确保分布式数据库一致性的关键算法，能够实现数据共享的高度一致性。这包括了领导者、提案接受者和学习者在数据库操作中的角色，以及正确处理提案、投票和提案接受的过程。

与传统备份存储不同，本发明中的分布式数据库采用了一种不备份的存储方式，以节省数据库空间并消除冗余。数据可以以横向切片或纵向切片的方式进行存储，根据实际情况进行选择。合理的数据切片和存储结构设计确保了数据的一致性和同步性，并能够有效处理节点故障和数据冲突。

本发明中的容错机制确保在数据库中有总数为2m+1的节点，最多允许m个节点损坏，同时这些节点不能自行恢复。此外，节点无法发送错误或误导其他节点的信息，提高了系统的稳定性和可用性。

分布式数据库的安全性，以及对数据的保密性、完整性和可用性，都受到访问控制、身份验证和授权的保护。数据库管理系统（DBMS）提供了一套强大的安全管理机制，通过为用户、角色和对象（如表和视图）设置不同的权限，限制了用户对数据库中数据和结构的访问和操作。

鉴于分布式系统的特点，日志的部署、指标的设定以及定期的数据检测和故障诊断都是必要的。这包括对节点状态的实时监控、性能指标的收集和分析，以及故障处理和配置管理等功能，有助于提高数据库的可靠性和性能。

附图说明

图1为分布式数据库结构图；

图2为本发明提出的基于Paxos算法的分布式数据库数据共享方法的流程图；

图3为数据库节点切片存储示意图；

图4为Paxos算法在数据库中的应用步骤示意图；

图5为当领导节点发生故障时的步骤示意图；

图6为当其他节点发生故障时的步骤示意图；

图7为领导节点的工作步骤流程图；

图8为其他节点的工作步骤流程图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

本发明适用于计算机科学和数据库领域，提供了一种分布式数据库数据共享方法。该数据库的创新重点在于去中心化和实现高一致性。系统包括终端用户、应用程序、网络、数据库节点、数据库管理系统和磁盘等组件，如图 1 所示。不同于传统的中央式和单一数据库，分布式数据库由多个物理数据存储器组成，每个物理数据存储器位于不同的位置，各数据库节点相互连接，处于同等地位的关系。

此外，建立该数据库需要满足事务的特性，即原子性、一致性、隔离性和持久性。在本发明中，我们采用了Paxos算法，这是一种协议，用于在分布式系统中实现一致性。由于没有中央控制系统，如果没有一致性算法，就会出现各节点数据不一致的问题。例如，当用户通过一个节点删除一个账户时，其他节点中的该账户信息也应该被删除，但由于网络延迟未能及时同步。Paxos算法解决了分布式系统中的一致性问题，确保系统中的多个节点能够就某个值达成共识。如果谨慎考虑性能、复制策略、冲突解决、网络可用性等因素，那么Paxos算法也可以用于同步处理大数据量的分布式数据库。

在一实施例中，本发明提出一种基于Paxos算法的分布式数据库数据共享方法，该方法的流程如图2所示，包括：

将数据分割成多个片段，并将这些片段分布到不同的分布式数据库的节点上；确保数据的均匀分布和负载均衡。所述将数据分割成多个片段采用的方法为横向切片或纵向切片；

横向切片：按照数据的某个范围进行切片，比如按照时间范围、ID范围等。范围切片的优点是数据在逻辑上有序。例如，有一个记录用户信息的数据库，用户ID为主键。为了实现数据均匀分布，分布式数据库里的每个节点存储三分之一的用户信息，如图3数据库节点切片存储。

纵向切片：按照数据表的列进行切片，将同一个表的不同列存储在不同节点上。这种方式可以提高查询性能，因为查询可能只涉及到部分列，减少了不必要的数据传输。

分布式数据库的节点之间建立连接以相互通信；

用户安装和配置数据库客户端，连接数据库节点；具体为：

用户安装和配置数据库客户端，这些客户端可以是官方提供的官方客户端或第三方库。根据数据库客户端提供的API和文档，创建一个连接对象，并设置连接参数，所述连接参数包括主机名、端口号、用户名和密码。

用户请求对分布式数据库执行数据库操作；所述数据库操作包括查询数据、插入数据、更新数据和删除数据；一旦与数据库建立了连接，用户可以执行各种数据库操作，如查询数据、插入、更新和删除数据等。

分布式数据库所有节点使用Paxos算法对用户请求达成一致性决策；根据一致性决策的结果，分布式数据库所有节点响应用户请求；针对本步骤，下面做更详细的步骤解释：假设系统中一共有2m+1个节点，最多m个节点会损坏并且不会恢复工作，且没有恶意节点。Paxos算法采取回合制，每个回合分为三个阶段：准备阶段，接受阶段，学习阶段，如图 4Paxos算法在数据库中的应用步骤。

（1）准备阶段

领导者选举：选举一个领导者节点来协调整个系统的操作。当用户产生新的操作的时候，其连接的数据库节点会生成一个轮回编号（RD）。在一轮更新回合的开始其他节点选取RD最大的节点为领导者。

提案生成和投票：领导者节点负责生成并提出数据更新的提案（比如新增数据，删除数据等）。它向其他节点发送提案，并等待节点的投票。每个节点将学习到的提案存入磁盘中，并将确认收到信息和投票（提案通过还是不通过）返回给领导者节点。

（2）接受阶段

提案接受和一致性决策：领导者节点收集其他节点的投票结果，并根据投票结果进行一致性决策。一致性决策的结果被广播给所有节点，以达成共识并确定数据的更新操作。

（3）学习阶段

领导者节点将数据的更新操作广播给其他节点。其他节点按照领导者的指示更新本地数据，并将更新结果报告给领导者节点。

领导节点提出提案流程图如图 7 领导节点的工作步骤，其他接收提案节点的流程图如图 8 其他节点的工作步骤。

基于Paxos算法的分布式数据库具有一定的容错性,能在节点故障的情况下保证一致性。故障分为领导节点故障和其他节点故障。图 5 当领导节点发生故障时的步骤和图6 当其他节点发生故障时的步骤展示了相对应的情况，并证明在该算法下确保了节点一致性。

本发明将Paxos算法用于分布式数据库的结构中，共享的数据大致为数据中的操作。以增删改查为例，以下是使用Paxos算法的基础数据库操作流程详解：

增加、删除、修改数据：用户客户端向任意一个节点发送请求，收到请求的数据库节点竞选领导。竞选成功则生成插入数据的提案（增加、删除、修改数据）。领导将提案发送给其他节点，节点收到提案后进行投票，如果超过半数的节点同意提案，节点更新自己的选择给领导，领导收集足够多的同意票后，将提案广播给所有节点更新各自的数据库，完成共享数据（增加、删除、修改数据）。

查询数据：用户客户端向任意一个节点发送一个查询数据的请求，指定要查询的数据标识符。节点接收到查询请求后，竞选领导。获取提案权后，发送其他节点查询具体内容。含有提案内容的节点返回客户端结果数据。

部署数据库管理系统以监控和管理数据库操作流程。这样才确保了数据库的百分之百同步，数据的可用性。具体如下：

监控数据一致性指标：首先，需要定义和监控数据一致性的指标。这些指标包括数据的复制延迟、数据的冲突和重复等。通过实时监控这些指标，可以及时发现数据一致性问题的迹象。

部署监控系统：在数据库管理系统（DBMS）中搭建日志收集器来收集数据库操作更新和分析分布式数据库的数据一致性指标。

设定阈值和警报：在监控系统中设定合理的阈值，一旦数据一致性（随机采样日志中的更新操作以及数据一致性指标）操作有不一致的或者指标超过预设的阈值，系统将触发警报。警报可以通过邮件、短信或其他通知方式发送给管理员，以便他们及时采取措施处理数据一致性问题。

定期检查与修复：制订日志自动化检测时间，按照计划定期链接数据库检查日志情况，定期检查可以帮助发现潜在的问题，并在问题出现之前采取预防措施。修复措施可以包括数据同步、数据校验等。

在另一实施例中，本发明提出一种与实施例一的方法相对应的基于Paxos算法的分布式数据库数据共享系统，包括：数据分割模块、分布式数据库、数据库客户端和一致性决策模块，所述分布式数据库包括数据库管理系统、数据库节点和磁盘；

所述数据库管理系统用于监控和管理数据库操作流程。

系统中各模块的功能及功能的实现方式与实施例一完全一致，故此处不再赘述。

下面举例说明本发明的应用场景。

云计算平台：在云计算平台中分布式数据库的使用细节描述如下：

数据存储：云计算平台需要为客户提供数据存储服务。分布式数据库可以作为云计算平台的底层存储系统，负责存储客户的数据。分布式数据库能够将数据分散存储在多个节点上，以提供高可用性和容灾能力。

数据管理和查询：云计算平台提供各种数据管理和查询功能，包括数据增删改查操作。分布式数据库可以支持这些操作，并通过数据分片和数据复制来优化查询性能。客户可以通过API或云服务控制台进行数据管理和查询。

数据复制和同步：为了提供高可用性和容灾能力，云计算平台需要将数据复制到不同的数据中心或区域。分布式数据库能够实现数据的复制和同步，确保数据在多地点的一致性，并支持跨地域数据访问。

多租户支持：云计算平台可能同时为多个租户提供服务，每个租户拥有自己的数据集和访问权限。分布式数据库需要支持多租户模式，确保不同租户的数据相互隔离，并提供灵活的权限控制和访问管理。

数据安全和隐私保护：在云计算平台中，数据安全和隐私保护是非常重要的考虑因素。分布式数据库需要提供数据加密、身份验证、访问控制和审计功能，以确保数据的安全性和隐私保护。

总之，在云计算平台中，分布式数据库扮演着重要角色，为云服务提供了高性能、高可用性和可扩展性的数据管理和存储支持。通过合理利用分布式数据库的特性，云计算平台能够满足不同客户的数据需求，提供稳定可靠的云服务。

大数据分析：在大数据分析中，分布式数据库可以扮演重要角色，支持大规模数据处理和查询操作。以下是分布式数据库在大数据分析中的具体应用，包括操作步骤和细节：

数据收集和存储：大数据分析通常从数据收集开始。数据可以来自多个来源，例如日志文件、传感器数据、用户行为等。这些数据需要被收集并存储到分布式数据库中。分布式数据库可以根据数据量和频率进行数据分片和分布式存储，以实现高吞吐量和扩展性。

数据清洗和预处理：在进行大数据分析之前，需要对数据进行清洗和预处理。这可能涉及到数据去重、数据过滤、数据格式转换、缺失值处理等操作。分布式数据库可以支持在分布式计算框架下进行并行数据清洗和预处理，以提高处理效率。

数据存储优化：在大数据分析中，数据的存储方式对性能和查询效率至关重要。分布式数据库可以根据数据的特性和查询需求，进行数据存储优化。例如，可以使用列式存储或索引技术来加快查询速度。

大规模数据查询：大数据分析通常需要进行复杂的查询操作，例如数据聚合、排序、过滤、连接等。分布式数据库需要支持这些复杂的查询操作，并能够在分布式计算框架下进行并行查询。查询结果需要进行合并和汇总，以得到最终的分析结果。

数据可视化：大数据分析的结果通常需要通过数据可视化的方式呈现。分布式数据库可以提供查询结果的实时导出和数据接口，供数据可视化工具使用。这样可以实现对分析结果的实时展示和交互式分析。

扩展性和性能优化：随着数据量的增加，大数据分析系统需要具备良好的可扩展性和性能。分布式数据库需要能够支持水平扩展和负载均衡，以满足不断增长的数据处理需求。

故障恢复和容错性：大数据分析系统需要具备高可用性和容错性。分布式数据库需要能够处理节点故障和数据损坏的情况，并支持数据备份和恢复，以确保系统的稳定性和数据的安全性。

综上所述，分布式数据库在大数据分析中发挥着关键作用，通过支持大规模数据处理、查询优化、分布式计算框架整合和数据可视化，帮助实现高效、高性能的大数据分析。通过合理使用分布式数据库的特性，可以实现对海量数据的深度分析和洞察。

本发明设计的基于Paxos算法的分布式数据库相较于其他形式数据库的优点和效果主要有以下几点：

强一致性：Paxos算法能够在分布式环境中实现强一致性，确保分布式数据库中的多个节点就某个值达成共识。这意味着无论在何时、何地对数据库进行读取，都能获取到最新且一致的数据，保证了数据的准确性和可靠性。

高可用性：本专利中设计的数据库通过将数据复制到多个节点上，可以在节点故障或网络分区时保持系统的可用性。如果一个节点失效，系统仍然可以继续提供服务，不会导致系统的完全崩溃。

可扩展性：本专利中设计的数据库可以通过增加节点来扩展存储容量和处理能力，而不需要对整个系统进行大规模的升级。这使得系统能够处理日益增长的数据量和访问压力。通过增加更多的节点，分布式数据库可以扩展其存储容量和处理能力，支持大规模数据处理和高并发访问。

高效率：本专利中的数据库采用切片存储，没有复制数据库，消除了冗余。且可以通过并行处理和查询来提高数据处理速度和查询性能。这有助于快速响应用户请求和支持高并发访问。

异地容灾：分布式数据库的数据可以复制到不同的数据中心或区域，实现异地容灾。这样，即使某个地区发生灾害，数据仍然可以从其他地区恢复。

容错性：Paxos算法具有容错性，能够容忍节点故障和网络分区等问题。即使在节点发生故障或网络分区时，分布式数据库仍能够继续运行，并保持数据的一致性。这提高了系统的可用性和鲁棒性，减少了单点故障的影响。

系统可管理性：本专利中设计的分布式数据库可以通过集中式的管理工具进行配置和监控。管理员可以对节点状态、数据分布和性能进行监控和管理，以确保系统的稳定性和可靠性。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于Paxos算法的分布式数据库数据共享方法，其特征在于，包括：

分布式数据库的节点之间建立连接以相互通信；

用户安装和配置数据库客户端，连接数据库节点；

部署数据库管理系统以监控和管理数据库操作流程。

2.如权利要求1所述的基于Paxos算法的分布式数据库数据共享方法，其特征在于，所述将数据分割成多个片段采用的方法为横向切片；具体为按照数据的时间范围或ID范围进行切片。

3.如权利要求1所述的基于Paxos算法的分布式数据库数据共享方法，其特征在于，所述将数据分割成多个片段采用的方法为纵向切片；具体为按照数据表的列进行切片；同一个数据表的不同列用于存储在不同节点上。

4.如权利要求1所述的基于Paxos算法的分布式数据库数据共享方法，其特征在于，所述用户安装和配置数据库客户端，连接数据库节点具体为：

5.如权利要求1所述的基于Paxos算法的分布式数据库数据共享方法，其特征在于，所述分布式数据库所有节点使用Paxos算法对用户请求达成一致性决策；根据一致性决策的结果，分布式数据库所有节点响应用户请求的具体过程为：

选举一个节点作为领导者节点来协调整个系统的操作；

其他节点收到提案后对是否同意提案进行投票；

6.如权利要求5所述的基于Paxos算法的分布式数据库数据共享方法，其特征在于，所述选举一个节点作为领导者节点来协调整个系统的操作具体为：

7.如权利要求1所述的基于Paxos算法的分布式数据库数据共享方法，其特征在于，所述部数据库管理系统以监控和管理数据库操作流程具体为：

8.一种基于Paxos算法的分布式数据库数据共享系统，其特征在于，包括：数据分割模块、分布式数据库、数据库客户端和一致性决策模块，所述分布式数据库包括数据库管理系统、数据库节点和磁盘；

所述数据库管理系统用于监控和管理数据库操作流程。