CN117951138A - 分布式数据库索引方法、装置和设备 - Google Patents

分布式数据库索引方法、装置和设备 Download PDF

Info

Publication number
CN117951138A
CN117951138A CN202410162008.1A CN202410162008A CN117951138A CN 117951138 A CN117951138 A CN 117951138A CN 202410162008 A CN202410162008 A CN 202410162008A CN 117951138 A CN117951138 A CN 117951138A
Authority
CN
China
Prior art keywords
key
identifier
index
distributed database
main table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410162008.1A
Other languages
English (en)
Inventor
李伟仁
刘金凤
冯宇东
李佳恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202410162008.1A priority Critical patent/CN117951138A/zh
Publication of CN117951138A publication Critical patent/CN117951138A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施例提供了一种分布式数据库索引方法,可以应用于计算机技术领域和大数据技术领域。该方法包括:获取历史用户的多个标识和多属性字段,基于所述第一标识和多属性字段,生成主表,并将所述第一标识作为所述分布式数据库的唯一分片键。基于所述第一标识和所述第二标识,生成索引表,并将所述第二标识作为所述索引表的唯一全局索引键。基于所述分布式数据库的分片键和所述索引表的全局索引键,对所述分布式数据库进行索引。本公开还提供了一种分布式数据库索引装置、计算设备、介质和程序产品。

Description

分布式数据库索引方法、装置和设备
技术领域
本公开涉及计算机技术领域,具体涉及大数据技术领域,特别是涉及一种分布式数据库索引方法、装置、设备、介质和程序产品。
背景技术
随着互联网技术的飞速发展,各式各样的互联网应用产品层出不穷,适用于包括银行在内的企业的各种应用程序应运而生。随着银行用户数量的不断增长,单个数据库难以支撑所有业务处理,逐渐向分布式数据库发展,但是分布式数据库的一般不支持全局索引,单个分片库的索引不能满足非分片key的查询。
现有技术中,一般会应用自身建立单独的索引表或对各分片数据库进行逐个扫描。但这种方法不仅处理耗时增加,还会增加服务器连接数,造成请求堆积,耗费计算机资源。
发明内容
鉴于上述问题,本公开提供了一种分布式数据库索引方法、装置、设备、介质和程序产品。
根据本公开的第一个方面提供了一种分布式数据库索引方法,其特征在于,该方法包括:
获取历史用户的多个标识和多属性字段,其中,所述多个标识包括:第一标识和第二标识,所述第一标识与所述第二标识为一一对应关系;
基于所述第一标识和多属性字段,生成主表,并将所述第一标识作为所述分布式数据库的唯一分片键;
基于所述第一标识和所述第二标识,生成索引表,并将所述第二标识作为所述索引表的唯一全局索引键;以及
基于所述分布式数据库的分片键和所述索引表的全局索引键,对所述分布式数据库进行索引。
根据本公开实施例,其特征在于,基于所述分布式数据库的分片键和所述索引表的全局索引键,对所述分布式数据库进行索引,包括:
基于所述索引表的全局索引键,通过索引表确定与所述全局索引键相对应的分布式数据库的分片键;以及
基于所述分布式数据库的分片键,通过主表确定出所述分布式数据库中的分片数据库中的数据。
根据本公开实施例,其特征在于,该方法还包括:对所述主表进行插入操作,具体包括:
获取插入值的第一标识和第二标识,判断所述主表中是否存在与所述插入值的第一标识相同的分片键;
如果所述主表中存在与所述插入值的第一标识相同的分片键,则判断所述插入值的第二标识与所述索引表中的全局索引键是否一致;以及
如果所述插入值的第二标识与所述索引表中的全局索引键一致,则将所述插入值插入主表并更新时间戳。
根据本公开实施例,其特征在于,该方法还包括:
如果所述主表中不存在与所述插入值的第一标识相同的分片键,则判断所述插入值的第二标识与所述索引表中的全局索引键是否一致;以及
如果所述插入值的第二标识与所述索引表中的全局索引键不一致,则将所述插入值插入主表并更新主表中所述分布式数据库的分片键和所述索引表的全局索引键。
根据本公开实施例,其特征在于,该方法还包括:对所述主表进行更新操作,具体包括:
获取更新内容的第一标识和第二标识,判断所述主表中是否存在与所述更新内容的第一标识相同的分片键;
如果所述主表中存在与所述更新内容的第一标识相同的分片键,则判断所述更新内容的第二标识与所述索引表中的全局索引键是否一致;
如果所述更新内容的第二标识与所述索引表中的全局索引键一致,则更新主表并同步更新索引表;以及
如果所述更新内容的第二标识与所述索引表中的全局索引键不一致,则只更新主表。
根据本公开实施例,其特征在于,该方法还包括:对所述主表进行删除操作,具体包括:
获取删除内容的第一标识和第二标识,判断所述主表中是否存在与所述删除内容的第一标识相同的分片键;
如果所述主表中存在与所述更新内容的第一标识相同的分片键,则删除主表内容并同步删除索引表中对应的内容;以及
如果所述主表中不存在与所述更新内容的第一标识相同的分片键,则进行报错。
根据本公开实施例,其特征在于,该方法还包括:
周期性对所述主表与所述索引表进行一致性核对,如果所述主表内容与所述索引表内容不一致,则根据主表内容对所述索引表进行更新。
根据本公开的第二个方面提供了一种分布式数据库索引装置,其特征在于,该装置包括:
第一获取模块,用于获取历史用户的多个标识和多属性字段,其中,所述多个标识包括:第一标识和第二标识,所述第一标识与所述第二标识为一一对应关系;
第一生成模块,用于基于所述第一标识和多属性字段,生成主表,并将所述第一标识作为所述分布式数据库的唯一分片键;
第二生成模块,用于基于所述第一标识和所述第二标识,生成索引表,并将所述第二标识作为所述索引表的唯一全局索引键;以及
索引模块,用于基于所述分布式数据库的分片键和所述索引表的全局索引键,对所述分布式数据库进行索引。
根据本公开实施例,其特征在于,所述索引模块包括:
第一确定模块,用于基于所述索引表的全局索引键,通过索引表确定与所述全局索引键相对应的分布式数据库的分片键;以及
第二确定模块,用于基于所述分布式数据库的分片键,通过主表确定出所述分布式数据库中的分片数据库中的数据。
根据本公开实施例,其特征在于,该装置还包括:第一插入模块,所述第一插入模块具体包括:
第一判断模块,用于获取插入值的第一标识和第二标识,判断所述主表中是否存在与所述插入值的第一标识相同的分片键;
第二判断模块,用于如果所述主表中存在与所述插入值的第一标识相同的分片键,则判断所述插入值的第二标识与所述索引表中的全局索引键是否一致;
第二插入模块,用于如果所述插入值的第二标识与所述索引表中的全局索引键一致,则将所述插入值插入主表并更新时间戳;
第三判断模块,用于如果所述主表中不存在与所述插入值的第一标识相同的分片键,则判断所述插入值的第二标识与所述索引表中的全局索引键是否一致;以及
第三插入模块,用于如果所述插入值的第二标识与所述索引表中的全局索引键不一致,则将所述插入值插入主表并更新主表中所述分布式数据库的分片键和所述索引表的全局索引键。
根据本公开实施例,其特征在于,该装置还包括:第一更新模块,所述第一更新模块具体包括:
第四判断模块,用于获取更新内容的第一标识和第二标识,判断所述主表中是否存在与所述更新内容的第一标识相同的分片键;
第五判断模块,用于如果所述主表中存在与所述更新内容的第一标识相同的分片键,则判断所述更新内容的第二标识与所述索引表中的全局索引键是否一致;
第二更新模块,用于如果所述更新内容的第二标识与所述索引表中的全局索引键一致,则更新主表并同步更新索引表;以及
第三更新模块,用于如果所述更新内容的第二标识与所述索引表中的全局索引键不一致,则只更新主表。
根据本公开实施例,其特征在于,该装置还包括:第一删除模块,所述第一删除模块具体包括:
第六判断模块,用于获取删除内容的第一标识和第二标识,判断所述主表中是否存在与所述删除内容的第一标识相同的分片键;
第二删除模块,用于如果所述主表中存在与所述更新内容的第一标识相同的分片键,则删除主表内容并同步删除索引表中对应的内容;以及
报错模块,用于如果所述主表中不存在与所述更新内容的第一标识相同的分片键,则进行报错。
根据本公开实施例,其特征在于,该装置还包括:
一致性核对模块,用于周期性对所述主表与所述索引表进行一致性核对,如果所述主表内容与所述索引表内容不一致,则根据主表内容对所述索引表进行更新。
根据本公开的第三方面提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行上述分布式数据库索引方法。
根据本公开的第四方面提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述分布式数据库索引方法。
根据本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述分布式数据库索引方法。
本技术方案通过从用户数据中获取有一一对应关系第一标识和第二标识,将第一标识作为生成主表中的唯一分片键,再通过与第一标识有对应关系的第二标识生成索引表并以第二标识为唯一全局索引键,通过全局索引键与分片键对分布式数据库进行索引的技术手段,实现了通过索引表快速地访问到主表中的数据,优化了索引功能和查询路径,加速了数据查询速度,提高了计算机计算效率,节约了计算机内存资源的技术效果,克服了现有技术中分片扫描耗时耗力,增加服务器连接数造成请求堆积的技术问题。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的分布式数据库索引方法和装置的应用场景图;
图2示意性示出了根据本公开实施例的分布式数据库索引方法的流程图;
图3示意性示出了根据本公开实施例的分布式数据库索引方法中主表与索引表对应关系的示意图;
图4示意性示出了根据本公开实施例的分布式数据库索引方法中具体索引的流程图;
图5示意性示出了根据本公开实施例的分布式数据库索引方法中对主表进行插入操作的流程图;
图6示意性示出了根据本公开实施例的分布式数据库索引方法中对主表进行更新操作的流程图;
图7示意性示出了根据本公开实施例的分布式数据库索引方法中对主表进行删除操作的流程图;
图8示意性示出了根据本公开实施例的分布式数据库索引装置的结构框图;
图9示意性示出了根据本公开实施例的分布式数据库索引装置中索引模块的结构框图;
图10示意性示出了根据本公开实施例的分布式数据库索引装置中第一插入模块的结构框图;
图11示意性示出了根据本公开实施例的分布式数据库索引装置中第一更新模块的结构框图;
图12示意性示出了根据本公开实施例的分布式数据库索引装置中第一删除模块的结构框图;
图13示意性示出了根据本公开实施例的适于实现分布式数据库索引方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程控制装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。
首先,对本文中出现的技术术语作如下解释:
分布式数据库:由多个普通的数据库组成,数据水平拆分到各个数据库中,由分片key通过hash算法决定该记录存放到哪个数据库中。
分片:组成分布式数据库的单个数据库叫做分片。
分片key:决定一条记录应该存放到哪个分片的字段,通常为一串数字或字母。应尽量让所有数据均匀的存放到各个分片中。
本公开的实施例提供了一种分布式数据库索引方法,该方法包括:获取历史用户的多个标识和多属性字段,其中,所述多个标识包括:第一标识和第二标识,所述第一标识与所述第二标识为一一对应关系。基于所述第一标识和多属性字段,生成主表,并将所述第一标识作为所述分布式数据库的唯一分片键。基于所述第一标识和所述第二标识,生成索引表,并将所述第二标识作为所述索引表的唯一全局索引键。基于所述分布式数据库的分片键和所述索引表的全局索引键,对所述分布式数据库进行索引。
本技术方案通过从用户数据中获取有一一对应关系第一标识和第二标识,将第一标识作为生成主表中的唯一分片键,再通过与第一标识有对应关系的第二标识生成索引表并以第二标识为唯一全局索引键,通过全局索引键与分片键对分布式数据库进行索引的技术手段,实现了通过索引表快速地访问到主表中的数据,优化了索引功能和查询路径,加速了数据查询速度,提高了计算机计算效率,节约了计算机内存资源的技术效果,克服了现有技术中分片扫描耗时耗力,增加服务器连接数造成请求堆积的技术问题。
图1示意性示出了根据本公开实施例的分布式数据库索引方法和装置的应用场景图。需要注意的是,图1所示仅为可以应用本公开实施例的场景的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的应用场景100可以包括多个应用终端和应用服务器。例如,多个应用终端包括应用终端101、应用终端102、应用终端103等等。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用应用终端设备101、102、103通过网络104与应用服务器105交互,以接收或发送消息等。应用终端设备101、102、103上可以安装有各种应用程序,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的分布式数据库索引方法一般可以由服务器105执行。相应地,本公开实施例所提供的分布式数据库索引装置一般可以设置于服务器105中。本公开实施例所提供的分布式数据库索引方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的分布式数据库索引装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2~图7对公开实施例的分布式数据库索引方法进行详细描述。需要注意的是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
图2示意性示出了根据本公开实施例的分布式数据库索引方法的流程图。
如图2所示,该方法200包括步骤S201~S204。
步骤S201,获取历史用户的多个标识和多属性字段,其中,所述多个标识包括:第一标识和第二标识,所述第一标识与所述第二标识为一一对应关系。
例如,历史用户信息一般由手机号、卡号、身份证号、用户名、邮箱、用户ID等信息,这些信息全表唯一且无重复,可以用于身份识别,这些信息可以作为标识信息。可以获取用户ID作为第一标识,获取手机号作为第二标识,用户ID和手机号存在一一对应关系。此外,还包括地址、身高、密码等信息,这些信息可以作为多属性字段信息与标识信息关联。
步骤S202,基于所述第一标识和多属性字段,生成主表,并将所述第一标识作为所述分布式数据库的唯一分片键。
例如,根据用户ID和地址、身高、密码等信息,生成主表,将用户ID作为分布式数据库的唯一分片键,便于标识分片服务器。
步骤S203,基于所述第一标识和所述第二标识,生成索引表,并将所述第二标识作为所述索引表的唯一全局索引键。
例如,根据存在一一对应关系的用户ID和手机号,形成索引表,将手机号作为索引表的唯一全局索引键。
图3示意性示出了根据本公开实施例的分布式数据库索引方法中主表与索引表对应关系的示意图。
如图3所示,可以以用户id和地址、身高、密码字段所在字段作为主表,用户id为分片key,以手机号和用户id建立索引表,手机号为分片key。就形成了以唯一标识和众多属性字段所在记录为主表和把用户id和全局索引key单独拿出来建立全局索引表。
返回参照图2,在步骤S204中,基于所述分布式数据库的分片键和所述索引表的全局索引键,对所述分布式数据库进行索引。
图4示意性示出了根据本公开实施例的分布式数据库索引方法中具体索引的流程图。
如图4所示,该方法400包括步骤S401~S402。
步骤S401,基于所述索引表的全局索引键,通过索引表确定与所述全局索引键相对应的分布式数据库的分片键。
例如,在进行索引时,基于所述索引表的全局索引键手机号,通过索引表确定与所述全局索引键相对应的分布式数据库的分片键用户ID。
步骤S402,基于所述分布式数据库的分片键,通过主表确定出所述分布式数据库中的分片数据库中的数据。
例如,基于所述分布式数据库的分片键用户ID,通过主表确定出所述分布式数据库中包括用户ID和地址、身高、密码等信息的分片数据库中的数据。
通过全局索引表可以快速的确定出分片键,通过分片键再快速的确定出分片数据库中的数据,优化了查询路径,提高了索引效率,较少了计算机资源的损耗。
为了便于分布式数据库索引的顺利进行,降低对分布式数据库索引的风险性,在对主表进行写入时,需要特别注意主表的分片键和索引表的全局索引键的一致性问题。对主表的写入一般包括主表的插入操作,更新操作和删除操作。
图5示意性示出了根据本公开实施例的分布式数据库索引方法中对主表进行插入操作的流程图。
如图5所示,该方法500包括步骤S501~S505。
步骤S501,获取插入值的第-标识和第二标识,判断所述主表中是否存在与所述插入值的第一标识相同的分片键。
例如,在插入操作时,可以获取插入值的用户ID和手机号,需要先查询主表该主key用户ID记录是否存在。
步骤S502,如果所述主表中存在与所述插入值的第一标识相同的分片键,则判断所述插入值的第二标识与所述索引表中的全局索引键是否一致。
例如,如果存在主key记录即插入值的用户ID在主表中有记录,则判断插入值的手机号是否与索引表中的手机号一致。
步骤S503,如果所述插入值的第二标识与所述索引表中的全局索引键一致,则将所述插入值插入主表并更新时间戳。
例如,如果插入值的手机号是否与索引表中的手机号一致,则更新时间戳,交易成功,同时将主key与索引key关系同步到索引表(索引表该索引key无记录则新增插入,有记录则更新),同步失败无需回滚。如果插入值的手机号是否与索引表中的手机号不一致,则报错,显示交易失败。
在对主表插入数据时,对第一标识和第二标识的识别,保证了主表的分片键和索引表的全局索引键的一致性,实现在插入已有值数据后,可以保证索引的顺利进行,避免风险。
步骤S504,如果所述主表中不存在与所述插入值的第一标识相同的分片键,则判断所述插入值的第二标识与所述索引表中的全局索引键是否一致。
例如,如果主表中不存在与所述插入值相同的用户ID,则判断插入值的手机号与所述索引表中的手机号是否一致。
步骤S505,如果所述插入值的第二标识与所述索引表中的全局索引键不一致,则将所述插入值插入主表并更新主表中所述分布式数据库的分片键和所述索引表的全局索引键。
例如,这时如果插入值的手机号与所述索引表中的手机号不一致,将插入值写入主表,同时将主key与索引key关系同步到索引表。如果插入值的手机号与所述索引表中的手机号一致,则由于违反了一致性原则进行报错。
在对主表的插入数据时,对第一标识和第二标识的识别,保证了主表的分片键和索引表的全局索引键的一致性,实现在插入新值数据后,可以保证索引的顺利进行,避免风险。
图6示意性示出了根据本公开实施例的分布式数据库索引方法中对主表进行更新操作的流程图。
如图6所示,该方法600包括步骤S601~S604。
步骤S601,获取更新内容的第一标识和第二标识,判断所述主表中是否存在与所述更新内容的第一标识相同的分片键。
例如,在更新操作时,可以获取更新值的用户ID和手机号,需要先查询主表该主key用户ID记录是否存在。
步骤S602,如果所述主表中存在与所述更新内容的第一标识相同的分片键,则判断所述更新内容的第二标识与所述索引表中的全局索引键是否一致。如果主表中不存在与所述更新内容的第一标识相同的分片键,则直接报错。
例如,如果存在主key记录即更新值的用户ID在主表中有记录,则判断更新值的手机号是否与索引表中的手机号一致。
步骤S603,如果所述更新内容的第二标识与所述索引表中的全局索引键一致,则更新主表并同步更新索引表。
例如,如果更新值的手机号和索引表中的手机号一致,则更新主表并同步更新索引表
步骤S604,如果所述更新内容的第二标识与所述索引表中的全局索引键不一致,则只更新主表。
例如,如果更新值的手机号和索引表中的手机号不一致,则直接更新主表。
在对主表的更新数据时,对第一标识和第二标识的识别,保证了主表的分片键和索引表的全局索引键的一致性,实现在更新数据后,可以保证索引的顺利进行,避免风险。
图7示意性示出了根据本公开实施例的分布式数据库索引方法中对主表进行删除操作的流程图。
如图7所示,该方法700包括步骤S701~S703。
步骤S701,获取删除内容的第一标识和第二标识,判断所述主表中是否存在与所述删除内容的第一标识相同的分片键。
例如,在删除操作时,可以获取删除值的用户ID和手机号,需要先查询主表该主key用户ID记录是否存在。
步骤S702,如果所述主表中存在与所述更新内容的第一标识相同的分片键,则删除主表内容并同步删除索引表中对应的内容。
例如,如果存在主key记录即删除值的用户ID在主表中有记录,则判断更新值的手机号是否与索引表中的手机号一致。
步骤S703,如果所述主表中不存在与所述更新内容的第一标识相同的分片键,则进行报错。
例如,如果不存在主key记录即删除值的用户ID在主表中无记录,则直接报错。
在对主表进行删除数据时,对第一标识和第二标识的识别,保证了主表的分片键和索引表的全局索引键的一致性,实现在删除数据后,可以保证索引的顺利进行,避免风险。
此外,在对主表进行读取时,如果本次仅需查询索引表,则以索引表结果为准,例如只需根据手机号查客编。如果本次仅需查询主表,则以主表结果为准,例如已经知道客编,查询手机号。如果本次查询完索引表后还要查询主表,则同时将主key与索引key关系同步到索引表(索引表该索引key无记录则新增插入,有记录则更新),同步失败无需回滚。
在对主表进行写入之后,可以周期性对对主表和索引表进行一致性核对。周期性对所述主表与所述索引表进行一致性核对,如果所述主表内容与所述索引表内容不一致,则根据主表内容对所述索引表进行更新。
例如,在对索引表与主表的联机操作中,已经有对一些异常数据有了容错机制,为保证最终一致性,可加上批量核对服务。每天夜间或联机批量,对主表中当天有变动的记录(按时间戳),逐一进行核对,不一致的记录,以主表为准,更新索引表。也可对数据库变动的log日志进行分析,将涉及主表索引表的变动记录通过卡夫卡异步处理去更新。
通过上述方案,可以利用联机接口自身逻辑对索引与主表不一致数据进行容错与纠错;利用夜间批量对数据进行核对,以主表为准对索引表进行更新。周期性的对主表和索引表进行一致性核对,保证了主表的分片键和索引表的全局索引键的一致性,进一步提高安全性,避免风险。
图8示意性示出了根据本公开实施例的分布式数据库索引装置的结构框图。
如图8所示,该装置800包括:第一获取模块801、第一生成模块802、第二生成模块803、索引模块804、第一插入模块805、第一更新模块806和第一删除模块807和一致性核对模块808。
第一获取模块801,用于获取历史用户的多个标识和多属性字段,其中,所述多个标识包括:第一标识和第二标识,所述第一标识与所述第二标识为一一对应关系。在一实施例中,第一获取模块801可以用于执行前文描述的步骤S201,在此不再赘述。
第一生成模块802,用于基于所述第一标识和多属性字段,生成主表,并将所述第一标识作为所述分布式数据库的唯一分片键。在一实施例中,第一生成模块802可以用于执行前文描述的步骤S202,在此不再赘述。
第二生成模块803,用于基于所述第一标识和所述第二标识,生成索引表,并将所述第二标识作为所述索引表的唯一全局索引键。在一实施例中,第二生成模块803可以用于执行前文描述的步骤S203,在此不再赘述。
索引模块804,用于基于所述分布式数据库的分片键和所述索引表的全局索引键,对所述分布式数据库进行索引。在一实施例中,索引模块804可以用于执行前文描述的步骤S204。
图9示意性示出了根据本公开实施例的分布式数据库索引装置中索引模块的结构框图。
如图9所示,索引模块804包括第一确定模块901和第二确定模块902。
第一确定模块901,用于基于所述索引表的全局索引键,通过索引表确定与所述全局索引键相对应的分布式数据库的分片键。在一实施例中,第一确定模块901可以用于执行前文描述的步骤S401,在此不再赘述。
第二确定模块902,用于基于所述分布式数据库的分片键,通过主表确定出所述分布式数据库中的分片数据库中的数据。在一实施例中,第二确定模块902可以用于执行前文描述的步骤S402,在此不再赘述。
返回参照图8,第一插入模块805,用于对所述主表进行插入操作。
图10示意性示出了根据本公开实施例的分布式数据库索引装置中第一插入模块的结构框图。
如图10所示,第一插入模块805包括:第一判断模块1001、第二判断模块1002、第二插入模块1003、第三判断模块1004和第三插入模块1005。
第一判断模块1001,用于获取插入值的第一标识和第二标识,判断所述主表中是否存在与所述插入值的第一标识相同的分片键。在一实施例中,第一判断模块1001可以用于执行前文描述的步骤S501,在此不再赘述。
第二判断模块1002,用于如果所述主表中存在与所述插入值的第一标识相同的分片键,则判断所述插入值的第二标识与所述索引表中的全局索引键是否一致。在一实施例中,第二判断模块1002可以用于执行前文描述的步骤S502,在此不再赘述。
第二插入模块1003,用于如果所述插入值的第二标识与所述索引表中的全局索引键一致,则将所述插入值插入主表并更新时间戳。在一实施例中,第二插入模块1003可以用于执行前文描述的步骤S503,在此不再赘述。
第三判断模块1004,用于如果所述主表中不存在与所述插入值的第一标识相同的分片键,则判断所述插入值的第二标识与所述索引表中的全局索引键是否一致。在一实施例中,第三判断模块1004可以用于执行前文描述的步骤S504,在此不再赘述。
第三插入模块1005,用于如果所述插入值的第二标识与所述索引表中的全局索引键不一致,则将所述插入值插入主表并更新主表中所述分布式数据库的分片键和所述索引表的全局索引键。在一实施例中,第三插入模块1005可以用于执行前文描述的步骤S505,在此不再赘述。
返回参照图8,第一更新模块806,用于对所述主表进行更新操作。
图11示意性示出了根据本公开实施例的分布式数据库索引装置中第一更新模块的结构框图。
如图11所示,第一更新模块806包括:第四判断模块1101、第五判断模块1102、第二更新模块1103和第三更新模块1104。
第四判断模块1101,用于获取更新内容的第一标识和第二标识,判断所述主表中是否存在与所述更新内容的第一标识相同的分片键。在一实施例中,第四判断模块1101可以用于执行前文描述的步骤S601,在此不再赘述。
第五判断模块1102,用于如果所述主表中存在与所述更新内容的第一标识相同的分片键,则判断所述更新内容的第二标识与所述索引表中的全局索引键是否一致。在一实施例中,第第五判断模块1102可以用于执行前文描述的步骤S602,在此不再赘述。
第二更新模块1103,用于如果所述更新内容的第二标识与所述索引表中的全局索引键一致,则更新主表并同步更新索引表。在一实施例中,第二更新模块1103可以用于执行前文描述的步骤S603,在此不再赘述。
第三更新模块1104,用于如果所述更新内容的第二标识与所述索引表中的全局索引键不一致,则只更新主表。在一实施例中,第三更新模块1104可以用于执行前文描述的步骤S604,在此不再赘述。
返回参照图8,第一删除模块807,用于对所述主表进行删除操作。
图12示意性示出了根据本公开实施例的分布式数据库索引装置中第一删除模块的结构框图。
如图12所示,第一删除模块807包括:第六判断模块1201、第二删除模块1202和报错模块1203。
第六判断模块1201,用于获取删除内容的第一标识和第二标识,判断所述主表中是否存在与所述删除内容的第一标识相同的分片键。在一实施例中,第六判断模块1201可以用于执行前文描述的步骤S701,在此不再赘述。
第二删除模块1202,用于如果所述主表中存在与所述更新内容的第一标识相同的分片键,则删除主表内容并同步删除索引表中对应的内容。在一实施例中,第二删除模块1202可以用于执行前文描述的步骤S702,在此不再赘述。
报错模块1203,用于如果所述主表中不存在与所述更新内容的第一标识相同的分片键,则进行报错。在一实施例中,报错模块1203可以用于执行前文描述的步骤S703,在此不再赘述。
返回参照图8,一致性核对模块808,用于周期性对所述主表与所述索引表进行一致性核对,如果所述主表内容与所述索引表内容不一致,则根据主表内容对所述索引表进行更新。
根据本公开的实施例,第一获取模块801、第一生成模块802、第二生成模块803、索引模块804、第一插入模块805、第一更新模块806和第一删除模块807和一致性核对模块808中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,第一获取模块801、第一生成模块802、第二生成模块803、索引模块804、第一插入模块805、第一更新模块806和第一删除模块807和一致性核对模块808中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一获取模块801、第一生成模块802、第二生成模块803、索引模块804、第一插入模块805、第一更新模块806和第一删除模块807和一致性核对模块808中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图13示意性示出了根据本公开实施例的适于实现分布式数据库索引方法的电子设备的方框图。
如图13所示,根据本公开实施例的电子设备1300包括处理器1301,其可以根据存储在只读存储器(ROM)1302中的程序或者从存储部分1308加载到随机访问存储器(RAM)1303中的程序而执行各种适当的动作和处理。处理器1301例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器1301还可以包括用于缓存用途的板载存储器。处理器1301可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 1303中,存储有电子设备1300操作所需的各种程序和数据。处理器1301、ROM 1302以及RAM 1303通过总线1304彼此相连。处理器1301通过执行ROM 1302和/或RAM1303中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 1302和RAM 1303以外的一个或多个存储器中。处理器1301也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备1300还可以包括输入/输出(I/O)接口1305,输入/输出(I/O)接口1305也连接至总线1304。电子设备1 300还可以包括连接至I/O接口1305的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1306;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1307;包括硬盘等的存储部分1308;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1310上,以便于从其上读出的计算机程序根据需要被安装入存储部分1308。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 1302和/或RAM 1303和/或ROM 1302和RAM 1303以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的分布式数据库索引方法。
在该计算机程序被处理器1301执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分1309被下载和安装,和/或从可拆卸介质1311被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分1309从网络上被下载和安装,和/或从可拆卸介质1311被安装。在该计算机程序被处理器1301执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (11)

1.一种分布式数据库索引方法,其特征在于,该方法包括:
获取历史用户的多个标识和多属性字段,其中,所述多个标识包括:第一标识和第二标识,所述第一标识与所述第二标识为一一对应关系;
基于所述第一标识和多属性字段,生成主表,并将所述第一标识作为所述分布式数据库的唯一分片键;
基于所述第一标识和所述第二标识,生成索引表,并将所述第二标识作为所述索引表的唯一全局索引键;以及
基于所述分布式数据库的分片键和所述索引表的全局索引键,对所述分布式数据库进行索引。
2.根据权利要求1所述的方法,其特征在于,基于所述分布式数据库的分片键和所述索引表的全局索引键,对所述分布式数据库进行索引,包括:
基于所述索引表的全局索引键,通过索引表确定与所述全局索引键相对应的分布式数据库的分片键;以及
基于所述分布式数据库的分片键,通过主表确定出所述分布式数据库中的分片数据库中的数据。
3.根据权利要求1或2所述的方法,其特征在于,该方法还包括:对所述主表进行插入操作,具体包括:
获取插入值的第一标识和第二标识,判断所述主表中是否存在与所述插入值的第一标识相同的分片键;
如果所述主表中存在与所述插入值的第一标识相同的分片键,则判断所述插入值的第二标识与所述索引表中的全局索引键是否一致;以及
如果所述插入值的第二标识与所述索引表中的全局索引键一致,则将所述插入值插入主表并更新时间戳。
4.根据权利要求3所述的方法,其特征在于,该方法还包括:
如果所述主表中不存在与所述插入值的第一标识相同的分片键,则判断所述插入值的第二标识与所述索引表中的全局索引键是否一致;以及
如果所述插入值的第二标识与所述索引表中的全局索引键不一致,则将所述插入值插入主表并更新主表中所述分布式数据库的分片键和所述索引表的全局索引键。
5.根据权利要求1或2所述的方法,其特征在于,该方法还包括:对所述主表进行更新操作,具体包括:
获取更新内容的第一标识和第二标识,判断所述主表中是否存在与所述更新内容的第一标识相同的分片键;
如果所述主表中存在与所述更新内容的第一标识相同的分片键,则判断所述更新内容的第二标识与所述索引表中的全局索引键是否一致;
如果所述更新内容的第二标识与所述索引表中的全局索引键一致,则更新主表并同步更新索引表;以及
如果所述更新内容的第二标识与所述索引表中的全局索引键不一致,则只更新主表。
6.根据权利要求1或2所述的方法,其特征在于,该方法还包括:对所述主表进行删除操作,具体包括:
获取删除内容的第一标识和第二标识,判断所述主表中是否存在与所述删除内容的第一标识相同的分片键;
如果所述主表中存在与所述更新内容的第一标识相同的分片键,则删除主表内容并同步删除索引表中对应的内容;以及
如果所述主表中不存在与所述更新内容的第一标识相同的分片键,则进行报错。
7.根据权利要求1或2所述的方法,其特征在于,该方法还包括:
周期性对所述主表与所述索引表进行一致性核对,如果所述主表内容与所述索引表内容不一致,则根据主表内容对所述索引表进行更新。
8.一种分布式数据库索引装置,其特征在于,该装置包括:
第一获取模块,用于获取历史用户的多个标识和多属性字段,其中,所述多个标识包括:第一标识和第二标识,所述第一标识与所述第二标识为一一对应关系;
第一生成模块,用于基于所述第一标识和多属性字段,生成主表,并将所述第一标识作为所述分布式数据库的唯一分片键;
第二生成模块,用于基于所述第一标识和所述第二标识,生成索引表,并将所述第二标识作为所述索引表的唯一全局索引键;以及
索引模块,用于基于所述分布式数据库的分片键和所述索引表的全局索引键,对所述分布式数据库进行索引。
9.一种电子设备,包括:
一个或处理器;
存储装置,用于存储一个或程序,
其中,当所述一个或程序被所述一个或处理器执行时,使得所述一个或处理器执行如权利要求1~7中任意一项所述的方法。
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如权利要求1~7中任意一项所述的方法。
11.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~7中任一项所述的方法。
CN202410162008.1A 2024-02-04 2024-02-04 分布式数据库索引方法、装置和设备 Pending CN117951138A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410162008.1A CN117951138A (zh) 2024-02-04 2024-02-04 分布式数据库索引方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410162008.1A CN117951138A (zh) 2024-02-04 2024-02-04 分布式数据库索引方法、装置和设备

Publications (1)

Publication Number Publication Date
CN117951138A true CN117951138A (zh) 2024-04-30

Family

ID=90797648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410162008.1A Pending CN117951138A (zh) 2024-02-04 2024-02-04 分布式数据库索引方法、装置和设备

Country Status (1)

Country Link
CN (1) CN117951138A (zh)

Similar Documents

Publication Publication Date Title
CN109034988B (zh) 一种会计分录生成方法和装置
US20120278323A1 (en) Joining Tables in a Mapreduce Procedure
CN107464151B (zh) 高并发业务的订单数据处理方法及装置
CN112434015B (zh) 数据存储的方法、装置、电子设备及介质
CN110795443A (zh) 数据同步的方法、装置、设备和计算机可读介质
CN113760948A (zh) 一种数据查询的方法及装置
CN112925859A (zh) 数据存储方法和装置
CN115858488A (zh) 基于数据治理的平行迁移方法、装置及可读介质
CN111241189A (zh) 一种同步数据的方法和装置
CN112765169A (zh) 数据处理方法、装置、设备及存储介质
CN116611411A (zh) 一种业务系统报表生成方法、装置、设备及存储介质
CN116069725A (zh) 文件迁移方法、装置、设备、介质和程序产品
CN110705935B (zh) 一种物流单据的处理方法和装置
CN117951138A (zh) 分布式数据库索引方法、装置和设备
CN114003659A (zh) 数据同步方法、装置、电子设备、存储介质及程序产品
CN113986921A (zh) 一种黑名单查询方法、系统、电子设备及存储介质
US20210141791A1 (en) Method and system for generating a hybrid data model
CN110297842B (zh) 一种数据比对方法、装置、终端和存储介质
CN117009430A (zh) 数据管理方法、装置和存储介质及电子设备
US9607029B1 (en) Optimized mapping of documents to candidate duplicate documents in a document corpus
CN112579673A (zh) 一种多源数据处理方法及装置
CN112148705A (zh) 数据迁移的方法和装置
CN111914065B (zh) 短信内容验证方法、装置、计算机系统和计算机可读介质
CN109710673B (zh) 作品处理方法、装置、设备和介质
CN109446183B (zh) 全局防重的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination