CN112783904A - 一种更新索引数据的方法和装置 - Google Patents

一种更新索引数据的方法和装置 Download PDF

Info

Publication number
CN112783904A
CN112783904A CN201911081490.1A CN201911081490A CN112783904A CN 112783904 A CN112783904 A CN 112783904A CN 201911081490 A CN201911081490 A CN 201911081490A CN 112783904 A CN112783904 A CN 112783904A
Authority
CN
China
Prior art keywords
data
index
stored
index value
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911081490.1A
Other languages
English (en)
Inventor
张志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Wodong Tianjun Information Technology Co Ltd
Priority to CN201911081490.1A priority Critical patent/CN112783904A/zh
Publication of CN112783904A publication Critical patent/CN112783904A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种更新索引数据的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:生成待存储数据,将所述待存储数据存储到数据库的一级索引表中;从本地缓存或者所述一级索引表中提取所述待存储数据的主键和索引值,计算所述索引值的哈希值;基于所述索引值的哈希值将所述待存储数据的主键和索引值分发到线程中;将所述待存储数据的主键和索引值存储到所述数据库的二级索引表中。该实施方式能够解决重构索引数据较为耗时,不能实时地构建索引数据,还会加重服务端的负担或者导致索引数据丢失的技术问题。

Description

一种更新索引数据的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种更新索引数据的方法和装置。
背景技术
在大数据流式计算应用场景中,如果需要对持久化数据进行读写,往往会将持久化数据写入数据库,比如HBase(一个分布式的、面向列的开源数据库),HBase的特点是容量巨大,对基于rowkey的查询也非常快。
然而单纯的基于rowkey的查询,有时并不能满足业务的需要,如果需要根据某一列的值进行查询,HBase的查询效率就会很低。这种情况下HBase原生提供的方案是创建一个Scan,并通过设置SingleColumnValueFilter(条件查询语句)进行查询,只是这种方法需要对指定rowkey范围内的数据进行遍历,对于那些无法指定rowkey范围的查询,Scan则会进行全表扫描,因此其效率也非常低。
为了解决这一问题,特引入HBase二级索引的概念,将一级索引表中某一列的值与其对应的rowkey保存到二级索引表中,二级索引表的rowkey即为该列的值,该二级索引表中保存的索引值为一级索引表中的rowkey。当需要根据列值进行查询时,先在二级索引表中进行get查询,得到对应的索引值(即第一索引表中的rowkey),再根据rowkey在一级索引表中进行get查询,得到真正想要的业务数据。虽然将一步操作变成了两步,但是由于避免了大量无用的数据遍历扫描,其效率要比一般的Scan效率高得多。但是,HBase本身并未直接支持这种“二级索引”,因此需要自行构建这些索引数据。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
重构索引数据较为耗时,不能实时地构建索引数据,还会加重服务端的负担或者导致索引数据丢失。
发明内容
有鉴于此,本发明实施例提供一种更新索引数据的方法和装置,以解决现有技术中存在的技术问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种更新索引数据的方法,包括:
生成待存储数据,将所述待存储数据存储到数据库的一级索引表中;
从本地缓存或者所述一级索引表中提取所述待存储数据的主键和索引值,计算所述索引值的哈希值;
基于所述索引值的哈希值将所述待存储数据的主键和索引值分发到线程中;
将所述待存储数据的主键和索引值存储到所述数据库的二级索引表中。
可选地,基于所述索引值的哈希值将所述待存储数据的主键和索引值分发到线程中,包括:
将所述索引值的哈希值相同的所述待存储数据的主键和索引值分发到同一个线程。
可选地,将所述待存储数据的主键和索引值存储到所述数据库的二级索引表中,包括:
按照分发时间戳由小到大的顺序,依次将所述待存储数据的主键和索引值存储到所述数据库的二级索引表中。
可选地,在将所述待存储数据的主键和索引值存储到所述数据库的二级索引表中之后,还包括:
将所述待存储数据的主键和索引值存储到本地缓存中。
可选地,在所述二级索引表中,主键为所述待存储数据的索引值,索引值为所述待存储数据的主键。
可选地,将所述待存储数据的主键和索引值存储到所述数据库的二级索引表中,包括:
根据所述待存储数据的索引值在所述数据库的二级索引表中查找对应的索引值;
将所述待存储数据的主键存储到所述索引值中,更新所述二级索引表。
可选地,将所述待存储数据的主键和索引值存储到所述数据库的二级索引表中,包括:
根据所述待存储数据的索引值在本地缓存中查找对应的索引值;
将所述待存储数据的主键添加到所述索引值中;
将添加了主键后的所述索引值更新到所述数据库的二级索引表中;
将添加了主键后的所述索引值更新到本地缓存中。
另外,根据本发明实施例的另一个方面,提供了一种更新索引数据的装置,包括:
第一存储模块,用于生成待存储数据,将所述待存储数据存储到数据库的一级索引表中;
计算模块,用于从本地缓存或者所述一级索引表中提取所述待存储数据的主键和索引值,计算所述索引值的哈希值;
分发模块,用于基于所述索引值的哈希值将所述待存储数据的主键和索引值分发到线程中;
第二存储模块,用于将所述待存储数据的主键和索引值存储到所述数据库的二级索引表中。
可选地,所述分发模块还用于:将所述索引值的哈希值相同的所述待存储数据的主键和索引值分发到同一个线程。
可选地,所述第二存储模块还用于:
按照分发时间戳由小到大的顺序,依次将所述待存储数据的主键和索引值存储到所述数据库的二级索引表中。
可选地,所述第二存储模块还用于:
在将所述待存储数据的主键和索引值存储到所述数据库的二级索引表中之后,将所述待存储数据的主键和索引值存储到本地缓存中。
可选地,在所述二级索引表中,主键为所述待存储数据的索引值,索引值为所述待存储数据的主键。
可选地,所述第二存储模块还用于:
根据所述待存储数据的索引值在所述数据库的二级索引表中查找对应的索引值;
将所述待存储数据的主键存储到所述索引值中,更新所述二级索引表。
可选地,所述第二存储模块还用于:
根据所述待存储数据的索引值在本地缓存中查找对应的索引值;
将所述待存储数据的主键添加到所述索引值中;
将添加了主键后的所述索引值更新到所述数据库的二级索引表中;
将添加了主键后的所述索引值更新到本地缓存中。
根据本发明实施例的另一个方面,还提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一实施例所述的方法。
根据本发明实施例的另一个方面,还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例所述的方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用基于索引值的哈希值将待存储数据的主键和索引值分发到线程中,将待存储数据的主键和索引值存储到数据库的二级索引表中的技术手段,所以克服了现有技术中重构索引数据较为耗时,不能实时地构建索引数据,还会加重服务端的负担或者导致索引数据丢失的技术问题。本发明实施例基于索引值的哈希值将待存储数据的主键和索引值分发到线程中,使得这些索引数据在同一个线程中串行执行,这样既可以保证顺序地对相同索引值的索引数据进行更新,从而防止索引数据丢失,又能让索引数据尽可能地平均分散到不同的线程里进行处理,避免数据倾斜,因此在确保数据准确的基础上,最大化地提高了数据处理效率。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1为现有技术中保存数据和索引的主要流程示意图;
图2为现有技术中同时保存两条数据的主要流程示意图;
图3是根据本发明实施例的更新索引数据的方法的主要流程的示意图;
图4是根据本发明一个可参考实施例的更新索引数据的方法的主要流程的示意图;
图5是根据本发明另一个可参考实施例的更新索引数据的方法的主要流程的示意图;
图6是根据本发明实施例的更新索引数据的装置的主要模块的示意图;
图7是本发明实施例可以应用于其中的示例性系统架构图;
图8是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
由于HBase本身并未直接支持这种“二级索引”,因此需要自行构建这些索引数据,目前对于索引数据的构建方案大致有以下三种:
1)编写程序并定时执行,扫描HBase里所有的数据,并按业务要求生成索引数据。
2)为HBase开发扩展,并部署在HBase服务端,当数据写入时,同步生成索引数据。
3)扩展HBase客户端,当写入数据成功后,再读取现有索引数据,修改后再次写入索引数据。
但是,对于上述三种方案存在以下技术问题:
1)对于第一种方案,扫描HBase里所有的数据并重建索引,其本身就非常耗时,因此这种方案,并不能实时地构建索引,在流式计算场景中不适用。
2)对于第二种方案,将业务需要的二级索引构建规则放到服务端处理,一方面是加重了服务端的负担,另一方面也增加了服务端的职责;而且重要的是,一旦索引规则有所调整,则需要重新部署HBase服务端,因此该方案仅适用于业务规则比较明确的独立HBase环境。
3)对于第三种方案,其最大的问题在于写入数据与更新索引对HBase来说是两个独立的过程,不满足原子性,因此当有多个线程需要同时修改索引时,有可能会导致部分索引的更新丢失。
本发明实施例提供的更新索引数据的方法通过改进第三种方案,使得在Flink环境下,HBase的二级索引数据能够实时地、无误地进行更新。
图1为现有技术中存储数据的主要流程示意图。如图1所示,先在HBase客户端生成待存储数据,然后将待存储数据保存到HBase,用于其他处理逻辑。如果在“保存数据”这一环节需要同时保存索引信息,则在保存数据时,为数据流增加一条保存索引数据的分支,在该分支中将索引数据保存起来。但是,如图2所示,由于“保存数据”和“保存索引”这两个步骤之间有一定的时间差,如果有两个线程(图2中的虚线框中代表了另一个线程)同时进行“保存数据”,那么在“保存索引”时,必然会导致其中一个线程写入的索引数据被覆盖掉,导致部分索引的更新丢失。为了避免这种问题,本发明实施例采用KeyBy方法禁止对同一个索引的多线程操作。
图3是根据本发明实施例的更新索引数据的方法的主要流程的示意图。作为本发明的一个实施例,如图3所示,所述更新索引数据的方法可以包括:
步骤301,生成待存储数据,将所述待存储数据存储到数据库的一级索引表中。
当HBase客户端生成待存储数据后,HBase客户端向HBase服务端发送存储请求,从而将所述待存储数据存储到HBase的一级索引表中。在本发明的实施例中,一级索引表即为基础数据表。
例如,在一级索引表中,主键(rowkey)为学生ID,索引列为班级ID,普通列为成绩、身高、性别、家庭住址等。又比如,在一级索引表中,主键为学生ID,索引列为成绩,普通列为班级ID、身高、性别、家庭住址等。需要指出的是,索引列是根据实际业务需求而构建,业务需求不同(比如按照班级ID进行指定范围查询,按照成绩进行指定范围查询等),索引列不同。
步骤302,从本地缓存或者所述一级索引表中提取所述待存储数据的主键和索引值,计算所述索引值的哈希值。
将所述待存储数据保存到HBase的一级索引表中之后,HBase客户端从本地缓存或者HBase的一级索引表中提取出所述待存储数据的主键和索引值,然后计算所述索引值的哈希值。
由于需要进行Keyby,则涉及到数据在线程之间进行传递的问题,为了减少网络流量,本发明实施例只将待存储数据的主键和索引值提取出来。
步骤303,基于所述索引值的哈希值将所述待存储数据的主键和索引值分发到线程中。
可选地,步骤303包括:将所述索引值的哈希值相同的所述待存储数据的主键和索引值分发到同一个线程。
在Flink框架下,使用KeyBy方法可以为数据流中的每条数据设置一个值(key,即索引值的哈希值),在指定了哈希值之后,后续处理数据流时,具有相同哈希值的数据将会分发到相同的线程里运行。
步骤304,将所述待存储数据的主键和索引值存储到所述数据库的二级索引表中。
经过KeyBy之后,具有相同哈希值的索引数据将会在同一个线程内串行执行。在所述二级索引表中,主键(rowkey)为所述待存储数据的索引值,索引值为所述待存储数据的主键。
例如,在一级索引表中,索引列为班级ID,那么班级ID相同的索引数据就会被分发到同一个线程中,班级ID相同的索引数据在同一个线程内串行执行。因此,如果索引值的哈希值相同,那么这些索引值的索引数据是顺序执行的,这样可以保证顺序地对相同索引值的索引数据进行更新,从而防止索引数据丢失。
由于索引值为业务数据,因此有可能存在某些业务场景中,索引值分布不均衡的情况,本发明实施例将索引值的哈希值作为key,将哈希值相同的是索引数据分发到一个线程里,每一个线程处理key相同的索引数据。
举例来说,如果以学生的成绩来查询学生,那么在一级索引表中,学生的成绩是索引列,但是成绩的分布是不均衡的,一般来说70-80分的比较多,0-70分的比较少,80-100分的也比较少。那在处理这种数据的时候,希望每一个线程需要处理的数据是大致相当的,这就涉及一个分发的问题,如果按成绩范围进行分发(比如0-10分的索引数据分发给worker1处理,11-20分的索引数据给worker2处理)这就不太合理了。
本发明实施例提供的方法由于引入了哈希算法,在上述例子中,哈希算法可以是取成绩的尾数,比如分数为0,10,20,30,…,100这样的索引数据分发给worker1处理,分数为1,11,21,31,…,91这样的索引数据交给worker2处理,那么每个worker处理的数据就大致相当了,这样既保证了对相同索引值的索引数据的更新是顺序执行的,又能让索引数据尽可能地平均分散到不同的线程里进行处理,避免数据倾斜。
根据上面所述的各种实施例,可以看出本发明通过基于索引值的哈希值将待存储数据的主键和索引值分发到线程中,将待存储数据的主键和索引值存储到数据库的二级索引表中的技术手段,从而解决了现有技术中重构索引数据较为耗时,不能实时地构建索引数据,还会加重服务端的负担或者导致索引数据丢失的技术问题。本发明实施例基于索引值的哈希值将待存储数据的主键和索引值分发到线程中,使得这些索引数据在同一个线程中串行执行,这样既可以保证顺序地对相同索引值的索引数据进行更新,从而防止索引数据丢失,又能让索引数据尽可能地平均分散到不同的线程里进行处理,避免数据倾斜,因此在确保数据准确的基础上,最大化地提高了数据处理效率。
图4是根据本发明一个可参考实施例的更新索引数据的方法的主要流程的示意图。
步骤401,生成待存储数据,将所述待存储数据存储到数据库的一级索引表中。
当HBase客户端生成待存储数据后,HBase客户端向HBase服务端发送存储请求,从而将所述待存储数据存储到HBase的一级索引表中。
步骤402,从本地缓存或者所述一级索引表中提取所述待存储数据的主键和索引值,计算所述索引值的哈希值。
将所述待存储数据保存到HBase的一级索引表中之后,HBase客户端从本地缓存或者HBase的一级索引表中提取出所述待存储数据的主键和索引值,然后计算所述索引值的哈希值。
步骤403,将所述索引值的哈希值相同的所述待存储数据的主键和索引值分发到同一个线程,因此具有相同哈希值的索引数据将会在同一个线程内串行执行。
在指定了哈希值之后,后续处理数据流时,具有相同哈希值的数据将会分发到相同的线程里运行。
步骤404,根据所述待存储数据的索引值在所述数据库的二级索引表中查找对应的索引值。
步骤405,将所述待存储数据的主键存储到所述索引值中,更新所述二级索引表。
步骤406,将所述待存储数据的主键和索引值存储到本地缓存中。
由于从本地缓存中读取数据非常快(如10毫秒),而从HBase里查询数据则非常慢(如200毫秒),因此本发明实施例在将索引数据存储到二级索引表中后,还将索引数据存储到本地缓存中。当下一次存储索引数据时,可以先从缓存中读取(只用10毫秒就行了),如果缓存中没有,再从HBase中读取,这样可以显著提高数据处理效率。
另外,在本发明一个可参考实施例中更新索引数据的方法的具体实施内容,在上面所述更新索引数据的方法中已经详细说明了,故在此重复内容不再说明。
图5是根据本发明另一个可参考实施例的更新索引数据的方法的主要流程的示意图。
步骤501,生成待存储数据,将所述待存储数据存储到数据库的一级索引表中。
步骤502,从本地缓存或者所述一级索引表中提取所述待存储数据的主键和索引值,计算所述索引值的哈希值。
步骤503,将所述索引值的哈希值相同的所述待存储数据的主键和索引值分发到同一个线程。
步骤504,根据所述待存储数据的索引值在本地缓存中查找对应的索引值,将所述待存储数据的主键添加到所述索引值中。
步骤505,将添加了主键后的所述索引值更新到所述数据库的二级索引表中。
步骤506,将添加了主键后的所述索引值更新到本地缓存中。
由于缓存的容量有限,会有一定的清理周期,有些缓存过的数据会被删除,为了保证数据都能安全地保存起来,需要先更新数据库中的二级索引表,再更新缓存中的索引数据。因此,本发明实施例将索引数据缓存到本地,可以进一步提高数据处理效率。
另外,在本发明另一个可参考实施例中更新索引数据的方法的具体实施内容,在上面所述更新索引数据的方法中已经详细说明了,故在此重复内容不再说明。
图6是根据本发明实施例的更新索引数据的装置的主要模块的示意图,如图6所示,所述更新索引数据的装置600包括第一存储模块601、计算模块602、分发模块603和第二存储模块604。其中,第一存储模块601用于生成待存储数据,将所述待存储数据存储到数据库的一级索引表中;计算模块602用于从本地缓存或者所述一级索引表中提取所述待存储数据的主键和索引值,计算所述索引值的哈希值;分发模块603用于基于所述索引值的哈希值将所述待存储数据的主键和索引值分发到线程中;第二存储模块604用于将所述待存储数据的主键和索引值存储到所述数据库的二级索引表中。
可选地,所述分发模块603还用于:将所述索引值的哈希值相同的所述待存储数据的主键和索引值分发到同一个线程。
可选地,所述第二存储模块604还用于:
按照分发时间戳由小到大的顺序,依次将所述待存储数据的主键和索引值存储到所述数据库的二级索引表中。
可选地,所述第二存储模块604还用于:
在将所述待存储数据的主键和索引值存储到所述数据库的二级索引表中之后,将所述待存储数据的主键和索引值存储到本地缓存中。
可选地,在所述二级索引表中,主键为所述待存储数据的索引值,索引值为所述待存储数据的主键。
可选地,所述第二存储模块604还用于:
根据所述待存储数据的索引值在所述数据库的二级索引表中查找对应的索引值;
将所述待存储数据的主键存储到所述索引值中,更新所述二级索引表。
可选地,所述第二存储模块604还用于:
根据所述待存储数据的索引值在本地缓存中查找对应的索引值;
将所述待存储数据的主键添加到所述索引值中;
将添加了主键后的所述索引值更新到所述数据库的二级索引表中;
将添加了主键后的所述索引值更新到本地缓存中。
根据上面所述的各种实施例,可以看出本发明通过基于索引值的哈希值将待存储数据的主键和索引值分发到线程中,将待存储数据的主键和索引值存储到数据库的二级索引表中的技术手段,从而解决了现有技术中重构索引数据较为耗时,不能实时地构建索引数据,还会加重服务端的负担或者导致索引数据丢失的技术问题。本发明实施例基于索引值的哈希值将待存储数据的主键和索引值分发到线程中,使得这些索引数据在同一个线程中串行执行,这样既可以保证顺序地对相同索引值的索引数据进行更新,从而防止索引数据丢失,又能让索引数据尽可能地平均分散到不同的线程里进行处理,避免数据倾斜,因此在确保数据准确的基础上,最大化地提高了数据处理效率。
需要说明的是,在本发明所述更新索引数据的装置的具体实施内容,在上面所述更新索引数据的方法中已经详细说明了,故在此重复内容不再说明。
图7示出了可以应用本发明实施例的更新索引数据的方法或更新索引数据的装置的示例性系统架构700。
如图7所示,系统架构700可以包括终端设备701、702、703,网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备701、702、703通过网络704与服务器705交互,以接收或发送消息等。终端设备701、702、703上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备701、702、703可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器705可以是提供各种服务的服务器,例如对用户利用终端设备701、702、703所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的物品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、物品信息——仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的更新索引数据的方法也可以由终端设备701、702、703执行,相应地,所述更新索引数据的装置可以设置在终端设备701、702、703中。
应该理解,图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图8,其示出了适于用来实现本发明实施例的终端设备的计算机系统800的结构示意图。图8示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括第一存储模块、计算模块、分发模块和第二存储模块,其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:生成待存储数据,将所述待存储数据存储到数据库的一级索引表中;从本地缓存或者所述一级索引表中提取所述待存储数据的主键和索引值,计算所述索引值的哈希值;基于所述索引值的哈希值将所述待存储数据的主键和索引值分发到线程中;将所述待存储数据的主键和索引值存储到所述数据库的二级索引表中。
根据本发明实施例的技术方案,因为采用基于索引值的哈希值将待存储数据的主键和索引值分发到线程中,将待存储数据的主键和索引值存储到数据库的二级索引表中的技术手段,所以克服了现有技术中重构索引数据较为耗时,不能实时地构建索引数据,还会加重服务端的负担或者导致索引数据丢失的技术问题。本发明实施例基于索引值的哈希值将待存储数据的主键和索引值分发到线程中,使得这些索引数据在同一个线程中串行执行,这样既可以保证顺序地对相同索引值的索引数据进行更新,从而防止索引数据丢失,又能让索引数据尽可能地平均分散到不同的线程里进行处理,避免数据倾斜,因此在确保数据准确的基础上,最大化地提高了数据处理效率。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种更新索引数据的方法,其特征在于,包括:
生成待存储数据,将所述待存储数据存储到数据库的一级索引表中;
从本地缓存或者所述一级索引表中提取所述待存储数据的主键和索引值,计算所述索引值的哈希值;
基于所述索引值的哈希值将所述待存储数据的主键和索引值分发到线程中;
将所述待存储数据的主键和索引值存储到所述数据库的二级索引表中。
2.根据权利要求1所述的方法,其特征在于,基于所述索引值的哈希值将所述待存储数据的主键和索引值分发到线程中,包括:
将所述索引值的哈希值相同的所述待存储数据的主键和索引值分发到同一个线程。
3.根据权利要求1所述的方法,其特征在于,将所述待存储数据的主键和索引值存储到所述数据库的二级索引表中,包括:
按照分发时间戳由小到大的顺序,依次将所述待存储数据的主键和索引值存储到所述数据库的二级索引表中。
4.根据权利要求1所述的方法,其特征在于,在将所述待存储数据的主键和索引值存储到所述数据库的二级索引表中之后,还包括:
将所述待存储数据的主键和索引值存储到本地缓存中。
5.根据权利要求1所述的方法,其特征在于,在所述二级索引表中,主键为所述待存储数据的索引值,索引值为所述待存储数据的主键。
6.根据权利要求5所述的方法,其特征在于,将所述待存储数据的主键和索引值存储到所述数据库的二级索引表中,包括:
根据所述待存储数据的索引值在所述数据库的二级索引表中查找对应的索引值;
将所述待存储数据的主键存储到所述索引值中,更新所述二级索引表。
7.根据权利要求6所述的方法,其特征在于,将所述待存储数据的主键和索引值存储到所述数据库的二级索引表中,包括:
根据所述待存储数据的索引值在本地缓存中查找对应的索引值;
将所述待存储数据的主键添加到所述索引值中;
将添加了主键后的所述索引值更新到所述数据库的二级索引表中;
将添加了主键后的所述索引值更新到本地缓存中。
8.一种更新索引数据的装置,其特征在于,包括:
第一存储模块,用于生成待存储数据,将所述待存储数据存储到数据库的一级索引表中;
计算模块,用于从本地缓存或者所述一级索引表中提取所述待存储数据的主键和索引值,计算所述索引值的哈希值;
分发模块,用于基于所述索引值的哈希值将所述待存储数据的主键和索引值分发到线程中;
第二存储模块,用于将所述待存储数据的主键和索引值存储到所述数据库的二级索引表中。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201911081490.1A 2019-11-07 2019-11-07 一种更新索引数据的方法和装置 Pending CN112783904A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911081490.1A CN112783904A (zh) 2019-11-07 2019-11-07 一种更新索引数据的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911081490.1A CN112783904A (zh) 2019-11-07 2019-11-07 一种更新索引数据的方法和装置

Publications (1)

Publication Number Publication Date
CN112783904A true CN112783904A (zh) 2021-05-11

Family

ID=75747825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911081490.1A Pending CN112783904A (zh) 2019-11-07 2019-11-07 一种更新索引数据的方法和装置

Country Status (1)

Country Link
CN (1) CN112783904A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008046173A1 (en) * 2006-10-20 2008-04-24 Thyssenkrupp Elevadores S.A. Elevators users access and tracking control system
CN102682116A (zh) * 2012-05-14 2012-09-19 中兴通讯股份有限公司 基于哈希表的表项处理方法及其装置
JP2013242674A (ja) * 2012-05-18 2013-12-05 Nippon Telegr & Teleph Corp <Ntt> データベース管理装置、Btreeインデックス処理方法、及びプログラム
CN103886109A (zh) * 2014-04-18 2014-06-25 北京搜狐新媒体信息技术有限公司 一种实现数据库行锁的方法及装置
CN104598519A (zh) * 2014-12-11 2015-05-06 浙江浙大中控信息技术有限公司 一种基于连续内存的数据库索引系统及处理方法
CN104794162A (zh) * 2015-03-25 2015-07-22 中国人民大学 实时数据存储与查询方法
CN105741395A (zh) * 2016-02-03 2016-07-06 慧锐通智能科技股份有限公司 基于二维码和人脸识别的门禁访问方法和系统
WO2018000174A1 (zh) * 2016-06-28 2018-01-04 深圳大学 面向存储的dna序列的并行快速匹配方法及其系统
CN109584411A (zh) * 2018-10-18 2019-04-05 南京中诚区块链研究院有限公司 基于区块链技术的智能门禁管理方法
US10303383B1 (en) * 2015-12-09 2019-05-28 Travelport, Lp System and method for implementing non-blocking, concurrent hash tables
CN110262922A (zh) * 2019-05-15 2019-09-20 中国科学院计算技术研究所 基于副本数据日志的纠删码更新方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008046173A1 (en) * 2006-10-20 2008-04-24 Thyssenkrupp Elevadores S.A. Elevators users access and tracking control system
CN102682116A (zh) * 2012-05-14 2012-09-19 中兴通讯股份有限公司 基于哈希表的表项处理方法及其装置
JP2013242674A (ja) * 2012-05-18 2013-12-05 Nippon Telegr & Teleph Corp <Ntt> データベース管理装置、Btreeインデックス処理方法、及びプログラム
CN103886109A (zh) * 2014-04-18 2014-06-25 北京搜狐新媒体信息技术有限公司 一种实现数据库行锁的方法及装置
CN104598519A (zh) * 2014-12-11 2015-05-06 浙江浙大中控信息技术有限公司 一种基于连续内存的数据库索引系统及处理方法
CN104794162A (zh) * 2015-03-25 2015-07-22 中国人民大学 实时数据存储与查询方法
US10303383B1 (en) * 2015-12-09 2019-05-28 Travelport, Lp System and method for implementing non-blocking, concurrent hash tables
CN105741395A (zh) * 2016-02-03 2016-07-06 慧锐通智能科技股份有限公司 基于二维码和人脸识别的门禁访问方法和系统
WO2018000174A1 (zh) * 2016-06-28 2018-01-04 深圳大学 面向存储的dna序列的并行快速匹配方法及其系统
CN109584411A (zh) * 2018-10-18 2019-04-05 南京中诚区块链研究院有限公司 基于区块链技术的智能门禁管理方法
CN110262922A (zh) * 2019-05-15 2019-09-20 中国科学院计算技术研究所 基于副本数据日志的纠删码更新方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王文贤;陈兴蜀;王海舟;吴小松;: "一种基于Solr的HBase海量数据二级索引方案", 信息网络安全, no. 08 *
袁通: "基于多核处理器的内存数据库查询执行优化研究", 中国博士学位论文全文数据库, no. 12 *

Similar Documents

Publication Publication Date Title
CN110019350B (zh) 基于配置信息的数据查询方法和装置
CN109614402B (zh) 多维数据查询方法和装置
CN108846753B (zh) 用于处理数据的方法和装置
US11200231B2 (en) Remote query optimization in multi data sources
WO2018035799A1 (zh) 数据查询方法、应用和数据库服务器、中间件及系统
CN110990420A (zh) 数据查询方法、装置
US11886410B2 (en) Database live reindex
CN111061680A (zh) 一种数据检索的方法和装置
CN110909022A (zh) 一种数据查询方法和装置
CN113760948A (zh) 一种数据查询的方法及装置
CN112000734A (zh) 一种大数据处理方法和装置
Choi et al. Improving database system performance by applying NoSQL
CN111949648B (zh) 内存缓存数据系统和数据索引方法
CN110858199A (zh) 一种单据数据分布式计算的方法和装置
CN112783904A (zh) 一种更新索引数据的方法和装置
CN113268483A (zh) 请求处理方法和装置、电子设备和存储介质
CN109213815B (zh) 控制执行次数的方法、装置、服务器终端以及可读介质
CN113760240A (zh) 一种生成数据模型的方法和装置
CN113704242A (zh) 一种数据处理方法和装置
CN113127416A (zh) 数据查询方法和装置
CN111988195A (zh) 用于分组测试的应答方案确定方法、装置、设备及介质
CN110866002A (zh) 分表数据处理的方法和装置
CN110888939A (zh) 一种数据管理方法和装置
CN112861030B (zh) Cdn的刷新方法和装置、缓存服务器以及存储介质
US20230132173A1 (en) Data reading method, device and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination