CN114398372A

CN114398372A - 一种数据缓存方法和装置

Info

Publication number: CN114398372A
Application number: CN202210037194.7A
Authority: CN
Inventors: 赵力
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-04-26

Abstract

本发明公开了一种数据缓存方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：监听分布式调度中心的各个节点；其中，所述节点的目录与各个数据库中的各个数据表一一对应，所述节点保存的节点信息包括所述节点对应的数据表的数据变更时间戳；若监听到所述节点保存的节点信息发生变更，则根据所述节点的目录和变更后的节点信息生成缓存标识和布隆过滤器；将所述缓存标识与所述布隆过滤器关联，并将所述缓存标识及其对应的布隆过滤器存储至过滤器集合中。该实施方式能够解决开发难度大、内存不均、阻塞查询或者数据不一致的技术问题。

Description

一种数据缓存方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据缓存方法和装置。

背景技术

在大数据分析场景下，ClickHouse(列式存储引擎)以其优秀的底层设计和良好的查询性能，深受数据分析者的青睐，目前在联机分析领域有着广泛的应用。

但是，在ClickHouse提供良好数据分析能力的同时，由于要保持高性能的查询能力，引擎内部会很大程度的利用CPU资源，这导致 ClickHouse并不适合处理特别高频的操作，这些高频操作包括写入、查询、修改等操作，用户在使用ClickHouse时，往往面临查询QPS(每秒查询率)受限的问题。

面对提高数据库并发查询的场景，在不考虑复杂的底层存储引擎升级方案，一种有效的解决思路是提供前置缓存方案来实现数据的一次查询多次使用。

然而，目前常用的缓存方案存在以下技术问题：

面对大结果集的查询，存在内存不均、阻塞查询的风险。

发明内容

有鉴于此，本发明实施例提供一种数据缓存方法和装置，以解决开内存不均和阻塞查询的技术问题。

为实现上述目的，根据本发明实施例的一个方面，提供了一种数据缓存方法，应用于服务端，包括：

监听分布式调度中心的各个节点；其中，所述节点的目录与各个数据库中的各个数据表一一对应，所述节点保存的节点信息包括所述节点对应的数据表的数据变更时间戳；

若监听到所述节点保存的节点信息发生变更，则根据所述节点的目录和变更后的节点信息生成缓存标识和布隆过滤器；

将所述缓存标识与所述布隆过滤器关联，并将所述缓存标识及其对应的布隆过滤器存储至过滤器集合中。

可选地，所述缓存标识包括所述节点的目录和所述节点对应的数据表的数据变更时间戳。

可选地，所述分布式调度中心从消息队列中获取消息，解析所述消息以得到数据库信息、数据表信息和数据变更时间戳，从而变更所述数据库和所述数据表对应的节点保存的节点信息；

其中，所述消息由数据存储引擎生成并写入所述消息队列中。

可选地，将所述缓存标识及其对应的布隆过滤器存储至过滤器集合中之后，还包括：

配置所述布隆过滤器的失效时间戳；其中，所述失效时间戳为当前时间戳加上失效时长，所述失效时长大于所述数据存储引擎的批写入周期。

另外，根据本发明实施例的另一个方面，提供了一种数据缓存方法，应用于客户端，包括：

监听分布式调度中心的目标节点；其中，所述分布式调度中心的节点的目录与各个数据库中的各个数据表一一对应，所述目标节点保存的节点信息包括所述目标节点对应的数据表的数据变更时间戳；

若监听到所述目标节点保存的节点信息发生变更，则拉取变更后的节点信息。

可选地，还包括：

接收数据查询请求；其中，所述数据查询请求携带数据库信息、数据表信息和入参；

根据所述数据库信息和所述数据表信息匹配出数据变更时间戳，从而生成缓存标识；

从过滤器集合中获取所述缓存标识对应的布隆过滤器；

基于所述入参和所述布隆过滤器获取所述数据查询请求对应的查询数据。

可选地，所述缓存标识包括所述数据库信息、所述数据表信息和数据变更时间戳。

可选地，基于所述入参和所述布隆过滤器获取所述数据查询请求对应的查询数据，包括：

根据所述客户端提供的接口的类路径、方法名以及所述入参生成字符串标识；

采用哈希函数对所述字符串标识进行计算，得到标识位；

基于所述标识位判断所述布隆过滤器是否命中；若是，则从缓存中获取所述字符串标识对应的查询数据；若否，则从所述数据库中的所述数据表中获取所述数据查询请求对应的查询数据。

可选地，根据所述客户端提供的接口的类路径、方法名以及所述入参生成字符串标识，包括：

将所述客户端提供的接口的类路径、方法名以及所述入参封装成字符串；

采用信息摘要算法对所述字符串进行加密，得到字符串标识。

可选地，从缓存中获取所述字符串标识对应的查询数据，包括：

基于所述字符串标识判断缓存是否命中；

若是，则从所述缓存获取所述字符串标识对应的查询数据；

若否，则从所述数据库中的所述数据表中获取所述数据查询请求对应的查询数据。

可选地，从所述数据库中的所述数据表中获取所述数据查询请求对应的查询数据之后，还包括：

将所述字符串标识和所述数据查询请求对应的查询数据存储到缓存中，并基于所述标识位更新所述布隆过滤器的值。

可选地，将所述字符串标识和所述数据查询请求对应的查询数据存储到缓存中，包括：

判断所述数据查询请求对应的查询数据的数据集大小是否大于等于阈值；

若是，则将所述查询数据存储到HDFS中，并将所述字符串标识和所述查询数据在HDFS中的存储路径存储到HBase中；

若否，则所述字符串标识和所述查询数据存储到HBase中。

另外，根据本发明实施例的另一个方面，提供了一种数据缓存装置，设置于服务端，包括：

第一监听模块，用于监听分布式调度中心的各个节点；其中，所述节点的目录与各个数据库中的各个数据表一一对应，所述节点保存的节点信息包括所述节点对应的数据表的数据变更时间戳；

生成模块，用于若监听到所述节点保存的节点信息发生变更，则根据所述节点的目录和变更后的节点信息生成缓存标识和布隆过滤器；

存储模块，用于将所述缓存标识与所述布隆过滤器关联，并将所述缓存标识及其对应的布隆过滤器存储至过滤器集合中。

可选地，所述存储模块还用于：

将所述缓存标识及其对应的布隆过滤器存储至过滤器集合中之后，配置所述布隆过滤器的失效时间戳；其中，所述失效时间戳为当前时间戳加上失效时长，所述失效时长大于所述数据存储引擎的批写入周期。

另外，根据本发明实施例的另一个方面，提供了一种数据缓存装置，设置于客户端，包括：

第二监听模块，用于监听分布式调度中心的目标节点；其中，所述分布式调度中心的节点的目录与各个数据库中的各个数据表一一对应，所述目标节点保存的节点信息包括所述目标节点对应的数据表的数据变更时间戳；

拉取模块，用于若监听到所述目标节点保存的节点信息发生变更，则拉取变更后的节点信息。

可选地，还包括处理模块，用于：

从过滤器集合中获取所述缓存标识对应的布隆过滤器；

可选地，所述处理模块还用于：

采用哈希函数对所述字符串标识进行计算，得到标识位；

可选地，所述处理模块还用于：

基于所述字符串标识判断缓存是否命中；

若是，则从所述缓存获取所述字符串标识对应的查询数据；

可选地，所述处理模块还用于：

从所述数据库中的所述数据表中获取所述数据查询请求对应的查询数据之后，将所述字符串标识和所述数据查询请求对应的查询数据存储到缓存中，并基于所述标识位更新所述布隆过滤器的值。

可选地，所述处理模块还用于：

若否，则所述字符串标识和所述查询数据存储到HBase中。

根据本发明实施例的另一个方面，还提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，所述一个或多个处理器实现上述任一实施例所述的方法。

根据本发明实施例的另一个方面，还提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一实施例所述的方法。

上述发明中的一个实施例具有如下优点或有益效果：若监听到目标节点保存的节点信息发生变更，则拉取变更后的节点信息，根据库表信息和数据变更时间戳生成缓存标识，从而获取缓存标识对应的布隆过滤器的技术手段，所以克服了现有技术中开发难度大、内存不均、阻塞查询或者数据不一致的技术问题。本发明实施例基于布隆过滤器和缓存方案进行缓存结果存储，既能保障大结果集的存储，又可以通过前置布隆过滤器匹配来提高并发查询能力；客户端通过监听分布式调度中的节点，可以实现最新缓存标识实时同步能力，能够获取到最新的布隆过滤器，保证查询的缓存结果与数据库数据具有一致性，从而达到无损缓存查询能力。而且客户端只需要插件化引入客户端组件即可实现缓存能力增强，从而降低开发难度。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明一个实施例的数据缓存方法的主要流程的示意图；

图2是根据本发明实施例的服务端和客户端的架构示意图；

图3是根据本发明另一个实施例的数据缓存方法的主要流程的示意图；

图4是根据本发明实施例的客户端的架构示意图；

图5是根据本发明一个可参考实施例的数据缓存方法的主要流程的示意图；

图6是根据本发明一个实施例的数据缓存装置的主要模块的示意图；

图7是根据本发明另一个实施例的数据缓存装置的主要模块的示意图；

图8是本发明实施例可以应用于其中的示例性系统架构图；

图9是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

由于高并发的查询能力是用户所需要的，同时ClickHouse引擎在面对这种高频操作时，引擎本身并没有一套通用的解决方案，因此如何提高ClickHouse的并发查询能力是大家关注的问题。在面对提高数据库并发查询的场景，在不考虑复杂的底层存储引擎升级方案，一种有效的解决思路是提供前置缓存方案来实现数据的一次查询多次使用。

目前，常见的缓存方案主要有以下两种：

1)可以在客户端增加缓存能力，通过具体的缓存规则判定，将结果集缓存，通过减少访问数据库的流量来实现并发访问能力的提高，常用的缓存方案是通过Redis实现；

2)在服务端提供代理层，增加缓存能力，进行统一SQL解析，控制访问数据库的流量。

以上的解决方案是提供缓存能力的常见思路，但是这些方案存在以下问题：

1)开发难度及风险控制难度较大：比如第二种缓存方案，服务端直接提供代理层，要做一些SQL的AST(抽象语法树)解析工作，对于研发压力较大，并且在升级过程中容易影响到上下游业务，因此风险较大；

2)Redis大key性能问题：常规的缓存方案更多的是依赖于Redis 实现结果集的缓存，但是面向ClickHouse的数据查询场景较为丰富，除了简单的结果集，也可能存在大结果集查询(如明细查询等)，面对超过10k的value数据，Redis缓存存储存在大key的问题，有内存不均、阻塞查询的风险；

3)有损缓存结果集问题：现有的Redis缓存存储方案在缓存失效的管理方面依赖key的TTL(生存时间值)过期失效机制，虽然避免数据库压力，但是仅会对TTL周期内的一段时间的数据进行缓存，这样就造成了缓存数据与实时数据源的不一致性，即缓存结果的临时性、有损性。

为了解决以上技术问题，本发明实施例提出了一种可以提高 ClickHouse并发查询能力的数据缓存方法，该方法能实现客户端侧插件化升级、大对象存储和缓存无损化查询的能力。

图1是根据本发明实施例的数据缓存方法的主要流程的示意图。作为本发明的一个实施例，如图1所示，所述数据缓存方法应用于服务端，可以包括：

步骤101，监听分布式调度中心的各个节点。

本发明实施例的架构图如图2所示，整体架构分为两部分：服务端和客户端。服务端的核心功能是提供实时计算能力，通过监听批写入数据库的库表变化信息，在分布式调度中心(比如Zookeeper)节点中更新ClickHouse的库表的缓存标识，实现缓存标识与数据库变更信息同步。其中，所述分布式调度中心的节点的目录与各个数据库中的各个数据表一一对应，所述节点保存的节点信息包括所述节点对应的数据表的数据变更时间戳。

可选地，所述分布式调度中心从消息队列中获取消息，解析所述消息以得到数据库信息、数据表信息和数据变更时间戳，从而变更所述数据库和所述数据表对应的节点保存的节点信息；其中，所述消息由数据存储引擎生成并写入所述消息队列中。如图2所示，图中标识说明如下：{db}为发送数据变更的数据库、{table}发生数据变更的数据表、{time}为发生数据变更的时间戳，{batch_write_period}为批写入周期。整个服务端包括消息队列(MQ)、分布式调度中心(Zookeeper)、 Redis等组件。实时计算更新ClickHouse服务将数据批写入ClickHouse 后，发出异步消息，并将异步消息写入消息队列，消息包含发生数据变更的数据库信息(可以是数据库的名称或者标识)和数据表信息(可以是数据表的名称或者标识)、发生数据变更的时间戳。服务端通过消息监听来实现分布式调度中心的更新。具体地，分布式调度中心获取消息队列中的消息，从而解析出发生数据变更的数据库信息和数据表信息，然后在分布式调度中心的{db}/{table}目录下更新临时节点，实现ClickHouse数据缓存标识更新，节点保存的信息为数据表更新的最新时间戳{time}。

步骤102，若监听到所述节点保存的节点信息发生变更，则根据所述节点的目录和变更后的节点信息生成缓存标识和布隆过滤器。

服务端监听分布式调度中心的节点信息是否发生变化，当监听到分布式调度中心保存的节点信息发生变更，则初始化生成最新时间戳 {time}的布隆过滤器。

可选地，所述缓存标识包括所述节点的目录和所述节点对应的数据表的数据变更时间戳，由于各个数据库中的各个数据表一一对应，因此缓存标识为{db}_{table}_{time}，通过缓存标识可以匹配出最新的布隆过滤器。本发明实施例根据缓存标识更新布隆过滤器池，初始化最新的布隆过滤器，为客户端后续匹配查询做好准备。

步骤103，将所述缓存标识与所述布隆过滤器关联，并将所述缓存标识及其对应的布隆过滤器存储至过滤器集合中。

服务端将缓存标识与布隆过滤器关联，并将缓存标识及其对应的布隆过滤器存储到过滤器集合中，所述过滤器集合可以存储在Redis 中。本发明实施例采用Redis的bit结构(SETBIT)实现布隆过滤器的功能，缓存标识为{db}_{table}_{time}，此时布隆过滤器全部标识均置为0。

可选地，步骤103之后，还包括：配置所述布隆过滤器的失效时间戳；其中，所述失效时间戳为当前时间戳加上失效时长，所述失效时长大于所述数据存储引擎的批写入周期。例如，可以将失效时长配置为ClickHouse批写入周期的两倍，即2*{batch_write_period}，这样便于旧版布隆过滤器的自动回收。

服务端通过以上步骤，可以实现ClickHouse不同库表数据更新的监听能力，实现缓存标识的实时更新，从而保证实时生成最新的布隆过滤器。

由于ClickHouse的特点是批写入，因此可以做到写入时点监听，本发明实施例通过ClickHouse更新的数据监听，更新最新的缓存标识，在服务端实现布隆过滤器的实时更新、旧过滤器自动失效，以便于客户端查询到最新的布隆过滤器，从而达到无损缓存查询能力。

根据上面所述的各种实施例，可以看出本发明实施例通过若监听到节点保存的节点信息发生变更则根据节点的目录和变更后的节点信息生成缓存标识和布隆过滤器，节点的目录与各个数据库中的各个数据表一一对应，节点信息包括数据表的数据变更时间戳的技术手段，解决了现有技术中开发难度大、内存不均、阻塞查询或者数据不一致的技术问题。本发明实施例通过前置布隆过滤器匹配来提高并发查询能力，还能够实现布隆过滤器的实时更新、旧过滤器自动失效，以便于客户端查询到最新的布隆过滤器，从而达到无损缓存查询能力。

图3是根据本发明另一个实施例的数据缓存方法的主要流程的示意图。作为本发明的又一个实施例，如图3所示，所述数据缓存方法应用于客户端，可以包括：

步骤301，监听分布式调度中心的目标节点。

如图2所示，与服务端类似，客户端也监听分布式调度中心(比如Zookeeper)的节点信息是否发生变化，其中，所述分布式调度中心的节点的目录与各个数据库中的各个数据表一一对应，所述节点保存的节点信息包括所述节点对应的数据表的数据变更时间戳。可选地，客户端缓存服务可封装为SPI插件拓展服务，用户引入插件服务后，随着用户服务的启动，客户端缓存服务启动，连接分布式调度中心，监听分布式调度中心的节点。

可以预先配置客户端监听的ClickHouse库表信息，也就是监听的目标节点，所述目标节点保存的节点信息包括所述目标节点对应的数据表的数据变更时间戳。每个客户端监听的库表信息不同，因此不同的客户端可以监听不同的目标节点，每个客户端可以监听一个目标节点，可以监听多个目标节点，本发明实施例对此不作限制。需要指出的是，不同的客户端相当于不同的业务系统，每个业务系统监听的库和表不一样，需要提前配置好各个客户端监听的ClickHouse库表信息。

步骤302，若监听到所述目标节点保存的节点信息发生变更，则拉取变更后的节点信息。

客户端监听分布式调度中心的节点信息是否发生变化，当监听到分布式调度中心保存的节点信息发生变更，则将变更后的节点信息(即数据表更新的最新时间戳{time})拉取到本地。根据客户端配置的目标节点，拉取远程分布式调度中心路径{db}/{table}下的最新节点信息，形成缓存标识的JVM缓存能力，这种通过插件方式引入，极大降低了系统的耦合性，减少对已有项目的代码侵入。

在本发明的实施例中，客户端通过watcher监听机制，实现与远程分布式调度中心的信息同步，当分布式调度中心目录{db}/{table}下的节点信息变更时，客户端可以实时拉取最新的节点信息到本地，更新相关表的最新{time}信息。

步骤303，接收数据查询请求。其中，所述数据查询请求携带数据库信息、数据表信息和入参。

如图4所示，可以通过AOP代理实现接口的拦截能力，在切面的接口注解上配置访问ClickHouse的库表信息，从而拦截访问该库表的查询请求。

步骤304，根据所述数据库信息和所述数据表信息匹配出数据变更时间戳，从而生成缓存标识。

由于客户端本地存储了库表信息对应的最新时间戳{time}，因此可以根据请求中携带的访问ClickHouse的库表信息匹配出最新时间戳 {time}，从而生成缓存标识。

可选地，所述缓存标识包括所述数据库信息、所述数据表信息和数据变更时间戳，便于客户端从过滤器集合中拉取最新的布隆过滤器。

步骤305，从过滤器集合中获取所述缓存标识对应的布隆过滤器。

客户端通过缓存标识获取最新的布隆过滤器，实现缓存标识与数据库变更信息同步，从而达到无损缓存查询能力。

步骤306，基于所述入参和所述布隆过滤器获取所述数据查询请求对应的查询数据。

获取到最新的布隆过滤器后，客户端根据请求中携带的入参以及布隆过滤器的值从缓存或者ClickHouse数据库获取数据查询请求对应的查询数据。

可选地，步骤306可以包括：根据所述客户端提供的接口的类路径、方法名以及所述入参生成字符串标识；采用哈希函数对所述字符串标识进行计算，得到标识位；基于所述标识位判断所述布隆过滤器是否命中；若是，则从缓存中获取所述字符串标识对应的查询数据；若否，则从所述数据库中的所述数据表中获取所述数据查询请求对应的查询数据。在本发明的实施例中，客户端根据其提供的接口的类路径+方法名+顺序入参生成字符串标识，然后采用哈希函数计算该字符串标识的标识位，最后基于标识位判断最新的布隆过滤器是否命中，如果命中，说明缓存中可能存在查询数据，可以直接从缓存获取查询数据，如果没有命中，说明缓存中不存在查询数据，需要从ClickHouse 数据库中获取查询数据。

可选地，如图4所示，全局唯一访问的生成字符串标识key之后，可以进一步通过三种Hash方式分别生成标识位(即位阵列，Bit Array)，最后根据生成的各个标识位判断在布隆过滤器中是否均为1，若是，说明布隆过滤器命中，缓存中可能存在查询数据，若否，说明布隆过滤器没有命中，缓存中不存在查询数据。

可选地，通过pipeline方式批量查询Redis的布隆过滤器的值，比如命令GETBITkey offset，如果没命中，则说明查询数据没有缓存，如果命中，则有可能命中缓存，需要进一步查询缓存(比如Hbase)。

可选地，根据所述客户端提供的接口的类路径、方法名以及所述入参生成字符串标识，包括：将所述客户端提供的接口的类路径、方法名以及所述入参封装成字符串；采用信息摘要算法对所述字符串进行加密，得到字符串标识。如图4所示，客户端通过统一代理拦截用户访问，根据其提供的接口的类路径+方法名+顺序入参封装成字符串{app}_{类名}_{方法名}_{顺序入参}，进一步采用信息摘要算法(比如 MD5)对字符串进行计算，得到全局唯一访问的字符串标识作为key。通过字符串标识可以从获取缓存中获取对应的查询数据(value)。

可选地，从缓存中获取所述字符串标识对应的查询数据，包括：基于所述字符串标识判断缓存是否命中；若是，则从所述缓存获取所述字符串标识对应的查询数据；若否，则从所述数据库中的所述数据表中获取所述数据查询请求对应的查询数据。

在本发明的实施例中，客户端针对是否命中的后续逻辑如下：

1)如果布隆过滤器命中，则继续按信息摘要算法计算的字符串标识key查询缓存中的数据，如果有，则直接返回查询结果；

2)如果布隆过滤器命中，但是缓存没有命中，说明是布隆过滤器失效的情况，则执行步骤3)；

3)如果布隆过滤器没有命中，则继续通过Spring反射invoke的方式，根据客户端接口查询ClickHouse并获取查询结果集，将反射调用的查询结果集value存储到缓存中，并且同步更新最新的布隆过滤器的值。可选地，如果结果集很大(比如>10M)，则存储到HDFS中，Hbase 仅存储HDFS路径信息，如果结果集不大(比如≤10M)，则按照value 存储到Hbase即可(hbase.client.keyvalue.maxsize默认10M)。

客户端通过以上步骤，可以实现客户端查询ClickHouse的服务增强，外部访问通过客户端缓存代理拦截，实现面向ClickHouse服务的高并发能力提升。本发明实施例适合较大结果集缓存存储能力，同时通过布隆过滤器集合来提速查询性能，而且本发明实施例通用性较强，可以适用接口查询、大数据离线明细缓存等，特别适合于批处理数据库变动的缓存失效管理场景业务。

需要指出的是，客户端的核心功能是实现统一代理缓存服务能力，客户端侧SPI增强服务能力可以以jar插件的形式提供给用户，以插件能力实现代理功能，通过拦截器和缓存标识监听器识别最新的布隆过滤器，通过多种Hash方式映射查询布隆过滤器是否命中，继而进行是否缓存命中匹配，并将第一次查询结果存储在缓存中，作为后续查询的前置缓存。

因此，本发明实施例能够支持大结果集的存储，实现ClickHouse 的无损化缓存能力和高并发访问能力。

根据上面所述的各种实施例，可以看出本发明实施例通过若监听到目标节点保存的节点信息发生变更，则拉取变更后的节点信息，根据库表信息和数据变更时间戳生成缓存标识，从而获取缓存标识对应的布隆过滤器的技术手段，解决了现有技术中开发难度大、内存不均、阻塞查询或者数据不一致的技术问题。本发明实施例基于布隆过滤器和缓存方案进行缓存结果存储，既能保障大结果集的存储，又可以通过前置布隆过滤器匹配来提高并发查询能力；客户端通过监听分布式调度中的节点，可以实现最新缓存标识实时同步能力，能够获取到最新的布隆过滤器，保证查询的缓存结果与数据库数据具有一致性，从而达到无损缓存查询能力。而且客户端只需要插件化引入客户端组件即可实现缓存能力增强，从而降低开发难度。

图5是根据本发明一个可参考实施例的数据缓存方法的主要流程的示意图。作为本发明的又一个实施例，如图5所示，所述数据缓存方法应用于客户端，可以包括：

步骤501，监听分布式调度中心的目标节点。

客户端监听分布式调度中心(比如Zookeeper)的节点信息是否发生变化，其中，所述分布式调度中心的节点的目录与各个数据库中的各个数据表一一对应，所述目标节点保存的节点信息包括所述目标节点对应的数据表的数据变更时间戳。

可以预先配置客户端监听的ClickHouse库表信息，也就是监听的目标节点，所述目标节点保存的节点信息包括所述目标节点对应的数据表的数据变更时间戳。

步骤502，若监听到所述目标节点保存的节点信息发生变更，则拉取变更后的节点信息。

客户端监听分布式调度中心的节点信息是否发生变化，当监听到分布式调度中心保存的节点信息发生变更，则将变更后的节点信息(即数据表更新的最新时间戳{time})拉取到本地。根据客户端配置的目标节点，拉取远程分布式调度中心路径{db}/{table}下的最新时间戳{time}。

步骤503，接收数据查询请求。其中，所述数据查询请求携带数据库信息、数据表信息和入参。

客户端通过AOP代理实现接口的拦截能力，在切面的接口注解上配置访问ClickHouse的库表信息，从而拦截访问该库表的查询请求。

步骤504，根据所述数据库信息和所述数据表信息匹配出数据变更时间戳，从而生成缓存标识。

由于客户端本地存储了库表信息对应的最新时间戳{time}，因此可以根据请求中携带的访问ClickHouse的库表信息匹配出最新时间戳 {time}，从而生成缓存标识。其中，所述缓存标识包括所述数据库信息、所述数据表信息和数据变更时间戳。

步骤505，从过滤器集合中获取所述缓存标识对应的布隆过滤器。

步骤506，将所述客户端提供的接口的类路径、方法名以及所述入参封装成字符串。

步骤507，采用信息摘要算法对所述字符串进行加密，得到字符串标识。

可以采用MD5对所述字符串进行加密，得到全局唯一访问的字符串标识key。

步骤508，采用哈希函数对所述字符串标识进行计算，得到标识位。

可以采用多种哈希函数计算所述字符串的标识位，以提高布隆过滤器的判断准确性。

步骤509，基于所述标识位判断所述布隆过滤器是否命中；若是，则执行步骤510；若否，则执行步骤511。

步骤510，从缓存中获取所述字符串标识对应的查询数据。

如果布隆过滤器命中，则缓存中可能存在查询数据，需要进一步查询缓存。可选地，步骤510可以包括：基于所述字符串标识判断缓存是否命中；若是，则从所述缓存获取所述字符串标识对应的查询数据；若否，则从所述数据库中的所述数据表中获取所述数据查询请求对应的查询数据。

步骤511，从所述数据库中的所述数据表中获取所述数据查询请求对应的查询数据。

如果布隆过滤器没有命中，则缓存中不存在查询数据，需要从所述数据库中的所述数据表中获取所述数据查询请求对应的查询数据。

步骤512，将所述字符串标识和所述数据查询请求对应的查询数据存储到缓存中，并基于所述标识位更新所述布隆过滤器的值。

通过Spring反射invoke的方式，根据客户端接口查询ClickHouse 并获取查询结果集，将反射调用的查询结果集value存储到缓存中，并且同步更新最新的布隆过滤器的值。

可选地，步骤512可以包括：判断所述数据查询请求对应的查询数据的数据集大小是否大于等于阈值；若是，则将所述查询数据存储到HDFS中，并将所述字符串标识和所述查询数据在HDFS中的存储路径存储到HBase中；若否，则所述字符串标识和所述查询数据存储到HBase中。

可选地，如果结果集很大(比如>20M)，则存储到HDFS中，Hbase 仅存储HDFS路径信息，如果结果集不大(比如≤20M)，则按照value 存储到Hbase即可。

另外，在本发明一个可参考实施例中数据缓存方法的具体实施内容，在上面所述数据缓存方法中已经详细说明了，故在此重复内容不再说明。

图6是根据本发明一个实施例的数据缓存装置的主要模块的示意图。如图6所示，所述数据缓存装置600包括第一监听模块601、生成模块602和存储模块603；其中，第一监听模块601用于监听分布式调度中心的各个节点；其中，所述节点的目录与各个数据库中的各个数据表一一对应，所述节点保存的节点信息包括所述节点对应的数据表的数据变更时间戳；生成模块602用于若监听到所述节点保存的节点信息发生变更，则根据所述节点的目录和变更后的节点信息生成缓存标识和布隆过滤器；存储模块603用于将所述缓存标识与所述布隆过滤器关联，并将所述缓存标识及其对应的布隆过滤器存储至过滤器集合中。

可选地，所述存储模块603还用于：

需要说明的是，在本发明所述数据缓存装置的具体实施内容，在上面所述数据缓存方法中已经详细说明了，故在此重复内容不再说明。

图7是根据本发明一个实施例的数据缓存装置的主要模块的示意图。如图7所示，所述数据缓存装置700包括第二监听模块701和拉取模块702；其中，第二监听模块701用于监听分布式调度中心的目标节点；其中，所述分布式调度中心的节点的目录与各个数据库中的各个数据表一一对应，所述目标节点保存的节点信息包括所述目标节点对应的数据表的数据变更时间戳；拉取模块702用于若监听到所述目标节点保存的节点信息发生变更，则拉取变更后的节点信息。

可选地，还包括处理模块，用于：

从过滤器集合中获取所述缓存标识对应的布隆过滤器；

可选地，所述处理模块还用于：

采用哈希函数对所述字符串标识进行计算，得到标识位；

可选地，所述处理模块还用于：

基于所述字符串标识判断缓存是否命中；

若是，则从所述缓存获取所述字符串标识对应的查询数据；

可选地，所述处理模块还用于：

若否，则所述字符串标识和所述查询数据存储到HBase中。

图8示出了可以应用本发明实施例的数据缓存方法或数据缓存装置的示例性系统架构800。

如图8所示，系统架构800可以包括终端设备801、802、803，网络804和服务器805。网络804用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备801、802、803通过网络804与服务器805 交互，以接收或发送消息等。终端设备801、802、803上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器805可以是提供各种服务的服务器，例如对用户利用终端设备801、802、803所浏览的购物类网站提供支持的后台管理服务器 (仅为示例)。后台管理服务器可以对接收到的物品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、物品信息——仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的数据缓存方法一般由服务器805执行，相应地，所述数据缓存装置一般设置在服务器805中。本发明实施例所提供的数据缓存方法也可以由终端设备801、802、803 执行，相应地，所述数据缓存装置可以设置在终端设备801、802、803 中。

应该理解，图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图9，其示出了适于用来实现本发明实施例的终端设备的计算机系统900的结构示意图。图9示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908 加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM903中，还存储有系统900操作所需的各种程序和数据。CPU901、ROM 902以及RAM903通过总线904彼此相连。输入/ 输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/ 或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU) 901执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代数据表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地数据表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括第一监听模块、生成模块和存储模块，其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括第二监听模块、拉取模块和处理模块，其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，该设备实现如下方法：监听分布式调度中心的各个节点；其中，所述节点的目录与各个数据库中的各个数据表一一对应，所述节点保存的节点信息包括所述节点对应的数据表的数据变更时间戳；若监听到所述节点保存的节点信息发生变更，则根据所述节点的目录和变更后的节点信息生成缓存标识和布隆过滤器；将所述缓存标识与所述布隆过滤器关联，并将所述缓存标识及其对应的布隆过滤器存储至过滤器集合中。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，该设备实现如下方法：监听分布式调度中心的目标节点；其中，所述分布式调度中心的节点的目录与各个数据库中的各个数据表一一对应，所述目标节点保存的节点信息包括所述目标节点对应的数据表的数据变更时间戳；若监听到所述目标节点保存的节点信息发生变更，则拉取变更后的节点信息。

根据本发明实施例的技术方案，因为采用若监听到目标节点保存的节点信息发生变更，则拉取变更后的节点信息，根据库表信息和数据变更时间戳生成缓存标识，从而获取缓存标识对应的布隆过滤器的技术手段，所以克服了现有技术中开发难度大、内存不均、阻塞查询或者数据不一致的技术问题。本发明实施例基于布隆过滤器和缓存方案进行缓存结果存储，既能保障大结果集的存储，又可以通过前置布隆过滤器匹配来提高并发查询能力；客户端通过监听分布式调度中的节点，可以实现最新缓存标识实时同步能力，能够获取到最新的布隆过滤器，保证查询的缓存结果与数据库数据具有一致性，从而达到无损缓存查询能力。而且客户端只需要插件化引入客户端组件即可实现缓存能力增强，从而降低开发难度。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种数据缓存方法，其特征在于，应用于服务端，包括：

2.根据权利要求1所述的方法，其特征在于，所述缓存标识包括所述节点的目录和所述节点对应的数据表的数据变更时间戳。

3.根据权利要求1所述的方法，其特征在于，所述分布式调度中心从消息队列中获取消息，解析所述消息以得到数据库信息、数据表信息和数据变更时间戳，从而变更所述数据库和所述数据表对应的节点保存的节点信息；

4.根据权利要求3所述的方法，其特征在于，将所述缓存标识及其对应的布隆过滤器存储至过滤器集合中之后，还包括：

5.一种数据缓存方法，其特征在于，应用于客户端，包括：

6.根据权利要求5所述的方法，其特征在于，还包括：

从过滤器集合中获取所述缓存标识对应的布隆过滤器；

7.根据权利要求6所述的方法，其特征在于，所述缓存标识包括所述数据库信息、所述数据表信息和数据变更时间戳。

8.根据权利要求6所述的方法，其特征在于，基于所述入参和所述布隆过滤器获取所述数据查询请求对应的查询数据，包括：

采用哈希函数对所述字符串标识进行计算，得到标识位；

9.根据权利要求8所述的方法，其特征在于，根据所述客户端提供的接口的类路径、方法名以及所述入参生成字符串标识，包括：

10.根据权利要求8所述的方法，其特征在于，从缓存中获取所述字符串标识对应的查询数据，包括：

基于所述字符串标识判断缓存是否命中；

若是，则从所述缓存获取所述字符串标识对应的查询数据；

11.根据权利要求8所述的方法，其特征在于，从所述数据库中的所述数据表中获取所述数据查询请求对应的查询数据之后，还包括：

12.根据权利要求11所述的方法，其特征在于，将所述字符串标识和所述数据查询请求对应的查询数据存储到缓存中，包括：

若否，则所述字符串标识和所述查询数据存储到HBase中。

13.一种数据缓存装置，其特征在于，设置于服务端，包括：

14.一种数据缓存装置，其特征在于，设置于客户端，包括：

15.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，所述一个或多个处理器实现如权利要求1-12中任一所述的方法。

16.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-12中任一所述的方法。