CN115982231A

CN115982231A - 分布式实时搜索系统及方法

Info

Publication number: CN115982231A
Application number: CN202211592840.2A
Authority: CN
Inventors: 孙志强; 左鹏; 王禹博; 徐士强
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-04-18

Abstract

本发明公开了一种分布式实时搜索系统及方法，属于分布式数据收集处理技术领域，本发明要解决的技术问题为如何实现数据同步高可用，减少业务耦合和代码入侵，轻松完成数据检索，采用的技术方案为：该系统包括服务注册端、服务端、消息端及客户端。该方法具体如下：开启MySQL的binary log日志记录；修改MySQL的binary log模式为ROW；canal‑server充当MySQL集群的一个slave，获取master的binary log信息；canal‑server将拿到的binary log信息推送给canal‑adapter；canal‑server和canal‑adapter采用多节点部署的方式提高可用性；构建客户端，消费MQ；canal‑adapter将数据同步到es集群；引入组件，扫描实体类；引入组件，扫描实体类，配置ES、MQ和注册中心；定义数据索引，简化创建索引工作；实现业务路由，完成数据操作、综合检索。

Description

分布式实时搜索系统及方法

技术领域

本发明涉及分布式数据收集分析处理技术领域，具体地说是一种分布式实时搜索系统及方法。

背景技术

一个系统最重要的是数据，数据是保存在数据库里。但是很多时候不单止要保存在数据库中，还要同步保存到Elastic Search、HBase、Redis等等。拿ES举例,由于Mysql对全文检索或模糊查询支持的能力不强,需要将数据发送到搜索引擎(如ES)上，由搜索引擎来提供专业的服务。在实践中常用的方式具体有：

①、同步双写：将数据写到Mysql的同时也将数据写到ES；

②、异步双写：引入MQ异步将数据写入ES；

同步双写和异步双写这两种方案存在硬编码，业务耦合性强，也就是有任何对Mysql进行增删改查的地方要么植入ES代码，要么替换为MQ代码，代码的侵入性太强，双写存在数据丢失的风险，本来Mysql的性能不是很高，再加一个ES，系统的性能必然会下降，系统中增加了MQ的代码，也增加了复杂度。如果实时性要求不高的话也可以采用定时器来处理：数据库的相关表中增加一个字段为timestamp的字段，任何crud操作都会导致该字段的时间发生变化，加一个定时器程序，让该程序按一定的时间周期扫描指定的表，把该时间段内发生变化的数据提取出来，逐条写入到ES中。这样虽然解决了上面两种方案的问题但是时效性较差，定时器工作周期不可能设置到秒级，对数据库的轮询也有一定压力。

分布式系统中会对一些业务数据进行大量的查询和筛选，面对读多写少的情况，显然只通过DB来支撑大量的查询是不可取的，同时对于复杂的查询Mysql等数据库支持的不够友好，所以需要一套完整的系统来承载数据查询的主要压力。故如何实现数据同步高可用，减少业务耦合和代码入侵，轻松完成数据检索是目前亟待解决的技术问题。

发明内容

本发明的技术任务是提供一种分布式实时搜索系统及方法，来解决针对大量数据查询和筛选的环境，现有系统承载能力不足的问题。

本发明的技术任务是按以下方式实现的，一种分布式实时搜索系统，该系统包括服务注册端、服务端、消息端及客户端；其中，服务注册端用于实现集群统一管理；服务端用于监听收集数据变动信息；消息端用于推送数据信息到客户端；客户端用于统一消费对接业务处理。

作为优选，所述服务注册端通过canal-server和canal-adapter采用多节点部署的方式提高可用性，使用ZooKeeper进行集群管理。

更优地，canal-server的安装具体如下：

直接下载安装包或者下载源码自己打包，将下载好的文件移动到自定义的安装路径,修改配置文件vi/opt/app/canal/canal_server/conf/canal.prop erties,配置多个destination，并在conf下创建对应的目录,在对应的目录下边编写配置文件instance.properties,进入到路径bin下边，有几个脚本,运行./startup.sh即可启动。

更优地，canal-server配置说明具体如下：

canal.instance.master.journal.name+canal.instance.master.posit ion:精确指定一个binlog位点，进行启动；

canal.instance.master.timestamp:指定一个时间戳，canal自动遍历mysqlbinlog，找到对应时间戳的binlog位点后，进行启动；

不指定任何信息：默认从当前数据库的位点，进行启动；

instance.xml配置文件；

memory-instance.xml：所有的组件(parser,sink,store)均选择内存版模式，记录位点均选择memory模式，重启后又会回到初始位点进行解析；

default-instance.xml：store选择内存模式，其余的parser/sink依赖的位点管理选择了持久化模式，目前持久化的方式是写入zookeeper，保证数据集群共享；

group-instance.xml：针对需要进行多库合并时，将多个物理instance合并为一个逻辑instance，提供客户端访问；

多个destination配置；

在canal.properties里边配置canal.destinations,用英文逗号分隔；

在conf路径下创建对应的路径并添加对应的instance.properties。

更优地，canal-adapter的安装具体如下：

下载安装包并解压,修改conf/application.yml,在conf/es/路径下添加配置文件example_01.yml和example_02.yml,一份数据被多个group同时消费,多个group之间会是一个并行执行,一个group内部是一个串行执行多个outerAdapters,进入到路径bin下边，有几个脚本,运行./startup.sh即可启动。

作为优选，所述服务端的工作过程具体如下：

(1)、配置Mysql开启MySQL的binary log日志记录，并选择模式为Row；

MySQL master将数据变更写入二进制日志(binary log,其中记录叫做二进制日binary log events，可以通过show binlog events进行查看)；

(2)、MySQL slave将master的binary log events拷贝到对应的中继日志relaylog；

(3)、MySQL slave重放relay log中事件，将数据变更反映自己的数据；

(4)、canal-server充当MySQL集群的一个slave，获取master的binary log信息；

(5)、canal模拟MySQL slave的交互协议，伪装自己为MySQL slave，向MySQLmaster发送dump协议；

(6)、MySQL master收到dump请求，开始推送binary log给slave，即canal；

(7)、canal解析binary log对象(原始为byte流)；

(8)、canal-server将拿到的binary log信息推送给canal-adapter。

作为优选，所述消息端的工作过程具体如下：

(1)、canal-adapter配合使用Kafka将数据同步到消息处理客户端；

(2)、构建客户端：即编写一个MQ消费程序，不断消费MQ，每消费一条消息，将消息写入到ES中；

(3)、引入自动发现es索引结构实体类的组件：在springboot启动类上添相关注解，引入自动发现es索引结构实体类的组件，默认扫描启动类所在包下的所有类：

(4)、配置Application.yml，接入ES、MQ和注册中心；

(5)、定义业务数据索引，梳理业务逻辑，筛选搜索数据，具体为：

indexName：索引名称；

number_of_shards：分片；

number_of_replicas：备份；

(6)、定制es索引结构对应实体类的元数据在spring管理的bean内直接自动注入组件内置的工具服务，类型注解用于定制es索引结构对应实体类的索引结构，以简化创建索引工作；将相关注解配置于实体类field上，用于标识field对应elasticsearch索引结构字段的相关信息。

作为优选，所述客户端的工作过程具体如下：

(1)、业务路由操作：继承BusinessRouter，实现processHandler方法，processHandler接收数据库、变动表及主键的信息，业务在判断操作类型后执行相应操作，同时处理关联数据同步至ES；

(2)、数据操作及综合检索。

一种分布式实时搜索方法，该方法具体如下：

开启MySQL的binary log日志记录；

修改MySQL的binary log模式为ROW；

canal-server充当MySQL集群的一个slave，获取master的binary log信息；

canal-server将拿到的binary log信息推送给canal-adapter；

canal-server和canal-adapter采用多节点部署的方式提高可用性；

构建客户端，消费MQ；

canal-adapter将数据同步到es集群；

引入组件，扫描实体类；

引入组件，扫描实体类，配置ES、MQ和注册中心；

定义数据索引，简化创建索引工作；

实现业务路由，完成数据操作、综合检索。

作为优选，canal-server的安装具体如下：

直接下载安装包或者下载源码自己打包，将下载好的文件移动到自定义的安装路径,修改配置文件vi/opt/app/canal/canal_server/conf/canal.prop erties,配置多个destination，并在conf下创建对应的目录,在对应的目录下边编写配置文件instance.properties,进入到路径bin下边，有几个脚本,运行./startup.sh即可启动；

canal-adapter的安装具体如下：

其中，开源框架Canal，可以很方便地同步数据库的增量数据到其他的存储应用。Canal的部署也是支持集群的，使用ZooKeeper进行集群管理，配合使用Kafka将数据同步到消息处理客户端，客户端可以是一个Starter组件也可以是服务端。这种方式完全解耦，对业务代码没有侵入，因为是基于监听Bi nlog日志去进行同步数据的，实时性也能做到准实时。

Cana是一个开源项目，基于java实现，整体已经在很多大型的互联网项目生产环境中使用，在很多电商平台都有广泛的应用，是一个非常成熟的数据库同步方案，基础的使用只需要进行简单的配置即可。

Kafka是一种高吞吐量的分布式发布订阅消息系统，可以处理消费者在网站中的所有动作流数据。

Zookeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Go ogle的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。

Elasticsearch:是使用Java编写的一种开源搜索引擎，在内部使用Luc ene做索引与搜索，通过对Lucene的封装，隐藏了Lucene的复杂性，取而代之的提供一套简单一致的RESTful API。

本发明的分布式实时搜索系统及方法具有以下优点：

(一)本发明提供了利用Mysql的Binlog机制同步数据的方案，集成Kafka将读取的信息转为MQ,编写一个MQ消费程序,不断消费MQ,每消费完一条信息将消息写入到ES中,同时该程序提供通过elasticsearch官网推荐的RestHighLevelClient实现，内置了es索引结构工具、es索引数据增删改工具、es查询工具、es数据分析工具或者es用法脚手架，能够轻松集成并非常方便的使用，本方案没有代码入侵和硬编码，原有系统不需要任何变化，没有感知，业务解耦的同时,不需要关注原来系统的逻辑；

(二)本发明主要是针对现有大量数据查询和筛选的前提下，原有系统承载能力不足提供解决方案，通过本发明实现数据同步高可用，减少业务耦合和代码入侵，轻松完成数据检索；

(三)本发明为多种数据存储方式间数据的同步提供了可靠的解决方案，支持简单的组件插拔，减少项目开发中的复杂度，避免了业务耦合和代码入侵；

(四)本发明只需要增加修改配置即可为多个项目同时提供服务，减轻业务系统压力，使数据同步更实时高效；

(五)本发明提供了一种同步Mysql数据到其他数据源的解决方案，具有高效稳定解耦，具体表现在：

①组件化应用到项目中，完全解耦，没有代码侵入、没有硬编码；

②原有系统不需要任何变化，没有感知，不需要关注原来系统的业务逻辑；

③接口灵活，满足多种业务场景需求；

④实时同步数据，不会降低系统本身性能。

附图说明

下面结合附图对本发明进一步说明。

附图1为分布式实时搜索系统的结构示意图；

附图2为客户端的示意图；

附图3为MySQL主备复制原理的示意图。

具体实施方式

参照说明书附图和具体实施例对本发明的分布式实时搜索系统及方法作以下详细地说明。

实施例1：

如附图1和3所示，本实施例提供了一种分布式实时搜索系统,其结构包括服务注册，服务端，消息端，客户端。服务注册实现集群统一管理，服务端监听收集数据变动信息，消息端推送数据信息到客户端，客户端统一消费对接业务处理。

该系统的工作过程具体如下：

S1、配置Mysql开启MySQL的binary log日志记录，并选择模式为Row；

S2、MySQL master将数据变更写入二进制日志(binary log,其中记录叫做二进制日binary log events，可以通过show binlog events进行查看)；

S3、MySQL slave将master的binary log events拷贝到它的中继日志(relaylog)；

S4、MySQL slave重放relay log中事件，将数据变更反映它自己的数据；

S5、canal-server充当MySQL集群的一个slave，获取master的binary log信息；

S6、canal模拟MySQL slave的交互协议，伪装自己为MySQL slave，向MySQLmaster发送dump协议；

S7、MySQL master收到dump请求，开始推送binary log给slave(即canal)；

S8、canal解析binary log对象(原始为byte流)；

S9、canal-server将拿到的binary log信息推送给canal-adapter；

其中canal-server的安装具体如下：

可以直接下载安装包，也可以下载源码自己打包,将下载好的文件移动到自定义的安装路径,修改配置文件vi/opt/app/canal/canal_server/conf/ca nal.properties,配置多个destination，需要在conf下创建对应的目录,在对应的目录下边编写配置文件instance.properties,进入到路径bin下边，有几个脚本,运行./startup.sh就可以启动了。

canal-server配置说明具体如下：

canal.instance.master.journal.name+canal.instance.master.posit ion：精确指定一个binlog位点，进行启动；

canal.instance.master.timestamp:指定一个时间戳，canal会自动遍历mysqlbinlog，找到对应时间戳的binlog位点后，进行启动；

不指定任何信息：默认从当前数据库的位点，进行启动；

instance.xml配置文件；

memory-instance.xml：所有的组件(parser,sink,store)都选择了内存版模式，记录位点的都选择了memory模式，重启后又会回到初始位点进行解析；

default-instance.xml：store选择了内存模式，其余的parser/sink依赖的位点管理选择了持久化模式，目前持久化的方式主要是写入zookeeper，保证数据集群共享；

group-instance.xml：主要针对需要进行多库合并时，可以将多个物理in stance合并为一个逻辑instance，提供客户端访问；

多个destination配置；

在canal.properties里边配置canal.destinations,用英文逗号分隔；

在conf路径下创建对应的路径并添加对应的instance.properties。

S10、canal-server和canal-adapter采用多节点部署的方式提高可用性，使用ZooKeeper进行集群管理；

其中，canal-adapter的安装具体如下：

下载安装包,解压,修改conf/application.yml,在conf/es/路径下添加配置文件example_01.yml和example_02.yml,一份数据可以被多个group同时消费,多个group之间会是一个并行执行,一个group内部是一个串行执行多个outerAdapters,进入到路径bin下边，有几个脚本,运行./startup.sh就可以启动了。

S11、canal-adapter配合使用Kafka将数据同步到消息处理客户端；

S12、如附图2所示，构建客户端：即编写一个MQ消费程序，不断消费MQ，每消费一条消息，将消息写入到ES中。

以java项目为例，构建一个SpringBootStarter，读取java配置，连接canal服务端订阅消费，定义一个公共路由接口，业务项目引用Starter后可以自主实现该接口，并获取到相关库表变动信息和动作，自由调配业务执行；

S13、引入组件，在springboot启动类上添相关注解，引入自动发现es索引结构实体类的功能，默认扫描启动类所在包下的所有类；

S14、配置Application.yml，接入ES、MQ和注册中心；

S15、定义业务数据索引，梳理业务逻辑，筛选搜索数据，indexName：索引名称number_of_shards：分片，number_of_replicas：备份；

S16、定制es索引结构对应实体类的元数据在spring管理的bean内直接自动注入组件内置的工具服务，类型注解用于定制es索引结构对应实体类的索引结构，以简化创建索引工作；将相关注解配置于实体类field上，用于标识field对应elasticsearch索引结构字段的相关信息；

S17、业务路由操作：继承BusinessRouter，实现processHandler方法；该方法可以接收数据库、变动表、主键等信息，业务在判断操作类型后执行相应操作，同时处理关联数据同步至ES；

S18、数据操作、综合检索。

实施例2：

如附图2所示，本实施例提供了一种分布式实时搜索方法，具体如下：

(1)、开启MySQL的binary log日志记录；

(2)、修改MySQL的binary log模式为ROW；

(3)、canal-server充当MySQL集群的一个slave，获取master的binar y log信息；

(4)、canal-server将拿到的binary log信息推送给canal-adapter；

(5)、canal-server和canal-adapter采用多节点部署的方式提高可用性；

(6)、构建客户端，消费MQ；

(7)、canal-adapter将数据同步到es集群；

(8)、引入组件，扫描实体类；

(9)、引入组件，扫描实体类，配置ES、MQ和注册中心；

(10)、定义数据索引，简化创建索引工作；

(11)、实现业务路由，完成数据操作、综合检索。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种分布式实时搜索系统，其特征在于，该系统包括服务注册端、服务端、消息端及客户端；其中，服务注册端用于实现集群统一管理；服务端用于监听收集数据变动信息；消息端用于推送数据信息到客户端；客户端用于统一消费对接业务处理。

2.根据权利要求1所述的分布式实时搜索系统，其特征在于，所述服务注册端通过canal-server和canal-adapter采用多节点部署的方式提高可用性，使用ZooKeeper进行集群管理。

3.根据权利要求2所述的分布式实时搜索系统，其特征在于，canal-server的安装具体如下：

直接下载安装包或者下载源码自己打包，将下载好的文件移动到自定义的安装路径,修改配置文件vi/opt/app/canal/canal_server/conf/canal.prop erties,配置多个destination，并在conf下创建对应的目录,在对应的目录下边编写配置文件instance.properties,进入到路径bin下边,运行./start up.sh即可启动。

4.根据权利要求2或3所述的分布式实时搜索系统，其特征在于，canal-server配置说明具体如下：

canal.instance.master.timestamp:指定一个时间戳，canal自动遍历m ysqlbinlog，找到对应时间戳的binlog位点后，进行启动；

不指定任何信息：默认从当前数据库的位点，进行启动；

instance.xml配置文件；

memory-instance.xml：所有的组件均选择内存版模式，记录位点均选择memory模式，重启后又会回到初始位点进行解析；

多个destination配置；

在canal.properties里边配置canal.destinations,用英文逗号分隔；

在conf路径下创建对应的路径并添加对应的instance.properties。

5.根据权利要求2所述的分布式实时搜索系统，其特征在于，canal-adapter的安装具体如下：

下载安装包并解压,修改conf/application.yml,在conf/es/路径下添加配置文件example_01.yml和example_02.yml,一份数据被多个group同时消费,多个group之间会是一个并行执行,一个group内部是一个串行执行多个outerAdapters,进入到路径bin下边,运行./startup.sh即可启动。

6.根据权利要求1所述的分布式实时搜索系统，其特征在于，所述服务端的工作过程具体如下：

(1)、配置Mysql开启MySQL的binarylog日志记录，并选择模式为Row；

MySQL master将数据变更写入二进制日志；

(2)、MySQL slave将master的binary log events拷贝到对应的中继日志relay log；

(3)、MySQL slave重放relaylog中事件，将数据变更反映自己的数据；

(5)、canal模拟MySQL slave的交互协议，伪装自己为MySQL slave，向MySQL master发送dump协议；

(6)、MySQL master收到dump请求，开始推送binarylog给slave，即canal；

(7)、canal解析binary log对象；

(8)、canal-server将拿到的binary log信息推送给canal-adapter。

7.根据权利要求1所述的分布式实时搜索系统，其特征在于，所述消息端的工作过程具体如下：

(1)、canal-adapter配合使用Kafka将数据同步到消息处理客户端；

(4)、配置Application.yml，接入ES、MQ和注册中心；

indexName：索引名称；

number_of_shards：分片；

number_of_replicas：备份；

8.根据权利要求1所述的分布式实时搜索系统及方法，其特征在于，所述客户端的工作过程具体如下：

(2)、数据操作及综合检索。

9.一种分布式实时搜索方法，其特征在于，该方法具体如下：

开启MySQL的binary log日志记录；

修改MySQL的binary log模式为ROW；

canal-server将拿到的binary log信息推送给canal-adapter；

canal-server和canal-adapter采用多节点部署的方式提高可用性；

构建客户端，消费MQ；

canal-adapter将数据同步到es集群；

引入组件，扫描实体类；

引入组件，扫描实体类，配置ES、MQ和注册中心；

定义数据索引，简化创建索引工作；

实现业务路由，完成数据操作、综合检索。

10.根据权利要求9所述的分布式实时搜索方法，其特征在于，canal-server的安装具体如下：

直接下载安装包或者下载源码自己打包，将下载好的文件移动到自定义的安装路径,修改配置文件vi/opt/app/canal/canal_server/conf/canal.prop erties,配置多个destination，并在conf下创建对应的目录,在对应的目录下边编写配置文件instance.properties,进入到路径bin下边,运行./start up.sh即可启动；

canal-adapter的安装具体如下：