CN116069791A

CN116069791A - 一种数据的处理方法和装置、计算机设备

Info

Publication number: CN116069791A
Application number: CN202211544426.4A
Authority: CN
Inventors: 叶阳
Original assignee: Jiangsu Yanma Technology Co ltd
Current assignee: Jiangsu Yanma Technology Co ltd
Priority date: 2022-12-04
Filing date: 2022-12-04
Publication date: 2023-05-05

Abstract

本申请公开了一种数据的处理方法和装置、计算机设备。其中，该方法包括：利用分布式处理引擎Flink的监测组件CDC监听数据管理平台上发生变更的业务数据，利用所述分布式处理引擎Flink的技术栈将所述业务数据清洗后同步至数据库ClickHouse，在查询平台中接收对所述数据库ClickHouse的数据查询请求，通过FlinkCDC可以监测并捕获数据库的所有变动，包括数据或数据表的插入、更新以及删除等，进而完整的将数据同步至数据库ClickHouse，可以解决了相关技术中产生的数据不一致的技术问题，进而保证了数据管理平台和数据库ClickHouse的数据一致性的技术效果。

Description

一种数据的处理方法和装置、计算机设备

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据的处理方法、装置、计算机设备和计算机可读存储介质。

背景技术

现有技术方案中，使用ElasticSearch(Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎，它能很方便的使大量数据具有搜索、分析和探索的能力，充分利用Elasticsearch的水平伸缩性能使数据在生产环境变得更有价值，Elasticsearch的实现原理主要分为以下几个步骤，首先用户将数据提交到Elasticsearch数据库中，再通过分词控制器去将对应的语句分词，将其权重和分词结果一并存入数据，当用户搜索数据时候，再根据权重将结果排名、打分，再将返回结果呈现给用户)作为OLAP(全称为OnlineAnalyticalProcessing，联机分析处理OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果，联机分析处理的用户是企业中的专业分析人员及管理决策人员，他们在分析业务经营的数据时，从不同的角度来审视业务的衡量指标是一种很自然的思考模式。例如分析销售数据，可能会综合时间周期、产品类别、分销渠道、地理分布、客户群类等多种因素来考量，这些分析角度虽然可以通过报表来反映，但每一个分析的角度可以生成一张报表，各个分析角度的不同组合又可以生成不同的报表，使得IT人员的工作量相当大，而且往往难以跟上管理决策人员思考的步伐)分析引擎，对医者和中心的试验数据进行大数据聚合。聚合包括以下机构指标：申办方合作评分、牵头者合作评分、临床经验评分、适应症评分、和综合推荐评分。然后利用聚合评分对试验中心进行高效筛选。

现有技术通过对数据管理平台进行埋点的方式触发数据变更事件,通知同步程序拉取数据更新到ElasticSearch引擎中，对数据变更的感知依赖于操作埋点,无法准确感知到全部数据的变更操作,容易产生数据不一致情况，进一步导致聚合结果不准确；ElasticSearch采用DSL查询语言，对熟悉SQL查询语言的业务人员而言学习成本过高,数据平台推广度不高，可见，使用DSL开发数据指标难度大,开发效率慢。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请的目的是针对现有技术中的不足，提供一种数据的处理方法、装置、计算机设备和计算机可读存储介质，以至少解决相关技术中产生的数据不一致的问题。

为实现上述目的，本申请采取的技术方案是：

第一方面，本申请实施例提供了一种数据的处理方法，包括：利用分布式处理引擎Flink的监测组件CDC监听数据管理平台上发生变更的业务数据；利用所述分布式处理引擎Flink的技术栈将所述业务数据清洗后同步至数据库ClickHouse；在查询平台中接收对所述数据库ClickHouse的数据查询请求。

在其中一些实施例中，利用所述分布式处理引擎Flink的技术栈将所述业务数据清洗后同步至数据库ClickHouse，包括：使用所述分布式处理引擎Flink中的filter()函数，从所述业务数据中过滤掉与所监听业务主题不相关的数据；使用所述分布式处理引擎Flink中的map()函数，从所述业务数据中清洗掉不需要的数据字段；利用所述分布式处理引擎Flink的流Join能力，对所述业务数据按照数据维度进行数据预聚合。

在其中一些实施例中，在查询平台中接收对所述数据库ClickHouse的数据查询请求之前，所述方法还包括：构建所述查询平台，其中，所述查询平台支持使用SQL查询语句在所述数据库ClickHouse中进行数据查询、并支持对待查询数据的数据量进行分析。

在其中一些实施例中，在查询平台中接收对所述数据库ClickHouse的数据查询请求之后，所述方法还包括：利用解析器ApacheCalciteSQL对所述数据查询请求中的SQL语句进行解析和验证；在所述SQL语句通过解析和验证之后，使用selectcount(1)form子查询包装语句的方法，统计所述数据查询请求的数据查询量；在所述数据查询量超过指定阈值的情况下，过滤掉所述数据查询请求，其中，所述指定阈值为允许的最大数据查询量。

在其中一些实施例中，在查询平台中接收对所述数据库ClickHouse的数据查询请求之后，所述方法还包括：监听所述数据库ClickHouse的服务器的CPU负载和内存负载；根据所述服务器的CPU负载和内存负载来动态调度查询SQL的并发度,并对查询进行排队处理。

在其中一些实施例中，利用分布式处理引擎Flink的监测组件CDC监听数据管理平台上发生变更的业务数据，包括：在数据管理人员通过数据管理平台维护数据之后，利用所述数据管理平台在数据库MySQL上执行数据变更语句，其中，所述数据变更语句用于对所述业务数据进行变更；利用数据库MySQL同步二进制日志binlog至所述分布式处理引擎Flink的监测组件CDC，其中，所述二进制日志binlog用于记录对数据库MySQL更新的数据变更语句；利用所述分布式处理引擎Flink的监测组件CDC解析所述二进制日志binlog，确定所述数据管理平台上发生变更的所述业务数据。

在其中一些实施例中，在利用分布式处理引擎Flink的监测组件CDC监听数据管理平台上发生变更的业务数据之后，所述方法还包括：发送所述数据管理平台上发生变更的所述业务数据至Kafka消息队列；利用所述分布式处理引擎Flink的流处理程序从所述Kafka消息队列中拉取Kafka消息，以便于将所述业务数据清洗后同步至数据库ClickHouse。

第二方面，本申请实施例提供了一种数据的处理装置，包括：监听单元，用于利用分布式处理引擎Flink的监测组件CDC监听数据管理平台上发生变更的业务数据；同步单元，用于利用所述分布式处理引擎Flink的技术栈将所述业务数据清洗后同步至数据库ClickHouse；查询单元，用于在查询平台中接收对所述数据库ClickHouse的数据查询请求。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的数据的处理方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的数据的处理方法。

本申请采用以上技术方案，与现有技术相比，本申请实施例利用分布式处理引擎Flink的监测组件CDC监听数据管理平台上发生变更的业务数据，利用分布式处理引擎Flink的技术栈将业务数据清洗后同步至数据库ClickHouse，在查询平台中接收对数据库ClickHouse的数据查询请求，通过FlinkCDC可以监测并捕获数据库的所有变动，包括数据或数据表的插入、更新以及删除等，进而完整的将数据同步至数据库ClickHouse，可以解决了相关技术中产生的数据不一致的技术问题，进而保证了数据管理平台和数据库ClickHouse的数据一致性的技术效果。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的移动终端的结构框图；

图2是根据本申请实施例的一种可选的数据的处理方法的流程图；

图3是根据本申请实施例的一种可选的数据的处理方案的示意图；

图4是根据本申请实施例的一种可选的数据的处理方案的示意图；

图5是根据本申请实施例的一种可选的数据的处理方案的示意图；

图6是根据本申请实施例的一种可选的数据的处理装置的示意图；

图7为根据本申请实施例的计算机设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本实施例提供了一种移动终端。图1是根据本申请实施例的移动终端的结构框图。如图1所示，该移动终端包括：射频(RadioFrequency，简称为RF)电路110、存储器120、输入单元130、显示单元140、传感器150、音频电路160、无线保真(wirelessfidelity，简称为WiFi)模块170、处理器180、以及电源190等部件。本领域技术人员可以理解，图1中示出的移动终端结构并不构成对移动终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图1对移动终端的各个构成部件进行具体的介绍：

RF电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器180处理；另外，将设计上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(LowNoiseAmplifier，简称为LNA)、双工器等。此外，RF电路110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystemofMobile communication，简称为GSM)、通用分组无线服务(GeneralPacketRadioService，简称为GPRS)、码分多址(CodeDivisionMultipleAccess，简称为CDMA)、宽带码分多址(WidebandCodeDivision MultipleAccess，简称为WCDMA)、长期演进(LongTermEvolution，简称为LTE)、电子邮件、短消息服务(ShortMessagingService，简称为SMS)等。

存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行移动终端的各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据移动终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元130可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，输入单元130可包括触控面板131以及其他输入设备132。触控面板131，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板131上或在触控面板131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板131。除了触控面板131，输入单元130还可以包括其他输入设备132。具体地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及移动终端的各种菜单。显示单元140可包括显示面板141，可选的，可以采用液晶显示器(LiquidCrystalDisplay，简称为LCD)、有机发光二极管(OrganicLight-EmittingDiode，简称为OLED)等形式来配置显示面板141。进一步的，触控面板131可覆盖显示面板141，当触控面板131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图1中，触控面板131与显示面板141是作为两个独立的部件来实现移动终端的输入和输入功能，但是在某些实施例中，可以将触控面板131与显示面板141集成而实现移动终端的输入和输出功能。

移动终端还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在移动终端移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于移动终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160中的扬声器161，传声器162可提供用户与移动终端之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一移动终端，或者将音频数据输出至存储器120以便进一步处理。

WiFi属于短距离无线传输技术，移动终端通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块170，但是可以理解的是，其并不属于移动终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略，或者替换为其他的短距离无线传输模块，例如Zigbee模块、或者WAPI模块等。

处理器180是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。可选的，处理器180可包括一个或多个处理单元；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

移动终端还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，移动终端还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，处理器180被配置为：利用分布式处理引擎Flink的监测组件CDC监听数据管理平台上发生变更的业务数据；利用所述分布式处理引擎Flink的技术栈将所述业务数据清洗后同步至数据库ClickHouse；在查询平台中接收对所述数据库ClickHouse的数据查询请求。

在其中一些实施例中，处理器180还被配置为：使用所述分布式处理引擎Flink中的filter()函数，从所述业务数据中过滤掉与所监听业务主题不相关的数据；使用所述分布式处理引擎Flink中的map()函数，从所述业务数据中清洗掉不需要的数据字段；利用所述分布式处理引擎Flink的流Join能力，对所述业务数据按照数据维度进行数据预聚合。

在其中一些实施例中，处理器180还被配置为：构建所述查询平台，其中，所述查询平台支持使用SQL查询语句在所述数据库ClickHouse中进行数据查询、并支持对待查询数据的数据量进行分析。

在其中一些实施例中，处理器180还被配置为：利用解析器ApacheCalciteSQL对所述数据查询请求中的SQL语句进行解析和验证；在所述SQL语句通过解析和验证之后，使用selectcount(1)form子查询包装语句的方法，统计所述数据查询请求的数据查询量；在所述数据查询量超过指定阈值的情况下，过滤掉所述数据查询请求，其中，所述指定阈值为允许的最大数据查询量。

在其中一些实施例中，处理器180还被配置为：监听所述数据库ClickHouse的服务器的CPU负载和内存负载；根据所述服务器的CPU负载和内存负载来动态调度查询SQL的并发度,并对查询进行排队处理。

在其中一些实施例中，处理器180还被配置为：在数据管理人员通过数据管理平台维护数据之后，利用所述数据管理平台在数据库MySQL上执行数据变更语句，其中，所述数据变更语句用于对所述业务数据进行变更；利用数据库MySQL同步二进制日志binlog至所述分布式处理引擎Flink的监测组件CDC，其中，所述二进制日志binlog用于记录对数据库MySQL更新的数据变更语句；利用所述分布式处理引擎Flink的监测组件CDC解析所述二进制日志binlog，确定所述数据管理平台上发生变更的所述业务数据。

在其中一些实施例中，处理器180还被配置为：发送所述数据管理平台上发生变更的所述业务数据至Kafka消息队列；利用所述分布式处理引擎Flink的流处理程序从所述Kafka消息队列中拉取Kafka消息，以便于将所述业务数据清洗后同步至数据库ClickHouse。

本实施例提供了一种数据的处理方法。图2是根据本申请实施例的一种可选的数据的处理方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，利用分布式处理引擎Flink的监测组件CDC监听数据管理平台上发生变更的业务数据。

可选地，在数据管理人员通过数据管理平台维护数据之后，利用数据管理平台在数据库MySQL上执行数据变更语句，数据变更语句用于对业务数据进行变更；利用数据库MySQL同步二进制日志binlog至分布式处理引擎Flink的监测组件CDC，其中，二进制日志binlog用于记录对数据库MySQL更新的数据变更语句；利用分布式处理引擎Flink的监测组件CDC解析二进制日志binlog，确定数据管理平台上发生变更的业务数据；之后发送数据管理平台上发生变更的业务数据至Kafka消息队列；利用分布式处理引擎Flink的流处理程序从Kafka消息队列中拉取Kafka消息，以便于将业务数据清洗后同步至数据库ClickHouse。

在上述方案中，使用FlinkCDC(CDC是ChangeDataCapture的简称，中文名称为变更数据获取，其核心思想是，监测并捕获数据库的变动，包括数据或数据表的插入、更新以及删除等，将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费)监听数据管理平台MySQL数据库的binlog日志,全量感知所有数据操作避免数据不一致情况，同时利用Flink实时处理数据变更与同步,又快又准的将业务平台数据同步到分析平台。

步骤S204，利用分布式处理引擎Flink的技术栈将业务数据清洗后同步至数据库ClickHouse。

可选地，可使用分布式处理引擎Flink中的filter()函数，从业务数据中过滤掉与所监听业务主题不相关的数据；使用分布式处理引擎Flink中的map()函数，从业务数据中清洗掉不需要的数据字段；利用分布式处理引擎Flink的流Join能力，对业务数据按照数据维度进行数据预聚合。

在上述方案中，使用ClickHouse数据库替换ElasticSearch作为OLAP分析引擎，ClickHouse支持SQL查询语言,使之成为面向业务人员的查询平台,让业务人员可以及时快速的查询业务指标,也让熟悉SQL语言的开发人员高效开发数据指标。

步骤S206，在查询平台中接收对数据库ClickHouse的数据查询请求。

可选地，可预先构建查询平台，查询平台支持使用SQL查询语句在数据库ClickHouse中进行数据查询、并支持对待查询数据的数据量进行分析。

在查询平台中接收对数据库ClickHouse的数据查询请求之后，利用解析器ApacheCalciteSQL对数据查询请求中的SQL语句进行解析和验证；在SQL语句通过解析和验证之后，使用select count(1)form子查询包装语句的方法，统计数据查询请求的数据查询量；在数据查询量超过指定阈值的情况下，过滤掉数据查询请求，指定阈值为允许的最大数据查询量，从而拦截对系统性能影响较大的查询请求保障系统稳定性。

另外，可监听数据库ClickHouse的服务器的CPU负载和内存负载；根据服务器的CPU负载和内存负载来动态调度查询SQL的并发度,并对查询进行排队处理。

通过上述步骤，利用分布式处理引擎Flink的监测组件CDC监听数据管理平台上发生变更的业务数据，利用分布式处理引擎Flink的技术栈将业务数据清洗后同步至数据库ClickHouse，在查询平台中接收对数据库ClickHouse的数据查询请求，通过FlinkCDC可以监测并捕获数据库的所有变动，包括数据或数据表的插入、更新以及删除等，进而完整的将数据同步至数据库ClickHouse，可以解决了相关技术中产生的数据不一致的技术问题，进而保证了数据管理平台和数据库ClickHouse的数据一致性的技术效果。

作为一个可选的实施例，下文结合图3至图5进一步详述本申请的技术方案，本方案的总体处理流程如图3所示，FlinkCDC监听业务数据变更，Flink清洗数据后同步至ClickHouse，业务人员和开发人员通过查询平台进行数据分析查询和指标开发。图4所示为实现业务数据同步至ClickHouse的过程，图5所示为查询分析过程。本方案的一种可选的详细实施步骤如下：

步骤1，数据管理人员通过数据管理平台维护试验数据。

步骤2，数据管理平台在MySQL数据库上执行数据变更语句。

步骤3，MySQL数据库同步binlog至FlinkCDC服务。利用FlinkCDC抽取业务平台数据,可避免数据埋点导致的数据遗漏。

步骤4，FlinkCDC服务解析binlog,发送变更数据至Kafka消息队列。

步骤5，Flink流处理程序拉取Kafka消息。

步骤6，使用Flinkfilter()函数过滤业务主题不关心的变更数据。

步骤7，使用Flinkmap()函数清洗业务数据,除去不需要数据字段。

步骤8，使用Flink流Join能力聚合维度数据，实现数据预聚合。

上述方案中，利用Flink实时流处理技术栈处理变更数据，包括使用Flinkfilter()函数过滤业务主题不关心的变更数据、使用Flinkmap()函数清洗业务数据,除去不需要的数据字段、使用Flink流Join能力聚合维度数据，实现数据预聚合,避免了硬代码开发繁杂的数据清洗、过滤与数据预聚合过程。

步骤9，使用FlinkSink同步数据至ClickHouse。

步骤10，业务人员使用和数据开发人员通过查询平台执行SQL请求，利用ClickHouse支持SQL查询语句的特性,与大数据量分析的能力构建查询平台,使得业务人员数据响应能力得到了提升、开发人员的开发效率也得到了提升。

步骤11，查询分析平台利用ApacheCalciteSQL解析器对查的SQL语句进行解析和验证。包括如下步骤a至d：

a)此步中Calcite通过JavaCC将SQL解析成未经校验的AST；

b)该步骤主要作用是校证AST是否合法,如验证SQLscheme、字段、函数等是否存在；SQL语句是否合法等，此步完成之后就生成了RelNode树；

c)该步骤主要的作用优化RelNode树，并将其转化成物理执行计划。主要涉及SQL规则优化如:基于规则优化(RBO)及基于代价(CBO)优化；优化这一步原则上来说是可选的，通过Validate后的RelNode树已经可以直接转化物理执行计划，但现代的SQL解析器基本上都包括有这一步，目的是优化SQL执行计划，此步得到的结果为物理执行计划；

d)执行阶段,此阶段主要做的是:将物理执行计划转化成可在特定的平台执行的程序,如Hive与Flink都在在此阶段将物理执行计划CodeGen生成相应的可执行代码。

步骤12，查询平台拦截非DQL语句。

步骤13，使用selectcount(1)form子查询包装语句的方法，统计查询数据量用以过滤超大数据量查询。

步骤14，通过监听ClickHouse服务器的CPU负载和内存负载来动态调度查询SQL并发度,并对查询进行排队处理。

在上述方案中，利用ApacheCalciteSQL解析器对查的SQL语句进行解析和验证；使用select count(1)form子查询包装语句的方法，统计查询数据量用以过滤超大数据量查询；过监听ClickHouse服务器的CPU负载和内存负载来动态调度查询SQL并发度,并对查询进行排队处理，通过构建查询分析平台,保护了数据安全,可以拦截对系统性能影响较大的查询请求，以保障系统稳定性。

步骤15，执行查询请求。

步骤16，返回查询结果。

在本申请的技术方案中，利用Flink+ClickHouse技术实现中心筛选OLAP分析平台,能够准实时的同步与清洗业务数据，高效的大数据查询能力能够让业务人员能够即席查询分析数据,同时支持SQL查询语言的特性能够有效降低数据分析平台的使用门槛,为中心筛选分析需求与指标开发带来实实在在的效率提升。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例提供了一种数据的处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图6是根据本申请实施例的一种可选的数据的处理装置的示意图，如图6所示，该装置包括：

监听单元61，用于利用分布式处理引擎Flink的监测组件CDC监听数据管理平台上发生变更的业务数据；同步单元63，用于利用所述分布式处理引擎Flink的技术栈将所述业务数据清洗后同步至数据库ClickHouse；查询单元65，用于在查询平台中接收对所述数据库ClickHouse的数据查询请求。

通过上述模块，利用分布式处理引擎Flink的监测组件CDC监听数据管理平台上发生变更的业务数据，利用所述分布式处理引擎Flink的技术栈将所述业务数据清洗后同步至数据库ClickHouse，在查询平台中接收对所述数据库ClickHouse的数据查询请求，通过FlinkCDC可以监测并捕获数据库的所有变动，包括数据或数据表的插入、更新以及删除等，进而完整的将数据同步至数据库ClickHouse，可以解决了相关技术中产生的数据不一致的技术问题，进而保证了数据管理平台和数据库ClickHouse的数据一致性的技术效果。

可选地，同步单元还用于：使用所述分布式处理引擎Flink中的filter()函数，从所述业务数据中过滤掉与所监听业务主题不相关的数据；使用所述分布式处理引擎Flink中的map()函数，从所述业务数据中清洗掉不需要的数据字段；利用所述分布式处理引擎Flink的流Join能力，对所述业务数据按照数据维度进行数据预聚合。

可选地，上述装置还包括：构建单元，用于在查询平台中接收对所述数据库ClickHouse的数据查询请求之前，构建所述查询平台，其中，所述查询平台支持使用SQL查询语句在所述数据库ClickHouse中进行数据查询、并支持对待查询数据的数据量进行分析。

可选地，所述查询单元还用于：在查询平台中接收对所述数据库ClickHouse的数据查询请求之后，利用解析器ApacheCalciteSQL对所述数据查询请求中的SQL语句进行解析和验证；在所述SQL语句通过解析和验证之后，使用selectcount(1)form子查询包装语句的方法，统计所述数据查询请求的数据查询量；在所述数据查询量超过指定阈值的情况下，过滤掉所述数据查询请求，其中，所述指定阈值为允许的最大数据查询量。

可选地，所述查询单元还用于：在查询平台中接收对所述数据库ClickHouse的数据查询请求之后，监听所述数据库ClickHouse的服务器的CPU负载和内存负载；根据所述服务器的CPU负载和内存负载来动态调度查询SQL的并发度,并对查询进行排队处理。

可选地，所述监听单元还用于：在数据管理人员通过数据管理平台维护数据之后，利用所述数据管理平台在数据库MySQL上执行数据变更语句，其中，所述数据变更语句用于对所述业务数据进行变更；利用数据库MySQL同步二进制日志binlog至所述分布式处理引擎Flink的监测组件CDC，其中，所述二进制日志binlog用于记录对数据库MySQL更新的数据变更语句；利用所述分布式处理引擎Flink的监测组件CDC解析所述二进制日志binlog，确定所述数据管理平台上发生变更的所述业务数据。

可选地，所述监听单元还用于：在利用分布式处理引擎Flink的监测组件CDC监听数据管理平台上发生变更的业务数据之后，发送所述数据管理平台上发生变更的所述业务数据至Kafka消息队列；利用所述分布式处理引擎Flink的流处理程序从所述Kafka消息队列中拉取Kafka消息，以便于将所述业务数据清洗后同步至数据库ClickHouse。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

实施例提供了一种计算机设备。结合本申请实施例数据的处理方法可以由计算机设备来实现。图7为根据本申请实施例的计算机设备的硬件结构示意图。

计算机设备可以包括处理器71以及存储有计算机程序指令的存储器72。

具体地，上述处理器71可以包括中央处理器(CPU)，或者特定集成电路(ApplicationSpecific IntegratedCircuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器72可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器72可包括硬盘驱动器(HardDiskDrive，简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器72可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器72可在数据处理装置的内部或外部。在特定实施例中，存储器72是非易失性(Non-Volatile)存储器。在特定实施例中，存储器72包括只读存储器(Read-OnlyMemory，简称为ROM)和随机存取存储器(RandomAccessMemory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-Only Memory，简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory，简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory，简称为SRAM)或动态随机存取存储器(DynamicRandom AccessMemory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory，简称SDRAM)等。

存储器72可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器71所执行的可能的计算机程序指令。

处理器71通过读取并执行存储器72中存储的计算机程序指令，以实现上述实施例中的任意一种数据的处理方法。

在其中一些实施例中，计算机设备还可包括通信接口73和总线70。其中，如图7所示，处理器71、存储器72、通信接口73通过总线70连接并完成相互间的通信。

通信接口73用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信接口73还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线70包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线70包括但不限于以下至少之一：数据总线(DataBus)、地址总线(AddressBus)、控制总线(ControlBus)、扩展总线(ExpansionBus)、局部总线(LocalBus)。举例来说而非限制，总线70可包括图形加速接口(AcceleratedGraphicsPort，简称为AGP)或其他图形总线、增强工业标准架构(Extended IndustryStandardArchitecture，简称为EISA)总线、前端总线(FrontSideBus，简称为FSB)、超传输(HyperTransport，简称为HT)互连、工业标准架构(IndustryStandardArchitecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(LowPinCount，简称为LPC)总线、存储器总线、微信道架构(MicroChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral ComponentInterconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnologyAttachment，简称为SATA)总线、视频电子标准协会局部(VideoElectronicsStandardsAssociationLocalBus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线70可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中的数据的处理方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据的处理方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种数据的处理方法，其特征在于，包括：

利用分布式处理引擎Flink的监测组件CDC监听数据管理平台上发生变更的业务数据；

利用所述分布式处理引擎Flink的技术栈将所述业务数据清洗后同步至数据库ClickHouse；

在查询平台中接收对所述数据库ClickHouse的数据查询请求。

2.根据权利要求1所述的方法，其特征在于，利用所述分布式处理引擎Flink的技术栈将所述业务数据清洗后同步至数据库ClickHouse，包括：

使用所述分布式处理引擎Flink中的filter()函数，从所述业务数据中过滤掉与所监听业务主题不相关的数据；

使用所述分布式处理引擎Flink中的map()函数，从所述业务数据中清洗掉不需要的数据字段；

利用所述分布式处理引擎Flink的流Join能力，对所述业务数据按照数据维度进行数据预聚合。

3.根据权利要求1所述的方法，其特征在于，在查询平台中接收对所述数据库ClickHouse的数据查询请求之前，所述方法还包括：

构建所述查询平台，其中，所述查询平台支持使用SQL查询语句在所述数据库ClickHouse中进行数据查询、并支持对待查询数据的数据量进行分析。

4.根据权利要求3所述的方法，其特征在于，在查询平台中接收对所述数据库ClickHouse的数据查询请求之后，所述方法还包括：

利用解析器ApacheCalciteSQL对所述数据查询请求中的SQL语句进行解析和验证；

在所述SQL语句通过解析和验证之后，使用selectcount(1)form子查询包装语句的方法，统计所述数据查询请求的数据查询量；

在所述数据查询量超过指定阈值的情况下，过滤掉所述数据查询请求，其中，所述指定阈值为允许的最大数据查询量。

5.根据权利要求3所述的方法，其特征在于，在查询平台中接收对所述数据库ClickHouse的数据查询请求之后，所述方法还包括：

监听所述数据库ClickHouse的服务器的CPU负载和内存负载；

根据所述服务器的CPU负载和内存负载来动态调度查询SQL的并发度,并对查询进行排队处理。

6.根据权利要求1所述的方法，其特征在于，利用分布式处理引擎Flink的监测组件CDC监听数据管理平台上发生变更的业务数据，包括：

在数据管理人员通过数据管理平台维护数据之后，利用所述数据管理平台在数据库MySQL上执行数据变更语句，其中，所述数据变更语句用于对所述业务数据进行变更；

利用数据库MySQL同步二进制日志binlog至所述分布式处理引擎Flink的监测组件CDC，其中，所述二进制日志binlog用于记录对数据库MySQL更新的数据变更语句；

利用所述分布式处理引擎Flink的监测组件CDC解析所述二进制日志binlog，确定所述数据管理平台上发生变更的所述业务数据。

7.根据权利要求1所述的方法，其特征在于，在利用分布式处理引擎Flink的监测组件CDC监听数据管理平台上发生变更的业务数据之后，所述方法还包括：

发送所述数据管理平台上发生变更的所述业务数据至Kafka消息队列；

利用所述分布式处理引擎Flink的流处理程序从所述Kafka消息队列中拉取Kafka消息，以便于将所述业务数据清洗后同步至数据库ClickHouse。

8.一种数据的处理装置，其特征在于，包括：

监听单元，用于利用分布式处理引擎Flink的监测组件CDC监听数据管理平台上发生变更的业务数据；

同步单元，用于利用所述分布式处理引擎Flink的技术栈将所述业务数据清洗后同步至数据库ClickHouse；

查询单元，用于在查询平台中接收对所述数据库ClickHouse的数据查询请求。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的数据的处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任一项所述的数据的处理方法。