CN114218211A - 数据处理系统、方法、计算机设备以及可读存储介质 - Google Patents

数据处理系统、方法、计算机设备以及可读存储介质 Download PDF

Info

Publication number
CN114218211A
CN114218211A CN202111391776.7A CN202111391776A CN114218211A CN 114218211 A CN114218211 A CN 114218211A CN 202111391776 A CN202111391776 A CN 202111391776A CN 114218211 A CN114218211 A CN 114218211A
Authority
CN
China
Prior art keywords
data
query
data processing
connection pool
druid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111391776.7A
Other languages
English (en)
Inventor
印智圆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCB Finetech Co Ltd
Original Assignee
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCB Finetech Co Ltd filed Critical CCB Finetech Co Ltd
Priority to CN202111391776.7A priority Critical patent/CN114218211A/zh
Publication of CN114218211A publication Critical patent/CN114218211A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及数据查询和处理技术领域,具体公开一种数据处理系统、方法、计算机设备以及可读存储介质。系统包括数据存储模块、Kylin多维查询组件、Druid存储连接池及数据处理平台,Kylin多维查询组件分别连接数据存储模块、Druid存储连接池及数据处理平台;数据存储模块用于存储数据;Kylin多维查询组件用于在接收到数据处理平台发出的数据查询请求时,将数据查询请求发送至Druid存储连接池,以指示Druid存储连接池从数据存储模块调取与数据查询请求对应的数据;数据处理平台用于读取查询结果,并对查询结果进行处理。采用Kylin on Druid架构,显著地提高了数据的查询和分析速度。

Description

数据处理系统、方法、计算机设备以及可读存储介质
技术领域
本发明涉及数据查询和处理技术领域,特别是涉及一种数据处理系统、方法、计算机设备以及可读存储介质。
背景技术
随着数字化时代的发展,数据已经渗透到各行各业中,对数据的查询和处理的需求也在飞速膨胀。然而,由于数据规模巨大且多维度的特点,目前的数据处理平台在查询数据和处理数据的过程中,常常会因各组件性能的限制而无法快速获取到所需查询的数据,出现数据延迟、数据不同步、卡顿等现象,不利于数据的查询和处理。
发明内容
基于此,有必要针对上述问题,提供一种数据处理系统、数据处理方法、计算机设备、计算机可读存储介质以及计算机程序产品。
第一方面,本申请提供了一种数据处理系统,所述数据处理系统包括数据存储模块、Kylin多维查询组件、Druid存储连接池及数据处理平台,所述Kylin多维查询组件分别连接所述数据存储模块、Druid存储连接池及数据处理平台;
所述数据存储模块用于存储数据;所述Kylin多维查询组件用于在接收到所述数据处理平台发出的数据查询请求时,将所述数据查询请求发送至所述Druid存储连接池,以指示所述Druid存储连接池从所述数据存储模块调取与所述数据查询请求对应的数据;所述数据处理平台用于读取查询结果,并对所述查询结果进行处理。
在其中一个实施例中,所述数据存储模块包括数据收集组件和数据源生成组件,所述数据收集组件用于收集数据,所述数据源生成组件用于对收集到的数据进行处理,形成若干个数据源。
在其中一个实施例中,所述数据收集组件用于将收集到的数据划分至多个共享单元中,同一个所述共享单元中的数据以不同的标识进行区分。
在其中一个实施例中,所述数据源生成组件用于按照标识对各所述共享单元中的数据进行过滤,形成若干个数据源。
在其中一个实施例中,所述kylin多维查询组件包括查询服务器和预处理服务器,所述查询服务器分别连接所述数据处理平台和所述Druid存储连接池,所述预处理服务器分别连接所述数据存储模块和所述Druid存储连接池;
所述查询服务器用于接收所述数据处理平台发出的数据查询请求,并将所述数据查询请求转发至所述Druid存储连接池,以使所述Druid存储连接池向所述数据存储模块发送数据调取请求,所述预处理服务器用于对从所述数据存储模块调取的数据进行预处理后发送至所述Druid存储连接池,所述数据处理平台经所述查询服务器从所述Druid存储连接池读取查询结果。
在其中一个实施例中,所述预处理服务器用于按多维度对调取的数据进行处理,生成Cuboid数据文件,以及将所述Cuboid数据文件转换为列存格式并发送至所述Druid存储连接池。
在其中一个实施例中,所述Druid存储连接池包括查询节点和历史节点,所述查询节点和所述历史节点均连接所述Kylin多维查询组件;所述查询节点用于接收所述数据查询请求,并转发所述数据查询请求至所述历史节点,所述历史节点根据所述数据查询请求从所述数据存储模块调取对应的数据。
在其中一个实施例中,所述数据存储模块中存储的数据包括营销活动产生的用户行为数据、权益数据、报名数据及达标表中的至少一种。
第二方面,本申请还提供了一种数据处理方法,所述数据处理方法应用于数据处理系统,所述数据处理系统包括数据存储模块、Kylin多维查询组件、Druid存储连接池及数据处理平台;所述数据处理方法包括:
所述Kylin多维查询组件在接收到所述数据处理平台发出的数据查询请求时,将所述数据查询请求发送至所述Druid存储连接池;
所述Druid存储连接池从所述数据存储模块调取与所述数据查询请求对应的数据;
所述数据处理平台从所述Druid存储连接池读取查询结果。
在其中一个实施例中,所述数据处理方法还包括在所述数据存储模块中存储数据的步骤:
收集数据,并将收集到的数据划分至多个共享单元中,同一个所述共享单元中的数据以不同的标识进行区分;
按照所述标识对各所述共享单元中的数据进行过滤,形成若干个数据源并存储。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
第五方面,本申请还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现上述的方法的步骤。
上述数据处理系统、数据处理方法、计算机设备、计算机可读存储介质以及计算机程序产品,在使用Kylin多维查询组件进行查询数据时,取消使用Kylin多维查询组件原生的HBase存储池进行数据存储,而是将Druid存储连接池作为Kylin多维查询组件的存储池,当Kylin多维查询组件接收到数据查询请求时,将数据查询请求发送至Druid存储连接池,以指示Druid存储连接池从数据存储模块调取与数据查询请求对应的数据,进而数据处理平台经Kylin多维查询组件从Druid存储连接池读取查询结果,由于Druid存储连接池采用列式存储和倒排索引,过滤性能优于HBase,并且Druid具有OLAP的特性,具有良好的二次聚合能力,因此显著地提高了数据的查询能力,有效减少数据延迟、数据不同步以及卡顿等不良现象,进而有助于提高数据处理平台对数据的分析处理速度。
附图说明
图1为本申请一实施例提供的数据处理系统的结构示意图;
图2为本申请一实施例提供的数据处理系统的结构示意图;
图3为本申请一实施例提供的数据处理系统中数据存储模块的结构示意图;
图4为本申请一实施例提供的数据处理系统的结构示意图;
图5为本申请一实施例提供的数据处理方法的流程框图;
图6为本申请一实施例提供的计算机设备的结构示意图。
附图标记说明:
100、数据存储模块;110、数据收集组件;120、数据源生成组件;200、Kylin多维查询组件;210、查询服务器;220、预处理服务器;300、Druid存储连接池;310、查询节点;320、历史节点;400、数据处理平台。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的优选实施方式。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反的,提供这些实施方式的目的是为了对本发明的公开内容理解得更加透彻全面。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
正如背景技术所述,目前各行各业中对数据的查询和处理的需求日益膨胀,例如银行金融领域,为了维持市场份额,拓展客户领域,银行业在积极寻求新的活动营销方式,以利用数据进行的创新营销业务需求正在不断增长,营销活动数据规模较大,结构多样性且具有实时性的特点。但是现有的数据分析平台均只是创建详细图形和展示直观数据的多功能工具,结构单一且分析能力弱,对于数据规模庞大的情况,只能依赖于本地数据仓库性能,但本地数据仓库性能存在局限性,其无法对数据进行预处理,在多表查询等稍微复杂的查询场景下,往往会使数据分析平台卡顿,且离线数据分析较为缓慢。并且,目前的数据查询和处理系统由于各组件性能的限制,在实际的数据更新和传输中,无法进行实时更新,进一步导致数据延迟和数据不同步等现象,不利于实际应用中对营销数据的查取。
针对上述问题,本申请提供了一种数据处理系统、数据处理方法、计算机设备、计算机可读存储介质以及计算机程序产品,用于提高对数据的查询和处理能力。
本申请所提供的数据处理系统、数据处理方法、计算机设备、计算机可读存储介质以及计算机程序产品可以应用于需要对数据进行查询和处理的领域,文中仅以银行金融领域的数据查询处理为例进行说明。
以下是文中出现的英文术语的解释:
Druid:是一个专为大型数据集上的高性能切片和用户行为数据分析而设计的数据存储连接池。
Apache Kylin:是一个多维查询组件,可对相关数据库结果进行深度、多维处理。
Hive:是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
Superset:是一款由Airbnb开源的“现代化的企业级BI(商业智能)Web应用程序”,其通过创建和分享dashboard,为数据分析提供了轻量级的数据查询和可视化方案。
Kafka:是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统,常见可以用于web/nginx日志、访问日志,消息服务等。
Cuboid:指在Kylin中某一维度组合下所有计算的数据。
OLAP:On-Line Analytical Processing,为使用者提供简单直接地查询结果并支持复杂的分析功能。
在一个实施例中,提供了一种数据处理系统,参考图1,本实施例提供的数据处理系统包括数据存储模块100、Kylin多维查询组件200、Druid存储连接池300及数据处理平台400,Kylin多维查询组件200分别连接数据存储模块100、Druid存储连接池300及数据处理平台400。其中:
数据存储模块100用于存储数据。Kylin多维查询组件200用于在接收到数据处理平台400发出的数据查询请求时,将数据查询请求发送至Druid存储连接池300,以指示Druid存储连接池300从数据存储模块100调取与数据查询请求对应的数据。数据处理平台400用于读取查询结果,并对查询结果进行处理。
具体地,数据存储模块100主要是用于对行内营销活动所产生的数据进行收集和存储,存储过程中可以直接存储原数据,也可以对原数据进行整合处理后再存储。在数据存储模块100中存储的数据即可作为整个数据处理系统的数据源,查询时从数据存储模块100中调取即可。
Kylin多维查询组件200是一个开源分布式分析引擎,提供Hadoop、Spark之上的SQL查询接口及多维(OLAP)能力,可以在亚秒级查询巨大的数据库表。Kylin多维查询组件200可以通过预计算的方式对设定的多维数据调配方式进行快速响应,能够应对超大规模数据集并建立响应。Druid存储连接池300偏向于实时的数据分析,是一个开源分布式数据存储,结合了分析型数据库、时序数据库、搜索系统的特点,可以处理较大数据集上的数据收集和分析任务,提供永远在线的实时数据摄取和任意数据处理功能,能够有效应对数据量庞大的数据查询。
本申请中采用的是Kylin on Druid架构,即以Druid存储连接池300作为Kylin多维查询组件200的存储池,取消使用Kylin多维查询组件200原生的存储引擎HBase。数据处理平台400提供数据查询端口,在实际应用中,用户可通过数据处理平台400进行数据查询,数据处理平台400发出数据查询请求至Kylin多维查询组件200,Kylin多维查询组件200将数据查询请求发送至Druid存储连接池300,进而使Druid存储连接池300从数据存储模块100中调取与数据查询请求相对应的数据,数据处理平台400再经Kylin多维查询组件200从Druid存储连接池300中读取调取到的数据,完成查询,并可对查询到的数据进行后续分析处理。
由于Druid存储连接池300采用列式存储和倒排索引,过滤性能优于HBase,并且Druid具有OLAP的特性,具有良好的二次聚合能力,因此采用Kylin on Druid架构,显著地提高了数据的查询和分析速度,有效减少数据延迟、数据不同步以及卡顿等不良现象,进而有助于优化数据处理平台400的数据处理性能。
在其中一个实施例中,参考图2,数据存储模块100包括数据收集组件110和数据源生成组件120,数据收集组件110用于收集数据,数据源生成组件120用于对收集到的数据进行处理,形成若干个数据源。
具体地,数据收集组件110负责收集营销活动所产生的数据,营销活动所产生的数据可以包括营销活动产生的用户行为数据、权益数据、报名数据及达标表中的至少一种。其中,用户行为数据指的是营销活动中产生的活动的PV、UV以及按钮的点击数、渠道的访问数据等,该部分数据属于用户进入活动页后的维度,不深入参与活动任务;营销活动产生的权益数据、报名数据以及达标表指的是用户进入活动参与任务所产生的活动报名数据、完成任务后活动所发放的权益以及完成指定任务步骤之后判定用户状态是否达标的数据,该部分数据均属于用户进入活动参与任务之后的维度。
其中,数据收集组件110可以包括Kafka日志系统,本实施例中可以通过前端埋点或接口传参的方式形成数据日志,并传输至Kafka日志系统中。
参考图3,本实施例中,数据采集过程中,为了避免在Kafka日志系统中创建大量的topic,可以将收集到的数据划分至若干个共享topic(即共享单元)中,且同一个共享单元中的数据以不同的标识进行区分。例如,在Kafka日志系统中创建N个topic,每个topic中均包含了若干个数据,每个数据均以某个字段作为标识,便于区分,如topic1中包含数据a、数据b等,数据a以标识1进行标识,数据b以标识2进行标识。采用数据标识的方式,将多个数据写入一个topic中,减少了Kafka日志系统中的topic数量,使得Kafka日志系统中的topic的利用率得以提升,进而提高查询效率。
数据源生成组件120则用于接收收集到的数据并对其进行处理,得到若干个数据源。具体地,数据源生成组件120可以按照标识对各共享单元中的数据进行过滤,形成若干个数据源。参考图3,数据源生成组件120包括filter(即过滤器)和Hive,首先可以通过filter根据标识对Kafka日志系统中的各共享单元中的数据进行过滤后进入Hive,进而得到多个不同的数据源,为了降低操控Kafka进程的复杂程度,进入Hive后,可以通过Kafka监督管理模块,即Kafka supervision来管理数据源形成进程。
其中,Hive结构是一个数据仓库结构,是用于对所有的用户行为数据进行存储。Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。其优点是以自由的扩展集群的规模,一般情况下不需要重启服务,这个特点方便了后续营销数据拓展,而不影响整个数据传输和存储流程,避免数据规整时服务暂停重启的危险。
在其中一个实施例中,参考图4,Kylin多维查询组件200包括查询服务器210和预处理服务器220,查询服务器210分别连接数据处理平台400和Druid存储连接池300,预处理服务器220分别连接数据存储模块100和Druid存储连接池300。
其中,查询服务器210用于接收数据处理平台400发出的数据查询请求,并将数据查询请求转发至Druid存储连接池300,以使Druid存储连接池300向数据存储模块100发送数据调取请求,预处理服务器220用于对从数据存储模块100调取的数据进行预处理后发送至Druid存储连接池300,数据处理平台400经查询服务器210从Druid存储连接池300读取查询结果。
Kylin多维查询组件200中通过设置不同的服务器以执行不同的操作,提高了Kylin多维查询组件200的查询效率。具体地,Kylin多维查询组件200中的预处理服务器220可以连接Hive,当接收到从Hive中调取的数据后,能够对数据进行预计算处理,利用空间换时间,进而提高空间的利用率,可以对多维数据调配方式进行快速响应,提高整体查询速度。
在其中一个实施例中,预处理服务器220用于按多维度对调取的数据进行处理,生成Cuboid数据文件,以及将Cuboid数据文件转换为列存格式并发送至Druid存储连接池300。即,预处理服务器220首先对调取的数据进行多维度处理,得到Cuboid数据文件,然后转换为Druid存储连接池300对应的segment文件并发送至Druid存储连接池300中存储,由此将Kylin多维查询组件200与Druid存储连接池300配合起来,进而实现高效率的数据查询。
在其中一个实施例中,参考图4,Druid存储连接池300包括查询节点310和历史节点320,查询节点310和历史节点320均连接Kylin多维查询组件200;查询节点310用于接收数据查询请求,并转发数据查询请求至历史节点320,历史节点320根据数据查询请求从数据存储模块100调取对应的数据。
Druid存储连接池300中配置有多个节点,每个节点用于实施不同的操作,进而提高内部运行效率。当Kylin多维查询组件200中的查询服务器210接收到数据处理平台400发送的数据查询请求,则转发至Druid存储连接池300中的查询节点310,即broker节点,broker节点解析请求后找到对应的历史节点320,即historical节点,并经historical节点分发请求,最终从Hive获取到的数据经Kylin多维查询组件200中的预处理服务器220预计算处理之后再反馈回historical节点。
在其中一个实施例中,本实施例中的数据处理平台400可以选用superset数据平台,其为创建详细数据趋势图形和展示直观数据的多功能工具,支持数据按活动进行可视化展示和之后的数据分析功能,选用superset数据平台,便于对营销数据进行可视化看板形式的展示数据查询结果,也利于对查询到的营销数据进行数据分析任务。
在一个实施例中,本申请还提供了一种数据处理方法,数据处理方法应用于前述的数据处理系统,其中,数据处理系统包括数据存储模块100、Kylin多维查询组件200、Druid存储连接池300及数据处理平台400。参考图5,本实施例提供的数据处理方法包括以下步骤:
步骤S200、Kylin多维查询组件200在接收到数据处理平台400发出的数据查询请求时,将数据查询请求发送至Druid存储连接池300。
步骤S400、Druid存储连接池300从数据存储模块100调取与数据查询请求对应的数据。
步骤S600、数据处理平台400从Druid存储连接池300读取查询结果。
本申请中采用的是Kylin on Druid架构,即以Druid存储连接池300作为Kylin多维查询组件200的存储池,取消使用Kylin多维查询组件200原生的存储引擎HBase。数据处理平台400提供数据查询端口,在实际应用中,用户可通过数据处理平台400进行数据查询,数据处理平台400发出数据查询请求至Kylin多维查询组件200,Kylin多维查询组件200将数据查询请求发送至Druid存储连接池300,进而使Druid存储连接池300从数据存储模块100中调取与数据查询请求相对应的数据,数据处理平台400再经Kylin多维查询组件200从Druid存储连接池300中读取调取到的数据,完成查询,并可对查询到的数据进行后续分析处理。
由于Druid存储连接池300采用列式存储和倒排索引,过滤性能优于HBase,并且Druid具有OLAP的特性,具有良好的二次聚合能力,因此采用Kylin on Druid架构,显著地提高了数据的查询和分析速度,有效减少数据延迟、数据不同步以及卡顿等不良现象,进而有助于优化数据处理平台400的数据处理性能。
在其中一个实施例中,本实施例提供的数据处理方法还包括在数据存储模块100中存储数据的步骤:收集数据,并将收集到的数据划分至多个共享单元中,同一个共享单元中的数据以不同的标识进行区分;
按照标识对各共享单元中的数据进行过滤,形成若干个数据源并存储。
本实施例提供的数据处理方法与前述实施例提供的数据处理系统属于同一发明构思,关于数据处理方法的具体内容可参见前述数据处理系统的对应描述,在此不再赘述。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
步骤S200、Kylin多维查询组件200在接收到数据处理平台400发出的数据查询请求时,将数据查询请求发送至Druid存储连接池300。
步骤S400、Druid存储连接池300从数据存储模块100调取与数据查询请求对应的数据。
步骤S600、数据处理平台400从Druid存储连接池300读取查询结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
收集数据,并将收集到的数据划分至多个共享单元中,同一个共享单元中的数据以不同的标识进行区分;
按照标识对各共享单元中的数据进行过滤,形成若干个数据源并存储。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
步骤S200、Kylin多维查询组件200在接收到数据处理平台400发出的数据查询请求时,将数据查询请求发送至Druid存储连接池300。
步骤S400、Druid存储连接池300从数据存储模块100调取与数据查询请求对应的数据。
步骤S600、数据处理平台400从Druid存储连接池300读取查询结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
收集数据,并将收集到的数据划分至多个共享单元中,同一个共享单元中的数据以不同的标识进行区分;
按照标识对各共享单元中的数据进行过滤,形成若干个数据源并存储。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
步骤S200、Kylin多维查询组件200在接收到数据处理平台400发出的数据查询请求时,将数据查询请求发送至Druid存储连接池300。
步骤S400、Druid存储连接池300从数据存储模块100调取与数据查询请求对应的数据。
步骤S600、数据处理平台400从Druid存储连接池300读取查询结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
收集数据,并将收集到的数据划分至多个共享单元中,同一个共享单元中的数据以不同的标识进行区分;
按照标识对各共享单元中的数据进行过滤,形成若干个数据源并存储。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (13)

1.一种数据处理系统,其特征在于,所述数据处理系统包括数据存储模块、Kylin多维查询组件、Druid存储连接池及数据处理平台,所述Kylin多维查询组件分别连接所述数据存储模块、Druid存储连接池及数据处理平台;
所述数据存储模块用于存储数据;所述Kylin多维查询组件用于在接收到所述数据处理平台发出的数据查询请求时,将所述数据查询请求发送至所述Druid存储连接池,以指示所述Druid存储连接池从所述数据存储模块调取与所述数据查询请求对应的数据;所述数据处理平台用于读取查询结果,并对所述查询结果进行处理。
2.根据权利要求1所述的数据处理系统,其特征在于,所述数据存储模块包括数据收集组件和数据源生成组件,所述数据收集组件用于收集数据,所述数据源生成组件用于对收集到的数据进行处理,形成若干个数据源。
3.根据权利要求2所述的数据处理系统,其特征在于,所述数据收集组件用于将收集到的数据划分至多个共享单元中,同一个所述共享单元中的数据以不同的标识进行区分。
4.根据权利要求3所述的数据处理系统,其特征在于,所述数据源生成组件用于按照标识对各所述共享单元中的数据进行过滤,形成若干个数据源。
5.根据权利要求1所述的数据处理系统,其特征在于,所述kylin多维查询组件包括查询服务器和预处理服务器,所述查询服务器分别连接所述数据处理平台和所述Druid存储连接池,所述预处理服务器分别连接所述数据存储模块和所述Druid存储连接池;
所述查询服务器用于接收所述数据处理平台发出的数据查询请求,并将所述数据查询请求转发至所述Druid存储连接池,以使所述Druid存储连接池向所述数据存储模块发送数据调取请求,所述预处理服务器用于对从所述数据存储模块调取的数据进行预处理后发送至所述Druid存储连接池,所述数据处理平台经所述查询服务器从所述Druid存储连接池读取查询结果。
6.根据权利要求5所述的数据处理系统,其特征在于,所述预处理服务器用于按多维度对调取的数据进行处理,生成Cuboid数据文件,以及将所述Cuboid数据文件转换为列存格式并发送至所述Druid存储连接池。
7.根据权利要求1所述的数据处理系统,其特征在于,所述Druid存储连接池包括查询节点和历史节点,所述查询节点和所述历史节点均连接所述Kylin多维查询组件;所述查询节点用于接收所述数据查询请求,并转发所述数据查询请求至所述历史节点,所述历史节点根据所述数据查询请求从所述数据存储模块调取对应的数据。
8.根据权利要求1所述的数据处理系统,其特征在于,所述数据存储模块中存储的数据包括营销活动产生的用户行为数据、权益数据、报名数据及达标表中的至少一种。
9.一种数据处理方法,其特征在于,应用于数据处理系统,所述数据处理系统包括数据存储模块、Kylin多维查询组件、Druid存储连接池及数据处理平台;所述数据处理方法包括:
所述Kylin多维查询组件在接收到所述数据处理平台发出的数据查询请求时,将所述数据查询请求发送至所述Druid存储连接池;
所述Druid存储连接池从所述数据存储模块调取与所述数据查询请求对应的数据;
所述数据处理平台从所述Druid存储连接池读取查询结果。
10.根据权利要求9所述的数据处理方法,其特征在于,所述数据处理方法还包括在所述数据存储模块中存储数据的步骤:
收集数据,并将收集到的数据划分至多个共享单元中,同一个所述共享单元中的数据以不同的标识进行区分;
按照所述标识对各所述共享单元中的数据进行过滤,形成若干个数据源并存储。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求9或10所述的方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求9或10所述的方法的步骤。
13.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求9或10所述的方法的步骤。
CN202111391776.7A 2021-11-19 2021-11-19 数据处理系统、方法、计算机设备以及可读存储介质 Pending CN114218211A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111391776.7A CN114218211A (zh) 2021-11-19 2021-11-19 数据处理系统、方法、计算机设备以及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111391776.7A CN114218211A (zh) 2021-11-19 2021-11-19 数据处理系统、方法、计算机设备以及可读存储介质

Publications (1)

Publication Number Publication Date
CN114218211A true CN114218211A (zh) 2022-03-22

Family

ID=80697891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111391776.7A Pending CN114218211A (zh) 2021-11-19 2021-11-19 数据处理系统、方法、计算机设备以及可读存储介质

Country Status (1)

Country Link
CN (1) CN114218211A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114676166A (zh) * 2022-05-26 2022-06-28 阿里巴巴(中国)有限公司 数据处理方法及装置
CN115190044A (zh) * 2022-06-28 2022-10-14 平安银行股份有限公司 设备连接状态检查方法、装置、设备和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114676166A (zh) * 2022-05-26 2022-06-28 阿里巴巴(中国)有限公司 数据处理方法及装置
CN115190044A (zh) * 2022-06-28 2022-10-14 平安银行股份有限公司 设备连接状态检查方法、装置、设备和存储介质
CN115190044B (zh) * 2022-06-28 2023-08-08 平安银行股份有限公司 设备连接状态检查方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
US11120344B2 (en) Suggesting follow-up queries based on a follow-up recommendation machine learning model
US11914588B1 (en) Determining a user-specific approach for disambiguation based on an interaction recommendation machine learning model
US10885026B2 (en) Translating a natural language request to a domain-specific language request using templates
US10713269B2 (en) Determining a presentation format for search results based on a presentation recommendation machine learning model
CN110362544B (zh) 日志处理系统、日志处理方法、终端及存储介质
CN111241078A (zh) 数据分析系统、数据分析的方法及装置
US11494395B2 (en) Creating dashboards for viewing data in a data storage system based on natural language requests
US10901811B2 (en) Creating alerts associated with a data storage system based on natural language requests
US11170016B2 (en) Navigating hierarchical components based on an expansion recommendation machine learning model
WO2017096892A1 (zh) 索引构建方法、查询方法及对应装置、设备、计算机存储介质
CN114218211A (zh) 数据处理系统、方法、计算机设备以及可读存储介质
US20190034430A1 (en) Disambiguating a natural language request based on a disambiguation recommendation machine learning model
Sogodekar et al. Big data analytics: hadoop and tools
CN111125199B (zh) 一种数据库访问方法、装置及电子设备
CN115658680A (zh) 数据存储方法、数据查询方法和相关装置
WO2024193216A1 (zh) 推送对象的处理方法、对象推送模型的训练方法和装置
CN110781210A (zh) 一种应对大规模数据多维聚合实时查询的数据处理平台
CN115809311B (zh) 知识图谱的数据处理方法、装置及计算机设备
CN107430633B (zh) 用于数据存储的系统及方法和计算机可读介质
Wu et al. RIVA: A Real-Time Information Visualization and analysis platform for social media sentiment trend
CN114721495A (zh) 一种电源监控方法、装置、存储介质和计算机设备
US20190034555A1 (en) Translating a natural language request to a domain specific language request based on multiple interpretation algorithms
CN103891244B (zh) 一种进行数据存储和检索的方法及装置
CN110389965B (zh) 一种多维度数据查询及缓存的优化方法
CN111767309B (zh) 一种基于开关设计模式优化检索的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination