CN115934680A

CN115934680A - 一站式大数据分析处理系统

Info

Publication number: CN115934680A
Application number: CN202211665509.9A
Authority: CN
Inventors: 李华福; 牛运夺; 蒋天园; 刘元峰; 李�杰; 吕松峰
Original assignee: Music Element Technology Beijing Ltd By Share Ltd
Current assignee: Music Element Technology Beijing Ltd By Share Ltd
Priority date: 2022-12-23
Filing date: 2022-12-23
Publication date: 2023-04-07
Anticipated expiration: 2042-12-23
Also published as: CN115934680B

Abstract

本发明公开了一种一站式大数据分析处理系统，包括元数据管理子系统、数据采集子系统、数据开发平台子系统和智能报表分析平台子系统，数据采集子系统实时拉取元数据管理子系统生成的数据校验schema文件，根据文件对数据进行清洗、加工、落地埋点数据文件，最终数据文件会通过数据加载机器加载至阿里云EMR系统，数据开发平台子系统依赖阿里云EMR系统进行数据处理，最终将数据输出至阿里云ADB系统，智能报表分析平台子系统以阿里云ADB系统数据为基础进行自助分析及智能化报表展示。优点是：满足海量游戏数据包括采集、存储、分析、可视化的所有数据处理需求；提高了海量数据采集效率、降低了数据存储成本、提高了数据开发与分析效率、挖掘与发挥了数据价值。

Description

一站式大数据分析处理系统

技术领域

本发明涉及大数据分析处理技术领域，尤其涉及一种一站式大数据分析处理系统。

背景技术

伴随着企业游戏业务的不断发展，游戏业务本身及其周边业务产生大量数据，并且数据量也呈现爆炸式增长，如何高效采集、安全可靠存储海量数据，高效分析挖掘规律、提取数据价值，准确辅助决策是必须面对的问题。

传统基于开源Hadoop生态提出的数据采集、存储、处理数据、可视化解决方案存在诸多缺陷，如采集端组件不支持基于元数据的校验、存储前不支持针对业务的定制化数据清洗加工、缺少一站式数据开发分析平台、缺少智能化、可视化展示平台，数据运维及使用成本极高，仅仅满足数据处理的基本需求，无法与游戏业务深度融合，降低了企业生产效率。

发明内容

本发明的目的在于提供一种一站式大数据分析处理系统，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种一站式大数据分析处理系统，包括，

元数据管理子系统：用于实现数据的元数据管理；包括对埋点数据的数据格式及数据仓库建模元数据的定义、维护、分发，为数据采集子系统提供埋点原始数据格式校验的规则，为数据仓库建模所需元数据管理提供入口；

数据采集子系统，包括

客户端埋点SDK：用于与游戏服务融合生成游戏客户埋点数据，并支持原始埋点数据的元数据校验；

数据采集服务集群：用于提供数据采集服务，接收来自游戏端、游戏服务端及其他业务部门的埋点请求，完成数据的收集、清洗和加工的统一处理，完成原始埋点数据的日志落地；

数据加载服务集群：提供数据加载服务，以实现采集服务生成的日志数据的在线校验、深加工和装载进入阿里云EMR系统；

数据开发子平台子系统，包括

自助SQL查询模块：用于支持多种SQL查询引擎，支持多种SQL查询引擎，支持SQL语句的创建、运行、结果数据预览及导出功能，同时提供将SQL查询转化为定时调度数据处理任务的能力，满足用户多样的即时查询场景；

交互式开发模块：基于开源的Jupyterlab定制化开发，支持使用Python、R、Markdown语言，支持shell terminal；用于为用户提供相互隔离的服务器数据开发环境；

调度服务模块：用于提供数据处理任务的创建、删除、修改和查看的管理功能，提供数据处理任务的测试、调度配置、历史任务回溯和运行情况实时查询功能；

数据安全模块：用于为数据分析师、数仓开发工程师、业务人员提供申请读取游戏用户隐私数据权限的入口，包括隐私数据表的权限申请、申请审核、历史申请记录查询功能；

智能报表分析平台子系统，用于实现数据分析和数据可视化，具体包括

智能报表模块：所述智能报表模块包括指标管理单元和报表配置单元，在指标管理单元中能够基于基础指标进行二次建模形成拼接指标，通过拼接指标能够更加灵活地聚合出业务关心的数据；在报表配置单元中，用户能够基于拖拽的方式实现数据分析和报表配置，所述报表配置单元支持多种数据可视化图形模式；

自助分析模块：用于通过底层定义事件及事件属性，通过自主配置指标及过滤条件的方式，根据各种业务背景进行事件分析、分布分析、留存分析、间隔分析、漏斗分析；能够通过一定的条件自主完成人群划分和人群标签创建，创建后的人群和标签能够直接用于其他分析中；同时，自助分析模块提供更加灵活的SQL计算功能，通过编写SQL的方式进行数据实时分析。

优选的，所述数据采集子系统还包括负载均衡集群Nginx，所述负载均衡集群Nginx用于将流量负载均衡至数据采集服务集群。

优选的，指标管理单元中形成拼接指标的过程中，将指标底层表通过join的方式进行关联，指标间共有的维度作为拼接指标的维度，每个基础指标的量度都作为拼接指标的量度；同时，还能够对多个基础指标的量度通过公式计算器定义计算逻辑，并将二次计算的结果作为拼接指标的衍生计算量度。

优选的，所述智能报表模块还包括数据报警单元，所述数据报警单元能够基于图标和业务需求选择进行报警的维度和量度，当业务数据出现异常值时发送报警通知。

优选的，系统的数据处理流程具体包括如下步骤，

S1、数据产品开发工程师、数据仓库开发工程师以及业务方沟通数据开发分析需求形成埋点数据规范，数据仓库开发工程师根据数据规范在元数据管理子系统中为不同游戏项目配置或修改埋点数据schema，配置完成后自动生成埋点测试数据，元数据管理子系统基于埋点测试数据自动解析测试埋点数据schema的字段、数据格式、数据类型，将其与埋点数据schema内容逐一比对，并输出比对结果成功与否，根据比对结果验证配置的正确性，并验证埋点数据schema是否符合预期，测试通过后将配置提交，经过元数据管理子系统审核后生成埋点规范schema文件并自动下发给数据采集子系统的客户端埋点SDK、数据采集服务集群、数据加载服务集群，支持数据采集子系统对源数据的格式校验与数据清洗；

S2、客户端埋点SDK实时接收来自元数据管理子系统的埋点规范schema文件，并根据埋点规范schema文件生成指定格式的埋点记录数据，客户端埋点SDK缓存一定量的埋点记录数据，并批量发送至数据采集服务集群，埋点记录数据通过阿里的LB服务以及负载均衡集群Nginx实现二层流量分流到达数据采集服务集群；

数据采集服务集群接收到埋点请求后，对原始埋点数据进行清洗加工及数据格式的初步校验和过滤，逐条解析埋点记录数据，并根据埋点规范schema文件去除字段中不完整的记录、格式非法的记录，同时对埋点记录数据按照埋点规范schema文件的结构格式化，然后定制化增加业务特有的业务数据，最终实时落地本地埋点数据文件；

数据加载服务集群加载多个服务实例，每个服务实例对应不同的数据采集服务集群分组，实时拉取对应分组上的埋点数据分拣，每个服务实例同时实时读取元数据管理子系统的埋点规范schema文件的变更，根据埋点规范schema文件对数据进行二次校验和加工，最终并行调用阿里云EMR服务接口将数据写入阿里云EMR系统供后续数据的开发与分析处理；

S3、数据分析师、数仓开发人员及其他业务人员登录数据开发平台子系统，通过自助SQL查询模块灵活自由编写SQL，并通过相应查询引擎进行查询，对数据进行深度探查与挖掘分析，并对查询结果进行下载及可视化；

交互式开发模块为每个有交互式开发需求的用户提供相互隔离的服务器数据开发环境，用户可以使用python、R语言，通过编程的方式进行复杂高级的数据分析与处理，并且支持用户本地数据的上传与服务器分析结果数据的下载；

所有用户的数据分析与处理需求都能够通过各类SQL查询实现或通过编程实现，各类SQL查询实现或通过编辑脚本都可以通过调度服务模块的任务进行统一的管理、运行和运维，进而完成可视化智能报表基础数据的建设；

S4、完成可视化智能报表基础数据的建设后，在智能报表分析平台子系统中通过配置的指标模型和拼接模型对数据库中的数据进行定义；

智能报表模块基于用户在报表中配置的维度、量度和过滤器规则生成AnalyticDB查询SQL；自助分析模块基于用户图表中配置的分析类型和事件配置生成Hologres查询SQL；生成的数据查询SQL或数据查询配置会被提交到对应的数据集群中执行，得到执行结果后按照用户在报表中配置的图形展示规则进行渲染，完成数据可视化过程及数据分析过程。

优选的，步骤S2中的二次加工为，根据定制化程序进行字段的二次填充或处理，对数据进行整理，输出等量大小的符合阿里EMR系统的最优文件块，然后对埋点数据文件进行并行压缩处理。

优选的，步骤S3中，若用户需要将SQL查询沉淀为固定的分析模型并在智能报表分析平台子系统中进行可视化分析展示，则使用自助SQL查询模块的转化功能，对自助SQL查询模块的执行结果的列信息与智能报表存储数据库阿里云ADB对应表的列信息进行映射配置，系统可自动将SQL查询转化为调度系统的执行任务，周期性每日调度，把自助SQL查询模块执行输出的结果导入阿里云ADB供下游可视化分析。

优选的，步骤S3中，各类SQL查询实现或通过编辑脚本都可以通过调度服务模块的任务进行统一的管理、运行和运维，具体包括如下内容，

S31、调度服务模块的任务管理功能能够让用户以可视化的方式类创建数据处理任务，用户能够通过DAG图的形式来管理组织数据处理任务，进而构建数据处理流程，数据处理任务包含bash、python、hql、spark、hologres、adb、hive2adb多种数据处理任务类型，用户能够随意组合使用，多个数据处理任务以DAG形式组织成一个FLOW，多个FLOW以DAG的形式组织成一个PROJECT，通过三层组织结构来管理数据处理任务，同时用户能够对数据处理任务进行当前版本与历史版本的随意切换；

S32、创建完数据处理任务后，调度服务模块能够对任务进行定时调度的配置，对调度生命周期、频率、执行用户、任务执行节点、任务执行需要依赖的任务、任务执行失败重试次数、任务并行执行方式、任务SLA监控报警性进行配置，配置完成后任务会被提交到后台任务执行系统进行周期性调度执行；数仓开发工程师能够通过调度服务模块完成大量数据ETL任务的管理与运维、完成数据仓库ODS、DWD、DIM、DWS、ADS分层建设，完成可视化智能报表基础数据的建设。

优选的，所述后台任务执行系统提供主从架构的分布式调度服务，包含一个master节点，多个worker节点；master节点负责任务调度与分发，管理维护任务调度执行状态，同时对调度资源进行协调管理；worker节点负责任务的执行及任务执行状态的上报，任务以进程的模式运行，调度服务与具体任务执行完全解耦，能够支撑成千上万的任务调度执行，任务调度能力随worker节点的横向扩展实现线性增长；

任务调度运行过程中，会输出任务执行进度日志，用户能够以可视化的方式在调度服务模块中进行查看，同时用户能够对运行中的任务进行kill、pause/resume这样的运维操作，能够对已经失败的任务进行重跑、重试、修改后再重试、标记任务成功的运维操作，能够对历史任务按照时间进行回溯操作；

在任务监控方面，任务运行超时、失败、任务等待超时这些异常情况会通过飞书报警的形式通知任务维护负责人，推动用户处理失败任务，形成数据处理的良性闭环。

优选的，步骤S4中，在智能报表分析平台子系统中通过配置的指标模型和拼接模型对数据库中的数据进行定义具体为，

基础指标定义过程中，填写基础指标在数据库中对应的库名、表名，同时选取数据表中相应字段作为基础指标的维度和量度，所有基础信息填写后进行保存操作后实现基础指标的定义；

拼接指标定义过程中，勾选想要关联的基础指标，勾选基础指标之间共有的维度作为公共维度，指标量度默认都会作为拼接指标量度；同时通过公式计算器设定多个指标量度之间的计算逻辑，以此来定义衍生计算指标，保存操作后实现拼接指标的定义。

本发明的有益效果是：1、系统支持每日5TB+数据量，上千亿级数据记录采集、校验、深度加工、装载，支持峰值20W+RPS量级埋点请求访问量，并且随数据采集、处理量的不断增长，采集系统集群可实现动态横向扩展，保证采集处理数据能力线性增长。2、系统提供从数据采集、加载、处理元数据统一管理的能力，支持埋点数据的预发布与测试能力，埋点数据质量得到有效保证，同时极大提升埋点数据处理效率，目前已支持近万张表的元数据管理，单表字段数据可实现无限扩展。3、系统支持在客户端埋点、数据采集、数据加载三个阶段进行自动化、性能近0损耗的数据格式校验，保证了源数据的干净整洁，减轻后续数据清洗的压力，目前支持每日5TB+数据量数据校验。4、系统支持数据采集、加载过程的定制化功能开发，可在更靠近数据源的地方进行定制化功能的实现，满足多样化数据预处理需求。5、系统支持用户自助化、交互式进行数据探索，挖掘数据价值，方便在数据开发过程中测试代码的实际情况与期望是否相符、排查代码错误，极大提升用户数据生产效率，解放分析数据生产力。6、系统支持对PB+级数据进行一站式数据开发、数据运维、数据管理，极大降低了数据开发运维成本，提升了数据分析效率。7、系统支持PB+级数据处理任务7*24小时稳定健康运行，目前系统每日有1W+数据分析任务在持续调度运行，数据分析任务调度能力同样可进行横向线性扩展。8、系统具有极高的易用性，用户能够通过拖拽的方式轻松地进行数据分析和配置报表。用户还可以通过选择过滤器选项直接修改图表参数得到期望结果。该系统还提供如饼图、折线图、柱状图等数十种图表类型，配置出的报表生动直观，能够覆盖到用户所有的使用场景。智能报表分析系统提供灵活的指标建模能力，能够基于基础指标配制出拼接指标，将彼此有业务关联的数据进行灵活组织，方便报表配置。同时还提供实时的数据分析能力，可以基于自助分析模块进行数据实时分析，并可以多种数据展示形式呈现给用户，数据分析结果清晰直接。

附图说明

图1是本发明实施例中一站式大数据分析处理系统的结构示意图；

图2是本发明实施例中一站式发数据分析处理系统中数据流转原理图；

图3是本发明实施例中元数据管理子系统的工作流程图；

图4是本发明实施例中数据采集子系统的工作流程图；

图5是本发明实施例中数据开发平台子系统自助SQL查询模块的工作流程图；

图6是本发明实施例中数据开发平台子系统交互式分析模块的工作流程图；

图7是本发明实施例中数据开发平台子系统调度服务模块的工作流程图；

图8是本发明实施例中智能报表分析平台子系统的结构示意图；

图9是本发明实施例中智能报表分析平台子系统的配置过程流程图；

图10是本发明实施例中登录元数据管理子系统进行埋点事件注册的示意图；

图11是本发明实施例中自助查询示意图；

图12是本发明实施例中模型配置示意图；

图13是本发明实施例中用户开发环境选择示意图；

图14是本发明实施例中数据安全模块对隐私数据权限管理的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

实施例一

本实施例中，为了解决相应技术问题，本发明提供了深度融合游戏业务的支持稳定高效采集海量数据，数据采集与加载过程支持元数据校验，数据洞察、数据探索、数据分析、数据处理任务管理集中化、自助分析、智能报表集中化的一站式大数据分析处理系统，满足了海量游戏数据从数据采集、存储到数据分析处理，再到数据可视化的所有数据处理需求，极大提高了海量数据采集效率、降低了数据存储成本、提高了数据开发与分析效率、极大挖掘与发挥了数据价值。如图1所示，一站式大数据分析处理系统包括，元数据管理子系统、数据采集子系统、数据开发平台子系统和智能报表分析平台子系统；下面分别对这四个子系统进行说明：

一、元数据管理子系统

元数据管理子系统用于实现数据的元数据管理；包括对埋点数据的数据格式及数据仓库建模元数据的定义、维护、分发，为数据采集子系统提供埋点原始数据格式校验的规则，为数据仓库建模所需元数据管理提供入口。

二、数据采集子系统

数据采集子系统包括

(1)客户端埋点SDK：用于与游戏服务融合生成游戏客户埋点数据，并支持原始埋点数据的元数据校验；

(2)数据采集服务集群：用于提供数据采集服务，接收来自游戏端、游戏服务端及其他业务部门的埋点请求，完成数据的收集、清洗和加工的统一处理，完成原始埋点数据的日志落地；

(3)数据加载服务集群：提供数据加载服务，以实现采集服务生成的日志数据的在线校验、深加工和装载进入阿里云EMR系统；

四、数据开发平台子系统

数据开发平台子系统，包括

(1)自助SQL查询模块：用于支持多种SQL查询引擎，支持trino、tez、mr多种SQL查询引擎，支持SQL语句的创建、运行、结果数据预览及导出功能，同时提供将SQL查询转化为定时调度数据处理任务的能力，满足用户多样的即时查询场景；

(2)交互式开发模块：基于开源的Jupyterlab定制化开发，支持使用Python、R、Markdown语言，支持shell terminal；用于为用户提供相互隔离的服务器数据开发环境；

(3)调度服务模块：用于提供数据处理任务的创建、删除、修改和查看的管理功能，提供数据处理任务的测试、调度配置、历史任务回溯和运行情况实时查询功能；

(4)数据安全模块：用于为数据分析师、数仓开发工程师、业务人员提供申请读取游戏用户隐私数据权限的入口，包括隐私数据表的权限申请、申请审核、历史申请记录查询功能。

四、智能报表分析平台子系统

智能报表分析平台子系统用于实现数据分析和数据可视化，具体包括

(1)智能报表模块：所述智能报表模块包括指标管理单元和报表配置单元，在指标管理单元中能够基于基础指标进行二次建模形成拼接指标，通过拼接指标能够更加灵活地聚合出业务关心的数据；在报表配置单元中，用户能够基于拖拽的方式实现数据分析和报表配置，所述报表配置单元支持多种数据可视化图形模式，各种业务背景下的数据结果展示清晰直接。同时智能报表模块还包括数据报警单元，所述数据报警单元能够基于图标和业务需求选择进行报警的维度和量度，当业务数据出现异常值时发送报警通知。

其中，指标管理单元中形成拼接指标的过程中，将指标底层表通过join的方式进行关联，指标间共有的维度作为拼接指标的维度，每个基础指标的量度都作为拼接指标的量度；同时，还能够对多个基础指标的量度通过公式计算器定义计算逻辑，并将二次计算的结果作为拼接指标的衍生计算量度。

其中多种数据可视化图形模式包括，基础数据表、饼图、柱状图、条形图、折线图、漏斗图、散点图、双轴图、堆积柱状图、堆积条形图、面积图、瀑布图等。

(2)自助分析模块：在自助分析模块中用户通过底层定义事件及事件属性，通过自主配置指标及过滤条件的方式，根据各种业务背景进行事件分析、分布分析、留存分析、间隔分析、漏斗分析；能够通过一定的条件自主完成人群划分和人群标签创建，创建后的人群和标签能够直接用于其他分析中；同时，自助分析模块提供更加灵活的SQL计算功能，通过编写SQL的方式进行数据实时分析。

本实施例中，系统的数据处理流程具体包括如下步骤，

数据加载服务集群加载多个服务实例，每个服务实例对应不同的数据采集服务集群分组，实时拉取对应分组上的埋点数据分拣，每个服务实例同时实时读取元数据管理子系统的埋点规范schema文件的变更，根据埋点规范schema文件对数据进行二次校验和加工，最终并行调用阿里云EMR服务接口将数据写入阿里云EMR系统供后续数据的开发与分析处理。

其中，二层流量分流具体为，第一层是域名级别的分流通过阿里的LB服务进行分流，第二层流量分流通过Nginx代理服务，将流量负载均衡至采集服务。

二次校验与初次校验的过程基本相同，具体为根据埋点规范schema文件去除字段不完整的记录、格式非法的记录，保证最终入库数据的正确性。

二次加工指的是根据定制化程序进行字段的二次填充或处理，对数据进行整理，输出等量大小的符合阿里EMR系统的最优文件块，然后对埋点数据文件进行并行压缩处理。

S3、数据分析师、数仓开发人员及其他业务人员登录数据开发平台子系统，通过自助SQL查询模块灵活自由编写SQL，并通过相应查询引擎进行查询，对数据进行深度探查与挖掘分析，并对查询结果进行下载及可视化；若用户需要将SQL查询沉淀为固定的分析模型并在智能报表分析平台子系统中进行可视化分析展示，则使用自助SQL查询模块的转化功能，对自助SQL查询模块的执行结果的列信息与智能报表存储数据库阿里云ADB对应表的列信息进行映射配置，系统可自动将SQL查询转化为调度系统的执行任务，周期性每日调度，把自助SQL查询模块执行输出的结果导入阿里云ADB供下游可视化分析；

对于数据科学家及其他业务人员等有交互式开发需求的用户，交互式开发模块为每个有交互式开发需求的用户提供相互隔离的服务器数据开发环境，用户可以使用python、R语言，通过编程的方式进行复杂高级的数据分析与处理，并且支持用户本地数据的上传与服务器分析结果数据的下载；

所有用户的数据分析与处理需求都能够通过各类SQL查询实现或通过编程实现，各类SQL查询实现或通过编辑脚本都可以通过调度服务模块的任务进行统一的管理、运行和运维，进而完成可视化智能报表基础数据的建设。

其中，各类SQL查询实现或通过编辑脚本都可以通过调度服务模块的任务进行统一的管理、运行和运维，具体包括如下步骤，

1、调度服务模块的任务管理功能能够让用户以可视化的方式类创建数据处理任务，用户能够通过DAG图的形式来管理组织数据处理任务，进而构建数据处理流程，数据处理任务包含bash、python、hql、spark、hologres、adb、hive2adb多种数据处理任务类型，用户能够随意组合使用，多个数据处理任务以DAG形式组织成一个FLOW，多个FLOW以DAG的形式组织成一个PROJECT，通过三层组织结构来管理数据处理任务，同时用户能够对数据处理任务进行当前版本与历史版本的随意切换；

2、创建完数据处理任务后，调度服务模块能够对任务进行定时调度的配置，对调度生命周期、频率、执行用户、任务执行节点、任务执行需要依赖的任务、任务执行失败重试次数、任务并行执行方式、任务SLA监控报警性进行配置，配置完成后任务会被提交到后台任务执行系统进行周期性调度执行；数仓开发工程师能够通过调度服务模块完成大量数据ETL任务的管理与运维、完成数据仓库ODS、DWD、DIM、DWS、ADS分层建设，完成可视化智能报表基础数据的建设。

其中，后台任务执行系统提供主从架构的分布式调度服务，包含一个master节点，多个worker节点；master节点负责任务调度与分发，管理维护任务调度执行状态，同时对调度资源进行协调管理；worker节点负责任务的执行及任务执行状态的上报，任务以进程的模式运行，调度服务与具体任务执行完全解耦，能够支撑成千上万的任务调度执行，任务调度能力随worker节点的横向扩展实现线性增长。

任务调度运行过程中，会输出任务执行进度日志，用户能够以可视化的方式在调度服务模块中进行查看，同时用户能够对运行中的任务进行kill、pause/resume这样的运维操作，能够对已经失败的任务进行重跑、重试、修改后再重试、标记任务成功的运维操作，能够对历史任务按照时间进行回溯操作。

其中，在智能报表分析平台子系统中通过配置的指标模型和拼接模型对数据库中的数据进行定义具体为，

1、基础指标定义过程中，填写基础指标在数据库中对应的库名、表名，同时选取数据表中相应字段作为基础指标的维度和量度，所有基础信息填写后进行保存操作后实现基础指标的定义。

2、拼接指标定义过程中，勾选想要关联的基础指标，勾选基础指标之间共有的维度作为公共维度，指标量度默认都会作为拼接指标量度；同时通过公式计算器设定多个指标量度之间的计算逻辑，以此来定义衍生计算指标，保存操作后实现拼接指标的定义。

实施例二

本实施例中，在具体实施过程中，需要独立搭建元数据管理子系统、数据采集服务集群、数据加载服务集群、数据开发平台web服务器、jupyterlab服务器、调度服务集群、智能报表分析平台web服务器。以目前系统为例，日数据采集量为3TB，RPS 10W+，使用20台nginx机器做数据分流，80台采集机进行日志采集，10数据加载机器进行数据加载，数据开发平台web服务器、jupyterlab服务器、智能报表分析平台web服务器各一台。

如图2所示，一站式大数据分析处理系统中的数据流转过程为：业务数据库实时落地大量业务日志、游戏服务器会实时生成大量埋点数据，游戏客户端会实时上报大量埋点数据，数据会进行最终聚合进入数据采集服务器集群，数据采集子系统会实时拉取元数据管理子系统生成的数据校验schema文件，根据文件对数据进行清洗、加工、落地埋点数据文件，最终数据文件会通过数据加载机器加载至阿里云EMR系统，数据开发平台子系统依赖阿里云EMR系统进行数据处理，最终将数据输出至阿里云ADB系统，智能报表分析平台子系统以阿里云ADB系统数据为基础进行自助分析及智能化报表展示。

如图3所示，埋点人员需要登录元数据管理子系统进行埋点事件的注册，需要配置事件所属项目、配置事件类型、事件加入通用埋点字段、配置新增事件私有字段，具体可参见附图10。

配置完成以后提交审核，审核通过后，系统会自动生成系统生成schema规则校验文件saki_test.xml。

系统会通过阿里EMR系统完成ODS层project_saki、project_saki.ods_eventsproject_saki.ods_illegals数据库表的创建,project_saki.ods_events包含了saki_test.xml指定的埋点字段，同时系统会自动下发新版的客户端埋点SDK，用户可以通过测试SDK完成埋点测试数据的生成，校验埋点数据是否符合预期。

如图4所示，游戏客户端集成埋点SDK根据schema文件生成埋点数据，游戏服务端集成埋点SDK根据schema文件生成埋点数据，具体数据格式为json结构，通过埋点域名调用埋点api请求，分批次实时发出埋点https请求，经过域名分流、阿里LB分流，请求会到达采集反向代理服务Nginx，在反向代理服务器会进行两层二次分流，主要目的是进行负载均衡，分摊请求压力，最终埋点请求会有后端80台采集器进行处理，80台采集机每台部署一套采集服务，采集服务是有springboot开发的无状态对等应用，每台服务器均会实时调用元数据管理子系统，获取schema校验文件，如saki_test.xml，采集服务会首先采集服务拆解埋点数据，对数据格式进行基础校验，如果数据为非法json格式，会将数据直接以规定日志格式落地为本地非法数据，方便后续的纠错与修复，通过基础校验后，采集服务会根据schema文件进行数据校验，对埋点数据的字段名、数据类型、数据格式进行校验，如果未通过校验，也会以非法数据的形式写入非法埋点数据文件，如果通过校验，采集服务可以通过定制化流程，对数据进行加工，如对数据进行格式、增加一些分析要的特定字段、填充定制化数据等，可以根据需求进行定制，通知还可以对数据进行拆分、复制等高级功能，最终通过校验的数据会落地为合法数据文件，为了方便进行内网传输，对原始数据文件进行了压缩。数据加载服务会实获取埋点数据文件，并进行解压，对解压到的数据根据schema文件并行校验数据合法性，之所以进行二次校验，是因为一些埋点数据文件并不一定来自以上客户端或服务器，也有可能对非采集落地的文件进行加载入库，增强了加载数据的能力，校验通过后，可以对数据进行二次定制化加工，转换，最终转换为jindo入库文件的格式，如果进入其他存储，需要定制开发，在入库之前需要对数据进行压缩，降低存储成本，完成一系列操作后，就可以并行批量写入jindo，写入是可以从schema校验文件获取到库表信息，进而完成ODS层事件数据的加载。

如图5所示，数据开发平台子系统的自助SQL查询模块，用户可以通过编写自定义SQL进行自由灵活的数据探查，定义完SQL以后选择执行引擎，提交查询，SQL自动提价至阿里EMR系统进行运算，可以通过日志模块实时查询SQL运行日志，把握运行进度，运行成功后可以对数据结果进行下载，进行二次分析或分享，平台也只支持对结果的可视化，如果有固化查询模型的需求，可以配置执行结果与阿里ADB表字段映射，校验查询结果转化为调度任务，后期会自动执行，定期输出数据至阿里ADB，具体参见附图11和图12，图11为自助查询，图12为模型配置。

如图6所示，数据开发平台子系统交互式分析模块，用户可以自定义选择开发环境，需要选在python、R、shell、markdown环境之一，以Python为例，用户通过远程方式方便开启服务x器端python开发环境，然后编写python程序进行数据分析，用可以通过pyhive使用阿里EMR系统进行SQL查询，也可以通过上次本地文件，以编程的方式进行数据分析，通过pyhive提交SQL查询后，等待运行完成，可以对结果进行交互式处理，通过程序对结果进行二次加工处理，利用python丰富的数据处理编程包，进行深度数据挖掘与加工，以python交互开发为例进行说明，图13为用户开发环境选择。

如图7所示，数据开发平台子系统的调度服务模块，数据开发任务需要根据业务挖掘数据分析处理需求，编写数据处理SQL，然后包装成数据处理任务，由于一个数据处理流程需要有许多步骤、多种类型处理任务组合而成，故需要以以Project、FLow-DAG的形式组织数据处理任务是，并且多个Flow或Project之间也存在有上下游关系，所以在配置调度flow或Project时，除了调度生命周期、频率、执行用户、任务执行节点等基础配置外，也可以配置flow的调度依赖关系，任务调度配置完成后，任务会被提交到后台按照调度配置进行周期性的执行，进行周期性的数据生产，任务执行的大体流程是master节点对大量任务进行分发，任务分发至worker执行，任务处理完成后，数据进行产出，数据仓数据完成建设，在数仓数据的基础上可以进行最终数据的输出，输出到阿里云ADB，进行可视化数据分析与产出，在整个数据生产过程，会涉及到任务的测试、回溯、重试等运维操作，调度服务均作了实现，极大提高了数据产出效率。

数据开发平台子系统的数据安全模块的具体使用场景为：如图14所示，在用户同意游戏隐私协议的基础上埋点上报的数据中会存在部分个人隐私数据，这部分数据通过加载程序进入数仓后为加密状态，数据分析师、数仓开发人员、业务人员需要读取用户隐私数据进行分析时，需要有相应隐私数据权限，权限申请过程需要被全程记录，便于后期审计。数据安全模块提供了申请用户个人隐私数据读取权限申请、权限审批流程的保证、审批通过后权限的下发、历史审批记录的展示的管理功能，有效保证了用户隐私数据的安全。

本实施例中，智能报表分析平台子系统的整体模块架构如图8所示。首先配置智能报表，如图9所示，智能报表分析平台子系统根据AnalyticDB中的数据信息创建基础指标，需要对基础指标之间的数据进行关联时可在拼接模型页面中，通过拖拽的方式将需要关联的指标进行组合，并勾选出需要作为拼接模型维度的共有维度。也可以直接将调度系统的SQL查询结果作为模型。指标建模完成后，新建一张报表，选择需要展示的图表类型拖拽到报表空白处，在图表编辑页面对需作为展示图表维度的指标维度拖拽到维度栏中，对需要进行聚合的指标量度选项拖拽到维度栏中，并选择聚合类型，需作为过滤器的指标维度拖拽到过滤器栏中，点击刷新就可获得展示结果。保存图表报表后，将报表授权给目标用户，保存后被授权的用户就可以看到该报表中的数据。用户在刷新报表数据时，智能报表分析平台子系统会根据用户配置的图表信息(维度、量度、过滤器)生成AnalyticDB SQL，将AnalyticDB SQL提交到AnalyticDB集群，获取到结果后对数据进行二次加工，返回给前端页面按照具体的图表类型格式进行渲染。需要对事件数据进行实时分析时，我们配置自助分析报表，首选选择分析类型(事件分析、分布分析、留存分析、漏斗分析、间隔分析)，通过拖拽的方式选取需要关心的指标，通过下拉选择的方式配置过滤器条件，点击计算即可获得分析结果。用户在点击计算后，智能报表分析平台会根据用户的配置生成Hologres SQL，然后提交到Hologres集群，等待数据返回后进行二次加工，然后返回给前端页面进行渲染。自助分析的结果同样可以保存成报表，方便以后查看。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

本发明提供了一种一站式大数据分析处理系统，系统支持每日5TB+数据量，上千亿级数据记录采集、校验、深度加工、装载，支持峰值20W+RPS量级埋点请求访问量，并且随数据采集、处理量的不断增长，采集系统集群可实现动态横向扩展，保证采集处理数据能力线性增长。系统提供从数据采集、加载、处理元数据统一管理的能力，支持埋点数据的预发布与测试能力，埋点数据质量得到有效保证，同时极大提升埋点数据处理效率，目前已支持近万张表的元数据管理，单表字段数据可实现无限扩展。系统支持在客户端埋点、数据采集、数据加载三个阶段进行自动化、性能近0损耗的数据格式校验，保证了源数据的干净整洁，减轻后续数据清洗的压力，目前支持每日5TB+数据量数据校验。系统支持数据采集、加载过程的定制化功能开发，可在更靠近数据源的地方进行定制化功能的实现，满足多样化数据预处理需求。系统支持用户自助化、交互式进行数据探索，挖掘数据价值，方便在数据开发过程中测试代码的实际情况与期望是否相符、排查代码错误，极大提升用户数据生产效率，解放分析数据生产力。系统支持对PB+级数据进行一站式数据开发、数据运维、数据管理，极大降低了数据开发运维成本，提升了数据分析效率。系统支持PB+级数据处理任务7*24小时稳定健康运行，目前系统每日有1W+数据分析任务在持续调度运行，数据分析任务调度能力同样可进行横向线性扩展。系统具有极高的易用性，用户能够通过拖拽的方式轻松地进行数据分析和配置报表。用户还可以通过选择过滤器选项直接修改图表参数得到期望结果。该系统还提供如饼图、折线图、柱状图等数十种图表类型，配置出的报表生动直观，能够覆盖到用户所有的使用场景。智能报表分析系统提供灵活的指标建模能力，能够基于基础指标配制出拼接指标，将彼此有业务关联的数据进行灵活组织，方便报表配置。同时还提供实时的数据分析能力，可以基于自助分析模块进行数据实时分析，并可以多种数据展示形式呈现给用户，数据分析结果清晰直接。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种一站式大数据分析处理系统，其特征在于：包括，

数据采集子系统，包括

数据开发子平台子系统，包括

2.根据权利要求1所述的一站式大数据分析处理系统，其特征在于：所述数据采集子系统还包括负载均衡集群Nginx，所述负载均衡集群Nginx用于将流量负载均衡至数据采集服务集群。

3.根据权利要求2所述的一站式大数据分析处理系统，其特征在于：指标管理单元中形成拼接指标的过程中，将指标底层表通过join的方式进行关联，指标间共有的维度作为拼接指标的维度，每个基础指标的量度都作为拼接指标的量度；同时，还能够对多个基础指标的量度通过公式计算器定义计算逻辑，并将二次计算的结果作为拼接指标的衍生计算量度。

4.根据权利要求3所述的一站式大数据分析处理系统，其特征在于：所述智能报表模块还包括数据报警单元，所述数据报警单元能够基于图标和业务需求选择进行报警的维度和量度，当业务数据出现异常值时发送报警通知。

5.根据权利要求4所述的一站式大数据分析处理系统，其特征在于：系统的数据处理流程具体包括如下步骤，

6.根据权利要求5所述的一站式大数据分析处理系统，其特征在于：步骤S2中的二次加工为，根据定制化程序进行字段的二次填充或处理，对数据进行整理，输出等量大小的符合阿里EMR系统的最优文件块，然后对埋点数据文件进行并行压缩处理。

7.根据权利要求5所述的一站式大数据分析处理系统，其特征在于：步骤S3中，若用户需要将SQL查询沉淀为固定的分析模型并在智能报表分析平台子系统中进行可视化分析展示，则使用自助SQL查询模块的转化功能，对自助SQL查询模块的执行结果的列信息与智能报表存储数据库阿里云ADB对应表的列信息进行映射配置，系统可自动将SQL查询转化为调度系统的执行任务，周期性每日调度，把自助SQL查询模块执行输出的结果导入阿里云ADB供下游可视化分析。

8.根据权利要求5所述的一站式大数据分析处理系统，其特征在于：步骤S3中，各类SQL查询实现或通过编辑脚本都可以通过调度服务模块的任务进行统一的管理、运行和运维，具体包括如下内容，

9.根据权利要求8所述的一站式大数据分析处理系统，其特征在于：所述后台任务执行系统提供主从架构的分布式调度服务，包含一个master节点，多个worker节点；master节点负责任务调度与分发，管理维护任务调度执行状态，同时对调度资源进行协调管理；worker节点负责任务的执行及任务执行状态的上报，任务以进程的模式运行，调度服务与具体任务执行完全解耦，能够支撑成千上万的任务调度执行，任务调度能力随worker节点的横向扩展实现线性增长；

10.根据权利要求5所述的一站式大数据分析处理系统，其特征在于：步骤S4中，在智能报表分析平台子系统中通过配置的指标模型和拼接模型对数据库中的数据进行定义具体为，