CN107491544A

CN107491544A - 一种增强非关系型数据库分析能力的数据处理平台

Info

Publication number: CN107491544A
Application number: CN201710740667.9A
Authority: CN
Inventors: 杨锐
Original assignee: Shanghai Tak Billiton Information Technology Ltd By Share Ltd
Current assignee: Shanghai Tak Billiton Information Technology Ltd By Share Ltd
Priority date: 2017-08-25
Filing date: 2017-08-25
Publication date: 2017-12-19
Anticipated expiration: 2037-08-25
Also published as: CN107491544B

Abstract

本发明提供一种增强非关系型数据库分析能力的数据处理平台，包括：非关系型数据库集群，所述非关系型数据库集群连接于数据分析服务模块、应用服务层，所述非关系型数据库集群与数据分析服务模块之间依次设有数据连接服务模块、Spark分布式计算集群、数据缓存服务模块、数据处理服务模块，数据连接服务模块提供对待查数据进行连接操作，进而，将初步处理后的待分析数据推送到数据缓存服务模块，之后，数据处理服务模块对待查询数据进行进一步的定向优化处理，然后，数据分析服务模块接收最终的数据进行查询分析。本发明可以让应用层无需对find方法或Query DSL查询语法熟练掌握，仅需使用标准SQL查询语法就能轻松的享受到完整的分析查询体验。

Description

一种增强非关系型数据库分析能力的数据处理平台

技术领域

本发明涉及数据处理和分析计算服务技术领域，具体为一种增强非关系型数据库分析能力的数据处理平台。

背景技术

随着信息科学的不断发展，数据进入了海量倍增时代，是否能对海量数据进行快速处理和分析，逐渐成为部署数据处理分析服务的重要考量依据。而另一方面，在数据处理分析方面兼容性的不足也逐渐成为众多非关系型数据库在内的新兴数据处理服务亟待解决的问题。

依托于生产中的不断发展，包括Oracle，PostgreSQL以及MySQL等等在内的传统关系型数据库支持着高度完备的查询语法以及良好的处理效率，同时在数据处理领域中有着广泛的范式依据和事务性支持。这使得传统数据库即使在性能为先的技术领域中依然有着不可替代的地位。

而新兴的非关系型分布式数据处理系统，例如分布式文件存储数据库MongoDB，分布式搜索分析引擎Elasticsearch。利用自身集群分布式计算资源，能够在处理海量数据情况的场景中，达到近实时的查询性能，相比传统数据库有着不错的性能提升。得益于扁平设计，上述的非关系数据库的数据索引和搜索都能快速而无锁，但与此同时也存在着处理和查询语法兼容性较差的问题，这往往成为该系列引擎在生产应用中的使用瓶颈之一。比如对于涉及多表联查的查询语法，非关系型数据库可能直接不兼容或仅支持“类”级联查询。往往想要实现类似的查询效果，需要应用层进行额外的业务处理，同时也大大增加了数据查询和处理分析的复杂度。除此之外，用户还不得不面临额外的性能损失和开销。由此可见，对于包括MongoDB在内的一些分布式分析计算服务而言，如何在降低使用门槛的同时提升自身对查询语法的兼容性，正逐渐成为当前亟待解决的问题。

发明内容

本发明所解决的技术问题在于提供一种增强非关系型数据库分析能力的数据处理平台，能够使得原有的非关系型数据库获得接近标准的SQL查询语法兼容性，在不影响分析性能的情况下，极大拓展了原有引擎的查询维度，同时也降低了开发和使用门槛，优化了业务流程，大大提升了应用层使用体验，以解决上述背景技术中的问题。

本发明所解决的技术问题采用以下技术方案来实现：一种增强非关系型数据库分析能力的数据处理平台，包括：非关系型数据库集群，所述非关系型数据库集群连接于数据分析服务模块、应用服务层，所述非关系型数据库集群使用find方法或Query DSL语法连接通讯应用服务层，数据分析服务模块分析结果返回非关系型数据库集群，所述非关系型数据库集群与数据分析服务模块之间依次设有数据连接服务模块、Spark分布式计算集群、数据缓存服务模块、数据处理服务模块，数据连接服务模块提供对待查数据进行连接操作，进而，将初步处理后的待分析数据推送到数据缓存服务模块，之后，数据处理服务模块对待查询数据进行进一步的定向优化处理，然后，数据分析服务模块接收最终的数据进行查询分析，依托于服务内的Spark集群提供稳定可靠的服务。

所述数据连接服务模块针对不同的数据类型进行指定的兼容，可根据业务需求对数据类型进行针对性处理，经过该模块的处理后，MongoDB中的collection或者Elasticsearch中index/type，以及其对应的详细数据结构和数据类型都能得到特定的应对。

所述数据缓存服务模块针对应用层请求场景的不同，提供了两种不同的数据缓存方式，具体对应数据缓存模块提供的两种对原始表数据的处理手段：包括连接式和缓存式；

连接式，只对原始表中的表名、表结构和数据类型的获取，并且仅将该部分描述数据的结构进行记录，由于并不涉及对原始表真实数据的缓存处理，所以不会造成分析系统额外的内存占用，这种方式适用于集群内存资源不充裕或不想产生额外资源开销的场景；

缓存式，即通过内存或硬盘存储对原始表中真实数据进行缓存处理，具体而言，需要将原始表中的所有数据，以弹性分布式数据集(RDD，Resilient Distributed Datasets)的形式存储至内存中，通过RDD的方式完成后续模块的所有操作，将原始表数据以RDD的形式存储，虽然造成了额外的内存占用，但借助高效的内存以及优化的LRU算法，后续的查询分析性能也会大大提升，适用于追求性能并且内存资源充足的场景。

所述数据处理服务模块首先包括对弹性分布式数据集引入parquet列存储优化，缩减了存储空间的同时优化了查询性能，同时监控集群多节点资源情况，动态分配适宜的内存数据占比，并提供对缓存数据的动态监控与预警功能模块，通过数据处理服务模块，用户层能动态监控到原始数据在本平台内的处理流程。

所述数据分析服务模块依托SparkSQL模块高度兼容的SQL查询语法对数据进行查询分析，而不是使用MongoDB find方法或者ElasticsearchQueryDSL语法，弱化了对查询语法的需求，同时解决了旧框架尚未支持的查询操作，从而使得上述非关系型数据库获得与传统关系型数据库近似的高度语法兼容性，在不影响性能的情况下，延伸了旧架构的查询广度和深度；此外，数据分析服务模块对数据分析结果提供了多样的导出方式其包括直接应用层导出或存储至其他数据库。

与已公开技术相比，本发明存在以下优点：

本发明可以彻底解决以往非关系型数据库对标准SQL查询语法兼容性较差的问题。在之前的分析查询中，使用者的语法广度受限，并不能获得完整的查询兼容性支持(例如无法进行含有多表级联的分析查询)，需要根据业务逻辑对源数据进行额外处理，将数据处理在单表后再进行查询分析。本平台将直接替代该环节，获取完整标准查询语法支持的同时，大大优化了业务流程并且减少了使用成本。

本发明可以让应用层无需对find方法或Query DSL查询语法熟练掌握，仅需使用标准SQL查询语法就能轻松的享受到完整的分析查询体验；本发明的实际资源使用可以依据用户不同的场景需求做出改变，通过提供的两种数据缓存方式，用户可自行选择是否采取内存缓存的方式来提升平台的分析性能；Spark集群服务对于应用层完全透明的同时，原始数据在平台内的一切连接、兼容、优化的流程都可以动态反馈给应用层，提供实时的监控和预警。

附图说明

图1为本发明的架构原理图。

图2为本发明的数据连接服务模块数据流程图。

图3为本发明的数据缓存服务模块数据流程图。

图4为本发明的数据处理服务模块数据流程图。

具体实施方式

为了使本发明的技术手段、创作特征、工作流程、使用方法达成目的与功效易于明白了解，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-4所示，一种增强非关系型数据库分析能力的数据处理平台，包括：非关系型数据库集群，所述非关系型数据库集群连接于数据分析服务模块、应用服务层，所述非关系型数据库集群使用find方法或Query DSL语法连接通讯应用服务层，数据分析服务模块分析结果返回非关系型数据库集群，所述非关系型数据库集群与数据分析服务模块之间依次设有数据连接服务模块、Spark分布式计算集群、数据缓存服务模块、数据处理服务模块，数据连接服务模块提供对待查数据进行连接操作，进而，将初步处理后的待分析数据推送到数据缓存服务模块，之后，数据处理服务模块对待查询数据进行进一步的定向优化处理，然后，数据分析服务模块接收最终的数据进行查询分析，依托于服务内的Spark集群提供稳定可靠的服务；

应用层用户通过接口提供的SQL标准查询语法，能够解决旧集群不能进行join查询等问题。同时应用层在查询使用过程中，Spark计算服务可以对与应用层完全透明。应用层不需要掌握find方法或者QueryDSL语法，只需使用常规的SQL查询，就可简单完成对数据的分析处理，获得更完整的查询体验，同时也不会对性能造成影响；本发明经过对非关系型数据库原始数据的一系列处理转化，最终向用户层稳定提供完成的SQL查询服务以及良好的数据实时监控，使得非关系型数据库的分析能力得到增强。

具体的，所述数据连接服务模块针对不同的数据类型进行指定的兼容，可根据业务需求对数据类型进行针对性处理，例如：对字段类型的处理转化、对源数据的扩充和删减，经过该模块的处理后，MongoDB中的collection或者Elasticsearch中index/type，以及其对应的详细数据结构和数据类型都能得到特定的应对。

具体的，所述数据缓存服务模块针对应用层请求场景的不同，提供了两种不同的数据缓存方式，具体对应数据缓存模块提供的两种对原始表数据的处理手段：包括连接式和缓存式；

具体的，所述数据处理服务模块首先包括对弹性分布式数据集引入parquet列存储优化，缩减了存储空间的同时优化了查询性能，同时监控集群多节点资源情况，动态分配适宜的内存数据占比，并提供对缓存数据的动态监控与预警功能模块，通过数据处理服务模块，用户层能动态监控到原始数据在本平台内的处理流程。

具体的，所述数据分析服务模块依托SparkSQL模块高度兼容的SQL查询语法对数据进行查询分析，而不是使用MongoDB find方法或者ElasticsearchQueryDSL语法，弱化了对查询语法的需求，同时解决了旧框架尚未支持的查询操作，从而使得上述非关系型数据库获得与传统关系型数据库近似的高度语法兼容性，在不影响性能的情况下，延伸了旧架构的查询广度和深度；此外，数据分析服务模块对数据分析结果提供了多样的导出方式其包括直接应用层导出或存储至其他数据库。

本发明向上，可通过接口与其他应用层应用完成数据分析的交互动作；向下，将应用层的查询请求依托Spark集群分析转化，并能够针对原有的非关系型数据库集群进行查询分析。在使用过程中，Spark计算服务层对应用层完全透明。应用层请求可以不掌握find方法或者QueryDSL语法的情况下，通过标准SQL即可完成标准SQL查询，获得更完整的查询体验，同时也不会对性能造成影响。

以上显示和描述了本发明的基本原理、主要特征及本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明的要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种增强非关系型数据库分析能力的数据处理平台，包括：非关系型数据库集群，所述非关系型数据库集群连接于数据分析服务模块、应用服务层，所述非关系型数据库集群使用find方法或Query DSL语法连接通讯应用服务层，数据分析服务模块分析结果返回非关系型数据库集群，其特征在于：所述非关系型数据库集群与数据分析服务模块之间依次设有数据连接服务模块、Spark分布式计算集群、数据缓存服务模块、数据处理服务模块，数据连接服务模块提供对待查数据进行连接操作，进而，将初步处理后的待分析数据推送到数据缓存服务模块，之后，数据处理服务模块对待查询数据进行进一步的定向优化处理，然后，数据分析服务模块接收最终的数据进行查询分析，依托于服务内的Spark集群提供稳定可靠的服务。

2.根据权利要求1所述的一种增强非关系型数据库分析能力的数据处理平台，其特征在于：所述数据连接服务模块针对不同的数据类型进行指定的兼容，可根据业务需求对数据类型进行针对性处理，经过该模块的处理后，MongoDB中的collection或者Elasticsearch中index/type，以及其对应的详细数据结构和数据类型都能得到特定的应对。

3.根据权利要求1所述的一种增强非关系型数据库分析能力的数据处理平台，其特征在于：所述数据缓存服务模块针对应用层请求场景的不同，提供了两种不同的数据缓存方式，具体对应数据缓存模块提供的两种对原始表数据的处理手段：包括连接式和缓存式；

4.根据权利要求1所述的一种增强非关系型数据库分析能力的数据处理平台，其特征在于：所述数据处理服务模块首先包括对弹性分布式数据集引入parquet列存储优化，缩减了存储空间的同时优化了查询性能，同时监控集群多节点资源情况，动态分配适宜的内存数据占比，并提供对缓存数据的动态监控与预警功能模块，通过数据处理服务模块，用户层能动态监控到原始数据在本平台内的处理流程。

5.根据权利要求1所述的一种增强非关系型数据库分析能力的数据处理平台，其特征在于：所述数据分析服务模块依托SparkSQL模块高度兼容的SQL查询语法对数据进行查询分析，而不是使用MongoDB find方法或者ElasticsearchQueryDSL语法，弱化了对查询语法的需求，同时解决了旧框架尚未支持的查询操作，从而使得上述非关系型数据库获得与传统关系型数据库近似的高度语法兼容性，在不影响性能的情况下，延伸了旧架构的查询广度和深度；此外，数据分析服务模块对数据分析结果提供了多样的导出方式其包括直接应用层导出或存储至其他数据库。