CN112181965A

CN112181965A - 一种基于mysql大数据清洗系统及其写入瓶颈的方法

Info

Publication number: CN112181965A
Application number: CN202011050133.1A
Authority: CN
Inventors: 任毅
Original assignee: Chengdu Shangtong Digital Technology Co ltd
Current assignee: Sichuan Business Easy Co ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2021-01-05

Abstract

本发明公开了一种基于MYSQL大数据清洗系统及其写入瓶颈的方法，包括：基于MYSQL的Web应用服务器，Web应用服务器通过DispatcherServlet分配为多个一级分布式Kafka数据分片，多个所述一级分布式Kafka数据分片内分配多个分页清洗Job，多个所述分页清洗Job内有进行批量更新与插入的二级分布式Kafka数据分片；其中，DispatcherServlet内有将分散在各个Kafka中的相同数据切割的AOP,将一级分布式Kafka数据分片的数据横向切割到独立的Kafka数据分片中；个分页清洗Job对一级分布式Kafka数据进行批量更新与插入清洗，根据清洗数据的大小分配至分页清洗Job的二级分布式Kafka数据分片中。基于MYSQL的Web应用服务器以分级的形式进行分级优化，并且每个阶级同步进行独立对清洗数据、数据插入的方式进行瓶颈优化，快速的进行完成优化。

Description

一种基于MYSQL大数据清洗系统及其写入瓶颈的方法

技术领域

本发明涉及大数据技术领域，具体是一种基于MYSQL大数据清洗系统及其写入瓶颈的方法。

背景技术

MySQL是一个关系型数据库管理系统，由瑞典MySQL AB公司开发，目前属于Oracle旗下产品。MySQL是最流行的关系型数据库管理系统(RDBMS)之一，MySQL使用的核心线程是完全多线程，支持多处理器。

今年来，随着互联网技术的不断发展，企业应用应用系统所产生的数据呈爆炸性增长，大数据如浪潮般席卷全球，深刻改变了人们的生活、工作和思维方式，我们所指的大数据不同与过去传统的数据，其产生方式、存储载体、访问方式、表现形式、来源特点等都同传统数据不同。大数据更接近于某个群体行为数据，它是全面的数据、准确的数据、有价值的数据。大数据已经成了当今社会企业管理的模式。

在数据产生和挖掘的过程中，数据量呈大幅度增长。在增长的过程中，数据量的叠加造成了大量数据重复，存在许多垃圾数据或无用数据。大数据在叠加的过程中容易出现瓶颈，因此，需要根据不同业务方向和类型，从现有的大数据量中清洗出对应的数据。

但是在目前在对叠加的大数据瓶颈优化时，原始方案不仅等待的时间长有时候甚至耗时几天。

发明内容

本发明的目的在于提供一种基于MYSQL大数据清洗系统及其写入瓶颈的方法，以解决目前在对叠加的大数据瓶颈优化时，原始方案不仅等待的时间长有时候甚至耗时几天的问题。

为实现上述目的，本发明提供如下技术方案：一种基于MYSQL大数据清洗系统，包括：

基于MYSQL的Web应用服务器，Web应用服务器通过DispatcherServlet分配为多个一级分布式Kafka数据分片，多个所述一级分布式Kafka数据分片内分配多个分页清洗Job，多个所述分页清洗Job内有进行批量更新与插入的二级分布式Kafka数据分片，并且通过一级分布式Kafka数据分片与二级分布式Kafka数据分片为母片进行分割N个子分布式Kafka数据分片；

其中，DispatcherServlet内有将分散在各个Kafka中的相同数据切割的AOP,将一级分布式Kafka数据分片的数据横向切割到独立的Kafka数据分片中；

个分页清洗Job对一级分布式Kafka数据进行批量更新与插入清洗，根据清洗数据的大小分配至分页清洗Job的二级分布式Kafka数据分片中；

在于MYSQL的Web应用服务器中增加数据时，一级分布式Kafka数据分片与二级分布式Kafka数据分片同步通过分页清洗Job将之前数据分页批量更新与插，并同步通过AOP进行切割。

通过上述技术方案：将基于MYSQL的Web应用服务器以分级的形式进行分级优化，并且每个阶级同步进行独立对清洗数据、数据插入的方式进行瓶颈优化，进而可快速的进行完成优化。

作为本发明再进一步的方案：二级分布式Kafka数同步设置有数据切割的AOP，当MYSQL的Web应用服务器中数据持续增加时，二级分布式Kafka内的AOP会进行二次切割数据分配至单独的Kafka数据分片中。

通过上述技术方案：通过二级分布式Kafka内的AOP会进行二次切割数据分配，进而增加了数据叠加优化空间。

作为本发明再进一步的方案：一级分布式Kafka数据分片与二级分布式Kafka数据分片内设置有批量数据转化反馈单片，批量数据转化反馈单片。

通过上述技术方案：通过批量数据转化反馈单片鸡儿增加了数据的查看。

作为本发明再进一步的方案：批量数据转化反馈单片可将表格、图片、文字及数据中的一种或多种进行批量数据转化。

通过上述技术方案：批量数据转化反馈单片以表格、图片、文字及数据进行反馈，进而起到有序的反馈。

作为本发明再进一步的方案：该系统还包括格式化单片，格式化单片与多个分页清洗Job数据化连接，用于对在清洗一级分布式Kafka数据分片时存在相同的数据，通过格式化单片进行将相同的数据格式化。

通过上述技术方案：格式化单片内设解析重复数据单片，解析重复数据单片可解析相同表格、图片、文字及数据，通过格式化单片进而增加了空间。

作为本发明再进一步的方案：格式化单片内设解析重复数据单片，解析重复数据单片可解析相同表格、图片、文字及数据。

通过上述技术方案：进而防止数据混乱。

作为本发明再进一步的方案：该系统还包括监控模块，分别对一级分布式Kafka数据分片与二级分布式Kafka数据分片清洗时进行监控，并将监控的实时数据通过批量数据转化反馈单片反馈至下一级Kafka数据分片。

通过上述技术方案：通过监控模块有效的实施监控数据，防止数据优化混乱。

作为本发明再进一步的方案：一种基于MYSQL大数据清洗写入瓶颈的方法，

S1、基于MYSQL的Web应用服务器的数据增加时，首先通过DispatcherServlet分配为多个一级分布式Kafka数据分片；

S2、在数据持续增加到第一瓶颈时，通过每个一级分布式Kafka数据分片中的分页清洗Job进行对每个一级分布式Kafka数据分片进行清洗，并将清洗后的数据批量更新与插入二级分布式Kafka数据分片；

其中，通过分页清洗Job清洗时，可通过格式化单片对相同数据进行格式化；

S3、在数据增加到第二瓶颈时，在基于S2上进行对二级分布式Kafka数据分片依次清洗。

与现有技术相比，本发明的有益效果是：

在大数据的叠加下，基于MYSQL的Web应用服务器很容易到达瓶颈，因此需要不断的对大数据叠加进行优化，将基于MYSQL的Web应用服务器以分级的形式进行分级优化，并且每个阶级同步进行独立对清洗数据、数据插入的方式进行瓶颈优化，进而可快速的进行完成优化。

附图说明

图1为实施例一种基于MYSQL大数据清洗系统及其写入瓶颈的方法的流程示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行说明、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一、

请参阅图1，本发明实施例中，一种基于MYSQL大数据清洗系统，包括：基于MYSQL的Web应用服务器，Web应用服务器通过DispatcherServlet分配为多个一级分布式Kafka数据分片，多个所述一级分布式Kafka数据分片内分配多个分页清洗Job，多个所述分页清洗Job内有进行批量更新与插入的二级分布式Kafka数据分片，并且通过一级分布式Kafka数据分片与二级分布式Kafka数据分片为母片进行分割N个子分布式Kafka数据分片。

其中，DispatcherServlet内有将分散在各个Kafka中的相同数据切割的AOP,将一级分布式Kafka数据分片的数据横向切割到独立的Kafka数据分片中。

在对基于MYSQL的Web应用服务器的数据进行优化时，存在数据分散，并通过AOP进行对数据横向切割到独立的Kafka数据分片中，进而在分级的同时，可多进行切割独立的Kafka数据分片，进而增大了数据叠加的空间，进而节省了优化时间。

多个分页清洗Job对一级分布式Kafka数据进行批量更新与插入清洗，根据清洗数据的大小分配至分页清洗Job的二级分布式Kafka数据分片中。

其中，多个分页清洗Job进行对一级分布式Kafka数据进行批量更新与插入清洗时，可进行批量清洗，同时可以逐条清洗。

其中，DispatcherServlet是Spring MVC的前端Servlet，用于接收客户端的数据，并进行分配为多个一级分布式Kafka数据分片。

二级分布式Kafka数同步设置有数据切割的AOP，当MYSQL的Web应用服务器中数据持续增加时，二级分布式Kafka内的AOP会进行二次切割数据分配至单独的Kafka数据分片中。

实施例二、

请参阅图1，一种基于MYSQL大数据清洗系统，包括：基于MYSQL的Web应用服务器，Web应用服务器通过DispatcherServlet分配为多个一级分布式Kafka数据分片，多个所述一级分布式Kafka数据分片内分配多个分页清洗Job，多个所述分页清洗Job内有进行批量更新与插入的二级分布式Kafka数据分片，并且通过一级分布式Kafka数据分片与二级分布式Kafka数据分片为母片进行分割N个子分布式Kafka数据分片。

个分页清洗Job对一级分布式Kafka数据进行批量更新与插入清洗，根据清洗数据的大小分配至分页清洗Job的二级分布式Kafka数据分片中。

一级分布式Kafka数据分片与二级分布式Kafka数据分片内设置有批量数据转化反馈单片，批量数据转化反馈单片。

批量数据转化反馈单片可将表格、图片、文字及数据中的一种或多种进行批量数据转化。

在本实施例中，在每一级通过批量数据转化反馈单片可对其数据进行批量的转化，并将转化后的数据反馈至Kafka，其中，批量数据转化反馈单片是由多个单元队列分布，对应表格、图片、文字及数据，并且是以相对应的单元队列反馈至Kafka中。

该系统还包括格式化单片，格式化单片与多个分页清洗Job数据化连接，用于对在清洗一级分布式Kafka数据分片时存在相同的数据，通过格式化单片进行将相同的数据格式化。

格式化单片内设解析重复数据单片，解析重复数据单片可解析相同表格、图片、文字及数据，通过格式化单片进而增加了空间。

该系统还包括监控模块，分别对一级分布式Kafka数据分片与二级分布式Kafka数据分片清洗时进行监控，并将监控的实时数据通过批量数据转化反馈单片反馈至下一级Kafka数据分片。

实施例三、

结合实施例一与实施例二，如图1，基于MYSQL的Web应用服务器，Web应用服务器通过DispatcherServlet分配为多个一级分布式Kafka数据分片，多个所述一级分布式Kafka数据分片内分配多个分页清洗Job，多个所述分页清洗Job内有进行批量更新与插入的二级分布式Kafka数据分片，并且通过一级分布式Kafka数据分片与二级分布式Kafka数据分片为母片进行分割N个子分布式Kafka数据分片。

格式化单片内设解析重复数据单片，解析重复数据单片可解析相同表格、图片、文字及数据。

与实施例一与实施例二的不同之处在于：一种基于MYSQL大数据清洗写入瓶颈的方法，

综上，在大数据的叠加下，基于MYSQL的Web应用服务器很容易到达瓶颈，因此需要不断的对大数据叠加进行优化，将基于MYSQL的Web应用服务器以分级的形式进行分级优化，并且每个阶级同步进行独立对清洗数据、数据插入的方式进行瓶颈优化，进而可快速的进行完成优化。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明专利。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于MYSQL大数据清洗系统，其特征在于，包括：

2.根据权利要求1所述的一种基于MYSQL大数据清洗系统，其特征在于，二级分布式Kafka数同步设置有数据切割的AOP，当MYSQL的Web应用服务器中数据持续增加时，二级分布式Kafka内的AOP会进行二次切割数据分配至单独的Kafka数据分片中。

3.根据权利要求1所述的一种基于MYSQL大数据清洗系统，其特征在于，一级分布式Kafka数据分片与二级分布式Kafka数据分片内设置有批量数据转化反馈单片，批量数据转化反馈单片。

4.根据权利要求3所述的一种基于MYSQL大数据清洗系统，其特征在于，批量数据转化反馈单片可将表格、图片、文字及数据中的一种或多种进行批量数据转化。

5.根据权利要求1所述的一种基于MYSQL大数据清洗系统，其特征在于，该系统还包括格式化单片，格式化单片与多个分页清洗Job数据化连接，用于对在清洗一级分布式Kafka数据分片时存在相同的数据，通过格式化单片进行将相同的数据格式化。

6.根据权利要求6所述的一种基于MYSQL大数据清洗系统，其特征在于，格式化单片内设解析重复数据单片，解析重复数据单片可解析相同表格、图片、文字及数据。

7.根据权利要求3所述的一种基于MYSQL大数据清洗系统，其特征在于，该系统还包括监控模块，分别对一级分布式Kafka数据分片与二级分布式Kafka数据分片清洗时进行监控，并将监控的实时数据通过批量数据转化反馈单片反馈至下一级Kafka数据分片。

8.根据权利要求1-6中任选一项所述的一种基于MYSQL大数据清洗写入瓶颈的方法，其特征在于，