CN116975116A

CN116975116A - 一种大数据分析系统的数据条件筛选方法

Info

Publication number: CN116975116A
Application number: CN202310958725.0A
Authority: CN
Inventors: 谈超洪; 周飞; 彭新永; 陈吉宁; 李森; 潘华; 黄滟; 唐辉辉; 韦冬; 冯大钊
Original assignee: Guangxi Beitou Xinchuang Technology Investment Group Co ltd
Current assignee: Guangxi Beitou Xinchuang Technology Investment Group Co ltd
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2023-10-31

Abstract

本发明提供一种大数据分析系统的数据条件筛选方法，涉及数据库数据筛选技术领域。该大数据分析系统的数据条件筛选方法，包括以下步骤：S1.数据获取、S2.数据预处理、S3.定制筛选条件、S4.数据查询、S5.数据过滤、S6.数据聚合和分析。本发明的大数据分析系统的数据条件筛选方法基于SQL重写的数据过滤技术，可以充分利用数据库系统的优化器和执行引擎来优化查询计划，从而提高查询性能并减少资源消耗，数据过滤技术能够过滤部分信息数据而得到特定的数据，使其满足不同场景下不同实际业务的需求，且可以同时处理大规模数据集上的数据条件筛选操作，实现数据分析的高效性和实时性，并提供准确和可靠的数据分析结果，极大地提高了开发效率和代码的可靠性。

Description

一种大数据分析系统的数据条件筛选方法

技术领域

本发明涉及数据库数据筛选技术领域，具体为一种大数据分析系统的数据条件筛选方法。

背景技术

随着大数据时代的到来，数据的价值越来越受到重视，随着大数据的快速增长，数据分析系统需要能够高效地从海量数据中筛选出符合特定条件的数据，以支持决策和洞察，然而，在庞大的数据海洋中，如何快速、准确地找到有用的信息成为了一个急需解决的问题，数据筛选作为数据处理的重要环节，是实现数据价值挖掘的关键步骤之一；

结构化查询语言(StructuredQueryLanguage)简称SQL，是一种特殊目的的编程语言，是一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理关系数据库系统，SQL重写是优化SQL查询性能的一种常用技术。在数据过滤方面，SQL重写可以帮助优化查询条件，提高查询效率和准确性。

然而多数系统在实际操作中会以简单硬编码的方式实现数据过滤，常用的数据过滤方式是按组织进行隔离，即在每个业务表增加一个组织ID字段，查询时都需要加上该字段予以过滤，如果对有其他业务的数据隔离要求时，则只能变更设计和代码。没有通用的数据过滤模块，不同业务场景不同业务属性都要特定的数据过滤处理，无法灵活扩展，提高功能模块的接口的复杂性和冗余度。

因此，本领域技术人员提供了一种大数据分析系统的数据条件筛选方法，以解决上述背景技术中提出的问题。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种大数据分析系统的数据条件筛选方法，本发明的大数据分析系统的数据条件筛选方法基于SQL重写的数据过滤技术，可以充分利用数据库系统的优化器和执行引擎来优化查询计划，从而提高查询性能并减少资源消耗，极大地提高了开发效率和代码的可靠性，降低了具体业务实现的复杂度。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种大数据分析系统的数据条件筛选方法，包括以下步骤：

S1.数据获取

从数据源中获取原始数据，主要采用爬虫、API接口多种方式获得数据，数据源如数据库、数据仓库以及日志文件；

S2.数据预处理

将获取到的原始数据进行清洗、去重和格式标准化，具体包括去除重复数据、缺失值填充、异常值处理以及字段转换；

S3.定制筛选条件

根据具体分析任务和需求，指定符合条件的筛选规则，条件可以基于数据的属性、数值范围、时间戳和文本关键词的条件表达式；

S4.数据查询

使用合适的查询工具或查询语言，根据制定的条件进行数据查询，查询语句将包含数据表现或数据集的名称，以及用于筛选条件的关键字和运算符；

S5.数据过滤

通过SQL重写的数据过滤技术对暂不关心的数据进行过滤，从而完成筛选；

S6.数据聚合和分析

对筛选后的数据结果进行聚合和分析，生成相应的数据报告、统计信息或可视化图表；

通过上述技术方案，可在海量数据中筛选某种符合特定条件的数据，过滤暂不关心的数据，数据过滤技术恰好能够满足这种筛选要求，实际开发中，数据过滤技术能够过滤部分信息数据而得到特定的数据，使其满足不同场景下不同实际业务的需求，极大地提高了开发效率和代码的可靠性，降低了具体业务实现的复杂度。

优选的，所述数据条件筛选系统包括数据获取模块、数据预处理模块、条件定制模块、数据查询模块、数据过滤模块和结果聚合和分析模块。

优选的，所述数据获取模块用于从数据源中获取原始数据，获取至少一种类型的规划大数据，其中包括用户地理位置、用户特征及用户行为，主要采用爬虫、API接口多种方式获得数据，数据源如数据库、数据仓库以及日志文件，所述数据预处理模块用于将原始数据进行必要的预处理，其中包括数据清洗、去重、格式标准化，确保数据的质量和一致性，具体包括去除重复数据、缺失值填充、异常值处理以及字段转换，所述条件定制模块用于定义数据条件筛选的规则和条件模型，用户可以基于属性、数值范围、时间戳、文本关键词要素定义条件表达式，以灵活地指定筛选条件；

通过上述技术方案，首先通过数据获取模块获取数据源中的原始数据，然后将原始数据进行数据清洗、去重、格式标准化，确保数据的质量和一致性，其次通过条件定制模块定义数据条件筛选的规则和条件模型，指定筛选条件。

优选的，所述数据查询模块用于使用合适的查询工具或查询语言，根据制定的条件进行数据查询，查询语句将包含数据表现或数据集的名称，以及用于筛选条件的关键字和运算符，所述数据过滤模块用于通过SQL重写的数据过滤技术对暂不关心的数据进行过滤，所述结果聚合和分析模块用于对筛选后的数据进行聚合和进一步分析，生成数据报告、统计信息或可视化图表，用户可以通过交互式界面进行数据探索和深入分析，这个模块可以包括数据挖掘、机械学习功能，帮助用户发现有价值的信息和洞察力；

通过上述技术方案，通过数据查询模块根据指定的条件进行数据查询，然后通过过滤模块将查询到的数据中不需要的数据进行过滤，最后将筛选后的数据进行分析并生成数据报告、统计信息或可视化图表，即完成本次大数据分析系统的数据条件筛选。

一种数据过滤方法，所述数据过滤技术包含三个步骤，首先判断是否需要数据过滤，然后获取数据权限信息，最后重写SQL，具体过程如下：

S1.判断是否需要数据过滤

判断该数据是否需要过滤筛选，若需要过滤筛选则执行下一步骤，若不需要过滤筛选则结束该流程；

S2.拦截SQL

在配置文件中声明SQL拦截器，具体使用hibernate提供的StatementInspector接口拦截SQL；

S3.获取数据过滤需要的过滤条件

用注解声明需要数据过滤的表和字段，并在项目初始化时扫描注解获取声明信息，将扫描到的过滤信息保存在静态变量以方便后面重写SQL使用；

S4.声明需要数据过滤的接口

同时考虑对接口进行数据过滤盒子接口不需要数据过滤两种情况，具体实时方法是采用AOP(面向切面编程)的方式，在接口上使用注解即可进行数据过滤，值得注意的是，在代码实现过程中可以使用栈来保存是否需要数据过滤的标识，通过SQL拦截器上取栈顶的标识来判断是否需要重写SQL；

S5.获取数据过滤对应的值

由于各系统数据权限的定义不同，因此把数据权限的提供交给用户来实现，即用户自行决定数据权限的提供，数据权限在数据过滤AOP中进行注入；

S6.重写SQL

获取数据过滤信息后，即可在SQL拦截器重写SQL，使用druid提供的抽象语法树AST重写SQL；

通过上述技术方案，本发明的大数据分析系统的数据条件筛选方法基于SQL重写的数据过滤技术，可以充分利用数据库系统的优化器和执行引擎来优化查询计划，从而提高查询性能并减少资源消耗，且可以同时处理大规模数据集上的数据条件筛选操作，实现数据分析的高效性和实时性。

优选的，所述数据条件筛选设备包括存储器和处理器，所述存储器用于存储可执行指令，所述处理器用于与存储器连接以执行可执行指令从而完成上述的大数据分析系统的数据条件筛选方法和系统；

通过上述技术方案，通过存储器和处理器形成数据条件筛选设备，执行可执行指令从而完成上述的大数据分析系统的数据条件筛选方法和系统。

优选的，所述数据条件筛选设备还包括计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行以实现上述任一项所述的大数据分析系统的数据条件筛选系统。

通过上述技术方案，本发明提供了一种高效、实时地大数据分析系统的数据条件筛选方法系统，能够快速筛选出满足特定条件的数据，并生成准确和可靠的数据分析结果。

工作原理：该大数据分析系统的数据条件筛选方法，首先从数据源中获取原始数据，主要采用爬虫、API接口多种方式获得数据，数据源如数据库、数据仓库以及日志文件，然后将获取到的原始数据进行清洗、去重和格式标准化，具体包括去除重复数据、缺失值填充、异常值处理以及字段转换，根据具体分析任务和需求，指定符合条件的筛选规则，条件可以基于数据的属性、数值范围、时间戳和文本关键词的条件表达式，然后使用合适的查询工具或查询语言，根据制定的条件进行数据查询，查询语句将包含数据表现或数据集的名称，以及用于筛选条件的关键字和运算符，然后通过SQL重写的数据过滤技术对暂不关心的数据进行过滤，从而完成筛选，其中数据过滤技术包含三个步骤，首先判断是否需要数据过滤，然后获取数据权限信息，最后重写SQL，具体为：首先判断该数据是否需要过滤筛选，若需要过滤筛选则执行下一步骤，若不需要过滤筛选则结束该流程，在配置文件中声明SQL拦截器，具体使用hibernate提供的StatementInspector接口拦截SQL，用注解声明需要数据过滤的表和字段，并在项目初始化时扫描注解获取声明信息，将扫描到的过滤信息保存在静态变量以方便后面重写SQL使用，同时考虑对接口进行数据过滤盒子接口不需要数据过滤两种情况，具体实时方法是采用AOP(面向切面编程)的方式，在接口上使用注解即可进行数据过滤，值得注意的是，在代码实现过程中可以使用栈来保存是否需要数据过滤的标识，通过SQL拦截器上取栈顶的标识来判断是否需要重写SQL，由于各系统数据权限的定义不同，因此把数据权限的提供交给用户来实现，即用户自行决定数据权限的提供，数据权限在数据过滤AOP中进行注入，最后获取数据过滤信息后，即可在SQL拦截器重写SQL，使用druid提供的抽象语法树AST重写SQL，数据过滤筛选后将数据结果进行聚合和分析，生成相应的数据报告、统计信息或可视化图表。

(三)有益效果

本发明提供了一种大数据分析系统的数据条件筛选方法。具备以下有益效果：

1、本发明提供了一种大数据分析系统的数据条件筛选方法，本发明的方法可在海量数据中筛选某种符合特定条件的数据，过滤暂不关心的数据，数据过滤技术恰好能够满足这种筛选要求，实际开发中，数据过滤技术能够过滤部分信息数据而得到特定的数据，使其满足不同场景下不同实际业务的需求，例如出于安全保密的原则根据机构部门做数据权限，口岸按不同的场站系统做数据过滤，电子档案用全宗来做数据隔离，极大地提高了开发效率和代码的可靠性，降低了具体业务实现的复杂度。

2、本发明提供了一种大数据分析系统的数据条件筛选方法，本发明的大数据分析系统的数据条件筛选方法基于SQL重写的数据过滤技术，可以充分利用数据库系统的优化器和执行引擎来优化查询计划，从而提高查询性能并减少资源消耗，且可以同时处理大规模数据集上的数据条件筛选操作，实现数据分析的高效性和实时性，加快筛选速度，并提供准确和可靠的数据分析结果。

3、本发明提供了一种大数据分析系统的数据条件筛选方法，本发明提供了一种高效、实时地大数据分析系统的数据条件筛选方法系统，能够快速筛选出满足特定条件的数据，并生成准确和可靠的数据分析结果。

附图说明

图1为本发明的筛选方法流程图；

图2为本发明的数据过滤技术流程图；

图3为本发明的数据条件筛选系统图；

图4为本发明的数据条件筛选设备示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-4所示，本发明实施例提供一种大数据分析系统的数据条件筛选方法，包括以下步骤：

S1.数据获取

S2.数据预处理

S3.定制筛选条件

S4.数据查询

S5.数据过滤

S6.数据聚合和分析

本发明可在海量数据中筛选某种符合特定条件的数据，过滤暂不关心的数据，数据过滤技术恰好能够满足这种筛选要求，实际开发中，数据过滤技术能够过滤部分信息数据而得到特定的数据，使其满足不同场景下不同实际业务的需求，极大地提高了开发效率和代码的可靠性，降低了具体业务实现的复杂度。

数据条件筛选系统包括数据获取模块、数据预处理模块、条件定制模块、数据查询模块、数据过滤模块和结果聚合和分析模块，数据获取模块用于从数据源中获取原始数据，获取至少一种类型的规划大数据，其中包括用户地理位置、用户特征及用户行为，主要采用爬虫、API接口多种方式获得数据，数据源如数据库、数据仓库以及日志文件，数据预处理模块用于将原始数据进行必要的预处理，其中包括数据清洗、去重、格式标准化，确保数据的质量和一致性，具体包括去除重复数据、缺失值填充、异常值处理以及字段转换，条件定制模块用于定义数据条件筛选的规则和条件模型，用户可以基于属性、数值范围、时间戳、文本关键词要素定义条件表达式，以灵活地指定筛选条件，首先通过数据获取模块获取数据源中的原始数据，然后将原始数据进行数据清洗、去重、格式标准化，确保数据的质量和一致性，其次通过条件定制模块定义数据条件筛选的规则和条件模型，指定筛选条件，数据查询模块用于使用合适的查询工具或查询语言，根据制定的条件进行数据查询，查询语句将包含数据表现或数据集的名称，以及用于筛选条件的关键字和运算符，数据过滤模块用于通过SQL重写的数据过滤技术对暂不关心的数据进行过滤，结果聚合和分析模块用于对筛选后的数据进行聚合和进一步分析，生成数据报告、统计信息或可视化图表，用户可以通过交互式界面进行数据探索和深入分析，这个模块可以包括数据挖掘、机械学习功能，帮助用户发现有价值地信息和洞察力，通过数据查询模块根据指定的条件进行数据查询，然后通过过滤模块将查询到的数据中不需要的数据进行过滤，最后将筛选后的数据进行分析并生成数据报告、统计信息或可视化图表，即完成本次大数据分析系统的数据条件筛选。

一种数据过滤方法，数据过滤技术包含三个步骤，首先判断是否需要数据过滤，然后获取数据权限信息，最后重写SQL，具体过程如下：

S1.判断是否需要数据过滤

S2.拦截SQL

S3.获取数据过滤需要的过滤条件

S4.声明需要数据过滤的接口

同时考虑对接口进行数据过滤盒子接口不需要数据过滤两种情况，具体实施方法是采用AOP(面向切面编程)的方式，在接口上使用注解即可进行数据过滤，值得注意的是，在代码实现过程中可以使用栈来保存是否需要数据过滤的标识，通过SQL拦截器上取栈顶的标识来判断是否需要重写SQL；

S5.获取数据过滤对应的值

S6.重写SQL

本发明的大数据分析系统的数据条件筛选方法基于SQL重写的数据过滤技术，可以充分利用数据库系统的优化器和执行引擎来优化查询计划，从而提高查询性能并减少资源消耗，且可以同时处理大规模数据集上的数据条件筛选操作，实现数据分析的高效性和实时性。

数据条件筛选设备包括存储器和处理器，存储器用于存储可执行指令，处理器用于与存储器连接以执行可执行指令从而完成上述的大数据分析系统的数据条件筛选方法和系统，通过存储器和处理器形成数据条件筛选设备，执行可执行指令从而完成上述的大数据分析系统的数据条件筛选方法和系统，数据条件筛选设备还包括计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行以实现上述任一项的大数据分析系统的数据条件筛选系统，本发明提供了一种高效、实时地大数据分析系统的数据条件筛选方法系统，能够快速筛选出满足特定条件的数据，并生成准确和可靠的数据分析结果。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种大数据分析系统的数据条件筛选方法，其特征在于：包括以下步骤：

S1.数据获取

S2.数据预处理

S3.定制筛选条件

S4.数据查询

S5.数据过滤

S6.数据聚合和分析

对筛选后的数据结果进行聚合和分析，生成相应的数据报告、统计信息或可视化图表，用户可以通过交互式界面进行数据探索和深入分析。

2.一种大数据分析系统的数据条件筛选系统，其特征在于：所述数据条件筛选系统包括数据获取模块、数据预处理模块、条件定制模块、数据查询模块、数据过滤模块和结果聚合和分析模块。

3.根据权利要求2所述的一种大数据分析系统的数据条件筛选系统，其特征在于：所述数据获取模块用于从数据源中获取原始数据，获取至少一种类型的规划大数据，其中包括用户地理位置、用户特征及用户行为，主要采用爬虫、API接口多种方式获得数据，数据源如数据库、数据仓库以及日志文件，所述数据预处理模块用于将原始数据进行必要的预处理，其中包括数据清洗、去重、格式标准化，确保数据的质量和一致性，具体包括去除重复数据、缺失值填充、异常值处理以及字段转换，所述条件定制模块用于定义数据条件筛选的规则和条件模型，用户可以基于属性、数值范围、时间戳、文本关键词要素定义条件表达式，以灵活地指定筛选条件。

4.根据权利要求2所述的一种大数据分析系统的数据条件筛选方法，其特征在于：所述数据查询模块用于使用合适的查询工具或查询语言，根据制定的条件进行数据查询，查询语句将包含数据表现或数据集的名称，以及用于筛选条件的关键字和运算符，所述数据过滤模块用于通过SQL重写的数据过滤技术对暂不关心的数据进行过滤，所述结果聚合和分析模块用于对筛选后的数据进行聚合和进一步分析，生成数据报告、统计信息或可视化图表，用户可以通过交互式界面进行数据探索和深入分析，这个模块可以包括数据挖掘、机械学习功能，帮助用户发现有价值的信息和洞察力。

5.根据权利要求1所述的一种数据过滤方法，其特征在于：所述数据过滤技术包含三个步骤，首先判断是否需要数据过滤，然后获取数据权限信息，最后重写SQL，具体过程如下：

S1.判断是否需要数据过滤

S2.拦截SQL

S3.获取数据过滤需要的过滤条件

S4.声明需要数据过滤的接口

S5.获取数据过滤对应的值

S6.重写SQL

获取数据过滤信息后，即可在SQL拦截器重写SQL，使用druid提供的抽象语法树AST重写SQL。

6.一种大数据分析系统的数据条件筛选设备，其特征在于：所述数据条件筛选设备包括存储器和处理器，所述存储器用于存储可执行指令，所述处理器用于与存储器连接以执行可执行指令从而完成1-5任一项所述的大数据分析系统的数据条件筛选方法和系统。

7.一种大数据分析系统的数据条件筛选设备，其特征在于：所述数据条件筛选设备还包括计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行以实现如权利要求1-5任一项所述的大数据分析系统的数据条件筛选系统。