CN114996331B

CN114996331B - 一种数据挖掘控制方法和系统

Info

Publication number: CN114996331B
Application number: CN202210663892.8A
Authority: CN
Inventors: 刘睿民; 易水寒; 陶杨
Original assignee: Beijing Birui Data Technology Co ltd
Current assignee: Beijing Birui Data Technology Co ltd
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2023-01-20
Anticipated expiration: 2042-06-10
Also published as: WO2023236301A1; CN114996331A

Abstract

本发明公开了一种数据挖掘控制方法和系统，该方法包括：根据用户发送的抽样指令从全量数据中抽取部分数据并生成对部分数据的统计结果，以使用户根据统计结果从部分数据中筛选出目标数据；当检测到用户对目标数据的加载指令时，调用预设数据清洗分析工具对目标数据按照用户指定的数据清洗和分析流程进行数据清洗和数据分析，以使用户根据数据分析的结果建立初步数据挖掘模型并对初步数据挖掘模型进行评估；当检测到用户对全量数据的加载指令时，调用预设数据清洗分析工具对全量数据按照用户指定的最佳数据清洗和分析流程进行最终数据清洗和最终数据分析，以使用户根据最终数据分析的结果建立最终数据挖掘模型，从而提高了数据挖掘的效率。

Description

一种数据挖掘控制方法和系统

技术领域

本申请涉及大数据技术领域，更具体地，涉及一种数据挖掘控制方法和系统。

背景技术

在进行数据挖掘的初期，用户往往需要将生产数据进行多种方式的转换和清洗，以提高建模的准确率和效率。数据探索是指在数据挖掘之前，对数据进行解释性的分析工作，包括对数据的定义、描述数据的形态特征并解释数据的相关性。通过数据探索的结果，用户能够更好的开展后续的数据挖掘与数据建模工作。

用户可使用数据可视化和统计技术来描述数据集的特征，例如大小，数量和准确性，以便更好地理解数据的性质。

传统的数据挖掘过程通常有两种方式：

方式一，如图2所示，将全量数据加载到Python或者R，数据探索，数据清洗，分析和建模。图2中的虚线框里的过程是一个循环迭代的过程。

方式二，如图3所示，对于数据库的数据，通过SQL进行数据探索和数据清洗然后将数据加载到建模框架中进行分析和建模，并根据模型的结果进行循环迭代。

上述两种方式会存在以下问题：

在方式一中，在对数据进行感知之前，就直接把全量数据加载进来，比较费时费力。另外，质量不好的数据加载进来，稍后又需要删除，这样也会浪费资源和时间。并且，由于数据探索、数据清洗和分析的过程会反复循环多次，如果在这个过程中一直对全量数据进行操作，效率会比较低。

在方式二中，数据分析和清洗的流程与分析建模不在同一环境中实现，使得循环的过程不够流程，用户需要一直重复加载不同的数据。而且直接用SQL查询去获取统计信息，不如常见的基于Python或R的数据清洗分析工具提供的方法多样，限制了数据处理能力。

因此，如何提高数据挖掘的效率，是目前有待解决的技术问题。

发明内容

本发明公开了一种数据挖掘控制方法，用以解决现有技术中数据挖掘效率低的技术问题，该方法包括：

根据用户发送的抽样指令从全量数据中抽取部分数据并生成对所述部分数据的统计结果，以使用户根据所述统计结果从所述部分数据中筛选出目标数据；

当检测到用户对所述目标数据的加载指令时，调用预设数据清洗分析工具对所述目标数据按照用户指定的数据清洗和分析流程进行数据清洗和数据分析，以使用户根据数据分析的结果建立初步数据挖掘模型并对所述初步数据挖掘模型进行评估；

当检测到用户对所述全量数据的加载指令时，调用所述预设数据清洗分析工具对所述全量数据按照用户指定的最佳数据清洗和分析流程进行最终数据清洗和最终数据分析，以使用户根据最终数据分析的结果建立最终数据挖掘模型；

其中，所述最佳数据清洗和分析流程是用户在所述初步数据挖掘模型满足预设评估标准时确定的。

在一些实施例中，根据用户发送的抽样指令从全量数据中抽取部分数据并生成对所述部分数据的统计结果，具体为：

根据用户发送的抽样指令和预设SQL语句框架生成SQL查询分析语句；

在用户指定的数据源执行所述SQL查询分析语句，并根据执行结果获取所述部分数据和所述统计结果。

在一些实施例中，所述数据源包括数据库和HDFS，在用户指定的数据源执行所述SQL查询分析语句，具体为：

若所述数据源为数据库，将所述SQL查询分析语句传到数据库执行；

若所述数据源为HDFS，通过Hadoop连接器将所述SQL查询分析语句下推至HDFS中执行。

在一些实施例中，在根据用户发送的抽样指令从全量数据中抽取部分数据并生成对所述部分数据的统计结果之前，所述方法还包括：

根据用户发出的连接指令连接到所述数据源，并从所述数据源获取元数据；

根据用户在所述元数据中选择的表、对表的抽样方式和抽样比例触发生成所述抽样指令；

其中，所述元数据包括所述全量数据中数据表的名称、字段名称、字段类型和数据的总行数。

在一些实施例中，所述统计结果包括数据的统计变量和异常值变量，所述统计变量表征了数据的范围、大小和波动趋势，所述异常值变量表征了数据的异常值和空值情况。

相应的，本发明还提出了一种数据挖掘控制系统，所述系统包括：

抽样模块，用于根据用户发送的抽样指令从全量数据中抽取部分数据并生成对所述部分数据的统计结果，以使用户根据所述统计结果从所述部分数据中筛选出目标数据；

第一清洗分析模块，用于当检测到用户对所述目标数据的加载指令时，调用预设数据清洗分析工具对所述目标数据按照用户指定的数据清洗和分析流程进行数据清洗和数据分析，以使用户根据数据分析的结果建立初步数据挖掘模型并对所述初步数据挖掘模型进行评估；

第二清洗分析模块，用于当检测到用户对所述全量数据的加载指令时，调用所述预设数据清洗分析工具对所述全量数据按照用户指定的最佳数据清洗和分析流程进行最终数据清洗和最终数据分析，以使用户根据最终数据分析的结果建立最终数据挖掘模型；

在一些实施例中，所述抽样模块，具体用于：

在一些实施例中，所述数据源包括数据库和HDFS，所述抽样模块，还具体用于：

在一些实施例中，所述系统还包括获取模块，用于：

通过应用以上技术方案，根据用户发送的抽样指令从全量数据中抽取部分数据并生成对部分数据的统计结果，以使用户根据统计结果从部分数据中筛选出目标数据；当检测到用户对目标数据的加载指令时，调用预设数据清洗分析工具对目标数据按照用户指定的数据清洗和分析流程进行数据清洗和数据分析，以使用户根据数据分析的结果建立初步数据挖掘模型并对初步数据挖掘模型进行评估；当检测到用户对全量数据的加载指令时，调用预设数据清洗分析工具对全量数据按照用户指定的最佳数据清洗和分析流程进行最终数据清洗和最终数据分析，以使用户根据最终数据分析的结果建立最终数据挖掘模型；其中，最佳数据清洗和分析流程是用户在初步数据挖掘模型满足预设评估标准时确定的，从而提高了数据挖掘的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例提出的一种数据挖掘控制方法的流程示意图；

图2示出了现有技术中一种数据挖掘控制方法的原理示意图；

图3示出了现有技术中另一种数据挖掘控制方法的原理示意图；

图4示出了本发明实施例中一种数据挖掘控制方法的原理示意图；

图5示出了本发明实施例提出的一种数据挖掘控制系统的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种数据挖掘控制方法，通过抽样和统计分析获得全量数据中的部分数据，并对部分数据进行循环的清洗、分析和建模，获得最佳数据清洗和分析流程，使用最佳数据清洗和分析流程加载并处理全量数据，从而提升数据挖掘的效率。

如图1所示，该方法包括以下步骤：

步骤S101，根据用户发送的抽样指令从全量数据中抽取部分数据并生成对所述部分数据的统计结果，以使用户根据所述统计结果从所述部分数据中筛选出目标数据。

本实施例中，在接收到用户通过发送抽样指令时，基于该抽样指令从全量数据中抽取部分数据，并基于该抽样指令对该部分数据进行统计分析，生成相应的统计结果，该统计结果表征了该部分数据的数据特征。用户获得该部分数据和统计结果后，通过对统计结果进行分析，可了解该部分数据的数据特征，并基于该数据特征从部分数据中筛选出目标数据。

为了准确的抽取部分数据和生成统计结果，在本申请一些实施例中，根据用户发送的抽样指令从全量数据中抽取部分数据并生成对所述部分数据的统计结果，具体为：

本实施例中，预先建立预设SQL语句框架，根据抽样指令和预设SQL语句框架生成SQL查询分析语句，然后在用户指定的数据源执行所述SQL查询分析语句，执行完成后获取部分数据和统计结果。

可选的，可将数据的抽样过程和统计分析过程分开，将SQL查询分析语句替换为查询语句和分析语句，基于执行查询语句获取部分数据，并基于分析语句对部分数据分析后获取统计结果。

需要说明的是，以上实施例的方案仅为本申请所提出的一种具体实现方案，其他根据抽样指令从全量数据中抽取部分数据并生成统计结果的方式均属于本申请的保护范围。

为了可靠的执行SQL查询分析语句，在本申请一些实施例中，所述数据源包括数据库和HDFS，在用户指定的数据源执行所述SQL查询分析语句，具体为：

本实施例中，用户指定的数据源可分为数据库和HDFS（Hadoop Distributed FileSystem，Hadoop分布式文件系统），可在数据库中直接执行SQL查询分析语句；而对于HDFS，需要基于RapidsDB的Hadoop连接器执行SQL查询分析语句。

为了便于用户再次读取该部分数据和统计结果，在本申请一些实施例中，在根据用户发送的抽样指令从全量数据中抽取部分数据并生成对所述部分数据的统计结果之后，所述方法还包括：

将所述部分数据和所述统计结果存放至文件系统。

用户可在文件系统中读取部分数据和相应的统计结果，并进行分析，无需重新进行抽样。

为了准确的执行抽样指令，在本申请一些实施例中，在根据用户发送的抽样指令从全量数据中抽取部分数据并生成对所述部分数据的统计结果之前，所述方法还包括：

本实施例中，根据用户发出的连接指令连接数据源并获取元数据，该元数据包括全量数据中数据表的名称、字段名称、字段类型和数据的总行数，向用户展示该元数据，用户可从元数据中选择一张表，选择对表的抽样方式和抽样比例，从而触发生成抽样指令。

抽样方式可包括随机抽样和分层抽样。可以理解的是，在用户认为元数据的数据量不大时，用户也可以选择不抽样，直接对全量数据进行后续处理。

为了使用户准确的了解部分数据的数据特征，在本申请一些实施例中，所述统计结果包括数据的统计变量和异常值变量，所述统计变量表征了数据的范围、大小和波动趋势，所述异常值变量表征了数据的异常值和空值情况。

本实施例中，统计变量具体可以包括数据的count, unique, top, freq, mean,std, min, 25%, 50%, 75%, max,获取这些统计变量的目的在于使用户了解数据的范围、大小、波动趋势等，为建模时选择合适的模型打下基础；异常值变量具体可以包括lowerbound 、upper bound、非空比例和空值个数，lower bound 和upper bound可使用户确定数据中是否有异常值，非空比例和空值个数能让用户快速掌握数据中的空值情况，从而选择合适的数据处理方法。

步骤S102，当检测到用户对所述目标数据的加载指令时，调用预设数据清洗分析工具对所述目标数据按照用户指定的数据清洗和分析流程进行数据清洗和数据分析，以使用户根据数据分析的结果建立初步数据挖掘模型并对所述初步数据挖掘模型进行评估。

本实施例中，用户将目标数据加载至预设数据清洗分析工具，并指定数据清洗和分析流程，调用预设数据清洗分析工具对目标数据按照用户指定的数据清洗和分析流程进行数据清洗和数据分析，然后用户根据数据分析结果建立初步数据挖掘模型，并对初步数据挖掘模型进行评估，若评估不合格，用户会重新将目标数据加载至预设数据清洗分析工具，并调整数据清洗和分析流程，调用预设数据清洗分析工具对目标数据按照用户指定的调整后的数据清洗和分析流程进行数据清洗和数据分析，因此，步骤S102可被循环执行多次，直至初步数据挖掘模型满足预设评估标准时，用户可确定最佳数据清洗和分析流程。

可选的，预设数据清洗分析工具可以为基于Python语言、或R语言、或Spark、或julia的数据清洗分析工具。

可选的，数据清洗的过程可包括：识别数据的不完整、不正确、不准确或不相关部分，然后替换、修改、或删除脏数据或粗数据。

数据分析的过程可包括：删除异常值、提取变量特征、检验潜在假设等

步骤S103，当检测到用户对所述全量数据的加载指令时，调用所述预设数据清洗分析工具对所述全量数据按照用户指定的最佳数据清洗和分析流程进行最终数据清洗和最终数据分析，以使用户根据最终数据分析的结果建立最终数据挖掘模型。

本实施例中，当检测到用户对所述全量数据的加载指令时，说明用户已经确定好最佳数据清洗和分析流程，调用预设数据清洗分析工具对全量数据按照最佳数据清洗和分析流程进行一次最终数据清洗和最终数据分析，用户可根据最终数据分析的结果建立最终数据挖掘模型。

可选的，预设评估标准可以为模型的准确率，对于属于分类模型的数据挖掘模型，评估准确率的指标包括混淆矩阵，ROC曲线，AUC曲线；对于属于回归模型的数据挖掘模型，评估准确率的指标包括开方均方误差、平均绝对误差、绝对误差中值；对于属于聚类模型的数据挖掘模型，评估准确率的指标包括MSE均方误差和损失函数。

为了进一步阐述本发明的技术思想，现结合具体的应用场景，对本发明的技术方案进行说明。

本申请实施例提供一种数据挖掘控制方法，如图4所示，包括以下步骤：

步骤一，对数据抽样并统计分析。

1. 用户创建到MySQL的连接。

2. 系统读取回的元数据信息：读到连接的MySQL数据库的所有表和视图。

用户可以点击查看具体的表，例如table1的字段名和字段类型，如table1有20条字段，共1亿行数据。

3. 用户选择“table1”表，点击“统计信息”选项卡，选择抽样方式为随机，设置抽样比例为1%，点击确定。

4. 系统会依据“随机抽样”方式，从table1表中抽样出1%的部分数据，然后对该部分数据进行统计信息的计算，得到该部分数据的统计结果：

count, unique, top, freq, mean, std, min, 25%, 50%, 75%, max，lowerbound和upper bound，非空比例和空值个数。根据统计结果，例如可以发现列C1，C5存在99%以上的空值，而根据分位数和上下确界，确定C10的异常值。

5. 抽样的部分数据和统计结果存放到HDFS。

6. 用户通过统计结果对该部分数据进行筛选，例如在读取数据时筛选走C1和C5列，同时将在C10中出现异常值的记录筛选掉。

步骤二，将部分数据加载至Python/R。

用户将该筛选后的部分数据（即前述的目标数据）加载至基于Python或R的数据清洗分析工具，在基于Python或R的数据清洗分析工具中对读取的数据进行清洗以及其他统计性分析。

步骤三，对部分数据进行数据清洗、分析和建模。

用户根据数据分析的结果建立初步数据挖掘模型并对所述初步数据挖掘模型进行评估，根据评估结果调整数据清洗和分析流程，直至确定出最佳数据清洗和分析流程，因此，步骤三是循环进行的。

步骤四，加载全量数据到Python/R。

用户将全量数据加载至基于Python或R的数据清洗分析工具。

步骤五，数据清洗。

步骤六，分析和建模。

按照最佳数据清洗和分析流程对全量数据进行一次最终数据清洗和最终数据分析，用户根据最终数据分析的结果建立最终数据挖掘模型。

通过应用以上技术方案，具有以下有益效果：

1. 先对数据源的数据进行抽样并做统计分析，快速获取数据基本的统计信息，以获取大致的原始全量数据的特征，然后决定要加载哪些数据到数据清洗分析工具中进行后续操作。由于只需要加载部分数据，提高了加载数据和分析的效率。

2. 先仅针对部分数据做数据清洗和分析，因此是对小量数据做循环的操作。当最佳数据清洗和分析流程确定好后，只需要一次将全量数据加载进来，对全量数据使用这个最佳数据清洗和分析流程做数据探索，从而提高了数据挖掘效率。

本申请实施例还提出了一种数据挖掘控制系统，如图5所示，所述系统包括：

抽样模块10，用于根据用户发送的抽样指令从全量数据中抽取部分数据并生成对所述部分数据的统计结果，以使用户根据所述统计结果从所述部分数据中筛选出目标数据；

第一清洗分析模块20，用于当检测到用户对所述目标数据的加载指令时，调用预设数据清洗分析工具对所述目标数据按照用户指定的数据清洗和分析流程进行数据清洗和数据分析，以使用户根据数据分析的结果建立初步数据挖掘模型并对所述初步数据挖掘模型进行评估；

第二清洗分析模块30，用于当检测到用户对所述全量数据的加载指令时，调用所述预设数据清洗分析工具对所述全量数据按照用户指定的最佳数据清洗和分析流程进行最终数据清洗和最终数据分析，以使用户根据最终数据分析的结果建立最终数据挖掘模型；

在具体的应用场景中，抽样模块10，具体用于：

在具体的应用场景中，所述数据源包括数据库和HDFS，抽样模块10，还具体用于：

在具体的应用场景中，所述系统还包括获取模块，用于：

在具体的应用场景中，所述统计结果包括数据的统计变量和异常值变量，所述统计变量表征了数据的范围、大小和波动趋势，所述异常值变量表征了数据的异常值和空值情况。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据挖掘控制方法，其特征在于，所述方法包括：

其中，所述最佳数据清洗和分析流程是用户在所述初步数据挖掘模型满足预设评估标准时确定的；

根据用户发送的抽样指令从全量数据中抽取部分数据并生成对所述部分数据的统计结果，具体为：

2.如权利要求1所述的方法，其特征在于，所述数据源包括数据库和HDFS，在用户指定的数据源执行所述SQL查询分析语句，具体为：

3.如权利要求1所述的方法，其特征在于，在根据用户发送的抽样指令从全量数据中抽取部分数据并生成对所述部分数据的统计结果之前，所述方法还包括：

4.如权利要求1所述的方法，其特征在于，所述统计结果包括数据的统计变量和异常值变量，所述统计变量表征了数据的范围、大小和波动趋势，所述异常值变量表征了数据的异常值和空值情况。

5.一种数据挖掘控制系统，其特征在于，所述系统包括：

所述抽样模块，具体用于：

6.如权利要求5所述的系统，其特征在于，所述数据源包括数据库和HDFS，所述抽样模块，还具体用于：

7.如权利要求5所述的系统，其特征在于，所述系统还包括获取模块，用于：

8.如权利要求5所述的系统，其特征在于，所述统计结果包括数据的统计变量和异常值变量，所述统计变量表征了数据的范围、大小和波动趋势，所述异常值变量表征了数据的异常值和空值情况。