CN112214524A

CN112214524A - 一种基于深度数据挖掘的数据评估系统及评估方法

Info

Publication number: CN112214524A
Application number: CN202010874421.2A
Authority: CN
Inventors: 胡明辉
Original assignee: Youxuehui Information Technology Guangdong Co ltd
Current assignee: Youxuehui Information Technology Guangdong Co ltd
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2021-01-12

Abstract

本发明公开了一种基于深度数据挖掘的数据评估系统，一种基于深度数据挖掘的数据评估系统，包括数据生成模块、数据存储模块、数据分析模块和数据评估模块，所述数据生成模块包括数据生成器，数据生成器包括：模版变量提取、模版变量执行和模版变量替换三部分组成，所述数据存储模块包括主控器、存储卡和PC端，所述数据分析模块包括元素切分单元、逻辑提取单元、赋值、数组横向合并和数组垂直合并；本发明还公开了一种基于深度数据挖掘的数据评估方法，包括以下步骤：S1：数据采集和过滤；S2：数据合并；S3：增加序列号；S4：拆分；S5：缺失值填充；S6：数据结论标准化，加快模型速度，提高模型计算效率，简化模型评估流程。

Description

一种基于深度数据挖掘的数据评估系统及评估方法

技术领域

本发明涉及轮胎检测技术领域，具体为一种基于深度数据挖掘的数据评估系统，本发明还涉及一种基于深度数据挖掘的数据评估方法。

背景技术

大数据(big data，mega data)或称巨量资料，指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径，而采用所有数据进行分析处理。大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值密度)、Veracity(真实性)。

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

传统的智能算法评估模型采用常规的并行计算方式在使用大量数据进行算法评估时，模型速度较慢；现有数据挖掘产品如R、SPSS Modeler、 RapidMiner等，模型计算效率低下，模型评估流程复杂；基于Spark数据分析架构的针对分类模型的模型评估模块中，包含部分分类算法的分布式评估指标代码包，但远不能满足其他分类模型的评估。

发明内容

本发明的目的在于提供一种基于深度数据挖掘的数据评估系统及其评估方法，在使用大量数据进行算法评估时，加快模型速度，提高模型计算效率，简化模型评估流程，利用数据分析模块提取的数据信息输入，调整输入端的任意系统评估参数，分析数据的相应变化，根据系统参数的变差异，以分析报告、显示图表方式将挖掘数据转换为对比数据表，满足其他分类模型的评估，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于深度数据挖掘的数据评估系统，包括数据生成模块、数据存储模块、数据分析模块和数据评估模块，所述数据生成模块包括数据生成器，数据生成器包括：模版变量提取、模版变量执行和模版变量替换三部分组成；

所述数据存储模块包括主控器、存储卡和PC端，利用主控器将采集的数据实时存储至存储卡中，在后续转存到PC机中；

所述数据分析模块包括元素切分单元、逻辑提取单元、赋值、数组横向合并和数组垂直合并；

所述数据评估模块，以数据分析模块提取的数据信息输入，调整输入端的任意系统评估参数，分析数据的相应变化，根据系统参数的变差异，以分析报告、显示图表方式将挖掘数据转换为对比数据表，同时在应用时不断对数据进行评估、监测与维护，相应的完善及改正意见反馈给数据挖掘的各个参数标准。

优选的，所述模版变量通常包括指函数变量、词典变量或者自定义变量，函数变量：模版和词典中以“$Func{“开头，以”}”结尾的字符串是一个函数变量：$Func{intRand()}，其中，intRand()为内置函数。不支持函数嵌套；词典变量：模版中以“$Dic{“开头，以”}”结尾的字符串是一个词典变量，形如：$Dic{name},其中，name为词典文件中的一个词典名；自定义变量：模版中以“$Var{“开头，以”}”结尾的字符串是一个自定义变量，形如： $Var{tmp}，其中，tmp是自定义变量名。自定义变量需要与函数变量或者词典变量联合使用，中间以“＝”隔开，且无空格。定义方式： $Var{tmp}＝$Func{doubleRand(0，10，2)}，引用方式是；$Var{tmp}。

优选的，所述元素切分单元包括切片和切块，在一部分维上选定值后，关心度量数据在剩余维上的分布。如果剩余的维只有两个，则是切片；如果有三个或以上，则是切块；一般将字符型、时间型字段归纳为“维度”，将数值型字段归纳为“度量”通过拖拽的形式，我们可以将多个维度创建成一个维度层次，基于维度层次，进行上卷、下钻、钻透等操作。维度层次内部也可以调整层次之间的顺序关系。并且，对于时间维度来说，当拖拽到绑定区域后，自动形成时间维度层次。

本发明还提供一种基于深度数据挖掘的数据评估方法，包括以下步骤：

S1：数据采集和过滤，以加权方式生成采样数据；权重列必须为double 或int类型，按照该列的value大以加权方式生成采样数据；权重列必须为 double或int类型，按照该列的value大小采样；如col的值是1.2和1.0；则value＝1.2所属样本的被采样的概率就大一些，然后对数据按照过滤表达式进行筛选。“过滤条件”中填写where语句后面的sq|脚本即可；“映射规则”可以rename字段名称；

S2：数据合并，类似sql join的功能，将两张表通过一个字段关联合成一张表；同时用户可以rename输出的字段名称，将两张表的数据按列合并，需要表的行数保持一致，否则报错；类似sql union的功能，将两张表的数据按行合并，左、右表选择输出的字段保持完全一致；“去重”是union,不“去重”是union all；

S3：增加序列号，在数据表第一列追加ID列；

S4：拆分，按照比例拆分样本集；

S5：缺失值填充；

S6：数据结论标准化，给予原始数据的均值(mean)和标准差(standarddeviation)进行数据的标准化；经过处理的数据符合标准正态分布，即均值为0，标准差为1。

优选的，所述数据采样还包括随机采样:以随机方式生成采样数据，每次采样是各自独立的。

优选的，所述过滤是对数据按照过滤表达式进行筛选；“过滤条件”中填写where语句后面的sq|脚本即可；“映射规则”可以rename字段名称。

与现有技术相比，本发明的有益效果是：在使用大量数据进行算法评估时，加快模型速度，提高模型计算效率，简化模型评估流程，利用数据分析模块提取的数据信息输入，调整输入端的任意系统评估参数，分析数据的相应变化，根据系统参数的变差异，以分析报告、显示图表方式将挖掘数据转换为对比数据表，满足其他分类模型的评估。

附图说明

图1为本发明的数据评估系统的系统框图；

图2为本发明的数据评估方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：

一种基于深度数据挖掘的数据评估系统，包括数据生成模块、数据存储模块、数据分析模块和数据评估模块，其特征在于：

所述数据生成模块包括数据生成器，数据生成器包括：模版变量提取、模版变量执行和模版变量替换三部分组成。

较佳的，所述模版变量通常包括指函数变量、词典变量或者自定义变量，函数变量：模版和词典中以“$Func{“开头，以”}”结尾的字符串是一个函数变量：$Func{intRand()}，其中，intRand()为内置函数。不支持函数嵌套；词典变量：模版中以“$Dic{“开头，以”}”结尾的字符串是一个词典变量，形如：$Dic{name},其中，name为词典文件中的一个词典名；自定义变量：模版中以“$Var{“开头，以”}”结尾的字符串是一个自定义变量，形如： $Var{tmp}，其中，tmp是自定义变量名。自定义变量需要与函数变量或者词典变量联合使用，中间以“＝”隔开，且无空格。定义方式： $Var{tmp}＝$Func{doubleRand(0，10，2)}，引用方式是；$Var{tmp}。

较佳的，所述元素切分单元包括切片和切块，在一部分维上选定值后，关心度量数据在剩余维上的分布。如果剩余的维只有两个，则是切片；如果有三个或以上，则是切块；一般将字符型、时间型字段归纳为“维度”，将数值型字段归纳为“度量”通过拖拽的形式，我们可以将多个维度创建成一个维度层次，基于维度层次，进行上卷、下钻、钻透等操作。维度层次内部也可以调整层次之间的顺序关系。并且，对于时间维度来说，当拖拽到绑定区域后，自动形成时间维度层次。

请参阅图2，本发明还提供一种基于深度数据挖掘的数据评估方法，包括以下步骤：

S1：数据采集和过滤，以加权方式生成采样数据；权重列必须为double 或int类型，按照该列的value大以加权方式生成采样数据；权重列必须为double或int类型，按照该列的value大小采样；如col的值是1.2和1.0；则value＝1.2所属样本的被采样的概率就大一些，然后对数据按照过滤表达式进行筛选。“过滤条件”中填写where语句后面的sq|脚本即可；“映射规则”可以rename字段名称；

S3：增加序列号，在数据表第一列追加ID列；

S4：拆分，按照比例拆分样本集；

S5：缺失值填充；

较佳的，所述数据采样还包括随机采样:以随机方式生成采样数据，每次采样是各自独立的。

较佳的，所述过滤是对数据按照过滤表达式进行筛选；“过滤条件”中填写where语句后面的sql脚本即可；“映射规则”可以rename字段名称。

综上说述：本发明中提出的有益效果的是，在使用大量数据进行算法评估时，加快模型速度，提高模型计算效率，简化模型评估流程，利用数据分析模块提取的数据信息输入，调整输入端的任意系统评估参数，分析数据的相应变化，根据系统参数的变差异，以分析报告、显示图表方式将挖掘数据转换为对比数据表，满足其他分类模型的评估。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于深度数据挖掘的数据评估系统，包括数据生成模块、数据存储模块、数据分析模块和数据评估模块，其特征在于：

所述数据生成模块包括数据生成器，数据生成器包括：模版变量提取、模版变量执行和模版变量替换三部分组成；

2.根据权利要求1所述的一种基于深度数据挖掘的数据评估系统，其特征在于：所述模版变量通常包括指函数变量、词典变量或者自定义变量，函数变量：模版和词典中以“$Func{“开头，以”}”结尾的字符串是一个函数变量：$Func{intRand()}，其中，intRand()为内置函数，不支持函数嵌套；词典变量：模版中以“$Dic{“开头，以”}”结尾的字符串是一个词典变量，形如：$Dic{name},其中，name为词典文件中的一个词典名；自定义变量：模版中以“$Var{“开头，以”}”结尾的字符串是一个自定义变量，形如：$Var{tmp}，其中，tmp是自定义变量名，自定义变量需要与函数变量或者词典变量联合使用，中间以“=”隔开，且无空格，定义方式：$Var{tmp}=$Func{doubleRand(0，10，2)}，引用方式是：$Var{tmp}。

3.根据权利要求1所述的一种基于深度数据挖掘的数据评估系统，其特征在于：所述元素切分单元包括切片和切块，在一部分维上选定值后，关心度量数据在剩余维上的分布；如果剩余的维只有两个，则是切片；如果有三个或以上，则是切块；一般将字符型、时间型字段归纳为“维度”，将数值型字段归纳为“度量”通过拖拽的形式，我们可以将多个维度创建成一个维度层次，基于维度层次，进行上卷、下钻、钻透等操作；维度层次内部也可以调整层次之间的顺序关系，并且，对于时间维度来说，当拖拽到绑定区域后，自动形成时间维度层次。

4.根据权利要求1所述的基于深度数据挖掘的数据评估方法，其特征在于：包括以下步骤：

S1：数据采集和过滤，以加权方式生成采样数据；权重列必须为double或int类型，按照该列的value大以加权方式生成采样数据；权重列必须为double或int类型，按照该列的value大小采样；如col的值是1.2和1.0；则value=1.2所属样本的被采样的概率就大一些，然后对数据按照过滤表达式进行筛选；“过滤条件”中填写where语句后面的sq|脚本即可；“映射规则”可以rename字段名称；

S2：数据合并，类似sql join的功能，将两张表通过一个字段关联合成一张表；同时用户可以rename输出的字段名称，将两张表的数据按列合并，需要表的行数保持一致，否则报错；类似sql union的功能，将两张表的数据按行合并，左、右表选择输出的字段保持完全一致；“去重”是union, 不“去重”是union all；

S3：增加序列号，在数据表第一列追加ID列；

S4：拆分，按照比例拆分样本集；

S5：缺失值填充；

S6：数据结论标准化，给予原始数据的均值(mean) 和标准差(standard deviation)进行数据的标准化；经过处理的数据符合标准正态分布，即均值为0，标准差为1。

5.根据权利要求1所述的基于深度数据挖掘的数据评估方法，其特征在于：所述数据采样还包括随机采样：以随机方式生成采样数据，每次采样是各自独立的。

6.根据权利要求1所述的基于深度数据挖掘的数据评估方法，其特征在于：所述过滤是对数据按照过滤表达式进行筛选；“过滤条件”中填写where语句后面的sq|脚本即可；“映射规则”可以rename字段名称。