CN112214524A - 一种基于深度数据挖掘的数据评估系统及评估方法 - Google Patents

一种基于深度数据挖掘的数据评估系统及评估方法 Download PDF

Info

Publication number
CN112214524A
CN112214524A CN202010874421.2A CN202010874421A CN112214524A CN 112214524 A CN112214524 A CN 112214524A CN 202010874421 A CN202010874421 A CN 202010874421A CN 112214524 A CN112214524 A CN 112214524A
Authority
CN
China
Prior art keywords
data
variable
evaluation
template
mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010874421.2A
Other languages
English (en)
Inventor
胡明辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Youxuehui Information Technology Guangdong Co ltd
Original Assignee
Youxuehui Information Technology Guangdong Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Youxuehui Information Technology Guangdong Co ltd filed Critical Youxuehui Information Technology Guangdong Co ltd
Priority to CN202010874421.2A priority Critical patent/CN112214524A/zh
Publication of CN112214524A publication Critical patent/CN112214524A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度数据挖掘的数据评估系统,一种基于深度数据挖掘的数据评估系统,包括数据生成模块、数据存储模块、数据分析模块和数据评估模块,所述数据生成模块包括数据生成器,数据生成器包括:模版变量提取、模版变量执行和模版变量替换三部分组成,所述数据存储模块包括主控器、存储卡和PC端,所述数据分析模块包括元素切分单元、逻辑提取单元、赋值、数组横向合并和数组垂直合并;本发明还公开了一种基于深度数据挖掘的数据评估方法,包括以下步骤:S1:数据采集和过滤;S2:数据合并;S3:增加序列号;S4:拆分;S5:缺失值填充;S6:数据结论标准化,加快模型速度,提高模型计算效率,简化模型评估流程。

Description

一种基于深度数据挖掘的数据评估系统及评估方法
技术领域
本发明涉及轮胎检测技术领域,具体为一种基于深度数据挖掘的数据评估系统,本发明还涉及一种基于深度数据挖掘的数据评估方法。
背景技术
大数据(big data,mega data)或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值密度)、Veracity(真实性)。
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
传统的智能算法评估模型采用常规的并行计算方式在使用大量数据进行算法评估时,模型速度较慢;现有数据挖掘产品如R、SPSS Modeler、 RapidMiner等,模型计算效率低下,模型评估流程复杂;基于Spark数据分析架构的针对分类模型的模型评估模块中,包含部分分类算法的分布式评估指标代码包,但远不能满足其他分类模型的评估。
发明内容
本发明的目的在于提供一种基于深度数据挖掘的数据评估系统及其评估方法,在使用大量数据进行算法评估时,加快模型速度,提高模型计算效率,简化模型评估流程,利用数据分析模块提取的数据信息输入,调整输入端的任意系统评估参数,分析数据的相应变化,根据系统参数的变差异,以分析报告、显示图表方式将挖掘数据转换为对比数据表,满足其他分类模型的评估,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于深度数据挖掘的数据评估系统,包括数据生成模块、数据存储模块、数据分析模块和数据评估模块,所述数据生成模块包括数据生成器,数据生成器包括:模版变量提取、模版变量执行和模版变量替换三部分组成;
所述数据存储模块包括主控器、存储卡和PC端,利用主控器将采集的数据实时存储至存储卡中,在后续转存到PC机中;
所述数据分析模块包括元素切分单元、逻辑提取单元、赋值、数组横向合并和数组垂直合并;
所述数据评估模块,以数据分析模块提取的数据信息输入,调整输入端的任意系统评估参数,分析数据的相应变化,根据系统参数的变差异,以分析报告、显示图表方式将挖掘数据转换为对比数据表,同时在应用时不断对数据进行评估、监测与维护,相应的完善及改正意见反馈给数据挖掘的各个参数标准。
优选的,所述模版变量通常包括指函数变量、词典变量或者自定义变量,函数变量:模版和词典中以“$Func{“开头,以”}”结尾的字符串是一个函数变量:$Func{intRand()},其中,intRand()为内置函数。不支持函数嵌套;词典变量:模版中以“$Dic{“开头,以”}”结尾的字符串是一个词典变量,形如:$Dic{name},其中,name为词典文件中的一个词典名;自定义变量:模版中以“$Var{“开头,以”}”结尾的字符串是一个自定义变量,形如: $Var{tmp},其中,tmp是自定义变量名。自定义变量需要与函数变量或者词典变量联合使用,中间以“=”隔开,且无空格。定义方式: $Var{tmp}=$Func{doubleRand(0,10,2)},引用方式是;$Var{tmp}。
优选的,所述元素切分单元包括切片和切块,在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块;一般将字符型、时间型字段归纳为“维度”,将数值型字段归纳为“度量”通过拖拽的形式,我们可以将多个维度创建成一个维度层次,基于维度层次,进行上卷、下钻、钻透等操作。维度层次内部也可以调整层次之间的顺序关系。并且,对于时间维度来说,当拖拽到绑定区域后,自动形成时间维度层次。
本发明还提供一种基于深度数据挖掘的数据评估方法,包括以下步骤:
S1:数据采集和过滤,以加权方式生成采样数据;权重列必须为double 或int类型,按照该列的value大以加权方式生成采样数据;权重列必须为 double或int类型,按照该列的value大小采样;如col的值是1.2和1.0;则value=1.2所属样本的被采样的概率就大一些,然后对数据按照过滤表达式进行筛选。“过滤条件”中填写where语句后面的sq|脚本即可;“映射规则”可以rename字段名称;
S2:数据合并,类似sql join的功能,将两张表通过一个字段关联合成一张表;同时用户可以rename输出的字段名称,将两张表的数据按列合并,需要表的行数保持一致,否则报错;类似sql union的功能,将两张表的数据按行合并,左、右表选择输出的字段保持完全一致;“去重”是union,不“去重”是union all;
S3:增加序列号,在数据表第一列追加ID列;
S4:拆分,按照比例拆分样本集;
S5:缺失值填充;
S6:数据结论标准化,给予原始数据的均值(mean)和标准差(standarddeviation)进行数据的标准化;经过处理的数据符合标准正态分布,即均值为0,标准差为1。
优选的,所述数据采样还包括随机采样:以随机方式生成采样数据,每次采样是各自独立的。
优选的,所述过滤是对数据按照过滤表达式进行筛选;“过滤条件”中填写where语句后面的sq|脚本即可;“映射规则”可以rename字段名称。
与现有技术相比,本发明的有益效果是:在使用大量数据进行算法评估时,加快模型速度,提高模型计算效率,简化模型评估流程,利用数据分析模块提取的数据信息输入,调整输入端的任意系统评估参数,分析数据的相应变化,根据系统参数的变差异,以分析报告、显示图表方式将挖掘数据转换为对比数据表,满足其他分类模型的评估。
附图说明
图1为本发明的数据评估系统的系统框图;
图2为本发明的数据评估方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:
一种基于深度数据挖掘的数据评估系统,包括数据生成模块、数据存储模块、数据分析模块和数据评估模块,其特征在于:
所述数据生成模块包括数据生成器,数据生成器包括:模版变量提取、模版变量执行和模版变量替换三部分组成。
所述数据存储模块包括主控器、存储卡和PC端,利用主控器将采集的数据实时存储至存储卡中,在后续转存到PC机中;
所述数据分析模块包括元素切分单元、逻辑提取单元、赋值、数组横向合并和数组垂直合并;
所述数据评估模块,以数据分析模块提取的数据信息输入,调整输入端的任意系统评估参数,分析数据的相应变化,根据系统参数的变差异,以分析报告、显示图表方式将挖掘数据转换为对比数据表,同时在应用时不断对数据进行评估、监测与维护,相应的完善及改正意见反馈给数据挖掘的各个参数标准。
较佳的,所述模版变量通常包括指函数变量、词典变量或者自定义变量,函数变量:模版和词典中以“$Func{“开头,以”}”结尾的字符串是一个函数变量:$Func{intRand()},其中,intRand()为内置函数。不支持函数嵌套;词典变量:模版中以“$Dic{“开头,以”}”结尾的字符串是一个词典变量,形如:$Dic{name},其中,name为词典文件中的一个词典名;自定义变量:模版中以“$Var{“开头,以”}”结尾的字符串是一个自定义变量,形如: $Var{tmp},其中,tmp是自定义变量名。自定义变量需要与函数变量或者词典变量联合使用,中间以“=”隔开,且无空格。定义方式: $Var{tmp}=$Func{doubleRand(0,10,2)},引用方式是;$Var{tmp}。
较佳的,所述元素切分单元包括切片和切块,在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块;一般将字符型、时间型字段归纳为“维度”,将数值型字段归纳为“度量”通过拖拽的形式,我们可以将多个维度创建成一个维度层次,基于维度层次,进行上卷、下钻、钻透等操作。维度层次内部也可以调整层次之间的顺序关系。并且,对于时间维度来说,当拖拽到绑定区域后,自动形成时间维度层次。
请参阅图2,本发明还提供一种基于深度数据挖掘的数据评估方法,包括以下步骤:
S1:数据采集和过滤,以加权方式生成采样数据;权重列必须为double 或int类型,按照该列的value大以加权方式生成采样数据;权重列必须为double或int类型,按照该列的value大小采样;如col的值是1.2和1.0;则value=1.2所属样本的被采样的概率就大一些,然后对数据按照过滤表达式进行筛选。“过滤条件”中填写where语句后面的sq|脚本即可;“映射规则”可以rename字段名称;
S2:数据合并,类似sql join的功能,将两张表通过一个字段关联合成一张表;同时用户可以rename输出的字段名称,将两张表的数据按列合并,需要表的行数保持一致,否则报错;类似sql union的功能,将两张表的数据按行合并,左、右表选择输出的字段保持完全一致;“去重”是union,不“去重”是union all;
S3:增加序列号,在数据表第一列追加ID列;
S4:拆分,按照比例拆分样本集;
S5:缺失值填充;
S6:数据结论标准化,给予原始数据的均值(mean)和标准差(standarddeviation)进行数据的标准化;经过处理的数据符合标准正态分布,即均值为0,标准差为1。
较佳的,所述数据采样还包括随机采样:以随机方式生成采样数据,每次采样是各自独立的。
较佳的,所述过滤是对数据按照过滤表达式进行筛选;“过滤条件”中填写where语句后面的sql脚本即可;“映射规则”可以rename字段名称。
综上说述:本发明中提出的有益效果的是,在使用大量数据进行算法评估时,加快模型速度,提高模型计算效率,简化模型评估流程,利用数据分析模块提取的数据信息输入,调整输入端的任意系统评估参数,分析数据的相应变化,根据系统参数的变差异,以分析报告、显示图表方式将挖掘数据转换为对比数据表,满足其他分类模型的评估。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种基于深度数据挖掘的数据评估系统,包括数据生成模块、数据存储模块、数据分析模块和数据评估模块,其特征在于:
所述数据生成模块包括数据生成器,数据生成器包括:模版变量提取、模版变量执行和模版变量替换三部分组成;
所述数据存储模块包括主控器、存储卡和PC端,利用主控器将采集的数据实时存储至存储卡中,在后续转存到PC机中;
所述数据分析模块包括元素切分单元、逻辑提取单元、赋值、数组横向合并和数组垂直合并;
所述数据评估模块,以数据分析模块提取的数据信息输入,调整输入端的任意系统评估参数,分析数据的相应变化,根据系统参数的变差异,以分析报告、显示图表方式将挖掘数据转换为对比数据表,同时在应用时不断对数据进行评估、监测与维护,相应的完善及改正意见反馈给数据挖掘的各个参数标准。
2.根据权利要求1所述的一种基于深度数据挖掘的数据评估系统,其特征在于:所述模版变量通常包括指函数变量、词典变量或者自定义变量,函数变量:模版和词典中以“$Func{“开头,以”}”结尾的字符串是一个函数变量:$Func{intRand()},其中,intRand()为内置函数,不支持函数嵌套;词典变量:模版中以“$Dic{“开头,以”}”结尾的字符串是一个词典变量,形如:$Dic{name},其中,name为词典文件中的一个词典名;自定义变量:模版中以“$Var{“开头,以”}”结尾的字符串是一个自定义变量,形如:$Var{tmp},其中,tmp是自定义变量名,自定义变量需要与函数变量或者词典变量联合使用,中间以“=”隔开,且无空格,定义方式:$Var{tmp}=$Func{doubleRand(0,10,2)},引用方式是:$Var{tmp}。
3.根据权利要求1所述的一种基于深度数据挖掘的数据评估系统,其特征在于:所述元素切分单元包括切片和切块,在一部分维上选定值后,关心度量数据在剩余维上的分布;如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块;一般将字符型、时间型字段归纳为“维度”,将数值型字段归纳为“度量”通过拖拽的形式,我们可以将多个维度创建成一个维度层次,基于维度层次,进行上卷、下钻、钻透等操作;维度层次内部也可以调整层次之间的顺序关系,并且,对于时间维度来说,当拖拽到绑定区域后,自动形成时间维度层次。
4.根据权利要求1所述的基于深度数据挖掘的数据评估方法,其特征在于:包括以下步骤:
S1:数据采集和过滤,以加权方式生成采样数据;权重列必须为double或int类型,按照该列的value大以加权方式生成采样数据;权重列必须为double或int类型,按照该列的value大小采样;如col的值是1.2和1.0;则value=1.2所属样本的被采样的概率就大一些,然后对数据按照过滤表达式进行筛选;“过滤条件”中填写where语句后面的sq|脚本即可;“映射规则”可以rename字段名称;
S2:数据合并,类似sql join的功能,将两张表通过一个字段关联合成一张表;同时用户可以rename输出的字段名称,将两张表的数据按列合并,需要表的行数保持一致,否则报错;类似sql union的功能,将两张表的数据按行合并,左、右表选择输出的字段保持完全一致;“去重”是union, 不“去重”是union all;
S3:增加序列号,在数据表第一列追加ID列;
S4:拆分,按照比例拆分样本集;
S5:缺失值填充;
S6:数据结论标准化,给予原始数据的均值(mean) 和标准差(standard deviation)进行数据的标准化;经过处理的数据符合标准正态分布,即均值为0,标准差为1。
5.根据权利要求1所述的基于深度数据挖掘的数据评估方法,其特征在于:所述数据采样还包括随机采样:以随机方式生成采样数据,每次采样是各自独立的。
6.根据权利要求1所述的基于深度数据挖掘的数据评估方法,其特征在于:所述过滤是对数据按照过滤表达式进行筛选;“过滤条件”中填写where语句后面的sq|脚本即可;“映射规则”可以rename字段名称。
CN202010874421.2A 2020-08-27 2020-08-27 一种基于深度数据挖掘的数据评估系统及评估方法 Pending CN112214524A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010874421.2A CN112214524A (zh) 2020-08-27 2020-08-27 一种基于深度数据挖掘的数据评估系统及评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010874421.2A CN112214524A (zh) 2020-08-27 2020-08-27 一种基于深度数据挖掘的数据评估系统及评估方法

Publications (1)

Publication Number Publication Date
CN112214524A true CN112214524A (zh) 2021-01-12

Family

ID=74059345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010874421.2A Pending CN112214524A (zh) 2020-08-27 2020-08-27 一种基于深度数据挖掘的数据评估系统及评估方法

Country Status (1)

Country Link
CN (1) CN112214524A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996331A (zh) * 2022-06-10 2022-09-02 北京柏睿数据技术股份有限公司 一种数据挖掘控制方法和系统
CN115729935A (zh) * 2022-11-23 2023-03-03 北京水脉科技有限公司 一种基于orm框架的数据交互处理方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005078240A (ja) * 2003-08-29 2005-03-24 Mamoru Tanaka データマイニングによる知識抽出法
CN102201037A (zh) * 2011-06-14 2011-09-28 中国农业大学 农业灾害预测方法
CN105405069A (zh) * 2015-12-02 2016-03-16 国家电网公司 一种购电经营决策分析与数据处理方法
CN106022477A (zh) * 2016-05-18 2016-10-12 国网信通亿力科技有限责任公司 智能分析决策系统及方法
CN106599230A (zh) * 2016-12-19 2017-04-26 北京天元创新科技有限公司 一种分布式数据挖掘模型评估的方法与系统
CN107103050A (zh) * 2017-03-31 2017-08-29 海通安恒(大连)大数据科技有限公司 一种大数据建模平台及方法
CN107833595A (zh) * 2017-10-12 2018-03-23 山东大学 医疗大数据多中心整合平台及方法
CN107919983A (zh) * 2017-11-01 2018-04-17 中国科学院软件研究所 一种基于数据挖掘的天基信息网络效能评估系统及方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005078240A (ja) * 2003-08-29 2005-03-24 Mamoru Tanaka データマイニングによる知識抽出法
CN102201037A (zh) * 2011-06-14 2011-09-28 中国农业大学 农业灾害预测方法
CN105405069A (zh) * 2015-12-02 2016-03-16 国家电网公司 一种购电经营决策分析与数据处理方法
CN106022477A (zh) * 2016-05-18 2016-10-12 国网信通亿力科技有限责任公司 智能分析决策系统及方法
CN106599230A (zh) * 2016-12-19 2017-04-26 北京天元创新科技有限公司 一种分布式数据挖掘模型评估的方法与系统
CN107103050A (zh) * 2017-03-31 2017-08-29 海通安恒(大连)大数据科技有限公司 一种大数据建模平台及方法
CN107833595A (zh) * 2017-10-12 2018-03-23 山东大学 医疗大数据多中心整合平台及方法
CN107919983A (zh) * 2017-11-01 2018-04-17 中国科学院软件研究所 一种基于数据挖掘的天基信息网络效能评估系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XUYINGZHONG: "com.cloudwise.toushibao包找不到模拟数据生成器", HTTPS://BLOG.CSDN.NET/XUYINGZHONG/ARTICLE/DETAILS/89332226, pages 1 - 6 *
余音、未散: "数据处理与模型选择的一些注释", HTTPS://BLOG.CSDN.NET/Q383700092/ARTICLE/DETAILS/53889907, pages 1 - 8 *
腾讯云: "数据仓库与数据挖掘-多维数据操作", HTTPS://CLOUD.TENCENT.COM/DEVELOPER/ARTICLE/1558188, pages 1 - 7 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996331A (zh) * 2022-06-10 2022-09-02 北京柏睿数据技术股份有限公司 一种数据挖掘控制方法和系统
CN114996331B (zh) * 2022-06-10 2023-01-20 北京柏睿数据技术股份有限公司 一种数据挖掘控制方法和系统
CN115729935A (zh) * 2022-11-23 2023-03-03 北京水脉科技有限公司 一种基于orm框架的数据交互处理方法及系统

Similar Documents

Publication Publication Date Title
CN110674841B (zh) 一种基于聚类算法的测井曲线识别方法
CN110135494A (zh) 基于最大信息系数和基尼指标的特征选择方法
CN111008693B (zh) 一种基于数据压缩的网络模型构建方法、系统和介质
CN109711429A (zh) 一种储层评价分类方法及装置
CN112835570A (zh) 一种基于机器学习的可视化数学建模方法和系统
CN113344050A (zh) 一种基于深度学习的岩性智能化识别方法及系统
CN113420009B (zh) 一种基于大数据的电磁数据分析装置、系统及方法
CN112214524A (zh) 一种基于深度数据挖掘的数据评估系统及评估方法
CN108304382A (zh) 基于制造过程文本数据挖掘的质量分析方法与系统
CN110389950A (zh) 一种快速运行的大数据清洗方法
CN107679135A (zh) 面向网络文本大数据的话题检测与跟踪方法、装置
CN109492022A (zh) 基于语义的改进的k-means算法的搜索方法
CN117593653B (zh) 基于遥感监测的地质灾害预警方法
CN113052225A (zh) 基于聚类算法和时序关联规则的报警收敛方法及装置
Chu et al. Co-training based on semi-supervised ensemble classification approach for multi-label data stream
Keim et al. Visualization
CN117171244A (zh) 基于数据中台构建的企业数据管理系统及其数据分析方法
CN106815320B (zh) 基于拓展三维直方图的调研大数据可视化建模方法及系统
CN113743453A (zh) 一种基于随机森林的人口数量预测方法
Bai et al. Association rule mining algorithm based on Spark for pesticide transaction data analyses
CN104391326A (zh) 一种地震属性集合的组合选择方法
Ma The Research of Stock Predictive Model based on the Combination of CART and DBSCAN
Malik et al. Machine Learning in Big Data handling: Challenges and Prospects
CN108062325A (zh) 比较方法和比较系统
Luo et al. Research on the anonymous customer segmentation model of telecom

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination