CN109523031B - 一种用于深度分析的大数据智能机器学习系统 - Google Patents

一种用于深度分析的大数据智能机器学习系统 Download PDF

Info

Publication number
CN109523031B
CN109523031B CN201811365158.3A CN201811365158A CN109523031B CN 109523031 B CN109523031 B CN 109523031B CN 201811365158 A CN201811365158 A CN 201811365158A CN 109523031 B CN109523031 B CN 109523031B
Authority
CN
China
Prior art keywords
data
module
analysis
analyzed
analyzing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811365158.3A
Other languages
English (en)
Other versions
CN109523031A (zh
Inventor
张军
苏玉召
周涛
韩勇
赵彬
王志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Zhihuiyun Big Data Co ltd
Original Assignee
Henan Zhihuiyun Big Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Zhihuiyun Big Data Co ltd filed Critical Henan Zhihuiyun Big Data Co ltd
Priority to CN201811365158.3A priority Critical patent/CN109523031B/zh
Publication of CN109523031A publication Critical patent/CN109523031A/zh
Application granted granted Critical
Publication of CN109523031B publication Critical patent/CN109523031B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于深度分析的大数据智能机器学习系统,涉及大数据分析技术领域,本发明包括数据采集模块、数据处理分析模块、数据优化模块、分析任务调度模块和可视化模块,其中,分析任务调度模块:用于分析每组待分析数据所需要调用的算法库中的算法模型,对运用同一算法模型的待分析数据进行分析排队,允许数据处理分析模块并行对运用不同算法模型的待分析数据进行分析;可视化模块:用于对原始分析结果、最终分析结果以及各分析任务进程进行可视化展示,本发明能够在分析大量运用不同算法模型的待分析数据时,提升数据处理效率,及时对分析任务进行响应。

Description

一种用于深度分析的大数据智能机器学习系统
技术领域
本发明涉及大数据分析技术领域,更具体的是涉及一种用于深度分析的大数据智能机器学习系统。
背景技术
近年来。大数据领域发展出大量技术和产品,成为大数据获取、存储、处理分析或可视化的有效手段。但使用这些技术和产品存在较高的技术门槛,怎样将大数据技术以标准化的形式组织起来,为使用者提供便捷、高效的使用方法,成为一项巨大挑战。
以许多大互联网公司为代表的一系列基于云平台的大数据分析产品应运而生,这些产品凭借着丰富的云计算资源和友好的交互模式为大数据分析任务的组织提供了相对高效和相对便利的手段。但企业的数据分析人员、数据科学家、高校科研人员往往精通领域知识和业务背景,却对数据分析的技术细节不甚熟悉,导致这些大数据分析产品仍然具有较高的技术门槛。尤其是在数据分析技术发展迅速的今天,掌握各种数据分析技术需要耗费巨大的学习成本和人力成本。
另外,在实际应用中,现有的大数据分析系统仅能对采集到的数据进行逐一分析,存在数据处理效率不够高,响应不够及时的问题。
发明内容
本发明的目的在于:为了解决现有的大数据分析系统仅能对采集到的数据进行逐一分析,存在数据处理效率不够高,响应不够及时的问题,本发明提供一种用于深度分析的大数据智能机器学习系统。
本发明为了实现上述目的具体采用以下技术方案:
一种用于深度分析的大数据智能机器学习系统,包括数据采集模块、数据处理分析模块、数据优化模块、分析任务调度模块和可视化模块,其中,
数据采集模块:用于采集用户输入的多组待分析数据;
数据处理分析模块:用于对采集到的多组待分析数据进行预处理,然后利用预先建立的算法库分别对预处理后的数据进行分析,得到相对应的原始分析结果;
数据优化模块:利用优化模型对原始分析结果进行优化,得到最终分析结果;
分析任务调度模块:用于分析每组待分析数据所需要调用的算法库中的算法模型,对运用同一算法模型的待分析数据进行分析排队,允许数据处理分析模块并行对运用不同算法模型的待分析数据进行分析;
可视化模块:用于对原始分析结果、最终分析结果以及各分析任务进程进行可视化展示。
进一步的,所述数据处理分析模块包括数据存储模块、数据预处理模块和数据分析模块,数据存储模块用于对采集到的多组待分析数据进行存储,数据预处理模块与数据分析模块相关联,数据预处理模块根据待分析数据所需要调用的算法模型对待分析数据进行相应的预处理,数据分析模块内置有算法库,算法库包括若干用于数据分析的算法模型,通过不同的算法模型对待分析数据进行相应分析,得到原始分析结果。
进一步的,所述算法模型包括分类机器学习算法模型、聚类机器学习算法模型、推荐与检索机器学习算法模型、数据表示机器学习算法模型及其他可用于数据分析的算法模型。
进一步的,所述数据优化模块对原始分析结果进行基于机器学习的智能分析,使原始分析结果优化为最终分析结果。
进一步的,所述分析任务调度模块与数据存储模块通讯,当数据存储模块中存储的多组待分析数据分别调用不同的算法模型时,分析任务调度模块允许数据预处理模块并行对多组待分析数据进行预处理,当数据存储模块中存储的多组待分析数据需要调用同一算法模型时,分析任务调度模块逐一调度数据预处理模块对待分析数据进行预处理,当前一待分析数据完成预处理后,再对后一待分析数据进行预处理。
本发明的有益效果如下:
1、本发明利用分析任务调度模块分析每组待分析数据所需要调用的算法库中的算法模型,对运用同一算法模型的待分析数据进行分析排队,允许数据处理分析模块并行对运用不同算法模型的待分析数据进行分析,能够在分析大量运用不同算法模型的待分析数据时,提升数据处理效率,及时对分析任务进行响应。
2、本发明的系统集数据处理、算法实现、计算优化、可视化于一体,系统内置了分类机器学习算法模型、聚类机器学习算法模型、推荐与检索机器学习算法模型、数据表示机器学习算法模型及其他可用于数据分析的算法模型,提供了丰富的开发工具与程序包,能够快速构建大数据分析任务,简单易用、强大且直观地为大数据分析、数据挖掘、机器学习等提供技术支持。
附图说明
图1是本发明的整体模块示意图。
图2是本发明数据处理分析模块的示意图。
图3是本发明实施例1中聚类算法示意图。
具体实施方式
为了本技术领域的人员更好的理解本发明,下面结合附图和以下实施例对本发明作进一步详细描述。
实施例1
如图1和图2所示,本实施例提供一种用于深度分析的大数据智能机器学习系统,包括数据采集模块、数据处理分析模块、数据优化模块、分析任务调度模块和可视化模块,其中,
数据采集模块:用于采集用户输入的多组待分析数据;
数据处理分析模块:用于对采集到的多组待分析数据进行预处理,然后利用预先建立的算法库分别对预处理后的数据进行分析,得到相对应的原始分析结果;
数据优化模块:利用优化模型对原始分析结果进行优化,得到最终分析结果;所述数据优化模块对原始分析结果进行基于机器学习的智能分析,使原始分析结果优化为最终分析结果;
分析任务调度模块:用于分析每组待分析数据所需要调用的算法库中的算法模型,对运用同一算法模型的待分析数据进行分析排队,允许数据处理分析模块并行对运用不同算法模型的待分析数据进行分析;
可视化模块:用于对原始分析结果、最终分析结果以及各分析任务进程进行可视化展示。
所述数据处理分析模块包括数据存储模块、数据预处理模块和数据分析模块,数据存储模块用于对采集到的多组待分析数据进行存储,数据预处理模块与数据分析模块相关联,数据预处理模块根据待分析数据所需要调用的算法模型对待分析数据进行相应的预处理,数据分析模块内置有算法库,算法库包括若干用于数据分析的算法模型,通过不同的算法模型对待分析数据进行相应分析,得到原始分析结果;
所述算法模型包括分类机器学习算法模型、聚类机器学习算法模型、推荐与检索机器学习算法模型、数据表示机器学习算法模型及其他可用于数据分析的算法模型;
聚类算法通常是按照中心点或者分层的方式对输入的待分析数据进行归并,即聚类算法计算种群中的距离,根据距离的远近将待分析数据划分为多个族群,按照待分析数据最大的共同点将其进行归类,目前较为常用的聚类算法包括k-Means算法及期望最大化算法,如图3所示,即是采用聚类算法将所输入的待分析数据分为了3类;
所述分析任务调度模块与数据存储模块通讯,当数据存储模块中存储的多组待分析数据分别调用不同的算法模型时,分析任务调度模块允许数据预处理模块并行对多组待分析数据进行预处理,当数据存储模块中存储的多组待分析数据需要调用同一算法模型时,分析任务调度模块逐一调度数据预处理模块对待分析数据进行预处理,当前一待分析数据完成预处理后,再对后一待分析数据进行预处理。
本实施例利用分析任务调度模块分析每组待分析数据所需要调用的算法库中的算法模型,对运用同一算法模型的待分析数据进行分析排队,允许数据处理分析模块并行对运用不同算法模型的待分析数据进行分析,能够在分析大量运用不同算法模型的待分析数据时,提升数据处理效率,及时对分析任务进行响应。
以上所述,仅为本发明的较佳实施例,并不用以限制本发明,本发明的专利保护范围以权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (5)

1.一种用于深度分析的大数据智能机器学习系统,其特征在于:包括数据采集模块、数据处理分析模块、数据优化模块、分析任务调度模块和可视化模块,其中,
数据采集模块:用于采集用户输入的多组待分析数据;
数据处理分析模块:用于对采集到的多组待分析数据进行预处理,然后利用预先建立的算法库分别对预处理后的数据进行分析,得到相对应的原始分析结果;
数据优化模块:利用优化模型对原始分析结果进行优化,得到最终分析结果;
分析任务调度模块:用于分析每组待分析数据所需要调用的算法库中的算法模型,对运用同一算法模型的待分析数据进行分析排队,允许数据处理分析模块并行对运用不同算法模型的待分析数据进行分析;
可视化模块:用于对原始分析结果、最终分析结果以及各分析任务进程进行可视化展示。
2.根据权利要求1所述的一种用于深度分析的大数据智能机器学习系统,其特征在于:所述数据处理分析模块包括数据存储模块、数据预处理模块和数据分析模块,数据存储模块用于对采集到的多组待分析数据进行存储,数据预处理模块与数据分析模块相关联,数据预处理模块根据待分析数据所需要调用的算法模型对待分析数据进行相应的预处理,数据分析模块内置有算法库,算法库包括若干用于数据分析的算法模型,通过不同的算法模型对待分析数据进行相应分析,得到原始分析结果。
3.根据权利要求2所述的一种用于深度分析的大数据智能机器学习系统,其特征在于:所述算法模型包括分类机器学习算法模型、聚类机器学习算法模型、推荐与检索机器学习算法模型、数据表示机器学习算法模型及其他可用于数据分析的算法模型。
4.根据权利要求1所述的一种用于深度分析的大数据智能机器学习系统,其特征在于:所述数据优化模块对原始分析结果进行基于机器学习的智能分析,使原始分析结果优化为最终分析结果。
5.根据权利要求2所述的一种用于深度分析的大数据智能机器学习系统,其特征在于:所述分析任务调度模块与数据存储模块通讯,当数据存储模块中存储的多组待分析数据分别调用不同的算法模型时,分析任务调度模块允许数据预处理模块并行对多组待分析数据进行预处理,当数据存储模块中存储的多组待分析数据需要调用同一算法模型时,分析任务调度模块逐一调度数据预处理模块对待分析数据进行预处理。
CN201811365158.3A 2018-11-16 2018-11-16 一种用于深度分析的大数据智能机器学习系统 Active CN109523031B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811365158.3A CN109523031B (zh) 2018-11-16 2018-11-16 一种用于深度分析的大数据智能机器学习系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811365158.3A CN109523031B (zh) 2018-11-16 2018-11-16 一种用于深度分析的大数据智能机器学习系统

Publications (2)

Publication Number Publication Date
CN109523031A CN109523031A (zh) 2019-03-26
CN109523031B true CN109523031B (zh) 2022-12-13

Family

ID=65778061

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811365158.3A Active CN109523031B (zh) 2018-11-16 2018-11-16 一种用于深度分析的大数据智能机器学习系统

Country Status (1)

Country Link
CN (1) CN109523031B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619464A (zh) * 2019-09-12 2019-12-27 阿里巴巴集团控股有限公司 数据分析方法及其装置
CN112817711A (zh) * 2021-01-22 2021-05-18 海南大学 基于微服务的数据融合系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015188395A1 (zh) * 2014-06-13 2015-12-17 周家锐 一种面向大数据的代谢组特征数据分析方法及其系统
CN107943463A (zh) * 2017-12-15 2018-04-20 清华大学 交互式自动化大数据分析应用开发系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015188395A1 (zh) * 2014-06-13 2015-12-17 周家锐 一种面向大数据的代谢组特征数据分析方法及其系统
CN107943463A (zh) * 2017-12-15 2018-04-20 清华大学 交互式自动化大数据分析应用开发系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Spark的用户行为分析系统框架研究;殷乐等;《网络安全技术与应用》;20180215(第02期);全文 *

Also Published As

Publication number Publication date
CN109523031A (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN111240662A (zh) 一种基于任务可视化拖拽的spark机器学习系统及学习方法
CN104820670B (zh) 一种电力信息大数据的采集和存储方法
CN111259064B (zh) 一种可视化的自然语言分析挖掘系统及其建模方法
CN109543067A (zh) 基于人工智能的企业生产状况实时监控分析系统
CN106547882A (zh) 一种智能电网中营销大数据的实时处理方法及系统
CN104699772A (zh) 一种基于云计算的大数据文本分类方法
CN109523031B (zh) 一种用于深度分析的大数据智能机器学习系统
CN112183379A (zh) 一种面向报表的多维度管理分析方法及系统
CN109241030A (zh) 机器人作业数据分析服务器和机器人作业数据分析方法
CN108446391A (zh) 数据的处理方法、装置、电子设备和计算机可读介质
CN109448788A (zh) 基因组学及生物信息学的微生物组学在线分析平台架构
CN106503079A (zh) 一种日志管理方法及系统
CN104809246A (zh) 充电数据的处理方法及装置
CN113741883A (zh) 一种rpa轻量级数据中台系统
CN115809229A (zh) 一种基于多维数据属性的评估管理方法及系统
Arora et al. Big data: A review of analytics methods & techniques
CN111581298B (zh) 大数据仓库的异构数据整合系统及方法
CN103207804A (zh) 基于集群作业日志的MapReduce负载模拟方法
CN110968596A (zh) 一种基于标签系统的数据处理方法
CN111274385A (zh) 一种基于文本相似度的日志聚类分类技术
CN114356115A (zh) 智能录入表单的方法、电子设备及计算机可读存储介质
CN104077398B (zh) 基于Hadoop多丛集环境的工作分派系统及方法
CN103942235A (zh) 针对大规模数据集交叉比较的分布式计算系统和方法
CN107451283A (zh) 数据的分析方法及装置
CN112817711A (zh) 基于微服务的数据融合系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant