CN110008259A - 可视化数据分析的方法及终端设备 - Google Patents

可视化数据分析的方法及终端设备 Download PDF

Info

Publication number
CN110008259A
CN110008259A CN201910126579.9A CN201910126579A CN110008259A CN 110008259 A CN110008259 A CN 110008259A CN 201910126579 A CN201910126579 A CN 201910126579A CN 110008259 A CN110008259 A CN 110008259A
Authority
CN
China
Prior art keywords
data
analyzed
analysis
algorithm
visualized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910126579.9A
Other languages
English (en)
Inventor
吴又奎
钟秋发
乔保保
黄小浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Hengyun Co Ltd
Original Assignee
Zhongke Hengyun Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Hengyun Co Ltd filed Critical Zhongke Hengyun Co Ltd
Priority to CN201910126579.9A priority Critical patent/CN110008259A/zh
Publication of CN110008259A publication Critical patent/CN110008259A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于数据分析技术领域,提供了一种可视化数据分析的方法及终端设备,该方法包括:创建数据源;对所述数据源进行预处理,获得预处理后的待分析数据;采用可视的多维度的分析方式对所述待分析数据进行分析和/或预测;将分析和/或预测后的结果进行可视化展示,可以在大数据时代提供相对规范的可视化平台,支持应用与平台的无缝连接,并根据需要选择应用不同的算法进行数据分析辅助用户进行决策。

Description

可视化数据分析的方法及终端设备
技术领域
本发明属于数据分析技术领域,尤其涉及一种可视化数据分析的方法及终端设备。
背景技术
随着Web2.0时代的到来,数据量呈几何级态势增长,这些海量数据不仅结构多样,而且动态性极强。传统的数据分析平台无法分析大数据,并且查询分析程序运行缓慢。另外,对各类数据资源分析展示成为一种数据处理、统计查询、挖掘分析的手段。各行业的应用系统大多采用Web应用架构,许多企业都将开源的数据可视化工具集成到Web应用中,增强可视化功能调整的灵活性。但是目前企业中Web应用缺少相对规范的可视化平台,并且已有的可视化平台与应用系统紧密集成较为困难,一般以应用系统的辅助系统形式独立运行和使用。
发明内容
有鉴于此,本发明实施例提供了一种可视化数据分析的方法及终端设备,以解决现有技术中在大数据时代,对大数据分析缺少相对规范的可视化平台,并且已有的可视化平台与应用系统紧密集成较为困难的问题。
本发明实施例的第一方面提供了一种可视化数据分析的方法,包括:
创建数据源;
对所述数据源进行预处理,获得预处理后的待分析数据;
采用可视的多维度的分析方式对所述待分析数据进行分析和/或预测;
将分析和/或预测后的结果进行可视化展示。
在一实施例中,所述对所述数据源进行预处理,获得预处理后的待分析数据,包括:
对所述数据源中的数据进行空值处理、异常值处理或者离散处理,获得处理后的待分析数据。
在一实施例中,所述采用可视的多维度的分析方式对所述待分析数据进行分析和/或预测,包括:
接收用户拖拽入操作页面的至少一个算法标识,所述算法标识与对待分析数据进行分析和/或预测的算法链接一一对应;
调用所述算法标识对应的算法;
在所述操作页面展示对所述待分析数据分析和/或预测过程。
在一实施例中,所述采用可视的多维度的分析方式对所述待分析数据进行分析和/或预测,包括:
采用可视的多维度的方式对所述待分析数据进行分析;
根据预训练模型对分析后的数据进行预测。
在一实施例中,所述根据预训练模型对分析后的数据进行预测,包括:
获取训练数据和验证数据;
根据所述训练数据训练所述预训练模型,获取预测模型,所述预训练模型包括不同类型的算法或者自定义算法;
将所述验证数据导入所述预测模型进行验证,确定验证后的目标模型;
将所述分析后的数据导入所述目标模型进行数据预测。
本发明实施例的第二方面提供了一种可视化数据分析的装置,包括:
创建模块,用于创建数据源;
预处理模块,用于对所述数据源进行预处理,获得预处理后的待分析数据;
处理模块,用于采用可视的多维度的分析方式对所述待分析数据进行分析和/或预测;
显示模块,用于将分析和/或预测后的结果进行可视化展示。
在一实施例中,所述处理模块,包括:
接收子模块,用于接收用户拖拽入操作页面的至少一个算法标识,所述算法标识与对待分析数据进行分析和/或预测的算法链接一一对应;
调用模块,用于调用所述算法标识对应的算法;
处理子模块,用于在所述操作页面展示对所述待分析数据分析和/或预测过程。
在一实施例中,所述处理模块,用于采用可视的多维度的方式对所述待分析数据进行分析;以及根据预训练模型对分析后的数据进行预测。
本发明实施例的第三方面提供了一种终端设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述可视化数据分析的方法所述的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述可视化数据分析的方法所述的步骤。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例通过创建数据源;对所述数据源进行预处理,获得预处理后的待分析数据;采用可视的多维度的分析方式对所述待分析数据进行分析和/或预测;将分析和/或预测后的结果进行可视化展示,可以在大数据时代提供相对规范的可视化平台,支持应用与平台的无缝连接,并根据需要选择应用不同的算法进行数据分析辅助用户进行决策。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种可视化数据分析的方法的实现流程示意图;
图2是本发明实施例提供的另一种可视化数据分析的方法的实现流程示意图;
图3是本发明实施例提供的一种可视化数据分析的装置的示例图;
图4是本发明实施例提供的另一种可视化数据分析的装置的示意图;
图5是本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
本发明实施例提供一种可视化数据分析的,如图1所示,该方法包括以下步骤:
步骤101,创建数据源。
可选的,对数据源进行配置以及数据源管理,建立数据库的链接,这样可以直接从数据库中获取数据源。
步骤102,对所述数据源进行预处理,获得预处理后的待分析数据。
可选的,因数据源的类型多种多样,数据质量无法预知,需要考虑数据的噪声、冗余和一致性,并且需要更多的存储空间,同时也会对数据分析产生干扰和影响,直接分析原始数据甚至可能得到错误的分析结果。因此,可先对所述数据源中的数据进行空值处理、异常值处理或者离散处理,获得处理后的待分析数据,再在后续步骤中对处理后的待分析数据进一步的分析和/或预测,能够提高数据分析和/或预测的准确度。
进一步的,空值处理是数据预处理的一部分,由于采集的数据存在一些属性值的缺省,如果不做处理,将直接影响后续算法的挖掘效果,严重时甚至得到错误的结果。目前最常用的空值处理方法是使用预设值填充空缺值,如用一个全局常量替换空缺值,使用属性的平均值填充空缺值或将所有元组按照某些属性分类,然后用同一类中属性的平均值填充空缺值。
进一步的,在数据预处理时,对于异常值的处理需视具体情况来确定处理方法:删除、视为缺失值、平均值修正或不处理。
进一步的,由于决策树、朴素贝叶斯等算法,都是基于离散型的数据进行计算,因此对对数据预处理还可以包括离散处理。离散处理是将连续的数据进行分段,使其变为一段段离散化的区间,分段的原则有基于等距离、等频率或优化的方法。
进一步的,可以在可视化数据分析系统的操作界面建立模型或者创建模板对数据源进行预处理,即创建模型对数据源进行预处理,或者创建模板,根据模板流程对数据源进行预处理。
步骤103,采用可视的多维度的方式对所述待分析数据进行分析和/或预测。
可选的,通过可视的多维度的方式对数据进行分析查询和产生报表,使用户能从多个角度去观察数据仓库中的数据,从而深入的理解其中的信息。
可选的,在系统操作页面进行模型创建等一系列流程时采用全过程拖拽式进行页面的展示和实现。具体地,接收用户拖拽入操作页面的至少一个算法标识,所述算法标识与对待分析数据进行分析和/或预测的算法链接一一对应。例如,用户希望采用K-means算法对分析后的数据进行分析,则可以将K-means算法标识拖拽入操作页面,这样触发采用K-means算法的指令,然后进一步的,调用所述算法标识对应的算法,启动分析流程,在所述操作页面展示对所述待分析数据分析和/或预测过程。
进一步的,如图2所示,步骤103包括以下子步骤:
步骤1031,采用可视的多维度的方式对所述待分析数据进行分析。
步骤1032,根据预训练模型对分析后的数据进行预测。
在深度学习过程中,由于计算资源有限或者训练数据集较小,但我们又想获得较好较稳定的结果,故我们会首先获取一些已经训练好的模型,即预训练模型,直接对预训练模型进行重新训练获得新模型,而不必从零开始训练一个新模型,这样可以节省大量的人力物力。
一个预训练的源模型是从可用模型中挑选出来的,很多研究机构都发布了基于超大数据集的模型,这些都可以作为源模型的备选者。
预测数据是对采样数据轨迹的概括,反应的是采样数据内部结构的一般特征。对一个具体采样数据,就有选择适当预测模型的问题。正确选择预测模型在数据挖掘过程中是具有关键性的一步。有时由于模型选择不当,造成预测误差过大,就需要改换模型。必要时,可同时采用几种预测模型进行运算,以便对比、选择。预测分析后的数据包括获取训练数据和验证数据;根据所述训练数据训练所述预训练模型,获取预测模型,所述预训练模型包括不同类型的算法或者自定义算法;将所述验证数据导入所述预测模型进行验证,确定验证后的目标模型;将所述分析后的数据导入所述目标模型进行数据预测。
在本实施例中对待分析数据进行分析和/或预测时可以采用以下算法,以下算法可以分为4类:回归算法、关联规则算法、分类算法与聚类算法。分类算法被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。聚类算法分析的数据对象不考虑已知的类标号,对象根据最大内部的相似性、最小化类之间的相似性的原则进行聚类或分组,形成的每一簇可以被看作一个对象类,聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。其中属于分类算法的有:算法(1)至算法(10),属于聚类算法的有算法(11)至算法(15),属于关联规则算法的有算法(16)和算法(17),属于回归算法的有算法(18)至算法(24)。各算法具体列举如下:
(1)贝叶斯算法;
贝叶斯算法又称贝叶斯网络或信度网络,是Bayes方法的扩展,是一种不确定知识表达和推理领域最有效的分析理论模型。可选的,条件概率的定义为事件A在另外一个事件B已经发生的条件下发生的概率,记为P(A|B)。条件概率计算公式可以采用表示。贝叶斯公式可以采用表示。在贝叶斯网络中,给定其父节点,其中的祖先节点与父节点的关系由节点的固定拓扑顺序决定。
贝叶斯推理分析的主要目标为在给定观察节点值的条件下,估计隐藏节点的值。如果可以观察到贝叶斯模型的“叶”,并尝试分析推断导致这一结果的隐藏节点值,称为诊断,或自底向上的推理。如果可以观察到贝叶斯模型的“根”,并尝试预测其结果,称为预测,或自顶向下的推理。
(2)ID3决策树算法;
决策树算法的核心是在决策树的各级节点上,使用信息增益方法作为属性的选择标准,确定生成每个节点时所应采用的合适属性。
(3)RBF神经网络算法;
RBF神经网络算法又称RBF径向基神经网络,能够以任意精度逼近任意连续函数,特别适合解决分类问题。
(4)AdaBoostM1算法;
AdaBoostM1算法是Adaboost算法中的一种,对传统的adaboost算法的改进,用来解决多类单标签问题。
(5)KStar算法;
KStar算法是基于实例的分类器,由一些相似性函数来决定的,使用了基于信息熵的距离函数。
(6)SVM支持向量机;
SVM向量机是在研究统计学习理论的基础上发展起来的一种新的机器学习算法,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。
(7)K-最近邻分类算法;
K-最近邻分类算法是一个理论上比较成熟的方法,也是最简单的机器学习算法之一,对于类域的交叉或重叠较多的待分样本集来说,K-最近邻分类算法较其他方法更为适合。
(8)朴素贝叶斯分类器;
朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类器。
(9)CART决策树;
CART决策树是一种非参数分类和回归方法,根据能够带来最大杂度损失的分支条件来拆分样本。
(10)C4.5决策树算法;
C4.5决策树算法相对于ID3算法的重要改进是使用信息增益率来选择节点属性,克服了ID3算法的不足,C4.5决策树算法不仅能够处理离散的描述属性,也能够处理连续的描述属性。
(11)K-means算法;
K-means算法是Mac Queen提出的一种非监督实时聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K。
假设数据集D包含n个欧式空间中的对象。划分方法把D中的对象分配到k个簇C1,C2,...,Ck,中,使得对于一个目标函数用来评估划分的质量,使得簇内对象相互相似,而与其他簇中的对象相异。簇Ci的形心:一般的,用簇Ci中的对象的均值或中心点定义簇的形心。对象p∈Ci与簇的形心ci之差:dist(p,ci)=(p2+ci 2)1/2。簇Ci的质量可以用簇内变量差度量,簇内变量差可以采用表示,其中E是数据中所有对象的误差的平方和。这个目标函数可以使生成的结果簇尽可能紧凑和独立。
(12)快速k-Means算法;
快速k-Means算法是在在传统K-means算法上实施改进,提出均衡化评价函数的概念,不需要先给定K值的前提下自动生成聚类的数目,降低算法的时间复杂度。
(13)DBScan密度算法;
DBScan密度算法是基于密度的聚类方法,它根据对象周围的密度不断增长聚类,能从含有噪声的空间数据库中发现任意形状的聚类。
(14)KMedoids聚类算法;
KMedoids聚类算法是K均值算法的改进,减轻了k均值算法对孤立点的敏感性,选用簇中离平均值最近的对象作为簇中心。
(15)系统聚类算法;
系统聚类算法也叫多层次聚类,分类单位所处的位置越低,其所包含的个体越少,但这些个体间的共同特征越多。
(16)Apriori算法;
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,其核心是基于两阶段频集思想的递推算法,该关联规则在分类上属于单维、单层、布尔关联规则。
(17)相关性分析;
相关性分析为分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程。
(18)ARIMA模型;
非平稳序列差分后会显示出平稳序列的性质,称为差分平稳序列,对差分平稳序列可以使用ARIMA模型进行拟合。
(19)指数平滑法;
指数平滑法是平滑法的一种,常用于趋势分析和预测,利用修匀技术,削弱短期随机波动对序列的影响,使序列平滑化。
(20)逻辑回归;
逻辑回归(Logical Regression)是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型的非线性回归
(21)保序回归;
保序回归研究的是在约束条件下基于平方损失的最优化问题,算法有PAVA法、最大最小公式以及MLS算法等。
(22)线性回归;
线性回归算法适用于因变量与自变量是线性关系,对一个或多个自变量和因变量之间的线性关系进行建模,使用最小二乘法求解模型系数。
(23)逐步回归;
逐步回归算法可用于筛选并剔除引起多重共线性的变量,以保证最后所得到的解释变量集是最优的。
(24)C4.5回归树;
C4.5回归树是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。
步骤104,将分析和/或预测后的结果进行可视化展示。
将分析和/或预测后的结果进行可视化展示,便于用户观察或者进行辅助决策。
本发明实施例提供一种可视化数据分析的方法,通过在大数据环境下,集成数据挖掘算法,利用拖拽式以及可视化平台实现多源数据的创建、分析及展示工作,提供集成数据可视化技术的扩展机制以支持多种数据可视化技术集成及应用,提供系统集成解决方案以支持应用与平台的无缝连接,并根据需要选择应用不同的算法进行数据分析辅助用户进行决策。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本发明实施例提供一种可视化数据分析的装置,如图3所示,该装置包括:创建模块301,预处理模块302,处理模块303,显示模块304。
创建模块301,用于创建数据源。
预处理模块302,用于对所述数据源进行预处理,获得预处理后的待分析数据。
可选的,所述预处理模块302,用于对所述数据源中的数据进行空值处理、异常值处理或者离散处理,获得处理后的待分析数据。
处理模块303,用于采用可视的多维度的分析方式对所述待分析数据进行分析和/或预测。
可选的,如图4所示,所述处理模块303,包括:接收子模块3031,调用子模块3032,处理子模块3033。
接收子模块3031,用于接收用户拖拽入操作页面的至少一个算法标识,所述算法标识与对待分析数据进行分析和/或预测的算法链接一一对应。
调用子模块3032,用于调用所述算法标识对应的算法;
处理子模块3033,用于在所述操作页面展示对所述待分析数据分析和/或预测过程。
进一步的,所述处理模块303,还用于采用可视的多维度的方式对所述待分析数据进行分析;以及根据预训练模型对分析后的数据进行预测。
进一步的,所述处理模块303根据预训练模型对分析后的数据进行预测,包括:获取训练数据和验证数据;根据所述训练数据训练所述预训练模型,获取预测模型,所述预训练模型包括不同类型的算法或者自定义算法;将所述验证数据导入所述预测模型进行验证,确定验证后的目标模型;将所述分析后的数据导入所述目标模型进行数据预测。
显示模块304,用于将分析和/或预测后的结果进行可视化展示。
本发明实施例提供一种可视化数据分析的装置,预处理模块对数据源进行预处理,获得预处理后的待分析数据;处理模块采用可视的多维度的分析方式对所述待分析数据进行分析和/或预测;显示模块将分析和/或预测后的结果进行可视化展示,可以供用户直观浏览并进行辅助决策,实现对数据的可视化统计分析。
图5是本发明一实施例提供的终端设备的示意图。如图5所示,该实施例的终端设备5包括:处理器501、存储器502以及存储在所述存储器502中并可在所述处理器501上运行的计算机程序503,例如可视化数据分析的程序。所述处理器501执行所述计算机程序503时实现上述可视化数据分析的方法实施例中的步骤,例如图1所示的步骤101至104。所述处理器501执行所述计算机程序503时实现上述各装置实施例中各模块的功能,例如图3所示模块301至304的功能。
示例性的,所述计算机程序503可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器502中,并由所述处理器501执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序503在所述可视化数据分析的装置或者终端设备5中的执行过程。例如,所述计算机程序503可以被分割成创建模块301,预处理模块302,处理模块303,显示模块304,各模块具体功能如图3所示,在此不再一一赘述。
所述终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器501、存储器502。本领域技术人员可以理解,图5仅仅是终端设备5的示例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器501可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器502可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器502也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器502还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器502用于存储所述计算机程序以及所述终端设备5所需的其他程序和数据。所述存储器502还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种可视化数据分析的方法,其特征在于,包括:
创建数据源;
对所述数据源进行预处理,获得预处理后的待分析数据;
采用可视的多维度的分析方式对所述待分析数据进行分析和/或预测;
将分析和/或预测后的结果进行可视化展示。
2.如权利要求1所述的可视化数据分析的方法,其特征在于,所述对所述数据源进行预处理,获得预处理后的待分析数据,包括:
对所述数据源中的数据进行空值处理、异常值处理或者离散处理,获得处理后的待分析数据。
3.如权利要求2所述的可视化数据分析的方法,其特征在于,所述采用可视的多维度的分析方式对所述待分析数据进行分析和/或预测,包括:
接收用户拖拽入操作页面的至少一个算法标识,所述算法标识与对待分析数据进行分析和/或预测的算法链接一一对应;
调用所述算法标识对应的算法;
在所述操作页面展示对所述待分析数据分析和/或预测过程。
4.如权利要求3所述的可视化数据分析的方法,其特征在于,所述采用可视的多维度的分析方式对所述待分析数据进行分析和/或预测,包括:
采用可视的多维度的方式对所述待分析数据进行分析;
根据预训练模型对分析后的数据进行预测。
5.如权利要求4所述的可视化数据分析的方法,其特征在于,所述根据预训练模型对分析后的数据进行预测,包括:
获取训练数据和验证数据;
根据所述训练数据训练所述预训练模型,获取预测模型,所述预训练模型包括不同类型的算法或者自定义算法;
将所述验证数据导入所述预测模型进行验证,确定验证后的目标模型;
将所述分析后的数据导入所述目标模型进行数据预测。
6.一种可视化数据分析的装置,其特征在于,包括:
创建模块,用于创建数据源;
预处理模块,用于对所述数据源进行预处理,获得预处理后的待分析数据;
处理模块,用于采用可视的多维度的分析方式对所述待分析数据进行分析和/或预测;
显示模块,用于将分析和/或预测后的结果进行可视化展示。
7.如权利要求6所述的可视化数据分析的装置,其特征在于,所述处理模块,包括:
接收子模块,用于接收用户拖拽入操作页面的至少一个算法标识,所述算法标识与对待分析数据进行分析和/或预测的算法链接一一对应;
调用子模块,用于调用所述算法标识对应的算法;
处理子模块,用于在所述操作页面展示对所述待分析数据分析和/或预测过程。
8.如权利要求7所述的可视化数据分析的装置,其特征在于,所述处理模块,用于采用可视的多维度的方式对所述待分析数据进行分析;以及根据预训练模型对分析后的数据进行预测。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
CN201910126579.9A 2019-02-20 2019-02-20 可视化数据分析的方法及终端设备 Pending CN110008259A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910126579.9A CN110008259A (zh) 2019-02-20 2019-02-20 可视化数据分析的方法及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910126579.9A CN110008259A (zh) 2019-02-20 2019-02-20 可视化数据分析的方法及终端设备

Publications (1)

Publication Number Publication Date
CN110008259A true CN110008259A (zh) 2019-07-12

Family

ID=67165760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910126579.9A Pending CN110008259A (zh) 2019-02-20 2019-02-20 可视化数据分析的方法及终端设备

Country Status (1)

Country Link
CN (1) CN110008259A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111080150A (zh) * 2019-12-23 2020-04-28 杭州雷数科技有限公司 生产数据分析方法、装置、设备及介质
CN111260969A (zh) * 2020-03-06 2020-06-09 华南农业大学 数据挖掘课程教学实践系统和基于系统的教学实践方法
CN111815125A (zh) * 2020-06-18 2020-10-23 国网上海市电力公司 基于技术图谱的创新实体科技评价体系优化方法及装置
CN111859051A (zh) * 2020-06-17 2020-10-30 中国合格评定国家认可中心 数据处理方法及装置
CN112069245A (zh) * 2020-08-28 2020-12-11 福建博思软件股份有限公司 一种基于可视化web页面生成数据分析模型的方法和存储设备
CN112364088A (zh) * 2020-12-02 2021-02-12 四川长虹电器股份有限公司 基于工厂数字化制造资源的可视化配置系统
CN112615881A (zh) * 2020-12-28 2021-04-06 马樱 一种基于区块链的数据流检测系统
CN112883096A (zh) * 2021-03-11 2021-06-01 广东工业大学 一种数据预处理方法
CN112905274A (zh) * 2021-05-06 2021-06-04 鹏城实验室 数据分析方法、装置、终端设备以及计算机可读存储介质
CN112988130A (zh) * 2021-02-24 2021-06-18 恒安嘉新(北京)科技股份公司 一种基于大数据的可视化建模方法、装置、设备及介质
CN113159517A (zh) * 2021-03-24 2021-07-23 国网浙江省电力有限公司宁波供电公司 一种三维可视化电网运行数据分析系统
CN113486003A (zh) * 2021-06-02 2021-10-08 广州数说故事信息科技有限公司 数据可视化时考虑异常值的企业数据集处理方法及系统
CN116562769A (zh) * 2023-06-15 2023-08-08 深圳爱巧网络有限公司 一种基于货物属性分类的货物数据分析方法及系统
CN116932830A (zh) * 2023-08-18 2023-10-24 保定起成信息科技有限公司 一种高效大数据处理方法及装置
CN112883096B (zh) * 2021-03-11 2024-04-30 广东工业大学 一种数据预处理方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111080150A (zh) * 2019-12-23 2020-04-28 杭州雷数科技有限公司 生产数据分析方法、装置、设备及介质
CN111260969B (zh) * 2020-03-06 2021-12-14 华南农业大学 数据挖掘课程教学实践系统和基于系统的教学实践方法
CN111260969A (zh) * 2020-03-06 2020-06-09 华南农业大学 数据挖掘课程教学实践系统和基于系统的教学实践方法
CN111859051A (zh) * 2020-06-17 2020-10-30 中国合格评定国家认可中心 数据处理方法及装置
CN111815125A (zh) * 2020-06-18 2020-10-23 国网上海市电力公司 基于技术图谱的创新实体科技评价体系优化方法及装置
CN112069245A (zh) * 2020-08-28 2020-12-11 福建博思软件股份有限公司 一种基于可视化web页面生成数据分析模型的方法和存储设备
CN112069245B (zh) * 2020-08-28 2022-08-09 福建博思软件股份有限公司 基于可视化web页面生成数据分析模型方法和存储设备
CN112364088A (zh) * 2020-12-02 2021-02-12 四川长虹电器股份有限公司 基于工厂数字化制造资源的可视化配置系统
CN112615881A (zh) * 2020-12-28 2021-04-06 马樱 一种基于区块链的数据流检测系统
CN112988130A (zh) * 2021-02-24 2021-06-18 恒安嘉新(北京)科技股份公司 一种基于大数据的可视化建模方法、装置、设备及介质
CN112883096A (zh) * 2021-03-11 2021-06-01 广东工业大学 一种数据预处理方法
CN112883096B (zh) * 2021-03-11 2024-04-30 广东工业大学 一种数据预处理方法
CN113159517A (zh) * 2021-03-24 2021-07-23 国网浙江省电力有限公司宁波供电公司 一种三维可视化电网运行数据分析系统
CN113159517B (zh) * 2021-03-24 2023-07-14 国网浙江省电力有限公司宁波供电公司 一种三维可视化电网运行数据分析系统
CN112905274A (zh) * 2021-05-06 2021-06-04 鹏城实验室 数据分析方法、装置、终端设备以及计算机可读存储介质
CN113486003A (zh) * 2021-06-02 2021-10-08 广州数说故事信息科技有限公司 数据可视化时考虑异常值的企业数据集处理方法及系统
CN113486003B (zh) * 2021-06-02 2024-03-19 广州数说故事信息科技有限公司 数据可视化时考虑异常值的企业数据集处理方法及系统
CN116562769A (zh) * 2023-06-15 2023-08-08 深圳爱巧网络有限公司 一种基于货物属性分类的货物数据分析方法及系统
CN116932830A (zh) * 2023-08-18 2023-10-24 保定起成信息科技有限公司 一种高效大数据处理方法及装置

Similar Documents

Publication Publication Date Title
CN110008259A (zh) 可视化数据分析的方法及终端设备
US11693388B2 (en) Methods and apparatus for machine learning predictions of manufacturing processes
Neelakandan et al. RETRACTED ARTICLE: An automated exploring and learning model for data prediction using balanced CA-SVM
US20210049512A1 (en) Explainers for machine learning classifiers
Gandhi et al. Classification rule construction using particle swarm optimization algorithm for breast cancer data sets
CN107103050A (zh) 一种大数据建模平台及方法
Chen et al. An ordered clustering algorithm based on K-means and the PROMETHEE method
Rong et al. A model for software defect prediction using support vector machine based on CBA
US11151480B1 (en) Hyperparameter tuning system results viewer
EP3836041A1 (en) Interpretation of machine learning results using feature analysis
US10963802B1 (en) Distributed decision variable tuning system for machine learning
Vu et al. Distributed adaptive model rules for mining big data streams
Śniegula et al. Study of machine learning methods for customer churn prediction in telecommunication company
Jain Introduction to data mining techniques
Usman et al. Design and implementation of a system for comparative analysis of learning architectures for churn prediction
Rhee et al. Three decades of machine learning with neural networks in computer-aided architectural design (1990–2021)
García et al. Subgroup Discovery with Evolutionary Fuzzy Systems in R: The SDEFSR Package.
Sayed-Mouchaweh Learning from Data Streams in Evolving Environments: Methods and Applications
Ahlawat et al. A novel hybrid sampling algorithm for solving class imbalance problem in big data
Rimal Machine Learning Random Forest Cluster Analysis for Large Overfitting Data: using R Programming
Patil et al. Efficient processing of decision tree using ID3 & improved C4. 5 algorithm
Andoyo et al. Optimization of Classification Accuracy Using K-Means and Genetic Algorithm by Integrating C4. 5 Algorithm for Diagnosis Breast Cancer Disease
Shirsat et al. Breast Cancer detection based on machine learning feature selection and extraction algorithm
WO2022227213A1 (zh) 行业推荐方法、装置、计算机设备及存储介质
Muningsih et al. Combination of K-Means method with Davies Bouldin index and decision tree method with parameter optimization for best performance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190712