一种数据分析方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种数据分析方法及系统。
背景技术
工业数据是在工业领域信息化应用中产生的数据,其可以反映机器设备的运行情况,因此可以通过分析工业数据对机器设备的运行进行监控及控制。随着信息化应用领域增多和规模增大,需要处理的工业数据种类和数量增多,且获取途径变得多源、蕴含信息更复杂、不同工业数据之间的关联性变强。
但目前的数据分析方法和系统提供的数据处理工具的处理流程固定且单一,难以满足不同应用领域工业数据的数据分析需要。
发明内容
有鉴于此,本发明实施例提供一种数据分析方法及系统,用于提高提高数据处理流程的通用性,以满足更多应用领域中工业数据的分析需求。
为实现上述目的,一方面,本发明实施例提供一种数据分析方法,包括:
获取用户选择的与数据处理链对应的待分析数据表;
确定所述数据处理链中的数据处理组件;其中,所述数据处理链包括用户选择的至少一个数据处理组件;
确定用户为所述数据处理链指定的数据处理组件的执行顺序;
根据所述数据处理组件的执行顺序和所述数据处理组件的数据处理方式,对所述待分析数据表进行数据处理,得到所述数据处理链的处理结果。
可选的,所述数据处理链中的数据处理组件包括:至少一个数据清洗组件和/或至少一个数据分析组件;所述用户为所述数据处理链指定的数据处理组件的执行顺序为:所述数据清洗组件和/或所述数据分析组件之间的执行顺序;
所述根据所述数据处理组件的执行顺序和所述数据处理组件的数据处理方式,对所述待分析数据表进行数据处理,得到所述数据处理链的处理结果,包括:
根据所述数据清洗组件和/或所述数据分析组件之间的执行顺序、所述数据清洗组件和/或所述数据分析组件对应的数据处理方式,对所述待分析数据表和/或中间处理结果进行数据处理,得到所述数据处理链的处理结果,其中,所述中间处理结果为通过所述数据清洗组件和所述数据分析组件中的一种组件进行处理后得到的结果。
可选的,所述数据处理组件包括至少一个数据清洗组件和至少一个数据分析组件;
所述确定用户为所述数据处理链指定的数据处理组件的执行顺序;根据所述数据处理组件的执行顺序和所述数据处理组件的数据处理方式,对所述待分析数据表进行数据处理,得到所述数据处理链的处理结果,包括:
确定用户为所述数据处理链指定的数据处理组件指定的执行顺序为:先执行所述至少一个数据清洗组件,再执行所述至少一个数据分析组件;
根据用户为所述至少一个数据清洗组件指定的执行顺序以及所述数据清洗组件的数据清洗方式,对所述待分析数据表进行数据清洗,得到所述待分析数据表的清洗结果数据表;
根据所述至少一个数据分析组件对应的数据分析方式对所述清洗结果数据表和所述待分析数据表中至少一种数据表进行分析,得到数据分析结果,并以数据分析组件对应的数据输出方式输出所述数据分析结果;
所述清洗结果数据表和所述数据分析结果作为所述数据处理链的处理结果。
可选的,所述数据处理组件包括至少一个数据清洗组件和至少一个数据分析组件;
所述确定用户为所述数据处理链指定的数据处理组件的执行顺序;根据所述数据处理组件的执行顺序和所述数据处理组件的数据处理方式,对所述待分析数据表进行数据处理,得到所述数据处理链的处理结果,包括:
确定用户为所述数据处理链指定的数据处理组件指定的执行顺序为:先执行所述至少一个可输出数据表的数据分析组件,再执行所述至少一个数据清洗组件;
根据所述至少一个可输出数据表的数据分析组件对应的数据分析方式对所述待分析数据表进行分析,并以数据分析组件对应的数据输出方式输出数据分析结果;其中所述数据分析结果包括分析报告和分析输出数据表;
根据用户为所述至少一个数据清洗组件指定的执行顺序以及所述数据清洗组件的数据清洗方式,对所述分析输出数据表和所述待分析数据表中的至少一种进行数据清洗,得到所述分析输出数据表的清洗结果数据表;
所述清洗结果数据表和所述数据分析结果作为所述数据处理链的处理结果。
可选的,所述数据处理组件包括至少一个数据分析组件;
所述确定用户为所述数据处理链指定的数据处理组件的执行顺序;根据所述数据处理组件的执行顺序和所述数据处理组件的数据处理方式,对所述待分析数据表进行数据处理,得到所述数据处理链的处理结果,包括:
确定用户为所述至少一个数据分析组件指定的执行顺序;
根据所述至少一个数据分析组件对应的数据分析方式对所述待分析数据表进行分析,得到数据分析结果,并以数据分析组件对应的数据输出方式输出所述数据分析结果;
所述数据分析结果作为所述数据处理链的处理结果。
可选的,所述数据清洗组件包括如下组件中的至少一种组件,用于对所述数据处理链对应的目标数据表进行处理,所述目标数据表包括所述待分析数据表和/或所述中间处理结果:
重采样组件,用于根据用户在所述重采样组件的配置窗口设定的重采样相关属性对所述目标数据表进行重采样处理;
异常值组件,用于根据用户在所述异常值组件的配置窗口设定的异常值相关属性对所述目标数据表进行异常值处理;
缺失值组件,用于根据用户在所述缺失值组件的配置窗口设定的缺失值相关属性对所述目标数据表进行缺失值处理;
数据合并组件,用于根据用户在所述数据合并组件的配置窗口设定的数据合并相关属性对所述目标数据表进行合并;
降维组件,用于根据用户在所述降维组件的配置窗口设定的降维相关属性对所述目标数据表进行降维处理;
规范化组件,用于根据用户在所述规范化组件的配置窗口设定的规范化相关属性对所述目标数据表进行规范化处理;
样本均衡组件,用于根据用户在所述样本均衡组件的配置窗口设定的均衡相关属性对所述目标数据表进行样本均衡处理;
平稳性处理,用于根据用户在所述平稳性组件的配置窗口设定的平稳性相关属性对所述目标数据表进行平稳性处理。
可选的,所述数据分析组件包括如下组件中的至少一种组件,用于对所述数据处理链对应的目标数据表进行分析处理,所述目标数据表包括所述待分析数据表和/或所述中间处理结果:
初选报告组件,用于根据用户在所述初选报告组件的配置窗口设定的分析属性,对所述目标数据表进行初选分析,并得到初选报告和初选数据表;
测点特征概览组件,用于根据用户在所述测点特征概览组件的配置窗口设定的分析属性和报告参数,对所述目标数据表的至少一个测点数据进行概览分析,得到测点数据的特征报告;
异常值分析报告组件,用于根据用户在所述异常值分析报告组件的配置窗口设定的分析属性和报告参数,对所述目标数据表的至少一个测点数据进行异常值分析,得到异常值分析报告;
缺失值分析报告组件,用于根据用户在所述缺失值分析报告组件的配置窗口设定的分析属性和报告参数,对所述目标数据表的至少一个测点数据进行缺失值分析,得到缺失值分析报告;
两特征相关性报告组件,用于根据用户在所述两特征相关性报告组件的配置窗口选择的数据特征、设定的目标数据特征和分析属性,对所述目标数据表中的所述选择的数据特征与所述目标数据特征之间进行两特征相关性分析,得到两特征相关性分析报告;
多特征相关性报告组件,用于根据用户在所述多特征相关性报告组件的配置窗口选择的多个特征、设定的目标特征和分析属性,对所述目标数据表中的所述选择的多个数据特征与所述目标数据特征之间进行多特征相关性分析,得到多特征相关性分析报告;
平稳性检验报告组件,用于根据用户在所述平稳性检验报告组件的配置窗口选择的数据特征和设定的分析属性,对所述目标数据表中的所述选择的数据特征进行平稳性检验分析,得到平稳性检验报告;
纯随机性检验报告,用于根据用户在所述纯随机性报告组件的配置窗口选择的数据特征和设定的分析属性,对所述目标数据表中的所述选择的数据特征进行纯随机性检验分析,得到纯随机性检验报告;
非平稳序列确定性分析组件:用于根据用户在所述非平稳序列确定性分析组件的配置窗口选择的数据特征和设定的分析属性,对所述目标数据表中所述选择的数据特征进行非平稳序列确定性分析,得到非平稳序列确定性分析报告。
可选的,所述数据处理组件还包括数据保存组件;其中所述数据保存组件包括:
写数据表组件,用于将经过数据清洗组件和/或数据分析组件处理得到的中间处理结果以数据表的形式保存至本地数据库,并更新所述数据表菜单中的数据表标识,使得所述数据表菜单显示保存至本地数据库的数据表的数据表标识;
写数据文件组件,用于经过数据清洗组件和/或数据分析组件处理得到的中间处理结果以数据文件的形式下载至本地。
另一方面,本发明实施例提供一种数据分析系统,包括:获取单元、确定组件单元、确定顺序单元和处理单元;其中,
所述获取单元,用于获取用户选择的与数据处理链对应的待分析数据表;
所述确定组件单元,用于确定所述数据处理链中的数据处理组件;其中,所述数据处理链包括用户选择的至少一个数据处理组件;
所述确定顺序单元,用于确定用户为所述数据处理链指定的数据处理组件的执行顺序;
所述处理单元,用于根据所述数据处理组件的执行顺序和所述数据处理组件的数据处理方式,对所述待分析数据表进行数据处理,得到所述数据处理链的处理结果。
可选的,所述数据处理链中的数据处理组件包括:至少一个数据清洗组件和/或至少一个数据分析组件;
所述确定顺序单元具体用于确定所述数据清洗组件和/或所述数据分析组件之间的执行顺序;
所述处理单元具体用于:根据所述数据清洗组件和/或所述数据分析组件之间的执行顺序、所述数据清洗组件和/或所述数据分析组件对应的数据处理方式,对所述待分析数据表和/或中间处理结果进行数据处理,得到所述数据处理链的处理结果,其中,所述中间处理结果为通过所述数据清洗组件和所述数据分析组件中的一种组件进行处理后得到的结果。
经由上述方案可知,通过获取用户选择的与数据处理链对应的待分析数据表;确定数据处理链中的数据处理组件;其中,数据处理链包括用户选择的至少一个数据处理组件;确定用户为数据处理链指定的数据处理组件的执行顺序;根据数据处理组件的执行顺序和数据处理组件的数据处理方式,对待分析数据表进行数据处理,得到数据处理链的处理结果。通过用户设置的数据处理链对应的数据处理流程进行数据表的处理,相比于现有技术中固定的数据处理流程通用性更强,数据处理链中的数据处理组件可以根据用户需要灵活配置,数据处理流程会随着用户选择的处理组件不同或用户指定的数据处理组件的执行顺序不同而发生变化,解决了数据处理流程固定且单一的问题,可以满足更多应用领域中工业数据的分析需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种数据分析方法的流程示意图;
图2为本发明一个实施例中数据处理链的结构图;
图3为图2中的数据处理链执行过程的流程图;
图4为本发明另一个实施例中数据处理链的结构图;
图5为图4中的数据处理链执行过程的流程图;
图6为本发明的又一实施例提供了一种数据分析方法的流程图;
图7为本发明一个实施例的项目编辑界面的示意图;
图8为本发明一个实施例的实验编辑界面的示意图;
图9为本发明一个实施例的数据编辑界面的示意图;
图10为本发明一个实施例的组件编辑界面的示意图;
图11为本发明一个实施例的输出展示界面的示意图;
图12为本发明另一实施例提供的一种数据分析系统的结构图;
图13为本发明的另一实施例提供了一种数据分析系统的结构图。
具体实施方式
由背景技术可知,现有的数据分析系统对工业数据的处理流程是固定的、无法编辑的。但是,固定的数据处理流程无法满足不同应用领域的工业数据的处理需求,通用性差。因此本发明提供了一种数据分析方法,以实现根据工业数据的不同需要灵活配置不同的数据处理流程的目的。
本发明提供的数据分析方法其执行逻辑可内置于服务器中,服务器连接有用于与用户交互装置。服务器也可以使用其他可执行该方法的处理装置代替。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中各实施例中记载的特征可以相互替换或者组合。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
请参阅图1,其示出了本发明实施例提供的一种数据分析方法的流程示意图,包括如下步骤:
S101,获取用户选择的与数据处理链对应的待分析数据表。
本实施例中,数据处理链是由数据处理组件按照特定执行顺序组成的链,数据处理链至少包括一个数据处理组件。数据处理链对应的待分析数据表就是数据处理链要处理的数据表。数据表为一种数据保存格式,数据在数据处理链中以数据表的形式在数据处理组件之间传递。所有数据处理组件输入的数据格式均为数据表,采用统一的数据保存格式以便不同的数据处理组件获取到数据表内的数据。数据表可以为二维数据表。
本实施例中,获取待分析数据表的实现方式可以有多种,下面举例说明:
方式一,从数据库导入用户选择的测点数据,根据被选择的测点数据得到待分析的数据表。
确定用户选择的测点,根据用户设定的时间段导入测点在该时间段内的测点数据,得到待分析数据表。测点是工业领域中需要测量监控并能够自动测量的一个变量,例如化工厂的环境温度、水厂的出水流量等。可将时间序列数据库(简称时序数据库)做为导入的数据源。进一步的,得到待分析数据表后,可将该待分析数据表保存至本地数据库,方便再次使用。
方式二,上传本地数据文件,按照用户选择的数据范围从本地数据文件中选取数据,根据被选取的数据得到待分析数据表。
根据用户或系统预设的分隔符将数据文件中的数据分隔为多行多列的数据表,确定用户选择的数据的行数范围或列数范围,获取对应范围的数据得到待分析数据表。进一步的,得到待分析数据表后,可将该待分析数据表保存至本地数据库,方便再次使用。
方式三,确定用户从数据表菜单中的选定的数据表标识,根据被选定的数据表标识从本地数据库中获取与数据表标识相对应的数据表作为待分析数据表。
本实现方式中,数据表菜单是可供用户选择的数据表标识列表,数据表菜单中的数据表标识对应的数据表保存在本地数据库。可通过数据表菜单中的数据表标识获取的数据表至少包括以下数据表的一种:预先通过上传本地数据文件得到的数据表、预先从时序数据库导入的数据表和预先保存的数据处理组件输出的数据表等。
S102,确定数据处理链的数据处理组件;其中,数据处理链包括用户选择的至少一个数据处理组件。
每个数据处理组件对应一种对数据表的处理方式,数据处理链中的数据处理组件可包括数据清洗组件、数据分析组件和数据保存组件中的至少一种。数据处理链可以是由至少一个数据清洗组件组成的处理链;可以是由至少一个数据分析组件组成的处理链;或是由至少一个数据保存组件组成的处理链;还可以是两种或两种以上的数据处理组件组成的数据处理链。下面分别介绍不同类型的数据处理组件:
数据清洗组件,用于对数据处理链对应的目标数据表进行数据清洗,得到清洗后的清洗结果数据表。数据处理链对应的目标数据表是数据清洗组件在数据处理链中接收到的数据表,包括待分析数据表和中间处理结果中的一种。中间处理结果为通过其他可输出数据表的数据处理组件进行处理后得到的结果,即经过其他可输出数据表的数据处理组件处理输出的数据表,其他可输出数据表的数据处理组件包括数据清洗组件、可输出数据表的数据分析组件和可输出数据表的数据保存组件中的至少一种。即,当数据清洗组件作为数据处理链的第一个组件时,数据清洗组件用于对待分析数据表进行清洗处理;当数据清洗组件的执行顺序位于其他可输出数据表的数据处理组件(数据保存组件、数据清洗组件或数据分析组件)之后,则数据清洗组件用于对中间处理结果进行清洗处理。
数据清洗组件包括如下组件中的至少一种组件:
重采样组件,用于根据用户在重采样组件的配置窗口设定的重采样相关属性对目标数据表进行重采样处理。重采样相关属性包括以下至少一项:处理的数据、重采样处理的起止时间、重采样的采样频率和重采样使用的聚合方法。重采样处理的数据是输入的数据表中用户需要进行重采样处理的数据,例如,可以是数据表中的数据列或数据行。对于重采样后的数据,一个数据表中不同的数据可根据用户的选择可以采用不同的处理方法进行处理,从而分出多个数据处理分支。其中,配置窗口是可设定组件的属性的与用户交互区。
异常值组件,用于根据用户在异常值组件的配置窗口设定的异常值相关属性对目标数据表进行异常值处理。异常值相关属性包括以下至少一项:处理的数据,处理的数据类型,异常值处理采用的异常值判定方法和处理方法。处理的数据是输入的数据表中用户需要进行异常值处理的数据,例如,可以是数据表中的数据列或数据行。
不同的数据类型可采用的异常值判定方法和处理方法不同,因此在用户设定属性时,根据设定的异常值处理的数据类型,在配置窗口展示与数据类型对应的异常值判定方法和处理方法。其中,数据类型包括开关型数据、离散型数据和数值型数据(又称连续型数据):
数值型数据可采用的异常值判别方法包括但不限于:通过核密度估计(kde)、
原则、分位数(quantiles)或变化率(change rate)等判断哪些是异常值。数值型数据可采用的异常值处理方法包括但不限于:替换为平均值(mean)、替换为中值(median)、替换为最大值(max)、替换为最小值(min)、后项填充(backfill)、前项填充(pad)、忽略索引的线性插值(linear)、线性插值(slinear)、最近插值(nearest)、阶梯插值(zero)、二阶B样条插值(quadratic)、三阶B样条插值(cubic)、多项式插值(polynomial)、样条插值(spline)、热平台插补(hot_platform)。
离散型数据和开关型数据可采用的异常值判别方法包括:指定异常值取值;数值型数据可采用的异常值处理方法包括但不限于:后项填充(backfill)、前项填充(pad)、最邻近值填充(nearest)、热平台插补(hot_platform)、随机采样填充(random_sample)、删除。
缺失值组件,用于根据用户在缺失值组件的配置窗口设定的缺失值相关属性对目标数据表进行缺失值处理。缺失值相关属性包括以下至少一项:处理的数据,处理的数据类型,缺失值处理采用的处理方法。不同的数据类型可采用的缺失值处理方法不同,因此在用户设定属性时,根据设定的异常值处理的数据类型,在配置窗口展示与数据类型对应的异常值判定方法和处理方法:
数值型数据可采用的缺失值处理方法包括但不限于:通过平均值(mean)填充、中值(median)填充、最大值(max)填充、最小值(min)填充、后项填充(backfill)、前项填充(pad)、忽略索引的线性插值(linear)、线性插值(slinear)、最近插值(nearest)、阶梯插值(zero)、二阶B样条插值(quadratic)、三阶B样条插值(cubic)、多项式插值(polynomial)、样条插值(spline)、热平台插补(hot_platform)等方式。
离散型数据和开关型数据可采用的缺失值处理方法包括但不限于:后项填充(backfill)、前项填充(pad)、最邻近值填充(nearest)、热平台插补(hot_platform)、随机采样填充(random_sample)。
进一步的,可设定不同时段的缺失值采用不同的处理方法,处理完成后进行组装。
数据合并组件,用于根据用户在数据合并组件的配置窗口设定的数据合并相关属性对目标数据表进行合并。
降维组件,用于根据用户在降维组件的配置窗口设定的降维相关属性对目标数据表进行降维处理。降维相关属性包括:降维方法,降维方法包括但不限于:主成分分析(PCA)、线性判别分析(LDA)、局部线性嵌入(LLE)、拉普拉斯特征映射(LaplacianEigenmaps)。
规范化组件,用于根据用户在规范化组件的配置窗口设定的规范化相关属性对目标数据表进行规范化处理。规范化相关属性包括以下至少一项:处理的数据,处理的数据类型,规范化处理采用的处理方法。离散型数据和开关型数据可通过对数据的类别特征进行数值化编码,例如:标签标准化编码(LabelEncoder),独热编码(OneHotEncoder),哑变量编码(dummy);数值型数据的取值范围进行标准化处理(又称归一化),例如:离差标准化(min-max)、标准差标准化(max-abs、z-score)。
样本均衡组件,用于根据用户在样本均衡组件的配置窗口设定的均衡相关属性对目标数据表进行样本均衡处理。均衡相关属性包括以下至少一项:采用的均衡方法,配置均衡比例。
平稳性处理组件,用于根据用户在平稳性组件的配置窗口设定的平稳性相关属性对目标数据表进行平稳性处理。平稳性相关属性包括以下至少一项:采用的平稳性处理方法,处理方法的参数。平稳性处理方法包括但不限于:差分、方差齐性变换、平滑、分解。
需要说明的是,基于数据清洗的理论考虑,重采样组件、异常值组件、缺失值组件和数据合并组件对应的清洗处理的一般按照如下顺序执行:先对执行重采样组件,然后进行异常值组件和/或缺失值组件的处理;接着执行数据合并组件。其中异常值组件和缺失值组件的处理这两个组件可以省略不执行,也可以执行异常值组件和缺失值组件中的一个组件。若异常值组件和缺失值组件都要执行时,执行的先后顺序不做限制。其它数据清洗组件如降维组件、规范化组件、样本均衡组件以及平稳性处理组件等根据需要执行,执行顺序不做限制。
数据分析组件,用于对数据处理链对应的目标数据表进行数据分析,得到分析报告。目标数据表的说明请参见数据清洗组件的介绍,在此不再赘述。
本实施例中,数据分析组件包括第一分析组件和第二分析组件。第一分析组件可作为待分析数据表或其它数据清洗组件的后续节点,用于对输入的数据表进行分析处理,得到分析报告,同时可根据用户对分析报告中分析结果的调整,得到分析输出数据表。第二分析组件可作为数据表或其它清洗组件的后续节点,作为数据处理链的最后一个组件,用于对输入的数据表进行分析处理,得到分析报告。
数据分析组件包括如下组件中的至少一种组件:
初选报告组件属于第一分析组件,用于根据用户在初选报告组件的配置窗口设定的分析属性,对目标数据表进行初选分析,并得到初选报告和初选数据表。初选报告组件可以作为数据处理链的第一个组件,直接对待分析数据表进行初选分析和处理。初选报告组件的分析属性包括以下至少一项:数据表中参与初选的数据,分析的起止时间以及数据过滤条件。数据过滤条件为用户设定的对数据进行初选的条件,例如设置最小记录数,根据数据表中的数据列记录的有效数据数量,舍弃数量小于最小记录数的列,选择数量大于最小记录数的列,因为在分析中记录数少的数据列不能提供足够的信息。参与初选的数据为数据表中被用户选择的数据列,在其他实施例中,可以为数据表中被用户选择的数据行等其他形式。初选报告的内容包括以下至少一项:参与初选的数据列中数据的类型、统计的记录数、取值数、数据列的方差、数据列的取值范围、数据列的最小时间和最大时间、指定采样频率时的有效数据占比以及标识出被舍弃和/或被选择的数据列。用户可以在初选报告页面对初选结果进行调整,例如可以根据实际情况,调整数据列是被选择的,还是被舍弃。响应于用户对数据列的调整操作,对初选结果进行调整,得到初选数据表,可将初选数据表保存至本地数据库,方便再次使用。
测点特征概览组件属于第二分析组件,用于根据用户在测点特征概览组件的配置窗口设定的分析属性和报告参数,对目标数据表的至少一个测点数据进行概览分析,得到测点数据的特征报告。测点特征概览组件的分析属性包括以下至少一项:需要概览的测点、分析的起止时间和分析的数据类型。
根据测点数据概览报告的报告参数确定分析报告中展示的项目,不同的数据类型可设定的报告参数不同,因此在用户设定分析属性时,根据设定的测点数据的数据类型,在配置窗口展示与数据类型对应的报告参数。
数值型数据可选的报告参数包括:测点业务信息描述、测点统计信息描述、测点数据信息描述、前5条数据、最后5条数据、正态分布QQ图、全部数据散点图、全部数据值分布柱状图、全部数据时间分布柱状图、1000条数据散点图、1000条数据值分布柱状图、1000条数据时间分布柱状图、100条数据散点图、100条数据值分布柱状图、100条数据时间分布柱状图。
离散型数据可选的报告参数包括:测点业务信息描述、测点数据信息描述、前5条数据、最后5条数据、全部数据取值计数柱图、全部数据时间分布柱状图、全部数据不同取值散点图、1000条数据时间分布柱状图、1000条数据不同取值散点图、100条数据时间分布柱状图、100条数据不同取值散点图、前项填充缺失值效果图。
开关型数据可选的报告参数包括:测点业务信息描述、测点数据信息描述、前5条数据、最后5条数据、全部数据时序竖线图、全部数据不同取值时间分布直方图、1000条数据时序竖线图、100条数据时序竖线图、前项填充缺失值效果图。
异常值分析报告组件属于第二分析组件,用于根据用户在异常值分析报告组件的配置窗口设定的分析属性和报告参数,对目标数据表的至少一个测点数据进行异常值分析,得到异常值分析报告。异常值分析报告组件的分析属性包括以下至少一项:需要进行异常值分析的测点,分析的起止时间和分析的数据类型。异常值分析报告的报告参数包括分析报告中展示的异常判别方法以及异常值处理方法,同时根据设定的异常值处理方法,给出原始数据与处理后数据的散点图和差值散点图。测点数据的数据类型不同可选的异常值判定方法和处理方法也不同。数据类型与异常值判定方法和处理方法的对应关系请参见异常值组件部分的说明,在此不再赘述。
缺失值分析报告组件属于第二分析组件,用于根据用户在缺失值分析报告组件的配置窗口设定的分析属性和报告参数,对目标数据表的至少一个测点数据进行缺失值分析,得到缺失值分析报告。缺失值分析报告组件的分析属性包括以下至少一项:需要进行缺失值分析的测点,分析的起止时间和分析的数据类型。缺失值分析报告的报告参数包括的数据采样频率、采样聚合方法和缺失值填充方法。根据设定的分析属性和报告参数,缺失值分析报告可以给出原始数据散点图及缺失值分布柱状图,并给出缺失值连续区间柱状图。同时根据设定的缺失值填补方法,给出填充后数据的散点图,以及不同填充方法结果的两两对比散点图。测点数据的数据类型不同可选的缺失值处理方法也不同。数据类型与缺失值处理方法的对应关系请参见缺失值组件部分的说明,在此不再赘述。
两特征相关性报告组件属于第二分析组件,用于根据用户在两特征相关性报告组件的配置窗口选择的数据特征、设定的目标数据特征和分析属性,对目标数据表中的选择的数据特征与目标数据特征之间进行两特征相关性分析,得到两特征相关性分析报告。两特征相关性报告组件的分析属性包括以下至少一项:分析的起止时间,采样频率和聚合方法。本实施例中,数据特征为对可获取的测点进行过滤、合并、衍生等操作,最终生成建模可用的数据特征集合。
对于选择的数据特征的数据类型和目标数据特征的数据类型的不同组合,两特征相关性分析报告可以给出不同的相关性分析图:
数值-数值型,选择的数据特征和目标数据特征的数据类型均为数值型,两特征相关性分析报告的内容包括两测点数据的分布差异散点图、时序趋势差异图和皮尔森相关系数。
数值-离散型,选择的数据特征和目标数据特征的数据类型中一个为数值型另一个为离散型,两特征相关性分析报告的内容包括两测点数据的分布差异直方图、分布差异箱线图和方差分析结果。
离散-离散型,选择的数据特征和目标数据特征的数据类型均为离散型,两特征相关性分析报告的内容包括两测点数据的分布差异直方图和卡方检验结果。
多特征相关性报告组件属于第二分析组件,用于根据用户在多特征相关性报告组件的配置窗口选择的多个数据特征、设定的目标数据特征和分析属性,对目标数据表中的选择的多个数据特征与目标数据特征之间进行多特征相关性分析,得到多特征相关性分析报告。多特征相关性报告组件的分析属性包括以下至少一项:分析的起止时间,指定采样频率和聚合方法。多特征相关性报告组件可对数值型数据进行分析。多特征相关性报告的内容包括以下内容中的至少一项:相关系数热力图、相关性散点图、皮尔森相关性排序、最大信息系数排序和距离相关系数。
平稳性检验报告组件属于第二分析组件,用于根据用户在平稳性检验报告组件的配置窗口选择的数据特征和设定的分析属性,对目标数据表中的选择的数据特征进行平稳性检验分析,得到平稳性检验报告。平稳性检验报告组件的分析属性包括以下至少一项:分析的起止时间、采样频率和聚合方法。平稳性检验报告的内容包括以下至少一项:时序图检验、自相关图、偏自相关图检验、adfuller检验。
纯随机性检验报告组件属于第二分析组件,用于根据用户在纯随机性报告组件的配置窗口选择的数据特征、设定的分析属性和报告参数,对目标数据表中的选择的数据特征进行纯随机性检验分析,得到纯随机性检验报告。纯随机性检验报告组件的分析属性包括以下至少一项:分析的起止时间、采样频率和聚合方法。纯随机性检验报告的内容包括以下至少一项:自相关图、偏自相关图检验、LB统计量、DW(Durbin-Watson)检验、正态分布检验、Ljung-Box检验、adfuller检验。
非平稳序列确定性分析组件属于第二分析组件,用于根据用户在非平稳序列确定性分析组件的配置窗口选择的数据特征和设定的分析属性,对目标数据表中选择的数据特征进行非平稳序列确定性分析,得到非平稳序列确定性分析报告。非平稳序列确定性分析组件的分析属性包括以下至少一项:分析的起止时间、采样频率和聚合方法。非平稳序列确定性分析报告的内容包括以下至少一项:趋势分析、季节效应(周期性)分析、综合分析、X11分析。
需要说明的是,在其他实施例中,数据分析组件还可以包括第三分析组件。第三分析组件可作为待分析数据表或其它数据清洗组件的后续节点,用于对输入的数据表进行分析处理,得到分析报告,同时将输入的数据表输出至下一节点,不对输入的数据表进行更改。在其他实施例中,上述所介绍的数据分析组件(初选报告组件、测点特征概览组件、异常值分析报告组件、缺失值分析报告组件、两特征相关性报告组件、多特征相关性报告组件、平稳性检验报告组件、纯随机性检验报告组件和非平稳序列确定性分析组件)可以根据需要开发为第三分析组件,在此不对数据分析组件的类型和数量进行限定。
数据保存组件可作为数据表或其它清洗组件的后续节点,作为数据处理链的最后一个组件,用于经过数据清洗组件和/或数据分析组件进行处理后得到的处理结果以特定方式进行保存。在其他实施例中,数据保存组件还可将输入的数据表输出至下一节点,不对输入的数据表进行更改。可以输出数据表的数据保存组件可以放置于数据处理链的任意位置。数据保存组件包括如下组件中的至少一种组件:
写数据表组件,用于将经过数据清洗组件和/或数据分析组件处理得到的中间处理结果以数据表的形式保存至本地数据库,并更新数据表菜单中的数据表标识,使得数据表菜单显示保存至本地数据库的数据表的数据表标识。以数据表的形式保存中间处理结果时数据表的数据格式与待分析数据表的数据格式相同。
写数据文件组件,用于经过数据清洗组件和/或数据分析组件处理得到的中间处理结果以数据文件的形式下载至本地。
需要说明的是,上述对数据处理组件的介绍并不对数据处理组件的种类和数量进行限制,在其他实施例中可根据需要开发不同的数据处理组件。
S103,确定用户为数据处理链指定的数据处理组件的执行顺序。
本实施例中,根据数据处理组件的连接顺序以及带有方向指示的连接线(例如带箭头的连接线)确定数据处理组件的执行顺序。在其他实施例中,可以根据数据处理组件的排序确定执行顺序,例如从上到下或者从左到右等;或者可以根据数据处理组件对应的数字大小确定数据组件的执行顺序等等。
S104,根据数据处理组件的执行顺序和数据处理组件的数据处理方式,对待分析数据表进行数据处理,得到数据处理链的处理结果。
数据处理链可能是有分叉的处理链,也可能是没有分叉的处理链。当所有的数据处理组件排成一条没有分叉的数据处理链时,对待分析数据表进行数据处理组件对应的数据处理的过程:待分析的数据表作为被选择的第一个数据处理组件的输入,进行与第一个数据处理组件相对应的数据处理。将第一个数据处理组件输出的数据表作为第二个数据处理组件的数据处理组件的输入,进行与第二个数据处理组件相对应的数据处理并输出处理后的数据表至第三个数据处理组件,就这样按照顺序逐个处理并输出处理后的数据表至下一个数据处理组件,直至最后一个数据处理组件从上一个数据处理组件中获取数据表,并进行与最后一个数据处理组件相对应的数据处理,最后得到数据处理链的数据处理结果。当数据处理链为有分叉的处理链,数据处理链对应的待分析数据表执行若干条不同的数据处理流程,每条流程与上述没有分叉的数据处理链的执行过程类似。
其中,处理结果可能包括:分析报告和/或保存的数据表。分析报告由数据分析报告组件对目标数据表进行分析得到的。保存的数据表可以是中间组件处理得到并由数据保存组件保存的。处理结果中的数据表和待分析数据表的数据保存格式相同。
本实施例数据处理链中的数据处理组件可以根据用户需要灵活配置,数据处理流程会随着用户选择的处理组件不同或用户指定的数据处理组件的执行顺序不同而发生变化,解决了数据处理流程固定且单一的问题,可以满足更多应用领域中工业数据的分析需求。
基于上述本发明实施例提供的数据分析方法,当数据处理链中的数据处理组件包括:至少一个数据清洗组件和/或至少一个数据分析组件;用户为数据处理链指定的数据处理组件的执行顺序为:数据清洗组件和/或数据分析组件之间的执行顺序时。上述步骤S104包括:根据数据清洗组件和/或数据分析组件之间的执行顺序、数据清洗组件和/或数据分析组件对应的数据处理方式,对待分析数据表和/或中间处理结果进行数据处理,得到数据处理链的处理结果。
其中,中间处理结果为通过数据清洗组件和数据分析组件中的一种组件进行处理后得到的结果。也就是除了位于数据处理链中最后的组件,位于数据处理链中其他位置的数据清洗组件或数据分析组件得到的处理结果为中间结果。选择不同的数据清洗组件和数据分析组件,或设定数据清洗组件和数据分析组件之间不同的执行顺序,待分析数据表的数据处理过程不同,下面举例说明。
请参阅图2,其示出了本发明一个实施例中数据处理链的结构图。数据处理组件包括n个数据清洗组件和m个数据分析组件。数据处理链为一条没有分叉的链,其中,n和m均为大于或等于1的整数。
图2中的数据处理链执行上述步骤S103和步骤S104的过程包括以下步骤,流程如图3所示:
S201,确定用户为数据处理链指定的数据处理组件指定的执行顺序为:先执行n个数据清洗组件,再执行m个数据分析组件。
若数据分析组件包括可输出数据表的第一分析组件和/或第三分析组件,数据分析组件的数量m可以大于1;若数据分析组件包括不输出数据表的第二分析组件,那么第二分析组件的数量为1,且第二分析组件作为数据处理链的最后一个组件。
S202,根据用户为n个数据清洗组件指定的执行顺序以及数据清洗组件的数据清洗方式,对待分析数据表进行数据清洗,得到待分析数据表的清洗结果数据表。
在本实施例中,清洗结果数据表为第n个数据清洗组件对第n-1个数据清洗组件输出的数据表进行清洗处理得到的数据表。清洗结果数据表和待分析数据表的数据保存格式相同,相同的数据保存格式,方便不同数据清洗组件提取到数据表中的数据,使得不同的数据清洗组件可以相互连接。关于数据清洗组件的说明请参见步骤S103,在此不再赘述。
S203,根据m个数据分析组件对应的数据分析方式对清洗结果数据表进行分析,并以数据分析组件对应的数据输出方式输出数据分析结果。
本实施例中,数据分析结果包括:m个数据分析组件分别进行分析得到的m份分析报告。m份分析报告以保存至本地数据库或是其他存储空间,使得用户可以进行查询、浏览、导出、打印等操作。进一步的,为方便管理,还可以对m份分析报告进行分类保存或展示。在其他实施例中,数据分析结果还包括第m个数据分析组件处理得到的分析输出数据表。
关于数据分析组件的说明请参见步骤S103,在此不再赘述。
S204,清洗结果数据表和数据分析结果作为数据处理链的处理结果。
其中数据分析结果包括基于清洗结果数据表分析得到的数据分析报告和/或分析输出数据表。其中,数据分析报告可根据用户操作进行展示。清洗结果数据表和分析输出数据表可根据用户操作进行保存,例如在输出需要保存的数据表的数据处理组件后面设置一个数据保存组件。
请参阅图4,其示出了本发明另一个实施例中数据处理链的结构图。数据处理组件包括n个数据清洗组件和m个数据分析组件。数据处理链为有分叉的链。从第一个数据处理组件就开始分成两条处理路径。本实施例仅示出了一种数据处理链的结构,在其他实施例中,数据处理链的可分叉为3条子处理链,每条子处理链上设置的数据处理组件可根据需要更改,在此不对数据处理链分叉的子处理链的数量和每条子处理链上设置的数据处理组件进行限定。
图4中的数据处理链执行上述步骤S103和步骤S104的过程包括以下步骤,流程如图5所示:
S301,确定用户为数据处理链指定的数据处理组件指定的执行顺序为:先执行n个数据清洗组件,再执行m个数据分析组件。
若数据分析组件包括可输出数据表的第一分析组件和/或第三分析组件,数据分析组件的数量m可大于1;若数据分析组件包括不输出数据表的第二分析组件,那么第二分析组件的数量为1,且第二分析组件作为数据处理链的最后一个组件。
在其他实施方式中,n个数据清洗组件和m个数据分析组件可以同时执行,或者先执行m个数据分析组件,再执行n个数据清洗组件。
S302,根据用户为n个数据清洗组件指定的执行顺序以及数据清洗组件的数据清洗方式,对待分析数据表进行数据清洗,得到待分析数据表的清洗结果数据表。其中清洗结果数据表和所述待分析数据表的数据保存格式相同。本步骤执行过程请参见步骤S202和S103的说明,在此不再赘述。
S303,根据m个数据分析组件对应的数据分析方式对待分析数据表中的至少一种数据表进行分析,并以数据分析组件对应的数据输出方式输出数据分析结果。本步骤执行过程请参见步骤S203和S103的说明,在此不再赘述。
S304,清洗结果数据表和数据分析结果作为所述数据处理链的处理结果。其中数据分析结果包括基于清洗结果数据表分析得到的数据分析报告和/或分析输出数据表。
在其他实施例中,数据处理组件包括至少一个数据分析组件。数据处理链执行上述步骤S103和步骤S104的过程包括以下步骤:
确定用户为待分析数据表指定的m个数据分析组件。若数据分析组件包括可输出数据表的第一分析组件和/或第三分析组件,数据分析组件的数量m可大于1;若数据分析组件包括不输出数据表的第二分析组件,那么第二分析组件的数量为1,且第二分析组件作为数据处理链的最后一个组件。根据m个数据分析组件对应的数据分析方式对待分析数据表进行分析,并以数据分析组件对应的数据输出方式输出数据分析结果。其中数据分析结果包括基于待分析数据表分析得到的数据分析报告和/或分析输出数据表,其中分析输出数据表和待分析数据表的数据保存格式相同。数据分析结果作为数据处理链的处理结果。
需要说明的是,图2和图4仅示出了数据清洗组件和数据分析组件的两种执行顺序,在其他实施例中数据清洗组件和数据分析组件可以交替排列,例如,可以先执行可输出数据表的第一分析组件和/或第三分析组件查看待分析数据表的分析结果;然后根据分析结果使用数据清洗组件对待分析数据表进行处理,得到清洗结果数据表;最后再使用数据分析组件查看清洗结果数据表的分析报告,或者是连接数据保存组件对清洗结果数据表进行保存。其他实施例中数据处理链中的数据处理组件可以相互替换或者组合。
基于上述实施例可知,本发明的数据处理组件可以根据需要处理的数据表特点进行配置,可以得到不同的数据处理流程,可进行适应性的调整和改变,通用性强。
进一步的,为方便管理不同的数据处理链,使得不同应用场景下的数据处理过程得到的数据表和分析报告查看更方便,不易相互混淆,本发明的又一实施例提供了一种数据分析方法,使得数据处理链是对应于特定的实验和项目。
请参阅图6,其示出了本发明的又一实施例提供了一种数据分析方法的流程图,相比于图1还包括以下步骤:
S001,响应于新建实验的指令,根据用户提交的实验信息创建属于已预先建立的特定项目的实验;其中,实验信息包括实验标识和实验所属项目。
其中,实验标识可以是实验名称或是实验代号等与实验一一对应的标识。实验信息还包括但不限于:实验描述、实验类型等。一个实验可以代表一个独立的数据分析过程。
每个实验都隶属与一个项目,一个项目中包括至少一个实验,一个实验实现一个独立的分析过程,分析过程由数据处理组件编排而成的数据处理链实现。数据分析以项目为组织单位进行管理。可根据用户的操作对项目进行增删或编辑操作,或是对特定项目下的实验进行增删或编辑操作。
新建项目的一种实现方式为:响应于新建项目的指令,根据用户提交的项目信息创建新项目。其中项目信息包括但不限于:项目基本信息、设定的数据源、确定可行性等。
S002,响应于用户对数据处理组件和数据表的选择操作,在实验的处理链编辑窗口显示被选择的数据处理组件和数据表。
本实施例中,数据处理组件和数据表分别以组件列表和数据表列表的方式展示,在其他实施例中,数据处理组件和数据表的展示方式可以根据需要设置,在此不做限定。
S003,根据用户在处理链编辑窗口对被选择的数据处理组件和数据处理组件的执行顺序,得到至少一条实验的数据处理链。
本实施例中,得到的数据处理链为有向无环图。需要说明的是,一个实验中可以设置多条数据处理链,其中一条数据处理链对应一个数据表。
本实施例的通过新增实验和项目实现对不同场景的数据处理链的管理,使得用户可以进行多个独立的数据分析过程,不同数据分析过程的数据处理过程得到的数据表和分析报告查看更方便,不易相互混淆。
为方便进一步理解方案,下面结合不同交互场景下的用户交互界面,介绍本方案的数据分析方法。
请参阅图7,其示出了本发明一个实施例的项目编辑界面的示意图。需要说明的是,图中仅是提供一种示例,实际应用中的用户交互界面可以根据使用需求进行设置。本实施例中项目编辑界面分为左右两个区域,左边为模块菜单110,右边为项目编辑窗口120。
模块菜单110中列出的模块包括但不限于:项目模块、实验模块、数据模块、组件模块和输出模块。当用户选中模块菜单中的项目模块,右边显示为项目编辑窗口120。项目编辑窗口120包括窗口标题121、编辑按钮122和项目列表123。本实施例中,编辑按钮122包括新建、编辑和删除;项目信息可以包括但不限于以下一种或多种:创建时间、实验数目、工业数据源和管理员。在其他实施例中,为方便快速从多个项目中找到对应项目,可以在项目编辑窗口120中的设置项目搜索框。
当感应到用户点击新建按钮,跳转至新建项目窗口。根据用户在新建项目窗口中填写的项目信息,建立新项目,并在项目列表123中增加新项目的对应条目。新建项目窗口中需要用户填写的信息可根据需求设置,在此不做限定。
当感应到用户点击修改按钮,确定用户当前选定项目,跳转至与选定项目对应的项目信息修改窗口。根据用户在项目信息修改窗口中填写的项目信息,更改选定项目的相关内容。
当感应到用户点击删除按钮,确定用户当前选定项目,获取并删除当前选定项目的所有相关信息,并删除项目列表123中选定项目的对应条目。
在每个项目中用户可以分别创建和编辑实验,在图7所示的界面,当用户选定一个项目(例如图7中的电厂功率),响应于用户对模块菜单110中的实验模块的点击,界面则跳转至与选定项目相对应的实验编辑界面。
请参阅图8,其示出了本发明一个实施例的实验编辑界面的示意图。需要说明的是,图中仅是提供一种示例,实际应用中的实验编辑界面可以根据使用需求进行设置。本实施例中,实验编辑界面被分为四个区域,四个区域从左到右分别为:模块菜单210、实验列表220、实验台230和实验的属性窗口240。模块菜单210与图7中的类似在此不再赘述。图7中的项目编辑窗口120替换为图8中的实验列表220、实验台230和实验属性窗口240。
实验列表220展示当前选定项目下已经建立的实验,如图8中的数据探索实验和数据建模训练实验。在实验列表220的顶部还包括标题,标题为列表中实验所属项目的项目名称,如图8中的所示的实验为电厂功率项目下建立的实验。在其他实施方式中,项目名称显示处可以替换为一个下拉框,通过下拉框选择不同的项目名称后,跳转至与项目名称对应的实验编辑界面。实验列表220中还包括新建实验221的按钮。实验台230相当于当前选定实验的操作和展示台,包括实验台标题231和实验台操作区232。实验台标题231可以显示当前选定实验的实验名称;用户在实验台操作区232对实验流程进行编辑。实验属性窗口240显示当前选定实验的属性信息,实验的属性信息包括但不限于以下的一项或多项:所属项目的项目名称、实验的创建时间、实验的名称和实验的描述。
在图8所示的界面下,当感应到用户点击了新建实验221,界面跳转至新建实验窗口。当用户点击新建实验窗口中的“确定”键,根据用户在新建实验窗口中填写的实验信息,建立新实验,并在实验列表220中增加新实验的对应条目。新建实验窗口中需要用户填写的信息可根据需求设置,在此不做限定。
在图8所示的界面,当用户需要选择实验的待分析数据表时,点击模块列表210中的数据模块,界面则跳转至与选定实验相对应的数据编辑界面;当用户需要选择实验的数据处理组件时,点击模块列表210中的组件模块,界面则跳转至与选定项目相对应的组件编辑界面。
请参阅图9,其示出了本发明一个实施例的数据编辑界面的示意图。需要说明的是,图中仅是提供一种示例,实际应用中的数据编辑界面可以根据使用需求进行设置。本实施例中,数据编辑界面被分为四个区域,四个区域从左到右分别为:模块菜单310、数据表菜单320、实验台330和数据属性窗口340。模块菜单310与图7中的模块菜单110类似,实验台330与图8中的实验台230类似在此不再赘述。
数据表菜单320包括多个用已经保存至本地的数据表的名称,数据表以分组列表的形式展示给用户,菜单中的数据表按照数据来源不同分为四组:测点数据、文件导入数据、测点预处理结果和特征工程结果。其中测点数据为从时序数据库中导入的数据表;文件导入数据为上传从本地数据文件得到的数据表;测点预处理结果为数据清洗组件中的预处理组件输出的被保存至本地的数据表;特征工程结果为数据清洗组件中的特征处理组件输出的被保存至本地的数据表。在其他实施例中,菜单中的数据表不进行分组显示,按照导入或生成时间在菜单中显示。数据表菜单320中还包括用于显示当前正在编辑的项目的项目名称的下拉框。数据表菜单320中还包括新建表321的按钮,需要说明的是,本实施例中所说的按钮并不是实体的按钮,而是一个用户可以点击操作的区域。
数据属性窗口340显示当前选定数据表的属性信息,数据表的属性信息包括但不限于以下的一项或多项:表名、指示表中数据数量的记录数、数据开始时间、数据结束时间、采样频率和字段信息。图9中因为没有选中数据表,所以数据属性窗口中的信息为空,或者显示系统默认值。
在图9所示的界面,当感应到用户点击了新建表321,界面跳转至新建表窗口。下面介绍用户新建表的一种实现方式,过程包括以下步骤:
首先,用户填写数据表的表名和描述,并设置数据表的表类型和数据来源。表的类型包括但不限于公共表和私用表中的一种。数据来源包括但不限于从时序数据库导入和从本地数据文件导入中的一种。
下一步,根据用户设置的数据来源跳转至不同的选择数据窗口。若数据来源为从时序数据库导入,则跳转至从时序数据库导入的选择数据窗口,用户在此选择数据窗口中从时序数据库的测点列表中选择数据。若数据来源为从本地数据文件导入,则跳转至从本地数据文件导入的选择数据窗口,用户在此选择数据窗口中选择上传的本地数据文件,设置文件的数据分隔符,并从分割出的数据中选择导入的数据。
最后,根据用户在设置属性窗口中设置的数据属性,生成数据表。在从时序数据库导入的设置属性窗口中,用户需要输入数据开始时间和数据结束时间,并设置数据表的保存方式和保存路径。其中保存方式包括但不限于保存为多个数据表(每个测点一个表)或保存为一个表(多测点一个表)。在从本地数据文件导入的设置属性窗口中,用户需要设置数据的导入范围,例如导入本地数据文件的起始行数。当感应到用户点击的导入按钮,根据用户设置的属性将数据从时序数据库或本地数据文件导入到系统服务器中,生成数据表。
在图9所示的界面中,用户可以通过单击数据表的方式,选定数据表。将数据表添加至实验台330的方式可以通过点击拖拽对应数据表的方式,或双击对应数据表等方式,在此不做限定。当用户选择完待分析数据表,需要选择实验的数据处理组件时,点击模块列表310中的组件模块,界面则跳转至与选定实验相对应的组件编辑界面。
请参阅图10,其示出了本发明一个实施例的组件编辑界面的示意图。需要说明的是,图中仅是提供一种示例,实际应用中的组件编辑界面可以根据使用需求进行设置。本实施例中,组件编辑界面被分为四个区域,四个区域从左到右分别为:模块菜单410、组件列表420、实验台430和组件属性窗口440。模块菜单410与图7中的模块菜单110类似,实验台430与图8中的实验台230类似在此不再赘述。
组件列表420中包括多个用户可使用的数据处理组件的组件名称,数据处理组件按照组件的功能以分组列表的形式展示。组件列表420中的数据处理组件分为四组:数据源/目标、分析报告模板、数据预处理和特征工程。其中,数据源/目标下列出的数据处理组件为上述的数据保存组件;分析报告模板下列出的数据处理组件为上述的数据分析组件;数据预处理和特征工程下列出的数据处理组件为上述的数据清洗组件,各个组件的具体功能请参见上述实施例的步骤S102中的介绍,在此不再赘述。在其他实施例中,组件列表中的组件名称可不进行分组显示,在此不对列表的展示方式进行限定。组件列表420中还包括用于显示当前正在编辑的项目的项目名称的下拉框。在其他实施例中,数据表菜单320中还可以设置自定义组件的按钮。
实验台430的实验台操作区中展示了用户设置的数据处理链,图10中的数据处理链包括两条子处理链,分别对数据表进行分析和数据预处理。用户可添加和删除实验操作区的数据处理组件,添加数据处理组件的实验方式包括:通过点击拖拽组件列表420中需要添加的数据处理组件至实验操作区;或者是通过双击组件列表420中需要添加的数据处理组件,实验操作区会出现对应的数据处理组件。本实施例中,通过箭头的方式确定数据处理链中不同组件的执行顺序。图10的实验操作区只展示了一条数据处理链,在其他实施例中,实验操作区可以设置多条数据处理链。
组件属性窗口440显示当前选定组件的属性信息,不同的组件的属性信息可能不相同,用户可通过组件属性窗口440设置组件的属性信息。如图10中所示,组件属性窗口440显示当前被选定的重采样组件的属性信息,重采样组件的属性信息包括但不限于以下的一项或多项:组件名称、采样开始时间、采样结束时间、采样频率和聚合方法。用户可以通过组件属性窗口440设置实验操作区中的任一数据处理组件。
当用户编辑完数据处理链,通过选定数据处理链并右键选择执行数据处理链的操作时,系统根据选定的待分析数据表和数据处理链执行对应数据处理操作按照上述实施例中的数据分析方法,得到数据处理结果并保存部分用户需要保存的结果。用户可通过点击模块菜单410中的输出模块查看实验的结果。
请参阅图11,其示出了本发明一个实施例的输出展示界面的示意图。需要说明的是,图中仅是提供一种示例,实际应用中的输出展示界面可以根据使用需求进行设置。本实施例中,输出展示界面被分为3个区域,3个区域从左到右分别为:模块菜单510、结果列表520、结果展示区530。模块菜单510与图7中的模块菜单110类似,在此不再赘述。
结果列表520中包括项目名称显示区、实验名称显示区和实验结果展示列表。其中项目名称显示区为用于显示当前项目的项目名称的下拉框;实验名称显示区为用于显示当前实验的实验名称的下拉框;实验结果展示列表包括当前实验得到的分析报告的报告名称和保存的数据表表名。图11中实验结果展示列表中的实验结果分成三组:分析报告、评估报告和已保存的数据。
结果展示区530用于展示用户选中的实验结果的具体内容,包括设置于顶部标题531和标题下方的展示区532。
下面介绍与上述方法实施例相对应的系统实施例,请参阅图12,其示出了本发明另一实施例提供的一种数据分析系统的结构图,包括:获取单元610、确定组件单元620、确定顺序单元630和处理单元640。
获取单元610,用于获取用户选择的与数据处理链对应的待分析数据表。
确定组件单元620,用于确定数据处理链中的数据处理组件。
其中,数据处理链包括用户选择的至少一个数据处理组件。数据处理链中的数据处理组件包括:至少一个数据清洗组件和/或至少一个数据分析组件。
确定顺序单元630,用于确定用户为数据处理链指定的数据处理组件的执行顺序。
确定顺序单元630具体用于确定数据清洗组件和/或数据分析组件之间的执行顺序。
处理单元640,用于根据数据处理组件的执行顺序和数据处理组件的数据处理方式,对待分析数据表进行数据处理,得到数据处理链的处理结果。
处理单元640具体用于:根据数据清洗组件和/或数据分析组件之间的执行顺序、数据清洗组件和/或数据分析组件对应的数据处理方式,对待分析数据表和/或中间处理结果进行数据处理,得到数据处理链的处理结果。其中,中间处理结果为通过数据清洗组件和数据分析组件中的一种组件进行处理后得到的结果。
上述各个单元的工作过程请参见上述实施例中的步骤S101-S104的说明,在此不再赘述。
本实施例数据处理链中的数据处理组件可以根据用户需要灵活配置,数据处理流程会随着用户选择的处理组件不同或用户指定的数据处理组件的执行顺序不同而发生变化,解决了数据处理流程固定且单一的问题,可以满足更多应用领域中工业数据的分析需求。
进一步的,为方便管理不同的数据处理链,使得不同应用场景下的数据处理过程得到的数据表和分析报告查看更方便,不易相互混淆,本发明的另一实施例提供了一种数据分析系统,使得数据处理链是对应于特定的实验和项目。
请参阅图13,其示出了本发明的另一实施例提供了一种数据分析系统的结构图,相比于图12还包括:项目管理单元650和实验管理单元660。
项目管理单元650,用于响应于新建项目的指令,根据用户提交的项目信息创建新项目。还用于响应用户对特定项目的编辑操作,修改特定项目的项目信息;响应于用户对特定项目的删除操作,删除特定项目的项目信息。其中项目信息包括但不限于:项目基本信息、设定的数据源、确定可行性等。
实验管理单元660,用于响应于新建实验的指令,根据用户提交的实验信息创建属于已预先建立的特定项目的实验。
实验管理单元660,还用于响应于用户对数据处理组件和数据表的选择操作,在实验的处理链编辑窗口显示被选择的数据处理组件和数据表。
实验管理单元660,还用于根据用户在处理链编辑窗口对被选择的数据处理组件和数据处理组件的执行顺序,得到至少一条实验的数据处理链。
本实施例中,得到的数据处理链为有向无环图。需要说明的是,一个实验中可以设置多条数据处理链,其中一条数据处理链对应一个数据表。
上述实验管理单元660的工作过程请参见上述实施例中的步骤S001-S003的说明,在此不再赘述。
本实施例的通过新增实验管理单元和项目管理单元,实现对不同场景的数据处理链的管理,使得用户可以进行多个独立的数据分析过程,不同数据分析过程的数据处理过程得到的数据表和分析报告查看更方便,不易相互混淆。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。