CN109635162A

CN109635162A - 一种数据处理系统及方法

Info

Publication number: CN109635162A
Application number: CN201811548752.6A
Authority: CN
Inventors: 王清臣; 武华亭; 陈静瑶
Original assignee: Nine Chapter Yunji Technology Co Ltd Beijing
Current assignee: Nine Chapter Yunji Technology Co Ltd Beijing
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2019-04-16

Abstract

本发明提供一种数据处理系统及方法，该数据处理系统包括：接口模块，用于显示用户界面，并接收用户在用户界面上的第一输入；第一创建模块，用于响应于所述第一输入，创建处理流，所述处理流中包括数据集、算子和连接线，所述连接线将所述数据集和所述算子关联在一起；运行模块，用于运行所述处理流，利用所述算子对所述数据集进行处理，输出目标数据集。本发明的实施例中，通过接口模块显示的用户界面上的用户输入，可以创建处理流，而基于创建的处理流，可以实现对数据集的处理，获得所需的目标数据集，从而满足数据集的定制化需求，增强数据准备的适用性。

Description

一种数据处理系统及方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据处理系统及方法。

背景技术

数据准备是数据挖掘和数据分析的基础。通常，大数据挖掘和分析的成功需要的不仅仅是原始数据，还需要好的高质量数据。所以，更准确的说，大数据挖掘和分析的成功需要准备好的数据。随着企业花费越来越多的时间来分析数据，清理和准备数据的方案会变得更有价值。

其中，数据准备是一个覆盖范围很广的工作，例如包括探索、清理、降维、异常值检测与处理、缺失值处理、数据特征标记、形成和发布新数据集等内容。当前虽然有部分开源的数据处理库，但是具有较高的使用门槛，需要使用者具有良好的编码能力才能完成数据准备的工作。因此，现有数据准备方式的适用性较差。

发明内容

本发明实施例提供一种数据处理系统及方法，以解决现有数据准备方式的适用性较差的问题。

第一方面，本发明实施例提供了一种数据处理系统，包括：

接口模块，用于显示用户界面，并接收用户在用户界面上的第一输入；

第一创建模块，用于响应于所述第一输入，创建处理流，其中，所述处理流中包括数据集、算子和连接线，所述连接线将所述数据集和所述算子关联在一起；

运行模块，用于运行所述处理流，利用所述算子对所述数据集进行处理，输出目标数据集。

可选的，所述接口模块还用于：接收用户在用户界面上的第二输入；

所述系统还包括：

第一执行模块，用于响应于所述第二输入，针对所述处理流中的数据集，执行如下操作中的至少一项：

查看操作、探索操作、导出操作和删除操作。

可选的，当所述第一执行模块执行探索操作时，所述探索操作包括以下至少一项：

采样操作、过滤操作、清洗操作、排序操作、去重操作、join连接操作、union连接操作、group操作、切分操作、字符串处理操作、日期处理操作、数值处理操作、行列转置操作、编辑操作和脚本处理操作。

可选的，所述系统还包括：

第一显示模块，用于在所述第一执行模块执行探索操作的同时或者之后，对执行所述探索操作得到的探索结果进行显示。

可选的，所述处理流支持数据集的预览，实现数据集的预览依赖以下至少一项：

数据采样、数据类型支持、快捷探索和图表展示。

可选的，所述算子包括如下至少一种：

采样算子、过滤算子、清洗算子、排序算子、去重算子、join连接算子、union连接算子、group算子、切分算子、字符串处理算子、日期处理算子、数值处理算子、行列转置算子、编辑算子和脚本处理算子。

可选的，所述接口模块还用于：接收用户在用户界面上的第三输入；

所述系统还包括：

第二执行模块，用于响应于所述第三输入，针对所述处理流中的算子，执行如下操作中的至少一项：

配置操作、运行操作和删除操作。

可选的，所述第二执行模块还用于根据算子的类型及所述算子接入的数据集，对所述算子进行配置。

可选的，所述接口模块还用于：接收用户在用户界面上的第四输入；

所述系统还包括：

第二显示模块，用于响应于所述第四输入，显示所述处理流的运行日志信息；

其中，所述运行日志信息包括以下至少一项：

日志编号、运行结果基本内容和日志内容记录信息。

可选的，所述接口模块还用于：接收用户在用户界面上的第五输入；

所述系统还包括：

第二创建模块，用于响应于所述第五输入，创建数据集。

可选的，所述第二创建模块还用于：

基于结构化数据，创建所述数据集；

和/或，基于半结构化数据，创建所述数据集。

可选的，所述第二创建模块还用于：

采用如下内容中的任意一项，创建所述数据集：

文件、NFS、DBMS和HDFS。

可选的，所述第二创建模块还用于：

通过调用如下内容中的至少一项，进行半结构化数据的接入，将接入的所述半结构化数据转换为结构化数据，并基于转换后的结构化数据，创建所述数据集：

JSON、XML、Mongodb和Elasticsearch。

可选的，所述第一创建模块还用于基于用户拖拽至用户界面的数据集、算子和连接线创建处理流。

可选的，所述第一创建模块还用于基于用户拖拽至用户界面的数据集及对所述数据集进行的探索操作步骤生成的算子，创建处理流。

可选的，所述第二执行模块还用于对基于探索操作步骤生成的算子进行以下至少之一的配置操作：

删除、停用和编辑。

可选的，所述运行模块在运行一算子且有数据输出时，将输出数据填充至与所述算子对应的数据集结构形成目标数据集。

可选的，所述运行模块的运行类型为全部运行或部分运行，所述部分运行包括如下任意一项：

运行当前算子及之后所有算子、从当前算子所依赖的算子开始运行到当前算子、从当前算子所依赖的算子开始运行到当前算子之后的全部算子，以及自当前算子开始运行至指定算子。

可选的，所述第一创建模块还用于：

在用户界面上同时创建多个处理流。

可选的，所述运行模块还用于：

响应于用户在用户界面上的一键启动所有处理流的输入，依次运行具有串行关系的所述多个处理流。

第二方面，本发明实施例提供了一种数据处理方法，包括：

显示用户界面，并接收用户在用户界面上的第一输入；

响应于所述第一输入，创建处理流，其中，所述处理流中包括数据集、算子和连接线，所述连接线将所述数据集和所述算子关联在一起；

运行所述处理流，利用所述算子对所述数据集进行处理，输出目标数据集。

可选的，所述创建处理流的过程中，所述方法还包括：

接收用户在用户界面上的第二输入；

响应于所述第二输入，针对所述处理流中的数据集，执行如下操作中的至少一项：

查看操作、探索操作、导出操作和删除操作。

可选的，当针对所述处理流中的数据集执行探索操作时，所述探索操作包括以下至少一项：

采样操作、过滤操作、清洗操作、排序操作、去重操作、join连接操作、union连接操作、group操作、切分操作、字符串处理操作、日期处理操作、数值处理操作、pivot操作、编辑操作和脚本处理操作。

可选的，当针对所述处理流中的数据集执行探索操作的同时或者之后，所述方法还包括：

对执行所述探索操作得到的探索结果进行显示。

数据采样、数据类型支持、快捷探索和图表展示。

可选的，所述算子包括如下至少一种：

可选的，所述创建处理流的过程中，所述方法还包括：

接收用户在用户界面上的第三输入；

响应于所述第三输入，针对所述处理流中的算子，执行如下操作中的至少一项：

配置操作、运行操作和删除操作。

可选的，当针对所述处理流中的算子执行配置操作时，所述配置操作为：根据算子的类型及所述算子接入的数据集，对所述算子进行配置。

可选的，所述输出目标数据集之后，所述方法还包括：

接收用户在用户界面上的第四输入；

响应于所述第四输入，显示所述处理流的运行日志信息；

其中，所述运行日志信息包括以下至少一项：

日志编号、运行结果基本内容和日志内容记录信息。

可选的，所述接收用户在用户界面上的第一输入之前，所述方法还包括：

接收用户在用户界面上的第五输入；

响应于所述第五输入，创建数据集。

可选的，所述创建数据集，包括：

基于结构化数据，创建所述数据集；

和/或，基于半结构化数据，创建所述数据集。

可选的，所述基于结构化数据，创建所述数据集，包括：

采用如下内容中的任意一项，创建所述数据集：

文件、NFS、DBMS和HDFS。

可选的，所述基于半结构化数据，创建所述数据集，包括：

通过调用如下内容中的至少一项，进行半结构化的数据接入，将接入的所述半结构化数据转换为结构化数据，并基于转换后的结构化数据，创建所述数据集：

JSON、XML、Mongodb和Elasticsearch。

可选的，所述创建处理流，包括：

基于用户拖拽至用户界面的数据集、算子和连接线，创建所述处理流。

可选的，所述创建处理流，包括：

基于用户拖拽至用户界面的数据集及对所述数据集进行的探索操作步骤生成的算子，创建所述处理流。

可选的，所述方法还包括：

对基于探索操作步骤生成的算子进行以下至少之一的配置操作：

删除、停用和编辑。

可选的，所述运行所述处理流，包括：

在运行一算子且有数据输出时，将输出数据填充至与所述算子对应的数据集结构形成目标数据集。

可选的，所述处理流的运行类型为全部运行或部分运行，所述部分运行包括如下任意一项：

可选的，所述方法还包括：

响应于用户的输入，在用户界面上同时创建多个处理流。

可选的，所述方法还包括：

第三方面，本发明实施例提供了一种数据处理系统，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述计算机程序被所述处理器执行时可实现上述数据处理方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时可实现上述数据处理方法的步骤。

本发明实施例中，通过接口模块显示的用户界面上的用户输入，可以创建处理流，而基于创建的处理流，可以实现对数据集的处理，获得所需的目标数据集，从而满足数据集的定制化需求，增强数据准备的适用性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的数据处理系统的结构示意图之一；

图2为本发明实施例的创建处理流的用户界面的示意图；

图3为本发明实施例的数据处理系统的结构示意图之二；

图4为本发明具体实例的探索数据集时的用户界面示意图；

图5为本发明实施例的采用文件创建数据集时用户界面的示意图；

图6为本发明实施例的数据预览界面的示意图；

图7为本发明实施例的数据集定义界面的示意图；

图8为本发明实施例的采用NFS创建数据集时用户界面的示意图；

图9为本发明实施例的采用DBMS创建数据集时用户界面的示意图；

图10为本发明实施例的采用HDFS创建数据集时用户界面的示意图；

图11为本发明实施例的数据处理方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先指出的是，本发明实施例提供的数据处理系统主要基于创建的数据集和算子构建处理流，以通过可视化的数据集探索过程和/或处理流运行过程完成对数据集的排序、过滤、去重、清洗、join、union、group、数值处理、日期处理、字符串处理、行列转置等处理，输出所需的目标数据集。

具体的，参见图1所示，本发明实施例提供了一种数据处理系统，该数据处理系统可包括：

接口模块101，用于显示用户界面，并接收用户在用户界面上的第一输入；

第一创建模块102，用于响应于所述第一输入，创建处理流，其中，所述处理流中包括数据集、算子和连接线，所述连接线将所述数据集和所述算子关联在一起；

运行模块103，用于运行所述处理流，利用所述算子对所述数据集进行处理，输出目标数据集。

在本发明实施例中，通过接口模块显示的用户界面上的用户输入，可以创建处理流，而基于创建的处理流，可以实现对数据集的处理，获得所需的目标数据集，从而满足数据集的定制化需求，增强数据准备的适用性。

需说明的是，本发明实施例中，处理流的创建方式可包括手动拖拽创建和基于探索创建，而创建信息可以包括以下至少一项：名称、描述、包含的数据集信息(数据集名称、数据集类型、创建时间和/或更新时间)、创建时间及更新时间等。

进一步的，参见图2所示，处理流中可包括数据集、算子和连接线。该数据集可包括接入的数据集(需定义后开启算子配置)、过程中生成的数据集(已运行的包含数据，未运行的不包含数据)以及新添加的数据集。该算子可通过拖拽进入处理流界面(即用户界面)实现添加，连接数据集后可启动配置，删除时需操作确认，而删除处理流中已运行的算子时，会将一个完整的处理流断开，即删除已运行算子不会删除数据集，但会破坏数据集之间的血缘关系。若算子未运行过即被删除，则其输出的数据集为空数据集。该连接线可由用户从数据集向算子画线后生成，删除前一个算子后消失。

具体实现时，当运行处理流时，可生成该处理流的运行信息。而该处理流的运行信息可包括以下至少一项：运行对象、运行类型、数据范围和运行结果。其中，运行对象为处理流，实质是处理流中的算子，数据集是算子的输入或输出。运行类型为全部运行或部分运行，全部运行也即运行整个处理流，部分运行可选为如下任意一种：运行当前算子及之后所有算子、运行从当前算子所依赖的算子开始到当前算子、运行从当前算子所依赖的算子开始到当前算子之后的全部算子，以及自定义选择运行包括当前算子在内的连续多个算子。数据范围包括所有数据和/或样本(All data/Sample)。运行结果可包括以下至少一项：在处理流运行结束后提供的成功或失败的信息、运行开始时间、运行结束时间、运行耗时、运行成功后数据集的大小和目标数据集(即新生成的数据集)，该目标数据集可以csv文件的形式导出至本地并进行存储。

在用户界面(处理流画布)上创建处理流时，可以同时创建多个处理流。对应的，数据处理系统可提供一键启动所有处理流的运行方式，在此运行方式下，具有串行关系的多个处理流依次运行，而当某个处理流运行失败时，整个画布中的处理流终止运行。

具体实现过程中，当删除处理流时，需通过操作确认，且无法撤回。在创建处理流后，可支持处理流的查看，包括查看处理流及内部数据集和算子的情况，以及运行日志信息。该运行日志信息在处理流运行结束后提供。

可选的，所述接口模块101还用于：接收用户在用户界面上的第四输入。

对应的，参见图3所示，所述系统还包括：

第二显示模块104，用于响应于所述第四输入，显示所述处理流的运行日志信息。

其中，该运行日志信息可包括以下至少一项：日志编号、运行结果基本内容和日志内容记录信息。具体的，该日志编号具有唯一标识。该运行结果基本内容可包括以下至少一项：运行结果、运行开始时间、运行结束时间、运行耗时、运行成功后生成数据集的大小等。

具体实现时，在将创建好的数据集拖拽到处理流画布上后，可根据处理逻辑拖拽相应的算子，用连线将数据集与相应的算子进行连接，以利用所述算子对所述数据集进行处理，输出目标数据集。在创建处理流的过程中，可以根据数据集和算子的颜色监测处理流的进程。

本发明实施例中，针对处理流中的数据集，可进行查看、探索等操作。可选的，所述接口模块101还用于：接收用户在用户界面上的第二输入。

对应的，参见图3所示，所述系统还包括：

第一执行模块105，用于响应于所述第二输入，针对所述处理流中的数据集，执行如下操作中的至少一项：

查看操作、探索操作、导出操作和删除操作。

这样，通过对数据集进行的查看、探索等操作，可以实现数据集的可视化处理过程，便于实时查看数据集的情况。

可选的，上述探索操作可以包括以下至少一项：

采样操作、过滤操作、清洗操作、排序操作、去重操作、join连接操作、union连接操作、group操作、切分操作、字符串处理操作、日期处理操作、数值处理操作、行列转置操作(比如pivot操作)、编辑操作和脚本处理操作。

可选的，所述系统还包括：

第一显示模块108，用于在所述第一执行模块105执行探索操作的同时或者之后，对执行所述探索操作得到的探索结果进行显示。

可选的，所述第一创建模块102还用于：

在用户界面上同时创建多个处理流。

可选的，所述运行模块103还用于：

下面结合图2，对上述针对数据集执行的操作进行详细说明。

本发明实施例中，参见图2所示，数据集(通常为创建好的数据集)的类型可包括文件、数据库管理系统(Database Management System，DBMS)、HIVE和分布式文件系统(Hadoop Distributed File System，HDFS)，每一类型下均包含多个数据集，一般放置于画布(处理流画布、用户界面)的左侧。比如，文件类型下包含sample-1sample-2和sample-3，DBMS类型下包含MySQL、Postgresql、SQL Server、DB2等，HDFS类型下包含New Datasets等，其中DBMS下的样本基于数据库的类型进行分类。

具体的，在将数据集拖拽至画布上后，可以基于用户输入对该数据集进行查看、探索、导出和/或删除操作。当用户实施查看操作时，系统可弹出相应数据集的数据集信息、血缘或影响(与该数据集有关的其他数据集或标签信息)信息，以及与该数据集有关的探索记录信息，用户可以对所述数据集信息进行编辑。当用户实施探索操作时，系统可跳转至探索标签编辑窗口(用户可以选择已有标签也可以新建标签)，用户点击探索图标后，进入数据集探索界面。

在数据集探索界面上，用户可以对数据集进行探索，如采样、过滤、清洗、排序、去重、join、union、group、切分、字符串处理、日期处理、数值处理、pivot、edit、脚本处理等操作。用户对数据集执行的每一个操作都可以探索步骤的方式在画布右侧显示。当前数据集显示为操作后的更新的数据集。下面分别对探索操作进行详细说明。

采样操作：用户可以选择以下任意一种进行采样操作：数据集的前N行、数据集的随机N行、数据集的类平衡N行、数据集的类平衡x％行和数据集的全部数据。用户可以进一步设置采样数目。而每次采样都会把重新采样后的数据加载到Spark集群的内存中作为数据探索步骤的最初输入，相当于对待处理数据集的更新。

过滤操作：用户可以选择以下任意一种进行过滤操作：(1)根据内容过滤行；比如，根据以下至少一项过滤行：操作对象(一列/多列)、匹配模式(完全/部分匹配)、可选项(大小写敏感/不敏感)和结果(保留/删除匹配行)等；(2)根据数值范围过滤行；比如，根据以下至少一项过滤行：操作对象(一列/多列)、数值范围(最大值/最小值)和结果(保留/删除匹配行)等；(3)根据日期范围过滤行；比如，根据以下至少一项过滤行：操作对象(一列/多列)、日期范围(起始日期/结束日期)和结果(保留/删除匹配行)等；(4)过滤包含无效值的行；比如，根据以下至少一项过滤行：操作对象(一列/多列)和结果(保留/删除匹配行)等；(5)过滤包含空值的行；比如，根据以下至少一项过滤行：操作对象(一列/多列)和结果(保留/删除匹配行)等。

清洗操作：此清洗操作可包括以下至少一项：删除列、删除内容、替换内容、填充内容、去除无效值、移动无效值到新的列、拆分列、提取数字、生成标记列、数值归一化等。其中，删除列的操作对象为数据集，得到的结果是删除指定列或保留指定列。清除内容的操作对象为一个列或多个列，匹配模式有完全匹配和部分匹配，可选择大小写敏感或不敏感，以删除匹配单元格中的内容或保留匹配单元格中的内容。替换内容的操作对象为一个列或多个列，匹配模式有完全匹配和部分匹配，可选择大小写敏感或不敏感，以直接替换原有内容。填充内容的操作对象为一个列或多个列，匹配模式有完全匹配和部分匹配，填充模式有使用固定值、使用均值、使用前一行的值和/或使用后一行的值，以将原来的控制替换为指定值。去除无效值的操作对象为一个列或多个列，以将操作对象替换为空白或替换为指定的值。移动无效值至新的列的操作对象为一个列，以将原列中的无效值替换为空，或将原来的无效值保存至新列。拆分列的操作对象为一个列，通过输入分隔符，截断指定列或切分指定的方向，以生成多个新列。提取数字的操作对象为一个列，以新生成一个列，保存从原有列中提取的数字。生成标记列的操作对象为一个列或多个列，匹配模式有标记一列中的特定值、标记数值列中的某个数值范围、标记日期列中的某个日期范围和/或标记一列中的无效值，以新生成一列，匹配的行取值为1否则为空。数值归一化的操作对象为一个列，采用的归一化方法包括Min-max方法、Z-score方法和/或Sigmod方法，以生成新的列并保存归一化的值。

排序操作：排序的操作对象为一个列或多个列，排序模式包括按字母排序、按数值排序和/或按日期排序，而排序顺序包括升序和降序，从而得到重新排列记录的结果。

去重操作：去重的操作对象为数据集，去重方式包括按单列去重和/或按多列值的组合去重，从而得到新的数据集。

join连接操作：join的操作对象为数据集，连接方式可以包括left join(左联)、right join(右联)、inner join(内联)和/或full join(外联)，以生成新的数据集。

union连接操作：union的操作对象为数据集，连接方式为union all(不查重不排除重复)，以生成新的数据集。

group操作：group的操作对象为数据集，采用的聚合函数包括Max(最大值)、Min(最小值)、Avg(平均值)、Sum(求和)和/或Count函数，以生成新的数据集。

切分操作：切分的操作对象为数据集，切分方式包括按指定列的不同取值进行切分、按指定比率随机切分、按指定条件进行切分和/或按指定列的百分位数进行切分，从而得到新的数据集。

字符串处理操作：字符串处理的操作对象为一个列或多个列，处理方式包括以下至少一项：转换为大写、转换为小写、清除前导空格、清除尾部空格、首字母大写、每个单词首字母大写和截断(比如只保留单元格中的前N个字符)等，以得到与处理方式有关的替换原值的列或新列。

日期处理操作：日期处理的操作对象为一列，处理方式包括以下至少一项：转换日期为指定格式、转换UNIX时间戳为日期、计算两个日期之间的天数和提取日期元素(作用在标准格式列上)等，以得到与处理方式有关的替换原值的列或新列。

数值处理操作：数值处理的操作对象为一列，处理方式包括以下至少一项：向上取整、向下取整、四舍五入取整、保留指定位精度(比如多余的向前进位、多余的丢弃，或多余的四舍五入)、指定数值范围(超出边界的值用边界值替换)和生成数值组合(支持的运算为+－×÷，允许列之间的运算)等，以得到与处理方式有关的替换原值的列或新列。

pivot操作：Pivot的操作对象为数据集，操作方式包括以下至少一项：Simplecount、Pivot table、Pivot values、Frequency table和Various statistics等，以生成新的数据集。

编辑操作：Edit的操作对象为数据集，通过编辑数据集的内容，以生成新的数据集。

脚本处理操作：脚本处理的操作对象为数据集，脚本类型包括Sql、Hive Sql和/或Spark Sql，以生成新的数据集。

当用户执行完上述探索操作后，可以选择运行操作。而用户选择运行操作时，可按照用户的操作步骤记录重新运行，当然在用户执行上述探索操作时也存在对执行步骤立即运行以显示执行该操作得到的可视化结果。此外，用户也可以指定重新运行至指定的某个步骤；用户也可以保存对数据集的探索操作，即将用户配置的算子进行保存；当用户点击发布至处理流时，系统默认将用户所有的探索操作集成为一个处理算子(即算子)，并需指定该算子的输出数据集，显示于处理流画布上。

比如，参见图4所示，在探索数据集table1时，探索步骤可包括：1、删除空值行：ID；2、保留匹配行：4≤price≤30；3、生成标记列：4≤price≤30；4、转换为大写：Customer-name；5、排序：price降序，name升序；6、按列去重：name；7、按列组合去重：name，birthday；8、提取数字：birthday；9、Union：table01，table02。在探索界面上，可对数据集table1执行清洗操作。在探索过程中，工具箱中的工具可包括但不限于：洛伦兹曲线、卡方检验、相关系数、协方差、累积分布函数、离散分析、正态检验和经验密度图等。

本发明实施例中，上述处理流支持数据集的预览，实现数据集的预览依赖以下至少一项：

数据采样、数据类型支持、快捷探索和图表展示。

其中，实施数据采样的方式可以包括以下任意一种：不采样、使用所有数据、选择前N行数据、随机选取N行数据、类平衡N行数据和类平衡X％行数据等。

对于支持预览的数据类型，可以不同数据源的数据支持数据类型的自动推断，包括但不限于：字符类(string)、数值类(int、double)、布尔类(Boolean)和日期类(date、timestamp)。

上述快捷探索可包括以下至少一项：(1)过滤，比如过滤有效值、无效值和/或空值；(2)排序，比如针对数值类(整型、浮点型)，按照数值大小排序，或者针对文本类(字符型、布尔型)，按照字母升降排序，或者针对日期类，按照日期远近排序；(3)特征分析，包括类别特征、数值特征和质量特征。其中，类别特征可包括以下至少一项：计数(count)、占比(ratio)、累加百分比(cum％)、数据最长的长度和数据最短的长度，类别特征主要针对字符型数据。数值特征可包括基本特征(比如平均数、中位数、众数、最小值和/或最大值)，以及高级特征(比如上四分位数、下四分位数、方差、极差、标准差和/或箱型图)，数值特征主要针对整型、浮点型数据。质量特征可包括以下至少一项：全部值、有效值、唯一值、无效值和空值，主要以count&ratio条形图展示，质量特征针对全部类型的数据。

上述图表展示包括支持的图表类型和图表设计。其中，数据预览支持的图表类型包括以下至少一项：柱状图、条形图、饼图、折线图、箱型图、面积图、散点图、气泡图、堆叠柱状图、堆叠条形图。图表设计包括标签和数值，标签支持全部类型的字段，支持整型和浮点型数据的合并，支持一个或多个字段，对应二维图中的x轴横坐标；数值支持全部类型的字段，支持整型和浮点型数据的合并，支持一个或多个字段，对应二维图中的y轴横坐标。此外，在进行图表展示时还可以对数据进行过滤和排序、选择图表颜色，和/或将单个图表导出为PDF文件。

本发明实施例中，可选的，上述算子可包括如下至少一种：

其中，当用户将某一算子拖拽至画布中并与数据集进行连线后，用户可以进一步对该算子进行配置、运行和/或删除等操作。

可选的，所述接口模块101还用于：接收用户在用户界面上的第三输入。

对应的，参见图3所示，所述系统还包括：

第二执行模块106，用于响应于所述第三输入，针对所述处理流中的算子，执行如下操作中的至少一项：

配置操作、运行操作和删除操作。

可选的，所述第二执行模块106还用于根据算子的类型及所述算子接入的数据集，对所述算子进行配置。

可选的，所述第一创建模块102还用于基于用户拖拽至用户界面的数据集、算子和连接线创建处理流。

可选的，所述第一创建模块102还用于基于用户拖拽至用户界面的数据集及对所述数据集进行的探索操作步骤生成的算子，创建处理流。

可选的，所述第二执行模块106还用于对基于探索操作步骤生成的算子进行以下至少之一的配置操作：

删除、停用和编辑。

可以理解的，对于配置操作，针对不同的算子，可按照不同的规则进行配置，而算子配置的最后一步是指定数据集的输出。运行操作可包括以下至少一项：仅运行当前算子、运行至当前算子(比如自第一个算子开始运行，或者自第一个非空数据集前算子开始运行)、自当前算子开始运行之后全部算子和自当前算子开始运行至指定算子等。在算子运行过程中可显示运行日志内容。用户可以对添加的算子进行删除操作。

本发明实施例中，对于数据集的输出，一般情况下在完成一个算子的配置后默认生成一个空值的数据集结构，当运行该数据集结构之前相邻的算子且有数据输出时，填充至该数据集结构中形成新的数据集。所谓数据集的输出，指的是算子的输出数据集，所述数据集可以存储在FS、DB和/或HDFS上，也可以以csv文件的形式导出至本地。

而经过数据处理的输出数据集(如目标数据集)的类型可以为FileSystem、DBMS、HDFS和/或文件。其中，FileSystem支持的文件格式包括txtfile(支持指定分隔符)、json和/或xml，导出方式包括全部导出和采样导出(部分导出)。DBMS支持的目标数据源包括以下至少一项：MySQL、PostgreSQL、SQL Server、Oracle、DB2和Hive等。HDFS支持的文件格式包括以下至少一项：txtfile(支持指定分隔符)、json、xml、Parquet、SequenceFile、RCFile和ORCFile等，导出方式包括全部导出和采样导出(部分导出)。

本发明实施例中，在创建处理流之前，可基于用户输入创建数据集。可选的，所述接口模块101还用于：接收用户在用户界面上的第五输入；

对应的，参见图3所示，所述系统还包括：

第二创建模块107，用于响应于所述第五输入，创建数据集。

进一步的，所述第二创建模块107还用于：

基于结构化数据，创建所述数据集；

和/或，基于半结构化数据，创建所述数据集。

可选的，当基于结构化数据创建数据集时，所述第二创建模块107还用于：

采用如下内容中的任意一项，创建所述数据集：

文件、NFS、DBMS和HDFS。

当基于半结构化数据创建数据集时，所述第二创建模块107还用于：

JSON、XML、Mongodb和Elasticsearch。

这样，通过创建数据集，可便于后续的创建处理流，实现目标数据集的定制化输出。

具体实现时，当基于结构化数据创建数据集时，用户可点击用户界面中用于新建数据集的图标，以弹出对应的数据集新建界面(窗口)。在对应的数据集新建界面(窗口)中，用户可以选择采用文件、NFS、DBMS或HDFS等数据来源创建数据集。在完成数据集的创建之后，可以查看创建的数据集的详细信息。

例如，当采用文件创建数据集时，参见图5所示，用户可以采用输入目标路径、点击预设图标加载或拖拽的方式，将文本文件、压缩文件或Excel文件等进行上传。所述文件的类型包括以下任意一种：csv、tsv、txt、xls、xlsx、zip和tar。用户也可以选择文件类型。在选择文件及文件类型后，系统可自动处理列分隔符和行分隔符。用户在选择编码格式后点击下一步，可以预览数据，如图6所示。在预览数据之后，点击下一步可进入数据集定义界面，而在数据集定义界面中，用户可定义数据集名称、数据集简介和添加标签等，如图7所示。在完成所有操作之后点击确定，即可完成数据集的创建。

当采用NFS创建数据集时，参见图8所示，用户可以选择某一路径目录下的文件(可以是该路径目录下的单一文件，也可以是该路径目录下的所有文件)，点击下一步可提示该文件可用或不可用。当NFS文件可用时，进入文件数据预览界面。当NFS文件已映射为其他数据集Sample时提示不可用。在预览数据之后，点击下一步可进入数据集定义界面。而在数据集定义界面中，用户可定义数据集名称、数据集简介和添加标签等。在完成所有操作之后点击确定，即可完成数据集的创建。

当采用DBMS创建数据集时，参见图9所示，可由用户选择数据来源的连接名称。当用户选择某一数据来源连接时，系统会自动填充该数据来源连接的数据库类型、地址、端口、用户名、密码和库名等。用户可进一步选择数据库类型，点击连接可进入标签选择界面。用户选择标签后，点击下一步可进入数据预览界面。在预览数据之后，点击下一步可进入数据集定义界面。而在数据集定义界面中，用户可定义数据集名称、数据集简介和添加标签等。在完成所有操作之后点击确定，即可完成数据集的创建。

当采用HDFS创建数据集时，参见图10所示，可由用户选择数据来源的连接名称，并进一步输入地址、端口、用户名和密码，接着选择文件格式(如ORCFile、Parquet或Textfile)并输入文件路径，点击连接可进入文件数据预览界面。在预览数据之后，点击下一步可进入数据集定义界面。而在数据集定义界面中，用户可定义数据集名称、数据集简介和添加标签等。在完成所有操作之后点击确定，即可完成数据集的创建。

当基于半结构化数据创建数据集时，半结构化数据的数据来源包括调用JSON、XML、Mongodb或Elasticsearch进行数据接入，涉及半结构化数据到结构化数据的转换。

其中，在调用json进行数据接入时，需要进行嵌套处理，也即移除内层嵌套、保留为单列或递归展平为多列。json还可支持从指定根元素解析(默认从最外层节点解析，解析格式包括key、subkey和/或subsubkey)。在调用json进行数据接入时，可通过Sechma配置自动生成列名(如节点名)和类型，允许修改数据类型，及支持预览N条数据。

在调用XML进行数据接入时，可支持从指定根元素解析。在调用xml进行数据接入时，可通过Sechma配置自动生成列名(如使用节点名)和类型，可以手动配置指定元素路径与列名的对应关系，允许配置元素属性与列的映射，还允许修改数据类型，及支持预览N条数据。

在调用Mongodb进行数据接入时，其连接配置包括地址、端口、用户名、密码和库名。在调用Mongodb进行数据接入时，可以基于新建连接或已有连接实现。Mongodb还支持预览功能，也即选择相应库和表，以及选择元数据(字段名or字段类型)或数据作为预览对象，也可选择一张/多张表，生成一个/多个数据集。

在调用Elasticsearch进行数据接入时，其连接配置包括地址、端口、用户名、密码和库名。在调用Elasticsearch进行数据接入时，可以基于新建连接或已有连接实现。Elasticsearch还支持预览功能，也即选择相应Indice和Type，以及选择元数据(字段名or字段类型)或数据(可预览N条记录)作为预览对象，也可选择一张/多张表，生成一个/多个数据集。

上述实施例对本发明的数据处理系统进行了说明，下面将结合实施例和附图对本发明的数据处理方法进行说明。

参见图11所示，本发明实施例还提供了一种数据处理方法，所述方法包括如下步骤：

步骤111：显示用户界面，并接收用户在用户界面上的第一输入；

步骤112：响应于所述第一输入，创建处理流，其中，所述处理流中包括数据集、算子和连接线，所述连接线将所述数据集和所述算子关联在一起；

步骤113：运行所述处理流，利用所述算子对所述数据集进行处理，输出目标数据集。

本发明实施例中，可选的，执行步骤112的过程中，所述方法还包括：

接收用户在用户界面上的第二输入；

查看操作、探索操作、导出操作和删除操作。

对执行所述探索操作得到的探索结果进行显示。

数据采样、数据类型支持、快捷探索和图表展示。

可选的，所述算子包括如下至少一种：

可选的，执行步骤112的过程中，所述方法还包括：

接收用户在用户界面上的第三输入；

配置操作、运行操作和删除操作。

可选的，步骤113之后，所述方法还包括：

接收用户在用户界面上的第四输入；

响应于所述第四输入，显示所述处理流的运行日志信息；

其中，所述运行日志信息包括以下至少一项：

日志编号、运行结果基本内容和日志内容记录信息。

可选的，步骤111之前，所述方法还包括：

接收用户在用户界面上的第五输入；

响应于所述第五输入，创建数据集。

可选的，所述创建数据集，包括：

基于结构化数据，创建所述数据集；

和/或，基于半结构化数据，创建所述数据集。

可选的，所述基于结构化数据，创建所述数据集，包括：

采用如下内容中的任意一项，创建所述数据集：

文件、NFS、DBMS和HDFS。

可选的，所述基于半结构化数据，创建所述数据集，包括：

JSON、XML、Mongodb和Elasticsearch。

可选的，创建处理流，包括：

可选的，所述创建处理流，包括：

可选的，所述方法还包括：

删除、停用和编辑。

可选的，所述运行所述处理流，包括：

可选的，所述方法还包括：

响应于用户的输入，在用户界面上同时创建多个处理流。

可选的，所述方法还包括：

此外，本发明实施例还提供了一种数据处理系统，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述计算机程序被所述处理器执行时可实现上述数据处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述数据处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台数据处理系统设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据处理系统，其特征在于，包括：

2.根据权利要求1所述的系统，其特征在于，

所述接口模块还用于：接收用户在用户界面上的第二输入；

所述系统还包括：

查看操作、探索操作、导出操作和删除操作。

3.根据权利要求2所述的系统，其特征在于，当所述第一执行模块执行探索操作时，所述探索操作包括以下至少一项：

4.根据权利要求2所述的系统，其特征在于，所述系统还包括：

5.根据权利要求1所述的系统，其特征在于，所述处理流支持数据集的预览，实现数据集的预览依赖以下至少一项：

数据采样、数据类型支持、快捷探索和图表展示。

6.一种数据处理方法，其特征在于，包括：

显示用户界面，并接收用户在用户界面上的第一输入；

7.根据权利要求6所述的方法，其特征在于，所述创建处理流的过程中，所述方法还包括：

接收用户在用户界面上的第二输入；

查看操作、探索操作、导出操作和删除操作。

8.根据权利要求7所述的方法，其特征在于，当针对所述处理流中的数据集执行探索操作时，所述探索操作包括以下至少一项：

9.根据权利要求7所述的方法，其特征在于，当针对所述处理流中的数据集执行探索操作的同时或者之后，所述方法还包括：

对执行所述探索操作得到的探索结果进行显示。

10.根据权利要求6所述的方法，其特征在于，所述处理流支持数据集的预览，实现数据集的预览依赖以下至少一项：

数据采样、数据类型支持、快捷探索和图表展示。