CN110442620B

CN110442620B - 一种大数据探索和认知方法、装置、设备以及计算机存储介质

Info

Publication number: CN110442620B
Application number: CN201910718388.1A
Authority: CN
Inventors: 赵玉德
Original assignee: Zhejiang Xinwangzhen Technology Co ltd
Current assignee: Zhejiang Xinwangzhen Technology Co ltd
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2023-08-29
Anticipated expiration: 2039-08-05
Also published as: CN110442620A

Abstract

本发明涉及数据处理和分析技术领域，公开了一种大数据探索和认知方法、装置、设备及计算机存储介质，使得在大数据应用工程、ETL开发、数据处理、清洗、整合以及分析建模等方面且面对各种不同数据源的海量数据时，可探索获取包含各个数据表甚至各个字段的总揽信息，并将这些总揽信息以可视化的视图和表格自动展现出来，从而让用户获取对数据的全面认知。目前很多数据仓库、ETL、BI、数据挖掘、机器学习和大数据分析项目常以虎头蛇尾或失败告终，重要原因是因为一开始对数据全集认知不够，有偏差，或者以一概全，因此通过本发明可以更好地帮助、指引用户有的放矢、对症下药的规划并开发前述项目，尽可能地避免这些项目以虎头蛇尾或以失败告终。

Description

一种大数据探索和认知方法、装置、设备以及计算机存储介质

技术领域

本发明属于数据处理和分析技术领域，具体涉及一种大数据探索和认知方法、装置、设备以及计算机存储介质。

背景技术

大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。近年来，随着互联网技术、计算机技术和数据库技术等的快速发展，在我们的日常工作生活中出现了大量的数据信息，并且这些数据信息以几何级别的增长速度保持高速递增，进而导致信息量增长的速度远比人类理解的速度要快，并以海浪式四面八方地涌入人类的生活。面对日益增长的海量数据，目前很难去人工梳理和挖掘其中的且隐藏有用或有价值的信息，使得很多数据仓库、ETL(Extract-Transform-Load的缩写，用来描述将数据从来源端经过萃取、转置、加载至目的端的过程)、BI(Business Intelligence，中文翻译是商业智能，是一套完整的解决方案，用来将组织中现有的数据进行有效的整合，快速准确的提供报表并提供决策依据，帮助组织做出明智的业务经营决策)、数据挖掘、机器学习和大数据分析项目都常以虎头蛇尾或失败方式告终(其主要原因之一就是因为一开始对可用的数据全集认识不够、有偏差，或者以一概全)。

以特征工程为例。特征工程就是选择一组具有代表性的特征用于构建机器学习模型。这是一个非常重要的问题，可以说是数据分析项目中最耗时间的一个环节。它的目的就是在有大量特征(变量)可选择的情况下，尽可能地缩小范围，选择出对分析目标最有价值或者说最有影响力的特征。然而在现实世界中，数据通常是复杂的，冗余的，缺失的，导致数据质量差。因此有必要对原始数据做处理做筛选，但是通过人工筛选，不仅耗时耗力，而且很大程度上依赖于人力及其专业知识。

发明内容

为了解决当前难以梳理或挖掘海量数据中隐藏有用/有价值数据的问题，本发明目的在于提供一种大数据探索和认知方法、装置、设备以及计算机存储介质。

本发明所采用的技术方案为：

一种大数据探索和认知方法，包括如下步骤：

S101.数据源创建和管理：创建需要探索认知的目标数据源，包括数据源类型、数据库服务器的IP地址、登录用户名、登录密码和数据库名称；

S102.数据集创建和管理：基于创建的数据源，创建一个数据集名称，用于包含需要探索认知的目标数据表和字段；

S103.数据集配置：基于创建的数据集，用户任意筛选指定对应数据库里面的数据表和字段；

S104.探索任务创建和管理：基于创建且配置好的数据集，选择全部或部分探索功能，构成一个具体的探索任务；

S105.执行探索任务：对用户筛选的多个探索任务进行排序，并按序分布执行多个探索任务；

S106.自动输出并可视化展示执行探索任务所得到的总揽信息探索结果。

优化的，在所述步骤S104中，所述选择全部或部分探索功能的方式为配置如下任意组合的探索任务：表格基本信息探索任务、字段值分布信息探索任务、字段特征信息探索任务和字段间层次关系信息探索任务；

在所述步骤S105中，按照如下方式执行某个探索任务：

(A)若该探索任务为表格基本信息探索任务，则执行与该表格基本信息探索任务对应的且基于JAVA和SQL语言编写的访问程序，访问目标数据库服务器，然后查询获取所有目标数据表的如下基本信息探索结果：表名、创建时间、修改时间、记录总数和/或字段总数；

(B)若该探索任务为字段值分布信息探索任务，则执行与该字段值分布信息探索任务对应的且基于JAVA和SQL语言编写的访问程序，访问目标数据库服务器，然后查询获取所有目标字段的如下值分布信息探索结果：各个不同非空值，以及与各个不同非空值对应的出现频次；

(C)若该探索任务为字段特征信息探索任务，则执行与该字段特征信息探索任务对应的且基于JAVA和SQL语言编写的访问程序，访问目标数据库服务器，然后查询获取所有目标字段的如下特征信息探索结果：数据类型、空值率、不同值数、值密度、存储空间长度、实际长度、最小值、最大值和/或字段值是否唯一；

(D)若该探索任务为字段间层次关系信息探索任务，则执行与该字段间层次关系信息探索任务对应的且基于JAVA和SQL语言编写的访问程序，访问目标数据库服务器，然后查询获取任意两目标字段之间的如下层次关系信息探索结果：一对一关系、一对多关系和/或多对一关系。

进一步优化的，在(C)方式中，按照如下公式编写的访问程序来查询获取目标字段的空值率R_null和/或值密度D_distinct：

式中，n_null为目标字段中的空值总数，C_distinct为目标字段中具有不同非空值的个数，N为在目标字段所属目标数据表中的总记录数。

进一步优化的，在(D)方式中，按照如下步骤编写的访问程序来查询获取第一目标字段与第二目标字段之间的层次关系信息：

DS101.检查是否存在所述第一目标字段中的某个非空值对应所述第二目标字段中多个或零个非空值的情况，若不存在，执行步骤DS102，若存在，则执行步骤DS103；

DS102.检查是否存在所述第二目标字段中的某个非空值对应所述第一目标字段中多个或零个非空值的情况，若不存在，则判定所述第一目标字段与所述第二目标字段之间的层次关系信息为一对一关系，否则判定所述第一目标字段与所述第二目标字段之间的层次关系信息为多对一关系；

DS103.检查是否存在所述第二目标字段中的某个非空值对应所述第一目标字段中多个或零个非空值的情况，若不存在，则判定所述第一目标字段与所述第二目标字段之间的层次关系信息为一对多关系，否则判定所述第一目标字段与所述第二目标字段之间的层次关系信息为多对多关系。

进一步优化的，在所述步骤S106中：

若得到的总揽信息探索结果包含基本信息探索结果，则采用列表形式展示该基本信息探索结果；

若得到的总揽信息探索结果包含值分布信息探索结果，则采用列表形式或柱状图形式展示该值分布信息探索结果；

若得到的总揽信息探索结果包含特征信息探索结果，则采用列表形式或柱状图形式展示该特征信息探索结果；

若得到的总揽信息探索结果包含层次关系信息探索结果，则采用列表形式或树状图形式展示该层次关系信息探索结果。

详细优化的，在所述步骤S106中且采用柱状图形式展示值分布信息探索结果时，通过柱状图展示选定字段中出现频次最高的前M个不同非空值，其中，M为介于10～100之间的自然数。

优化的，在所述步骤S106中，输出并可视化展示与用户选定数据表/和用户选定字段对应的总揽信息探索结果。

本发明所采用的另一种技术方案为：

一种大数据探索和认知装置，包括数据源创建及管理模块、数据集创建及管理模块、数据表及字段配置模块、探索任务配置模块、探索任务执行模块和探索结果可视化模块；

所述数据源创建及管理模块，用于数据源创建和管理：创建需要探索认知的目标数据源，包括数据源类型、数据库服务器的IP地址、登录用户名、登录密码和数据库名称；

所述数据集创建及管理模块，通信连接所述数据源创建及管理模块，用于数据集创建和管理：基于创建的数据源，创建一个数据集名称，用于包含需要探索认知的目标数据表和字段；

所述数据表及字段配置模块，通信连接所述数据集创建及管理模块，用于数据集配置：基于创建的数据集，用户任意筛选指定对应数据库里面的数据表和字段；

所述探索任务配置模块，通信连接所述数据表及字段配置模块，用于探索任务创建和管理：基于创建且配置好的数据集，选择全部或部分探索功能，构成一个具体的探索任务；

所述探索任务执行模块，通信连接所述探索任务配置模块，用于执行探索任务：对用户筛选的多个探索任务进行排序，并按序分布执行多个探索任务；

所述探索结果可视化模块，通信连接所述探索任务执行模块，用于自动输出并可视化展示执行探索任务所得到的总揽信息探索结果。

本发明所采用的另一种技术方案为：

一种大数据探索和认知设备，包括通信相连的存储器和处理器，其中，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如前所述大数据探索和认知方法的步骤。

本发明所采用的另一种技术方案为：

一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如前所述大数据探索和认知方法的步骤。

本发明的有益效果为：

(1)本发明创造提供了一种适用于各个行业并方便对各种数据进行抽象化的通用方法、装置、设备以及计算机存储介质，使得在大数据应用工程、ETL开发、数据处理、清洗、整合以及分析建模等方面且面对各种不同数据源的海量数据时，先创建数据源及数据集，然后针对目标数据集灵活配置探索目标和探索任务，并进行深度探索，获取包含各个数据表的基本和统计信息、各个数据表字段的内容分布、统计、概貌、层次关系、空值率、值密度等总揽信息，并将这些总揽信息记录下来，保存在客户端本地数据库中，以可视化的视图和表格自动展现出来，从而让用户获取数据的全面认知，避免出现对数据认知不足、有偏差和以一概全等问题，进而利于指引用户有的放矢或对症下药地规划并建设数据仓库、ETL、BI、数据挖据、机器学习和大数据分析等项目，为这些项目的正常开展保驾护航；

(2)可通过数据探索结果的可视化，使用户可以一目了然地全方位了解每个字段(也就是特征变量)的质量，以及字段之间的关联和层次关系，利于剔除不相关(irrelevant)或冗余(redundant)的特征，从而达到减少特征个数，提高机器学习模型精确度，减少运行时间的目的。例如，某个字段的空值率太高(即质量很差)、值密度达到100％(如唯一字段)或者值密度接近0(如常数值字段)，那么这个字段就不适宜于作为特征变量。再例如，如果探索出字段A对字段B的关系是一对多的关系，在多维在线分析中就可以构建A和B的层次(Hierarchy)，以及在特征工程中，如果选择了字段B作为特征，通常就不会选择字段A也作为特征，进一步达到减少特征个数的目的；

(3)本实施例对探索的数据所代表的业务含义和业务领域没有任何前提假设，因此可适用于各行各业各种数据通用化的产品，且目前在国内国际市场上没有类似的系统化通用化的探索认知技术存在；此外，本实施例可支持所有关系型数据库，包括MySQL,Oracle,SQL Server,DB2,Sybase,Hive,PostgreSQL,Teradata，...等等；

(4)所述大数据探索和认知方法还具有探索自动化和结果展示多样化等优点，便于实际推广和使用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的大数据探索和认知方法的流程示意图。

图2是本发明提供的采用列表形式展示基本信息探索结果的示例图。

图3是本发明提供的采用列表形式展示值分布信息探索结果的示例图。

图4是本发明提供的采用柱状图形式展示值分布信息探索结果的示例图。

图5是本发明提供的采用列表形式展示特征信息探索结果的示例图。

图6是本发明提供的采用柱状图形式展示特征信息探索结果中空值率的示例图。

图7是本发明提供的采用柱状图形式展示特征信息探索结果中值密度的示例图。

图8是本发明提供的采用柱状图形式展示特征信息探索结果中空间浪费统计的示例图。

图9是本发明提供的采用列表形式展示层次关系信息探索结果的示例图。

图10是本发明提供的采用树状图形式展示一对多层次关系信息探索结果的示例图。

图11是本发明提供的采用树状图形式展示一对一层次关系信息探索结果的示例图。

图12是本发明提供的大数据探索和认知装置的结构示意图。

图13是本发明提供的大数据探索和认知设备的结构示意图。

图14是本发明提供的大数据探索和认知设备的应用场景示意图。

上述附图中：1-大数据探索和认知设备；201-CRM数据库服务器；202-ERP数据库服务器；203-SCM数据库服务器；204-Legacy数据库服务器；205-External数据库服务器。

具体实施方式

下面结合附图及具体实施例对本发明作进一步阐述。在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本文阐述的实施例中。

应当理解，在本文描述的一些流程中，包含了按照特定顺序出现的多个操作，但是这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如S101、S102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作同样按顺序执行或并行执行。

应当理解，尽管本文可以使用术语第一、第二等等来描述各种单元，这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元，同时不脱离本发明的示例实施例的范围。

应当理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B三种情况，本文中术语“/和”是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A，单独存在A和B两种情况，另外，本文中字符“/”，一般表示前后关联对象是一种“或”关系。

应当理解，当将单元称作与另一个单元“连接”、“相连”或“耦合”时，它可以与另一个单元直相连接或耦合，或中间单元可以存在。相対地，当将单元称作与另一个单元“直接相连”或“直接耦合”时，不存在中间单元。应当以类似方式来解释用于描述单元之间关系的其他单词(例如，“在……之间”对“直接在……之间”,“相邻”对“直接相邻”等等)。

本文使用的术语仅用于描述特定实施例，并不意在限制本发明的示例实施例。如本文所使用的，单数形式“一”、“一个”以及“该”意在包括复数形式，除非上下文明确指示相反意思。还应当理解术语“包括”、“包括了”、“包含”和/或“包含了”在本文中使用时,指定所声明的特征、整数、步骤、操作、单元和/或组件的存在性,并且不排除一个或多个其他特征、数量、步骤、操作、单元、组件和/或他们的组合存在性或增加。

还应当注意到在一些备选实施例中，所出现的功能/动作可能与附图出现的顺序不同。例如,取决于所涉及的功能/动作,实际上可以实质上并发地执行,或者有时可以以相反的顺序来执行连续示出的两个图。

在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统，以避免用不必要的细节来使得示例不清楚。在其他实例中，可以不以不必要的细节来示出众所周知的过程、结构和技术，以避免使得示例实施例不清楚。

实施例一

如图1～11所示，本实施例提供的所述大数据探索和认知方法，可以但不限于包括如下步骤S101～S106。

S101.数据源创建和管理：创建需要探索认知的目标数据源，包括但不限于数据源类型、数据库服务器的IP地址、登录用户名、登录密码和数据库名称等。

在所述步骤S101中，数据源即数据源泉，为数据集的来源，可以是各种业务领域的数据，例如CRM(Customer Relationship Management，客户关系管理)、ERP(EnterpriseResource Planning，企业资源计划)、ecommerce(电商)、SCM(Supply Chain Management，供应链管理)、Legacy和External(历史和外部数据)、……等等。这些数据可以存放在各种数据库里，例如MySQL,Oracle,SQL Server,DB2,Sybase,Hive,PostgreSQL,Teradata，...等等，本实施例支持所有关系型数据库。在进行探索前，首先要创建数据源，指明数据源信息。数据源信息包括成功连接到数据源所需要的所有信息，例如数据库服务器的IP地址或名称、类型、数据库名称、登录用户名和登录密码。因此一个完整有效的数据源信息必须包括：数据源名称、数据源类型(例如Oracle、MySQL、DB2、Microsoft SQL Server、MicrosoftAccess、Sybase、Hive、PostgreSQL、Teradata、...等)、数据库服务器的IP地址或名称、登录用户名、登录密码和相对应的数据库名称等。详细的，可优选在人机交互界面上创建数据源，生成数据源信息，然后将该数据源信息添加到一个数据源列表中，再然后进行如下数据源管理：包括在数据源列表中新增或删除数据源信息；数据源信息一旦创建就无法更改，只能测试连接有效性或者删除数据源。

S102.数据集创建和管理：基于创建的数据源，创建一个数据集名称，用于包含需要探索认知的目标数据表和字段。

在所述步骤S102中，数据集为依赖于可成功连接数据源所得到的且由大量数据表和字段组成的集合，每个数据集都有其描述信息和一一对应的某个可成功连接数据源，因此可根据数据源对数据集进行新的创建和管理；例如，某数据集包含分别围绕某个主题的5个数据表：用户特性表、酒店信息表、日期表、酒店预订表和预订交易表，它们用来管理酒店预订过程中用户信息、酒店价格等信息，这些各自独立的数据表通过创建被联系起来，并保存在数据集中；在创建后可进行数据集的配置管理时，并记录最后一次配置的时间，即数据集更新时间。由于每个数据集都会对应一个可成功连接的数据源，因此在创建或更新配置后，可以从对应数据源的数据库服务器中，访问获取位于该数据库服务器中的所有数据表名称/和位于各数据表中的所有字段名称，得到数据集信息。

S103.数据集配置：基于创建的数据集，用户任意筛选指定对应数据库里面的数据表和字段。

在所述步骤S103中，所指定的数据表和字段即为待探索的具体对象，包括将全部字段作为探索目标的数据表或将部分字段作为探索目标的数据表(通过配置目标数据表以及配置目标数据表中的目标字段，如此可针对特定的几个目标字段进行探索)。数据表或称表格(TabIe),是数据库最重要的组成部分之一(数据库只是一个框架，数据表才是其实质内容)，可以将表格中的一行叫做一个“记录”(该“记录”包含这一行中的所有信息，就像在通讯录数据集中某个人的全部信息，但“记录”在数据集中并没有专门的记录名，常常用它所在的行数表示这是第几个“记录”)，同时可以将表格中的一列叫做一个“字段”(该“字段”包含了某一专题的信息，例如在通讯录数据集中，“姓名”和“联系电话”这些都是表中所有行共有的属性，所以将这些列称为“姓名”字段和“联系电话”字段)。此外，所述步骤S103中的具体任意筛选方式可以但不限于为在数据集中添加待探索的数据表/和字段，或者删除不需要探索的数据表/和字段。

S104.探索任务创建和管理：基于创建且配置好的数据集，选择全部或部分探索功能，构成一个具体的探索任务。

在所述步骤S104中，优化的，所述选择全部或部分探索功能的方式可以但不限于为配置如下任意组合的探索任务：表格基本信息探索任务、字段值分布信息探索任务、字段特征信息探索任务和字段间层次关系信息探索任务。所述表格基本信息探索任务、所述字段值分布信息探索任务、所述字段特征信息探索任务和所述字段间层次关系信息探索任务是基于JAVA和SQL语言(Structured Query Language，结构化查询语言)而定制编写的基本探索单元，可针对不同数据集配置不同的且所想要的探索任务，以便在启动执行对应任务的访问程序后，访问目标数据库服务器，然后查询获取目标数据表或字段的目标信息探索结果。

S105.执行探索任务：对用户筛选的多个探索任务进行排序，并按序分布执行多个探索任务。

在所述步骤S105中，详细的，可以但不限于按照如下方式(A)～(D)执行某个探索任务。

(A)若该探索任务为表格基本信息探索任务，则执行与该表格基本信息探索任务对应的且基于JAVA和SQL语言编写的访问程序，访问目标数据库服务器，然后查询获取所有目标数据表的但不限于如下的基本信息探索结果：表名、创建时间、修改时间、记录总数和/或字段总数等。

在所述方式(A)中，所述表名、所述创建时间、所述修改时间、所述记录总数或所述字段总数可以直接基于针对数据表和元数据的SQL语言，进行查询获取。

(B)若该探索任务为字段值分布信息探索任务，则执行与该字段值分布信息探索任务对应的且基于JAVA和SQL语言编写的访问程序，访问目标数据库服务器，然后查询获取所有目标字段的但不限于如下的值分布信息探索结果：各个不同非空值，以及与各个不同非空值对应的出现频次等。

在所述方式(B)中，目标字段的各个不同非空值可以基于现有的SQL语言和常规JAVA程序的值匹配方式，进行数据库查询及比较得到，它们对应的出现频次(其包括出现次数和/或出现频率)同样可以通过现有的SQL语言和常规JAVA程序的计数方式，进行数据库查询及统计得到。

(C)若该探索任务为字段特征信息探索任务，则执行与该字段特征信息探索任务对应的且基于JAVA和SQL语言编写的访问程序，访问目标数据库服务器，然后查询获取所有目标字段的但不限于如下的特征信息探索结果：数据类型、空值率、不同值数、值密度、存储空间长度、实际长度、最小值、最大值和/或字段值是否唯一等。

在所述方式(C)中，目标字段的数据类型、存储空间长度、实际长度、不同值数、最小值、最大值和字段值是否唯一可以基于SQL语言和JAVA程序，进行数据和元数据查询及处理得到，而目标字段的空值率R_null和值密度D_distinct可按照如下公式编写的访问程序来查询获取：

式中，n_null为目标字段中的空值总数，C_distinct为目标字段中具有不同非空值的个数，N为在目标字段所属目标数据表中的总记录数(即目标数据表中的总行数)。由前述公式可知，目标字段的空值率R_null和值密度D_distinct分别介于0～1之间，其中，空值率越高，表示这个字段的值缺失越多，数据质量越低，低到一定程度，就要么忽略这个字段，要么对缺失值做处理，例如用一个默认值来替代；如果值密度等于0，则表明这个字段全为空值，如果值密度等于1，则表明这个字段所包含的值没有重复的，这两种极端情况，都使得这个字段不适合作为数据挖掘或机器学习的特征变量；值密度越小，也可以说成颗粒度更粗。

(D)若该探索任务为字段间层次关系信息探索任务，则执行与该字段间层次关系信息探索任务对应的且基于JAVA和SQL语言编写的访问程序，访问目标数据库服务器，然后查询获取任意两目标字段之间的但不限于如下的层次关系信息探索结果：一对一关系、一对多关系和/或多对一关系等。

在所述方式(D)中，可以但不限于按照如下步骤编写的访问程序来查询获取第一目标字段与第二目标字段之间的层次关系信息：DS101.检查是否存在所述第一目标字段中的某个非空值对应所述第二目标字段中多个或零个非空值的情况，若不存在，执行步骤DS102，若存在，则执行步骤DS103；DS102.检查是否存在所述第二目标字段中的某个非空值对应所述第一目标字段中多个或零个非空值的情况，若不存在，则判定所述第一目标字段与所述第二目标字段之间的层次关系信息为一对一关系，否则判定所述第一目标字段与所述第二目标字段之间的层次关系信息为多对一关系；DS103.检查是否存在所述第二目标字段中的某个非空值对应所述第一目标字段中多个或零个非空值的情况，若不存在，则判定所述第一目标字段与所述第二目标字段之间的层次关系信息为一对多关系，否则判定所述第一目标字段与所述第二目标字段之间的层次关系信息为多对多关系。在前述步骤DS101～DS103中，可具体采用SQL语言的Group By功能进行检查判断，于此不再赘述。另外，所述第一目标字段与所述第二目标字段可以位于同一数据表中，也可以位于不同数据表中；由于多对多关系意味着没有确定关系，应此可以不作为层次关系信息探索结果。

前述方式(A)～(D)可一键式启动执行，并在任务执行结束后得到探索结果，任务的状态信息也会随之而被更新。任务一旦执行，则会有开始时间、结束时间和耗时信息的自动记录，并与任务状态一起保存在执行结果的综述中，其中，所述任务状态可包括如下几种：从未运行(即新建任务的初始状态)、正在运行(任务开始运行之后且运行结束之前的状态)、运行成功(任务成功执行完成)、运行失败(任务执行失败，如执行过程中的数据源关闭或其他意外情况会导致失败)、运行完成(任务执行中部分表或字段执行异常，结束后显示运行完成)和手动停止(正在运行中的任务，用户手动点击“终止”按钮停止执行程序)。在任务运行成功后，用户即可查看探索结果的综述和各种展示页面。另外，在所述步骤S104之后，可以在任务列表中对待执行的多探索任务进行用户排序，然后按序执行各探索任务，即若在所述任务列表中选定启动多个探索任务，则按照这些探索任务的排列顺序逐一地通过所述步骤S105获取并保存对应的总揽信息探索结果，实现多任务按序分布执行的目的。

在所述步骤S106中，为了方便用户灵活查看目标对象的探索结果或可以选择具体某次的执行任务去查看结果，优化的，可在用户选定数据表/和用户选定字段后，输出并可视化展示与用户选定数据表/和用户选定字段对应的总揽信息探索结果，其中，所述用户选定数据表和所述用于选定字段都需要位于目标数据集中。

在所述步骤S106中，具体还可按照如下方式输出并可视化展示所得到的总揽信息探索结果：

若得到的总揽信息探索结果包含基本信息探索结果，则采用列表形式展示该基本信息探索结果，如图2举例所示；

若得到的总揽信息探索结果包含值分布信息探索结果，则采用列表形式或柱状图形式展示该值分布信息探索结果，如图3和图4举例所示；

若得到的总揽信息探索结果包含特征信息探索结果，则采用列表形式或柱状图形式展示该特征信息探索结果，如图5、6、7和8举例所示，其中，图6中的“字段空值率”即为空值率R_null，图7中的“字段密度”即为值密度D_distinct，图8中的“字符长度”即为存储空间长度，“百分比”即为实际长度占存储空间长度的百分比；

若得到的总揽信息探索结果包含层次关系信息探索结果，则采用列表形式或树状图形式展示该层次关系信息探索结果，如图9、10和11举例所示。

进一步具体的，在所述步骤S106中且采用柱状图形式展示值分布信息探索结果时，通过柱状图展示选定字段中出现频次最高的前M个不同非空值，其中，M为介于10～100之间的自然数。如图4所示，M可举例为20。为了方便钻取相关字段的进一步详细信息，优化的，在所述步骤S104中且接收到点击柱状图的输入信号时，输出并展示与该柱状图对应字段中主要内容和/或稀疏内容的分布情况，其中，所述主要内容是指在字段中出现频次最高的非空值，所述稀疏内容是指在字段中出现频次最低的非空值。

综上，采用本实施例所提供的大数据探索和认知方法，具有如下技术效果：

(1)本实施例提供了一种适用于各个行业并方便对各种数据进行抽象化的通用方法，使得在大数据应用工程、ETL开发、数据处理、清洗、整合以及分析建模等方面且面对各种不同数据源的海量数据时，先创建数据源及数据集，然后针对目标数据集灵活配置探索目标和探索任务，并进行深度探索，获取包含各个数据表的基本和统计信息、各个数据表字段的内容分布、统计、概貌、层次关系、空值率、值密度等总揽信息，并将这些总揽信息记录下来，保存在客户端本地数据库中，以可视化的视图和表格自动展现出来，从而让用户获取数据的全面认知，避免出现对数据认知不足、有偏差和以一概全等问题，进而利于指引用户有的放矢或对症下药地规划并建设数据仓库、ETL、BI、数据挖据、机器学习和大数据分析等项目，为这些项目的正常开展保驾护航；

实施例二

如图12所示，本实施例提供了一种实现实施例一所述大数据探索和认知方法的硬件装置，包括数据源创建及管理模块、数据集创建及管理模块、数据表及字段配置模块、探索任务配置模块、探索任务执行模块和探索结果可视化模块；

本实施例提供的大数据探索和认知装置的工作过程、工作细节和技术效果，可以参见实施例一，于此不再赘述。

实施例三

如图13和14所示，本实施例提供了一种实现实施例一所述大数据探索和认知方法的硬件设备，包括通信相连的存储器和处理器，其中，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如实施例一所述大数据探索和认知方法的步骤。如图13所示，大数据探索和认知设备包括通过系统总线连接的处理器、存储器和网络接口，其中，所述处理器用于提供计算和控制能力；所述存储器包括非易失性存储介质和内存储器，所述非易失性存储介质存储有操作系统和所述计算机可读指令，所述内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境，所述网络接口用于与外部数据库服务器进行网络通信连接。如图14所示，提供了一种示例性的应用场景，大数据探索和认知设备1通过互联网或企业内网分别与CRM数据库服务器201、ERP数据库服务器202、SCM数据库服务器203、Legacy数据库服务器204和External数据库服务器205通信相连，如此可以对这五种数据源进行数据源的创建和管理、数据集的创建和管理、以及进行如实施例一所述的且由步骤S103～S106所描述的大数据探索和认知任务，获取相应的总揽信息探索结果。

本实施例提供的大数据探索和认知设备的工作过程、工作细节和技术效果，可以参见实施例一，于此不再赘述。

实施例四

本实施例提供了一种存储包含实施例一所述大数据探索和认知方法的计算机程序的计算机存储介质，即在所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如实施例一所述大数据探索和认知方法的步骤。其中，计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置，也可以是移动智能设备(如智能手机、PAD或ipad等)。

本实施例提供的计算机存储介质的工作过程、工作细节和技术效果，可以参见实施例一，于此不再赘述。

以上所描述的多个实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备执行各个实施例或者实施例的某些部分所述的方法。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

最后应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准，并且说明书可以用于解释权利要求书。

Claims

1.一种大数据探索和认知方法，其特征在于，包括如下步骤：

S104.探索任务创建和管理：基于创建且配置好的数据集，选择全部或部分探索功能，构成一个具体的探索任务，其中，所述选择全部或部分探索功能的方式为配置如下任意组合的探索任务：表格基本信息探索任务、字段值分布信息探索任务、字段特征信息探索任务和字段间层次关系信息探索任务；

S105.执行探索任务：对用户筛选的多个探索任务进行排序，并按序分别执行多个探索任务，其中，具体按照如下方式执行某个探索任务：（A）若该探索任务为表格基本信息探索任务，则执行与该表格基本信息探索任务对应的且基于JAVA和SQL语言编写的访问程序，访问目标数据库服务器，然后查询获取所有目标数据表的如下基本信息探索结果：表名、创建时间、修改时间、记录总数和/或字段总数；（B）若该探索任务为字段值分布信息探索任务，则执行与该字段值分布信息探索任务对应的且基于JAVA和SQL语言编写的访问程序，访问目标数据库服务器，然后查询获取所有目标字段的如下值分布信息探索结果：各个不同非空值，以及与各个不同非空值对应的出现频次；（C）若该探索任务为字段特征信息探索任务，则执行与该字段特征信息探索任务对应的且基于JAVA和SQL语言编写的访问程序，访问目标数据库服务器，然后查询获取所有目标字段的如下特征信息探索结果：数据类型、空值率、不同值数、值密度、存储空间长度、实际长度、最小值、最大值和/或字段值是否唯一；在（C）方式中，按照如下公式编写的访问程序来查询获取目标字段的空值率和/或值密度/>：

式中，为目标字段中的空值总数，/>为目标字段中具有不同非空值的个数，/>为在目标字段所属目标数据表中的总记录数;（D）若该探索任务为字段间层次关系信息探索任务，则执行与该字段间层次关系信息探索任务对应的且基于JAVA和SQL语言编写的访问程序，访问目标数据库服务器，然后查询获取任意两目标字段之间的如下层次关系信息探索结果：一对一关系、一对多关系和/或多对一关系；在（D）方式中，按照如下步骤编写的访问程序来查询获取第一目标字段与第二目标字段之间的层次关系信息：DS101.检查是否存在所述第一目标字段中的某个非空值对应所述第二目标字段中多个或零个非空值的情况，若不存在，执行步骤DS102，若存在，则执行步骤DS103；DS102.检查是否存在所述第二目标字段中的某个非空值对应所述第一目标字段中多个或零个非空值的情况，若不存在，则判定所述第一目标字段与所述第二目标字段之间的层次关系信息为一对一关系，否则判定所述第一目标字段与所述第二目标字段之间的层次关系信息为多对一关系；DS103.检查是否存在所述第二目标字段中的某个非空值对应所述第一目标字段中多个或零个非空值的情况，若不存在，则判定所述第一目标字段与所述第二目标字段之间的层次关系信息为一对多关系，否则判定所述第一目标字段与所述第二目标字段之间的层次关系信息为多对多关系；

2.如权利要求1所述的一种大数据探索和认知方法，其特征在于，在所述步骤S106中：

3.如权利要求2所述的一种大数据探索和认知方法，其特征在于：在所述步骤S106中且采用柱状图形式展示值分布信息探索结果时，通过柱状图展示选定字段中出现频次最高的前个不同非空值，其中，/>为介于10～100之间的自然数。

4.如权利要求1所述的一种大数据探索和认知方法，其特征在于：在所述步骤S106中，输出并可视化展示与用户选定数据表/和用户选定字段对应的总揽信息探索结果。

5.一种大数据探索和认知装置，其特征在于：包括数据源创建及管理模块、数据集创建及管理模块、数据表及字段配置模块、探索任务配置模块、探索任务执行模块和探索结果可视化模块；

所述探索任务配置模块，通信连接所述数据表及字段配置模块，用于探索任务创建和管理：基于创建且配置好的数据集，选择全部或部分探索功能，构成一个具体的探索任务，其中，所述选择全部或部分探索功能的方式为配置如下任意组合的探索任务：表格基本信息探索任务、字段值分布信息探索任务、字段特征信息探索任务和字段间层次关系信息探索任务；

所述探索任务执行模块，通信连接所述探索任务配置模块，用于执行探索任务：对用户筛选的多个探索任务进行排序，并按序分布执行多个探索任务，其中，具体按照如下方式执行某个探索任务：（A）若该探索任务为表格基本信息探索任务，则执行与该表格基本信息探索任务对应的且基于JAVA和SQL语言编写的访问程序，访问目标数据库服务器，然后查询获取所有目标数据表的如下基本信息探索结果：表名、创建时间、修改时间、记录总数和/或字段总数；（B）若该探索任务为字段值分布信息探索任务，则执行与该字段值分布信息探索任务对应的且基于JAVA和SQL语言编写的访问程序，访问目标数据库服务器，然后查询获取所有目标字段的如下值分布信息探索结果：各个不同非空值，以及与各个不同非空值对应的出现频次；（C）若该探索任务为字段特征信息探索任务，则执行与该字段特征信息探索任务对应的且基于JAVA和SQL语言编写的访问程序，访问目标数据库服务器，然后查询获取所有目标字段的如下特征信息探索结果：数据类型、空值率、不同值数、值密度、存储空间长度、实际长度、最小值、最大值和/或字段值是否唯一；在（C）方式中，按照如下公式编写的访问程序来查询获取目标字段的空值率和/或值密度/>：

6.一种大数据探索和认知设备，其特征在于，包括通信相连的存储器和处理器，其中，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1～4任意一项所述大数据探索和认知方法的步骤。

7.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1～4任意一项所述大数据探索和认知方法的步骤。