CN112269819A

CN112269819A - 大数据分析方法、装置及电子设备

Info

Publication number: CN112269819A
Application number: CN202011086807.3A
Authority: CN
Inventors: 徐清; 徐俊; 李晶; 曹礼峰; 言俐光; 周宇聪
Original assignee: SUZHOU PUBLIC SECURITY BUREAU
Current assignee: SUZHOU PUBLIC SECURITY BUREAU; Beijing Mininglamp Software System Co ltd
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2021-01-26

Abstract

本发明涉及大数据分析技术领域，具体是涉及大数据分析方法、装置及电子设备，方法包括获取至少两个目标数据源的标识；基于至少两个目标数据源的标识，对至少两个目标数据源中的数据进行分布式比对碰撞，以得到目标数据；所述目标数据与标识对应；获取对应于目标标识的数据探查请求；对目标标识对应的目标数据进行数据探查，得到数据探查结果。在大数据分析过程中，利用分布式计算框架将比对碰撞和数据探查相结合，在数据比对碰撞过程中随时可以进行数据探查，让使用者更快速的了解数据，避免了在大数据场景下的数据对比碰撞与数据探查的分离，提高了大数据分析的效率。

Description

大数据分析方法、装置及电子设备

技术领域

本发明涉及大数据分析技术领域，具体涉及大数据分析方法、装置及电子设备。

背景技术

在警务领域，由于信息化的迅速发展，接入的数据越来越多样化，数据量也越来越大，从这么多数据中去发掘业务人员关心的数据，最终获得满足业务场景的数据，将会变得越来越难。基层民警在进行研判时，需要结合警务大数据中心的数据以及其摸排数据进行不断的关联碰撞，结合业务经验，最终获取小范围用户信息，参与后续的研判过程。一线民警本身技能较低，所以要求比对碰撞工具建模门槛要低，同时由于涉及数据表会很多，所以需要对数据也要有个熟悉了解的过程。

其中，一线民警主要依赖xls或者Access进行比对碰撞，但是传统的基于xls进行比对碰撞和基于关系数据库比对碰撞无法满足数据量以及数据源的增长，导致大数据分析的效率较低，尤其是对于大数据而言其数据分析效率极低。

发明内容

有鉴于此，本发明实施例提供了一种大数据分析方法、装置及电子设备，以解决大数据分析效率低的问题。

根据第一方面，本发明实施例提供了一种大数据分析方法，包括：

获取至少两个目标数据源的标识；

基于所述至少两个目标数据源的标识，对所述至少两个目标数据源中的数据进行基于分布式计算的比对碰撞，以得到目标数据；其中，所述目标数据与所述标识对应；

获取对应于目标标识的大数据探查请求；

对所述目标标识对应的目标数据进行数据探查，得到数据探查结果。

本发明实施例提供的大数据分析方法，在大数据分析过程中利用分布式计算框架将比对碰撞和数据探查相结合，在数据比对碰撞过程中随时可以进行数据探查，让使用者更快速的了解数据，避免了数据对比碰撞与数据探查的分离，提高了大数据分析的效率；此外，将数据探查与数据对比碰撞结合，还可以支撑大数量的跨数据源的数据对比碰撞，以实现大数据量的比对碰撞探查，提高大数据的分析效率。

结合第一方面，在第一方面第一实施方式中，所述基于所述至少两个目标数据源的标识，对所述至少两个目标数据源中的数据进行分布式比对碰撞，以得到目标数据，包括：

响应于从所述至少两个目标数据源的标识中确定的两个标识；

基于所述两个标识，对所述两个标识对应的目标数据源中的数据进行分布式对比碰撞得到所述目标数据。

本发明实施例中所述的大数据分析方法，通过将目标数据源进行两两关联进行对比碰撞，在得到目标数据之后参与后一个节点的关联碰撞，以减少数据处理量，提高了大数据分析的效率。

结合第一方面第一实施方式，在第一方面第二实施方式中，所述基于所述两个标识，对所述两个标识对应的目标数据源中的数据进行分布式对比碰撞得到所述目标数据，包括：

触发分布式对比碰撞探查引擎，以创建会话并获取会话标识；其中，所述会话标识与所述标识对应；

基于所述会话触发对比碰撞算子以下发任务；

利用所述对比碰撞算子对所述两个标识对应的目标数据源中的数据进行处理，得到所述目标数据以及所述任务的序号。

本发明实施例提供的大数据分析方法，通过提供会话管理机制(会话)维护数据分析中多次迭代执行的上下文信息，从而实现交互式比对碰撞和数据探查。

结合第一方面第二实施方式，在第一方面第三实施方式中，所述方法还包括：

基于所述会话标识以及所述任务的序号，将所述目标数据存储在预设空间内；

显示所述目标数据。

本发明实施例提供的大数据分析方法，利用会话标识以及任务的序号对目标数据进行存储，后续在对该目标数据进行数据探查时，只需要从利用会话标识以及任务的序号从相应的地方提取出目标数据即可，而不需要再次进行数据比对碰撞，提高了大数据分析的效率。

结合第一方面，在第一方面第四实施方式中，所述对目标标识对应的目标数据进行数据探查，以形成数据探查结果，包括：

响应于所述目标标识的大数据探查请求，以提取所述目标标识对应的目标数据；

匹配所述目标标识对应的目标数据的属性，得到所述数据探查结果；其中，所述目标数据的属性包括维度信息以及量度信息。

结合第一方面第四实施方式，在第一方面第五实施方式中，所述响应于所述目标标识的数据探查请求，以提取所述目标标识对应的目标数据，包括：

触发分布式对比碰撞探查引擎，以提取会话标识以及任务的序号；其中，所述会话标识以及任务的序号与所述目标数据对应；

利用所述会话标识以及任务的序号，从预设空间内提取所述目标数据。

结合第一方面第五实施方式，在第一方面第六实施方式中，所述匹配所述目标标识对应的目标数据的属性，得到所述数据探查结果，包括：

触发数据探查算子对所述目标数据按字段逐个进行分析、识别所述字段的值域分布情况以及判断所述字段是量度、维度或普通字段；

统计每个所述字段下不同取值的分布信息，以得到所述数据探查结果。

根据第二方面，本发明实施例还提供了一种大数据分析装置，包括：

第一获取模块，用于获取至少两个目标数据源的标识；

对比碰撞模块，用于基于所述至少两个目标数据源的标识，对所述至少两个目标数据源中的数据进行分布式比对碰撞，以得到目标数据；其中，所述目标数据与所述标识对应；

第二获取模块，用于获取对应于目标标识的大数据探查请求；

数据探查模块，用于对所述目标标识对应的目标数据进行数据探查，得到数据探查结果。

本发明实施例提供的大数据分析装置，在大数据分析过程中利用分布式计算框架将比对碰撞和数据探查相结合，在数据比对碰撞过程中随时可以进行数据探查，让使用者更快速的了解数据，避免了数据对比碰撞与数据探查的分离，提高了大数据分析的效率；此外，将数据探查与数据对比碰撞结合，还可以支撑大数量的跨数据源的数据对比碰撞，以实现大数据量的比对碰撞探查，提高大数据的分析效率。

根据第三方面，本发明实施例提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第一方面或者第一方面的任意一种实施方式中所述的数据分析方法。

根据第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的数据分析方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的系统架构示意图；

图2是根据本发明实施例的数据分析方法的流程图；

图3是根据本发明实施例的比对碰撞模型示意图；

图4是根据本发明实施例的数据分析方法的流程图；

图5a是根据本发明实施例的比对碰撞模型示意图；

图5b是图5a对应的目标数据的示意图；

图6a是根据本发明实施例的比对碰撞模型示意图；

图6b是图6a对应的目标数据示意图；

图7是根据本发明实施例的数据分析方法的流程图；

图8a是对应于图5b的数据探查结果的示意图；

图8b是对应于图5b的数据探查结果的示意图；

图9是根据本发明实施例的系统架构的整体交互过程的示意图；

图10是根据本发明实施例的电子设备执行数据分析方法的过程的示意图；

图11是根据本发明实施例的数据分析装置的结构框图；

图12是本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在此对本发明实施例中所涉及到的术语解释如下：

(1)比对碰撞：警务领域研判过程中使用的数据关联碰撞，旨在从数据中能够关联出满足条件的数据信息，是指运用计算机对数据进行分析，多组数据集进行关联、计算，逐步筛选数据集的一种方法。

(2)数据探查：一种数据属性分析方法，经过数据探查，可以获取属性字段的值域分布情况，值域中位数、最大值、最小值等信息，并且通过图形化方式进行直观呈现，方便使用者更好的了解数据。

图1示出了本发明实施例中一种可选的系统架构图。如图1所示，该系统架构主要包含集成开发环境(Integrated Development Environment，简称为IDE)、调度、执行引擎、算法、数据源等模块。其中，执行引擎为基于分布式计算框架的引擎。

其中，IDE模块：主要提供面向业务人员的比对碰撞建模能力，同时提供数据探查的触发和数据展示能力。即，IDE主要提供可视化比对碰撞建模界面，业务人员在该可视化比对碰撞建模界面上进行比对碰撞建模，得到比对碰撞模型；且在该可视化比对碰撞建模界面上还展示数据分析结果。

调度模块：主要提供任务调度以及事件触发的调度能力，能够允许建模周期性执行。例如，在比对碰撞模型构建完成之后，可以通过进行调度设置，使得电子设备自动每隔一定的时间间隔进行数据比对碰撞与数据探查。

引擎层：主要提供分布式比对碰撞执行引擎装置和数据探查装置。

算子层：主要提供最终计算处理过程，包括数据抽取算子、关联算子等。

数据源：主要提供各种数据源，例如Oracle、HDFS、Hive等等。

具体地，业务人员登录运行在电子设备上的大数据分析方法对应的系统之后，进入可视化比对碰撞建模界面，通过在该界面上进行比对碰撞建模(即，构建多个数据源之间的关联关系)。在建模过程中电子设备通过其所运行的数据分析方法对模型中所涉及到的数据源中的数据进行分析(即，比对碰撞以及数据探查)，使得业务人员能够在建模过程中实时直观地了解数据分析结果，以便及时对数据模型做出及时调整，提高了最终数据分析的效率。

其中，可视化比对碰撞建模中通过比对碰撞建模装置和数据探查装置，联通比对碰撞和数据探查能力，为本方案的核心要点之一，主要完成前端展示模块的拉通。其中，业务人员可以从比对碰撞建模的某个图元中右键触发数据探查装置。

基于图1所示的系统架构，本发明实施例中所述的大数据分析方法的主要改进之处在于：

(1)优化可视化比对碰撞建模过程，在比对碰撞建模的过程中增加了数据探查开发装置，使得比对碰撞建模和数据探查相结合，在数据比对碰撞建模过程中随时可以进行数据探查，让业务人员更快速的了解数据，对开发流程进行优化。

(2)优化比对碰撞引擎，融合数据探查能力形成比对碰撞数据探查引擎装置，通过提供会话管理机制维护碰撞建模中多次迭代执行的上下文信息，从而实现交互式建模和数据探查能力。同时整个引擎依托分布式计算框架，来支撑大数据量的计算。

(3)在算子层面上，提供数据探查算子以及跨数据源的数据抽取能力，解决数据源的单一性问题。

需要说明的是，本发明实施例中所述的数据分析方法，可以是在比对碰撞模型构建完成之后对模型中所涉及到的数据源中的数据进行分析，也可以是在建模过程中对数据实时进行分析等等。对应于上述两种情况，电子设备所运行的数据分析方法主要包括如下两点：

(1)对于定制调度或者外部事件调度等非开发模式下，即在电子设备中已经存在有完整的比对碰撞模型，那么电子设备则直接提交比对碰撞Spark任务，这种方式为运行态过程，在碰撞过程中不会触发数据探查能力。

(2)比对碰撞建模开发过程中，则提供交互式任务执行引擎能力，通过引入会话管理机制，使得建模开发过程中，能够通过上下文以及Spark任务信息，能够获取到上一次执行结果，从而支撑在界面上做可视化展示，以及可以继续进行下一步的碰撞分析过程。

其中，对于电子设备而言，其所要处理的目标数据源可能是多个，对应于多个目标数据源，所要处理的数据量就更大了，可以认为是大数据量的数据。因此，所述大数据分析方法可以是对于大数据进行分析的，以提高大数据分析的效率。在此对电子设备执行数据分析方法的时机并不作任何限制。其中，关于数据分析方法的具体细节将在下文中进行详细描述。

根据本发明实施例，提供了一种大数据分析方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种大数据分析方法，可用于电子设备，如电脑、手机、平板电脑等，图2是根据本发明实施例的数据分析方法流程图，如图2所示，该流程包括如下步骤：

S11，获取至少两个目标数据源的标识。

如上文所示，电子设备向业务人员提供可视化比对碰撞建模界面，在该界面中业务人员可以构建比对碰撞模型，构建出的比对碰撞模型可以如图3所示。业务人员在构建出比对碰撞模型时，利用不同的标识区分不同的目标数据源；例如，可以采用不同的图标表示区分目标数据源，也可以采用图3所述的框图区分目标数据源，当然也可以其他表示形式，只需保证其能够区分不同的数据源即可。

由于业务人员是利用对应于目标数据源的标识构建比对碰撞模型的，那么相应地，电子设备可以获取到至少两个目标数据源的标识。例如，请结合图1，该系统架构中集成的数据源包括有Oracle、HDFS、Hive等等，且在系统架构中采用不同的标识区分上述数据源。业务人员在构建比对碰撞模型时，利用不同的标识构建出该模型，因此，对于电子设备而言，其能够获取到至少两个目标数据源的标识。

S12，基于至少两个目标数据源的标识，对至少两个目标数据源中的数据进行分布式比对碰撞，以得到目标数据。

其中，所述目标数据与所述标识对应。

电子设备利用S11中的目标数据源的标识形成比对碰撞模型，在结合目标数据源中的数据进行分布式比对碰撞，从而可以得到目标数据。例如，请结合图3，比对碰撞模型中的标识包括重点人员管理类别关联表以及码表转换，电子设备利用这两个标识从相应的数据源中提取数据，对其进行比对碰撞得到目标数据，即得到重点人员带访字人员信息对应的数据，该目标数据同样也采用相应的标识表示。

所述的比对碰撞表示对比对碰撞模型所涉及到的数据源中的数据进行比对碰撞，例如，对其进行过滤、关联、汇总、转换、异构数据源抽取等等。其中，具体实现何种比对碰撞方式可以根据实际情况进行具体设置，在此并不做任何限制。

S13，获取对应于目标标识的大数据探查请求。

电子设备在提供业务人员构建比对碰撞模型的过程中，可以获取到业务人眼对应于目标标识的大数据探查请求。如上文所述，所述的数据探查是一种数据属性分析方法。请结合图3，若电子设备获取到业务人员确定出的目标标识为：重点人员带访字人员信息，那么电子设备就会对该目标标识对应的目标数据进行数据探查。其中，目标标识：重点人员带访字人员信息，对应的目标数据为，基于重点人员管理类别关联表以及码表转换这两个标识进行比对碰撞后得到的。

S14，对目标标识对应的目标数据进行数据探查，得到数据探查结果。

电子设备在S13中获取到目标数据之后，就可以对该目标数据进行数据探查，即分析该目标数据的数据属性，得到数据探查结果。例如，目标数据包括多个属性，电子设备就可以依次对目标数据的属性进行分析，得到每个属性对应的相应数值，就可以得到数据探查结果；当然也可以在得到每个属性对应的相应数值之后，在对其进行最大值、最小值的分析等等。

具体将在下文中对该步骤进行详细描述。

本实施例提供的大数据分析方法，在数据分析过程中利用分布式计算框架将比对碰撞和数据探查相结合，在数据比对碰撞过程中随时可以进行数据探查，让使用者更快速的了解数据，避免了数据对比碰撞与数据探查的分离，提高了大数据分析的效率；此外，将数据探查与数据对比碰撞结合，还可以支撑大数量的跨数据源的数据对比碰撞，以实现大数据量的比对碰撞探查，提高大数据的分析效率。

在本实施例中提供了一种大数据分析方法，可用于电子设备，如电脑、手机、平板电脑等，图4是根据本发明实施例的数据分析方法流程图，如图4所示，该流程包括如下步骤：

S21，获取至少两个目标数据源的标识。

如上文所述，业务人员在电子设备所提供的可视化比对碰撞建模界面上进行比对碰撞模型的构建，是利用各个目标数据源对应的标识进行的。

例如，如图5a所示，电子设备获取到的标识分别为“重点人员管理类别关联表”以及“码表转换”。后续电子设备基于本发明实施例中所述的数据分析方法对这两个标识对应的目标数据源中的数据进行比对碰撞以及数据探查。

S22，基于至少两个目标数据源的标识，对至少两个目标数据源中的数据进行分布式比对碰撞，以得到目标数据。

其中，所述目标数据与所述标识对应。

在本实施例中的大数据分析方法是在比对碰撞模型构建过程中实时对数据进行分析的，即电子设备每获取到相关联的两个或多个目标数据源之后，就开始执行大数据分析方法，对相应的大数据进行分析。具体地，上述S22包括如下步骤：

S221，响应于从至少两个目标数据源的标识中确定的两个标识。

电子设备在建模开始时，第一次获取到的标识是两两关联的，即电子设备首次获取到的目标数据源的标识是业务人员从至少两个目标数据源的标识中确定出的两个标识。例如，请参见图5a。

S222，基于两个标识，对两个标识对应的目标数据源中的数据进行分布式对比碰撞得到所述目标数据。

电子设备在获取到S221中所确定的两个标识之后，就开始对这两个标识对应的目标数据源中的数据进行分布式比对碰撞，得到目标数据。请参见图5b，电子设备对“重点人员管理类别关联表”以及“码表转换”这两个标识对应的目标数据源中的数据进行比对碰撞之后，得到标识为“重点人员带访字人员信息”的目标数据，其中，该目标数据中的数据来自于上述两个标识对应的目标数据源中的数据。

如上文所述，所述的比对碰撞是对数据集进行关联、计算，以筛选出数据集的方法。那么，电子设备可以实现设置分布式比对碰撞的具体方式，例如计算交集等等。当电子设备开始对S221中确定出的两个标识对应的目标数据源中的数据进行分布式比对碰撞时，就可以对这两个目标数据源中的数据按照预定的分布式比对碰撞的具体方式进行计算。

电子设备在两两比对碰撞完成之后，业务人员可以继续对其进行后续的建模，如图6a所示，业务人员在可视化比对碰撞建模界面上继续进行建模，即在模型中加入“全国铁路出行人员信息”的标识，将该标识与第一次比对碰撞后得到的目标数据对应的标识“重点人员带访字人员信息”建立关联关系，一旦关联关系建立之后，电子设备就开始对具有关联关系的两个标识对应的数据进行分布式比对碰撞，得到的目标数据请参见图6b；即，电子设备进行第二次比对碰撞之后得到的目标数据的标识为“重点人员出行信息”。

依次类推，后续电子设备基于构建出的模型不断地对数据进行分布式比对碰撞，直至模型构建完成。

作为本实施例的一种可选实施方式，上述S222包括如下步骤：

(1)触发分布式对比碰撞探查引擎，以创建会话并获取会话标识。

其中，所述会话标识与所述标识对应。

电子设备在获取到两个标识之后，就会触发图1所示系统架构中的分布式比对碰撞探查引擎，利用该分布式比对碰撞探查引擎提供会话管理机制以维护碰撞建模中多次迭代执行的上下文信息。具体地，电子设备在触发分布式比对碰撞探查引擎之后，就可以创建会话，获取到会话标识。

会话标识是一次数据碰撞过程创建的会话标识，这个会话中会和后端计算有多次交互，每一次交互会产生一个任务，这个任务是有输出数据的，可以支撑在界面上进行数据查看、探查。后续对于数据探查，在取任务输出的结果集进行统计分析时，不仅需要会话标识，还需要有任务的序号作为输入。

(2)基于会话触发对比碰撞算子以下发任务。

电子设备在创建会话之后，就可以基于所创建的会话触发比对碰撞算子以下发任务，由于在一次会话中可能会下发多个任务，就需要对每个任务进行编号，以区分同一会话中的不同任务。如上文所述，每个任务会输出相应的数据，后续在数据探查过程中，若想取某一数据时，需要输入会话序号以及任务的序号。

电子设备在触发比对碰撞算子之后，就可以利用该比对碰撞算子进行大数据的分布式比对碰撞。其中，所述的比对碰撞算子就可以认为是上文所述的比对碰撞的具体方式。

(3)利用对比碰撞算子对两个标识对应的目标数据源中的数据进行处理，得到目标数据以及任务的序号。

电子设备在触发比对碰撞算子之后，就可以利用该比对碰撞算子对两个标识对应的目标数据源中的数据进行相应的分布式处理(例如，计算两个目标数据源中数据的交集等等)，在处理完成之后得到相应的目标数据，该目标数据与本次任务的序号对应，且本次任务的序号又与会话标识对应。

电子设备通过提供会话管理机制(会话)维护数据分析中多次迭代执行的上下文信息，从而实现交互式比对碰撞和数据探查。

进一步可选地，上述S222还可以包括：

(1)基于会话标识以及任务的序号，将目标数据存储在预设空间内。

电子设备在比对碰撞之后得到目标数据，由于目标数据可以用会话标识以及任务的序号进行区分，因此，电子设备在将目标数据存储在预设空间内时，就可以利用会话标识以及任务的序号对不同的目标数据进行区分，以便于后续电子设备在数据探查时进行相应目标数据的提取。

(2)显示目标数据。

电子设备在每进行一次分布式比对碰撞之后，均可以在其界面上显示比对碰撞所得到的目标数据。例如，图5b示出了对应于图5a的目标数据，图6b示出了对应于图6a的目标数据。其中，“gmsfhm”以及“zdryxldm”表示对应目标数据的属性，后续电子设备就可以利用该属性对目标数据进行数据探查。

S23，获取对应于目标标识的大数据探查请求。

详细请参见图2所示实施例的S13，在此不再赘述。

S24，对目标标识对应的目标数据进行数据探查，得到数据探查结果。

详细请参见图2所示实施例的S14，在此不再赘述。

本实施例提供的大数据分析方法，通过将目标数据源进行两两关联进行分布式对比碰撞，在得到目标数据之后参与后一个节点的关联碰撞，以减少数据处理量，提高了数据分析的效率，这一点在大数据的处理中体现的尤为明显。

在本实施例中提供了一种大数据分析方法，可用于电子设备，如电脑、手机、平板电脑等，图7是根据本发明实施例的数据分析方法流程图，如图7所示，该流程包括如下步骤：

S31，获取至少两个目标数据源的标识。

详细请参见图4所示实施例的S21，在此不再赘述。

S32，基于至少两个目标数据源的标识，对至少两个目标数据源中的数据进行分布式比对碰撞，以得到目标数据。

其中，所述目标数据与所述标识对应。

详细请参见图4所示实施例的S22，在此不再赘述。

S33，获取对应于目标标识的大数据探查请求。

其中，若业务人员在建模过程中，想到对某一目标数据进行数据探查，其就可以在电子设备上进行相应的操作以向电子设备发送对应于目标标识的数据探查请求。

例如，请参见图5a，若业务人员想到对目标标识“重点人员带访字人员信息”对应的目标数据进行数据探查，则其可以在目标标识上右击以发送数据探查请求等等。

S34，对目标标识对应的目标数据进行数据探查，得到数据探查结果。

电子设备在S33中获取到目标标识的数据探查请求之后，就会响应该操作，对目标标识对应的目标数据进行数据探查。具体地，上述S34包括如下步骤：

S341，响应于目标标识的数据探查请求，以提取目标标识对应的目标数据。

电子设备对数据探查请求进行相应，由于目标标识与目标数据是对应的，那么就可以利用该目标标识去提取与其对应的目标数据。

作为本实施例的一种可选实施方式，上述S341包括如下步骤：

(1)触发分布式对比碰撞探查引擎，以提取会话标识以及任务的序号。

其中，所述会话标识以及任务的序号与目标数据对应。

电子设备获取到数据探查请求之后，就会触发图1所示的分布式比对碰撞探查引擎，以提取该目标标识对应的会话标识以及任务的序号。如上文所述，目标数据是与会话标识以及任务的序号对应进行存储的，且目标标识与目标数据是一一对应的，因此，对于电子设备而言，其就可以利用目标标识先提取与其对应的会话标识以及任务的标识。

(2)利用会话标识以及任务的序号，从预设空间内提取目标数据。

电子设备在提取出目标标识对应的会话标识以及任务的标识之后，就可以利用会话标识以及任务的序号从预设空间内提取出与目标标识对应的目标数据。

S342，匹配目标标识对应的目标数据的属性，得到数据探查结果。

其中，所述目标数据的属性包括维度信息以及量度信息。

请参见图5b以及图6b，目标数据均包括一个或多个属性，电子设备在对目标数据进行数据探查时，就可以基于目标数据的属性对其进行分析，得到数据探查结果。例如，可以统计居住地在某一地方的人数、计算在某一年龄范围的人数等等。

作为本实施例的一种可选实施方式，上述S342包括如下步骤：

(1)触发数据探查算子对目标数据按字段逐个进行分析、识别字段的值域分布情况以及判断字段是量度、维度或普通字段。

电子设备在提取出会话标识以及任务的序号之后，就会触发数据探查算子对目标数据按字段进行分析。其中，所述的数据探查算子是用于对目标数据按字段进行分析，例如，识别字段的值域分布情况以及判断字段是量度、维度或普通字段等等。

(2)统计每个字段下不同取值的分布信息，以得到数据探查结果。

电子设备在利用数据探查算子对目标数据的每个字段进行分析时，可以统计每个字段下不同取值的分布信息。

例如，如图8a以及图8b所示，图8a为对应于图5b所述目标数据的数据探查结果，图8b为对应于图6b所述目标数据的数据探查结果。其中，如图8a所示，其是对属性“zdryxldm”进行统计分析的；如图8b所示，其是对属性“cyzjdm”、“train_no”、“from_station”以及“to_station”等等进行统计分析的。

本实施例提供的大数据分析方法，利用会话标识以及任务的序号对目标数据进行存储，后续在对该目标数据进行大数据探查时，只需要从利用会话标识以及任务的序号从相应的地方提取出目标数据即可，而不需要再次进行数据比对碰撞，提高了数据分析的效率。

对应于图1，图9示出了本发明实施例中系统架构的整体交互过程。具体地，系统架构所提供的比对碰撞建模装置使得业务人员能够在电子设备所提供的可视化比对碰撞建模界面上进行拖曳式建模，电子设备响应于当前建模就会触发分布式比对碰撞探查引擎装置，执行相应的任务；即触发算子进行比对碰撞，并将比对碰撞得到的目标数据写入存储空间中。其中，分布式比对碰撞建模装置通过查询功能可以从存储空间内查询到比对碰撞得到的目标数据，并将目标数据在可视化比对碰撞建模界面上展示出来。

同时，业务人员也可以在比对碰撞结束之后向系统架构中的数据探查开发装置发送数据探查请求，数据探查开发装置响应于该请求触发分布式比对碰撞探查引擎装置，将数据探查任务下发至数据探查算子，数据探查算子从存储空间内读取数据进行探查；数据探查开发装置也可以向分布式比对碰撞探查引擎装置发起探查结果的获取请求，以查询数据探查结果，并将数据探查结果展示在可视化比对碰撞建模界面上。

业务人员在不断地进行建模，同时电子设备在不断重复上述过程直至建模完成。在建模完成之后电子设备响应于业务人员所设置的调度信息，就可以每隔一段时间自动对该比对碰撞模型进行数据分析，得到相应的结果。

进一步可选地，图10示出了本发明实施例中电子设备执行大数据分析方法的过程。

具体地，电子设备在响应于业务人员所创建的模型之后，触发分布式比对碰撞探查引擎装置创建会话(Session)以获取会话标识(SessionID)，并根据SessionID下发任务，触发比对碰撞算子执行相应的比对碰撞，并将得到的目标数据存储在存储空间内；在比对碰撞处理完成之后，分布式比对碰撞探查引擎装置会向比对碰撞建模装置返回任务的序号(任务ID)。分布式比对碰撞建模装置就可以利用任务ID查询比对碰撞的结果，并将结果展现在可视化比对碰撞建模界面上。

业务人员向分布式比对碰撞建模装置发送数据探查请求，分布式比对碰撞建模装置利用任务ID将数据探查请求下发到相应的会话中，触发分布式比对碰撞探查引擎执行数据探查，根据任务ID构建探查输入数据信息，并利用输入数据信息从存储空间内获取数据进行探查分析，并将数据探查结果展示在界面上。

其中，上述比对碰撞建模开发过程中，电子设备提供交互式任务执行引擎能力，通过引入会话管理机制，使得建模开发过程中，能够通过上下文以及Spark任务信息，能够获取到上一次执行结果，从而支撑在界面上做可视化展示，以及可以继续进行下一步的碰撞分析过程。

业务人员通过界面建模流程开发，此时提交引擎层创建一个会话，前端界面在本次建模过程中的所有交互都和该会话进行交互，包括比对碰撞执行、数据查看、数据探查、比对碰撞建模流程继续执行等。

当开发者在IDE上触发碰撞流程执行时，任务提交到该会话中处理，再由该会话中提交到Spark上执行，此时会记录任务ID，前端页面可以基于该ID查询处理结果,根据会话和任务信息，触发数据探查或者后续的比对碰撞时，直接读取相应会话相应任务ID所输出的在缓存中的数据集(数据量大时，存储在HDFS，则从HDFS中读取)。

而数据则由相应算子存储在Cache或者HDFS中，方便前端进行数据查询，同时当IDE上继续出发流程执行时，继续从Cache/HDFS中恢复数据继续往下执行，从而达到不断迭代建模的过程。会话结束，HDFS以及Cache中数据自动删除。

算法层主要提供基于Spark分布式计算的一系列的比对碰撞算子。在本方案中除了比对碰撞常规算子(过滤、关联、汇总、转换、异构数据源抽取)，增加了数据探查算子，跨数据源的数据抽取能力算子。这个数据源的数据抽取是数据仓库技术中的抽取，一个碰撞任务中，可以从数据源1上抽取数据，从数据源2上抽取数据，抽取出来的数据进行关联处理。

数据探查算子，主要依托于Spark算子能力，其输入为数据碰撞输出的Spark RDD信息，通过会话ID和任务ID确定探查的输入数据，从Cache或者HDFS中读取数据，按字段逐个进行分析，识别字段的值域分布情况，以及判断字段是量度、维度、普通字段等信息。针对每个属性字段下不同取值的记录分布信息，还会自动计算属性值的最大值、最小值、中位数等信息。

对于业务人员而言，其登录系统后，进入可视化比对碰撞建模，具体步骤说明如下：

(1)拖拽部分数据源，触发碰撞引擎装置，比对碰撞引擎装置触发算子处理，最终从数据源获取数据，作为临时出具存储在数据存储层，界面上可以呈现样例数据展示

(2)针对第一步的结果，可以在建模图元上触发数据探查，此时会下发数据探查装置，去获取第一步写入的样例数据。前端将数据探查结果进行可视化呈现，方便使用者了解数据。

(3)基于数据探查结果，对第一步碰撞的结果，进行过滤设置&关联计算处理，然后再次触发比对碰撞引擎进行计算，对计算结果再次进行探查，如此循环，得到最终的模型。

其中，所述的过滤设置&关联计算处理其实还是数据碰撞的一部分，比如获取到某段时间的住宿信息，经过探查统计分析，某个区域住宿人数多，四川住宿人数多，这时候可以进一步过滤户籍地是四川的，并且住宿在指定区域的人找出来，做进一步分析或者在和火车出行飞机出行数据进行关联，从而找出最有风险的人。

(4)模型保存、如果需要设置调度，则设置调度信息。

模型创建好了，其实就是定好了计算策略。这时候可能需要每天或者每周基于新数据要重新计算一下，产生结果集。每周或者每天执行的任务就是靠周期性触发的，这个周期性触发规则就是调度。

基于上述流程，先两两关联，然后对于关联结果直接右键点击进行大数据探查，探查之后，发现重点特征数据，对关联结果集再设置过滤条件，参与后一个节点的关联碰撞，逐步迭代最终输出碰撞结果集。

在本实施例中还提供了一种大数据分析装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种大数据分析装置，如图11所示，包括：

第一获取模块51，用于获取至少两个目标数据源的标识；

对比碰撞模块52，用于基于所述至少两个目标数据源的标识，对所述至少两个目标数据源中的数据进行分布式比对碰撞，以得到目标数据；其中，所述目标数据与所述标识对应；

第二获取模块53，用于获取对应于目标标识的大数据探查请求；

数据探查模块54，用于对所述目标标识对应的目标数据进行数据探查，得到数据探查结果。

本实施例提供的数据分析装置，在数据分析过程中利用分布式计算框架将比对碰撞和数据探查相结合，在数据比对碰撞过程中随时可以进行数据探查，让使用者更快速的了解数据，避免了数据对比碰撞与数据探查的分离，提高了大数据分析的效率；此外，将数据探查与数据对比碰撞结合，还可以支撑大数量的跨数据源的数据对比碰撞，以实现大数据量的比对碰撞探查，提高大数据的分析效率。

本实施例中的数据分析装置是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本发明实施例还提供一种电子设备，具有上述图11所示的大数据分析装置。

请参阅图12，图12是本发明可选实施例提供的一种电子设备的结构示意图，如图12所示，该电子设备可以包括：至少一个处理器61，例如CPU(Central Processing Unit，中央处理器)，至少一个通信接口63，存储器64，至少一个通信总线62。其中，通信总线62用于实现这些组件之间的连接通信。其中，通信接口63可以包括显示屏(Display)、键盘(Keyboard)，可选通信接口63还可以包括标准的有线接口、无线接口。存储器64可以是高速RAM存储器(Random Access Memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器64可选的还可以是至少一个位于远离前述处理器61的存储装置。其中处理器61可以结合图11所描述的装置，存储器64中存储应用程序，且处理器61调用存储器64中存储的程序代码，以用于执行上述任一方法步骤。

其中，通信总线62可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。通信总线62可以分为地址总线、数据总线、控制总线等。为便于表示，图12中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器64可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)；存储器64还可以包括上述种类的存储器的组合。

其中，处理器61可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，处理器61还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic,缩写：GAL)或其任意组合。

可选地，存储器64还用于存储程序指令。处理器61可以调用程序指令，实现如本申请图2、4以及图7实施例中所示大数据分析方法。

本发明实施例还提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的大数据分析方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种大数据分析方法，其特征在于，包括：

获取至少两个目标数据源的标识；

基于所述至少两个目标数据源的标识，对所述至少两个目标数据源中的数据进行分布式比对碰撞，以得到目标数据；其中，所述目标数据与所述标识对应；

获取对应于目标标识的大数据探查请求；

2.根据权利要求1所述的方法，其特征在于，所述基于所述至少两个目标数据源的标识，对所述至少两个目标数据源中的数据进行分布式比对碰撞，以得到目标数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述两个标识，对所述两个标识对应的目标数据源中的数据进行分布式对比碰撞得到所述目标数据，包括：

基于所述会话触发对比碰撞算子以下发任务；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

显示所述目标数据。

5.根据权利要求1所述的方法，其特征在于，所述对目标标识对应的目标数据进行数据探查，以形成数据探查结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述响应于所述目标标识的大数据探查请求，以提取所述目标标识对应的目标数据，包括：

7.根据权利要求6所述的方法，其特征在于，所述匹配所述目标标识对应的目标数据的属性，得到所述数据探查结果，包括：

8.一种大数据分析装置，其特征在于，包括：

第一获取模块，用于获取至少两个目标数据源的标识；

9.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1-7中任一项所述的大数据分析方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的大数据分析方法。