CN108427709B

CN108427709B - 一种多源海量数据处理系统及方法

Info

Publication number: CN108427709B
Application number: CN201810074821.8A
Authority: CN
Inventors: 周康; 余河金; 夏晨俊; 刘利民; 王平喜; 徐长军; 郑新标; 焦国云
Original assignee: Lanxin Technology Group Co ltd
Current assignee: Lanxin Technology Group Co ltd
Priority date: 2018-01-25
Filing date: 2018-01-25
Publication date: 2020-10-16
Anticipated expiration: 2038-01-25
Also published as: CN108427709A

Abstract

本发明实施例提供一种多源海量数据处理系统及方法，所述系统包括计算模块和任务管理模块，其中：所述计算模块用于接收多源海量数据，并调取数据接收服务解析所述多源海量数据；所述多源海量数据是根据预先在所述任务管理模块中配置的任务所产生的开源数据；所述计算模块若接收到外界选择的预设模型的确认动作，将解析后的多源海量数据输入所述预设模型，以供分析所述预设模型的输出结果。所述方法使用所述系统。本发明实施例提供的多源海量数据处理系统及方法，通过调取数据接收服务解析多源海量数据，将解析后的多源海量数据输入预设模型，并根据预设模型的输出结果分析多源海量数据，不仅使企业系统高效兼容多源海量数据，还能够有效利用该多源海量数据进行数据分析。

Description

一种多源海量数据处理系统及方法

技术领域

本发明实施例涉及数据处理技术领域，具体涉及一种多源海量数据处理系统及方法。

背景技术

随着大数据技术的发展，数据的来源也越来越广泛，然而某些系统并不兼容某些来源的数据，给数据应用带来了难度。

现有技术是通过获取数据来源方的授权，或者根据数据来源方的相应产品编译程序代码来使企业系统兼容多源海量数据。但是数据来源方有很多，导致现有技术的效率尤其低下。

因此，如何避免上述的技术缺陷，并使企业系统高效兼容多源海量数据，并有效利用该多源海量数据进行数据分析，成为亟须解决的问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种多源海量数据处理系统及方法。

第一方面，本发明实施例提供一种多源海量数据处理系统，所述系统包括计算模块和任务管理模块，其中：

所述计算模块用于接收多源海量数据，并调取数据接收服务解析所述多源海量数据；所述多源海量数据是根据预先在所述任务管理模块中配置的任务所产生的开源数据；

所述计算模块若接收到外界选择的预设模型的确认动作，将解析后的多源海量数据输入所述预设模型，以供分析所述预设模型的输出结果。

第二方面，本发明实施例提供一种多源海量数据处理方法，所述方法包括：

接收多源海量数据，并调取数据接收服务解析所述多源海量数据；所述多源海量数据是根据预先配置的任务所产生的开源数据；

若接收到外界选择的预设模型的确认动作，将解析后的多源海量数据输入所述预设模型，以供分析所述预设模型的输出结果。

第三方面，本发明实施例提供一种电子设备，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如下方法：

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，包括：

所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如下方法：

本发明实施例提供的多源海量数据处理系统及方法，通过调取数据接收服务解析多源海量数据，将解析后的多源海量数据输入预设模型，并根据预设模型的输出结果分析多源海量数据，不仅使企业系统高效兼容多源海量数据，还能够有效利用该多源海量数据进行数据分析。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例多源海量数据处理系统的结构示意图；

图2为本发明另一实施例任务管理模块的功能示意图；

图3为本发明另一实施例任务管理模块的功能示意图；

图4为本发明实施例搜索引擎模块的功能示意图；

图5为本发明实施例多源海量数据处理方法的流程示意图；

图6为本发明实施例提供的电子设备实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例多源海量数据处理系统的结构示意图，如图1所示，本发明实施例提供的多源海量数据处理系统，包括计算模块1和任务管理模块2，其中：

所述计算模块1用于接收多源海量数据，并调取数据接收服务解析所述多源海量数据；所述多源海量数据是根据预先在所述任务管理模块2中配置的任务所产生的开源数据；所述计算模块1若接收到外界选择的预设模型的确认动作，将解析后的多源海量数据输入所述预设模型，以供分析所述预设模型的输出结果。可以从第三方开源数据平台接收多源海量数据。数据接收服务可以是基于Impala SQL语言和开发环境Spark预先开发的，然后内置于上述系统之中，通过该数据接收服务对第三方开源数据平台所有的多源海量数据都可以进行解析，以使上述系统兼容多源海量数据，从而极大地扩展了数据的来源。需要说明的是：需要由外界（可以是相关工作的负责人员）预先在任务管理模块2中配置任务，任务的执行需要接收多源海量数据，外界可以根据解析后的多源海量数据和自身经验从预先建立的预设模型库中选择相应的预设模型，该预设模型库可以预先集成有大量的预设模型，例如人工智能学习系统tensorflow和Python集成等。为了进一步体现出该系统的智能化，该计算模块1还可以用于识别解析后的多源海量数据对应的任务（即当前接收并解析的多源海量数据是由预先配置的哪项任务产生的）；根据识别结果标记所述解析后的多源海量数据；以供外界根据所述标记结果选择所述预设模型。举例说明如下：预先配置的任务有A和B，当前接收并解析的多源海量数据的识别结果是由任务A产生的开源数据，可以将该解析后的多源海量数据标记为a，这样就识别出了解析后的多源海量数据a与任务A之间的匹配关系，更加便于外界根据需要执行的任务合理地选择预设模型，例如：任务A需要选择预设模型X进行计算；任务B需要选择预设模型Y进行计算；参照上述举例，由于解析后的多源海量数据a与任务A之间的匹配关系，外界可以方便准确地选择预设模型X对解析后的多源海量数据a进行计算，然后再根据预设模型X的输出结果（即计算结果）进行数据分析。

图2为本发明另一实施例任务管理模块的功能示意图，如图2所示，任务管理模块2还可以用于：监控任务执行的运行状态，运行状态可以包括已完成任务、失败的任务、正在进行的任务和尚未进行的任务等。通过任务完成情况、任务运行情况、任务执行时长、任务类型分布、近一月出错排行、调度数量趋势等指标展示，运维及开发人员可全局上了解任务总体运行情况以及发现执行问题，并进行整改或优化。

图3为本发明另一实施例任务管理模块的功能示意图，如图3所示，任务管理模块2还可以用于统计分析预设时段内的指定任务和/或所有任务的日志记录，预设时段可以根据实际情况自主设置，指定任务也可以自主选择指定。任务调度：实现了基于Quartz的任务调度功能，工作流任务支持定时调度执行，通过配置完成不同业务需求。任务监控：提供了任务调度执行日志查看功能，开发、实施人员可通过此功能监控任务运行情况以及分析定位问题。

工作流任务，可视化流程任务设计工具，支持数据接入、MR计算任务、Spark计算任务、工作流任务、数据输出等多任务任意组合配置，串行、并行执行的同时提供了日志查看功能。

数据接入任务：支持增量/全量向导模式配置Oracle、MySQL库表、视图数据抽取到大数据平台。

MR计算任务：实现MR计算任务执行配置，提供了基于MapReduce计算引擎的任务配置入口。

模型集成：支持体外模型（R或者Python固化模型）集成到计算任务，作为模型计算任务。

Spark计算任务：实现Spark计算任务执行配置，提供了基于Spark计算引擎的任务配置入口。

SQL计算任务：实现了基于Impala的SQL计算任务配置，并提供基于CodeMirror实现的Impala SQL开发的前端IDE环境。通过SQL语句可更简单的完成大部分的大数据统计分析工作，可很大程度提高开发效率，降低大数据开发成本。同时支持Rest接口服务，方便其他系统通过Impala SQL对大数据平台数据进行操作。

数据输出任务：支持向导模式配置大数据平台表数据同步到Oracle、MySQL库。同时支持输出任务执行前置和后置自定义SQL，支持更多业务场景需求。

所述系统还包括数仓管理模块，用于通过数据源配置功能，可配置数据输入、输出任务使用数据源，并测试其连通性，作为数仓管理前置任务项；

用于配置构建数仓，指定数仓源库地址及库名；

能够支持前端管理基于大数据平台的常规表、分区表、外部表；提供参照源表、源视图建表，简化大数据表管理操作，并支持自定义修改表、字段信息等。

图4为本发明实施例搜索引擎模块的功能示意图，如图4所示，所述系统还包括搜索引擎模块，用于实现了基于HBase、Key Value Store Indexer、Solr的搜索引擎服务。通过搜索配置功能，可快速完成搜索引擎配置、整合部署，并查看索引状态；构建完成后，通过数据接入、计算任务产生的数据将会准实时自动构建索引。

搜索查询功能提供了前端操作界面、Rest接口服务进行搜索引擎查询。

本发明实施例提供的多源海量数据处理系统，通过调取数据接收服务解析多源海量数据，将解析后的多源海量数据输入预设模型，并根据预设模型的输出结果分析多源海量数据，不仅使企业系统高效兼容多源海量数据，还能够有效利用该多源海量数据进行数据分析。

在上述实施例的基础上，所述数据接收服务是基于Impala SQL语言和开发环境Spark预先开发的。可参照上述实施例，不再赘述。

本发明实施例提供的多源海量数据处理系统，通过基于Impala SQL语言和开发环境Spark预先开发数据接收服务，进一步地使企业系统高效兼容多源海量数据。

在上述实施例的基础上，所述预设模型是从预先建立的预设模型库中选择的。可参照上述实施例，不再赘述。

本发明实施例提供的多源海量数据处理系统，通过从预先建立的预设模型库中选择预设模型，方便了预设模型的选择。

在上述实施例的基础上，所述预设模型库包括人工智能学习系统tensorflow和Python集成。可参照上述实施例，不再赘述。

本发明实施例提供的多源海量数据处理系统，该系统中的预设模型库包括有人工智能学习系统tensorflow和Python集成，进一步能够有效利用该多源海量数据进行数据分析。

在上述实施例的基础上，所述计算模块1还用于：

识别解析后的多源海量数据对应的任务；根据识别结果标记所述解析后的多源海量数据；以供外界根据所述标记结果选择所述预设模型。可参照上述实施例，不再赘述。

本发明实施例提供的多源海量数据处理系统，通过识别解析后的多源海量数据对应的任务，并根据识别结果标记解析后的多源海量数据；能够使外界根据标记结果，更加合理、准确地选择预设模型。

在上述实施例的基础上，所述任务管理模块2还用于：

监控任务执行的运行状态。可参照上述实施例，不再赘述。

本发明实施例提供的多源海量数据处理系统，能够有效监控任务执行的运行状态。

在上述实施例的基础上，所述任务管理模块2还用于：

统计分析预设时段内的指定任务和/或所有任务的日志记录。可参照上述实施例，不再赘述。

本发明实施例提供的多源海量数据处理系统，能够有效统计分析预设时段内的指定任务和/或所有任务的日志记录。

图5为本发明实施例多源海量数据处理方法的流程示意图，如图5所示，本发明实施例提供的一种多源海量数据处理方法，包括以下步骤：

S1：接收多源海量数据，并调取数据接收服务解析所述多源海量数据；所述多源海量数据是根据预先配置的任务所产生的开源数据。

具体的，系统接收多源海量数据，并调取数据接收服务解析所述多源海量数据；所述多源海量数据是根据预先配置的任务所产生的开源数据。

S2：若接收到外界选择的预设模型的确认动作，将解析后的多源海量数据输入所述预设模型，以供分析所述预设模型的输出结果。

具体的，系统若接收到外界选择的预设模型的确认动作，将解析后的多源海量数据输入所述预设模型，以供分析所述预设模型的输出结果。

本发明实施例提供的多源海量数据处理方法，通过调取数据接收服务解析多源海量数据，将解析后的多源海量数据输入预设模型，并根据预设模型的输出结果分析多源海量数据，不仅使企业系统高效兼容多源海量数据，还能够有效利用该多源海量数据进行数据分析。

本发明实施例提供的数据处理方法，具体可以用于执行上述各产品实施例的处理流程，其功能在此不再赘述，可以参照上述产品实施例的详细描述。

图6为本发明实施例提供的电子设备实体结构示意图，如图6所示，所述电子设备包括：处理器(processor)601、存储器(memory)602和总线603；

其中，所述处理器601、存储器602通过总线603完成相互间的通信；

所述处理器601用于调用所述存储器602中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：接收多源海量数据，并调取数据接收服务解析所述多源海量数据；所述多源海量数据是根据预先配置的任务所产生的开源数据；若接收到外界选择的预设模型的确认动作，将解析后的多源海量数据输入所述预设模型，以供分析所述预设模型的输出结果。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：接收多源海量数据，并调取数据接收服务解析所述多源海量数据；所述多源海量数据是根据预先配置的任务所产生的开源数据；若接收到外界选择的预设模型的确认动作，将解析后的多源海量数据输入所述预设模型，以供分析所述预设模型的输出结果。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：接收多源海量数据，并调取数据接收服务解析所述多源海量数据；所述多源海量数据是根据预先配置的任务所产生的开源数据；若接收到外界选择的预设模型的确认动作，将解析后的多源海量数据输入所述预设模型，以供分析所述预设模型的输出结果。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims

1.一种多源海量数据处理系统，其特征在于，包括计算模块和任务管理模块，其中：

所述计算模块用于接收多源海量数据，并调取数据接收服务解析所述多源海量数据；所述多源海量数据是根据预先在所述任务管理模块中配置的任务所产生的开源数据；其中，数据接收服务对第三方开源数据平台所有的多源海量数据都能够进行解析，以使所述系统兼容多源海量数据；其中，所述多源海量数据是指来自不同数据来源方的数据；

所述计算模块若接收到外界选择的预设模型的确认动作，将解析后的多源海量数据输入所述预设模型，以供分析所述预设模型的输出结果；

其中，所述计算模块还用于：

识别解析后的多源海量数据对应的任务；其中，识别解析后的多源海量数据对应的任务是指识别当前接收并解析的多源海量数据是由预先配置的哪项任务产生的；

根据识别结果标记所述解析后的多源海量数据，建立任务与预设模型的对应关系，以供外界根据标记结果选择所述预设模型；其中，所述任务是产生所述多源海量数据的任务；其中，以供外界根据所述标记结果选择所述预设模型是指以供外界根据任务与预设模型的对应关系，在确定某一任务时，选择与该任务匹配的预设模型。

2.根据权利要求1所述的系统，其特征在于，所述数据接收服务是基于Impala SQL语言和开发环境Spark预先开发的。

3.根据权利要求1所述的系统，其特征在于，所述预设模型是从预先建立的预设模型库中选择的。

4.根据权利要求3所述的系统，其特征在于，所述预设模型库包括人工智能学习系统tensorflow和Python集成。

5.根据权利要求1所述的系统，其特征在于，所述任务管理模块还用于：

监控任务执行的运行状态。

6.根据权利要求1所述的系统，其特征在于，所述任务管理模块还用于：

统计分析预设时段内的指定任务和/或所有任务的日志记录。

7.一种多源海量数据处理方法，其特征在于，包括：

接收多源海量数据，并调取数据接收服务解析所述多源海量数据；所述多源海量数据是根据预先配置的任务所产生的开源数据；其中，数据接收服务对第三方开源数据平台所有的多源海量数据都能够进行解析，以便兼容多源海量数据；其中，所述多源海量数据是指来自不同数据来源方的数据；

若接收到外界选择的预设模型的确认动作，将解析后的多源海量数据输入所述预设模型，以供分析所述预设模型的输出结果；

所述方法还包括：

8.一种电子设备，其特征在于，包括：处理器、存储器和总线，其中：

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求7所述的方法。

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使计算机执行如权利要求7所述的方法。