CN111353609A

CN111353609A - 一种机器学习系统

Info

Publication number: CN111353609A
Application number: CN202010127495.XA
Authority: CN
Inventors: 蒋英明; 贺波; 万书武; 李均; 钟文彬; 钟孝勋
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-06-30

Abstract

本申请适用于人工智能技术领域，提供了一种机器学习系统，包括：计算资源模块、机器学习算法及框架模块、资源管理模块、操作模块以及数据模块；计算资源模块用于为机器学习系统提供计算资源；机器学习算法及框架模块用于提供构建机器学习模型的机器学习的算法和框架；资源管理模块用于对计算资源进行调度；操作模块用于提供构建机器学习模型的操作平台；数据模块用于提供机器学习模型的样本数据，基于大数据平台的基础，利用机器学习算法及框架模块提供多种机器学习算法和框架，利用操作模块构建机器学习模型，并基于资源管理模块调度计算资源对构建的机器学习模型进行训练，无需重复部署集群环境，有效地避免硬件资源浪费，降低开发和运维成本。

Description

一种机器学习系统

技术领域

本申请属于人工智能技术领域，尤其涉及一种机器学习系统。

背景技术

随着大数据业务应用的演进，越来越多业务需要在大数据平台的基础上，构建多种场景的机器学习应用。例如在hadoop平台上构建机器学习环境。在构建多种场景的机器学习应用时需要分别为每一种机器学习应用都部署一个单独的集群环境，而这样会存在较大的硬件资源浪费，且开发和运维成本比较高。

综上所述，目前构建多种场景的机器学习应用存在开发及运维成本高的问题。

发明内容

本申请实施例提供了一种机器学习系统，可以解决目前构建多种场景的机器学习应用存在开发及运维成本高的问题。

本申请实施例提供了一种机器学习系统，包括计算资源模块、机器学习算法及框架模块、资源管理模块、操作模块以及数据模块；

所述计算资源模块用于为机器学习系统提供计算资源；

所述机器学习算法及框架模块用于提供构建机器学习模型的机器学习的算法和框架；

所述资源管理模块用于对所述计算资源进行调度；

所述操作模块用于提供构建机器学习模型的操作平台；

所述数据模块用于提供机器学习模型的样本数据。

在一种可能的实现方式中，所述计算资源模块为分布式的CPU资源和/或GPU资源。

应理解，基于上述计算资源模块就能够为机器学习系统搭建的机器学习模型提供算力，进而实现对机器学习模型的训练和模型评估。

在一种可能的实现方式中，所述机器学习算法及框架模块通过计算引擎封装于所述机器学习系统。

示例性的，通过TensorFlow on YARN(TonY)计算引擎、spark计算引擎等将常用的机器学习算法和机器学习框架封装在上述机器学习系统中。上述机器学习框架包括但不限于深度学习框架tensorflow、pytorch、MXNet、caffe、分布式机器学习框架spark以及轻量级单集群学习框架python等。上述机器学习算法包括但不限于线性回归算法、回归树算法、逻辑回归算法、支持向量机算法、决策树算法、仿射传播算法、聚类算法等。

在一种可能的实现方式中，所述操作模块包括交互式操作单元、批量式操作单元及接口式操作单元。

应理解，操作模块是机器学习系统根据机器学习任务搭建机器学习模型的操作平台，其可以提供可拖拽式的组件，通过可拖拽式的组件来搭建机器学习模块，将机器学习算法和框架对应封装在上述可拖拽式组件中，通过拖拽组件来搭建机器学习模型，例如拖拽封装有tensorflow框架的组件和封装有决策树算法的组件来搭建一个机器学习模型。

进一步地，所述交互式操作单元基于可视化技术构建所述机器学习系统的前端操作系统。

进一步地，所述所述批量式操作单元基于调度系统构建批量处理服务框架。

进一步地，所述接口式操作单元基于knox技术和livy技术构建接口服务框架，所述接口服务框架基于超文本传输协议与外部系统交互。

在一种可能的实现方式中，所述资源管理模块采用调度管理模式对分布式系统的计算资源进行统一调度。

进一步地，所述资源管理模块采用主从模式实现对单集群的计算资源的调度。

在一种可能的实现方式中，所述资源管理模块具体用于根据机器学习任务的资源需求和各个计算节点的计算资源进行资源分配，并根据资源分配结果将机器学习任务分别调度至对应的计算节点执行。

本申请实施例与现有技术相比存在的有益效果是：上述机器学习系统基于数据模块提供的大数据的基础，利用机器学习算法及框架模块提供多种机器学习算法和框架，利用操作模块构建机器学习模型，并基于资源管理模块调度计算资源对构建的机器学习模型进行训练，无需重复部署集群环境，有效地避免硬件资源浪费，降低开发和运维成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的机器学习系统的结构示意图；

图2是本申请另一实施例提供的机器学习系统的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本实施例提供的机器学习系统具体可以是云服务器，也可以是计算机集群系统，集群系统中的单个计算机通常称为节点，通过局域网等通信连接方式进行连接，以此提供较快的计算速度、较强的计算能力以及系统的可靠性。上述计算机集群系统可以是同构计算机集群系统，也可以是异构计算机集群系统。

请参阅图1，如图1所示的一种机器学习系统，其包括计算资源模块11、机器学习算法及框架模块12、资源管理模块13、操作模块14以及数据模块15。

具体地，上述计算资源模块11用于为机器学习系统提供计算资源。

具体地的，上述计算资源模块为分布式的CPU资源和/或GPU资源，能够为机器学习系统提供基础计算能力，可以基于分布式的CPU资源和/或GPU资源来提供机器学习的模型训练和模型评估时所需的计算能力。

具体地，上述分布式的CPU资源、GPU资源可以是CPU与GPU的混合集群系统提供的CPU资源和GPU资源。

具体地，上述机器学习算法及框架模块12用于提供构建机器学习模型的机器学习的算法和框架。能够提供多种算法及框架，以支撑不同应用场景的需求。

在本实施例中，上述机器学习算法及框架模块12通过计算引擎封装于所述机器学习系统。

具体地，通过TensorFlow on YARN(TonY)计算引擎、spark计算引擎等将常用的机器学习算法和机器学习框架封装在上述机器学习系统中。上述机器学习框架包括但不限于深度学习框架TensorFlow、pyTorch、MXNet、caffe、分布式机器学习框架sparkMLlib以及轻量级单集群学习框架python等。上述机器学习算法包括但不限于线性回归算法、回归树算法、逻辑回归算法、支持向量机算法、决策树算法、仿射传播算法、聚类算法等。

具体地，资源管理模块13用于对所述计算资源进行调度。

在本实施例中，上述资源管理模块13具体用于根据机器学习任务的资源需求和各个计算节点的计算资源进行资源分配，并根据资源分配结果将机器学习任务分别调度至对应的计算节点执行。

具体地，资源管理模块13先该机器学习系统的底层计算节点(提供计算资源的设备)进行初始化后，获取各个计算节点可用的CPU资源和GPU资源。并将获取到的各个计算节点可用的CPU资源和GPU资源反馈至管理节点，由管理节点根据当前的机器学习任务的资源需求为各个计算节点分配计算任务，并将各个分配计算任务调度至对应的计算节点执行计算。

需要说明的是，资源管理模块13会预先将节点划分为一个管理节点和若干个计算节点，由管理节点进行计算资源的管理和统一调度。

具体地，资源管理模块13可以通过队列管理机制对机器学习任务进行管理，资源管理模块在接收到用户的机器学习任务后，将机器学习任务依照任务优先级提交至队列进行排队，然后由资源管理模块按照队列的顺序依次分配计算资源。上述机器学习任务的优先级可以根据提交任务的用户权限来确定，也可以根据机器学习任务的执行时间来确定，在此不加以限制。

可以理解的是，对于需要计算资源较大的机器学习任务，可以将机器学习任务进行分解，然后按照分解得到子任务来分配计算资源，并各个将子任务调度到对应的计算节点，由对应的计算节点执行子任务。需要说明的是，为了不占有其他机器学习任务的计算资源，可以为每个子任务分配设定的资源量，如果子任务使用的计算资源超过设定的资源量时，则将该子任务从计算节点中强制退出，以达到不占用其他任务的计算资源的目的。需要说明的是，机器学习任务的分解规则可以根据实际情况来设置，这里不加以限制，例如将数据预处理和模型训练分解为两个子任务。

具体地，操作模块14用于提供构建机器学习模型的操作平台。

具体地，操作模块14是机器学习系统根据机器学习任务搭建机器学习模型的操作平台，其可以提供可拖拽式的组件，通过可拖拽式的组件来搭建机器学习模块，将机器学习算法和框架对应封装在上述可拖拽式组件中，通过拖拽组件来搭建机器学习模型，例如拖拽封装有tensorflow框架的组件和封装有决策树算法的组件来搭建一个机器学习模型。

可以理解的是，上述操作模块14是用户与机器学习系统的对接窗口。为了方便用户使用上述机器学习系统来搭建机器学习模型、训练机器学习模块以及评估机器学习模型，可以提供多种应用方式的对接窗口以供用户使用，例如提供交互式对接窗口、批量式对接窗口以及接口式对接窗口。

具体地，数据模块15用于提供机器学习模型的样本数据。

在本实施例中，上述数据模块15依赖于hadoop大数据平台，由hadoop大数据平台提供进行机器学习模型训练、模型评估所需的样本数据，上述样本数据包括但不限于音频数据、视频数据、图像数据、文本数据等。

具体地，上述数据模块可以存储在Hadoop分布式文件系统(HDFS)中，也可以存储在数据仓库(HIVE)中，还可以存储在开源数据库(HBASE)中，还可以存储在网络附属存储(Network Attached Storage，NAS)中，在此不加以限制。

本实施例提供的一种机器学习系统，基于数据模块提供的大数据的基础，利用机器学习算法及框架模块提供多种机器学习算法和框架，利用操作模块构建机器学习模型，并基于资源管理模块调度计算资源对构建的机器学习模型进行训练，无需重复部署集群环境，有效地避免硬件资源浪费，降低开发和运维成本。

请参阅图2，图2示出了本申请另一实施例提供的机器学习系统的结构示意图，本实施例与上一实施例的不同之处在于，操作模块14包括交互式操作单元141、批量式操作单元142及接口式操作单元143。

具体地，上述交互式操作单元141基于可视化技术构建机器学习系统的前端操作系统。

具体地，采用Apache zeppelin构建机器学习系统的前端操作系统，通过前端操作系统实现对机器学习模型的建模、训练、评估及数据预处理等操作，通过可交互的前端系统的拖拽组件模块设置可拖拽组件，并将机器学习算法和机器学习框架封装在上述可拖拽组件中，通过拖拽上述可拖拽组件来搭建用户需要的机器学习模型，并基于搭建的机器学习模型设置机器学习任务，将机器学习任务加入到资源管理模块13的队列中，通过资源管理模块13根据前端操作系统设置的机器学习任务(包括但不限于模型训练、模型评估、数据预处理等计算任务)分配计算资源(底层的CPU和GPU资源)。需要说明的是，可以通过Apachezeppelin的Zeppelin组件来作为上述机器学习系统的前端操作系统，上述Zeppelin组件可以是B/S架构系统，其能够支持ensorFlow on YARN(TonY)计算引擎、spark计算引擎下的所有机器学习框架，例如sparkMLlib、scikit-learn、TensorFlow、pyTorch等。

具体地，上述批量式操作单元142基于调度系统构建批量处理服务框架。

具体地，上述调度系统为scheduler系统，通过scheduler系统将机器学习模型的代码以及机器学习模型依赖的执行环境(即机器学习框架)打包上传到上述机器学习系统中，并实现周期性触发调度，启动批量式的机器学习模型训练任务。需要说明的是，上述Scheduler系统也可以是B/S架构系统，将浏览器的窗口作为前端操作平台来输入批量式的机器学习任务，然后又服务器作为批量处理服务框架来响应该学习任务。

具体地，接口式操作单元143基于knox技术和livy技术构建接口服务框架，所述接口服务框架基于超文本传输协议与外部系统交互。

具体地，接口式应用方式可以采用knox技术实现机器学习模型的文件同步功能，能够支撑机器学习系统训练完成的机器学习模型与其他应用系统的对接。基于livy技术来机器学习系统的接口，以方便将其他应用系统开发的机器学习应用部署到本实施例的机器学习系统中，便于发挥本实施提供的机器学习系统的计算能力。通过超文本传输协议方式，实现与外部系统交互。

在本实施例中，资源管理模块采用调度管理模式对分布式系统的计算资源进行统一调度。

具体地，对于分布式系统的计算资源的调度可以通过调度管理模式来实现，上述调度管理模式为YARN模式，操作模块提交了机器学习任务后，资源管理器会选择一个计算节点，并控制该计算节点去启动容器，并将该计算节点设置为管理节点，并由该管理节点向资源管理器请求计算所需的计算资源，资源管理器同意请求后分配计算资源给到管理节点，管理节点再基于分配到的计算资源将机器学习任务下发到与分配到的计算资源相对应的计算节点进行执行，并获取执行结果，当机器学习任务执行完毕后，管理节点会释放该计算资源。

在本实施例中，资源管理模块采用主从模式实现对单集群的计算资源的调度。

具体地，对于小规模的计算资源的调度可以通过standalone模式来实现调度。每个计算节点都会有一个心跳机制和资源管理器保持通信，当接收到机器学习任务后，SparkContext对象会向资源管理器申请计算资源，而资源管理器会根据各个计算节点的心跳信号来分配计算资源，并启动计算节点的调度进程；然后由SparkContext对象将机器学习任务的程序代码解析成dag结构，并提交给DagScheduler；dag会在DagScheduler中被分解成很多步骤，每个步骤包含着多个任务；然后将步骤提交给TaskScheduler，而TaskScheduler会将任务分配到计算节点，并将分配情况提交给调度进程，调度进程会创建线程池去执行任务，并且报告执行情况，直到全部任务执行完成，释放计算资源。

本实施例提供的，基于交互式操作单元、批量式操作单元及接口式操作单元来提供多种操作平台，能够方便用户使用机器学习系统进行模型搭建、模型训练、模型评估及数据预处理等操作，且能够实现机器学习系统与外部系统的无缝先借，进而使得本机器学习系统的计算资源能够被充分利用。并基于YANR模式和Standalone模式来进行系统资源管理，实现对异构计算资源的调度和单机计算资源的调度，使得计算资源能够被充分利用，避免硬件资源的浪费，降低开发和运维成本。

需要说明的是，实现上述实施例中的全部或者部分可以通过计算机程序来指示相关硬件完成，上述计算机程序可存储于一计算机可读存取介质中，该程序在执行时，能实现上述机器学习系统的功能，所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/门禁系统的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的机器学习系统，可以通过其它的方式实现。例如，以上所描述的机器学习系统实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种机器学习系统，其特征在于，包括：计算资源模块、机器学习算法及框架模块、资源管理模块、操作模块以及数据模块；

所述计算资源模块用于为机器学习系统提供计算资源；

所述资源管理模块用于对所述计算资源进行调度；

所述操作模块用于提供构建机器学习模型的操作平台；

所述数据模块用于提供机器学习模型的样本数据。

2.如权利要求1所述的机器学习系统，其特征在于，所述计算资源模块为分布式的CPU资源和/或GPU资源。

3.如权利要求1所述的机器学习系统，其特征在于，所述机器学习算法及框架模块通过计算引擎封装于所述机器学习系统。

4.如权利要求1所述的机器学习系统，其特征在于，所述操作模块包括交互式操作单元、批量式操作单元及接口式操作单元。

5.如权利要求4所述的机器学习系统，其特征在于，所述交互式操作单元基于可视化技术构建所述机器学习系统的前端操作系统。

6.如权利要求4所述的机器学习系统，其特征在于，所述批量式操作单元基于调度系统构建批量处理服务框架。

7.如权利要求4所述的机器学习系统，其特征在于，所述接口式操作单元基于knox技术和livy技术构建接口服务框架，所述接口服务框架基于超文本传输协议与外部系统交互。

8.如权利要求1所述的机器学习系统，其特征在于，所述资源管理模块采用调度管理模式对分布式系统的计算资源进行统一调度。

9.如权利要求1所述的机器学习系统，其特征在于，所述资源管理模块采用主从模式实现对单集群的计算资源的调度。

10.如权利要求1至9任意一项所述的机器学习系统，其特征在于，所述资源管理模块具体用于根据机器学习任务的资源需求和各个计算节点的计算资源进行资源分配，并根据资源分配结果将机器学习任务分别调度至对应的计算节点执行。