CN106909529B - 一种机器学习工具中间件及机器学习训练方法 - Google Patents

一种机器学习工具中间件及机器学习训练方法 Download PDF

Info

Publication number
CN106909529B
CN106909529B CN201510975227.2A CN201510975227A CN106909529B CN 106909529 B CN106909529 B CN 106909529B CN 201510975227 A CN201510975227 A CN 201510975227A CN 106909529 B CN106909529 B CN 106909529B
Authority
CN
China
Prior art keywords
training
machine learning
units
unit
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510975227.2A
Other languages
English (en)
Other versions
CN106909529A (zh
Inventor
雷鸣
鄢志杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Tmall Technology Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510975227.2A priority Critical patent/CN106909529B/zh
Priority to PCT/CN2016/109370 priority patent/WO2017107788A1/zh
Publication of CN106909529A publication Critical patent/CN106909529A/zh
Application granted granted Critical
Publication of CN106909529B publication Critical patent/CN106909529B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Numerical Control (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种机器学习工具中间件及机器学习训练方法,机器学习工具包括至少一个训练单元,每个训练单元都设置有与机器学习工具结合的中间件,中间件包括底层通信模块,以及数据分发模块、模型参数更新模块、训练参数调整模块和训练停止判断模块中的至少一块。训练单元通过所述中间件从数据存储设备中分发需要的数据到各个训练单元能够访问的存储单元,以便各个训练单元从所述存储单元中读取数据进行训练;并通过中间件之间对应模块的通信完成训练单元模型参数的更新、各训练单元训练参数的调整;以及基于所有训练单元的训练信息来进行是否停止训练的判断。本发明的中间件负责进行大规模并行训练所需要的处理,对各种机器学习工具方便扩展。

Description

一种机器学习工具中间件及机器学习训练方法
技术领域
本发明属于机器学习技术领域,尤其涉及一种机器学习工具中间件及机器学习训练方法。
背景技术
机器学习是人工智能的一个分支,而在很多时候,几乎成为人工智能的代名词。简单来说,机器学习就是通过机器学习算法模型,使得机器能从大量历史数据中学习规律,从而对新的样本做智能识别或对未来做预测。机器学习的一般过程是从输入数据(输入数据)中计算出机器学习算法模型参数,根据计算得到的模型参数形成机器算法模型,并对新的样本做智能识别或对未来做预测。在很多现实应用中,输入数据非常大,必须由多台计算装置同时处理才能在合理的时间内完成计算,因此必须互相交换模型参数,而交换模型参数由参数服务器来收集参数进行汇总和分发。
现有的大规模机器学习平台是一个封闭的训练框架,首先基于一个可共享的存储空间。另外例如数据文件支持的格式是有限的,模型文件支持的格式是有限的,进行机器学习训练时采用的训练目标和算法是在预先实现的有限方法中进行选择,训练过程中的参数调整方法和停止条件也是预先实现的。
而实际中不同的产品或者业务往往需要不同的数据、模型或者训练方法,基于不同的训练工具实现,这些相关文件以及训练方法往往会有很大的不同。如果基于现有的大规模机器学习平台实现,则需要完全用该平台已有的功能替换,或对该平台进行扩展以便兼容实际的机器学习任务。但是这样做,就需要进行大量的实验对比验证,而且需要对已有产品进行修改以兼容该平台的数据、模型格式。另外,也不能够保证该平台的已有实现能够达到业务上的需求。同时还需要对该平台的实现有深入的了解,而且需要花费大量的时间进行数据格式、模型格式以及训练方法的实现,对用户有很高的要求。
发明内容
本发明的目的是提供一种机器学习工具中间件及机器学习训练方法,使得各种机器学习工具不依赖于大规模机器学习平台,不需要改变具体的模型、数据文件解析、以及核心的训练方法、训练目标,就能够完成训练。
为了实现上述目的,本发明技术方案如下:
一种机器学习工具中间件,用于机器学习工具的模型训练,所述机器学习工具包括至少一个训练单元,每个训练单元都设置有与机器学习工具结合的中间件,所述中间件包括底层通信模块,以及数据分发模块、模型参数更新模块、训练参数调整模块和训练停止判断模块中的至少一块,其中:
所述底层通信模块,用于实现训练单元之间对应模块之间的通信,以及训练单元之间的通信;
所述数据分发模块,用于从数据存储设备中分发需要的数据到训练单元能够访问的存储单元,以便训练单元从所述存储单元中读取数据进行训练;
所述模型参数更新模块,用于收集其他训练单元的训练信息,更新本训练单元的模型参数;
所述训练参数调整模块,用于收集其他训练单元的训练信息,对本训练单元的训练参数进行调整;
所述训练停止判断模块,用于收集其他训练单元的训练信息,来进行是否停止训练的判断。
进一步地,所述数据存储设备用于存储机器学习工具所有训练数据,所述数据存储设备位于机器学习工具的主训练单元上。
进一步地,所述主训练单元的数据分发模块用于接收其他训练单元的数据分发模块的请求,向其他训练单元的数据分发模块分发数据,所述其他训练单元数据的数据分发模块接收分发的数据存储在本训练单元的本地存储单元。
通过设置数据分发模块实现数据的分发,训练数据从主训练单元的存储设备分发到各训练单元的本地存储单元,分发在中间件中实现,不影响训练单元的训练过程。各训练单元不需要在每次训练时到共享的存储设备去提取数据,因此降低了存储设备的工作压力,不需要共享一个大规模存储平台。
进一步地,所述模型参数更新模块收集其他训练单元的训练信息,并且将本训练单元的训练信息传送给其他训练单元,对各训练单元的模型参数进行平均更新模型参数。
或者,所述机器学习工具还包括参数服务器,所述模型参数更新模块将本训练单元的训练信息传送到参数服务器,由参数服务器更新模型参数后发回。
进一步地,所述底层通信模块还用于在实现训练单元之间对应模块之间的通信,以及训练单元之间的通信时,为各种通信之间加上互锁机制。使不同的模块不能够同时的进行通信,当一个模块正在进行通信时,其他的模块需要等待其完成才能进行通信。
本发明还提出了一种机器学习训练方法,用于机器学习工具的模型训练,所述机器学习工具包括至少一个训练单元,每个训练单元都设置有与机器学习工具结合的中间件,所述训练单元通过所述中间件进行通信,训练单元之间通过所述中间件执行如下训练操作中的至少一项完成模型训练,所述训练操作包括:
从数据存储设备中分发需要的数据到各个训练单元能够访问的存储单元,以便各个训练单元从所述存储单元中读取数据进行训练;
收集其他训练单元的训练信息,更新本训练单元的模型参数;
收集其他训练单元的训练信息,对本训练单元的训练参数进行调整;
收集其他训练单元的训练信息,来进行是否停止训练的判断。
本发明提出了一种机器学习工具中间件及机器学习训练方法,通过中间件的数据分发模块分发数据到各训练单元本地存储单元,不再依赖于大规模存储平台。中间件负责进行大规模并行训练所需要的处理:数据分发、模型参数更新、训练参数调整、训练停止同步以及训练单元之间的通信,而不改变具体的模型、数据文件解析,以及核心的训练方法、训练目标,从而不再依赖于大规模机器学习平台。本发明对各种机器学习工具方便扩展,而几乎不影响单个训练单元的训练行为,同时支持对各种数据文件格式的扩展。
附图说明
图1为本发明机器学习工具中间件结构示意图;
图2为本发明机器学习训练与中间件对应关系示意图;
图3为本发明实施例机器学习训练方法流程。
具体实施方式
下面结合附图和实施例对本发明技术方案做进一步详细说明,以下实施例不构成对本发明的限定。
机器学习工具在人工智能领域应用非常广泛,常用的机器学习工具包括Caffe、Kaldi等,机器学习工具根据已知的训练数据训练得到机器学习模型,并采用机器学习模型对未知的数据进行分析以便学习到新的知识。本发明的总体思想是提供一种机器学习工具中间件,使得机器学习工具能够适应不同的训练数据文件格式,并且该中间件能够适用于任何机器学习工具,从而满足基于不同的机器学习工具、不同的训练数据、不同的模型或者训练方法,进行机器学习模型的训练。
如图1所示,本实施例一种机器学习工具中间件,包括:数据分发模块、模型参数更新模块、训练参数调整模块、训练停止判断模块和底层通信模块。
在实际的应用中,本实施例机器学习工具通过调用中间件实现两者的结合,然后将中间件与机器学习工具部署在一个或多个服务器上同时进行训练。在进行模型训练时,机器学习工具包括至少一个基本的机器学习工具进程,用于实现对不同训练数据的并行处理,或者对不同的模型分区进行并行处理,本实施例同时支持这两种分布式并行处理方式。每一个基本的机器学习工具进程称为一个训练单元,例如部署在不同服务器上的机器学习工具及其结合的中间件构成一个训练单元,用以处理一个机器学习工具进程。
在图1中,示例性地列举了两个训练单元1和训练单元2,本发明不限于训练单元数量的多少。每个训练单元包括机器学习工具和对应的中间件,训练单元之间通过底层通信模块连接,在一个训练单元中,数据分发模块、模型参数更新模块、训练参数调整模块、训练停止判断模块均分别与机器学习工具连接,并与底层通信模块连接,底层通信模块还与机器学习工具进行连接。本实施例所述的连接,属于软件程序方面的接口调用,这里不再赘述。
其中,数据分发模块,用于从数据存储设备中分发需要的数据到各个训练单元能够访问的存储单元。
对于具有多个训练单元的机器学习工具来说,训练所用到的所有训练数据通常存储在一个主训练单元的数据存储设备中,各训练单元的数据分发模块向主训练单元对应的数据分发模块请求数据,然后通过网络传输数据文件到本地存储单元,提供给本地的训练单元使用。通常每个训练单元具有自己的数据存储单元,训练数据存储在主训练单元的存储设备中,通过数据分发模块将数据分发到各个训练单元本地的存储单元供各个训练单元使用,各训练单元从本地的存储单元读取训练数据进行训练。本实施例的存储设备和存储单元分别设置,优选地存储单元在训练单元服务器本地,也可以位于各训练单元能够访问其他存储设备。这里数据的分发是后台在中间件上进行的,不会影响训练单元实际的训练过程。这样,在训练单元处理完当前数据文件的时候,就可以直接进行下一数据文件的处理,即中间件数据分发模块已经准备好的数据文件。
模型参数更新模块,用于实现各训练单元之间模型参数的更新。当训练单元处理完若干批次数据需要进行多训练单元更新时,可以通过中间件的模型参数更新模块进行参数更新,即收集其他训练单元的训练信息,并且将本训练单元的训练信息告诉其他训练单元。这里的训练信息可以是模型参数本身,也可以是模型参数更新时的相关参数,比如梯度。而参数更新可以是各个训练单元同步进行,也可以各个训练单元异步进行,还可以通过一个虚拟的参数服务器进行。具体来说,更新方法可以是各训练单元上的模型参数进行平均(同步的),也可以是各个训练单元将梯度发送给参数服务器,由参数服务器将最新的模型参数发回,然后进行下一步的训练(异步的)。
训练参数调整模块,用于对各训练单元的训练参数进行调整。训练参数调整模块与模型参数更新模块类似,主要是将本训练单元的训练目标、学习速率等信息与其他训练单元进行交换,然后进行训练参数的调整。这样每次调整是基于所有训练单元的训练信息统一的进行调整,而不是单个训练单元的训练信息,可以提供更好的调整机制。
训练停止判断模块,用于基于所有训练单元的训练信息来进行是否停止训练的判断。与训练参数调整模块类似,训练停止判断模块是基于所有训练单元的训练信息来进行是否停止训练的判断,而不是单个训练单元的训练信息,这样可以提供更好的停止机制。
底层通信模块,用于实现训练单元之间对应模块之间的通信,以及训练单元之间的通信。
该模块主要是用来处理训练单元之间对应模块的通信,例如训练单元1与训练单元2数据分发模块之间的通信,是通过调用底层通信模块来实现数据的分发;又如两个训练单元对应的模型参数更新模块之间、两个训练单元对应的训练参数调整模块之间、两个训练单元对应的训练停止判断模块之间的通信。
同时可以提供训练单元之间进行一些必要的通信。例如:训练单元可以在具体的训练过程中通过调用底层通信模块来不断的同步综合所有训练单元的训练表现,比如训练的客观指标。又例如各个训练单元可以在具体的训练过程中通过调用底层通信模块来进行训练单元之间的统一行为控制,比如何时一致的进行实际的训练,何时一致的进行指定的测试。
同时,为了进行无风险的通信,需要在各种通信之间加上互锁机制,以保证通信安全。在某些底层的系统通信实现上,比如MPI通信协议,并不能够充分的支持多线程自由的调用进行通信。也就是说,存在一些系统底层通信协议使得不允许多个模块同时进行通信。为了保护通信安全,本实施例在底层通信模块上加入了互锁机制,使不同的模块不能够同时的进行通信,当一个模块正在进行通信时,其他的模块需要等待其完成才能进行通信。
如图2所示,采用本实施例中间件,进行一个典型的机器学习训练过程如下:
各个训练单元同时启动,主要的训练单元(能够访问模型文件、数据文件)将模型文件通过中间件底层通信模块传输给其他所有训练单元,各个训练单元读入模型文件。然后各训练单元通过中间件数据分发模块向存储有训练数据的主训练单元数据分发模块请求训练数据,主训练单元中间件数据分发模块响应请求,分发训练数据到各训练单元的本地存储单元。各个训练单元读入中间件数据分发模块准备好的数据文件,进行训练处理;同时,中间件数据分发模块继续在后台进行数据分发,准备下一批次的数据文件。
通过中间件模型参数更新模块进行参数更新,即收集其他训练单元的训练信息,并且将本训练单元的训练信息告诉其他训练单元。训练单元按照自身的训练目标以及训练方法处理完每一批次数据处理之后,通过中间件模型参数更新模块更新模型参数。或各个训练单元模型参数更新模块将梯度发送给参数服务器,由参数服务器将最新的模型参数发回,然后进行下一步的训练。
训练参数调整模块将本训练单元的训练目标、学习速率等信息与其他训练单元进行交换,然后通过中间件训练参数调整模块调整训练参数。
类似地,训练停止判断模块收集其他训练单元的训练信息,并且将本训练单元的训练信息告诉其他训练单元,基于所有训练单元的训练信息来进行是否停止训练的判断。训练单元进行每一批次数据处理的时候,通过中间件训练停止判断模块判断是否停止训练。如果判断停止,则结束训练,输出学习到的模型,否则返回继续读取训练数据,进行下一批训练数据的训练,直到完成训练过程。
上述各模块间相互传送信息数据都通过底层通信模块来进行传输。
通过上述过程,多个训练单元进行机器模型任务处理时,就可以根据自身的训练方法、算法不断的进行模型参数、训练参数的更新,对自身的模型、数据格式文件进行处理,达到大规模并行化处理的目的。
需要说明的是,本实施例的中间件中只有底层通信模块是必须的,其他模块可以根据具体的机器学习工具选择需要的模块组合。
例如:有些机器学习工具有自身的一些训练参数调整方法,这样用户就可以选择不使用本发明中的训练参数调整模块,而采用机器学习工具本身的方法,同时用本发明中的底层通信模块来同步各个机器学习程序上的训练参数,保证整体一致。又如有些机器学习工具不允许在运行时动态的读取新的数据文件,因此用户可以选择不使用本发明中的数据分发模块,而只是在训练开始前把数据先分发到各个机器上,训练时各个训练单元直接读取本机已经分发好的训练数据开始训练即可。
如图3所示,本发明实施例一种机器学习训练方法,用于机器学习工具的模型训练,该机器学习工具包括至少一个训练单元,每个训练单元都设置有与机器学习工具结合的中间件,训练单元通过中间件进行通信,训练单元之间通过所述中间件执行如下训练操作中的至少一项完成模型训练,训练操作包括:
从数据存储设备中分发需要的数据到各个训练单元能够访问的存储单元,以便各个训练单元从所述存储单元中读取数据进行训练;
收集其他训练单元的训练信息,更新本训练单元的模型参数;
收集其他训练单元的训练信息,对本训练单元的训练参数进行调整;
收集其他训练单元的训练信息,来进行是否停止训练的判断。
上述训练操作通过中间件进行,包括数据的分发、进行参数更新、调整训练参数和停止训练的判断。各训练单元通过中间件向存储有训练数据的主训练单元请求训练数据,主训练单元中间件响应请求,分发训练数据到各训练单元的本地存储单元。各个训练单元读入中间件准备好的数据文件,进行训练处理,同时,中间件在后台进行数据分发,准备下一批次的数据文件。在训练过程中,训练单元按照自身的训练目标以及训练方法处理完每一批次数据处理之后,通过中间件更新模型参数。即收集其他训练单元的训练信息,并且将本训练单元的训练信息告诉其他训练单元;或各个训练单元通过中间件将梯度发送给参数服务器,由参数服务器将最新的模型参数发回,然后进行下一步的训练。训练单元通过中间件将本训练单元的训练目标、学习速率等信息与其他训练单元进行交换,然后通过中间件调整训练参数。类似地,训练单元通过中间件收集其他训练单元的训练信息,并且将本训练单元的训练信息告诉其他训练单元,基于所有训练单元的训练信息来进行是否停止训练的判断。训练单元进行每一批次数据处理的时候,通过中间件训练判断是否停止训练,如果判断停止,则结束训练,输出学习到的模型,否则返回继续读取训练数据,进行下一批训练数据的训练,直到完成训练过程。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (12)

1.一种机器学习工具中间件,用于采用不同机器学习工具进行机器学习模型的训练,所述机器学习工具包括至少一个训练单元,其特征在于,每个训练单元都设置有与机器学习工具结合的中间件,所述中间件包括底层通信模块,以及数据分发模块、模型参数更新模块、训练参数调整模块和训练停止判断模块中的至少一块,其中:
所述底层通信模块,用于实现训练单元之间对应模块之间的通信,以及训练单元之间的通信,来不断的同步综合所有训练单元的训练表现,来进行训练单元之间的统一行为控制;
所述数据分发模块,用于从数据存储设备中分发需要的数据到训练单元能够访问的存储单元,以便训练单元从所述存储单元中读取数据进行训练;
所述模型参数更新模块,用于收集其他训练单元的训练信息,更新本训练单元的模型参数;
所述训练参数调整模块,用于收集其他训练单元的训练信息,对本训练单元的训练参数进行调整;
所述训练停止判断模块,用于收集其他训练单元的训练信息,来进行是否停止训练的判断。
2.根据权利要求1所述的机器学习工具中间件,其特征在于,所述数据存储设备用于存储机器学习工具所有训练数据,所述数据存储设备位于机器学习工具的主训练单元上。
3.根据权利要求2所述的机器学习工具中间件,其特征在于,所述主训练单元的数据分发模块用于接收其他训练单元的数据分发模块的请求,向其他训练单元的数据分发模块分发数据,所述其他训练单元数据的数据分发模块接收分发的数据存储在本训练单元的本地存储单元。
4.根据权利要求1所述的机器学习工具中间件,其特征在于,所述模型参数更新模块收集其他训练单元的训练信息,并且将本训练单元的训练信息传送给其他训练单元,对各训练单元的模型参数进行平均更新模型参数。
5.根据权利要求1所述的机器学习工具中间件,其特征在于,所述机器学习工具还包括参数服务器,所述模型参数更新模块将本训练单元的训练信息传送到参数服务器,由参数服务器更新模型参数后发回。
6.根据权利要求1所述的机器学习工具中间件,其特征在于,所述底层通信模块还用于在实现训练单元之间对应模块之间的通信,以及训练单元之间的通信时,为各种通信之间加上互锁机制。
7.一种机器学习训练方法,用于采用不同机器学习工具进行机器学习模型的训练,所述机器学习工具包括至少一个训练单元,其特征在于,每个训练单元都设置有与机器学习工具结合的中间件,所述训练单元通过所述中间件进行通信,训练单元之间通过所述中间件执行如下训练操作中的至少一项完成模型训练,所述训练操作包括:
实现训练单元之间的通信,来不断的同步综合所有训练单元的训练表现,来进行训练单元之间的统一行为控制;
从数据存储设备中分发需要的数据到各个训练单元能够访问的存储单元,以便各个训练单元从所述存储单元中读取数据进行训练;
收集其他训练单元的训练信息,更新本训练单元的模型参数;
收集其他训练单元的训练信息,对本训练单元的训练参数进行调整;
收集其他训练单元的训练信息,来进行是否停止训练的判断。
8.根据权利要求7所述的机器学习训练方法,其特征在于,所述数据存储设备用于存储机器学习工具所有训练数据,所述数据存储设备位于机器学习工具的主训练单元上。
9.根据权利要求8所述的机器学习训练方法,其特征在于,所述从数据存储设备中分发需要的数据到各个训练单元能够访问的存储单元,以便各个训练单元从所述存储单元中读取数据进行训练,包括:
主训练单元通过中间件接收其他训练单元的中间件发出的请求,向其他训练单元的中间件分发数据;
其他训练单元数据的中间件接收分发的数据存储在本训练单元的本地存储单元。
10.根据权利要求7所述的机器学习训练方法,其特征在于,所述收集其他训练单元的训练信息,更新本训练单元的模型参数,包括:
收集其他训练单元的训练信息,并且将本训练单元的训练信息传送给其他训练单元,对各训练单元的模型参数进行平均更新模型参数。
11.根据权利要求7所述的机器学习训练方法,其特征在于,所述机器学习工具还包括参数服务器,所述收集其他训练单元的训练信息,更新本训练单元的模型参数,包括:
将本训练单元的训练信息传送到参数服务器,由参数服务器更新模型参数后发回。
12.根据权利要求7所述的机器学习训练方法,其特征在于,所述训练单元通过所述中间件进行通信时,还包括:
为各种通信之间加上互锁机制。
CN201510975227.2A 2015-12-22 2015-12-22 一种机器学习工具中间件及机器学习训练方法 Active CN106909529B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510975227.2A CN106909529B (zh) 2015-12-22 2015-12-22 一种机器学习工具中间件及机器学习训练方法
PCT/CN2016/109370 WO2017107788A1 (zh) 2015-12-22 2016-12-12 一种机器学习工具中间件及机器学习训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510975227.2A CN106909529B (zh) 2015-12-22 2015-12-22 一种机器学习工具中间件及机器学习训练方法

Publications (2)

Publication Number Publication Date
CN106909529A CN106909529A (zh) 2017-06-30
CN106909529B true CN106909529B (zh) 2020-12-01

Family

ID=59089049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510975227.2A Active CN106909529B (zh) 2015-12-22 2015-12-22 一种机器学习工具中间件及机器学习训练方法

Country Status (2)

Country Link
CN (1) CN106909529B (zh)
WO (1) WO2017107788A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977712A (zh) * 2017-12-20 2018-05-01 四川九洲电器集团有限责任公司 联网式机器学习系统
CN109255234B (zh) * 2018-08-15 2023-03-24 腾讯科技(深圳)有限公司 机器学习模型的处理方法、装置、介质及电子设备
CN109343895B (zh) * 2018-09-18 2021-05-04 郑州云海信息技术有限公司 一种操作指令的处理方法、装置及计算机可读存储介质
CN109460826A (zh) * 2018-10-31 2019-03-12 北京字节跳动网络技术有限公司 用于分发数据的方法、装置和模型更新系统
CN111352915B (zh) * 2018-12-20 2024-08-20 北京奇虎科技有限公司 一种机器学习系统、一种机器学习参数服务器及实现方法
CN110414187B (zh) * 2019-07-03 2021-09-17 北京百度网讯科技有限公司 模型安全交付自动化的系统及其方法
CN112884159B (zh) * 2019-11-30 2024-06-18 华为技术有限公司 模型更新系统、模型更新方法及相关设备
CN115859990B (zh) * 2023-02-17 2023-05-09 智慧眼科技股份有限公司 基于元学习的信息抽取方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102597979A (zh) * 2009-06-10 2012-07-18 谷歌公司 用于分级架构内的结果优化的生成性分布
CN104217022A (zh) * 2014-09-25 2014-12-17 天津大学 一种基于交替乘子法的分布式大数据分类系统及方法
CN104714852A (zh) * 2015-03-17 2015-06-17 华中科技大学 一种适用于分布式机器学习的参数同步优化方法及其系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9508347B2 (en) * 2013-07-10 2016-11-29 Tencent Technology (Shenzhen) Company Limited Method and device for parallel processing in model training
CN105184367B (zh) * 2014-06-09 2018-08-14 讯飞智元信息科技有限公司 深度神经网络的模型参数训练方法及系统
CN104035751B (zh) * 2014-06-20 2016-10-12 深圳市腾讯计算机系统有限公司 基于多图形处理器的数据并行处理方法及装置
CN104980518B (zh) * 2015-06-26 2018-11-23 深圳市腾讯计算机系统有限公司 多学习主体并行训练模型的方法、装置和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102597979A (zh) * 2009-06-10 2012-07-18 谷歌公司 用于分级架构内的结果优化的生成性分布
CN104217022A (zh) * 2014-09-25 2014-12-17 天津大学 一种基于交替乘子法的分布式大数据分类系统及方法
CN104714852A (zh) * 2015-03-17 2015-06-17 华中科技大学 一种适用于分布式机器学习的参数同步优化方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Fast Distributed Proximal-Gradient Method;Annie I. Chen;《Communication, Control, & Computing 2012》;20121005;第601页左栏第1段-607页左栏第5段 *

Also Published As

Publication number Publication date
CN106909529A (zh) 2017-06-30
WO2017107788A1 (zh) 2017-06-29

Similar Documents

Publication Publication Date Title
CN106909529B (zh) 一种机器学习工具中间件及机器学习训练方法
CN110262899B (zh) 基于Kubernetes集群的监控组件弹性伸缩方法、装置及受控终端
CN105518620B (zh) 一种网卡配置方法及资源管理中心
CN109617986A (zh) 一种负载均衡方法及网络设备
CN105450705B (zh) 业务数据处理方法及设备
CN106502918B (zh) 一种内存调度方法及装置
CN110689136B (zh) 一种深度学习模型获得方法、装置、设备及存储介质
CN107451853A (zh) 一种红包实时派发的方法、装置、系统及存储介质
CN109670157A (zh) 一种表格高度的控制方法及相关设备
CN103051478B (zh) 一种大容量电信网管系统及其设置和应用方法
CN105511273B (zh) 一种客户端运行管理方法及客户端
CN109634853A (zh) 数据测试方法、系统、电子装置及计算机可读存储介质
CN106059940A (zh) 一种流量控制方法及装置
CN109960579A (zh) 一种调整业务容器的方法及装置
CN103581273A (zh) 一种分布式系统执行业务的方法、装置及系统
CN117314605B (zh) 一种互联网金融业务流程管理方法及系统
CN110083504A (zh) 分布式任务的运行状态监控方法及装置
CN110532060A (zh) 一种混合网络环境数据采集方法及系统
CN113254215A (zh) 数据处理方法和装置、存储介质及电子设备
CN117221326A (zh) 软件负载均衡调度方法、系统、电子设备和存储介质
CN106294445B (zh) 基于跨机房Hadoop集群的数据存储的方法及装置
CN109614242A (zh) 一种计算能力共享方法、装置、设备及介质
CN110727511A (zh) 应用程序的控制方法、网络侧设备和计算机可读存储介质
CN106933509B (zh) 一种磁盘编号的处理方法及电子设备
CN104468379A (zh) 基于最短逻辑距离的虚拟Hadoop集群节点选择方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1237930

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211112

Address after: Room 507, floor 5, building 3, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: Zhejiang tmall Technology Co., Ltd

Address before: P.O. Box 847, 4th floor, Grand Cayman capital building, British Cayman Islands

Patentee before: Alibaba Group Holdings Limited