CN110033091A - 一种基于模型进行预测的方法和装置 - Google Patents

一种基于模型进行预测的方法和装置 Download PDF

Info

Publication number
CN110033091A
CN110033091A CN201811522364.0A CN201811522364A CN110033091A CN 110033091 A CN110033091 A CN 110033091A CN 201811522364 A CN201811522364 A CN 201811522364A CN 110033091 A CN110033091 A CN 110033091A
Authority
CN
China
Prior art keywords
model
running environment
machine learning
learning model
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811522364.0A
Other languages
English (en)
Other versions
CN110033091B (zh
Inventor
刘永超
李思仲
潘国振
徐建国
黄启印
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811522364.0A priority Critical patent/CN110033091B/zh
Publication of CN110033091A publication Critical patent/CN110033091A/zh
Priority to TW108134608A priority patent/TWI693563B/zh
Priority to EP19895453.9A priority patent/EP3816877A4/en
Priority to PCT/CN2019/112895 priority patent/WO2020119268A1/zh
Priority to SG11202100954UA priority patent/SG11202100954UA/en
Application granted granted Critical
Publication of CN110033091B publication Critical patent/CN110033091B/zh
Priority to US17/165,509 priority patent/US11803752B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/048Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators using a predictor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种基于模型进行预测的方法和装置,其中,所述方法包括:模型运行环境接收所述机器学习模型的输入张量;模型运行环境向嵌入运行环境发送查表请求,所述查表请求中携带所述输入张量,以请求对所述输入张量进行低维转换;模型运行环境接收嵌入运行环境返回的查表结果,所述查表结果由所述嵌入运行环境根据所述输入张量进行嵌入查询和处理得到;模型运行环境将所述查表结果输入机器学习模型,并运行所述机器学习模型完成基于模型进行预测。

Description

一种基于模型进行预测的方法和装置
技术领域
本公开涉及机器学习技术领域,特别涉及一种基于模型进行预测的方法和装置。
背景技术
在人工智能中,特征工程是一个非常重要的环节。特征工程是将机器学习模型的输入数据转换为特征向量的过程,是机器学习中重要的起始步骤。而嵌入(embedding)是特征工程中的一种数据转换方法,机器学习的输入数据可能是一个高维张量,可以通过嵌入层将高维张量映射到低维的连续空间,达到特征提取的目的。通过将高维空间映射到嵌入这种低维空间,使得在大型输入(典型的是高维度稀疏张量)上的机器学习变得更加容易。
但是,嵌入层的参数量通常非常大,在某些业务场景中,所有嵌入层参数的内存总量可以达到千亿级别(比如100GB~1TB内存)。这种情况对实时在线模型的部署和预测构成很大的挑战:单台机器不能提供足够的共享内存去存储整个模型,因此需要购买定制的机器提供服务,增加了设备购置、运行和维护的成本;并且,单台机器的容量被较大的嵌入层占用,也使得模型运行不能充分发挥底层硬件资源的计算能力,造成资源浪费。
发明内容
有鉴于此,本说明书一个或多个实施例提供一种基于模型进行预测的方法和装置,以降低模型运行成本,且更好的发挥资源能力。
具体地,本说明书一个或多个实施例是通过如下技术方案实现的:
第一方面,提供一种基于模型进行预测的方法,所述方法由机器学习模型系统执行,所述系统包括:机器学习模型、以及用于对机器学习模型的输入张量进行转换的嵌入模型;所述嵌入模型和机器学习模型分开部署,嵌入模型部署在嵌入运行环境,所述机器学习模型部署在模型运行环境中;所述方法包括:
所述模型运行环境接收所述机器学习模型的输入张量;
所述模型运行环境向嵌入运行环境发送查表请求,所述查表请求中携带所述输入张量,以请求对所述输入张量进行低维转换;
所述模型运行环境接收嵌入运行环境返回的查表结果,所述查表结果由所述嵌入运行环境根据所述输入张量进行嵌入查询和处理得到;
所述模型运行环境将所述查表结果输入机器学习模型,并运行所述机器学习模型完成基于模型进行预测。
第二方面,提供一种机器学习模型系统,所述系统包括:嵌入运行环境和模型运行环境,所述嵌入运行环境中部署嵌入模型,所述模型运行环境中部署机器学习模型;
所述模型运行环境,用于接收所述机器学习模型的输入张量;并用于向嵌入运行环境发送查表请求,所述查表请求中携带所述输入张量,以请求对所述输入张量进行低维转换;还用于将所述查表结果输入机器学习模型,并运行所述机器学习模型完成基于模型进行预测;
所述嵌入运行环境,用于根据查表请求,对所述输入张量进行嵌入查询和处理得到查表结果,并将所述查表结果反馈给所述模型运行环境。
第三方面,提供一种基于模型进行预测的设备,所述设备包括存储器、处理器,以及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行指令时以实现嵌入运行环境和模型运行环境,所述嵌入运行环境用于运行嵌入模型,所述模型运行环境用于运行机器学习模型;所述处理器执行指令用于实现以下步骤:
所述模型运行环境接收所述机器学习模型的输入张量;
所述模型运行环境向嵌入运行环境发送查表请求,所述查表请求中携带所述输入张量,以请求对所述输入张量进行低维转换;
所述模型运行环境接收嵌入运行环境返回的查表结果,所述查表结果由所述嵌入运行环境根据所述输入张量进行嵌入查询和处理得到;
所述模型运行环境将所述查表结果输入机器学习模型,并运行所述机器学习模型完成基于模型进行预测。
本说明书一个或多个实施例的基于模型进行预测的方法和装置,由于将模型与嵌入进行了分离部署,当单台机器的内存不足够时,可以使用分离的其他内存存储模型或嵌入,从而降低了模型运行和维护成本;并且,这种分离部署结构,可以使得网络虚拟执行单元的计算资源充分的用于模型运行预测,充分发挥底层硬件资源的计算能力。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例提供的一种机器学习模型系统;
图2为本说明书一个或多个实施例提供的一种基于模型进行预测的方法;
图3为本说明书一个或多个实施例提供的一种机器学习模型系统。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
嵌入(embedding)是特征工程中常用的一种数据转换方法,可以用于将大型稀疏矢量映射到一个保留语义关系的低维空间。嵌入的实现是通过训练嵌入模型,并通过该嵌入模型进行嵌入查询,可以将机器学习模型的输入张量(如,稀疏张量)作为索引查询嵌入模型,从而将原始的高维张量映射到低维空间。
以输入张量是one-hot encoding方法表示为例,One-hot encoding方法将每个类别表示成一个很长的向量,这个向量的维度是类型的总个数,其中绝大多数元素为0,只有一个维度的值为1,这个维度就代表了当前的类型。这种情况下,如果采用one-hotencoding,生成的特征维度往往非常大。例如,在自然语言领域,one-hot encoding可以把每个词表示为一个很长的向量。对于这样的高维向量,人工智能领域一种比较流行的方法就是将这些特征连接到嵌入(embedding)层,从而映射到低维空间,达到特征提取的目的。
由上述可以看到,嵌入与机器学习模型的关系是,嵌入可以用于对机器学习模型的输入张量进行高维空间向低维空间的转换操作,并将转换后的结果再输入进机器学习模型。通过嵌入的高维空间向低维空间的转换,使得在大型输入(典型的是高维度稀疏张量)上的机器学习变得更加容易。同时,为一个机器学习模型学习到的嵌入模型,也可以被其他机器学习模型复用;嵌入模型可以单独训练,也可以作为机器学习模型的一部分进行学习。例如,该嵌入模型可以是训练得到的嵌入表。
本说明书至少一个实施例提供了一种机器学习模型系统,如图1所示,该系统可以包括:嵌入运行环境11和模型运行环境12。其中,嵌入运行环境11中部署了嵌入模型,具体可以是部署有嵌入表。模型运行环境12中可以部署机器学习模型,例如可以部署深度神经网络模型。
其中,上述的嵌入运行环境11或者模型运行环境12可以是物理执行单元,或者也可以是虚拟执行单元。例如,物理执行单元可以是服务器等物理设备,虚拟执行单元可以是虚拟化容器等。可以将嵌入模型部署在嵌入运行环境11,嵌入运行环境11还可以执行嵌入查找和处理等;可以将机器学习模型部署在模型运行环境12,以由模型运行环境12运行该模型进行预测。
图1所示的机器学习模型系统是一种将嵌入和机器学习模型进行分离部署的系统,例如,上述的嵌入运行环境11和模型运行环境12可以是虚拟化容器,具体的,可以运行有容器实例,例如,可以使用docker作为容器。还可以采用VMware虚拟机,AmazonFirecracker等作为虚拟执行单元。
在分离部署的系统架构中,输入张量可以是输入到模型运行环境12,再由模型运行环境12向嵌入运行环境11发送查表请求。嵌入运行环境11可以进行嵌入查找,例如,以输入张量为索引查询嵌入运行环境11中部署的嵌入表,将高维张量映射到低维空间,并将查表结果返回给模型运行环境12。模型运行环境12可以根据查表结果继续运行模型。
为了实现模型运行环境12和嵌入运行环境11之间的通信交互,两者之间可以进行网络互连,以实现上述的查表请求的发送,或者查表结果的反馈。例如,当嵌入运行环境11和模型运行环境12是虚拟化容器进行物理部署时,模型运行环境12以及其所需查表的嵌入运行环境11可以部署在同一个物理节点上,或者也可以部署在不同的物理节点上。当两者位于同一物理节点时,模型运行环境12发送查表请求时可以是本地发送。当两者位于不同的物理节点时,模型运行环境12发送查表请求可以是远程发送。
图2是本说明书至少一个实施例提供的基于模型进行预测的方法的流程,该方法基于图1所示部署的机器学习模型系统,当机器学习模型系统按照图1所示部署后,可以执行该基于模型进行预测的方法,将模型应用于预测。本例子以模型运行环境和嵌入运行环境是虚拟化容器为例进行说明,此时模型运行环境可以称为网络虚拟执行单元,嵌入运行环境可以称为嵌入虚拟执行单元。并且,在下面的描述中,嵌入模型以嵌入表为例进行说明。
如图2所示,该方法可以包括:
在步骤200中,网络虚拟执行单元接收所述机器学习模型的输入张量。
例如,机器学习模型的输入张量可以被网络虚拟执行单元接收,该输入张量可以是一个高维张量,需要进行低维转换处理。
在步骤202中,网络虚拟执行单元向嵌入虚拟执行单元发送查表请求,所述查表请求中携带所述输入张量,以请求对所述输入张量进行低维转换。
例如,网络虚拟执行单元可以向嵌入虚拟执行单元发送查表请求,并将步骤200中接收到的输入张量发送给嵌入虚拟执行单元,请求对该输入张量进行低维转换处理。
在步骤204中,嵌入虚拟执行单元根据所述输入张量进行嵌入表查询和处理,得到查表结果。
例如,假设输入张量是v=(0,0,0,1,1)。
嵌入虚拟执行单元存储的嵌入表(Embedding表)可以如下:
表1 Emb表
索引 向量
0 (1,2,3,4)
1 (5,6,7,8)
2 (9,10,11,12)
3 (13,14,15,16)
4 (17,18,19,20)
根据输入张量v查找嵌入表Emb,可以得到两个向量:
V1=(13,14,15,16);
V2=(17,18,19,20);
然后,嵌入虚拟执行单元可以再对上述两个向量V1和V2进行求和或者平均等处理。例如,V1+V2,或者(V1+V2)/2。
嵌入虚拟执行单元执行上述的求和或者平均的处理后,将求和结果或者平均结果作为查找结果返回给网络虚拟执行单元。上述例子中,是以求和或平均为例进行处理,还可以执行其他处理;并且,由嵌入虚拟执行单元执行上述求和或平均等处理,再返回给网络虚拟执行单元,可以减少带宽需求。
在步骤206中,嵌入虚拟执行单元将查表结果返回给网络虚拟执行单元。
在步骤208中,网络虚拟执行单元将所述查表结果输入机器学习模型,并运行所述机器学习模型完成基于模型进行预测。
例如,网络虚拟执行单元在接收到查表结果后,可以将该查表结果作为机器学习模型的输入,并继续运行机器学习模型完成基于模型进行预测。
本例子的基于模型进行预测的方法,由于将模型与嵌入进行了分离部署,当单台机器的内存不足够时,可以使用分离的其他内存存储模型或嵌入,从而降低了模型运行和维护成本;并且,这种分离部署结构,可以使得网络虚拟执行单元的计算资源充分的用于模型运行预测,充分发挥底层硬件资源的计算能力。
此外,机器学习模型系统中可以包括至少一个嵌入虚拟执行单元、以及至少一个所述网络虚拟执行单元。每个嵌入虚拟执行单元运行一个嵌入模型,每个网络虚拟执行单元运行一个机器学习模型。
请参见图3,图3以虚拟执行单元是容器为例,嵌入虚拟执行单元是嵌入容器,网络虚拟执行单元是网络容器,并且以网络容器中运行部署有深度神经网络为例,那么网络容器可以称为深度网络容器。
图3所示的机器学习模型系统中包括多个深度网络容器和多个嵌入容器,例如,嵌入容器31、嵌入容器32等,还包括深度网络容器33、深度网络容器34和深度网络容器35等。其中,可以将同一个嵌入模型的多个拷贝部署在多个容器中,以可扩展性的支持大量并发的查询访问,比如,嵌入容器32中部署的嵌入模型可以是嵌入容器31中部署的嵌入模型的拷贝。
嵌入容器和深度网络容器可以运行在同一台物理机器上,也可以广义上分布在集群的任何角落。不同的网络虚拟执行单元可以配置不同的硬件资源,该硬件资源可以适应所述网络虚拟执行单元上机器学习模型的运行需求。例如,所述硬件资源可以包括如下至少一项:中央处理器CPU,或者硬件加速器。其中的硬件加速器可以包括但不限于:图形处理器GPU(Graphics Processing Unit),或者现场可编程门阵列FPGA(Field-ProgrammableGate Array),或者为专门目的而设计的集成电路ASIC(Application SpecificIntegrated Circuit)芯片。
可以根据深度神经网络的计算复杂度,业务延迟要求等各种约束分配计算资源,尽量充分利用底层硬件的计算能力。比如,在延迟要求苛刻的业务场景中,可以部署GPU,FPGA或者AI芯片等硬件加速器到深度神经网络容器中,以替代多个CPU核,在规定时间内完成相对比较复杂的深度网络模型推理。而对于计算复杂度较低的深度神经网络模型,单个CPU核或许就可以满足要求。在这种情况下,对应的一个深度网络容器只需要配置一个CPU核就够用了。
在图3所示的系统中,嵌入模型被部署在一个具有足够内存的嵌入容器中,可以通过本地或者远程连接向其他需要嵌入表查询的容器提供服务。例如,深度网络容器负责运行深度神经网络进行模型推理,例如,深度网络容器33向嵌入容器31发送查表请求是本地发送,深度网络容器33和嵌入容器31位于同一节点。深度网络容器收到用户的输入张量后(可能是密集的,也可能是稀疏的),向嵌入容器发出查表请求,将收到的查表结果输入到深度神经网络中完成模型推理预测。
此外,本说明书至少一个实施例中的机器学习模型,包括但不限于:深度神经网络模型,例如Wide&Deep模型和DeepFM模型。其中,深度神经网络模型可以是在一个输入层和一个输出层之间添加至少一个隐藏层的机器学习神经网络。
上述实施例阐明的装置或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述图中所示流程中的各个步骤,其执行顺序不限制于流程图中的顺序。此外,各个步骤的描述,可以实现为软件、硬件或者其结合的形式,例如,本领域技术人员可以将其实现为软件代码的形式,可以为能够实现所述步骤对应的逻辑功能的计算机可执行指令。当其以软件的方式实现时,所述的可执行指令可以存储在存储器中,并被设备中的处理器执行。
例如,对应于上述方法,本说明书一个或多个实施例同时提供一种基于模型进行预测设备,所述设备包括存储器、处理器,以及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行指令时以实现嵌入运行环境和模型运行环境,所述嵌入运行环境用于运行嵌入,所述模型运行环境用于运行机器学习模型;所述处理器执行指令用于实现以下步骤:
所述模型运行环境接收所述机器学习模型的输入张量;
所述模型运行环境向嵌入运行环境发送查表请求,所述查表请求中携带所述输入张量,以请求对所述输入张量进行低维转换;
所述模型运行环境接收嵌入运行环境返回的查表结果,所述查表结果由所述嵌入运行环境根据所述输入张量进行嵌入查询和处理得到;
所述模型运行环境将所述查表结果输入机器学习模型,并运行所述机器学习模型完成基于模型进行预测。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于数据处理设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

Claims (11)

1.一种基于模型进行预测的方法,所述方法由机器学习模型系统执行,所述系统包括:机器学习模型、以及用于对机器学习模型的输入张量进行转换的嵌入模型;所述嵌入模型和机器学习模型分开部署,所述嵌入模型部署在嵌入运行环境,所述机器学习模型部署在模型运行环境中;
所述方法包括:
所述模型运行环境接收所述机器学习模型的输入张量;
所述模型运行环境向嵌入运行环境发送查表请求,所述查表请求中携带所述输入张量,以请求对所述输入张量进行低维转换;
所述模型运行环境接收嵌入运行环境返回的查表结果,所述查表结果由所述嵌入运行环境根据所述输入张量进行嵌入查询和处理得到;
所述模型运行环境将所述查表结果输入机器学习模型,并运行所述机器学习模型完成基于模型进行预测。
2.根据权利要求1所述的方法,
所述嵌入运行环境是物理执行单元或者虚拟执行单元。
3.根据权利要求1所述的方法,所述机器学习模型系统中包括:至少一个嵌入运行环境、以及至少一个所述模型运行环境;每个嵌入运行环境运行一个嵌入模型,每个模型运行环境运行一个机器学习模型;
所述模型运行环境向嵌入运行环境发送查表请求,包括:
所述模型运行环境向本地的嵌入运行环境发送查表请求,所述嵌入运行环境与模型运行环境位于同一个物理节点上;
或者,所述模型运行环境向远程的嵌入运行环境发送查表请求,所述嵌入运行环境与模型运行环境位于不同的物理节点上。
4.根据权利要求3所述的方法,不同的模型运行环境配置不同的硬件资源,所述硬件资源适应所述模型运行环境上机器学习模型的运行需求。
5.根据权利要求4所述的方法,所述硬件资源包括如下至少一项:
中央处理器CPU,或者硬件加速器;
所述硬件加速器包括如下任一项:图形处理器GPU,或者现场可编程门阵列FPGA,或者为专门目的而设计的集成电路ASIC芯片。
6.根据权利要求1所述的方法,所述机器学习模型,包括如下任一项:
深度神经网络模型,或者Wide&Deep模型,或者DeepFM模型。
7.一种机器学习模型系统,所述系统包括:嵌入运行环境和模型运行环境,所述嵌入运行环境中部署嵌入模型,所述模型运行环境中部署机器学习模型;
所述模型运行环境,用于接收所述机器学习模型的输入张量;并用于向嵌入运行环境发送查表请求,所述查表请求中携带所述输入张量,以请求对所述输入张量进行低维转换;还用于将所述查表结果输入机器学习模型,并运行所述机器学习模型完成基于模型进行预测;
所述嵌入运行环境,用于根据查表请求,对所述输入张量进行嵌入查询和处理得到查表结果,并将所述查表结果反馈给所述模型运行环境。
8.根据权利要求7所述的系统,
所述嵌入运行环境和模型运行环境,是物理执行单元或者虚拟执行单元。
9.根据权利要求7所述的系统,
所述机器学习模型系统中包括:至少一个嵌入运行环境、以及至少一个所述模型运行环境;每个嵌入运行环境运行至少一个嵌入模型,每个模型运行环境运行至少一个机器学习模型。
10.根据权利要求7所述的系统,
不同的模型运行环境配置不同的硬件资源,所述硬件资源适应所述模型运行环境上机器学习模型的运行需求。
11.一种基于模型进行预测的设备,所述设备包括存储器、处理器,以及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行指令时以实现嵌入运行环境和模型运行环境,所述嵌入运行环境用于运行嵌入模型,所述模型运行环境用于运行机器学习模型;所述处理器执行指令用于实现以下步骤:
所述模型运行环境接收所述机器学习模型的输入张量;
所述模型运行环境向嵌入运行环境发送查表请求,所述查表请求中携带所述输入张量,以请求对所述输入张量进行低维转换;
所述模型运行环境接收嵌入运行环境返回的查表结果,所述查表结果由所述嵌入运行环境根据所述输入张量进行嵌入查询和处理得到;
所述模型运行环境将所述查表结果输入机器学习模型,并运行所述机器学习模型完成基于模型进行预测。
CN201811522364.0A 2018-12-13 2018-12-13 一种基于模型进行预测的方法和装置 Active CN110033091B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201811522364.0A CN110033091B (zh) 2018-12-13 2018-12-13 一种基于模型进行预测的方法和装置
TW108134608A TWI693563B (zh) 2018-12-13 2019-09-25 基於模型進行預測的方法和裝置
EP19895453.9A EP3816877A4 (en) 2018-12-13 2019-10-24 MODEL-BASED PREDICTION METHOD AND DEVICE
PCT/CN2019/112895 WO2020119268A1 (zh) 2018-12-13 2019-10-24 一种基于模型进行预测的方法和装置
SG11202100954UA SG11202100954UA (en) 2018-12-13 2019-10-24 Model-based prediction method and apparatus
US17/165,509 US11803752B2 (en) 2018-12-13 2021-02-02 Separate deployment of machine learning model and associated embedding

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811522364.0A CN110033091B (zh) 2018-12-13 2018-12-13 一种基于模型进行预测的方法和装置

Publications (2)

Publication Number Publication Date
CN110033091A true CN110033091A (zh) 2019-07-19
CN110033091B CN110033091B (zh) 2020-09-01

Family

ID=67235337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811522364.0A Active CN110033091B (zh) 2018-12-13 2018-12-13 一种基于模型进行预测的方法和装置

Country Status (6)

Country Link
US (1) US11803752B2 (zh)
EP (1) EP3816877A4 (zh)
CN (1) CN110033091B (zh)
SG (1) SG11202100954UA (zh)
TW (1) TWI693563B (zh)
WO (1) WO2020119268A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111158790A (zh) * 2019-12-31 2020-05-15 清华大学 面向云端深度学习推理的fpga虚拟化方法
CN111178517A (zh) * 2020-01-20 2020-05-19 上海依图网络科技有限公司 模型部署方法、系统、芯片、电子设备及介质
WO2020119268A1 (zh) * 2018-12-13 2020-06-18 阿里巴巴集团控股有限公司 一种基于模型进行预测的方法和装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102020211250A1 (de) * 2020-09-08 2022-03-10 Zf Friedrichshafen Ag Computerimplementiertes Verfahren, eingebettetes System und Computerprogramm zum Ausführen einer Regelungs- und/oder Steuerungsvorschrift
US20220165291A1 (en) * 2020-11-20 2022-05-26 Samsung Electronics Co., Ltd. Electronic apparatus, control method thereof and electronic system
CN115577760B (zh) * 2021-07-14 2023-06-02 华为技术有限公司 一种数据处理方法、系统及相关设备
TWI818501B (zh) * 2022-04-07 2023-10-11 創鑫智慧股份有限公司 嵌入表產生方法與嵌入表濃縮方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040236806A1 (en) * 2002-06-24 2004-11-25 Turner James D. Method, apparatus and articles of manufacture for computing the sensitivity partial derivatives of linked mechanical systems
CN107330032A (zh) * 2017-06-26 2017-11-07 北京理工大学 一种基于递归神经网络的隐式篇章关系分析方法
CN107423817A (zh) * 2017-04-17 2017-12-01 星环信息科技(上海)有限公司 一种深度学习实现的方法及设备
CN107944027A (zh) * 2017-12-12 2018-04-20 苏州思必驰信息科技有限公司 创建语义键索引的方法及系统
CN108153853A (zh) * 2017-12-22 2018-06-12 齐鲁工业大学 基于Wikipedia链接结构的中文概念向量生成方法和装置
US20180197068A1 (en) * 2016-10-27 2018-07-12 Google Llc Neural network instruction set architecture
CN108492273A (zh) * 2018-03-28 2018-09-04 深圳市唯特视科技有限公司 一种基于自注意力模型的图像生成方法
CN108805795A (zh) * 2017-05-05 2018-11-13 英特尔公司 用于机器学习的硬件实现的点对点通信原语
CN108885571A (zh) * 2016-04-05 2018-11-23 谷歌有限责任公司 分批处理机器学习模型的输入

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8837727B2 (en) * 2011-11-08 2014-09-16 Mitsubishi Electric Research Laboratories, Inc. Method for privacy preserving hashing of signals with binary embeddings
US9141916B1 (en) * 2012-06-29 2015-09-22 Google Inc. Using embedding functions with a deep network
US9147154B2 (en) * 2013-03-13 2015-09-29 Google Inc. Classifying resources using a deep network
EP3259688A4 (en) * 2015-02-19 2018-12-12 Digital Reasoning Systems, Inc. Systems and methods for neural language modeling
US9984062B1 (en) * 2015-07-10 2018-05-29 Google Llc Generating author vectors
US10395118B2 (en) * 2015-10-29 2019-08-27 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
US10664766B2 (en) * 2016-01-27 2020-05-26 Bonsai AI, Inc. Graphical user interface to an artificial intelligence engine utilized to generate one or more trained artificial intelligence models
CN109313719B (zh) * 2016-03-18 2022-03-22 谷歌有限责任公司 使用神经网络生成文本段的依存性解析
KR102155261B1 (ko) * 2016-04-13 2020-09-11 구글 엘엘씨 광역 및 심층 기계 학습 모델들
CN106127297B (zh) * 2016-06-02 2019-07-12 中国科学院自动化研究所 基于张量分解的深度卷积神经网络的加速与压缩方法
US10055692B1 (en) * 2017-02-21 2018-08-21 Google Llc Parallel processing of reduction and broadcast operations on large datasets of non-scalar data
US10896367B2 (en) * 2017-03-07 2021-01-19 Google Llc Depth concatenation using a matrix computation unit
US10261786B2 (en) * 2017-03-09 2019-04-16 Google Llc Vector processing unit
US11640617B2 (en) * 2017-03-21 2023-05-02 Adobe Inc. Metric forecasting employing a similarity determination in a digital medium environment
US10943171B2 (en) * 2017-09-01 2021-03-09 Facebook, Inc. Sparse neural network training optimization
CN107563442B (zh) * 2017-09-02 2019-12-10 西安电子科技大学 基于稀疏低秩正则图张量化嵌入的高光谱图像分类方法
CN110033091B (zh) * 2018-12-13 2020-09-01 阿里巴巴集团控股有限公司 一种基于模型进行预测的方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040236806A1 (en) * 2002-06-24 2004-11-25 Turner James D. Method, apparatus and articles of manufacture for computing the sensitivity partial derivatives of linked mechanical systems
CN108885571A (zh) * 2016-04-05 2018-11-23 谷歌有限责任公司 分批处理机器学习模型的输入
US20180197068A1 (en) * 2016-10-27 2018-07-12 Google Llc Neural network instruction set architecture
CN107423817A (zh) * 2017-04-17 2017-12-01 星环信息科技(上海)有限公司 一种深度学习实现的方法及设备
CN108805795A (zh) * 2017-05-05 2018-11-13 英特尔公司 用于机器学习的硬件实现的点对点通信原语
CN107330032A (zh) * 2017-06-26 2017-11-07 北京理工大学 一种基于递归神经网络的隐式篇章关系分析方法
CN107944027A (zh) * 2017-12-12 2018-04-20 苏州思必驰信息科技有限公司 创建语义键索引的方法及系统
CN108153853A (zh) * 2017-12-22 2018-06-12 齐鲁工业大学 基于Wikipedia链接结构的中文概念向量生成方法和装置
CN108492273A (zh) * 2018-03-28 2018-09-04 深圳市唯特视科技有限公司 一种基于自注意力模型的图像生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHANG LIU,JILIU ZHOU,KUN HE等: "Supervised Locally Linear Embedding in Tensor Space", 《2009 THIRD INTERNATIONAL SYMPOSIUM ON INTELLIGENT INFORMATION TECHNOLOGY APPLICATION》 *
章敏敏,徐和平,王晓洁等: "谷歌TensorFlow机器学习框架及应用", 《微型机与应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020119268A1 (zh) * 2018-12-13 2020-06-18 阿里巴巴集团控股有限公司 一种基于模型进行预测的方法和装置
US11803752B2 (en) 2018-12-13 2023-10-31 Advanced New Technologies Co., Ltd. Separate deployment of machine learning model and associated embedding
CN111158790A (zh) * 2019-12-31 2020-05-15 清华大学 面向云端深度学习推理的fpga虚拟化方法
CN111178517A (zh) * 2020-01-20 2020-05-19 上海依图网络科技有限公司 模型部署方法、系统、芯片、电子设备及介质
CN111178517B (zh) * 2020-01-20 2023-12-05 上海依图网络科技有限公司 模型部署方法、系统、芯片、电子设备及介质

Also Published As

Publication number Publication date
WO2020119268A1 (zh) 2020-06-18
TW202022719A (zh) 2020-06-16
EP3816877A1 (en) 2021-05-05
CN110033091B (zh) 2020-09-01
US11803752B2 (en) 2023-10-31
EP3816877A4 (en) 2021-10-27
TWI693563B (zh) 2020-05-11
SG11202100954UA (en) 2021-02-25
US20210158165A1 (en) 2021-05-27

Similar Documents

Publication Publication Date Title
CN110033091A (zh) 一种基于模型进行预测的方法和装置
EP4036724A1 (en) Method for splitting neural network model by using multi-core processor, and related product
US20190286972A1 (en) Hardware accelerated neural network subgraphs
Karloff et al. A model of computation for MapReduce
KR102319172B1 (ko) 클라우드 컴퓨팅 기반의 플랫폼 제공 시스템 및 이를 이용한 플랫폼 제공 방법
Galluppi et al. A hierachical configuration system for a massively parallel neural hardware platform
JP2022046557A (ja) 多目的の並列処理アーキテクチャ
Han et al. Signal processing and networking for big data applications
Ma et al. BaGuaLu: targeting brain scale pretrained models with over 37 million cores
Khezr et al. MapReduce and its application in optimization algorithms: a comprehensive study
CN111860807B (zh) 分形计算装置、方法、集成电路及板卡
Blythe et al. Farm: Architecture for distributed agent-based social simulations
Vidal et al. Solving optimization problems using a hybrid systolic search on GPU plus CPU
KR102002732B1 (ko) 앙상블 모델을 이용한 심층 신경망 기반 데이터 처리 방법 및 장치
Tan et al. A genetic programming hyper-heuristic approach for online resource allocation in container-based clouds
US11409564B2 (en) Resource allocation for tuning hyperparameters of large-scale deep learning workloads
JP7220007B2 (ja) 並列性及びオンチップ・メモリを介した時間、空間及びエネルギー効率のよいニューラル推論
Plotnikova et al. Gravitation search training algorithm for asynchronous distributed multilayer perceptron model
He et al. Performance of Distributed Deep Learning Workloads on a Composable Cyberinfrastructure
Alshayeji et al. Spark‐based parallel processing whale optimization algorithm
Jian et al. Research on modeling and simulation of distributed supply chain based on HAS
Golubeva et al. A tool for simulating parallel branch-and-bound methods
Chazapis et al. EVOLVE: HPC and cloud enhanced testbed for extracting value from large-scale diverse data
Viviani Deep Learning at Scale with Nearest Neighbours Communications
Lee et al. An Optimal Network-Aware Scheduling Technique for Distributed Deep Learning in Distributed HPC Platforms. Electronics 2023, 12, 3021

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20201013

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201013

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.

TR01 Transfer of patent right