CN110490334A

CN110490334A - 一种低延迟的机器学习即服务的生成方法

Info

Publication number: CN110490334A
Application number: CN201910796537.6A
Authority: CN
Inventors: 李攀登
Original assignee: Shanghai Bingsheng Technology Co Ltd
Current assignee: Shanghai Bingsheng Technology Co Ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2019-11-22

Abstract

本发明公开了一种低延迟的机器学习即服务的生成方法，模型抽象层提供了一个通用的API，可以抽象出现有机器学习框架和模型的异构性；模型参数寻优层位于模型抽象层的上方，负责动态选择、组合和优化预测模型的参数；模型管理层通过模型存储层的信息对模型进行管理，以实现应用端可以动态并无感知的情况下获取最优的预测服务；事件服务层，这层负责与应用端交互，并存储应用端用户请求的信息，反馈给模型层，以实现动态自动优化模型参数；模型监测层负责对上线模型服务的调用监测，以及时发现调用过程中出现的问题，提高模型运维的透明性。降低现有预测服务栈的复杂性，并实现预测服务的低延迟、高吞吐量、模型准确性等关键属性。

Description

一种低延迟的机器学习即服务的生成方法

技术领域

本发明涉及远程通信与机器学习方法的应用领域，特别涉及一种低延迟的机器学习即服务的生成方法。

背景技术

随着社会信息化、移动互联网的日益普及、大数据的积累、算力的的日益成熟以及公众媒体对 AlphaGo 的大量热点舆论事件，人工智能正在进行破冰之旅，全球对人工智能的态度也由怀疑、恐惧转变为好奇和主动拥抱。目前国内外各种类型的企业正在或准备进行人工智能的转型或应用尝试，实际上，出现在媒体上人工智能多是概念，而落到实处，多会具体化到机器学习、深层神经网络、自然语言处理、计算机视觉、语音识别等具体的方法上，这些方法或算法与数据、硬件、场景结合才最终产生智能的效果。过去几年，先由互联网行业兴起各种机器学习、深度学习的应用激增，常见包括但不限于推荐系统、语音助手和广告投放等，这些场景抽象起来都依赖两个阶段：训练和推论，其中，训练是从数据中建立模型的过程，推理是依据这些训练好的模型对给定的用户请求做出预测响应的过程。再具体点，我们需要算法工程师依据具体的场景设计相应的机器学习算法，对场景产生的数据进行数据清洗、选择合适的算法进行建模，最后把模型部署到相应的场景系统，完成场景的智能升级。训练过程通常对大量数据集进行建模计算，极为耗时，一个复杂模型可能需要小时级甚至天级的时间，相反，推理过程必须是实时响应，比如一个用户来访问媒体，对应的广告投放响应需要是毫秒级的，通常比训练期间会有更多的并发请求，且通常是面向用户的应用程序的一部分，而且随着应用场景的不断丰富，越来越多的机器学习需要被部署到各种应用场景中，这些应用场景、程序对机器学习要求均是实时、精确、可靠的预测且会被大量查询调用，而目前工业界和学术界实际的情况是大多数机器学习框架和系统只涉及模型的训练而不是部署，而有些知名机器学习框架提供相应服务接口，如 tensorflowserving，但这些接口系统都只识别自己的框架，目前互联网企业常见的方法多为直接在应用系统部署机器学习框架或序列化模型参数进行部署，这样极大限制了机器学习的应用效率和灵活性，也造成模型不好管理。

训练和推理阶段开发服务的挑战是不同的，在训练阶段，开发人员可能会从多种多样不同的机器学习 API、模型、算法甚至特定硬件要求的机器学习框架进行选择，随着新的更先进技术的发展，他们往往需要在模型和框架间进行迁移和移植。一旦模型训练完毕，模型必须部署到预测服务系统，以提供低延迟预测服务，与精密的基础设施、理论和系统支持的模型开发不同，模型部署和预测服务受到的关注较少，开发人员必须将各种系统组件中的必要组件拼凑到一起，进行工程化开发以适配应用程序，并且必须在多个不断发展的框架中集成和更新优化模型，同时应对和响应日益增长的可扩展性应用需求。因此，机器学习服务的部署、模型优化和维护管理起来相当困难且容易出错，另外，还有一个弊端是，为了完成一个机器学习应用，通常需要算法工程师、开发工程师以及运维工程师三个团队的人通力合作才能实现模型的开发到部署，这对人力和效率都是极大的浪费，并且三个团队的人知识储备也各不相同，沟通成本也很高，对项目的推进和管理也造成困难。

发明内容

针对现有技术中的上述不足，本发明提供了一种低延迟的机器学习即服务的生成方法，降低现有预测服务栈的复杂性，并实现预测服务的低延迟、高吞吐量、模型准确性等关键属性。

为了达到上述发明目的，本发明采用的技术方案为：

一种低延迟的机器学习即服务的生成方法，包括：模型抽象层、模型参数寻优层、模型存储层、模型管理层、事件服务层、模型监测层；

模型抽象层提供了一个通用的 API，可以抽象出现有机器学习框架和模型的异构性，这一层模型可以被修改或直接交给应用程序；

模型参数寻优层位于模型抽象层的上方，负责动态选择、组合和优化预测模型的参数，以提供比原始模型更准确和可靠的预测，这一层产生的模型参数或模型文件会上传到模型存储层，并通过主节点分发给每个工作节点，告知工作节点新模型的名称、参数实体以及版本号；

模型管理层通过模型存储层的信息对模型进行管理，以实现应用端可以动态并无感知的情况下获取最优的预测服务；

事件服务层，这层负责与应用端交互，并存储应用端用户请求的信息，反馈给模型层，以实现动态自动优化模型参数；

模型监测层负责对上线模型服务的调用监测，以及时发现调用过程中出现的问题，提高模型运维的透明性。

优选地，为了实现通用，在模型抽象层，对各大机器学习框架进行异构，提供跨机器学习框架的通用接口，这一层由一个预测缓存、一个自适应查询批处理组建和一组通过RPC 协议连接到机器学习框架的服务组成，这种模块化的体系使得缓存和批处理机制能够跨框架共享，且由 RPC 的特性，还能实现跨语言共享，比如采用的机器学习框架底层的处理由高性能的 C++实现，而抽象层通过 RPC 转换，在其他层的使用可以转换为其他开发高效的语言来进行，同时还可以扩展到其他框架，以简化新框架的添加，实现模型抽象。

优选地，为了实现低延迟和高吞吐量的预测，在模型抽象层和模型存储层中，基于每个模型缓存进行预测，并在给定查询延迟目标的情况下实现自适应批处理以最大化吞吐量和并发；对于许多互联网应用程序，比如推荐系统，通常需要对热门产品或内容的推荐，通过维护预测和参数缓存，可以在不改变模型的情况下提供频繁查询服务，消除额外的模型加载成本，大大降低延迟和系统的负载；模型缓存要自适应选择最有参数，在用户请求预测服务的时候，反馈很可能会预测呈现后很快返回，比如 DSP 广告投放后用户是否点击或下载会很快在应用端得到反馈，运用模型缓存层和事件服务层，及时将事件服务层获取的用户反馈以及其特征信息，来调整缓存层的模型选择策略。

优选地，在模型存储层除了处理模型参数的存储、预测缓存之外，还负责批处理的功能，批处理组建将受到的预测查询流转换成批次组，批次组与机器学习框架所涉及的工作量更接近，同时分摊 RPC 和系统开销，目的也是提高吞吐量和硬件资源的利用率，这类请求需要信息阻塞以给批处理完成所有查询的预测一定的时间。

优选地，为了进一步提高预测服务的准确性和鲁棒性，模型参数自适应寻优层，根据应用端反馈动态适配已部署的模型，并将预测输出进行组合，当总体准确率低于给定阈值时触发模型框架进行全量模型的更新，通过允许同时部署多个候选模型并依赖用户的实时反馈来动态自适应确定最优模型或模型集成，简化新模型的部署流程，另外通过应用端的整个生命周期内不断学习反馈，自动补偿失败模型造成的预测误差，整个过程无需人工干预，这一层用来提高应用程序的准确性和预测可信度及鲁棒性。

优选地，模型管理层将应用程序与机器学习框架隔离，对新模型或框架部署到正在运行的应用过程采取热插件部署，即不影响正在运行的服务的情况下，对模型进行更新或新增模型。

优选地，设立事件服务层，负责动态收集用户反馈数据，并动态传送给模型参数寻优层对已部署模型进行局部调优，当局部最优不满足实际需求时再通知机器学习框架进行大面积的模型更新。

优选地，通过模型监测层对上线后的模型服务进行实时的监测，及时反馈调用过程出现的问题，并收集用户请求数据并发送给事件服务层进行处理和存储。

本发明的有益效果为：

1、通过机器学习框架、模型部署及应用程序的隔离，可以极大降低模型的使用门槛，将传统由算法工程师、开发工程师以及运维工程师合力做的事情简化为算法工程师一类角色来完成，这对企业人员成本也是极大的降低，并且释放出开发和运维的时间来完成其他的业务。同时降低人员储备欠缺造成的技术壁垒以及不同知识背景人员合作的沟通成本。

2、本发明对系统配置要求不高，属于轻量级应用，同时具备可扩展性强，适配任意的机器学习框架，并具备自动化和自适应的特征，在模型参数的寻优采用线上动态局部选择调优，准确率和效率以及资源节方面远远优于传统的离线方式，模型管理机制使得应用增多时的模型运维效率大大提高。

3、本发明允许多个机器学习框架和多个候选模型在同一个预测服务框架下共享，进一步提高模型的使用效率，任何机器学习算法工程师可以选择其更熟悉的机器学习框架进行建模并部署，而不是像传统的使用方式需要将机器学习框架训练出来的模型进行序列化并使用应用程序对应的语言进行重构或解析。

附图说明

图1为本发明实施方式涉及的预测服务系统的架构图；

图2为本发明实施方式涉及的自动服务框架执行的流程图；

图3为本发明实施方式涉及的参数寻优和模型更新的流程图。

具体实施方式

下面结合附图来进一步说明本发明的具体实施方式。其中相同的零部件用相同的附图标记表示。

需要说明的是，下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向，词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。

为了使本发明的内容更容易被清楚地理解，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

如图 1 所示，上述低延迟机器学习即服务通用生成系统首先包括通用机器学习架构层 1，模型参数寻优层2，其中上述参数寻优层 2 包括参数选择算法模块 21 和参数更新策略模块 22，上述模型抽象层 3 包括异构识别模块 31、注册模块 32 和加载模块33，上述模型存储层 4 包括预测缓存模块 41、模型参数存储模块 42、批处理模块 43 和通信模块 44，上述事件服务层 5 包括事件收集模块 51 和事件存储模块 52，上述模型管理层 6 包括模型版本管理模块 61、模型信息注册模块 62 和消息通知模块63，上述模型检测层主要 7 主要包括调用信息监测和存储。

上述图 1 显示的 5 层架构主要通过图 2 描述的关系进行驱动，驱动关系主要分为三个部分，具体地，具体地，如图 2 所示，s101-s106 为用户请求与预测处理部分，s107-108 以及 s112 为模型部署和更新部分，s109-s111 为参数自适应寻优部分。下文分部分具体说明：

（1）用户请求与预测处理部分，如 s101 所示，当用户访问对应的应用程序时，应用程序指的是直接面向用户的应用，比如手机端的 app，上述装置中首先会触发事件服务层，即s102 所示，具体地，如图 1 所示，事件服务层的事件收集模块 51 会将用户的请求信息反馈给参数寻优层 2，通过 s108 描述的反馈用户行为动作，并同时将信息发送给模型管理层（s103所示）索取预测结果以及事件存储模块 52 进行存储，模型管理层通过消息通知模块 63 继续将用户信息分发给模型存储层（s104 所示），这一层首先会判断用户请求的类型，首先会从模型缓存模块 41 中获取预测信息，如果请求是批量过来的，则会触发批处理模块 43，系统将信息反馈给应用程序时，同时会将用户请求信息与调用的事件同步给模型监测层进行存储和展示，即 s103 所描述。

（2）模型部署和更新部分，具体地，如 s107 所示，模型抽象层首先通过异构识别模块 31 对现有模型所用机器学习框架进行识别和判断，触发对应的加载模块 33 将训练好的模型或更新的模型加载至服务框架，同时触发注册模块 32，将模型信息注册给模型管理层 6 进行管理，模型管理层对应的模型信息注册模块 62 被启动以接收来自模型抽象层的注册信息。上述细节为模型部署功能，而模型更新功能是动态的，这个环节与用户请求与预测处理部分存在交叉，具体地，模型寻优层 2 在动态调整模型选择参数时会通过参数更新模块 22 判断当前已有模型选出的最优模型结果是否连续 k 个用户的准确率低于预设的 c 时（k、c 均为使用者依据实际情况定义）触发机器学习框架层 1 进行模型的批量更新，并在模型抽象层进行部署。

（3）参数自适应寻优部分，具体地，模型参数寻优层 2 通过从事件服务层5 接收到的用户行为触发参数选择算法模块 21 和参数更新策略模块 22，实现最优模型的选择，并将当前的模型备选概率参数同步至模型存储层进行动态更新（s110-s111-s106 所示）。

在上述用户请求与预测处理部分，具体实施如下：

（1）事件服务层 5 主要采集用户对事件的响应信息（比如点击或购买等）、和特征信息（比如用户的手机型号、IP 地址之类）以及预测反馈的信息（如预测的点击概率）、服务响应信息（响应时间、post 或 get 等调用类型）等三类数据信息，三类不同信息会在整个流程中发挥不同的作用，响应信息和特征信息会同步给模型参数寻优层 2，供模型的动态调整使用，预测反馈信息是核心功能，这块信息主要是反馈给应用程序做业务决策使用，比如应用程序根据预测反馈信息给用户推送响应概率更高的广告或产品，服务响应信息主要同步给模型监测层 7，用于服务的运维管理和系统优化等。数据的收集动作由事件服务层 7 的事件收集模块来实现，事件收集模块 51 封装为 REST 形式提供，前两类数据存储在事件服务层 5 的事件存储模块 52 上，第三类数据同步存储在模型监测层 7 的存储模块。

（2）模型管理层 6 中的模型版本管理模块 61 主要负责模型的版本信息管理，具体实施方式：

①将模型存储层 4 的预测缓存模块 41 设置为 job 服务，部署新的模型时给其分配新的 jobid 已识别对应用场景，更新的模型继承老模型的 jobid；②模型抽象层 3 中注册模块 32 给新模型分配模型名称、模型版本、存储路径等元数据信息；③前两部均在数据库中实现，并统一由注册模块 32 将 jobid 和模型相关元数据信息同步给模型管理层 6的模型信息注册模块 62；④通信模块 44 即 RPC 将模型抽象层 3 加载模块服务化的模型实体序列化到远程，用户调用时通过模型管理层的消息模块63 实现用户特征序列化给模型实体（加载模块 33），这里特征的序列化的动作也是通过 RPC 来实现，对应的应用程序通过模型信息注册模块 62 中的模型信息与模型实体相呼应，来实现预测的处理，当模型版本更新时只要通过注册信息里的版本号、模型名称及 jobid 来统一识别，对弃用的模型也通过注册模块 62 来实现模型的下线。

模型部署和更新部分，具体实施如下：

（1）模型抽象层 3 中，异构识别模块 31 收集机器学习框架的模型元信息；

（2）异构模块收集的元信息同步给注册模块 32，注册模块 32 处理后更新给模型管理层 6 的模型信息注册模块 62；

（3）加载模块 33 启动模型实体，直接在相应的机器学习框架中进行，远程客户端设置在模型存储层 4 的通信模块中，这两个模块间的实现是可以跨语言的，通过 RPC 协议来实现服务端与客户端的序列化通信，至此实现模型的部署；

（4）模型更新时，只需要在加载模块 33 中新增服务，并将模型信息、jobid及版本号等同步给模型管理层的模型信息注册模块 62 即可。

参数自适应寻优部分，具体实施如下：

（1）定义用户特征信息为 X，目标信息为 Y，状态信息 S 为选择算法的学习状态编码，L 为预测目标和实际目标的 Loss 函数；

（2）将模型选择过程看作一个多臂老虎机问题，具体是指将用户的实际反馈即 Y 定义为随机奖励，然后在 K 个可能的动作（这里看作是 K 个模型）之间进行选择的任务，因为只有设施行动的奖励才能被观察到，所以本发明设计的算法是通过梯度策略来求解可能的行动（模型）和利用估计的最佳行动（模型）之间的平衡；

（3）初始化 K 个已经部署的模型的被选择权重或状态 S_i=1，其中 i=1,…K；

（4）以概率 p_i=S_i/sum(s_j,j=1,…,k)随机选择模型 i，对于每个模型预测的 Y 定义为 hat(Y)，定义 Loss 函数 L(Y,hat(Y))，值域为[0,1]；

（5）更新第 i 个模型被选择的权重 S_i 为S_i*exp(-lamda*L(Y,hat(Y))/p_i)，其中，lamda 决定系统对最新反馈的响应时间；

（6）通过上述步骤即可实现模型的动态选择，其对应的参数即为 S_i。

以上所述仅为本发明专利的较佳实施例而已，并不用以限制本发明专利，凡在本发明专利的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明专利的保护范围之内。

Claims

1.一种低延迟的机器学习即服务的生成方法，其特征在于，包括：模型抽象层、模型参数寻优层、模型存储层、模型管理层、事件服务层、模型监测层；

2.根据权利要求1所述的一种低延迟的机器学习即服务的生成方法，其特征在于：为了实现通用，在模型抽象层，对各大机器学习框架进行异构，提供跨机器学习框架的通用接口，这一层由一个预测缓存、一个自适应查询批处理组建和一组通过 RPC 协议连接到机器学习框架的服务组成，这种模块化的体系使得缓存和批处理机制能够跨框架共享，且由RPC 的特性，还能实现跨语言共享，比如采用的机器学习框架底层的处理由高性能的 C++实现，而抽象层通过 RPC 转换，在其他层的使用可以转换为其他开发高效的语言来进行，同时还可以扩展到其他框架，以简化新框架的添加，实现模型抽象。

3.根据权利要求1所述的一种低延迟的机器学习即服务的生成方法，其特征在于：为了实现低延迟和高吞吐量的预测，在模型抽象层和模型存储层中，基于每个模型缓存进行预测，并在给定查询延迟目标的情况下实现自适应批处理以最大化吞吐量和并发；对于许多互联网应用程序，比如推荐系统，通常需要对热门产品或内容的推荐，通过维护预测和参数缓存，可以在不改变模型的情况下提供频繁查询服务，消除额外的模型加载成本，大大降低延迟和系统的负载；模型缓存要自适应选择最有参数，在用户请求预测服务的时候，反馈很可能会预测呈现后很快返回，比如 DSP 广告投放后用户是否点击或下载会很快在应用端得到反馈，运用模型缓存层和事件服务层，及时将事件服务层获取的用户反馈以及其特征信息，来调整缓存层的模型选择策略。

4.根据权利要求1所述的一种低延迟的机器学习即服务的生成方法，其特征在于：在模型存储层除了处理模型参数的存储、预测缓存之外，还负责批处理的功能，批处理组建将受到的预测查询流转换成批次组，批次组与机器学习框架所涉及的工作量更接近，同时分摊RPC 和系统开销，目的也是提高吞吐量和硬件资源的利用率，这类请求需要信息阻塞以给批处理完成所有查询的预测一定的时间。

5.根据权利要求1所述的一种低延迟的机器学习即服务的生成方法，其特征在于：为了进一步提高预测服务的准确性和鲁棒性，模型参数自适应寻优层，根据应用端反馈动态适配已部署的模型，并将预测输出进行组合，当总体准确率低于给定阈值时触发模型框架进行全量模型的更新，通过允许同时部署多个候选模型并依赖用户的实时反馈来动态自适应确定最优模型或模型集成，简化新模型的部署流程，另外通过应用端的整个生命周期内不断学习反馈，自动补偿失败模型造成的预测误差，整个过程无需人工干预，这一层用来提高应用程序的准确性和预测可信度及鲁棒性。

6.根据权利要求1所述的一种低延迟的机器学习即服务的生成方法，其特征在于：模型管理层将应用程序与机器学习框架隔离，对新模型或框架部署到正在运行的应用过程采取热插件部署，即不影响正在运行的服务的情况下，对模型进行更新或新增模型。

7.根据权利要求1所述的一种低延迟的机器学习即服务的生成方法，其特征在于：设立事件服务层，负责动态收集用户反馈数据，并动态传送给模型参数寻优层对已部署模型进行局部调优，当局部最优不满足实际需求时再通知机器学习框架进行大面积的模型更新。

8.根据权利要求1所述的一种低延迟的机器学习即服务的生成方法，其特征在于：通过模型监测层对上线后的模型服务进行实时的监测，及时反馈调用过程出现的问题，并收集用户请求数据并发送给事件服务层进行处理和存储。