CN110008202A

CN110008202A - 一种减少内存占用的模型部署方法及系统

Info

Publication number: CN110008202A
Application number: CN201910301556.7A
Authority: CN
Inventors: 肖锋
Original assignee: Beijing Sohu New Media Information Technology Co Ltd
Current assignee: Beijing Sohu New Media Information Technology Co Ltd
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2019-07-12

Abstract

本发明公开了一种减少内存占用的模型部署方法及系统，方法包括：将与用户相关的数据存储在硬盘上的键值数据库，在预测时，直接从键值数据库读取所述与用户相关的数据进行批量预测。本发明直接将模型中与用户相关的数据存储在硬盘上的数据库，一方面在预测时直接从数据库中读取模型可以使程序不受内存容量的限制，同时在占用内存较高的情况时，可以减少内存寻址的时间，另一方面由于一般一个用户的一次请求中，用户特征是一样的，因此直接将不同用户的特征缓存之后，从数据库中读取用户的特征，不会造成时间的增长。

Description

一种减少内存占用的模型部署方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种减少内存占用的模型部署方法及系统。

背景技术

目前，在实时推荐场景中，为了追求更高的精度，往往会采用较高维度的特征。这使得模型往往比较大，使服务器的内存资源比较紧张，甚至在部分场景中会超出内存的限制。为了实时运行这些模型，业界一般会采用将模型拆分到多台服务器上分段计算的方法。这会使得模型的部署变得比较复杂，且推理时间变长。

因此，如何实现在提高模型精度的同时减少内存占用，是一项亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种减少内存占用的模型部署方法，能够在提高模型精度的同时减少内存占用。

本发明提供了一种减少内存占用的模型部署方法，包括：

将与用户相关的数据存储在硬盘上的键值数据库；

在预测时，直接从所述键值数据库读取所述与用户相关的数据进行批量预测。

优选地，所述将与用户相关的数据存储在硬盘上的键值数据库，包括：

计算用户特征和非用户特征的交叉项；

将所述交叉项作为键值数据存入所述键值数据库。

优选地，所述在预测时，直接从所述键值数据库读取所述与用户相关的数据进行批量预测，包括：

接收预测请求；

基于接收到的所述预测请求解析出键值数据；

基于所述键值数据从所述键值数据库中读取出与用户相关的数据；

基于所述与用户相关的数据得到预测值。

将用户特征、物品特征和实时特征的交叉项展开后进行特征选择，得到最终的用户特征；

将得到的所述最终的用户特征存储在硬盘上的键值数据库。

优选地，所述硬盘为固态硬盘，所述键值数据库为嵌入式事务数据库。

一种减少内存占用的模型部署系统，包括：

存储模块，用于将与用户相关的数据存储在硬盘上的键值数据库；

预测模块，用于在预测时，直接从所述键值数据库读取所述与用户相关的数据进行批量预测。

优选地，所述存储模块包括：

计算单元，用于计算用户特征和非用户特征的交叉项；

第一存储单元，用于将所述交叉项作为键值数据存入所述键值数据库。

优选地，所述预测模块包括：

接收单元，用于接收预测请求；

解析单元，用于基于接收到的所述预测请求解析出键值数据；

读取单元，用于基于所述键值数据从所述键值数据库中读取出与用户相关的数据；

预测单元，用于基于所述与用户相关的数据得到预测值。

优选地，所述存储模块包括：

特征选择单元，用于将用户特征、物品特征和实时特征的交叉项展开后进行特征选择，得到最终的用户特征；

第二存储单元，用于将得到的所述最终的用户特征存储在硬盘上的键值数据库。

综上所述，本发明公开了一种减少内存占用的模型部署方法，包括：将与用户相关的数据存储在硬盘上的键值数据库，在预测时，直接从键值数据库读取与用户相关的数据进行批量预测。本发明直接将模型中与用户相关的数据存储在硬盘上的数据库，一方面在预测时直接从数据库中读取模型可以使程序不受内存容量的限制，同时在占用内存较高的情况时，可以减少内存寻址的时间，另一方面由于一般一个用户的一次请求中，用户特征是一样的，因此直接将不同用户的特征缓存之后，从数据库中读取用户的特征，不会造成时间的增长。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的一种减少内存占用的模型部署方法实施例1的流程图；

图2为本发明公开的一种减少内存占用的模型部署方法实施例2的流程图；

图3为本发明公开的一种减少内存占用的模型部署方法实施例3的流程图；

图4为本发明公开的一种减少内存占用的模型部署系统实施例1的结构示意图；

图5为本发明公开的一种减少内存占用的模型部署系统实施例2的结构示意图；

图6为本发明公开的一种减少内存占用的模型部署系统实施例3的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明公开的一种减少内存占用的模型部署方法实施例1的流程图，所述方法可以包括以下步骤：

S101、将与用户相关的数据存储在硬盘上的键值数据库；

S102、在预测时，直接从所述键值数据库读取所述与用户相关的数据进行批量预测。

以点击率预估为例，一般较大的点击率预估模型中最大量的数据是对应于用户和物品的嵌入向量，即对于可能高达几十万或几百万的用户和物品，将每个用户或几个用户映射成一个向量。推荐模型就是用来学习这些向量以及向量之间的交互关系，最终模型就包括了用户和物品的向量以及之间的交互特征。以比较常用的因子机模型为例，其中包括了用户向量的嵌入向量和物品向量的嵌入，交叉之后可以产生高达几亿维的特征。对于用户数较多或物品数较多的使用场景，可能会占到服务器内存的相当比例，影响服务器正常工作。

本发明主要包括两个重点内容：一是现在大多使用的服务器的硬盘都是SSD硬盘，其随机读取速度相对之前广泛使用的HDD硬盘已经有较大提升。同时也有一些针对快速读取开发的键值数据库如LMDB等。二是模型在服务请求的过程中，是会对同一个用户的一个批量，比如几百条数据进行预测和排序，这样可以利用到缓存策略。基于以上两个特点，本发明提出直接将模型中与用户相关的数据存在硬盘上的LMDB数据库中，在预测时直接从数据库读取对应用户的数据，进行批量的预测。这种方案比一般直接内存加载模型的方案内存占用小很多，且基本不会引起推理时间的延长。

下面以因子机模型为例，对本发明进行进一步的详细说明。如图2所示，为本发明公开的一种减少内存占用的模型部署方法实施例2的流程图，所述方法可以包括以下步骤：

S201、计算用户特征和非用户特征的交叉项；

S202、将交叉项作为键值数据存入键值数据库；

S203、接收预测请求；

S204、基于接收到的预测请求解析出键值数据；

S205、基于键值数据从键值数据库中读取出与用户相关的数据；

S206、基于与用户相关的数据得到预测值。

因子机模型是一种比较常用的点击率预估模型。其模型如下所示:

其中，ω₀∈R，ω∈Rⁿ，V∈R^n×k。其中V为特征对应的嵌入向量，每一维特征对应于一个k维向量。

实验表明，一般模型精度随k的增大而提升，这种趋势在k达到50时还比较明显，因此在下面的方案中假设k＝50。假定对于一个较常用的配置，用户特征维度为500万维，为one_hot表示，即每条数据中这500万维中只有一维为1，标示该数据为对应用户或用户组。物品特征和实时特征合起来有1万5000维，则n为5015000维。V是其中维度最高的项，重点关注该变量，它共有参数50*5015000个，假定所有参数都以单精度浮点数(4个字节)形式保存，占据空间为50*(5000000+15000)*4个字节，即1.003G字节。由于服务器上往往有多个推理模型和线程在一起运行，一个线程就占据1G字节的内存会对服务器造成比较大的压力。

具体的，本实施例提出如下的模型部署方案：

(1)将用户特征和非用户特征的交叉项即<v_i，v_j>先计算出来，将这些交叉项按<用户，物品特征序号或实时特征序号：交叉项值>作为键值数据存入LMDB，每个用户对应15000维特征。

(2)收到请求时，解析出用户键值，从数据库中取出对应于该用户的15000维数据。该请求中包含的N个样本只在这15000维数据上有差异。这一步骤经测试表明速度很快，在一般的服务器上响应时间在50-100微秒之间。

(3)对该请求对应的N(N＝100-500)个样本，计算15000维特征内部的交叉项，与读取的数据进行加和，得到最终的响应值。这一步骤中的内存占用为15000*50*4＝3M，同时由于与用户特征相关的交叉项可直接读取，减少了约N*50*2次乘加运算，基本上可以抵消之前的读取时间消耗。

(4)返回推理结果。

从上面的例子可以看出，本发明将模型占用内存从1.003G减少到3M，且基本没有增加推理延时。

下面以逻辑斯谛模型为例，对本发明进行进一步的详细说明。如图3所示，为本发明公开的一种减少内存占用的模型部署方法实施例3的流程图，所述方法可以包括以下步骤：

S301、将用户特征、物品特征和实时特征的交叉项展开后进行特征选择，得到最终的用户特征；

S302、将得到的最终的用户特征存储在硬盘上的键值数据库；

S303、在预测时，直接从键值数据库读取与用户相关的数据进行批量预测。

在本实施例中，对于逻辑斯谛模型，一般是将用户特征、物品特征和实时特征的交叉项展开后进行特征选择，得到最终的特征，由于没有额外的嵌入层，特征维度往往设计的较高。假定对于上述配置，通过特征选择得到了10亿维特征，则参数全部加载需要占用4G内存。

类似地，本发明可以将这些参数按照用户特征的取值归并之后存入数据库，同样可以从数据库中直接读取，不论是将每个用户对应的特征存储为稠密矩阵还是稀疏矩阵，都能够在较短时间内读出。相对于内存加载并计算，最多只耗费了读取的0.1毫秒，对整体延时影响很小。

如图4所示，为本发明公开的一种减少内存占用的模型部署系统实施例1的结构示意图，所述系统可以包括：

存储模块401，用于将与用户相关的数据存储在硬盘上的键值数据库；

预测模块402，用于在预测时，直接从所述键值数据库读取所述与用户相关的数据进行批量预测。

下面以因子机模型为例，对本发明进行进一步的详细说明。如图5所示，为本发明公开的一种减少内存占用的模型部署系统实施例2的结构示意图，所述系统可以包括：

计算单元501，用于计算用户特征和非用户特征的交叉项；

第一存储单元502，用于将交叉项作为键值数据存入键值数据库；

接收单元503，用于接收预测请求；

解析单元504，用于基于接收到的预测请求解析出键值数据；

读取单元505，用于基于键值数据从键值数据库中读取出与用户相关的数据；

预测单元506，用于基于与用户相关的数据得到预测值。

具体的，本实施例提出如下的模型部署方案：

(4)返回推理结果。

下面以逻辑斯谛模型为例，对本发明进行进一步的详细说明。如图6所示，为本发明公开的一种减少内存占用的模型部署系统实施例3的结构示意图，所述系统可以包括：

特征选择单元601，用于将用户特征、物品特征和实时特征的交叉项展开后进行特征选择，得到最终的用户特征；

第二存储单元602，用于将得到的最终的用户特征存储在硬盘上的键值数据库；

预测模块603，用于在预测时，直接从键值数据库读取与用户相关的数据进行批量预测。

在本实施例中，对于逻辑斯谛模型，一般是将用户特征、物品特征和实时特征的交叉项展开后进行特征选择，得到最终的特征，由于没有额外的嵌入层，特征维度往往设计的较高。假定对于上述配置，通过特征选择得到了10亿维特征，则参数全部加载需要占用4G内存。类似地，本发明可以将这些参数按照用户特征的取值归并之后存入数据库，同样可以从数据库中直接读取，不论是将每个用户对应的特征存储为稠密矩阵还是稀疏矩阵，都能够在较短时间内读出。相对于内存加载并计算，最多只耗费了读取的0.1毫秒，对整体延时影响很小。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种减少内存占用的模型部署方法，其特征在于，包括：

将与用户相关的数据存储在硬盘上的键值数据库；

2.根据权利要求1所述的方法，其特征在于，所述将与用户相关的数据存储在硬盘上的键值数据库，包括：

计算用户特征和非用户特征的交叉项；

将所述交叉项作为键值数据存入所述键值数据库。

3.根据权利要求2所述的方法，其特征在于，所述在预测时，直接从所述键值数据库读取所述与用户相关的数据进行批量预测，包括：

接收预测请求；

基于接收到的所述预测请求解析出键值数据；

基于所述与用户相关的数据得到预测值。

4.根据权利要求1所述的方法，其特征在于，所述将与用户相关的数据存储在硬盘上的键值数据库，包括：

将得到的所述最终的用户特征存储在硬盘上的键值数据库。

5.根据权利要求1所述的方法，其特征在于，所述硬盘为固态硬盘，所述键值数据库为嵌入式事务数据库。

6.一种减少内存占用的模型部署系统，其特征在于，包括：

7.根据权利要求6所述的系统，其特征在于，所述存储模块包括：

计算单元，用于计算用户特征和非用户特征的交叉项；

8.根据权利要求7所述的系统，其特征在于，所述预测模块包括：

接收单元，用于接收预测请求；

预测单元，用于基于所述与用户相关的数据得到预测值。

9.根据权利要求6所述的系统，其特征在于，所述存储模块包括：

10.根据权利要求6所述的系统，其特征在于，所述硬盘为固态硬盘，所述键值数据库为嵌入式事务数据库。