CN117806832A

CN117806832A - 一种提升模型训练速度的方法、系统、设备及存储介质

Info

Publication number: CN117806832A
Application number: CN202410207789.1A
Authority: CN
Inventors: 廖忠儒
Original assignee: Beijing Sohu New Media Information Technology Co Ltd
Current assignee: Beijing Sohu New Media Information Technology Co Ltd
Priority date: 2024-02-26
Filing date: 2024-02-26
Publication date: 2024-04-02
Anticipated expiration: 2044-02-26
Also published as: CN117806832B

Abstract

本申请公开一种提升模型训练速度的方法、系统、设备及存储介质，应用于模型训练领域，通过获取指定时间范围内的所有样本文件路径，按时间先后顺序，依次执行如下操作：获取目标时间的样本文件路径内的样本，使用分布式系统和映射表，将样本内的样本特征映射为特征行号，并保存到目标时间的行号文件路径的行号文件里；获取指定时间范围内的所有行号文件路径，按时间先后顺序，依次执行如下操作：获取目标时间的行号文件路径内的特征行号，使用特征行号获取特征参数进行模型训练，独立运行根据特征获取特征行号，以及根据特征行号获取特征参数两个环节，并对第一个环节使用分布式系统加速，从而提升模型训练速度。

Description

一种提升模型训练速度的方法、系统、设备及存储介质

技术领域

本申请涉及模型训练技术领域，特别是涉及一种提升模型训练速度的方法、系统、设备及存储介质。

背景技术

推荐系统中的推荐模型，对于整个推荐效果有至关重要的影响，推荐模型的训练通常要使用长达数个月的时间来进行，其所需的数据规模非常庞大，需要大量的训练时间。

发明内容

有鉴于此，本申请实施例提供了一种提升模型训练速度的方法、系统、设备及存储介质。

第一方面，本申请实施例提供了一种提升模型训练速度的方法，所述方法包括：

获取指定时间范围内的所有样本文件路径，按时间先后顺序，依次执行如下操作：获取目标时间的样本文件路径内的样本，使用分布式系统和映射表，将样本内的样本特征映射为特征行号，并保存到目标时间的行号文件路径的行号文件里；

获取指定时间范围内的所有行号文件路径，按时间先后顺序，依次执行如下操作：获取目标时间的行号文件路径内的特征行号，使用特征行号获取特征参数进行模型训练。

在一种可能的实现方式中，获取目标时间的样本文件路径内的样本的方式包括：

当所述样本文件路径内不存在样本特征，在设定的时间范围内持续检测，直至所述样本文件路径内检测到样本特征。

在一种可能的实现方式中，所述使用分布式系统和映射表，将样本内的样本特征映射为特征行号，并保存到目标时间的行号文件路径的行号文件里，包括：

创建分布式任务；

基于创建得到的分布式任务，查询映射表，将所述样本特征转成特征行号；

当所述分布式任务运行结束，保存特征行号到行号文件路径里。

在一种可能的实现方式中，获取目标时间的行号文件路径内的特征行号的方式包括：

当所述行号文件路径内不存在特征行号，则在设定的时间范围内持续检测，直至所述行号文件路径内检测到特征行号。

在一种可能的实现方式中，所述使用特征行号获取特征参数进行模型训练，包括：

根据行号文件路径里的特征行号和特征参数表，确定所述特征行号对应的特征参数；

利用特征参数和模型参数，基于预设网络结构训练预备模型，得到训练后的模型文件。

在一种可能的实现方式中，所述获取指定时间范围内的所有样本文件路径之前，还包括：

获取用户行为数据；

对所述用户行为数据进行特征提取，得到所述用户行为数据对应的样本特征。

第二方面，本申请实施例提供了一种提升模型训练速度的系统，所述系统包括：

第一执行单元，用于获取指定时间范围内的所有样本文件路径，按时间先后顺序，依次执行如下操作：获取目标时间的样本文件路径内的样本，使用分布式系统和映射表，将样本内的样本特征映射为特征行号，并保存到目标时间的行号文件路径的行号文件里；

第二执行单元，用于获取指定时间范围内的所有行号文件路径，按时间先后顺序，依次执行如下操作：获取目标时间的行号文件路径内的特征行号，使用特征行号获取特征参数进行模型训练。

第三方面，本申请实施例提供了一种电子设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如前述第一方面所述的提升模型训练速度的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如前述第一方面所述的提升模型训练速度的方法。

通过获取指定时间范围内的所有样本文件路径，按时间先后顺序，依次执行如下操作：获取目标时间的样本文件路径内的样本，使用分布式系统和映射表，将样本内的样本特征映射为特征行号，并保存到目标时间的行号文件路径的行号文件里；获取指定时间范围内的所有行号文件路径，按时间先后顺序，依次执行如下操作：获取目标时间的行号文件路径内的特征行号，使用特征行号获取特征参数进行模型训练。将模型训练的“根据特征获取特征参数”这个环节拆分成两个独立的环节“根据特征获取特征行号”，“根据特征行号获取特征参数”，并独立运行，并对第一个环节使用分布式系统加速，从而达到提升模型训练速度的目的。

附图说明

为更清楚地说明本实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的一种提升模型训练速度的方法的流程图；

图2为本申请实施例所提供的一种提升模型训练速度系统结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于理解本申请实施例提供的技术方案，下面将先对本申请实施例涉及的技术术语进行说明。

特征行号，即某个特征在模型的特征参数表中的行号，模型有多少个特征，参数表就有多少行数据。每一行放一个特征的特征参数，也叫特征embedding。模型不能存储特征，只能存储特征参数。因此模型之外有特征和行号的映射表，通过映射表，把输入的特征转为行号，根据行号到特征参数表获取该行的参数。

为便于理解本申请实施例提供的技术方案，下面将先对本申请实施例涉及的背景技术进行说明。

正如前文所述，现有技术推荐系统使用用户行为日志训练模型，训练过程如下：步骤一，使用日志抽取特征；步骤二，把特征转为特征行号；步骤三，基于特征行号进行模型训练。传统方案的步骤二和步骤三是一体的，步骤二和步骤三串行执行，且步骤二耗时比步骤三大得多，该方案的总耗时为步骤二和步骤三的耗时总和。因此这样的训练过程存在耗时较大的缺陷。

为了解决这一问题，在本申请实施例提供了一种提升模型训练速度的方法，该方法将模型训练的“根据特征获取特征参数”这个环节拆分成两个独立的环节“根据特征获取特征行号”，“根据特征行号获取特征参数”，并独立运行，并对第一个环节使用分布式系统加速，从而达到提升模型训练速度的目的。

需要说明的是，本申请提供的一种提升模型训练速度的方法、系统、设备及存储介质，可应用于模型训练领域。上述仅为示例，并不对本申请提供的一种提升模型训练速度的方法、系统、设备及存储介质的应用领域进行限定。另外，本申请实施例亦可不限定提升模型训练速度的执行主体，例如，本申请实施例的一种提升模型训练速度的方法可以应用于终端设备或服务器等数据处理设备。其中，终端设备可以为智能手机、计算机、个人数字助理（Personal Digital Assistant，PDA）、平板电脑等电子设备。服务器可以为独立服务器、云服务器或者由多台服务器组成的集群服务器。

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下通过一个实施例，对本申请提供的一种提升模型训练速度的方法进行说明。参见图1，该图1为本申请实施例所提供的一种提升模型训练速度的方法的流程图，该方法包括：

S101、获取指定时间范围内的所有样本文件路径，按时间先后顺序，依次执行如下操作：获取目标时间的样本文件路径内的样本，使用分布式系统和映射表，将样本内的样本特征映射为特征行号，并保存到目标时间的行号文件路径的行号文件里。

所述目标时间属于所述指定时间范围内。在实际应用场景中，所述分布式系统可以是映射规约模型Mapreduce，可以根据实际应用场景和需求进行适应性调整。

S102、获取指定时间范围内的所有行号文件路径，按时间先后顺序，依次执行如下操作：获取目标时间的行号文件路径内的特征行号，使用特征行号获取特征参数进行模型训练。

在实际应用场景中，可以根据特征行号获取特征参数，使用特征参数和模型参数，按照预设的网络结构训练模型。

以下通过一个实施例，对本申请提供的提升模型训练速度方法中的各个实现步骤进行说明。

在一种可能的实现方式中，将样本内的特征映射为特征行号的方式包括：

当所述样本文件路径内不存在样本特征，则在设定的时间范围内持续检测，直至所述样本文件路径内检测到样本特征。

即在样本文件路径内不存在对应的样本特征时，则在设定的时间范围内持续检测，不会只因为几分钟内没有检测到对应的样本特征而停止。当发现目标时间的样本文件路径内有样本特征，则使用分布式系统和映射表，将样本内的样本特征映射为特征行号，并保存到目标时间的行号文件路径的行号文件里。

在一种可能的实现方式中，所述使用分布式系统和映射表，将样本内的样本特征映射为特征行号，并保存到目标时间的行号文件路径的行号文件里，包括步骤A1-步骤A3：

步骤A1、创建分布式任务。

步骤A2、基于创建得到的分布式任务，查询映射表，将所述样本特征转成特征行号。

步骤A3、当所述分布式任务运行结束，保存特征行号到行号文件路径里。

在一种实际应用场景中，基于分布式系统和映射表，将所述样本特征转化为特征行号并保存属于较为耗时的任务，本申请实施例提供的方法中通过使用分布式系统加速，极大提升训练速度。

在一种可能的实现方式中，获取目标时间的行号文件路径内的特征行号，使用特征行号获取特征参数进行模型训练，包括步骤B1-步骤B2：

步骤B1、根据所述特征行号和特征参数表，确定所述特征行号对应的特征参数。

步骤B2、利用特征参数和模型参数，基于预设网络结构训练预备模型，得到训练后的模型文件。

在实际应用场景中，模型不能存储特征，只能存储特征参数。因此模型之外有特征和行号的映射表，通过映射表，把输入的特征转为行号，根据行号到特征参数表获取该行的参数。根据特征行号获取特征参数，使用特征参数和模型参数，按照预设网络结构训练模型。其中，预设网络结构可以根据实际需求进行适应性调整和设置。

获取用户行为数据；对所述用户行为数据进行特征提取，得到所述用户行为数据对应的样本特征。

需要说明的是，本申请所涉及的用户行为信息和数据（包括但不限于用户数据，以及用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

在实际应用场景中，推荐系统使用用户行为日志抽取特征，通过查映射表把特征转为特征行号。

综上，本申请提供的方法通过两处改进，第一，特征转为特征行号任务和模型训练任务拆开独立运行，直至截止时间结束。第二，特征转为特征行号任务使用分布式系统加速。

特征转特征行号任务和模型训练任务拆开独立运行，进而形成一种齿轮式运转的模式，从而达到加速训练的目的。这种运转模式会呈现木桶效应，耗时最大的环节，即为整体环节最终耗时。针对特征转特征行号任务耗时较大的问题，本申请实施例采用分布式系统进行进一步加速，从而整体上提升训练速度。

以上为本申请实施例所提供的提升模型训练速度的方法的一些具体实现方式，基于此，本申请还提供了对应的用于提升模型训练速度的系统。下面将从功能模块化的角度对本申请实施例所提供的系统进行介绍。图2为本申请实施例所提供的一种提升模型训练速度系统结构图。

所述系统包括：

第一执行单元110，用于获取指定时间范围内的所有样本文件路径，按时间先后顺序，依次执行如下操作：获取目标时间的样本文件路径内的样本，使用分布式系统和映射表，将样本内的样本特征映射为特征行号，并保存到目标时间的行号文件路径的行号文件里；

第二执行单元111，用于获取指定时间范围内的所有行号文件路径，按时间先后顺序，依次执行如下操作：获取目标时间的行号文件路径内的特征行号，使用特征行号获取特征参数进行模型训练。

在一种可能的实现方式中，所述第一执行单元包括：

创建单元，用于创建分布式任务；

查询单元，用于基于创建得到的分布式任务，查询映射表，将所述样本特征转成特征行号；

保存单元，用于当所述分布式任务运行结束，保存转化得到的特征行号。

在一种可能的实现方式中，所述第二执行单元，具体用于：

根据行号文件路径里的特征行号和特征参数表，确定所述特征行号对应的特征参数；利用特征参数和模型参数，基于预设网络结构训练预备模型，得到训练后的模型文件。

在一种可能的实现方式中，所述系统还包括：

获取单元，用于获取用户行为数据；

特征提取单元，用于对所述用户行为数据进行特征提取，得到所述用户行为数据对应的样本特征。

本申请实施例还提供了对应的设备以及计算机存储介质，用于实现本申请实施例所提供的提升模型训练速度的方法方案。

其中，所述设备包括存储器和处理器，所述存储器用于存储指令或代码，所述处理器用于执行所述指令或代码，以使所述设备执行本申请任一实施例所述的提升模型训练速度的方法。

所述计算机存储介质中存储有代码，当所述代码被运行时，运行所述代码的设备实现本申请任一实施例所述的提升模型训练速度的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

应当理解，在本申请中，“至少一个（项）”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a，b或c中的至少一项（个），可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种提升模型训练速度的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，获取目标时间的样本文件路径内的样本的方式包括：

3.根据权利要求1所述的方法，其特征在于，所述使用分布式系统和映射表，将样本内的样本特征映射为特征行号，并保存到目标时间的行号文件路径的行号文件里，包括：

创建分布式任务；

4.根据权利要求1所述的方法，其特征在于，获取目标时间的行号文件路径内的特征行号的方式包括：

5.根据权利要求1所述的方法，其特征在于，所述使用特征行号获取特征参数进行模型训练，包括：

6.根据权利要求1所述的方法，其特征在于，所述获取指定时间范围内的所有样本文件路径之前，还包括：

获取用户行为数据；

7.一种提升模型训练速度的系统，其特征在于，所述系统包括：

8.一种电子设备，其特征在于，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-6任一项所述的提升模型训练速度的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如权利要求1-6任一项所述的提升模型训练速度的方法。