CN112257781A

CN112257781A - 一种模型训练方法及装置

Info

Publication number: CN112257781A
Application number: CN202011139698.7A
Authority: CN
Inventors: 林梅露; 陈肇康; 夏志强; 吴斌; 雷兆恒
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2021-01-22

Abstract

本申请公开了一种模型训练方法及装置，包括：将批量样本数据输入至待训练排序模型中，获取所述批量样本数据中每个训练样本的第一嵌入向量，得到第一嵌入向量集；基于所述第一嵌入向量集确定出相似的嵌入向量以得到相似向量对；基于所述相似向量对确定排序损失函数；利用所述排序损失函数对所述待训练排序模型进行训练，直至排序损失函数收敛得到排序模型。也即，本申请可以利用样本的嵌入向量，确定出相似的嵌入向量以得到相似向量对，而相似向量对中包含排序学习所需的关键信息，这样，利用相似向量对进行排序学习以得到排序模型，能够在保证模型性能的情况下，减少模型处理的样本对数量，从而提升模型训练效率。

Description

一种模型训练方法及装置

技术领域

本申请涉及深度学习技术领域，特别涉及一种模型训练方法及装置。

背景技术

LTR(即learning to rank，排序学习)被广泛应用于推荐、搜索等领域，排序的好坏很大程度会影响用户的产品体验。在搜索和推荐场景中，排序学习一般被建模为有监督的机器学习，常用的排序学习方法包括：pointwise(单点法)，pairwise(配对法)和listwise(列表法)，其中，pairwise方法可以利用不同样本特征的差值，从中学习到差值到相关性差异的对应关系。pairwise法包括基于查询的排序学习以及无参考的排序学习。

目前，对于pairwise LTR方法，无论是基于查询的排序学习还是无参考的排序学习，均是利用训练样本集中任意两个样本构建配对，一方面导致模型处理的数据量很大，影响了模型的训练效率，另一面，一些样本内容差异较大，可能不具备比较性，这一问题在无参考的排序学习中尤为明显，大量任意构建的样本对可能会降低训练过程中对包含关键信息的样本对的关注，影响了模型的性能。综上，在实现本发明过程中，发明人发现现有技术中至少存在模型处理的样本对数量过多，模型训练效率较低以及影响模型性能的问题。

发明内容

有鉴于此，本申请的目的在于提供一种模型训练方法及装置，能够在保证模型性能的情况下，减少模型处理的样本对数量，从而提升模型训练效率。其具体方案如下：

第一方面，本申请公开了一种模型训练方法，包括：

将批量样本数据输入至待训练排序模型中，获取所述批量样本数据中每个训练样本的第一嵌入向量，得到第一嵌入向量集；

基于所述第一嵌入向量集确定出相似的嵌入向量以得到相似向量对；

基于所述相似向量对确定排序损失函数；

利用所述排序损失函数对所述待训练排序模型进行训练，直至排序损失函数收敛得到排序模型。

可选的，所述基于所述第一嵌入向量集确定出相似的嵌入向量以得到相似向量对，包括：

将所述第一嵌入向量集确定为目标向量集；

或，从记忆库中获取第二嵌入向量集，将所述第二嵌入向量集以及所述第一嵌入向量集组成向量集以得到所述目标向量集；其中，所述记忆库中的第二嵌入向量为历史批量样本数据中训练样本的嵌入向量；

确定所述目标向量集中相似的嵌入向量以得到相似向量对。

可选的，所述确定所述目标向量集中相似的嵌入向量以得到相似向量对，包括：

计算所述目标向量集中不同嵌入向量的相似度；

基于所述相似度确定出相似的嵌入向量以得到所述相似向量对。

对所述目标向量集进行聚类，然后从每个簇中选取向量对以得到所述相似向量对。

可选的，所述基于所述相似度确定出相似的嵌入向量以得到所述相似向量对，包括：

从所述目标向量集中的全部向量对中确定出所述相似度大于相似度阈值的向量对以得到所述相似向量对；

或，确定出目标数量个第一目标向量对以得到所述相似向量对，所述第一目标向量对的相似度大于所述目标向量集中的其他向量对；

或，确定出目标比例的第二目标向量对以得到所述相似向量对，所述第二目标向量对的相似度大于所述目标向量集中的其他向量对。

将所述目标向量集中的任一嵌入向量作为第一目标嵌入向量，基于所述相似度确定出与所述第一目标嵌入向量相似的第二目标嵌入向量以得到第一相似向量对；

确定出与所述第一目标嵌入向量不相似的第三目标嵌入向量；

确定出与所述第三目标嵌入向量相似的第四目标向量以得到第二相似向量对；

相应的，所述基于所述相似向量对确定排序损失函数；利用所述排序损失函数对所述待训练排序模型进行训练，直至排序损失函数收敛得到排序模型，包括：

计算所述第一相似向量对的第一排序损失以及所述第二相似向量对的第二排序损失；

利用所述第一目标嵌入向量对应的模型输出值以及所述第二目标嵌入向量对应的模型输出值，确定出所述第一目标嵌入向量对应的第一输出值；

利用所述第三目标嵌入向量对应的模型输出值以及所述第四目标嵌入向量对应的模型输出值，确定出所述第三目标嵌入向量对应的第二输出值；

计算所述第一输出值和所述第二输出值的第一训练损失；

利用所述第一排序损失、第二排序损失和所述第一训练损失反向传播更新所述待训练排序模型，直至排序损失函数收敛得到排序模型。

可选的，所述利用所述第一目标嵌入向量对应的模型输出值以及所述第二目标嵌入向量对应的模型输出值，确定出所述第一目标嵌入向量对应的第一输出值；利用所述第三目标嵌入向量对应的模型输出值以及所述第四目标嵌入向量对应的模型输出值，确定出所述第三目标嵌入向量对应的第二输出值，包括：

利用所述第一目标嵌入向量对应的模型输出值和该模型输出值对应的第一预设权重系数以及所述第二目标嵌入向量对应的模型输出值和该模型输出值对应的第二预设权重系数进行加权计算，以确定出所述第一目标嵌入向量对应的第一输出值；

利用所述第三目标嵌入向量对应的模型输出值和该模型输出值对应的第三预设权重系数以及所述第四目标嵌入向量对应的模型输出值和该模型输出值对应的第四预设权重系数进行加权计算，以确定出所述第三目标嵌入向量对应的第二输出值。

利用所述第一目标嵌入向量对应的模型输出值和该模型输出值对应的第一权重系数以及所述第二目标嵌入向量对应的模型输出值和该模型输出值对应的第二权重系数进行加权计算，以确定出所述第一目标嵌入向量对应的第一输出值；

利用所述第三目标嵌入向量对应的模型输出值和该模型输出值对应的第三权重系数以及所述第四目标嵌入向量对应的模型输出值和该模型输出值对应的第四权重系数进行加权计算，以确定出所述第一目标嵌入向量对应的第二输出值；

其中，所述第一权重系数、所述第二权重系数、所述第三权重系数、所述第四权重系数为通过训练得到的系数。

可选的，所述基于所述相似向量对确定排序损失函数；利用所述排序损失函数对所述待训练排序模型进行训练，直至排序损失函数收敛得到排序模型，包括：

计算所述相似向量对的第四排序损失；

利用每个簇中全部嵌入向量对应的模型输出值计算出每个簇对应的簇输出值；

利用不同簇的所述簇输出值计算第二训练损失；

利用所述第四排序损失和所述第二训练损失反向传播更新所述待训练排序模型，直至排序损失函数收敛得到排序模型。

第二方面，本申请公开了一种模型训练装置，包括：

嵌入向量获取模块，用于将批量样本数据输入至待训练排序模型中，获取所述批量样本数据中每个训练样本的第一嵌入向量，得到第一嵌入向量集；

相似向量对确定模块，用于基于所述第一嵌入向量集确定出相似的嵌入向量以得到相似向量对；

排序损失函数确定模块，用于基于所述相似向量对确定排序损失函数；

排序模型获取模块，用于利用所述排序损失函数对所述待训练排序模型进行训练，直至排序损失函数收敛得到排序模型。

第三方面，本申请公开了一种电子设备，包括处理器和存储器；其中，

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序以实现前述的模型训练方法。

第四方面，本申请公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述的模型训练方法。

可见，本申请将批量样本数据输入至待训练排序模型中，获取所述批量样本数据中每个训练样本的第一嵌入向量，得到第一嵌入向量集，然后基于所述第一嵌入向量集确定出相似的嵌入向量以得到相似向量对，之后基于所述相似向量对确定排序损失函数，最后利用所述排序损失函数对所述待训练排序模型进行训练，直至排序损失函数收敛得到排序模型。也即，本申请可以利用样本的嵌入向量，确定出相似的嵌入向量以得到相似向量对，而相似向量对中包含排序学习所需的关键信息，这样，利用相似向量对进行排序学习以得到排序模型，能够在保证模型性能的情况下，减少模型处理的样本对数量，从而提升模型训练效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的模型训练方案所适用的系统框架示意图；

图2为本申请提供的一种模型训练方法流程图；

图3为本申请提供的一种具体的模型训练示意图；

图4为本申请提供的一种具体的模型训练方法流程图；

图5为本申请提供的一种具体的模型训练示意图；

图6为本申请提供的一种具体的模型训练方法流程图；

图7为本申请提供的一种具体的模型训练示意图；

图8为本申请提供的一种具体的模型训练方法流程图；

图9为本申请提供的一种具体的模型训练示意图；

图10为本申请提供的一种模型训练装置结构示意图；

图11为本申请提供的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，对于pairwise LTR方法，无论是基于查询的排序学习还是无参考的排序学习，均是利用训练样本集中任意两个样本构建配对，一方面导致模型处理的数据量很大，影响了模型的训练效率，另一面，一些样本内容差异较大，可能不具备比较性，这一问题在无参考的排序学习中尤为明显，大量任意构建的样本对可能会降低训练过程中对包含关键信息的样本对的关注，影响了模型的性能。综上，在实现本发明过程中，发明人发现现有技术中至少存在模型处理的样本对数量过多，模型训练效率较低以及影响模型性能的问题。为此，本申请公开了一种模型训练方案，能够在保证模型性能的情况下，减少模型处理的样本对数量，从而提升模型训练效率。

本申请的模型训练方案中，采用的系统框架具体可以参见图1所示，具体可以包括：后台服务器和与后台服务器建立通信连接的若干数量的用户端。其中，用户端包括但不限于平板电脑、笔记本电脑、智能手机、个人电脑(personal computer，PC)，此处不做限定。

本申请中，后台服务器执行模型训练方法的步骤，包括将批量样本数据输入至待训练排序模型中，获取所述批量样本数据中每个训练样本的第一嵌入向量，得到第一嵌入向量集；基于所述第一嵌入向量集确定出相似的嵌入向量以得到相似向量对；基于所述相似向量对确定排序损失函数；利用所述排序损失函数对所述待训练排序模型进行训练，直至排序损失函数收敛得到排序模型。

本申请提供的模型训练方法可以具体应用于推荐场景，后台服务器可以执行前述模型训练方法的步骤，利用样本进行模型训练，然后利用训练后得到的排序模型对待排序对象进行排序，得到排序结果，并可以根据排序结果将排序靠前的目标对象推送至用户端显示。

参见图2所示，本申请实施例公开了一种模型训练方法，包括：

步骤S11：将批量样本数据输入至待训练排序模型中，获取所述批量样本数据中每个训练样本的第一嵌入向量，得到第一嵌入向量集。

在具体的实施方式中，可以先获取训练样本以及样本标签(label)，样本标签可以为离散值也可以为连续值，比如，训练样本为歌曲，其样本标签为歌曲得分，可以为离散值比如9，也可以为连续值比如多个评分的平均值9.2。若训练样本数量较大，则分批次训练，将批量样本数据(batch)输入至待训练排序模型中，若训练样本数据量较小，可以将全部样本作为一个batch进行训练。

本实施例可以获取batch中每个训练样本的第一嵌入向量(embedding向量)。

其中，embedding(嵌入表示)层可以根据需求设置在模型中的特定一层，通常embedding层后需要接一些全连接层(fc)，来得到最终的输出。

步骤S12：基于所述第一嵌入向量集确定出相似的嵌入向量以得到相似向量对。

在具体的实施方式中，可以将所述第一嵌入向量集确定为目标向量集；确定所述目标向量集中相似的嵌入向量以得到相似向量对。

进一步的，可以计算所述目标向量集中不同嵌入向量的相似度；基于所述相似度确定出相似的嵌入向量以得到所述相似向量对。

也即，将批量样本数据对应的第一嵌入向量集确定为目标向量集，然后计算目标向量集中任意不同的两个嵌入向量的相似度。比如，可以计算不同嵌入向量的余弦夹角或者欧式距离等，然后基于相似度确定出相似的嵌入向量以得到所述相似向量对。

具体的，从所述目标向量集中的全部向量对中确定出所述相似度大于相似度阈值的向量对以得到所述相似向量对；或，确定出目标数量个第一目标向量对以得到所述相似向量对，所述第一目标向量对的相似度大于所述目标向量集中的其他向量对；或，确定出目标比例的第二目标向量对以得到所述相似向量对，所述第二目标向量对的相似度大于所述目标向量集中的其他向量对。

也即，本实施例中，对于相似向量对的选取，可以采用设置固定的相似度阈值，选取相似度超过该相似度阈值的向量对的方式，也可以不设置固定的相似度阈值，采用选取目标数量或目标比例的向量对的方式，例如选取相似度在当前所有向量对中处于头部20％，或头部100名的向量对。

步骤S13：基于所述相似向量对确定排序损失函数。

步骤S14：利用所述排序损失函数对所述待训练排序模型进行训练，直至排序损失函数收敛得到排序模型。

在具体的实施方式中，本实施例可以进行相似向量对的比较，然后利用相似向量对间计算的排序损失反向传播更新待训练排序模型，直至损失函数收敛得到排序模型，该待训练排序模型为深度学习网络。也即，可以计算相似向量对的排序损失，然后利用排序损失反向传播更新待训练排序模型，直至损失函数收敛得到排序模型。

当获取到待排序对象，可以输入排序模型，利用排序模型的输出进行排序即可得到排序结果。

例如，参见图3所示，图3为本申请实施例公开的一种具体的模型训练示意图。待训练排序模型整体结构包括CNN(即Convolutional Neural Networks,卷积神经网络)等，其中，embedding层后连接全连接层，批量样本数据输入待训练排序模型，得到嵌入向量集，确定出样本i的嵌入向量i以及样本j的嵌入向量j为相似向量对，利用样本i和样本j对应的输出值，计算排序损失，反向传播更新模型。

需要指出的是，如果模型的初始化参数是直接加载的其它预训练模型的参数，则基于所述第一嵌入向量集确定出相似的嵌入向量以得到相似向量对的步骤可以在一开始训练的时候就采用；若模型的参数是随机初始化的，则可以在最初一段时间的训练中采用传统的pairwise LTR的方式，即一个batch中所有的样本都可以组pair，当模型具备一定提取特征的能力之后，仅选取相似的样本构建pair，这样，避免了网络开始训练的一段时间内不具备确定出相似的样本对的能力引起的训练时间延长的问题，从而提升训练效率。

在另外一些实施例中，可以先从训练样本中确定出相似样本数据，利用相似样本数据确定所述批量样本数据。例如，可以利用训练样本的标签，比如歌曲样本的流派标签，将同一标签的训练样本数据确定为相似样本数据。或者利用具备确定相似样本数据功能的模型确定出相似样本数据。

可见，本申请实施例将批量样本数据输入至待训练排序模型中，获取所述批量样本数据中每个训练样本的第一嵌入向量，得到第一嵌入向量集，然后基于所述第一嵌入向量集确定出相似的嵌入向量以得到相似向量对，之后基于所述相似向量对确定排序损失函数，最后利用所述排序损失函数对所述待训练排序模型进行训练，直至排序损失函数收敛得到排序模型。也即，本申请可以利用样本的嵌入向量，确定出相似的嵌入向量以得到相似向量对，而相似向量对中包含排序学习所需的关键信息，这样，利用相似向量对进行排序学习以得到排序模型，能够在保证模型性能的情况下，减少模型处理的样本对数量，从而提升模型训练效率。

参见图4所示，本申请实施例公开了一种具体的模型训练方法，包括：

步骤S201：将批量样本数据输入至待训练排序模型中，获取所述批量样本数据中每个训练样本的第一嵌入向量，得到第一嵌入向量集。

步骤S202：将所述第一嵌入向量集确定为目标向量集。

步骤S203：计算所述目标向量集中不同嵌入向量的相似度。

步骤S204：将所述目标向量集中的任一嵌入向量作为第一目标嵌入向量，基于所述相似度确定出与所述第一目标嵌入向量相似的第二目标嵌入向量以得到第一相似向量对。

在具体的实施方式中，目标向量集中的任一样本的嵌入向量即为第一目标嵌入向量。针对任一第一目标嵌入向量，可以从包括所述第一目标嵌入向量的向量对中，确定出所述相似度大于第一相似度阈值的向量对以得到所述第一相似向量对；或，确定出第一目标数量个第三目标向量对以得到所述第一相似向量对，所述第三目标向量对的相似度大于包括所述第一目标嵌入向量的全部向量对中的其他向量对；或，确定出第一目标比例的第四目标向量对以得到所述第一相似向量对，所述第四目标向量对的相似度大于包括所述第一目标嵌入向量的全部向量对中的其他向量对。

步骤S205：确定出与所述第一目标嵌入向量不相似的第三目标嵌入向量。

在具体的实施方式中，针对任一第一目标嵌入向量，可以确定出与所述第一目标嵌入向量的相似度小于第二相似度阈值的向量以得到所述第三目标嵌入向量；或，确定出第二目标数量个第一向量以得到所述第三目标嵌入向量，所述第一向量与所述第一目标嵌入向量的相似度小于其他向量与所述第一目标嵌入向量的相似度；或，确定出第二目标比例的第二向量以得到所述第三目标嵌入向量，所述第二向量与所述第一目标嵌入向量的相似度小于其他向量与所述第一目标嵌入向量的相似度；或，利用步骤S204确定出的相似向量对外的向量对确定第三目标嵌入向量。将第一目标嵌入向量与三目标嵌入向量确定为不相似向量对。

也即，对于与任一嵌入向量不相似的向量的确定，可以采用设置固定的相似度阈值，选取相似度低于该相似度阈值的向量的方式，也可以不设置固定的相似度阈值，采用选取目标数量或目标比例的向量的方式，例如选取与任一嵌入向量的相似度在当前所有向量中处于尾部20％，或尾部100名。或是直接利用确定相似向量对的剩余向量对确定出不相似的向量。

步骤S206：确定出与所述第三目标嵌入向量相似的第四目标向量以得到第二相似向量对。

具体过程可参考步骤S204，在此不再进行赘述。

步骤S207：计算所述第一相似向量对的第一排序损失以及所述第二相似向量对的第二排序损失。

也即，针对任一样本，选取与该样本相似的样本对(pair)进行输出值的比较，得到排序损失。

步骤S208：利用所述第一目标嵌入向量对应的模型输出值以及所述第二目标嵌入向量对应的模型输出值，确定出所述第一目标嵌入向量对应的第一输出值。

在一种具体的实施方式中，可以利用所述第一目标嵌入向量对应的模型输出值和该模型输出值对应的第一预设权重系数以及所述第二目标嵌入向量对应的模型输出值和该模型输出值对应的第二预设权重系数进行加权计算，以确定出所述第一目标嵌入向量对应的第一输出值。

在一种具体的实施方式中，可以利用所述第一目标嵌入向量对应的模型输出值和该模型输出值对应的第一权重系数以及所述第二目标嵌入向量对应的模型输出值和该模型输出值对应的第二权重系数进行加权计算，以确定出所述第一目标嵌入向量对应的第一输出值；其中，所述第一权重系数和所述第二权重系数为通过训练得到的系数。

也即，各嵌入向量对应的模型输出值的权重系数可以为可选学习的参数，通过训练学习获取。

步骤S209：利用所述第三目标嵌入向量对应的模型输出值以及所述第四目标嵌入向量对应的模型输出值，确定出所述第三目标嵌入向量对应的第二输出值。

在一种具体的实施方式中，可以利用所述第三目标嵌入向量对应的模型输出值和该模型输出值对应的第三预设权重系数以及所述第四目标嵌入向量对应的模型输出值和该模型输出值对应的第四预设权重系数进行加权计算，以确定出所述第三目标嵌入向量对应的第二输出值。

在一种具体的实施方式中，可以利用所述第三目标嵌入向量对应的模型输出值和该模型输出值对应的第三权重系数以及所述第四目标嵌入向量对应的模型输出值和该模型输出值对应的第四权重系数进行加权计算，以确定出所述第一目标嵌入向量对应的第二输出值；

其中，所述第三权重系数、所述第四权重系数为通过训练得到的系数。

步骤S210：计算所述第一输出值和所述第二输出值的第一训练损失。

在具体的实施方式中，可以计算所述第一输出值和所述第二输出值对应的排序损失和/或第一回归损失。

也即，对任一样本，利用与自身相似的样本组合出新的输出，与其它不相似样本的组合输出值进行比较。并且，不相似样本之间的训练损失可以为排序损失，也可以为回归损失，或者排序损失和回归损失并存。

步骤S211：利用所述第一排序损失、第二排序损失和所述第一训练损失反向传播更新所述待训练排序模型，直至排序损失函数收敛得到所述排序模型。

也即，本实施例可以利用相似样本间的损失和不相似样本间的损失反向传播更新模型，直至收敛，得到排序模型。并且，在具体的实施方式中，所述排序损失函数可以包括用于计算排序损失的函数以及用于计算回归损失的函数。

例如，参见图5所示，图5为本申请实施例公开的一种具体的模型训练示意图。对于样本i，首先确定出与其相似的样本j和k，以及与其不相似的样本x，在i和j，以及i和k之间进行相似样本间的排序学习；对于样本x也同理，和y和z进行相似样本间的排序学习；而对于样本i和样本x之间的比较,不是直接比较这两个样本，而是由各自的相似样本组合形成一个新的输出后，再组pair进行比较。其中，组合方式可以采用加权求和，也可以是包含可学习的参数。对于i和x样本间的学习，可以选择排序学习，也可以选用回归学习，抑或是两类loss并存。

需要指出的是，如果待训练排序模型的初始化参数是直接加载的其它预训练模型的参数，则本实施例确定pair的方法以及利用相似样本组合出新的输出的方法在一开始训练的时候就采用；若待训练排序模型的参数是随机初始化的，则可以在最初一段时间的训练中采用传统的pairwise LTR方式，即一个batch中所有的样本都可以组pair，且不包含利用相似样本组合出新的输出。当模型具备一定提取特征的能力之后，再切换为本实施例的方法。

可见，本申请本实施例可以通过确定出相似样本对以及不相似样本对，利用相似样本间的损失和不相似样本间的损失更新网络，得到排序模型，这样，能够兼顾不同类型样本之间的差异，从而提升性能。并且，不是在所有样本间任意两两组pair，降低了模型处理数据的数量，提升了模型训练效率。

参见图6所示，本申请实施例公开了一种具体的模型训练方法，包括：

步骤S31：将批量样本数据输入至待训练排序模型中，获取所述批量样本数据中每个训练样本的第一嵌入向量，得到第一嵌入向量集。

步骤S32：将所述第一嵌入向量集确定为目标向量集。

步骤S33：对所述目标向量集进行聚类，然后从每个簇中选取向量对以得到所述相似向量对。

步骤S34：计算所述相似向量对的第四排序损失。

步骤S35：利用每个簇中全部嵌入向量对应的模型输出值计算出每个簇对应的簇输出值。

在具体的实施方式中，可以对每个簇中全部嵌入向量对应的模型输出值进行加权计算，得到每个簇的簇输出值。

步骤S36：利用不同簇的所述簇输出值计算第二训练损失。

在具体的实施方式中，可以利用不同簇的所述簇输出值计算第五排序损失和/或第二回归损失。

也即，可以确定两个不同簇为pair，计算训练损失。

步骤S37：利用所述第四排序损失和所述第二训练损失反向传播所述待训练排序模型，直至排序损失函数收敛得到所述排序模型。

也即，本实施例中，相似向量对从聚类后形成的簇中选取，不同簇之间的相量不相似。

例如，参见图7所示，图7为本申请实施例公开的一种具体的模型训练示意图。对于一个batch，所有样本的embedding向量利用聚类方法，得到一些簇，不同的簇之间形成不相似样本，每个簇的输出可以由当前簇中所有样本的输出组合而成，进行不相似样本间的比较学习或回归学习。

参见图8所示，本申请实施例公开了一种具体的模型训练方法，包括：

步骤S41：将批量样本数据输入至待训练排序模型中，获取所述批量样本数据中每个训练样本的第一嵌入向量，得到第一嵌入向量集。

步骤S42：从记忆库中获取第二嵌入向量集，将所述第二嵌入向量集以及所述第一嵌入向量集组成向量集以得到所述目标向量集；其中，所述记忆库中的第二嵌入向量为历史批量样本数据中训练样本的嵌入向量。

需要指出的是，基于批量样本数据(batch)内进行相似或不相似样本的组合，一个较大的弊端在于，若batchsize(批尺寸)选择的比较小，则相似样本可能会很少，且大量样本间无法进行比较。因此，本实施例可以引入memory机制，动态的将批量样本数据中每个训练样本的第一嵌入向量加入记忆库(memory)中，以扩充memory中包含的样本数，当超过预设的容量上限后，可以优先弹出最早加入的嵌入向量；另外，存入memory的embedding向量，可以参与反向传播更新网络参数。

例如，参见图9所述，图9为本申请实施例公开的一种具体的模型训练示意图。

进一步的，如果待训练排序模型的初始化参数是直接加载的其它预训练模型的参数，则可以在一开始训练的时候就可以采用memory机制；若待训练排序模型的参数是随机初始化的，则在最初一段时间的训练中可以不采用memory机制，当网络具备一定提取特征的能力之后，再引入memory机制进行训练。这样，可以避免过早引入memory机制引起的增加模型训练开销的问题。

步骤S43：确定所述目标向量集中相似的嵌入向量以得到相似向量对。

其中，关于上述步骤S41的具体过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

另外，在一些实施例中，可以设置确定出的相似向量对中包括一个第一嵌入向量和一个第二嵌入向量。如图9所示，输出i为第一嵌入向量对应的输出值，输出x为第二嵌入向量的输出值。当然，也可以不进行嵌入向量的来源进行限制。

步骤S44：基于所述相似向量对确定排序损失函数。

步骤S45：利用所述排序损失函数对所述待训练排序模型进行训练，直至排序损失函数收敛得到排序模型。

可见，本申请实施例引入memory机制，避免了批量样本数据中训练样本数量少导致的相似样本较少，大量样本间无法比较的问题，以提升模型性能。

下面，以某款音乐APP为例，对本申请的技术方案进行说明。

假设这款音乐APP的后台服务器基于这款音乐APP的歌曲数据库进行歌曲推荐。后台服务器可以从歌曲数据库中，获取训练样本集，其中，训练样本集中可以包括不同流派的歌曲，比如民谣、摇滚等，以及获取每个歌曲样本对应的标签即每个歌曲样本对应的分数。确定batchsize，获取批量样本数据，然后将批量样本数据输入至待训练排序模型，获取批量样本数据中每个样本歌曲的第一嵌入向量以得到第一嵌入向量集，计算第一嵌入向量集中不同嵌入向量的相似度，然后根据相似度确定出相似的嵌入向量以得到相似向量对，组成pair，比如，民谣1和民谣2组成pair，摇滚1和摇滚2组成pair，将模型输出的民谣1和民谣2对应的输出值进行比较，输出的摇滚1和摇滚2对应的输出值进行比较，然后，利用民谣1和民谣2间的损失、摇滚1和摇滚2间的损失反向传播更新模型，直至收敛，得到排序模型，然后利用排序模型对歌曲数据库中的歌曲进行排序，得到排序结果，并将根据排序结果将排序靠前的歌曲推送至用户端显示。用户可以通过这款音乐APP的客户端查看歌曲推荐结果，从中选择感兴趣的歌曲。

进一步的，模型训练过程还可以为，在获取批量样本数据中每个样本歌曲的第一嵌入向量以得到第一嵌入向量集后，对第一嵌入向量进行聚类，得到多个簇，比如，所有的民谣在一个簇，所有的摇滚在一个簇，从每个簇中选取出相似向量对，组成pair，比如，民谣1和民谣2组成pair，摇滚1和摇滚2组成pair。而不同的簇包括不相似的向量，对民谣簇中的所有民谣的模型输出值进行加权计算，得到民谣簇输出值，对摇滚簇中的所有摇滚歌曲的模型输出值进行加权计算，得到摇滚簇输出值，利用民谣簇输出值和摇滚簇输出值计算排序损失或回归损失，利用民谣簇和摇滚簇之间的损失以及民谣1和民谣2、摇滚1和摇滚2的损失反向传播更新模型，直至收敛得到排序模型。

另外，假设这款音乐APP的后台服务器基于这款音乐APP的直播封面数据库进行直播推荐。后台服务器可以执行前述模型训练方法的步骤，利用直播封面图片样本进行模型训练，然后利用训练后得到的排序模型对直播封面库中的封面进行排序，得到排序结果，并将根据排序结果将排序靠前的直播推荐至用户端。

参见图10所示，本申请实施例公开了一种模型训练装置，包括：

嵌入向量获取模块11，用于将批量样本数据输入至待训练排序模型中，获取所述批量样本数据中每个训练样本的第一嵌入向量，得到第一嵌入向量集；

相似向量对确定模块12，用于基于所述第一嵌入向量集确定出相似的嵌入向量以得到相似向量对；

排序损失函数确定模块13，用于基于所述相似向量对确定排序损失函数；

排序模型获取模块14，用于利用所述排序损失函数对所述待训练排序模型进行训练，直至排序损失函数收敛得到排序模型。

在一些具体的实施例中，所述相似向量对确定模块12具体包括：

目标向量集确定子模块，用于将所述第一嵌入向量集确定为目标向量集；或，从记忆库中获取第二嵌入向量集，将所述第二嵌入向量集以及所述第一嵌入向量集组成向量集以得到所述目标向量集；其中，所述记忆库中的第二嵌入向量为历史批量样本数据中训练样本的嵌入向量；

相似向量对确定子模块，用于确定所述目标向量集中相似的嵌入向量以得到相似向量对。

在一种具体的实施方式中，所述相似向量对确定子模块，具体包括：

向量相似度确定单元，用于计算所述目标向量集中不同嵌入向量的相似度；

第一相似向量对确定单元，用于基于所述相似度确定出相似的嵌入向量以得到所述相似向量对。

在一些实施例中，所述第一相似向量对确定单元具体用于从所述目标向量集中的全部向量对中确定出所述相似度大于相似度阈值的向量对以得到所述相似向量对。

在一些实施例中，所述第一相似向量对确定单元具体用于确定出目标数量个第一目标向量对以得到所述相似向量对，所述第一目标向量对的相似度大于所述目标向量集中的其他向量对；

在一些实施例中，所述第一相似向量对确定单元具体用于确定出目标比例的第二目标向量对以得到所述相似向量对，所述第二目标向量对的相似度大于所述目标向量集中的其他向量对。

在一种具体的实施方式中，所述第一相似向量对确定单元具体用于将所述目标向量集中的任一嵌入向量作为第一目标嵌入向量，基于所述相似度确定出与所述第一目标嵌入向量相似的第二目标嵌入向量以得到第一相似向量对；确定出与所述第一目标嵌入向量不相似的第三目标嵌入向量；确定出与所述第三目标嵌入向量相似的第四目标向量以得到第二相似向量对。相应的，所述排序损失函数确定模块13，具体包括：

第一相似向量对损失计算子模块，用于计算所述第一相似向量对的第一排序损失以及所述第二相似向量对的第二排序损失。

不相似向量输出值确定子模块，用于利用所述第一目标嵌入向量对应的模型输出值以及所述第二目标嵌入向量对应的模型输出值，确定出所述第一目标嵌入向量对应的第一输出值；利用所述第三目标嵌入向量对应的模型输出值以及所述第四目标嵌入向量对应的模型输出值，确定出所述第三目标嵌入向量对应的第二输出值；

不相似向量对损失计算子模块，用于计算所述第一输出值和所述第二输出值的第一训练损失；

相应的，所述排序模型获取模块14，具体用于利用所述第一排序损失、第二排序损失和所述训练损失反向传播更新更新所述待训练排序模型，直至排序损失函数收敛得到所述排序模型。

在一种具体的实施方式中，所述不相似向量输出值确定子模块具体用于利用所述第一目标嵌入向量对应的模型输出值和该模型输出值对应的第一预设权重系数以及所述第二目标嵌入向量对应的模型输出值和该模型输出值对应的第二预设权重系数进行加权计算，以确定出所述第一目标嵌入向量对应的第一输出值；利用所述第三目标嵌入向量对应的模型输出值和该模型输出值对应的第三预设权重系数以及所述第四目标嵌入向量对应的模型输出值和该模型输出值对应的第四预设权重系数进行加权计算，以确定出所述第三目标嵌入向量对应的第二输出值。

在另一种具体的实施方式中，所述不相似向量输出值确定子模块具体用于利用所述第一目标嵌入向量对应的模型输出值和该模型输出值对应的第一权重系数以及所述第二目标嵌入向量对应的模型输出值和该模型输出值对应的第二权重系数进行加权计算，以确定出所述第一目标嵌入向量对应的第一输出值；利用所述第三目标嵌入向量对应的模型输出值和该模型输出值对应的第三权重系数以及所述第四目标嵌入向量对应的模型输出值和该模型输出值对应的第四权重系数进行加权计算，以确定出所述第一目标嵌入向量对应的第二输出值；其中，所述第一权重系数、所述第二权重系数、所述第三权重系数、所述第四权重系数为通过训练得到的系数。

在另一些具体的实施例中，所述相似向量对确定子模块具体包括：

向量聚类单元，用于对所述目标向量集进行聚类；

第二相似向量对确定单元，用于从每个簇中选取向量对以得到所述相似向量对。

相应的，所述排序损失函数确定模块13，具体包括：

第二相似向量对损失计算子模块，用于计算所述相似向量对的第四排序损失；

不相似向量损失计算子模块，用于利用每个簇中全部嵌入向量对应的模型输出值计算出每个簇对应的簇输出值；利用不同簇的所述簇输出值计算第二训练损失；

排序模型获取模块14，用于利用所述第四排序损失和所述第二训练损失反向传播更新所述待训练排序模型，直至排序损失函数收敛所述排序模型。

进一步的，本申请实施例还提供了一种电子设备。图11是根据一示例性实施例示出的电子设备20结构图，图中的内容不能被认为是对本申请的使用范围的任何限制。

图11为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的模型训练方法中的相关步骤。另外，本实施例中的电子设备20具体可以为服务器。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222及样本数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中样本数据223的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的模型训练方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本申请实施例还公开了一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行时，实现前述任一实施例公开的模型训练方法步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种音频识别方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种模型训练方法，其特征在于，包括：

基于所述相似向量对确定排序损失函数；

2.根据权利要求1所述的模型训练方法，其特征在于，所述基于所述第一嵌入向量集确定出相似的嵌入向量以得到相似向量对，包括：

将所述第一嵌入向量集确定为目标向量集；

确定所述目标向量集中相似的嵌入向量以得到相似向量对。

3.根据权利要求2所述的模型训练方法，其特征在于，所述确定所述目标向量集中相似的嵌入向量以得到相似向量对，包括：

计算所述目标向量集中不同嵌入向量的相似度；

4.根据权利要求2所述的模型训练方法，其特征在于，所述确定所述目标向量集中相似的嵌入向量以得到相似向量对，包括：

5.根据权利要求3所述的模型训练方法，其特征在于，所述基于所述相似度确定出相似的嵌入向量以得到所述相似向量对，包括：

6.根据权利要求3所述的模型训练方法，其特征在于，所述基于所述相似度确定出相似的嵌入向量以得到所述相似向量对，包括：

计算所述第一输出值和所述第二输出值的第一训练损失；

7.根据权利要求6所述的模型训练方法，其特征在于，所述利用所述第一目标嵌入向量对应的模型输出值以及所述第二目标嵌入向量对应的模型输出值，确定出所述第一目标嵌入向量对应的第一输出值；利用所述第三目标嵌入向量对应的模型输出值以及所述第四目标嵌入向量对应的模型输出值，确定出所述第三目标嵌入向量对应的第二输出值，包括：

8.根据权利要求6所述的模型训练方法，其特征在于，所述利用所述第一目标嵌入向量对应的模型输出值以及所述第二目标嵌入向量对应的模型输出值，确定出所述第一目标嵌入向量对应的第一输出值；利用所述第三目标嵌入向量对应的模型输出值以及所述第四目标嵌入向量对应的模型输出值，确定出所述第三目标嵌入向量对应的第二输出值，包括：

9.根据权利要求3所述的模型训练方法，其特征在于，所述基于所述相似向量对确定排序损失函数；利用所述排序损失函数对所述待训练排序模型进行训练，直至排序损失函数收敛得到排序模型，包括：

计算所述相似向量对的第四排序损失；

利用不同簇的所述簇输出值计算第二训练损失；

10.一种模型训练装置，其特征在于，包括：