CN117556273B

CN117556273B - 一种通过多图形处理器计算对比损失的方法和装置

Info

Publication number: CN117556273B
Application number: CN202410016072.9A
Authority: CN
Inventors: 徐富荣; 张涵笑; 郭清沛; 杨铭
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2024-01-05
Filing date: 2024-01-05
Publication date: 2024-04-05
Anticipated expiration: 2044-01-05
Also published as: CN117556273A

Abstract

本说明书实施例提供了一种通过多图形处理器计算对比损失的方法和装置，该方法包括：通过划分为M个处理器组的N个图形处理器处理目标批次样本的特征，其中，每个处理器组包括一至多个图形处理器，每个图形处理器分别处理目标批次样本包含的至少一个样本的特征；各个处理器组分别确定处理器组包含的图形处理器处理的特征之间的局部特征相似度，并将局部特征相似度保存到处理器组包括的图形处理器的对应显存中；分别根据各个处理器组包括的图形处理器的对应显存中保存的局部特征相似度，确定各个处理器组对应的分组对比损失；根据各个处理器组对应的分组对比损失，确定整体对比损失。

Description

一种通过多图形处理器计算对比损失的方法和装置

技术领域

本说明书一个或多个实施例涉及图形处理器和深度学习领域，尤其涉及一种通过多图形处理器计算对比损失的方法和装置。

背景技术

现代社会运行中产生的数据越来越多，其中包括文本、图像、音频、视频等多种模态的数据。这些多模态数据之间存在着复杂的关联和交互，所以希望高效地将这些数据结合起来例如用于多模态大模型训练，以提高多模态模型对于多模态数据的分析和处理能力。多模态大模型的训练中常常使用对比损失进行自监督或半监督训练，由于数据量巨大，常常通过在训练中使用大量图形处理器（Graphics Processing Unit，GPU），以加速模型的训练产出。现有的通过多图形处理器计算对比损失的方案，当图形处理器数量和训练批次样本的数量较多时，通常每个图形处理器均需要消耗大量的显存，这使得各个训练批次的样本数量难以提高，阻碍了多图形处理器带来的模型训练效率的提高。

发明内容

本说明书中的实施例旨在提供一种通过多图形处理器计算对比损失的方法和装置，可以在多图形处理器训练模型的过程中，将多图形处理器分组，对于每个处理器组分别计算对应的分组对比损失。进而，可以根据各个处理器组的分组对比损失，确定批次样本的整体对比损失。从而可以大大降低通过多图形处理器训练模型时，对于每个图形处理器的显存的消耗，从而使得在训练中可以增加各个训练批次的样本数量，提高通过多图形处理器训练模型的效率，解决现有技术的不足。

根据第一方面,提供了一种通过多图形处理器计算对比损失的方法，包括：

通过划分为M个处理器组的N个图形处理器处理目标批次样本的特征，其中，每个处理器组包括一至多个图形处理器，每个图形处理器分别处理目标批次样本包含的至少一个样本的特征；各个处理器组分别确定所述处理器组包含的图形处理器处理的特征之间的相似度矩阵，并将所述相似度矩阵保存到所述处理器组包括的图形处理器的对应显存中；

分别根据各个处理器组包括的图形处理器的对应显存中保存的相似度矩阵，确定各个处理器组对应的分组对比损失；根据各个处理器组对应的分组对比损失，确定整体对比损失。

在一种可能的实施方式中，各个处理器组分别确定所述处理器组包含的图形处理器处理的特征之间的相似度矩阵，并将所述相似度矩阵保存到所述处理器组包括的图形处理器的对应显存中，包括：各个处理器组中的各个图形处理器分别确定所述处理器组处理的特征之间的第一相似度矩阵，并将所述第一相似度矩阵保存到所述图形处理器的对应显存中；

分别根据各个处理器组包括的图形处理器的对应显存中保存的相似度矩阵，确定各个处理器组对应的分组对比损失，包括：

各个处理器组中的各个图像处理器分别根据对应显存中保存的第一相似度矩阵，确定所述图像处理器对应的第一对比损失；

分别根据各个处理器组中的各个图像处理器对应的第一对比损失，确定各个处理器组对应的分组对比损失。

在一种可能的实施方式中，各个处理器组分别确定所述处理器组包含的图形处理器处理的特征之间的相似度矩阵，并将所述相似度矩阵保存到所述处理器组包括的图形处理器的对应显存中，包括：各个处理器组中的各个图形处理器分别确定所述图形处理器处理的特征、与所述处理器组处理的特征之间的第二相似度矩阵，并将所述第二相似度矩阵保存到所述图形处理器的对应显存中；

各个处理器组中的各个图像处理器分别根据对应显存中保存的第二相似度矩阵，确定所述图像处理器对应的第二对比损失；

分别根据各个处理器组中的各个图像处理器对应的第二对比损失，确定各个处理器组对应的分组对比损失。

在一种可能的实施方式中，根据各个处理器组对应的分组对比损失，确定整体对比损失，包括：根据各个处理器组对应的分组对比损失的加权均值，确定整体对比损失。

在一种可能的实施方式中，各个处理器组包括的图形处理器数量相等。

在一种可能的实施方式中，所述目标批次样本中包括文本样本、图片样本、视频样本、音频样本中的一种或多种。

根据第二方面，提供一种通过多图形处理器计算对比损失的装置，包括：

相似度确定单元，配置为，通过划分为M个处理器组的N个图形处理器处理目标批次样本的特征，其中，每个处理器组包括一至多个图形处理器，每个图形处理器分别处理目标批次样本包含的至少一个样本的特征；各个处理器组分别确定所述处理器组包含的图形处理器处理的特征之间的相似度矩阵，并将所述相似度矩阵保存到所述处理器组包括的图形处理器的对应显存中；

整体损失确定单元，配置为，分别根据各个处理器组包括的图形处理器的对应显存中保存的相似度矩阵，确定各个处理器组对应的分组对比损失；根据各个处理器组对应的分组对比损失，确定整体对比损失。

在一种可能的实施方式中，相似度确定单元，进一步配置为，各个处理器组中的各个图形处理器分别确定所述处理器组处理的特征之间的第一相似度矩阵，并将所述第一相似度矩阵保存到所述图形处理器的对应显存中；

整体损失确定单元，进一步配置为，各个处理器组中的各个图像处理器分别根据对应显存中保存的第一相似度矩阵，确定所述图像处理器对应的第一对比损失；分别根据各个处理器组中的各个图像处理器对应的第一对比损失，确定各个处理器组对应的分组对比损失。

在一种可能的实施方式中，相似度确定单元，进一步配置为，各个处理器组中的各个图形处理器分别确定所述图形处理器处理的特征、与所述处理器组处理的特征之间的第二相似度矩阵，并将所述第二相似度矩阵保存到所述图形处理器的对应显存中；

整体损失确定单元，进一步配置为，各个处理器组中的各个图像处理器分别根据对应显存中保存的第二相似度矩阵，确定所述图像处理器对应的第二对比损失；分别根据各个处理器组中的各个图像处理器对应的第二对比损失，确定各个处理器组对应的分组对比损失。

在一种可能的实施方式中，整体损失确定单元，进一步配置为，根据各个处理器组对应的分组对比损失的加权均值，确定整体对比损失。

根据第三方面,提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面所述的方法。

根据第四方面,提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面所述的方法。

利用以上各个方面中的方法、装置、计算设备、存储介质中的一个或多个，可以大大降低通过多图形处理器训练模型时，各个图形处理器对于显存的消耗，从而使得在训练中可以增加各个训练批次的样本数量，提高通过多图形处理器训练模型的效率。

附图说明

为了更清楚说明本发明实施例的技术方案，下面将对实施例描述中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出通过多图形处理器计算对比损失的方案的示意图；

图2示出根据本说明书实施例的一种通过多图形处理器计算对比损失的方法的示意图；

图3示出根据本说明书实施例的通过多图形处理器计算对比损失的方法的流程图；

图4示出根据本说明书一实施例的通过多图形处理器计算对比损失的方法的示意图；

图5示出根据本说明书另一实施例的通过多图形处理器计算对比损失的方法的示意图；

图6示出根据本说明书实施例的一种通过多图形处理器计算对比损失的装置的结构图。

具体实施方式

下面将结合附图，对本发明书提供的方案进行描述。

如前所述，现代社会运行中产生的数据越来越多，其中包括文本、图像、音频、视频等多种模态的数据。这些多模态数据之间存在着复杂的关联和交互，所以希望高效地将这些数据结合起来例如用于多模态大模型训练，以提高多模态模型对于多模态数据的分析和处理能力。多模态大模型的训练中常常使用对比损失进行自监督或半监督训练。对比损失（Contrastive Loss），是一种用于训练神经网络的损失函数。通过对比损失，可以学习一种映射关系，使得在高维空间中相同类别但特征距离较远的样本特征，通过函数映射到低维空间后，特征距离变近；不同类别但特征距离较近的点通过映射后在低维空间特征距离变得更远。由于样本数据量巨大，常常通过在模型训练中使用大量图形处理器（GraphicsProcessing Unit，GPU）例如用于处理样本特征以及计算对比损失，以加快模型的训练速度。神经网络模型的训练，通常根据多批次的样本分别计算训练损失，并根据各批次样本呢对应的训练损失对于模型参数进行多次迭代更新。现有的通过多图形处理器训练模型的方案中，通常当任意批次样本的样本数量较多时，每个图形处理器均需要消耗大量的显存。具体而言，每个图形处理器均需要根据全部图形处理器处理的特征来计算特征的相似性数据并保存在显存中。因此，当任意批次处理的特征数量较大时，这种处理方式可以消耗每个图形处理器的大量显存，这使得训练的各批次样本数量难以提高，阻碍了通过多图形处理器训练模型的训练效率的提高。

图1示出根据通过多图形处理器计算对比损失的方案的示意图。如图1所示的例子中，例如通过n个图形处理器（GPU1~GPUn），处理目标批次的例如包括f个样本的样本特征。其中，每个图形处理器例如处理其中f/n个样本的特征。现有的计算目标批次的样本的对比损失的方法，通常是每个图形处理器均计算目标批次样本的全量特征（包括本处理器处理的样本特征，与其他n-1个图形处理器处理的特征）之间的相似度矩阵，并将全量特征之间的相似度矩阵保存的各个图形处理器各自的对应显存中。然后，各个图形处理器根据各自对应显存中保存的全量特征的相似度矩阵，分别计算全量特征对应的对比损失。在一个例子中，例如目标批次样本的总样本数量f例如为128,利用共16个GPU处理目标批次样本的样本特征，每个GPU处理其中8个样本的样本特征。通常对于每个GPU，均要计算目标批次的全量样本特征（128个样本）的相似度矩阵（例如维度为128*128）保存到该GPU的对应显存中，并根据该显存中保存的全量样本特征（的相似度矩阵，计算目标批次的全量样本对应的对比损失。由此可见，由于每个图形处理器的对应显存均保存全量样本的相似度数据，这种处理方式可以消耗每个图形处理器的大量显存。尤其若增加各训练批次的样本数量，每个图形处理器对于显存的消耗呈现指数级别的增加，对于显存的大量消耗使得各个训练批次的样本数量难以提高，阻碍了通过多图形处理器训练模型的训练迭代速度的提高，降低了通过多图形处理器训练模型的训练效率。

为了解决上述技术问题，本说明书实施例提供了一种通过多图形处理器计算对比损失的方法。图2示出根据本说明书实施例的一种通过多图形处理器计算对比损失的方法的示意图。如图2所示的例子中，例如可以将用于处理目标批次样本的样本特征的图形处理器进行分组，每个处理器组中的图形处理器分别根据本组图形处理器处理的样本特征，确定本分组处理器所处理特征的相似度矩阵并保存到本组图形处理器的对应显存中，然后，各个处理器组中的图形处理器分别根据本处理器的对应显存中保存的相似度矩阵，计算本分组对应的对比损失，或称分组对比损失。此后，可以根据各个处理器分组的分组对比损失，确定目标批次的全量样本对应的整体对比损失。在一个例子中，例如目标批次样本的总样本数量f例如为128,利用共16个GPU处理目标批次样本的样本特征，每个GPU处理其中8个样本的样本特征。可以将16个GPU例如划分为4个分组，每组GPU可以分别确定本组GPU处理的样本特征之间的相似度矩阵（例如维度为32*32的组内特征相似度矩阵），并将其保存到本组各GPU的对应显存中。接着，可以根据各个分组GPU的对应显存中保存的相似度矩阵，确定各个分组对应的分组对比损失。此后，可以根据各个分组对应的分组对比损失，确定整体对比损失。

该方法具有如下优点：可以在通过多图形处理器训练模型的过程中，通过对图形处理器分组，在各组图形处理器的对应显存中保存目标批次样本中本组处理器处理的部分样本的样本特征的相似性矩阵。并可以根据保存的各分组的相似性矩阵，确定各分组对应的分组对比损失，进而，根据各分组对应的分组对比损失，确定目标批次样本对应的整体对比损失。从而，在通过多图形处理器训练模型的过程中，大大减少了各个图形处理器的对应显存中保存的特征相似度数据的数量，大大降低各个图形处理器对于显存的消耗，使得在模型训练过程中可以通过增加图形处理器的数量加快训练的迭代速度，提高通过多图形处理器训练模型的效率。

下面进一步阐述该方法的详细过程。图3示出根据本说明书实施例的一种通过多图形处理器计算对比损失的方法的流程图。如图3所述，该方法至少包括如下步骤：

步骤S301，通过划分为M个处理器组的N个图形处理器处理目标批次样本的特征，其中，每个处理器组包括一至多个图形处理器，每个图形处理器分别处理目标批次样本包含的至少一个样本的特征；各个处理器组分别确定所述处理器组包含的图形处理器处理的特征之间的相似度矩阵，并将所述相似度矩阵保存到所述处理器组包括的图形处理器的对应显存中

步骤S303，分别根据各个处理器组包括的图形处理器的对应显存中保存的相似度矩阵，确定各个处理器组对应的分组对比损失；根据各个处理器组对应的分组对比损失，确定整体对比损失。

首先，在步骤S301，通过划分为M个处理器组的N个图形处理器处理目标批次样本的特征。每个处理器组可以包括一至多个图形处理器，每个图形处理器分别处理目标批次样本包含的至少一个样本的特征。在一个实施例中，各个处理器组包括的图形处理器数量可以相等。

图形处理器（Graphics Processing Unit，GPU），又称显示核心（Display Core）、视觉处理器（Video Processor）、显示芯片（Display Chip）或图形芯片（Graphics Chip）等，是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上执行绘图运算工作的微处理器。通常，以图形处理器为核心的主板扩展卡也称显示卡或“显卡”。通常，各个图形处理器分别具有对应的显存。显存，又称为显示内存，用来存储图形处理器处理过或者即将处理的数据，或者说用来协助图形处理器在运行图形处理任务时进行数据交换的缓存空间。由于图形处理器可以将计算任务分成更小的任务，并分发给多个处理单元同时处理，这种基于数据并行的计算方式非常适合神经网络的训练。因此，图形处理器也广泛被用于神经网络的训练。

该步骤中，可以通过划分为M个处理器组的N个图形处理器处理目标批次样本的特征。在不同的实施例中，可以在训练不同类型的神经网络模型中，通过多图形处理器处理目标批次样本的特征，本说明书对此不做限制。进而，在不同的实施例中，根据训练的具体模型，通过多图形处理器处理目标批次样本的特征的具体方式可以不同。在一个实施例中，例如可以根据被训练模型包括的各网络层对应的数据处理方式，通过多图形处理器提取目标批次样本的样本特征。

在不同的实施例中，目标批次样本包括的样本的具体模态可以不同，本说明书对此不作限制。在一个实施例中，目标批次样本可以包括文本样本、图片样本、视频样本、音频样本中的一种或多种。在一个实施例中，所述目标批次中还可以包括正样本对和负样本对。正样本对是指同类别样本构成的样本对（pair），负样本对是指不同类别的样本构成的样本对。在不同的实施例中，可以采用不同具体类型的图形处理器，本说明书对此不作限制。

各个处理器组可以分别确定该处理器组包含的图形处理器处理的特征之间的相似度矩阵，并将所述相似度矩阵保存到所述处理器组包括的图形处理器的对应显存中。在不同的实施例中，各处理器组确定和保存相似度矩阵的具体方式可以不同。在一个实施例中，处理器组中的各个图形处理器可以分别确定该组处理器组处理的样本特征之间的第一相似度矩阵，并将第一相似度矩阵保存到该图形处理器的对应显存中。图4示出根据本说明书一实施例的通过多图形处理器计算对比损失的方法的示意图。如图4所示，例如通过g组GPU，每组4个GPU，共4*g个GPU处理弥补目标批次的f个样本的样本特征。其中，每个GPU可以例如处理f/4g个样本的样本特征，每组GPU可以处理f/g个样本的样本特征。对于任意GPU组，该组内的各GPU可以分别确定本组GPU处理的特征（例如维度为j个，j=f/g）之间的第一相似度矩阵（例如维度为j*j），即用于保存本组GPU处理的特征中各两个特征之间的相似度的矩阵，并将第一相似度矩阵保存到该GPU对应的显存中。在不同的具体实施例中，确定两个特征之间的相似度具体方式可以不同，在一个具体的实施例中，例如可以通过两特征之间的欧式距离，确定两个特征之间的相似度。

在另一个实施例中，各个处理器组中的各个图形处理器可以分别确定该图形处理器处理的特征、与本处理器组处理的特征之间的第二相似度矩阵，并将第二相似度矩阵保存到该图形处理器的对应显存中。图5示出根据本说明书另一实施例的通过多图形处理器计算对比损失的方法的示意图。如图5所示，例如通过g组GPU，每组4个GPU，共4*g个GPU处理弥补目标批次的f个样本的样本特征。其中，每个GPU可以例如处理f/4g个样本的样本特征，每组GPU可以处理f/g个样本的样本特征。对于任意GPU组，该组内的各GPU可以分别确定该处理器处理的样本特征（例如为k个，k=f/4g）与本组GPU处理的样本特征（例如为j个，j=f/g）之间的第二相似度矩阵（例如维度为k*j），并将该第二相似度矩阵保存到该GPU对应的显存中。

然后，可以在步骤S303，分别根据各个处理器组包括的图形处理器的对应显存中保存的相似度矩阵，确定各个处理器组对应的分组对比损失；根据各个处理器组对应的分组对比损失，确定整体对比损失。

如前所述，在不同的实施例中，各处理器组确定和保存相似度矩阵的具体方式可以不同。因此，在不同的实施例中，确定各个处理器组对应的分组对比损失的具体方式也可以不同。在上述各处理组中各图形处理器确定和保存第一相似度矩阵的实施例中，各个处理器组中的各个图像处理器可以分别根据对应显存中保存的第一相似度矩阵，确定所述图像处理器对应的第一对比损失。在不同的具体实施例中，可以通过不同的具体损失函数，确定第一对比损失，本说明书对此限制。在一个具体的实施例中，可以通过如下损失函数，确定第一对比损失:,其中，L为第一对比损失，N为本组处理的样本特征数量，/>为样本匹配标签，/>为样本特征相似度（例如为样本特征间欧式距离），m为预定阈值。进而，可以分别根据各个处理器组中的各个图像处理器对应的第一对比损失，确定各个处理器组对应的分组对比损失，如图4所示。在不同的具体实施例中，根据各个图像处理器对应的第一对比损失，确定分组对比损失的具体方式可以不同。在一个具体的实施例中，例如可以根据各个图像处理器对应的第一对比损失的均值，确定分组对比损失。

在上述各处理组中各图形处理器确定和保存第二相似度矩阵的实施例中，各个处理器组中的各个图像处理器可以分别根据对应显存中保存的第二相似度矩阵，确定所述图像处理器对应的第二对比损失。与第一对比损失类似，在不同的具体实施例中，也可以通过不同的具体损失函数，确定第二对比损失，这里不再赘述。进而，可以分别根据各个处理器组中的各个图像处理器对应的第二对比损失，确定各个处理器组对应的分组对比损失，如图5所示。在不同的具体实施例中，根据各个图像处理器对应的第二对比损失，确定分组对比损失的具体方式可以不同。在一个具体的实施例中，例如可以根据各个图像处理器对应的第二对比损失的均值，确定分组对比损失。

在不同的实施例中，根据各个处理器组对应的分组对比损失，确定整体对比损失的具体方式也可以不同。在一个实施例中，可以根据各个处理器组对应的分组对比损失的加权均值，确定整体对比损失。

根据又一方面的实施例，还提供一种通过多图形处理器计算对比损失的的装置。图6示出根据本说明书实施例的一种通过多图形处理器计算对比损失的装置的结构图，如图6所示，该装置600包括：

相似度确定单元601，配置为，相似度确定单元，配置为，通过划分为M个处理器组的N个图形处理器处理目标批次样本的特征，其中，每个处理器组包括一至多个图形处理器，每个图形处理器分别处理目标批次样本包含的至少一个样本的特征；各个处理器组分别确定所述处理器组包含的图形处理器处理的特征之间的相似度矩阵，并将所述相似度矩阵保存到所述处理器组包括的图形处理器的对应显存中；

整体损失确定单元602，配置为，分别根据各个处理器组包括的图形处理器的对应显存中保存的相似度矩阵，确定各个处理器组对应的分组对比损失；根据各个处理器组对应的分组对比损失，确定整体对比损失。

在一个实施例中，相似度确定单元601，可以进一步配置为，各个处理器组中的各个图形处理器分别确定所述处理器组处理的特征之间的第一相似度矩阵，并将所述第一相似度矩阵保存到所述图形处理器的对应显存中；

整体损失确定单元602，可以进一步配置为，各个处理器组中的各个图像处理器分别根据对应显存中保存的第一相似度矩阵，确定所述图像处理器对应的第一对比损失；分别根据各个处理器组中的各个图像处理器对应的第一对比损失，确定各个处理器组对应的分组对比损失。

在一个实施例中，相似度确定单元601，可以进一步配置为，各个处理器组中的各个图形处理器分别确定所述图形处理器处理的特征、与所述处理器组处理的特征之间的第二相似度矩阵，并将所述第二相似度矩阵保存到所述图形处理器的对应显存中；

整体损失确定单元602，可以进一步配置为，各个处理器组中的各个图像处理器分别根据对应显存中保存的第二相似度矩阵，确定所述图像处理器对应的第二对比损失；分别根据各个处理器组中的各个图像处理器对应的第二对比损失，确定各个处理器组对应的分组对比损失。

在一个实施例中，整体损失确定单元601，可以进一步配置为，根据各个处理器组对应的分组对比损失的加权均值，确定整体对比损失。

在一个实施例中，各个处理器组包括的图形处理器数量相等。

在一个实施例中，所述目标批次样本中包括文本样本、图片样本、视频样本、音频样本中的一种或多种。

本说明书实施例又一方面提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述任一项方法。

本说明书实施例再一方面提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述任一项方法。

需要理解，本文中的“第一”，“第二”等描述，仅仅为了描述的简单而对相似概念进行区分，并不具有其他限定作用。

虽然本说明书一个或多个实施例提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行（例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境）。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员应该可以意识到，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本本说明书一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本说明书一个或多个实施例的实施例而已，并不用于限制本本说明书一个或多个实施例。对于本领域技术人员来说，本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在权利要求范围之内。

Claims

1.一种通过多图形处理器计算对比损失的方法，包括：

通过划分为M个处理器组的N个图形处理器处理目标批次样本的特征，其中，每个处理器组包括多个图形处理器，每个图形处理器分别处理目标批次样本包含的至少一个样本的特征；各个处理器组分别确定所述处理器组包含的图形处理器处理的特征之间的相似度矩阵，并将所述相似度矩阵保存到所述处理器组包括的图形处理器的对应显存中；分别根据各个处理器组包括的图形处理器的对应显存中保存的相似度矩阵，确定各个处理器组对应的分组对比损失，根据各个处理器组对应的分组对比损失，确定整体对比损失；

所述各个处理器组分别确定所述处理器组包含的图形处理器处理的特征之间的相似度矩阵，并将所述相似度矩阵保存到所述处理器组包括的图形处理器的对应显存中，包括：各个处理器组中的各个图形处理器分别确定所述处理器组处理的特征之间的第一相似度矩阵，并将所述第一相似度矩阵保存到所述图形处理器的对应显存中；

所述分别根据各个处理器组包括的图形处理器的对应显存中保存的相似度矩阵，确定各个处理器组对应的分组对比损失，包括：各个处理器组中的各个图像处理器分别根据对应显存中保存的第一相似度矩阵，确定所述图像处理器对应的第一对比损失，分别根据各个处理器组中的各个图像处理器对应的第一对比损失，确定各个处理器组对应的分组对比损失；

或

所述各个处理器组分别确定所述处理器组包含的图形处理器处理的特征之间的相似度矩阵，并将所述相似度矩阵保存到所述处理器组包括的图形处理器的对应显存中，包括：各个处理器组中的各个图形处理器分别确定所述图形处理器处理的特征、与所述处理器组处理的特征之间的第二相似度矩阵，并将所述第二相似度矩阵保存到所述图形处理器的对应显存中；

所述分别根据各个处理器组包括的图形处理器的对应显存中保存的相似度矩阵，确定各个处理器组对应的分组对比损失，包括：各个处理器组中的各个图像处理器分别根据对应显存中保存的第二相似度矩阵，确定所述图像处理器对应的第二对比损失，分别根据各个处理器组中的各个图像处理器对应的第二对比损失，确定各个处理器组对应的分组对比损失。

2.根据权利要求1所述的方法，其中，根据各个处理器组对应的分组对比损失，确定整体对比损失，包括：

根据各个处理器组对应的分组对比损失的加权均值，确定整体对比损失。

3.根据权利要求1所述的方法，其中，各个处理器组包括的图形处理器数量相等。

4.根据权利要求1所述的方法，其中，所述目标批次样本中包括文本样本、图片样本、视频样本、音频样本中的一种或多种。

5.一种通过多图形处理器计算对比损失的装置，包括：

相似度确定单元，配置为，通过划分为M个处理器组的N个图形处理器处理目标批次样本的特征，其中，每个处理器组包括多个图形处理器，每个图形处理器分别处理目标批次样本包含的至少一个样本的特征；各个处理器组分别确定所述处理器组包含的图形处理器处理的特征之间的相似度矩阵，并将所述相似度矩阵保存到所述处理器组包括的图形处理器的对应显存中；

整体损失确定单元，配置为，分别根据各个处理器组包括的图形处理器的对应显存中保存的相似度矩阵，确定各个处理器组对应的分组对比损失，根据各个处理器组对应的分组对比损失，确定整体对比损失；

相似度确定单元，还配置为，各个处理器组中的各个图形处理器分别确定所述处理器组处理的特征之间的第一相似度矩阵，并将所述第一相似度矩阵保存到所述图形处理器的对应显存中；

整体损失确定单元，还配置为，各个处理器组中的各个图像处理器分别根据对应显存中保存的第一相似度矩阵，确定所述图像处理器对应的第一对比损失，分别根据各个处理器组中的各个图像处理器对应的第一对比损失，确定各个处理器组对应的分组对比损失；

或

相似度确定单元，还配置为，各个处理器组中的各个图形处理器分别确定所述图形处理器处理的特征、与所述处理器组处理的特征之间的第二相似度矩阵，并将所述第二相似度矩阵保存到所述图形处理器的对应显存中；

整体损失确定单元，还配置为，各个处理器组中的各个图像处理器分别根据对应显存中保存的第二相似度矩阵，确定所述图像处理器对应的第二对比损失，分别根据各个处理器组中的各个图像处理器对应的第二对比损失，确定各个处理器组对应的分组对比损失。

6.根据权利要求5所述的装置，其中，整体损失确定单元，进一步配置为，

7.根据权利要求5所述的装置，其中，各个处理器组包括的图形处理器数量相等。

8.根据权利要求5所述的装置，其中，所述目标批次样本中包括文本样本、图片样本、视频样本、音频样本中的一种或多种。

9.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-4中任一项的所述的方法。

10.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-4中任一项所述的方法。