CN115906921A

CN115906921A - 深度学习模型的训练方法、目标对象检测方法和装置

Info

Publication number: CN115906921A
Application number: CN202211534766.9A
Authority: CN
Inventors: 沈亮; 郝宏翔; 于佃海
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2023-04-04
Anticipated expiration: 2042-11-30
Also published as: CN115906921B

Abstract

本公开提供了一种深度学习模型的训练方法、目标对象检测方法和装置，涉及人工智能领域，尤其涉及深度学习领域。具体实现方案为：使用门控网络根据第i张量特征、第i权重矩阵和第i‑1统计矩阵，得到第i路由矩阵；根据第i路由矩阵，从E个专家网络中选出作为路由网络的第一目标专家网络，并将第i张量特征分配给第一目标专家网络；使用第一目标专家网络对第i张量特征进行处理，得到与第i张量特征对应的第i样本结果；根据第i样本结果、多个第i样本数据的标签和第i门控损失来调整初始深度学习模型的参数，得到第i候选深度学习模型；响应于确定训练操作的累计次数达到预设的次数阈值，确定第i候选深度学习模型为第一目标深度学习模型。

Description

深度学习模型的训练方法、目标对象检测方法和装置

技术领域

本公开涉及计算机技术领域，尤其涉及人工智能、深度学习领域。具体涉及一种深度学习模型的训练方法和装置、一种目标对象检测方法和装置、电子设备、存储介质及计算机程序产品。

背景技术

在深度学习领域，混合专家(Mixure-of-Experts，MoE)模型是实现超大规模模型训练的技术路径之一。混合专家模型包括主干网络(Backbone)、门控网络(Gate)和多个专家网络(Expert)。其中，门控网络的路由选择对于整个模型的精度和性能有着较大的影响。在一些场景下，门控网络的路由选择往往存在偏好的现象，即门控网络会倾向于稳定地选择极个别专家网络来进行路由，从而导致模型的精度较低。

发明内容

本公开提供了一种深度学习模型的训练方法和装置、一种目标对象检测方法和装置、电子设备、存储介质及计算机程序产品。

根据本公开的一方面，提供了一种深度学习模型的训练方法，包括：对部署于目标计算设备中的初始深度学习模型执行多次训练操作，得到第一目标深度学习模型；其中，初始深度学习模型包括门控网络和E个专家网络，E为大于1的整数，训练操作包括：使用门控网络根据第i张量特征、第i权重矩阵和第i-1统计矩阵，得到第i路由矩阵；其中，第i张量特征是根据多个第i样本数据得到的；第i-1统计矩阵是根据i-1个路由矩阵确定的，i为正整数；根据第i路由矩阵，从E个专家网络中选出作为路由网络的第一目标专家网络，并将第i张量特征分配给第一目标专家网络；使用第一目标专家网络对第i张量特征进行处理，得到与第i张量特征对应的第i样本结果；根据第i样本结果、多个第i样本数据的标签和第i门控损失来调整初始深度学习模型的参数，得到第i候选深度学习模型；其中，第i门控损失是根据第i路由矩阵来确定的；响应于确定训练操作的累计次数达到预设的次数阈值，确定第i候选深度学习模型为第一目标深度学习模型。

根据本公开的实施例，所述方法还包括：对第一目标深度学习模型进行训练，得到第二目标深度学习模型。

根据本公开的另一方面，提供了一种目标对象检测方法，包括：将待处理图像输入第二目标深度学习模型，得到待处理图像中目标对象的检测结果；其中，第二目标深度学习模型是利用以上所述的深度学习模型的训练方法训练得到的。

根据本公开的另一方面，提供了一种深度学习模型的训练装置，包括：第一训练模块，用于对部署于目标计算设备中的初始深度学习模型执行多次训练操作，得到第一目标深度学习模型；其中，初始深度学习模型包括门控网络和E个专家网络，E为大于1的整数，第一训练模块包括：第一训练单元，用于使用门控网络根据第i张量特征、第i权重矩阵和第i-1统计矩阵，得到第i路由矩阵；其中，第i张量特征是根据多个第i样本数据得到的；第i-1统计矩阵是根据i-1个路由矩阵确定的，i为正整数；第一分配单元，用于根据第i路由矩阵，从E个专家网络中选出作为路由网络的第一目标专家网络，并将第i张量特征分配给第一目标专家网络；第一处理单元，用于使用第一目标专家网络对第i张量特征进行处理，得到与第i张量特征对应的第i样本结果；第一调整单元，用于根据第i样本结果、多个第i样本数据的标签和第i门控损失来调整初始深度学习模型的参数，得到第i候选深度学习模型；其中，第i门控损失是根据第i路由矩阵来确定的；确定单元，用于响应于确定训练操作的累计次数达到预设的次数阈值，确定第i候选深度学习模型为第一目标深度学习模型。

根据本公开的实施例，深度学习模型的训练装置还包括：第二训练模块，用于对第一目标深度学习模型进行训练，得到第二目标深度学习模型。

根据本公开的另一方面，提供了一种目标对象检测装置，包括：检测模块，用于将待处理图像输入第二目标深度学习模型，得到待处理图像中目标对象的检测结果；其中，第二目标深度学习模型是利用以上所述的深度学习模型的训练装置训练得到的。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开提供的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行根据本公开提供的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开的实施例的深度学习模型的训练方法的流程图；

图2是根据本公开实施例的获取第i路由矩阵的示意图；

图3是根据本公开另一实施例的深度学习模型的训练方法的流程图；

图4是根据本公开的实施例的目标对象检测方法的流程图；

图5是根据本公开的实施例的深度学习模型的训练装置的框图；

图6是根据本公开的实施例的目标对象检测装置的框图；以及

图7是用来实现本公开实施例的深度学习模型的训练方法和目标对象检测方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

应注意，以下方法中各个操作的序号仅作为该操作的表示以便描述，而不应被看作表示该各个操作的执行顺序。除非明确指出，否则该方法不需要完全按照所示顺序来执行。

在深度学习领域，混合专家模型是实现超大规模模型训练的技术路径之一。

混合专家模型例如可以包括主干网络、门控网络和多个专家网络。输入数据经过主干网络(通常为全连接层)的处理之后，得到处理结果。之后，由门控网络为处理结果选出作为路由网络的专家网络。门控网络可以选择评分最高的k(k为正整数)个专家网络作为路由网络，并将处理结果分配给对应的专家网络。最后，选出的k个专家网络对处理结果进行处理，得到最终的输出结果。在此过程中，门控网络可以基于本次路由输出门控损失值。该门控损失值可以用于衡量本次路由网络选择的偏差，一般来说，门控损失值越小，说明本次门控网络的路由选择更合理和更均匀。

但是，在一些场景下，门控网络的路由选择往往存在偏好的现象，即门控网络会倾向于稳定地选择极个别专家网络来进行路由，从而导致模型的精度较低。

图1是根据本公开的实施例的深度学习模型的训练方法的流程图。

如图1所示，深度学习模型的训练方法100包括操作S110。

在操作S110，对部署于目标计算设备中的初始深度学习模型执行多次训练操作，得到第一目标深度学习模型。

根据本公开的实施例，上述深度学习模型的训练方法例如可以由目标计算设备执行。目标计算设备可以对本地部署的初始深度学习模型执行多次训练操作，得到第一目标深度学习模型。

根据本公开的实施例，上述操作S110中，初始深度学习模型包括门控网络和E个专家网络，E为大于1的整数，上述训练操作例如可以包括操作S111～S115。

在操作S111，使用门控网络根据第i张量特征、第i权重矩阵和第i-1统计矩阵，得到第i路由矩阵。

在操作S112，根据第i路由矩阵，从E个专家网络中选出作为路由网络的第一目标专家网络，并将第i张量特征分配给第一目标专家网络。

在操作S113，使用第一目标专家网络对第i张量特征进行处理，得到与第i张量特征对应的第i样本结果。

在操作S114，根据第i样本结果、多个第i样本数据的标签和第i门控损失来调整初始深度学习模型的参数，得到第i候选深度学习模型。

在操作S115，响应于确定训练操作的累计次数达到预设的次数阈值，确定第i候选深度学习模型为第一目标深度学习模型。

根据本公开的实施例，第i张量特征例如可以是根据多个第i样本数据得到的，其中i为正整数。示例性地，可以利用主干网络对多个第i样本数据进行特征提取，得到第i张量特征。第i张量特征包括与多个第i样本数据分别对应的第i特征向量。

根据本公开的实施例，第i权重矩阵是初始深度学习模型中门控网络对应的权重矩阵。第i权重矩阵可以表示为一个H*E维大小的矩阵。H表示第i特征向量的数量，E表示专家网络的数量。其中，第i权重矩阵中每一行包括E个权重值，这E个权重值分别表示门控网络选择E个专家网络路由第h个第i特征向量的第i权重值，h为不大于H的正整数。

根据本公开的实施例，第i-1统计矩阵是根据i-1个路由矩阵确定的。其中，i-1个路由矩阵表征了在i-1次训练操作过程中门控网络的路由选择结果。根据i-1个路由矩阵，可以得到i-1次训练操作中各个专家网络的路由频次，即第i-1统计矩阵。

需要说明的是，当i＝1时，即对初始深度学习模型进行第一次训练操作时，由于不存在历史路由情况，因此，在计算第1路由矩阵时，可以忽略第0统计矩阵。也就是说，第1路由矩阵是根据第1张量特征和第1权重矩阵来确定的。示例性地，可以将第1张量特征和第1权重矩阵相乘，得到第1路由矩阵。

下面结合示例说明第i-1统计矩阵的获取方式。可以理解，以下示例说明旨在帮助理解本公开的方案，并非限定本公开的保护范围。

例如，假设初始深度学习模型包括3(即E＝3)个专家网络，例如专家网络1、专家网络2和专家网络3。

根据第1路由矩阵，得到专家网络1、专家网络2和专家网络3在第1次训练操作过程中被门控网络选择的次数分别1次、1次和4次。

根据第2路由矩阵，得到专家网络1、专家网络2和专家网络3在第2次训练操作过程中被门控网络选择的次数分别1次、1次和2次。

由此可知，专家网络1、专家网络2和专家网络3在前2次训练操作过程中被门控网络选择的次数分别为2次、2次和6次。

为了便于说明各个专家网络的路由情况，可以将各个专家网络的路由次数映射到0～1区间，得到各个专家网络的路由频次。例如，专家网络1、专家网络2和专家网络3的路由频次分别为0.2、0.2和0.6。

根据各个专家网络的路由频次，可以得到第2统计矩阵。第2统计矩阵例如为[0.2，0.2，0.6]。根据第2统计矩阵可知，相对于专家网络1和专家网络2来说，专家网络3的路由频次较高。

获取第i张量特征、第i权重矩阵和第i-1统计矩阵之后，可以使用门控网络根据第i张量特征、第i权重矩阵和第i-1统计矩阵，得到第i路由矩阵。第i路由矩阵表征了第i次训练操作中门控网络对各个第i特征向量的路由选择结果。

可以理解，由于第i-1统计矩阵表征了i-1次训练操作过程中门控网络的路由选择结果，因此，可以根据第i-1统计矩阵来确定各个专家网络的路由频次。如果某个(些)专家网络的路由频次较高，说明门控网络倾向于稳定选择该(些)专家网络来进行路由，也就是说，门控网络在路由选择过程中存在偏好的现象。如果不对这种偏好进行纠正，将会影响模型的精度，从而降低模型的准确性。

为了使门控网络能够均衡地选择专家网络，可以根据第i-1统计矩阵来平衡门控网络对专家网络的选择。例如，对于第i-1统计矩阵中高频次的专家网络选择，可以在第i次训练时对其进行打压，以降低选择该专家网络的频次。对于第-1统计矩阵中低频次的专家网络选择，则可以在第i次训练时对其进行补偿，以提高选择该专家网络的频次。由此，可以降低门控网络在路由选择过程中存在的偏好，进而提高模型训练的准确性。

根据第i路由矩阵，可以从E个专家网络中选出作为路由网络的至少一个第一目标专家网络，并将第i张量特征中的多个第i特征向量分配给对应的第一目标专家网络。

接下来，可以使用各个第一目标专家网络对第i张量特征进行处理，得到与第i张量特征对应的第i样本结果。

例如，可以使用各个第一目标专家网络对相应的第i特征向量进行处理，得到与第i张量特征对应的第i样本结果。

接下来，可以根据第i样本结果、多个第i样本数据的标签和第i门控损失来调整初始深度学习模型的参数，得到第i候选深度学习模型。由此完成第i次训练操作，得到第i次训练后的深度学习模型，即第i候选深度学习模型。

根据本公开的实施例，第i门控损失例如可以是根据第i路由矩阵来确定的。由于第i路由矩阵表征了第i次训练操作中门控网络对各个第i特征向量的路由选择结果。因此，可以根据第i路由矩阵来确定第i门控损失，以便根据第i门控损失来衡量第i次路由网络选择的好坏。

获取第i候选深度学习模型之后，可以确定训练操作的累计次数是否达到预设的次数阈值。如果确定训练操作的累计次数达到预设的次数阈值，可以将第i候选深度学习模型作为第一目标深度学习模型。

接下来，如果确定训练操作的累计次数未达到预设的次数阈值，可以按照以上描述的训练操作S111～S115，执行第i+1次训练操作，得到第i+1候选深度学习模型。之后，再判断训练操作的累计次数达到预设的次数阈值。如果确定训练操作的累计次数达到预设的次数阈值，则将第i+1候选深度学习模型作为第一目标深度学习模型。

接下来，如果确定训练操作的累计次数未达到预设的次数阈值，再执行第i+2次训练操作，以此类推，直至确定第一目标深度学习模型。第一目标深度学习模型可以用于进行后续训练。

根据本公开实施例，在每次训练操作过程中，通过利用第i-1统计矩阵来调整第i路由矩阵，以平衡门控网络对专家网络的选择。由此，可以降低门控网络在路由选择过程中存在的偏好，进而提高模型训练的准确性。

根据本公开的实施例，上述操作S111中，使用门控网络根据第i张量特征、第i权重矩阵和第i-1统计矩阵，得到第i路由矩阵例如可以包括如下操作。

例如，可以使用门控网络根据第i张量特征和第i权重矩阵，得到第i打分矩阵。之后，根据第i打分矩阵和第i-1统计矩阵，得到第i评估矩阵，以及根据第i评估矩阵和预设路由数量，得到第i路由矩阵。

根据本公开的实施例，第i打分矩阵例如可以是第i张量特征和第i权重矩阵相乘得到的。例如，可以基于公式(1)得到第i打分矩阵。

Y＝X*W (1)

在公式(1)中，Y表示第i打分矩阵，X表示第i张量特征，W表示第i权重矩阵。

在本公开实施例中，第i打分矩阵可以表示为一个H*E维的矩阵。其中，H表示第i特征向量的数量，E表示专家网络的数量。第i打分矩阵中每一行包括E个打分向量，这E个打分向量分别表示门控网络选择E个专家网络路由第h个第i特征向量的第i打分向量，h为不大于H的正整数。

可以基于公式(2)，根据第i打分矩阵和第i-1统计矩阵，得到第i评估矩阵。

在公式(2)中，Q表示第i评估矩阵，Y表示第i打分矩阵，C表示第i-1统计矩阵，λ表示超参数。

在本公开实施例中，第i评估矩阵可以表示为一个H*E维的矩阵。第i评估矩阵中每一行包括E个评分，这E个评分分别表示门控网络选择E个专家网络路由第h个第i特征向量的第i评分，h为不大于H的正整数。

例如，对于第h个第i特征向量，根据第i评估矩阵第h行可知，第h个第i特征向量对应的E个第i评分分别为E1、E2、...、EE。其中，第i评分E1、E2、...、EE分别表示门控网络选择第1、2、...、E个专家网络路由第h个第i特征向量的第i评分。

根据公式(2)可知，当第i-1统计矩阵中专家网络的频次过高时，得到的第i评估矩阵中对应的评分就小，反之，当第i-1统计矩阵中专家网络的频次过低时，得到的第i评估矩阵中对应的评分就大。由此，可以实现对高频次的专家网络选择进行打压，对低频次的专家网络选择进行补偿，从而可以降低门控网络在路由选择过程中存在的偏好，进而提高模型训练的准确性。

根据本公开的实施例，获取第i评估矩阵之后，可以按照评分来选取路由每个第i特征向量对应的预设数量的专家网络，从而得到第i路由矩阵。

下面结合示例来说明第i路由矩阵的获取方式。

例如，第i评估矩阵可以采用以下公式(3)来表示。

在公式(3)中，每个元素E_he表示门控网络选择第e个专家网络路由第h个第i特征向量的第i评分，其中，e为不大于E的正整数，h为不大于H的正整数。H表示第i特征向量的数量，E表示专家网络的数量。

对于上述第i评估矩阵Q，可以按照行选取预设路由数量的专家网络，得到第i路由矩阵。例如，对于第h个第i特征向量来说，可以从第h个第i特征向量对应的E个第i评分中选取top k个第i评分。之后，根据top k个第i评分对应的索引，确定k个作为路由网络的专家网络，从而得到第i路由矩阵。第i路由矩阵的大小为H*k，其中k为正整数。在一些示例中，k例如可以为1或者2。

图2是根据本公开的实施例的获取第i路由矩阵的示意图。下面参考图2对第i路由矩阵的获取过程进行示例说明。需要说明的是，图2中以专家网络的数量E＝4为例进行说明仅是示例性的，但本公开不仅限于此。

如图2所示，根据H个第i样本数据得到第i张量特征，其中第i张量特征包括与H个第i样本数据分别对应的第i特征向量，分别记为T_1、T_2、...、T_H。

将第i特征向量输入门控网络中，可以利用门控网络根据第i张量特征、第i权重矩阵，得到第i打分矩阵。之后，根据第i打分矩阵和第i-1统计矩阵，得到第i评估矩阵。

第i评估矩阵中每行对应的4个评分表示第h个第i特征向量对应的4个第i评分，h为不大于H的正整数。将第i评估矩阵中每行对应的4个第i评分记为评分组t_h，则与第1个第i特征向量对应的4个第i评分为评分组t_1、与第2个第i特征向量对应的4个第i评分为评分组t_2、...、与第H个第i特征向量对应的4个第i评分为评分组t_4。

对于每个第i特征向量对应的4个第i评分来说，可以根据从4个第i评分中选取topk个第i评分，并根据top k个第i评分对应的索引，确定k个用于路由第i特征向量的专家网络。

以第1个第i特征向量对应的4个第i评分(即评分组t_1)为例。评分组t_1中包括4个第i评分，第e个第i评分表征门控网络选择第e个专家网络路由第1个第i特征向量的评分，e为不大于4的正整数。可以从评分组t_1中选取top 2个第i评分，并根据top 2个第i评分对应的索引，确定2个用于路由第i特征向量的专家网络。例如，评分组t_1中top 2个第i评分对应的索引是1和3，则可以将第1个专家网络和第3个专家网络作为第1个第i特征向量的路由网络。

类似地，对于其他第i特征向量，也可以按照以上方式确定对应的路由网络。由此，可以得到第i路由矩阵。第i路由矩阵例如可以是一个H*2维的矩阵。

根据本公开的实施例，在获取第i路由矩阵之后，还可以根据第i路由矩阵来更新第i-1统计矩阵，得到第i统计矩阵。第i统计矩阵可以用于第i+1次训练操作。由此，可以利用更新的统计矩阵来训练模型，从而进一步降低门控网络在路由选择过程中存在的偏好，进而进一步提高模型训练的准确性。

根据本公开的实施例，第i样本结果例如可以包括与多个第i样本数据分别对应的第i样本子结果。在上述操作S114中，根据第i样本结果、多个第i样本数据的标签和第i门控损失来调整初始深度学习模型的参数例如可以包括如下操作。

例如，针对每个第i样本子结果，可以根据第i样本子结果和第i样本子结果对应的第i样本数据的标签，得到第i特征损失。之后，根据多个第i特征损失和第i门控损失，得到第i损失，以及根据第i损失，调整初始深度学习模型的参数。

根据本公开的实施例，初始深度学习模型例如可以包括门控网络和E个专家网络。根据第i损失调整初始深度学习模型的参数，例如可以是指根据第i损失调整门控网络的参数和E个专家网络的参数。在一些实施例中，初始深度学习模型还可以包括主干网络，因此，还可以利用第i损失调整主干网络的参数。由此，可以得到第i候选深度学习模型。如果确定训练操作的累计次数达到预设的次数阈值，可以确定第i候选深度学习模型为第一目标深度学习模型。

根据本公开的实施例，对初始深度学习模型进行多次训练操作，得到第一目标深度学习模型之后，还可以继续对第一目标深度学习模型进行训练，得到第二目标深度学习模型。

根据本公开的实施例，对第一目标深度学习模型进行训练，得到第二目标深度学习模型例如可以包括如下操作。

例如，可以使用门控网络根据目标张量特征和目标权重矩阵，得到目标路由矩阵。

在本公开实施例中，目标张量特征是根据多个目标样本数据得到的。示例性地，可以利用主干网络对M个目标样本数据进行特征提取，得到目标张量特征。目标张量特征例如包括与M个目标样本数据分别对应的目标特征向量，M为正整数。

目标权重矩阵为第一目标深度学习模型中门控网络对应的权重矩阵。也就是说，目标权重矩阵是经过多次训练操作后得到的门控网络对应的权重矩阵。

在本公开实施例中，根据目标张量特征和目标权重矩阵，得到目标路由矩阵，例如可以包括如下操作：将目标张量特征与目标权重矩阵相乘，从而得到目标打分矩阵。目标打分矩阵中每一行包括E个打分向量，这E个打分向量分别表示门控网络选择E个专家网络路由第m个目标特征向量的打分向量，m为不大于M的正整数。

之后，根据目标打分矩阵，得到目标路由矩阵。在本公开实施例中，根据目标打分矩阵得到目标路由矩阵的过程，与根据i评估矩阵得到第i路由矩阵的过程类似。例如，对于目标打分矩阵，可以按照行选取预设路由数量的专家网络，得到目标路由矩阵。例如，对于第m个目标特征向量来说，可以从第m个目标特征向量对应的E个打分向量中选取top k个打分向量。之后，根据top k个打分向量对应的索引，确定k个作为路由网络的专家网络，从而得到目标路由矩阵。

接下来，可以根据目标路由矩阵，从E个专家网络中选出作为路由网络的第二目标专家网络，并将目标张量特征分配给第二目标专家网络，以及使用第二目标专家网络对目标张量特征进行处理，得到与目标张量特征对应的目标样本结果。其中，目标样本结果例如可以包括与M个目标样本数据分别对应的目标样本子结果。

例如，可以将目标张量矩阵中的M个目标特征向量分别分配给对应的第二目标专家网络，以便第二目标专家网络对相应的目标特征向量进行处理，得到与目标特征向量对应的目标样本子结果。

接下来，可以根据目标样本结果、多个目标样本数据的标签和目标门控损失来调整第一目标深度学习模型的参数，得到第二目标深度学习模型。

例如，针对每个目标样本子结果，可以根据目标样本子结果和目标样本子结果对应的目标样本数据的标签，得到目标特征损失。之后，根据目标特征损失和目标门控损失，得到目标损失。最后，利用目标损失来调整第一目标深度学习模型中门控网络和E个专家网络的参数，得到第二目标深度学习模型。由此，可以完成对初始深度学习模型的整个训练过程。

在本公开实施例中，目标门控损失例如可以是根据目标路由矩阵来确定的。目标门控损失的确定方式与第i门控损失的确定方式类似，这里不再赘述。

图3是根据本公开另一实施例的深度学习模型的训练方法的流程图。以下参考图3对本公开的深度学习模型的训练方法进行介绍。

如图3所示，深度学习模型的训练方法包括操作S301～S311。

在操作S301，获取第n张量特征和第n权重矩阵。

根据本公开的实施例，第n张量特征和第n权重矩阵表示第n次训练对应的张量特征和权重矩阵。第n张量特征中包括多个特征向量，第n权重矩阵包括与多个特征向量的路由选择相关联的多个权重值。

获取第n张量特征和第n权重矩阵的方式与以上描述的方式类似。例如，在训练初始深度学习模型过程中，获取第n张量特征和第n权重矩阵的方式分别与获取第i张量特征和第i权重矩阵的方式相同。在训练第一目标深度学习模型过程中，获取第n张量特征和第n权重矩阵的方式分别与获取目标张量特征和目标权重矩阵的方式相同。其中，n为正整数。

在操作S302，根据第n张量特征和第n权重特征，确定第n打分矩阵。根据本公开的实施例，可以按照以上描述方式，根据第n张量特征和第n权重特征，确定第n打分矩阵，这里不做赘述。

在操作S303，获取第n-1统计矩阵。例如，可以按照以上描述方式，获取前n-1次路由矩阵，并根据前n-1次路由矩阵，得到第n-1统计矩阵。

在操作S304，根据第n打分矩阵和第n-1统计矩阵，确定第n评估矩阵。例如，可以根据公式(2)，确定第n评估矩阵。

在操作S305，选取top k评分对应的索引，得到第n路由矩阵。根据本公开的实施例，可以从第n评估矩阵中选取top k评分对应的索引，得到第n路由矩阵，具体过程与以上描述方式相同。

在操作S306，根据第n路由矩阵，将第n张量特征分配给对应的专家网络处理，得到第n样本结果。例如，可以将第n张量特征中对应的多个特征向量分配给对应的专家网络处理，以便对应的专家网络根据相应的特征向量，得到样本子结果，进而根据样本子结果，得到第n样本结果。

在操作S307，根据第n样本结果、多个第n样本数据的标签和第n门控损失来调整深度学习模型的参数。

根据本公开的实施例，在训练初始深度学习模型过程中，可以根据第n样本结果、多个第n样本数据的标签和第n门控损失来调整初始深度学习模型中门控网络的参数和多个专家网络的参数。在训练第一目标深度学习模型过程中，可以根据第n样本结果、多个第n样本数据的标签和第n门控损失来调整第一目标深度学习模型中门控网络的参数和多个专家网络的参数。

在操作S308，根据第n路由矩阵，更新第n-1统计矩阵，得到第n统计矩阵。例如，可以根据第n路由矩阵来更新第n-1统计矩阵。由此，可以利用更新的统计矩阵来训练模型，从而进一步降低门控网络在路由选择过程中存在的偏好，进而进一步提高模型训练的准确性。

在操作S309，确定训练累计训练次数是否达到预设的次数阈值，若达到，则执行操作S310，否则，执行操作S311。

在操作S310，继续第n+1次训练。

在操作S311，设置λ＝0。

根据本公开实施例，在操作S311中，将λ设置为0，意味着对初始深度学习模型的训练过程结束，在后续训练过程中将以第一目标深度学习模型为基础进行训练，从而得到第二目标深度学习模型。

根据本公开的实施例，在每次训练操作过程中，通过利用第n-1统计矩阵来调整第n路由矩阵，以平衡门控网络对专家网络的选择。可以降低门控网络在路由选择过程中存在的偏好，进而提高模型训练的准确性。另外，在对深度学习模型进行训练的过程中，无需增加额外的训练操作，因此，对于整个深度学习模型的训练过程来说，不会明显增加模型整体的训练时间。

根据本公开的实施例，以上所述的样本数据(包括目标样本数据和第i样本数据，下同)例如可以包括但不限于文本、图像和视频中的至少之一。基于上述样本数据对初始深度学习模型进行训练之后，可以将经训练的第二目标深度学习模型应用于目标应用场景下。

在一个示例中，用于训练第二目标深度学习模型的样本数据例如包括问题文本。第二目标深度学习模型例如可以用于处理问题文本，得到针对问题文本的答案预测。也即，第二目标深度学习模型可以用于预测问题的答案。

在另一个示例中，用于训练第二目标深度学习模型的样本数据例如包括待处理图像。第二目标深度学习模型例如可以用于检测待处理图像中的目标对象，得到待处理图像中目标对象的检测结果。也即，第二目标深度学习模型可以用于图像识别和检测的应用场景。

在另一个示例中，用于训练第二目标深度学习模型的样本数据例如包括问题文本和图像。第二目标深度学习模型例如可以用于根据问题文本对图像中的目标对象进行识别，以获取问题文本的答案预测。也即，第二目标深度学习模型可以用于视觉问答的应用场景。

在另一个示例中，用于训练第二目标深度学习模型的样本数据例如包括待转换文本。第二目标深度学习模型例如可以用于处理待转换文本，得到针对待转换文本的转换数据。待转换文本例如包括待翻译文本，转换数据例如包括翻译后文本。换言之，第二目标深度学习模型可以用于对文本进行翻译。

需要说明的是，本公开中的第二目标深度学习模型不局限于上述样本数据和应用场景，还可以将其扩展到其他单模态或者多模态任务当中去，具体可以根据实际应用场景来确定，这里不再赘述。

下面参考图4对第二目标深度学习模型的应用进行示例说明。

图4是根据本公开的实施例的目标对象检测方法的流程图。

如图4所示，目标对象检测方法400包括操作S410～S420。

在操作S410，获取待处理图像和第二目标深度学习模型。

在本公开实施例中，第二目标深度学习模型是利用以上实施例中的深度学习模型的训练方法训练得到的。

可以理解，待处理图像和第二目标深度学习模型可以同步获取，也可以先后获取，本公开对此不做限定。

在操作S420，将待处理图像输入第二目标深度学习模型，得到待处理图像中目标对象的检测结果。

在本公开实施例的方案中，通过利用以上方式训练得到的第二目标深度学习模型来检测待处理图像，可以提高对待处理图像中目标对象的检测结果的准确性。

在一些实施例中，还可以利用上述第二目标深度学习模型执行其他任务。例如，可以将预设问题和待处理文档输入第二目标深度学习模型，可以从待处理文档中获取与预设问题相匹配的信息。当然，本公开提出的深度学习模型不局限于上述处理任务，还可以将其扩展到其他多模态任务或者单模态任务当中去，具体可以根据实际应用场景来确定，这里不再赘述。

图5是根据本公开的实施例的深度学习模型的训练装置的框图。

如图5所示，深度学习模型的训练装置500包括：第一训练模块510。第一训练模块510用于对部署于目标计算设备中的初始深度学习模型执行多次训练操作，得到第一目标深度学习模型。

其中，初始深度学习模型包括门控网络和E个专家网络，E为大于1的整数，第一训练模块510包括：第一训练单元511、第一分配单元512、第一处理单元513、第一调整单元514和确定单元515。

第一训练单元511用于使用门控网络根据第i张量特征、第i权重矩阵和第i-1统计矩阵，得到第i路由矩阵；其中，第i张量特征是根据多个第i样本数据得到的；第i-1统计矩阵是根据i-1个路由矩阵确定的，i为正整数。

第一分配单元512用于根据第i路由矩阵，从E个专家网络中选出作为路由网络的第一目标专家网络，并将第i张量特征分配给第一目标专家网络。

第一处理单元513用于使用第一目标专家网络对第i张量特征进行处理，得到与第i张量特征对应的第i样本结果。

第一调整单元514用于根据第i样本结果、多个第i样本数据的标签和第i门控损失来调整初始深度学习模型的参数，得到第i候选深度学习模型；其中，第i门控损失是根据第i路由矩阵来确定的。

确定单元515用于响应于确定训练操作的累计次数达到预设的次数阈值，确定第i候选深度学习模型为第一目标深度学习模型。

根据本公开的实施例，第一训练单元511包括：第一训练子单元、第二训练子单元和第三训练子单元。第一训练子单元用于使用门控网络根据第i张量特征和第i权重矩阵，得到第i打分矩阵；第二训练子单元用于根据第i打分矩阵和第i-1统计矩阵，得到第i评估矩阵；第三训练子单元用于根据第i评估矩阵和预设路由数量，得到第i路由矩阵。

根据本公开的实施例，第i张量特征包括与多个第i样本数据分别对应的第i特征向量；第一分配单元512包括：分配子单元。分配子单元用于根据第i路由矩阵，将与多个第i样本数据分别对应的第i特征向量，分别分配给对应的第一目标专家网络。

根据本公开的实施例，第一训练模块510还包括：更新单元。更新单元用于根据第i路由矩阵来更新第i-1统计矩阵，得到第i统计矩阵。

根据本公开的实施例，第i样本结果包括与多个第i样本数据分别对应的第i样本子结果；第一调整单元514包括：第一确定子单元、第二确定子单元和调整子单元。第一确定子单元用于针对每个第i样本子结果，根据第i样本子结果和第i样本子结果对应的第i样本数据的标签，得到第i特征损失；第二确定子单元用于根据多个第i特征损失和第i门控损失，得到第i损失；以及调整子单元用于根据第i损失，调整初始深度学习模型的参数。

根据本公开的实施例，上述装置500还包括：第二训练模块。第二训练模块用于对第一目标深度学习模型进行训练，得到第二目标深度学习模型。

根据本公开的实施例，第一目标深度学习模型包括目标权重矩阵；第二训练模块包括：第二训练单元、第二分配单元、第二处理单元和第二调整单元。第二训练单元用于使用门控网络根据目标张量特征和目标权重矩阵，得到目标路由矩阵；其中，目标张量特征是根据多个目标样本数据得到的；第二分配单元用于根据目标路由矩阵，从E个专家网络中选出作为路由网络的第二目标专家网络，并将目标张量特征分配给第二目标专家网络；第二处理单元用于使用第二目标专家网络对目标张量特征进行处理，得到与目标张量特征对应的目标样本结果；以及第二调整单元用于根据目标样本结果、多个目标样本数据的标签和目标门控损失来调整第一目标深度学习模型的参数，得到第二目标深度学习模型；其中，目标门控损失是根据目标路由矩阵来确定的。

根据本公开的实施例，第i样本数据和目标样本数据包括文本、图像和视频中的至少之一。

图6是根据本公开的实施例的目标对象检测装置的框图。

如图6所示，目标对象检测装置600包括：检测模块610。检测模块610用于将待处理图像输入第二目标深度学习模型，得到待处理图像中目标对象的检测结果；其中，第二目标深度学习模型是利用以上实施例中的深度学习模型的训练装置训练得到的。

需要说明的是，装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似，在此不再赘述。

在本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如本公开实施例的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如本公开实施例的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如本公开实施例的方法。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如深度学习模型的训练方法和目标对象检测方法。例如，在一些实施例中，深度学习模型的训练方法和目标对象检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的深度学习模型的训练方法和目标对象检测方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行深度学习模型的训练方法和目标对象检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种深度学习模型的训练方法，包括：

对部署于目标计算设备中的初始深度学习模型执行多次训练操作，得到第一目标深度学习模型；

其中，所述初始深度学习模型包括门控网络和E个专家网络，E为大于1的整数，所述训练操作包括：

使用所述门控网络根据第i张量特征、第i权重矩阵和第i-1统计矩阵，得到第i路由矩阵；其中，所述第i张量特征是根据多个第i样本数据得到的；所述第i-1统计矩阵是根据i-1个路由矩阵确定的，i为正整数；

根据所述第i路由矩阵，从所述E个专家网络中选出作为路由网络的第一目标专家网络，并将所述第i张量特征分配给所述第一目标专家网络；

使用所述第一目标专家网络对所述第i张量特征进行处理，得到与所述第i张量特征对应的第i样本结果；

根据所述第i样本结果、多个第i样本数据的标签和第i门控损失来调整所述初始深度学习模型的参数，得到第i候选深度学习模型；其中，所述第i门控损失是根据所述第i路由矩阵来确定的；

响应于确定所述训练操作的累计次数达到预设的次数阈值，确定所述第i候选深度学习模型为第一目标深度学习模型。

2.根据权利要求1所述的方法，其中，所述使用所述门控网络根据第i张量特征、第i权重矩阵和第i-1统计矩阵，得到第i路由矩阵包括：

使用所述门控网络根据所述第i张量特征和所述第i权重矩阵，得到第i打分矩阵；

根据所述第i打分矩阵和所述第i-1统计矩阵，得到第i评估矩阵；以及

根据所述第i评估矩阵和预设路由数量，得到所述第i路由矩阵。

3.根据权利要求2所述的方法，其中，所述第i张量特征包括与多个第i样本数据分别对应的第i特征向量；所述将所述第i张量特征分配给所述第一目标专家网络包括：

根据所述第i路由矩阵，将所述与多个第i样本数据分别对应的第i特征向量，分别分配给对应的第一目标专家网络。

4.根据权利要求1所述的方法，其中，所述训练操作还包括：

根据所述第i路由矩阵来更新所述第i-1统计矩阵，得到第i统计矩阵。

5.根据权利要求3所述的方法，其中，所述第i样本结果包括与多个第i样本数据分别对应的第i样本子结果；

所述根据所述第i样本结果、多个第i样本数据的标签和所述第i门控损失来调整所述初始深度学习模型的参数包括：

针对每个第i样本子结果，根据所述第i样本子结果和所述第i样本子结果对应的第i样本数据的标签，得到第i特征损失；

根据多个所述第i特征损失和所述第i门控损失，得到第i损失；以及

根据所述第i损失，调整所述初始深度学习模型的参数。

6.根据权利要求1至5中任一项所述的方法，还包括：

对所述第一目标深度学习模型进行训练，得到第二目标深度学习模型。

7.根据权利要求6所述的方法，其中，所述第一目标深度学习模型包括目标权重矩阵；

所述对所述第一目标深度学习模型进行训练，得到第二目标深度学习模型包括：

使用所述门控网络根据目标张量特征和目标权重矩阵，得到目标路由矩阵；其中，所述目标张量特征是根据多个目标样本数据得到的；

根据所述目标路由矩阵，从所述E个专家网络中选出作为路由网络的第二目标专家网络，并将所述目标张量特征分配给所述第二目标专家网络；

使用所述第二目标专家网络对所述目标张量特征进行处理，得到与所述目标张量特征对应的目标样本结果；以及

根据所述目标样本结果、多个目标样本数据的标签和目标门控损失来调整所述第一目标深度学习模型的参数，得到所述第二目标深度学习模型；其中，所述目标门控损失是根据所述目标路由矩阵来确定的。

8.根据权利要求7所述的方法，其中，所述第i样本数据和所述目标样本数据包括文本、图像和视频中的至少之一。

9.一种目标对象检测方法，包括：

将待处理图像输入第二目标深度学习模型，得到所述待处理图像中目标对象的检测结果；

其中，所述第二目标深度学习模型是利用权利要求6至8中任一项所述的方法训练得到的。

10.一种深度学习模型的训练装置，包括：

第一训练模块，用于对部署于目标计算设备中的初始深度学习模型执行多次训练操作，得到第一目标深度学习模型；

其中，所述初始深度学习模型包括门控网络和E个专家网络，E为大于1的整数，所述第一训练模块包括：

第一训练单元，用于使用所述门控网络根据第i张量特征、第i权重矩阵和第i-1统计矩阵，得到第i路由矩阵；其中，所述第i张量特征是根据多个第i样本数据得到的；所述第i-1统计矩阵是根据i-1个路由矩阵确定的，i为正整数；

第一分配单元，用于根据所述第i路由矩阵，从所述E个专家网络中选出作为路由网络的第一目标专家网络，并将所述第i张量特征分配给所述第一目标专家网络；

第一处理单元，用于使用所述第一目标专家网络对所述第i张量特征进行处理，得到与所述第i张量特征对应的第i样本结果；

第一调整单元，用于根据所述第i样本结果、多个第i样本数据的标签和第i门控损失来调整所述初始深度学习模型的参数，得到第i候选深度学习模型；其中，所述第i门控损失是根据所述第i路由矩阵来确定的；

确定单元，用于响应于确定所述训练操作的累计次数达到预设的次数阈值，确定所述第i候选深度学习模型为第一目标深度学习模型。

11.根据权利要求10所述的装置，其中，所述第一训练单元包括：

第一训练子单元，用于使用所述门控网络根据所述第i张量特征和所述第i权重矩阵，得到第i打分矩阵；

第二训练子单元，用于根据所述第i打分矩阵和所述第i-1统计矩阵，得到第i评估矩阵；以及

第三训练子单元，用于根据所述第i评估矩阵和预设路由数量，得到所述第i路由矩阵。

12.根据权利要求11所述的装置，其中，所述第i张量特征包括与多个第i样本数据分别对应的第i特征向量；所述第一分配单元包括：

分配子单元，用于根据所述第i路由矩阵，将所述与多个第i样本数据分别对应的第i特征向量，分别分配给对应的第一目标专家网络。

13.根据权利要求10所述的装置，其中，所述第一训练模块还包括：

更新单元，用于根据所述第i路由矩阵来更新所述第i-1统计矩阵，得到第i统计矩阵。

14.根据权利要求12所述的装置，其中，所述第i样本结果包括与多个第i样本数据分别对应的第i样本子结果；所述第一调整单元包括：

第一确定子单元，用于针对每个第i样本子结果，根据所述第i样本子结果和所述第i样本子结果对应的第i样本数据的标签，得到第i特征损失；

第二确定子单元，用于根据多个所述第i特征损失和所述第i门控损失，得到第i损失；以及

调整子单元，用于根据所述第i损失，调整所述初始深度学习模型的参数。

15.根据权利要求10至14中任一项所述的装置，还包括：

第二训练模块，用于对所述第一目标深度学习模型进行训练，得到第二目标深度学习模型。

16.根据权利要求15所述的装置，其中，所述第一目标深度学习模型包括目标权重矩阵；所述第二训练模块包括：

第二训练单元，用于使用所述门控网络根据目标张量特征和目标权重矩阵，得到目标路由矩阵；其中，所述目标张量特征是根据多个目标样本数据得到的；

第二分配单元，用于根据所述目标路由矩阵，从所述E个专家网络中选出作为路由网络的第二目标专家网络，并将所述目标张量特征分配给所述第二目标专家网络；

第二处理单元，用于使用所述第二目标专家网络对所述目标张量特征进行处理，得到与所述目标张量特征对应的目标样本结果；以及

第二调整单元，用于根据所述目标样本结果、多个目标样本数据的标签和目标门控损失来调整所述第一目标深度学习模型的参数，得到所述第二目标深度学习模型；其中，所述目标门控损失是根据所述目标路由矩阵来确定的。

17.根据权利要求16所述的装置，其中，所述第i样本数据和所述目标样本数据包括文本、图像和视频中的至少之一。

18.一种目标对象检测装置，包括：

检测模块，用于将待处理图像输入第二目标深度学习模型，得到所述待处理图像中目标对象的检测结果；

其中，所述第二目标深度学习模型是利用权利要求15至17中任一项所述的装置训练得到的。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至9中任一项所述的方法。