CN114722893A

CN114722893A - 模型生成方法、图像标注方法、装置以及电子设备

Info

Publication number: CN114722893A
Application number: CN202210168133.4A
Authority: CN
Inventors: 何志海; 李亚乾; 郭彦东
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-07-08

Abstract

本申请实施例公开了一种模型生成方法、图像标注方法、装置以及电子设备。所述方法包括：在当次训练过程中，基于第一数据集以及第二数据集对当次训练过程对应的待训练图像标注模型进行训练，得到当次训练过程对应的训练完成的模型；若当次训练过程满足目标训练条件，将训练完成的模型作为目标图像标注模型，若当次训练过程不满足目标训练条件，将训练完成的模型作为下一次训练过程的待训练图像标注模型。通过上述方式使得，基于第一数据集以及第二数据集对待训练图像标注模型进行训练，得到目标图像标注模型，实现了目标图像标注模型对第二数据集所属域的自适应，提高了目标图像标注模型对与第二数据集所属域相同的未标注图像的标注准确性。

Description

模型生成方法、图像标注方法、装置以及电子设备

技术领域

本申请涉及计算机技术领域，更具体地，涉及一种模型生成方法、图像标注方法、装置以及电子设备。

背景技术

随着人工智能技术的不断发展，图像标注开始成为是计算机视觉领域的一项重要任务，可以应用于图像分类、关键点检测、行人重识别等领域中。在相关方式中，通常可以采用众包标注与预训练模型标注等方式对图像进行标注。但是，图像标注的准确率还有待提高。

发明内容

鉴于上述问题，本申请提出了一种模型生成方法、图像标注方法、装置以及电子设备，以实现改善上述问题。

第一方面，本申请提供了一种模型生成方法，应用于电子设备，所述方法包括：在当次训练过程中，基于第一数据集对当次训练过程对应的待训练图像标注模型进行训练，得到当次训练过程对应的第一图像标注模型，所述待训练图像标注模型包括特征提取网络和分类器网络，所述第一图像标注模型与所述待训练图像标注模型的网络结构相同；基于所述第一数据集以及第二数据集对所述第一图像标注模型的分类器网络进行训练，得到当次训练过程对应的第二图像标注模型，所述第二图像标注模型与所述第一图像标注模型的网络结构相同，所述第一数据集与所述第二数据集所属领域不相同；基于所述第二数据集对所述第二图像标注模型的特征提取网络进行训练，得到当次训练过程对应的训练完成的模型，所述训练完成的模型与所述第二图像标注模型的网络结构相同；若当次训练过程满足目标训练条件，将所述训练完成的模型作为目标图像标注模型，若当次训练过程不满足目标训练条件，进入下一次的训练过程，并将所述训练完成的模型作为下一次训练过程对应的待训练图像标注模型。

第二方面，本申请提供了一种图像标注方法，应用于电子设备，所述方法包括：获取待标注图像，所述待标注图像与所述第二数据集所属领域相同；将所述待标注图像输入基于上述方法得到的目标图像标注模型中，基于所述目标图像标注模型输出预测标签得到所述待标注图像的标签。

第三方面，本申请提供了一种模型生成装置，运行于电子设备，所述装置包括：第一图像标注模型生成单元，用于在当次训练过程中，基于第一数据集对当次训练过程对应的待训练图像标注模型进行训练，得到当次训练过程对应的第一图像标注模型，所述待训练图像标注模型包括特征提取网络和分类器网络，所述第一图像标注模型与所述待训练图像标注模型的网络结构相同；第二图像标注模型生成单元，用于基于所述第一数据集以及第二数据集对所述第一图像标注模型的分类器网络进行训练，得到当次训练过程对应的第二图像标注模型，所述第二图像标注模型与所述第一图像标注模型的网络结构相同，所述第一数据集与所述第二数据集所属领域不相同；目标图像标注模型生成单元，用于基于所述第二数据集对所述第二图像标注模型的特征提取网络进行训练，得到当次训练过程对应的训练完成的模型，所述训练完成的模型与所述第二图像标注模型的网络结构相同；若当次训练过程满足目标训练条件，将所述训练完成的模型作为目标图像标注模型，若当次训练过程不满足目标训练条件，进入下一次的训练过程，并将所述训练完成的模型作为下一次训练过程对应的待训练图像标注模型。

第四方面，本申请提供了一种电子设备，包括一个或多个处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。

第五方面，本申请提供的一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行上述的方法。

本申请提供的一种模型生成方法、图像标注方法、装置、电子设备以及存储介质，在当次训练过程中，基于第一数据集对当次训练过程对应的包括特征提取网络和分类器网络的待训练图像标注模型进行训练后，得到当次训练过程对应的第一图像标注模型，再基于所述第一数据集以及第二数据集对所述第一图像标注模型的分类器网络进行训练，得到当次训练过程对应的第二图像标注模型，所述第一数据集与所述第二数据集所属领域不相同，然后再基于所述第二数据集对所述第二图像标注模型的特征提取网络进行训练，得到当次训练过程对应的训练完成的模型，若当次训练过程满足目标训练条件，将所述训练完成的模型作为目标图像标注模型，若当次训练过程不满足目标训练条件，进入下一次的训练过程，并将所述训练完成的模型作为下一次训练过程对应的待训练图像标注模型。通过上述方式使得，可以在每一次的训练过程中，基于第一数据集、第二数据集中的至少一个数据集对待训练图像标注模型进行分步训练，并多次重复上述训练过程以得到目标图像标注模型，实现了待训练图像标注模型从第一数据集所属域到第二数据集所述域的自适应，提高了目标图像标注模型对与所述第二数据集所属域相同的未标注图像的标注准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提出的一种模型生成方法的流程图；

图2示出了本申请提出的一种待训练图像标注模型的示意图；

图3示出了本申请提出的另一种待训练图像标注模型的示意图；

图4示出了本申请图1中S120的一种实施例方式的流程图；

图5示出了本申请提出的一种第一图像标注模型的示意图；

图6示出了本申请提出的另一种第一图像标注模型的示意图；

图7示出了本申请图1中S130的一种实施例方式的流程图；

图8示出了本申请提出的模型训练过程的示意图；

图9示出了本申请提出的一种图像标注方法的流程图；

图10示出了本申请提出的一种的目标图像标注模型示意图；

图11示出了本申请实施例提出的一种模型生成装置的结构框图；

图12示出了本申请实施例提出的一种结构搜索装置的结构框图；

图13示出了本申请提出的一种电子设备的结构框图；

图14是本申请实施例的用于保存或者携带实现根据本申请实施例的模型生成方法、图像标注方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着人工智能技术的不断发展，图像标注开始成为是计算机视觉领域的一项重要任务，可以应用于图像分类、关键点检测、行人重识别等领域中。在相关方式中，通常可以采用众包标注与预训练模型标注等方式对图像进行标注。

但是，发明人在对相关研究中发现，图像标注的准确率还有待提高。例如：众包标注方式的标注质量严重依赖标注人员素质、标注流程与标注工具。在众包标注过程中，需要标注人员熟悉各个标注类别定义，标注规则；同时在标注过程中需要标注质量审核人员及时跟踪标注状态，否则会存在标注人员理解偏差导致大批量不合格标注结果，导致标注时间、经济成本不可估量。再例如：基于预训练模型的标注方法虽然比众包标注方式节省时间、经济成本，但当待标注图像与预训练模型的训练集的领域相差较大时，可能会导致标注不准确。

因此，发明人提出了本申请中的一种模型生成方法、图像标注方法、装置以及电子设备，在当次训练过程中，基于第一数据集对当次训练过程对应的包括特征提取网络和分类器网络的待训练图像标注模型进行训练后，得到当次训练过程对应的第一图像标注模型，再基于所述第一数据集以及第二数据集对所述第一图像标注模型的分类器网络进行训练，得到当次训练过程对应的第二图像标注模型，所述第一数据集与所述第二数据集所属领域不相同，然后再基于所述第二数据集对所述第二图像标注模型的特征提取网络进行训练，得到当次训练过程对应的训练完成的模型，若当次训练过程满足目标训练条件，将所述训练完成的模型作为目标图像标注模型，若当次训练过程不满足目标训练条件，进入下一次的训练过程，并将所述训练完成的模型作为下一次训练过程对应的待训练图像标注模型。通过上述方式使得，可以在每一次的训练过程中，基于第一数据集、第二数据集中的至少一个数据集对待训练图像标注模型进行多个步骤的训练，并多次重复上述训练过程以得到目标图像标注模型，实现了待训练图像标注模型从第一数据集所属域到第二数据集所述域的自适应，提高了目标图像标注模型对与所述第二数据集所属域相同的未标注图像的标注准确性。

请参阅图1，本申请提供的一种模型生成方法，应用于电子设备，所述方法包括：

S110：在当次训练过程中，基于第一数据集对当次训练过程对应的待训练图像标注模型进行训练，得到当次训练过程对应的第一图像标注模型，所述待训练图像标注模型包括特征提取网络和分类器网络，所述第一图像标注模型与所述待训练图像标注模型的网络结构相同。

其中，第一数据集可以包括多张标注图像以及多张标注图像各自对应的真实标签，真实标签可以表征多张标注图像各自对应的类别信息，并且真实标签可以是由人工标注得到的。示例性的，第一数据集可以为开源数据集ImageNet。待训练图像标注模型中的特征提取网络可以用于将第一数据集图像映射到深度特征空间，并提取第一数据集图像的深度特征以便用于进行图像分类。其中，特征提取网络的结构可以有多种，例如：Alexnet、VGG16、ResNet等网络结构，在本申请实施例中，对此不做限定。待训练图像标注模型中的分类器网络可以用于基于特征提取网络提取到的特征对图像进行分类，具体可以是尽可能地将表征同一类别信息的图像特征聚合在一起，扩大表征不同类别信息的图像特征间的距离。

作为一种方式，在当次训练过程中，可以将多张标注图像输入到当次训练过程对应的待训练图像标注模型，得到所述多张标注图像各自对应的预测标签；基于预测标签与真实标签之间的差异，确定第一损失函数的损失值，第一损失函数可以用于减少预测标签与真实标签之间的差异；基于损失值调整当次训练过程对应的待训练图像标注模型的模型参数，得到当次训练过程对应的第一图像标注模型。

其中，第一损失函数可以为交叉熵损失函数，BCE损失函数等，模型参数可以为在模型训练过程中可变的参数，如权重等。

示例性的，如图2所示，在当次训练过程中，可以将第一数据集的多张标注图像经预处理后，分为多个小批次(min-batch)，每个批次可以包含多张标注图像(如：32、64张等)输入当次训练过程对应的待训练图像标注模型的特征提取网络中进行图像深度特征提取，再将提取到的深度特征输入到分类器网络中进行分类处理并输出多张标注图像各自对应的预测标签，该预测标签可以表征多张标注图像各自对应的预测分类结果。从而可以基于多张标注图像各自对应的预测标签与真实标签之间的差异，确定第一损失函数的损失值，进而，可以基于损失值通过反向传播的方式对当次训练过程对应的待训练图像标注模型的权重系数进行更新，得到当次训练过程对应的第一图像标注模型。

可选的，如图3所示，分类器网络可以包括第一分类器网络和第二分类器网络，所述预测标签包括第一预测标签和第二预测标签，其中，所述第一预测标签为所述第一分类器网络的输出结果，所述第二预测标签为所述第二分类器网络的输出结果。作为一种方式，可以获取多张标注图像各自对应的第一预测标签与真实标签的差异，作为第一差异值；获取多张标注图像各自对应的第二预测标签与真实标签的差异，作为第二差异值；基于第一差异值和第二差异值的加权和，确定第一损失函数的损失值。第一损失函数的计算公式如下：

L_C(X_s，Y_s)＝L_C1(X_s，Y_s)+L_C2(X_s，Y_s)

其中，X_s可以表示第一数据集图像，Y_s可以表示第一数据集图像对应的真实标签，L_C1(X_s，Y_s)可以表示第一预测标签与真实标签的差异， L_C2(X_s，Y_s)可以表示第二预测标签与真实标签的差异。L_C1(X_s，Y_s)、L_C2(X_s，Y_s) 可以通过交叉熵损失函数，BCE损失函数等的计算公式得到。

S120：基于所述第一数据集以及第二数据集对所述第一图像标注模型的分类器网络进行训练，得到当次训练过程对应的第二图像标注模型，所述第二图像标注模型与所述第一图像标注模型的网络结构相同，所述第一数据集与所述第二数据集所属领域不相同。

其中，图像的领域可以理解为图像的内容所表征的场景。可选的，图像的领域可以是不同属性的组合，例如：图像所包含的内容(如：人脸、动物、花草等)，图像的明暗(如：晴天与阴天时采集到的自然图像)，图像的色彩(如：彩色图像、灰度图像等)，图像的拍摄视角(如：同一个人的正脸和侧脸等)。在本申请实施例中，第一数据集所属的领域可以为源域，第二数据集所属的领域可以为目标域，其中，目标域所包含的图像类别可以与源域所包含的图像类别相同，或者目标域所包含的图像类别可以比源域所包含的图像类别少。

其中，第一分类器网络和第二分类器网络可以分别包括全连接层。可选的，第一分类器网络和第二分类器网络的全连接层可以相同，但初始化参数(如：全连接层的初始权重等)可以不同，例如：第一分类器网络和第二分类器网络可以都包括三层全连接层，并采用随机初始化权重的方法使第一分类器网络和第二分类器网络的初始化参数不一致。可选的，第一分类器网络和第二分类器网络的全连接层也可以不同，例如，第一分类器网络和第二分类器网络的全连层的层数不同。

作为一种方式，如图4所示，基于第一数据集以及第二数据集对第一图像标注模型的分类器网络进行训练，得到当次训练过程对应的第二图像标注模型，包括：

S121：将所述多张标注图像以及所述多张未标注图像输入到所述第一图像标注模型，得到所述多张标注图像各自对应的预测标签、所述多张未标注图像各自对应的第一预测概率值和第二预测概率值，其中，所述第一预测概率值由所述第一分类器网络的全连接层输出，所述第二预测概率值由所述第二分类器网络的全连接层输出。

其中，第一预测概率值和第二预测概率值可以为一个多维向量，向量维度可以与第一数据集的类别总数相同，则每一维向量的值可以表示未标注图像被分类器网络判定为某个类别的概率值。

作为一种方式，如图5所示，可以将第一数据集的多张标注图像以及第二数据集的多张未标注图像随机混合输入第一图像标注模型，得到多张标注图像各自对应的预测标签，以及多张未标注图像各自对应的第一预测概率值和第二预测概率值。

可选的，如图6所示，第一分类器网络和第二分类器网络中全连接层的输出可以分别作为一个softmax激活函数的输入，通过上述方式使得 softmax函数可以将第一分类器网络和第二分类器网络中全连接层的输出进行归一化处理，将全连接层的输出范围变为在0～1之间，以得到多张未标注图像以及多张标注图像各自对应的第一预测概率值和第二预测概率值，进而可以基于多张标注图像各自对应的第一预测概率值和第二预测概率值得到多张标注图像各自对应的预测标签。

S122：基于所述多张标注图像各自对应的预测标签与真实标签之间的差异，以及所述多张未标注图像各自对应的第一预测概率值与第二预测概率值之间的差异，确定第二损失函数的损失值，所述第二损失函数用于使所述第一分类网络和第二分类器网络对所述第一数据集正确分类的同时，增大所述多张未标注图像各自对应的第一预测概率值与第二预测概率值之间的差异。

其中，第二损失函数可以包括标签损失和概率损失。标签损失可以用于使第一分类器网络和第二分类器网络可以对第一数据集进行正确分类，标签损失的计算公式可以与步骤S110的第一损失函数计算公式相同。概率损失可以用于使第一分类器网络和第二分类器网络各自对第二数据集分类结果的差异尽可能大，概率损失的计算公式可以为：

其中，D_t可以表示第二数据集，x_t可以表示第二数据集中的一张图像，θ_F可以表示第一图像标注模型的特征提取网络的模型参数，

可以表示第一图像标注模型的第一分类器网络的模型参数，

可以表示第一图像标注模型的第二分类器网络的模型参数，F(x_t；θ_F)可以表示第一图像标注模型的特征提取网络输出的深度特征，

可以表示第一图像标注模型的第一分类器网络输出的第一概率值，

可以表示第一图像标注模型的第二分类器网络输出的第二概率值。

可选的，概率损失可以为第一概率值与第二概率值之间的L1距离、L2 距离、KL散度等。例如，当概率损失为第一概率值与第二概率值之间的 L1距离时，

的计算公式可以为：

其中，p₁可以表示第一图像标注模型的第一分类器网络输出的第一概率值；p₂可以表示第一图像标注模型的第二分类器网络输出的第二概率值； K可以表示第一概率值、第二概率值的维度大小，也就是第二数据集的标签数量；p_1k和p_2k可以分别表示第一分类器网络和第二分类器网络将第二数据集判定为第k个标签的概率值，也就是多维向量p₁、p₂中第k维的数值。

作为一种方式，可以基于多张标注图像各自对应的预测标签与真实标签之间的差异，确定标签损失；基于多张标注图像各自对应的第一预测概率值与第二预测概率值之间的差异，确定概率损失；将概率损失与预设系数相乘，得到参考概率损失，预设系数表征概率损失的重要程度；基于标签损失与参考概率损失，确定第二损失函数的损失值。第二损失函数的计算公式可以为：

L₂＝L_C(X_s,Y_s)-α*L_adv(X_t)

其中，预设系数可以是0～1之间的某个固定值，具体可以基于多次试验结果确定，若概率损失对第一图像标注模型的训练贡献越大(尽快达到第二损失函数的局部最优)，则可以表明概率损失越重要，此时的预设系数也就越大。

S123：基于所述损失值调整所述当次训练过程对应的第一图像标注模型的分类器网络的模型参数，得到所述当次训练过程对应的第二图像标注模型，其中，在当次训练过程中，所述第一图像标注模型的特征提取网络的模型参数不变。

其中，作为一种方式，在执行步骤S120时，可以将第一图像标注模型的特征提取网络的模型参数进行冻结，基于第二损失函数的损失值仅对第一分类器网络和第二分类器网络的模型参数进行更新，以得到当次训练过程对应的第二图像标注模型。

S130：基于所述第二数据集对所述第二图像标注模型的特征提取网络进行训练，得到当次训练过程对应的训练完成的模型，所述训练完成的模型与所述第二图像标注模型的网络结构相同。

作为一种方式，如图7所示，基于第二数据集对第二图像标注模型的特征提取网络进行训练，得到当次训练过程对应的训练完成的模型，包括：

S131：将所述多张未标注图像输入到所述第二图像标注模型，得到所述多张未标注图像各自对应的第一预测概率值和第二预测概率值，其中，所述第一预测概率值由所述第一分类器网络的全连接层输出，所述第二预测概率值由所述第二分类器网络的全连接层输出。

S132：基于所述多张未标注图像各自对应的第一预测概率值与第二预测概率值之间的差异，确定第三损失函数的损失值，所述第三损失函数用于减小所述多张未标注图像各自对应的第一预测概率值与第二预测概率值之间的差异。

其中，第三损失函数可以与步骤S122中的概率损失的计算公式相同。

S133：基于所述损失值调整所述第二图像标注模型的特征提取网络的模型参数，得到所述当次训练过程对应的训练完成的模型，其中，在当次训练过程中，所述第二图像标注模型的分类器网络的模型参数不变。

其中，作为一种方式，在执行步骤S130时，可以将第二图像标注模型的分类器网络的模型参数进行冻结，基于第三损失函数的损失值仅对特征提取网络的模型参数进行更新，以得到当次训练过程对应的训练完成的模型。

S140：若当次训练过程满足目标训练条件，将所述训练完成的模型作为目标图像标注模型，若当次训练过程不满足目标训练条件，进入下一次的训练过程，并将所述训练完成的模型作为下一次训练过程对应的待训练图像标注模型。

其中，目标训练条件可以为预设训练次数，通常情况下，当预设训练次数在一定范围内持续增大时，得到的目标图像标注模型的准确性可以得到较大的改善，例如，准确性从65％增加至80％；当预设训练次数超过该范围时，得到的目标图像标注模型的准确性可能改善较为微小，例如，从 80％增加至80.5％。

示例性的，可以将目标训练条件设置为预设训练次数等于500次，若当次训练过程为第300次重复执行步骤S110～步骤S130，表明还未达到目标训练条件，则可以将当次训练过程对应的训练完成的模型作为第301次的待训练图像标注模型；若当次训练过程为第500次重复执行步骤S110～步骤S130，表明达到目标训练条件，则可以将当次训练过程对应的训练完成的模型作为目标图像标注模型并结束训练。

在本申请实施例中，通过重复执行步骤S110～步骤S130，可以通过特征提取技术将第一数据集(源域)和第二数据集(目标域)映射到一个公共特征空间中，并通过第二损失函数与第三损失函数对待训练图像标注模型进行多次对抗训练实现第一数据集(源域)和第二数据集(目标域)在该公共特征空间中进行特征对齐，进而使得分类器网络可以对第一数据集(源域)和第二数据集(目标域)进行正确分类。示例性的，如图8所示，当第一数据集和第二数据集所属领域不同时，通过重复执行步骤S110～步骤S130，可以将图8 中左图所示的图像标注模型训练成图8中右图所示的目标图像标注模型，使得模型以从仅可以对第一数据集进行正确分类的状态到同时对第一数据集和第二数据均可正确分类的状态，从而可以提高图8中右图所示的目标图像标注模型对与第二数据集所属领域相同的未标注图像的标注准确性。

本实施例提供的一种模型生成方法，在当次训练过程中，基于第一数据集对当次训练过程对应的包括特征提取网络和分类器网络的待训练图像标注模型进行训练后，得到当次训练过程对应的第一图像标注模型，再基于所述第一数据集以及第二数据集对所述第一图像标注模型的分类器网络进行训练，得到当次训练过程对应的第二图像标注模型，所述第一数据集与所述第二数据集所属领域不相同，然后再基于所述第二数据集对所述第二图像标注模型的特征提取网络进行训练，得到当次训练过程对应的训练完成的模型，若当次训练过程满足目标训练条件，将所述训练完成的模型作为目标图像标注模型，若当次训练过程不满足目标训练条件，进入下一次的训练过程，并将所述训练完成的模型作为下一次训练过程对应的待训练图像标注模型。通过上述方式使得，可以在每一次的训练过程中，基于第一数据集、第二数据集中的至少一个数据集对待训练图像标注模型进行多个步骤的训练，并多次重复上述训练过程以得到目标图像标注模型，实现了待训练图像标注模型从第一数据集所属域到第二数据集所述域的自适应，提高了目标图像标注模型对与所述第二数据集所属域相同的未标注图像的标注准确性。

请参阅图9，本申请提供的一种图像标注方法，应用于电子设备，所述方法包括：

S210：获取待标注图像，所述待标注图像与所述第二数据集所属领域相同。

其中，作为一种方式，可以基于图像采集设备(如：相机、手机等) 获取与第二数据集所属领域相同的图像，以得到待标注图像。

S220：将所述待标注图像输入基于上述方法得到的目标图像标注模型中，基于所述目标图像标注模型输出预测标签得到所述待标注图像的标签。

其中，目标图像标注模型可以包括特征提取网络和分类器网络，分类器网络可以包括第一分类器网络和第二分类器网络，第一分类器网络和第二分类器网络可以分别包括全连接层。

作为一种方式，可以基于第一分类器网络的全连接层得到的待标注图像的第一预测值；基于第二分类器网络的全连接层得到的待标注图像的第二预测值；基于第一预测值和第二预测值确定预测标签，以将预测标签作为待标注图像的标签。

可选的，如图10所示，第一分类器网络和第二分类器网络中全连接层的输出作为一个add层的输入，并将add层的输出作为一个softmax激活函数的输入，从而使得可以通过add层将第一预测值和第二预测值相加，并将相加后的结果输入softmax激活函数，从而使得softmax函数可以将第一分类器网络和第二分类器网络中全连接层的输出进行归一化处理，将全连接层的输出范围变为在0～1之间，以得到目标图像标注模型对待标注图像的预测概率值，将预测概率值中最大值对应的标签作为预测标签，以得到待标注图像的标签。预测概率值的计算公式如下：

其中，

可以表示目标图像标注模型的特征提取网络的模型参数，

可以表示目标图像标注模型的第一分类器网络的模型参数，

可以表示目标图像标注模型的第二分类器网络的模型参数，

可以表示目标图像标注模型的特征提取网络输出的深度特征，

可以表示第一概率值，

可以表示第二概率值。

示例性的，第一概率值可以为{0.25，0.03，...，0.01}，第二概率值可以为{0.35，0.02，...，0.05}，则预测概率值可以为{0.6,0.05，...，0.06}，其中，预测概率值的最大值为0.6，可以表明0.6所对应的标签为待标注图像的标签。

本实施例提供的一种图像标注方法，通过上述方式使得，可以基于实现对第二数据集领域自适应的目标图像标注模型对与第二数据集所述领域相同的待标注图像进行标注，从而提高了图像标注的准确性。

请参阅图11，本申请提供的一种模型生成装置600，运行于电子设备，所述装置600包括：

第一图像标注模型生成单元610，用于在当次训练过程中，基于第一数据集对当次训练过程对应的待训练图像标注模型进行训练，得到当次训练过程对应的第一图像标注模型，所述待训练图像标注模型包括特征提取网络和分类器网络，所述第一图像标注模型与所述待训练图像标注模型的网络结构相同；

第二图像标注模型生成单元620，用于基于所述第一数据集以及第二数据集对所述第一图像标注模型的分类器网络进行训练，得到当次训练过程对应的第二图像标注模型，所述第二图像标注模型与所述第一图像标注模型的网络结构相同，所述第一数据集与所述第二数据集所属领域不相同；

目标图像标注模型生成单元630，用于基于所述第二数据集对所述第二图像标注模型的特征提取网络进行训练，得到当次训练过程对应的训练完成的模型，所述训练完成的模型与所述第二图像标注模型的网络结构相同；若当次训练过程满足目标训练条件，将所述训练完成的模型作为目标图像标注模型，若当次训练过程不满足目标训练条件，进入下一次的训练过程，并将所述训练完成的模型作为下一次训练过程对应的待训练图像标注模型。

作为一种方式，所述第一数据集包括多张标注图像以及所述多张标注图像各自对应的真实标签，第一图像标注模型生成单元610具体用于在当次训练过程中，将所述多张标注图像输入到当次训练过程对应的待训练图像标注模型，得到所述多张标注图像各自对应的预测标签；基于所述预测标签与所述真实标签之间的差异，确定第一损失函数的损失值，所述第一损失函数用于减少所述预测标签与所述真实标签之间的差异；基于所述损失值调整所述当次训练过程对应的待训练图像标注模型的模型参数，得到所述当次训练过程对应的第一图像标注模型。

可选的，所述分类器网络包括第一分类器网络和第二分类器网络，所述预测标签包括第一预测标签和第二预测标签，其中，所述第一预测标签为所述第一分类器网络的输出结果，所述第二预测标签为所述第二分类器网络的输出结果，第一图像标注模型生成单元610具体用于获取所述第一预测标签与所述真实标签的差异，作为第一差异值；获取所述第二预测标签与所述真实标签的差异，作为第二差异值；基于所述第一差异值和所述第二差异值的加权和，确定所述第一损失函数的损失值。

作为另一种方式，所述第二数据集包括多张未标注图像，所述分类器网络包括第一分类器网络和第二分类器网络，所述第一分类器网络和所述第二分类器网络分别包括全连接层，第二图像标注模型生成单元620 具体用于将所述多张标注图像以及所述多张未标注图像输入到所述第一图像标注模型，得到所述多张标注图像各自对应的预测标签、所述多张未标注图像各自对应的第一预测概率值和第二预测概率值，其中，所述第一预测概率值由所述第一分类器网络的全连接层输出，所述第二预测概率值由所述第二分类器网络的全连接层输出；基于所述多张标注图像各自对应的预测标签与真实标签之间的差异，以及所述多张未标注图像各自对应的第一预测概率值与第二预测概率值之间的差异，确定第二损失函数的损失值，所述第二损失函数用于使所述第一分类网络和第二分类器网络对所述第一数据集正确分类的同时，增大所述多张未标注图像各自对应的第一预测概率值与第二预测概率值之间的差异；基于所述损失值调整所述当次训练过程对应的第一图像标注模型的分类器网络的模型参数，得到所述当次训练过程对应的第二图像标注模型，其中，在当次训练过程中，所述第一图像标注模型的特征提取网络的模型参数不变。

可选的，所述第二损失函数包括标签损失和概率损失，第二图像标注模型生成单元620具体用于基于所述多张标注图像各自对应的预测标签与所述真实标签之间的差异，确定所述标签损失；基于所述多张标注图像各自对应的第一预测概率值与所述第二预测概率值之间的差异，确定所述概率损失；将所述概率损失与预设系数相乘，得到参考概率损失，所述预设系数表征所述概率损失的重要程度；基于所述标签损失与所述参考概率损失，确定所述第二损失函数的损失值。

作为又一种方式，目标图像标注模型生成单元630具体用于将所述多张未标注图像输入到所述第二图像标注模型，得到所述多张未标注图像各自对应的第一预测概率值和第二预测概率值，其中，所述第一预测概率值由所述第一分类器网络的全连接层输出，所述第二预测概率值由所述第二分类器网络的全连接层输出；基于所述多张未标注图像各自对应的第一预测概率值与第二预测概率值之间的差异，确定第三损失函数的损失值，所述第三损失函数用于减小所述多张未标注图像各自对应的第一预测概率值与第二预测概率值之间的差异；基于所述损失值调整所述第二图像标注模型的特征提取网络的模型参数，得到所述当次训练过程对应的训练完成的模型，其中，在当次训练过程中，所述第二图像标注模型的分类器网络的模型参数不变。

请参阅图12，本申请提供的一种图像标注装置800，运行于电子设备，所述装置800包括：

待标注图像获取单元810，用于获取待标注图像，所述待标注图像与所述第二数据集所属领域相同；

标注结果获取单元820，用于将所述待标注图像输入基于上述方法得到的目标图像标注模型中，基于所述目标图像标注模型输出预测标签得到所述待标注图像的标签。

作为一种方式，所述目标图像标注模型包括特征提取网络和分类器网络，所述分类器网络包括第一分类器网络和第二分类器网络，所述第一分类器网络和第二分类器网络分别包括全连接层，标注结果获取单元820具体用于基于所述第一分类器网络的全连接层得到的所述待标注图像的第一预测值；基于所述第二分类器网络的全连接层得到的所述待标注图像的第二预测值；基于所述第一预测值和所述第二预测值确定所述预测标签，以将所述预测标签作为所述待标注图像的标签。

下面将结合图13对本申请提供的一种电子设备进行说明。

请参阅图13，基于上述的模型生成方法、图像标注方法、装置，本申请实施例还提供的另一种可以执行前述模型生成方法、图像标注方法的电子设备100。电子设备100包括相互耦合的一个或多个(图中仅示出一个)处理器102、存储器104。其中，该存储器104中存储有可以执行前述实施例中内容的程序，而处理器102可以执行该存储器104中存储的程序。

其中，处理器102可以包括一个或者多个处理核。处理器102利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器104内的指令、程序、代码集或指令集，以及调用存储在存储器 104内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器 102可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器102 可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU 主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器102中，单独通过一块通信芯片进行实现。

存储器104可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图14，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质1000中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1000可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1000包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质1000具有执行上述方法中的任何方法步骤的程序代码1010的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1010可以例如以适当形式进行压缩。

综上所述，本申请提供的一种模型生成方法、图像标注方法、装置以及电子设备，在当次训练过程中，基于第一数据集对当次训练过程对应的包括特征提取网络和分类器网络的待训练图像标注模型进行训练后，得到当次训练过程对应的第一图像标注模型，再基于所述第一数据集以及第二数据集对所述第一图像标注模型的分类器网络进行训练，得到当次训练过程对应的第二图像标注模型，所述第一数据集与所述第二数据集所属领域不相同，然后再基于所述第二数据集对所述第二图像标注模型的特征提取网络进行训练，得到当次训练过程对应的训练完成的模型，若当次训练过程满足目标训练条件，将所述训练完成的模型作为目标图像标注模型，若当次训练过程不满足目标训练条件，进入下一次的训练过程，并将所述训练完成的模型作为下一次训练过程对应的待训练图像标注模型。通过上述方式使得，可以在每一次的训练过程中，基于第一数据集、第二数据集中的至少一个数据集对待训练图像标注模型进行多个步骤的训练，并多次重复上述训练过程以得到目标图像标注模型，实现了待训练图像标注模型从第一数据集所属域到第二数据集所述域的自适应，提高了目标图像标注模型对与所述第二数据集所属域相同的未标注图像的标注准确性。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种模型生成方法，其特征在于，应用于电子设备，所述方法包括：

在当次训练过程中，基于第一数据集对当次训练过程对应的待训练图像标注模型进行训练，得到当次训练过程对应的第一图像标注模型，所述待训练图像标注模型包括特征提取网络和分类器网络，所述第一图像标注模型与所述待训练图像标注模型的网络结构相同；

基于所述第一数据集以及第二数据集对所述第一图像标注模型的分类器网络进行训练，得到当次训练过程对应的第二图像标注模型，所述第二图像标注模型与所述第一图像标注模型的网络结构相同，所述第一数据集与所述第二数据集所属领域不相同；

基于所述第二数据集对所述第二图像标注模型的特征提取网络进行训练，得到当次训练过程对应的训练完成的模型，所述训练完成的模型与所述第二图像标注模型的网络结构相同；

若当次训练过程满足目标训练条件，将所述训练完成的模型作为目标图像标注模型，若当次训练过程不满足目标训练条件，进入下一次的训练过程，并将所述训练完成的模型作为下一次训练过程对应的待训练图像标注模型。

2.根据权利要求1所述的方法，其特征在于，所述第一数据集包括多张标注图像以及所述多张标注图像各自对应的真实标签，所述在当次训练过程中，基于第一数据集对当次训练过程对应的待训练图像标注模型进行训练，得到当次训练过程对应的第一图像标注模型，包括：

在当次训练过程中，将所述多张标注图像输入到当次训练过程对应的待训练图像标注模型，得到所述多张标注图像各自对应的预测标签；

基于所述预测标签与所述真实标签之间的差异，确定第一损失函数的损失值，所述第一损失函数用于减少所述预测标签与所述真实标签之间的差异；

基于所述损失值调整所述当次训练过程对应的待训练图像标注模型的模型参数，得到所述当次训练过程对应的第一图像标注模型。

3.根据权利要求2所述的方法，其特征在于，所述分类器网络包括第一分类器网络和第二分类器网络，所述预测标签包括第一预测标签和第二预测标签，其中，所述第一预测标签为所述第一分类器网络的输出结果，所述第二预测标签为所述第二分类器网络的输出结果，所述基于所述预测标签与所述真实标签之间的差异，确定第一损失函数的损失值，包括：

获取所述第一预测标签与所述真实标签的差异，作为第一差异值；

获取所述第二预测标签与所述真实标签的差异，作为第二差异值；

基于所述第一差异值和所述第二差异值的加权和，确定所述第一损失函数的损失值。

4.根据权利要求2所述的方法，其特征在于，所述第二数据集包括多张未标注图像，所述分类器网络包括第一分类器网络和第二分类器网络，所述第一分类器网络和所述第二分类器网络分别包括全连接层，所述基于所述第一数据集以及第二数据集对所述第一图像标注模型的分类器网络进行训练，得到当次训练过程对应的第二图像标注模型，包括：

将所述多张标注图像以及所述多张未标注图像输入到所述第一图像标注模型，得到所述多张标注图像各自对应的预测标签、所述多张未标注图像各自对应的第一预测概率值和第二预测概率值，其中，所述第一预测概率值由所述第一分类器网络的全连接层输出，所述第二预测概率值由所述第二分类器网络的全连接层输出；

基于所述多张标注图像各自对应的预测标签与真实标签之间的差异，以及所述多张未标注图像各自对应的第一预测概率值与第二预测概率值之间的差异，确定第二损失函数的损失值，所述第二损失函数用于使所述第一分类网络和第二分类器网络对所述第一数据集正确分类的同时，增大所述多张未标注图像各自对应的第一预测概率值与第二预测概率值之间的差异；

基于所述损失值调整所述当次训练过程对应的第一图像标注模型的分类器网络的模型参数，得到所述当次训练过程对应的第二图像标注模型，其中，在当次训练过程中，所述第一图像标注模型的特征提取网络的模型参数不变。

5.根据权利要求4所述的方法，其特征在于，所述第二损失函数包括标签损失和概率损失，所述基于所述多张标注图像各自对应的预测标签与所述真实标签之间的差异，以及所述多张标注图像各自对应的第一预测概率值与所述第二预测概率值之间的差异，确定第二损失函数的损失值，确定第二损失函数的损失值，包括：

基于所述多张标注图像各自对应的预测标签与所述真实标签之间的差异，确定所述标签损失；

基于所述多张标注图像各自对应的第一预测概率值与所述第二预测概率值之间的差异，确定所述概率损失；

将所述概率损失与预设系数相乘，得到参考概率损失，所述预设系数表征所述概率损失的重要程度；

基于所述标签损失与所述参考概率损失，确定所述第二损失函数的损失值。

6.根据权利要求4所述的方法，其特征在于，所述基于所述第二数据集对所述第二图像标注模型的特征提取网络进行训练，得到当次训练过程对应的训练完成的模型，包括：

将所述多张未标注图像输入到所述第二图像标注模型，得到所述多张未标注图像各自对应的第一预测概率值和第二预测概率值，其中，所述第一预测概率值由所述第一分类器网络的全连接层输出，所述第二预测概率值由所述第二分类器网络的全连接层输出；

基于所述多张未标注图像各自对应的第一预测概率值与第二预测概率值之间的差异，确定第三损失函数的损失值，所述第三损失函数用于减小所述多张未标注图像各自对应的第一预测概率值与第二预测概率值之间的差异；

基于所述损失值调整所述第二图像标注模型的特征提取网络的模型参数，得到所述当次训练过程对应的训练完成的模型，其中，在当次训练过程中，所述第二图像标注模型的分类器网络的模型参数不变。

7.一种图像标注方法，其特征在于，应用于电子设备，所述方法包括：

获取待标注图像，所述待标注图像与所述第二数据集所属领域相同；

将所述待标注图像输入基于权利要求1-6任一所述方法得到的目标图像标注模型中，基于所述目标图像标注模型输出预测标签得到所述待标注图像的标签。

8.根据权利要求7所述的方法，其特征在于，所述目标图像标注模型包括特征提取网络和分类器网络，所述分类器网络包括第一分类器网络和第二分类器网络，所述第一分类器网络和第二分类器网络分别包括全连接层，所述基于所述目标图像标注模型输出预测标签得到所述待标注图像的标签，包括：

基于所述第一分类器网络的全连接层得到的所述待标注图像的第一预测值；

基于所述第二分类器网络的全连接层得到的所述待标注图像的第二预测值；

基于所述第一预测值和所述第二预测值确定所述预测标签，以将所述预测标签作为所述待标注图像的标签。

9.一种模型生成装置，其特征在于，运行于电子设备，所述装置包括：

第一图像标注模型生成单元，用于在当次训练过程中，基于第一数据集对当次训练过程对应的待训练图像标注模型进行训练，得到当次训练过程对应的第一图像标注模型，所述待训练图像标注模型包括特征提取网络和分类器网络，所述第一图像标注模型与所述待训练图像标注模型的网络结构相同；

第二图像标注模型生成单元，用于基于所述第一数据集以及第二数据集对所述第一图像标注模型的分类器网络进行训练，得到当次训练过程对应的第二图像标注模型，所述第二图像标注模型与所述第一图像标注模型的网络结构相同，所述第一数据集与所述第二数据集所属领域不相同；

目标图像标注模型生成单元，用于基于所述第二数据集对所述第二图像标注模型的特征提取网络进行训练，得到当次训练过程对应的训练完成的模型，所述训练完成的模型与所述第二图像标注模型的网络结构相同；若当次训练过程满足目标训练条件，将所述训练完成的模型作为目标图像标注模型，若当次训练过程不满足目标训练条件，进入下一次的训练过程，并将所述训练完成的模型作为下一次训练过程对应的待训练图像标注模型。

10.一种电子设备，其特征在于，包括一个或多个处理器以及存储器；

一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行权利要求1-7任一所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行权利要求1-7任一所述的方法。