CN112465007A

CN112465007A - 目标识别模型的训练方法、目标识别方法及终端设备

Info

Publication number: CN112465007A
Application number: CN202011335589.2A
Authority: CN
Inventors: 王玥; 程骏; 曾钰胜; 刘业鹏; 庞建新
Original assignee: Shenzhen Ubtech Technology Co ltd
Current assignee: Shenzhen Ubtech Technology Co ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-03-09
Anticipated expiration: 2040-11-24
Also published as: CN112465007B

Abstract

本申请适用于图像处理技术领域，尤其涉及目标识别模型的训练方法、目标识别方法及终端设备。所述方法可以根据目标终端设备获取的第二训练图像集对已有的其他终端设备获取的第一训练图像集进行图像风格的转换处理，得到与第二训练图像集的图像风格相同的第三训练图像集，从而可以利用第二训练图像集和第三训练图像集对目标识别模型进行训练，以通过大量的训练图像进行目标识别模型的训练来提高目标识别模型的识别准确性。同时，通过图像风格的转换处理，可以基于已有的目标终端设备获取的少量训练图像和已有的其他终端设备获取的大量训练图像，来快速获取用于目标识别模型训练的大量训练图像，极大地减少了训练图像获取的时间和人力成本。

Description

目标识别模型的训练方法、目标识别方法及终端设备

技术领域

本申请属于图像处理技术领域，尤其涉及目标识别模型的训练方法、目标识别方法及终端设备。

背景技术

目标识别是指从图像中识别出特定目标的技术。现有技术中，一般通过模型进行目标识别，模型需要通过训练图像训练得到。由于不同终端获取的图像在颜色、曝光度、噪点等图像风格上存在一定差异，因此，当通过某一具体终端设备进行目标识别时，需要通过该终端设备获取该终端设备对应的图像风格的训练图像来进行模型训练，而为确保该终端设备具有较好的识别效果，往往需要获取大量的训练图像，耗费较多的时间与人力成本。

发明内容

本申请实施例提供了一种目标识别模型的训练方法、目标识别方法及终端设备，可以有效增加训练图像来进行目标识别模型的训练，以提高目标识别模型的识别准确性。

第一方面，本申请实施例提供了一种目标识别模型的训练方法，目标识别模型为应用于目标终端设备的识别模型，所述训练方法包括：

获取第一训练图像集和第二训练图像集，所述第一训练图像集的图像风格与所述第二训练图像集的图像风格不相同，所述第二训练图像集为通过所述目标终端设备采集得到的图像的集合；

根据所述第二训练图像集对所述第一训练图像集进行图像风格的转换处理，得到所述第一训练图像集对应的第三训练图像集，所述第三训练图像集的图像风格与所述第二训练图像集的图像风格相同；

利用所述第二训练图像集和所述第三训练图像集对所述目标识别模型进行训练，得到已训练的目标识别模型。

示例性的，所述根据所述第二训练图像集对所述第一训练图像集进行图像风格的转换处理，得到所述第一训练图像集对应的第三训练图像集包括：

利用所述第一训练图像集和所述第二训练图像集进行生成对抗网络模型的训练，得到已训练的生成对抗网络模型；

将所述第一训练图像集输入至已训练的生成对抗网络模型进行处理，获取所述已训练的生成网络对抗模型输出的第三训练图像集；

其中，所述生成对抗网络模型包括训练方式为对抗式训练的生成模型与判别模型，所述判别模型包括第一判别模型、第二判别模型和第三判别模型，所述第一判别模型和所述第二判别模型为卷积网络模型，所述第三判别模型为基于自编码结构的网络模型。

可选的，所述利用所述第一训练图像集和所述第二训练图像集进行生成对抗网络模型的训练，得到已训练的生成对抗网络模型包括：

从所述第一训练图像集中获取第一训练图像以及从所述第二训练图像集中获取第二训练图像；

将所述第一训练图像输入至所述生成模型进行处理，获取所述生成模型输出的生成图像；

将所述第一训练图像和所述生成图像分别输入至所述第一判别模型进行处理，获取所述第一判别模型的内容损失，并获取所述第一判别模型输出的第一判别结果；

根据所述第一判别结果确定所述第一判别模型的第一训练损失；

将所述生成图像和所述第二训练图像分别输入至所述第二判别模型进行处理，获取所述第二判别模型的风格损失，并获取所述第二判别模型输出的第二判别结果；

根据所述第二判别结果确定所述第二判别模型的第二训练损失；

将所述第一训练图像、所述第二训练图像和所述生成图像分别输入至所述第三判别模型进行处理，获取所述第一训练图像对应的第一输出结果、所述第二训练图像对应的第二输出结果以及所述生成图像对应的第三输出结果；

根据所述第一输出结果、所述第二输出结果和所述第三输出结果确定所述第三判别模型的第三训练损失；

根据所述第一训练损失、所述内容损失、所述第二训练损失、所述风格损失以及所述第三训练损失确定所述生成对抗网络模型的总损失；

当所述总损失不满足预设条件时，根据所述第一训练损失调整所述第一判别模型的第一模型参数、根据所述第二训练损失调整所述第二判别模型的第二模型参数以及根据所述总损失调整所述生成模型的第三模型参数，并返回执行所述从所述第一训练图像集中获取第一训练图像以及从所述第二训练图像集中获取第二训练图像的步骤以及后续步骤，直至所述总损失满足所述预设条件为止，得到已训练的生成对抗网络模型。

具体地，所述获取所述第一判别模型的内容损失包括：

根据下述公式获取所述第一判别模型的内容损失：

L_C＝E_x～S|F(G(x))^(Dc,4)-F(x)^(Dc,4)|

其中，L_C为所述内容损失，S为所述第一训练图像集，x为所述第一训练图像，G(x)为所述生成图像，F(G(x))^(Dc,4)为所述第一判别模型的第四个卷积模块输出的所述生成图像对应的特征图，F(x)^(Dc,4)为所述第一判别模型的第四个卷积模块输出的所述第一训练图像对应的特征图。

可选的，所述获取所述第二判别模型的风格损失包括：

根据下述公式获取所述第二判别模型的风格损失：

L_S＝E_{(x，y)～(S,T)}∑_i＝1,2,3|gram(G(x))^(Ds,i)-gram(y)^(Ds,i)|

其中，L_S为所述风格损失，S为所述第一训练图像集，T为所述第二训练图像集，x为所述第一训练图像，y为所述第二训练图像，gram(G(x))^(Ds,i)为所述第二判别模型的第i个卷积模块输出的所述生成图像对应的特征图的格拉姆矩阵，gram(y)^(Ds,i)为所述第二判别模型的第i个卷积模块输出的所述第二训练图像对应的特征图的格拉姆矩阵。

示例性的，所述根据所述第一输出结果、所述第二输出结果和所述第三输出结果确定所述第三判别模型的第三训练损失包括：

根据下述公式确定所述第三判别模型的第三训练损失：

L_E＝D(x)+D(y)+max(0，m-D(z))

其中，L_E为所述第三训练损失，h为图像高度，w为图像宽度，x为所述第一训练图像，x’为所述第一输出结果，y为所述第二训练图像，y’为所述第二输出结果，z为所述生成图像，z’为所述第三输出结果，m为预设值。

具体的，所述根据所述第一训练损失、所述内容损失、所述第二训练损失、所述风格损失、所述第三训练损失确定所述生成对抗模型的总损失包括：

根据下述公式计算所述生成对抗模型的总损失：

L(G，Ds，Dc，E)＝L_C+ε×L_S+λ₁×L_Dc+λ₂×L_Ds+λ₃×L_E

其中，L(G，Ds，Dc，E)为所述总损失，L_C为所述内容损失，L_S为所述风格损失，L_Dc为所述第一训练损失，L_Ds为所述第二训练损失，L_E为所述第三训练损失，ε＝L_C’/L_S’，L_C’是L_C的初始值，L_S’是L_S的初始值，λ₁、λ₂和λ₃为超参数。

第二方面，本申请实施例提供了一种目标识别方法，包括：

获取待识别图像；

将所述待识别图像输入至目标识别模型进行处理，得到所述目标识别模型输出的目标识别结果，所述目标识别模型是通过上述第一方面中任一项所述的训练方法训练得到的。

第三方面，本申请实施例提供了一种目标识别模型的训练装置，目标识别模型为应用于目标终端设备的识别模型，所述训练装置包括：

训练图像集获取模块，用于获取第一训练图像集和第二训练图像集，所述第一训练图像集的图像风格与所述第二训练图像集的图像风格不相同，所述第二训练图像集为通过所述目标终端设备采集得到的图像的集合；

训练图像集转换模块，用于根据所述第二训练图像集对所述第一训练图像集进行图像风格的转换处理，得到所述第一训练图像集对应的第三训练图像集，所述第三训练图像集的图像风格与所述第二训练图像集的图像风格相同；

识别模型训练模块，用于利用所述第二训练图像集和所述第三训练图像集对所述目标识别模型进行训练，得到已训练的目标识别模型。

第四方面，本申请实施例提供了一种目标识别装置，包括：

待识别图像获取模块，用于获取待识别图像；

目标识别模块，用于将所述待识别图像输入至目标识别模型进行处理，得到所述目标识别模型输出的目标识别结果，所述目标识别模型是通过上述第一方面中任一项所述的训练方法训练得到的。

第五方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项所述的训练方法，或者实现上述第二方面所述的目标识别方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一项所述的训练方法，或者实现上述第二方面所述的目标识别方法。

第七方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的训练方法，或者执行上述第二方面所述的目标识别方法。

本申请实施例与现有技术相比存在的有益效果是：

本申请实施例中，可以根据目标终端设备获取的第二训练图像集对已有的其他终端设备获取的第一训练图像集进行图像风格的转换处理，以得到与第二训练图像集的图像风格相同的第三训练图像集，从而可以利用第二训练图像集和第三训练图像集对目标识别模型进行训练，以通过大量的训练图像进行目标识别模型的训练来提高目标识别模型的识别准确性。同时，通过图像风格的转换处理，可以基于已有的目标终端设备获取的少量训练图像和已有的其他终端设备获取的大量训练图像，来快速获取大量可以用于进行目标识别模型训练的训练图像，可极大地减少训练图像获取的时间和人力成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的目标识别模型的训练方法的流程示意图；

图2是本申请一实施例提供的生成对抗网络模型的结构示意图；

图3是本申请一实施例提供的第一判别模型或第二判别模型的结构示意图；

图4是本申请一实施例提供的编码器的结构示意图；

图5是本申请一实施例提供的解码器的结构示意图；

图6是本申请一实施例提供的生成对抗网络模型训练的流程示意图；

图7是本申请一实施例提供的目标识别方法的流程示意图；

图8是本申请实施例提供的目标识别模型的训练装置的结构示意图；

图9是本申请实施例提供的目标识别装置的结构示意图；

图10是本申请实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

在通过终端设备进行目标识别时，需要通过大量的训练图像进行目标识别模型的训练，以通过训练得到的目标识别模型来进行目标识别。而当需要将目标识别模型应用于某一目标终端设备时，为确保目标识别模型在该目标终端设备上具有较好的识别效果，需要利用该目标终端设备获取的训练图像来进行目标识别模型的训练。当通过该目标终端设备获取的训练图像较少，训练得到的目标识别模型的识别效果较差。因此，为确保目标识别模型在该目标终端设备上具有较好的识别效果，需要通过该目标终端设备去获取大量的训练图像，不仅需要耗费较多的时间和人力成本，而且对于通过其他终端设备获取的训练图像也无法得到很好的利用。

为解决上述问题，本申请实施例提供了一种目标识别模型的训练方法，该训练方法可以根据目标终端设备获取的第二训练图像集对已有的其他终端设备获取的第一训练图像集进行图像风格的转换处理，以得到与第二训练图像集的图像风格相同的第三训练图像集，从而可以利用第二训练图像集和第三训练图像集对目标识别模型进行训练，以通过大量的训练图像进行目标识别模型的训练来提高目标识别模型的识别准确性。同时，通过图像风格的转换处理，可以基于已有的目标终端设备获取的少量训练图像和已有的其他终端设备获取的大量训练图像，来快速获取大量可以用于进行目标识别模型训练的训练图像，可极大地减少训练图像获取的时间和人力成本。

本申请实施例提供的目标识别模型的训练方法可以应用于通过目标终端设备获取的训练图像较少，而且已有大量的通过其他终端设备获取的训练图像的场景。其中，所述目标识别模型识别的目标可以包括但不限于人脸、飞机、汽车、鼠标、杯子、猫、狗等，可以根据实际情况进行目标设置。

请参阅图1，图1是本申请实施例提供的目标识别模型的训练方法的流程示意图。其中，目标识别模型为应用于机器人、手机、平板电脑、可穿戴设备等任一目标终端设备的识别模型。所述训练方法的执行主体可以为目标识别模型所应用的目标终端设备，也可以为其他终端设备，本申请实施例对此不作限制。如图1所示，所述训练方法可以包括：

S101、获取第一训练图像集和第二训练图像集，所述第一训练图像集的图像风格与所述第二训练图像集的图像风格不同，所述第二训练图像集为通过所述目标终端设备采集得到的图像的集合；

其中，图像风格是指由图像的颜色、曝光度、噪点等图像信息所组成的图像表示。第二训练图像集的第二训练图像的数量较少，且第二训练图像集中的所有第二训练图像均为通过目标终端设备的摄像头拍摄得到的图像。第一训练图像集可以具有大量的第一训练图像，但第一训练图像集中的第一训练图像为通过其他终端设备的摄像头拍摄得到的图像。其他终端设备为不同于目标终端设备的任一终端设备。由于不同摄像头拍摄的图像在颜色、曝光度、噪点等方面具有一定的差异，因此，第一训练图像集的图像风格与第二训练图像的图像风格不相同。

S102、根据所述第二训练图像集对所述第一训练图像集进行图像风格的转换处理，得到所述第一训练图像集对应的第三训练图像集，所述第三训练图像集的图像风格与所述第二训练图像集的图像风格相同；

在此，若直接利用图像风格不同的第一训练图像集和第二训练图像集对目标终端设备对应的目标识别模型进行训练，则训练得到的目标识别模型在目标终端设备上使用时，识别效果往往较差。而若直接利用第二训练图像集对目标终端设备对应的目标识别模型进行训练，由于第二训练图像集中的第二训练图像的数量较少，训练得到的目标识别模型的识别效果也较差。

本申请实施例中，可以通过对已有的大量的第一训练图像集进行图像风格的转换处理，来快速获取大量可用于进行目标识别模型训练的训练图像，以降低训练图像获取的时间和人力成本，提高目标识别模型的识别准确性，提升用户体验。

具体地，所述根据所述第一训练图像集对所述第一训练图像集进行图像风格的转换处理，得到所述第一训练图像集对应的第三训练图像集，可以包括：

步骤a、利用所述第一训练图像集和所述第二训练图像集进行生成对抗网络模型的训练，得到已训练的生成对抗网络模型；

步骤b、将所述第一训练图像集输入至已训练的生成对抗网络模型进行处理，获取所述已训练的生成网络对抗模型输出的第三训练图像集。

请一并参阅图2至图5，图2至图5示出了生成对抗网络模型的结构示意图。如图2所示，所述生成对抗网络模型包括训练方式为对抗式训练的生成模型201与判别模型，所述判别模型可以包括第一判别模型202、第二判别模型203和第三判别模型204。

其中，所述第一判别模型202和所述第二判别模型203具有相同的网络结构。如图3所示，所述第一判别模型202和所述第二判别模型203均可以为包括四个卷积模块(即第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块)和全连接模块的卷积网络模型。在此，全连接模块可以与第四卷积模块连接，每一个卷积模块均可以包括卷积层(Convoluional layer)、归一化层(InstanceNorm)以及激活层。激活层均可以使用弱修正线性单元(Leaky-ReLU)作为激活函数。

在此，所述第三判别模型204可以为基于自编码结构的网络模型，即所述第三判别模型204可以包括编码器2041和解码器2042。其中，所述第三判别模型204输出的图像的维度与输入至所述第三判别模型204的图像的维度是相同的。

如图4所示，所述编码器2041可以包括三个卷积模块(即第五卷积模块、第六卷积模块和第七卷积模块)，第五卷积模块和第六卷积模块均可以包括卷积层、标准化层(BatchNorm)和激活层。其中，激活层可以使用弱修正线性单元(Leaky-ReLU)作为激活函数。第七卷积模块可以包括卷积层。

如图5所示，所述解码器2042可以包括三个反卷积模块(即第一反卷积模块、第二反卷积模块和第三反卷积模块)，第一反卷积模块和第二反卷积模块均可以包括反卷积层(ConvTranspose)、标准化层和激活层。其中，激活层可以使用修正线性单元(ReLU)作为激活函数。第三反卷积模块可以包括反卷积层。

请参阅图6，图6示出了本申请实施例提供的生成对抗网络模型训练的流程示意图。所述利用所述第一训练图像集和所述第二训练图像集进行生成对抗网络模型的训练，得到已训练的生成对抗网络模型，可以包括：

S601、从所述第一训练图像集中获取第一训练图像以及从所述第二训练图像集中获取第二训练图像；

S602、将所述第一训练图像输入至所述生成模型进行处理，获取所述生成模型输出的生成图像；

S603、将所述第一训练图像和所述生成图像分别输入至所述第一判别模型进行处理，获取所述第一判别模型的内容损失，并获取所述第一判别模型输出的第一判别结果；

对于上述S601和S603，在获取所述第一训练图像集和所述第二训练图像集后，可以对所述第一训练图像集和所述第二训练图像集进行预处理，以提高模型训练的效率。例如，可以将所述第一训练图像集和所述第二训练图像集中的训练图像转换成RGB格式。例如，可以将所述第一训练图像集和所述第二训练图像集中训练图像的尺寸调整至224×224，并归一化至[-1，1]区间。

本申请实施例中，对于第一训练图像集中的每一张第一训练图像x，均从第二训练图像集中随机选取一张第二训练图像y，并通过第一训练图像x和对应的第二训练图像y来进行生成对抗网络模型的一次训练。具体地，可以先将第一训练图像x输入至所述生成对抗网络模型中的生成模型，以通过所述生成模型生成与第一训练图像x对应的生成图像G(x)。然后，可以将生成图像G(x)与第一训练图像x分别输入至所述第一判别模型，并可以将生成图像G(x)和第二训练图像分别y输入至所述第二判别模型。

其中，所述第一判别模型用于进行内容约束，以确保所述生成模型输出的生成图像G(x)可以保持内容不变，即确保所述生成模型输出的生成图像G(x)与第一训练图像x具有相同的内容。因此，在将生成图像G(x)和第一训练图像x输入至所述第一判别模型后，所述第一判别模型可以通过内容来判断所输入的图像是否来自真实的第一训练图像集，以此得到生成图像G(x)对应的第一判别结果以及第一训练图像x对应的第一判别结果。其中，所述第一判决结果可以为1或者0，即当所述第一判别模型认为所输入的图像来自真实的第一训练图像集时，所述第一判别模型输出的第一判别结果可以为1，而当所述第一判别模型认为所输入的图像为生成图像时，所述第一判别模型输出的第一判别结果可以为0。

应理解，所述第一判别模型在对第一训练图像x和生成图像G(x)进行处理时，可以产生内容损失，以确保所述生成模型输出的生成图像G(x)与第一训练图像x具有相同的内容。其中，内容损失为所述第一判别模型的最后一个卷积模块(即第四个卷积模块)输出的特征图feature map之间的L1 loss，即为所述第一判别模型的第四卷积模块输出的第一训练图像x对应的特征图与所述第一判别模型的第四卷积模块输出的生成图像G(x)对应的特征图之间的L1 loss。

具体地，可以根据下述公式获取所述第一判别模型的内容损失：

L_C＝E_x～S|F(G(x))^(Dc,4)-F(x)^(Dc,4)|

其中，L_C为所述内容损失，S为所述第一训练图像集，x为所述第一训练图像，G(x)为所述生成图像，F(G(x))^(Dc,4)为第一判别模型的第四个卷积模块输出的所述生成图像对应的特征图，F(x)^(Dc,4)为第一判别模型的第四个卷积模块输出的所述第一训练图像对应的特征图。

S604、根据所述第一判别结果确定所述第一判别模型的第一训练损失；

本申请实施例中，在获取所述第一判别模型输出的生成图像G(x)的第一判别结果以及第一训练图像x的第一判别结果后，可以根据各第一判决结果来计算所述第一判别模型的第一训练损失，其中，所述第一训练损失为分类任务的交叉熵。具体地，可以根据下述公式来计算所述第一判别模型的第一训练损失：

L_Dc＝E_x～S[logDc(x)]+E_x～S[log(1-Dc(G(x)))]

其中，L_Dc为第一训练损失，x为第一训练图像，S为第一训练图像集，G(x)为生成模型根据第一训练图像x输出的生成图像，Dc(x)为第一训练图像x的第一判别结果，Dc(G(x))为生成图像G(x)的第一判别结果。

S605、将所述生成图像和所述第二训练图像分别输入至所述第二判别模型进行处理，获取所述第二判别模型的风格损失，并获取所述第二判别模型输出的第二判别结果；

其中，所述第二判别模型用于进行风格约束，以确保所述生成模型输出的生成图像G(x)与第二训练图像y具有相同的图像风格。因此，在将生成图像G(x)和第二训练图像y分别输入至所述第二判别模型后，所述第二判别模型可以根据图像风格来判断所输入的图像是否来自第二训练图像集，从而得到生成图像G(x)对应的第二判别结果以及第二训练图像y对应的第二判别结果。其中，所述第二判决结果可以为1或者0，即当所述第二判别模型认为所输入的图像来自第二训练图像集时，所述第二判别模型输出的第二判别结果可以为1，而当所述第二判别模型认为所输入的图像为不是来自第二训练图像集时，所述第二判别模型输出的第二判别结果可以为0。

应理解，所述第二判别模型在对第二训练图像y和生成图像G(x)进行处理时，可以产生风格损失，以确保所述生成模型输出的生成图像与第二训练图像具有相同的图像风格。其中，风格损失为所述第二判别模型的前三个卷积模块产生的特征图feature map对应的格拉姆gram矩阵之间的L1 loss之和。

具体地，可以根据下述公式获取所述第二判别模型的风格损失：

L_S＝E_{(x，y)～(S,T)}∑_i＝1,2,3|gram(G(x))^(Ds,i)-gram(y)^(Ds,i)|

本申请实施例中，gram矩阵的计算方法可以为：

gram(y)^(Ds,i)＝vec[F(y)^(Ds,i)]⊙vec[F(y)^(Ds,i)]

其中，gram(y)^(Ds,i)为所述第二判别模型的第i个卷积模块输出的所述第二训练图像y对应的特征图的gram矩阵，F(y)^(Ds,i)为所述第二判别模型的第i个卷积模块输出的所述第二训练图像y对应的特征图，vec代表向量化，⊙代表内积。

S606、根据所述第二判别结果确定所述第二判别模型的第二训练损失；

本申请实施例中，在获取所述第二判别模型输出的生成图像G(x)的第二判别结果以及第二训练图像y的第二判别结果后，可以根据各第二判决结果来计算所述第二判别模型的第二训练损失，其中，所述第二训练损失为分类任务的交叉熵。具体地，可以根据下述公式来计算所述第二判别模型的第二训练损失：

L_Ds＝E_y～T[logDs(y)]+E_x～S[log(1-Ds(G(x)))]

其中，L_Ds为第二训练损失，y为第二训练图像，T为第二训练图像集，G(x)为生成模型根据第一训练图像x输出的生成图像，Ds(y)为第二训练图像y的第二判别结果，Ds(G(x))为生成图像G(x)的第二判别结果。

S607、将所述第一训练图像、所述第二训练图像和所述生成图像分别输入至所述第三判别模型进行处理，获取所述第一训练图像对应的第一输出结果、所述第二训练图像对应的第二输出结果以及所述生成图像对应的第三输出结果；

S608、根据所述第一输出结果、所述第二输出结果和所述第三输出结果确定所述第三判别模型的第三训练损失；

其中，所述第三判别模型是一个基于能量的判别模型。所述第三判别模型可以使得真图(即第一训练图像和第二训练图像)的得分更高，假图(即生成模型所输出的生成图像)的得分更低，以防止生成模型生成的图像失真。在此，所述第三判别模型输出的输出结果为图像，且该图像的维度与输入至所述第三判别模型的图像的维度相同。

本申请实施例中，所述根据所述第一输出结果、所述第二输出结果和所述第三输出结果确定所述第三判别模型的第三训练损失，可以包括：

根据下述公式确定所述第三判别模型的第三训练损失：

L_E＝D(x)+D(y)+max(0，m-D(z))

其中，L_E为所述第三训练损失，h为图像高度，w为图像宽度，x为所述第一训练图像，m为预设值，x’为所述第一输出结果，y为所述第二训练图像，y’为所述第二输出结果，z为所述生成图像，z’为所述第三输出结果。m可以根据具体情况设置。

S609、根据所述第一训练损失、所述内容损失、所述第二训练损失、所述风格损失以及所述第三训练损失确定所述生成对抗网络模型的总损失；

本申请实施例中，所述根据所述第一训练损失、所述内容损失、所述第二训练损失、所述风格损失、所述第三训练损失确定所述生成对抗模型的总损失可以包括：

根据下述公式计算所述生成对抗模型的总损失：

L(G，Ds，Dc，E)＝L_C+ε×L_S+λ₁×L_Dc+λ₂×L_Ds+λ₃×L_E

其中，L(G，Ds，Dc，E)为所述总损失，L_C为所述内容损失，L_S为所述风格损失，L_Dc为所述第一训练损失，L_Ds为所述第二训练损失，L_E为所述第三训练损失，ε＝L_C’/L_S’，L_C’是L_C的初始值，L_S’是L_S的初始值，λ₁、λ₂和λ₃为超参数。在此，λ₁、λ₂和λ₃可以根据实际情况具体设置。

S610、判断所述总损失是否满足预设条件；

S611、当所述总损失不满足预设条件时，根据所述第一训练损失调整所述第一判别模型的第一模型参数、根据所述第二训练损失调整所述第二判别模型的第二模型参数以及根据所述总损失调整所述生成模型的第三模型参数，并返回执行所述从所述第一训练图像集中获取第一训练图像以及从所述第二训练图像集中获取第二训练图像的步骤以及后续步骤；

S612、当所述总损失满足所述预设条件时，得到已训练的生成对抗网络模型。

其中，所述预设条件可以为预设损失值，预设损失值可以根据具体情况进行设置。具体地，当所述总损失大于或等于预设损失值，可以调整所述第一判别模型的第一模型参数、调整所述第二判别模型的第二模型参数，以及调整所述生成模型的第三模型参数，然后可以再从第一训练图像集中获取第一训练图像，以及从第二训练图像集中获取第二训练图像来进行生成对抗网络模型的训练。当总损失小于预设损失值时，可以认为生成对抗网络模型训练完成，从而得到训练完成的生成对抗网络模型。

或者，也可以在训练的迭代次数达到最大的次数阈值时，结束生成对抗网络模型的训练，得到已训练完成的生成对抗网络模型。次数阈值可以根据具体情况进行设置。其中，一次迭代是指将第一训练图像集中所有的第一训练图像都进行了一次训练。也就是说，在进行生成对抗网络模型的训练时，可以依次从第一训练图像集中获取第一训练图像来进行训练，当第一训练图像集中的所有第一训练图像均进行了一次训练时，则表明完成了生成对抗网络模型的一次迭代。

S103、利用所述第二训练图像集和所述第三训练图像集对所述目标识别模型进行训练，得到已训练的目标识别模型。

在得到第三训练图像集后，可以利用第三训练图像集和第二训练图像集来进行目标识别模型的训练，以通过大量的训练图像进行目标识别模型的训练来提高目标识别模型的识别效果，提升用户体验。

请参阅图7，图7示出了本申请实施例提供的目标识别方法的流程示意图。如图7所示，所述目标识别方法可以包括：

S701、获取待识别图像；

S702、将所述待识别图像输入至目标识别模型进行处理，得到所述目标识别模型输出的目标识别结果，所述目标识别模型是通过上述实施例中的目标识别模型的训练方法训练得到的。

所述目标识别模型识别的目标可以包括但不限于人脸、飞机、汽车、鼠标、杯子、猫、狗等，目标可以根据实际情况进行设置。以下以目标为人脸为例进行示例性说明。

本申请实施例中，目标识别模型可以包括特征提取模块和特征匹配模块。在训练得到目标识别模型后，可以先通过目标识别模型的特征提取模块进行人脸注册，即可以先通过特征提取模块提取各注册人脸的目标特征并进行关联保存。当需要进行人脸识别时，可以获取待识别图像，其中，待识别图像可以为包括目标人脸的图像，也可以为不包含目标人脸的图像。然后，可以通过目标识别模型的特征提取模块提取待识别图像的图像特征，并通过目标识别模型的特征匹配模块计算图像特征与各目标特征之间的相似性，从而根据相似性来识别待识别图像中的目标。

在此，可以通过余弦相似度来计算特征之间的相似性，即可以分别计算图像特征与各目标特征之间的余弦相似度，然后可以将余弦相似度最大且该余弦相似度大于预设相似阈值的目标特征所对应的人脸，确定为目标识别模型所识别出的人脸。当图像特征与各目标特征之间的余弦相似度都小于该预设相似阈值时，则可以认为未识别到目标。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的目标识别模型的训练方法，图8示出了本申请实施例提供的目标识别模型的训练装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

请参照图8，所述训练装置包括：

训练图像集获取模块801，用于获取第一训练图像集和第二训练图像集，所述第一训练图像集的图像风格与所述第二训练图像集的图像风格不相同，所述第二训练图像集为通过所述目标终端设备采集得到的图像的集合；

训练图像集转换模块802，用于根据所述第二训练图像集对所述第一训练图像集进行图像风格的转换处理，得到所述第一训练图像集对应的第三训练图像集，所述第三训练图像集的图像风格与所述第二训练图像集的图像风格相同；

识别模型训练模块803，用于利用所述第二训练图像集和所述第三训练图像集对所述目标识别模型进行训练，得到已训练的目标识别模型。

示例性的，所述训练图像集转换模块802，包括：

生成对抗网络模型训练单元，用于利用所述第一训练图像集和所述第二训练图像集进行生成对抗网络模型的训练，得到已训练的生成对抗网络模型；

训练图像集转换单元，用于将所述第一训练图像集输入至已训练的生成对抗网络模型进行处理，获取所述已训练的生成网络对抗模型输出的第三训练图像集；

可选的，所述生成对抗网络模型训练单元，包括：

训练图像获取分单元，用于从所述第一训练图像集中获取第一训练图像以及从所述第二训练图像集中获取第二训练图像；

生成图像输出分单元，用于将所述第一训练图像输入至所述生成模型进行处理，获取所述生成模型输出的生成图像；

第一判别分单元，用于将所述第一训练图像和所述生成图像分别输入至所述第一判别模型进行处理，获取所述第一判别模型的内容损失，并获取所述第一判别模型输出的第一判别结果；

第一损失确定分单元，用于根据所述第一判别结果确定所述第一判别模型的第一训练损失；

第二判别分单元，用于将所述生成图像和所述第二训练图像分别输入至所述第二判别模型进行处理，获取所述第二判别模型的风格损失，并获取所述第二判别模型输出的第二判别结果；

第二损失确定分单元，用于根据所述第二判别结果确定所述第二判别模型的第二训练损失；

第三判别分单元，用于将所述第一训练图像、所述第二训练图像和所述生成图像分别输入至所述第三判别模型进行处理，获取所述第一训练图像对应的第一输出结果、所述第二训练图像对应的第二输出结果以及所述生成图像对应的第三输出结果；

第三损失确定分单元，用于根据所述第一输出结果、所述第二输出结果和所述第三输出结果确定所述第三判别模型的第三训练损失；

总损失确定分单元，用于根据所述第一训练损失、所述内容损失、所述第二训练损失、所述风格损失以及所述第三训练损失确定所述生成对抗网络模型的总损失；

模型参数调整单元，用于当所述总损失不满足预设条件时，根据所述第一训练损失调整所述第一判别模型的第一模型参数、根据所述第二训练损失调整所述第二判别模型的第二模型参数以及根据所述总损失调整所述生成模型的第三模型参数，并返回执行所述从所述第一训练图像集中获取第一训练图像以及从所述第二训练图像集中获取第二训练图像的步骤以及后续步骤，直至所述总损失满足所述预设条件为止，得到已训练的生成对抗网络模型。

具体地，所述第一判别分单元，具有用于根据下述公式获取所述第一判别模型的内容损失：

L_C＝E_x～S|F(G(x))^(Dc,4)-F(x)^(Dc,4)|

可选的，所述第二判别分单元，具体用于根据下述公式获取所述第二判别模型的风格损失：

L_S＝E_{(x，y)～(S,T)}∑_i＝1,2,3|gram(G(x))^(Ds,i)-gram(y)^(Ds,i)|

示例性的，所述第三损失确定分单元，具体用于根据下述公式确定所述第三判别模型的第三训练损失：

L_E＝D(x)+D(y)+max(0，m-D(z))

具体的，所述总损失确定分单元，具体用于根据下述公式计算所述生成对抗模型的总损失：

L(G，Ds，Dc，E)＝L_C+ε×L_S+λ₁×L_Dc+λ₂×L_Ds+λ₃×L_E

对应于上文实施例所述的目标识别方法，图9示出了本申请实施例提供的目标识别装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

请参照图9，所述目标识别装置，可以包括：

待识别图像获取模块901，用于获取待识别图像；

目标识别模块902，用于将所述待识别图像输入至目标识别模型进行处理，得到所述目标识别模型输出的目标识别结果，所述目标识别模型是通过上述第一方面中任一项所述的训练方法训练得到的。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图10为本申请一实施例提供的终端设备的结构示意图。如图10所示，该实施例的终端设备10包括：至少一个处理器1000(图10中仅示出一个)、存储器1001以及存储在所述存储器1001中并可在所述至少一个处理器1000上运行的计算机程序1002，所述处理器1000执行所述计算机程序1002时实现上述任意各个目标识别模型的训练方法实施例中的步骤，或者实现上述任意各个目标识别方法实施例中的步骤。

所述终端设备10可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括，但不仅限于，处理器1000、存储器1001。本领域技术人员可以理解，图10仅仅是终端设备10的举例，并不构成对终端设备10的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所述处理器1000可以是中央处理单元(central processing unit，CPU)，该处理器1000还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器1001在一些实施例中可以是所述终端设备10的内部存储单元，例如终端设备10的硬盘或内存。所述存储器1001在另一些实施例中也可以是所述终端设备10的外部存储设备，例如所述终端设备10上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器1001还可以既包括所述终端设备10的内部存储单元也包括外部存储设备。所述存储器1001用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器1001还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质至少可以包括：能够将计算机程序代码携带到装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(read-only memory，ROM)、随机存取存储器(random accessmemory，RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种目标识别模型的训练方法，其特征在于，目标识别模型为应用于目标终端设备的识别模型，所述训练方法包括：

2.如权利要求1所述的训练方法，其特征在于，所述根据所述第二训练图像集对所述第一训练图像集进行图像风格的转换处理，得到所述第一训练图像集对应的第三训练图像集包括：

3.如权利要求2所述的训练方法，其特征在于，所述利用所述第一训练图像集和所述第二训练图像集进行生成对抗网络模型的训练，得到已训练的生成对抗网络模型包括：

4.如权利要求3所述的训练方法，其特征在于，所述获取所述第一判别模型的内容损失包括：

根据下述公式获取所述第一判别模型的内容损失：

L_C＝E_x～S|F(G(x))^(Dc,4)-F(x)^(Dc,4)|

5.如权利要求3所述的训练方法，其特征在于，所述获取所述第二判别模型的风格损失包括：

根据下述公式获取所述第二判别模型的风格损失：

L_S＝E_{(x，y)～(S,T)}∑_i＝1,2,3|gram(G(x))^(Ds,i)-gram(y)^(Ds,i)|

6.如权利要求3所述的方法，其特征在于，所述根据所述第一输出结果、所述第二输出结果和所述第三输出结果确定所述第三判别模型的第三训练损失包括：

根据下述公式确定所述第三判别模型的第三训练损失：

L_E＝D(x)+D(y)+max(0，m-D(z))

7.如权利要求3至6任一项所述的方法，其特征在于，所述根据所述第一训练损失、所述内容损失、所述第二训练损失、所述风格损失、所述第三训练损失确定所述生成对抗模型的总损失包括：

根据下述公式计算所述生成对抗模型的总损失：

L(G，Ds，Dc，E)＝L_C+ε×L_S+λ₁×L_Dc+λ₂×L_Ds+λ₃×L_E

8.一种目标识别方法，其特征在于，包括：

获取待识别图像；

将所述待识别图像输入至目标识别模型进行处理，得到所述目标识别模型输出的目标识别结果，所述目标识别模型是通过权利要求1至7中任一项所述的训练方法训练得到的。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的训练方法，或者实现如权利要求8所述的目标识别方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的训练方法，或者实现如权利要求8所述的目标识别方法。