CN112132197A

CN112132197A - 模型训练、图像处理方法、装置、计算机设备和存储介质

Info

Publication number: CN112132197A
Application number: CN202010968386.0A
Authority: CN
Inventors: 黄超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2020-12-25

Abstract

本申请公开了模型训练、图像处理方法、装置、计算机设备和存储介质，可获取待训练的生成对抗网络的样本图像和样本图像对应的真实语义信息；通过生成网络的特征提取模块，提取样本图像的目标特征图；通过生成网络的语义分割模块，基于目标特征图确定样本图像中各像素点的预测类别信息；通过生成对抗网络的对抗网络，确定预测语义信息为样本图像真实的语义信息的第一概率和真实语义信息为样本图像真实的语义信息的第二概率；基于第一概率和第二概率调整生成对抗网络的参数得到训练完成的生成对抗网络，生成网络的一部分损失源于对抗网络对预测语义图像的识别结果，所以可降低模型训练对人工经验的依赖，丰富模型的损失来源，有利于提升模型性能。

Description

模型训练、图像处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机视觉技术领域，具体涉及一种模型训练、图像处理方法、装置、计算机设备和存储介质。

背景技术

目前，计算机视觉技术中有一种图像语义分割技术，可以对图像进行语义分割，得到某图像的语义图像，而相关技术中一般采用基于深度网络的语义分割模型，来获取图像的语义图像。该方案中语义分割模型的损失函数一般由人工定义，损失函数的构造形式很依赖行业的经验，模型的语义分割效果对人工构造的函数的依赖很大。

发明内容

本发明实施例提供一种模型训练、图像处理方法、装置、计算机设备和存储介质，可以基于生成对抗网络中的生成网络实现图像的语义分割，降低语义分割效果对人工构造的函数的依赖性。

本发明实施例提供一种模型训练方法，该方法包括：

获取样本图像和所述样本图像对应的真实语义信息，所述样本图像对应的真实语义信息包括所述样本图像中各像素点的真实类别信息；

将所述样本图像输入到待训练的生成对抗网络中的生成网络，通过所述生成网络的特征提取模块对所述样本图像进行特征提取得到所述样本图像的目标特征图；

通过所述生成网络的语义分割模块，基于所述目标特征图确定所述样本图像对应的预测语义信息，所述样本图像对应的预测语义信息包括所述样本图像中各像素点的预测类别信息；

通过所述待训练的生成对抗网络中的对抗网络，基于所述样本图像的真实语义信息和预测语义信息，确定所述预测语义信息属于所述样本图像的真实的语义信息的第一概率，以及所述真实语义信息属于所述样本图像的真实的语义信息的第二概率；

基于所述第一概率和第二概率调整所述生成对抗网络的参数，得到训练完成的生成对抗网络。

本发明实施例提供一种图像处理方法，该方法包括：

将目标图像输入训练完成的生成网络，其中，所述生成网络为前述示例中的模型训练方法训练得到的；

基于所述生成网络的特征提取模块，对所述目标图像进行特征提取得到所述目标图像的目标特征图；

通过所述生成网络的语义分割模块，基于所述目标特征图确定所述目标图像对应的预测语义信息，所述目标图像对应的预测语义信息包括所述目标图像中各像素点的预测类别信息。

本发明实施例还提供一种模型训练装置，该装置包括：

样本获取单元，用于获取样本图像和所述样本图像对应的真实语义信息，所述样本图像对应的真实语义信息包括所述样本图像中各像素点的真实类别信息；

样本特征提取单元，用于将所述样本图像输入到待训练的生成对抗网络中的生成网络，通过所述生成网络的特征提取模块对所述样本图像进行特征提取得到所述样本图像的目标特征图；

样本语义分割单元，用于通过所述生成网络的语义分割模块，基于所述目标特征图确定所述样本图像对应的预测语义信息，所述样本图像对应的预测语义信息包括所述样本图像中各像素点的预测类别信息；

对抗网络单元，用于通过所述待训练的生成对抗网络中的对抗网络，基于所述样本图像的真实语义信息和预测语义信息，确定所述预测语义信息属于所述样本图像的真实的语义信息的第一概率，以及所述真实语义信息属于所述样本图像的真实的语义信息的第二概率；

模型调整单元，用于基于所述第一概率和第二概率调整所述生成对抗网络的参数，得到训练完成的生成对抗网络。

本发明实施例还提供一种图像处理装置，该装置包括：

图像输入单元，用于将目标图像输入训练完成的生成网络，其中，所述生成网络为采用上述模型训练方法训练得到的；

特征提取单元，用于基于所述生成网络的特征提取模块，对所述目标图像进行特征提取得到所述目标图像的目标特征图；

语义分割单元，用于通过所述生成网络的语义分割模块，基于所述目标特征图确定所述目标图像对应的预测语义信息，所述目标图像对应的预测语义信息包括所述目标图像中各像素点的预测类别信息。

在本发明的一些实施例中，还可以提供一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述方法的步骤。

在本发明的一些实施例中，还可以提供一种存储介质，其上存储有计算机程序，当计算机程序在计算机上运行时，使得所述计算机执行如如上所述方法的步骤。

采用本申请实施例，可以获取样本图像和样本图像对应的真实语义信息，样本图像对应的真实语义信息包括样本图像中各像素点的真实类别信息；将样本图像输入到待训练的生成对抗网络中的生成网络，通过生成网络的特征提取模块对样本图像进行特征提取得到样本图像的目标特征图；通过生成网络的语义分割模块，基于目标特征图确定样本图像对应的预测语义信息，样本图像对应的预测语义信息包括样本图像中各像素点的预测类别信息；通过待训练的生成对抗网络中的对抗网络，基于样本图像的真实语义信息和预测语义信息，确定预测语义信息为样本图像的真实的语义信息的第一概率，以及真实语义信息为样本图像的真实的语义信息的第二概率；基于第一概率和第二概率调整生成对抗网络的参数，得到训练完成的生成对抗网络，本实施例中调整生成网络参数的信息可以由对抗网络学习到的，相较于相关技术中人工根据经验制定损失函数的方式，本实施例的损失可以降低对人工经验的依赖，丰富损失来源，提升损失多样性，有利于提升模型性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的图像处理系统的结构示意图；

图1b是本发明实施例提供的图像处理的流程图；

图2a是本发明实施例提供的模型训练方法的流程示意图；

图2b是本发明实施例提供的某图像和该图像对应的语义图像的示意图；

图2c是本发明实施例提供的生成网络的结构示意图；

图2d是本发明实施例提供的对抗网络的结构示意图；

图3是本发明实施例提供的模型训练装置的结构示意图；

图4是本发明实施例提供的图像处理装置的结构示意图；

图5是本发明实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种模型训练方法、图像处理方法、装置、计算机设备和存储介质。

本发明实施例提供了一种图像处理系统，图像处理系统包括适用于计算机设备的图像处理装置。其中，计算机设备可以为终端或服务器等设备。

终端可以为手机、平板电脑、笔记本电脑等终端设备，也可以为穿戴设备、智能电视或其他具有显示模块的智能终端。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。

本实施例的模型训练装置可以集成在服务器中，或者满足模型训练条件的终端中，基于模型训练装置，可以训练得到可用于图像语义分割的生成网络。

本实施例的图像处理装置可以理解为包括训练完成的生成网络的装置，该装置可以集成在终端或服务器中，可选的，可以以应用程序等形式集成于终端或服务器中。

参考图1a，本实施例提供的图像处理系统可以包括终端10和服务器20等。

服务器20可以用于获取样本图像和所述样本图像对应的真实语义信息，所述样本图像对应的真实语义信息包括所述样本图像中各像素点的真实类别信息；将所述样本图像输入到待训练的生成对抗网络中的生成网络，通过所述生成网络的特征提取模块对所述样本图像进行特征提取得到所述样本图像的目标特征图；通过所述生成网络的语义分割模块，基于所述目标特征图确定所述样本图像对应的预测语义信息，所述样本图像对应的预测语义信息包括所述样本图像中各像素点的预测类别信息；通过所述待训练的生成对抗网络中的对抗网络，基于所述样本图像的真实语义信息和预测语义信息，确定所述预测语义信息属于所述样本图像的真实的语义信息的第一概率，以及所述真实语义信息属于所述样本图像的真实的语义信息的第二概率；基于所述第一概率和第二概率调整所述生成对抗网络的参数，得到训练完成的生成对抗网络。

该训练完成的生成对抗网络中的生成网络可以部署在需要的服务器或终端中，例如部署在服务器20中。

终端10可以用于获取待分割的目标图像，将该目标图像发送给服务器20。

服务器20，可以用于将目标图像输入训练完成的生成网络；通过所述生成网络的特征提取模块，对所述目标图像进行特征提取得到所述目标图像的目标特征图；通过所述生成网络的语义分割模块，基于所述目标特征图确定所述目标图像对应的预测语义信息，所述目标图像对应的预测语义信息包括所述目标图像中各像素点的预测类别信息。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本发明实施例将从图像处理装置的角度进行描述，该图像处理装置具体可以集成在终端或服务器中，例如，可以以应用程序的形式集成在终端或服务器中。

本发明实施例提供的一种图像处理方法，该方法可以由终端或服务器的处理器执行，本实施例中基于生成网络实现图像语义分割，是基于计算机视觉技术的一种应用，计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解(ImageSemantic Understanding,ISU)、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

如图1b所示，该图像处理方法包括：

101、将目标图像输入训练完成的生成网络；

102、基于生成网络的特征提取模块，对目标图像进行特征提取得到目标图像的目标特征图；

103、通过所述生成网络的语义分割模块，基于所述目标特征图确定所述目标图像对应的预测语义信息，所述目标图像对应的预测语义信息包括所述目标图像中各像素点的预测类别信息。

本实施例的生成网络是可用于对图像进行语义分割的网络，生成网络的模型结构在本实施例中没有任何限制，即生成网络可基于相关技术中任何可用于语义分割的网络模型构建。

在一个示例中，目标图像可以是从视频中获取的，例如从游戏视频，直播视频，动画视频，室外监控室视频中获取。

可选的，步骤“将目标图像输入训练完成的生成网络”前，还可以包括：

确定待识别的目标视频，从目标视频中获取图像作为目标图像。

其中，目标视频可以为实时的虚拟场景视频，例如，可以为实时的游戏视频等等。

本实施例中，从视频中获取目标图像后，还可以对目标图像进行尺度缩放处理，之后再将处理后的目标图像输入生成网络。

例如，步骤“将目标图像输入训练完成的生成网络”前，可以包括：

获取生成网络的输入图像属性信息；

基于所述输入图像属性信息调整所述目标图像的属性信息，得到调整后的目标图像。

其中，输入图像属性信息包括但不限于：图像的尺寸(长和宽)，分辨率、格式等等。

本实施例中，首先结合图2a，对上述生成网络的模型训练方法进行介绍，本实施例中，生成网络的模型训练过程是与其对应的对抗网络一起进行的，生成网络的一部分损失是由对抗网络学习到的。本实施例中模型训练方法的一个实施例包括：

201、获取样本图像和所述样本图像对应的真实语义信息，所述样本图像对应的真实语义信息包括所述样本图像中各像素点的真实类别信息；

202、将所述样本图像输入到待训练的生成对抗网络中的生成网络，通过所述生成网络的特征提取模块对所述样本图像进行特征提取得到所述样本图像的目标特征图；

203、通过所述生成网络的语义分割模块，基于所述目标特征图确定所述样本图像对应的预测语义信息，所述样本图像对应的预测语义信息包括所述样本图像中各像素点的预测类别信息；

204、通过所述待训练的生成对抗网络中的对抗网络，基于所述样本图像的真实语义信息和预测语义信息，确定所述预测语义信息属于所述样本图像的真实的语义信息的第一概率，以及所述真实语义信息属于所述样本图像的真实的语义信息的第二概率；

205、基于所述第一概率和第二概率调整所述生成对抗网络的参数，得到训练完成的生成对抗网络。

本实施例中样本图像是生成对抗网络的样本图像，生成对抗网络包括生成网络和对抗网络，其中，生成网络的作用是对图像进行语义分割，得到图像的语义信息，在一个示例中该语义信息可以是语义图像。

本实施例中的语义分割可以理解为：根据原始图像中每个像素点所属的类别，为各像素点分配类别标签(类别标签包括类别信息)得到语义图像，从该定义可以确定，语义图像中每个类别标签按照原始图像中对应像素点的位置排列，每个类别标签表示对应的像素点的类别信息。

例如图2b中右侧图像是左侧图像的语义图像，左侧图像中存在一个方形物体，右侧图像中在方形物体对应的像素点的位置上类别标签为1，其他位置的像素点的类别标签为0，数值1表示该位置的像素点的类别为方形物体，0表示该位置的像素点的类别为背景。

本实施例中的类别指的是图像承载的对象的类别，该类别不限，可以是人、物等等。

本实施例的图像语义分割中，生成网络使用到了图像语义理解技术，具体的，使用到了图像语义理解技术中的图像分割(Image segmention)。生成网络的训练是基于AI(Artificial Intellegence，人工智能)技术实现，尤其是基于人工智能技术中的机器学习(Machine learning，ML)技术实现的，更具体的，可以是通过机器学习中的深度学习(DeepLearning)实现。

本实施例中的生成网络可以基于任意可用于语义分割的人工神经网络(artificial neural network)的结构构建的，例如生成网络可以是CNN(ConvolutionalNeural Network，卷积神经网络)或者FCN(Fully Convolutional Networks，全连接神经网络)等等，本实施例对此没有限制。

本实施例中，需要生成网络确定预测语义信息的图像如上述的目标图像和样本图像的来源不限，可以是任意场景的图像，例如虚拟场景，该虚拟场景包括但不限于游戏场景，VR游戏场景，动画场景等等，例如还可以是实际场景，如街道场景、室内场景、直播场景等等。

本实施例的真实语义信息，可以理解为样本图像真正的语义信息，该真实语义信息中包括样本图像的各像素点的真实类别信息，该真实类别信息包括各像素点的真实类别。在一个示例中，真实语义信息可以是真实语义图像，该真实语义图像包括多个图像通道的子图像，每个图像通道对应一个真实类别，某图像通道的子图像中包括属于该图像通道对应的真实类别的像素点的信息。

以虚拟场景视频，虚拟场景视频可以是枪战类游戏场景的视频。对来自该场景的图像的语义分割结果，能为游戏AI提供关于所处游戏环境的有用数据，有助于游戏AI理解当前所处的游戏环境。假设枪战游戏的游戏图像中包括5种类别的对象，如人、草地、树木、房子以及背景。则该游戏图像的真实语义图像包括五个图像通道的子图像，每个子图像对应一个类别，如在人这个类别对应的子图像中对应于游戏图像中人的像素点的位置上设置有表示像素点为人的标识如数值1，在草地这个类别对应的子图像中对应于游戏图像中人的像素点的位置上设置有表示像素点为人的标识如数值2。

通过对枪战游戏的视频图像的语义分割，可以得到目标对象(如人)周围环境中的类别，游戏AI就可以根据这些类别信息完成特定操作，比如探索房屋等。

本实施例中，生成网络可以识别的类别可以是由人工构建生成网络时设置的，该类别的数量和每个类别的含义，根据在生成网络的设置而定，例如类别的数量可以为7类，分别包括：人、草地、树木、房子、背景、门、窗。

本实施例中，样本图像可以来源于历史视频，例如来源于枪战游戏的历史游戏视频。

可以先从视频中按照一定的采样频率进行采样，得到采样图像。其中，采样频率不能过快，防止采样图像之间的相似度高，样本图像的数据库过于冗余，例如采样频率可以为1秒1帧，本实施例收集的采样图像的数量不限，例如，对于游戏视频而言，可以为3000张游戏图像。

在得到采样图像后，可以人工标注采样图像的语义信息作为采样图像的真实语义信息，真实语义信息中像素点的真实类别为生成网络可以识别的类别中的一种，例如假设人工定义了生成网络可以识别7个类别：人、草地、树木、房子、背景、门和窗，则每个像素点的真实类别为上述7个类别中的一个。这里采用人工标注的目的是构造语义数据库，有了采样图像和对应的真实语义信息后，才能指导后续的模型训练。

在一个示例中，可以直接将标注好的采样图像作为样本图像对生成对抗网络进行训练。

在另一个示例中，还可以将标注好的采样图像作为原始样本图像，通过图像的截取等方式，从原始样本图像中获取更多数量的样本图像，丰富训练数据。可选的，步骤“获取样本图像和所述样本图像对应的真实语义信息”，包括：

获取待训练的生成对抗网络的原始样本图像，所述原始样本图像的标签包括：原始样本图像的原始真实语义信息，所述原始真实语义信息包括所述原始样本图像中各像素点的真实类别信息；

从原始样本图像中，截取至少一个预设尺寸的图像，将截取的图像作为所述待训练的生成对抗网络的样本图像；

基于所述样本图像在对应的原始样本图像中的位置，从所述原始样本图像的原始真实语义信息中获取所述样本图像的真实语义信息。

其中，预设尺寸可以根据实际需要设置，该预设尺寸可以是前述的输入图像属性信息中定义的图像尺寸，该预设尺寸可以设置为256*256等。在一个示例中，可以从同一个原始样本图像中随机获取多张256*256的不完全重合的样本图像，既丰富训练数据，又因为随机截取的图像之间有着较大的差异，能防止生成对抗网络模型过拟合。使得训练完成后生成对抗网络中生成网络输出的预测语义信息与人工标注的真实语义信息尽量一致。

本实施例中，可以对样本图像获取多个尺度的特征图，然后进行融合得到样本图像的目标特征图，可选的，步骤“通过所述生成网络的特征提取模块对所述样本图像进行特征提取得到所述样本图像的目标特征图”，可以包括：通过所述生成网络的特征提取模块，对所述样本图像进行特征提取，得到所述样本图像的多个尺度的特征图，并对所述多个尺度的特征图进行融合，得到所述样本图像的目标特征图。

本实施例的预测语义信息是生成网络对图像进行语义分割得到的，在预测语义信息中包括像素点的预测类别信息，预测类别信息包括像素点属于各预设的类别的预测概率。在一个示例中，该预测语义信息可以是预测语义图像，该预测语义图像包括多个图像通道的子图像，每个图像通道对应一个预测类别，某图像通道的子图像中包括像素点属于该图像通道对应的预测类别的预测概率。

可以理解的是，对于一个像素点，预测类别信息中，该像素点可能会有多个类别上的预测概率，例如，类别为人的预测概率是0.6，类别为树的预测概率是0.2等等。

本实施例中，对抗网络对预测语义信息的识别结果，即为对抗网络对预测语义信息是否为样本图像真实的语义信息的识别结果。该识别结果可以是一个概率值，表示对抗网络识别预测语义信息为样本图像真实的语义信息的概率。该概率可以认为是对抗网络对预测语义信息的打分。生成网络的一部分损失，可以基于该概率得到。

可选的，本实施例的生成对抗网络(Generative Adversarial Networks，GAN)可以是CGAN(Conditional Generative Adversarial Networks，条件生成对抗网络)。

本实施例中，特征提取模块可以包括至少两层依次连接的特征提取层，以及特征融合层；目标特征图的具体获取过程，可以包括：

通过依次连接的特征提取层对目标图像进行特征提取，得到不同特征提取层输出的不同尺度的特征图；

通过特征融合层，对不同尺度的特征图按照从最后一层特征提取层到最前一层特征提取层的顺序进行融合，得到目标图像的目标特征图。

本实施例中，特征提取层的数量不限，例如，可以是5层等数量，本实施例中，对不同尺度的特征图的融合，可以是将所有的特征图转换为同一尺度的特征图，然后对各转换后的特征图按照按位相加的方式进行融合，得到目标特征图。

或者，在另一个示例中，也可以选择逐层融合的方式对不同尺度的特征图进行融合。

本实施例中特征图的融合，可以基于特征提取模块中的特征融合层实现，特征融合层的数量比特征提取层少一层。

本实施例中，基于特征融合层获取目标特征图的方案包括：

对输入当前特征融合层的特征图进行尺度转换处理，得到转换后特征图，所述转换后特征图与未参与融合处理的特征图中由最下层特征提取层提取的特征图尺度相同；其中，若当前特征融合层为最后一层特征融合层，输入所述当前融合层的特征图为最后一层特征提取层提取的特征图；

通过所述当前特征融合层对所述转换后特征图，与所述未参与融合处理的特征图中由最下层特征提取层提取的特征图进行特征图融合，将融合后的特征图输入上一层特征融合层，其中，若所述当前特征融合层为最前一层特征融合层，所述当前特征融合层得到的融合后的特征图为目标特征图。

本实施例中尺度转换处理，可以是上采样处理或者反卷积处理等等，本实施例对此没有限制。

下面结合图2c，对目标特征图的获取过程进行举例说明，在图2c中，特征提取层基于卷积层组成，图中的每一层卷积层代表一层特征提取层，图中的卷积层数量为5。图2c中的尺度转换处理采用上采样处理实现。符号

表示两个特征图按位相加进行融合，得到新的特征图。本实施例特征融合层包括图2c中的上采样层和

对应的网络层。图2c中为了简便，没有展示激活层，在实际中除了最后一层，其它层后面都存在一个激活层。

参考图2c，256*256*3的样本图像输入生成网络，通过5个依次连接的卷积层，提取样本图像的深度特征图(深度特征图是卷积层输出的特征谱)。按照卷积层从上到下的顺序，输出的特征图为样本图像的1/2,1/4,1/8,1/16,1/32。

最后一层输出的特征图，通过最后一层上采样层扩大特征谱的尺度，具体的，上采样层会在输入的特征图中间插入0点，然后再对特征图进行卷积操作，输出的特征图的宽高变为输入的特征图的2倍，从样本图像的1/32变为样本图像的1/16。然后将该特征图与前一层的特征图进行按位相加，得到融合后的特征图。

将融合后的特征图输入前一层上采样层，该上采样层会进行类似的上采样操作，得到新的特征图，将该新的特征图与更前一层的特征图进行按位相加得到新的融合后的特征图，输入更前一层的上采样层，直到所有的特征图融合完成，得到目标特征图。

本实施例中的语义分割层，也可以基于上采样层实现，图2c中最下面一层上采样层不属于特征融合层，而属于本实施例的语义分割模块，该语义分割模块，可以对特征融合层输出的目标特征图进行像素点的分类，得到预测语义信息，语义分割模块的输出通道个数为7，对应7个预设的类别。

由于有7个语义类别，所以最终生成的预测语义图像的通道数为7，每一个通道对应一个类别，如果像素点在某个类别上的预测概率为1，则该像素点为该类别。图2c的语义分割图由每个像素属于7种类别的概率组成，第i个通道的第j个像素的值，对应的是样本图像第j个像素属于第i个类别的概率。

具体的，真实语义信息为真实语义图像，所述预测语义信息为预测语义图像，对抗网络包括特征获取模块和判别模块，步骤204可以包括：

将所述样本图像和对应的真实语义图像级联，得到级联后真实语义图像，将所述样本图像和对应的预测语义图像级联，得到级联后预测语义图像；

通过对抗网络的特征获取模块，从所述级联后预测语义图像中获取第一图像特征信息；

通过对抗网络的判别模块，基于所述第一图像特征性信息确定所述级联后预测语义图像对应的预测语义图像，属于所述样本图像真实的语义图像的第一概率；

通过所述对抗网络的特征获取模块，从所述级联后真实语义图像中获取第二图像特征信息；

通过所述对抗网络的判别模块，基于所述第二图像特征信息确定所述级联后真实语义图像对应的真实语义图像，属于所述样本图像真实的语义图像的第二概率。

其中，判别模块的结构不限，可以包括全连接层。

可选的，本实施例中样本图像和预测(或真实)语义图像的级联，可以理解为将图像中各个图像通道的子图像叠加。根据前述的相关定义可知，真实语义图像和预测语义图像都包括多个图像通道的子图像，真实语义图像和预测语义图像的图像通道数相同；真实语义图像和预测语义图像可以理解为多个图像通道的子图像叠加而成的图像。

其中，真实语义图像各图像通道上的子图像包括：所述样本图像的各像素点是否为图像通道对应的真实类别的信息。

其中，所述预测语义图像各图像通道上的子图像包括：所述样本图像的各像素点属于图像通道对应的预测类别的预测概率。

本实施例中，步骤“将样本图像和其对应的真实语义图像级联，得到级联后真实语义图像，将样本图像和其对应的预测语义图像级联，得到级联后预测语义图像”，包括：

将样本图像和真实语义图像的各图像通道的子图像，作为级联后真实语义图像的各图像通道的子图像，对样本图像和真实语义图像进行级联得到级联后真实语义图像；

将样本图像和预测语义图像的各图像通道的子图像，作为级联后预测语义图像的各图像通道的子图像，对样本图像和预测语义图像进行级联得到级联后预测语义图像。

本实施例中，样本图像的图像通道数不限，可以是一通道(如灰度图)，或者可以是三通道(如RGB图)。

可选的，对抗网络的图像特征提取可以是通过卷积实现，对抗网络可以包括卷积层和分类层。

可以通过对抗网络的卷积层从级联后预测语义图像中获取第一图像特征信息。通过对抗网络的卷积层从级联后真实语义图像中获取第二图像特征信息。

通过对抗网络的分类层基于第一图像特征性信息，确定级联后预测语义图像对应的预测语义图像，属于样本图像真实的语义图像的第一概率。

通过对抗网络的分类层基于第二图像特征性信息，确定级联后真实语义图像对应的真实语义图像，属于样本图像真实的语义图像的第二概率。

例如，以枪战游戏的三通道的样本图像为例，将其预测语义图像和真实语义图像分别与样本图像级联，生成10通道的级联后预测语义图像和级联后真实语义图像，在级联后图像中，前3通道是枪战游戏的图像，后7个通道是语义图像。

将这10通道的特征作为对抗网络(参考图2d所示)的输入，如果对抗网络判断语义图像是真实的语义图像，对抗网络的目标是输出1，否则输出0。

其中，对抗网络可以包括多个特征提取层，如包括多个卷积层，以及分类层如全连接层，对抗网络可以通过多个依次连接的卷积层对级联后的10通道图像进行特征提取，将最后一层输出的特征图输入到全连接层，由全连接层进行判定，输出判定结果。

本实施例中，对抗网络的目标是提升区分真实的语义风格图像的精度。

205、基于第一概率，第二概率，以及样本图像的预测语义信息和真实语义信息，对生成对抗网络的参数进行调整。

本实施例中，样本图像的真实语义信息包括各像素点的真实类别信息，生成网络的目标是生成更真实的语义信息，生成网络和对抗网络的参数调整具体可以包括：

基于所述第一概率，确定所述生成网络的第一语义分割子损失；

基于所述样本图像的真实语义信息和预测语义信息中，相同像素点的预测类别信息和真实类别信息之间的差异信息，确定所述生成网络的第二语义分割子损失；

基于所述第一语义分割子损失和第二语义分割子损失，调整所述生成网络的参数，得到训练完成的生成网络；

基于所述第一概率和第二概率，确定所述对抗网络的判别损失；

基于所述判别损失调整所述对抗网络的参数。

本实施例中，第二语义分割子损失的具体计算过程可以包括：基于样本图像的真实语义信息和预测语义信息，确定样本图像中各像素点的真实类别，和在所述预测语义信息中各像素点在对应的真实类别上的预测概率；基于样本图像的像素点的真实类别和所述真实类别上的预测概率，确定所述生成网络的第二语义分割子损失。

其中，对抗网络的对抗损失可以如下：

其中，_N是样本图像的总数量，y_i是第i个样本图像的真实语义图像，x_i是第i个样本图像，G代表生成网络，G(x_i)是根据x_i生成的预测语义图像。

D(y_i)是y_i与样本图像级联后，通过判别器输出的分数(即yi是真实的语义图像的概率)，D(G(x_i))是预测语义信息与样本图像级联后，通过判别器输出的分数(即G(x_i)是真实的语义分割图的概率)。

其中，生成网络的损失由两部分组成：

公式中，第一项损失即第一语义分割子损失，其目的是最大化预测语义信息通过对抗网络得到的打分，第二项损失即第二语义分割子损失，是为了预测语义图像与真实语义图像尽量相似。其中，第二项损失是计算预测语义图像和真实语义图像的相同像素点的相同类别的概率之差的绝对值，α代表第二项损失的权重，y_i,p是第i个真实语义图像中的第p个像素的真实类别的概率(一般为1)，n代表像素的总数，G(x_i)_p是根据x_i生成的语义图像的第p个像素在该真实类别上的预测概率。

本实施例中，可以通过迭代的方式训练判别网络和生成网络，如果生成网络的损失低于阈值(和或对抗网络的损失低于对应的阈值)，则可以停止模型训练。

可选的的，步骤102中得到目标特征图的具体步骤可以包括：

其中，特征融合层的数量比特征提取层少一层；步骤“通过特征融合层，对不同尺度的特征图按照从最后一层特征提取层到最前一层特征提取层的顺序进行融合，得到目标图像的目标特征图”，可以包括：

本实施例中，特征提取层的特征提取采用下采样或卷积处理，则尺度转换处理，可以是上采样处理和反卷积处理，若特征提取层的特征提取采用上采样或反卷积处理，则尺度转换处理，可以是下采样处理和卷积处理。

本实施例中，目标特征图的具体获取过程，可以参考模型训练过程中的相关描述，在此不再赘述。

本实施例中，语义分割模块可以基于目标图像的目标特征图确定目标图像中各像素点属于各个预设的类别的预测概率，然后得到目标图像的预测类别信息。

本实施例中，在确定目标图像的预测语义信息后，还可以根据预测语义信息，从目标图像中识别出想要识别的目标对象，可选的，得到目标图像的语义信息后，还可以包括：

确定目标图像中待识别的目标对象的目标类别；

基于所述目标图像的预测语义信息，确定所述目标图像中属于所述目标类别的目标像素点；

基于所述目标像素点，确定所述目标图像中的目标对象。

具体的，可以是基于目标图像的预测语义信息中，各像素点的预测类别的预测概率，确定目标图像中属于目标类别的目标像素点。

在确定目标像素点后，还可以根据连通区域搜索等方式，确定目标图像中的目标对象，例如，通过连通区域搜索的方式，确定由目标像素点构成的连通区域，一个连通区域对应一个目标对象。

采用本实施例，可以基于对抗网络对预测语义信息的识别结果，以及样本图像的真实语义信息和生成网络从样本图像中提取的预测语义信息间的差异信息，得到生成网络的损失来调整生成网络的参数，所以生成网络的一部分损失是由对抗网络学习到的，相较于相关技术中仅有人工根据经验制定损失函数的方式，本实施例的损失更加多元化，更加灵活，可以降低对人工经验的依赖，提升生成网络的图像语义分割的准确性。

为了更好地实施以上方法，相应的，本发明实施例还提供一种模型训练装置，该模型训练装置具体集成在终端或服务器中。参考图3，该装置包括：

样本获取单元301，用于获取样本图像和所述样本图像对应的真实语义信息，所述样本图像对应的真实语义信息包括所述样本图像中各像素点的真实类别信息；

样本特征提取单元302，用于将所述样本图像输入到待训练的生成对抗网络中的生成网络，通过所述生成网络的特征提取模块对所述样本图像进行特征提取得到所述样本图像的目标特征图；

样本语义分割单元303，用于通过所述生成网络的语义分割模块，基于所述目标特征图确定所述样本图像对应的预测语义信息，所述样本图像对应的预测语义信息包括所述样本图像中各像素点的预测类别信息；

对抗网络单元304，用于通过所述待训练的生成对抗网络中的对抗网络，基于所述样本图像的真实语义信息和预测语义信息，确定所述预测语义信息为所述样本图像的真实的语义信息的第一概率，以及所述真实语义信息属于所述样本图像的真实的语义信息的第二概率；

模型调整单元305，用于基于所述第一概率和第二概率调整所述生成对抗网络的参数，得到训练完成的生成对抗网络。

在一个可选的示例中，通样本特征提取单元，用于过所述生成网络的特征提取模块，对所述样本图像进行特征提取，得到所述样本图像的多个尺度的特征图，并对所述多个尺度的特征图进行融合，得到所述样本图像的目标特征图。

在一个可选的示例中，所述特征提取模块包括特征融合层以及至少两层依次连接的特征提取层；样本特征提取单元，用于：

通过依次连接的所述特征提取层对所述样本图像进行特征提取，得到不同特征提取层输出的不同尺度的特征图；

通过所述特征融合层，对所述不同尺度的特征图按照从最后一层特征提取层到最前一层特征提取层的顺序进行融合，得到所述样本图像的目标特征图。

在一个可选的示例中，所述特征融合层的数量比所述特征提取层少一层；

样本特征提取单元，用于：

在一个可选的示例中，样本获取单元，用于：

在一个可选的示例中，所述真实语义信息为真实语义图像，所述预测语义信息为预测语义图像；

对抗网络单元，用于：

通过所述对抗网络的特征获取模块，从所述级联后预测语义图像中获取第一图像特征信息；

通过所述对抗网络的判别模块，基于所述第一图像特征性信息确定所述级联后预测语义图像对应的预测语义图像，属于所述样本图像真实的语义图像的第一概率；

在一个可选的示例中，模型调整单元，用于：

基于所述判别损失调整所述对抗网络的参数。

在一个可选的示例中，所述预测类别信息包括预测类别和在所述预测类别上的预测概率；

模型调整单元，用于：

基于样本图像的真实语义信息和预测语义信息，确定样本图像中各像素点的真实类别，和在所述预测语义信息中各像素点在对应的真实类别上的预测概率；

基于样本图像的像素点的真实类别和所述真实类别上的预测概率，确定所述生成网络的第二语义分割子损失。

在一个可选的示例中，所述真实语义图像和预测语义图像的图像通道数相同，所述真实语义图像各图像通道上的子图像包括：所述样本图像的各像素点是否为图像通道对应的真实类别的信息；所述预测语义图像各图像通道上的子图像包括：所述样本图像的各像素点为图像通道对应的预测类别的预测概率；

对抗网络单元，用于：

采用本实施例的装置，是利用生成对抗网络中的生成网络进行图像语义分割，而生成网络的训练是基于对抗网络的输出进行的，即生成网络的损失，基于样本图像的真实语义图像和生成网络从样本图像中提取的预测语义图像间的差异信息，以及对抗网络对预测语义图像的识别结果得到，所以调整生成网络的损失中，一部分损失是由对抗网络学习到的，相较于相关技术中仅有人工根据经验制定损失函数的方式，本实施例的损失更加多元化，可以降低对人工经验的依赖，提升生成网络的图像语义分割的准确性。

为了更好地实施以上方法，相应的，本发明实施例还提供一种图像处理装置，该图像处理装置具体集成在终端或服务器中。参考图4，该装置包括：

图像输入单元401，用于将目标图像输入训练完成的生成网络，其中，所述生成网络为采用上述实施例中的任一模型训练方法训练得到的；

特征提取单元402，用于基于所述生成网络的特征提取模块，对所述目标图像进行特征提取得到所述目标图像的目标特征图；

语义分割单元403，用于通过所述生成网络的语义分割模块，基于所述目标特征图确定所述目标图像对应的预测语义信息，所述目标图像对应的预测语义信息包括所述目标图像中各像素点的预测类别信息。

可选的，本实施例的图像处理装置还包括，对象确定单元，用于：

确定所述目标图像中待识别的目标对象的目标类别；

基于所述目标像素点，确定所述目标图像中的目标对象。

采用本实施例的装置，可以准确而快速识别目标图像中的目标对象。

此外，本发明实施例还提供一种计算机设备，该计算机设备可以为终端或者服务器，如图5所示，其示出了本发明实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解，图5中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器501是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器501可包括一个或多个处理核心；优选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

计算机设备还包括给各个部件供电的电源503，优选的，电源503可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元504，该输入单元504可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能，如下：

或者，

将目标图像输入训练完成的生成网络，其中，所述生成网络为采用上述模型训练方法训练得到的；

通过所述生成网络的特征提取模块，对所述目标图像进行特征提取得到所述目标图像的目标特征图；

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例还提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的图像处理。

根据本申请的一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中的各种可选实现方式中提供的方法。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的模型训练方法和图像处理中的步骤，因此，可以实现本发明实施例所提供的模型训练方法、图像处理所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种模型训练、图像处理方法、装置、计算机设备和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的模型训练方法，其特征在于，所述通过所述生成网络的特征提取模块对所述样本图像进行特征提取得到所述样本图像的目标特征图，包括：

通过所述生成网络的特征提取模块，对所述样本图像进行特征提取，得到所述样本图像的多个尺度的特征图，并对所述多个尺度的特征图进行融合，得到所述样本图像的目标特征图。

3.根据权利要求2所述的模型训练方法，其特征在于，所述特征提取模块包括特征融合层以及至少两层依次连接的特征提取层；

所述通过所述生成网络的特征提取模块，对所述样本图像进行特征提取，得到所述样本图像的多个尺度的特征图，并对所述多个尺度的特征图进行融合，得到所述样本图像的目标特征图，包括：

4.根据权利要求3所述的模型训练方法，其特征在于，所述特征融合层的数量比所述特征提取层少一层；

所述通过特征融合层，对所述不同尺度的特征图按照从最后一层特征提取层到最前一层特征提取层的顺序进行融合，得到所述样本图像的目标特征图，包括：

5.根据权利要求1-4任一项所述的模型训练方法，其特征在于，所述获取样本图像和所述样本图像对应的真实语义信息，包括：

6.根据权利要求1-4任一项所述的模型训练方法，其特征在于，所述真实语义信息为真实语义图像，所述预测语义信息为预测语义图像；

所述通过所述待训练的生成对抗网络中的对抗网络，基于所述样本图像的真实语义信息和预测语义信息，确定所述预测语义信息属于所述样本图像的真实的语义信息的第一概率，以及所述真实语义信息属于所述样本图像的真实的语义信息的第二概率，包括：

7.根据权利要求1-4任一项所述的模型训练方法，其特征在于，所述基于所述第一概率和第二概率调整所述生成对抗网络的参数，得到训练完成的生成对抗网络，包括：

基于所述判别损失调整所述对抗网络的参数。

8.根据权利要求7所述的模型训练方法，其特征在于，所述预测类别信息包括预测类别和在所述预测类别上的预测概率；

所述基于所述样本图像的真实语义信息和预测语义信息中，相同像素点的预测类别信息和真实类别信息之间的差异信息，确定所述生成网络的第二语义分割子损失，包括：

9.根据权利要求6所述的模型训练方法，其特征在于，所述真实语义图像和预测语义图像的图像通道数相同，所述真实语义图像各图像通道上的子图像包括：所述样本图像的各像素点是否为图像通道对应的真实类别的信息；所述预测语义图像各图像通道上的子图像包括：所述样本图像的各像素点为图像通道对应的预测类别的预测概率；

所述将所述样本图像和对应的真实语义图像级联，得到级联后真实语义图像，将所述样本图像和对应的预测语义图像级联，得到级联后预测语义图像，包括：

10.一种图像处理方法，其特征在于，包括：

将目标图像输入训练完成的生成网络，其中，所述生成网络为采用权利要求1至9中任意一项模型训练方法训练得到的；

11.根据权利要求10所述的图像处理方法，其特征在于，所述通过所述生成网络的语义分割模块，基于所述目标特征图确定所述目标图像对应的预测语义信息后，还包括：

确定所述目标图像中待识别的目标对象的目标类别；

基于所述目标像素点，确定所述目标图像中的目标对象。

12.一种模型训练装置，其特征在于，包括：

13.一种图像处理装置，其特征在于，包括：

图像输入单元，用于将目标图像输入训练完成的生成网络，其中，所述生成网络为采用权利要求1至9中任意一项模型训练方法训练得到的；

14.一种计算机设备，其特征在于，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1至11中任一项所述方法的步骤。

15.一种存储介质，其上存储有计算机程序，其特征在于，当计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至11中任一项所述方法的步骤。