CN108875766A

CN108875766A - 图像处理的方法、装置、系统及计算机存储介质

Info

Publication number: CN108875766A
Application number: CN201711230536.2A
Authority: CN
Inventors: 史桀绮
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2018-11-23
Anticipated expiration: 2037-11-29
Also published as: CN108875766B

Abstract

本发明实施例提供了一种图像处理的方法、装置、系统及计算机存储介质。所述方法包括：通过如下方式训练得到生成对抗网络，所述生成对抗网络包括生成模型和判别模型：将输入图像输入至生成模型，得到输出图像，其中，所述输出图像与所述输入图像具有不同的风格；将所述输出图像输入至判别模型，得到输出值；根据预定义的损失函数，对生成模型和判别模型进行训练，直到收敛；使用训练好的生成模型，得到与训练好的生成模型的输入图像具有不同风格的目标图像。由此，本发明实施例能够通过训练得到生成对抗网络，并基于该生成对抗网络的生成模型得到与输入图像具有不同风格的目标图像，从而能够扩充用于车辆检测的数据集，进而保证车辆检测的效果。

Description

图像处理的方法、装置、系统及计算机存储介质

技术领域

本发明涉及图像处理领域，更具体地涉及一种图像处理的方法、装置、系统及计算机存储介质。

背景技术

车辆检测是图像检测领域的一个重要方面。车辆检测的效果依赖于大量的数据，即数据集。若数据集中的数据不足会严重影响检测结果的可靠性，并无法适应更广泛的场景。因此，在车辆检测的场景中，期望数据集中存在各种风格的数据，因此，如何获取各种风格的数据是急需解决的问题之一。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种图像处理的方法、装置、系统及计算机存储介质，能够使用训练好的生成模型生成不同风格的目标图像。

根据本发明的一方面，提供了一种图像处理的方法，所述方法包括：

通过如下方式训练得到生成对抗网络，所述生成对抗网络包括生成模型和判别模型：

将输入图像输入至所述生成模型，得到输出图像，其中，所述输出图像与所述输入图像具有不同的风格；

将所述输出图像输入至所述判别模型，得到输出值；

根据预定义的损失函数，对所述生成模型和所述判别模型进行训练，直到收敛；

使用所述训练好的所述生成模型，得到与所述训练好的生成模型的输入图像具有不同风格的目标图像。

在本发明的一个实施例中，所述根据预定义的损失函数，对所述生成模型和所述判别模型进行训练，直到收敛，包括：

根据预定义的多个损失函数的加权和，判断是否收敛。

在本发明的一个实施例中，所述根据预定义的多个损失函数的加权和，判断是否收敛，包括：

若所述多个损失函数的加权和在连续多个迭代中的结果之间的差值小于预设误差值，则确定达到收敛。

在本发明的一个实施例中，所述预定义的损失函数包括风格损失函数，或者，所述预定义的损失函数包括风格损失函数和材质损失函数。

在本发明的一个实施例中，所述输出值表示所述输出图像为真实图像的概率。

在本发明的一个实施例中，所述输入图像为包括车辆的图像。

在本发明的一个实施例中，还包括：

将所述目标图像添加至已有数据集以生成新的数据集；

基于所述新的数据集进行车辆检测。

根据本发明的另一方面，提供了一种图像处理的装置，所述装置用于实现前述方面或各个实施例所述方法的步骤，所述装置包括：

训练模块，用于通过如下方式训练得到生成对抗网络，所述生成对抗网络包括生成模型和判别模型：

将所述输出图像输入至所述判别模型，得到输出值；

获取模块，用于使用所述训练好的所述生成模型，得到与所述训练好的生成模型的输入图像具有不同风格的目标图像。

根据本发明的又一方面，提供了一种图像处理的系统，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述方面及各个示例所述的图像处理的方法的步骤。

根据本发明的再一方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被计算机执行时实现前述方面及各个示例所述的图像处理的方法的步骤。

由此，本发明实施例能够通过训练得到生成对抗网络，并基于该生成对抗网络的生成模型得到与输入图像具有不同风格的目标图像，从而能够扩充用于车辆检测的数据集，进而能够保证车辆检测的效果。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本发明实施例的电子设备的一个示意性框图；

图2是本发明实施例的图像处理的方法的一个示意性流程图；

图3是本发明实施例的图像处理的装置的一个示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

本发明实施例可以应用于电子设备，图1所示为本发明实施例的电子设备的一个示意性框图。图1所示的电子设备10包括一个或更多个处理器102、一个或更多个存储装置104、输入装置106、输出装置108、图像传感器110以及一个或更多个非图像传感器114，这些组件通过总线系统112和/或其它形式互连。应当注意，图1所示的电子设备10的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以包括CPU 1021和GPU 1022或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，例如现场可编程门阵列(Field－Programmable GateArray，FPGA)或进阶精简指令集机器(Advanced RISC(Reduced Instruction SetComputer)Machine，ARM)等，并且处理器102可以控制所述电子设备10中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或更多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器1041和/或非易失性存储器1042。所述易失性存储器1041例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器1042例如可以包括只读存储器(Read-Only Memory，ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或更多个计算机程序指令，处理器102可以运行所述程序指令，以实现各种期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或更多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或更多个。

所述图像传感器110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

当注意，图1所示的电子设备10的组件和结构只是示例性的，尽管图1示出的电子设备10包括多个不同的装置，但是根据需要，其中的一些装置可以不是必须的，其中的一些装置的数量可以更多等等，本发明对此不限定。

生成对抗网络(Generative Adversarial Net，GAN)包括生成模型(generativemodel)和判别模型(discriminative model)。生成模型也可以称为生成器(Generator)或生成网络，可以表示为G；判别模型也可以称为判别器(Discriminator)或判别网络，可以表示为D。一般地，G可以接收一个随机的噪声向量z，通过这个噪声生成数据(如图像)，记为G(z)。D可以接收G(z)或接收真实图像，以判断所接收的图像为真实图像的概率，假设D所接收的图像表示为x，则D的输出可以表示为D(x)，D(x)的值可以位于0～1区间，D(x)＝1表示x为真实图像，D(x)＝0.5表示x有50％的概率为真实图像，D(x)＝0表示不可能为真实图像。G和D这两者可以同时训练，G的目标是尽量生成接近真实的图像试图欺骗D，而D的目标是尽量将G生成的图像区分开来。可见G和D是一个动态的博弈过程，在训练D时，最小化判别误差；在训练G时，最大化判别误差。两个目的均可以通过反向传播方法实现。经过交替优化训练，两种模型G和D都能得到提升，直到到达一个“G生成的图像与真实图像无法区分”的点，也就是使得D(G(z))＝0.5。

具体地，若以Pr和Pg分别表示真实图像的分布和G的生成图像的分布，那么可以将D的目标函数表示为：

结合G的目标，可以将整个的优化目标函数表示为：

一个直观的优化方法是分别对D和G进行交替迭代：固定G优化D，一段时间后固定D优化G，直到过程收敛。这样，经过交替优化训练，两种模型G和D都能得到提升，直到到达一个“G生成的图像与真实图像无法区分”的点，即使得D(G(z))＝0.5。

在该训练优化的过程中，可以使用卷积神经网络(Convolutional NeuralNetwork，CNN)，CNN是一种深度学习网络，可以使用CNN提取图像的特征。CNN可以是以图片作为输入，通过卷积层(convolutional layer)提取不同层级的信息，并以图片、类别抽象表达作为输出(如，纹理、形状等)，逐层深入。

图2是本发明实施例的图像处理的方法的一个示意性流程图。图2所示的方法包括：

S101，通过如下方式训练得到生成对抗网络，所述生成对抗网络包括生成模型和判别模型：

将所述输出图像输入至所述判别模型，得到输出值；

S102，使用所述训练好的所述生成模型，得到与所述训练好的生成模型的输入图像具有不同风格的目标图像。

示例性地，S102中的目标图像可以被添加至已有数据集以生成新的数据集。本发明实施例中的数据集可以是用于车辆检测的数据集，例如用于车辆检测的数据集中包括监控数据(也称为监控图像)，这些监控数据可以是由多个不同的图像采集装置(如摄像机)在不同的条件下所采集的车辆图像。应注意，本发明实施例中的数据集也可以是用于其他场景的数据集，例如用于行人检测的场景等，为了描述的方便，本发明实施例以用于车辆检测的数据集为例进行阐述。

为了丰富数据集，期望数据集中的监控数据包括各种各样的风格。本发明实施例中的风格可以是指图像采集装置的监控风格，该风格可以包括：所采集的车辆的角度、采集时车辆相对于该图像采集装置的速度、图像采集装置的属性、环境照明条件(亮度等)、等等。

示例性地，S101中训练得到的GAN可以被称为风格转换的GAN。其中，输入图像可以是由图像采集装置针对静止的汽车所采集的清晰的图像。例如，输入图像可以是包括车辆的网络图像，这样可以方便地大量地从互联网获取已有图像作为输入图像，实现对数据集的扩充。可理解，该生成模型的输出图像与其输入图像具有不同的风格。例如，输入图像是静止状态所采集的图像，输出图像是看起来在运动状态所采集的图像。例如，输入图像是分辨率高、光照条件好的图像，输出图像是分辨率低、夜晚等照明条件下的图像。

示例性地，判别模型得到的输出值可以表示输出图像为真实图像的概率，该输出值可以是0至1之间的值。真实图像可以是已有数据集中的监控数据，例如可以是由安装在特定位置处的图像采集装置(如行车记录仪、路口的摄像头等)所采集的监控数据。可理解，若该判别模型的输入为已有图像，例如该已有图像是从汽车销售商的广告中所获取的，由于该已有图像一般是在光照、角度等最优的状态下拍摄的，且可能经过后期的美化等，而不可能是由实际的图像采集装置在监控状态下拍摄的，因此其输出D(x)＝0。若该判别模型的输入为真实图像，例如该真实图像为路口的某摄像头所采集的其中一帧包含汽车的图像，则其输出D(x)＝1。这里，x表示判别模型的输入。

具体地，可以通过交替训练生成模型和判别模型，得到收敛的GAN。示例性地，在S101训练的过程中，可以根据损失函数来判断是否收敛。作为一例，可以根据多个损失函数的加权和，判断是否收敛。示例性地，若所述多个损失函数的加权和在连续多个迭代中的结果之间的差值小于预设误差值，则确定达到收敛。示例性地，多个迭代可以为几百或者几千等，本发明对此不限定。例如，在多个迭代中可以得到多个结果，而这多个结果两两之差均小于预设误差值，则说明该迭代过程已经收敛。

也就是说，当多个损失函数的加权和在连续多个迭代的计算结果基本不变时，可以确定达到收敛。例如，在连续多个迭代中，多个损失函数的加权和在任意两个迭代中的值分别为Loss1和Loss2，且|Loss1-Loss2|<ε，则可以确定其已经收敛，其中，ε为预先定义的很小的值，如ε＝10^-6。

其中，多个损失函数可以包括风格损失函数。示例性地，风格损失函数可以包括与不同的风格相关的表达式，例如，风格损失函数为多个表达式的和，第一表达式可以是与车辆的角度相关的式子，第二表达式可以是与车辆速度相关的式子，第三表达式可以是与采集时的亮度相关的式子，等等。

可选地，多个损失函数还可以包括材质损失函数。其中，材质可以与被拍摄物体(如汽车)的表面材质、图像采集装置的镜头材质等有关。例如，由于材质的不同，图像的光滑度、噪点等可能不同。示例性地，材质损失函数可以包括与不同的材质相关的表达式，例如，材质损失函数为多个表达式的和，第一表达式可以是与图像的光滑度相关的式子，第二表达式可以是与图像的噪点相关的式子，第三表达式可以是与采集时的镜头材质相关的式子，等等。

在计算多个损失函数的加权和时，可以设定各个损失函数的权重，例如可以设定风格损失函数的权重大于其他损失函数的权重。

由此，便可以通过多层卷积网络的叠加与误差的最小化，得到一个可以生成多种风格的网络模型。

示例性地，在S102中，可以获取S101训练好的GAN的生成模型所生成的目标图像。进一步地，可以将目标图像作为监控图像，即添加至已有数据集以生成新的数据集。

这样，便可以实现对已有数据集的扩充。进一步地，该新的数据集可以用于车辆检测。

作为一种实现方式，可以对添加到已有数据集中的监控数据进行人工检测，如果其标注信息明显有误，可以进行人工标注。例如，若其将明显不同颜色的两辆汽车标记为同一个，可以进行人工标记，将其中的一辆汽车标记为另一标识(VID)。这样，能够避免数据集中存在错误标记的情况。

作为一种实现方式，可以基于该新的数据集进行车辆检测。示例性地，可以根据该新的数据集训练用于车辆检测的网络模型；并使用所述网络模型进行车辆检测。具体地，该新的数据集可以用于训练车辆检测的网络模型，如卷积神经网络模型。随后，可以使用该训练好的网络模型对未知图像进行车辆检测。举例来说，可以将未知图像作为该训练好的网络模型的输入，输出为：该未知图像是否存在车辆和/或车辆的位置信息等。并且，针对具有不同风格车辆的未知图像，均能得到可靠性高的检测结果。

由此可见，本发明实施例能够通过训练得到生成对抗网络，并基于该生成对抗网络得到与输入图像具有不同风格的目标图像，从而能够扩充用于车辆检测的数据集，进而能够保证车辆检测的效果。

图3是本发明实施例的图像处理的装置的一个示意性框图。图3所示的装置30包括训练模块310和获取模块320。

训练模块310，用于通过如下方式训练得到生成对抗网络，所述生成对抗网络包括生成模型和判别模型：

将所述输出图像输入至所述判别模型，得到输出值；

获取模块320，用于使用所述训练好的所述生成模型，得到与所述训练好的生成模型的输入图像具有不同风格的目标图像。

在本发明的一个实施例中，训练模块310中根据预定义的多个损失函数的加权和，判断是否收敛。

在本发明的一个实施例中，训练模块310中若所述多个损失函数的加权和在连续多个迭代中的结果之间的差值小于预设误差值，则确定达到收敛。

在本发明的一个实施例中，装置30还可以包括生成模块和检测模块。生成模块可以用于将所述目标图像添加至已有数据集以生成新的数据集。检测模块可以用于基于所述新的数据集进行车辆检测。

图3所示的装置30能够实现前述图2所示的图像处理的方法，为避免重复，这里不再赘述。

另外，本发明实施例还提供了另一种图像处理的系统，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，处理器执行所述程序时实现前述图2所示方法的步骤。

另外，本发明实施例还提供了一种电子设备，该电子设备可以包括图3所示的装置30。该电子设备可以实现前述图2所示的方法。

另外，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序。当所述计算机程序由计算机执行时，可以实现前述图2所示方法的步骤。例如，该计算机存储介质为计算机可读存储介质。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

将所述输出图像输入至所述判别模型，得到输出值；

2.根据权利要求1所述的方法，其特征在于，所述根据预定义的损失函数，对所述生成模型和所述判别模型进行训练，直到收敛，包括：

根据预定义的多个损失函数的加权和，判断是否收敛。

3.根据权利要求2所述的方法，其特征在于，所述根据预定义的多个损失函数的加权和，判断是否收敛，包括：

4.根据权利要求1所述的方法，其特征在于，所述预定义的损失函数包括风格损失函数，或者，所述预定义的损失函数包括风格损失函数和材质损失函数。

5.根据权利要求1所述的方法，其特征在于，所述输出值表示所述输出图像为真实图像的概率。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述输入图像为包括车辆的图像。

7.根据权利要求6所述的方法，其特征在于，还包括：

将所述目标图像添加至已有数据集以生成新的数据集；

基于所述新的数据集进行车辆检测。

8.一种图像处理的装置，其特征在于，所述装置包括：

将所述输出图像输入至所述判别模型，得到输出值；

9.一种图像处理的系统，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被计算机执行时实现权利要求1至7中任一项所述方法的步骤。