CN110245710A

CN110245710A - 语义分割模型的训练方法、语义分割方法及装置

Info

Publication number: CN110245710A
Application number: CN201910527051.2A
Authority: CN
Inventors: 马林; 揭泽群; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2019-09-17
Anticipated expiration: 2039-06-18
Also published as: CN110245710B

Abstract

本发明提供了一种语义分割模型的训练方法、语义分割方法及装置，语义分割模型的训练方法包括：通过多个图像增强模型，分别对样本图像进行图像增强，得到相应的多个增强图像；对多个增强图像进行图像融合，得到第一融合图像；通过多个语义分割模型，分别对第一融合图像进行语义分割，得到相应的多个语义分割图像；基于多个语义分割图像及语义分割模型的损失函数，更新多个语义分割模型的模型参数；通过目标语义分割模型，对第一融合图像进行语义分割，得到目标图像；目标语义分割模型为更新模型参数后的多个语义分割模型中之一；基于多个语义分割图像、目标图像及目标语义分割模型的损失函数，更新目标语义分割模型的模型参数。

Description

语义分割模型的训练方法、语义分割方法及装置

技术领域

本发明涉及计算机视觉领域，尤其涉及一种语义分割模型的训练方法、语义分割方法及装置。

背景技术

图像语义分割是计算机视觉领域中一项重要的研究内容，其目标是将图像分割成具有不同语义信息的区域，并且标注每个区域相应的语义标签。相关技术中，经过单阶段结构相同的语义分割模型融合产生粗标注数据来辅助单个语义分割模型进行教导训练，通过该类技术训练得到的语义分割模型进行图像的语义分割时，得到的分割结果的精度低、质量差。

发明内容

本发明实施例提供一种语义分割模型的训练方法、语义分割方法及装置，能够得到更加精确的图像语义分割结果。

本发明实施例提供一种语义分割模型的训练方法，所述方法包括：

通过多个图像增强模型，分别对样本图像进行图像增强，得到相应的多个增强图像；

对所述多个增强图像进行图像融合，得到第一融合图像；

通过多个语义分割模型，分别对所述第一融合图像进行语义分割，得到相应的多个语义分割图像；所述语义分割模型与所述图像增强模型呈一一对应关系；

基于所述多个语义分割图像及所述语义分割模型的损失函数，更新所述多个语义分割模型的模型参数；

通过目标语义分割模型，对所述第一融合图像进行语义分割，得到目标图像；所述目标语义分割模型为更新所述模型参数后的多个语义分割模型中之一；

基于所述多个语义分割图像、所述目标图像及所述目标语义分割模型的损失函数，更新所述目标语义分割模型的模型参数。

上述方案中，所述通过多个图像增强模型，分别对样本图像进行图像增强之前，所述方法还包括：

通过所述多个图像增强模型，分别对所述样本图像进行图像增强，得到相应的多个第一图像；

通过所述多个语义分割模型，分别对所述多个第一图像进行语义分割，得到相应的多个第二图像；

基于所述多个第二图像及所述多个语义分割模型的损失函数，更新所述多个图像增强模型以及所述多个语义分割模型的模型参数。

上述方案中，所述基于所述多个第二图像及所述多个语义分割模型的损失函数，更新所述多个图像增强模型以及所述多个语义分割模型的模型参数，包括：

确定所述第二图像与参考图像的差异；

基于所述差异，确定所述语义分割模型的损失函数的值；

当所述损失函数的值达到第一阈值时，基于所述语义分割模型的损失函数确定相应的第一误差信号；

将所述第一误差信号在所述语义分割模型及所述增强模型中反向传播，在传播的过程中，更新所述语义分割模型的各个层的模型参数，以及所述增强模型的各个层的模型参数。

上述方案中，所述基于所述多个语义分割图像及所述语义分割模型的损失函数，更新所述多个语义分割模型的模型参数，包括：

对所述多个第二图像进行图像融合，得到第二融合图像；

基于所述语义分割图像与所述第二融合图像的差异、所述语义分割图像与参考图像的差异，确定所述语义分割模型的损失函数的值；

当所述损失函数的值达到第二阈值时，基于所述语义分割模型的损失函数确定相应的第二误差信号；

将所述第二误差信号在所述语义分割模型中反向传播，并在传播的过程中更新所述语义分割模型的各个层的模型参数。

上述方案中，所述对所述多个增强图像进行图像融合，得到第一融合图像，包括：

对所述多个增强图像进行像素级融合，得到第一融合图像。

上述方案中，所述基于所述多个语义分割图像、所述目标图像及所述目标语义分割模型的损失函数，更新所述目标语义分割模型的模型参数，包括：

对所述多个语义分割图像进行融合处理，得到第三融合图像；

基于所述目标图像与所述第三融合图像的差异、所述目标图像与参考图像的差异，确定所述目标语义分割模型的损失函数的值；

当所损失函数的值达到第三阈值时，基于所述目标语义分割模型的损失函数确定相应的第三误差信号；

将所述第三误差信号在所述目标语义分割模型中反向传播，并在传播的过程中更新所述目标语义分割模型的各个层的模型参数。

本发明实施例还提供一种语义分割模型的训练装置，所述装置包括：

增强单元，用于通过多个图像增强模型，分别对样本图像进行图像增强，得到相应的多个增强图像；

融合单元，用于对所述多个增强图像进行图像融合，得到第一融合图像；

第一分割单元，用于通过多个语义分割模型，分别对所述第一融合图像进行语义分割，得到相应的多个语义分割图像；所述语义分割模型与所述图像增强模型呈一一对应关系；

第一更新单元，用于基于所述多个语义分割图像及所述语义分割模型的损失函数，更新所述多个语义分割模型的模型参数；

第二分割单元，用于通过目标语义分割模型，对所述第一融合图像进行语义分割，得到目标图像；所述目标语义分割模型为更新所述模型参数后的多个语义分割模型中之一；

第二更新单元，用于基于所述多个语义分割图像、所述目标图像及所述目标语义分割模型的损失函数，更新所述目标语义分割模型的模型参数。

本发明实施例还提供一种语义分割方法，所述方法包括：

通过多个图像增强模型，分别对源图像进行图像增强，得到相应的多个增强源图像；

对所述多个增强源图像进行图像融合，得到融合图像；

通过目标语义分割模型，对所述融合图像进行语义分割，得到目标图像；

其中，所述目标语义分割模型基于本发明实施例提供的语义分割模型的训练方法训练得到。

本发明实施例还提供一种语义分割装置，所述装置包括：

增强单元，用于通过多个图像增强模型，分别对源图像进行图像增强，得到相应的多个增强源图像；

融合单元，用于对所述多个增强源图像进行图像融合，得到融合图像；

分割单元，用于通过目标语义分割模型，对所述融合图像进行语义分割，得到对应所述源图像的目标图像；

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的语义分割模型的训练方法。

本发明实施例还提供一种存储介质，所述存储介质存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的语义分割模型的训练方法。

本发明实施例还提供一种语义分割装置，所述装置包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的语义分割方法。

本发明实施例还提供一种存储介质，所述存储介质存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的语义分割方法。

本发明实施例具有以下有益效果：

应用本发明实施例提供的语义分割模型的训练方法，通过多个不同阶段完成了目标语义分割模型的训练，由于在训练过程中将上一阶段训练得到的融合结果作为下一阶段训练的约束，如此，采用迭代的方式使训练过程融合了多种复杂模型中提取到的语义知识，通过本发明实施例提供的目标语义分割模型进行图像的语义分割能够提高语义分割的精度与质量。

附图说明

图1为本发明实施例提供的语义分割模型的实施场景的示意图；

图2为本发明实施例提供的语义分割模型的训练装置的组成结构示意图；

图3为本发明实施例提供的语义分割模型的训练方法的流程示意图；

图4为本发明实施例提供的语义分割模型的第一阶段训练示意图；

图5为本发明实施例提供的语义分割模型的第二阶段训练示意图；

图6为本发明实施例提供的语义分割模型的第三阶段训练示意图；

图7为本发明实施例提供的语义分割模型的训练方法的流程示意图；

图8为本发明实施例提供的语义分割方法的流程示意图；

图9为本发明实施例提供的语义分割模型的应用场景示意图；

图10为本发明实施例提供的语义分割模型的训练装置的组成结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

首先对本发明实施例的语义分割模型的实施场景进行说明，图1为本发明实施例提供的语义分割模型的实施场景的示意图，参见图1，为实现支撑一个示例性应用，终端(包括终端40-1和终端40-2)，终端上设置有用于图像语义分割的客户端，终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

终端将用于语义分割模型的训练的样本图像发送给服务器200。服务器200，用于接收终端发送的样本图像，并将样本图像输入多个图像增强模型，得到相应的多个增强图像；对多个增强图像进行图像融合，得到第一融合图像；通过多个语义分割模型，分别对第一融合图像进行语义分割，得到相应的多个语义分割图像；语义分割模型与图像增强模型呈一一对应关系；基于多个语义分割图像及语义分割模型的损失函数，更新多个语义分割模型的模型参数；通过目标语义分割模型，对第一融合图像进行语义分割，得到目标图像；目标语义分割模型为更新模型参数后的多个语义分割模型中之一；基于多个语义分割图像、目标图像及目标语义分割模型的损失函数，更新目标语义分割模型的模型参数；如此，实现对语义分割模型的训练。

终端(终端40-1和/或终端40-2)，用于发送携带源图像的语义分割请求给服务器200。

服务器200，还用于接收终端发送的语义分割请求，通过多个图像增强模型，分别对源图像进行图像增强，得到相应的多个增强源图像；对多个增强源图像进行图像融合，得到融合图像；通过目标语义分割模型，对融合图像进行语义分割，得到对应源图像的目标图像；其中，目标语义分割模型基于本发明实施例提供的语义分割模型的训练方法训练得到；最后将将语义分割结果(即目标图像)返回给终端。

终端(终端40-1和/或终端40-2)，还用于基于服务器200返回的语义分割结果执行相应的应用，如驱动无人驾驶车，基于语义分割结果确定道路上可通行区域，确定行驶路径，以避免在行驶过程中碰到障碍物。

接下来对本发明实施例提供的语义分割模型的训练装置及基于语义分割模型的语义分割装置进行说明。本发明实施例的语义分割模型的训练装置及基于语义分割模型的语义分割装置，均可以以各种形式来实施，如：由智能手机、平板电脑和台式机等终端单独实施，或者由终端、服务器协同实施。本发明实施例提供的语义分割模型的训练装置及基于语义分割模型的语义分割装置，均可以实施为硬件或者软硬件结合的方式，以本发明实施例的语义分割模型的训练装置为例，下面说明本发明实施例提供的装置的各种示例性实施。

下面对本发明实施例的语义分割模型的训练装置的硬件结构做详细说明，图2为本发明实施例提供的语义分割模型的训练装置的组成结构示意图，可以理解，图2仅仅示出了语义分割模型的训练装置的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的语义分割模型的训练装置包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。语义分割模型的训练装置20中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、闪存(Flash Memory)等。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，StaticRandom Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static RandomAccess Memory)。本发明实施例描述的存储器202旨在包括这些和任意其它适合类型的存储器。

本发明实施例中的存储器202能够存储数据以支持终端(如40-1)的操作。这些数据的示例包括：用于在终端(如40-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

作为本发明实施例提供的语义分割模型的训练装置采用软硬件结合实施的示例，本发明实施例所提供的语义分割模型的训练装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的语义分割模型的训练方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的语义分割模型的训练装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application S pecific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logi c Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Devi ce)、现场可编程门阵列(FPGA，Field-ProgrammableGate Array)或其他电子元件执行实现本发明实施例提供的语义分割模型的训练方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持语义分割模型的训练装置20的操作。这些数据的示例包括：用于在语义分割模型的训练装置20上操作的任何可执行指令，如可执行指令，实现本发明实施例的语义分割模型的训练方法的程序可以包含在可执行指令中。

基于上述对本发明实施例的语义分割模型的实施场景、语义分割模型的训练装置及基于语义分割模型的语义分割装置的说明，接下来对本发明实施例的语义分割模型的所应用的场景或领域进行说明，需要说明的是，本发明实施例的语义分割模型并不限于以下所提到的场景或领域：

1、无人驾驶；

无人驾驶车上设置有图像采集装置及处理芯片，图像采集装置能够采集无人驾驶车在行驶过程中前方的图像，处理芯片基于训练得到的语义分割模型识别图像中判别前方是否有人，以及人所处前方的位置等信息，从而识别出可通行区域，确定行驶路径，以避免在行驶过程中碰到障碍物等。

2、医疗领域；

医疗设备上设置有图像采集装置及处理芯片，图像采集装置能够采集用户的图像，处理芯片基于训练得到的语义分割模型对图像中的各种器官进行分割，并基于分割的器官进行对应独立器官三维的虚拟现实技术(VR，Virtual Realit y)显示，以进行手术导航。

3、监控领域；

监控系统包括前端的图像采集设备及后端的图像处理设备，图像采集设备采集包含用户的图像后发送给图像处理设备，图像处理设备基于训练得到的语义分割模型对图像中的人类进行分割，从而识别图像中的人类，并基于识别结果进行目标跟踪、姿态分析预警等。

接下来将结合前述的实现本发明实施例通过的语义分割模型的训练装置的示例性应用和实施，说明实现本发明实施例提供的语义分割模型的训练方法。

参见图3，图3为本发明实施例提供的语义分割模型的训练方法的流程示意图，在一些实施例中，该训练方法可由服务器或终端实施，或由服务器及终端协同实施，以服务器实施为例，如通过图1中的服务器200实施，结合图3，本发明实施例提供的语义分割模型的训练方法包括：

步骤301：通过多个图像增强模型，分别对样本图像进行图像增强，得到相应的多个增强图像。

在实际实施时，在通过多个图像增强模型，分别对样本图像进行图像增强之前，可以对多个图像增强模型及多个语义分割模型进行预训练，在一些实施例中，服务器可通过如下方式对多个图像增强模型及多个语义分割模型进行预训练：

通过多个图像增强模型，分别对样本图像进行图像增强，得到相应的多个第一图像；通过多个语义分割模型，分别对多个第一图像进行语义分割，得到相应的多个第二图像；基于多个第二图像及多个语义分割模型的损失函数，更新多个图像增强模型以及多个语义分割模型的模型参数。

在实际实施时，服务器首先利用多个图像增强模型对样本图像进行图像增强，得到多个增强图像(即第一图像)；然后将得到的多个增强图像输入对应的多个语义分割模型中，分别对多个增强图像进行语义分割，得到相应的多个分割图像(即第二图像)。这里，多个图像增强模型之间的结构是相同的，且多个语义分割模型之间的结构也是相同的，图像增强模型及语义分割模型的数量可根据不同的需求而具体设定，一般来说，数量越多越好，但数量越多对服务器性能的要求就越高。最后服务器利用得到的分割图像构建语义分割模型的损失函数，并基于得到的分割图像及损失函数对图像增强模型及语义分割模型的模型参数进行更新，得到训练好的图像增强模型及语义分割模型。

这里，在进行语义分割模型的训练之前，需要构建用于模型训练的样本图像集，样本图像集包含原始图像及对原始图像进行标注的参考图像，样本图像集是影响训练出的语义分割模型性能的重要因素，在语义分割领域中，比较经典的样本图像集如PASCAL视觉物体分类数据集、PASCAL上下文数据集、微软常见物体环境数据集及CamVid数据集等。在实际应用中，可选择一个足够代表应用场景的标准数据集进行相关模型的训练。

在开始训练时，为了便于语义分割模型对样本图像进行分割，需先对样本图像进行图像增强处理，所谓图像增强是指有目的地强调图像的整体或局部特性，将原来不清晰的图像变得清晰或强调某些感兴趣的特征，扩大图像中不同物体特征之间的差别，抑制不感兴趣的特征，使之改善图像质量、丰富信息量，加强图像判读和识别效果，满足某些特殊分析的需要。

在一些实施例中，服务器可通过如下方式更新图像增强模型及语义分割模型的模型参数：

确定第二图像与参考图像的差异；基于所述差异，确定语义分割模型的损失函数的值；当损失函数的值达到第一阈值时，基于语义分割模型的损失函数确定相应的第一误差信号；将第一误差信号在语义分割模型及增强模型中反向传播，在传播的过程中，更新语义分割模型的各个层的模型参数，以及增强模型的各个层的模型参数。

示例性地，服务器先对样本图像集中的原始图像依次进行上述图像增强模型及语义分割模型的处理，得到了语义分割图像(即第二图像)，再计算该语义分割图像与样本图像集中对该原始图像进行标注的参考图像之间的差异，构造语义分割模型的损失函数，比如，在实际应用中，所构造的语义分割损失函数可用均方误差来计算。即基于语义分割图像与参考图像计算语义分割模型的损失函数的值，并判断语义分割损失函数的值是否超出预设阈值，当语义分割损失函数的值超出预设阈值时，基于语义分割损失函数确定语义分割模型的误差信号，将误差信号在语义分割模型及图像增强模型中反向传播，并在传播的过程中更新各个层的模型参数。

这里，对反向传播进行说明，将训练样本数据输入到神经网络模型的输入层，经过隐藏层，最后达到输出层并输出结果，这是神经网络模型的前向传播过程，由于神经网络模型的输出结果与实际结果有误差，则计算输出结果与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层，在反向传播的过程中，根据误差调整模型参数的值；不断迭代上述过程，直至收敛。

参见图4，图4为本发明实施例提供的语义分割模型的第一阶段训练示意图，经过上述方式，完成了第一阶段的训练，得到多个训练好的图像增强模型及语义分割模型。服务器通过已训练好的多个图像增强模型及语义分割模型对样本图像进行处理后，得到多个语义分割图像，并将得到的多个语义分割图像进行融合，得到第一阶段的第二融合图像供后续第二阶段语义分割模型的训练。

步骤302：对多个增强图像进行图像融合，得到第一融合图像。

在实际实施时，服务器利用图4中已训练好的多个图像增强模型对样本图像进行增强处理，得到多个图像增强图像。为了将同一场景的多幅增强图像的互补信息合并为一幅新图像，以便更好地对场景中的图像进行语义分割，服务器可通过如下方式对所述多个增强图像进行图像融合，得到第一融合图像：

对多个增强图像进行像素级融合，得到第一融合图像。

这里，像素级图像融合方法可包括：加权平均图像融合方法、HIS空间图像融合方法、主成分分析图像融合方法、伪彩色图像融合方法及基于小波变换的图像融合方法，在一些实施例中，服务器可通过但不限于上述像素级融合方法对多个增强图像进行融合处理。

步骤303：通过多个语义分割模型，分别对第一融合图像进行语义分割，得到相应的多个语义分割图像；语义分割模型与图像增强模型呈一一对应关系。

在实际实施时，将步骤302得到的第一融合图像作为各个语义分割模型的输入，服务器利用第一阶段训练好的多个语义分割模型(图4中的语义分割模型)，分别对步骤302得到的第一融合图像进行语义分割处理，得到多个语义分割图像。参见图5，图5为本发明实施例提供的语义分割模型的第二阶段训练示意图，分别对样本图像经过多个语义分割模型处理后，得到相应的多个语义分割图像。

步骤304：基于多个语义分割图像及语义分割模型的损失函数，更新多个语义分割模型的模型参数。

在一些实施例中，服务器可通过如下方式更新多个语义分割模型的模型参数：

对多个第二图像进行图像融合，得到第二融合图像；基于语义分割图像与第二融合图像的差异、语义分割图像与参考图像的差异，确定语义分割模型的损失函数的值；当损失函数的值达到第二阈值时，基于语义分割模型的损失函数确定相应的第二误差信号；将第二误差信号在语义分割模型中反向传播，并在传播的过程中更新语义分割模型的各个层的模型参数。

示例性地，参见图5，服务器获取第一阶段得到的第二融合图像，基于输出的每个语义分割图像与第二融合图像的差异，确定对应的每个语义分割模型的第一损失函数Loss_D1，并基于输出的每个语义分割图像与参考图像的差异，确定对应的每个语义分割模型的第二损失函数Loss_S1，该两个损失函数均可用均方误差来计算，那么对于每一个语义分割模型，其最终损失函数Loss_t1由以上两个损失函数加权构成，可定义为：

Loss_t1＝a*Loss_S1+b*Loss_D1 (1)

其中，a和b是权重系数，满足a+b＝1，a和b的值可依经验值设定，比如a＝0.85，b＝0.15。

基于公式(1)可确定每个语义分割模型的损失函数的值，当损失函数的值达到预设阈值时，基于每个语义分割模型的损失函数确定相应的误差信号，将该误差信号在相应的语义分割模型中反向传播，并在传播的过程中更新相应的语义分割模型的各个层的模型参数。

通过上述方式完成了第二阶段的训练，在此语义分割模型的第二阶段的训练过程中，语义分割模型的损失函数的构造采用了第一训练阶段得到的第二融合图像作为约束，使得语义分割模型的输出准确度更高。

服务器通过第二阶段已训练好的多个语义分割模型对样本图像进行处理后，得到多个语义分割图像，并将得到的多个语义分割图像进行融合，得到第二阶段的第三融合图像供后续第三阶段语义分割模型的训练。

步骤305：通过目标语义分割模型，对第一融合图像进行语义分割，得到目标图像；目标语义分割模型为更新所述模型参数后的多个语义分割模型中之一。

在实际实施时，将步骤304得到的第一融合图像作为目标语义分割模型的输入，其中，目标语义分割模型为步骤304更新所述模型参数后的多个语义分割模型中之一。

这里，服务器根据需要从第二阶段训练好的多个语义分割模型(即图5中的语义分割模型)中选择其中一个语义分割模型作为目标语义分割模型，对步骤302得到的第一融合图像进行语义分割处理，得到目标图像。参见图6，图6为本发明实施例提供的语义分割模型的第三阶段训练示意图，样本图像经过目标语义分割模型处理后，得到目标图像。

步骤306：基于多个语义分割图像、目标图像及目标语义分割模型的损失函数，更新目标语义分割模型的模型参数。

在一些实施例中，服务器可通过如下方式更新目标语义分割模型的模型参数：

对多个语义分割图像进行融合处理，得到第三融合图像；基于目标图像与第三融合图像的差异、目标图像与参考图像的差异，确定目标语义分割模型的损失函数的值；当所损失函数的值达到第三阈值时，基于目标语义分割模型的损失函数确定相应的第三误差信号；将第三误差信号在目标语义分割模型中反向传播，并在传播的过程中更新目标语义分割模型的各个层的模型参数。

示例性地，参见图6，服务器获取第二阶段得到的第三融合图像，基于输出的目标图像与第三融合图像的差异，确定目标语义分割模型的第一损失函数Loss_D2，并基于输出的目标图像与参考图像的差异，确定目标语义分割模型的第二损失函数Loss_S2，该两个损失函数均可用均方误差来计算，那么对于目标语义分割模型而言，其最终损失函数Loss_t2由以上两个损失函数加权构成，可定义为：

Loss_t2＝a*Loss_S2+b*Loss_D2 (2)

基于公式(2)可确定目标语义分割模型的损失函数的值，当损失函数的值达到预设阈值时，基于目标语义分割模型的损失函数确定相应的误差信号，将该误差信号在目标语义分割模型中反向传播，并在传播的过程中更新目标语义分割模型的各个层的模型参数。

通过上述方式完成了第三阶段的训练，在此目标语义分割模型的第三阶段的训练过程中，目标语义分割模型的损失函数的构造采用了第二训练阶段得到的第三融合图像作为约束，使得目标语义分割模型的输出准确度更高。

基于上述说明，经过三个阶段完成了目标语义分割模型的训练，该训练过程融合了多种复杂模型中提取到的语义知识，通过该目标语义分割模型进行图像的语义分割能够提高语义分割的精度与质量。

继续对本发明实施例提供的语义分割模型的训练方法进行说明，参见图7，图7为本发明实施例提供的语义分割模型的训练方法的流程示意图，该方法可由服务器实施，结合图7，本发明实施例提供的语义分割模型的训练方法包括：

步骤701：服务器通过多个图像增强模型，分别对样本图像进行图像增强，得到相应的多个增强图像。

这里，在进行语义分割模型的训练之前，为了便于语义分割模型对样本图像进行分割，服务器需先通过多个增强模型对样本图像进行图像增强处理。其中，样本图像集中包括原始图像及对该原始图像进行标注的参考图像。

步骤702：通过多个语义分割模型，分别对多个增强图像进行语义分割，得到相应的多个第一语义分割图像；所述语义分割模型与所述图像增强模型呈一一对应关系。

在实际实施时，服务器将步骤701得到的多个增强图像通过多个语义分割模型进行语义分割处理，得到相应的多个语义分割图像。

步骤703：通过第一语义分割图像与参考图像构造语义分割模型的损失函数，并基于该损失函数更新图像增强模型的模型参数及语义分割模型的参数。

在实际应用中，服务器基于步骤702得到的第一语义分割图像与样本图像集中相应的参考图像之间的差异，构造语义分割模型的损失函数，比如，损失函数可用第一语义分割图像与对应的参考图像之间的均方误差来表示。服务器可基于第一语义分割图像与样本图像集中相应的参考图像之间的差异确定语义分割模型的损失函数的值，并判断该损失函数的值是否超出预设阈值，当该损失函数的值超出预设阈值时，基于该损失函数确定语义分割模型的误差信号，将该误差信号在增强模型及语义分割模型中反向传播，并在传播的过程中更新各个层的模型参数。

步骤704：对多个增强图像进行图像融合，得到第一融合图像，并对多个第一语义分割图像进行图像融合，得到第二融合图像。

这里，通过以上步骤完成了第一阶段的训练过程，通过第一阶段的训练，得到第一阶段训练好的多个图像增强模型和多个语义分割模型，样本图像经训练好的增强模型处理之后，得到多个增强图像，并对该多个增强图像进行融合处理，得到第一融合图像，该第一融合图像将作为后续两个训练阶段的输入。

语义分割模型与图像增强模型存在一一对应的关系，将得到的多个增强图像分别输入多个第一阶段训练好的语义分割模型进行语义分割处理，得到多个语义分割图像，对该多个语义分割图像进行像素级融合处理，比如，通过平均图像融合方法对多个语义分割图像进行融合处理，得到一个融合图像，该融合图像可用于后续第二阶段对语义分割模型的训练。

步骤705：通过多个语义分割模型，分别对第一融合图像进行语义分割，得到相应的多个第二语义分割图像。

这里，在实际实施时，服务器将步骤704得到的第一融合图像作为第二训练阶段的输入，即服务器利用第一阶段训练好的多个语义分割模型，分别对步骤704得到的第一融合图像进行语义分割处理，得到多个语义分割图像。

步骤706：对多个第二语义分割图像进行图像融合，得到第三融合图像。

这里，服务器对步骤705得到的多个语义分割图像进行图像融合处理，得到相应的融合图像。

步骤707：基于第二语义分割图像与第二融合图像之间的差异、第二语义分割图像与参考图像之间的差异，构造语义分割模型的损失函数，并获取该损失函数的值。

在实际实施时，服务器基于步骤705得到的多个第二语义分割图像与步骤704得到的第二融合图像的差异，分别确定对应的语义分割模型的第一损失函数Loss_D1，并基于多个第二语义分割图像与参考图像的差异，分别确定对应的语义分割模型的第二损失函数Loss_S1，该两个损失函数均可用均方误差来计算。服务器基于Loss_D1与Loss_S1的加权构造对应语义分割模型的最终损失函数，具体公式表达可参考本发明提供的一些实施例中的公式(1)。基于该语义分割模型的损失函数可获取该损失函数的值。

步骤708：判断损失函数的值是否大于预设阈值。

这里，服务器判断损失函数的值是否超出预设阈值，当损失函数的值超出预设阈值时，则执行步骤709，更新语义分割模型的模型参数；当损失函数的值未超出预设阈值时，则不用更新语义分割模型的模型参数，进入步骤710执行第三阶段的训练。

步骤709：更新多个语义分割模型的模型参数。

这里，当损失函数的值超出预设阈值时，服务器基于该损失函数确定语义分割模型的误差信号，将该误差信号在语义分割模型中反向传播，并在传播的过程中更新各个层的模型参数。

步骤710：通过目标语义分割模型，对第一融合图像进行语义分割，得到目标图像；所述目标语义分割模型为更新模型参数后的多个语义分割模型中之一。

这里，在实际实施时，服务器将步骤704得到的第一融合图像作为第三训练阶段的输入，服务器从第二阶段训练好的多个语义分割模型中选择一个语义分割模型作为目标语义分割模型，对步骤704得到的第一融合图像进行语义分割处理，得到目标图像。

步骤711：基于目标图像与第三融合图像之间的差异、目标图像与目标图像之间的差异、构造目标语义分割模型的损失函数，并获取该损失函数的值。

在实际实施时，服务器基于步骤710得到的目标图像与步骤706得到的第三融合图像的差异确定目标语义分割模型的第一损失函数Loss_D2，并基于目标图像与参考图像的差异，确定目标语义分割模型的第二损失函数Loss_S2，该两个损失函数均可用均方误差来计算。服务器基于Loss_D2与Loss_S2加权构造目标语义分割模型的最终损失函数，具体公式表达可参考本发明提供的一些实施例中的公式(2)。基于该目标语义分割模型的损失函数可获取该损失函数的值。

步骤712：判断损失函数的值是否大于预设阈值。

这里，服务器判断损失函数的值是否超出预设阈值，当损失函数的值超出预设阈值时，则执行步骤713，更新目标语义分割模型的模型参数；当损失函数的值未超出预设阈值时，则不用更新目标语义分割模型的模型参数，结束流程。

步骤713：更新目标语义分割模型的模型参数。

这里，当损失函数的值超出预设阈值时，服务器基于该损失函数确定目标语义分割模型的误差信号，将该误差信号在目标语义分割模型中反向传播，并在传播的过程中更新各个层的模型参数。

接下来基于上述实施例训练得到的多个图像增强模型及目标语义分割模型，对本发明实施例提供的语义分割方法进行说明。参见图8，图8为本发明实施例提供的语义分割方法的流程示意图，在一些实施例中，该方法可由服务器或终端实施，或由终端及服务器协同实施，结合图8，本发明实施例提供的语义分割方法由服务器实施，包括：

服务器先通过多个图像增强模型，分别对源图像进行图像增强，得到相应的多个增强源图像；然后对多个增强源图像进行图像融合，得到融合图像；最后通过目标语义分割模型，对融合图像进行语义分割，得到对应源图像的目标图像；其中，目标语义分割模型基于本发明实施例提供的语义分割模型的训练方法训练得到。

继续对本发明实施例提供的语义分割模型及其训练方法进行说明。在实际实施时，本发明实施例提供的语义分割模型的训练方法是一种针对语义分割任务的模型融合教导单模型方法，具体地，本发明实施例提供的语义分割模型的训练方法主要通过生成多阶段的粗标注数据(即融合图像)并将其与原有精标注数据(即参考图像)混合训练来将复杂模型中的语义信息融入到简单模型中。

本发明实施例提供的语义分割模型的训练方法包括三个训练阶段：

1、第一阶段；

将样本图像输入多个单图像增强单语义分割模型进行训练，将结果融合来产生第一阶段的融合图像，参见图4，利用精标注数据target(即样本图像)训练多个结构相同但是参数不同的单图像增强单语义分割模型，将经过这些模型的处理结果融合作为粗标注数据target_s1(即第一阶段的融合图像，如图4中的第二融合图像)。

2、第二阶段；

利用第一阶段训练得到的粗标注数据(即第二融合图像)和精标注数据(即样本图像)训练多个语义分割模型，将经过这些训练好的多个语义分割模型处理结果融合作为粗标注数据target_s2(即第二阶段的融合图像，如图5中的第三融合图像)。

在第二阶段训练时，将第一阶段经图像增强模型得到的集合结果作为各个语义分割模型的输入，通过输出的语义分割图像与target_s1的差异，构造对应的每个语义分割模型的第一损失函数Loss_D1，通过输出的语义分割图像与精标注数据之间的差异，构造对应的每个语义分割模型的第二损失函数Loss_S1，该两个损失函数均可用均方误差来计算，那么对于每个语义分割模型，其最终损失函数Loss_t1由以上两个损失函数加权构成，可定义为：

Loss_t1＝0.85*Loss_S1+0.15*Loss_D1 (3)

基于上述损失函数可确定语义分割模型的损失函数的值，当损失函数的值达到预设阈值时，基于语义分割模型的损失函数确定相应的误差信号，将该误差信号在语义分割模型中反向传播，并在传播的过程中更新语义分割模型的各个层的模型参数，以完成第二阶段语义分割模型的训练。

从上可知，语义分割模型的损失函数的构造采用了第一训练阶段得到的语义分割图像target_s1作为约束，使得语义分割模型的输出准确度更高。

通过第二阶段已训练好的多个语义分割模型对样本图像进行处理后，得到多个语义分割图像，并将得到的多个语义分割图像进行融合，得到第二阶段的语义分割融合图像target_s2供后续第三阶段语义分割模型的训练。

3、第三阶段；

在最终的单语义分割模型中利用第二阶段的粗标注数据target_s2(即第三融合图像)和精标注数据(即样本图像)来得到最终分割结果，参见图6中的目标图像。

在第三阶段训练时，将第一阶段经图像增强模型得到的集合结果作为目标语义分割模型的输入，通过输出的目标图像与target_s2的差异，确定目标语义分割模型的第一损失函数Loss_D2，并基于输出的目标图像与参考图像的差异，确定目标语义分割模型的第二损失函数Loss_S2，该两个损失函数均可用均方误差来计算，那么对于目标语义分割模型而言，其最终损失函数Loss_t2由以上两个损失函数加权构成，可定义为：

Loss_t2＝0.85*Loss_S2+0.15*Loss_D2 (4)

基于上述损失函数可确定目标语义分割模型的损失函数的值，当损失函数的值达到预设阈值时，基于目标语义分割模型的损失函数确定相应的误差信号，将该误差信号在目标语义分割模型中反向传播，并在传播的过程中更新目标语义分割模型的各个层的模型参数，以完成第三阶段目标语义分割模型的训练。

基于上述说明，经过三个阶段完成了目标语义分割模型的训练，该训练过程融合了多种复杂模型中提取到的语义知识，较相关技术的单阶段只与自身结构进行教导训练的方法，通过本发明实施例提供的目标语义分割模型进行图像的语义分割能够提高语义分割的精度与质量。

本发明提供的语义分割模型能够提高现有方法的语义分割能力，得到更加精确的图像语义分割结果，将图像场景中的人像，车辆及其它各类物体有效区分，提高对场景的理解能力，可应用于无人驾驶，自拍美颜，照片风格转换，机器人导航，无人机等诸多方面，具有潜在的经济效益。

接下来对训练得到的语义分割模型的应用场景进行说明。在一些实施例中，参见图9，图9为本发明实施例提供的语义分割模型的应用场景示意图，前端A(即终端A)获取到待分割图像，然后上传给后台服务器(后端)，后端利用训练得到的图像增强模型及目标语义分割模型对待分割图像进行语义分割，得到分割结果(即语义分割图像)，然后将分割结果输出到前端B；其中，前端A与前端B可以相同或不同。

接下来对本发明实施例还提供的语义分割模型的训练装置进行说明，在一些实施例中，语义分割模型的训练装置可采用软件模块的方式实现，图10为本发明实施例提供的语义分割模型的训练装置的组成结构示意图，参见图10，本发明实施例提供的语义分割模型的训练装置10包括：

增强单元101，用于通过多个图像增强模型，分别对样本图像进行图像增强，得到相应的多个增强图像；

融合单元102，用于对所述多个增强图像进行图像融合，得到第一融合图像；

第一分割单元103，用于通过多个语义分割模型，分别对所述第一融合图像进行语义分割，得到相应的多个语义分割图像；所述语义分割模型与所述图像增强模型呈一一对应关系；

第一更新单元104，用于基于所述多个语义分割图像及所述语义分割模型的损失函数，更新所述多个语义分割模型的模型参数；

第二分割单元105，用于通过目标语义分割模型，对所述第一融合图像进行语义分割，得到目标图像；所述目标语义分割模型为更新所述模型参数后的多个语义分割模型中之一；

第二更新单元106，用于基于所述多个语义分割图像、所述目标图像及所述目标语义分割模型的损失函数，更新所述目标语义分割模型的模型参数。

本发明实施例还提供一种语义分割装置，该语义分割装置包括：

这里需要指出的是：以上涉及装置的描述，与上述方法描述是类似的，同方法的有益效果描述，不做赘述，对于本发明实施例所述装置中未披露的技术细节，请参照本发明方法实施例的描述。

存储器，用于存储可执行指令；

本发明实施例还提供一种语义分割装置，所述装置包括：

存储器，用于存储可执行指令；

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EE PROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种语义分割模型的训练方法，其特征在于，所述方法包括：

对所述多个增强图像进行图像融合，得到第一融合图像；

2.如权利要求1所述的方法，其特征在于，所述通过多个图像增强模型，分别对样本图像进行图像增强之前，所述方法还包括：

3.如权利要求2所述的方法，其特征在于，所述基于所述多个第二图像及所述多个语义分割模型的损失函数，更新所述多个图像增强模型以及所述多个语义分割模型的模型参数，包括：

确定所述第二图像与参考图像的差异；

基于所述差异，确定所述语义分割模型的损失函数的值；

4.如权利要求2所述的方法，其特征在于，所述基于所述多个语义分割图像及所述语义分割模型的损失函数，更新所述多个语义分割模型的模型参数，包括：

对所述多个第二图像进行图像融合，得到第二融合图像；

5.如权利要求1所述的方法，其特征在于，所述对所述多个增强图像进行图像融合，得到第一融合图像，包括：

对所述多个增强图像进行像素级融合，得到第一融合图像。

6.如权利要求1所述的方法，其特征在于，所述基于所述多个语义分割图像、所述目标图像及所述目标语义分割模型的损失函数，更新所述目标语义分割模型的模型参数，包括：

7.一种语义分割模型的训练装置，其特征在于，所述装置包括：

8.一种语义分割方法，其特征在于，所述方法包括：

对所述多个增强源图像进行图像融合，得到融合图像；

通过目标语义分割模型，对所述融合图像进行语义分割，得到对应所述源图像的目标图像；

其中，所述目标语义分割模型基于如权利要求1至6任一项所述的方法训练得到。

9.一种语义分割装置，其特征在于，所述装置包括：

10.一种语义分割模型的训练装置，其特征在于，所述装置包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至6中任一项所述的语义分割模型的训练方法。