CN109948707A

CN109948707A - 模型训练方法、装置、终端及存储介质

Info

Publication number: CN109948707A
Application number: CN201910215411.5A
Authority: CN
Inventors: 揭泽群
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2019-06-28
Anticipated expiration: 2039-03-20
Also published as: CN109948707B

Abstract

本发明实施例公开了一种模型训练方法、装置、终端及介质，其中方法包括：获取目标模型的训练图像和测试图像；调用目标模型对训练图像进行语义分割处理得到训练图像的多个层级特征，并对训练图像的多个层级特征进行逆向多尺度融合处理，得到训练图像的多尺度特征；调用目标模型对测试图像进行语义分割处理得到测试图像的多个层级特征，并对测试图像的多个层级特征进行逆向多尺度融合处理，得到测试图像的多尺度特征；根据训练图像的多尺度特征和测试图像的多尺度特征更新目标模型。本发明实施例可以更好地对目标模型进行更新训练，优化目标模型的语义分割性能，从而提高目标模型对图像进行语义分割预测的精度。

Description

模型训练方法、装置、终端及存储介质

技术领域

本发明涉及互联网技术领域，具体涉及图像处理技术领域，尤其涉及一种模型训练方法、一种模型训练装置、一种终端及一种计算机存储介质。

背景技术

图像处理，是一种采用计算机对图像进行分析以达到所需结果的技术。随着科技的发展，图像语义分割成为了图像处理技术领域中的研究热点；所谓的图像语义分割是指：调用模型对图像进行语义识别，并根据识别结果对图像中各物体对象的类别进行分割预测。发明人在实践中发现：如何通过模型训练得到性能完善的模型对后续图像语义分割的分割预测精度尤其重要。而现有的模型训练方法中，如果训练图像和测试图像来自不同的图像分布领域，通常采用约束模型的方式，例如依靠一个对抗性损失函数来约束模型，强制使模型无法分辨学习到的图像特征来自于训练图像还是测试图像，达到使学习到的图像特征对图像分布领域不敏感的目的；现有这样的模型训练手段较为强制化，会给模型训练过程带来诸如梯度弥散(gradient vanish)、训练有效性低等问题，并且会使得训练后的模型的语义分割性能较差，导致后续对图像进行图像语义分割处理时，其语义分割精度较低。

发明内容

本发明实施例提供了一种模型训练方法、装置、终端及计算机存储介质，可以更好地对目标模型进行训练，优化目标模型的语义分割性能，从而提高目标模型对图像进行语义分割预测的精度。

一方面，本发明实施例提供了一种模型训练方法，所述模型训练方法包括：

获取目标模型的训练图像和测试图像；其中，所述训练图像的分布参数与所述测试图像的分布参数之间的差值大于预设阈值；

调用所述目标模型对所述训练图像进行语义分割处理得到所述训练图像的多个层级特征，并对所述训练图像的多个层级特征进行逆向多尺度融合处理，得到所述训练图像的多尺度特征；

调用所述目标模型对所述测试图像进行语义分割处理得到所述测试图像的多个层级特征，并对所述测试图像的多个层级特征进行逆向多尺度融合处理，得到所述测试图像的多尺度特征；

根据所述训练图像的多尺度特征和所述测试图像的多尺度特征更新所述目标模型。

另一方面，本发明实施例提供了一种模型训练装置，所述模型训练装置包括：

获取单元，用于获取目标模型的训练图像和测试图像；其中，所述训练图像的分布参数与所述测试图像的分布参数之间的差值大于预设阈值；

处理单元，用于调用所述目标模型对所述训练图像进行语义分割处理得到所述训练图像的多个层级特征，并对所述训练图像的多个层级特征进行逆向多尺度融合处理，得到所述训练图像的多尺度特征；

所述处理单元，用于调用所述目标模型对所述测试图像进行语义分割处理得到所述测试图像的多个层级特征，并对所述测试图像的多个层级特征进行逆向多尺度融合处理，得到所述测试图像的多尺度特征；

更新单元，用于根据所述训练图像的多尺度特征和所述测试图像的多尺度特征更新所述目标模型。

再一方面，本发明实施例提供了一种终端，所述终端包括输入设备和输出设备，所述终端还包括：

处理器，适于实现一条或一条以上指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或一条以上指令，所述一条或一条以上指令适于由所述处理器加载并执行如下步骤：

再一方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或一条以上指令，所述一条或一条以上指令适于由处理器加载并执行如下步骤：

本发明实施例在面对训练图像的分布参数与测试图像的分布参数之间的差值大于预设阈值(即训练图像和测试图像来自不同的图像分布领域)时，可调用目标模型依次对训练图像进行语义分割处理和逆向多尺度融合处理得到训练图像的多尺度特征，以及调用目标模型依次对测试图像进行语义分割处理和逆向多尺度融合处理得到测试图像的多尺度特征；通过逆向多尺度融合处理可使得语义分割处理所得到的多个层级特征能够有效地对齐，从而使得融合处理后的多尺度特征更具鲁棒性和泛化性。根据训练图像的多尺度特征和测试图像的多尺度特征更新目标模型，可以使得目标模型可以学习到训练图像和测试图像之间的更一致的特征，这样可提升模型训练的有效性，有利于优化目标模型的语义分割性能，进而提高目标模型对图像进行语义分割预测的精度。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种图像语义分割的示意图；

图2是本发明实施例提供的一种目标模型的结构示意图；

图3是本发明实施例提供的一种模型训练方案的流程示意图；

图4是本发明实施例提供的一种模型训练方法的流程示意图；

图5是本发明实施例提供的一种训练图像和测试图像的示意图；

图6是本发明另一实施例提供的一种模型训练方法的流程示意图；

图7是本发明实施例提供的一种逆向多尺度融合处理的示意图；

图8是本发明实施例提供的一种已更新的目标模型的应用场景图；

图9是本发明实施例提供的一种模型训练装置的结构示意图；

图10是本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

图像语义分割是指：调用模型对图像进行语义识别，并根据识别结果对图像中各物体对象的类别进行分割预测。在调用模型对目标图像进行图像语义分割时，模型可以对目标图像中的各个像素进行语义识别，根据语义识别结果对该目标图像中的各个像素进行类别预测，将预测出的同一类别的像素作为同一个物体对象；并采用不同的颜色对不同的物体对象进行标注以实现对该目标图像中各物体对象的分割，从而得到该目标图像的分割预测结果，该分割预测结果可包括目标图像的多尺度特征。例如，模型在对图1中上侧所示的目标图像进行图像语义分割时，可以根据对目标图像中的各个像素的类别预测结果确定出人、树、公路以及公路边界线等多个物体对象；并采用不同的颜色对这多个物体对象进行标注，例如采用颜色1标注目标图像中的人、采用颜色2标注目标图像中的树、采用颜色3标注目标图像中的公路、采用颜色4标注目标图像中的公路边界线，以及采用颜色5标注目标图像中除上述物体对象以外的背景部分，从而可得到图1中下侧所示的分割预测结果。

模型的语义分割性能是影响语义分割精度的一个重要因素，而模型的语义分割性能通常与模型结构相关。基于此，本发明实施例提供一种如图2所示的目标模型；该目标模型可包括语义分割网络11和特征融合网络12。其中，语义分割网络11包括按照第一顺序排列的多个分割网络层(图2中以4个分割网络层为例进行说明)，此处的第一顺序可以包括：自底向上的顺序或者由浅至深的顺序；参见图2，第一顺序可表示为f1-f2-f3-f4的顺序。特征融合网络12包括按照第二顺序排列的多个融合网络层(图2中以4个融合网络层为例进行说明)，此处的第二顺序可以包括：自顶向下的顺序或者由深至浅的顺序；参见图2，第二顺序可表示为f4-f3-f2-f1的顺序。由此可见，第一顺序与第二顺序相逆。在目标模型中，任一个分割网络层与一个融合网络层相连接；每一个分割网络层均可对图像进行语义特征学习得到层级特征，并将得到的层级特征传输至相连接的融合网络层进行后续的特征处理。可选的，目标模型还可包括判别网络13，该判别网络13的输入与特征融合网络12的输出相连接。需要说明的是，图2只是示意性地表征目标模型的结构，并不对本发明实施例所提出的目标模型的结构进行限定；例如，目标模型的网络层数并不局限于图2所示的4层，也可以是10层、15层等等；再如，目标模型中的分割网络层和融合网络层并不局限于一对一的连接关系，也可以是多对一的连接关系，即可以是多个分割网络层与同一个融合网络层相连接等等。

针对上述的目标模型，本发明实施例还提供一种模型训练方案以更好地对该目标模型进行训练更新，优化目标模型的语义分割性能，从而提高图像的语义分割精度。该模型训练方案可应用于训练图像和测试图像属于不同的图像分布领域的应用场景中，例如无人驾驶车辆的图像分割解析场景、图像处理中的抠图场景，等等；其中，训练图像是指用于进行模型训练的图像，测试图像是指用于模型测试的图像。若训练图像的分布参数与测试图像的分布参数之间的差值大于预设阈值，则表明训练图像和测试图像属于不同的图像分布领域；此处的预设阈值可根据实际需求或者经验值设置，分布参数可以包括但不限于：色彩参数、纹理参数、光照参数、图像风格参数、分辨率参数，等等。

采用模型训练方案对目标模型进行训练更新时，可利用已标注的训练图像集和未标注的测试图像集对目标模型进行训练更新，测试图像集和训练图像集属于不同的图像分布领域；其具体过程可参见图3所示：①分别对训练图像集中的各训练图像和测试图像集中的各测试图像进行图像处理，得到各训练图像的多尺度特征以及各测试图像的多尺度特征；此处的图像处理可包括语义分割处理和逆向多尺度融合处理。②根据各训练图像的多尺度特征以及各测试图像的多尺度特征进行特征对齐处理，使得目标模型所学习到的两个图像分布领域的特征彼此靠近；此处的特征对齐处理是指：根据训练图像的多尺度特征和测试图像的多尺度特征更新目标模型的处理。可选的，还可结合各训练图像的标注标签进行特征对齐处理。迭代上述步骤①-②，可得到性能完善的已更新的目标模型；后续还可调用该已更新的目标模型对测试图像集中的任一测试图像进行图像处理，得到该任一测试图像的多尺度特征。

本发明实施例所提出的模型训练方案可以更好地对目标模型进行更新训练，优化目标模型的语义分割性能，从而提高图像的语义分割精度；采用任意获取到的训练图像均可进行模型训练，无需特意收集与测试图像属于同一图像分布领域的图像作为训练图像，可在一定程度上降低训练图像的采集难度。并且，基于本发明实施例所提出的目标模型的模型结构，可以在将梯度反向传播训练目标模型的权重参数时，使得梯度可以顺利反向传播到目标模型的每一层网络中，避免梯度弥散问题，并可使得目标模型在训练过程中可以更好地学习到不同图像分布领域之间更一致的特征，提高目标模型的语义分割精度。

基于上述的描述，本发明实施例提出一种模型训练方法，该模型训练方法可以由终端执行；此处的终端可包括但不限于：智能终端、平板电脑、膝上计算机、台式电脑，等等。请参见图4，该模型训练方法可包括以下步骤S401-S404：

S401，获取目标模型的训练图像和测试图像。

由前述可知，训练图像是指用于进行模型训练的图像，测试图像是指用于模型测试的图像；训练图像的分布参数与测试图像的分布参数之间的差值大于预设阈值。那么在获取目标模型的训练图像和测试图像时，可以将目标模型在实际应用场景中所涉及的图像作为测试图像；然后根据测试图像的分布参数，选取分布参数与测试图像的分布参数之间的差值大于预设阈值的图像作为训练图像；这样可使得在测试环境未知或者难以获取大量测试环境下的图像作为训练图像的场景下，可在一定程度上降低训练图像的采集难度。

例如：目标模型的实际应用场景是对B城市的场景图像进行语义分割处理，那么测试图像即为B城市的场景图像；而由于A城市与B城市之间的建筑物分布、天气以及城市风格等均存在较大差异，导致了A、B两个城市的场景图像的分布参数的差值大于预设阈值，因此可将A城市的场景图像作为训练图像。又如，目标模型的实际应用场景是对室外图像进行语义分割处理，那么测试图像即为室外图像；而由于室内图像的光照参数和室外图像的光照参数之间的差值大于预设阈值，因此可将室内图像作为训练图像。再如，目标模型的实际应用场景是对亚洲人脸图像进行语义分割处理，那么测试图像即为亚洲人脸图像；而由于欧美人和亚洲人在肤色、脸型等各方面均存在差异，导致了欧美人脸图像和亚洲人脸图像之间的分布参数的差值大于预设阈值，因此可将欧美人脸图像作为训练图像，等等。

需要说明的是，测试图像是在目标模型的实际应用场景中，采用摄像组件拍摄得到的图像。而训练图像可以是采用摄像组件拍摄得到的图像，也可以是采用计算机技术进行图像合成所得到的图像；即只要满足分布参数与测试图像的分布参数之间的差值大于预设阈值的任一图像均可作为训练图像。例如图5所示的两幅图像：右侧图像为测试图像，该测试图像是采用摄像组件对真实的室外环境进行拍摄得到的室外街景图；左侧图像是通过游戏引擎自动渲染所得到的合成图像。通过对比图5中的两幅图像可知，两幅图像中的公路、建筑物等同一类别的物体对象在色彩、纹理、光照等各方面均存在明显风格差异，即左侧图像的分布参数与右侧图像的分布参数之间的差值大于预设阈值；因此即使左侧图像为合成图像，也可将该左侧图像作为训练图像。

S402，调用目标模型对训练图像进行语义分割处理得到训练图像的多个层级特征，并对训练图像的多个层级特征进行逆向多尺度融合处理，得到训练图像的多尺度特征。

S403，调用目标模型对测试图像进行语义分割处理得到测试图像的多个层级特征，并对测试图像的多个层级特征进行逆向多尺度融合处理，得到测试图像的多尺度特征。

在步骤S402-S403中，目标模型包括语义分割网络和特征融合网络；其中，语义分割网络可用于对训练图像进行语义分割处理得到训练图像的多个层级特征，以及对测试图像进行语义分割处理得到测试图像的多个层级特征；特征融合网络可用于对训练图像的多个层级特征进行逆向多尺度融合处理得到训练图像的多尺度特征，以及对测试图像的多个层级特征进行逆向多尺度融合处理得到测试图像的多尺度特征。

其中，语义分割网络包括按照第一顺序排列的多个分割网络层；相应的，语义分割处理可包括：按照第一顺序调用语义分割网络的各个分割网络层对图像进行语义特征学习，得到各个分割网络层对应的层级特征；此处的图像可以是测试图像，也可以是训练图像。特征融合网络包括按照第二顺序排列的多个融合网络层；并且，语义分割网络中的任一个分割网络层与一个融合网络层相连接，每一个分割网络层均可将对应的层级特征传输至相连接的融合网络层；相应的，逆向多尺度融合处理可包括：按照第二顺序调用特征融合网络的各个融合网络层接收相连接的分割网络层传输的层级特征；调用特征融合网络的各个融合网络层对接收到的层级特征进行基于特征提取的预处理，得到预处理后的层级特征；对各个融合网络层中的预处理后的层级特征进行特征融合。

S404，根据训练图像的多尺度特征和测试图像的多尺度特征更新目标模型。

在具体实施过程中，可以调用目标模型中的判别网络并根据训练图像的多尺度特征和测试图像的多尺度特征对目标模型进行更新处理，此处的更新处理是指：更新目标模型中的各模型参数的处理。其中，目标模型的模型参数可包括但不限于：梯度参数、权重参数等等。

请参见图6，是本发明实施例提供的另一种模型训练方法的流程示意图。该模型训练方法可以由终端执行；此处的终端可包括但不限于：智能终端、平板电脑、膝上计算机、台式电脑，等等。请参见图6，该模型训练方法可包括以下步骤S601-S606：

S601，获取目标模型的训练图像和测试图像；其中，训练图像的分布参数与测试图像的分布参数之间的差值大于预设阈值。

S602，调用目标模型对训练图像进行语义分割处理得到训练图像的多个层级特征，并对训练图像的多个层级特征进行逆向多尺度融合处理，得到训练图像的多尺度特征。

S603，调用目标模型对测试图像进行语义分割处理得到测试图像的多个层级特征，并对测试图像的多个层级特征进行逆向多尺度融合处理，得到测试图像的多尺度特征。

在步骤S602-S603中，语义分割处理可包括：按照第一顺序调用语义分割网络的各个分割网络层对图像进行语义特征学习，得到各个分割网络层对应的层级特征。此处的图像可以是测试图像，也可以是训练图像；每一个分割网络层均可将对应的层级特征传输至相连接的融合网络层。相应的，逆向多尺度融合处理可包括以下步骤s11-s13：

s11，按照第二顺序调用特征融合网络的各个融合网络层接收相连接的分割网络层传输的层级特征。

s12，调用特征融合网络的各个融合网络层对接收到的层级特征进行基于特征提取的预处理，得到预处理后的层级特征。

具体实施过程中：首先，可在特征融合网络中任意选取第一融合网络层，并确定第一融合网络层接收到的第一层级特征。其次，可按照第二顺序选取位于第一融合网络层之前且与第一融合网络相邻的第二融合网络层，并确定第二融合网络层接收到的第二层级特征。以图2所示的模型结构为例，第二顺序为f4-f3-f2-f1，可设选取融合网络层f3作为第一融合网络层，融合网络层f3接收到的层级特征F3作为第一层级特征；按照第二顺序可知，融合网络层f4位于融合网络层f3之前且与融合网络层f3相邻，因此可将融合网络层f4作为第二融合网络层，融合网络层f4接收到的层级特征F4作为第二层级特征。

在确定第一融合网络层和第二融合网络层后，可在第一融合网络层中对第一层级特征进行卷积计算，并在第二融合网络层中对第二层级特征进行卷积计算。通过卷积计算，可以减少第一层级特征和第二层级特征中的冗余特征信息，提高模型训练效率。其中，冗余特征信息是指目标模型在机器学习中不会学习的特征信息，对第一层级特征或者第二层级特征进行卷积计算所采用的卷积核的大小可根据经验值或实际业务需求设置，例如可设置为1×1。然后，可以根据卷积后的第一层级特征和卷积后的第二层级特征进行融合处理，得到第一融合网络层中的预处理后的层级特征。

其中，根据卷积后的第一层级特征和卷积后的第二层级特征进行融合处理，得到第一融合网络层中的预处理后的层级特征的具体实施方式可以为：首先，对卷积后的第二层级特征进行上采样处理，得到上采样后的第二层级特征；上采样处理可包括但不限于：双线性插值上采样处理、双三次差值上采样处理、最近邻差值上采样处理，等等。通过上采样处理，可使得上采样后的第二层级特征的分辨率与卷积后的第一层级特征的分辨率相同，以便于后续更有效地进行特征融合，提高融合效率。然后，可以将卷积后的第一层级特征和上采样后的第二层级特征进行特征融合，得到第一中间特征。由于上采样处理可能导致融合得到的第一中间特征产生混叠效应(Aliasing Effect)，导致第一中间特征的部分特征信息较为模糊；因此，在得到第一中间特征之后，还可在第一融合网络层中对第一中间特征进行卷积计算，得到第一融合网络层中的预处理后的层级特征，以消除该混叠效应。需说明的是，对第一中间特征进行卷积计算所采用的卷积核的大小也可根据经验值或实际业务需求设置，例如设置为3×3。

应理解的是，根据卷积后的第一层级特征和卷积后的第二层级特征进行融合处理，得到第一融合网络层中的预处理后的层级特征的具体实施方式并不局限于上述一种实现，还可包括其他实现方式。例如：直接将卷积后的第一层级特征和卷积后的第二层级特征进行融合处理，将融合后的层级特征作为第一融合网络层中的预处理后的层级特征。或者，对卷积后的第二层级特征进行上采样处理，得到上采样后的第二层级特征；将卷积后的第一层级特征和上采样后的第二层级特征进行特征融合，得到第一中间特征；直接将第一中间特征作为第一融合网络层中的预处理后的层级特征，等等。

还应理解的是，针对特征融合网络中最顶层的融合网络层，步骤s12的具体实施方式可以为：在最顶层的融合网络层中对接收到的第三层级特征进行至少一次卷积计算，得到最顶层的融合网络层中的预处理后的第三层级特征。每次卷积计算所采用卷积核的大小可以相同，也可以不同。例如，可在最顶层的融合网络层中，采用1×1的卷积核对接收到的第三层级特征卷积计算，得到卷积后的第三层级特征；然后再采用3×3的卷积核对卷积后的第三层级特征进行卷积计算，得到最顶层的融合网络层中的预处理后的层级特征。

s13，对各个融合网络层中的预处理后的层级特征进行特征融合。

在得到各个融合网络层中的预处理后的层级特征之后，即可对各个融合网络层中的预处理后的层级特征进行特征融合，从而可得到多尺度特征。具体的，可连接各个融合网络层中的预处理后的层级特征，从而得到多尺度特征。

为便于理解，下面结合图7对上述步骤s11-s13的具体过程进行阐述：以第一融合网络层为融合网络层f3且第一层级特征为F₃，第二融合网络层为最顶层的融合网络层f4且第二层级特征为F₄为例：可采用1×1的卷积核对F₄进行卷积计算，可得到卷积后的第二层级特征同理，采用1×1的卷积核对F₃进行卷积计算，可得到卷积后的第一层级特征然后，经过双线性插值上采样处理后可与的分辨率相同，两者相加进行融合可得到第一中间特征采用3×3的卷积核对进行卷积计算，可得到第一融合网络层中的预处理后的层级特征采用上述方式，对每一个融合网络层中的层级特征进行处理，可得到多个预处理后的层级特征其中i＝1,2,…,n，n的取值为特征融合网络的网络层数。将各个层级特征连接起来，即可得到融合的多尺度特征。

S604，获取训练图像的标注标签，并调用判别网络对训练图像的多尺度特征和标注标签进行判别，得到第一判别结果。

具体实施过程中，可对训练图像进行尺度特征的标注，从而获得训练图像的标注标签，该训练图像的标注标签可包括预先对训练图像进行标注后的多尺度特征。在获取到训练图像的标注标签之后，可调用判别网络对训练图像的多尺度特征和标注标签进行判别，得到第一判别结果，第一判别结果中可包括训练图像的多尺度特征中的各个像素位置的类别预测概率。通过使用标注标签对对训练图像的多尺度特征进行监督，可使得判别网络在对训练图像的多尺度特征和标注标签进行判别的过程中，更好地学习训练图像的多尺度特征和标注标签之间的差异，得到较为准确的第一判别结果，以便于后续实现对目标模型较为精确的更新训练。

S605，调用判别网络对训练图像的多尺度特征和测试图像的多尺度特征进行判别，得到第二判别结果。

具体实施过程中，可同时将训练图像的多尺度特征和测试图像的多尺度特征输入至判别网络进行判别，也可分别将训练图像的多尺度特征和测试图像的多尺度输入至判别网络进行判别，本发明实施例对此不作限定。第二判别结果中可包括训练图像的多尺度特征中的每个像素位置的特征来自于测试图像的置信度概率。

S606，根据第一判别结果及第二判别结果更新目标模型；其具体实施方式可包括以下步骤s21-s23：

s21，获取目标模型的第一损失函数，并根据第一判别结果和第二判别结果确定第一损失函数的值。

目标模型的第一损失函数包括：分割损失函数和交叉熵损失函数；其中，分割损失函数可如式1.1所示，交叉熵损失函数可如式1.2所示：

L_c＝-∑_i，j(1-d)log(1-D(p_i，j)) 式1.1

在上述式1.1中，d表示多尺度特征所属图像的类型；若多尺度特征所属图像的类型为测试图像，那么d＝1；若多尺度特征所属图像的类型为训练图像，那么d＝0。D(p_i,j)为训练图像的多尺度特征中的每个像素位置的特征来自于测试图像的置信度概率，即第二判别结果。在上述式1.2中，N为训练图像中的物体对象的总类别数，c表示预测类别，k表示真实类别(即已标注的类别)；I(x)为标志函数，当且仅当x为真时，I(x)值为1；其中，当c＝k时，x为真；为目标模型对训练图像的多尺度特征中的第i行，第j列位置像素在预测类别c上的类别预测概率，即第一判别结果。

相应的，在根据第一判别结果和第二判别结果确定第一损失函数的值时，可以先根据第一判别结果确定分割损失函数的值，并根据第二判别结果确定交叉熵损失函数的值；然后求取分割损失函数的值和交叉熵损失函数的值的和作为第一损失函数的值。

s22，获取目标模型的第二损失函数，并根据第二判别结果确定第二损失函数的值。第二损失函数可如式1.3所示：

L_D＝-∑_i，j[dlogD(p_i，j)+(1-d)log(1-D(p_i，j))] 式1.3

s23，根据第一损失函数的值和第二损失函数的值更新目标模型。

具体的，可按照减小第一损失函数的值的原则，更新目标模型；或者，按照减小第二损失函数的值的原则，更新目标模型。由此可见，本发明实施例采用了损失函数交替使用的原则，交替使用第一损失函数和第二损失函数对目标模型进行更新训练，这样可使得判别网络对于测试图像和训练图像的区分能力，以及目标模型对不同图像分布领域所学习到的特征的难以区分度不断增强；从而可使得目标模型对属于不同图像分布领域的训练图像和测试图像所学习到的特征可以足够接近，进而提高目标模型对测试图像的语义分割精度。

迭代上述步骤S601-S606可训练更新得到一个性能完善的已更新的目标模型。初步实验表明，发明人采用ResNet101(一种残差网络)作为基础构建目标模型，将SYNTHIA数据集(一种计算机合成的城市道路驾驶环境的像素级标注的数据集)中的图像作为训练图像及将Cityscapes数据集(一种记录了50个不同城市街道场景的数据集)中的图像作为测试图像；采用本发明实施例所提出的模型训练方法对该目标模型进行训练更新后，可使得目标模型的语义分割精度达到97.6％；而采用现有技术对目标模型进行训练更新后，目标模型的语义分割精度只能达到88.9％。由此可见，本发明实施例可以更好地对目标模型进行更新训练，优化目标模型的语义分割性能，从而提高图像的语义分割精度。

可选的，在得到已更新的目标模型之后，后续可根据实际业务需求在不同的应用场景中调用该已更新的目标模型进行一系列的图像处理，例如无人驾驶场景、在线抠图场景、人脸表情识别场景，等等。具体的，可获取待处理的目标图像，该目标图像的分布参数与测试图像的分布参数之间的差值小于预设阈值，即目标图像和测试图像属于同一图像分布领域。然后调用已更新的目标模型对目标图像进行语义分割处理，得到目标图像的多个层级特征，并对目标图像的多个层级特征进行逆向多尺度融合处理，得到目标图像的多尺度特征。最后，可根据目标图像的多尺度特征进行业务处理。此处的业务处理可包括但不限于：驾驶控制处理、在线抠图处理、表情识别处理等等。

以将已更新的目标模型应用在无人驾驶场景并进行驾驶控制处理为例，参见图8所示：无人驾驶的目标车辆在道路行驶过程中，可以调用摄像组件采集道路环境信息，并根据采集到的道路环境信息生成待处理的目标图像，然后将该目标图像发送至内设有该已更新的目标模型的终端。其中，终端可固设于目标车辆上，也可独立于目标车辆部署。终端在接收到目标图像之后，可调用已更新的目标模型对目标图像进行语义分割处理及逆向多尺度融合处理，得到目标图像的多尺度特征；由图8所示的目标图像的多尺度特征可知，已更新的目标模型可准确地分割出目标图像中的桥梁、道路、前方车辆等多个物体对象，并采用不同的颜色对不同的物体对象进行标注。终端可根据目标图像的多尺度特征生成驾驶控制指令，该驾驶控制指令可包括以下至少一种指令：避障指令、停车指令、速度调整指令、驾驶方向变换指令，等等。例如，终端对目标图像的多尺度特征进行分析可知，距离目标车辆正前方不远处有正在行驶的车辆，那么为了避免出现交通事故，终端可生成减小当前驾驶速度的速度调整指令，并将该速度调整指令发送至目标车辆，以控制目标车辆减速行驶。

基于上述模型训练方法实施例的描述，本发明实施例还公开了一种模型训练装置，所述模型训练装置可以是运行于终端中的一个计算机程序(包括程序代码)。该模型训练装置可以执行图4或图6所示的方法。请参见图9，所述模型训练装置可以运行如下单元：

获取单元101，用于获取目标模型的训练图像和测试图像；其中，所述训练图像的分布参数与所述测试图像的分布参数之间的差值大于预设阈值；

处理单元102，用于调用所述目标模型对所述训练图像进行语义分割处理得到所述训练图像的多个层级特征，并对所述训练图像的多个层级特征进行逆向多尺度融合处理，得到所述训练图像的多尺度特征；

所述处理单元102，用于调用所述目标模型对所述测试图像进行语义分割处理得到所述测试图像的多个层级特征，并对所述测试图像的多个层级特征进行逆向多尺度融合处理，得到所述测试图像的多尺度特征；

更新单元103，用于根据所述训练图像的多尺度特征和所述测试图像的多尺度特征更新所述目标模型。

在一种实施方式中，所述目标模型包括语义分割网络和所述特征融合网络；

所述语义分割网络包括按照第一顺序排列的多个分割网络层；所述特征融合网络包括按照第二顺序排列的多个融合网络层，所述第一顺序与所述第二顺序相逆；任一个分割网络层与一个融合网络层相连接。

再一种实施方式中，所述语义分割处理包括：按照所述第一顺序调用所述语义分割网络的各个分割网络层对图像进行语义特征学习，得到所述各个分割网络层对应的层级特征。

再一种实施方式中，所述逆向多尺度融合处理包括：

按照所述第二顺序调用所述特征融合网络的各个融合网络层接收相连接的分割网络层传输的层级特征；

调用所述特征融合网络的各个融合网络层对接收到的层级特征进行基于特征提取的预处理，得到预处理后的层级特征；

对所述各个融合网络层中的预处理后的层级特征进行特征融合。

再一种实施方式中，处理单元102在用于调用所述特征融合网络的各个融合网络层对接收到的层级特征进行基于特征提取的预处理，得到预处理后的层级特征时，可具体用于：

在所述特征融合网络中任意选取第一融合网络层，并确定所述第一融合网络层接收到的第一层级特征；

按照第二顺序选取位于所述第一融合网络层之前且与所述第一融合网络相邻的第二融合网络层，并确定所述第二融合网络层接收到的第二层级特征；

在所述第一融合网络层中对所述第一层级特征进行卷积计算，并在所述第二融合网络层中对所述第二层级特征进行卷积计算；

根据卷积后的第一层级特征和卷积后的第二层级特征进行融合处理，得到所述第一融合网络层中的预处理后的层级特征。

再一种实施方式中，处理单元102在用于根据卷积后的第一层级特征和卷积后的第二层级特征进行融合处理，得到所述第一融合网络层中的预处理后的层级特征时，可具体用于：

对卷积后的第二层级特征进行上采样处理，得到上采样后的第二层级特征，所述上采样后的第二层级特征的分辨率与所述卷积后的第一层级特征的分辨率相同；

将卷积后的第一层级特征和所述上采样后的第二层级特征进行特征融合，得到第一中间特征；

在所述第一融合网络层中对所述第一中间特征进行卷积计算，得到所述第一融合网络层中的预处理后的层级特征。

再一种实施方式中，所述目标模型还包括判别网络；相应的，更新单元103在用于根据所述训练图像的多尺度特征和所述测试图像的多尺度特征更新所述目标模型时，可具体用于：

获取所述训练图像的标注标签，并调用所述判别网络对所述训练图像的多尺度特征和所述标注标签进行判别，得到第一判别结果；

调用所述判别网络对所述训练图像的多尺度特征和所述测试图像的多尺度特征进行判别，得到第二判别结果；

根据所述第一判别结果及所述第二判别结果更新所述目标模型。

再一种实施方式中，更新单元103在用于根据所述第一判别结果及所述第二判别结果更新所述目标模型时，可具体用于：

获取所述目标模型的第一损失函数，并根据所述第一判别结果和所述第二判别结果确定所述第一损失函数的值；

获取所述目标模型的第二损失函数，并根据所述第二判别结果确定所述第二损失函数的值；

根据所述第一损失函数的值和所述第二损失函数的值更新所述目标模型。

再一种实施方式中，更新单元103在根据所述第一损失函数的值和所述第二损失函数的值更新所述目标模型时，可具体用于：

按照减小所述第一损失函数的值的原则，更新所述目标模型；或者，

按照减小所述第二损失函数的值的原则，更新所述目标模型。

再一种实施方式中，处理单元102还可用于：

获取待处理的目标图像，所述目标图像的分布参数与所述测试图像的分布参数之间的差值小于所述预设阈值；

调用已更新的目标模型对所述目标图像进行语义分割处理，得到所述目标图像的多个层级特征，并对所述目标图像的多个层级特征进行逆向多尺度融合处理，得到所述目标图像的多尺度特征；

根据所述目标图像的多尺度特征进行业务处理。

根据本发明的一个实施例，图4或图6所示的方法所涉及的各个步骤均可以是由图9所示的模型训练装置中的各个单元来执行的。例如，图4中所示的步骤S401可由图9中所示的获取单元101来执行，步骤S402-S403可由图9中所示的处理单元102来执行，步骤S404可由图9中所示的更新单元103来执行；又如，图6中所示的步骤S601可由图9中所示的获取单元101来执行，步骤S602-S603可由图9中所示的处理单元102来执行，步骤S604-S606可由图9中所示的更新单元103来执行。

根据本发明的另一个实施例，图9所示的模型训练装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，基于模型训练装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本发明的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图4或图6中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图9中所示的模型训练装置设备，以及来实现本发明实施例的模型训练方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

基于上述方法实施例以及装置实施例的描述，本发明实施例还提供一种终端。请参见图10，该终端至少包括处理器201、输入设备202、输出设备203以及计算机存储介质204。所述输入设备202中还可包括摄像组件，摄像组件可用于采集测试图像和/或目标图像，所述摄像组件可以是终端出厂时配置在终端上的组件，也可以是与终端相连接的外部组件。可选的，该终端还可与其他设备相连接，以接收其他设备发送的目标图像和/或测试图像。

计算机存储介质204可以存储在终端的存储器中，所述计算机存储介质204用于存储计算机程序，所述计算机程序包括程序指令，所述处理器201用于执行所述计算机存储介质204存储的程序指令。处理器201(或称CPU(Central Processing Unit，中央处理器))是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；在一个实施例中，本发明实施例所述的处理器201可以用于对目标模型进行一系列的模型训练处理，包括：获取目标模型的训练图像和测试图像；其中，所述训练图像的分布参数与所述测试图像的分布参数之间的差值大于预设阈值；调用所述目标模型对所述训练图像进行语义分割处理得到所述训练图像的多个层级特征，并对所述训练图像的多个层级特征进行逆向多尺度融合处理，得到所述训练图像的多尺度特征；调用所述目标模型对所述测试图像进行语义分割处理得到所述测试图像的多个层级特征，并对所述测试图像的多个层级特征进行逆向多尺度融合处理，得到所述测试图像的多尺度特征；根据所述训练图像的多尺度特征和所述测试图像的多尺度特征更新所述目标模型，等等。

本发明实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是终端中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端中的内置存储介质，当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器201加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，可由处理器201加载并执行计算机存储介质中存放的一条或一条以上指令，以实现上述有关模型训练实施例中的方法的相应步骤；具体实现中，计算机存储介质中的一条或一条以上指令由处理器201加载并执行如下步骤：

再一种实施方式中，所述逆向多尺度融合处理包括：

再一种实施方式中，在调用所述特征融合网络的各个融合网络层对接收到的层级特征进行基于特征提取的预处理，得到预处理后的层级特征时，所述一条或一条以上指令由处理器201加载并具体执行：

再一种实施方式中，在根据卷积后的第一层级特征和卷积后的第二层级特征进行融合处理，得到所述第一融合网络层中的预处理后的层级特征时，所述一条或一条以上指令由处理器201加载并具体执行：

再一种实施方式中，所述目标模型还包括判别网络；相应的，在根据所述训练图像的多尺度特征和所述测试图像的多尺度特征更新所述目标模型时，所述一条或一条以上指令由处理器201加载并具体执行：

再一种实施方式中，在根据所述第一判别结果及所述第二判别结果更新所述目标模型时，所述一条或一条以上指令由处理器201加载并具体执行：

再一种实施方式中，在根据所述第一损失函数的值和所述第二损失函数的值更新所述目标模型时，所述一条或一条以上指令由处理器201加载并具体执行：

再一种实施方式中，所述一条或一条以上指令还可由处理器201加载并具体执行：

根据所述目标图像的多尺度特征进行业务处理。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种模型训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述目标模型包括语义分割网络和所述特征融合网络；

3.如权利要求2所述的方法，其特征在于，所述语义分割处理包括：

按照所述第一顺序调用所述语义分割网络的各个分割网络层对图像进行语义特征学习，得到所述各个分割网络层对应的层级特征。

4.如权利要求2所述的方法，其特征在于，所述逆向多尺度融合处理包括：

5.如权利要求4所述的方法，其特征在于，所述调用所述特征融合网络的各个融合网络层对接收到的层级特征进行基于特征提取的预处理，得到预处理后的层级特征，包括：

6.如权利要求5所述的方法，其特征在于，所述根据卷积后的第一层级特征和卷积后的第二层级特征进行融合处理，得到所述第一融合网络层中的预处理后的层级特征，包括：

7.如权利要求2-6任一项所述的方法，其特征在于，所述目标模型还包括判别网络；所述根据所述训练图像的多尺度特征和所述测试图像的多尺度特征更新所述目标模型，包括：

8.如权利要求7所述的方法，其特征在于，所述根据所述第一判别结果及所述第二判别结果更新所述目标模型，包括：

9.如权利要求8所述的方法，其特征在于，所述根据所述第一损失函数的值和所述第二损失函数的值更新所述目标模型，包括：

10.如权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述目标图像的多尺度特征进行业务处理。

11.一种模型训练装置，其特征在于，包括：

12.一种终端，包括输入设备和输出设备，其特征在于，还包括：

处理器，适于实现一条或一条以上指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或一条以上指令，所述一条或一条以上指令适于由所述处理器加载并执行如权利要求1-10任一项所述的模型训练方法。

13.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或一条以上指令，所述一条或一条以上指令适于由处理器加载并执行如权利要求1-10任一项所述的模型训练方法。