CN114549829A

CN114549829A - 模型训练方法、服务提供方法、装置、设备和存储介质

Info

Publication number: CN114549829A
Application number: CN202011312413.5A
Authority: CN
Inventors: 黄明杨; 马菲莹
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2022-05-27

Abstract

本发明实施例提供一种模型训练方法、服务提供方法、装置、设备和存储介质，该方法包括：将图像样本输入语义分割模型，以由语义分割模型输出预测结果。接着，将模型输出的预测结果和人工对图像样本的标注结果分别与图像样本融合。最终，在根据语义分割模型输出的预测结果调整模型参数的同时，还根据从融合图像中提取出的图像特征调整模型参数，实现模型训练。由于从融合图像中提取出来的图像特征包含图像样本的语义信息，同时，语义分割模型输出的预测结果又可以认为是对图像样本进行像素级分类后得到的分类结果，因此，上述方法实际上就是从图像样本的语义层面以及像素层面共进行模型优化的过程，从而保证模型的训练效果。

Description

模型训练方法、服务提供方法、装置、设备和存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种模型训练方法、服务提供方法、装置、设备和存储介质。

背景技术

计算机视觉是使计算机具有人类视觉功能的技术，该技术的最终目标是使计算机能够实现图像理解。语义分割则是计算机视觉中的一项基本任务，通过语义分割可以区分出图像中不同类型的物体。

现有技术中，语义分割通常是利用基于神经网络的语义分割模型实现的，并且语义分割结果的准确性会直接影响到图像语义理解的准确性。因此，如何保证语义分割模型的性能就成为一个亟待解决的问题。

发明内容

有鉴于此，本发明实施例提供一种模型训练方法、服务提供方法、装置、设备和存储介质，用以保证语义分割模型的性能。

第一方面，本发明实施例提供一种模型训练方法，包括：

将图像样本输入语义分割模型，以由所述语义分割模型输出预测结果；

将所述预测结果和所述图像样本对应的标注结果分别与所述图像样本融合，以得到融合图像；

根据所述融合图像的图像特征和所述预测结果，调整所述语义分割模型的模型参数。

第二方面，本发明实施例提供一种模型训练装置，包括：

输入模块，用于将图像样本输入语义分割模型，以由所述语义分割模型输出预测结果；

融合模块，用于将所述预测结果和所述图像样本对应的标注结果分别与所述图像样本融合，以得到融合图像；

调整模块，用于根据所述融合图像的图像特征和所述预测结果，调整所述语义分割模型的模型参数。

第三方面，本发明实施例提供一种电子设备，包括处理器和存储器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第一方面中的模型训练方法。该电子设备还可以包括通信接口，用于与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第一方面所述的模型训练方法。

第五方面，本发明实施例提供一种服务提供方法，包括：

接收调用训练服务的请求，根据所述训练服务对应的处理资源执行如下步骤：

响应于用户的输入操作，将所述请求中包括的图像样本输入语义分割模型，以由所述语义分割模型输出预测结果；

根据所述融合图像的图像特征和所述预测结果，调整所述语义分割模型的模型参数；

输出调整后的模型参数。

第六方面，本发明实施例提供一种服务提供装置，包括：

接收模块，用于接收调用训练服务的请求；

执行模块，用于根据所述训练服务对应的处理资源执行如下步骤：

输出调整后的模型参数。

第七方面，本发明实施例提供一种电子设备，包括处理器和存储器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第五方面中的服务提供方法。该电子设备还可以包括通信接口，用于与其他设备或通信网络通信。

第八方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第五方面所述的服务提供方法。

本发明实施例提供的模型训练方法，获取图像样本并将其输入语义分割模型中，以由语义分割模型输出针对此图像样本的预测结果。获取的图像样本还会进行人工标注，以得到标注结果。接着，将模型输出的预测结果与图像样本融合，同时将人工标注结果与图像样本融合，以分别得到融合图像。最终，根据语义分割模型输出的预测结果调整模型参数，同时还根据从融合图像中提取出的图像特征调整模型参数，从而实现模型训练。

上述方法中，从融合图像中提取出来的图像特征包含图像样本的语义信息，同时，语义分割模型输出的预测结果又可以认为是对图像样本进行像素级分类后得到的分类结果，因此，上述方法中根据图像特征和预测结果共同调整模型参数的过程，就可以认为是从图像样本的语义层面以及像素层面共进行模型优化的过程，使得训练出的语义分割模型对图像具有整体感知能力，保证模型的训练效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种模型训练方法的流程图；

图2为图1所示实施例提供的模型训练方法对应的处理过程的示意图；

图3为图像样本及其对应的标注结果、预测结果的示意图；

图4为第一融合图像和第二融合图像的示意图；

图5为本发明实施例提供的一种服务提供方法的流程图；

图6为本发明实施例提供模型训练方法、服务提供方法应用在图像处理场景下的示意图；

图7为本发明实施例提供的一种模型训练装置的结构示意图；

图8为与图7所示实施例提供的模型训练装置对应的电子设备的结构示意图；

图9为本发明实施例提供的一种服务提供装置的结构示意图；

图10为与图9所示实施例提供的服务提供装置对应的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于识别”。类似地，取决于语境，短语“如果确定”或“如果识别(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当识别(陈述的条件或事件)时”或“响应于识别(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

在对本发明实施例提供的模型训练方法进行说明。而在此之前，还需要先对该语义分割模型的使用意义进行示例性说明：

正如背景技术中说明的，对图像进行语义分割是计算机视觉中的一项基本任务。语义分割的应用场景多种多样，比如在视频会议场景中，出于保护隐私的角度，可以通过语义分割识别视频中的人像与背景，并对背景进行虚化或替换处理。在视频直播场景中，可以通过语义分割识别直播间中的背景和人像，并进一步更换直播间背景。比如主播在介绍景点时，可以将直播间的背景更换为该景点的图片，以为观看者提供更好的观看体验。在图像或视频处理场景中，可以通过语义分割识别出图像或视频中的人像和背景，并对用户拍得的照片或视频进行背景替换，比如通过更换背景能够使用户实现原地“环游世界”。

在上述不同的场景中，要想实现背景替换就需要对图像进行二分类，即区分出图像中的背景区域和非背景区域(即人像所在的区域)。这种区分通常可以使用语义分割模型来实现。对于语义分割模型的训练过程，则可以使用本发明提供的模型训练方法来实现。

在上述场景中，语义分割模型能够用于对图像中的物体进行二分类，比如区分出人像和非人像。而在其他场景下，比如自动驾驶、地质检测等等，语义分割模型也能够实现多分类，并进一步根据多分类结果实现相应功能。进一步扩大适用范围，本发明不限定语义分割模型的应用场景，只要具有语义分割需求的场景都可以使用本发明提供的模型训练方法来实现训练。

基于上述描述，下面结合附图对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

图1为本发明实施例提供的一种模型训练方法的流程图，本发明实施例提供的该模型训练方法可以由训练设备来执行。可以理解的是，该训练设备可以实现为软件、或者软件和硬件的组合。本实施例以及下述各实施例中的训练设备具体来说可以是服务器。如图1所示，该方法包括如下步骤：

S101，将图像样本输入语义分割模型，以由语义分割模型输出预测结果。

获取图像样本，并将其输入待训练的语义分割模型，以由语义分割模型输出预测结果。预测结果实际上是对图像样本进行像素级分类后得到的分类结果。根据分类结果语义分割模型可以将图像样本中不同类型的像素点分别设置为不同的像素值。

当语义分割模型对图像样本中的像素点进行二分类，从而区分出图像样本中的目标对象和非目标对象时，语义分割模型输出的预测结果可以表现为一张与图像样本尺寸相同的图像。在预测结果中目标对象对应的像素点的像素值被设置为A，将非目标对象对应的像素点被设置为B。其中，图像样本中的前景物体可以认为是目标对象，后景物体可以认为是非目标对象。

承接上述的视频会议场景、视频直播场景，图像样本可以为视频中的图像帧，目标对象可以为人像，图像中的其他物体都可以认为是非目标对象。承接上述的图像或视频处理场景，图像样本可以为视频中的图像帧，或者静态图像，目标对象则可以是图像中的人像、景物、或其他任意物体。

S102，将预测结果和图像样本对应的标注结果分别与图像样本融合，以得到融合图像。

进一步的，还可以将语义分割模型输出的预测结果、人工的标注结果分别与图像样本进行融合。即将预测结果和图像样本融合，得到第一融合图像，将标注结果和图像样本融合，得到第二融合图像。经过融合，图像样本中目标对象的语义信息以及图像样本中目标对象对应的分类结果可以同时包含在融合图像中。

其中，对于标注结果的获取，可选地，用户可以对获取到的图像样本进行人工标注，也即是对图像样本中的各像素点进行人工分类。与预测结果相同的，标注结果也可以表现为一张与图像样本尺寸相同的图像。在标注结果中目标对象对应像素点的像素值被标注为A，将非目标对象对应像素点被标注为B。

S103，根据融合图像的图像特征和预测结果，调整语义分割模型的模型参数。

最后，可以将第一融合图像和第二融合图像输入预设模型，以由预设模型分别对两张融合图像进行特征提取。其中，预设模型可以是基于卷积神经网络的模型，比如VGG模型、GoogLeNet模型、ResNets模型等等。为了后续描述清晰，可以将从第一融合图像中提取出的图像特征称为第一图像特征，将从第二融合图像中提取出的图像特征为第二图像特征。

一方面，可以根据预测结果与标注结果之间的差值确定出第一损失值。另一方面，还可以根据第一图像特征和第二图像特征之间的相似度，确定出第二损失值。可选地，图像特征之间的相似度可以表示为二者之间的距离，比如欧式距离，余弦距离等等。

基于上述两个损失值，可选地，可以直接根据两个损失值之和调整语义分割模型的模型参数，从而保证模型的训练效果。可选地，还可以为两个损失值设置不同的权重值，并根据损失值和权重值调整模型参数，完成语义分割模型的训练。并且为了增加模型的整体感知能力，通常第二损失值对于的权重值大于第一损失值对应的权重值。

上述的训练过程可以结合图2理解。

并且需要说明的有，第一损失值的大小反映的是语义分割模型对每个像素点的分类结果的准确性。因此，使用第一损失值调整模型参数实际上是考虑到单独像素点的分类结果的准确性对模型训练的影响。另外，由于融合图像中包含目标对象的语义信息，则提取出的第一图像特征和第二图像特征同样也包含目标对象的语义信息。因此，使用第二损失值调整模型参数实际上是考虑到目标对象的语义对模型训练的影响。

本实施例中，将图像样本输入语义分割模型，以由语义分割模型输出预测结果。接着，将模型输出的预测结果和人工对图像样本的标注结果分别与图像样本融合。最终，根据语义分割模型输出的预测结果，以及从融合图像中提取出的图像特征调整模型参数，从而实现模型训练。由于从融合图像中提取出来的图像特征包含图像样本的语义信息，同时，语义分割模型输出的预测结果又可以认为是对图像样本进行像素级分类后得到的分类结果，因此，上述方法中根据图像特征和预测结果共同调整模型参数的过程，就可以认为是从图像样本的语义层面以及像素层面共进行模型优化的过程，使得训练出的语义分割模型对图像具有整体感知能力，保证模型的训练效果。

容易理解的，标注结果是相对准确的，标注结果与预测结果之间的差值，即第一损失值的大小反映了语义分割模型的训练效果。另外，若预测结果与标注结果相同，则第一融合图像、第二融合图像是相同的，从中提取出的第一图像特征和第二图像特征也是相同。因此，第一图像特征和第二特征之间的相似度也能够反映语义分割模型的训练效果。

对于步骤102中的图像融合过程，一种可选地方式，可以将预测结果和图像样本进行图像运算，以得到第一融合图像。同样的，还可以将标注结果和图像样本进行图像运算，以得到第二融合图像。可选地，图像运算可以包括图像相乘运算或者相除运算。

可选地，实际应用中，无论是标注结果还是语义分割模型输出的预测结果，图像样本中目标对象对应的像素点的像素值都可以设置为A＝255，非目标对象对应的像素点的像素值都可以设置为B＝0，以使目标对象和非目标对象可以明显地区分出来。此时，图像样本、标注结果和预测结果可以如图3所示。但由于语义分割模型预测存在的误差，因此，预测结果和标注结果通常是具有差异的，二者的差异也可以从图3中看出。

当按照图像相乘的方式进行图像融合时，图像样本中的非目标对象的像素点的像素值均会变为0，目标对象的像素点的像素值不为0，从而在融合图像中，目标对象会被突显出来。第一融合图像和第二融合图像可以如图4所示。根据图4可知，融合图像能够清楚地将目标对象在图像样本中的位置显示出来，也能够反映语义分割模型对目标对象的识别效果。

在上述的视频会议、图像处理等场景中，语义分割模型需要准确识别出图像中的目标对象，则图像样本中的目标对象是训练过程中需要重点关注的。在图4所示的融合图像中，由于目标对象的语义信息会被完整保留，非目标对象的语义信息会被忽略，因此，预设模型提取出的图像特征中是包含丰富的目标对象的语义信息的，非目标对象的语义信息也不会对模型训练造成干扰，也即是实现了对目标对象的重点关注，从而保证模型训练的效果。

另外，根据步骤103中的描述可知，用于提取图像特征的预设模型可以是不同结构的卷积神经网络，并且此预设模型中通常包含多个卷积层，多个卷积层能够输出多个尺寸的图像特征。此时，可选地，使用每一对尺寸相同的第一图像特征和第二图像特征都能计算出一个第二损失值，可以根据多个第二损失值调整模型参数。其中，第二损失值的数量与预设模型中卷积层的数量相同。

但考虑到模型训练过程中的计算量，可选地，还可以从多个尺寸的图像特征中选择部分尺寸的图像特征，并根据选中尺寸的图像特征计算第二损失值，从而调整模型参数。由于卷积计算的次数越多，图像特征的尺寸越小，图像特征中包含的语义信息越丰富，因此，可以选择较小尺寸的图像特征进行第二损失值的计算。

上述各实施例提供的模型训练方法可以部署在服务平台上，用以为用户提供模型训练服务。训练设备可以认为是服务平台的载体，正如上述各实施例中提及的，训练设备具体可以服务器。则图5为本发明实施例提供的一种服务提供方法的流程图。本发明实施例提供的该服务提供方法同样可以由训练设备来执行。如图5所示，该方法可以包括如下步骤：

S201，接收调用训练服务的请求。

S202，响应于用户的输入操作，将请求中包括的图像样本输入语义分割模型，以由语义分割模型输出预测结果。

S203，将预测结果和图像样本对应的标注结果分别与图像样本融合，以得到融合图像。

S204，根据融合图像的图像特征和预测结果，调整语义分割模型的模型参数。

S205，输出调整后的模型参数。

用户可以借助不同的设备，比如自身使用的终端设备、平板电脑等，产生训练服务请求，并将此请求发送至服务平台(即服务器)。此请求中可以包含获取到的图像样本。

其中，用户可以是具有训练需求的用户。在上述提及的各场景中，视频直播、视频会议或者图像或视频的处理通常是借助应用程序(Application，简称APP)实现的，因此，用户可以是APP的开发方。

服务平台在接收到训练服务请求后，则可以执行上述步骤201～205，从而实现对语义分割模型的训练。最后，服务平台还可以将模型参数反馈给用户，以使用户得到训练完成的语义分割模型。训练完成的语义分割模型可以部署在APP上，或者与APP具有数据交互的服务器上。

本实施例中各步骤的具体实现过程可以参见图1至图4所示实施例的相关说明。本实施例能够实现的技术效果也可以参考上述各实施例中的描述，在此再不赘述。

为了便于理解，结合如下的应用场景对以上提供的模型训练方法、服务提供方法的具体实现过程进行示例性说明。下面内容可以结合图6进行理解。

在图像处理场景下，图像处理APP的开发方可以通过互联网收集包含人像的图像样本，并借助终端设备，比如手机、平板电脑等触发训练服务请求，以将包含图像样本的训练服务请求发送至服务器。

服务器在接收到图像样本后，可以将其输入至待训练的语义分割模型，以由语义分割模型输出针对图像样本的预测结果。预测结果也即是对图像样本进行像素级分类后得到的分类结果。同时，开发方还可以对收集到的图像样本进行人工标注，也即是将图像样本中的人像部分和非人像部分(即背景部分)标注出来，以得到标注结果。

接着，将预测结果和图像样本进行融合，以得到第一融合图像；将标注结果和图像样本进行融合，以得到第二融合图像。根据图6所示的内容可知，两张融合图像中都能够完整保留人像的语义信息，并滤除非人像部分的语义信息。服务器中预先配置的卷积神经网络模型还可以分别对第一融合图像和第二融合图像进行特征提取，使得提取出的图像特征也使包含人像的语义信息的。

一方面，使用预测结果与标注结果之间的差值调整语义分割模型的模型参数，是考虑到单独像素点的分类结果的准确性对模型训练的影响。另一方面，使用两个图像特征之间的相似度调整模型参数，是考虑到目标对象的语义信息对模型训练的影响。最终，调整后的模型参数可以由服务器反馈给终端设备，以使APP开发方能够得到训练完成的语义分割模型。

在利用上述方法训练完成语义分割模型后，此语义分割模型可以部署在图像处理APP上，或者与APP具有数据交互的服务器上。而APP的使用者可以向APP输入待处理图像，并由语义分割模型将待处理图像中的人像部分和背景部分区分出来。基于语义分割模型的输出结果，还可以进一步对待处理图像中的背景部分进行更换，使APP实现对待处理图像的抠图，即将人像从待处理图像中提取处理，再进行背景更换。

若用户输入的待处理图像与图6所示的图像样本相同，背景都是街景，则举例来说，可以保留待处理图像中的人像，将待处理图像中的街景更换成草原、美术馆等不同背景，从而形成用户位于不同景色中的效果。

以下将详细描述本发明的一个或多个实施例的模型训练装置。本领域技术人员可以理解，这些模型训练装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图7为本发明实施例提供的一种模型训练装置的结构示意图，如图7所示，该装置包括：

输入模块11，用于将图像样本输入语义分割模型，以由所述语义分割模型输出预测结果。

融合模块12，用于将所述预测结果和所述图像样本对应的标注结果分别与所述图像样本融合，以得到融合图像。

调整模块13，用于根据所述融合图像的图像特征和所述预测结果，调整所述语义分割模型的模型参数。

可选地，所述融合模块12具体用于：

对所述预测结果和所述图像样本进行图像运算，以得到第一融合图像；

对所述标注结果和所述图像样本进行图像运算，以得到第二融合图像。

可选地，所述输入模块11，还用于将所述第一融合图像和所述第二融合图像输入预设模型，以由所述预设模型分别对所述第一融合图像和所述第二融合图像进行特征提取。

可选地，所述调整模块13，还用于：

根据所述预测结果与所述标注结果的差值，确定第一损失值；

根据所述第一融合图像和所述第二融合图像各自的图像特征之间的相似度，确定第二损失值；

根据所述第一损失值和所述第二损失值调整所述语义分割模型的模型参数。

可选地，所述调整模块13，还用于：根据所述第一损失值、所述第二损失值以及各自对应的权重值，调整所述模型参数。

其中，所述预设模型包含多个卷积层，所述图像特征包括所述多个卷积层中至少一个卷积层输出的图像特征。

所述语义分割模型用于将所述图像样本中的物体划分为目标对象和非目标对象。所述图像样本包括静态图像和/或视频中的图像帧，所述目标对象包括人像。

图7所示的装置可以执行图1至图4所示实施例的方法，本实施例未详细描述的部分，可参考对图1至图4所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1至图4所示实施例中的描述，在此不再赘述。

以上描述了模型训练装置的内部功能和结构，在一个可能的设计中，模型训练装置的结构可实现为一电子设备，该电子设备可以是服务器，如图8所示，该电子设备可以包括：处理器21和存储器22。其中，所述存储器22用于存储支持该电子设备执行上述图1至图4所示实施例中提供的模型训练方法的程序，所述处理器21被配置为用于执行所述存储器22中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器21执行时能够实现如下步骤：

可选地，所述处理器21还用于执行前述图1至图4所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括通信接口23，用于该电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种计算机存储介质，用于储存上述电子设备所用的计算机软件指令，其包含用于执行上述图1至图4所示方法实施例中模型训练识别方法所涉及的程序。

以下将详细描述本发明的一个或多个实施例的服务提供装置。本领域技术人员可以理解，这些服务提供装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图9为本发明实施例提供的一种服务提供装置的结构示意图，如图9所示，该装置包括：

接收模块31，用于接收调用训练服务的请求。

执行模块32，用于根据所述训练服务对应的处理资源执行如下步骤：

输出调整后的模型参数。

图9所示的装置可以执行图5所示实施例的方法，本实施例未详细描述的部分，可参考对图5所示实施例的相关说明。该技术方案的执行过程和技术效果参见图5所示实施例中的描述，在此不再赘述。

以上描述了服务提供装置的内部功能和结构，在一个可能的设计中，服务提供装置的结构可实现为一电子设备，该电子设备可以是服务器，如图10所示，该电子设备可以包括：处理器41和存储器42。其中，所述存储器42用于存储支持该电子设备执行上述图5所示实施例中提供的服务提供方法的程序，所述处理器41被配置为用于执行所述存储器42中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器41执行时能够实现如下步骤：

输出调整后的模型参数。

可选地，所述处理器31还用于执行前述图5所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括通信接口43，用于该电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种计算机存储介质，用于储存上述电子设备所用的计算机软件指令，其包含用于执行上述图5所示方法实施例中服务提供方法所涉及的程序。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述预测结果和所述图像样本对应的标注结果分别与所述图像样本融合，以得到融合图像，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

将所述第一融合图像和所述第二融合图像输入预设模型，以由所述预设模型分别对所述第一融合图像和所述第二融合图像进行特征提取。

4.根据权利要求3所述的方法，其特征在于，所述根据所述融合图像的图像特征和所述预测结果，调整所述语义分割模型的模型参数，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一损失值和所述第二损失值调整所述语义分割模型的模型参数，包括：

根据所述第一损失值、所述第二损失值以及各自对应的权重值，调整所述模型参数。

6.根据权利要求3所述的方法，其特征在于，所述预设模型包含多个卷积层，所述图像特征包括所述多个卷积层中至少一个卷积层输出的图像特征。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述语义分割模型用于将所述图像样本中的物体划分为目标对象和非目标对象。

8.根据权利要求7所述的方法，其特征在于，所述图像样本包括静态图像和/或视频中的图像帧，所述目标对象包括人像。

9.一种服务提供方法，其特征在于，包括：

输出调整后的模型参数。

10.一种模型训练装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至8中任一项所述的模型训练方法。

12.一种非暂时性机器可读存储介质，其特征在于，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至8中任一项所述的模型训练方法。

13.一种服务提供装置，其特征在于，包括：

接收模块，用于接收调用训练服务的请求；

输出调整后的模型参数。

14.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求9所述的服务提供方法。

15.一种非暂时性机器可读存储介质，其特征在于，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求9所述的服务提供方法。