CN112381831B

CN112381831B - 基于图像间语义辅助的个性化图像分割方法及系统

Info

Publication number: CN112381831B
Application number: CN202011353724.6A
Authority: CN
Inventors: 程明明; 张宇; 姜鹏涛
Original assignee: Nankai University
Current assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2022-08-16
Anticipated expiration: 2040-11-26
Also published as: CN112381831A

Abstract

本申请公开了基于图像间语义辅助的个性化图像分割方法及系统，获取当前用户的若干幅无标注图像和非当前用户的若干幅有标注图像；对当前用户的每幅无标注图像进行特征提取，得到每幅无标注图像的图像特征；依据当前用户的每幅无标注图像的图像特征，基于聚类算法，得到若干个无标注图像组合；将所有的无标注图像组合和所有的有标注图像组合，按照标注的有无，交替输入到深度神经网络中，对深度神经网络进行初步训练，得到初步训练后的深度神经网络；在初步训练的过程中，基于每个组合的图像间语义信息辅助实现图像的分割；基于初步训练后的深度神经网络，对当前用户的新图像组合进行分割，得到分割结果。

Description

基于图像间语义辅助的个性化图像分割方法及系统

技术领域

本申请涉及图像处理技术领域，特别是涉及基于图像间语义辅助的个性化图像分割方法及系统。

背景技术

本部分的陈述仅仅是提到了与本申请相关的背景技术，并不必然构成现有技术。

传统的图像语义分割算法假设图像与图像之间是相互独立的，在进行分割的时候不考虑图像之间的相互关系。然而这种假设对于用户个性化图像的分割通常并不成立：特定用户的个性化图像会包含很多相似的物体或者场景，这种相似性意味着图像之间是高度相关的。如何利用这种图像之间的相关性来提高分割算法精度是一个很有价值和挑战性的问题。

发明内容

为了解决现有技术的不足，本申请提供了基于图像间语义辅助的个性化图像分割方法及系统；

第一方面，本申请提供了基于图像间语义辅助的个性化图像分割方法；

基于图像间语义辅助的个性化图像分割方法，包括：

获取当前用户的若干幅无标注图像；获取非当前用户的若干幅有标注图像；将非当前用户的若干幅有标注图像按照标注划分为若干个有标注图像组合；

对当前用户的每幅无标注图像进行特征提取，得到每幅无标注图像的图像特征；

依据当前用户的每幅无标注图像的图像特征，基于聚类算法，得到若干个无标注图像组合；

将所有的无标注图像组合和所有的有标注图像组合，按照标注的有无，交替输入到深度神经网络中，对深度神经网络进行初步训练，得到初步训练后的深度神经网络；在初步训练的过程中，基于每个组合的图像间语义信息辅助实现图像的分割；

基于初步训练后的深度神经网络，对当前用户的新图像组合进行分割，得到新图像组合中每幅图像的分割结果。

第二方面，本申请提供了基于图像间语义辅助的个性化图像分割系统；

基于图像间语义辅助的个性化图像分割系统，包括：

获取模块，其被配置为：获取当前用户的若干幅无标注图像；获取非当前用户的若干幅有标注图像；将非当前用户的若干幅有标注图像按照标注划分为若干个有标注图像组合；

特征提取模块，其被配置为：对当前用户的每幅无标注图像进行特征提取，得到每幅无标注图像的图像特征；

聚类模块，其被配置为：依据当前用户的每幅无标注图像的图像特征，基于聚类算法，得到若干个无标注图像组合；

训练模块，其被配置为：将所有的无标注图像组合和所有的有标注图像组合，按照标注的有无，交替输入到深度神经网络中，对深度神经网络进行初步训练，得到初步训练后的深度神经网络；在初步训练的过程中，基于每个组合的图像间语义信息辅助实现图像的分割；

分割模块，其被配置为：基于初步训练后的深度神经网络，对当前用户的新图像组合进行分割，得到新图像组合中每幅图像的分割结果。

第三方面，本申请还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本申请还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

第五方面，本申请还提供了一种计算机程序(产品)，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。

与现有技术相比，本申请的有益效果是：

本申请能够在不需要用户数据标注的情况下取得在用户个性化上较好的分割精度；同时，本申请通过将用户的多元化的数据进行聚类，再在聚类出的Group上进行图像间的语义辅助分割，能够较好地去除干扰信息，利用相似图像的语义。

本申请附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为从由标注的源数据向无标注的用户个性化数据迁移以及个性化数据聚类的示意图；

图2为利用Group图像语义信息辅助分割和利用伪标签进一步基于Group语义进行训练的示意图；

图3(a)-图3(z2)为本个性化图像语义分割方法的结果示例图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了基于图像间语义辅助的个性化图像分割方法；

基于图像间语义辅助的个性化图像分割方法，包括：

S101：获取当前用户的若干幅无标注图像；获取非当前用户的若干幅有标注图像；将非当前用户的若干幅有标注图像按照标注划分为若干个有标注图像组合；

S102：对当前用户的每幅无标注图像进行特征提取，得到每幅无标注图像的图像特征；

S103：依据当前用户的每幅无标注图像的图像特征，基于聚类算法，得到若干个无标注图像组合；

S104：将所有的无标注图像组合和所有的有标注图像组合，按照标注的有无，交替输入到深度神经网络中，对深度神经网络进行初步训练，得到初步训练后的深度神经网络；在初步训练的过程中，基于每个组合的图像间语义信息辅助实现图像的分割；

S105：基于初步训练后的深度神经网络，对当前用户的新图像组合进行分割，得到新图像组合中每幅图像的分割结果。

作为一个或多个实施例，所述方法中，S105：基于初步训练后的深度神经网络，对当前用户的新图像组合进行分割，得到新图像组合中每幅图像的分割结果；被替换为：

S106：通过初步训练后的深度神经网络，对下一个无标注图像组合进行分割预测，利用分割预测的结果作为伪标签；基于伪标签和伪标签对应的图像，对初步训练后的深度神经网络进行再次训练，得到最终训练后的深度神经网络；基于最终训练后的深度神经网络，对用户的新图像组合进行分割，得到新图像组合中每幅图像的分割结果。

作为一个或多个实施例，所述S101：获取当前用户的若干幅无标注图像；具体是指：获取当前用户拍摄的无标注图像。

作为一个或多个实施例，所述S101：获取非当前用户的若干幅有标注图像；将非当前用户的若干幅有标注图像按照标注划分为若干个有标注图像组合；其中，有标注图像的标注具体包括但不限于：人物、景色、食物、动物等等。

作为一个或多个实施例，所述S102：对当前用户的每幅无标注图像进行特征提取，得到每幅无标注图像的图像特征；具体是指：

基于卷积神经网络CNN，对当前用户的每幅无标注图像进行特征提取，得到当前用户的每幅无标注图像的图像特征。

作为一个或多个实施例，所述S103中，依据当前用户的每幅无标注图像的图像特征，基于聚类算法，得到若干个无标注图像组合；其中，每个无标注图像组合中均包括相似物体或相似背景。

作为一个或多个实施例，所述S104：将所有的无标注图像组合和所有的有标注图像组合，按照标注的有无，交替输入到深度神经网络中，对深度神经网络进行初步训练，得到初步训练后的深度神经网络；具体是指：

采用无监督域自适应算法，所有的无标注图像组合和所有的有标注图像组合，按照标注的有无，输入到深度神经网络中，即先输入有标注图像组合对深度神经网络进行训练，再输入无标注图像组合对深度神经网络进行训练，再输入有标注图像组合对深度神经网络进行训练，再输入无标注图像组合对深度神经网络进行训练，以此类推，直至所有的组合均对深度神经网络进行训练，得到初步训练后的深度神经网络。

作为一个或多个实施例，所述S104：将所有的无标注图像组合和所有的有标注图像组合，按照标注的有无，交替输入到深度神经网络中，对深度神经网络进行初步训练，得到初步训练后的深度神经网络；在初步训练的过程中，基于每个组合的图像间语义信息辅助实现图像的分割；具体实现过程包括：

深度神经网络的网络结构包括：编码器、区域特征提取模块、上下文聚合模块、融合模块、解码器和判别器；

所述编码器，用于输入每个组合的图像，所述编码器对每个组合中的每个图像进行特征提取，得到每个图像的基础特征；

所述区域特征提取模块，用于对每个组合中所有图像的基础特征进行区域特征提取，得到图像与图像之间的区域特征；

所述上下文聚合模块，用于将所有的区域特征和所有图像的基础特征进行聚合处理得到聚合特征；

所述融合模块，用于将聚合特征与每个图像基础特征进行融合处理，得到若干个融合特征；

所述解码器，对所有的融合特征进行解码处理，得到预测的分割图像；

所述判别器，对预测的分割图像与原始的分割标签进行比较，判断预测图像与原始分割标签的一致性比例，当一致性比例达到设定阈值时，停止训练，得到初步训练后的深度神经网络。

进一步地，所述对每个组合中所有图像的基础特征进行区域特征提取，得到图像与图像之间的区域特征，具体是指：

对每个图像的基础特征，利用分类器得到分割图；

利用分割图作为区域的基础特征；

通过将区域的基础特征加权(权值即为粗糙图mask的值)平均得到图像与图像之间的区域特征。

进一步地，所述将所有的区域特征和所有的图像特征进行聚合处理得到聚合特征；具体是指：

将图像的某一像素特征和所有区域特征计算相似度，再利用相似度值对区域特征进行加权平均得到对应该像素的聚合特征。

进一步地，所述将聚合特征与每个图像基础特征进行融合处理，得到若干个融合特征；具体是指：串联融合或并联融合。

作为一个或多个实施例，所述S104：将所有的无标注图像组合和所有的有标注图像组合，按照标注的有无，交替输入到深度神经网络中，对深度神经网络进行初步训练，得到初步训练后的深度神经网络；训练过程中，深度神经网络的输入值是每个组合的图像，神经网络的输出值是分割后的图像；深度神经网络停止训练的标准是迭代次数达到设定次数。

本申请公开了一种基于图像间语义辅助的个性化图像分割方法。该方法的目的是提高语义分割算法在用户的个性化图像上的分割精度。本申请中用户个性化图像定义为特定用户本人手机/相机拍摄的照片，基于这些图像通常是相互关联的观察，本申请通过图像之间的语义信息为图像表征提供增强，进而提高特定用户个性化图像语义分割的精度。在给定一个用户的个性化图像数据之后，本申请首先对该用户的图像进行聚类，得到多个聚类(Group)的图像，使得该用户包含相似物体或者场景的图像聚类在一个Group中。得到聚类的个性化图像之后，本申请通过一个区域特征提取模块和上下文聚合模块，在分割时利用同一个Group中的其他图像的语义增强待分割图像的表征，进而提升分割精度。

利用图像的ImageNet特征对用户个性化图像进行聚类，得到多个聚类(Group)的图像，使得包含相似物体或者场景的图像在一个Group中；

通过无监督域自适应方法在用户个性化图像上训练训练深度神经网络。在网络训练时，通过本申请提出的区域特征提取模块和上下文聚合模块，利用同一个Group中其他图像的信息辅助分割；

通过训练得到模型后，利用该模型对用户的个性化数据进行一次Group语义辅助的分割预测，利用得到的分割结果作为伪标签；挑选伪标签，再进行一次域适应的训练。

通过图像的ImageNet特征对用户的个性化图像进行聚类，使得一个用户的图像聚类成多个Group，这种聚类得到的每一个Group里面的图像包含相似物体或场景，有利于后续的处理。

在无监督的域适应算法框架中，加入区域特征提取模块和上下文聚合模块，利用同一个Group中其他图像的信息辅助分割。

基于加入区域特征提取模块和上下文聚合模块的模型对个性化图像进行分割预测，并利用预测的结果作为伪标签进一步进行域适应训练。

本申请需要解决的技术问题是给定一个用户的无标注的个性化图像，利用无关的有分割标注的图像，在用户个性化数据上取得更好的训练精度。

为了实现本申请的目的，我们依靠以下技术方案来实现：

输入一个用户的无标注的个性化图像，首先利用CNN提取出图像的表征，再通过聚类算法在这些表征的特征空间上对这些个性化图像进行聚类，得到N个包含相似物体或背景图像的Group；

通过无监督的域适应方法在用户个性化图像上训练深度神经网络。在网络训练时，通过本申请提出的区域特征提取模块和上下文聚合模块，利用同一个Group中其他图像的信息辅助分割；

通过训练得到模型后，利用该模型对用户的个性化数据进行一次Group语义辅助的分割预测，利用得到的分割结果作为伪标签；挑选伪标签，再进行一次域适应的训练；

图1展示了从有标注的源数据域向无标注的用户个性化数据域迁移的示意图，以及对用户个性化图像进行聚类的示意图。

对于无标注的个性化数据，需要通过在有标注的源数据上进行监督训练，同时训练网络使其在两个域上的输出分布对齐，从而在用户个性化数据上达到更高的分割精度。图1右侧为个性化数据的示例图，每一个User代表一个用户。对于每一个用户的多样化的图像，通过K-近邻聚类将其分成K个Group，使得每一个Group中的图像包含相关的语义信息。

参考图2，表示基于图像间语义辅助的个性化图像分割方法示意图，图中表示的步骤为：

如图2所示，给定一个用户的个性化图像，将其聚类成K个Group。

每张图像经过网络Encoder部分的编码后得到一个中间特征X，接着通过区域特征提取模块Region Extraction提取出图像的多个区域特征Regional Representations；

接着通过上下文聚合模块Context Aggregation，将同一个Group中图像的区域特征添加到图像的基础特征X上，得到增强的图像表征

经过解码器Decoder部分后，源数据的输出与它的标签对比得到L_seg作为分割loss。

同时，源数据与目标数据的输出通过计算得到各自的熵图Entropy Map。

这里每一个(h,w)对应一个像素位置，

为一个概率值。输入P_s是前文提到解码器的概率输出。

通过对抗训练的方式，熵图后接着一个判别模块来判断熵图是来自源数据还是个性化数据，分割网络通过在个性化数据上生成接近源数据的熵图来达到对齐两个域上输出的分布的效果。

如图2所示，在第一步训练之后，得到一个初步的分割模型。获取这个模型在个性化数据上的输出作为伪标签。

通过Entropy Map的大小对比选择Entropy较小的图像，从而选出较为简单的图像作为目标数据的标签。

利用伪标签再进行一次图2所示的训练，只是这次训练不仅仅包含源数据的分割损失L_seg，同时包含目标数据的分割损失L_pse。

和其他采用伪标签自监督训练的方法不同的是，我们的自监督训练过程中包含了Group中其他图像的语义信息辅助。

图3(a)-图3(z)、图3(z1)和图3(z2)展示了本申请的语义分割结果示例图以及和其他域适应方法的结果图对比。

实施例二

本实施例提供了基于图像间语义辅助的个性化图像分割系统；

基于图像间语义辅助的个性化图像分割系统，包括：

此处需要说明的是，上述获取模块、特征提取模块、聚类模块、训练模块和分割模块对应于实施例一中的步骤S101至S105，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于图像间语义辅助的个性化图像分割方法，其特征是，包括：

基于初步训练后的深度神经网络，对当前用户的新图像组合进行分割，得到新图像组合中每幅图像的分割结果；

将所有的无标注图像组合和所有的有标注图像组合，按照标注的有无，交替输入到深度神经网络中，对深度神经网络进行初步训练，得到初步训练后的深度神经网络；在初步训练的过程中，基于每个组合的图像间语义信息辅助实现图像的分割；具体实现过程包括：

2.如权利要求1所述的基于图像间语义辅助的个性化图像分割方法，其特征是，基于初步训练后的深度神经网络，对当前用户的新图像组合进行分割，得到新图像组合中每幅图像的分割结果；被替换为：

通过初步训练后的深度神经网络，对下一个无标注图像组合进行分割预测，利用分割预测的结果作为伪标签；基于伪标签和伪标签对应的图像，对初步训练后的深度神经网络进行再次训练，得到最终训练后的深度神经网络；基于最终训练后的深度神经网络，对用户的新图像组合进行分割，得到新图像组合中每幅图像的分割结果。

3.如权利要求1所述的基于图像间语义辅助的个性化图像分割方法，其特征是，对当前用户的每幅无标注图像进行特征提取，得到每幅无标注图像的图像特征；具体是指：

4.如权利要求1所述的基于图像间语义辅助的个性化图像分割方法，其特征是，将所有的无标注图像组合和所有的有标注图像组合，按照标注的有无，交替输入到深度神经网络中，对深度神经网络进行初步训练，得到初步训练后的深度神经网络；具体是指：

5.如权利要求1所述的基于图像间语义辅助的个性化图像分割方法，其特征是，所述对每个组合中所有图像的基础特征进行区域特征提取，得到图像与图像之间的区域特征，具体是指：

对每个图像的基础特征，利用分类器得到分割图；

利用分割图作为区域的基础特征；

通过将区域的基础特征加权平均得到图像与图像之间的区域特征。

6.如权利要求1所述的基于图像间语义辅助的个性化图像分割方法，其特征是，将所有的无标注图像组合和所有的有标注图像组合，按照标注的有无，交替输入到深度神经网络中，对深度神经网络进行初步训练，得到初步训练后的深度神经网络；训练过程中，深度神经网络的输入值是每个组合的图像，神经网络的输出值是分割后的图像；深度神经网络停止训练的标准是迭代次数达到设定次数。

7.基于图像间语义辅助的个性化图像分割系统，其特征是，包括：

分割模块，其被配置为：基于初步训练后的深度神经网络，对当前用户的新图像组合进行分割，得到新图像组合中每幅图像的分割结果；

8.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-6任一项所述的方法。