CN112926585A

CN112926585A - 一种基于再生核希尔伯特空间的跨域语义分割方法

Info

Publication number: CN112926585A
Application number: CN202110030425.7A
Authority: CN
Inventors: 刘文涛; 邹文斌; 廖牧鑫; 华国光; 邹光明; 李霞
Original assignee: Shenzhen Wisdom Union Technology Co ltd; Shenzhen University
Current assignee: Shenzhen Wisdom Union Technology Co ltd; Shenzhen University
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2021-06-08
Anticipated expiration: 2041-01-11
Also published as: CN112926585B

Abstract

本发明提供了一种基于再生核希尔伯特空间的跨域语义分割方法，所述方法包括：分别提取具有语义标签的源域图像特征和不带有语义标签的目标域图像特征；根据所述源域图像特征和所述目标域图像特征分别确定源域图像和目标域图像的共同不变几何表示；根据所述共同不变几何表示确定用于对目标域图像进行分割的分割网络。本发明通过对源域图像和目标域图像的共同不变几何表示进行对抗学习，进而增强了源域图像和目标域图像的分布相似度，进而训练出对应的分割网络，使得对目标域图像的分割性能提高，达到了准确分割目标域图像的效果。

Description

一种基于再生核希尔伯特空间的跨域语义分割方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及的是一种基于再生核希尔伯特空间的跨域语义分割方法。

背景技术

在地理信息、无人驾驶、医学影像、机器人等领域需要通过语义分割技术对图像进行精确识别、定位和区分。现有技术中是使用基于监督学习的神经网络模型对图像数据集进行语义分割，以得到像素级别的分类结果。

但此类监督学习的神经网络模型很难扩展到未曾识别过的图像，若要对未曾识别过的图像进行监督学习，则需要在真实场景中收集图像数据进行像素级别的语义标注，此处方式需要耗用大量的资源，并不便于普及。

基于上述问题，后续提出了利用仿真器或者游戏引擎上合成的带有精准像素级别语义标注信息的合成数据集来训练模型。但是合成的图像(称作源域图像)和真实的图像(称作目标域图像)存在明显的邻域偏移，若直接用合成的图像训练模型，再将训练的模型用于对真实的图像进行语义分割，则导致语义分割结果不精确。

为解决源域和目标域的邻域偏移问题，后续则提出了 UDA(Unsupervised DomainAdaptation,无监督域适应)以缩小源域和目标域之间的差异。其具体方式是对齐不同域之间的分布，或者减小两个域输入分布的不同，但两种方式均存在弊端：如果空间分布被强制对齐，则原始输出空间中重要特征则被丢弃，造成对图像识别不准确。

因此，现有技术存在缺陷，有待改进与发展。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于再生核希尔伯特空间的跨域语义分割方法，旨在解决现有技术中的对未识别过的图像进行语义分割的性能差，分割不精确的问题。

本发明解决技术问题所采用的技术方案如下：

一种基于再生核希尔伯特空间的跨域语义分割方法，其中，包括：

分别提取具有语义标签的源域图像特征和不带有语义标签的目标域图像特征；

根据所述源域图像特征和所述目标域图像特征分别确定源域图像和目标域图像的共同不变几何表示；

根据所述共同不变几何表示确定用于对目标域图像进行分割的分割网络。

进一步地，所述分别提取具有语义标签的源域图像特征和不带有语义标签的目标域图像特征包括：

将所述源域图像和所述目标域图像分别输入所述分割网络中，得到所述源域图像特征和所述目标域图像特征。

进一步地，所述根据所述源域图像特征和所述目标域图像特征分别确定源域图像和目标域图像的共同不变几何表示包括：

将所述源域图像特征和所述目标域图像特征分别输入编码器进行编码，得到具有隐藏空间表示的第一特征；

将所述第一特征映射到再生核希尔伯特空间进行相似几何结构信息的学习，得到几何关系图；

点乘融合所述第一特征和所述几何关系图，得到源域图像和目标域图像的共同不变几何表示。

进一步地，所述根据所述共同不变几何表示确定用于对目标域图像进行分割的分割网络包括：

通过所述分割网络欺骗分辨器；

通过所述分辨器区分从所述源域图像得到的共同不变几何表示和从所述目标域图像得到的共同不变几何表示。

进一步地，所述通过训练分辨器区分从源域图像得到的共同不变几何表示和从目标域图像得到的共同不变几何表示，之后还包括：

根据源域的共同不变几何表示和目标域的共同不变几何表示，确定空间估计器；

通过所述估计器最大化源域和目标域的相互关联。

进一步地，所述通过所述估计器最大化源域和目标域的相互关联，之后还包括：

通过所述估计器训练所述分割网络。

进一步地，所述通过所述分辨器区分从所述源域图像得到的共同不变几何表示和从所述目标域图像得到的共同不变几何表示，同时还包括：

提取源域图像特征；

根据所述源域图像特征确定源域的共同不变几何表示。

进一步地，所述根据所述源域图像特征确定源域的共同不变几何表示，之后还包括：

对所述源域的共同不变几何表示进行解码，得到解码特征；对所述源域图像特征和所述解码特征进行点乘融合，得到第三特征；

通过所述分割网络对所述第三特征进行特征分割，得到分割图。

本发明还提供一种智能终端，其中，所述智能终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于再生核希尔伯特空间的跨域语义分割程序，所述基于再生核希尔伯特空间的跨域语义分割程序被所述处理器执行时实现如上所述的基于再生核希尔伯特空间的跨域语义分割方法的步骤。

本发明还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有基于再生核希尔伯特空间的跨域语义分割程序，所述基于再生核希尔伯特空间的跨域语义分割程序被处理器执行时实现如上所述的基于再生核希尔伯特空间的跨域语义分割方法的步骤。

附图说明

图1是本发明中基于再生核希尔伯特空间的跨域语义分割方法的较佳实施例的流程图；

图2是本发明基于再生核希尔伯特空间的跨域语义分割方法的较佳实施例中步骤S200的流程图；

图3是本发明进行分割网络训练的示意图；

图4是本发明基于再生核希尔伯特空间的跨域语义分割方法的较佳实施例中步骤S420之后的流程图；

图5是本发明中智能终端的较佳实施例的功能原理框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

首先，需要说明的是，本发明为解决现有技术中的对未识别过的图像进行语义分割的性能差，分割不精确的问题。则提出对分割网络进行训练的方案，在训练过程中则采用已知语义标注信息的源域图像和未知语义标注信息的目标域图像进行训练，进而根据源域和目标域在几何空间的分布以缩小源域和目标域之间的差异，之后通过对抗学习使得两个域的空间分布对齐，以提高分割网络的分割性能。当训练完成分割网络之后，即可使用分割网络对未曾识别过的目标域图像进行识别，得到精度高的分割图。在以下实施例中则具体介绍本发明的方案。

请参见图1，图1是本发明中一种基于再生核希尔伯特空间的跨域语义分割方法的流程图。如图1所示，本发明实施例所述的一种基于再生核希尔伯特空间的跨域语义分割方法包括以下步骤：

S100、分别提取具有语义标签的源域图像特征和不带有语义标签的目标域图像特征。

具体地，源域图像为合成图像，用X_s∈R_H×W×3表示，源域图像带有C个类别的真值语义标签，语义标签用Y_s∈(1,C)^H×W表示；目标域图像为真实图像用X_t∈R_H×W×3表示，目标域图像没有语义标签。通过特征提取模型对源域图像进行特征提取可以得到源域图像特征，通过特征提取模型对目标域图像进行特征提取可以得到目标域图像特征。

S200、根据所述源域图像特征和所述目标域图像特征分别确定源域图像和目标域图像的共同不变几何表示。

具体地，通过对源域图像特征和目标域图像特征的几何结构信息进行学习，可以得到源域图像和目标域图像的几何表示，进而通过对几何表示进行对抗学习可以得到两者的共同不变几何表示。

S300、根据所述共同不变几何表示确定用于对目标域图像进行分割的分割网络。

具体地，通过共同不变几何表示可以得到源域和目标域的相互约束关系，进而将两者的相互约束关系加入到对抗学习中，即可用于对分割网络进行训练，以提高分割网络的语义分割性能。

在一具体实施例中，步骤S100包括：

S110、将所述源域图像和所述目标域图像分别输入所述分割网络中，得到所述源域图像特征和所述目标域图像特征。

在一具体实施例中，如图2所示，步骤S200包括：

S210、将所述源域图像特征和所述目标域图像特征分别输入编码器进行编码，得到具有隐藏空间表示的第一特征。

具体地，源域图像特征和目标图像标记特征具有部分重叠，通过将两者重叠的特征中的最后一层特征Z_x∈R^[H,W,2048]通过卷积编码器(h(.))进行编码，其中，卷积编码器有一个1*1*512卷积核组成的卷积层，进而可以得到具有隐藏空间表示的第一特征Gx，其中G_x∈R^[H,W,512]。

S220、将所述第一特征映射到再生核希尔伯特空间进行相似几何结构信息的学习，得到几何关系图。

具体地，如图3所示，通过高斯RBF(Radial Basis Function)核函数将第一特征映射到再生核希尔伯特空间(RKHS，Reproducing Kernel Hilbert Space)，可以得到几何关系图Mx，M_x∈R^[512,512]。

其中，RKHS是一个完整的内积空间，具有距离和角度的概念，能够很容易学习源域和目标域在内积空间的相似几何结构信息。通过将第一特征映射到再生核希尔伯特空间可以得到源域和目标域的一些如结构、距离、角度等的几何信息。

而RKHS定义如下：H是希尔伯特空间的函数,带有点积运算<.,.>，满足再生性质：

<f(.),k(x,.)＞＝f(x)

因此有：

<k(x,.),k(x',.)＞＝k(x,x')

其中，k(x,.)是一个核函数，可以将作用在X上的函数对应的特征向量映射到核函数内积对应的值x。而使用高斯RBF核函数将第一特征映射到再生核希尔伯特空间可表示为：

其中，向量x的内积定义如下：

然后将内积扩展到核函数形式则表示为：

考虑矩阵X的内积，将作用在X上的函数对应的特征向量定义如下：

Z＝X^TgX

进而可以得到X的核函数格式，表示为：

Z＝k(X,X)＝φ^T(X)gφ(X)

因此，Mx定义如下：

M_x＝k(g_x,g_x)＝<k(g_x,.),k(g_x,.)>＝φ^T(g_x)φ(g_x)

其中，g_x∈R^HW×512,M_x∈R^512×512，512是通道的数量。因为Mx经映射得到，因而具有丰富的几何信息。

S230、点乘融合所述第一特征和所述几何关系图，得到源域图像和目标域图像的共同不变几何表示。

具体地，对第一特征Gx和几何关系图Mx进行点乘融合可以得到共同不变几何表示Cx。

进一步地，在对源域图像和目标域图像进行共同几何不变表示进行学习的同时，在源域上还进行源域的监督分割训练。

具体地，对源域训练集Xs中的源域图像进行监督分割训练，进而得到分割网络对图像的分割损失，之后将分割损失应用到对分割网络的训练中，以优化分割网络的分割性能。

其中，对源域图像进行监督分割训练在源域上进行。首先，通过将rgb 图像输入特征提取模型中即可得到特征图

然后通过共同不变几何表示模型得到源域图像的共同不变几何表示

之后使用1*1*2048卷积核组成的卷积层作为解码器来解码

最后通过点乘融合

与

得到源域图像的共同不变几何表示，之后通过分割网络对源域图像的共同不变几何表示进行特征分割，得到分割图

其中，对特征分割的分割损失可定义如下：

进一步地，通过分割损失可以得到对分割网络的优化函数，定义如下：

在一具体实施例中，步骤S300包括：

S310、通过所述分割网络欺骗分辨器。

此次进行举例说明，假设给定目标域图像Xt，然后尝试用分割网络欺骗分辨器D，则分割网络需要的最小化目标函数如下：

S320、通过所述分辨器区分从所述源域图像得到的共同不变几何表示和从所述目标域图像得到的共同不变几何表示。

当给定源域图像和目标域图像之后，训练分辨器区分源域或者目标域的输出，分别用0和1表示，而用于区分源域或者目标域的目标函数如下：

当得到源域图像和目标域图像的共同不变几何表示之后，通过上述欺骗方式采用共同不变几何表示欺骗分辨器，且训练分辨器区分共同不变几何表示，进而可以得到源域的共同不变几何表示和目标域的共同不变几何表示，其中，通过共同不变几何表示欺骗分辨器的函数定义如下：

在一具体实施例中，步骤S320之后还包括：

S330、根据源域的共同不变几何表示和目标域的共同不变几何表示，确定空间估计器。

S340、通过所述估计器最大化源域和目标域的相互关联。

具体地，空间估计器的作用是使得目标域和源域的共同不变几何表示的相互关联最大化，而源域的共同不变几何表示和目标域的共同不变几何表示的交互信息用MI(C_xs，C_xt)表示，具体地，MI的表达式如下：

其中，H(X)是熵，H(X|Y)是条件熵，它们可以定义如下：

H(X)＝-∑p(X)log₂p(X)

H(X|Y)＝-∑p(X,Y)log₂p(X|Y)

故而，MI可表示为：

对于空间估计器与MI的相互关系，可采用最大化对MI的JSD (Jensen-Shannondivergence)实现，其表示如下：

其中，对MI最大化主要参考方程Deep InfoMax(DIM)，通过 Jensen-Shannon MI估计器来估计MI，MI的JSD方程定义如下：

其中，x是输入变量，x’是不依赖于E_ψ(X)的另外一个输入，L_ψ(X)是局部特征地图，E_ψ(X)是全局特征地图，sp(z)＝log(1+e^z)是激活函数，T_ψ,w(.) 是鉴别器。

因此，MI的JSD方程定义如下：

其中，

和

是目标域和源域的共同几何不变表示，

是源域标签，T_ψ,w(.,.)是可以帮助估计条件分布的鉴别器。因此，通过定义在源域和目标域的共同不变表示空间MI估计器，之后采用估计器来最大化MI 可表示为：

在一具体实施例中，步骤S340之后还包括：

S350、通过所述估计器训练所述分割网络。

具体地，所述分割网络包括MI和分辨器，通过上述表达式可以得到分割网络的训练函数：

在一具体实施例中，步骤S350之后还包括：

S410、提取源域图像特征。

S420、根据所述源域图像特征确定源域的共同不变几何表示。

在一具体实施例中，如图4所示，步骤S420之后还包括：

S430、对所述源域的共同不变几何表示进行解码，得到解码特征；S440、对所述源域图像特征和所述解码特征进行点乘融合，得到第三特征；

S450、通过所述分割网络对所述第三特征进行特征分割，得到分割图。

具体地，通过重复上述的分割步骤即可得到源域图像的分割图。

本发明通过将源域和目标域的共同不变几何表示的相互约束加入到对抗学习中，能够增强源域和目标域的分布相似度，以提高训练出的分割网络的分割性能。且通过最大化源域和目标域的共同不变几何表示能够避免在特征空间中过度传递特征，进而构建跨域的特征不变几何空间，能够提高对图像的识别效果。

进一步地，如图5所示，基于上述基于再生核希尔伯特空间的跨域语义分割方法，本发明还相应提供了一种智能终端，所述智能终端包括处理器10、存储器20及显示器30。图5仅示出了智能终端的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述智能终端的内部存储单元，例如智能终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述智能终端的外部存储设备，例如所述智能终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD) 卡，闪存卡(Flash Card)等。进一步地，所述存储器20还可以既包括所述智能终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述智能终端的应用软件及各类数据，例如所述安装智能终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有基于再生核希尔伯特空间的跨域语义分割程序40，该基于再生核希尔伯特空间的跨域语义分割程序40可被处理器10所执行，从而实现本申请中基于再生核希尔伯特空间的跨域语义分割方法。

所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述基于再生核希尔伯特空间的跨域语义分割方法等。

所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。所述显示器30用于显示在所述智能终端的信息以及用于显示可视化的用户界面。所述智能终端的部件10-30通过系统总线相互通信。

在一实施例中，当处理器10执行所述存储器20中基于再生核希尔伯特空间的跨域语义分割程序40时实现以下步骤：

通过所述分割网络欺骗分辨器；

通过所述估计器最大化源域和目标域的相互关联。

通过所述估计器训练所述分割网络。

提取源域图像特征；

根据所述源域图像特征确定源域的共同不变几何表示。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件(如处理器，控制器等) 来完成，所述的程序可存储于一计算机可读取的计算机可读存储介质中，所述程序在执行时可包括如上述各方法实施例的流程。其中所述的计算机可读存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于再生核希尔伯特空间的跨域语义分割方法，其特征在于，包括：

2.根据权利要求1所述的基于再生核希尔伯特空间的跨域语义分割方法，其特征在于，所述分别提取具有语义标签的源域图像特征和不带有语义标签的目标域图像特征包括：

3.根据权利要求2所述的基于再生核希尔伯特空间的跨域语义分割方法，其特征在于，所述根据所述源域图像特征和所述目标域图像特征分别确定源域图像和目标域图像的共同不变几何表示包括：

4.根据权利要求3所述的基于再生核希尔伯特空间的跨域语义分割方法，其特征在于，所述根据所述共同不变几何表示确定用于对目标域图像进行分割的分割网络包括：

通过所述分割网络欺骗分辨器；

5.根据权利要求4所述的基于再生核希尔伯特空间的跨域语义分割方法，其特征在于，所述通过训练分辨器区分从源域图像得到的共同不变几何表示和从目标域图像得到的共同不变几何表示，之后还包括：

通过所述估计器最大化源域和目标域的相互关联。

6.根据权利要求5所述的基于再生核希尔伯特空间的跨域语义分割方法，其特征在于，所述通过所述估计器最大化源域和目标域的相互关联，之后还包括：

通过所述估计器训练所述分割网络。

7.根据权利要求4所述的基于再生核希尔伯特空间的跨域语义分割方法，其特征在于，所述通过所述分辨器区分从所述源域图像得到的共同不变几何表示和从所述目标域图像得到的共同不变几何表示，同时还包括：

提取源域图像特征；

根据所述源域图像特征确定源域的共同不变几何表示。

8.根据权利要求7所述的基于再生核希尔伯特空间的跨域语义分割方法，其特征在于，所述根据所述源域图像特征确定源域的共同不变几何表示，之后还包括：

对所述源域的共同不变几何表示进行解码，得到解码特征；

对所述源域图像特征和所述解码特征进行点乘融合，得到第三特征；

9.一种智能终端，其特征在于，所述智能终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于再生核希尔伯特空间的跨域语义分割程序，所述基于再生核希尔伯特空间的跨域语义分割程序被所述处理器执行时实现如权利要求1-8任一项所述的基于再生核希尔伯特空间的跨域语义分割方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有基于再生核希尔伯特空间的跨域语义分割程序，所述基于再生核希尔伯特空间的跨域语义分割程序被处理器执行时实现如权利要求1-8任一项所述的基于再生核希尔伯特空间的跨域语义分割方法的步骤。