CN112836746B

CN112836746B - 基于一致性图建模的语义对应方法

Info

Publication number: CN112836746B
Application number: CN202110145841.1A
Authority: CN
Inventors: 张天柱; 张勇东; 何建峰; 吴枫
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2022-09-09
Anticipated expiration: 2041-02-02
Also published as: CN112836746A

Abstract

本发明公开了一种基于一致性图建模的语义对应方法，包括步骤：建立源图像与目标图像之间的特征关系，采用图卷积网络对源图像的特征和目标图像的特征进行跨模态更新；对跨模态更新后的源图像特征建立自身特征之间的第一关联关系，对跨模态更新后的目标图像特征建立自身特征之间的第二关联关系，采用图卷积网络对建立第一关联关系后的源图像特征和建立第二关联关系后目标图像特征进行模态内更新；通过一致性损失对模态内更新后的源图像特征和模态内更新后的目标图像特征建立具有循环一致性的特征对应关系，得到源图像到目标图像上的语义对应结果，能够同时捕获整张图片以及图片之间的上下文信息，建立循环一致性的语义对应，适用性强，准确度高。

Description

基于一致性图建模的语义对应方法

技术领域

本发明涉及计算机视觉领域，尤其是涉及一种基于一致性图建模的语义对应方法，可应用于图像的理解。

背景技术

语义对应性试图在包含相同类别物体的图片之间建立语义相关的对应匹配，进而应用于物体识别、图像编辑、语义分割等众多领域。

传统的语义对应工作利用手工特征，如SIFT(尺度不变特征)或HOG(方向梯度直方图特征)来建立对应匹配关系。然而手工设计的特征不能捕获高层次的语义信息，所以待匹配物体存在较大的物体形变时，这些传统方法不能有效地建立语义对应关系。此外，图片的背景杂乱、物体不同的视角变化、以及缺少稠密的对应标注数据等因素都增加了语义对应性任务的难度。

为了捕获高层次的语义信息，基于卷积神经网络的语义对应工作应运而生，在语义对应任务中取得了巨大的成功。然而，这些方法大多不能捕获整张图片、图片之间的上下文信息，以及同时确保建立的语义对应具有一致性，这限制了模型对语义对应任务中各种挑战(如背景干扰)的泛化能力。

因此，目前亟待解决的技术问题是提供一种适用性强，准确度更高的图和语义的对应方法。

发明内容

为了解决上述技术问题，本发明公开了一种适用性强，准确度更高的图和语义的对应方法，具体方案如下。

本发明公开了一种基于一致性图建模的语义对应方法，包括：

建立源图像与目标图像之间的特征关系，采用图卷积网络对所述源图像的特征和所述目标图像的特征进行跨模态更新；

对跨模态更新后的源图像特征建立自身特征之间的第一关联关系，对跨模态更新后的目标图像特征建立自身特征之间的第二关联关系，采用图卷积网络对建立第一关联关系后的源图像特征和建立第二关联关系后目标图像特征进行模态内更新；

通过一致性损失对模态内更新后的源图像特征和模态内更新后的目标图像特征建立具有循环一致性的特征对应关系，得到所述源图像到所述目标图像上的语义对应结果。

根据本发明的一些实施例，建立所述源图像与所述目标图像之间的特征关系包括：

获取所述源图像的图像特征，并将每个特征点作为源节点；

获取所述目标图像的图像特征，并将每个特征点作为目标节点；以及

在所述源节点和所述目标节点之间建立边；

其中，所述源节点和所述目标节点均为数据结构图的输入节点。

根据本发明的一些实施例，采用图卷积网络对所述源图像的特征和所述目标图像的特征进行跨模态更新包括，通过公式(1)和(2)进行跨模态更新：

其中，h^s表示源节点特征，h^t表示目标节点特征，

表示跨模态更新后的源节点特征，

表示跨模态更新后的目标节点特征，

表示源节点到目标节点的边，

表示目标节点到源节点的边，ms表示根据边

找到与源节点有连接关系的所有目标节点的特征的累和，m^t表示根据边

找到与目标节点具有连接关系的所有源节点的特征的累和，

是特征串联操作，

表示神经网络，

表示跨图更新后的源节点特征，

表示跨图更新后的目标节点特征。

根据本发明的一些实施例，对跨模态更新后的源图像特征建立自身特征之间的第一关联关系，对跨模态更新后的目标图像特征建立自身特征之间的第二关联关系包括：

通过模态内数据结构图对跨模态更新后的源节点特征编码获得自身模态内的上下文信息，获取经过第一关联关系后的源节点特征的邻接矩阵；以及

通过模态内数据结构图对跨模态更新后的目标节点特征编码获得自身模态内的上下文信息，获取经过第二关联关系后的目标图节点征的邻接矩阵。

根据本发明的一些实施例，获取经过第一关联关系后的源节点特征的邻接矩阵包括，通过公式(3)计算获得邻接矩阵：

获取经过第二关联关系后的目标节点特征的邻接矩阵包括，通过公式(4)计算获得邻接矩阵：

其中，A_s表示源节点特征的邻接矩阵，A_t表示目标节点特征的邻接矩阵，W_θ与W_ψ是可学习的参数，ReLU(·)表示激活函数。

根据本发明的一些实施例，采用图卷积网络对建立第一关联关系后的源图像特征和建立第二关联关系后目标图像特征进行模态内更新包括，通过公式(5)和公式(6)进行模态内更新：

其中，

表示模态内图卷积网络更新后的源节点特征，

表示表示模态内图卷积网络更新后的目标节点特征，

表示神经网络计算。

根据本发明的一些实施例，所述通过一致性损失建立具有循环一致性的特征对应关系，得到所述源图像到所述目标图像上的语义对应结果包括：

将模态内图卷积网络更新后的源节点特征按照所在图像位置排列获得最终源节点特征；

将模态内图卷积网络更新后的目标节点特征按照所在图像位置排列获得最终目标节点特征；以及

计算所述最终源节点特征和所述最终目标节点特征之间的余弦相似度，获得源图像特征到目标图像特征的对应结果和目标图像特征到源图像特征的对应结果。

根据本发明的一些实施例，在所述基于一致性图建模的语义对应方法应用于训练时，还包括对通过前景一致性损失、循环一致性损失和平滑损失建立具有循环一致性的特征对应关系。

根据本发明的一些实施例，获得所述前景一致性损失包括：通过计算所述源图像的前景掩码与所述前景掩码对应点的目标图像的掩码的差值得到获得所述前景一致性损失，用于使前景区域不在背景区域建立对应关系，且背景区域也不在前景区域建立对应关系；

获得所述循环一致性损失包括：对于源图像特征上的前景区域的点p根据源图像特征到目标图像特征的对应结果找到对应在目标图像特征上的点q，以及根据点q和目标图像特征到源图像特征的对应结果找到对应源图像上的点p′，通过计算源图像特征尚两个点的位置差异||p-p′||获得所述循环一致性损失，用于在前景区域建立具有循环一致性的语义对应；以及

获得所述平滑损失包括：计算源图像特征到目标图像特征的对应结果和目标图像特征到源图像特征的对应结果对应的一阶离散梯度获得所述平滑损失，用于平滑计算出的特征对应。

根据本发明的一些实施例，所述建立具有循环一致性的特征对应关系包括：

按照公式(7)对所述前景一致性损失、所述循环一致性损失和所述平滑损失求和：

按照公式(8)对所述源节点到目标节点的边和所述目标节点到源节点的边进行一致性约束：

通过公式(9)计算最终损失函数：

其中，

表示前景一致性损失、循环一致性损失和平滑损失的和，

表示边的一致性损失，

表示最终损失函数，λ₁、λ₂、λ₃为超参数，

为前景一致性损失，

为循环一致性损失，

为平滑损失，λ_task是公式(7)的权重系数，λ_edge是公式(8)的权重系数，

表示源节点到目标节点的边，

表示目标节点到源节点的边，

表示源图像特征到目标图像特征的对应结果，

表示目标图像特征到源图像特征的对应结果。

通过上述技术方案，本发明通过图卷积网络对源图像特征和目标图像特征进行跨模态更新，然后进行模态内编码，建立自身对应关系，并采用图卷积网络进行更新，最后通过一致性损失获得源图像到目标图像上的语义对应结果，能够同时捕获整张图片以及图片之间的上下文信息，并确保建立具有循环一致性的语义对应，适用性强，准确度高，因此对图片的背景杂乱、物体不同的视角变化以及物体的较大形变等挑战具有更好的鲁棒性。

附图说明

图1示意性示出了本公开实施例的基于一致性图建模的语义对应方法的流程图；

图2示意性示出了本公开实施例的基于一致性图建模的语义对应方法的一具体实施例。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本发明实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。在此使用的术语“包括”表明了特征、步骤、操作的存在，但是并不排除存在或添加一个或多个其他特征。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

图1示意性示出了本公开实施例的基于一致性图建模的语义对应方法的流程图。

根据本发明的一些实施例，本发明公开了一种基于一致性图建模的语义对应方法，如图1所示，包括步骤S1、S2和S3。

根据本发明的一些实施例，S1包括：建立源图像与目标图像之间的特征关系，采用图卷积网络对源图像的特征和目标图像的特征进行跨模态更新。

根据本发明的一些实施例，S2包括：对跨模态更新后的源图像特征建立自身特征之间的第一关联关系，对跨模态更新后的目标图像特征建立自身特征之间的第二关联关系，采用图卷积网络对建立第一关联关系后的源图像特征和建立第二关联关系后目标图像特征进行模态内更新；

根据本发明的一些实施例，S3包括：通过一致性损失对模态内更新后的源图像特征和模态内更新后的目标图像特征建立具有循环一致性的特征对应关系，得到源图像到目标图像上的语义对应结果。

根据本发明的一些实施例，本发明公开的一种基于一致性图建模的语义对应方法包括三部分：跨图模块、内图模块和循环一致性模块。

据本发明的一些实施例，跨图模块用于建模图片之间关系，采用CrossGCN(交叉图卷积网络)对源图像特征和目标图像特征进行更新。

据本发明的一些实施例，内图模块用于对获得源图像特征和目标图像特征的上下文信息，通过采用IntraGCN(模态内数据结构图)对源图像特征和目标图像特征进行编码获得上下文信息。

据本发明的一些实施例，循环一致性模块用于获得源图像特征与目标图像特征之间的对应结果。

据本发明的一些实施例，对于输入的两张图像(源图像与目标图像)，通过ResNet101(残差网络)提取特征。

根据本发明的一些实施例，建立源图像与目标图像之间的特征关系包括如下步骤。

获取源图像的图像特征，并将每个特征点作为源节点(源节点特征记为h^s)；

获取目标图像的图像特征，并将每个特征点作为目标节点(目标节点特征记为h^t)；以及

在源节点和目标节点之间建立边(

和

)。

其中，源节点和目标节点均为数据结构图的输入节点，Garph(图)包括节点和边，边代表数据传输，在本发明中具体用于表示节点之间是否相连。

根据本发明的一些实施例，采用图卷积网络对源图像的特征和目标图像的特征进行跨模态更新包括，通过公式(1)和(2)进行跨模态更新。

其中，h^s表示源节点特征，h^t表示目标节点特征，

表示跨模态更新后的源节点特征，

表示跨模态更新后的目标节点特征，

表示源节点到目标节点的边，

表示目标节点到源节点的边，ms表示根据边

找到与目标节点具有连接关系的所有源节点的特征的累和，

是特征串联操作，

表示神经网络，

表示跨图更新后的源节点特征，

表示跨图更新后的目标节点特征。

根据本发明的一些实施例，对跨模态更新后的源图像特

征建立自身特征之间的第一关联关系，对跨模态更新后的目标图像特征

建立自身特征之间的第二关联关系包括：通过模态内数据结构图对跨模态更新后的源节点特征编码获得自身模态内的上下文信息，获取经过第一关联关系后的源节点特征的邻接矩阵；以及

根据本发明的一些实施例，将特征

或

输入神经网络

得到新的特征，再与源(目标)节点特征相加可以得到

其中，

表示模态内图卷积网络更新后的源节点特征，

表示表示模态内图卷积网络更新后的目标节点特征，

表示神经网络计算。

根据本发明的一些实施例，通过一致性损失建立具有循环一致性的特征对应关系，得到源图像到目标图像上的语义对应结果包括：将模态内图卷积网络更新后的源节点特征按照所在图像位置排列获得最终源节点特征

将模态内图卷积网络更新后的目标节点特征按照所在图像位置排列获得最终目标节点特征

以及

计算最终源节点特征

和最终目标节点特征

之间的余弦相似度，获得源图像特征到目标图像特征的对应结果和目标图像特征到源图像特征的对应结果。

根据本发明的一些实施例，对应结果

存储源图像特征到目标图像特征的对应结果，对应结果

存储目标图像特征到源图像特征的对应结果。

根据本发明的一些实施例，在基于一致性图建模的语义对应方法应用于训练时，还包括对通过前景一致性损失、循环一致性损失和平滑损失建立具有循环一致性的特征对应关系。

根据本发明的一些实施例，获得前景一致性损失包括：通过计算源图像的前景掩码与前景掩码对应点的目标图像的掩码的差值得到获得前景一致性损失，用于使前景区域不在背景区域建立对应关系，且背景区域也不在前景区域建立对应关系。

根据本发明的一些实施例，获得循环一致性损失包括：对于源图像特征上的前景区域的点p根据源图像特征到目标图像特征的对应结果找到对应在目标图像特征上的点q，以及根据点q和目标图像特征到源图像特征的对应结果找到对应源图像上的点p′，通过计算源图像特征尚两个点的位置差异||p-p′||获得循环一致性损失，用于在前景区域建立具有循环一致性的语义对应。

获得平滑损失包括：计算源图像特征到目标图像特征的对应结果和目标图像特征到源图像特征的对应结果对应的一阶离散梯度获得平滑损失，用于平滑计算出的特征对应。

根据本发明的一些实施例，建立具有循环一致性的特征对应关系包括：按照公式(7)对前景一致性损失、循环一致性损失和平滑损失求和：

按照公式(8)对源节点到目标节点的边和目标节点到源节点的边进行一致性约束：

按照公式(9)计算最终损失函数：

其中，

表示前景一致性损失、循环一致性损失和平滑损失的和，

表示边的一致性损失，

表示最终损失函数，λ₁、λ₂、λ₃为超参数，

为前景一致性损失，

为循环一致性损失，

表示源节点到目标节点的边，

表示目标节点到源节点的边，

表示源图像特征到目标图像特征的对应结果，

表示目标图像特征到源图像特征的对应结果。

如图2所示，对于两张图片，一张为一只站在海边的鸟，简称海鸟图，定义为源图像，另外一张为一只站在树林的鸟，简称林鸟图，定义为目标图像。

通过ResNet101(残差网络)提取源图像特征h^s和目标图像特征h^t。

在源节点和目标节点之间建立边(

和

)。

通过跨图模块，构造出跨图模块中的源节点特征和目标节点特征，进而可以利用CrossGCN更新源节点特征和目标节点特征。

通过内图模块，将这些节点特征输入到内图模块中来传递节点之间的特征信息，利用IntraGCN更新得到最终的源节点和目标节点特征。

并将源节点和目标节点特征按照所在图像位置重新排列获得最后的源图像特征和目标图像特征。

计算源图像特征和目标图像特征点之间的相似性，选取相似性最大的点作为对应点。

将图像特征的对应结果

上采样到图像分辨率大小，便得到源图像到目标图像上的语义对应结果，也即，可以将海鸟图的前景海鸟的各项特征和林鸟图中前景林鸟的各项特征一一对应起来。

通过上述技术方案，本发明通过图卷积网络对源图像特征和目标图像特征进行跨模态更新，然后进行模态内编码建立自身对应关系并采用图卷积网络进行更新，最后通过一致性损失获得源图像到目标图像上的语义对应结果，能够同时捕获整张图片以及图片之间的上下文信息，并确保建立具有循环一致性的语义对应，适用性强，准确度高，因此对图片的背景杂乱、物体不同的视角变化以及物体的较大形变等挑战具有更好的鲁棒性。

本发明公开的方法可以通过对应性学习可以获得物体更加具有鉴别力的特征，可以广泛应用于物体识别、图像编辑、语义或场景分割等计算机视觉任务。在实施上，可以以软件的方式安装于个人手机或电脑上，提供实时对应性匹配；也可以安装于公司的后台服务器，提供大批量后台对应性匹配结果。

至此，已经结合附图对本公开实施例进行了详细描述。需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各零部件的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

还需要说明的是，在本公开的具体实施例中，除非有所知名为相反之意，本说明书及所附权利要求中的数值参数是近似值，能够根据通过本公开的内容所得的所需特性改变。具体而言，所有使用于说明书及权利要求中表示组成的尺寸、范围条件等等的数字，应理解为在所有情况中是受到“约”的用语所修饰。一般情况下，其表达的含义是指包含由特定数量在一些实施例中±10％的变化、在一些实施例中±5％的变化、在一些实施例中±1％的变化、在一些实施例中±0.5％的变化。

本领域技术人员可以理解，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本发明中。特别地，在不脱离本发明精神和教导的情况下，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。