CN113468386A

CN113468386A - 一种基于哈希学习的跨模态材料表面检索方法及装置

Info

Publication number: CN113468386A
Application number: CN202110748308.4A
Authority: CN
Inventors: 周亮; 冶占远; 王洪飞; 魏昕
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2021-10-01
Anticipated expiration: 2041-07-01
Also published as: CN113468386B

Abstract

本发明揭示了一种基于哈希学习的跨模态材料表面检索方法及装置，该方法包括以下步骤：S1：获取训练数据集，每个材料表面样本包括视觉图片和触觉加速度；S2：对训练集进行符号化表示，建立两个并行的深度网络，得到视觉和触觉的特征表示；S3：将得到的不同模态特征表示分别输入自注意力网络，得到不同模态自注意力特征；S4：建立哈希层，将得到的视触自注意力实值特征转化为二进制哈希码，同时建立模态内中心约束并利用跨模态损失函数优化整个网络；S5：建立跨模态材料表面检索装置，实现跨模态检索。采用本方法能够充分融合视觉触觉之间的信息，将视触信息的最终特征表示转化为低维二进制哈希码，减少了跨模态检索的存储及检索成本。

Description

一种基于哈希学习的跨模态材料表面检索方法及装置

技术领域

本发明涉及一种基于哈希学习的跨模态材料表面检索方法及装置，可用于计算机技术领域。

背景技术

在涉及物理交互的精准操作过程中，机器人需要在执行特定动作之前判断和传达交互对象的表面材料的属性。根据这些属性信息，操作程序可以在与远程环境中的目标对象进行交互时，为机器人选择合适的运动策略或交互模式，因此，在机器人交互任务中，如何有效地判断和传递表面材料信息十分关键。

通常来说，材料表面属性包括视觉模态和触觉模态，视觉模态方面，目前大多数机器人摄像头已达到百万级别像素，可以拍摄出高质量图片，为材料表面提供高精度的视觉模态信息。触觉模态方面，随着触觉传感器的不断发展，触觉模态信息已广泛应用于材料识别。然而，传统的基于单模态的分类方法可能不适合用来推断材料的表面属性，特别是在与非结构环境中的不熟悉物体交互时。此外，仅仅利用单模态信息难以充分表达材料表面特征，如何将视触模态融合来解释材料表面信息仍然是一个有待解决的问题。

因此，发明人试图使机器人具备跨模态迁移能力，即根据感知到的视觉模态信息反馈相关的触觉数据或者根据感知到地触觉模态信息反馈相关的视觉数据，也就是建立视触之间的跨模态检索。与其他跨模态检索类似，由于视触数据之间维度和结构的不一致，导致难以建立相关实例一对一之间的语义一致性。如何解决视触模态之间的高度异构性，是视触跨模态检索的关键挑战。而本发明能够有效解决上述问题。

发明内容

本发明的目的就是为了解决现有技术中存在的上述问题，提出一种基于哈希学习的跨模态材料表面检索方法及装置。

本发明的目的将通过以下技术方案得以实现：一种基于哈希学习的跨模态材料表面检索方法，该方法包括以下步骤：

S1：获取训练数据集，其中每个材料表面样本包括视觉图片和触觉加速度；

S2：对所述S1步骤得到的训练集进行符号化表示，建立两个并行的深度网络，将视觉图片和触觉加速度输入网络，得到视觉和触觉的特征表示；

S3：将所述S2步骤得到的不同模态特征表示分别输入自注意力网络，得到不同模态自注意力特征；

S4：建立哈希层，将所述S3步骤得到的视触自注意力实值特征转化为二进制哈希码，同时建立模态内中心约束并利用跨模态损失函数优化整个网络；

S5：建立跨模态材料表面检索装置，实现跨模态检索。

优选地，在所述S1步骤，训练数据集为TUM纹理数据库，其中主要包含材料表面视觉图像数据以及材料表面触觉加速度数据。

优选地，所述S2步骤包括：

S21：针对所获取的训练数据集，该数据集可符号化为一个包含N实例的数据集

其中每个实例o_i＝{v_i，t_i，l_i}分别包含一个材料表面视觉图像数据v_i、一个材料表面触觉加速度样本t_i和一个多类别标签l_i；

S22：将视觉图像数据v_i输入已完成预训练的VGG-19网络，将最后一个卷积层的输出作为视觉特征

其中f^v为视觉全局特征，

为每个图像子区域的局部特征，m为图像子区域的数量；

S23：将触觉加速度数据t_i输入GRU网络，将GRU网络各个隐藏节点的输出作为触觉特征

其中f^t为触觉全局特征，

为GRU每个隐藏节点的触觉局部特征，n为GRU的隐藏节点个数。

优选地，所述S3步骤包括：

S31：利用自注意力网络提取视觉样本的跨模态相关语义信息，剔除无关的冗余信息，对于视觉特征，首先将S3步骤中的觉特征f^v分别通过3个不同的1×1卷积核，分别得到三个特征图F(f^v)＝W_Ff^v，P(f^v)＝W_Pf^v，K(f^v)＝W_Kf^v，其中W_F，W_P，W_K分别为三个不同的1×1卷积核权重，F(·)表示1×1卷积计算；接着，根据特征图 F(f^v)，P(f^v)得到自注意力权重，即计算F(f^v)中图像区域i与P(f^v)中其他区域j的相关程度δ_i，j：

其中

S32：自注意力权重δ_i，j和特征图K(f^v)计算得到视觉自注意力特征

S33：最后将视觉自注意力特征

与视觉原始特征图f^v进行融合，得到最终视觉特征图

其中

μ为预设的全局参数，其值为0.25；

S34：对于触觉数据，首先计算S3步骤中触觉特征f^t中第i个局部特征对其他局部第j个特征的注意力权重ε_i，j：

其中，

S35：接着，利用自注意力权重ε_i，j和触觉特征f^t得到注意力特征

S36：最后将自注意力特征

与触觉原始特征图f^t进行融合，得到最终触觉特征图

其中

ξ为预设的全局参数，其值为0.25。

优选地，所述S4步骤4包括：

S41：通过哈希模块将视觉和触觉特征映射到低维公共汉明空间，为视觉网络和触觉网络分别搭建三层全连接层，其中前两层为普通全连接层，激活函数为Relu，最后一层为哈希层，激活函数为Tanh；

将S3步骤中视觉特征图G^v和触觉特征图G^t分别输入对应哈希模块，得到哈希层的输出分别为

以及

将

分别输入符号函数sign(·)二值化后，分别得到视触低维二进制哈希码

整体步骤可表示为以下公式：

其中θ_v，θ_t分别为视觉和触觉哈希模块的参数；

S42：为跨模态材料表面检索定义损失函数，目的在于使相似实例的视触哈希码之间的汉明距离缩小，使不相似实例的视触哈希码之间的汉明距离增大：

其中，S_ij∈{0，1}用来判断v_i，t_j是否属于同一类，D_ij表示视觉数据v_i对应的哈希码

与触觉数据t_j对应的哈希码

之间的汉明距离，L为预设的间隔；通过该目标函数，可以使相似的视觉实例与触觉实例的哈希汉明距离小于间隔，使不相似的视觉实例与触觉实例的哈希汉明距离大于间隔；

S43：在单模态内部，存在丰富的结构信息，这些信息隐含了模态内部的语义和特征分布信息；定义以下模态内中心约束：

其中

分别为视觉数据和触觉数据所属类别对应的类别中心，通过中心损失，使模态内部属于同一类别的实例的哈希码尽可能分布在中心附近。

本发明还揭示了一种哈希学习的跨模态材料表面检索方法的装置，该装置包括：

一个存储器，能够存储上述程序，同时将S5步骤中得到的视觉二进制码

以及触觉二进制码

存入存储器；

一个处理器，能够加载并运行跨模态检索程序，输入某一模态待检索实例数据q，处理器通过计算二进制码之间汉明距离，在存储器数据库中检索出距离最小的另一模态二进制码，并返回该二进制码对应的模态数据p

本发明采用以上技术方案与现有技术相比，具有以下技术效果：采用本方法，能够充分融合视觉触觉之间的信息。本发明一方面将视触信息的最终特征表示转化为低维二进制哈希码，减少了跨模态检索的存储及检索成本；另一方面利用自注意力网络提取跨模态信息的相关部分，减少冗余信息对跨模态检索性能的影响，并利用模态内中心约束维护单模态内部的原始结构信息，保护了其中隐含的语义信息。

在该技术方案中首先引入了自注意力网络，自注意力网络能够自适应地区分视觉和触觉模态中跨模态相关部分和跨模态非相关部分，并增强相关部分。接着，为了弥补多模态数据之间的异构性，建立准确的跨模态关联，引入了跨模态间隔机制，用间隔更精确的约束跨模态相关实例与非相关实例之间的相似性。为了在哈希码生成过程中保护每个模态内部隐藏的结构信息，设计了模态内中心约束，最后为了完成跨模态检索，建立了包含存储器与处理器的跨模态检索装置。

附图说明

图1为本发明的一种基于哈希学习的跨模态材料表面检索方法的流程图。

图2为本发明的一种基于哈希学习的跨模态材料表面检索装置的结构框图。

图3为本发明的基于哈希学习的跨模态材料表面深度模型框架图。

图4为本发明的自注意力网络框架图。

图5为本发明的所有方法在TUM数据集16位哈希码长度下的准确率-召回率曲线图。

图6为本发明的所有方法在TUM数据集16位哈希码长度下的准确率-召回率曲线图。

图7为本发明的在不同哈希码长度下，基于哈希学习的跨模态材料表面检索方法的 MAP值结果图。

具体实施方式

本发明的目的、优点和特点，将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例，凡采取等同替换或者等效变换而形成的技术方案，均落在本发明要求保护的范围之内。

本发明揭示了一种基于哈希学习的跨模态材料表面检索方法及装置，主要面向不同材料表面视觉、触觉属性之间的检索问题，包括以下步骤：首先，利用深度网络强大的学习能力提取视觉和触觉的特征表示；接着分别设计了自注意力网络和模态内中心约束来挖掘视触特征之间的相关信息，将视触特征投影到同一汉明空间，并将高维的实值特征转化为低维二进制哈希码并存入数据库；最后输入待查询的视觉或触觉模态实例，根据输入计算与数据库中另一模态二进制码的汉明距离，检索出相似性最高的另一模态实例。

如图1所示，一种基于哈希学习的跨模态材料表面检索方法，该方法包括以下步骤：

S1：获取训练数据集TUM纹理数据库，其中每个材料表面样本包括视觉图片和触觉加速度；

S2：对S1步骤得到的训练集进行符号化表示，建立两个并行的深度网络，将视觉图片和触觉加速度输入网络，得到视觉和触觉的特征表示；

S3：将不同模态特征表示分别输入自注意力网络，得到不同模态自注意力特征；

S4：建立哈希层，将视触自注意力实值特征转化为二进制哈希码，同时建立模态内中心约束并利用跨模态损失函数优化整个网络；

S5：建立跨模态材料表面检索装置，实现跨模态检索，包含存储器，至少能够存储一个程序，处理器，用于加载并处理一种基于哈希学习的跨模态材料表面检索方法。

在所述S1步骤，训练数据集为TUM纹理数据库，其中主要包含材料表面视觉图像数据以及材料表面触觉加速度数据。

所述S2步骤包括：S21：针对所获取的训练数据集，该数据集可符号化为一个包含N实例的数据集

其中f^v为视觉全局特征，

为每个图像子区域的局部特征，m为图像子区域的数量；

其中f^t为触觉全局特征，

为GRU每个隐藏节点的触觉局部特征，n为GRU的隐藏节点个数。

所述S3步骤包括：S31：利用自注意力网络提取视觉样本的跨模态相关语义信息，剔除无关的冗余信息，对于视觉特征，首先将S3步骤中的觉特征f^v分别通过3个不同的1×1卷积核，分别得到三个特征图F(f^v)＝W_Ff^v，P(f^v)＝W_Pf^v，K(f^v)＝W_Kf^v，其中W_F，W_P，W_K分别为三个不同的1×1卷积核权重，F(·)表示1×1卷积计算；接着，根据特征图F(f^v)，P(f^v)得到自注意力权重，即计算F(f^v)中图像区域i与P(f^v)中其他区域j的相关程度δ_i，j：

其中

S33：最后将视觉自注意力特征

与视觉原始特征图f^v进行融合，得到最终视觉特征图

其中

u为预设的全局参数，其值为0.25；

其中，

S36：最后将自注意力特征

与触觉原始特征图f^t进行融合，得到最终触觉特征图

其中

ξ为预设的全局参数，其值为0.25。

所述S4步骤4包括：S41：通过哈希模块将视觉和触觉特征映射到低维公共汉明空间，为视觉网络和触觉网络分别搭建三层全连接层，其中前两层为普通全连接层，激活函数为Relu，最后一层为哈希层，激活函数为Tanh；

以及

将

整体步骤可表示为以下公式：

其中θ_v，θ_t分别为视觉和触觉哈希模块的参数；

与触觉数据t_j对应的哈希码

其中

本发明还揭示了一种基于哈希学习的跨模态材料表面检索方法的装置，如图2所示，该装置包括：一个存储器，能够存储上述程序，同时将S5步骤中得到的视觉二进制码

以及触觉二进制码

存入存储器。一个处理器，能够加载并运行跨模态检索程序，输入某一模态待检索实例数据q，处理器通过计算二进制码之间汉明距离，在存储器数据库中检索出距离最小的另一模态二进制码，并返回该二进制码对应的模态数据p。

图3是本技术方案所提到的基于哈希学习跨模态材料表面深度模型的整体框架，这是一个端到端的框架，包含视觉和触觉两个分支。特别的，将视触特征分别输入自注意力网络中提取跨模态相关部分，接着，在自注意力网络之上设计跨模态哈希损失函数和模态内中心约束函数，联合优化多模态异构数据到公共汉明空间的映射，建立更精确的跨模态关联。

具体步骤如下：

步骤1：学习潜在语义特征；

首先介绍形式化定义。假设有一个包含N实例的数据集

其中v_i，t_i分别为视觉，触觉的原始数据，l_i＝[l_i1，…l_ic]是第i个实例的多标签向量，c表示类别个数。

如果实例i属于类别j，则l_ij＝1，否则l_ij＝0。在多标签问题中，若实例o_i与实例o_j共享至少一个标签，则认为它们是相似的，即相似标志S_ij＝1，否则S_ij＝0。

在图像分支中，利用在大规模数据集ImageNet上预训练的VGG-19模型提取图像的原始特征。选取VGG-19最后一个卷积层的原始特征图

m为特征图区域的数量。

在触觉分支中，为了更好的提取触觉信号的原始特征，利用双向GRU网络。相比于普通的GRU网络，双向GRU网络能够从前后两个方向学习序列信号的相关性，提取的特征更全面，更具代表性。输入一个触觉实例，双向GRU的所有隐藏节点输出一组触觉特征

n为触觉序列的长度。

步骤2：将潜在语义特征输入自注意力网络，提取跨模态相关信息；

在潜在语义特征中，包含大量冗余信息，这些信息与构成跨模态检索的相关信息无关，不剔除这些信息的影响将造成跨模态检索性能的下降。自注意力网络与人眼机制类似，能够自动的将图像划分为跨模态相关部分与非相关部分，并突出跨模态相关部分。

针对视觉模态特征，如图4所示，首先将特征图f^v经过三个不同的1×1卷积，得到三个卷积图F(f^v)＝W_Ff^v，P(f^v)＝W_Pf^v，K(f^v)＝W^Kf^v。1×1卷积核能够在不改变特征图大小(即不损失分辨率)的前提下，更好地挖掘非线性特征，同时大大增加网络的深度。

其中，W_F，W_P，W_K分别为对应的卷积权重。接着，根据特征图F(f^v)，P(f^v)得到自注意力权重，即计算F(f^v)中图像区域i与P(f^v)中其他区域j的相关程度δ_i，j：

接着利用自注意力权重和卷积图K(f^v)得到图像自注意力特征

最后将自注意力特征图与原始特征图进行融合，得到最终的输出特征图

其中

为预设的参数。

针对触觉模态特征，同样的，双向GRU输出的触觉特征包含大量冗余信息，会导致跨模态检索性能的下降。为了突出跨模态相关部分，我们将触觉特征f^t输入自注意力网络，得到自注意力特征用来增强原始触觉特征f^t，使触觉特征更多地关注值得注意的部分。

首先，计算触觉特征f^t中第i个局部特征对其他局部特征的注意力权重ε_i，j：

其中，

接着，由注意力权重得到注意力特征

将自注意力特征与原始特征进行融合，得到触觉最终特征

其中

为预设的参数。

步骤4：设计哈希模块，将高维实值特征映射到公共低维汉明空间；

通过哈希模块将视觉和触觉特征映射到低维公共汉明空间，主要分别通过三层全连接层。其中前两层分别为节点数为1024，512的普通全连接层，激活函数为Relu。最后一层为哈希层，节点数为64，激活函数为Tanh。接着，将哈希层的输出符号化，即可得到低维哈希码。

其中

分别为视觉和触觉的最终二进制哈希码，θ_v，θ_t分别为视觉和触觉哈希模块的参数，

分别为视觉和触觉的哈希层输出。

步骤5：定义网络损失函数并施加模态内中心约束，利用反向梯度传播对整个网络进行优化。

如何弥补不同模态之间的高度异构性是跨模态检索中的关键问题。也就是说，在有限长的哈希码中，需要尽可能地保留两种模态间的相关语义信息。因此，所提算法学习了两个哈希映射函数，将视觉和触觉数据投影到相同的哈希空间，在该空间中，使类似实例的视触哈希码之间的汉明距离尽可能小，不类似实例的视触哈希码之间的汉明距离尽可能大。

为了完成以上任务，设计了以下目标函数：

式中，S_ij∈{0，1}用来判断v_i,t_j是否属于同一类，D_ij表示v_i的哈希码

与t_j的哈希码

之间的汉明距离，L为预设的间隔。通过该目标函数，可以使类似的视觉实例与触觉实例的哈希汉明距离小于间隔，使不类似的视觉实例与触觉实例的哈希汉明距离大于间隔。

在单模态内部，存在丰富的结构信息，这些信息隐含了模态内部的语义和特征分布信息，对建立跨模态关联十分有帮助。然而，在哈希码生成过程中，这些结构信息容易遭到破坏。为了尽可能地保护这些信息，设计了以下中心损失：

为视觉和触觉两个模态的每个分类都定义了一个类别中心，式中，

分别为视觉和触觉数据所属类别对应的类别中心。通过中心损失，使模态内部属于同一类别的实例的哈希码尽可能分布在中心附近。

为了生成二值哈希码，利用了哈希层输出的近似哈希码。近似哈希码的取值为[0，1] 之间的连续值，在由连续的近似哈希码生成二值的哈希码过程中，会不可避免的产生量化损失。

为了减少量化损失对跨模态检索的影响，设计了以下量化损失函数：

步骤6：建立跨模态检索装置，完成跨模态检索。

装置包括一个存储器和处理器，存储器用以保存视觉和触觉数据库以及跨模态检索模型，处理器用以加载并执行一种基于哈希学习的跨模态材料表面检索方法。

检索过程为，将待查询的视觉或触觉数据输入处理器，处理器执行基于哈希学习的跨模态材料表面检索方法，在存储器数据库中检索出另一模态相似度最高的数据。

实验结果

表1为本发明的所有方法在TUM数据集16位哈希码长度下的MAP值结果；下表中，分别从视觉检索触觉和触觉检索视觉两个任务来评估各种方法，评价指标为MAP 和Rank@5值。从表1中可以看出，其他方法的MAP值均在0.8以下，而所提方法都在 0.8以上。同时，在Rank@5值方面，除了SePH方法，所提方法显著高于其他方法。由此可见，所提方法在两个任务中的表现明显优于其他方法，在MAP和Rank@5两项指标中取得明显优势。相比于其他方法，所提方法能够自动地区分跨模态相关部分与非相关部分，并在跨模态关联学习中剔除非相关部分，同时保护原始数据中的结构信息，因此跨模态检索性能得到显著提高。

为了更细致的评估不同方法的性能，图5和图6中，在两个任务上分别展示了基于16bit 哈希码的所有方法的PR曲线。从图5和图6中可以看出，所提方法的PR曲线始终高于其他方法，这表明在各阶段Recall率，该方法性能均好于其他算法。

接着，发明人分析了不同长度哈希码对MAP值的影响，发明人分别选取了8bit，16bit， 32bit，64bit长度的哈希码，如图7所示，32bit哈希码在两种检索任务中均取得了最佳的效果。原因在于，32bit哈希码能够在尽可能保留跨模态语义信息的同时减少量化噪声的干扰。

在本技术方案中，为了使机器人更好的判断和传达物体表面属性信息，发明人提出了一种新颖的算法来建立视觉和触觉之间的跨模态检索。为了弥补不同模态间的异构性，发明人使同类型的哈希码尽可能类似，使不同类型的哈希码尽可能区别。特别的设计了一个自注意力网络来提取模态信息中的跨模态相关部分，减少非相关部分对检索性能的影响。此外，在哈希码生成过程中，设计了中心约束损失来保护各模态内部的原始结构信息。在TUM数据集上的实验结果证明了本技术方案所提方法的有效性。

本技术方案利用二进制哈希码代替实值特征表示，有效地降低了存储成本，提高了检索效率。利用自注意力网络，能够自适应地区分视觉和触觉模态中跨模态相关部分和跨模态非相关部分，并增强相关部分，减少冗余信息对检索效果的影响。

与现有技术相比，本方面的有益效果：1、利用二进制哈希码代替实值特征表示，有效地降低了存储成本，提高了检索效率。2、利用自注意力网络，能够自适应地区分视觉和触觉模态中跨模态相关部分和跨模态非相关部分，并增强相关部分，减少冗余信息对检索效果的影响。

本发明尚有多种实施方式，凡采用等同变换或者等效变换而形成的所有技术方案，均落在本发明的保护范围之内。

Claims

1.一种基于哈希学习的跨模态材料表面检索方法，其特征在于：该方法包括以下步骤：

S5：建立跨模态材料表面检索装置，实现跨模态检索。

2.根据权利要求1所述的一种基于哈希学习的跨模态材料表面检索方法，其特征在于：在所述S1步骤，训练数据集为TUM纹理数据库，其中主要包含材料表面视觉图像数据以及材料表面触觉加速度数据。

3.根据权利要求1所述的种基于哈希学习的跨模态材料表面检索方法，其特征在于：所述S2步骤包括：

其中f^v为视觉全局特征，

为每个图像子区域的局部特征，m为图像子区域的数量；

其中f^t为触觉全局特征，

为GRU每个隐藏节点的触觉局部特征，n为GRU的隐藏节点个数。

4.根据权利要求1所述的一种基于哈希学习的跨模态材料表面检索方法，其特征在于：所述S3步骤包括：

S31：利用自注意力网络提取视觉样本的跨模态相关语义信息，剔除无关的冗余信息，对于视觉特征，首先将S3步骤中的觉特征f^v分别通过3个不同的1×1卷积核，分别得到三个特征图F(f^v)＝W_Ff^v，P(f^v)＝W_Pf^vK(f^v)＝W_Kf^v，其中W_F，W_P，W_K分别为三个不同的1×1卷积核权重，F(·)表示1×1卷积计算；接着，根据特征图F(f^v)，P(f^v)得到自注意力权重，即计算F(f^v)中图像区域i与P(f^v)中其他区域j的相关程度δ_i，j：