CN113468386A - 一种基于哈希学习的跨模态材料表面检索方法及装置 - Google Patents
一种基于哈希学习的跨模态材料表面检索方法及装置 Download PDFInfo
- Publication number
- CN113468386A CN113468386A CN202110748308.4A CN202110748308A CN113468386A CN 113468386 A CN113468386 A CN 113468386A CN 202110748308 A CN202110748308 A CN 202110748308A CN 113468386 A CN113468386 A CN 113468386A
- Authority
- CN
- China
- Prior art keywords
- visual
- modal
- hash
- tactile
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000000007 visual effect Effects 0.000 claims abstract description 122
- 230000006870 function Effects 0.000 claims abstract description 28
- 230000001133 acceleration Effects 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000010586 diagram Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000010399 physical interaction Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
Abstract
本发明揭示了一种基于哈希学习的跨模态材料表面检索方法及装置,该方法包括以下步骤:S1:获取训练数据集,每个材料表面样本包括视觉图片和触觉加速度;S2:对训练集进行符号化表示,建立两个并行的深度网络,得到视觉和触觉的特征表示;S3:将得到的不同模态特征表示分别输入自注意力网络,得到不同模态自注意力特征;S4:建立哈希层,将得到的视触自注意力实值特征转化为二进制哈希码,同时建立模态内中心约束并利用跨模态损失函数优化整个网络;S5:建立跨模态材料表面检索装置,实现跨模态检索。采用本方法能够充分融合视觉触觉之间的信息,将视触信息的最终特征表示转化为低维二进制哈希码,减少了跨模态检索的存储及检索成本。
Description
技术领域
本发明涉及一种基于哈希学习的跨模态材料表面检索方法及装置,可用于计算机技 术领域。
背景技术
在涉及物理交互的精准操作过程中,机器人需要在执行特定动作之前判断和传达交 互对象的表面材料的属性。根据这些属性信息,操作程序可以在与远程环境中的目标对象进行交互时,为机器人选择合适的运动策略或交互模式,因此,在机器人交互任务中, 如何有效地判断和传递表面材料信息十分关键。
通常来说,材料表面属性包括视觉模态和触觉模态,视觉模态方面,目前大多数机器人摄像头已达到百万级别像素,可以拍摄出高质量图片,为材料表面提供高精度的视 觉模态信息。触觉模态方面,随着触觉传感器的不断发展,触觉模态信息已广泛应用于 材料识别。然而,传统的基于单模态的分类方法可能不适合用来推断材料的表面属性, 特别是在与非结构环境中的不熟悉物体交互时。此外,仅仅利用单模态信息难以充分表 达材料表面特征,如何将视触模态融合来解释材料表面信息仍然是一个有待解决的问题。
因此,发明人试图使机器人具备跨模态迁移能力,即根据感知到的视觉模态信息反 馈相关的触觉数据或者根据感知到地触觉模态信息反馈相关的视觉数据,也就是建立视 触之间的跨模态检索。与其他跨模态检索类似,由于视触数据之间维度和结构的不一致, 导致难以建立相关实例一对一之间的语义一致性。如何解决视触模态之间的高度异构性, 是视触跨模态检索的关键挑战。而本发明能够有效解决上述问题。
发明内容
本发明的目的就是为了解决现有技术中存在的上述问题,提出一种基于哈希学习的 跨模态材料表面检索方法及装置。
本发明的目的将通过以下技术方案得以实现:一种基于哈希学习的跨模态材料表面 检索方法,该方法包括以下步骤:
S1:获取训练数据集,其中每个材料表面样本包括视觉图片和触觉加速度;
S2:对所述S1步骤得到的训练集进行符号化表示,建立两个并行的深度网络,将视觉图片和触觉加速度输入网络,得到视觉和触觉的特征表示;
S3:将所述S2步骤得到的不同模态特征表示分别输入自注意力网络,得到不同模态自注意力特征;
S4:建立哈希层,将所述S3步骤得到的视触自注意力实值特征转化为二进制哈希码,同时建立模态内中心约束并利用跨模态损失函数优化整个网络;
S5:建立跨模态材料表面检索装置,实现跨模态检索。
优选地,在所述S1步骤,训练数据集为TUM纹理数据库,其中主要包含材料表面 视觉图像数据以及材料表面触觉加速度数据。
优选地,所述S2步骤包括:
S21:针对所获取的训练数据集,该数据集可符号化为一个包含N实例的数据集 其中每个实例oi={vi,ti,li}分别包含一个材料表面视觉图像数据vi、一个材料 表面触觉加速度样本ti和一个多类别标签li;
优选地,所述S3步骤包括:
S31:利用自注意力网络提取视觉样本的跨模态相关语义信息,剔除无关的冗余信息, 对于视觉特征,首先将S3步骤中的觉特征fv分别通过3个不同的1×1卷积核,分别得到三个特征图F(fv)=WFfv,P(fv)=WPfv,K(fv)=WKfv,其中WF,WP,WK分别 为三个不同的1×1卷积核权重,F(·)表示1×1卷积计算;接着,根据特征图 F(fv),P(fv)得到自注意力权重,即计算F(fv)中图像区域i与P(fv)中其他区域j的相关 程度δi,j:
S34:对于触觉数据,首先计算S3步骤中触觉特征ft中第i个局部特征对其他局部第j个特征的注意力权重εi,j:
优选地,所述S4步骤4包括:
S41:通过哈希模块将视觉和触觉特征映射到低维公共汉明空间,为视觉网络和触觉 网络分别搭建三层全连接层,其中前两层为普通全连接层,激活函数为Relu,最后一层为哈希层,激活函数为Tanh;
整体步骤可表示为以下公式:
其中θv,θt分别为视觉和触觉哈希模块的参数;
S42:为跨模态材料表面检索定义损失函数,目的在于使相似实例的视触哈希码之间 的汉明距离缩小,使不相似实例的视触哈希码之间的汉明距离增大:
其中,Sij∈{0,1}用来判断vi,tj是否属于同一类,Dij表示视觉数据vi对应的哈希码与 触觉数据tj对应的哈希码之间的汉明距离,L为预设的间隔;通过该目标函数,可以使 相似的视觉实例与触觉实例的哈希汉明距离小于间隔,使不相似的视觉实例与触觉实例 的哈希汉明距离大于间隔;
S43:在单模态内部,存在丰富的结构信息,这些信息隐含了模态内部的语义和特征 分布信息;定义以下模态内中心约束:
本发明还揭示了一种哈希学习的跨模态材料表面检索方法的装置,该装置包括:
一个处理器,能够加载并运行跨模态检索程序,输入某一模态待检索实例数据q,处理器通过计算二进制码之间汉明距离,在存储器数据库中检索出距离最小的另一模态二进制码,并返回该二进制码对应的模态数据p
本发明采用以上技术方案与现有技术相比,具有以下技术效果:采用本方法,能够充分融合视觉触觉之间的信息。本发明一方面将视触信息的最终特征表示转化为低维二进制哈希码,减少了跨模态检索的存储及检索成本;另一方面利用自注意力网络提取跨 模态信息的相关部分,减少冗余信息对跨模态检索性能的影响,并利用模态内中心约束 维护单模态内部的原始结构信息,保护了其中隐含的语义信息。
在该技术方案中首先引入了自注意力网络,自注意力网络能够自适应地区分视觉和 触觉模态中跨模态相关部分和跨模态非相关部分,并增强相关部分。接着,为了弥补多模态数据之间的异构性,建立准确的跨模态关联,引入了跨模态间隔机制,用间隔更精 确的约束跨模态相关实例与非相关实例之间的相似性。为了在哈希码生成过程中保护每 个模态内部隐藏的结构信息,设计了模态内中心约束,最后为了完成跨模态检索,建立 了包含存储器与处理器的跨模态检索装置。
附图说明
图1为本发明的一种基于哈希学习的跨模态材料表面检索方法的流程图。
图2为本发明的一种基于哈希学习的跨模态材料表面检索装置的结构框图。
图3为本发明的基于哈希学习的跨模态材料表面深度模型框架图。
图4为本发明的自注意力网络框架图。
图5为本发明的所有方法在TUM数据集16位哈希码长度下的准确率-召回率曲线图。
图6为本发明的所有方法在TUM数据集16位哈希码长度下的准确率-召回率曲线图。
图7为本发明的在不同哈希码长度下,基于哈希学习的跨模态材料表面检索方法的 MAP值结果图。
具体实施方式
本发明的目的、优点和特点,将通过下面优选实施例的非限制性说明进行图示和解 释。这些实施例仅是应用本发明技术方案的典型范例,凡采取等同替换或者等效变换而形成的技术方案,均落在本发明要求保护的范围之内。
本发明揭示了一种基于哈希学习的跨模态材料表面检索方法及装置,主要面向不同 材料表面视觉、触觉属性之间的检索问题,包括以下步骤:首先,利用深度网络强大的学习能力提取视觉和触觉的特征表示;接着分别设计了自注意力网络和模态内中心约束来挖掘视触特征之间的相关信息,将视触特征投影到同一汉明空间,并将高维的实值特 征转化为低维二进制哈希码并存入数据库;最后输入待查询的视觉或触觉模态实例,根 据输入计算与数据库中另一模态二进制码的汉明距离,检索出相似性最高的另一模态实 例。
如图1所示,一种基于哈希学习的跨模态材料表面检索方法,该方法包括以下步骤:
S1:获取训练数据集TUM纹理数据库,其中每个材料表面样本包括视觉图片和触觉加速度;
S2:对S1步骤得到的训练集进行符号化表示,建立两个并行的深度网络,将视觉图片和触觉加速度输入网络,得到视觉和触觉的特征表示;
S3:将不同模态特征表示分别输入自注意力网络,得到不同模态自注意力特征;
S4:建立哈希层,将视触自注意力实值特征转化为二进制哈希码,同时建立模态内中心约束并利用跨模态损失函数优化整个网络;
S5:建立跨模态材料表面检索装置,实现跨模态检索,包含存储器,至少能够存储一个程序,处理器,用于加载并处理一种基于哈希学习的跨模态材料表面检索方法。
在所述S1步骤,训练数据集为TUM纹理数据库,其中主要包含材料表面视觉图像数据以及材料表面触觉加速度数据。
所述S2步骤包括:S21:针对所获取的训练数据集,该数据集可符号化为一个包含N实例的数据集其中每个实例oi={vi,ti,li}分别包含一个材料表面视觉图 像数据vi、一个材料表面触觉加速度样本ti和一个多类别标签li;
所述S3步骤包括:S31:利用自注意力网络提取视觉样本的跨模态相关语义信息,剔除无关的冗余信息,对于视觉特征,首先将S3步骤中的觉特征fv分别通过3个不同 的1×1卷积核,分别得到三个特征图F(fv)=WFfv,P(fv)=WPfv,K(fv)=WKfv, 其中WF,WP,WK分别为三个不同的1×1卷积核权重,F(·)表示1×1卷积计算;接着, 根据特征图F(fv),P(fv)得到自注意力权重,即计算F(fv)中图像区域i与P(fv)中其他 区域j的相关程度δi,j:
S34:对于触觉数据,首先计算S3步骤中触觉特征ft中第i个局部特征对其他局部第j个特征的注意力权重εi,j:
所述S4步骤4包括:S41:通过哈希模块将视觉和触觉特征映射到低维公共汉明空间,为视觉网络和触觉网络分别搭建三层全连接层,其中前两层为普通全连接层,激活 函数为Relu,最后一层为哈希层,激活函数为Tanh;
整体步骤可表示为以下公式:
其中θv,θt分别为视觉和触觉哈希模块的参数;
S42:为跨模态材料表面检索定义损失函数,目的在于使相似实例的视触哈希码之间 的汉明距离缩小,使不相似实例的视触哈希码之间的汉明距离增大:
其中,Sij∈{0,1}用来判断vi,tj是否属于同一类,Dij表示视觉数据vi对应的哈希码与 触觉数据tj对应的哈希码之间的汉明距离,L为预设的间隔;通过该目标函数,可以使 相似的视觉实例与触觉实例的哈希汉明距离小于间隔,使不相似的视觉实例与触觉实例 的哈希汉明距离大于间隔;
S43:在单模态内部,存在丰富的结构信息,这些信息隐含了模态内部的语义和特征 分布信息;定义以下模态内中心约束:
本发明还揭示了一种基于哈希学习的跨模态材料表面检索方法的装置,如图2所示, 该装置包括:一个存储器,能够存储上述程序,同时将S5步骤中得到的视觉二进制码以 及触觉二进制码存入存储器。一个处理器,能够加载并运行跨模态检索程序,输入某一模态待检索实例数据q,处理器通过计算二进制码之间汉明距离,在存储器数据库中 检索出距离最小的另一模态二进制码,并返回该二进制码对应的模态数据p。
图3是本技术方案所提到的基于哈希学习跨模态材料表面深度模型的整体框架,这 是一个端到端的框架,包含视觉和触觉两个分支。特别的,将视触特征分别输入自注意力网络中提取跨模态相关部分,接着,在自注意力网络之上设计跨模态哈希损失函数和 模态内中心约束函数,联合优化多模态异构数据到公共汉明空间的映射,建立更精确的 跨模态关联。
具体步骤如下:
步骤1:学习潜在语义特征;
如果实例i属于类别j,则lij=1,否则lij=0。在多标签问题中,若实例oi与实例oj共 享至少一个标签,则认为它们是相似的,即相似标志Sij=1,否则Sij=0。
在触觉分支中,为了更好的提取触觉信号的原始特征,利用双向GRU网络。相比 于普通的GRU网络,双向GRU网络能够从前后两个方向学习序列信号的相关性,提取 的特征更全面,更具代表性。输入一个触觉实例,双向GRU的所有隐藏节点输出一组 触觉特征n为触觉序列的长度。
步骤2:将潜在语义特征输入自注意力网络,提取跨模态相关信息;
在潜在语义特征中,包含大量冗余信息,这些信息与构成跨模态检索的相关信息无 关,不剔除这些信息的影响将造成跨模态检索性能的下降。自注意力网络与人眼机制类似,能够自动的将图像划分为跨模态相关部分与非相关部分,并突出跨模态相关部分。
针对视觉模态特征,如图4所示,首先将特征图fv经过三个不同的1×1卷积,得到三个卷积图F(fv)=WFfv,P(fv)=WPfv,K(fv)=WKfv。1×1卷积核能够在不 改变特征图大小(即不损失分辨率)的前提下,更好地挖掘非线性特征,同时大大增加 网络的深度。
其中,WF,WP,WK分别为对应的卷积权重。接着,根据特征图F(fv),P(fv)得到自 注意力权重,即计算F(fv)中图像区域i与P(fv)中其他区域j的相关程度δi,j:
针对触觉模态特征,同样的,双向GRU输出的触觉特征包含大量冗余信息,会导 致跨模态检索性能的下降。为了突出跨模态相关部分,我们将触觉特征ft输入自注意力 网络,得到自注意力特征用来增强原始触觉特征ft,使触觉特征更多地关注值得注意的 部分。
首先,计算触觉特征ft中第i个局部特征对其他局部特征的注意力权重εi,j:
步骤4:设计哈希模块,将高维实值特征映射到公共低维汉明空间;
通过哈希模块将视觉和触觉特征映射到低维公共汉明空间,主要分别通过三层全连 接层。其中前两层分别为节点数为1024,512的普通全连接层,激活函数为Relu。最后 一层为哈希层,节点数为64,激活函数为Tanh。接着,将哈希层的输出符号化,即可得 到低维哈希码。
步骤5:定义网络损失函数并施加模态内中心约束,利用反向梯度传播对整个网络进行优化。
如何弥补不同模态之间的高度异构性是跨模态检索中的关键问题。也就是说,在有 限长的哈希码中,需要尽可能地保留两种模态间的相关语义信息。因此,所提算法学习了两个哈希映射函数,将视觉和触觉数据投影到相同的哈希空间,在该空间中,使类似 实例的视触哈希码之间的汉明距离尽可能小,不类似实例的视触哈希码之间的汉明距离 尽可能大。
为了完成以上任务,设计了以下目标函数:
式中,Sij∈{0,1}用来判断vi,tj是否属于同一类,Dij表示vi的哈希码与tj的哈希码之间的汉明距离,L为预设的间隔。通过该目标函数,可以使类似的视觉实例与触 觉实例的哈希汉明距离小于间隔,使不类似的视觉实例与触觉实例的哈希汉明距离大于 间隔。
在单模态内部,存在丰富的结构信息,这些信息隐含了模态内部的语义和特征分布 信息,对建立跨模态关联十分有帮助。然而,在哈希码生成过程中,这些结构信息容易遭到破坏。为了尽可能地保护这些信息,设计了以下中心损失:
为了生成二值哈希码,利用了哈希层输出的近似哈希码。近似哈希码的取值为[0,1] 之间的连续值,在由连续的近似哈希码生成二值的哈希码过程中,会不可避免的产生量化损失。
为了减少量化损失对跨模态检索的影响,设计了以下量化损失函数:
步骤6:建立跨模态检索装置,完成跨模态检索。
装置包括一个存储器和处理器,存储器用以保存视觉和触觉数据库以及跨模态检索 模型,处理器用以加载并执行一种基于哈希学习的跨模态材料表面检索方法。
检索过程为,将待查询的视觉或触觉数据输入处理器,处理器执行基于哈希学习的 跨模态材料表面检索方法,在存储器数据库中检索出另一模态相似度最高的数据。
实验结果
表1为本发明的所有方法在TUM数据集16位哈希码长度下的MAP值结果;下表 中,分别从视觉检索触觉和触觉检索视觉两个任务来评估各种方法,评价指标为MAP 和Rank@5值。从表1中可以看出,其他方法的MAP值均在0.8以下,而所提方法都在 0.8以上。同时,在Rank@5值方面,除了SePH方法,所提方法显著高于其他方法。由 此可见,所提方法在两个任务中的表现明显优于其他方法,在MAP和Rank@5两项指 标中取得明显优势。相比于其他方法,所提方法能够自动地区分跨模态相关部分与非相 关部分,并在跨模态关联学习中剔除非相关部分,同时保护原始数据中的结构信息,因 此跨模态检索性能得到显著提高。
为了更细致的评估不同方法的性能,图5和图6中,在两个任务上分别展示了基于16bit 哈希码的所有方法的PR曲线。从图5和图6中可以看出,所提方法的PR曲线始终高于其他 方法,这表明在各阶段Recall率,该方法性能均好于其他算法。
接着,发明人分析了不同长度哈希码对MAP值的影响,发明人分别选取了8bit,16bit, 32bit,64bit长度的哈希码,如图7所示,32bit哈希码在两种检索任务中均取得了最佳的效 果。原因在于,32bit哈希码能够在尽可能保留跨模态语义信息的同时减少量化噪声的干 扰。
在本技术方案中,为了使机器人更好的判断和传达物体表面属性信息,发明人提出 了一种新颖的算法来建立视觉和触觉之间的跨模态检索。为了弥补不同模态间的异构性, 发明人使同类型的哈希码尽可能类似,使不同类型的哈希码尽可能区别。特别的设计了 一个自注意力网络来提取模态信息中的跨模态相关部分,减少非相关部分对检索性能的 影响。此外,在哈希码生成过程中,设计了中心约束损失来保护各模态内部的原始结构信息。在TUM数据集上的实验结果证明了本技术方案所提方法的有效性。
本技术方案利用二进制哈希码代替实值特征表示,有效地降低了存储成本,提高了 检索效率。利用自注意力网络,能够自适应地区分视觉和触觉模态中跨模态相关部分和跨模态非相关部分,并增强相关部分,减少冗余信息对检索效果的影响。
与现有技术相比,本方面的有益效果:1、利用二进制哈希码代替实值特征表示,有效地降低了存储成本,提高了检索效率。2、利用自注意力网络,能够自适应地区分视觉 和触觉模态中跨模态相关部分和跨模态非相关部分,并增强相关部分,减少冗余信息对 检索效果的影响。
本发明尚有多种实施方式,凡采用等同变换或者等效变换而形成的所有技术方案, 均落在本发明的保护范围之内。
Claims (6)
1.一种基于哈希学习的跨模态材料表面检索方法,其特征在于:该方法包括以下步骤:
S1:获取训练数据集,其中每个材料表面样本包括视觉图片和触觉加速度;
S2:对所述S1步骤得到的训练集进行符号化表示,建立两个并行的深度网络,将视觉图片和触觉加速度输入网络,得到视觉和触觉的特征表示;
S3:将所述S2步骤得到的不同模态特征表示分别输入自注意力网络,得到不同模态自注意力特征;
S4:建立哈希层,将所述S3步骤得到的视触自注意力实值特征转化为二进制哈希码,同时建立模态内中心约束并利用跨模态损失函数优化整个网络;
S5:建立跨模态材料表面检索装置,实现跨模态检索。
2.根据权利要求1所述的一种基于哈希学习的跨模态材料表面检索方法,其特征在于:在所述S1步骤,训练数据集为TUM纹理数据库,其中主要包含材料表面视觉图像数据以及材料表面触觉加速度数据。
3.根据权利要求1所述的种基于哈希学习的跨模态材料表面检索方法,其特征在于:所述S2步骤包括:
S21:针对所获取的训练数据集,该数据集可符号化为一个包含N实例的数据集 其中每个实例oi={vi,ti,li}分别包含一个材料表面视觉图像数据vi、一个材料表面触觉加速度样本ti和一个多类别标签li;
4.根据权利要求1所述的一种基于哈希学习的跨模态材料表面检索方法,其特征在于:所述S3步骤包括:
S31:利用自注意力网络提取视觉样本的跨模态相关语义信息,剔除无关的冗余信息,对于视觉特征,首先将S3步骤中的觉特征fv分别通过3个不同的1×1卷积核,分别得到三个特征图F(fv)=WFfv,P(fv)=WPfvK(fv)=WKfv,其中WF,WP,WK分别为三个不同的1×1卷积核权重,F(·)表示1×1卷积计算;接着,根据特征图F(fv),P(fv)得到自注意力权重,即计算F(fv)中图像区域i与P(fv)中其他区域j的相关程度δi,j:
其中uij=F(fi v)TP(fj v):
S34:对于触觉数据,首先计算S3步骤中触觉特征ft中第i个局部特征对其他局部第j个特征的注意力权重εi,j:
5.根据权利要求4所述的一种基于哈希学习的跨模态材料表面检索方法,其特征在于:所述S4步骤4包括:
S41:通过哈希模块将视觉和触觉特征映射到低维公共汉明空间,为视觉网络和触觉网络分别搭建三层全连接层,其中前两层为普通全连接层,激活函数为Relu,最后一层为哈希层,激活函数为Tanh;
整体步骤可表示为以下公式:
其中θv,θt分别为视觉和触觉哈希模块的参数;
S42:为跨模态材料表面检索定义损失函数,目的在于使相似实例的视触哈希码之间的汉明距离缩小,使不相似实例的视触哈希码之间的汉明距离增大:
其中,Sij∈{0,1}用来判断vi,tj是否属于同一类,Dij表示视觉数据vi对应的哈希码与触觉数据tj对应的哈希码之间的汉明距离,L为预设的间隔;通过该目标函数,可以使相似的视觉实例与触觉实例的哈希汉明距离小于间隔,使不相似的视觉实例与触觉实例的哈希汉明距离大于间隔;
S43:在单模态内部,存在丰富的结构信息,这些信息隐含了模态内部的语义和特征分布信息;定义以下模态内中心约束:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110748308.4A CN113468386B (zh) | 2021-07-01 | 2021-07-01 | 一种基于哈希学习的跨模态材料表面检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110748308.4A CN113468386B (zh) | 2021-07-01 | 2021-07-01 | 一种基于哈希学习的跨模态材料表面检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113468386A true CN113468386A (zh) | 2021-10-01 |
CN113468386B CN113468386B (zh) | 2023-10-20 |
Family
ID=77877344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110748308.4A Active CN113468386B (zh) | 2021-07-01 | 2021-07-01 | 一种基于哈希学习的跨模态材料表面检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468386B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103718205A (zh) * | 2011-04-27 | 2014-04-09 | 右脑界面公众有限责任公司 | 用于内容的协同上载的方法及装置 |
WO2017092183A1 (zh) * | 2015-12-03 | 2017-06-08 | 中山大学 | 一种基于可变长深度哈希学习的图像检索方法 |
CN107871014A (zh) * | 2017-11-23 | 2018-04-03 | 清华大学 | 一种基于深度融合哈希的大数据跨模态检索方法及系统 |
US20200073968A1 (en) * | 2018-09-04 | 2020-03-05 | Inception Institute of Artificial Intelligence, Ltd. | Sketch-based image retrieval techniques using generative domain migration hashing |
-
2021
- 2021-07-01 CN CN202110748308.4A patent/CN113468386B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103718205A (zh) * | 2011-04-27 | 2014-04-09 | 右脑界面公众有限责任公司 | 用于内容的协同上载的方法及装置 |
WO2017092183A1 (zh) * | 2015-12-03 | 2017-06-08 | 中山大学 | 一种基于可变长深度哈希学习的图像检索方法 |
CN107871014A (zh) * | 2017-11-23 | 2018-04-03 | 清华大学 | 一种基于深度融合哈希的大数据跨模态检索方法及系统 |
US20200073968A1 (en) * | 2018-09-04 | 2020-03-05 | Inception Institute of Artificial Intelligence, Ltd. | Sketch-based image retrieval techniques using generative domain migration hashing |
Non-Patent Citations (1)
Title |
---|
彭天强;栗芳;: "基于深度卷积神经网络和二进制哈希学习的图像检索方法", 电子与信息学报, no. 08 * |
Also Published As
Publication number | Publication date |
---|---|
CN113468386B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112966127B (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
Zhang et al. | Improved deep hashing with soft pairwise similarity for multi-label image retrieval | |
CN110084296B (zh) | 一种基于特定语义的图表示学习框架及其多标签分类方法 | |
CN111353076B (zh) | 训练跨模态检索模型的方法、跨模态检索的方法和相关装置 | |
Hussain et al. | A deep neural network and classical features based scheme for objects recognition: an application for machine inspection | |
US20180260414A1 (en) | Query expansion learning with recurrent networks | |
CN110929080B (zh) | 基于注意力和生成对抗网络的光学遥感图像检索方法 | |
US11640634B2 (en) | Deep learning based visual compatibility prediction for bundle recommendations | |
CN113657450A (zh) | 基于注意机制的陆战场图像-文本跨模态检索方法及其系统 | |
CN113065587B (zh) | 一种基于超关系学习网络的场景图生成方法 | |
CN112347932B (zh) | 一种点云-多视图融合的三维模型识别方法 | |
CN114817568B (zh) | 联合注意力机制与卷积神经网络的知识超图链接预测方法 | |
CN112084358B (zh) | 基于带有主题约束的区域强化网络的图像-文本匹配方法 | |
Huang et al. | Large-scale semantic web image retrieval using bimodal deep learning techniques | |
US20240046067A1 (en) | Data processing method and related device | |
CN113326384A (zh) | 一种基于知识图谱的可解释推荐模型的构建方法 | |
Zou et al. | [Retracted] Image Classification Model Based on Deep Learning in Internet of Things | |
CN115080587B (zh) | 一种基于知识图谱的电子元器件替代方法、装置及介质 | |
CN115952307A (zh) | 基于多模态图对比学习的推荐方法、电子设备及存储介质 | |
Xing et al. | Few-shot single-view 3d reconstruction with memory prior contrastive network | |
CN115879508A (zh) | 一种数据处理方法及相关装置 | |
CN117237704A (zh) | 一种基于二维依赖性的多标签图像分类方法 | |
CN116821340A (zh) | 基于深度学习的多标签文本分类方法 | |
CN113468386B (zh) | 一种基于哈希学习的跨模态材料表面检索方法及装置 | |
CN116186301A (zh) | 基于多模态分层图的多媒体推荐方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |