CN116244464A

CN116244464A - 一种基于多模态数据融合的手绘图像实时检索方法

Info

Publication number: CN116244464A
Application number: CN202310229513.9A
Authority: CN
Inventors: 唐晓宇; 戴大伟; 刘颖格; 李玉堂; 夏书银; 王国胤
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-06-09

Abstract

本发明属于动态草图检索领域，具体涉及一种基于多模态数据融合的手绘图像实时检索方法；该方法包括：使用完成训练的改进神经网络模型提取样本的图像特征与标签特征构建数据库，向模型输入目标图像的手绘草图和标签信息，得到草图的图像特征向量和标签特征向量；拼接草图的图像特征向量和标签特征向量，得到草图联合嵌入向量；计算草图联合嵌入向量和数据库中每个样本的联合嵌入向量的相似度，得到相似度集合；将相似度集合中的元素按照从大到小的顺序进行排序，取相似度最高的前K张样本图像作为最终的检索结果；本发明减少了手绘草图的早期检索时间，提高了检索效率。

Description

一种基于多模态数据融合的手绘图像实时检索方法

技术领域

本发明属于动态草图检索领域，具体涉及一种基于多模态数据融合的手绘图像实时检索方法。

背景技术

数据的迅速增长使得检索目标信息越来越困难，也因此衍生出了各类检索技术。但大部分检索技术仅针对单一模态内数据进行检索，如基于文本的检索(Text-basedImage Retrieval，TBIR)和基于内容的检索(Content-based image retrieval，CBIR)。基于草图的图像检索(Sketch-based image retrieval，SBIR)是一种用于根据用户的草图检索图像的技术。它是一种CBIR，根据图像的视觉内容进行检索。由于智能终端与触摸屏的普及，近年来基于草图的图像检索受到了广泛的关注。与传统的TBIR技术相比，SBIR有几个优势。它允许用户根据视觉概念来搜索图像，更灵活也更加直观，因为用户可以输入粗略的草图，仍然可以检索到视觉上相似的图像。细粒度草图检索(Fine grained SBIR，FG-SBIR)是针对手绘草图的细节进行图像匹配，能捕捉到类似图像之间的微妙差异，如物体小部分的轮廓和形状，旨在检索特定类别数据库中的特定照片。目前，对于FG-SBIR的研究取得了很大的进展，已经出现了在用户绘制草图的同时进行实时检索并进行反馈的实时FG-SBIR。对于FG-SBIR来说，草图绘制过程中存在几个问题阻碍了其在实践中的检索效果：(1)用户绘制的草图质量较低。(2)绘制早期的草图的完整度较低(3)草图缺少颜色、纹理等信息，样式差异小的目标图像的轮廓相似性极高，导致他们的草图也具有极高相似性，仅仅使用草图难以区分。

针对早期阶段草图的检索性能较低以及草图的信息缺失问题，可以通过引入基于文本的检索技术实现优化。而在实际应用中，海量的图像数据往往缺乏文本信息，或是文本信息不准确，由此也导致了多模态检索难以实现。如何为图像数据生成匹配的标签数据是为实现跨模态检索所必须解决的问题。

发明内容

针对现有技术存在的不足，本发明提出了一种基于多模态数据融合的手绘图像实时检索方法，该方法包括：向完成训练的改进神经网络模型输入目标图像的手绘草图和标签信息，实时检索并获得检索结果；所述改进神经网络模型包括f₁、f₂、f_3e和f_3c；f₁为经过预训练的特征提取层，f₂为注意力层，f_3e为图像降维层，f_3c为标签降维层；

改进神经网络模型的训练过程包括：

S1：构建训练集，包括图像集和标签集，图像集为多张实物图像、实物图像对应的完整草图和根据完整草图获取的草图分支集组成，标签集为实物图像对应的所有标签信息组成；

S2：根据训练集构建训练对，每个训练对包括一张草图分支集中随机抽取的草图、一张图像集中与草图对应的实物图像即正样本，一张图像集中随机抽取的不与草图对应的实物图像即负样本和一个标签集中与正样本对应的标签；

S3：将训练对输入到改进神经网络模型中进行处理，得到草图、正样本和负样本的图像特征向量以及正、负样本的标签特征向量；

S4：拼接正、负样本的图像特征向量和标签特征向量，得到正样本联合嵌入向量和负样本联合嵌入向量；拼接草图的图像特征向量和标签特征向量，得到草图联合嵌入向量；

S5：根据正样本联合嵌入向量、负样本联合嵌入向量和草图联合嵌入向量计算三重损失函数，将三重损失函数进行反向传播，调整改进神经网络模型的参数，得到训练好的改进神经网络模型。

优选的，草图分支集为将每一张草图按照绘制的笔画顺序渲染为多张草图，以此模拟草图的绘制过程，以每张草图的所有绘制过程的渲染图组成。

优选的，标签信息为根据实际应用场景对实物图像进行的特征编码表示，采用数字1表示对应特征存在，0表示对应特征不存在。

优选的，改进神经网络模型对训练对的处理过程包括：采用改进神经网络模型中的f₁、f₂提取草图、正样本和负样本的高维特征；将草图、正样本、负样本的高维特征都输入f_3e中进行处理，得到草图、正样本、负样本的图像特征向量；将正样本、负样本的高维特征输入f_3c中进行处理，得到正、负样本的标签特征向量。

优选的，三重损失函数的表达式为：

Loss＝max(d(V_s，V_p)-d(V_s，V_n)+α，0)

其中，Loss表示三重损失，V_s表示草图联合嵌入向量，V_p表示正样本联合嵌入向量，V_n表示负样本联合嵌入向量，α表示常数，d表示欧式距离计算。

优选的，输入目标图像的手绘草图和标签信息，实时检索并获得检索结果的步骤包括：

步骤1：用户输入的目标图像的手绘草图和标签信息经过f₁、f₂、f_3e、f_3c的处理，得到草图的图像特征向量和标签特征向量；

步骤2：拼接草图的图像特征向量和标签特征向量，得到草图联合嵌入向量；

步骤3：计算草图联合嵌入向量和数据库中每个样本的联合嵌入向量的相似度，得到相似度集合；

步骤4：将相似度集合中的元素按照从大到小的顺序进行排序，取相似度最高的前K张样本图像作为最终的检索结果。

进一步的，数据库为由实物图像的图像特征向量和标签特征向量拼接而成的联合嵌入向量构成。

进一步的，计算相似度采用欧式距离公式计算。

本发明的有益效果为：本发明提出的一种基于多模态数据融合的手绘图像实时检索方法，融合草图的图像特征向量和标签特征向量，实现了单一模型端到端一步训练，训练过程计算成本低，且具有标签生成与跨模态检索两项功能：对于没有标签的实物图像能够进行标签生成，解决人工标注困难或是数据集标签缺失的问题，训练完成的模型通过生成图像与语义信息两者的联合嵌入空间表示，实现了跨模态检索，提高在信息不足的早期绘制阶段的检索表现，并且补足草图中缺少信息，进一步提升检索表现，从而减少了手绘草图的早期检索时间，提高了检索效率。

附图说明

图1为本发明中改进神经网络模型训练示意图；

图2为本发明中草图分支渲染过程和样本标签编码示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于多模态数据融合的手绘图像实时检索方法，如图1所示，所述方法包括以下内容：包括：向完成训练的改进神经网络模型输入目标图像的手绘草图和标签信息，实时检索并获得检索结果；所述改进神经网络模型包括f₁、f₂、f_3e和f_3c；f₁为经过预训练的特征提取层，f₂为注意力层，f_3e为图像降维层，f_3c为标签降维层；

改进神经网络模型的训练过程包括：

S1：构建训练集，包括图像集和标签集，图像集为多张实物图像、实物图像对应的完整草图和根据完整草图获取的草图分支集组成，标签集为实物图像对应的所有标签信息组成。

如图2(a)所示，根据草图笔画信息，将每一张草图按照绘制的笔画顺序渲染为多张草图，以此模拟草图的绘制过程，每张草图的所有绘制过程的渲染图组成草图分支集；例如，对一张完整草图，根据草图的完整性将其渲染为N张图片，渲染完成后的所有图片就为一个草图分支。

如图2(b)所示，标签信息为根据实际应用场景对实物图像进行的特征编码表示，采用数字1表示对应特征存在，0表示对应特征不存在；具体的，对应位的10编码表示相应特征的有无，由此最后得到的向量作为具体某个样本的标签，该标签用于训练模型生成标签特征向量的能力。例如，对于人脸数据，特征可为性别、发型、肤色等。在训练阶段，需要进行人工标注，作为模型训练的指导标签；训练完成后，通过模型进行标签生成，从而构建数据库。

S2：根据训练集构建训练对，每个训练对包括一张草图分支集中随机抽取的草图、一张图像集中与草图对应的实物图像即正样本，一张图像集中随机抽取的不与草图对应的实物图像即负样本和一个标签集中与正样本对应的标签。

S3：将训练对输入到改进神经网络模型中进行处理，得到草图、正样本和负样本的图像特征向量以及正、负样本的标签特征向量。

训练对中的图像数据表示为P_k(k＝s，p，n)，标签数据表示为C_s；其中s表示草图，p表示正样本，n表示负样本。改进神经网络模型对训练对的处理过程包括：

采用改进神经网络模型中的经过预训练的迁移模型f₁提取草图、正样本和负样本的特征图，再使用注意力层f₂自适应计算特征重要性，获得高维特征；

草图、正样本、负样本的高维特征都输入f_3e中进行降维映射处理，得到草图、正样本、负样本的图像特征向量E_k(k＝s，p，n)；

将正样本、负样本的高维特征输入f_3c中进行降维映射处理，得到正、负样本的标签特征向量C_p、C_n。f_3e与f_3c结构类似，由于标签特征向量的维度通常会大幅低于图像特征向量，因此f_3c中降维幅度更大。

S4：拼接正、负样本的图像特征向量和标签特征向量，得到正样本联合嵌入向量和负样本联合嵌入向量；拼接草图的图像特征向量和标签特征向量，得到草图联合嵌入向量。

将提取的图像特征向量与标签特征向量以concat的方式进行拼接融合，可得到联合嵌入向量，表示为V_k＝(E_k，C_k)(k＝s，p，n)。

本发明使用三重损失函数计算误差，并进行反向传播以调整神经网络模型的参数，三重损失函数的表达式为：

Loss＝max(d(V_s，V_p)-d(V_s，V_n)+α，0)

其中，Loss表示三重损失，V_s表示草图联合嵌入向量，V_p表示正样本联合嵌入向量，V_n表示负样本联合嵌入向量，α表示常数，通常取值为一个接近于0的常数，d表示欧式距离计算。

得到训练好的改进神经网络模型后，构建图像与文本标签的多模态联合嵌入空间，设已有样本的图像为R，将R输入训练好的模型，则可以得到该样本的联合嵌入V_R＝(E_R，C_R)，假设已有样本总数为N，则可构建数据库Set＝{V_R1，V_R2，...，V_RN}。

输入目标图像的手绘草图和标签信息，实时检索并获得检索结果的步骤包括：

步骤1：用户输入的目标图像的手绘草图和标签信息经过f₁、f₂、f_3e、f_3c的处理，得到草图的图像特征向量和标签特征向量。

用户根据预先定义的特征类别输入标签，模型生成标签特征向量，用户在画板上绘制草图，每绘制一笔形成一张图片作为草图输入模型；草图和对应标签在模型处理后，得到草图的图像特征向量和标签特征向量。其中，用户在第i步输入的草图和其对应标签经模型处理后得到图像特征向量和标签特征向量分别可表示为E_i、C_i。

步骤2：拼接草图的图像特征向量和标签特征向量，得到草图联合嵌入向量。

将草图的图像特征向量E_i与标签特征向量C_i进行拼接融合，得到联合嵌入V_i＝(E_i，C_i)。

步骤3：计算草图联合嵌入向量和数据库中每个样本的联合嵌入向量的相似度，得到相似度集合。

优选的，计算相似度可采用欧式距离公式计算；根据欧氏距离公式计算V_i与数据库Set中每个样本的联合嵌入向量V_R的相似度，获得相似度集合D＝{d₁，d₂，...，d_n，...，d_N}。

若用户对输出的检索结果不满意，用户可接着绘制草图的下一笔，模型将重复上述过程，输出新的检索结果，以此实现用户的实时检索。

本发明在用户没有图像信息，且文字难以描述目标时，用户可以凭借对目标的记忆在触屏设备上手绘草图，同时可以输入想要检索到目标的特征(颜色、纹理、形状等)辅助检索，模型通过提取联合嵌入向量，在数据库中进行相似度对比，返回k张与商品草图最相似的图像，提升了早期绘制阶段的检索效率。对于数据库中图像缺乏标签信息情况，可以使用本方法中的模型进行标签生成，从而减少人工标注的成本。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态数据融合的手绘图像实时检索方法，其特征在于，包括：向完成训练的改进神经网络模型输入目标图像的手绘草图和标签信息，实时检索并获得检索结果；所述改进神经网络模型包括f₁、f₂、f_3e和f_3c；f₁为经过预训练的特征提取层，f₂为注意力层，f_3e为图像降维层，f_3c为标签降维层；

改进神经网络模型的训练过程包括：

2.根据要求1所述的一种基于多模态数据融合的手绘图像实时检索方法，其特征在于，所述草图分支集为将每一张草图按照绘制的笔画顺序渲染为多张草图，以此模拟草图的绘制过程，以每张草图的所有绘制过程的渲染图组成。

3.根据要求1所述的一种基于多模态数据融合的手绘图像实时检索方法，其特征在于，所述标签信息为根据实际应用场景对实物图像进行的特征编码表示，采用数字1表示对应特征存在，0表示对应特征不存在。

4.根据权利要求1所述的一种基于多模态数据融合的手绘图像实时检索方法，其特征在于，改进神经网络模型对训练对的处理过程包括：采用改进神经网络模型中的f₁、f₂提取草图、正样本和负样本的高维特征；将草图、正样本、负样本的高维特征都输入f_3e中进行处理，得到草图、正样本、负样本的图像特征向量；将正样本、负样本的高维特征输入f_3c中进行处理，得到正、负样本的标签特征向量。

5.根据权利要求1所述的一种基于多模态数据融合的手绘图像实时检索方法，其特征在于，所述三重损失函数的表达式为：

Loss＝max(d(V_s,V_p)-d(V_s,V_n)+α,0)

6.根据权利要求1所述的一种基于多模态数据融合的手绘图像实时检索方法，其特征在于，输入目标图像的手绘草图和标签信息，实时检索并获得检索结果的步骤包括：

7.根据权利要求6所述的一种基于多模态数据融合的手绘图像实时检索方法，其特征在于，所述数据库为由实物图像的图像特征向量和标签特征向量拼接而成的联合嵌入向量构成。

8.根据权利要求6所述的一种基于多模态数据融合的手绘图像实时检索方法，其特征在于，计算相似度采用欧式距离公式计算。