CN114860980B

CN114860980B - 一种基于草图局部特征和全局特征匹配的图像检索方法

Info

Publication number: CN114860980B
Application number: CN202210580704.5A
Authority: CN
Inventors: 戴大伟; 刘颖格; 唐晓宇; 李玉堂; 夏书银; 王国胤
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2024-07-19
Anticipated expiration: 2042-05-26
Also published as: CN114860980A

Abstract

本发明属于动态草图检索领域，具体涉及一种基于草图局部特征和全局特征匹配的图像检索方法，该方法包括：获取待检索的手绘草图序列及对应的草图块，将草图序列和草图块输入到训练好的神经网络模型中得到草图的嵌入向量和草图块的嵌入向量；计算嵌入向量输入数据的欧式距离；将计算出的欧式距离进行加权融合，根据融合后的欧式距离返回检索到top‑k张图片，得到草图的检索结果；改进的神经网络模型包括完整图像分支和切块图像分支；完整图像分支用于对完整的草图进行处理，切块图像分支用于对草图块进行处理；本发明针对序列草图笔画信息稀少的问题，使用草图分割的方法搭建不同分支的网络模型，减少草图笔画信息稀少带来的准确率下降的问题。

Description

一种基于草图局部特征和全局特征匹配的图像检索方法

技术领域

本发明属于动态草图检索领域，具体涉及一种基于草图局部特征和全局特征匹配的图像检索方法。

背景技术

由于触摸设备的快速普及，尤其是移动电话、平板电脑等带有触屏功能的智能移动端的普及，为广大用户提供了更为快速便捷的手绘和手写录入的条件，使得在人们的日常生活、工作、娱乐等场景中通过手绘图像来更加快捷的传递信息。随着计算机视觉领域的不断发展，与手绘草图相关的计算机视觉问题也相继被提出，基于草图的图像检索由于其潜在的商业应用而受到特别关注。该检索方式可以在不知道检索图像的名称以及没有图像时，通过使用图像的草图作为辅助工具用来查找目标图像。由于草图具有抽象性，且用户的绘图技巧等级不同，导致了绘制的草图风格千变万化，这给草图检索带来了很大的挑战。其次，使用草图进行检索时还需要考虑到时间问题，即绘制一幅完整的草图需要时间，在实际应用中，需要用户全部绘制出完整草图才能检索，这严重降低用户的体验感。

在实时草图检索中，能够根据绘制草图的时间得到一个草图序列。在草图序列中草图随着笔画的不断增加含有的笔画信息也在逐渐增加，检索准确率随着草图完整性而不断上升，而在草图不完整初期使用较少的笔画信息检索到目标图像能大大较少检索时间。由于草图本身只包含黑白两色、线条简单、含信息少等特点，使得图像检索的准确度较低，而采用完整的草图进行检索时，由于获取完整草图的时间长，且成本高，导致检索的效率高。因此如何提高检索的效率以及检索的精确度成为草图研究中的问题。

发明内容

为解决以上现有技术存在的问题，本发明提出了一种基于草图局部特征和全局特征匹配的图像检索方法，该方法包括：实时获取待检索的手绘草图序列以及手绘草图序列对应的草图块；将手绘草图序列和草图块输入到训练好的改进的神经网络模型中，得到草图的嵌入向量和草图块的嵌入向量；计算草图嵌入向量与输入的草图序列的欧式距离，计算草图块的嵌入向量与输入的草图块的欧式距离；对草图的欧式距离和草图块的欧式距离进行加权融合，根据融合后的欧式距离返回检索到top-k张图片，得到草图的检索结果；改进的神经网络模型包括完整图像分支和切块图像分支，完整图像分支和切块图像分支均采用骨干模型，其中骨干模型包括预训练网络、注意力层以及降维层；完整图像分支用于对完整的草图进行处理，切块图像分支用于对草图块进行处理。

优选的，对改进的神经网络模型进行训练的过程包括：

S1：构建训练集，训练集中的数据包括手绘草图和手绘草图对应的草图块；

S2：将训练集中完整的手绘草图和对应的手绘草图块分别输入到骨干模型中，采用三重损失对骨干模型进行预训练；

S3：将完整的草图按照笔画数将其渲染成一个含有n张草图的渐进式的草图序列，该草图序列中每一张草图包含的笔画信息由少到多；

S4：将渲染后的草图序列中的每一张图像进行切分成m块，并记录每一个草图块的笔画信息所占比例k；

S5：将含有n张草图的草图序列输入到完整图像分支中，得到草图的嵌入向量；采用三重损失函数计算草图序列中每一张草图的嵌入向量与目标图像的嵌入向量之间的损失；

S6：将对应的m张草图序列块同时输入到切块图像分支中，得到得到m个草图块的嵌入向量；计算m个草图块的嵌入向量和对应的m个图像块的嵌入向量之间的误差；根据比例k将m个误差进行融合，得到切块图像分支的损失；

S7：将草图序列中所有草图的损失和草图块的损失进行融合，得到模型的损失函数，将模型的损失函数进行反向传播，调整模型中的参数；

S8：获取下一张目标图像的草图分支，重复上述步骤S3-S7，直至模型达到训练次数上限。

进一步的，构建训练集的过程包括：根据绘制一幅图像的草图所需的笔画数将对应图像的草图渲染成所需要的n张草图序列，渲染完成后对数据集进行切分，将数据集中的所有图像以及渲染后的草图序列均切分成m份，对切分后的数据进行集合，得到数据集；数据集由完整图像集和切块图像集组成，完整图像集包含多张完整图像以及对应图像按照时间顺序渲染成的n张手绘草图序列集组成，切块图像集中的图像是由完整图像集中的每一张图片切分成m块组成。

优选的，提取完整图像集中每一张草图的嵌入向量的过程包括：将已经渲染好的草图序列按照笔画由少到多的顺序输入到固定参数的预训练网络层f1和完整图像分支的注意力层f2，得到草图的特征向量；将经过f1和f2提取到的特征向量输入到模型中完整图像分支的降维层f3中进行降维处理，得到草图的嵌入向量。

优选的，获取草图块的嵌入向量的过程包括：将草图块输入到预训练网络层f1和切块图像分支的注意力层f2’中，得到草图块的特征向量；将经过f1和f2’提取到的特征向量输入到切块图像分支的降维层f3’中进行降维处理，得到m个草图块的嵌入向量。

优选的，采用三重损失函数计算草图的嵌入向量与目标图像的嵌入向量的损失函数为：

其中，tripleLossComplete表示完整草图的三重态损失，N表示渲染后草图序列中的草图张数，表示第i张草图的嵌入向量，表示中第i张草图，表示草图的目标图像的嵌入向量，表示目标图像，表示草图的负样本的嵌入向量，表示草图的负样本。

优选的，计算草图块的嵌入向量和对应图像块的嵌入向量的误差表达式为：

其中，表示第i块草图的嵌入向量，表示第i块草图块，表示草图的目标图像的嵌入向量，表示第i块草图块对应的目标图像块，表示草图的负样本的嵌入向量，表示对应的负样本图像块；tripleLossPart表示草图块的三重态损失，M表示完整草图切分的块数。

优选的，模型的损失函数表达式为：

其中，tripleLossComplete表示完整草图的三重态损失，N表示渲染后草图序列中的草图张数，tripleLossPart表示切块草图的三重态损失，M表示草图切分的块数。

优选的，计算草图块的嵌入向量与输入的草图块的欧式距离的公式为：

D_local＝W₃₁*d₁+W₃₂*d₂+W₃₃*d₃+……+W_3m*d_m

其中，W_3m表示第m个草图块的像素值在完整草图的像素值的比值，且W₃₁+W₃₂+W₃₃+……+W_3m＝1；d_m表示第m个草图块与对应的输入草图块的欧式距离。

优选的，对草图的欧式距离和草图块的欧式距离进行加权处理融合处理的公式为：

D＝W₁*D_complete+W₂*D_local

其中，W₁和W₂均表示常量，且W₁+W₂＝1；D_complete表示草图嵌入向量与输入的草图序列的欧式距离，D_local表示草图块的嵌入向量与输入的草图块的欧式距离。

本发明的有益效果

本发明针对序列草图笔画信息稀少的问题，使用草图分割的方法搭建不同分支的网络模型，减少草图笔画信息稀少带来的准确率下降的问题。本方法中在草图的早期笔画信息比较少时使用包含信息多的部分草图块与图像中的相应的块进行匹配，减少信息冗余提高检索效率，使用局部欧式距离进行计算，增加准确率。当草图笔画信息比较多时，每一个切片中包含的信息比较均匀，使用完整草图信息进行匹配。不同阶段的草图全局和部分的欧式距离的使用提高了检索的准确率，减少了手绘草图的检索时间，提高了检索效率。

附图说明

图1为本发明的深度神经网络骨干模型图；

图2为本发明的深度神经网络模型图；

图3为本发明的图像数据增强的模型图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对现有技术中草图本身只包含黑白两色、线条简单、含信息少等特点，使得图像检索的准确度较低，而采用完整的草图进行检索时，由于获取完整草图的时间长，且成本高，导致检索的效率高的问题，本申请使用草图分割的方法，局部匹配草图信息可以在笔画信息少的时候大大增加检索效率。草图序列中笔画少的草图信息分布在某一块中，使用局部信息进行匹配，能够较少计算量，提高计算精度。草图初期使用一整副草图进行检索草图中含有的信息比较少经过网络处理可能出现信息偏差和计算量增加，所以本方法将草图进分割片，草图的早期笔画信息比较少时使用包含信息多的部分草图块与图像中的相应的块进行匹配，减少信息冗余提高检索效率，使用局部欧式距离进行计算，增加准确率。

一种基于草图局部特征和全局特征匹配的图像检索方法的具体实施方式，该方法包括：实时获取待检索的手绘草图序列以及手绘草图序列对应的草图块，将手绘草图序列和草图块输入到训练好的改进的神经网络模型中，得到草图的嵌入向量和草图块的嵌入向量；计算草图嵌入向量与输入的草图序列的欧式距离，计算草图块的嵌入向量与输入的草图块的欧式距离；对草图的欧式距离和草图块的欧式距离进行加权融合，根据融合后的欧式距离返回检索到top-k张图片，得到草图的检索结果；改进的神经网络模型包括完整图像分支和切块图像分支，完整图像分支和切块图像分支均采用骨干模型，其中骨干模型如图1所示，包括预训练网络、注意力层以及降维层；完整图像分支用于对完整的草图进行处理，切块图像分支用于对草图块进行处理。

如图2所示，对改进的神经网络模型进行训练的过程包括：

S1：构建训练集，训练集中的数包括手绘草图和手绘草图对应的草图块；

S5：将含有n张草图的草图序列输入到完整图像分支中，得到草图的嵌入向量；采用三重损失函数计算草图序列中每一张草图的嵌入向量与目标图像的嵌入向量之间的损失。

提取完整图像集中每一张草图的嵌入向量的过程包括：将已经渲染好的草图序列按照笔画由少到多的顺序输入到固定参数的预训练网络层f1和完整图像分支的注意力层f2，得到草图的特征向量；将经过f1和f2提取到的特征向量输入到模型中完整图像分支的降维层f3中进行降维处理，得到草图的嵌入向量。

S6：将对应的m张草图序列块同时输入到切块图像分支中，得到得到m个草图块的嵌入向量；计算m个草图块的嵌入向量和对应的m个图像块的嵌入向量之间的误差；根据比例k将m个误差进行融合，得到切块图像分支的损失。

获取草图块的嵌入向量的过程包括：将草图块输入到预训练网络层f1和切块图像分支的注意力层f2’中，得到草图块的特征向量；将经过f1和f2’提取到的特征向量输入到切块图像分支的降维层f3’中进行降维处理，得到m个草图块的嵌入向量。

本发明使用已经存在的QMUL-Shoe-V2数据集和QMUL-Chair-V2数据集并对该数据集进行数据增强，在原有的图像上做改变。每一个数据集都包含下面的变化，训练所用的数据集由完整图像集complateSet＝{I,S}和切块图像集组成partSet＝{I_part,S_part}组成，完整图像集complateSet＝{I,S}由多张完整图像I＝{I₁,I₂,......,I_N}以及对应图像按照时间顺序渲染成的n张手绘草图序列集组成S＝{S₁,S₂,......,S_N}，其中N表示有N张图片，每一个草图序列S＝{s₁,s₂,......,s_n}都由n张草图。切块图像集组成partSet＝{I_part,S_part}中对completeSet中的图像进行切割，每一张图像切成m块I＝{i₁,i₂,......,i_m}，草图序列中每一张草图s_n切分成m块s＝{s₁,s₂,......,s_m}。切分后的图像是原来图像的同时在切割的过程中记录草图序列中每一张草图在切分m块后{s₁,s₂,......,s_m}占原草图s的像素值占比P＝{p₁,p₂,......,p_m}。

对训练集中的数据进行增强处理的过程包括：根据绘制一幅图像的草图所需的笔画数将对应图像的草图渲染成所需要的n张草图序列，渲染完成后对目前的数据集进行切分，将数据集中的所有图像以及渲染后的草图序列均切分成m份。数据增强后的数据集由完整图像集和切块图像集组成，完整图像集包含多张完整图像以及对应图像按照时间顺序渲染成的n张手绘草图序列集组成，切块图像集中的图像是由完整图像集中的每一张图片切分成m块组成的。记录草图序列中每一张，切分后的m张草图占原草图的像素值占比P。

采用三重损失函数计算草图序列中每一张草图的嵌入向量和目标图像的嵌入向量误差tripleLossComplete，损失表达式为：

使用三重损失函数计算切块草图中每一块草图的嵌入向量和目标切块图像的嵌入向量误差tripleLossPart，序列草图中每一张草图切块m张，就能得到m个切块的嵌入向量误差tripleLossPart，损失表达式为：

模型的损失函数为：

在一实施例中，如图3所示，序列草图采用相同笔画数均分的方式，每一张草图笔画数逐渐增加，同时能够看到图像分割后的大小是原来图像的对草图进行切分，切分后的草图随着笔画信息的逐渐增加每一块中的像素占比不断增加。

图像检索时使用草图的嵌入向量与图像集中的所有图像分别计算欧式距离D，当草图与图像的欧式距离D的值小于某个阈值时，返回的图像即为检索出的目标图像。一个草图序列中，排名越靠前的草图包含的草图信息越少，使用笔画信息少的完整图像与图像库中进行匹配，容易造成信息浪费而且计算量增加。本方法中将草图进行切片，草图的早期笔画信息比较少时使用包含信息多的部分草图块与图像中的相应的块进行匹配，减少信息冗余提高检索效率，使用局部欧式距离进行计算，增加准确率。当草图笔画信息比较多时，每一个切片中包含的信息比较均匀，使用完整草图信息进行匹配。

根据完整草图与切块草图的关系对距离向量中的元素的d进行加权处理。每一张草图经过模型之后得到的嵌入向量与图像进行欧式距离计算，得到D_complete，每一张草图对应的草图块与相对应的图像块进行欧式距离得到D_local＝{d₁，d₂，……，d_m}，对草图块中的欧式距离根据该草图块的像素值占原草图的像素值的比值进行加权处理，随后对完整草图和草图块的欧式距离加权出处理之后得到的一张草图的欧式距离是：

D＝W₁*D_complete+W₂*D_local

计算草图块的嵌入向量与输入的草图块的欧式距离的公式为：

D_local＝W₃₁*d₁+W₃₂*d₂+W₃₃*d₃+……+W_3m*d_m

一种手绘图像实时检索的具体实施方式，该过程包括：

步骤1、根据用户在画板上绘制的草图作为原始草图，按照绘图的笔画顺序，每增加一笔就形成一张图片；

步骤2、将用户绘制的草图进行数据增强，切分成m块，并计算每一个小块占元草图的像素值占比。当前笔画的图片预训练网络f1和f2模块，得到当前笔画的图片的嵌入向量，该草图的草图块送入预训练网络f1和f2’模块；

步骤3、将当前笔画的图片送入网络模型的f₃模块，草图块送入f3’得到降维后的嵌入向量；

步骤4、判断m个草图块的p的最大值与设置的阈值d的大小，若是P的最大值小于d，计算每一个草图块和对应位置的所有图像块的欧式距离和完整图片与数据库中的图像之间的欧氏距离。否则只计算完整图片与数据库中的图像之间的欧氏距离；

步骤5、根据图片与数据库中的图像之间的欧氏距离返回检索到的k张图片。

步骤6、获取用户绘制的下一笔，重复步骤2-步骤5，直至检索到目标图片或所有笔画检索完。

在没有商品图片，且文字难以描述该商品时，用户可以凭借对商品的映象在触屏设备上手绘商品草图，商品草图渲染为草图分支后输入训练好的神经网络模型，模型通过对草图分支的检索返回k张与商品草图最相似的图像。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于草图局部特征和全局特征匹配的图像检索方法，其特征在于，该方法包括：实时获取待检索的手绘草图序列以及手绘草图序列对应的草图块；将手绘草图序列和草图块输入到训练好的改进的神经网络模型中，得到草图的嵌入向量和草图块的嵌入向量；计算草图嵌入向量与输入的草图序列的欧式距离，计算草图块的嵌入向量与输入的草图块的欧式距离；对草图的欧式距离和草图块的欧式距离进行加权融合，根据融合后的欧式距离返回检索到top-k张图片，得到草图的检索结果；改进的神经网络模型包括完整图像分支和切块图像分支，完整图像分支和切块图像分支均采用骨干模型，其中骨干模型包括预训练网络、注意力层以及降维层；完整图像分支用于对完整的草图进行处理，切块图像分支用于对草图块进行处理；

对改进的神经网络模型进行训练的过程包括：

S1：构建训练集，训练集中的数据包括手绘草图和手绘草图对应的草图块；具体包括：根据绘制一幅图像的草图所需的笔画数将对应图像的草图渲染成所需要的n张草图序列，渲染完成后对数据集进行切分，将数据集中的所有图像以及渲染后的草图序列均切分成m份，对切分后的数据进行集合，得到数据集；数据集由完整图像集和切块图像集组成，完整图像集包含多张完整图像以及对应图像按照时间顺序渲染成的n张手绘草图序列集组成，切块图像集中的图像是由完整图像集中的每一张图片切分成m块组成；

S3：将完整的草图按照笔画数将其渲染成一个含有n张草图的渐进式草图序列，该草图序列中每一张草图包含的笔画信息由少到多；

提取完整图像集中每一张草图的嵌入向量的过程包括：将已经渲染好的草图序列按照笔画由少到多的顺序输入到固定参数的预训练网络层f1和完整图像分支的注意力层f2，得到草图的特征向量；将经过f1和f2提取到的特征向量输入到模型中完整图像分支的降维层f3中进行降维处理，得到草图的嵌入向量；

采用三重损失函数计算草图的嵌入向量与目标图像的嵌入向量的损失函数为：

其中，tripleLossComplete表示完整草图的三重态损失，N表示渲染后草图序列中的草图张数，表示第i张草图的嵌入向量，表示中第i张草图，表示草图的目标图像的嵌入向量，表示目标图像，表示草图的负样本的嵌入向量，表示草图的负样本；

获取草图块的嵌入向量的过程包括：将草图块输入到预训练网络层f1和切块图像分支的注意力层f2’中，得到草图块的特征向量；将经过f1和f2’提取到的特征向量输入到切块图像分支的降维层f3’中进行降维处理，得到m个草图块的嵌入向量；

计算草图块的嵌入向量和对应图像块的嵌入向量的误差表达式为：

其中，表示第i块草图的嵌入向量，表示第i块草图块，表示草图的目标图像的嵌入向量，表示第i块草图块对应的目标图像块，表示草图的负样本的嵌入向量，表示对应的负样本图像块；tripleLossPart表示草图块的三重态损失，M表示完整草图切分的块数；

2.根据权利要求1所述的一种基于草图局部特征和全局特征匹配的图像检索方法，模型的损失函数表达式为：

3.根据权利要求1所述的一种基于草图局部特征和全局特征匹配的图像检索方法，其特征在于，计算草图块的嵌入向量与输入的草图块的欧式距离的公式为：

D_local＝W₃₁*d₁+W₃₂*d₂+W₃₃*d₃+……+W_3m*d_m

4.根据权利要求1所述的一种基于草图局部特征和全局特征匹配的图像检索方法，其特征在于，对草图的欧式距离和草图块的欧式距离进行加权处理融合处理的公式为：

D＝W₁*D_complete+W₂*D_local