CN114860980B - 一种基于草图局部特征和全局特征匹配的图像检索方法 - Google Patents
一种基于草图局部特征和全局特征匹配的图像检索方法 Download PDFInfo
- Publication number
- CN114860980B CN114860980B CN202210580704.5A CN202210580704A CN114860980B CN 114860980 B CN114860980 B CN 114860980B CN 202210580704 A CN202210580704 A CN 202210580704A CN 114860980 B CN114860980 B CN 114860980B
- Authority
- CN
- China
- Prior art keywords
- sketch
- image
- block
- sequence
- embedded vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 101
- 230000009467 reduction Effects 0.000 claims abstract description 18
- 238000003062 neural network model Methods 0.000 claims abstract description 13
- 238000005520 cutting process Methods 0.000 claims abstract description 5
- 244000025254 Cannabis sativa Species 0.000 claims description 23
- 238000009877 rendering Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 11
- 230000000750 progressive effect Effects 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims 1
- 230000011218 segmentation Effects 0.000 abstract description 3
- 208000006011 Stroke Diseases 0.000 description 33
- 230000001965 increasing effect Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 3
- 239000002699 waste material Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明属于动态草图检索领域,具体涉及一种基于草图局部特征和全局特征匹配的图像检索方法,该方法包括:获取待检索的手绘草图序列及对应的草图块,将草图序列和草图块输入到训练好的神经网络模型中得到草图的嵌入向量和草图块的嵌入向量;计算嵌入向量输入数据的欧式距离;将计算出的欧式距离进行加权融合,根据融合后的欧式距离返回检索到top‑k张图片,得到草图的检索结果;改进的神经网络模型包括完整图像分支和切块图像分支;完整图像分支用于对完整的草图进行处理,切块图像分支用于对草图块进行处理;本发明针对序列草图笔画信息稀少的问题,使用草图分割的方法搭建不同分支的网络模型,减少草图笔画信息稀少带来的准确率下降的问题。
Description
技术领域
本发明属于动态草图检索领域,具体涉及一种基于草图局部特征和全局特征匹配的图像检索方法。
背景技术
由于触摸设备的快速普及,尤其是移动电话、平板电脑等带有触屏功能的智能移动端的普及,为广大用户提供了更为快速便捷的手绘和手写录入的条件,使得在人们的日常生活、工作、娱乐等场景中通过手绘图像来更加快捷的传递信息。随着计算机视觉领域的不断发展,与手绘草图相关的计算机视觉问题也相继被提出,基于草图的图像检索由于其潜在的商业应用而受到特别关注。该检索方式可以在不知道检索图像的名称以及没有图像时,通过使用图像的草图作为辅助工具用来查找目标图像。由于草图具有抽象性,且用户的绘图技巧等级不同,导致了绘制的草图风格千变万化,这给草图检索带来了很大的挑战。其次,使用草图进行检索时还需要考虑到时间问题,即绘制一幅完整的草图需要时间,在实际应用中,需要用户全部绘制出完整草图才能检索,这严重降低用户的体验感。
在实时草图检索中,能够根据绘制草图的时间得到一个草图序列。在草图序列中草图随着笔画的不断增加含有的笔画信息也在逐渐增加,检索准确率随着草图完整性而不断上升,而在草图不完整初期使用较少的笔画信息检索到目标图像能大大较少检索时间。由于草图本身只包含黑白两色、线条简单、含信息少等特点,使得图像检索的准确度较低,而采用完整的草图进行检索时,由于获取完整草图的时间长,且成本高,导致检索的效率高。因此如何提高检索的效率以及检索的精确度成为草图研究中的问题。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种基于草图局部特征和全局特征匹配的图像检索方法,该方法包括:实时获取待检索的手绘草图序列以及手绘草图序列对应的草图块;将手绘草图序列和草图块输入到训练好的改进的神经网络模型中,得到草图的嵌入向量和草图块的嵌入向量;计算草图嵌入向量与输入的草图序列的欧式距离,计算草图块的嵌入向量与输入的草图块的欧式距离;对草图的欧式距离和草图块的欧式距离进行加权融合,根据融合后的欧式距离返回检索到top-k张图片,得到草图的检索结果;改进的神经网络模型包括完整图像分支和切块图像分支,完整图像分支和切块图像分支均采用骨干模型,其中骨干模型包括预训练网络、注意力层以及降维层;完整图像分支用于对完整的草图进行处理,切块图像分支用于对草图块进行处理。
优选的,对改进的神经网络模型进行训练的过程包括:
S1:构建训练集,训练集中的数据包括手绘草图和手绘草图对应的草图块;
S2:将训练集中完整的手绘草图和对应的手绘草图块分别输入到骨干模型中,采用三重损失对骨干模型进行预训练;
S3:将完整的草图按照笔画数将其渲染成一个含有n张草图的渐进式的草图序列,该草图序列中每一张草图包含的笔画信息由少到多;
S4:将渲染后的草图序列中的每一张图像进行切分成m块,并记录每一个草图块的笔画信息所占比例k;
S5:将含有n张草图的草图序列输入到完整图像分支中,得到草图的嵌入向量;采用三重损失函数计算草图序列中每一张草图的嵌入向量与目标图像的嵌入向量之间的损失;
S6:将对应的m张草图序列块同时输入到切块图像分支中,得到得到m个草图块的嵌入向量;计算m个草图块的嵌入向量和对应的m个图像块的嵌入向量之间的误差;根据比例k将m个误差进行融合,得到切块图像分支的损失;
S7:将草图序列中所有草图的损失和草图块的损失进行融合,得到模型的损失函数,将模型的损失函数进行反向传播,调整模型中的参数;
S8:获取下一张目标图像的草图分支,重复上述步骤S3-S7,直至模型达到训练次数上限。
进一步的,构建训练集的过程包括:根据绘制一幅图像的草图所需的笔画数将对应图像的草图渲染成所需要的n张草图序列,渲染完成后对数据集进行切分,将数据集中的所有图像以及渲染后的草图序列均切分成m份,对切分后的数据进行集合,得到数据集;数据集由完整图像集和切块图像集组成,完整图像集包含多张完整图像以及对应图像按照时间顺序渲染成的n张手绘草图序列集组成,切块图像集中的图像是由完整图像集中的每一张图片切分成m块组成。
优选的,提取完整图像集中每一张草图的嵌入向量的过程包括:将已经渲染好的草图序列按照笔画由少到多的顺序输入到固定参数的预训练网络层f1和完整图像分支的注意力层f2,得到草图的特征向量;将经过f1和f2提取到的特征向量输入到模型中完整图像分支的降维层f3中进行降维处理,得到草图的嵌入向量。
优选的,获取草图块的嵌入向量的过程包括:将草图块输入到预训练网络层f1和切块图像分支的注意力层f2’中,得到草图块的特征向量;将经过f1和f2’提取到的特征向量输入到切块图像分支的降维层f3’中进行降维处理,得到m个草图块的嵌入向量。
优选的,采用三重损失函数计算草图的嵌入向量与目标图像的嵌入向量的损失函数为:
其中,tripleLossComplete表示完整草图的三重态损失,N表示渲染后草图序列中的草图张数,表示第i张草图的嵌入向量,表示中第i张草图,表示草图的目标图像的嵌入向量,表示目标图像,表示草图的负样本的嵌入向量,表示草图的负样本。
优选的,计算草图块的嵌入向量和对应图像块的嵌入向量的误差表达式为:
其中,表示第i块草图的嵌入向量,表示第i块草图块,表示草图的目标图像的嵌入向量,表示第i块草图块对应的目标图像块,表示草图的负样本的嵌入向量,表示对应的负样本图像块;tripleLossPart表示草图块的三重态损失,M表示完整草图切分的块数。
优选的,模型的损失函数表达式为:
其中,tripleLossComplete表示完整草图的三重态损失,N表示渲染后草图序列中的草图张数,tripleLossPart表示切块草图的三重态损失,M表示草图切分的块数。
优选的,计算草图块的嵌入向量与输入的草图块的欧式距离的公式为:
Dlocal=W31*d1+W32*d2+W33*d3+……+W3m*dm
其中,W3m表示第m个草图块的像素值在完整草图的像素值的比值,且W31+W32+W33+……+W3m=1;dm表示第m个草图块与对应的输入草图块的欧式距离。
优选的,对草图的欧式距离和草图块的欧式距离进行加权处理融合处理的公式为:
D=W1*Dcomplete+W2*Dlocal
其中,W1和W2均表示常量,且W1+W2=1;Dcomplete表示草图嵌入向量与输入的草图序列的欧式距离,Dlocal表示草图块的嵌入向量与输入的草图块的欧式距离。
本发明的有益效果
本发明针对序列草图笔画信息稀少的问题,使用草图分割的方法搭建不同分支的网络模型,减少草图笔画信息稀少带来的准确率下降的问题。本方法中在草图的早期笔画信息比较少时使用包含信息多的部分草图块与图像中的相应的块进行匹配,减少信息冗余提高检索效率,使用局部欧式距离进行计算,增加准确率。当草图笔画信息比较多时,每一个切片中包含的信息比较均匀,使用完整草图信息进行匹配。不同阶段的草图全局和部分的欧式距离的使用提高了检索的准确率,减少了手绘草图的检索时间,提高了检索效率。
附图说明
图1为本发明的深度神经网络骨干模型图;
图2为本发明的深度神经网络模型图;
图3为本发明的图像数据增强的模型图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对现有技术中草图本身只包含黑白两色、线条简单、含信息少等特点,使得图像检索的准确度较低,而采用完整的草图进行检索时,由于获取完整草图的时间长,且成本高,导致检索的效率高的问题,本申请使用草图分割的方法,局部匹配草图信息可以在笔画信息少的时候大大增加检索效率。草图序列中笔画少的草图信息分布在某一块中,使用局部信息进行匹配,能够较少计算量,提高计算精度。草图初期使用一整副草图进行检索草图中含有的信息比较少经过网络处理可能出现信息偏差和计算量增加,所以本方法将草图进分割片,草图的早期笔画信息比较少时使用包含信息多的部分草图块与图像中的相应的块进行匹配,减少信息冗余提高检索效率,使用局部欧式距离进行计算,增加准确率。
一种基于草图局部特征和全局特征匹配的图像检索方法的具体实施方式,该方法包括:实时获取待检索的手绘草图序列以及手绘草图序列对应的草图块,将手绘草图序列和草图块输入到训练好的改进的神经网络模型中,得到草图的嵌入向量和草图块的嵌入向量;计算草图嵌入向量与输入的草图序列的欧式距离,计算草图块的嵌入向量与输入的草图块的欧式距离;对草图的欧式距离和草图块的欧式距离进行加权融合,根据融合后的欧式距离返回检索到top-k张图片,得到草图的检索结果;改进的神经网络模型包括完整图像分支和切块图像分支,完整图像分支和切块图像分支均采用骨干模型,其中骨干模型如图1所示,包括预训练网络、注意力层以及降维层;完整图像分支用于对完整的草图进行处理,切块图像分支用于对草图块进行处理。
如图2所示,对改进的神经网络模型进行训练的过程包括:
S1:构建训练集,训练集中的数包括手绘草图和手绘草图对应的草图块;
S2:将训练集中完整的手绘草图和对应的手绘草图块分别输入到骨干模型中,采用三重损失对骨干模型进行预训练;
S3:将完整的草图按照笔画数将其渲染成一个含有n张草图的渐进式的草图序列,该草图序列中每一张草图包含的笔画信息由少到多;
S4:将渲染后的草图序列中的每一张图像进行切分成m块,并记录每一个草图块的笔画信息所占比例k;
S5:将含有n张草图的草图序列输入到完整图像分支中,得到草图的嵌入向量;采用三重损失函数计算草图序列中每一张草图的嵌入向量与目标图像的嵌入向量之间的损失。
提取完整图像集中每一张草图的嵌入向量的过程包括:将已经渲染好的草图序列按照笔画由少到多的顺序输入到固定参数的预训练网络层f1和完整图像分支的注意力层f2,得到草图的特征向量;将经过f1和f2提取到的特征向量输入到模型中完整图像分支的降维层f3中进行降维处理,得到草图的嵌入向量。
S6:将对应的m张草图序列块同时输入到切块图像分支中,得到得到m个草图块的嵌入向量;计算m个草图块的嵌入向量和对应的m个图像块的嵌入向量之间的误差;根据比例k将m个误差进行融合,得到切块图像分支的损失。
获取草图块的嵌入向量的过程包括:将草图块输入到预训练网络层f1和切块图像分支的注意力层f2’中,得到草图块的特征向量;将经过f1和f2’提取到的特征向量输入到切块图像分支的降维层f3’中进行降维处理,得到m个草图块的嵌入向量。
S7:将草图序列中所有草图的损失和草图块的损失进行融合,得到模型的损失函数,将模型的损失函数进行反向传播,调整模型中的参数;
S8:获取下一张目标图像的草图分支,重复上述步骤S3-S7,直至模型达到训练次数上限。
本发明使用已经存在的QMUL-Shoe-V2数据集和QMUL-Chair-V2数据集并对该数据集进行数据增强,在原有的图像上做改变。每一个数据集都包含下面的变化,训练所用的数据集由完整图像集complateSet={I,S}和切块图像集组成partSet={Ipart,Spart}组成,完整图像集complateSet={I,S}由多张完整图像I={I1,I2,......,IN}以及对应图像按照时间顺序渲染成的n张手绘草图序列集组成S={S1,S2,......,SN},其中N表示有N张图片,每一个草图序列S={s1,s2,......,sn}都由n张草图。切块图像集组成partSet={Ipart,Spart}中对completeSet中的图像进行切割,每一张图像切成m块I={i1,i2,......,im},草图序列中每一张草图sn切分成m块s={s1,s2,......,sm}。切分后的图像是原来图像的同时在切割的过程中记录草图序列中每一张草图在切分m块后{s1,s2,......,sm}占原草图s的像素值占比P={p1,p2,......,pm}。
对训练集中的数据进行增强处理的过程包括:根据绘制一幅图像的草图所需的笔画数将对应图像的草图渲染成所需要的n张草图序列,渲染完成后对目前的数据集进行切分,将数据集中的所有图像以及渲染后的草图序列均切分成m份。数据增强后的数据集由完整图像集和切块图像集组成,完整图像集包含多张完整图像以及对应图像按照时间顺序渲染成的n张手绘草图序列集组成,切块图像集中的图像是由完整图像集中的每一张图片切分成m块组成的。记录草图序列中每一张,切分后的m张草图占原草图的像素值占比P。
采用三重损失函数计算草图序列中每一张草图的嵌入向量和目标图像的嵌入向量误差tripleLossComplete,损失表达式为:
其中,tripleLossComplete表示完整草图的三重态损失,N表示渲染后草图序列中的草图张数,表示第i张草图的嵌入向量,表示中第i张草图,表示草图的目标图像的嵌入向量,表示目标图像,表示草图的负样本的嵌入向量,表示草图的负样本。
使用三重损失函数计算切块草图中每一块草图的嵌入向量和目标切块图像的嵌入向量误差tripleLossPart,序列草图中每一张草图切块m张,就能得到m个切块的嵌入向量误差tripleLossPart,损失表达式为:
其中,表示第i块草图的嵌入向量,表示第i块草图块,表示草图的目标图像的嵌入向量,表示第i块草图块对应的目标图像块,表示草图的负样本的嵌入向量,表示对应的负样本图像块;tripleLossPart表示草图块的三重态损失,M表示完整草图切分的块数。
模型的损失函数为:
在一实施例中,如图3所示,序列草图采用相同笔画数均分的方式,每一张草图笔画数逐渐增加,同时能够看到图像分割后的大小是原来图像的对草图进行切分,切分后的草图随着笔画信息的逐渐增加每一块中的像素占比不断增加。
图像检索时使用草图的嵌入向量与图像集中的所有图像分别计算欧式距离D,当草图与图像的欧式距离D的值小于某个阈值时,返回的图像即为检索出的目标图像。一个草图序列中,排名越靠前的草图包含的草图信息越少,使用笔画信息少的完整图像与图像库中进行匹配,容易造成信息浪费而且计算量增加。本方法中将草图进行切片,草图的早期笔画信息比较少时使用包含信息多的部分草图块与图像中的相应的块进行匹配,减少信息冗余提高检索效率,使用局部欧式距离进行计算,增加准确率。当草图笔画信息比较多时,每一个切片中包含的信息比较均匀,使用完整草图信息进行匹配。
图像检索时使用草图的嵌入向量与图像集中的所有图像分别计算欧式距离D,当草图与图像的欧式距离D的值小于某个阈值时,返回的图像即为检索出的目标图像。一个草图序列中,排名越靠前的草图包含的草图信息越少,使用笔画信息少的完整图像与图像库中进行匹配,容易造成信息浪费而且计算量增加。本方法中将草图进行切片,草图的早期笔画信息比较少时使用包含信息多的部分草图块与图像中的相应的块进行匹配,减少信息冗余提高检索效率,使用局部欧式距离进行计算,增加准确率。当草图笔画信息比较多时,每一个切片中包含的信息比较均匀,使用完整草图信息进行匹配。
根据完整草图与切块草图的关系对距离向量中的元素的d进行加权处理。每一张草图经过模型之后得到的嵌入向量与图像进行欧式距离计算,得到Dcomplete,每一张草图对应的草图块与相对应的图像块进行欧式距离得到Dlocal={d1,d2,……,dm},对草图块中的欧式距离根据该草图块的像素值占原草图的像素值的比值进行加权处理,随后对完整草图和草图块的欧式距离加权出处理之后得到的一张草图的欧式距离是:
D=W1*Dcomplete+W2*Dlocal
其中,W1和W2均表示常量,且W1+W2=1;Dcomplete表示草图嵌入向量与输入的草图序列的欧式距离,Dlocal表示草图块的嵌入向量与输入的草图块的欧式距离。
计算草图块的嵌入向量与输入的草图块的欧式距离的公式为:
Dlocal=W31*d1+W32*d2+W33*d3+……+W3m*dm
其中,W3m表示第m个草图块的像素值在完整草图的像素值的比值,且W31+W32+W33+……+W3m=1;dm表示第m个草图块与对应的输入草图块的欧式距离。
一种手绘图像实时检索的具体实施方式,该过程包括:
步骤1、根据用户在画板上绘制的草图作为原始草图,按照绘图的笔画顺序,每增加一笔就形成一张图片;
步骤2、将用户绘制的草图进行数据增强,切分成m块,并计算每一个小块占元草图的像素值占比。当前笔画的图片预训练网络f1和f2模块,得到当前笔画的图片的嵌入向量,该草图的草图块送入预训练网络f1和f2’模块;
步骤3、将当前笔画的图片送入网络模型的f3模块,草图块送入f3’得到降维后的嵌入向量;
步骤4、判断m个草图块的p的最大值与设置的阈值d的大小,若是P的最大值小于d,计算每一个草图块和对应位置的所有图像块的欧式距离和完整图片与数据库中的图像之间的欧氏距离。否则只计算完整图片与数据库中的图像之间的欧氏距离;
步骤5、根据图片与数据库中的图像之间的欧氏距离返回检索到的k张图片。
步骤6、获取用户绘制的下一笔,重复步骤2-步骤5,直至检索到目标图片或所有笔画检索完。
在没有商品图片,且文字难以描述该商品时,用户可以凭借对商品的映象在触屏设备上手绘商品草图,商品草图渲染为草图分支后输入训练好的神经网络模型,模型通过对草图分支的检索返回k张与商品草图最相似的图像。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于草图局部特征和全局特征匹配的图像检索方法,其特征在于,该方法包括:实时获取待检索的手绘草图序列以及手绘草图序列对应的草图块;将手绘草图序列和草图块输入到训练好的改进的神经网络模型中,得到草图的嵌入向量和草图块的嵌入向量;计算草图嵌入向量与输入的草图序列的欧式距离,计算草图块的嵌入向量与输入的草图块的欧式距离;对草图的欧式距离和草图块的欧式距离进行加权融合,根据融合后的欧式距离返回检索到top-k张图片,得到草图的检索结果;改进的神经网络模型包括完整图像分支和切块图像分支,完整图像分支和切块图像分支均采用骨干模型,其中骨干模型包括预训练网络、注意力层以及降维层;完整图像分支用于对完整的草图进行处理,切块图像分支用于对草图块进行处理;
对改进的神经网络模型进行训练的过程包括:
S1:构建训练集,训练集中的数据包括手绘草图和手绘草图对应的草图块;具体包括:根据绘制一幅图像的草图所需的笔画数将对应图像的草图渲染成所需要的n张草图序列,渲染完成后对数据集进行切分,将数据集中的所有图像以及渲染后的草图序列均切分成m份,对切分后的数据进行集合,得到数据集;数据集由完整图像集和切块图像集组成,完整图像集包含多张完整图像以及对应图像按照时间顺序渲染成的n张手绘草图序列集组成,切块图像集中的图像是由完整图像集中的每一张图片切分成m块组成;
S2:将训练集中完整的手绘草图和对应的手绘草图块分别输入到骨干模型中,采用三重损失对骨干模型进行预训练;
S3:将完整的草图按照笔画数将其渲染成一个含有n张草图的渐进式草图序列,该草图序列中每一张草图包含的笔画信息由少到多;
S4:将渲染后的草图序列中的每一张图像进行切分成m块,并记录每一个草图块的笔画信息所占比例k;
S5:将含有n张草图的草图序列输入到完整图像分支中,得到草图的嵌入向量;采用三重损失函数计算草图序列中每一张草图的嵌入向量与目标图像的嵌入向量之间的损失;
提取完整图像集中每一张草图的嵌入向量的过程包括:将已经渲染好的草图序列按照笔画由少到多的顺序输入到固定参数的预训练网络层f1和完整图像分支的注意力层f2,得到草图的特征向量;将经过f1和f2提取到的特征向量输入到模型中完整图像分支的降维层f3中进行降维处理,得到草图的嵌入向量;
采用三重损失函数计算草图的嵌入向量与目标图像的嵌入向量的损失函数为:
其中,tripleLossComplete表示完整草图的三重态损失,N表示渲染后草图序列中的草图张数,表示第i张草图的嵌入向量,表示中第i张草图,表示草图的目标图像的嵌入向量,表示目标图像,表示草图的负样本的嵌入向量,表示草图的负样本;
S6:将对应的m张草图序列块同时输入到切块图像分支中,得到得到m个草图块的嵌入向量;计算m个草图块的嵌入向量和对应的m个图像块的嵌入向量之间的误差;根据比例k将m个误差进行融合,得到切块图像分支的损失;
获取草图块的嵌入向量的过程包括:将草图块输入到预训练网络层f1和切块图像分支的注意力层f2’中,得到草图块的特征向量;将经过f1和f2’提取到的特征向量输入到切块图像分支的降维层f3’中进行降维处理,得到m个草图块的嵌入向量;
计算草图块的嵌入向量和对应图像块的嵌入向量的误差表达式为:
其中,表示第i块草图的嵌入向量,表示第i块草图块,表示草图的目标图像的嵌入向量,表示第i块草图块对应的目标图像块,表示草图的负样本的嵌入向量,表示对应的负样本图像块;tripleLossPart表示草图块的三重态损失,M表示完整草图切分的块数;
S7:将草图序列中所有草图的损失和草图块的损失进行融合,得到模型的损失函数,将模型的损失函数进行反向传播,调整模型中的参数;
S8:获取下一张目标图像的草图分支,重复上述步骤S3-S7,直至模型达到训练次数上限。
2.根据权利要求1所述的一种基于草图局部特征和全局特征匹配的图像检索方法,模型的损失函数表达式为:
其中,tripleLossComplete表示完整草图的三重态损失,N表示渲染后草图序列中的草图张数,tripleLossPart表示切块草图的三重态损失,M表示草图切分的块数。
3.根据权利要求1所述的一种基于草图局部特征和全局特征匹配的图像检索方法,其特征在于,计算草图块的嵌入向量与输入的草图块的欧式距离的公式为:
Dlocal=W31*d1+W32*d2+W33*d3+……+W3m*dm
其中,W3m表示第m个草图块的像素值在完整草图的像素值的比值,且W31+W32+W33+……+W3m=1;dm表示第m个草图块与对应的输入草图块的欧式距离。
4.根据权利要求1所述的一种基于草图局部特征和全局特征匹配的图像检索方法,其特征在于,对草图的欧式距离和草图块的欧式距离进行加权处理融合处理的公式为:
D=W1*Dcomplete+W2*Dlocal
其中,W1和W2均表示常量,且W1+W2=1;Dcomplete表示草图嵌入向量与输入的草图序列的欧式距离,Dlocal表示草图块的嵌入向量与输入的草图块的欧式距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210580704.5A CN114860980B (zh) | 2022-05-26 | 2022-05-26 | 一种基于草图局部特征和全局特征匹配的图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210580704.5A CN114860980B (zh) | 2022-05-26 | 2022-05-26 | 一种基于草图局部特征和全局特征匹配的图像检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114860980A CN114860980A (zh) | 2022-08-05 |
CN114860980B true CN114860980B (zh) | 2024-07-19 |
Family
ID=82641655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210580704.5A Active CN114860980B (zh) | 2022-05-26 | 2022-05-26 | 一种基于草图局部特征和全局特征匹配的图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114860980B (zh) |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103714265B (zh) * | 2013-12-23 | 2016-06-22 | 浙江工业大学 | 一种基于蒙特卡洛局部抖动和片段组装的蛋白质三维结构预测方法 |
WO2017168125A1 (en) * | 2016-03-31 | 2017-10-05 | Queen Mary University Of London | Sketch based search methods |
CN107220277A (zh) * | 2017-04-14 | 2017-09-29 | 西北大学 | 基于手绘草图的图像检索算法 |
CN108681555B (zh) * | 2018-04-08 | 2019-08-02 | 天津大学 | 一种基于形状回归的草图图像检索方法 |
US10248664B1 (en) * | 2018-07-02 | 2019-04-02 | Inception Institute Of Artificial Intelligence | Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval |
US11735306B2 (en) * | 2019-11-25 | 2023-08-22 | Dentsply Sirona Inc. | Method, system and computer readable storage media for creating three-dimensional dental restorations from two dimensional sketches |
CN111324765A (zh) * | 2020-02-07 | 2020-06-23 | 复旦大学 | 基于深度级联跨模态相关性的细粒度草图图像检索方法 |
CN111488474B (zh) * | 2020-03-21 | 2022-03-18 | 复旦大学 | 基于增强注意力的细粒度手绘草图图像检索方法 |
US11887217B2 (en) * | 2020-10-26 | 2024-01-30 | Adobe Inc. | Text editing of digital images |
CN112487135B (zh) * | 2020-12-18 | 2022-07-15 | 思必驰科技股份有限公司 | 将文本转化为结构化查询语言的方法及装置 |
CN113111803B (zh) * | 2021-04-20 | 2022-03-22 | 复旦大学 | 一种小样本字符与手绘草图识别方法及装置 |
CN113157954B (zh) * | 2021-04-20 | 2022-04-26 | 江西师范大学 | 一种基于跨域转换的草图交互式服装图像检索方法 |
CN113886615B (zh) * | 2021-10-25 | 2024-06-04 | 重庆邮电大学 | 一种基于多粒度联想学习的手绘图像实时检索方法 |
-
2022
- 2022-05-26 CN CN202210580704.5A patent/CN114860980B/zh active Active
Non-Patent Citations (1)
Title |
---|
Bi-LSTM sequence modeling for on-the-fly fine-grained sketch-based image retrieval;liu yingge;IEEE Transactions on Artificial intelligence;20220706;613-634 * |
Also Published As
Publication number | Publication date |
---|---|
CN114860980A (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9411830B2 (en) | Interactive multi-modal image search | |
CN111858954A (zh) | 面向任务的文本生成图像网络模型 | |
CN110083729B (zh) | 一种图像搜索的方法及系统 | |
CN111914107B (zh) | 一种基于多通道注意力区域扩展的实例检索方法 | |
CN103778227A (zh) | 从检索图像中筛选有用图像的方法 | |
CN105493078A (zh) | 彩色草图图像搜索 | |
CN111460223B (zh) | 基于深度网络的多模态特征融合的短视频单标签分类方法 | |
CN113886615B (zh) | 一种基于多粒度联想学习的手绘图像实时检索方法 | |
CN111506760B (zh) | 一种基于困难感知的深度集成度量图像检索方法 | |
CN111931953A (zh) | 一种废旧手机多尺度特征深度森林识别方法 | |
CN114780746A (zh) | 基于知识图谱的文档检索方法及其相关设备 | |
CN116401345A (zh) | 智能问答方法、装置、存储介质和设备 | |
CN112836702A (zh) | 一种基于多尺度特征提取的文本识别方法 | |
CN117173409A (zh) | 一种实时的交互式图像分割方法 | |
CN115908806A (zh) | 基于轻量级多尺度特征增强网络的小样本图像分割方法 | |
CN108717436B (zh) | 一种基于显著性检测的商品目标快速检索方法 | |
CN104778272B (zh) | 一种基于区域挖掘和空间编码的图像位置估计方法 | |
CN110717068B (zh) | 一种基于深度学习的视频检索方法 | |
CN114860980B (zh) | 一种基于草图局部特征和全局特征匹配的图像检索方法 | |
CN116244464A (zh) | 一种基于多模态数据融合的手绘图像实时检索方法 | |
CN114241495B (zh) | 一种用于脱机手写文本识别的数据增强方法 | |
CN114842301A (zh) | 一种图像注释模型的半监督训练方法 | |
CN112446297A (zh) | 一种电子助视器及其适用的智能手机文本辅助阅读方法 | |
CN113641845B (zh) | 一种基于向量对比策略的深度特征对比加权图像检索方法 | |
CN114780763B (zh) | 一种用于室内设计家具模型的高效检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |