CN111930980A - 图像检索模型的训练方法及图像检索方法、装置、及介质 - Google Patents
图像检索模型的训练方法及图像检索方法、装置、及介质 Download PDFInfo
- Publication number
- CN111930980A CN111930980A CN202010851999.6A CN202010851999A CN111930980A CN 111930980 A CN111930980 A CN 111930980A CN 202010851999 A CN202010851999 A CN 202010851999A CN 111930980 A CN111930980 A CN 111930980A
- Authority
- CN
- China
- Prior art keywords
- image
- image retrieval
- loss value
- hash
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明实施例公开了一种图像检索模型的训练方法及图像检索方法,其中图像检索模型包括神经网络模块、哈希计算模块、分类器模块以及元梯度模块;上述图像检索模型的训练方法包括:获取训练图像集,将训练样本图像输入神经网络模型,获取第一特征向量;通过哈希计算模块计算第二哈希特征向量;通过分类模型确定第三分类向量;根据训练样本标签、第一特征向量、第二哈希特征向量、第三分类向量确定图像检索模型的目标更新参数,根据目标更新参数对图像检索模型进行参数更新。本发明实施例还公开了相应的装置、设备及存储介质。采用本发明,可提高图像检索的准确性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种图像检索模型的训练方法、装置、设备和可读介质以及一种图像检索方法、装置、设备和可读介质。
背景技术
随着多媒体信息的发展,人们对于图像检索的需求越来越多,对于图像检索的准确性也越来越高。传统的图像检索以文字描述输入为主,其背后支撑的技术依旧是传统的文字信息检索系统;而基于图像输入的检索可以大幅丰富检索场景,比如搜索图像出处、检索类似风格图像等。由于图像所包含的信息十分丰富,相比起传统文字检索方法,图像检索方法的复杂度较高,检索准确性较低。
发明内容
基于此,有必要针对上述问题,提出了一种图像检索模型的训练方法、装置、设备和可读介质以及一种图像检索方法、装置、设备和可读介质。
一种图像检索模型的训练方法,所述图像检索模型包括神经网络模块、哈希计算模块、分类器模块以及元梯度模块;
所述方法包括:
获取训练图像集,所述训练图像集包括多个训练样本图像以及对应的训练样本标签;
将所述训练样本图像输入所述神经网络模型,获取第一特征向量;
通过所述哈希计算模块计算与所述第一特征向量对应的第二哈希特征向量;
通过所述分类模型确定与所述第二哈希特征向量对应的第三分类向量;
根据所述训练样本标签、所述第一特征向量、第二哈希特征向量、第三分类向量确定所述图像检索模型的目标更新参数,根据所述目标更新参数对所述图像检索模型进行参数更新。
可选的,所述根据所述样本标签、所述第一特征向量、第二哈希特征向量、第三分类向量确定所述图像检索模型的目标更新参数,根据所述目标更新参数对所述图像检索模型进行参数更新的步骤,还包括:
计算所述第三分类向量与所述样本标签之间的第一损失值,计算所述第一特征向量与所述第二哈希特征向量的第二损失值;
根据所述第一损失值和所述第二损失值计算目标损失值;
根据所述目标损失值确定与所述分类器模块对应的第一更新参数和与所述神经网络模块对应的第二更新参数;
根据所述第一更新参数和第二更新参数对所述分类器模块和所述神经网络模块进行模型参数更新。
一种图像检索方法,基于如前所述的图像检索模型的训练方法所训练得到的目标图像检索模型;所述方法包括:获取待检索图像;将所述待检索图像输入所述目标图像检索模型,获取所述目标图像检索模型的输出结果作为与所述待检索图像对应的图像检索结果。
一种图像检索模型的训练装置,所述图像检索模型包括神经网络模块、哈希计算模块、分类器模块以及元梯度模块;所述装置包括:
训练样本获取单元,用于获取训练图像集,所述训练图像集包括多个训练样本图像以及对应的训练样本标签;
特征计算单元,用于将所述训练样本图像输入所述神经网络模型,获取第一特征向量;通过所述哈希计算模块计算与所述第一特征向量对应的第二哈希特征向量;通过所述分类模型确定与所述第二哈希特征向量对应的第三分类向量;
损失值计算单元,用于计算所述第三分类向量与所述样本标签之间的第一损失值,计算所述第一特征向量与所述第二哈希特征向量的第二损失值;根据所述第一损失值和所述第二损失值计算目标损失值;
参数更新单元,用于根据所述目标损失值确定与所述分类器模块对应的第一更新参数和与所述神经网络模块对应的第二更新参数;根据所述第一更新参数和第二更新参数对所述分类器模块和所述神经网络模块进行模型参数更新。
一种图像检索装置,所述图像检索装置基于如前所述的图像检索模型的训练装置所训练得到的目标图像检索模型;检索图像确定单元,用于获取待检索图像;模型检索单元,用于将所述待检索图像输入所目标图像检索模型,获取所述目标图像检索模型的输出结果作为与所述待检索图像对应的图像检索结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行前述图像检索模型的训练方法或图像检索方法。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行前述图像检索模型的训练方法或图像检索方法。
采用本发明实施例,具有如下有益效果:
采用了上述图像检索模型的训练方法及图像检索方法、装置、计算机设备、计算机可读存储介质之后,在图像检索模型中添加元梯度模块,用于估计反向传播梯度,从而使得在图像检索模型训练的过程中,不仅需要通过训练损失值的计算来对神经网络模型、分类器进行参数更新,还需要通过元梯度模块来解决梯度为0、反向传播失效的问题,从而提高图像检索模型的检索准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中一种图像检索模型的训练方法的流程示意图;
图2为一个实施例中图像检索模型的结构示意图;
图3为一个实施例中一种图像检索模型的训练方法的流程示意图;
图4为一个实施例中一种图像检索模型的训练方法的流程示意图;
图5为一个实施例中一种图像检索模型的训练方法的流程示意图;
图6为一个实施例中一种图像检索方法的流程示意图;
图7为一个实施例中一种图像检索方法的流程示意图;
图8为一个实施例中一种图像检索模型的训练装置的结构框图
图9为一个实施例中一种图像检索装置的结构框图;
图10为一个实施例中计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本实施例中,提供了一种图像检索模型的训练方法以及基于该图像检索模型的训练方法的图像检索方法,以提高图像检索的准确性。上述方法的实现可依赖于计算机程序,该计算机程序可运行于基于冯诺依曼体系的计算机系统之上,该计算机程序可以是对图像检索模型进行训练的应用程序以及根据图像检索模型进行图像检索的应用程序。该计算机系统可以是运行上述计算机程序的例如智能手机、平板电脑、个人电脑、服务器等计算机设备。
具体的,请参见图1,图1示出了前述图像检索模型的训练方法的流程示意图。
其中,如图2所示,上述图像检索模型100包括神经网络模块1002、哈希计算模块1004、分类器模块1006以及元梯度模块1008。
具体的,其中,上述图像检索模型的训练方法方法包括如图1所示的步骤S102-S106:
步骤S102:获取训练图像集,所述训练图像集包括多个训练样本图像以及对应的训练样本标签。
在图像检索模型的训练过程中,需要通过训练图像集对图像检索模型进行训练和更新,并通过测试样本集对训练完成的图像检索模型是否达到预设的训练目标(例如,训练次数或损失值满足预设要求),若是,则判定图像检索模型训练完毕,并将训练完成的图像检索模型用于后续的图像检索,以获取图像检索结果。
其中,训练图像集包括了多个训练样本图像,以及预先对该训练样本图像进行标注得到的训练样本标签。在模型训练过程中,通过模型输出结果是否与训练样本标签匹配来判断模型输出是否正确或是否满足预设的误差范围。
在本实施例中,在构建了图像检索模型的基本结构之后,即可根据预先标准的训练图像集对图像检索模型进行训练。训练的过程可以参见下面的步骤。
步骤S1042:将所述训练样本图像输入所述神经网络模块,获取第一特征向量;
步骤S1044:通过所述哈希计算模块计算与所述第一特征向量对应的第二哈希特征向量;
步骤S1046:通过所述分类模型确定与所述第二哈希特征向量对应的第三分类向量。
神经网络模块1002可以为卷积神经模型(CNN),通过卷积神经网络模型计算输入的训练样本图像对应的特征向量VCNN(即第一特征向量VCNN,为连续的特征向量)。
对于计算得到的第一特征向量VCNN,将其输入哈希计算模块1004,通过哈希计算模块得到与第一特征向量VCNN对应的离散的特征向量VHash(即第二哈希特征向量)。
然后将第二哈希特征向量VHash输入分类器模块1006,获取分类器模块输出的类别分布分量VClassifier,即为第三分类向量。
其中,第三分类向量即为图像检索模型100的输出结果,也即为与训练样本图像对应的训练结果。
步骤S106:根据所述训练样本标签、所述第一特征向量、第二哈希特征向量、第三分类向量和所述元梯度模块,确定所述图像检索模型的目标更新参数,根据所述目标更新参数对所述图像检索模型进行参数更新。
在本实施例中,对于图像检索模型计算得到的结果,需要进一步计算对应的损失值,然后根据损失值来确定与图像检索模型对应的更新参数,以对图像检索模型进行参数更新,使得更新之后的图像检索模型的检索准确率更高。
具体实施例中,上述步骤S106还包括如图3所示的步骤S1062-S1068:
步骤S1062:计算所述第三分类向量与所述样本标签之间的第一损失值,计算所述第一特征向量与所述第二哈希特征向量的第二损失值;
步骤S1064:根据所述第一损失值和所述第二损失值计算目标损失值。
其中,第一损失值L1为第三分类向量VClassifier与训练样本图像对应的样本标签之间的交叉熵损失,用于表示哈希后的离散特征(第二哈希特征向量VHash)直接用于分类的监督损失。第一损失值越小,通过图像检索模型计算的分类越准,哈希后保留的监督信息也越多。通过第一损失值的计算,可以衡量图像检索模型予以保持的效果,从而用于评估图像检索模型的训练效果。
具体的,通过如下交叉熵损失值计算公式计算对应的第一损失值L1:
L1=CrossEntropy(VClassifier,VHash)。
也就是说,根据上述公式可以计算第三分类向量与样本标签之间的第一损失值L1。
然后,进一步的根据预设的均方误差损失值计算公式计算第一特征向量与第二哈希特征向量的第二损失值L2:
L2=||VCNN-VHash||2,
其中,第二损失值L2为哈希后的离散特征(第二哈希特征向量VHash)与哈希前的连续特征(第一特征向量VCNN)的L2范数,也即为第二哈希特征向量VHash与第一特征向量VCNN的均方误差(MSE)损失值,用于衡量哈希前后(即哈希计算模块1004前后)的量化损失。具体的,第二损失值越小,则说明哈希前后离散特征(第二哈希特征向量VHash)与哈希前的连续特征(第一特征向量VCNN)越接近,离散化所带来的信息损失越小,图像检索模型的准确性越高。
进一步的,根据第一损失值L1和第二损失值L2即可确定图像检索模型整体的损失情况。在本实施例中,通过如下计算公式计算目标损失值Lf:
Lf=L1+βL2,
其中,β为常数,具体值可以根据模型设计或者经验值来确定。例如,在一个实施例中,β可以为(0,1)之间的任意常数,也可以为其他任意常数值,在这里不做限定。
在目标损失值Lf计算得到之后,即可根据目标损失值来计算对图像检索模型100进行参数更新对应的目标更新参数。
步骤S1066:根据所述目标损失值确定与所述分类器模块对应的第一更新参数和与所述神经网络模块对应的第二更新参数;
步骤S1068:根据所述第一更新参数和第二更新参数对所述图像检索模型进行模型参数更新。
模型参数更新的过程即为模型优化的反向传播过程。在具体实施中,对于目标损失值Lf,对分类器参数Pc进行求导dLf/dPc,得到对应的梯度值即为对分类器模块进行更新的更新参数(即第一更新参数Q1)。
进一步的,对于目标损失值Lf,对第二哈希特征向量VHash进行求导dLf/dVHash,并且加上第一特征向量VCNN和第二哈希特征向量VHash一同输入元梯度模块1008,得到对应的梯度值来估计dLf/dVCNN,据此可以得到对神经网络模块1002进行参数更新的更新参数(即第二更新参数Q2)。
在计算得到第一更新参数Q1和第二更新参数Q2之后,分别对分类器模块和神经网络模块的参数进行更新。
其中,图像检索模块100中的元梯度模块1008在反向传播的过程中,用于估计反向传播的梯度,避免图像检索模型在反向传播过程中哈希计算模块的梯度消失,提高哈希计算模块保相似性的能力,从而改善模型训练效果。
上述步骤S102-S106的过程中,在元梯度模块1008的参数不变或固定的情况下,通过内循环的训练过程,对分类器模块1006和神经网络模块1002的参数进行更新。
进一步的,上述图像检索模型的训练方法除了上述内循环过程之外,还包括对元梯度模块1008的参数进行更新的外循环过程。
具体的,请参见图4,上述图像检索模型的训练方法还包括如图4所示的步骤S202-S204:
步骤S202:根据所述训练样本图像对应的目标损失值,确定与所述元梯度模块对应的第三更新参数;
步骤S204:根据所述第三更新参数对所述元梯度模块进行参数更新。
在内循环结束之后,将多个训练样本图像对应的目标损失值进行综合(例如,对多个目标损失值求和),求梯度之后得到元梯度模块1008对应的更新参数(即第三更新参数)。也就是说,根据内循环过程中多次计算的目标损失值来对元梯度模块的参数进行更新。经过上述模型训练过程以及参数更新过程之外,上述图像检索模型的哈希计算模块可以更加准确的进行哈希特征向量的计算和输出,然后根据图像对应的哈希特征向量来进行图像的检索,从而提高图像检索的准确性。
上述步骤S202-S204的过程即为在神经网络模块和分类器模块的参数不变的情况下,通过上述步骤(即为外循环过程)来对元梯度模块的参数进行更新。通过引入元梯度模块和外循环过程,可以使得元梯度模块学习如何预测神经网络模块以及分类器模块的哈希梯度(即为元梯度),解决梯度为0、反向传播失效的问题。
进一步的,在图像检索模型的过程中,还需要对模型训练效果进行判断,以确定模型训练是否完成。具体的,请参见图5,上述图像检索模型的训练方法还包括如下步骤:
步骤S302:获取测试图像集,所述测试图像集包括多个测试样本图像以及对应的测试样本标签;
步骤S304:将所述测试样本图像输入目标图像检索模型,获取输出的测试结果;
步骤S306:计算所述测试结果对应的测试损失值,判断所述测试损失值是否小于预设的损失阈值,在所述测试损失值小于预设的损失阈值的情况下,判定所述图像检索模型训练完成。
也就是说,在本实施例中,判断图像检索模型是否完成是以图像检索模型对测试样本图像的测试损失值来判断的。其中,测试损失值的计算过程与上述步骤S102-S106中的目标损失值的计算过程相同,在这里不再赘述。
进一步的,在本实施例中,还提出了一种基于上述图像检索模型的训练方法所训练得到的目标图像检索模型的图像检索方法。
具体的,请参见图6,上述图像检索方法包括步骤S402-S404:
步骤S402:获取待检索图像;
步骤S404:将所述待检索图像输入目标图像检索模型,获取所述目标图像检索模型的输出结果作为与所述待检索图像对应的图像检索结果。
在通过上述图像检索模型的训练方法完成对图像检索模型的训练完成之后,得到对应的目标图像检索模型,基于该目标图像检索模型对需要进行图像检索的待检索图像进行检索,以获取对应的图像检索结果。
具体的,上述根据目标图像检索模型进行图像检索的具体过程还进一步的包括如图7所示的步骤:
步骤S4042:通过所述神经网络模块计算所述待检索图像对应的第一目标特征向量;
步骤S4044:通过所述哈希计算模块计算所述第一目标特征向量对应的第二哈希特征向量作为所述待检索图像的目标哈希特征向量;
步骤S4046:在预设的图像数据库中查找与所述目标哈希特征向量的距离值小于预设的距离阈值的参考哈希值,所述图像数据库中包括多个参考图像以及与所述参考图像对应的参考哈希值;
步骤S4048:根据所述查找到的参考哈希值对应的参考图像确定与所述待检索图像对应的图像检索结果。
也就是说,针对待检索图像,将待检索图像输入目标图像检索模型,即输入目标图像检索模型所包含的神经网络模块。然后获取神经网络模块输出的特征向量(第一目标特征向量)。再将第一目标特征向量输入哈希计算模块,获取对应的哈希值,即为对应的第二哈希特征向量(目标哈希特征向量);其中,目标哈希特征向量也即为与待检索图像对应的哈希值,该哈希值用于计算与图像数据库中的参考图像的哈希值之间的距离值,以判断待检索图像与参考图像之间的相似度,以确定最终的图像检索结果。
其中,预设确定一图像数据库,其中包含有多个参考图像,预先对每一个参考图像计算对应的哈希值(即为参考哈希值)。这里哈希值的计算是根据目标图像检索模型中的哈希值的计算方法来进行计算的。
在计算得到待检索图像对应的目标哈希特征向量之后,即可在预设的图像数据库中针对每一个包含在内的参考图像,分别计算该参考图像的哈希值与目标哈希特征向量之间的距离值(例如,Jaccard距离值),其中,Jaccard距离值越小,待检索图像与参考图像之间的相似度越高。根据对应的距离值是否存在小于预设的距离阈值来判断图像检索是否成功(若不存在距离值小于预设的距离阈值,则判定图像检索结束);若存在多个参考图像的距离值小于预设的距离阈值,则根据这多个参考图像来确定对应的图像检索结果,即为根据确定的参考图像来确定对应的分类结果(即为图像检索结果)。
在神经网络模型等相关的图像检索模型中,通过哈希算法的引入来提高图像检索的准确性;但是,在引入哈希算法之后,采用神经网络以融合图片本身的特征或语义信息辅助哈希编码的生成。神经网络通常使用梯度下降的方法进行训练,而网络中的哈希层将连续空间映射到离散空间,使得模型反向传播时哈希层梯度消失,给神经网络训练带来了极大的困难。大多模型采用松弛的方法,将模型中的哈希层的输出映射到0-1的连续空间,并用损失去惩罚输出与0/1之间的距离。这些方法能够有效地缓解训练问题,但是这种松弛的方法会给模型带来了信息损失,使得源空间的相似性难以更好地保留。
为了解决上述问题,在本实施中,通过在图像检索模型中引入元梯度模型,使得元梯度模型能够学习如何去估计哈希算法反向传播的梯度,不仅能够规避松弛方法带来的信息损失问题,同时能够解决哈希算法梯度消失问题,提高哈希算法保相似性的能力,使得哈希结果用于图像检索中更加精确。其中,在图像检索的过程中,根据哈希值在图像数据库中召回图像对应的召回率能有所提高,减少了因为图像无法召回导致的检索失败或图像检索准确性过低的情况,从而进一步的提高了图像检索的准确性。
进一步的,在上述图像检索模型的训练方法以及图像检索方法中,对于图像的训练只需要“单通道”的进行训练,而不需要成对哈希方法或三元哈希方法而成对的对图像进行训练,在保证了图像训练效果的前提下,减少了图像训练所需要的时间,加快了图像检索系统的构建时间。
进一步的,在本实施例中,还提出了一种图像检索模型的训练装置。具体的,图像检索模型包括神经网络模块、哈希计算模块、分类器模块以及元梯度模块;请参见图8,上述图像检索模型的训练装置包括:
训练样本获取单元102,用于获取训练图像集,所述训练图像集包括多个训练样本图像以及对应的训练样本标签;
特征计算单元104,用于将所述训练样本图像输入所述神经网络模型,获取第一特征向量;通过所述哈希计算模块计算与所述第一特征向量对应的第二哈希特征向量;通过所述分类模型确定与所述第二哈希特征向量对应的第三分类向量;
损失值计算单元106,用于计算所述第三分类向量与所述样本标签之间的第一损失值,计算所述第一特征向量与所述第二哈希特征向量的第二损失值;根据所述第一损失值和所述第二损失值计算目标损失值;
参数更新单元108,用于根据所述目标损失值确定与所述分类器模块对应的第一更新参数和与所述神经网络模块对应的第二更新参数;根据所述第一更新参数和第二更新参数对所述分类器模块和所述神经网络模块进行模型参数更新。
可选的,损失值计算单元106还用于根据预设的交叉熵损失值计算公式,计算与所述第三分类向量与所述样本标签之间的交叉熵损失值作为所述第一损失值。
可选的,损失值计算单元106还用于根据预设的均方误差损失值计算公式,计算与所述第一特征向量与所述第二哈希特征向量之间的均方误差值作为所述第二损失值。
可选的,损失值计算单元106还用于根据预设的加权系数,计算与所述第一损失值和第二损失值对应的目标损失值。
可选的,参数更新单元108还用于计算所述目标损失值对所述分类器模块的梯度值,确定所述第一更新参数。
可选的,参数更新单元108还用于计算所述目标损失值对所述第二哈希特征向量的梯度值,将该梯度值和所述第一特征向量、第二哈希特征向量输入所述元梯度模块,获取元梯度模块输出的梯度值,确定所述第二更新参数。
可选的,如图8所示,上述图像检索模型的训练装置还包括元梯度参数更新模单元110,用于根据所述目标损失值,确定与所述元梯度模块对应的第三更新参数;根据所述第三更新参数对所述元梯度模块进行模型参数更新。
可选的,如图8所示,上述图像检索模型的训练装置还包括测试单元112,用于获取测试图像集,所述测试图像集包括多个测试样本图像以及对应的测试样本标签;将所述测试样本图像输入所述图像检索模型,获取输出的测试结果标签;计算与所述测试结果标签对应的测试损失值;在所述测试损失值小于预设的损失阈值的情况下,判定所述图像检索模型训练完成。
在本实施例中,还提出了一种图像检索装置,基于如前所述的图像检索模型的训练装置所训练得到的目标图像检索模型;。具体的,请参见图9,上述图像检索装置包括:
检索图像确定单元202,用于获取待检索图像;
模型检索单元204,用于将所述待检索图像输入所述目标图像检索模型,获取所述目标图像检索模型的输出结果作为与所述待检索图像对应的图像检索结果。
可选的,模型检索单元204还用于通过所述神经网络模块计算所述待检索图像对应的第一目标特征向量;通过所述哈希计算模块计算所述第一目标特征向量对应的第二哈希特征向量作为所述待检索图像的目标哈希特征向量;在预设的图像数据库中查找与所述目标哈希特征向量的距离值小于预设的距离阈值的参考哈希值,所述图像数据库中包括多个参考图像以及与所述参考图像对应的参考哈希值;根据所述查找到的参考哈希值对应的参考图像确定与所述待检索图像对应的图像检索结果。
图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端,也可以是服务器。如图10所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现上述方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行上述方法。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行前述图像检索图像的训练方法以及图像检索方法。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行前述图像检索图像的训练方法以及图像检索方法
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。请输入具体实施内容部分。
Claims (10)
1.一种图像检索模型的训练方法,其特征在于,所述图像检索模型包括神经网络模块、哈希计算模块、分类器模块以及元梯度模块;
所述方法包括:
获取训练图像集,所述训练图像集包括多个训练样本图像以及对应的训练样本标签;
将所述训练样本图像输入所述神经网络模型,获取第一特征向量;
通过所述哈希计算模块计算与所述第一特征向量对应的第二哈希特征向量;
通过所述分类模型确定与所述第二哈希特征向量对应的第三分类向量;
根据所述训练样本标签、所述第一特征向量、第二哈希特征向量、第三分类向量确定所述图像检索模型的目标更新参数,根据所述目标更新参数对所述图像检索模型进行参数更新。
2.根据权利要求1所述的图像检索模型的训练方法,其特征在于,所述根据所述样本标签、所述第一特征向量、第二哈希特征向量、第三分类向量确定所述图像检索模型的目标更新参数,根据所述目标更新参数对所述图像检索模型进行参数更新的步骤,还包括:
计算所述第三分类向量与所述样本标签之间的第一损失值,计算所述第一特征向量与所述第二哈希特征向量的第二损失值;
根据所述第一损失值和所述第二损失值计算目标损失值;
根据所述目标损失值确定与所述分类器模块对应的第一更新参数和与所述神经网络模块对应的第二更新参数;
根据所述第一更新参数和第二更新参数对所述分类器模块和所述神经网络模块进行模型参数更新。
3.根据权利要求2所述的图像检索模型的训练方法,其特征在于,所述计算所述第三分类向量与所述样本标签之间的第一损失值的步骤,还包括:根据预设的交叉熵损失值计算公式,计算与所述第三分类向量与所述样本标签之间的交叉熵损失值作为所述第一损失值;
所述计算所述第一特征向量与所述第二哈希特征向量的第二损失值的步骤,还包括:根据预设的均方误差损失值计算公式,计算与所述第一特征向量与所述第二哈希特征向量之间的均方误差值作为所述第二损失值;
所述根据所述第一损失值和所述第二损失值计算目标损失值的步骤,还包括:根据预设的加权系数,计算与所述第一损失值和第二损失值对应的目标损失值。
4.根据权利要求2所述的图像检索模型的训练方法,其特征在于,所述根据所述目标损失值确定与所述分类器模块对应的第一更新参数和与所述神经网络模块对应的第二更新参数的步骤,还包括:
计算所述目标损失值对所述分类器模块的梯度值,确定所述第一更新参数;
计算所述目标损失值对所述第二哈希特征向量的梯度值,将该梯度值和所述第一特征向量、第二哈希特征向量输入所述元梯度模块,获取元梯度模块输出的梯度值,确定所述第二更新参数;
所述根据所述第一更新参数和第二更新参数对所述分类器模块和所述神经网络模块进行模型参数更新的步骤之后,还包括:
根据所述目标损失值,确定与所述元梯度模块对应的第三更新参数;
根据所述第三更新参数对所述元梯度模块进行模型参数更新。
5.根据权利要求1至4任一所述的图像检索模型的训练方法,其特征在于,所述方法还包括:
获取测试图像集,所述测试图像集包括多个测试样本图像以及对应的测试样本标签;
将所述测试样本图像输入所述图像检索模型,获取输出的测试结果标签;
计算与所述测试结果标签对应的测试损失值;
在所述测试损失值小于预设的损失阈值的情况下,判定所述图像检索模型训练完成。
6.一种图像检索方法,其特征在于,所述图像检索方法基于如权利要求1至8任一所述的图像检索模型的训练方法所训练得到的目标图像检索模型;
所述方法包括:
获取待检索图像;
将所述待检索图像输入所述目标图像检索模型,获取所述目标图像检索模型的输出结果作为与所述待检索图像对应的图像检索结果。
7.根据权利要求6所述的图像检索方法,其特征在于,所述将所述待检索图像输入所述目标图像检索模型,获取所述目标图像检索模型的输出结果作为与所述待检索图像对应的图像检索结果的步骤,还包括:
通过所述神经网络模块计算所述待检索图像对应的第一目标特征向量;
通过所述哈希计算模块计算所述第一目标特征向量对应的第二哈希特征向量作为所述待检索图像的目标哈希特征向量;
在预设的图像数据库中查找与所述目标哈希特征向量的距离值小于预设的距离阈值的参考哈希值,所述图像数据库中包括多个参考图像以及与所述参考图像对应的参考哈希值;
根据所述查找到的参考哈希值对应的参考图像确定与所述待检索图像对应的图像检索结果。
8.一种图像检索模型的训练装置,其特征在于,所述图像检索模型包括神经网络模块、哈希计算模块、分类器模块以及元梯度模块;
所述装置包括:
训练样本获取单元,用于获取训练图像集,所述训练图像集包括多个训练样本图像以及对应的训练样本标签;
特征计算单元,用于将所述训练样本图像输入所述神经网络模型,获取第一特征向量;通过所述哈希计算模块计算与所述第一特征向量对应的第二哈希特征向量;通过所述分类模型确定与所述第二哈希特征向量对应的第三分类向量;
损失值计算单元,用于计算所述第三分类向量与所述样本标签之间的第一损失值,计算所述第一特征向量与所述第二哈希特征向量的第二损失值;根据所述第一损失值和所述第二损失值计算目标损失值;
参数更新单元,用于根据所述目标损失值确定与所述分类器模块对应的第一更新参数和与所述神经网络模块对应的第二更新参数;根据所述第一更新参数和第二更新参数对所述分类器模块和所述神经网络模块进行模型参数更新。
9.一种图像检索装置,其特征在于,所述图像检索装置基于如权利要求11所述的图像检索模型的训练装置所训练得到的目标图像检索模型;
检索图像确定单元,用于获取待检索图像;
模型检索单元,用于将所述待检索图像输入所述目标图像检索模型,获取所述目标图像检索模型的输出结果作为与所述待检索图像对应的图像检索结果。
10.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至5中任一项所述方法的步骤,或执行如权利要求6至7任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010851999.6A CN111930980B (zh) | 2020-08-21 | 2020-08-21 | 图像检索模型的训练方法及图像检索方法、装置、及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010851999.6A CN111930980B (zh) | 2020-08-21 | 2020-08-21 | 图像检索模型的训练方法及图像检索方法、装置、及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111930980A true CN111930980A (zh) | 2020-11-13 |
CN111930980B CN111930980B (zh) | 2023-07-07 |
Family
ID=73304463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010851999.6A Active CN111930980B (zh) | 2020-08-21 | 2020-08-21 | 图像检索模型的训练方法及图像检索方法、装置、及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111930980B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159095A (zh) * | 2021-01-30 | 2021-07-23 | 华为技术有限公司 | 一种训练模型的方法、图像检索的方法以及装置 |
CN113255828A (zh) * | 2021-06-17 | 2021-08-13 | 长沙海信智能系统研究院有限公司 | 特征检索方法、装置、设备及计算机存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512289A (zh) * | 2015-12-07 | 2016-04-20 | 郑州金惠计算机系统工程有限公司 | 基于深度学习和哈希的图像检索方法 |
US20160307071A1 (en) * | 2015-04-20 | 2016-10-20 | Xerox Corporation | Fisher vectors meet neural networks: a hybrid visual classification architecture |
CN107220277A (zh) * | 2017-04-14 | 2017-09-29 | 西北大学 | 基于手绘草图的图像检索算法 |
CN108427729A (zh) * | 2018-02-23 | 2018-08-21 | 浙江工业大学 | 一种基于深度残差网络与哈希编码的大规模图片检索方法 |
US20180276528A1 (en) * | 2015-12-03 | 2018-09-27 | Sun Yat-Sen University | Image Retrieval Method Based on Variable-Length Deep Hash Learning |
CN108829848A (zh) * | 2018-06-20 | 2018-11-16 | 华中科技大学 | 一种图像检索方法和系统 |
CN108875779A (zh) * | 2018-05-07 | 2018-11-23 | 深圳市恒扬数据股份有限公司 | 神经网络的训练方法、装置及终端设备 |
CN109165306A (zh) * | 2018-08-09 | 2019-01-08 | 长沙理工大学 | 基于多任务哈希学习的图像检索方法 |
CN109685121A (zh) * | 2018-12-11 | 2019-04-26 | 中国科学院苏州纳米技术与纳米仿生研究所 | 图像检索模型的训练方法、图像检索方法、计算机设备 |
CN109800314A (zh) * | 2019-01-03 | 2019-05-24 | 上海大学 | 一种利用深度卷积网络生成用于图像检索的哈希码的方法 |
CN109902722A (zh) * | 2019-01-28 | 2019-06-18 | 北京奇艺世纪科技有限公司 | 分类器、神经网络模型训练方法、数据处理设备及介质 |
US20190251333A1 (en) * | 2017-06-02 | 2019-08-15 | Tencent Technology (Shenzhen) Company Limited | Face detection training method and apparatus, and electronic device |
CN110209867A (zh) * | 2019-06-05 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 图像检索模型的训练方法、装置、设备及存储介质 |
US20190318208A1 (en) * | 2016-12-27 | 2019-10-17 | Cloudminds (Shenzhen) Robotics Systems Co., Ltd | Image identification system and image identification method |
CN111198959A (zh) * | 2019-12-30 | 2020-05-26 | 郑州轻工业大学 | 一种基于卷积神经网络的两阶段图像检索方法 |
-
2020
- 2020-08-21 CN CN202010851999.6A patent/CN111930980B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160307071A1 (en) * | 2015-04-20 | 2016-10-20 | Xerox Corporation | Fisher vectors meet neural networks: a hybrid visual classification architecture |
US20180276528A1 (en) * | 2015-12-03 | 2018-09-27 | Sun Yat-Sen University | Image Retrieval Method Based on Variable-Length Deep Hash Learning |
CN105512289A (zh) * | 2015-12-07 | 2016-04-20 | 郑州金惠计算机系统工程有限公司 | 基于深度学习和哈希的图像检索方法 |
US20190318208A1 (en) * | 2016-12-27 | 2019-10-17 | Cloudminds (Shenzhen) Robotics Systems Co., Ltd | Image identification system and image identification method |
CN107220277A (zh) * | 2017-04-14 | 2017-09-29 | 西北大学 | 基于手绘草图的图像检索算法 |
US20190251333A1 (en) * | 2017-06-02 | 2019-08-15 | Tencent Technology (Shenzhen) Company Limited | Face detection training method and apparatus, and electronic device |
CN108427729A (zh) * | 2018-02-23 | 2018-08-21 | 浙江工业大学 | 一种基于深度残差网络与哈希编码的大规模图片检索方法 |
CN108875779A (zh) * | 2018-05-07 | 2018-11-23 | 深圳市恒扬数据股份有限公司 | 神经网络的训练方法、装置及终端设备 |
CN108829848A (zh) * | 2018-06-20 | 2018-11-16 | 华中科技大学 | 一种图像检索方法和系统 |
CN109165306A (zh) * | 2018-08-09 | 2019-01-08 | 长沙理工大学 | 基于多任务哈希学习的图像检索方法 |
CN109685121A (zh) * | 2018-12-11 | 2019-04-26 | 中国科学院苏州纳米技术与纳米仿生研究所 | 图像检索模型的训练方法、图像检索方法、计算机设备 |
CN109800314A (zh) * | 2019-01-03 | 2019-05-24 | 上海大学 | 一种利用深度卷积网络生成用于图像检索的哈希码的方法 |
CN109902722A (zh) * | 2019-01-28 | 2019-06-18 | 北京奇艺世纪科技有限公司 | 分类器、神经网络模型训练方法、数据处理设备及介质 |
CN110209867A (zh) * | 2019-06-05 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 图像检索模型的训练方法、装置、设备及存储介质 |
CN111198959A (zh) * | 2019-12-30 | 2020-05-26 | 郑州轻工业大学 | 一种基于卷积神经网络的两阶段图像检索方法 |
Non-Patent Citations (4)
Title |
---|
CHAO LIU等: "Adversarial Hash-Code Learning for Remote Sensing Image Retrieval", 《IEEE》 * |
冯兴杰;程毅玮;: "基于深度卷积神经网络与哈希的图像检索", 计算机工程与设计, no. 03, pages 670 - 675 * |
冯子勇: "基于深度学习的图像特征学习和分类方法的研究及应用", 《信息科技》, no. 02 * |
张南: "基于深度学习的图像哈希检索", 《信息科技》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159095A (zh) * | 2021-01-30 | 2021-07-23 | 华为技术有限公司 | 一种训练模型的方法、图像检索的方法以及装置 |
CN113159095B (zh) * | 2021-01-30 | 2024-04-30 | 华为技术有限公司 | 一种训练模型的方法、图像检索的方法以及装置 |
CN113255828A (zh) * | 2021-06-17 | 2021-08-13 | 长沙海信智能系统研究院有限公司 | 特征检索方法、装置、设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111930980B (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11403876B2 (en) | Image processing method and apparatus, facial recognition method and apparatus, and computer device | |
CN109783655B (zh) | 一种跨模态检索方法、装置、计算机设备和存储介质 | |
CN109063742B (zh) | 蝴蝶识别网络构建方法、装置、计算机设备及存储介质 | |
US20200034656A1 (en) | Information recommendation method, computer device, and storage medium | |
US20200082271A1 (en) | Summary generation method, summary generation model training method, and computer device | |
WO2022142450A1 (zh) | 用于图像分割模型训练和图像分割的方法及装置 | |
CN111291755A (zh) | 对象检测模型训练及对象检测方法、装置、计算机设备和存储介质 | |
CN111275175B (zh) | 神经网络训练方法、装置、图像分类方法、设备和介质 | |
CN113593611B (zh) | 语音分类网络训练方法、装置、计算设备及存储介质 | |
TWI444844B (zh) | 模擬參數校正技術 | |
CN110147745B (zh) | 一种视频关键帧检测方法及装置 | |
CN111930980B (zh) | 图像检索模型的训练方法及图像检索方法、装置、及介质 | |
CN113505797B (zh) | 模型训练方法、装置、计算机设备和存储介质 | |
CN109710921B (zh) | 词语相似度的计算方法、装置、计算机设备及存储介质 | |
WO2020052183A1 (zh) | 商标侵权的识别方法、装置、计算机设备和存储介质 | |
CN112652295A (zh) | 语言模型训练、视频字幕校验方法、装置、设备及介质 | |
CN114330703A (zh) | 搜索模型的更新方法、装置、设备及计算机可读存储介质 | |
CN114359563A (zh) | 模型训练方法、装置、计算机设备和存储介质 | |
CN113221645A (zh) | 目标模型训练方法、人脸图像生成方法以及相关装置 | |
CN110413994B (zh) | 热点话题生成方法、装置、计算机设备和存储介质 | |
CN111177500A (zh) | 数据对象分类方法、装置、计算机设备和存储介质 | |
WO2022142123A1 (zh) | 命名实体模型的训练方法、装置、设备及介质 | |
CN114332556A (zh) | 训练样本筛选方法、装置、计算机设备和存储介质 | |
CN111552810B (zh) | 实体抽取与分类方法、装置、计算机设备和存储介质 | |
CN109493975B (zh) | 基于xgboost模型的慢性病复发预测方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |