CN111984812B - 一种特征提取模型生成方法、图像检索方法、装置及设备 - Google Patents
一种特征提取模型生成方法、图像检索方法、装置及设备 Download PDFInfo
- Publication number
- CN111984812B CN111984812B CN202010777228.7A CN202010777228A CN111984812B CN 111984812 B CN111984812 B CN 111984812B CN 202010777228 A CN202010777228 A CN 202010777228A CN 111984812 B CN111984812 B CN 111984812B
- Authority
- CN
- China
- Prior art keywords
- image
- category
- training
- training image
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 190
- 238000000034 method Methods 0.000 title claims abstract description 112
- 238000012549 training Methods 0.000 claims abstract description 489
- 238000013145 classification model Methods 0.000 claims abstract description 124
- 230000008569 process Effects 0.000 claims description 54
- 238000011176 pooling Methods 0.000 claims description 37
- 238000004590 computer program Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 abstract description 10
- 238000012937 correction Methods 0.000 description 16
- 230000009467 reduction Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000009514 concussion Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种特征提取模型生成方法、图像检索方法、装置及设备,该特征提取模型生成方法包括:在获取到训练图像之后,先将该训练图像输入图像分类模型,获取图像分类模型中的特征提取层输出的训练图像的图像特征、以及图像分类模型中的类别预测层输出的训练图像的预测类别,并对训练图像的图像特征进行聚类得到训练图像的当前聚类类别;再根据训练图像的预测类别和训练图像的当前聚类类别,更新图像分类模型的模型参数,并返回执行上述将训练图像输入图像分类模型以及后续步骤,直至达到停止条件,根据图像分类模型中的特征提取层生成特征提取模型,如此使得该特征提取模型能够从图像中提取出用于准确地表征图像携带的信息的图像特征。
Description
技术领域
本申请涉及自动化机器学习技术领域,具体涉及一种特征提取模型生成方法、图像检索方法、装置及设备。
背景技术
随着机器学习技术的发展,图像检索的应用范围逐渐扩大。所谓图像检索是指从预先建立的图像库中找到与待检索图像相似的图像。
另外,图像间相似性可以依据图像特征进行确定,其具体为:两个图像的图像特征之间的差距越小,则可以确定这两个图像越相似;两个图像的图像特征之间的差距越大,则可以确定这两个图像越不相似。其中,图像特征是指从图像中提取出来的用于表征图像携带的信息的特征。
然而,如何从图像中提取图像特征仍是一个亟待解决的技术问题。
发明内容
有鉴于此,本申请实施例提供一种特征提取模型生成方法、图像检索方法、装置及设备,能够从图像中提取出用于准确地表征图像携带的信息的图像特征。
为解决上述问题,本申请实施例提供的技术方案如下:
一种特征提取模型生成方法,包括:
获取训练图像;
将所述训练图像输入图像分类模型,获取所述图像分类模型中的特征提取层输出的所述训练图像的图像特征、以及所述图像分类模型中的类别预测层输出的所述训练图像的预测类别;其中,所述特征提取层用于从所述训练图像中提取所述训练图像的图像特征;所述类别预测层用于根据所述特征提取层输出的所述训练图像的图像特征,确定所述训练图像的预测类别;
对所述训练图像的图像特征进行聚类,得到所述训练图像的当前聚类类别;
根据所述训练图像的预测类别和所述训练图像的当前聚类类别,更新所述图像分类模型的模型参数,并继续执行所述将所述训练图像输入图像分类模型以及后续步骤,直至达到停止条件,根据所述图像分类模型中的特征提取层生成特征提取模型。
在一种可能的实现方式中,所述根据所述训练图像的预测类别和所述训练图像的当前聚类类别,更新所述图像分类模型的模型参数,包括:
在确定所述训练图像的当前聚类类别满足校正条件时,对所述训练图像的当前聚类类别进行校正,得到所述训练图像的标签类别;
根据所述训练图像的预测类别和所述训练图像的标签类别,更新所述图像分类模型的模型参数。
在一种可能的实现方式中,所述方法还包括:
根据所述训练图像的当前聚类类别与所述训练图像的参考聚类类别之间的差距,得到聚类差距;
在确定所述聚类差距达到差距阈值时,确定所述训练图像的当前聚类类别满足校正条件。
在一种可能的实现方式中,当所述训练图像的个数为N个时,所述对所述训练图像的当前聚类类别进行校正,得到所述训练图像的标签类别,包括:
将第i个训练图像的当前聚类类别确定为目标类别;
将以所述目标类别作为当前聚类类别的各个训练图像的集合,确定为目标图像集;
根据所述目标图像集中的训练图像的预测类别和/或参考聚类类别,确定所述第i个训练图像的标签类别;其中,i为正整数,i≤N。
在一种可能的实现方式中,所述根据所述目标图像集中的训练图像的预测类别和参考聚类类别,确定所述第i个训练图像的标签类别,包括:
将所述目标图像集中所有训练图像的预测类别的众数,确定为第一类别;
将所述目标图像集中所有训练图像的参考聚类类别的众数,确定为第二类别;
在确定所述第一类别和所述第二类别不同,且所述第一类别对应的训练图像个数高于所述第二类别对应的训练图像个数时,将所述第一类别确定为所述第i个训练图像的标签类别;
在确定所述第一类别和所述第二类别不同,且所述第二类别对应的训练图像个数高于所述第一类别对应的训练图像个数时,将所述第二类别确定为所述第i个训练图像的标签类别。
在一种可能的实现方式中,所述根据所述训练图像的预测类别和所述训练图像的标签类别,更新所述图像分类模型的模型参数,包括:
依据所述训练图像的预测类别和所述训练图像的标签类别的均方误差,对所述图像分类模型的模型参数进行反向校正。
在一种可能的实现方式中,所述特征提取层包括特征图提取层、全局池化层和全连接层;
所述特征图提取层,用于从所述训练图像中提取所述训练图像的特征图;
所述全局池化层,用于对所述特征图提取层输出的所述训练图像的特征图进行全局池化,得到所述训练图像的特征值;
所述全连接层,用于对所述全局池化层输出的所述训练图像的特征值进行降维,得到所述训练图像的图像特征。
一种图像检索方法,包括:
获取待检索图像;
将所述待检索图像输入特征提取模型,得到所述特征提取模型输出的所述待检索图像的图像特征;其中,所述特征提取模型是根据本申请实施例提供的特征提取模型生成方法的任一实施方式生成的;
将所述待检索图像的图像特征与图像库中各个候选图像的图像特征之间的相似度,分别确定为各个候选图像对应的图像匹配度;
根据各个候选图像对应的图像匹配度,确定所述待检索图像的检索结果。
一种特征提取模型生成装置,包括:
第一获取单元,用于获取训练图像;
第一预测单元,用于将所述训练图像输入图像分类模型,获取所述图像分类模型中的特征提取层输出的所述训练图像的图像特征、以及所述图像分类模型中的类别预测层输出的所述训练图像的预测类别;其中,所述特征提取层用于从所述训练图像中提取所述训练图像的图像特征;所述类别预测层用于根据所述特征提取层输出的所述训练图像的图像特征,确定所述训练图像的预测类别;
特征聚类单元,用于对所述训练图像的图像特征进行聚类,得到所述训练图像的当前聚类类别;
参数更新单元,用于根据所述训练图像的预测类别和所述训练图像的当前聚类类别,更新所述图像分类模型的模型参数,并返回所述第一预测单元执行所述将所述训练图像输入图像分类模型,直至达到停止条件,根据所述图像分类模型中的特征提取层生成特征提取模型。
一种图像检索装置,包括:
第二获取单元,用于获取待检索图像;
第二预测单元,用于将所述待检索图像输入特征提取模型,得到所述特征提取模型输出的所述待检索图像的图像特征;其中,所述特征提取模型是根据本申请实施例提供的特征提取模型生成方法的任一实施方式生成的;
特征匹配单元,用于将所述待检索图像的图像特征与图像库中各个候选图像的图像特征之间的相似度,分别确定为各个候选图像对应的图像匹配度;
结果确定单元,用于根据各个候选图像对应的图像匹配度,确定所述待检索图像的检索结果。
一种特征提取模型生成设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如本申请实施例提供的特征提取模型生成方法的任一实施方式。
一种图像检索设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如本申请实施例提供的图像检索方法的任一实施方式。
一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如本申请实施例提供的特征提取模型生成方法的任一实施方式,或者执行如本申请实施例提供的图像检索方法的任一实施方式。
由此可见,本申请实施例具有如下有益效果:
本申请实施例提供的特征提取模型生成方法中,在获取到训练图像之后,先将该训练图像输入图像分类模型,获取图像分类模型中的特征提取层输出的训练图像的图像特征、以及图像分类模型中的类别预测层输出的训练图像的预测类别,并对训练图像的图像特征进行聚类得到训练图像的当前聚类类别;再根据训练图像的预测类别和训练图像的当前聚类类别,更新图像分类模型的模型参数,并返回执行上述将训练图像输入图像分类模型以及后续步骤,直至达到停止条件,根据图像分类模型中的特征提取层生成特征提取模型。
可见,因特征提取层所涉及的模型参数会随着图像分类模型的更新而进行更新,使得经过多轮模型参数更新后的特征提取层能够从图像中提取出更准确的图像特征,从而使得基于经过多轮模型参数更新后的特征提取层生成的特征提取模型,也能够从图像中提取出用于准确表征图像携带信息的图像特征。另外,因图像分类模型是依据训练图像的聚类类别所表征的标签信息进行更新的,使得图像分类模型的训练更新过程无需使用训练图像的实际标签,从而使得在对图像分类模型进行训练之前无需由相关人员预先对训练图像进行实际标签标注,如此能够有效地节省人工标注的资源消耗和时间消耗,从而能够有效地节省生成特征提取模型的资源消耗和时间消耗。
附图说明
图1为本申请实施例提供的一种特征提取模型生成方法的流程图;
图2为本申请实施例提供的一种图像分类模型的结构示意图;
图3为本申请实施例提供的一种特征提取层的结构示意图;
图4为本申请实施例提供的一种数据降维层的结构示意图;
图5为本申请实施例提供的图像特征的提取流程示意图;
图6为本申请实施例提供的一种特征图提取层的结构示意图;
图7为本申请实施例提供的一种图像检索方法的流程示意图;
图8本申请实施例提供的一种特征提取模型生成装置的结构示意图;
图9本申请实施例提供的一种图像检索装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
发明人在对图像检索的研究中发现:在图像检索(尤其是医学影像检索)过程中,为了提高检索效率,可以依据数据维度较低的图像特征来确定两个图像是否相似,而且该图像特征可以利用预先构建的模型进行提取。然而,因该模型的训练过程需要使用训练图像的标签信息,使得在对模型进行训练之前需要由相关人员花费大量的时间及精力对这些训练图像进行实际标签标注,如此增加了模型训练过程的资源消耗以及时间消耗。
基于此,为了解决背景部分的技术问题以及上述技术问题,本申请实施例提供了一种特征提取模型生成方法,其具体为:在获取到训练图像之后,先将该训练图像输入图像分类模型,获取图像分类模型中的特征提取层输出的训练图像的图像特征、以及图像分类模型中的类别预测层输出的训练图像的预测类别,并对训练图像的图像特征进行聚类得到训练图像的当前聚类类别;再根据训练图像的预测类别和训练图像的当前聚类类别,更新图像分类模型的模型参数,并返回执行上述将训练图像输入图像分类模型以及后续步骤,直至达到停止条件,根据图像分类模型中的特征提取层生成特征提取模型,以使该特征提取模型能够从图像中提取出用于准确表征图像携带信息的图像特征。其中,因图像分类模型是依据训练图像的聚类类别所表征的标签信息进行更新的,使得图像分类模型的训练更新过程无需使用训练图像的实际标签,从而使得在对图像分类模型进行训练之前无需由相关人员预先对训练图像进行实际标签标注,如此能够有效地节省人工标注的资源消耗和时间消耗,从而能够有效地节省生成特征提取模型的资源消耗和时间消耗。
可见,在本申请实施例中,为了能够获取到提取性能良好的特征提取模型,可以将特征提取模型作为一个网络层(如特征提取层)集成到图像分类模型中进行训练,以使特征提取模型的提取性能能够借助图像分类模型的训练更新过程不断进行优化提高。
为了便于理解本申请,下面结合附图对本申请实施例提供的特征提取模型生成方法进行说明。
参见图1,该图为本申请实施例提供的一种特征提取模型生成方法的流程图,该特征提取模型生成方法可以包括S101-S103:
S101:获取训练图像。
训练图像是指对图像分类模型进行训练时所使用的图像,而且本申请实施例不限定训练图像的个数,例如,训练图像的个数为N,N为正整数。
另外,本申请实施例不限定训练图像的来源,例如,训练图像可以来自于图像库,也就是,训练图像可以是该图像库中的候选图像。需要说明的是,图像库的相关内容请参见下文S703。
另外,本申请实施例也不限定训练图像的类型,而且训练图像的类型可以根据特征提取模型的应用领域进行确定。例如,当特征提取模型的应用领域为医疗技术领域时,训练图像可以是医疗影像(如二维或三维医疗影像)。
基于S101的相关内容可知,在对图像分类模型进行训练更新之前,可以先获取N个训练图像(如,从图像库中抽取N个候选图像,作为N个训练图像),以便后续能够基于该N个训练图像对图像分类模型进行训练更新。其中,N为正整数。
S102:将训练图像输入图像分类模型,获取图像分类模型中的特征提取层输出的训练图像的图像特征、以及图像分类模型中的类别预测层输出的训练图像的预测类别。
图像分类模型用于对输入到图像分类模型中的图像进行类别预测。需要说明的是,本申请实施例不限定图像分类模型的类型,例如,图像分类模型为神经网络模型。
另外,如图2所示,图像分类模型可以包括特征提取层和类别预测层,而且特征提取层的输出数据为类别预测层的输入数据。
特征提取层用于从训练图像中提取训练图像的图像特征。需要说明的是,本申请实施例不限定特征提取层的结构,而且本申请实施例还提供了特征提取层的具体实施方式,技术详情请参见下文图3至图6的相关内容。
类别预测层用于根据特征提取层输出的训练图像的图像特征,确定训练图像的预测类别。需要说明的是,本申请实施例不限定类别预测层的结构,而且类别预测层可以采用任一种能够根据图像的图像特征确定该图像的预测类别的结构(如神经网络结构)进行实施。
基于S102的相关内容可知,在获取到训练图像之后,可以利用图像分类模型对该训练图像进行类别预测,得到在该图像分类模型的类别预测过程中产生的训练图像的图像特征和训练图像的预测类别,以便后续能够利用训练图像的图像特征生成该训练图像的标签信息,并依据生成的训练图像的标签信息以及该训练图像的预测类别对图像分类模型进行模型参数更新。
S103:对训练图像的图像特征进行聚类,得到训练图像的当前聚类类别。
训练图像的当前聚类类别是指该训练图像在当前聚类过程中被划分为的类别。
实际上,因每次聚类过程的聚类标准不一致,故为了保证所有训练图像均使用同一个聚类标准进行聚类,可以将只利用一次聚类过程来实现对所有训练图像的聚类。例如,若训练图像的个数为N,则在获取到N个训练图像的图像特征之后,可以将第1个训练图像的图像特征至第N个训练图像的图像特征同时进行聚类,得到第1个训练图像的当前聚类类别至第N个训练图像的当前聚类类别,以便后续能够利用各个训练图像的当前聚类类别分别生成各个训练图像的标签信息,如此能够有效地避免因对训练图像进行分批聚类而导致训练图像的当前聚类类别无效,从而能够避免因当前聚类类别无效而对图像分类模型的训练过程所造成的不良影响。
需要说明的是,本申请实施例不限定聚类的实施方式,例如,S103可以采用任一种聚类算法(如k-means)进行实施。
S104:判断是否达到停止条件;若是,则执行S106;若否,则执行S105。
停止条件是指停止训练图像分类模型所需达到的条件;而且,停止条件可以根据应用场景预先设定。例如,停止条件可以包括训练图像的预测类别与该训练图像的标签信息(例如,下文S1052和S1053所涉及的标签类别)之间的差距低于预设阈值、训练图像的预测类别的变化率低于预设变化率阈值、以及待训练预测模型的训练次数达到预设次数阈值中的至少一个条件。
S105:根据训练图像的预测类别和训练图像的当前聚类类别,更新图像分类模型的模型参数,并返回执行S102。
本申请实施例中,在确定当前轮的训练过程依旧未达到停止条件时,可以确定当前轮的图像分类模型的分类性能仍然较低,从而可以确定图像分类模型中的特征提取层的特征提取性能较差,故为了能够提高特征提取层的特征提取性能,需要先依据训练图像的预测类别及其当前聚类类别这两个信息,对图像分类模型的模型参数进行更新,使得更新后的图像分类模型的分类性能能够提高,从而使得更新后的图像分类模型中的特征提取层的特征提取性能能够提升;再利用S102及其后续步骤对更新后的图像分类模型进行特征提取性能验证。如此对图像分类模型经过多轮的更新验证过程之后,即可得到分类性能较优的图像分类模型,从而能够基于该分类性能较高的图像分类模型中的特征提取层,得到特征提取性能较优的特征提取模型。
需要说明的是,本申请实施例还提供了S105的具体实施方式,技术详情请参见下文S1051至S1054的相关内容。
S106:根据图像分类模型中的特征提取层生成特征提取模型。
本申请实施例中,在确定当前轮的训练过程达到停止条件之后,可以确定当前轮的图像分类模型的分类性能较高,从而可以确定图像分类模型中的特征提取层的特征提取性能较好,故可以根据图像分类模型中的特征提取层生成特征提取模型,以使该特征提取模型能够具有较好的特征提取性能,从而使得该特征提取模型能够从图像中提取出用于准确表征图像携带的信息的图像特征。
基于上述S101至S106的相关内容可知,在本申请实施例提供的特征提取模型生成方法中,在获取到训练图像之后,先将该训练图像输入图像分类模型,获取图像分类模型中的特征提取层输出的训练图像的图像特征、以及图像分类模型中的类别预测层输出的训练图像的预测类别,并对训练图像的图像特征进行聚类得到训练图像的当前聚类类别;再根据训练图像的预测类别和训练图像的当前聚类类别,更新图像分类模型的模型参数,并返回执行上述将训练图像输入图像分类模型以及后续步骤,直至达到停止条件,根据图像分类模型中的特征提取层生成特征提取模型。
可见,因特征提取层所涉及的模型参数会随着图像分类模型的更新而进行更新,使得经过多轮模型参数更新后的特征提取层能够从图像中提取出更准确的图像特征,从而使得基于经过多轮模型参数更新后的特征提取层生成的特征提取模型,也能够从图像中提取出用于准确表征图像携带信息的图像特征。另外,因图像分类模型是依据训练图像的聚类类别所表征的标签信息进行更新的,使得图像分类模型的训练更新过程无需使用训练图像的实际标签,从而使得在对图像分类模型进行训练之前无需由相关人员预先对训练图像进行实际标签标注,如此能够有效地节省人工标注的资源消耗和时间消耗,从而能够有效地节省生成特征提取模型的资源消耗和时间消耗。
另外,本申请实施例还提供了图像分类模型中的特征提取层的多种可能的实施方式,下面分别进行介绍。
在一种可能的实施方式中,如图3所示,特征提取层可以包括特征图提取层和数据降维层,而且特征图提取层的输出数据为数据降维层的输入数据。其中,特征图提取层用于从训练图像中提取训练图像的特征图;数据降维层用于对特征图提取层输出的训练图像的特征图进行数据降维,得到训练图像的图像特征。
可见,当图像分类模型包括图3所示的特征提取层时,该图像分类模型对训练图像进行类别预测的具体过程为:在接收到训练图像之后,先从该训练图像中提取该训练图像的特征图;再对该训练图像的特征图进行数据降维,得到训练图像的图像特征,以使训练图像的图像特征的数据维度低于该训练图像的特征图的数据维度;最后,根据该训练图像的图像特征,确定该训练图像的预测类别。其中,因图像特征的数据维度较低,使得后续基于图像特征进行的聚类过程的耗时较少,如此有利于提高图像分类模型的训练效率。
本申请实施例不限定数据降维层的结构,可以采用任一种能够对特征图进行数据降维的结构进行实施。另外,因全局池化层和全连接层均能够实现降维处理,故在一种可能的实施方式中,如图4所示,数据降维层可以包括全局池化层和全连接层,而且全局池化层的输出数据为全连接层的输入数据。其中,全局池化层用于对特征图提取层输出的训练图像的特征图进行全局池化,得到训练图像的特征值;全连接层用于对全局池化层输出的训练图像的特征值进行降维,得到训练图像的图像特征。
可见,当图像分类模型包括图4所示的特征提取层时,图像分类模型对训练图像进行类别预测的具体过程为:在接收到训练图像之后,先从该训练图像中提取该训练图像的特征图;再对该训练图像的特征图进行全局池化,得到该训练图像的特征值,以使该特征值中的每个数值均能够代表一张特征图;再对该训练图像的特征值进行降维处理,得到该训练图像的图像特征,以使该训练图像的图像特征的维度低于该训练图像的特征值的维度;最后,根据该训练图像的图像特征,确定该训练图像的预测类别。其中,因全局池化层能够将每一张特征图均降维至一个数值,使得全局池化层输出的训练图像的特征值的数据维度很低,从而使得基于训练图像的特征值确定的训练图像的图像特征的数据维度也很低,如此利于提高图像分类模型的训练效率。另外,还因全连接层能够对训练图像的特征值进行再次降维,使得全连接层输出的训练图像的图像特征的数据维度更低,如此利于进一步提高图像分类模型的训练效率。
需要说明的是,全局池化是指将一个特征图池化为1个数值,故当特征图提取层从图像中抽取了M个特征图(如图5所示)之后,全局池化层能够将该M个特征图全局池化为包括M个数值的特征值,以使特征值中的第j个数值代表第j个特征图;其中,j为正整数,j≤M。另外,本申请实施例不限定全局池化,例如,全局池化可以为全局平均池化、全局最大值池化、或者全局最小值池化等。
还需要说明的是,在一些情况(如,全局池化层输出的特征值的维度较低时)下,为了简化特征提取层的结构,可以省去全连接层,使得特征提取层可以包括特征图提取层和全局池化层。可见,对于特征提取层来说,全连接层是一个可选的网络层。
另外,本申请实施例也不限定特征图提取层的结构,在一种可能的实施方式中,特征图提取层可以包括W1个卷积层和W2个池化层,其中,W1为正整数,W2为正整数。需要说明的是,W1和W2可以根据应用场景预先设定。例如,如图6所示,当W1为2,且W2为1时,特征图提取层可以包括2个卷积层和1个池化层。
可见,当图像分类模型中的特征图提取层包括W1个卷积层和W2个池化层时,在接收到训练图像之后,可以先利用W1个卷积层和W2个池化层按照预设顺序(也就是,W1个卷积层和W2个池化层在图像分类模型中部署位置的先后顺序)对该训练图像进行处理,得到该训练图像的特征图;再对该训练图像的特征图进行降维处理(如,利用全局池化层和全连接层进行降维处理),得到该训练图像的图像特征;最后,根据该训练图像的图像特征,确定该训练图像的预测类别。
基于上述特征提取层的相关内容以及图3至图6可知,本申请实施例不限定图像分类模型中的特征提取层的结构,可以根据应用场景使用适用于该应用场景的特征提取层的结构,以使该特征提取层在该应用场景下,能够从图像中提取出用于准确表征图像携带信息的图像特征。
实际上,因聚类过程的自身特性,使得在不同轮聚类过程产生的聚类结果中的同一聚类类别标识所表征的实际类别可能会不同。例如,在第1轮聚类过程中聚类类别标识1用于表征实际类别“汽车”,且聚类类别标识2用于表征实际类别“飞机”;但是,在第2轮聚类过程中聚类类别标识1用于表征实际类别“飞机”,且聚类类别标识2用于表征实际类别“汽车”。可见,若将当前聚类类别直接作为标签信息进行使用,则易导致不同轮模型更新过程依据的标签信息不一致,如此易导致模型震荡。
为了避免模型震荡,可以对每轮训练过程中获取到的当前聚类类别进行校正,使得不同轮训练过程中的校正后的当前聚类类别能够实现同一聚类类别标识所表征的实际类别相同。基于此,本申请实施例还提供了S105的一种可能的实施方式,其具体包括S1051-S1053:
S1051:判断训练图像的当前聚类类别是否满足校正条件;若是,则执行S1053-S1054;若否,则执行S1052。
校正条件是指需要进行校正处理的聚类类别所满足的条件,而且校正条件可以预先设定。
在一些情况下,为了能够将不同轮聚类过程中的同一个聚类类别标识所表征的实际类别统一为同一个实际类别(例如,不同轮聚类过程中的聚类类别标识1均用于表征实际类别“飞机”),可以设定一个参考聚类类别,并将该参考结果作为参照物,来确定当前聚类类别是否需要校正以及应该如何校正。可见,在一种可能的实施方式中,校正条件可以为:训练图像的当前聚类类别与训练图像的参考聚类类别之间的差距达到差距阈值。
基于此,本申请实施例还提供了S1051的一种可能的实施方式,其具体包括S10511-S10512:
S10511:根据训练图像的当前聚类类别与训练图像的参考聚类类别之间的差距,得到聚类差距。
训练图像的参考聚类类别是作为参照物进行使用的,而且训练图像的参考聚类类别是指该训练图像在参考聚类过程中被划分为的类别。
另外,本申请实施例不限定训练图像的参考聚类类别的获取方式,下面结合两个示例进行说明。
示例一,若参考聚类过程为第一轮聚类过程(也就是,第一轮模型训练过程中所涉及的聚类过程),则训练图像的参考聚类类别为第一轮聚类过程中产生的聚类类别。
示例二,若参考聚类过程为当前时刻下的前一轮聚类过程,则训练图像的参考聚类类别为在当前时刻下的前一轮聚类过程中产生的校正后的聚类类别,其具体为:在第q+1轮模型训练过程中使用的训练图像的参考聚类类别为在第q轮模型训练过程中产生的校正后的聚类类别,q为正整数,且q≤Q-1,Q为模型训练过程的循环轮数。可见,对于每一轮模型训练过程来说,在获取到当前轮的校正后的当前聚类类别之后,将训练图像的参考聚类类别更新为当前轮的校正后的当前聚类类别,以便在下一轮模型训练过程中作为参照物进行使用。
聚类差距用于表征训练图像的当前聚类类别与训练图像的参考聚类类别之间的差距,而且本申请实施例不限定该聚类差距的计算方式。为了便于理解该聚类差距的计算方式,下面结合示例进行说明。
例如,当训练图像的个数为N时,如公式(1)所示,聚类差距的确定过程具体为:首先,判断第i个训练图像的当前聚类类别与第i个训练图像的参考聚类类别是否相同,得到第i个训练图像对应的判断结果,i为为正整数,且i≤N。然后,统计对应的判断结果为“不同”的训练图像的个数,作为错误个数。最后,将错误个数与训练图像的个数N的比值,确定为聚类差距。
式中,F为N个训练图像的当前聚类类别与N个训练图像的参考聚类类别之间的差距(也就是,聚类差距);si为第i个训练图像的当前聚类类别Ci与第i个训练图像的参考聚类类别Ri之间的差距标识,若si=0,则表示第i个训练图像的当前聚类类别Ci与第i个训练图像的参考聚类类别Ri相同,若si=1,则表示第i个训练图像的当前聚类类别不同于第i个训练图像的参考聚类类别;i为正整数,且i≤N。
基于上述示例的相关内容可知,可以统计当前聚类类别不同于参考聚类类别的训练图像的总个数,作为错误个数,并将错误个数与训练图像的个数N的比值(如百分比)确定为聚类差距,以使该聚类差距能够准确地表征训练图像的当前聚类类别与训练图像的参考聚类类别之间的差距大小。
S10512:判断上述聚类差距是否达到差距阈值;若是,则确定训练图像的当前聚类类别满足校正条件,并执行S1053-S1054;若否,则确定训练图像的当前聚类类别不满足校正条件,并执行S1052。
其中,差距阈值可以预先根据应用场景设定。例如,差距阈值可以为40%。
本申请实施例中,在获取到训练图像的当前聚类类别与训练图像的参考聚类类别之间的聚类差距之后,可以判断该聚类差距是否达到差距阈值,若达到,则可以确定训练图像的当前聚类类别与训练图像的参考聚类类别之间的差距比较大,从而可以确定训练图像的当前聚类结果与训练图像的参考聚类类别之间存在同一个聚类类别标识表征不同实际类别的现象,如此可以确定训练图像的当前聚类类别满足校正条件,故为了提高图像分类模型的稳定性,可以采用S1053对训练图像的当前聚类类别进行校正,以使校正后的当前聚类类别与训练图像的参考聚类类别之间不存在同一个聚类类别标识表征不同实际类别的现象,以便后续能够利用校正后的当前聚类类别生成训练图像的标签信息;若没有达到,则可以确定训练图像的当前聚类类别与训练图像的参考聚类类别之间的差距比较小,从而可以确定训练图像的当前聚类类别与训练图像的参考聚类类别之间不存在同一个聚类类别标识表征不同实际类别的现象,如此可以确定训练图像的当前聚类类别不满足校正条件,故无需对当前聚类类别进行校正,直接利用当前聚类类别生成训练图像的标签信息。
S1052:将训练图像的当前聚类类别,确定为训练图像的标签类别。
本申请实施例中,在确定训练图像的当前聚类类别与训练图像的参考聚类类别之间的差距没有达到差距阈值时,可以直接将训练图像的当前聚类类别确定为训练图像的标签类别,其具体为:若训练图像的个数为N,则将第i个训练图像的当前聚类类别确定为第i个训练图像的标签类别,i为正整数,i≤N。
S1053:对训练图像的当前聚类类别进行校正,得到训练图像的标签类别。
本申请实施例中,在确定训练图像的当前聚类类别与训练图像的参考聚类类别之间的差距达到差距阈值时,可以先对训练图像的当前聚类类别进行校正,再将校正后的当前聚类类别确定为训练图像的标签类别,其具体为:若训练图像的个数为N,则先对第i个训练图像的当前聚类类别进行校正,得到第i个训练图像的校正后当前聚类类别;再将第i个训练图像的校正后当前聚类类别确定为第i个训练图像的标签类别,i为正整数,i≤N。
另外,本申请实施例还提供了一种确定第i个训练图像的标签类别的实施方式,其具体包括以下3步:
步骤1:将第i个训练图像的当前聚类类别确定为目标类别。
例如,当第i个训练图像的当前聚类类别为1时,则将1确定为目标类别。
步骤2:将以目标类别作为当前聚类类别的各个训练图像的集合,确定为目标图像集。
其中,目标图像集用于记录以目标类别作为当前聚类类别的各个训练图像。为了便于理解目标图像集的构建过程,下面结合示例进行说明。
例如,当目标类别为1时,目标图像集的构建过程包括以下步骤21-23:
步骤21:判断第1个训练图像的当前聚类类别是否为1;若是,则将第1个训练图像添加至目标图像集中;若否,则舍弃第1个训练图像。
步骤22:判断第2个训练图像的当前聚类类别是否为1;若是,则将第2个训练图像添加至目标图像集中;若否,则舍弃第2个训练图像。
……(以此类推)
步骤23:判断第N个训练图像的当前聚类类别是否为1;若是,则将第N个训练图像添加至目标图像集中;若否,则舍弃第N个训练图像。
基于上述步骤2的相关内容可知,在获取到目标类别之后,可以遍历所有训练图像的当前聚类类别,并将所有的以目标类别作为当前聚类类别的训练图像添加至该目标类别对应的目标图像集中,以使目标图像集能够记录以目标类别作为当前聚类类别的各个训练图像。
步骤3:根据目标图像集中的训练图像的预测类别和/或参考聚类类别,确定第i个训练图像的标签类别。
本申请实施例提供了步骤3的三种可能的实施方式,下面分别进行介绍。
作为第一种实施方式,若第i个训练图像的标签类别是根据目标图像集中的训练图像的预测类别确定的,则步骤3具体可以为:将目标图像集中所有训练图像的预测类别的众数,确定为第i个训练图像的标签类别。
作为第二种实施方式,若第i个训练图像的标签类别是根据目标图像集中的训练图像的参考聚类类别确定的,则步骤3具体可以为:将目标图像集中所有训练图像的参考聚类类别的众数,确定为第i个训练图像的标签类别。
作为第三种实施方式,若第i个训练图像的标签类别是根据目标图像集中的训练图像的预测类别和参考聚类类别共同确定的,则步骤3具体可以包括步骤31-36:
步骤31:将目标图像集中所有训练图像的预测类别的众数,确定为第一类别。
步骤32:将目标图像集中所有训练图像的参考聚类类别的众数,确定为第二类别。
步骤33:在确定第一类别和第二类别不同,且第一类别对应的训练图像个数高于第二类别对应的训练图像个数时,将第一类别确定为第i个训练图像的标签类别。
其中,第一类别对应的训练图像个数是指在目标图像集中以第一类别作为预测类别的训练图像的个数。第二类别对应的训练图像个数是指在目标图像集中以第二类别作为参考聚类类别的训练图像的个数。
步骤34:在确定第一类别和第二类别不同,且第二类别对应的训练图像个数高于第一类别对应的训练图像个数时,将第二类别确定为第i个训练图像的标签类别。
步骤35:在确定第一类别和第二类别不同,且第二类别对应的训练图像个数等于第一类别对应的训练图像个数时,将第一类别或者第二类别确定为第i个训练图像的标签类别。
步骤36:在确定第一类别和第二类别相同时,将第一类别或者第二类别确定为第i个训练图像的标签类别。
基于上述S1053的相关内容可知,在确定训练图像的当前聚类类别与训练图像的参考聚类类别之间的差距达到差距阈值时,可以依据每个训练图像所属的当前聚类类别下的所有训练图像的预测类别众数和/或参考聚类类别众数,分别确定每个训练图像的校正后的当前聚类类别,并将每个训练图像的校正后的当前聚类类别分别确定为每个训练图像的标签类别。
S1054:根据训练图像的预测类别和训练图像的标签类别,更新图像分类模型的模型参数。
本申请实施例不限定模型参数的更新方法,例如,可以采用误差反向传播算法(如BP算法中的反向传播算法)对图像分类模型的模型参数进行更新,此时,S1054具体可以为:依据训练图像的预测类别和训练图像的标签类别的均方误差,对图像分类模型的模型参数进行反向校正。
基于上述S1051至S1054的相关内容可知,在获取到训练图像的当前聚类类别之后,可以先以训练图像的参考聚类类别作为参照物,确定训练图像的当前聚类类别是否需要进行校正,并在确定训练图像的当前聚类类别需要进行校正时,利用每个训练图像所属的当前聚类类别下的所有训练图像的预测类别众数和/或参考聚类类别众数,分别对每个训练图像所属的当前聚类类别进行校正,以使校正后的训练图像的当前聚类类别与训练图像的参考聚类类别之间不存在同一个聚类类别标识表征不同实际类别的现象,如此能够有效地避免模型震荡,有利于提高模型的训练效率以及训练效果。
基于上述特征提取模型,本申请实施例还提供了一种图像检索方法,下面结合附图进行说明。
参见图7,该图为本申请实施例提供的一种图像检索方法的流程示意图。如图7所示,本申请实施例提供的图像检索方法包括S701-S704:
S701:获取待检索图像。
待检索图像是指需要进行图像检索的图像。其中,图像检索是指在图像库中检索与待检索图像相似的图像。例如,待检索图像可以是一个医学影像。
S702:将待检索图像输入特征提取模型,得到特征提取模型输出的待检索图像的图像特征。
特征提取模型用于从待检索图像中提取出该待检索图像的图像特征,而且该特征提取模型是利用上文提供的特征提取模型生成方法的任一实施方式生成的。
本申请实施例中,在获取到待检索图像之后,可以将待检索图像输入到特征提取模型中,以使该特征提取模型对该待检索图像进行图像特征提取,如此能够得到该特征提取模型输出的待检索图像的图像特征。
S703:将待检索图像的图像特征与图像库中各个候选图像的图像特征之间的相似度,分别确定为各个候选图像对应的图像匹配度。
图像库包括大量的候选图像,而且在不同应用场景下图像库中所包括的候选图像的类型不同。例如,当应用场景为医疗技术领域时,图像库可以包括大量的医学影像。
候选图像的图像特征是预先利用特征提取模型从候选图像中提取得到的。另外,本申请实施例不限定候选图像的图像特征的获取时间,只需在生成特征提取模型之后且在执行S703之前进行获取即可。
需要说明的是,为了提高图像检索准确性,需要保证采取待检索图像的图像特征时所使用的特征提取模型,与采取候选图像的图像特征时所使用的特征提取模型是同一个模型。
还需要说明的是,为了便于快速查找出每个候选图像的图像特征,可以建立一个预设映射关系,以使该预设映射关系能够记录各个候选图像与各个图像特征之间的一一对应关系,以便后续能够使用该预设映射关系准确地查找出每个候选图像的图像特征。
图像匹配度用于表征候选图像与待检索图像之间的相似程度,而且图像匹配度越高,则表示该候选图像与待检索图像之间的相似程度越高。
基于S703的相关内容可知,若图像库中包括H张候选图像,则在获取到待检索图像的图像特征之后,可以直接将待检索图像的图像特征与第h张候选图像的图像特征之间的相似度,确定为第h张候选图像对应的图像匹配度,以使第h张候选图像对应的图像匹配度能够准确地表征出第h张候选图像与待检索图像之间的相似程度。其中,h为正整数,h≤H,H为图像库中的候选图像个数。
S704:根据各个候选图像对应的图像匹配度,确定待检索图像的检索结果。
检索结果是指从图像库中查找与待检索图像相似的图像时得到的查找结果。
另外,本申请实施例不限定检索结果,例如,在一些情况下,检索结果可以只包括与待检索图像最相似的一张或多张候选图像;在一些情况下,检索结果可以包括与待检索图像的相似度(也就是,图像匹配度)高于相似阈值的候选图像;在一些情况下,检索结果可以是按照与待检索图像的相似度大小进行排序的候选图像有序列表。
此外,在本申请实施例中,在获取到检索结果之后,还可以将检索结果进行展示,以使用户能够查看该检索结果。
基于上述S701至S704的相关内容可知,本申请实施例中,在获取到待检索图像之后,可以先将待检索图像输入特征提取模型,得到特征提取模型输出的待检索图像的图像特征,并将待检索图像的图像特征与图像库中各个候选图像的图像特征之间的相似度,分别确定为各个候选图像对应的图像匹配度;再根据各个候选图像对应的图像匹配度,确定待检索图像的检索结果。其中,因特征提取模型是基于经过多轮更新训练后的图像分类模型中的特征提取层生成的,使得特征提取模型能够从图像中提取出用于准确表征图像携带信息的图像特征,从而使得利用特征提取模型提取到的待检索图像的图像特征能够准确地表征出待检索图像携带的信息,也使得利用特征提取模型提取到的候选图像的图像特征能够准确地表征出候选图像携带的信息,如此使得待检索图像的图像特征与候选图像的图像特征之间的相似度能够准确地表征待检测图像与候选图像之间的相似性,从而使得基于该相似度检索到的与待检索图像相似的候选图像更准确,如此有利于提高图像检索的准确性。
基于上述提供的特征提取模型生成方法的相关内容,本申请实施例还提供了一种特征提取模型生成装置,下面结合附图进行具体说明。
参见图8,该图为本申请实施例提供的一种特征提取模型生成装置的结构示意图,如图8所示,该特征提取模型生成装置包括:
第一获取单元801,用于获取训练图像;
第一预测单元802,用于将所述训练图像输入图像分类模型,获取所述图像分类模型中的特征提取层输出的所述训练图像的图像特征、以及所述图像分类模型中的类别预测层输出的所述训练图像的预测类别;其中,所述特征提取层用于从所述训练图像中提取所述训练图像的图像特征;所述类别预测层用于根据所述特征提取层输出的所述训练图像的图像特征,确定所述训练图像的预测类别;
特征聚类单元803,用于对所述训练图像的图像特征进行聚类,得到所述训练图像的当前聚类类别;
参数更新单元804,用于根据所述训练图像的预测类别和所述训练图像的当前聚类类别,更新所述图像分类模型的模型参数,并返回所述第一预测单元802执行所述将所述训练图像输入图像分类模型,直至达到停止条件,根据所述图像分类模型中的特征提取层生成特征提取模型。
在一种可能的实施方式中,参数更新单元804,包括:
类别校正子单元,用于在确定所述训练图像的当前聚类类别满足校正条件时,对所述训练图像的当前聚类类别进行校正,得到所述训练图像的标签类别;
参数更新子单元,用于根据所述训练图像的预测类别和所述训练图像的标签类别,更新所述图像分类模型的模型参数。
在一种可能的实施方式中,所述参数更新单元804还包括:
差距计算子单元,用于根据所述训练图像的当前聚类类别与所述训练图像的参考聚类类别之间的差距,得到聚类差距;
第一确定子单元,用于在确定所述聚类差距达到差距阈值时,确定所述训练图像的当前聚类类别满足校正条件。
在一种可能的实施方式中,所述类别校正子单元,包括:
第二确定子单元,用于当所述训练图像的个数为N个,所述训练图像的当前聚类类别包括N个训练图像的当前聚类类别,所述训练图像的参考聚类类别包括N个训练图像的参考聚类类别时,将第i个训练图像的当前聚类类别确定为目标类别;
第三确定子单元,用于将以所述目标类别作为当前聚类类别的各个训练图像的集合,确定为目标图像集;
第四确定子单元,用于根据所述目标图像集中的训练图像的预测类别和/或参考聚类类别,确定所述第i个训练图像的标签类别;其中,i为正整数,i≤N。
在一种可能的实施方式中,所述第四确定子单元,具体用于:
将所述目标图像集中所有训练图像的预测类别的众数,确定为第一类别;
将所述目标图像集中所有训练图像的参考聚类类别的众数,确定为第二类别;
在确定所述第一类别和所述第二类别不同,且所述第一类别对应的训练图像个数高于所述第二类别对应的训练图像个数时,将所述第一类别确定为所述第i个训练图像的标签类别;
在确定所述第一类别和所述第二类别不同,且所述第二类别对应的训练图像个数高于所述第一类别对应的训练图像个数时,将所述第二类别确定为所述第i个训练图像的标签类别。
在一种可能的实施方式中,所述参数更新子单元,具体用于:
依据所述训练图像的预测类别和所述训练图像的标签类别的均方误差,对所述图像分类模型的模型参数进行反向校正。
在一种可能的实施方式中,所述特征提取层包括特征图提取层、全局池化层和全连接层;
所述特征图提取层,用于从所述训练图像中提取所述训练图像的特征图;
所述全局池化层,用于对所述特征图提取层输出的所述训练图像的特征图进行全局池化,得到所述训练图像的特征值;
所述全连接层,用于对所述全局池化层输出的所述训练图像的特征值进行降维,得到所述训练图像的图像特征。
基于上述提供的图像检索方法的相关内容,本申请实施例还提供了一种图像检索装置,下面结合附图进行具体说明。
参见图9,该图为本申请实施例提供的一种图像检索装置的结构示意图,如图9所示,该图像检索装置包括:
第二获取单元901,用于获取待检索图像;
第二预测单元902,用于将所述待检索图像输入特征提取模型,得到所述特征提取模型输出的所述待检索图像的图像特征;其中,所述特征提取模型是根据上文特征提取模型生成方法的任一实施方式生成的;
特征匹配单元903,用于将所述待检索图像的图像特征与图像库中各个候选图像的图像特征之间的相似度,分别确定为各个候选图像对应的图像匹配度;
结果确定单元904,用于根据各个候选图像对应的图像匹配度,确定所述待检索图像的检索结果。
另外,本申请实施例还提供了一种特征提取模型生成设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述实施例所述的特征提取模型生成方法的任一实施方式。
另外,本申请实施例还提供了一种图像检索设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述实施例所述的图像检索方法的任一实施方式。
另外,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如上述实施例所述的特征提取模型生成方法的任一实施方式,或者执行如上述实施例所述的图像检索方法的任一实施方式。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (11)
1.一种特征提取模型生成方法,其特征在于,包括:
获取训练图像;
将所述训练图像输入图像分类模型,获取所述图像分类模型中的特征提取层输出的所述训练图像的图像特征、以及所述图像分类模型中的类别预测层输出的所述训练图像的预测类别;其中,所述特征提取层用于从所述训练图像中提取所述训练图像的图像特征;所述类别预测层用于根据所述特征提取层输出的所述训练图像的图像特征,确定所述训练图像的预测类别;
对所述训练图像的图像特征进行聚类,得到所述训练图像的当前聚类类别;
根据所述训练图像的预测类别和所述训练图像的当前聚类类别,更新所述图像分类模型的模型参数,并继续执行所述将所述训练图像输入图像分类模型以及后续步骤,直至达到停止条件,根据所述图像分类模型中的特征提取层生成特征提取模型;
所述根据所述训练图像的预测类别和所述训练图像的当前聚类类别,更新所述图像分类模型的模型参数,包括:
根据所述训练图像的当前聚类类别与所述训练图像的参考聚类类别之间的差距,得到聚类差距;所述参考聚类类别是指所述训练图像在参考聚类过程中被划分为的类别;所述参考聚类过程为前一轮聚类过程和/或第一轮聚类过程;
在确定所述聚类差距达到差距阈值时,对所述训练图像的当前聚类类别进行校正,得到所述训练图像的校正后当前聚类类别,所述训练图像的校正后当前聚类类别与所述训练图像的参考聚类类别之间不存在同一个聚类类别标识表征不同实际类别的现象;
依据所述训练图像的校正后当前聚类类别,确定所述训练图像的标签类别;
根据所述训练图像的预测类别和所述训练图像的标签类别,更新所述图像分类模型的模型参数。
2.根据权利要求1所述的方法,其特征在于,当所述训练图像的个数为N个时,所述对所述训练图像的当前聚类类别进行校正,得到所述训练图像的标签类别,包括:
将第i个训练图像的当前聚类类别确定为目标类别;
将以所述目标类别作为当前聚类类别的各个训练图像的集合,确定为目标图像集;
根据所述目标图像集中的训练图像的预测类别和/或参考聚类类别,确定所述第i个训练图像的标签类别;其中,i为正整数,i≤N。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标图像集中的训练图像的预测类别和参考聚类类别,确定所述第i个训练图像的标签类别,包括:
将所述目标图像集中所有训练图像的预测类别的众数,确定为第一类别;
将所述目标图像集中所有训练图像的参考聚类类别的众数,确定为第二类别;
在确定所述第一类别和所述第二类别不同,且所述第一类别对应的训练图像个数高于所述第二类别对应的训练图像个数时,将所述第一类别确定为所述第i个训练图像的标签类别;
在确定所述第一类别和所述第二类别不同,且所述第二类别对应的训练图像个数高于所述第一类别对应的训练图像个数时,将所述第二类别确定为所述第i个训练图像的标签类别。
4.根据权利要求1所述的方法,其特征在于,所述根据所述训练图像的预测类别和所述训练图像的标签类别,更新所述图像分类模型的模型参数,包括:
依据所述训练图像的预测类别和所述训练图像的标签类别的均方误差,对所述图像分类模型的模型参数进行反向校正。
5.根据权利要求1所述的方法,其特征在于,所述特征提取层包括特征图提取层、全局池化层和全连接层;
所述特征图提取层,用于从所述训练图像中提取所述训练图像的特征图;
所述全局池化层,用于对所述特征图提取层输出的所述训练图像的特征图进行全局池化,得到所述训练图像的特征值;
所述全连接层,用于对所述全局池化层输出的所述训练图像的特征值进行降维,得到所述训练图像的图像特征。
6.一种图像检索方法,其特征在于,包括:
获取待检索图像;
将所述待检索图像输入特征提取模型,得到所述特征提取模型输出的所述待检索图像的图像特征;其中,所述特征提取模型是根据权利要求1-5任一项所述的特征提取模型生成方法生成的;
将所述待检索图像的图像特征与图像库中各个候选图像的图像特征之间的相似度,分别确定为各个候选图像对应的图像匹配度;
根据各个候选图像对应的图像匹配度,确定所述待检索图像的检索结果。
7.一种特征提取模型生成装置,其特征在于,包括:
第一获取单元,用于获取训练图像;
第一预测单元,用于将所述训练图像输入图像分类模型,获取所述图像分类模型中的特征提取层输出的所述训练图像的图像特征、以及所述图像分类模型中的类别预测层输出的所述训练图像的预测类别;其中,所述特征提取层用于从所述训练图像中提取所述训练图像的图像特征;所述类别预测层用于根据所述特征提取层输出的所述训练图像的图像特征,确定所述训练图像的预测类别;
特征聚类单元,用于对所述训练图像的图像特征进行聚类,得到所述训练图像的当前聚类类别;
参数更新单元,用于根据所述训练图像的预测类别和所述训练图像的当前聚类类别,更新所述图像分类模型的模型参数,并返回所述第一预测单元执行所述将所述训练图像输入图像分类模型,直至达到停止条件,根据所述图像分类模型中的特征提取层生成特征提取模型;
所述参数更新单元,具体用于:根据所述训练图像的当前聚类类别与所述训练图像的参考聚类类别之间的差距,得到聚类差距;所述参考聚类类别是指所述训练图像在参考聚类过程中被划分为的类别;所述参考聚类过程为前一轮聚类过程和/或第一轮聚类过程;在确定所述聚类差距达到差距阈值时,对所述训练图像的当前聚类类别进行校正,得到所述训练图像的校正后当前聚类类别,所述训练图像的校正后当前聚类类别与所述训练图像的参考聚类类别之间不存在同一个聚类类别标识表征不同实际类别的现象;依据所述训练图像的校正后当前聚类类别,确定所述训练图像的标签类别;根据所述训练图像的预测类别和所述训练图像的标签类别,更新所述图像分类模型的模型参数。
8.一种图像检索装置,其特征在于,包括:
第二获取单元,用于获取待检索图像;
第二预测单元,用于将所述待检索图像输入特征提取模型,得到所述特征提取模型输出的所述待检索图像的图像特征;其中,所述特征提取模型是根据权利要求1-5任一项所述的特征提取模型生成方法生成的;
特征匹配单元,用于将所述待检索图像的图像特征与图像库中各个候选图像的图像特征之间的相似度,分别确定为各个候选图像对应的图像匹配度;
结果确定单元,用于根据各个候选图像对应的图像匹配度,确定所述待检索图像的检索结果。
9.一种特征提取模型生成设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-5任一项所述的特征提取模型生成方法。
10.一种图像检索设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求6所述的图像检索方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如权利要求1-5任一项所述的特征提取模型生成方法,或者执行如权利要求6任一项所述的图像检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010777228.7A CN111984812B (zh) | 2020-08-05 | 2020-08-05 | 一种特征提取模型生成方法、图像检索方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010777228.7A CN111984812B (zh) | 2020-08-05 | 2020-08-05 | 一种特征提取模型生成方法、图像检索方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111984812A CN111984812A (zh) | 2020-11-24 |
CN111984812B true CN111984812B (zh) | 2024-05-03 |
Family
ID=73445865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010777228.7A Active CN111984812B (zh) | 2020-08-05 | 2020-08-05 | 一种特征提取模型生成方法、图像检索方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111984812B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113869366B (zh) * | 2021-08-27 | 2024-05-28 | 深延科技(北京)有限公司 | 模型训练方法、亲属关系分类方法、检索方法及相关装置 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003323454A (ja) * | 2001-11-16 | 2003-11-14 | Nippon Telegr & Teleph Corp <Ntt> | メタ情報を有するコンテンツをマッピングする方法、装置、及びコンピュータプログラム |
CN101484910A (zh) * | 2006-07-06 | 2009-07-15 | 旭硝子株式会社 | 聚类系统及缺陷种类判定装置 |
CN106131959A (zh) * | 2016-08-11 | 2016-11-16 | 电子科技大学 | 一种基于Wi‑Fi信号空间划分的两级定位方法 |
CN108921925A (zh) * | 2018-06-27 | 2018-11-30 | 广州视源电子科技股份有限公司 | 基于激光雷达和视觉融合的语义点云生成方法和装置 |
CN109101602A (zh) * | 2018-08-01 | 2018-12-28 | 腾讯科技(深圳)有限公司 | 图像检索模型训练方法、图像检索方法、设备及存储介质 |
CN109191453A (zh) * | 2018-09-14 | 2019-01-11 | 北京字节跳动网络技术有限公司 | 用于生成图像类别检测模型的方法和装置 |
CN109543713A (zh) * | 2018-10-16 | 2019-03-29 | 北京奇艺世纪科技有限公司 | 训练集的修正方法及装置 |
CN109993221A (zh) * | 2019-03-25 | 2019-07-09 | 新华三大数据技术有限公司 | 一种图像分类方法及装置 |
CN110210535A (zh) * | 2019-05-21 | 2019-09-06 | 北京市商汤科技开发有限公司 | 神经网络训练方法及装置以及图像处理方法及装置 |
CN110390033A (zh) * | 2019-07-25 | 2019-10-29 | 腾讯科技(深圳)有限公司 | 图像分类模型的训练方法、装置、电子设备及存储介质 |
CN110555841A (zh) * | 2019-09-10 | 2019-12-10 | 西安电子科技大学 | 基于自注意图像融合和dec的sar图像变化检测方法 |
CN110580499A (zh) * | 2019-08-20 | 2019-12-17 | 北京邮电大学 | 基于众包重复标签的深度学习目标检测方法及系统 |
CN111275097A (zh) * | 2020-01-17 | 2020-06-12 | 北京世纪好未来教育科技有限公司 | 视频处理方法及系统、图片处理方法及系统、设备、介质 |
CN111353542A (zh) * | 2020-03-03 | 2020-06-30 | 腾讯科技(深圳)有限公司 | 图像分类模型的训练方法、装置、计算机设备和存储介质 |
CN111488800A (zh) * | 2020-03-13 | 2020-08-04 | 北京迈格威科技有限公司 | 一种模型训练及图像处理方法、装置、终端及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2002259250A1 (en) * | 2001-05-18 | 2002-12-03 | Biowulf Technologies, Llc | Model selection for cluster data analysis |
US10229347B2 (en) * | 2017-05-14 | 2019-03-12 | International Business Machines Corporation | Systems and methods for identifying a target object in an image |
-
2020
- 2020-08-05 CN CN202010777228.7A patent/CN111984812B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003323454A (ja) * | 2001-11-16 | 2003-11-14 | Nippon Telegr & Teleph Corp <Ntt> | メタ情報を有するコンテンツをマッピングする方法、装置、及びコンピュータプログラム |
CN101484910A (zh) * | 2006-07-06 | 2009-07-15 | 旭硝子株式会社 | 聚类系统及缺陷种类判定装置 |
CN106131959A (zh) * | 2016-08-11 | 2016-11-16 | 电子科技大学 | 一种基于Wi‑Fi信号空间划分的两级定位方法 |
CN108921925A (zh) * | 2018-06-27 | 2018-11-30 | 广州视源电子科技股份有限公司 | 基于激光雷达和视觉融合的语义点云生成方法和装置 |
CN109101602A (zh) * | 2018-08-01 | 2018-12-28 | 腾讯科技(深圳)有限公司 | 图像检索模型训练方法、图像检索方法、设备及存储介质 |
CN109191453A (zh) * | 2018-09-14 | 2019-01-11 | 北京字节跳动网络技术有限公司 | 用于生成图像类别检测模型的方法和装置 |
CN109543713A (zh) * | 2018-10-16 | 2019-03-29 | 北京奇艺世纪科技有限公司 | 训练集的修正方法及装置 |
CN109993221A (zh) * | 2019-03-25 | 2019-07-09 | 新华三大数据技术有限公司 | 一种图像分类方法及装置 |
CN110210535A (zh) * | 2019-05-21 | 2019-09-06 | 北京市商汤科技开发有限公司 | 神经网络训练方法及装置以及图像处理方法及装置 |
CN110390033A (zh) * | 2019-07-25 | 2019-10-29 | 腾讯科技(深圳)有限公司 | 图像分类模型的训练方法、装置、电子设备及存储介质 |
CN110580499A (zh) * | 2019-08-20 | 2019-12-17 | 北京邮电大学 | 基于众包重复标签的深度学习目标检测方法及系统 |
CN110555841A (zh) * | 2019-09-10 | 2019-12-10 | 西安电子科技大学 | 基于自注意图像融合和dec的sar图像变化检测方法 |
CN111275097A (zh) * | 2020-01-17 | 2020-06-12 | 北京世纪好未来教育科技有限公司 | 视频处理方法及系统、图片处理方法及系统、设备、介质 |
CN111353542A (zh) * | 2020-03-03 | 2020-06-30 | 腾讯科技(深圳)有限公司 | 图像分类模型的训练方法、装置、计算机设备和存储介质 |
CN111488800A (zh) * | 2020-03-13 | 2020-08-04 | 北京迈格威科技有限公司 | 一种模型训练及图像处理方法、装置、终端及存储介质 |
Non-Patent Citations (3)
Title |
---|
Farber Ines 等.On using class-labels in evaluation of clusterings.1st international workshop on discovering,summarizing and using multiple clusterings held in conjunction with KDD.2010,1. * |
基于YOLO的自然场景倾斜文本定位方法研究;周翔宇 等;计算机工程与应用;20200501;第 56 卷(第 9 期);213-220 * |
基于模糊聚类和BP神经网络的流域洪水分类预报研究;任明磊;王本德;;大连理工大学学报;20090115(第01期);121-127 * |
Also Published As
Publication number | Publication date |
---|---|
CN111984812A (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10650274B2 (en) | Image clustering method, image clustering system, and image clustering server | |
JP6010133B2 (ja) | 属性データ区間の分類 | |
US11775610B2 (en) | Flexible imputation of missing data | |
JP2006338313A (ja) | 類似画像検索方法,類似画像検索システム,類似画像検索プログラム及び記録媒体 | |
WO2023000764A1 (zh) | 目标检索方法、装置、设备及存储介质 | |
CN111243601A (zh) | 声纹聚类方法、装置、电子设备和计算机可读存储介质 | |
JP5518856B2 (ja) | 改良された画像認識用の支援装置 | |
CN111831852A (zh) | 一种视频检索方法、装置、设备及存储介质 | |
EP4053757A1 (en) | Degradation suppression program, degradation suppression method, and information processing device | |
CN112101156B (zh) | 一种目标识别的方法、装置和电子设备 | |
CN115115825B (zh) | 图像中的对象检测方法、装置、计算机设备和存储介质 | |
CN110083731B (zh) | 图像检索方法、装置、计算机设备及存储介质 | |
CN110209863B (zh) | 用于相似图片检索的方法与设备 | |
CN111984812B (zh) | 一种特征提取模型生成方法、图像检索方法、装置及设备 | |
CN111008630A (zh) | 一种基于弱监督学习的目标定位方法 | |
CN111985616B (zh) | 一种图像特征提取方法、图像检索方法、装置及设备 | |
CN112446428B (zh) | 一种图像数据处理方法及装置 | |
CN110727762B (zh) | 确定相似文本的方法、装置、存储介质及电子设备 | |
CN110209895B (zh) | 向量检索方法、装置和设备 | |
CN115984671A (zh) | 模型在线更新方法、装置、电子设备及可读存储介质 | |
CN105447887A (zh) | 一种基于历史轨迹的目标跟踪方法及电子设备 | |
CN108133234B (zh) | 基于稀疏子集选择算法的社区检测方法、装置及设备 | |
CN115409070A (zh) | 离散数据序列临界点的确定方法、装置以及设备 | |
CN115512143A (zh) | 图像聚类方法、图像增量聚类方法、计算机设备及介质 | |
CN104850600A (zh) | 一种用于搜索包含人脸的图片的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |