CN113918753A - 基于人工智能的图像检索方法及相关设备 - Google Patents
基于人工智能的图像检索方法及相关设备 Download PDFInfo
- Publication number
- CN113918753A CN113918753A CN202110836935.3A CN202110836935A CN113918753A CN 113918753 A CN113918753 A CN 113918753A CN 202110836935 A CN202110836935 A CN 202110836935A CN 113918753 A CN113918753 A CN 113918753A
- Authority
- CN
- China
- Prior art keywords
- image
- target
- quantization
- sample
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 198
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 67
- 239000013598 vector Substances 0.000 claims abstract description 484
- 230000000295 complement effect Effects 0.000 claims abstract description 164
- 238000004364 calculation method Methods 0.000 claims abstract description 56
- 238000005259 measurement Methods 0.000 claims abstract description 33
- 238000013139 quantization Methods 0.000 claims description 331
- 238000012549 training Methods 0.000 claims description 189
- 230000008569 process Effects 0.000 claims description 65
- 238000013507 mapping Methods 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 25
- 238000010276 construction Methods 0.000 claims description 21
- 238000004891 communication Methods 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 18
- 238000013500 data storage Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000007667 floating Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 1
- 241000283973 Oryctolagus cuniculus Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本申请提出了一种基于人工智能的图像检索方法及相关设备,将查询图像输入该量化检索模型,得到表示该查询图像所属目标类别的目标类别量化向量后,还会获取该目标类别下的查询图像的三元组的目标互补特征向量,可以通过分级检索获取目标类别量化向量映射的多个图像各自对应的待定互补特征向量,分别与目标互补特征向量进行相似度度量,以从图像库中目标类别下的多个图像中,快速且准确地筛选出满足查询图像的相似度要求的目标图像,可见,互补特征向量维度和类别量化向量的数量和维度的减少,极大减少了对存储空间的占用和距离计算量,也不需要与大规模聚类中心进行距离计算,大大降低了计算压力,能够更好地适用于大规模图像库的检索。
Description
技术领域
本申请涉及检索技术领域,具体涉及一种基于人工智能的图像检索方法及相关设备。
背景技术
随着计算机技术、多媒体技术和网络技术的快速发展和日益广泛的应用,数据库/集的规模越来越大,使得如信息检索/推荐应用中,如何从大规模数据库中快速且准确地检索到应用所需的对象集,已成为本领域热点研究方向。
以图像检索应用为例,目前通常是采用基于Kmeans的量化检索方法,由于其是将对图像库中各图像的embedding向量(即嵌入向量,也是相应图像的特征向量)进行聚类处理,得到的多个聚类中心作为图像库的索引,导致计算机设备必须具有较大存储空间,来存储如大规模图像的embedding向量,以及训练得到的10万甚至100万以上聚类中心。
而且,在需要从该图像库中检索与查询图像相似度较高的若干目标图像的情况下,不仅需要计算查询图像的embedding向量与索引中的各聚类中心的距离,还需要计算确定的距离最近聚类中心关联的各图像的embedding向量,与查询图像的embedding向量之间的距离,筛选出距离较小的若干目标图像,导致整个检索过程的计算量大、耗时长,还会额外占用计算机设备的存储空间,这对计算机设备的存储能力和计算能力要求极高,即限制了这种检索方法的适用场景。
发明内容
有鉴于此,本申请提出了如下技术方案:
一方面,本申请提出了一种基于人工智能的图像检索方法,所述方法包括:
获取查询图像;
将所述查询图像输入量化检索模型,输出所述查询图像的目标类别量化向量和目标互补特征向量;其中,所述量化检索模型是基于不同类别的样本三元组和样本类别量化向量进行迭代学习得到的,且所述样本三元组中的正样本和负样本属于同一类别的训练样本;所述目标类别量化向量表示所述查询图像所属的目标类别,所述目标互补特征向量表示所述查询图像在所述目标类别下的图像特征;
查询针对图像库构建的分级量化索引,得到所述目标类别量化向量映射的多个图像各自对应的待定互补特征向量;其中,所述分级量化索引表征所述图像库中各图像在所属类别下的互补特征向量,与类别量化向量之间的映射关系;
对多个所述待定互补特征向量分别与所述目标互补特征向量进行相似性度量,依据相似性度量结果,筛选所述图像库中满足所述查询图像的相似度要求的目标图像。
在一些实施例中,所述将所述查询图像输入量化检索模型,输出所述查询图像的目标类别量化向量和目标互补特征向量,包括:
对所述查询图像进行全局特征提取与交叉处理,得到所述查询图像的全局特征向量;
对所述全局特征向量包含的全局特征值进行分类量化处理,获得所述查询图像的目标类别量化向量;
依据所述目标类别量化向量,对所述全局图像特征向量进行特征抽取,得到所述查询图像在所属目标类别下的互补特征向量。
在一些实施例中,所述对所述全局特征向量包含的全局特征值进行分类量化处理,获得所述查询图像的目标类别量化向量,包括:
对所述全局特征向量进行分类映射,依据相应全局特征值映射的类别概率,确定所述查询图像所属的目标类别;
依据图像类别个数对所述目标类别进行独热编码,得到所述查询图像的目标类别量化向量;所述目标类别量化向量的维数等于所述图像类别个数。
在一些实施例中,所述分级量化索引的构建过程,包括:
获取图像库中各图像对应的图像标识;
将所述各图像依次输入所述量化检索模型,输出相应图像的类别量化向量和互补特征向量;
统计具有相同所述类别量化向量的图像,得到所述类别量化向量与统计的具有该类别量化向量的各图像对应的所述图像标识之间的映射关系;
利用得到的多个所述映射关系,构建所述图像库的一级索引;
利用所述各图像对应的图像标识,与相应图像的所述互补特征向量之间的对应关系,构建所述图像库的二级索引;
由所述一级索引与所述二级索引,构建针对所述图像库包含的各图像的分级量化索引。
在一些实施例中,所述分级量化索引的构建过程,包括:
获取图像库中各图像对应的图像标识;
将所述各图像依次输入所述量化检索模型,输出相应图像的类别量化向量和互补特征向量;
对具有同一所述类别量化向量的多个图像的所述互补特征向量进行聚类,得到该多个图像各自的子类别量化向量;
利用不同所述类别量化向量,与具有相应类别量化向量的图像所对应的图像标识之间的映射关系,构建针对所述图像库的一级索引;
利用具有同一所述类别量化向量的多个图像各自对应的图像标识,与聚类得到的不同所述子类别量化向量之间的映射关系,构建针对所述图像库的二级索引;
利用不同所述子类别量化向量映射的各图像对应的图像标识,与相应图像的所述互补特征向量之间的对应关系,构建所述图像库的三级索引;
由所述一级索引、所述二级索引和所述三级索引,构建针对所述图像库包含的各图像的分级量化索引。
在一些实施例中,所述量化检索模型的训练过程,包括
获取多个相似样本对;
对所述多个相似样本对各自包含的训练样本进行分类,获得所述训练样本的类别标签;
对图像类别个数的所述分类标签进行量化处理,得到不同所述类别标签各自对应的样本类别量化向量;
从同一所述类别标签对应的所述多个相似样本对包含的训练样本中,获得针对不同目标样本的正样本和负样本,构成多个样本三元组;其中,所述目标样本是指相应所述类别标签对应的任一所述相似样本对中的任一所述训练样本;
依据所述样本三元组和所述样本类别量化向量对预训练模型进行监督学习,得到所述学习约束条件的量化检索模型;所述学习约束条件包括分类损失条件和三元组约束条件。
在一些实施例中,所述从同一所述类别标签对应的所述多个相似样本对包含的训练样本中,获得针对不同目标样本的正样本和负样本,构成多个样本三元组,包括:
将第一相似样本对的第一训练样本确定为目标样本,并将所述第一相似样本对的第二训练样本确定为所述目标样本的正样本;其中,所述第一相似样本对为所述多个相似样本对中的任一所述相似样本对,且所述第一相似样本对与第二相似样本对组成所述多个相似样本对;
从所述第二相似样本对包含的各训练样本中,获取与所述目标样本对应同一所述类别标签的待定训练样本集;
从所述待定训练样本集中,选择与所述目标样本的距离较小的预设个数的负样本;
由所述第一相似样本对包含的所述目标样本和所述正样本,以及选择出针对所述目标样本的各所述负样本,构成针对所述目标样本的预设个数的样本三元组。
在一些实施例中,所述依据所述样本三元组和所述样本类别量化向量对预训练模型进行监督学习,得到所述学习约束条件的量化检索模型,包括:
将所述训练样本输入预训练模型,输出相应训练样本的训练类别量化向量和训练互补特征向量;
分别对所述训练类别量化向量和训练互补特征向量进行损失计算,将得到的总损失值确定为相应输入训练样本的目标损失值;
检测到所述目标损失值是否满足学习约束条件;
若不满足,依据所述目标损失值,调整所述预训练模型的模型参数,利用所述训练样本继续对具有调整后的模型参数的预训练模型进行迭代学习;
若满足,将本次学习到的预训练模型确定为量化检索模型。
又一方面,本申请还提出了一种基于人工智能的图像检索装置,所述装置包括:
查询图像获取模块,用于获取查询图像;
分级量化处理模块,用于将所述查询图像输入量化检索模型,输出所述查询图像的目标类别量化向量和目标互补特征向量;其中,所述量化检索模型是基于不同类别的样本三元组和样本类别量化向量进行迭代学习得到的,且所述样本三元组中的正样本和负样本属于同一类别的训练样本;所述目标类别量化向量表示所述查询图像所属的目标类别,所述目标互补特征向量表示所述查询图像在所述目标类别下的图像特征;
待定互补特征向量获取模块,用于查询针对图像库构建的分级量化索引,得到所述目标类别量化向量映射的多个图像各自对应的待定互补特征向量;其中,所述分级量化索引表征所述图像库中各图像在所属类别下的互补特征向量与类别量化向量之间的映射关系;
目标图像筛选模块,用于对多个所述待定互补特征向量分别与所述目标互补特征向量进行相似性度量,依据相似性度量结果,筛选所述图像库中满足所述查询图像的相似度要求的目标图像。
又一方面,本申请还提出了一种计算机设备,所述计算机设备包括:
通信接口;
存储器,用于存储实现如上述基于人工智能的图像检索方法的程序;
处理器,用于加载并执行所述存储器存储的程序,以实现如上述基于人工智能的图像检索方法。
又一方面,本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行,实现如上述基于人工智能的图像检索方法。
基于上述技术方案,本申请提出了一种基于人工智能的图像检索方法及相关设备,将获取的查询图像输入量化检索模型,将输出表示该查询图像所属目标类别的目标类别量化向量后,还会获取表示查询图像在该目标类别下的图像特征的目标互补特征向量,即通过分级(全局空间、分类子空间)表征查询图像的图像特征,这样,在查询针对图像库的分级量化索引时,先查询图像所属目标类别下的各图像,即获取目标类别量化向量映射的多个图像,再对该目标类别下的各图像的互补特征向量与目标互补特征向量进行相似性度量,从而快速且准确地从图像库中筛选出,该查询图像所属目标类别下相似度较高的目标图像,相对于与大规模聚类中心和各图像的全局特征向量进行距离计算,极大减小了计算机设备的计算压力、耗时及计算过程对存储空间的占用,提高了图像检索效率和准确性;且分级量化索引中低维度的互补特征向量和有限位数和个数的类别量化向量,大大减少分级量化索引对存储空间的占用,能够更好地适用于大规模图像库的检索。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提出的基于人工智能的图像检索系统的一可选示例的结构示意图;
图2a为适用于本申请提出的基于人工智能的图像检索方法的计算机设备的一可选示例的硬件结构示意图;
图2b为适用于本申请提出的基于人工智能的图像检索方法的计算机设备的又一可选示例的硬件结构示意图;
图3为本申请提出的基于人工智能的图像检索方法的一可选示例的流程示意图;
图4为本申请提出的基于人工智能的图像检索方法中,获取同类别下的样本三元组距离示意图;
图5为本申请提出的基于人工智能的图像检索方法的又一可选示例的流程示意图;
图6为本申请提出的基于人工智能的图像检索方法的又一可选示例的流程示意图;
图7为本申请提出的基于人工智能的图像检索方法的一可选应用场景示意图;
图8为本申请提出的基于人工智能的图像检索方法中,构建图像库的分级量化索引的一可选示例的流程示意图;
图9为本申请提出的基于人工智能的图像检索方法中,量化检索模型的一可选训练实现方法的流程示意图;
图10为本申请提出的基于人工智能的图像检索方法中,获取样本三元组一可选示例的流程示意图;
图11为本申请提出的基于人工智能的图像检索方法的又一可选示例的流程示意图;
图12为本申请提出的基于人工智能的图像检索方法中,量化检索模型训练方法的又一可选示例的流程示意图;
图13为本申请提出的基于人工智能的图像检索装置的一可选示例的结构示意图。
具体实施方式
针对背景技术部分描述的基于kmeans的量化检索方法,其是由于大规模图像各自的embedding向量通常是较大维度的浮点向量,如1*128维的emebedding向量,若采用32位浮点数保存,每张图像占用内存128*32比特,导致1G内存仅可存储1024*1024*1024*8/(128*32)=2097152张图像的embedding向量,对于包含几千万甚至更多张图像的图像库,可能需要占用计算机设备10G甚至几十G以上内存来存储图像的embedding向量;若emebedding向量是如1024等更高维度的浮点向量,所占用的内存会更大;同时,对于10万聚类中心也需要占用100000*128*32比特的内存,才会导致该大规模图像库的索引存储占用计算机设备较大内存资源,可能会影响计算机设备的运行性能。针对上述问题,本申请希望可以优化索引内容,在满足图像检索需求的同时,减少对计算机设备内存的占用。
另外,对于上述大规模图像库的索引应用过程中,存在的计算量过大,对计算资源占用极大,还会增加存储空间的额外占用,如以包含1亿图像的图像库,构建包含训练得到10万聚类中心的索引的应用场景为例,为了从中检索某query图像(即查询图像)的相似图像,可能需要10万+1000次(每一个聚类中心包含的图像个数)的距离计算,且在此期间会持续占用计算机设备的大量资源,严重影响计算机设备的其他应用正常运行。针对这一问题,本申请希望在减少索引对存储空间的占用的同时,还能够调整索引结构或向量表示方式等,来减少计算次数,从而减少对计算资源的的占用,提高图像检索效率。
对此,提出对图像的embedding向量进行分类降维,并结合量化处理方式,简化计算步骤,减少计算资源占用,缩短耗时。如可以采用乘积量化检索方法,即在索引构建过程中,将一个D维的特征向量分成M个不同的部分,对每一部分进行向量量化,如当某一维度特征大于0则量化为1,小于0则量化为0,示例性的,[-1,1,0.5,-0.2]特征向量,经过符号量化后得到[0,1,1,0]的特征向量,相对于上述浮点特征向量,在一定程度上减少了对存储空间的占用。之后,对每一部分向量进行聚类,由得到M个聚类中心构成量化索引,相对于上文直接对全局的特征向量进行聚类的处理方式,减少了聚类中心的数量,从而在一定程度上减少了索引对存储空间的占用。
之后,在针对query图像进行相似图像检索过程中,将query图像划分成M个维度后,将每一个维度下的量化向量与相应维度下的聚类中心进行距离计算,再通过距离最近聚类中心对应的多个图像与query图像之间的各维度距离总和,筛选出与query图像相似度较高的topK个目标图像。
可见,由于这种乘积量化检索方法,大大减少了与聚类中心的距离计算量,节省了对计算资源的占用,提高了检索速度。但是,需要存储的常规embedding向量和乘积量化向量仍会占用较多存储空间;而且,由于这种方式是直接将特征向量分割成M个部分,很容易导致相似样本图像的空间特征向量相似度较低,如距离较大的问题,如两个相似样本的特征向量分别是[-1,1,0.5,-0.03],[-1,1,0.5,0.01],经过符号量化对应得到[0,1,1,0]和[0,1,1,1]两个编码特征向量,而不是量化到相同的编码特征向量,导致这两个相似样本会被划分到不同部分,影响图像检索的完整性和准确性;另外,由于这种实现方法不支持标注标签的训练学习,这样,对于错误样本不能有针对性地进行量化,降低了图像召回率。
为了进一步改善上述问题,本申请提出基于分级量化索引实现图像检索,在图像检索过程中,可以通过粗粒度、细粒度等不同粒度区分能力的分级量化索引,以据此召回相似度较高的若干图像。本申请的分级量化索引是由图像库中各图像(本申请可以配置图像标识来表示相应图像,以减少索引对存储空间的占用)所属的多个类别形成的分类索引,以及每一类别对应的各图像形成的图像索引这两部分组成,这样,在对查询图像进行检索过程中,本申请可以先从类别上确定查询图像所属类别对应的候选图像,再进一步结合该查询图像在其类别下的特征向量(本申请可以称为互补特征向量),与各候选图像在该类别下的特征向量进行距离计算,即可快速且准确地确定与查询图像相似度较高的若干目标图像。
可见,相对于训练得到的聚类中心,本申请各类别量化向量无需表示图像特征,只要能够表示相应图像的类别即可,大大减少了存储空间,也不用与大规模聚类中心进行距离计算,减少了计算消耗,压缩了计算时间;且由于本申请获取的各图像的特征向量表示该图像在其所属类别下的特征,相对于全局类别下的特征向量,特征表达更加合理,降低了特征向量维度,减少了占用的存储空间,同时也极大降低了特征向量距离计算所造成的计算压力,提高了特征向量比对精准度。
在本申请实施例中,上述分级量化索引中各类别量化向量、各图像在其所属类别下的互补特征向量的获取过程,可以利用人工智能(Artificial Intelligence,AI)中的计算机视觉技术(Computer Vision,CV)和机器学习(Machine Learning,ML)等,训练深度学习网络模型,获得能够对输入图像进行分类,对得到的图像类别进行量化,得到相应类别量化向量,并从全局特征向量中抽取该图像类别下的特征构成互补特征向量的量化特征模型,模型训练过程可以参照下文实施例相应部分的描述。
其中,计算机视觉技术试图建立能够从图像或者多维数据中获取信息的人工智能系统,通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical CharacterRecognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通,以及如人脸识别、指纹识别等生物特征识别技术等。本申请可以依据实际应用需求,选择合适的计算机视觉技术,按照上文描述的方法实现图像检索,本申请对该图像检索适用的应用场景不做限制。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,可以理解的是,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,为了便于描述,附图中示出了与有关发明相关的部分。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。应当理解,本申请中使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换该词语。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,“多个”是指两个或多于两个。以下术语“第一”、“第二”用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
参照图1,为本申请提出的基于人工智能的图像检索系统的架构示意图,该系统可以包括:终端100、服务器200以及数据存储设备300,其中:
终端100可以包括但并不局限于智能手机、平板电脑、可穿戴设备、上网本、增强现实技术(Augmented Reality,AR)设备、虚拟现实(Virtual Reality,VR)设备、机器人、台式计算机、智能电视等,可以依据实际场景确定终端100类型。
实际应用中,用户使用终端100安装的各种通信软件、浏览器、数据处理等应用过程中,可能会需要从数据存储设备300(本申请可以指如大型通用物体识别开源数据集Imagenet、Open Image图像数据集等图像库)所存储的大量图像中,检索与查询图像(如用户选择输入或当前正在浏览或采用其他方式确定的query图像),这种情况下,终端100可以将确定的查询图像发送至服务器200,或将用于确定查询图像的检索请求发送至服务器200等,以使服务器200按照本申请提出的基于人工智能的图像检索方法,得到与该查询图像的相似度较高的若干目标图像。本申请对终端100如何通知服务器200,执行针对查询图像的图像检索的实现方式不做限制,可视情况而定。
需要说明的是,对于本申请提出的基于人工智能的图像检索方法,并不局限于服务器200执行,也可以由具有一定数据处理能力的终端100执行,这种情况下,终端100检测到查询图像后,可以执行本申请提出的基于人工智能的图像检索方法,从数据存储设备所存储的大量图像中,筛选出与该查询图像相似度较高的若干目标图像,直接输出目标图像供用户查看,或者进一步排序筛选用户可能感兴趣或需要的图像后输出等,本申请对召回的目标图像的后续处理方法不做限制,可视情况而定。
在又一些实施例中,对于本申请提出的基于人工智能的图像检索方法,也可以由终端100和服务器200相互配合共同执行,以满足当前图像检索场景下的图像检索需求,实现过程本申请不做详述。
服务器200可以是支持搜索引擎进行搜索功能的服务设备,其可以是独立的物理服务器、也可以是多个物理服务器构成的服务器集群或分布式系统,还可以是提供云计算服务的云服务器。在本申请实际应用中,该服务器200可以通过有线或无线通信方式进行直接或间接地连接终端100,实现两者之间的数据传输,满足应用需求,本申请对终端100与服务器200之间的通信方式不做限制。
如上文描述,本申请实施例中,服务器200可以执行本申请提出的基于人工智能的图像检索方法,也可以与终端100共同执行该基于人工智能的图像检索方法,以满足相应应用针对查询图像的相似图像检索需求,其实现过程可以参照下文方法实施例相应部分的描述。
数据存储设备300可以是用于存储各种类型图像的图像库,即一种数据库服务器,本申请对该数据存储设备300的类型及其存储数据的方式不做限制,应该理解的是,随着大数据、物联网等技术快速发展,互联网中的各类应用层出不穷,可以是的该图像库包含的图像数量增加,但在该图像库包含的内容更新的情况下,需要同步更新该图像库的分级量化索引,以保证后续图像检索的准确性。
在一些实施例中,上述数据存储设备300可以是独立设备,也可以与服务器200集成在一起,本申请对此不做限制,可视情况而定。而且,对于本申请针对图像库构建的分级量化索引,也可以存储在该数据存储设备300,在服务器200获得针对查询图像的检索请求后,可以按照本申请提出的图像检索方法,依据数据存储设备300存储的分级量化索引,检索其存储的与该查询图像相似度较高的若干目标图像。对于不同类型的图像库,如Imagenet、Open Image等不同类别的开源数据集,可以部署在不同的数据存储设备300中,也就是说,上述数据存储设备300的数量可以是多个,这样,在实际应用中,在获得查询图像后,可以依据预先检索配置要求,对相应数据存储设备中的某一类别的图像库进行检索,也可以对这多个图像库分别进行检索,以获得更多更全面的目标图像,本申请对此不做限制。需要说明,对于不同类别的图像库,本申请会预先构建对应的分级量化索引,构建过程可以参照但并不局限于下文相应实施例的描述。
在实际应用中,如本申请所公开的基于人工智能的图像检索方法、装置和系统,其中的服务器、数据存储设备等可以作为区块链上的节点,组成一区块链,以提高图像库的数据及其分级量化索引等信息的存储安全性,以及访问便利性,本申请对区块链的组成结构及其工作原理不做详述。
应该理解,图1所示的基于人工智能的图像检索系统的结构并不构成对本申请实施例描述的系统架构的限定,在实际应用中,该基于人工智能的图像检索系统可以包括比图1所示的更多或更少的部件,或者组合某些部件,可以结合图像检索应用需求确定,本申请在此不做一一列举。
在本申请提出的一些实施例,参照图2a所示,为适用于本申请提出的基于人工智能的图像检索方法的计算机设备的一可选示例的硬件结构示意图,该计算机设备可以是终端100或服务器200,本申请实施例以计算机设备为服务器200的场景为例进行说明。如图2a所示,该计算机设备可以包括:通信接口210、存储器220和处理器230,其中:
通信接口210、存储器220和处理器230各自的数量可以是至少一个,且通信接口210、存储器220和处理器230可以连接通信总线,相互之间可以通过该通信总线实现数据交互,实现过程可以根据实际应用需求确定,本申请不做详述。
通信接口210可以为适用于无线网络或有线网络的通信模块的接口,如GSM模块、WIFI模块、蓝牙模块、无线射频模块、5G/6G(第五代移动通信网络/第六代移动通信网络)模块等通信模块的通信接口,可以实现与其他设备的数据交互,接收其他设备发送的各种查询请求、查询图像、样本、分级量化索引等信息,将检索到的与查询图像相似度较高的目标图像等信息,传输至预设终端等,可以根据应用的传输需求确定,应该理解的是,对于计算机设备与不同设备之间的通信方式可以不同,支持两者数据通信的通信接口210也可以不同,本申请在此不做一一详述。
另外,上述通信接口210还可以包括如USB接口、串/并口等接口,用以实现计算机设备内部组成部件之间的数据交互。关于该通信接口210包含的接口类型及数量,可以根据该计算机设备的设备类型及其应用需求确定,本申请不做一一详述。
存储器220可以用于存储实现本申请提出的基于人工智能的图像检索方法的程序,还可以用于存储针对图像库构建的分级量化索引等信息,当然,这些信息也可以存储至独立的数据存储设备中,本申请对这些信息的存储方式不做限制,可视情况而定。处理器230可以用于加载并执行存储器220存储的程序,以实现本申请实施例提出的基于人工智能的图像检索方法,实现过程可以参照但并不局限于下文实施例相应部分的描述。
本申请实施例中,存储器220可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。处理器230,可以为中央处理器(CentralProcessing Unit,CPU)、特定应用集成电路(application-specificintegrated circuit,ASIC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。本申请对上述存储器220和处理器230的器件类型及功能不做详述。
应该理解的是,图2a所示的计算机设备的结构并不构成对本申请实施例中计算机设备的限定,在实际应用中,计算机设备可以包括比图2a所示的更多或更少的部件,或者组合某些部件,可以结合该计算机设备的设备类型及功能需求确定,本申请在此不做一一列举。
另外,若计算机设备为终端100,如图2b所示,该计算机设备还可以包括图像采集器、拾音器、麦克风、显示器、各种传感器构成的传感器模组、电源模组等输入/输出组件、天线等部件中的一个或多个组合,本申请对终端的组成结构不做限制,可以依据终端类型及其功能需求确定。
基于上文实施例描述的基于人工智能的图像检索系统的应用,以及对本申请提出的基于人工智能的图像检索方法的技术构思的相关描述,下面将对该基于人工智能的图像检索方法的实现过程进行详细描述。本申请使用流程图用来说明该图像检索方法,应当理解的是,前面或后面操作不一定按照顺序来精确地执行,根据实际需求,也可以按照倒序或同时处理各个步骤。另外,也可以将其他操作步骤添加到这些步骤中,或从这些步骤中移除某一步或数步操作等,本申请不做一一举例。
参照图3,为本申请提供的基于人工智能的图像检索方法的一可选示例的流程示意图,该方法可以由服务器或终端执行,也可以由服务器和终端共同执行,可依据实际场景需求确定,本申请实施例以服务器执行该方法的场景为例进行说明。关于服务器和终端的组成结构可以参照但并不局限于上文计算机设备实施例的描述,本实施例不做赘述。如图3所示,本实施例提出的基于人工智能的图像检索方法可以包括:
步骤S11,获取查询图像;
在需要图像检索的各种应用场景下,如不同场景下的推荐系统应用过程中,服务器获取查询图像的方法可能不同,如将用户在终端中选择或输入的图像确定为查询图像,以请求查询其相似图像;或是在某应用运行过程中选择某图像为查询图像,自动触发实现对该查询图像的相似图像检索等,本申请对步骤S11的实现过程不做详述。
步骤S12,将查询图像输入量化检索模型,输出查询图像的目标类别量化向量和目标互补特征向量;
为了提高图像检索效率并减少对存储空间的占用,本申请提出先识别图像所属类别,再依据该类别下的图像特征,从属于该类别的图像中检索相似图像的技术构思,因此,本申请训练学习的量化检索模型,可以包括用于识别图像类别的分类网络,还可以包括用于依据分类结果进行量化,以得到表示输入图像的类别的二值编码(即类别量化向量)的分类量化网络,以及用于对分类网络输出的全局特征向量进行特征抽取,得到输入图像在其所属类别下的图像特征的互补特征向量的特征抽取网络等这三部分。
为了满足上述三部分训练要求,本申请在获取用于训练量化检测模型的训练样本过程中,可以依据图像库(如imagnet等)中经常出现的图像类别个数,作为图像分类量化的维数,同时确定每一个图像类别对应的类别标签,用以对各训练样本进行标注,本申请对类别标签的内容以及训练样本类别标注的实现方法不做限制,可视情况而定。
其中,本申请实施例训练样本可以是标注有类别标签的图像,或者是对图像进行特征提取得到的全局特征向量等。在又一些实施例中,为了减少样本编码过程中引入特征层面的特征编码误差,本申请可以将多个相似样本对(即图像对或携带有图像对标签的全局特征向量对等)中的样本作为训练样本,本申请对训练样本的内容及其获取方法不做限制。
示例性的,假设训练样本可分为100个类别,对于这100个样本类别的D(如256、1024等较大数值)维特征向量embedding归一化处理后的特征向量进行量化处理,如采用one-hot(独热)编码方式实现的二值量化,即由-1~1取值范围内的浮点数组成的D维特征向量,将其特征压缩到指定位数(如本示例的100位)且取值为0、1的二进制编码,可以得到100种由1*100维的二值向量,相对于D维embedding向量,100维的二值量化向量(本申请将其记为类别量化向量)占用100bit,将其作为一级的分类索引存储,大大节省了存储空间。需要说明,本申请对类别量化向量的维数及其获取方法不做限制,可视情况而定。
基于上述分析,将查询图像输入量化检索模型,利用分类网络对该查询图像进行全局特征提取和交叉处理(即对不同特征向量之间的特征进行交叉),得到该查询图像的全局特征向量,之后,可以利用如softmax等分类激活函数对其包含的全局特征值进行分类映射,确定该查询图像所属目标类别,并按照上述方式对其进行分类量化处理(如上述二值量化),得到该查询图像的目标类别量化向量,由此表示查询图像在整个分类空间所属的类别子空间,即表示查询图像所属目标类别。
为了减少图像的全局特征向量embedding存储所占存储空间,以及距离计算的计算量,本申请提出满足图像相似检索的基础上,对全局特征向量进行降维处理,考虑到相似图像通常是同一类别,在图像相似度量过程中,两者图像是否相似/相同,通常取决于图像所属类别下的图像特征之间的相似度,所以,本申请经过上述分类识别处理,确定查询图像所属目标类别后,可以依据该目标类别量化向量,对其全局特征向量进行特征抽取,得到用于进一步说明该查询图像在目标类别下的图像特征的目标互补特征向量。
基于上文分析,为了保证上述特征抽取网络能够准确输出输入图像的互补特征向量,即其所属类别下的图像特征,在训练该特征抽取网络过程中,本申请提出基于三元组约束的距离度量学习方式实现,且为了更细粒度分析图像间的相似性,本申请将选择同一类别的正负样本构成样本三元组,通过不断迭代学习使得样本三元组中,目标样本与正样本之间的距离,小于目标样本与负样本之间的距离,直至两个距离差值大于距离阈值,即使得目标样本与正样本相似度越高,且目标样本与负样本之间的相似度越低,提高模型输出的互补特征向量的精准度。
所以,本申请在获取样本三元组过程中,可以将训练样本的全量空间划分成多个类别子空间,即多个样本类别,每一个类别子空间包含一个类别的训练样本,之后,可以从每一个类别子空间包含的各训练样本中,依据各训练样本之间的距离,确定针对每一个训练样本的若干个负样本,与其相似的正样本组成样本三元,本申请对样本三元组的挖掘方法不做限制。
基于上述分析,相对于直接基于全局样本构建的全局三元组(即正负样本属于不同类别的三元组),本申请按照上述方式构建的同一类别子空间的样本三元组,在模型训练过程中,本申请只需要满足该类别子空间的度量要求,如目标样本a与正样本p之间的距离,小于该目标样本a与负样本n之间的距离,可以不用满足全局空间度量要求。
示例性的,参照图4所示的样本类别子空间示意图,若本申请获得训练样本包含6个样本类别,即将全量空间划分成6个类别子空间,分别记为C1、C2、C3、C4、C5和C6,对于位于C1中的目标样本a,在获取包含该目标样本a的样本三元组过程中,直接从类别子空间C1中的样本三元组中选择,相对于全局三元组进行距离度量学习的方式,本申请可以用相对较少维度的互补特征向量表征目标样本在该类别子空间下的特征,且结合在此之前确定的类别量化向量,两者结合后的表征能力可以达到全局embedding表征效果,因此,在该阶段不需要用高维度全局空间,本申请记录互补特征向量作为图像特征索引,大大压缩了存储空间,且降低了后续据此进行相似性度量的计算量,提高了检索精准度,能够更好地支持大规模检索应用。
另外,本申请上文描述的实现方法,使得距离度量学习更有效,相比全局检索负样本产生的大量容易样本(easy case)导致学习效率低本申请是从同一类别子空间中选择的训练样本,减少了容易样本数量,增加了困难样本(hard case),提高了模型训练效率和准确性。需要说明,本申请对量化检索模型的训练实现方法不做限制。
步骤S13,查询针对图像库构建的分级量化索引,得到目标类别量化向量映射的目标类别下的多个图像各自对应的待定互补特征向量;
本申请为了解决上文描述的直接利用全局特征向量及其聚类中心,构建的图像库的索引带来的各种技术问题,本申请结合上文描述的分级量化表征图像特征的构思,提出据此构建图像库的分级量化索引,所以,对于用于图像检索的图像库,本申请可以按照上文描述的方式,预先获取该图像库中每一个图像的类别量化向量和互补特征向量,基于两个向量各自表示的含义,构建该图像库中不同类别图像与其所属类别的类别量化向量,及其对应的表示其所属类别下的图像特征的互补特征向量之间的映射关系,从而以此构成针对图像库的分级量化索引。
在一些实施例中,为了避免图像作为索引一部分存储造成的存储压力,本申请提出为图像库中的每一个图像配置对应的图像标识,由该图像标识表示该图像,实现其与该图像所属类别的类别量化向量及其互补特征向量之间的映射。其中,该图像标识可以是数字编码、字符编码等唯一标识符,本申请对图像标识的内容不做限制,可视情况而定。需要说明的是,本申请在构建图像库的索引时,直接利用该图像库中各图像内容本身实现,并不局限于图像标识的实现方式。
基于上述分析可知,本申请的分级量化索引能够表征图像库中各图像在所属类别下的互补特征向量,与类别量化向量之间的映射关系。这样,在基于人工智能的图像检索过程中,得到查询图像的目标类别量化向量和目标互补特征向量后,可以先检索查询图像所属目标类别下的各图像,如可以由图像标识来表示相应图像,即确定目标类别量化向量映射的各图像对应的图像标识,再进一步检索各图像标识对应的互补特征向量为待定互补特征向量,即获取图像库中查询图像所属类别下的各图像中,可能满足相似度要求的若干图像的互补特征向量。
可以理解的是,由于图像库中同一类别图像通常包含多个图像,这样,按照上述方式得到的这多个图像各自的类别量化向量相同,即一个类别量化向量可以对应多个图像,为了减少存储空间,可以由图像标识表示对应的图像,这样,每一个类别量化向量可以映射一个或多个图像标识。而结合上文度互补特征向量获取过程的描述,同一图像类别中的不同图像各自的互补特征向量可能不同,本申请需要预先确定各图像的图像标识映射的互补特征向量。
需要说明,本申请对步骤S13的实现过程不做详述。且对于上述针对上述图像库的分级量化索引的构建过程及其索引结构不做限制,包括但并不局限于上文实施例描述的实现方式。
步骤S14,对多个待定互补特征向量分别与目标互补特征向量进行相似性度量,依据相似性度量结果,筛选图像库中满足查询图像的相似度要求的目标图像。
在如图像分类、图像识别、目标图像推荐、视频搜索等应用实现过程的召回阶段,需要从图像库中筛选与查询图像相似度较高的若干图像为召回的目标图像,再根据应用需要,对召回的若干目标图像进行排序筛选最终图像。所以,本申请在确定查询图像所属类别及其在该类别下的目标互补特征向量后,可以直接将较低维度的目标互补特征向量,分别与图像库中该类别下的各图像对应的待定互补特征向量进行相似性度量,如距离、余弦计算等,按照相似性度量值的大小排序,从图像库包含的该类别下的各图像中,筛选出相似度较高的若干目标图像,即满足查询图像的相似度要求的目标图像。
在一种可能的实现方式中,本申请可以对得到的多个待定互补特征向量各自对应的与目标互补特征向量的相似性度量值(如距离、余弦值等计算方式)进行排序,确定相似度较高的特定个数的目标图像,或相似度大于相似阈值的目标图像,为满足查询图像的相似度要求的目标图像。需要说明,本申请对图像的相似度要求的内容不做限制,包括但并不局限于本申请描述的数量和相似阈值的要求,可视情况而定。
综上,参照图5所示的流程示意图,在本申请实施例中,将采用人工智能技术,基于不同类别的类别量化和样本三元组(其正负样本属于同一类别)进行迭代学习,得到能够精准识别输入对象所属类别,输出表示该类别的类别量化向量,以及低维度且更精准地表示输入对象在所属类别下的特征的互补特征向量的量化检索模型,从而据此构建能够表征图像库中各图像在所属类别下的互补特征向量,与类别量化向量之间的映射关系的分级量化索引。
这样,将本次获取的查询图像输入该量化检索模型,得到表示该查询图像所属目标类别的目标类别量化向量,以及精准表示查询图像在该目标类别下图像特征的目标互补特征向量后,可以据此对图像库的分级量化索引进行分级检索,先确定查询图像所属目标类别下的各图像,再获取各图像的互补特征向量,即查询目标类别量化向量映射的多个图像各自对应的待定互补特征向量,将其分别与目标互补特征向量进行相似性度量,据此以从图像库中目标类别下的多个图像中,快速且精准地筛选出满足查询图像的相似度要求的目标图像。
可见,本申请提出的这种基于人工智能的图像检索方法,相对于与大规模聚类中心和各图像的全局特征向量进行距离计算,极大减小了计算机设备的计算压力、耗时及计算过程对存储空间的占用,提高了图像检索效率和准确性;且分级量化索引中低维度的互补特征向量和有限位数和个数的类别量化向量,大大减少分级量化索引对存储空间的占用,能够更好地适用于大规模图像库的检索。
参照图6,为本申请提供的基于人工智能的图像检索方法的又一可选示例的流程示意图,本实施例可以是上文实施例描述的基于人工智能的图像检索方法的一可选细化实现方法,但并不局限于本实施例描述的这种细化实现方法。且该细化实现方法可以由服务器或终端执行,也可以由服务器和终端共同执行,可视情况而定,本申请实施例以服务器执行该方法的场景为例进行说明。如图6所示,该方法可以包括:
步骤S21,获取图像库包含的各图像对应的图像标识;
其中,图像库可以是用于图像检索的图像数据库,如imagenet、openimage等数据集,通常会随着时间变化而不断更新,如将从应用平台爬取的图像写入图像库存储等,本申请对图像库类型及其包含的各图像的来源不做限制,可视情况而定。
步骤S22,将各图像依次输入量化检索模型,输出相应图像的类别量化向量和互补特征向量;
关于量化检索模型的训练过程,可以结合上文实施例相应部分的描述,本申请实施例在此不做详述,可以理解的,该量化检索模型输出的类别量化向量可以表示相应输入图像所属类别,互补特征向量表示该输入图像与其所属类别下的相似图像和非相似图像之间的特征差异,以便据此更准确地确定该输入图像的特征向量,这两个向量的获取过程本申请不做详述。
示例性的,参照图7所示的基于人工智能的图像检索方法的一可选应用场景示意图,对于如图7所示的包含各类图像的图像库,如兔子、鸡、狗、马等(图7并未示出图像库包含的各类别图像,且这些图像也并不局限于包含一个对象的图像,也可以是包含多个对象的图像等,本申请不做一一列举),在图像类别标注时,可以采用图像中最常出现的99个类别+“其他”这一类别,构成的100个类别,对图像库包含的各图像进行类别标注,但并不局限于该类别数量。
继上文描述,利用预训练得到的量化检索模型,对图像库中的各图像进行特征提取,得到相应图像的类别量化向量,图7以3维one-hot二值向量为例,说明不同图像类别的类别量化向量的表示方式,在本示例中,实际可以量化得到1*100维的one-hot二值向量,或者是其他维度的二值向量,本申请对此不做限制。之后,可以获取输入图像所属类别子空间下的互补特征向量,其并不局限于图7所示的互补特征向量的维数和内容,可视情况而定,本申请实施例以此作为示意性说明。
步骤S23,统计具有相同所述类别量化向量的图像,得到所述类别量化向量与统计的具有该类别量化向量的各图像对应的所述图像标识之间的映射关系;
步骤S24,利用不同类别量化向量与具有相应类别量化向量的各图像的图像标识之间的映射关系,构建一级索引;
步骤S25,利用得到的多个映射关系,构建图像库的一级索引;
结合上文相应部分的描述,本申请将构建粗细力度互补相似度表征的二级索引系统,降低一级索引的计算压力和存储空间,提高所需检索的目标图像的可靠性和准确性。所以,本申请在得到图像库中各图像的类别量化向量(如对图像的全局特征向量e1(即embedding1的简称)进行分类量化处理后的one-hot二值向量)后,可以统计对应一个类别量化向量的一个或多个图像,从而构建各类别包含的一个或多个图像,与相应类别对应的类别量化向量之间的映射关系,之后,就可以利用该映射关系构建一级索引,即用于检查图像所属类别的索引。
示例性的,在得到各类图像的类别量化向量,即Cset(c1、c2、c3、…、ck)后,可以将每个类别量化向量关联到对应类别的图像,形成映射表invertT,如[c1:[i1,i2];c2:[i3,i5,i7];…,ck:[i4,iN-1,iN]],本申请可以将该映射表invertT记为一级索引,但并不局限于这种索引表示形式。其中,该映射表invertT中的cj表示第j类图像的类别量化向量,im(m=1、2…、N,N为整数,可以为图像库包含的图像个数)可以表示图像库包含的各第j类图像的图像标识,本申请对其内容不做限制。
步骤S26,利用各图像对应的图像标识,与相应图像的互补特征向量之间的对应关系,构建图像库的二级索引;
步骤S27,由一级索引与二级索引,构建针对图像库包含的各图像的分级量化索引;
继上文描述,对于二级索引是相对于一级索引更细粒度的索引,其包含了不同类别图像的图像标识关联的该图像的互补特征向量,利用训练的量化检索模型,得到不同图像的互补特征向量e2与相应图像标识i之间的映射关系,记为(i,e2),存储至特征表Feat,构成二级索引。可见,该二级索引与一级索引之间,可以通过图像的图像标识进行关联,以便图像检索应用中,依据该关联关系实现分级索引查询。
之后,本申请可以由上述构建的一级索引和二级索引,组成针对图像库包含的各图像的分级量化索引,本申请对该分级量化索引的表示形式不做限制,可以是包含上文映射表invertT及其关联的特征表Feat,也可以基于这两个表之间的关联关系,以及各表记载的各映射关系,构建一个新的映射表记为分级量化索引等,可视情况而定,本申请在此不做一一详述。
结合上述分析,相对于一次量化,本申请采用两级空间特征表示图像的特征,即类别量化向量为全局空间类别表示,互补特征向量为图像所属类别子空间特征表示,在提高图像特征精准度的同时,降低了学习难度。示例性的,若一次量化需要学习1*256维的特征向量,而采用本申请提出的分级量化后,可以学习表示图像所属类别的类别特征向量e1(1*8类),再学习表示图像所属类别下的特征向量e2(1*32)的量化,两者结合后也具备了1*256(8*32=256)维度的特征表征能力,相对于一次量化需要学习256位特征向量,本申请可以需要学习32位特征向量,大大降低了每次学习的难度,尤其是在维度较大的场景下。
而且,相对于上文描述的一次全局空间的特征提取,得到的全局特征向量embedding,本申请获取的各图像在其所属类别子空间下的互补特征向量e2,如全局空间学习1*128的embedding向量(占128字节),本申请经过100类的一级量化(即占100bit存储空间的one-hot编码向量)后,互补特征向量e2表示的是相应类别子空间产生的1*32维浮点特征,在满足完整表征图像特征的同时,将存储空间降低至约44字节(=100/8+32字节),相当于是原来图像检索方法中特征向量所占存储空间的1/3,且能够降低对该低维度互补特征向量的计算压力,有助于提高图像检索效率和准确性。
继上文图7所示的场景示例,得到图像库包含的不同类别的图像对应的类别量化向量和互补特征向量后,可以按照上述方式结合各图像的图像标识(如图像编号),构成分级量化索引,写入数据库(其可以是独立的数据库服务器,也可以是计算机设备中的数据存储设备,可视情况而定)存储。
步骤S28,获取查询图像;
步骤S29,将该查询图像输入量化检索模型,输出查询图像的目标类别量化向量和目标互补特征向量;
关于步骤S28和步骤S29的实现过程,可以参照上述实施例相应部分的描述,本实施例在此不做赘述。应该理解,本申请利用同一个量化检索模型,获得查询图像的目标类别量化向量和目标互补特征向量,避免引入额外的编码步骤。
步骤S210,查询该分级量化索引包含的一级索引,获得目标类别量化向量映射的多个目标图像标识;
在一些实施例中,本申请可以将目标类别量化向量与一级索引包含的多个类别量化向量分别进行相似度度量(如距离计算),得到相应的相似度度量结果(如向量之间的距离等);再从该一级索引中,查询相似性度量值最大(如距离最小)的类别量化向量映射的多个图像标识,从而将查询到的这多个图像标识确定为目标图像类别下的目标图像标识,用以进一步检索。
需要说明,本申请对不同向量之间的相似度计算方法不做限制,可视情况而定。在本申请实施例中,可以采用向量距离计算方式实现,在此以汉明距离计算方式为例进行说明,即获取一级索引包含的各类别量化向量,与目标类别量化向量之间的汉明距离(hamming distance),再从一级索引中,查询汉明距离小于1的类别量化向量映射的多个图像标识。
可见,本申请获得查询图像的目标类别量化向量qe1后,可以从一级索引中查找与该目标类别量化向量qe1最近的类别量化向量e1,以确定该查询图像所属图像类别包含的各图像的图像标识。由于一级索引中不同类别量化向量的位数相同,本申请可以直接遍历一级索引(如上述映射表invertT)中与目标类别量化向量qe1的差异位的数量小于1的类别量化向量e1,记为待定类别量化向量,表示两者属于同一类别的编码相同的向量。示例性的,目标类别向量为0110,其与一级索引中的类别量化向量1000的汉明距离为3,与类别量化向量1110的汉明距离为1。
步骤S211,查询该分级量化索引包含的二级索引,获取多个目标图像标识各自映射的待定互补特征向量;
步骤S212,将多个待定互补特征向量分别与目标互补特征向量进行相似度度量,得到相应的相似度;
步骤S213,从图像库中选择相似度较高的特定个数的待定互补特征向量,映射的目标图像标识所对应的目标图像。
仍以图7所示检索场景为例进行说明,计算机设备获得查询图像后,可以按照上述方式得到其所属类别的目标类别量化向量,如图7所示的(1,0,0),以及目标互补特征向量,如图7所示的(0.2,0.8,0.3,0.3),之后,可以先依据该目标类别量化向量,对分级量化索引的一级索引(图7并未示出)进行查询,确定目标类别量化向量通过图像标识,间接映射的待定互补特征向量,如(1,0,0)这一目标类别量化向量间接映射的如(0.2,0.7,0.3,0.3)(0.1,0.5,0.2,0.2)(0.2,0.4,0.2,0.3)等待定互补特征向量,将其与目标互补特征向量(0.2,0.8,0.3,0.3)进行比对,即相似度计算,筛选出相似度最高的若干目标图像。
在一些实施例中,经过对一级索引的检索后,可以获得与查询图像属于同一类别的多个图像的目标图像标识,之后,可以从二级索引(如上述特征表Feat)中,查询各目标图像标识分别对应的待定互补特征向量,组成待定互补特征向量集Feat_e2 set,之后,可以采用如欧式距离、余弦相似度、曼哈顿距离等向量相似度计算方式,来获取目标互补特征向量qe2与Feat_e2 set中各待定互补特征向量之间的特征相似度,按照特征相似度从大到小的顺序排序(即按所得向量距离从小到大的顺序排序),筛选出topK个待定互补特征向量映射的目标图像标识对应的目标图像。其中,特定个数K的数值可以依据实际应用需求配置,本申请对其数值不做限制。
可见,本申请提出的这种先通过查询图像的目标类别量化查询一级索引,快速确定查询图像所属目标类别,从而缩小所需目标图像所在的搜索访问,之后,再从二级索引中该目标类别下的各图像标识映射的互补特征向量,可以快速且准确地检索出与查询图像的相似度较高的同一类别的若干目标图像,且低维度的互补特征向量的相似度计算,降低了计算压力。
在本申请提出的又一些实施例中,在上述基于人工智能的图像检索过程中,本申请还提出了又一种分级量化索引构建方法,该方法可以由服务器或终端执行,也可以由服务器和终端共同执行,可视情况而定,本申请对此不做限制,本申请实施例以服务器执行该分级量化索引构建方法的场景为例进行说明。如图8所示,该方法可以包括:
步骤S31,获取图像库中各图像对应的图像标识;
步骤S32,将各图像依次输入量化检索模型,输出相应图像的类别量化向量和互补特征向量;
步骤S33,对具有同一所述类别量化向量的多个图像的互补特征向量进行聚类,得到该多个图像各自的子类别量化向量;
步骤S34,利用不同类别量化向量,与具有相应类别量化向量的图像所对应的图像标识之间的映射关系,构建针对图像库的一级索引;
关于步骤S31~步骤S34的实现过程,可以参照上述实施例相应部分的描述,本实施例在此不做赘述。
步骤S35,利用具有同一类别量化向量的多个图像各自对应的图像标识,与聚类得到的不同子类别量化向量之间的映射关系,构建针对图像库的二级索引;
区别于上文描述的分级量化索引的构建方法,本申请实施例在对图像库包含的各图像进行分类,得到各类别的类别量化向量作为一级量化索引之后,可以对每一个类别下图像的互补特征向量进行聚类,如基于Kmeans的聚类算法或其他聚类算法,得到K个聚类中心作为二级索引,相当于是对全局空间划分的每一个类别子空间做进一步细化,每个类别子空间可以划分成相应K个子空间,K为取决于该类别子空间的各互补特征向量的聚类中心个数。
步骤S36,利用不同子类别量化向量映射的各图像对应的图像标识,与相应图像的互补特征向量之间的对应关系,构建针对图像库的三级索引;
步骤S37,由上述一级索引、二级索引和三级索引,构建针对图像库包含的各图像的分级量化索引。
关于对分级量化索引的应用过程,可以参照上文实施例相应部分的描述,本实施例不做赘述。且对于图像库的分级量化索引的构建方法,包括但并不局限于上文实施例描述的两种构建方法。
基于本实施例构建的分级量化索引,本申请训练的量化检索模型除了能够获取输入图像的类别量化向量和互补特征向量外,还可以进一步确定输入图像所属类别下的子类别,确定对应的子类别量化向量,这样,在图像检索过程中,可以先确定查询图像所属类别的目标类别量化向量映射的各子类别量化向量(即对一级索引进行查询的结果),再从中确定目标子类别量化向量对应的目标图像标识(即对二级索引进行查询的结果),进而确定各目标图像标识对应的待定互补特征向量(即对三级索引进行查询的结果,该互补特征向量可以是图像所属子类别下的图像特征),之后,再通过相似性度量,筛选出与查询图像相似度较高的若干目标图像,这种图像检索方法可以进一步降低互补图像特征向量的维度,降低了计算量,提高了图像检索速度和精准度。
参照图9,为本申请提供的基于人工智能的图像检索方法的又一可选示例的流程示意图,本申请实施例对上文实施例描述的基于人工智能的图像检索方法中,量化检索模型的训练过程进行描述,但并不局限于本实施例描述的这种模型训练实现方法。且模型训练方法可以由服务器或终端执行,也可以由服务器和终端共同执行,可视情况而定,本申请对此不做限制,本申请实施例以服务器执行该模型训练方法的场景为例进行说明,如图9所示,该方法可以包括:
步骤S41,获取多个相似样本对;
在实际应用中,获取训练样本集后,可以对其包含的各样本进行相似度计算,如获取各样本的特征向量embedding,对其进行相似度计算,将相似度最高的一对样本确定为一个相似样本对,本申请对各相似样本对的获取方法不做限制,可视情况而定。
应该理解的是,本申请直接从相似样本对包含的训练样本进行模型训练,使得整个训练学习过程只可能引入量化误差,不会产生特征编码而导致的特征误差,提高了量化变化效果。
步骤S42,对所述多个相似样本对各自包含的训练样本进行分类,获得相应训练样本的类别标签;
对于获取的任一相似样本对,可以随机从中抽取一个样本进行类别标注,确定该相似样本对包含的两个训练样本的类别标签,如将图像类别分为100个,不同类别可以配置唯一的类别标签,但本申请对该类别标签的内容及其数量不做限制,可视情况而定。
步骤S43,对图像类别个数的分类标签进行量化处理,得到不同类别标签各自对应的样本类别量化向量;
结合上文实施例相应部分的描述,对于不同类别的相似样本对中的训练样本,可以采用one-hot编码方式,生成相应类别的类别量化向量,即由1和0组成的100维的一级量化向量,但并不局限于这种分类量化处理方法。
步骤S44,从同一所述类别标签对应的多个相似样本对包含的训练样本中,获得针对不同目标样本的正样本和负样本,构成多个样本三元组;
其中,目标样本是指相应所述类别标签对应的任一相似样本对中的任一训练样本,关于样本三元组的获取方式,可以参照但并不局限于下文相应实施例的描述,本实施例在此不做赘述。
步骤S45,依据样本三元组和样本类别量化向量对预训练模型进行监督学习,得到学习约束条件的量化检索模型。
其中,学习约束条件可以包括分类损失条件和三元组约束条件,该分类损失条件可以用于约束输入样本的分类准确性,如分类损失值小于一定阈值或收敛等;该三元组约束条件可以包括相应目标样本与正样本之间的距离,小于该目标样本与负样本之间的距离,甚至可以约束该目标样本xa分别与负样本xn和正样本xp之间的距离差大于距离阈值,如0.6等,如||xa-xn||-||xa-xp||>0.6,其中,||xa-xn||和||xa-xp||标识相应两个训练样本的特征向量之间的L2距离,计算过程可以结合L2范数距离计算原理,本申请不做详述。需要说明,本申请对上述学习约束条件的内容不做限制,可视情况而,且对于两个样本之间的距离计算方式,并不局限于这种L2距离计算方法。
基于上述分析,本申请的预训练模型可以是多层非线性网络结构,本申请对模型结构不做限制,可视情况而定。在监督学习阶段可以分为两个分支,一个分支通过特征分类处理,对得到的类别进行分类量化处理后,生成相应类别的类别量化向量,如上述分类量化网络;另一个分支可以用于度量学习该类别下的输入样本的特征,得到互补特征向量,如上述特征抽取网络,这两个分支输出的向量合并后,即可表示输入样本的类别及其在该类别下的特征,即达到全局特征提取的表征效果。
在本申请提出的一些实施例中,基于上文实施例对基于人工智能的图像检索方法中,量化检索模型的训练过程的描述,参照图10,为本申请实施例提出了一种样本三元组的获取方法的流程示意图,该方法可以由服务器或终端执行,也可以由服务器和终端共同执行,可视情况而定,本申请对此不做限制,本申请实施例以服务器执行样本三元组获取方法的场景为例进行说明,但并不局限于以下方式,获取针对不同目标样本的样本三元组:
步骤S51,将第一相似样本对的第一训练样本确定为目标样本,并将第一相似样本对的第一训练样本确定为目标样本的正样本;
需要说明,该第一相似样本对为获取的多个相似样本对中的任一相似样本对,且该第一相似样本对与第二相似样本对组成多个相似样本对,也就是说,本申请将获取的多个相似样本对中除了第一相似样本对之外的其他相似度样本对,确定为第二相似度样本对。第一相似样本对的第一训练样本为该第一相似样本对的任一训练样本,第二训练样本为第一相似样本对的另一训练样本。
步骤S52,从确定的多个第二相似样本各自包含的训练样本中,获取与目标样本对应同一类别标签的待定训练样本集;
步骤S53,从待定训练样本集中,选择与目标样本的距离较小的预设个数的负样本;
步骤S54,由第一相似样本对包含的目标样本、正样本,以及选择的各负样本,构成针对目标样本的预设个数的样本三元组。
示例性的,若获取bs个相似样本对,对于任一相似样本对中的目标样本x,可以从剩余的bs-1个相似样本对的训练样本(如每个第二相似样本对随机选择一个训练样本)中,获取与目标图像x属于同一类别的样本集Xset,计算Xset中样本与目标样本x的距离(如采用欧式距离等方法实现),按距离从小到大排序,取前10个训练样本作为目标样本x的负样本,分别与x所在的第一相似样本对中的正样本对组成三元组,这样,每个样本可以产生10个样本三元组,整个batch得到10*bs个样本三元组。
在本申请提出的又一些实施例中,基于上文实施例描述的基于人工智能的图像检索方法,本实施例提出了一种量化检索模型的训练实现方法,该方法可以由服务器或终端执行,也可以由服务器和终端共同执行,可视情况而定,本申请对此不做限制,本申请实施例以服务器执行量化检索模型的训练实现方法的场景为例进行说明。结合图11所示的流程示意,可以采用但并不局限于下文所示的模型训练实现方法:
步骤S61,将各训练样本输入预训练模型进行特征提取和交叉处理,得到相应的全局特征向量;
本申请实施例中,预设网络模型可以是多层非线性网络结构,整体可以分为特征提取模块(如上述分类网络)、一级量化分支模块(如上述分类量化网络)和二级互补嵌入模块(如上述特征抽取网络),其中,特征提取模块可以采用但并不局限于残差网络resnet101,也可以是其他预训练模型,本申请以此为例进行说明。
表1
如上表1所示的网络结构,其可以包括不同尺寸卷积核构成的卷积网络,如Conv1-Conv5的5个卷积层构成的卷积网络,各卷积层的卷积核尺寸及池化层pool的结构,包括但并不局限于表1所示的参数,可以依据实际应用需求确定,本申请以此为例进行说明。
表2
Layer name | Output size | Layer |
Pool | 1x2048 | Max pool |
Map | 1x2048 | fullconnetction |
结合图12所示的量化索引模型的训练方法示意图以及上表2可知,相对于传统的残差网络,本申请的添加了map层,参照表2所示的这两个网络侧的参数,但并不局于表中所示的网络参数。该map层可以对池化层pool输出的特征向量进行特征交叉处理,得到具有更加丰富的二阶特征信息的特征向量,用于学习相应类别的互补特征向量。
步骤S62,对全局特征向量包含的全局特征值进行分类量化处理,得到相应训练样本的训练类别量化向量;
结合下表3所示的分类量化层Embedding1层,结合上文实施例相应部分的描述,可以得到1*100维度的one-hot二值向量,即训练类别量化向量,但并不局限于该维数。
表3
Layer name | Output size | Layer |
Embedding1 | 1x100 | full connetction |
如图12所示,按照上述方式分类量化处理后,可以得到相应训练样本在全局空间表征,即表示该训练样本所属类别的训练类别量化向量。
步骤S63,对目标类别量化向量,对该全局图像特征向量进行特征抽取,得到相应训练样本在所属类别下的训练互补特征向量;
结合下表4所示的特征抽取Embedding2,结合上文实施例相应部分的描述,对上述map层输出的全局特征向量进行相应类别的特征抽取,采用子空间度量学习监督,可以得到32维度的训练互补特征向量,但并不局限于该向量维数,可视情况而定。
表4
Layer name | Output size | Layer |
Embedding2 | 1x32 | full connetction |
如图12所示,确定训练样本所属类别后,可以从相应的类别子空间中,选择样本三元组进行距离度量学习,选择过程不做详述,且关于各类别子空间的获取过程,可以参照上文实施例相应部分的描述。
可见,本申请在上述特征提取模块基础上增加了量化层,其可以用于实现一级量化和二级互补特征处理,在识别出输入样本所属类别后,对该类别进行量化处理,如通过one-hot编码处理,得到相应的类别量化向量;对特征交叉处理后的特征向量,依据确定的训练样本所属类别,对该特征向量进行抽取,得到该训练样本在相应类别下的训练互补特征向量,实现过程本申请不做详述。
其中,对于上述量化层实现之前,可以采用方差为0.01,均值为0的高斯分布进行初始化,但并不局限于这种初始化实现方式。而且,在按照上述方式进行量化学习过程中,可以采用如0.005的学习率实现,这样,每经过如10轮迭代学习后,学习率可以变为原来的0.1倍,但并不局限于这些参数配置内容。
另外,在学习迭代过程中,每一次迭代处理可以是对全量样本,按照上述方式进行一次处理,如将所有相似样本对中,每batch-size个相似样本对划分为一批次,分成Nb个批次,这样,对于每个batch的学习过程中,将模型中各模型网络参数设为学习状态,对输入的每个样本进行前向计算,得到不同分支预测结果,即预测类别的全局特征向量e1,以及该预测类别下的互补特征向量e2。
步骤S64,利用样本类别量化向量,对相应输入训练样本所属类别的训练类别量化向量进行损失计算,得到相应输入训练样本的分类损失值;
步骤S65,利用相应输入训练样本所属类别对应的样本三元组中,各训练样本的样本互补特征向量,及训练互补特征向量进行三元组损失计算,得到相应输入训练样本的三元组损失值;
步骤S66,利用分类损失权重和三元组损失权重,对同一输入训练样本对应的分类损失值和三元组损失值进行加权求和,得到该输入训练样本的目标损失值;
可见,对于类别量化向量和互补特征向量的训练学习过程,可以采用不同的损失函数实现,前者可以采用但并不局限于交叉熵损失函数,或者可以采用三元组损失函数,通过计算L2距离,确定三元组损失,其实现过程可以结合相应损失函数在深度学习模型的训练应用原理确定,本申请不做详述。
示例性的,输入样本的目标损失值Ltotal=w1Lclass+w2Ltriplet2,w1表示分类损失权重,w2表示三元组损失权重,本申请对这两个权重的数值不做限制,可视情况而定。其中,Ltriplet2=max(||xa-xp||-||xa-xn||+α,0),α可以是依据实际需求确定的阈值,如0.6等,本申请对该阈值的数值不做限制。
步骤S67,检测到目标损失值不满足学习约束条件,依据目标损失值,调整预训练模型的模型参数,利用各训练样本继续对具有调整后的模型参数的预训练模型进行迭代学习,直至满足学习约束条件,得到量化检索模型。
在一些实施例中,本申请可以采用随机梯度下降法SGD(Stochastic GradientDescenet),将上一次迭代学习的目标损失值进行梯度向后,计算得到模型网络参数的更新值,并调整为该更新值后继续进行模型训练。本申请对SGD的模型网络参数的更新实现过程不做详述。且关于本实施例训练得到的量化检索模型的应用,可以结合上文实施例相应部分的描述,本实施例不再赘述。
需要说明,对于终端执行或终端与服务器共同执行,本申请提出的基于人工智能的图像检索方法的实现过程,与上文各实施例描述的由服务器执行该基于人工智能的图像检索方法的实现过程类似,本申请不再一一举例详述。
参照图13,为本申请提出的基于人工智能的图像检索装置的一可选示例的结构示意图,如图13所示,该装置可以包括:
查询图像获取模块21,用于获取查询图像;
分级量化处理模块22,用于将所述查询图像输入量化检索模型,输出所述查询图像的目标类别量化向量和目标互补特征向量;
其中,所述量化检索模型是基于不同类别的样本三元组和样本类别量化向量进行迭代学习得到的,且所述样本三元组中的正样本和负样本属于同一类别的训练样本;所述目标类别量化向量表示所述查询图像所属的目标类别,所述目标互补特征向量表示所述查询图像在所述目标类别下的图像特征。
在一些实施例中,该分级量化处理模块22可以包括:
全局特征获取单元,用于对所述查询图像进行全局特征提取与交叉处理,得到所述查询图像的全局特征向量;
分类量化单元,用于依据所述全局特征向量包含的全局特征值,对所述查询图像进行分类量化处理,获得所述查询图像的目标类别量化向量;
特征抽取单元,用于依据所述目标类别量化向量,对所述全局图像特征向量进行特征抽取,得到所述查询图像在所属目标类别下的目标互补特征向量。
可选的,分类量化单元可以包括:
分类识别单元,用于对所述全局特征向量进行分类映射,依据相应全局特征值映射的类别概率,确定所述查询图像所属的目标类别;
二值量化单元,用于依据图像类别个数对所述目标类别进行独热编码,得到所述查询图像的目标类别量化向量;所述目标类别量化向量的维数等于所述图像类别个数。
待定互补特征向量获取模块23,用于查询针对图像库构建的分级量化索引,得到所述目标类别量化向量映射的多个图像各自对应的待定互补特征向量;
其中,所述分级量化索引表征所述图像库中各图像在所属类别下的互补特征向量,与类别量化向量之间的映射关系。
在一些示例中,上述计算机设备中,用于构建针对图像库的分级量化索引的索引构建模块,可以包括:
图像标识第一获取单元,用于获取图像库中各图像对应的图像标识;
第一处理单元,用于将所述各图像依次输入所述量化检索模型,输出相应图像的类别量化向量和互补特征向量;
类别映射单元,用于统计具有相同所述类别量化向量的图像,得到所述类别量化向量与统计的具有该类别量化向量的各图像对应的所述图像标识之间的映射关系;
第一索引构建单元,用于利用得到的多个所述映射关系,构建所述图像库的一级索引;
第二索引构建单元,用于利用所述各图像对应的图像标识,与相应图像的所述互补特征向量之间的对应关系,构建所述图像库的二级索引;
第三索引构建单元,用于由所述一级索引与所述二级索引,构建针对所述图像库包含的各图像的分级量化索引。
基于此,上述待定互补特征向量获取模块23可以包括:
第一查询单元,用于查询所述分级量化索引包含的一级索引,获得所述目标类别量化向量映射的多个目标图像标识;
第二查询单元,用于查询所述分级量化索引包含的二级索引,获得所述多个目标图像标识各自对应的待定互补特征向量。
可选的,第一查询单元可以包括:
相似性度量单元,用于将所述分级量化索引的一级索引包含的多个所述类别量化向量,分别与所述目标类别量化向量进行相似性度量,得到相应的相似性度量值;
目标图像标识确定单元,用于从所述一级索引中,查询最大所述相似性度量值对应的所述类别量化向量所映射的多个图像标识,确定为所述图像库中属于所述目标类别的图像对应的目标图像标识。
在一种可能的实现方式中,该相似性度量单元可以包括:
距离计算单元,用于获取所述分级量化索引的一级索引包含的多个所述类别量化向量,分别与所述目标类别量化向量之间的汉明距离;
相应地,目标图像标识确定单元可以包括:
图像标识查询单元,用于从所述一级索引中,查询所述汉明距离小于1的所述类别量化向量所映射的多个图像标识。
在又一些实施例中,索引构建模块也可以包括:
图像标识第二获取单元,用于获取图像库中各图像对应的图像标识;
第二处理单元,用于将所述各图像依次输入所述量化检索模型,输出相应图像的类别量化向量和互补特征向量;
聚类单元,用于对具有同一所述类别量化向量的多个图像的所述互补特征向量进行聚类,得到该多个图像各自的子类别量化向量;
第四索引构建单元,用于利用不同所述类别量化向量,与具有相应类别量化向量的图像所对应的图像标识之间的映射关系,构建针对所述图像库的一级索引;
第五索引构建单元,用于利用具有同一所述类别量化向量的多个图像各自对应的图像标识,与聚类得到的不同所述子类别量化向量之间的映射关系,构建针对所述图像库的二级索引;
第六索引构建单元,用于利用不同所述子类别量化向量映射的各图像对应的图像标识,与相应图像的所述互补特征向量之间的对应关系,构建针对所述图像库的三级索引;
第七索引构建单元,用于由所述一级索引、所述二级索引和所述三级索引,构建针对所述图像库包含的各图像的分级量化索引。
目标图像筛选模块24,用于对多个所述待定互补特征向量分别与所述目标互补特征向量进行相似性度量,依据相似性度量结果,筛选所述图像库中满足所述查询图像的相似度要求的目标图像。
基于上文实施例的描述,为了实现量化检索模型的训练,上述装置还可以包括:
相似样本对获取模块,用于获取多个相似样本对;
类别标注模块,用于对所述多个相似样本对各自包含的训练样本进行分类,获得所述训练样本的类别标签;
类别量化模块,用于对图像类别个数的所述分类标签进行量化处理,得到不同所述类别标签各自对应的样本类别量化向量;
样本三元组构建模块,用于从同一所述类别标签对应的所述多个相似样本对包含的训练样本中,获得针对不同目标样本的正样本和负样本,构成多个样本三元组;其中,所述目标样本是指相应所述类别标签对应的任一所述相似样本对中的任一所述训练样本;
在一些实施例中,样本三元组构建模块可以包括:
样本选择单元,用于将第一相似样本对的第一训练样本确定为目标样本,并将所述第一相似样本对的第二训练样本确定为所述目标样本的正样本;
其中,所述第一相似样本对为所述多个相似样本对中的任一所述相似样本对,且所述第一相似样本对与第二相似样本对组成所述多个相似样本对;
待定训练样本集获取单元,用于从所述第二相似样本对包含的各训练样本中,获取与所述目标样本对应同一所述类别标签的待定训练样本集;
负样本选择单元,用于从所述待定训练样本集中,选择与所述目标样本的距离较小的预设个数的负样本;
样本三元组构成单元,用于由所述第一相似样本对包含的所述目标样本和所述正样本,以及选择出针对所述目标样本的各所述负样本,构成针对所述目标样本的预设个数的样本三元组。
模型监督学习模块,用于依据所述样本三元组和所述样本类别量化向量对预训练模型进行监督学习,得到所述学习约束条件的量化检索模型;所述学习约束条件包括分类损失条件和三元组约束条件。
在一些实施例中,该模型监督学习模块可以包括:
训练样本量化处理单元,用于将训练样本输入预训练模型,输出相应训练样本的训练类别量化向量和训练互补特征向量;
损失计算单元,用于分别对所述训练类别量化向量和训练互补特征向量进行损失计算,将得到的总损失值确定为相应输入训练样本的目标损失值;
检测单元,用于检测到所述目标损失值是否满足学习约束条件;
参数调整单元,用于在检测单元的检测结果为不满足的情况下,依据所述目标损失值,调整所述预训练模型的模型参数,触发训练样本量化处理单元利用所述训练样本继续对具有调整后的模型参数的预训练模型进行迭代学习;
量化检索模型确定单元,用于在检测单元的检测结果为满足的情况下,将本次学习到的预训练模型确定为量化检索模型。
可选的,上述损失计算单元可以包括:
分类损失计算单元,用于利用所述样本类别量化向量,对相应输入训练样本所属类别的所述训练类别量化向量进行损失计算,得到相应输入训练样本的分类损失值;
三元组损失计算单元,用于利用所述相应输入训练样本所属类别对应的所述样本三元组中,各训练样本的样本互补特征向量,及所述训练互补特征向量进行三元组损失计算,得到所述相应输入训练样本的三元组损失值;
目标损失计算单元,用于利用分类损失权重和三元组损失权重,对同一输入训练样本对应的所述分类损失值和所述三元组损失值进行加权求和,得到该输入训练样本的目标损失值。
需要说明的是,关于上述各装置实施例中的各种模块、单元等,均可以作为程序模块存储在终端或服务器的存储器中,由相应终端或服务器中的处理器执行存储在该存储器中的上述程序模块,以实现相应的功能,关于各程序模块及其组合所实现的功能,以及达到的技术效果,可以参照上述方法实施例相应部分的描述,本实施例不再赘述。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行,实现上述基于人工智能的图像检索方法,该基于人工智能的图像检索方法的实现过程可以参照上述方法实施例的描述。
本申请还提出了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述基于人工智能的图像检索方法方面或基于人工智能的图像检索装置方面的各种可选实现方式中所提供方法,实现过程可以参照上述相应实施例的描述,不做赘述。
最后,需要说明,本说明书中各个实施例采用递进或并列的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、系统、计算机设备、计算机可读存储介质、计算机产品而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的核心思想或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (15)
1.一种基于人工智能的图像检索方法,其特征在于,所述方法包括:
获取查询图像;
将所述查询图像输入量化检索模型,输出所述查询图像的目标类别量化向量和目标互补特征向量;其中,所述量化检索模型是基于不同类别的样本三元组和样本类别量化向量进行迭代学习得到的,且所述样本三元组中的正样本和负样本属于同一类别的训练样本;所述目标类别量化向量表示所述查询图像所属的目标类别,所述目标互补特征向量表示所述查询图像在所述目标类别下的图像特征;
查询针对图像库构建的分级量化索引,得到所述目标类别量化向量映射的多个图像各自对应的待定互补特征向量;其中,所述分级量化索引表征所述图像库中各图像在所属类别下的互补特征向量与类别量化向量之间的映射关系;
对多个所述待定互补特征向量分别与所述目标互补特征向量进行相似性度量,依据相似性度量结果,筛选所述图像库中满足所述查询图像的相似度要求的目标图像。
2.根据权利要求1所述的方法,其特征在于,所述将所述查询图像输入量化检索模型,输出所述查询图像的目标类别量化向量和目标互补特征向量,包括:
对所述查询图像进行全局特征提取与交叉处理,得到所述查询图像的全局特征向量;
依据所述全局特征向量包含的全局特征值,对所述查询图像进行分类量化处理,获得所述查询图像的目标类别量化向量;
依据所述目标类别量化向量,对所述全局图像特征向量进行特征抽取,得到所述查询图像在所属目标类别下的目标互补特征向量。
3.根据权利要求2所述的方法,其特征在于,所述依据所述全局特征向量包含的全局特征值,对所述查询图像进行分类量化处理,获得所述查询图像的目标类别量化向量,包括:
对所述全局特征向量进行分类映射,依据相应全局特征值映射的类别概率,确定所述查询图像所属的目标类别;
依据图像类别个数对所述目标类别进行独热编码,得到所述查询图像的目标类别量化向量;所述目标类别量化向量的维数等于所述图像类别个数。
4.根据权利要求1所述的方法,其特征在于,所述分级量化索引的构建过程,包括:
获取图像库中各图像对应的图像标识;
将所述各图像依次输入所述量化检索模型,输出相应图像的类别量化向量和互补特征向量;
统计具有相同所述类别量化向量的图像,得到所述类别量化向量与统计的具有该类别量化向量的各图像对应的所述图像标识之间的映射关系;
利用得到的多个所述映射关系,构建所述图像库的一级索引;
利用所述各图像对应的图像标识,与相应图像的所述互补特征向量之间的对应关系,构建所述图像库的二级索引;
由所述一级索引与所述二级索引,构建针对所述图像库包含的各图像的分级量化索引。
5.根据权利要求4所述的方法,特征在于,所述查询针对图像库构建的分级量化索引,得到所述目标类别量化向量映射的多个图像各自对应的待定互补特征向量,包括:
查询所述分级量化索引包含的一级索引,获得所述目标类别量化向量映射的多个目标图像标识;
查询所述分级量化索引包含的二级索引,获得所述多个目标图像标识各自对应的待定互补特征向量。
6.根据权利要求5所述的方法,其特征在于,所述查询所述分级量化索引包含的一级索引,获得所述目标类别量化向量映射的多个目标图像标识,包括:
将所述分级量化索引的一级索引包含的多个所述类别量化向量,分别与所述目标类别量化向量进行相似性度量,得到相应的相似性度量值;
从所述一级索引中,查询最大的相似性度量值对应的所述类别量化向量所映射的多个图像标识;
将查询到的所述图像标识确定为所述图像库中属于所述目标类别的图像对应的目标图像标识。
7.根据权利要求6所述的方法,其特征在于,所述将所述分级量化索引的一级索引包含的多个所述类别量化向量,分别与所述目标类别量化向量进行相似性度量,得到相应的相似性度量值,包括:
获取所述分级量化索引的一级索引包含的多个所述类别量化向量,分别与所述目标类别量化向量之间的汉明距离;
所述从所述一级索引中,查询最大的相似性度量值对应的所述类别量化向量所映射的多个图像标识,包括:
从所述一级索引中,查询所述汉明距离小于1的所述类别量化向量所映射的多个图像标识。
8.根据权利要求1所述的方法,特征在于,所述分级量化索引的构建过程,包括:
获取图像库中各图像对应的图像标识;
将所述各图像依次输入所述量化检索模型,输出相应图像的类别量化向量和互补特征向量;
对具有同一所述类别量化向量的多个图像的所述互补特征向量进行聚类,得到该多个图像各自的子类别量化向量;
利用不同所述类别量化向量,与具有相应类别量化向量的图像所对应的图像标识之间的映射关系,构建针对所述图像库的一级索引;
利用具有同一所述类别量化向量的多个图像各自对应的图像标识,与聚类得到的不同所述子类别量化向量之间的映射关系,构建针对所述图像库的二级索引;
利用不同所述子类别量化向量映射的各图像对应的图像标识,与相应图像的所述互补特征向量之间的对应关系,构建针对所述图像库的三级索引;
由所述一级索引、所述二级索引和所述三级索引,构建针对所述图像库包含的各图像的分级量化索引。
9.根据权利要求1~8任一项所述的方法,其特征在于,所述量化检索模型的训练过程,包括:
获取多个相似样本对;
对所述多个相似样本对各自包含的训练样本进行分类,获得所述训练样本的类别标签;
对图像类别个数的所述分类标签进行量化处理,得到不同所述类别标签各自对应的样本类别量化向量;
从同一所述类别标签对应的所述多个相似样本对包含的训练样本中,获得针对不同目标样本的正样本和负样本,构成多个样本三元组;其中,所述目标样本是指相应所述类别标签对应的任一所述相似样本对中的任一所述训练样本;
依据所述样本三元组和所述样本类别量化向量对预训练模型进行监督学习,得到所述学习约束条件的量化检索模型;所述学习约束条件包括分类损失条件和三元组约束条件。
10.根据权利要求9所述的方法,其特征在于,所述从同一所述类别标签对应的所述多个相似样本对包含的训练样本中,获得针对不同目标样本的正样本和负样本,构成多个样本三元组,包括:
将第一相似样本对的第一训练样本确定为目标样本,并将所述第一相似样本对的第二训练样本确定为所述目标样本的正样本;其中,所述第一相似样本对为所述多个相似样本对中的任一所述相似样本对,且所述第一相似样本对与第二相似样本对组成所述多个相似样本对;
从所述第二相似样本对包含的各训练样本中,获取与所述目标样本对应同一所述类别标签的待定训练样本集;
从所述待定训练样本集中,选择与所述目标样本的距离较小的预设个数的负样本;
由所述第一相似样本对包含的所述目标样本和所述正样本,以及选择出针对所述目标样本的各所述负样本,构成针对所述目标样本的预设个数的样本三元组。
11.根据权利要求9所述的方法,其特征在于,所述依据所述样本三元组和所述样本类别量化向量对预训练模型进行监督学习,得到所述学习约束条件的量化检索模型,包括:
将所述训练样本输入预训练模型,输出相应训练样本的训练类别量化向量和训练互补特征向量;
分别对所述训练类别量化向量和训练互补特征向量进行损失计算,将得到的总损失值确定为相应输入训练样本的目标损失值;
检测到所述目标损失值是否满足学习约束条件;
若不满足,依据所述目标损失值,调整所述预训练模型的模型参数,利用所述训练样本继续对具有调整后的模型参数的预训练模型进行迭代学习;
若满足,将本次学习到的预训练模型确定为量化检索模型。
12.根据权利要求11所述的方法,其特征在于,所述分别对所述训练类别量化向量和训练互补特征向量进行损失计算,将得到的总损失值确定为相应输入训练样本的目标损失值,包括:
利用所述样本类别量化向量,对相应输入训练样本所属类别的所述训练类别量化向量进行损失计算,得到相应输入训练样本的分类损失值;
利用所述相应输入训练样本所属类别对应的所述样本三元组中,各训练样本的样本互补特征向量,及所述训练互补特征向量进行三元组损失计算,得到所述相应输入训练样本的三元组损失值;
利用分类损失权重和三元组损失权重,对同一输入训练样本对应的所述分类损失值和所述三元组损失值进行加权求和,得到该输入训练样本的目标损失值。
13.一种基于人工智能的图像检索装置,其特征在于,所述装置包括:
查询图像获取模块,用于获取查询图像;
分级量化处理模块,用于将所述查询图像输入量化检索模型,输出所述查询图像的目标类别量化向量和目标互补特征向量;其中,所述量化检索模型是基于不同类别的样本三元组和样本类别量化向量进行迭代学习得到的,且所述样本三元组中的正样本和负样本属于同一类别的训练样本;所述目标类别量化向量表示所述查询图像所属的目标类别,所述目标互补特征向量表示所述查询图像在所述目标类别下的图像特征;
待定互补特征向量获取模块,用于查询针对图像库构建的分级量化索引,得到所述目标类别量化向量映射的多个图像各自对应的待定互补特征向量;其中,所述分级量化索引表征所述图像库中各图像在所属类别下的互补特征向量与类别量化向量之间的映射关系;
目标图像筛选模块,用于对多个所述待定互补特征向量分别与所述目标互补特征向量进行相似性度量,依据相似性度量结果,筛选所述图像库中满足所述查询图像的相似度要求的目标图像。
14.一种计算机设备,其特征在于,所述计算机设备包括:
通信接口;
存储器,用于存储实现如权利要求1-8任意一项或9、10~12任一项所述的基于人工智能的图像检索方法的程序;
处理器,用于加载并执行所述存储器存储的程序,以实现如权利要求1-8任意一项或9、10~12任一项所述的基于人工智能的图像检索方法。
15.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行,实现如权利要求1-8任意一项或9、10~12任一项所述的基于人工智能的图像检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110836935.3A CN113918753B (zh) | 2021-07-23 | 2021-07-23 | 基于人工智能的图像检索方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110836935.3A CN113918753B (zh) | 2021-07-23 | 2021-07-23 | 基于人工智能的图像检索方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113918753A true CN113918753A (zh) | 2022-01-11 |
CN113918753B CN113918753B (zh) | 2024-05-28 |
Family
ID=79232909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110836935.3A Active CN113918753B (zh) | 2021-07-23 | 2021-07-23 | 基于人工智能的图像检索方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113918753B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114117089A (zh) * | 2022-01-25 | 2022-03-01 | 广州拟实网络科技有限公司 | 一种基于图像数据处理分析的信息智能推送管理系统 |
CN114443876A (zh) * | 2022-01-14 | 2022-05-06 | 广州市玄武无线科技股份有限公司 | 一种快销行业中商品指纹快速匹配方法及系统 |
CN114676279A (zh) * | 2022-05-25 | 2022-06-28 | 腾讯科技(深圳)有限公司 | 图像检索方法、装置、设备及计算机可读存储介质 |
CN114741544A (zh) * | 2022-04-29 | 2022-07-12 | 北京百度网讯科技有限公司 | 图像检索方法、检索库构建方法、装置、电子设备及介质 |
CN115905608A (zh) * | 2022-11-15 | 2023-04-04 | 腾讯科技(深圳)有限公司 | 图像特征获取方法、装置、计算机设备、存储介质 |
CN116468960A (zh) * | 2023-06-19 | 2023-07-21 | 南京朵盛信息技术有限公司 | 一种视频图像分析检索方法及系统 |
CN117312325A (zh) * | 2023-11-28 | 2023-12-29 | 中国科学技术大学 | 基于知识蒸馏的量化索引构建方法、装置及设备 |
CN117540047A (zh) * | 2023-11-24 | 2024-02-09 | 中科世通亨奇(北京)科技有限公司 | 基于图片检索视频的方法、系统、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5710833A (en) * | 1995-04-20 | 1998-01-20 | Massachusetts Institute Of Technology | Detection, recognition and coding of complex objects using probabilistic eigenspace analysis |
WO2005008519A1 (en) * | 2003-07-21 | 2005-01-27 | Zhi Jie Zheng | Combined search method for content-based image retrieval |
CN105808732A (zh) * | 2016-03-10 | 2016-07-27 | 北京大学 | 一种基于深度度量学习的一体化目标属性识别与精确检索方法 |
CN106951551A (zh) * | 2017-03-28 | 2017-07-14 | 西安理工大学 | 联合gist特征的多重索引图像检索方法 |
US20170330054A1 (en) * | 2016-05-10 | 2017-11-16 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method And Apparatus Of Establishing Image Search Relevance Prediction Model, And Image Search Method And Apparatus |
CN109918532A (zh) * | 2019-03-08 | 2019-06-21 | 苏州大学 | 图像检索方法、装置、设备及计算机可读存储介质 |
CN112528059A (zh) * | 2021-02-08 | 2021-03-19 | 南京理工大学 | 基于深度学习的交通目标图像检索方法、装置及可读介质 |
CN112989098A (zh) * | 2021-05-08 | 2021-06-18 | 北京智源人工智能研究院 | 一种图像类侵权实体自动化检索方法、装置和电子设备 |
CN113127661A (zh) * | 2021-04-06 | 2021-07-16 | 中国科学院计算技术研究所 | 基于循环查询扩展的多监督医学图像检索方法和系统 |
-
2021
- 2021-07-23 CN CN202110836935.3A patent/CN113918753B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5710833A (en) * | 1995-04-20 | 1998-01-20 | Massachusetts Institute Of Technology | Detection, recognition and coding of complex objects using probabilistic eigenspace analysis |
WO2005008519A1 (en) * | 2003-07-21 | 2005-01-27 | Zhi Jie Zheng | Combined search method for content-based image retrieval |
CN105808732A (zh) * | 2016-03-10 | 2016-07-27 | 北京大学 | 一种基于深度度量学习的一体化目标属性识别与精确检索方法 |
US20170330054A1 (en) * | 2016-05-10 | 2017-11-16 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method And Apparatus Of Establishing Image Search Relevance Prediction Model, And Image Search Method And Apparatus |
CN106951551A (zh) * | 2017-03-28 | 2017-07-14 | 西安理工大学 | 联合gist特征的多重索引图像检索方法 |
CN109918532A (zh) * | 2019-03-08 | 2019-06-21 | 苏州大学 | 图像检索方法、装置、设备及计算机可读存储介质 |
CN112528059A (zh) * | 2021-02-08 | 2021-03-19 | 南京理工大学 | 基于深度学习的交通目标图像检索方法、装置及可读介质 |
CN113127661A (zh) * | 2021-04-06 | 2021-07-16 | 中国科学院计算技术研究所 | 基于循环查询扩展的多监督医学图像检索方法和系统 |
CN112989098A (zh) * | 2021-05-08 | 2021-06-18 | 北京智源人工智能研究院 | 一种图像类侵权实体自动化检索方法、装置和电子设备 |
Non-Patent Citations (1)
Title |
---|
金汉均等: ""基于注意力机制的深度哈希图像检索方法"", 《电子测量技术》, 28 February 2021 (2021-02-28), pages 144 - 148 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114443876A (zh) * | 2022-01-14 | 2022-05-06 | 广州市玄武无线科技股份有限公司 | 一种快销行业中商品指纹快速匹配方法及系统 |
CN114117089A (zh) * | 2022-01-25 | 2022-03-01 | 广州拟实网络科技有限公司 | 一种基于图像数据处理分析的信息智能推送管理系统 |
CN114741544A (zh) * | 2022-04-29 | 2022-07-12 | 北京百度网讯科技有限公司 | 图像检索方法、检索库构建方法、装置、电子设备及介质 |
CN114741544B (zh) * | 2022-04-29 | 2023-02-07 | 北京百度网讯科技有限公司 | 图像检索方法、检索库构建方法、装置、电子设备及介质 |
CN114676279A (zh) * | 2022-05-25 | 2022-06-28 | 腾讯科技(深圳)有限公司 | 图像检索方法、装置、设备及计算机可读存储介质 |
CN115905608A (zh) * | 2022-11-15 | 2023-04-04 | 腾讯科技(深圳)有限公司 | 图像特征获取方法、装置、计算机设备、存储介质 |
CN116468960A (zh) * | 2023-06-19 | 2023-07-21 | 南京朵盛信息技术有限公司 | 一种视频图像分析检索方法及系统 |
CN116468960B (zh) * | 2023-06-19 | 2023-08-25 | 南京朵盛信息技术有限公司 | 一种视频图像分析检索方法及系统 |
CN117540047A (zh) * | 2023-11-24 | 2024-02-09 | 中科世通亨奇(北京)科技有限公司 | 基于图片检索视频的方法、系统、设备及存储介质 |
CN117312325A (zh) * | 2023-11-28 | 2023-12-29 | 中国科学技术大学 | 基于知识蒸馏的量化索引构建方法、装置及设备 |
CN117312325B (zh) * | 2023-11-28 | 2024-03-29 | 中国科学技术大学 | 基于知识蒸馏的量化索引构建方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113918753B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113918753B (zh) | 基于人工智能的图像检索方法及相关设备 | |
US9053386B2 (en) | Method and apparatus of identifying similar images | |
Zheng et al. | $\mathcal {L} _p $-Norm IDF for Scalable Image Retrieval | |
WO2013129580A1 (ja) | 近似最近傍探索装置、近似最近傍探索方法およびそのプログラム | |
CN113298197B (zh) | 数据聚类方法、装置、设备及可读存储介质 | |
CN112417381B (zh) | 应用于图像版权保护的快速定位侵权图像的方法及装置 | |
Zhou et al. | Multiple distance-based coding: toward scalable feature matching for large-scale web image search | |
CN114358188A (zh) | 特征提取模型处理、样本检索方法、装置和计算机设备 | |
CN110825894A (zh) | 数据索引建立、数据检索方法、装置、设备和存储介质 | |
CN114238329A (zh) | 向量相似度计算方法、装置、设备及存储介质 | |
CN113010705A (zh) | 标签预测方法、装置、设备及存储介质 | |
CN110442749B (zh) | 视频帧处理方法及装置 | |
CN115129949A (zh) | 向量范围检索的方法、装置、设备、介质及程序产品 | |
CN113536020A (zh) | 数据查询的方法、存储介质和计算机程序产品 | |
CN111324760A (zh) | 一种图像检索方法及装置 | |
JP5833499B2 (ja) | 高次元の特徴ベクトル集合で表現されるコンテンツを高精度で検索する検索装置及びプログラム | |
CN112101267B (zh) | 一种基于深度学习和哈希编码的快速人脸检索方法 | |
Xu et al. | Multi-feature indexing for image retrieval based on hypergraph | |
Weng et al. | Random VLAD based deep hashing for efficient image retrieval | |
Hinami et al. | Large-scale r-cnn with classifier adaptive quantization | |
Yuan et al. | A novel index structure for large scale image descriptor search | |
Arulmozhi et al. | Generation of Visual Patterns from BoVW for Image Retrieval using modified Similarity Score Fusion. | |
CN114595350B (zh) | 一种百亿级图像快速搜索的方法 | |
Mathan Kumar et al. | An approach for image search and retrieval by cluster-based indexing of binary MKSIFT codes | |
CN113495969B (zh) | 数字指纹生成、媒体数据推荐方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40065617 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |