CN112052350B - 一种图片检索方法、装置、设备和计算机可读存储介质 - Google Patents
一种图片检索方法、装置、设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN112052350B CN112052350B CN202010861160.0A CN202010861160A CN112052350B CN 112052350 B CN112052350 B CN 112052350B CN 202010861160 A CN202010861160 A CN 202010861160A CN 112052350 B CN112052350 B CN 112052350B
- Authority
- CN
- China
- Prior art keywords
- picture
- vector
- trained
- pictures
- target detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000013598 vector Substances 0.000 claims abstract description 280
- 238000001514 detection method Methods 0.000 claims abstract description 155
- 238000012549 training Methods 0.000 claims description 76
- 238000007781 pre-processing Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 16
- 238000013145 classification model Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 230000014509 gene expression Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 8
- 241000282326 Felis catus Species 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000036039 immunity Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及计算机视觉领域,提供了一种图片检索方法、装置、设备和计算机可读存储介质。所述方法包括:采用已训练目标检测模型对输入的待检索图片进行检测;采用已训练向量生成模型对已训练目标检测模型输出的检测结果生成一个多维向量作为待检索图片的向量;以待检索图片的向量表示作为查询向量,从向量库中查询与查询向量相似的n个相似向量;去除n个相似向量中与查询向量的相似度低于预设阈值的m个相似向量;展示与(n‑m)个向量对应的图片作为与待检索图片相似的目标图片。本申请提供的技术方案抗噪能力比较强,够精准地检索到与待检索图片相似的图片。
Description
技术领域
本申请涉及计算机视觉领域,特别涉及一种图片检索方法、装置、设备和计算机可读存储介质。
背景技术
随着计算机视觉技术的发展,图片检索的应用越来越广泛。以图片检索图片是图片检索方法中比较常见的一种,具体是给定一幅包含特定实例(例如人物、建筑等)的查询图片,通过某种算法,从数据库中找到与该查询图片相似的其他图片。由于不同图片的拍摄视角、光照、遮挡情况等不同,从大量图片中精确检索出目标图片是一项有挑战性的任务。
现有的一种图片检索方法包括哈希相似度算法,具体流程是将数据库中的全部图片提前转换成哈希编码,当用户查询一张特定图片时,则将查询图片转换成哈希编码,然后再将该编码去匹配数据库中相似度高的哈希编码,并返回对应的图片。
然而,上述图片检索方法通常要将图片缩小到比较小的尺寸来进行编码,这就不可避免地要损失图片的大量信息,导致相似度计算的精度有限;另一方面,若一张图片相对于另一张图片,只是进行了旋转、轻微拉伸等操作后,但计算出来的相似度也比较低,因此,抗噪能力不强。
发明内容
本申请实施例提供了一种图片检索方法、装置、设备和计算机可读存储介质,以解决现有图片检索方法的检索精度低、抗噪能力不强的问题。该技术方案如下:
一方面,提供了一种图片检索方法,该方法包括:
采用已训练目标检测模型对输入的待检索图片进行检测,所述已训练目标检测模型为数据集中的训练用图片经预处理后对目标检测模型进行训练后得到;
采用已训练向量生成模型对所述已训练目标检测模型输出的检测结果生成一个多维向量作为所述待检索图片的向量;
以所述待检索图片的向量表示作为查询向量,从向量库中查询与所述查询向量相似的n个相似向量,所述n为不小于1的自然数;
去除所述n个相似向量中与所述查询向量的相似度低于预设阈值的m个相似向量,所述m为小于所述n的自然数;
展示与所述(n-m)个向量对应的图片作为与所述待检索图片相似的目标图片。
一方面,提供了一种图片检索装置,该装置包括:
目标检测模块,用于采用已训练目标检测模型对输入的待检索图片进行检测,所述已训练目标检测模型为数据集中的训练用图片经预处理后对目标检测模型进行训练后得到;
向量生成模块,用于采用已训练向量生成模型对所述已训练目标检测模型输出的检测结果生成一个多维向量作为所述待检索图片的向量;
向量召回模块,用于以所述待检索图片的向量表示作为查询向量,从向量库中查询与所述查询向量相似的n个相似向量,所述n为不小于1的自然数;
向量排除模块,用于去除所述n个相似向量中与所述查询向量的相似度低于预设阈值的m个相似向量,所述m为小于所述n的自然数;
图片展示模块,用于展示与所述(n-m)个向量对应的图片作为与所述待检索图片相似的目标图片。
一方面,提供了一种计算机设备,该计算设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,该计算机程序代码由该一个或多个处理器加载并执行以实现该图片检索方法所执行的操作。
一方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序由处理器加载并执行以实现该图片检索方法所执行的操作。
从上述本申请提供的技术方案可知,一方面,由于已训练目标检测模型为数据集中的训练用图片经预处理后对目标检测模型进行训练后得到,因此,在采用已训练目标检测模型进行检测,不会因为两张图片的轻微不同而误将两张相似图片判为不相似图片,本申请的图片检索方法抗噪能力比较强;另一方面,本申请的技术方案并没有对待检索图片进行尺寸缩小的编码,在采用已训练向量生成模型对已训练目标检测模型输出的检测结果生成一个多维向量作为待检索图片的向量时,可以将待检索图片中的目标与背景区别开来,只生成目标的向量,因而能够精准地检索到与待检索图片相似的图片。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的图片检索方法的流程图;
图2是本申请实施例提供的包含6个卷积层的CNN的各个卷积层大小不同的示意图;
图3是本申请实施例提供的从待检索图片中检索出2个目标即目标1和目标2的示意图;
图4是本申请实施例提供的从待检索图片中检索出猫和狗这两个目标的示意图;
图5是本申请实施例提供的一种图片检索装置的结构示意图;
图6a是本申请实施例提供的本申请技术方案应用于微信搜索相似表情这一功能的入口示意图;
图6b是本申请实施例提供的本申请技术方案应用于微信搜索相似表情时返回搜索结果的示意图;
图7是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例基于计算机设备作为执行主体来进行介绍。此处的计算机设备可以是服务器,也可以是终端,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,而终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。上述终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
现有的图片检索方法是将数据库中的全部图片提前转换成哈希编码,当用户查询一张特定图片时,则将查询图片转换成哈希编码,然后再将该编码去匹配数据库中相似度高的哈希编码,并返回对应的图片。然而,上述图片检索方法通常要将图片缩小到比较小的尺寸来进行编码,这就不可避免地要损失图片的大量信息,导致相似度计算的精度有限;另一方面,若一张图片相对于另一张图片,只是进行了旋转、轻微拉伸等操作后,但计算出来的相似度也比较低,因此,抗噪能力不强。为了解决上述问题,本申请提供一种图片检索方法。该方法是基于计算机视觉技术(Computer Vision,CV)和机器学习(Machine Learning,ML),其中,计算机视觉是一门研究如何使机器“看”的科学,更进一步地说,是指用摄影机和电脑代替人眼对目标进行识别、捕捉和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像,计算机视觉技术试图建立能够从图像或者多维数据中获取信息的人工智能系统,通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术;而机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
参见图1,是本申请实施例提供的一种图片检索方法,该方法主要包括以下步骤S101至S105,详细说明如下:
步骤S101:采用已训练目标检测模型对输入的待检索图片进行检测,其中,已训练目标检测模型为数据集中的训练用图片经预处理后对目标检测模型进行训练后得到。
目标检测是计算机视觉中的一个重要研究方向,可应用于智能视频检测、机器人导航、工业检测等诸多领域,可减少人力成本的消耗,具有重要的现实价值。目标检测是指从图片中找出所有感兴趣的目标物体,确定其位置和大小,根据所检测出的目标,可以进行物体分类、人脸识别等任务。在本申请实施例中,已训练目标检测模型为数据集中的训练用图片经预处理后对目标检测模型进行训练后得到,即,在采用已训练目标检测模型对输入的待检索图片进行检测之前,可以对目标检测模型进行训练,得到已训练目标检测模型,具体而言,对目标检测模型进行训练,得到已训练目标检测模型可通过如下步骤S1011和步骤S1012实现:
步骤S1011:将数据集中的训练用图片进行预处理,得到预处理训练用图片,其中,预处理包括对训练用图片进行水平翻转、随机旋转、随机裁切和变换颜色中的任意一种或多种组合。
由于VOC2007和VOC2012公开的数据集是目标检测大赛公开的数据集,也是目标检测领域的常用数据集,而在一定程度上,数据集越大,可以覆盖更多的数据规律,模型训练效果越好,提高模型泛化性,因此,在本申请实施例中,可以将VOC2007和VOC2012公开的数据集作为训练用图片。进一步地,为了防止现有的图片检索方法在一张图片相对于另一张图片只是进行了旋转、轻微拉伸等操作后,计算出来的相似度却较低,而误将两张相似图片判为不相似图片,在本申请实施例中,在对目标检测模型进行训练之前,可以对训练用图片进行水平翻转、随机旋转、随机裁切和变换颜色中的一种或多种操作的预处理,这些操作既可以增加数据量,又可以增加数据多样性,从而增强目标检测的抗噪能力。
步骤S1012:将经步骤S1011得到的预处理训练用图片输入目标检测模型进行训练,直至损失函数收敛至预设阈值后停止训练,得到已训练目标检测模型。
在本申请实施例中,目标检测模型是一个包括多个卷积层和一个全连接层的卷积神经网络(Convolutional Neural Network,CNN),其中,卷积层的作用是捕捉图片特征,全连接层的作用是判断卷积层检测的区域是否存在目标,并确定对应的坐标。需要说明的是,在本申请实施例中,目标检测模型中的多个卷积层,其每个卷积层的大小不同,并且越接近待检索图片的卷积层越大,如附图2所示,是CNN中包含6个卷积层时,各个卷积层大小不同的示意图。之所以将卷积层设计为大小不同,是因为越靠近输入图片的卷积层,越能检测小目标,而越远离输入图片的卷积层越能检测大目标,因此,这种设计能够检测不同大小的目标。
在对目标检测模型训练前,可以设定一个损失函数,将预处理训练用图片输入目标检测模型进行迭代训练,直至损失函数收敛至预设阈值后停止训练,此时得到的目标检测模型就是已训练目标检测模型。
步骤S102:采用已训练向量生成模型对已训练目标检测模型输出的检测结果生成一个多维向量作为待检索图片的向量。
与前述目标检测模型类似,在本申请实施例中,采用已训练向量生成模型对已训练目标检测模型输出的检测结果生成一个多维向量作为待检索图片的向量之前,还包括对深度分类模型进行训练,得到已训练向量生成模型,具体方式是将公共资源公开的图片作为训练集输入深度分类模型,对深度分类模型进行训练以得到预训练向量生成模型,调整预训练向量生成模型的参数,得到已训练向量生成模型,其中,此处的公共资源可以是公开的ImageNet图片分类数据集,该数据集非常大,有助于深度分类模型学习到大量的图片特征,而深度分类模型可以是ResNet模型,也可以是EfficentNet、VGGNet等模型,其中,ResNet模型具有很高的分类精度,可以作为优先选择的深度分类模型。
作为本申请一个实施例,采用已训练向量生成模型对已训练目标检测模型输出的检测结果生成一个多维向量作为待检索图片的向量可以是:若已训练目标检测模型输出的检测结果为没有检测出待检索图片包含目标,则采用已训练向量生成模型对待检索图片直接生成待检索图片的向量,若已训练目标检测模型输出的检测结果为检测出待检索图片包含k个目标,则对待检索图片包含的k个目标进行裁剪和加权处理后再生成待检索图片的向量,其中,k为不小于2的自然数。不是每张待检索图片都包含人物、动物、花草树木等目标,当已训练目标检测模型输出的检测结果为没有检测出待检索图片包含目标时,则采用已训练向量生成模型对待检索图片直接生成待检索图片的向量,然而,当已训练目标检测模型输出的检测结果为检测出待检索图片包含多个目标时,则需要对待检索图片中的多个目标进行裁剪和加权处理后再生成待检索图片的向量。在本申请一个实施例中,对待检索图片包含的k个目标进行裁剪和加权处理后再生成待检索图片的向量可通过如下步骤S1021至步骤S1024实现:
步骤S1021:从待检索图片中裁剪出k张裁剪图片,其中,k张裁剪图片中每张裁剪图片包含一个目标。
如附图3所示,假设待检索图片中检索出2个目标即目标1和目标2,则从待检索图片中将目标1和目标2裁剪出来,得到两张裁剪图片即裁剪图片1和裁剪图片2。需要说明的是,从待检索图片中裁剪出包含目标的裁剪图片时,该裁剪图片应该是能够包围该目标的面积最小的图片。
步骤S1022:计算k张裁剪图片中每张裁剪图片占待检索图片的比例,将该比例作为k张裁剪图片中每张裁剪图片所包含的目标的权值。
例如,附图3中,裁剪图片1的面积占原待检索图片的面积的比例为p1,裁剪图片2的面积占原待检索图片的面积的比例为p2,则将比例p1作为裁剪图片1中目标1的权值w1,将比例p2作为裁剪图片2中目标2的权值w2。
步骤S1023:采用已训练向量生成模型对k张裁剪图片中每张裁剪图片分别生成对应的一个向量vi,其中,向量vi的维数与经步骤S102生成的多维向量的维数相同。
在计算出裁剪图片中目标的权值后,采用已训练向量生成模型对k张裁剪图片中每张裁剪图片分别生成对应的一个向量vi,此处,的下标i取{1,2,…,k}。需要说明的是,此处向量vi的维数与经步骤S102生成的多维向量的维数相同,例如,都为128维向量。
步骤S1024:将向量vi分别乘以裁剪图片中对应目标的权值后求和,将该和作为待检索图片的向量。
例如,假设经步骤S1023计算出的裁剪图片1的向量为v1,裁剪图片2的向量为v2,则待检索图片的向量=v1*w1+v2*w2。
如附图4所示,是从待检索图片中检索出一只猫和一只狗这两个目标,分别从中裁剪出包含猫和狗的裁剪图片,并计算出包含狗的裁剪图片占待检索图片的面积比例即狗的权值α和包含猫的裁剪图片占待检索图片的面积比例即猫的权值β后,将包含狗的裁剪图片输入已训练向量生成模型,得到一个128维的向量v1,将包含猫的裁剪图片输入已训练向量生成模型,得到一个128维的向量x2,计算v1*α+v2*β,v1*α+v2*β就是同时包含猫和狗的待检索图片的向量。
步骤S103:以待检索图片的向量表示作为查询向量,从向量库中查询与查询向量相似的n个相似向量,其中,n为不小于1的自然数。
本申请实施例中的向量库可以事先生成,即在本申请实施例提供的图片检索方法中还包括:在离线状态下,采用步骤S101中提及的已训练目标检测模型已训练目标检测模型和步骤S102中提及的已训练向量生成模型生成向量库,具体方法是:将图片库中的任意一张图片Pi输入已训练目标检测模型,采用已训练目标检测模型对输入的图片Pi进行目标检测,再将已训练目标检测模型输出的检测结果输入已训练向量生成模型,已训练向量生成模型根据图片Pi的检测结果,生成一个多维向量作为该张图片Pi的向量,存入向量库中;当图片库中的每张图片经过上述处理存入向量库后形成保存有每张图片的向量的向量库。
上述采用已训练目标检测模型对输入的图片Pi进行目标检测包括:若已训练目标检测模型输出的检测结果为没有检测出图片Pi包含目标,则采用已训练向量生成模型对图片Pi直接生成图片Pi的向量;若已训练目标检测模型输出的检测结果为检测出图片Pi包含目标,则对图片Pi中的目标进行裁剪和加权处理后再生成图片Pi的向量。具体地,对图片Pi中的目标进行裁剪和加权处理后再生成图片Pi的向量可以是:从图片Pi中分别裁剪出包含目标的至少一张裁剪图片;计算每一张裁剪图片占图片Pi的比例,将该比例作为该张裁剪图片中目标的权值;采用已训练向量生成模型对至少一张裁剪图片分别生成对应的至少一个向量;将至少一个向量分别乘以裁剪图片中目标的权值后求和,将和作为图片Pi的向量,其中,至少一个向量中的每个向量的维数与步骤S102中提及的多维向量的维数相同,例如,都为128维的向量。
在本申请实施例中,从向量库中查询与查询向量相似的n个相似向量可以是按照余弦相似度算法,计算向量库中前n个与查询向量相似的向量。
步骤S104:去除经步骤S103查询到的n个相似向量中与查询向量的相似度低于预设阈值的m个相似向量,其中,m为小于n的自然数。
在本申请实施例中,可以设定一个预设阈值,将n个相似向量中与查询向量的相似度低于预设阈值的m个相似向量从n个相似向量中去除,只保留(n-m)个与查询向量的相似度高于预设阈值的向量。
步骤S105:展示与(n-m)个向量对应的图片作为与待检索图片相似的目标图片。
附图6a和附图6b是本申请的技术方案在微信的应用示意图。本方案主要应用于微信搜一搜中的表情搜索。如图6a所示,图中左半部分的“搜一搜”这个按钮提供了微信表情搜索这一功能的入口,图中左半部分为点击该入口进入后的主界面,点击主界面上的“表情”即可进入表情搜索界面。如图6b所示,进入表情搜索界面后,首先点击“以表情搜表情”的按钮,在底部会弹出表情面板,然后在表情面板中选择待搜索表情。选择后,表情面板收起。系统在后台采用已训练目标检测模型对输入的待搜索表情这一待检索图片进行检测,采用已训练向量生成模型对已训练目标检测模型输出的检测结果生成一个多维向量作为待搜索表情的向量,以待搜索表情的向量表示作为查询向量,从向量库中查询与查询向量相似的n个相似向量,去除n个相似向量中与查询向量的相似度低于预设阈值的m个相似向量,最后,在主界面中展示系统返回的相似表情;表情的相似性主要体现在图片目标的相似性。假如图片中只有一个目标,则系统返回与该目标相似的一系列表情,假如图片中有两个或多个目标,则系统尽可能返回跟这些目标相似的一系列表情,假如图片中没有感兴趣的目标(例如风景或建筑等),则系统返回整体相似的表情。
从上述附图1示例的技术方案可知,一方面,由于已训练目标检测模型为数据集中的训练用图片经预处理后对目标检测模型进行训练后得到,因此,在采用已训练目标检测模型进行检测,不会因为两张图片的轻微不同而误将两张相似图片判为不相似图片,本申请的图片检索方法抗噪能力比较强;另一方面,本申请的技术方案并没有对待检索图片进行尺寸缩小的编码,在采用已训练向量生成模型对已训练目标检测模型输出的检测结果生成一个多维向量作为待检索图片的向量时,可以将待检索图片中的目标与背景区别开来,只生成目标的向量,因而能够精准地检索到与待检索图片相似的图片。
请参阅附图5,是本申请实施例提供的一种图片检索装置的结构示意图,该装置可以集成在终端等计算机设备中,该装置包括目标检测模块501、向量生成模块502、向量召回模块503、向量排除模块504和图片展示模块505,其中:
目标检测模块501,用于采用已训练目标检测模型对输入的待检索图片进行检测,其中,已训练目标检测模型为数据集中的训练用图片经预处理后对目标检测模型进行训练后得到;
向量生成模块502,用于采用已训练向量生成模型对已训练目标检测模型输出的检测结果生成一个多维向量作为待检索图片的向量;
向量召回模块503,用于以待检索图片的向量表示作为查询向量,从向量库中查询与查询向量相似的n个相似向量,其中,n为不小于1的自然数;
向量排除模块505,用于去除n个相似向量中与查询向量的相似度低于预设阈值的m个相似向量,其中,m为小于n的自然数;
图片展示模块505,用于展示与(n-m)个向量对应的图片作为与待检索图片相似的目标图片。
在一种可能实现方式中,向量生成模块502还包括第一生成单元和第二生成单元,其中:
第一生成单元,用于若已训练目标检测模型输出的检测结果为没有检测出待检索图片包含目标,则采用已训练向量生成模型对待检索图片直接生成待检索图片的向量;
第二生成单元,用于若已训练目标检测模型输出的检测结果为检测出待检索图片包含k个目标,则对k个目标进行裁剪和加权处理后再生成待检索图片的向量,其中,k为不小于2的自然数。
在一种可能实现方式中,上述第二生成单元可以包括裁剪单元、比例计算单元、单独向量生成单元和加权单元,其中:
裁剪单元,用于从待检索图片中裁剪出k张裁剪图片,其中,k张裁剪图片中每张裁剪图片包含一个目标;
比例计算单元,用于计算k张裁剪图片中每张裁剪图片占待检索图片的比例,将比例作为k张裁剪图片中每张裁剪图片所包含的目标的权值;
单独向量生成单元,用于采用已训练向量生成模型对k张裁剪图片中每张裁剪图片分别生成对应的一个向量vi,其中,向量vi的维数与多维向量的维数相同;
加权单元,用于将向量vi分别乘以裁剪图片中目标的权值后求和,将求得的和作为待检索图片的向量。
在一种可能实现方式中,附图5示例的装置还可以包括检测模型训练模块,用于对目标检测模型进行训练,得到已训练目标检测模型。
在一种可能实现方式中,上述实施例的检测模型训练模块还包括预处理单元和训练单元,其中:
预处理单元,用于将数据集中的训练用图片进行预处理,得到预处理训练用图片,其中,预处理包括对训练用图片进行水平翻转、随机旋转、随机裁切和变换颜色中的任意一种或多种组合;
训练单元,用于将预处理训练用图片输入目标检测模型进行训练,直至损失函数收敛至预设阈值后停止训练,得到已训练目标检测模型。
在一种可能实现方式中,附图5示例的装置还可以包括分类模型训练模块,用于对深度分类模型进行训练,得到已训练向量生成模型。
在一种可能实现方式中,上述分类模型训练模块包括,其中:
预训练单元,用于将公共资源公开的图片作为训练集输入深度分类模型,对深度分类模型进行训练以得到预训练向量生成模型;
参数调整单元,用于调整预训练向量生成模型的参数,得到已训练向量生成模型。
在一种可能实现方式中,附图5示例的装置还可以包括向量库生成模块,用于在离线状态下,采用已训练目标检测模型和已训练向量生成模型生成向量库。
需要说明的是,上述实施例提供的图片检索装置在图片检索时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图片检索装置与图片检索方法实施例属于同一构思,其具体实现过程以及技术效果详见方法实施例,此处不再赘述。
本申请实施例还提供一种计算机设备,该计算机设备可以为终端或者服务器等设备,如图7所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器701、一个或一个以上计算机可读存储介质的存储器702、电源703和输入单元704等部件。本领域技术人员可以理解,图7中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器701是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器702内的软件程序和/或模块,以及调用存储在存储器702内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体检测。可选的,处理器701可包括一个或多个处理核心;优选的,处理器701可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器701中。
存储器702可用于存储软件程序以及模块,处理器701通过运行存储在存储器702的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器702还可以包括存储器控制器,以提供处理器701对存储器702的访问。
计算机设备还包括给各个部件供电的电源703,可选地,电源703可以通过电源管理系统与处理器701逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源703还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元704,该输入单元704可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器701会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中,并由处理器701来运行存储在存储器702中的应用程序,从而实现各种功能,如下:采用已训练目标检测模型对输入的待检索图片进行检测,其中,已训练目标检测模型为数据集中的训练用图片经预处理后对目标检测模型进行训练后得到;采用已训练向量生成模型对已训练目标检测模型输出的检测结果生成一个多维向量作为待检索图片的向量;以待检索图片的向量表示作为查询向量,从向量库中查询与查询向量相似的n个相似向量,其中,n为不小于1的自然数;去除经步骤S103查询到的n个相似向量中与查询向量的相似度低于预设阈值的m个相似向量,其中,m为小于n的自然数;展示与(n-m)个向量对应的图片作为与待检索图片相似的目标图片。
以上个操作的具体实施例可参见前面的实施例,在此不再赘述。
由以上可知,一方面,由于已训练目标检测模型为数据集中的训练用图片经预处理后对目标检测模型进行训练后得到,因此,在采用已训练目标检测模型进行检测,不会因为两张图片的轻微不同而误将两张相似图片判为不相似图片,本申请的图片检索方法抗噪能力比较强;另一方面,本申请的技术方案并没有对待检索图片进行尺寸缩小的编码,在采用已训练向量生成模型对已训练目标检测模型输出的检测结果生成一个多维向量作为待检索图片的向量时,可以将待检索图片中的目标与背景区别开来,只生成目标的向量,因而能够精准地检索到与待检索图片相似的图片。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种图片检索方法中的步骤。例如,该指令可以执行如下步骤:采用已训练目标检测模型对输入的待检索图片进行检测,其中,已训练目标检测模型为数据集中的训练用图片经预处理后对目标检测模型进行训练后得到;采用已训练向量生成模型对已训练目标检测模型输出的检测结果生成一个多维向量作为待检索图片的向量;以待检索图片的向量表示作为查询向量,从向量库中查询与查询向量相似的n个相似向量,其中,n为不小于1的自然数;去除经步骤S103查询到的n个相似向量中与查询向量的相似度低于预设阈值的m个相似向量,其中,m为小于n的自然数;展示与(n-m)个向量对应的图片作为与待检索图片相似的目标图片。
以上各个操作的具体实施方式可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种图片检索方法中的步骤,因此,可以实现本申请实施例所提供的任一种图片检索方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
本申请实施例还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述本申请实施例中提供的方法,主要包括:采用已训练目标检测模型对输入的待检索图片进行检测,其中,已训练目标检测模型为数据集中的训练用图片经预处理后对目标检测模型进行训练后得到;采用已训练向量生成模型对已训练目标检测模型输出的检测结果生成一个多维向量作为待检索图片的向量;以待检索图片的向量表示作为查询向量,从向量库中查询与查询向量相似的n个相似向量,其中,n为不小于1的自然数;去除经步骤S103查询到的n个相似向量中与查询向量的相似度低于预设阈值的m个相似向量,其中,m为小于n的自然数;展示与(n-m)个向量对应的图片作为与待检索图片相似的目标图片。
以上对本申请实施例所提供的一种图片检索方法、设备和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
Claims (8)
1.一种图片检索方法,其特征在于,所述方法包括:
采用已训练目标检测模型对输入的待检索图片进行检测,所述已训练目标检测模型为数据集中的训练用图片经预处理后对目标检测模型进行训练后得到;其中,所述目标为所述待检索图片中的目标物体;
采用已训练向量生成模型对所述已训练目标检测模型输出的检测结果生成一个多维向量作为所述待检索图片的向量,其中,包括:
若所述已训练目标检测模型输出的检测结果为没有检测出所述待检索图片包含目标,则采用所述已训练向量生成模型对所述待检索图片直接生成所述待检索图片的向量;
若所述已训练目标检测模型输出的检测结果为检测出所述待检索图片包含k个目标,则对所述k个目标进行裁剪和加权处理后再生成所述待检索图片的向量,所述k为不小于2的自然数;所述k个目标中每个目标对应的权重是根据所述目标占所述待检索图片的面积比例确定的;
在离线状态下,针对图片库中的每一张图片,采用所述已训练目标检测模型对所述图片进行目标检测;
若所述已训练目标检测模型输出的检测结果为没有检测出所述图片包含目标,则采用所述已训练向量生成模型对所述图片生成所述图片的第一向量,并将所述图片的第一向量存入向量库;所述第一向量指示所述图片的整体特征;
若所述已训练目标检测模型输出的检测结果为检测出所述图片包含目标,则对所述图片中的目标进行裁剪和加权处理后再生成所述图片的第二向量,并将所述图片的第二向量存入向量库;所述第二向量指示所述图片的局部特征;
以所述待检索图片的向量表示作为查询向量,从向量库中查询与所述查询向量相似的n个相似向量,所述n为不小于1的自然数;
去除所述n个相似向量中与所述查询向量的相似度低于预设阈值的m个相似向量,所述m为小于所述n的自然数;
展示与所述(n-m)个向量对应的图片作为与所述待检索图片相似的目标图片。
2.如权利要求1所述图片检索方法,其特征在于,所述对所述k个目标进行裁剪和加权处理后再生成所述待检索图片的向量,包括:
从所述待检索图片中裁剪出k张裁剪图片,所述k张裁剪图片中每张裁剪图片包含一个所述目标;
计算所述k张裁剪图片中每张裁剪图片占所述待检索图片的比例,将所述比例作为所述k张裁剪图片中每张裁剪图片所包含的目标的权值;
采用所述已训练向量生成模型对所述k张裁剪图片中每张裁剪图片分别生成对应的一个向量vi,所述向量vi的维数与所述多维向量的维数相同;
将所述向量vi分别乘以所述裁剪图片中目标的权值后求和,将所述和作为所述待检索图片的向量。
3.如权利要求1所述图片检索方法,其特征在于,所述方法还包括:
将所述数据集中的训练用图片进行预处理,得到预处理训练用图片,所述预处理包括对所述训练用图片进行水平翻转、随机旋转、随机裁切和变换颜色中的任意一种或多种组合;
将所述预处理训练用图片输入所述目标检测模型进行训练,直至损失函数收敛至预设阈值后停止训练,得到所述已训练目标检测模型。
4.如权利要求1所述图片检索方法,其特征在于,所述方法还包括:
对深度分类模型进行训练,得到所述已训练向量生成模型。
5.如权利要求4所述图片检索方法,其特征在于,所述对深度分类模型进行训练,得到所述已训练向量生成模型,包括:
将公共资源公开的图片作为训练集输入所述深度分类模型,对所述深度分类模型进行训练以得到预训练向量生成模型;
调整所述预训练向量生成模型的参数,得到所述已训练向量生成模型。
6.一种图片检索装置,其特征在于,所述装置包括:
目标检测模块,用于采用已训练目标检测模型对输入的待检索图片进行检测,所述已训练目标检测模型为数据集中的训练用图片经预处理后对目标检测模型进行训练后得到;其中,所述目标为所述待检索图片中的目标物体;向量生成模块,用于若所述已训练目标检测模型输出的检测结果为没有检测出所述待检索图片包含目标,则采用已训练向量生成模型对所述待检索图片直接生成所述待检索图片的向量;若所述已训练目标检测模型输出的检测结果为检测出所述待检索图片包含k个目标,则对所述k个目标进行裁剪和加权处理后再生成所述待检索图片的向量,所述k为不小于2的自然数;所述k个目标中每个目标对应的权重是根据所述目标占所述待检索图片的面积比例确定的;
向量库生成模块,用于在离线状态下,针对图片库中的每一张图片,采用所述已训练目标检测模型对所述图片进行目标检测;若所述已训练目标检测模型输出的检测结果为没有检测出所述图片包含目标,则采用所述已训练向量生成模型对所述图片生成所述图片的第一向量,并将所述图片的第一向量存入向量库,所述第一向量指示所述图片的整体特征;若所述已训练目标检测模型输出的检测结果为检测出所述图片包含目标,则对所述图片中的目标进行裁剪和加权处理后再生成所述图片的第二向量,并将所述图片的第二向量存入向量库,所述第二向量指示所述图片的局部特征;
向量召回模块,用于以所述待检索图片的向量表示作为查询向量,从向量库中查询与所述查询向量相似的n个相似向量,所述n为不小于1的自然数;
向量排除模块,用于去除所述n个相似向量中与所述查询向量的相似度低于预设阈值的m个相似向量,所述m为小于所述n的自然数;
图片展示模块,用于展示与所述(n-m)个向量对应的图片作为与所述待检索图片相似的目标图片。
7.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任意一项所述方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010861160.0A CN112052350B (zh) | 2020-08-25 | 2020-08-25 | 一种图片检索方法、装置、设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010861160.0A CN112052350B (zh) | 2020-08-25 | 2020-08-25 | 一种图片检索方法、装置、设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112052350A CN112052350A (zh) | 2020-12-08 |
CN112052350B true CN112052350B (zh) | 2024-03-01 |
Family
ID=73599812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010861160.0A Active CN112052350B (zh) | 2020-08-25 | 2020-08-25 | 一种图片检索方法、装置、设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052350B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688264B (zh) * | 2021-09-07 | 2024-06-07 | 深兰机器人(上海)有限公司 | 生物体重识别方法、装置、电子设备及存储介质 |
CN114691828B (zh) * | 2022-03-23 | 2024-09-20 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备以及介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5497430A (en) * | 1994-11-07 | 1996-03-05 | Physical Optics Corporation | Method and apparatus for image recognition using invariant feature signals |
CN1465034A (zh) * | 2001-06-05 | 2003-12-31 | 索尼公司 | 图像处理设备 |
CN101980248A (zh) * | 2010-11-09 | 2011-02-23 | 西安电子科技大学 | 基于改进视觉注意力模型的自然场景目标检测方法 |
CN106295526A (zh) * | 2016-07-28 | 2017-01-04 | 浙江宇视科技有限公司 | 车辆图像匹配的方法及装置 |
CN106354735A (zh) * | 2015-07-22 | 2017-01-25 | 杭州海康威视数字技术股份有限公司 | 一种图像中目标的检索方法和装置 |
CN106446933A (zh) * | 2016-08-31 | 2017-02-22 | 河南广播电视大学 | 基于上下文信息的多目标检测方法 |
CN107239535A (zh) * | 2017-05-31 | 2017-10-10 | 北京小米移动软件有限公司 | 相似图片检索方法及装置 |
CN109033172A (zh) * | 2018-06-21 | 2018-12-18 | 西安理工大学 | 一种深度学习与近似目标定位的图像检索方法 |
CN109033472A (zh) * | 2018-09-05 | 2018-12-18 | 深圳灵图慧视科技有限公司 | 图片检索方法及装置、计算机设备及计算机可读介质 |
CN110175980A (zh) * | 2019-04-11 | 2019-08-27 | 平安科技(深圳)有限公司 | 图像清晰度识别方法、图像清晰度识别装置及终端设备 |
CN110222220A (zh) * | 2019-05-06 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机可读介质及电子设备 |
CN110704652A (zh) * | 2019-08-22 | 2020-01-17 | 长沙千视通智能科技有限公司 | 基于多重注意力机制的车辆图像细粒度检索方法及装置 |
CN110751027A (zh) * | 2019-09-09 | 2020-02-04 | 华中科技大学 | 一种基于深度多示例学习的行人重识别方法 |
CN110781911A (zh) * | 2019-08-15 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 一种图像匹配方法、装置、设备及存储介质 |
CN111401324A (zh) * | 2020-04-20 | 2020-07-10 | Oppo广东移动通信有限公司 | 图像质量评估方法、装置、存储介质及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9652688B2 (en) * | 2014-11-26 | 2017-05-16 | Captricity, Inc. | Analyzing content of digital images |
CN110019896B (zh) * | 2017-07-28 | 2021-08-13 | 杭州海康威视数字技术股份有限公司 | 一种图像检索方法、装置及电子设备 |
-
2020
- 2020-08-25 CN CN202010861160.0A patent/CN112052350B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5497430A (en) * | 1994-11-07 | 1996-03-05 | Physical Optics Corporation | Method and apparatus for image recognition using invariant feature signals |
CN1465034A (zh) * | 2001-06-05 | 2003-12-31 | 索尼公司 | 图像处理设备 |
CN101980248A (zh) * | 2010-11-09 | 2011-02-23 | 西安电子科技大学 | 基于改进视觉注意力模型的自然场景目标检测方法 |
CN106354735A (zh) * | 2015-07-22 | 2017-01-25 | 杭州海康威视数字技术股份有限公司 | 一种图像中目标的检索方法和装置 |
CN106295526A (zh) * | 2016-07-28 | 2017-01-04 | 浙江宇视科技有限公司 | 车辆图像匹配的方法及装置 |
CN106446933A (zh) * | 2016-08-31 | 2017-02-22 | 河南广播电视大学 | 基于上下文信息的多目标检测方法 |
CN107239535A (zh) * | 2017-05-31 | 2017-10-10 | 北京小米移动软件有限公司 | 相似图片检索方法及装置 |
CN109033172A (zh) * | 2018-06-21 | 2018-12-18 | 西安理工大学 | 一种深度学习与近似目标定位的图像检索方法 |
CN109033472A (zh) * | 2018-09-05 | 2018-12-18 | 深圳灵图慧视科技有限公司 | 图片检索方法及装置、计算机设备及计算机可读介质 |
CN110175980A (zh) * | 2019-04-11 | 2019-08-27 | 平安科技(深圳)有限公司 | 图像清晰度识别方法、图像清晰度识别装置及终端设备 |
CN110222220A (zh) * | 2019-05-06 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机可读介质及电子设备 |
CN110781911A (zh) * | 2019-08-15 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 一种图像匹配方法、装置、设备及存储介质 |
CN110704652A (zh) * | 2019-08-22 | 2020-01-17 | 长沙千视通智能科技有限公司 | 基于多重注意力机制的车辆图像细粒度检索方法及装置 |
CN110751027A (zh) * | 2019-09-09 | 2020-02-04 | 华中科技大学 | 一种基于深度多示例学习的行人重识别方法 |
CN111401324A (zh) * | 2020-04-20 | 2020-07-10 | Oppo广东移动通信有限公司 | 图像质量评估方法、装置、存储介质及电子设备 |
Non-Patent Citations (1)
Title |
---|
基于主体检测的图像检索方法研究;单艳梅;《中国优秀硕士学位论文全文数据库信息科技辑》;20181215(第12期);I138-1113 * |
Also Published As
Publication number | Publication date |
---|---|
CN112052350A (zh) | 2020-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532571B (zh) | 文本处理方法及相关装置 | |
CN113362382B (zh) | 三维重建方法和三维重建装置 | |
US11036790B1 (en) | Identifying visual portions of visual media files responsive to visual portions of media files submitted as search queries | |
Li et al. | Location recognition using prioritized feature matching | |
CN111125422A (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
WO2021203865A1 (zh) | 分子结合位点检测方法、装置、电子设备及存储介质 | |
Tasse et al. | Shape2vec: semantic-based descriptors for 3d shapes, sketches and images | |
US10740385B1 (en) | Identifying visual portions of visual media files responsive to search queries | |
CN112052350B (zh) | 一种图片检索方法、装置、设备和计算机可读存储介质 | |
CN113326851A (zh) | 图像特征提取方法、装置、电子设备及存储介质 | |
Wang et al. | A new sketch-based 3D model retrieval approach by using global and local features | |
US20170286522A1 (en) | Data file grouping analysis | |
CN115131604A (zh) | 一种多标签图像分类方法、装置、电子设备及存储介质 | |
Wang et al. | Salient object detection using biogeography-based optimization to combine features | |
Wu et al. | Cloud robot: semantic map building for intelligent service task | |
CN114329004A (zh) | 数字指纹生成、数据推送方法、装置和存储介质 | |
Abdulbaqi et al. | A sketch based image retrieval: a review of literature | |
US11481419B2 (en) | Method and apparatus for evaluating matching degree based on artificial intelligence, device and storage medium | |
Chen et al. | Fast and robust loop-closure detection using deep neural networks and matrix transformation for a visual SLAM system | |
Tencer et al. | A new framework for online sketch-based image retrieval in web environment | |
Henry et al. | Quantifying nearness in visual spaces | |
CN114155274B (zh) | 一种基于全局可缩放孪生网络的目标跟踪方法和装置 | |
CN118675091B (zh) | 一种对象检测方法以及相关设备 | |
CN115731588B (zh) | 模型处理方法及装置 | |
CN113989493B (zh) | 基于atss的图像处理方法及其装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |