CN112733969A - 对象类别的识别方法和装置及服务器 - Google Patents

对象类别的识别方法和装置及服务器 Download PDF

Info

Publication number
CN112733969A
CN112733969A CN202110344172.0A CN202110344172A CN112733969A CN 112733969 A CN112733969 A CN 112733969A CN 202110344172 A CN202110344172 A CN 202110344172A CN 112733969 A CN112733969 A CN 112733969A
Authority
CN
China
Prior art keywords
image
target
clustering
images
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110344172.0A
Other languages
English (en)
Other versions
CN112733969B (zh
Inventor
吕廷迅
杨森
高建煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202110344172.0A priority Critical patent/CN112733969B/zh
Publication of CN112733969A publication Critical patent/CN112733969A/zh
Application granted granted Critical
Publication of CN112733969B publication Critical patent/CN112733969B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开关于一种对象类别的识别方法和装置及服务器。其中,该方法包括:获取待检索图像;识别待检索图像,得到待检索图像的目标特征向量;从聚类中心集合中获取与目标特征向量之间的距离最近的目标聚类中心,其中,聚类中心集合包括:至少一个对象类别,以及每个对象类别对应的多个聚类中心;获取目标聚类中心对应的对象类别,作为待检索图像的分类识别结果。本公开实施例通过聚类的方式构建聚类中心集合,并通过获取最近距离的目标聚类中心,得到分类识别结果,无需建立全部图像的数据结构,达到降低新增数据或新增分类的开销,提升对象类别的识别方法扩展性的效果,进而解决了相关技术中通过构建检索索引图实现图像匹配的方法扩展性较差的问题。

Description

对象类别的识别方法和装置及服务器
技术领域
本公开涉及人工智能领域,尤其涉及一种对象类别的识别方法和装置及服务器。
背景技术
在以图搜图的应用场景中,传统实现方案如下:基于全量的存量图片提取特征向量,基于特征向量构造层级化索引,进而构造检索索引图;在接收到检索图片之后首先提取隐层特征向量,然后针对检索索引图基于层级化路径检索最匹配的图片,并将检索到的图片返回给用户查看。
但是,当检索过程中遇到bad case(也即,检索图片的分类错误)需要补充新的数据,或针对当前数据分布需要补充新的分类(例如,某个类型的图片人气较高)时,需要修改检索索引图中的大部分数据结构化索引的数据结构,新增数据或新增分类开销较大,导致传统实现方案的扩展性较差。
发明内容
本公开提供一种对象类别的识别方法和装置及服务器,以至少解决相关技术中通过构建检索索引图实现图像匹配的方法扩展性较差的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种对象类别的识别方法,包括获取待检索图像;识别待检索图像,得到待检索图像的目标特征向量;从聚类中心集合中获取与目标特征向量之间的距离最近的目标聚类中心,其中,聚类中心集合包括:至少一个对象类别,以及每个对象类别对应的多个聚类中心;获取目标聚类中心对应的对象类别,作为待检索图像的分类识别结果。
可选地,在从聚类中心集合中获取与目标特征向量之间的距离最近的目标聚类中心步骤之前,对象类型的识别方法还包括:获取多张预设图像,以及每张预设图像的对象类别;基于每张预设图像的对象类别对多张预设图像进行分组,得到至少一个图像集合,其中,每个图像集合包含的预设图像的对象类别相同;对每个图像集合包含的预设图像进行聚类操作,得到每个对象类别对应的多个聚类中心;基于至少一个对象类别对应的多个聚类中心,构建聚类中心集合。
可选地,对每个图像集合包含的预设图像进行聚类操作,得到每个对象类别对应的多个聚类中心步骤包括:识别多张预设图像,得到多张预设图像的特征向量;对每个图像集合包含的预设图像的特征向量进行聚类操作,得到每个对象类别对应的多个聚类中心。
可选地,获取目标聚类中心对应的对象类别,得到待检索图像的分类识别结果步骤包括:基于聚类中心与对象类别的对应关系,确定目标聚类中心对应的对象类别;确定目标聚类中心对应的对象类别为分类识别结果。
可选地,在获取目标聚类中心对应的对象类别,得到待检索图像的分类识别结果步骤之后,对象类型的识别方法还包括:判断分类识别结果是否为预设识别结果;如果分类识别结果不是预设识别结果,则将目标特征向量存储至聚类中心集合,并存储目标特征向量与预设识别结果的对应关系,或,将目标聚类中心对应的对象类别修改为预设识别结果。
可选地,对象类型的识别方法还包括:获取新增类别对应的多张新增图像;识别多张新增图像,得到多张新增图像的特征向量;将多张新增图像的特征向量存储至聚类中心集合;存储多张新增图像的特征向量与新增类别的对应关系。
可选地,将多张新增图像的特征向量存储至聚类中心集合中步骤包括:对多张新增图像的特征向量进行聚类操作,得到新增类别对应的多个聚类中心;将新增类别对应的多个聚类中心存储至聚类中心集合中。
可选地,存储新增类别对应的多个聚类中心与新增类别的对应关系。
可选地,识别待检索图像,得到待检索图像的特征向量步骤包括:利用目标检测模型提取待检索图像中包含的目标的图像;利用对象分类模型对目标的图像进行处理,得到待检索图像的特征向量。
可选地,对象类别的识别方法还包括:获取训练样本,其中,训练样本包括:原始图像,原始图像的第一对象类别,以及原始图像对应的处理图像,处理图像为对原始图像进行数据增强后得到的图像;利用对象分类模型分别对原始图像和处理图像进行特征提取,得到原始图像的第一特征向量和处理图像的第二特征向量;基于原始图像的第一特征向量和处理图像的第二特征向量,构建对象分类模型的总损失函数;基于对象分类模型的总损失函数,更新对象分类模型的模型参数。
可选地,基于原始图像的第一特征向量和处理图像的第二特征向量,构建对象分类模型的总损失函数步骤包括:获取第一特征向量和第二特征向量之间的距离,作为第一损失函数;利用线性映射算法对第一特征向量和第二特征向量进行处理,得到原始图像的第二分类,并基于第一对象类别和第二对象类别,得到第二损失函数;基于第一损失函数和第二损失函数,构建对象分类模型的总损失函数。
可选地,基于第一损失函数和第二损失函数,构建对象分类模型的总损失函数步骤包括:获取第一损失函数和第二损失函数的加权和,得到对象分类模型的总损失函数。
根据本公开实施例的第二方面,提供一种对象类别的识别装置,包括:图像获取模块,被配置为执行获取待检索图像;识别模块,被配置为执行识别待检索图像,得到待检索图像的目标特征向量;聚类中心获取模块,被配置为执行从聚类中心集合中获取与目标特征向量之间的距离最近的目标聚类中心,其中,聚类中心集合包括:至少一个对象类别,以及每个对象类别对应的多个聚类中心;识别结果获取模块,被配置为执行获取目标聚类中心对应的对象类别,得到待检索图像的分类识别结果。
可选地,对象类型的识别装置还包括:类别获取模块,被配置为执行获取多张预设图像,以及每张预设图像的对象类别;分组模块,被配置为执行基于每张预设图像的对象类别对多张预设图像进行分组,得到至少一个图像集合,其中,每个图像集合包含的预设图像的对象类别相同;聚类模块,被配置为执行对每个图像集合包含的预设图像进行聚类操作,得到每个对象类别对应的多个聚类中心;集合构建模块,被配置为执行基于至少一个对象类别对应的多个聚类中心,构建聚类中心集合。
可选地,聚类模块包括:识别单元,被配置为执行识别多张预设图像,得到多张预设图像的特征向量;聚类单元,被配置为执行对每个图像集合包含的预设图像的特征向量进行聚类操作,得到每个对象类别对应的多个聚类中心。
可选地,识别结果获取模块包括:类别确定单元,被配置为执行基于聚类中心与对象类别的对应关系,确定目标聚类中心对应的对象类别;识别结果确定单元,被配置为执行确定目标聚类中心对应的对象类别为分类识别结果。
可选地,对象类型的识别装置还包括:判断模块,被配置为执行判断分类识别结果是否为预设识别结果;执行模块,被配置为执行如果分类识别结果不是预设识别结果,则将目标特征向量存储至聚类中心集合,并存储目标特征向量与预设识别结果的对应关系,或,将目标聚类中心对应的对象类别修改为预设识别结果。
可选地,对象类型的识别装置还包括:图像获取模块还被配置为执行获取新增类别对应的多张新增图像;识别模块还被配置为执行识别多张新增图像,得到多张新增图像的特征向量;第一存储模块,被配置为执行将多张新增图像的特征向量存储至聚类中心集合;第二存储模块,被配置为执行存储多张新增图像的特征向量与新增类别的对应关系。
可选地,第一存储模块包括:聚类单元,被配置为执行对多张新增图像的特征向量进行聚类操作,得到新增类别对应的多个聚类中心;存储单元,被配置为执行将新增类别对应的多个聚类中心存储至聚类中心集合中。
可选地,第二存储模块还被配置为执行存储新增类别对应的多个聚类中心与新增类别的对应关系。
可选地,识别模块包括:提取单元,被配置为执行利用目标检测模型提取待检索图像中包含的目标的图像;处理单元,被配置为执行利用对象分类模型对目标的图像进行处理,得到待检索图像的特征向量。
可选地,对象类型的识别装置还包括:样本获取模块,被配置为执行获取训练样本,其中,训练样本包括:原始图像,原始图像的第一对象类别,以及原始图像对应的处理图像,处理图像为对原始图像进行数据增强后得到的图像;特征提取模块,被配置为执行利用对象分类模型分别对原始图像和处理图像进行特征提取,得到原始图像的第一特征向量和处理图像的第二特征向量;函数构建模块,被配置为执行基于原始图像的第一特征向量和处理图像的第二特征向量,构建对象分类模型的总损失函数;参数更新模块,被配置为执行基于对象分类模型的总损失函数,更新对象分类模型的模型参数。
可选地,函数构建模块包括:第一函数获取单元,被配置为执行获取第一特征向量和第二特征向量之间的距离,作为第一损失函数;函数处理单元,被配置为执行利用线性映射算法对第一特征向量和第二特征向量进行处理,得到原始图像的第二对象类别,并基于第一对象类别和第二对象类别,得到第二损失函数;构建单元,被配置为执行基于第一损失函数和第二损失函数,构建对象分类模型的总损失函数。
可选地,构建单元还被配置为执行获取第一损失函数和第二损失函数的加权和,得到对象分类模型的总损失函数。
根据本公开实施例的第三方面,提供一种服务器,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现如上述实施例中的对象类别的识别方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当计算机可读存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如上述实施例中的对象类别的识别方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,当计算机程序产品中的计算机程序由服务器的处理器执行时,使得服务器能够执行如上述实施例中的对象类别的识别方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
通过在获取到待检索图像之后,识别待检索图像,得到待检索图像的目标特征向量,并从聚类中心集合中获取与目标特征向量之间的距离最近的目标聚类中心,从而获取目标聚类中心对应的对象类别,作为待检索图像的分类识别结果,实现以图搜图的目的。与相关技术相比,可以通过聚类的方式确定不同对象的集中性特征向量,构建聚类中心集合,并通过向量检索的方式从聚类中心集合中获取最近距离的目标聚类中心,得到分类识别结果,无需建立全部图像的数据结构,因此,当检索过程中遇到bad case(也即,检索图片的对象类别错误)需要补充新的数据,或针对当前数据分布需要补充新的对象类别(例如,某个对象类别的图片人气较高)时,可以直接将特征向量进行补充,达到降低新增数据或新增对象类别的开销,提升对象类别的识别方法扩展性的效果,进而解决了相关技术中通过构建检索索引图实现图像匹配的方法扩展性较差的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种该计算设备的框图。
图2是根据一示例性实施例示出的一种对象类别的识别方法的流程图。
图3是根据一示例性实施例示出的一种可选的创建聚类中心集合的流程图。
图4是根据一示例性实施例示出的一种可选的确定分类识别结果的流程图。
图5是根据一示例性实施例示出的一种可选的bad case修复的流程图。
图6是根据一示例性实施例示出的一种可选的新增对象类别的流程图。
图7是根据一示例性实施例示出的一种可选的识别待检索图像的流程图。
图8是根据一示例性实施例示出的一种可选的训练对象分类模型的流程图。
图9是根据一示例性实施例示出的一种对象类别的识别装置框图。
图10是根据一示例性实施例示出的一种用于执行对象类别的识别方法的服务器的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
首先对本公开中出现的技术术语或技术名称进行如下解释说明:
metric learning:度量学习,可以是人脸识别中常用的机器学习方法,在训练模型过程中,可以使同类的图片的metric距离比不同类的图片的metric距离更近。在本发明实施例中,metric方法可以是两个向量的欧式距离,从而实现同类的图片的欧式距离小于不同类的图片的欧式距离。
向量检索:可以是基于检索图片通过特征提取来获取图片的特征向量,并从数据库中获取到与检索图片在选定metric维度上最近的类别。
数据增强:可以是对图像进行旋转、裁剪后放大或颜色转换等操作。
对于本公开实施例中记载的技术方案可以在移动设备、计算机终端、服务器或者类似的计算设备中执行。如图1所示,该计算设备100可以包括基本配置102(包括系统存储器106、处理器104、存储器控制器118,存储器控制器118通过存储器总线108与系统存储器106连接,存储器控制器118与处理器104连接)、存储设备132、总线/接口控制器130、输出设备142、外围接口144、通信设备146和其他计算机设备162,总线/接口控制器130通过接口总线140与输出设备142、外围接口144和通信设备146连接。
其中,系统存储器(ROM/RAM)106可以用于存储操作系统120、应用程序122以及相关的程序数据124等;处理器(uP/uC/DSP)104可以包括一级高速缓存110、二级高速缓存112、处理核(例如ALU/FPU/DSP)114、寄存器116;存储设备132可以包括可移动存储设备(例如CD/VCD)136和不可移动存储设备(例如HDD)138,可移动存储设备136和不可移动存储设备138通过存储接口总线134与总线/接口控制器130连接;输出设备142可以包括:图形处理单元148、音频处理单元150和A/V端口152,图形处理单元148和音频处理单元150与A/V端口152连接;外围接口144可以包括:串行接口控制器154、并行接口控制器156和I/O端口158,串行接口控制器154和并行接口控制器156与I/O端口158连接;通信设备146可以包括:网络控制器160和通信接口164,通信接口164用于连接网络控制器160和其他计算设备162。
需要说明的是,计算设备可以包括比图1中所示的更多或更少的组件,或者具有如图1所示不同的配置。
图2是根据一示例性实施例示出的一种对象类别的识别方法的流程图,如图2所示,对象类别的识别方法用于以图搜图的应用场景中,包括以下步骤。
在步骤S21中,获取待检索图像。
上述步骤中的待检索图像可以是以图搜图的应用场景中,用户需要进行搜索的图像,例如,可以是用户提供的明星图像。
在一种可选的实施例中,针对移动终端(例如,智能手机、平板电脑、掌上电脑、笔记本电脑等)执行的以图搜图的应用场景,当用户需要进行图像搜索时,用户可以从移动终端中选择本地存储的图像,作为待检索图像,也可以通过移动终端从网络下载需要搜索的图像,作为待检索图像。
在另一种可选的实施例中,针对服务器执行的以图搜图的应用场景,用户可以通过移动终端选择需要搜索的图像,并将选中的图像上传至服务器,从而服务器将接收到的图像作为待检索图像。
在步骤S22中,识别待检索图像,得到待检索图像的目标特征向量。
上述步骤中的目标特征向量可以是待检索图像隐层表征embedding。
在一种可选的实施例中,可以通过图像识别技术,对待检索图像进行识别,并提取待检索图像的目标特征向量。
在步骤S23中,从聚类中心集合中获取与目标特征向量之间的距离最近的目标聚类中心,其中,聚类中心集合包括:至少一个对象类别,以及每个对象类别对应的多个聚类中心。
上述步骤中的对象类别可以表示不同的对象,例如,以明星为例,不同对象类别可以表示不同的明星,每个明星可以有大量不同的图像。
在线上检索的过程中,可以预先构建向量检索系统,该系统中存储有大量图像的特征向量,从而通过获取该系统中与目标特征向量之间的距离最近的特征向量,即可达到图像检索的目的。为了能够提供给用户更加准确的搜索结果,构建向量检索系统所使用的图像的数量越来越多,导致向量检索系统中存储的特征向量的数量越来越多。但是,向量检索系统中存储的特征向量的数量越多,在向量检索系统中检索距离最近的特征向量的时间越长,导致检索效率下降。为了解决该问题,优选的,可以通过聚类方式提取出同一个对象类别的集中性的特征向量(即上述的多个聚类中心),并将提取出的特征向量存储至向量检索系统中,此时,向量检索系统可以称为聚类中心集合。需要说明的是,可以根据图像搜索的效率需求以及预设图像的数量,确定每个对象类别对应的多个聚类中心的数量,例如,当预设图像的数量为1000时,该数量可以是10,但不仅限于此,也可以是其他数量。
上述步骤中的距离可以是特征向量之间的欧式距离,但不仅限于,也可以是其他距离,距离越近表明两个特征向量的相似度越高,也即两个特征向量对应的图像的相似度越高。
在一种可选的实施例中,可以预先根据检索需要构建聚类中心集合,将不同对象类别的多个聚类中心存储在聚类中心集合中,从而在线搜图过程中,可以将待检索图像的目标特征向量与聚类中心集合中存储的每个聚类中心进行计算,得到待检索图像的目标特征向量与聚类中心集合中存储的每个聚类中心之间的距离,然后可以选择最小距离对应的目标聚类中心,也即选择相似度最高的图像的特征向量,得到上述的目标聚类中心。
在步骤S24中,获取目标聚类中心对应的对象类别,作为待检索图像的分类识别结果。
在一种可选的实施例中,在从聚类中心集合中检索到距离最近的目标聚类中心之后,可以直接获取目标聚类中心的对象类别,并将获取到的对象类别作为待检索图像的对象类别,也即,得到最终的分类识别结果。
本公开通过在获取到待检索图像之后,识别待检索图像,得到待检索图像的目标特征向量,并从聚类中心集合中获取与目标特征向量之间的距离最近的目标聚类中心,从而获取目标聚类中心对应的对象类别,作为待检索图像的分类识别结果,实现以图搜图的目的。与相关技术相比,可以通过聚类的方式确定不同对象的集中性特征向量,构建聚类中心集合,并通过向量检索的方式从聚类中心集合中获取最近距离的目标聚类中心,得到分类识别结果,无需建立全部图像的数据结构,因此,当检索过程中遇到bad case(也即,检索图片的对象类别错误)需要补充新的数据,或针对当前数据分布需要补充新的对象类别(例如,某个对象类别的图片人气较高)时,可以直接将特征向量进行补充,达到降低新增数据或新增对象类别的开销,提升对象类别的识别方法扩展性的效果,进而解决了相关技术中通过构建检索索引图实现图像匹配的方法扩展性较差的问题。
作为一种可选的实施例,如图3所示,在从聚类中心集合中获取与目标特征向量之间的距离最近的目标聚类中心步骤之前,对象类别的识别方法还包括如下步骤:
在步骤S31中,获取多张预设图像,以及每张预设图像的对象类别。
上述步骤中的多张预设图像可以是多个不同对象类别的图像,可以是模型训练中使用过的图像,也可以是从网络中新收集的图像。
在步骤S32中,基于每张预设图像的对象类别对多张预设图像进行分组,得到至少一个图像集合,其中,每个图像集合包含的预设图像的对象类别相同。
在步骤S33中,对每个图像集合包含的预设图像进行聚类操作,得到每个对象类别对应的多个聚类中心。
在步骤S34中,基于至少一个对象类别对应的多个聚类中心,构建聚类中心集合。
在一种可选的实施例中,对于获取到的多张预设图像,首先可以对多张预设图像进行分组,将同一个对象类别的预设图像划分至同一个图像集合中,然后针对每个图像集合,通过聚类算法对所有图像进行无监督聚类操作,得到每个图像集合的多个聚类中心,也即得到每个对象类别对应的多个聚类中心。
通过上述方案,通过聚类方式提取同一对象类别的图像的多个聚类中心,实现确保图像检索准确度的同时,减少数据存储量,达到了降低资源占用,提升检索速度的效果,进而解决了通过所有特征向量构建检索索引图对存储资源占用较大的问题。
作为一种可选的实施例,对每个图像集合包含的预设图像进行聚类操作,得到每个对象类别对应的多个聚类中心步骤包括如下步骤:识别多张预设图像,得到多张预设图像的特征向量;对每个图像集合包含的预设图像的特征向量进行聚类操作,得到每个对象类别对应的多个聚类中心。
在一种可选的实施例中,每个类别的图像分别提取特征向量,对于每个图像集合,可以基于聚类算法对该集合中所有预设图像的特征向量进行无监督聚类操作,提取出多个聚类中心,基于所有对象类别对应的多个聚类中心构建聚类中心集合,并将所有聚类中心和对应的对象类别,以(key,value)的形式存入redis数据库中。
例如,对于明星B的图像,可以获取到1000张图像,这1000张图像分别通过Resnet52模型获取对应的特征向量,然后使用聚类算法对1000个特征向量进行距离,获取10个聚类中心,并将10个聚类中心作为明星B的特征向量存储到聚类中心集合中,并且可以构造(聚类中心,明星B)的数据形式存入到redis数据库中。
通过上述方案,通过特征向量构建聚类中心集合,进一步达到了降低资源占用,提升检索速度的效果,进而解决了通过所有预设图像构建聚类中心集合对存储资源占用较大的问题。
作为一种可选的实施例,如图4所示,获取目标聚类中心对应的对象类别,得到待检索图像的分类识别结果步骤包括如下步骤:
在步骤S41中,基于聚类中心与对象类别的对应关系,确定目标聚类中心对应的对象类别。
在步骤S42中,确定目标聚类中心对应的对象类别为分类识别结果。
上述步骤中的聚类中心与对象类别的对应关系可以存储在数据库中,该数据库可以是redis数据库,该数据库中数据可以按照(key,value)的形式进行存储,因此,针对构建聚类中心集合所使用的大量图像,可以按照(聚类中心,对象类别)的形式存储在数据库中。
在一种可选的实施例中,在从聚类中心集合中检索到距离最近的目标聚类中心之后,可以基于目标聚类中心从数据库中进行检索,直接读取目标聚类中心的对象类别,并将读取出的对象类别作为分类识别结果。
通过上述方案,通过聚类中心与对象类别的对应关系,确定待检索图像的分类识别结果,达到了快速识别对象类别的效果,解决了相关技术中通过构建检索索引图实现图像匹配的方法检索效率低的问题。
作为一种可选的实施例,如图5所示,在获取目标聚类中心对应的对象类别,作为待检索图像的分类识别结果步骤之后,对象类别的识别方法还包括如下步骤:
在步骤S51中,判断分类识别结果是否为预设识别结果。
在步骤S52中,如果分类识别结果不是预设识别结果,则将目标特征向量存储至聚类中心集合,并存储目标特征向量与预设识别结果的对应关系,或,将目标聚类中心对应的对象类别修改为预设识别结果。
上述步骤中的预设识别结果可以是指待检索图像的实际类别,该类别可以由用户人工确定,但不仅限于此。
在一种可选的实施例中,在通过图像搜索确定待检索图像的对象类别,也即得到待检索图像的分类识别结果之后,可以通过将待检索图像的分类识别结果与预设识别结果进行比较的方式,判断分类识别结果是否为预设识别结果,如果分类识别结果是预设识别结果,则确定待检索图像的对象类别正确;如果分类识别结果不是预设识别结果,则确定待检索图像的对象类别不正确,可以认为出现bad case情况。
为了对bad case情况进行修复,在一种可选的实施例中,可以将待检索图像的特征向量补充至聚类中心集合中,并且将待检索图像的特征向量和预设识别结果的对应关系,以(特征向量,预设识别结果)的形式补充至redis数据库;在另一种可选的实施例中,可以直接将目标聚类中心对应的对象类别修改为预设识别结果,也即,将redis数据库中(目标聚类中心,分类识别结果)修改为(目标聚类中心,预设识别结果)。
例如,对于图片a,通过图像搜索得到该图片a的对象类别为类别1,而该图片a的正确类别为类别2,两个对象类别不同,因此,可以将图片a的特征向量补充至聚类中心集合中,并在radis数据库补充(图片a的特征向量,类别2)的数据。
通过上述方案,针对bad case的情况,通过直接向聚类中心集合中添加bad case的向量,并存储正确分类,或直接修改聚类中心集合中的对象类别的方式,完成bad case修复,无需修改数据结构化索引的数据结构,达到降低数据开销,提升数据扩展性的效果,进而解决了相关技术中通过构建检索索引图实现图像匹配的方法扩展性较差的问题。
作为一种可选的实施例,如图6所示,对象类别的识别方法还包括如下步骤:
在步骤S61中,获取新增类别对应的多张新增图像。
由于向量检索系统中存储的图像类别有限,上述步骤中的新增类别可以是向量检索系统中不存在的类别,例如,以明星人脸为例,新增类别可以是最近新出现的明星,也可以是未存储至向量检索系统中的老明星,但不仅限于此。
在步骤S62中,识别多张新增图像,得到多张新增图像的特征向量。
在步骤S63中,将多张新增图像的特征向量存储至聚类中心集合。
在步骤S64中,存储多张新增图像的特征向量与新增类别的对应关系。
在一种可选的实施例中,当用户需要向聚类中心集合补充新的对象类别时,用户可以提供属于新增类别的一批图片,这批图片可以通过特征提取的方式提取出图片中的人脸图像的特征向量,并将这批图片的特征向量补充至聚类中心集合中,另外,可以将这批图片构造(特征向量,新增类别)的数据形式补充至redis数据库中,完成类别新增的目的。
通过上述方案,针对新增分类的情况,通过直接向聚类中心集合中添加图片的向量,并存储新增分类的方式完成新增分类,无需修改数据结构化索引的数据结构,达到降低数据开销,提升数据扩展性的效果,进而解决了相关技术中通过构建检索索引图实现图像匹配的方法扩展性较差的问题。
作为一种可选的实施例,将多张新增图像的特征向量存储至聚类中心集合中步骤包括:对多张新增图像的特征向量进行聚类操作,得到新增类别对应的多个聚类中心;将新增类别对应的多个聚类中心存储至聚类中心集合中。
在一种可选的实施例中,当需要向聚类中心集合中补充多个向量时,同样可以采用聚类算法对多张新增图像的特征向量进行聚类操作,获取一定数量的聚类中心,并将获取到的多个聚类中心补充至聚类中心集合中。
通过上述方案,通过存储新增类别对应的多个聚类中心与新增类别的对应关系完成新增分类,无需存储所有新增图像的特征向量与新增类别的对应关系,减少向量检索系统中存储的特征向量的数量,达到了降低资源占用,提升检索速度的效果,进而解决了通过所有特征向量构建检索索引图对存储资源占用较大的问题。
作为一种可选的实施例,存储新增类别对应的多个聚类中心与新增类别的对应关系。
在一种可选的实施例中,在采用聚类算法将获取到的多个聚类中心补充中聚类中心集合中,可以将新增类别和多个聚类中心的对应关系以(聚类中心,新增类别)的数据形式补充至redis数据库中。
通过上述方案,通过存储新增类别对应的多个聚类中心与新增类别的对应关系完成新增分类,无需存储所有新增图像的特征向量与新增类别的对应关系,减少向量检索系统中存储的特征向量的数量,达到了降低资源占用,提升检索速度的效果,进而解决了通过所有特征向量构建检索索引图对存储资源占用较大的问题。
作为一种可选的实施例,如图7所示,识别待检索图像,得到待检索图像的目标特征向量步骤包括如下步骤:
在步骤S71中,利用目标检测模型提取待检索图像中包含的目标的图像。
上述步骤中的目标检测模型可以是retinaFace模型,但不仅限于此,也可以采用其他网络结构,通过目标检测模型可以准确检测到待检索图像中的目标的图像,此处的目标可以根据检测需要进行确定,例如,可以是人脸,但不仅限于此。
需要说明的是,由于待检索图像中除了目标之外,还包含有大量无用信息,这些信息可以看作是噪声,可能会影响后续特征提取的准确性,因此,为了提高特征提取的准确性,需要去除待检索图像中包含的噪声,仅提取出待检索图像中需要进行对象类别的目标,得到目标的图像。
在一种可选的实施例中,可以预先训练用于检测目标的目标检测模型,在获取到待检索图像之后,可以将待检索图像输入至目标检测模型中,通过该模型准确定位出待检索图像中的目标,也即,得到目标在待检索图像中准确位置。
在步骤S72中,利用对象分类模型对目标的图像进行处理,得到待检索图像的特征向量。
上述步骤中的对象分类模型可以采用Resnet52模型,但不仅限于此,也可以采用其他网络结构,通过对象分类模型可以提取出图像的特征向量,从而得到待检索图像的特征向量。
需要说明的是,可以将metric learning引入到对象分类模型的训练阶段,实现同类数据的特征向量的欧式距离相对于不同类的数据的特征向量的欧式距离较小,并基于此评估两个数据的相似性。
在一种可选的实施例中,可以预先训练用于特征提取的对象分类模型,在准确定位出待检索图像中的目标之后,可以提取出目标的图像,并将目标的图像输入至对象分类模型中,通过该模型准确提取出目标的图像的特征向量,进而得到待检索图像的特征向量。
通过上述方案,通过提取待检索图像中的目标图像,并利用对象分类模型进行处理,对人脸图像进行特征提取,实现去除待检索图像中的噪声,达到提高特征提取的准确度的效果,解决了直接对待检索图像进行特征提取,提取出的特征向量准确度较低,影响图像检索结果的问题。
作为一种可选的实施例,如图8所示,对象类别的识别方法还包括如下步骤:
在步骤S81中,获取训练样本,其中,训练样本包括:原始图像,原始图像的第一对象类别,以及原始图像对应的处理图像,处理图像为对原始图像进行数据增强后得到的图像。
上述步骤中的原始图像可以是从网络上收集的大量目标的图像,例如,从网络上收集的明星人脸图像。
上述步骤中的第一对象类别可以是原始图像的实际对象类别,可以是原始图像中原本携带的对象类别标记,也可以是通过人工标记的方式标记出的对象类别标记。
需要说明的是,为了提高特征提取的准确度,往往需要大量图像构建训练成本,图像数量越大,训练成本越高。为了降低训练成本,可以收集部分目标的图像,并通过数据增强操作对收集到的目标的图像进行处理,达到扩充样本数量的目的。
在步骤S82中,利用对象分类模型分别对原始图像和处理图像进行特征提取,得到原始图像的第一特征向量和处理图像的第二特征向量。
在步骤S83中,基于原始图像的第一特征向量和处理图像的第二特征向量,构建对象分类模型的总损失函数。
在步骤S84中,基于对象分类模型的总损失函数,更新对象分类模型的模型参数。
在一种可选的实施例中,为了构建训练样本,可以获取原始图像,并通过数据增强获得处理图像,此时可以得到两张图像,将两张图像分别输入到Resnet52模型中提取每张图像的特征向量,基于两张图像的特征向量计算Resnet52模型的总损失函数,并基于总损失函数确定是否更新Resnet52模型的网络参数,最终训练得到的模型可以用于线上图片特征向量的特征提取,其中,如果总损失函数大于预先设定的最小损失函数,则确定模型训练无法达到特征提取要求,需要继续进行训练;如果总损失函数小于预先设定的最小损失函数,则确定模型训练达到特征提取要求,训练结束,此时得到的对象分类模型是训练好的模型。
通过上述方案,通过自监督的方式训练对象分类模型,在训练过程中增加基于特征向量之间的距离构建的损失函数,实现同类数据的特征向量的欧式距离小于不同类数据的特征向量的欧式距离,从而达到提高特征提取的准确度的效果,解决了仅仅基于图像分类构建损失损失函数,导致特征提取的准确度较低的问题。
作为一种可选的实施例,基于原始图像的第一特征向量和处理图像的第二特征向量,构建对象分类模型的总损失函数步骤包括:获取第一特征向量和第二特征向量之间的距离,作为第一损失函数;利用线性映射算法对第一特征向量和第二特征向量进行处理,得到原始图像的第二对象类别,并基于第一对象类别和第二对象类别,得到第二损失函数;基于第一损失函数和第二损失函数,构建对象分类模型的总损失函数。
上述步骤中的第一损失函数可以是metric loss,但不仅限于此,也可以是其他损失函数,可以根据实际需要确定。
上述步骤中的线性映射算法可以是线性网络模型,该模型可以通过对两个特征向量进行处理,准确确定原始图像对应的对象类别结果。
上述步骤中的第二损失函数可以是交叉熵损失函数,但不仅限于此,也可以是其他损失函数,可以根据实际需要确定。
在一种可选的实施例中,为了构建训练样本,可以获取原始图像,并通过数据增强获得处理图像,此时可以得到两张图像,将两张图像分别输入到Resnet52模型中提取每张图像的特征向量,基于两张图像的特征向量计算余弦相似度,并将余弦相似度作为metricloss,同时,基于两张图像的特征向量分别通过线性映射做分类,并与原始图像的实际对象类别构造交叉熵损失函数,进一步基于两个损失函数确定是否更新Resnet52模型的网络参数,最终训练得到的模型可以用于线上图片特征向量的特征提取。
例如,可以预先设定两个损失函数的优先级,并基于优先级高的损失函数确定是否更新Resnet52模型的网络参数,其中,如果损失函数大于预先设定的最小损失函数,则确定模型训练无法达到特征提取要求,需要继续进行训练;如果损失函数小于预先设定的最小损失函数,则确定模型训练达到特征提取要求,训练结束,此时得到的Resnet52模型是训练好的模型。
又例如,可以通过对两个损失函数进行加权和计算,并基于计算得到的损失函数确定是否更新Resnet52模型的网络参数,其中,如果损失函数大于预先设定的最小损失函数,则确定模型训练无法达到特征提取要求,需要继续进行训练;如果损失函数小于预先设定的最小损失函数,则确定模型训练达到特征提取要求,训练结束,此时得到的Resnet52模型是训练好的模型。
通过上述方案,通过在训练过程中增加基于特征向量之间的距离构建的损失函数,实现同类数据的特征向量的欧式距离小于不同类数据的特征向量的欧式距离,从而达到提高特征提取的准确度的效果,解决了仅仅基于图像对象类别构建损失损失函数,导致特征提取的准确度较低的问题。
作为一种可选的实施例,基于第一损失函数和第二损失函数,构建对象分类模型的总损失函数步骤包括如下步骤:获取第一损失函数和第二损失函数的加权和,得到对象分类模型的总损失函数。
上述步骤中的第一损失函数和第二损失函数的权重值可以预先根据需要进行设定,根据特征提取需求,第一损失函数的权重值可以大于第二损失函数的权重值。
在一种可选的实施例中,可以根据预先针对不同损失函数设定的权重值,计算两个损失函数的加权和,得到总损失函数。
通过上述方案,通过加权和的方式计算损失函数,充分考虑欧式距离和图像对象类别的影响,从而达到提高特征提取的准确度的效果,解决了仅仅基于图像对象类别构建损失损失函数,导致特征提取的准确度较低的问题。
作为一种可选的实施例,利用目标检测模型提取待检索图像中包含的目标的图像步骤包括如下步骤:对目标的图像进行定位,得到目标的图像在待检索图像中的位置信息;基于位置信息,提取待检索图像中包含的目标的图像。
上述步骤中的位置信息可以是目标的图像的左下方坐标和右上方坐标,通过这两个坐标可以准确框出包含目标在内的矩形区域,进而得到目标的图像。
在一种可选的实施例中,可以通过逐像素定位的方式准确确定目标在待检索图像中的位置,但是,不同图像中目标位置不同,逐像素定位的方式耗时较长。为了减少定位时间,可以采用矩形框的方式定位目标位置,此时,为了进一步减少图像提取的时间,可以在采用矩形框框出目标之后,获取矩形框左下角和右上角的坐标,并将这两个坐标作为目标的图像的位置信息。在获取到目标的图像的位置信息之后,可以通过位置信息准确确定矩形框的位置,进而提取出该矩形框框出的图像,可以得到目标的图像。
通过上述方案,通过定位目标的位置信息,达到准确提取目标的图像的效果。
作为一种可选的实施例,对象类别的识别方法还包括如下步骤:获取目标训练样本,其中,目标训练样本包括:训练图像,以及训练图像中包含的目标的图像的第一位置信息;利用目标检测模型对训练图像中包含的目标的图像进行定位,得到目标的图像在训练图像中的第二位置信息;基于第一位置信息和第二位置信息,得到目标检测模型的损失函数;基于目标检测模型的损失函数,更新目标检测模型的模型参数。
上述步骤中的第一位置信息可以是目标的图像在训练图像中的实际位置,可以通过人工方式预先在训练图像中框出目标的位置,得到目标的左下方坐标和右上方坐标。
上述步骤中的第二位置信息可以是通过目标检测模型预测出的目标的图像在训练图像中的预测位置。
在一种可选的实施例中,可以获取大量训练图像,将训练图像输入到目标检测模型中,由目标检测模型对训练图像中的目标的图像进行定位,得到目标的图像的预测位置,也即,预测出目标的图像的左下方坐标和右上方坐标,并基于目标的图像的实际位置,也即,目标的图像的左下方坐标和右上方坐标构造损失函数,并基于计算得到的损失函数确定是否更新目标检测模型的网络参数,其中,如果损失函数大于预先设定的最小损失函数,则确定模型训练无法达到特征提取要求,需要继续进行训练;如果损失函数小于预先设定的最小损失函数,则确定模型训练达到特征提取要求,训练结束,此时得到的目标检测模型是训练好的模型。
例如,训练样本为明星A的图片,其长宽尺寸为100cm和200cm,并且,明星人脸在图片中的左下方坐标和右上方坐标分别为(30,40)和(50,50)。在将该图片输入到目标检测模型预测得到明星人脸在图片中的左下方坐标和右上方坐标分别为(20,30)和(60,80)。基于预测坐标和实际坐标构建损失函数更新目标检测模型,最终训练得到的模型可以用于线上人脸图像的定位。
通过上述方案,通过在训练过程中增加基于特征向量之间的距离构建的损失函数,实现同类数据的特征向量的欧式距离小于不同类数据的特征向量的欧式距离,从而达到提高特征提取的准确度的效果,解决了仅仅基于图像对象类别构建损失损失函数,导致特征提取的准确度较低的问题。
图9是根据一示例性实施例示出的一种对象类别的识别装置框图。参照图9,该装置包括图像获取模块91,目标识别模块92,聚类中心获取模块93和识别结果获取模块94。
该图像获取模块91被配置为执行获取待检索图像。
该识别模块92被配置为执行识别待检索图像,得到待检索图像的目标特征向量。
该聚类中心获取模块93被配置为执行从聚类中心集合中获取与目标特征向量之间的距离最近的目标聚类中心,其中,聚类中心集合包括:至少一个对象类别,以及每个对象类别对应的多个聚类中心。
该识别结果获取模块94被配置为执行获取目标聚类中心对应的对象类别,得到待检索图像的分类识别结果。
作为一种可选的实施例,对象类型的识别装置还包括:类别获取模块,被配置为执行获取多张预设图像,以及每张预设图像的对象类别;分组模块,被配置为执行基于每张预设图像的对象类别对多张预设图像进行分组,得到至少一个图像集合,其中,每个图像集合包含的预设图像的对象类别相同;聚类模块,被配置为执行对每个图像集合包含的预设图像进行聚类操作,得到每个对象类别对应的多个聚类中心;集合构建模块,被配置为执行基于至少一个对象类别对应的多个聚类中心,构建聚类中心集合。
作为一种可选的实施例,聚类模块包括:识别单元,被配置为执行识别多张预设图像,得到多张预设图像的特征向量;聚类单元,被配置为执行对每个图像集合包含的预设图像的特征向量进行聚类操作,得到每个对象类别对应的多个聚类中心。
作为一种可选的实施例,识别结果获取模块包括:类别确定单元,被配置为执行基于聚类中心与对象类别的对应关系,确定目标聚类中心对应的对象类别;识别结果确定单元,被配置为执行确定目标聚类中心对应的对象类别为分类识别结果。
作为一种可选的实施例,对象类型的识别装置还包括:判断模块,被配置为执行判断分类识别结果是否为预设识别结果;执行模块,被配置为执行如果分类识别结果不是预设识别结果,则将目标特征向量存储至聚类中心集合,并存储目标特征向量与预设识别结果的对应关系,或,将目标聚类中心对应的对象类别修改为预设识别结果。
作为一种可选的实施例,对象类型的识别装置还包括:图像获取模块还被配置为执行获取新增类别对应的多张新增图像;识别模块还被配置为执行识别多张新增图像,得到多张新增图像的特征向量;第一存储模块,被配置为执行将多张新增图像的特征向量存储至聚类中心集合;第二存储模块,被配置为执行存储多张新增图像的特征向量与新增类别的对应关系。
作为一种可选的实施例,第一存储模块包括:聚类单元,被配置为执行对多张新增图像的特征向量进行聚类操作,得到新增类别对应的多个聚类中心;存储单元,被配置为执行将新增类别对应的多个聚类中心存储至聚类中心集合中。
作为一种可选的实施例,第二存储模块还被配置为执行存储新增类别对应的多个聚类中心与新增类别的对应关系。
作为一种可选的实施例,识别模块包括:提取单元,被配置为执行利用目标检测模型提取待检索图像中包含的目标的图像;处理单元,被配置为执行利用对象分类模型对目标的图像进行处理,得到待检索图像的特征向量。
作为一种可选的实施例,对象类型的识别装置还包括:样本获取模块,被配置为执行获取训练样本,其中,训练样本包括:原始图像,原始图像的第一对象类别,以及原始图像对应的处理图像,处理图像为对原始图像进行数据增强后得到的图像;特征提取模块,被配置为执行利用对象分类模型分别对原始图像和处理图像进行特征提取,得到原始图像的第一特征向量和处理图像的第二特征向量;函数构建模块,被配置为执行基于原始图像的第一特征向量和处理图像的第二特征向量,构建对象分类模型的总损失函数;参数更新模块,被配置为执行基于对象分类模型的总损失函数,更新对象分类模型的模型参数。
作为一种可选的实施例,函数构建模块包括:第一函数获取单元,被配置为执行获取第一特征向量和第二特征向量之间的距离,作为第一损失函数;函数处理单元,被配置为执行利用线性映射算法对第一特征向量和第二特征向量进行处理,得到原始图像的第二对象类别,并基于第一对象类别和第二对象类别,得到第二损失函数;构建单元,被配置为执行基于第一损失函数和第二损失函数,构建对象分类模型的总损失函数。
作为一种可选的实施例,构建单元还被配置为执行获取第一损失函数和第二损失函数的加权和,得到对象分类模型的总损失函数。
关于上述实施例中的装置,其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图10是根据一示例性实施例示出的一种用于执行对象类别的识别方法的服务器200的框图。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器204,上述指令可由服务器200的处理器220执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,当计算机程序产品中的计算机程序由服务器的处理器执行时,使得服务器能够执行如上述实施例的数据处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (26)

1.一种对象类型的识别方法,其特征在于,包括:
获取待检索图像;
识别所述待检索图像,得到所述待检索图像的目标特征向量;
从聚类中心集合中获取与所述目标特征向量之间的距离最近的目标聚类中心,其中,所述聚类中心集合包括:至少一个对象类别,以及每个对象类别对应的多个聚类中心,所述每个对象类别对应的多个聚类中心是对所述每个对象类别的图像进行聚类操作得到的;
获取所述目标聚类中心对应的对象类别,作为所述待检索图像的分类识别结果。
2.根据权利要求1所述的对象类型的识别方法,其特征在于,在所述从聚类中心集合中获取与所述目标特征向量之间的距离最近的目标聚类中心步骤之前,所述对象类型的识别方法还包括:
获取多张预设图像,以及每张预设图像的对象类别;
基于所述每张预设图像的对象类别对所述多张预设图像进行分组,得到至少一个图像集合,其中,每个图像集合包含的预设图像的对象类别相同;
对所述每个图像集合包含的预设图像进行聚类操作,得到每个对象类别对应的多个聚类中心;
基于所述至少一个对象类别对应的多个聚类中心,构建所述聚类中心集合。
3.根据权利要求2所述的对象类型的识别方法,其特征在于,所述对所述每个图像集合包含的预设图像进行聚类操作,得到每个对象类别对应的多个聚类中心步骤包括:
识别所述多张预设图像,得到所述多张预设图像的特征向量;
对所述每个图像集合包含的预设图像的特征向量进行聚类操作,得到所述每个对象类别对应的多个聚类中心。
4.根据权利要求1所述的对象类型的识别方法,其特征在于,所述获取所述目标聚类中心对应的对象类别,得到所述待检索图像的分类识别结果步骤包括:
基于聚类中心与对象类别的对应关系,确定所述目标聚类中心对应的对象类别;
确定所述目标聚类中心对应的对象类别为所述分类识别结果。
5.根据权利要求4所述的对象类型的识别方法,其特征在于,在所述获取所述目标聚类中心对应的对象类别,得到所述待检索图像的分类识别结果步骤之后,所述对象类型的识别方法还包括:
判断所述分类识别结果是否为预设识别结果;
如果所述分类识别结果不是所述预设识别结果,则将所述目标特征向量存储至所述聚类中心集合,并存储所述目标特征向量与所述预设识别结果的对应关系,或,将所述目标聚类中心对应的对象类别修改为所述预设识别结果。
6.根据权利要求1所述的对象类型的识别方法,其特征在于,所述对象类型的识别方法还包括:
获取新增类别对应的多张新增图像;
识别所述多张新增图像,得到所述多张新增图像的特征向量;
将所述多张新增图像的特征向量存储至所述聚类中心集合;
存储所述多张新增图像的特征向量与所述新增类别的对应关系。
7.根据权利要求6所述的对象类型的识别方法,其特征在于,所述将所述多张新增图像的特征向量存储至所述聚类中心集合中步骤包括:
对所述多张新增图像的特征向量进行聚类操作,得到所述新增类别对应的多个聚类中心;
将所述新增类别对应的多个聚类中心存储至所述聚类中心集合中。
8.根据权利要求7所述的对象类型的识别方法,其特征在于,存储所述新增类别对应的多个聚类中心与所述新增类别的对应关系。
9.根据权利要求1至8中任意一项所述的对象类型的识别方法,其特征在于,所述识别所述待检索图像,得到所述待检索图像的目标特征向量步骤包括:
利用目标检测模型提取所述待检索图像中包含的目标的图像;
利用对象分类模型对所述目标的图像进行处理,得到所述待检索图像的特征向量。
10.根据权利要求9所述的对象类型的识别方法,其特征在于,所述对象类型的识别方法还包括:
获取训练样本,其中,所述训练样本包括:原始图像,所述原始图像的第一对象类别,以及所述原始图像对应的处理图像,所述处理图像为对所述原始图像进行数据增强后得到的图像;
利用所述对象分类模型分别对所述原始图像和所述处理图像进行特征提取,得到所述原始图像的第一特征向量和所述处理图像的第二特征向量;
基于所述原始图像的第一特征向量和所述处理图像的第二特征向量,构建所述对象分类模型的总损失函数;
基于所述对象分类模型的总损失函数,更新所述对象分类模型的模型参数。
11.根据权利要求10所述的对象类型的识别方法,其特征在于,所述基于所述原始图像的第一特征向量和所述处理图像的第二特征向量,构建所述对象分类模型的总损失函数步骤包括:
获取所述第一特征向量和所述第二特征向量之间的距离,作为第一损失函数;
利用线性映射算法对所述第一特征向量和所述第二特征向量进行处理,得到所述原始图像的第二对象类别,并基于所述第一对象类别和所述第二对象类别,得到第二损失函数;
基于所述第一损失函数和所述第二损失函数,构建所述对象分类模型的总损失函数。
12.根据权利要求11所述的对象类型的识别方法,其特征在于,所述基于所述第一损失函数和所述第二损失函数,构建所述对象分类模型的总损失函数步骤包括:
获取所述第一损失函数和所述第二损失函数的加权和,得到所述对象分类模型的总损失函数。
13.一种对象类型的识别装置,其特征在于,包括:
图像获取模块,被配置为执行获取待检索图像;
识别模块,被配置为执行识别所述待检索图像,得到所述待检索图像的目标特征向量;
聚类中心获取模块,被配置为执行从聚类中心集合中获取与所述目标特征向量之间的距离最近的目标聚类中心,其中,所述聚类中心集合包括:至少一个对象类别,以及每个对象类别对应的多个聚类中心,所述每个对象类别对应的多个聚类中心是对所述每个对象类别的图像进行聚类操作得到的;
识别结果获取模块,被配置为执行获取所述目标聚类中心对应的对象类别,得到所述待检索图像的分类识别结果。
14.根据权利要求13所述的对象类型的识别装置,其特征在于,所述对象类型的识别装置还包括:
类别获取模块,被配置为执行获取多张预设图像,以及每张预设图像的对象类别;
分组模块,被配置为执行基于所述每张预设图像的对象类别对所述多张预设图像进行分组,得到至少一个图像集合,其中,每个图像集合包含的预设图像的对象类别相同;
聚类模块,被配置为执行对所述每个图像集合包含的预设图像进行聚类操作,得到每个对象类别对应的多个聚类中心;
集合构建模块,被配置为执行基于所述至少一个对象类别对应的多个聚类中心,构建所述聚类中心集合。
15.根据权利要求14所述的对象类型的识别装置,其特征在于,所述聚类模块包括:
识别单元,被配置为执行识别所述多张预设图像,得到所述多张预设图像的特征向量;
聚类单元,被配置为执行对所述每个图像集合包含的预设图像的特征向量进行聚类操作,得到所述每个对象类别对应的多个聚类中心。
16.根据权利要求13所述的对象类型的识别装置,其特征在于,所述识别结果获取模块包括:
类别确定单元,被配置为执行基于聚类中心与对象类别的对应关系,确定所述目标聚类中心对应的对象类别;
识别结果确定单元,被配置为执行确定所述目标聚类中心对应的对象类别为所述分类识别结果。
17.根据权利要求16所述的对象类型的识别装置,其特征在于,所述对象类型的识别装置还包括:
判断模块,被配置为执行判断所述分类识别结果是否为预设识别结果;
执行模块,被配置为执行如果所述分类识别结果不是所述预设识别结果,则将所述目标特征向量存储至所述聚类中心集合,并存储所述目标特征向量与所述预设识别结果的对应关系,或,将所述目标聚类中心对应的对象类别修改为所述预设识别结果。
18.根据权利要求13所述的对象类型的识别装置,其特征在于,所述对象类型的识别装置还包括:
图像获取模块还被配置为执行获取新增类别对应的多张新增图像;
识别模块还被配置为执行识别所述多张新增图像,得到所述多张新增图像的特征向量;
第一存储模块,被配置为执行将所述多张新增图像的特征向量存储至所述聚类中心集合;
第二存储模块,被配置为执行存储所述多张新增图像的特征向量与所述新增类别的对应关系。
19.根据权利要求18所述的对象类型的识别装置,其特征在于,所述第一存储模块包括:
聚类单元,被配置为执行对所述多张新增图像的特征向量进行聚类操作,得到所述新增类别对应的多个聚类中心;
存储单元,被配置为执行将所述新增类别对应的多个聚类中心存储至所述聚类中心集合中。
20.根据权利要求19所述的对象类型的识别装置,其特征在于,所述第二存储模块还被配置为执行存储所述新增类别对应的多个聚类中心与所述新增类别的对应关系。
21.根据权利要求13至20中任意一项所述的对象类型的识别装置,其特征在于,所述识别模块包括:
提取单元,被配置为执行利用目标检测模型提取所述待检索图像中包含的目标的图像;
处理单元,被配置为执行利用对象分类模型对所述目标的图像进行处理,得到所述待检索图像的特征向量。
22.根据权利要求21所述的对象类型的识别装置,其特征在于,所述对象类型的识别装置还包括:
样本获取模块,被配置为执行获取训练样本,其中,所述训练样本包括:原始图像,所述原始图像的第一对象类别,以及所述原始图像对应的处理图像,所述处理图像为对所述原始图像进行数据增强后得到的图像;
特征提取模块,被配置为执行利用所述对象分类模型分别对所述原始图像和所述处理图像进行特征提取,得到所述原始图像的第一特征向量和所述处理图像的第二特征向量;
函数构建模块,被配置为执行基于所述原始图像的第一特征向量和所述处理图像的第二特征向量,构建所述对象分类模型的总损失函数;
参数更新模块,被配置为执行基于所述对象分类模型的总损失函数,更新所述对象分类模型的模型参数。
23.根据权利要求22所述的对象类型的识别装置,其特征在于,所述函数构建模块包括:
第一函数获取单元,被配置为执行获取所述第一特征向量和所述第二特征向量之间的距离,作为第一损失函数;
函数处理单元,被配置为执行利用线性映射算法对所述第一特征向量和所述第二特征向量进行处理,得到所述原始图像的第二对象类别,并基于所述第一对象类别和所述第二对象类别,得到第二损失函数;
构建单元,被配置为执行基于所述第一损失函数和所述第二损失函数,构建所述对象分类模型的总损失函数。
24.根据权利要求23所述的对象类型的识别装置,其特征在于,所述构建单元还被配置为执行获取所述第一损失函数和所述第二损失函数的加权和,得到所述对象分类模型的总损失函数。
25.一种服务器,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至12中任一项所述的对象类型的识别方法。
26.一种计算机可读存储介质,当所述计算机可读存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如权利要求1至12中任一项所述的对象类型的识别方法。
CN202110344172.0A 2021-03-31 2021-03-31 对象类别的识别方法和装置及服务器 Active CN112733969B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110344172.0A CN112733969B (zh) 2021-03-31 2021-03-31 对象类别的识别方法和装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110344172.0A CN112733969B (zh) 2021-03-31 2021-03-31 对象类别的识别方法和装置及服务器

Publications (2)

Publication Number Publication Date
CN112733969A true CN112733969A (zh) 2021-04-30
CN112733969B CN112733969B (zh) 2021-08-17

Family

ID=75596149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110344172.0A Active CN112733969B (zh) 2021-03-31 2021-03-31 对象类别的识别方法和装置及服务器

Country Status (1)

Country Link
CN (1) CN112733969B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033507A (zh) * 2021-05-20 2021-06-25 腾讯科技(深圳)有限公司 场景识别方法、装置、计算机设备和存储介质
CN113420768A (zh) * 2021-08-24 2021-09-21 深圳市信润富联数字科技有限公司 岩芯类别确定方法、装置、电子设备和存储介质
CN113449793A (zh) * 2021-06-28 2021-09-28 国网北京市电力公司 用电状态的确定方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211355A (zh) * 2006-12-30 2008-07-02 中国科学院计算技术研究所 一种基于聚类的图像查询方法
CN107679525A (zh) * 2017-11-01 2018-02-09 腾讯科技(深圳)有限公司 图像分类方法、装置及计算机可读存储介质
US20180330198A1 (en) * 2017-05-14 2018-11-15 International Business Machines Corporation Systems and methods for identifying a target object in an image
CN112084366A (zh) * 2020-09-11 2020-12-15 北京百度网讯科技有限公司 用于检索图像的方法、装置、设备以及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211355A (zh) * 2006-12-30 2008-07-02 中国科学院计算技术研究所 一种基于聚类的图像查询方法
US20180330198A1 (en) * 2017-05-14 2018-11-15 International Business Machines Corporation Systems and methods for identifying a target object in an image
CN107679525A (zh) * 2017-11-01 2018-02-09 腾讯科技(深圳)有限公司 图像分类方法、装置及计算机可读存储介质
CN112084366A (zh) * 2020-09-11 2020-12-15 北京百度网讯科技有限公司 用于检索图像的方法、装置、设备以及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
施智平 等: "视频数据库的聚类索引方法", 《计算机学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033507A (zh) * 2021-05-20 2021-06-25 腾讯科技(深圳)有限公司 场景识别方法、装置、计算机设备和存储介质
CN113033507B (zh) * 2021-05-20 2021-08-10 腾讯科技(深圳)有限公司 场景识别方法、装置、计算机设备和存储介质
CN113449793A (zh) * 2021-06-28 2021-09-28 国网北京市电力公司 用电状态的确定方法及装置
CN113420768A (zh) * 2021-08-24 2021-09-21 深圳市信润富联数字科技有限公司 岩芯类别确定方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN112733969B (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
CN112733969B (zh) 对象类别的识别方法和装置及服务器
CN111125390B (zh) 数据库更新方法和装置、电子设备、计算机存储介质
CN112000822B (zh) 多媒体资源排序方法、装置、电子设备及存储介质
CN111738319B (zh) 一种基于大规模样本的聚类结果评价方法及装置
CN111709317B (zh) 一种基于显著性模型下多尺度特征的行人重识别方法
CN112115996A (zh) 图像数据的处理方法、装置、设备及存储介质
CN113255354A (zh) 搜索意图识别方法、装置、服务器及存储介质
CN110083731B (zh) 图像检索方法、装置、计算机设备及存储介质
CN111126457A (zh) 信息的获取方法和装置、存储介质和电子装置
CN114511857A (zh) 一种ocr识别结果处理方法、装置、设备及存储介质
CN111125391B (zh) 数据库更新方法和装置、电子设备、计算机存储介质
CN115439700B (zh) 一种图像处理方法、装置和机器可读存储介质
CN116681961A (zh) 基于半监督方法和噪声处理的弱监督目标检测方法
CN116958724A (zh) 一种产品分类模型的训练方法和相关装置
CN113657378B (zh) 车辆跟踪方法、车辆跟踪系统和计算设备
CN111401252B (zh) 一种基于视觉的图书盘点系统的书脊匹配方法和设备
CN111259974B (zh) 一种小样本柔性ic基板的表面缺陷定位和分类方法
CN114490993A (zh) 小样本意图识别方法、系统、设备及存储介质
CN111984812A (zh) 一种特征提取模型生成方法、图像检索方法、装置及设备
CN112287763A (zh) 图像处理方法、装置、设备及介质
CN117076713B (zh) 一种视频指纹提取和检索方法
CN113298087B (zh) 图片分类模型冷启动的方法、系统、装置及介质
CN116052220B (zh) 行人重识别方法、装置、设备及介质
US11227186B2 (en) Method and device for training image recognition model and related device
CN118071831A (zh) 图像粗定位方法、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant