CN114330522A - 图像识别模型的训练方法、装置、设备及存储介质 - Google Patents
图像识别模型的训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114330522A CN114330522A CN202111583676.4A CN202111583676A CN114330522A CN 114330522 A CN114330522 A CN 114330522A CN 202111583676 A CN202111583676 A CN 202111583676A CN 114330522 A CN114330522 A CN 114330522A
- Authority
- CN
- China
- Prior art keywords
- image
- sample
- prototype
- samples
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本申请公开了一种图像识别模型的训练方法、装置、设备及存储介质,涉及图像识别技术领域,用于基于图像样本中的原型样本训练图像识别模型,有助于节省存储空间和运算时间,同时降低模型的训练难度。该方法包括:基于至少两个图像预识别模型,确定多个图像样本中每个图像样本的不确定度;至少两个图像预识别模型均用于从相同的多个图像类别中确定待识别图像的类别;将多个图像样本中的不确定度小于等于第一预设阈值的第一目标图像样本,确定为第一目标图像样本所属图像类别的原型样本;基于多个图像类别中每个图像类别的原型样本,训练神经网络模型,得到图像识别模型。
Description
技术领域
本申请涉及图像识别技术领域,尤其涉及一种图像识别模型的训练方法、装置、设备及存储介质。
背景技术
在计算机视觉的图像识别领域中,开集识别模型能够处理复杂的识别系统中新出现的样本类别,避免将未知类别样本误判未某个已知类别,因此,应用场景非常广泛。
但是,相关技术中,在训练开集识别模型时,通常会引入每个类别的原型特征(即代表每个类别样本特征的代表性特征向量),并将每个样本的特征与原型特征的距离作为额外参数进行训练学习,这就导致随着样本类别的增加,模型的训练过程会引入大量的额外参数,不仅增大了占用的存储空间与运算时间,还会增加模型的训练难度。
发明内容
本申请实施例提供了一种图像识别模型的训练方法、装置、设备及存储介质,用于基于训练样本中的原型样本训练图像识别模型,从而能够节省存储空间和运算时间,并降低模型的训练难度。
为达到上述目的,本申请实施例提供如下技术方案:
第一方面,提供了一种图像识别模型的训练方法,包括:基于至少两个图像预识别模型,确定多个图像样本中每个图像样本的不确定度;其中,不确定度用于表征至少两个图像预识别模型识别图像类别的不确定性;至少两个图像预识别模型均用于从相同的多个图像类别中确定待识别图像的类别;将多个图像样本中的不确定度小于等于第一预设阈值的第一目标图像样本,确定为第一目标图像样本所属图像类别的原型样本,或将多个图像样本中的不确定度小于其他图像样本的第一预设数量的第二目标图像样本,确定为第二目标图像样本所属图像类别的原型样本;基于多个图像类别中每个图像类别的原型样本,训练神经网络模型,得到图像识别模型;其中,图像识别模型用于从多个图像类别中确定待识别图像的类别,或者确定待识别图像的类别不属于多个图像类别。
该技术方案,通过每个图像样本的不确定度,对多个图像样本进行筛选,过滤掉多个图像样本中的低质量的噪声样本,得到每个图像类别的原型样本,并根据原型样本训练神经网络模型,得到图像识别模型。通过使用原型样本进行模型训练,不必再引入每个类别的原型特征,并不必将每个样本的特征与原型特征的距离作为额外参数进行训练学习,进而避免了样本类别增加时引入大量的额外参数,节省了存储空间和运算时间,降低了训练难度。
在一种可能的实现方式中,至少两个图像预识别模型包括第一图像预识别模型和第二图像预识别模型,多个图像样本包括第一图像样本;基于至少两个图像预识别模型,确定多个图像样本中每个图像样本的不确定度,包括:基于第一图像预识别模型提取每个图像样本的第一特征向量;其中,第一特征向量用于第一图像预识别模型从多个图像类别中确定待识别图像的类别;基于第二图像预识别模型提取每个图像样本的第二特征向量;其中,第二特征向量用于第二图像预识别模型从多个图像类别中确定待识别图像的类别;基于第一图像样本的第一特征向量分别与每个图像样本的第一特征向量,得到第一特征分布向量;其中,第一特征分布向量用于表征第一图像样本的第一特征向量与其他图像样本的第一特征向量的距离分布;基于第一图像样本的第二特征向量分别与每个图像样本的第二特征向量,得到第二特征分布向量;其中,第二特征分布向量用于表征第一图像样本的第二特征向量与其他图像样本的第二特征向量的距离分布;基于第一特征分布向量和第二特征分布向量,得到第一图像样本的不确定度。
该种可能的实现方式,提供了确定每个图像样本的不确定度的具体实现方式,如果计算机设备按照该方法确定不确定度,则有助于提高每个图像样本的不确定度的准确性,进而有助于准确的筛选出高质量的原型样本。
在一种可能的实现方式中,基于多个图像类别中每个图像类别的原型样本,训练神经网络模型,得到图像识别模型,包括:确定每个图像类别的目标原型样本集合,多个图像类别包括第一图像类别,第一图像类别的目标原型样本集合至少包括第一原型样本,第一原型样本是第一图像类别的原型样本中不确定度最小的;基于每个图像类别的目标原型样本集合,训练神经网络模型,得到图像识别模型。
该种可能的实现方式,基于每个图像类别中样本质量最高的原型样本,对神经网络模型进行训练,降低了模型训练的数据量以及模型训练的难度,减少了模型训练的时间。
在一种可能的实现方式中,方法还包括:确定第一图像类别中的第二原型样本与第一图像类别的目标原型样本集合的最小特征距离,第二原型样本是不属于第一图像类别的目标原型样本集合的原型样本;将最小特征距离最大的第二原型样本,确定为属于第一图像类别的目标原型样本集合的元素;重复执行上述步骤,直至最大的最小特征距离小于等于第二预设阈值,或者所述第一图像类别的目标原型样本集合的元素数量等于第二预设数量。
该种可能的实现方式,实现了过滤掉多个原型样本中冗余重复的原型样本,同时保留原型样本的多样性,提高了模型训练的有效性,以及图像识别模型的鲁棒性。
在一种可能的实现方式中,多个图像类别包括第二图像类别,基于多个图像类别中每个图像类别的原型样本,训练神经网络模型,得到图像识别模型,包括:基于每个图像类别的原型样本和每个图像类别的原型样本的损失函数,训练神经网络模型,得到图像识别模型;其中,第二图像类别的原型样本的损失函数基于第一特征距离和第二特征距离确定,第一特征距离为第二图像类别中的每个图像样本与第二图像类别的原型样本之间的特征距离,第二特征距离为第二图像类别中每个图像样本与多个图像类别中其他图像类别的原型样本之间的特征距离。
该种可能的实现方式,每个图像类别的原型样本的损失函数约束神经网络模型的训练过程,有助于图像识别模型更好地区分已知类别样本和未知类别样本。
第二方面,提供了一种图像识别模型的训练装置,包括:用于执行第一方面提供的任意一种方法的功能单元,各个功能单元所执行的动作通过硬件实现或通过硬件执行相应的软件实现。例如,图像识别模型的训练装置可以包括:识别单元、确定单元和训练单元;识别单元,基于至少两个图像预识别模型,确定多个图像样本中每个图像样本的不确定度;其中,不确定度用于表征至少两个图像预识别模型识别图像类别的不确定性;至少两个图像预识别模型均用于从相同的多个图像类别中确定待识别图像的类别;确定单元,用于将多个图像样本中的不确定度小于等于第一预设阈值的第一目标图像样本,确定为第一目标图像样本所属图像类别的原型样本,或将多个图像样本中的不确定度小于其他图像样本的第一预设数量的第二目标图像样本,确定为第二目标图像样本所属图像类别的原型样本;训练单元,用于基于多个图像类别中每个图像类别的原型样本,训练神经网络模型,得到图像识别模型;其中,图像识别模型用于从多个图像类别中确定待识别图像的类别,或者确定待识别图像的类别不属于多个图像类别。
第三方面,提供了一种计算机设备,包括:处理器和存储器。处理器与存储器连接,存储器用于存储计算机执行指令,处理器执行存储器存储的计算机执行指令,从而实现第一方面提供的任意一种方法。
第四方面,提供了一种芯片,该芯片包括:处理器和接口电路;接口电路,用于接收代码指令并传输至处理器;处理器,用于运行代码指令以执行第一方面提供的任意一种方法。
第五方面,提供了一种计算机可读存储介质,包括计算机执行指令,当计算机执行指令在计算机上运行时,使得计算机执行第一方面提供的任意一种方法。
第六方面,提供了一种计算机程序产品,包括计算机执行指令,当计算机执行指令在计算机上运行时,使得计算机执行第一方面提供的任意一种方法。
第二方面至第六方面中的任一种实现方式所带来的技术效果可参见第一方面中对应实现方式所带来的技术效果,此处不再赘述。
附图说明
图1为本申请实施例提供的一种样本集示意图;
图2为本申请实施提供的开集识别的原理图;
图3为本申请实施例提供的一种计算机设备的结构示意图;
图4为本申请实施例提供的一种图像识别模型的训练方法的流程示意图;
图5为本申请实施例提供的另一种图像识别模型的训练方法的流程示意图;
图6为本申请实施例提供的一种图像识别模型的训练装置的组成示意图。
具体实施方式
在本申请的描述中,除非另有说明,“/”表示“或”的意思,例如,A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。此外,“至少一个”是指一个或多个,“多个”是指两个或两个以上。“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
需要说明的是,本申请中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
首先,为了便于理解本申请,现对本申请涉及到的相关要素进行描述。
闭集识别(Close-Set Recognition,CSR):训练集中的类别和测试集中的类别是一致的。最常见的方式就是使用开放数据集进行训练,所有数据集中的对象的类别都是已知的,没有未知种类的对象。
开集识别(Open-Set Recognition,OSR):测试集中含有训练集中没有的类别。在使用测试集进行测试时,输入一张不属于训练集中已知类别的图像,输出为未知,或者以较低的置信度输出预测结果。
原型(Prototype):表征每个样本类别的代表性样本,或者表征每个样本类别特征的代表性特征(向量)。原型与常见的模板、支持点等概念等价。
已知类别样本:是指属于在训练集中包含类别的样本,也可以称为闭集样本。
未知类别样本:是指不属于训练集中已包含类别的样本,也可以称为开集样本。
其次,对本申请涉及的应用场景进行简单介绍。
在计算机视觉中的图像识别领域,现有的一般图像识别问题均可归类为“闭集识别”问题,即假设测试集中的样本类别全部包含在训练集中(也就是测试集中不存在训练集中没有的样本类别)。但是,往往在一些复杂的识别应用中,在测试过程中可能出现训练集中未曾出现的样本类别(即未知类别的样本/开集样本),此时若依然使用一般的图像识别技术,必然会把未知类别的样本误判为某个已知类别样本,造成识别应用的鲁棒性降低。
而开集识别技术则是针对该问题而提出,开集识别技术可以看作是一般图像识别技术的功能性拓展。即,不仅具备一般图像识别技术的分类已知类别样本(即闭集样本,训练集中已包含类别的样本)的能力,同时还能够对未知类别样本进行检测,也就是区分判别已知类别样本与未知类别样本。
如图1所示,在训练集中仅包含三个已知类别,即,狗、人、鸟三个类别,而在测试集中新出现了两个类别,即车、猫两个类别。开集识别任务的目标有两个:(1)正确分类属于已知类别(“狗、鸟、人”)的样本;(2)区分出样本属于已知类别,还是属于未知类别(“猫、车”)。需要说明的,开集识别任务仅需要区分已知类别和未知类别即可,并不需要对未知类别的样本进一步分类(即不需要将未知类别的样本分类为“猫”或“车”)。
如图2所示,基于原型特征的开集识别技术的原理。在开集识别技术领域中,基于原型特征的方法是一种兼具实用价值与高性能的主流技术。具体地,首先通过学习用于表征每个已知类别样本特征的原型特征(代表性的特征向量),然后基于原型特征对已知类别样本的特征进行约束,让已知类别样本的特征距离所属类别的原型特征尽量接近,并且距离其它类别的原型特征尽量远。进而,让同一类别的样本特征紧凑地围绕原型特征分布,同时让不同类别的样本特征距离尽量远。这样,当未知类别样本出现时,会有更大的概率落在已知类别样本之间的区域。然后,根据已知类别样本与未知类别样本的特征分布位置的不同,区分二者,如图2所示,可以看到,已知类别的样本点距离最近原型特征的特征距离较小,而未知类别的样本点距离所有原型特征的特征距离均较大,根据该距离可以划分区别已知类别样本和未知类别样本。
开集识别技术在图像识别领域有着巨大的应用潜力与价值,因为它能够处理复杂的识别系统中新出现的样本类别,避免将未知类别样本误判为某个已知类别样本。并且开集识别技术的应用场景非常广泛,可以部署到多种多样的识别系统中,如人脸识别、行人识别、车辆识别等等任务中。
但是,相关技术中,在训练开集识别模型时,通常会引入每个类别的原型特征(即代表每个类别样本特征的代表性特征向量),并将每个样本的特征与原型特征的距离作为额外参数进行训练学习,这就导致随着样本类别的增加,模型的训练过程会引入大量的额外参数,不仅增大了占用的存储空间与运算时间,还会增加模型的训练难度。
接着,对本申请涉及的实施环境(实施架构)进行简单介绍。
本申请实施例提供了一种图像识别模型的训练方法,可应用于计算机设备。本申请实施例对计算机设备的具体形式不作任何限制。例如,计算机设备具体可以是终端装置,也可以是网络设备。其中,终端装置可以被称为:终端、用户设备(user equipment,UE)、终端设备、接入终端、用户单元、用户站、移动站、远方站、远程终端、移动设备、用户终端、无线通信设备、用户代理或用户装置等。终端装置具体可以是手机、增强现实(augmentedreality,AR)设备、虚拟现实(virtual reality,VR)设备、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personaldigital assistant,PDA)等。网络设备具体可以是服务器等。其中,服务器可以是一个物理或逻辑服务器,也可以是有两个或两个以上分担不同职责的物理或逻辑服务器、相互协同来实现服务器的各项功能。
在硬件实现上,上述计算机设备可以通过如图3所示的计算机设备实现。如图3所示,为本申请实施例提供的一种计算机设备30的硬件结构示意图。计算机设备30可以用于实现上述计算机设备的功能。
图3所示的计算机设备30可以包括:处理器301、存储器302、通信接口303以及总线304。处理器301、存储器302以及通信接口303之间可以通过总线304连接。
处理器301是计算机设备30的控制中心,可以是一个通用中央处理单元(centralprocessing unit,CPU),也可以是其他通用处理器等。其中,通用处理器可以是微处理器或者是任何常规的处理器等。
作为示例,处理器301可以包括一个或多个CPU,例如图3中所示的CPU 0和CPU 1。
存储器302可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
一种可能的实现方式中,存储器302可以独立于处理器301存在。存储器302可以通过总线304与处理器301相连接,用于存储数据、指令或者程序代码。处理器301调用并执行存储器302中存储的指令或程序代码时,能够实现本申请实施例提供的车辆异常行为发现方法。
另一种可能的实现方式中,存储器302也可以和处理器301集成在一起。
通信接口303,用于计算机设备20与其他设备通过通信网络连接,该通信网络可以是以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN)等。通信接口303可以包括用于接收数据的接收单元,以及用于发送数据的发送单元。
总线304,可以是工业标准体系结构(industry standard architecture,ISA)总线、外部设备互连(peripheral component interconnect,PCI)总线或扩展工业标准体系结构(extended industry standard architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
需要指出的是,图3中示出的结构并不构成对计算机设备30的限定,除图3所示部件之外,计算机设备30可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
为了便于理解,以下结合附图对本申请提供的图像识别模型的训练方法进行具体介绍。
如图4所示,为本申请提供的一种图像识别模型的训练方法的流程图。该方法包括:
S401:基于至少两个图像预识别模型,确定多个图像样本中每个图像样本的不确定度。
其中,不确定度用于表征至少两个图像预识别模型识别图像类别的不确定性。至少两个图像预识别模型均用于从相同的多个图像类别中确定待识别图像的类别。
具体地,一个图像样本的不确定度用于表征至少两个图像预识别模型识别该图像样本的图像类别的不确定性。其中,图像预识别模型基于从该图像样本提取的特征,确定该图像样本的图像类别。可以理解的,不确定度越低的图像样本的质量越高,也即,图像预识别模型越容易将图像样本预测为该图像样本的类别标识所表征的类别。
需要说明的,多个图像样本为训练样本集。即,多个图像样本均为已知图像类别的样本。
需要说明的,待识别图像的类别是指待识别图像上的内容所属的类别。例如,多个图像类别包括猫、狗、鸟,待识别图像上的内容是一只猫,则待识别图像的类别是“猫”。
可选地,在S401之前,图像预识别模型的训练方法还包括:将多个图像训练样本和多个图像训练样本中每个图像训练样本的类别标识输入目标神经网络模型,训练目标神经网络模型,以得到图像预识别模型。其中,图像预识别模型预测的每个图像训练样本的类别与该图像训练样本的类别标识表征的类别相同。
在一种实施方式中,多个图像训练样本包括k个图像类别,则图像预识别模型是可以预测K个类别的神经网络模型。需要说明的,至少两个图像预识别模型可以预测相同的多个图像类别。以两个图像预识别模型为例进行说明,第一图像预识别模型可以预测三个图像类别:人、狗、猫,第二图像预识别模型可以预测的图像类别也是:人、狗、猫。
需要说明的,至少两个图像预识别模型中每个图像预识别模型均可以通过上述该可选的方法进行训练。其中,用于训练每个图像预识别模型的多个图像训练样本相同可以相同,也可以不相同。此外,用于训练每个图像预识别模型的目标神经网络可以相同,也可以不同。
在一种实施方式中,目标神经网络模型可以是VGG、ResNet、Transformer中的任意一个。当然,也可以采用其他神经网络模型,本申请不局限于特定的识别模型结构。
S402:将多个图像样本中的不确定度小于等于第一预设阈值的第一目标图像样本,确定为第一目标图像样本所属图像类别的原型样本,或将多个图像样本中的不确定度小于其他图像样本的第一预设数量的第二目标图像样本,确定为所述第二目标图像样本所属图像类别的原型样本。
其中,其他图像样本是多个图像样本中除第二目标图像样本之外的其他图像样本。
在一种实施方式中,多个图像样本所属多个图像类别,每个图像类别包括至少一个图像样本。将每个图像类别中不确定度小于或等于第一预设阈值的图像样本,确定为该图像类别的原型样本。例如,5个图像样本所属2个图像类别。其中,图像类别A包括图像样本1和图像样本2,图像类别B包括图像样本3、图像样本4和图像样本5,图像样本1、图像样本3、和图像样本5的不确定度均小于第一预设阈值,此时,将图像样本1确定为图像类别A的原型样本,图像样本3和图像样本5确定为图像类别B的原型样本。
在另一种实施方式中,按照不确定度从小到大的顺序对多个图像样本进行排序,得到一个序列,然后,将该预序列的前第一预设数量的图像样本均确定为各个图像样本所述图像类别的原型样本。当然,该序列还可以按照不确定度从大到小的顺序对多个图像样本进行排序,并将该序列的后第一预设数量的图像样本均确定为各个图像样本所述图像类别的原型样本。通过前述方法,将多个图像样本中的不确定度小于其他图像样本的第一预设数量的第二目标图像样本,确定为第二目标图像样本所属图像类别的原型样本。
可选的,多个图像类别包括第一预设数量的原型样本,其中,第一预设数量的原型样本包括每个图像类别的目标预设数量的原型样本。
例如,多个图像类别包括10个原型样本。多个图像类别包括图像类别1和图像类别2,其中,图像类别1包括4个原型样本,图像类别2包括6个原型样本,也即,10个原型样本包括图像类别1的4个原型样本和图像类别2的6个原型样本。
在一种实施方式中,多个图像类别包括图像类别D,按照不确定度从小到大的顺序对属于图像类别D的多个图像样本进行排序,得到一个序列,然后,将该预序列的前目标预设数量的图像样本确定为图像类别D的原型样本。当然,该序列还可以按照不确定度从大到小的顺序对属于图像类别D的多个图像样本进行排序,并将该序列的后目标预设数量的图像样本均确定为图像类别D的原型样本。通过前述方法,将每个图像类别中的不确定度小于其他图像样本的目标预设数量的图像样本,确定为该图像类别的原型样本。进一步地,多个图像类别中的每个图像类别的原型样本的确定方法,可以参考前述方法,进而实现将多个图像样本中的不确定度小于其他图像样本的预设数量的第二目标图像样本,确定为第二目标图像样本所属图像类别的原型样本;需要说明的,原型样本为每个图像类别中具有代表性的样本。也就是说,原型样本是每个图像类别中“根据图像样本的特征,更容易确定图像类别”的样本。例如,图像样本A的是“猫的实拍照”,而图像样本B是“猫的简笔画”,显然,根据图像样本A的特征,更容易确定图像类别,因此,图像样本A为图像类别“猫”的原型样本。
通过将每个图像类别中符合条件的目标图像样本(第一目标图像样本或第二目标图像样本)确定为该图像类别的原型样本,能够过滤掉每个图像类别的低质量噪声样本,从而能够有效避免低质量噪声样本对原型样本的干扰,使得用于训练模型的样本具备更强的抗噪能力,进而提高最终得到的模型的鲁棒性。
可选地,多个图像类别包括第三图像类别,第三图像类别可以是多个图像类别中的任意一个类别,第三图像类别可以与第一图像类别或第二图像类别相同的图像类别,也可以是不同的图像类别。在第三图像类别中不存在小于或等于第一预设阈值的目标图像样本的情况下,可以将第三图像类别中不确定度最小的图像样本确定为原型图像样本,或者按照不确定度从小到大的顺序对属于第三图像类别的多个图像样本进行排序,得到一个序列,然后,将该序列的前目标预设数量的图像样本均确定为第三图像类别的原型样本。当然,该序列还可以是按照不确定度从大到小的顺序对属于第三图像类别的多个图像样本进行排序,并将该序列中的后目标预设数量的图像样本均确定为第三图像类别的原型样本。
S403:基于多个图像类别中每个图像类别的原型样本,训练神经网络模型,得到图像识别模型。
其中,图像识别模型用于从上述多个图像类别中确定待识别图像的类别。具体地,图像识别模型至少包括特征提取层和类别识别层,特征提取层用于提取待识别图像的特征向量,类别识别层基于特征提取层提取的特征向量预测待识别图像的类别。
需要说明的,S403中的神经网络模型为开集识别模型,因此,最终得到的图像识别模型同样为开集识别模型。
可选地,将多个图像类别中每个图像类别的原型样本输入神经网络模型,对神经网络模型进行训练,使得图像识别模型在提取每个原型样本的特征向量时,同一图像类别的原型样本的特征向量的特征距离接近,不同图像类别的原型样本的特征向量的特征距离拉远。
可选地,方法还包括:将测试图像样本输入图像识别模型,得到预测结果。
在一种实施方式中,预先设定图像识别模型的置信度阈值。预测结果包括预测概率,预测概率用于表征测试图像样本为已知类别样本的概率。具体为,在预测概率大于等于置信度阈值的情况下,判定测试图像样本为已知类别样本,在预测概率小于置信度阈值的情况下,判定测试图像样本为未知类别样本。
在另一种实施方式中,基于图像识别模型得到测试图像样本的测试样本特征向量,以及每个图像类别的原型样本的特征向量。基于测试样本特征向量与每个图像类别的原型样本的特征向量的特征距离,并基于最小的特征距离与预设距离阈值的关系,判断测试图像样本的类别。具体的,在最小的特征距离小于预设距离阈值的情况下,判定测试图像样本为已知类别样本,在最小的特征距离大于预设距离阈值的情况下,判定测试图像样本为未知类别样本。
上述实施例中,通过每个图像样本的不确定度,对多个图像样本进行筛选,过滤掉多个图像样本中的低质量的噪声样本,得到每个图像类别的原型样本,并根据原型样本训练神经网络模型,得到图像识别模型。通过使用原型样本进行模型训练,不必再引入每个类别的原型特征,并不必将每个样本的特征与原型特征的距离作为额外参数进行训练学习,进而避免了样本类别增加时引入大量的额外参数,节省了存储空间和运算时间,降低了训练难度,并且能够使图像识别模型达到更好的收敛效果,从而实现更好的开集识别性能。
可选的,至少两个图像预识别模型包括第一图像预识别模型和第二图像预识别模型,多个图像样本包括第一图像样本,其中,第一图像样本是多个图像样本中任意一个图像样本。上述S401,可以包括:
步骤一:基于第一图像预识别模型提取每个图像样本的第一特征向量。其中,第一特征向量用于第一图像预识别模型从多个图像类别中确定待识别图像的类别。
可选地,将多个图像样本输入第一图像预识别模型,提取每个图像样本的特征,以得到每个图像样本的第一特征向量。
例如,第一图像预识别模型提取每个图像样本的特征,得到每个图像样本的第一特征向量。例如,分别对图像样本1(以x1表示)、图像样本2(以x2表示)、……、图像样本N(以xN表示)进行特征提取,得到x1的第一特征向量(z1)、x2的第一特征向量(z2)、……xN的第一特征向量(zN)。示例的,该多个图像样本的第一特征向量可以表示为Z1=(z1,z2,……,zN)。
步骤二:基于第二图像预识别模型提取每个图像样本的第二特征向量;其中,第二特征向量用于第二图像预识别模型从多个图像类别中确定待识别图像的类别。
可选地,将多个图像样本输入第二图像预识别模型,提取每个图像样本的特征,以得到每个图像样本的第二特征向量。
例如,第二图像预识别模型提取每个图像样本的特征,得到每个图像样本的第二特征向量。例如,分别对图像样本1(以x1表示)、图像样本2(以x2表示)、……、图像样本N(以xN表示)进行特征提取,得到x1的第二特征向量(z1’)、x2的第二特征向量(z2’)、……xN的第二特征向量(zN’)。示例的,该多个图像样本的第一特征向量可以表示为Z2=(z1’,z2’,……,zN’)。
需要说明的,图像预识别模型至少包括特征提取层和类别识别层,特征提取层用于提取图像样本的特征,类别识别层用于根据特征提取层提取的特征预测图像样本的类别。
可选的,图像样本的特征向量是图像预识别模型的特征提取层提取的特征向量。
步骤三:基于第一图像样本的第一特征向量分别与该多个图像样本中的每个图像样本的第一特征向量,得到第一特征分布向量。其中,第一特征分布向量用于表征第一图像样本的第一特征向量与其他图像样本的第一特征向量的距离分布。
需要说明的,其他图像样本为多个图像样本中除第一图像样本之外的图像样本。
可选地,分别确定第一图像样本的第一特征向量与每个图像样本的第一特征向量的第一特征距离,并基于确定的多个第一特征距离得到第一图像样本的第一特征分布向量。例如,多个图像样本共包括N个图像样本,即图像样本1(以x1表示)、图像样本2(以x2表示)、……、图像样本N(以xN表示),分别确定图像样本1的第一特征向量与图像样本1、……、第N图像样本的第一特征向量的距离,共得到N个第一特征距离,基于该N个第一特征距离,得到图像样本1的第一特征分布向量。
在一种实施方式中,第一特征分布向量以distri(z1)表征,distri(z1)满足以下公式:distri(z1)=<d(z1,z1),d(z1,z2),……,d(z1,zN)>。其中,d(z1,z2)表示x1的第一特征向量(z1)到x2的第一特征向量(z2)的特征距离。特征距离的计算方式可以采用欧式距离、余弦距离、马氏距离、KL散度等任意衡量向量间距离的计算方法。
步骤四:基于第一图像样本的第二特征向量分别与该多个图像样本中的每个图像样本的第二特征向量,得到第二特征分布向量。其中,第二特征分布向量用于表征第一图像样本的第二特征向量与其他图像样本的第二特征向量的距离分布。
需要说明的,其他图像样本为多个图像样本中除第一图像样本之外的图像样本。
可选地,分别确定第一图图像样本的第二特征向量与每个图像样本的第二特征向量的第二特征距离,并基于确定的多个第二特征距离得到第一图像样本的第二特征分布向量。例如,多个图像样本共包括N个图像样本,即图像样本1(以x1表示)、图像样本2(以x2表示)、……、图像样本N(以xN表示),分别确定图像样本1的第二特征向量与图像样本1、……、第N图像样本的第二特征向量的距离,共得到N个第二特征距离,基于该N个第二特征距离,得到图像样本1的第二特征分布向量。
在一种实施方式中,第二特征分布向量以distri(z1’)表征,distri(z1’)满足以下公式:distri(z1’)=<d(z1’,z1’),d(z1’,z2’),…,d(z1’,zN’)>。其中,d(z1’,z2’)表示x1的第二特征向量(z1’)到x2的第二特征向量(z2’)的特征距离。
步骤五:基于第一特征分布向量和第二特征分布向量,得到第一图像样本的不确定度。
可选地,将第一特征分布向量与第二特征分布向量的特征距离,确定为第一图像样本的不确定度。
在一种实施方式中,第一图像样本的不确定度以Uncertainty(x1)表征。Uncertainty(x1)满足以下公式:Uncertainty(x1)=d(distri(z1),distri(z1’))。其中,d(distri(z1),distri(z1’))表征的是第一特征分布向量和第二特征分布向量的特征距离。
需要说明的,由于第一图像样本是多个图像样本中的任意一个图像样本,因此,多个图像样本中的每个图像样本的不确定度都可以采用上述步骤一至步骤五的方法进行确定。
在本申请中,如果有三个或三个以上的图像预识别模型,例如,有三个图像预识别模型,也即,至少两个图像预识别模型还包括第三图像预识别模型。则S401还包括:基于第三图像预识别模型提取每个图像样本的第三特征向量(方法可以参考步骤一或步骤二),并基于第一图像样本的第三特征向量分别与多个图像样本的每个图像样本的第三特征向量,得到第三特征分布向量(方法可以参考步骤三或步骤四),第三特征分布向量用于表征第一图像样本的第三特征向量与其他图像样本的第三特征向量的距离分布。进一步地,基于第一特征分布向量、第二特征分布向量和第三特征分布向量,得到第一图像样本的不确定度(方法可以参考步骤五)。
在有三个以上的图像预识别模型时,第四个图像预识别模型至第N个图像预识别模型的执行过程可以参考第三图像预识别模型,此处不再赘述。上述实施例中,通过至少两个图像预识别模型提取的每个图像样本的特征向量,确定每个图像样本的多个特征分布向量,并基于每个图像样本的多个特征分布向量,确定每个图像样本的不确定度。由于每个图像样本的特征向量是用于确定图像样本所属类别的参数,因此,基于图像样本的特征向量确定图像样本的特征分布向量,再基于特征分布向量确定图像预识别模型识别该图像样本的图像类别的不确定度,能够提高每个图像样本的不确定度的准确性,从而准确的筛选出高质量的原型样本。
可选的,结合图4,如图5所示,S403包括S403a-S403b。
S403a:确定每个图像类别的目标原型样本集合。
其中,多个图像类别包括第一图像类别,第一图像类别的目标原型样本集合至少包括第一原型样本,第一原型样本是第一图像类别的原型样本中不确定度最小的。
例如,图像类别A的原型样本包括图像样本1和第二图像样本2,图像样本1的不确定度小于第二图像样本的不确定度,图像类别B的原型样本包括图像样本3和图像样本4,图像样本3的不确定度小于图像样本4的不确定度,图像类别C的原型样本包括图像样本5、图像样本6和图像样本7,图像样本5的不确定度小于图像样本6、图像样本7的不确定度。基于此,将图像样本1确定为属于图像类别A的目标原型样本集合的元素,将图像样本3确定为属于图像类别B的目标原型样本集合的元素,图像样本5确定为属于图像类别C的目标原型样本集合的元素。
需要说明的,第一图像类别是多个图像类别中任意一个图像类别。因此,多个图像类别中每个图像类别的目标原型样本集合的确定方法,可以参考第一图像类别的目标原型样本集合的确定方法。
S403b:基于每个图像类别的目标原型样本集合,训练神经网络模型,得到图像识别模型。
在一种实施方式中,将每个图像类别的目标原型样本集合输入神经网络模型,对神经网络模型进行训练,以得到图像识别模型。
上述实施例中,通过对每个图像类别的原型样本进行筛选,使用每个图像类别中不确定度最小的原型样本,也即,每个图像类别中样本质量最高的原型样本,对神经网络模型进行训练,得到图像识别模型,进而降低模型训练过程中的数据量,减少模型训练的时间,降低模型训练的难度。
可选地,图像识别模型的训练方法还包括:
步骤一:确定第一图像类别中的第二原型样本与第一图像类别的目标原型样本集合的最小特征距离,第二原型样本是不属于第一图像类别的目标原型样本集合的原型样本。
其中,最小特征距离用于表征第二原型样本与目标原型样本集合中每个原型样本的特征距离中最小的特征距离。
例如,第一图像类别的目标原型样本集合包括元素1、元素2和元素3。第一图像类别的第二原型样本1与元素1的特征距离是X,第二原型样本1与元素2的特征距离是Y,第二原型样本1与元素3的特征距离是Z,其中,X小于Y、且X小于Z,因此,X为第二原型样本1的最小特征距离。
需要说明的,在第一图像类别的目标原型样本集合仅包括第一原型样本的情况下,第二原型样本1与第一原型样本的特征距离,即为第二原型样本1的最小特征距离。
进一步地,参考第二原型样本1的最小特征距离的确定方法,确定第一图像类别中的每个第二原型样本与第一图像类别的目标原型样本集合的最小特征距离。
步骤二:将最小特征距离最大的第二原型样本,确定为属于所述第一图像类别的目标原型样本集合的元素。
例如,第一图像类别包括3个第二原型样本:第二原型样本1、第二原型样本2和第二原型样本3,第二原型样本1的最小特征距离为Z1,第二原型样本2的最小特征距离为Z2,第二原型样本3的最小特征距离为Z3,其中,Z1小于Z2、且Z1小于Z3,因此,将第二原型样本1确定为属于第一图像类别的目标原型样本集合的元素。
步骤三:重复执行上述步骤一和步骤二,直至最大的最小特征距离小于等于第二预设阈值,或者第一图像类别的目标原型样本集合的元素数量等于第二预设数量。
在一种实施方式中,重复执行上述步骤一和步骤二,直至最大的最小特征距离小于等于第二预设阈值。例如,在重复执行上述步骤一第N次,第一图像类别的多个第二原型样本中的第二原型样本N的最小特征距离是最大,此时,如果第二原型样本N的最小特征距离小于第二预设阈值,则停止继续执行步骤二,且重复执行步骤一和步骤二的任务结束。
需要说明的,第一图像类别是多个图像类别中任意一个图像类别。因此,多个图像类别中每个图像类别的目标原型样本集合的确定方法,可以参考第一图像类别的目标原型样本集合的确定方法。
上述实施例中,通过将与目标原型样本集合之间的最小特征距离大于第二预设阈值的第二原型样本,确定为属于第一图像类别的目标原型样本集合的元素,从而剔除掉原型样本中与目标原型样本集合的最小特征距离比较小的原型样本,也即,剔除掉与目标原型样本集合相似度比较高的样本,从而实现过滤掉多个原型样本中冗余重复的原型样本,保留目标原型样本集合的多样性,进而提高模型训练的有效性,进而提高图像识别模型的鲁棒性。
在另一种实施方式中,重复执行上述步骤一和步骤二,直至第一图像类别的目标原型样本集合的数量等于第二预设数量。例如,在重复执行上述步骤一和步骤二M次后,第一图像类别的目标原型样本集合中的元素数量等于第二预设数量,此时,重复执行步骤一和步骤二的任务结束。
上述实施例中,通过将第二预设数量的最小特征距离最大的第二原型样本确定为属于第一图像类别的目标原型样本集合的元素,实现剔除掉原型样本中与目标原型样本集合的最小特征距离比较小的原型样本,也即,剔除掉与目标原型样本集合相似度比较高的样本,从而实现过滤掉多个原型样本中冗余重复的原型样本,保留目标原型样本集合的多样性,进而提高模型训练的有效性,进而提高图像识别模型的鲁棒性。
可选的,多个图像类别包括第二图像类别,第二图像类别可以是该多个图像类别中的任意一个图像类别。第二图像类别与上文中的第一图像类别可以相同,也可以不同。基于多个图像类别中每个图像类别的原型样本,训练神经网络模型,得到图像识别模型,包括:基于每个图像类别的原型样本和每个图像类别的原型样本的损失函数,训练神经网络模型,得到图像识别模型。其中,第二图像类别的原型样本的损失函数基于第一特征距离和第二特征距离确定,第一特征距离为第二图像类别中的每个图像样本与第二图像类别的原型样本之间的特征距离,第二特征距离为第二图像类别中每个图像样本与多个图像类别中其他图像类别的原型样本之间的特征距离。
可选地,将每个图像类别的原型样本输入神经网络模型,对神经网络模型进行训练,并通过每个图像类别的原型样本的损失函数约束神经网络模型的训练过程,以得到图像识别模型。
在一种实施方式中,每个图像类别的原型样本的损失函数以Lp表征,Lp满足以下公式:
其中,N表征多个图像样本的数量。第i个图像样本xi的特征向量为zi,第i个图像样本xi属于图像类别m,Pm是第m个图像类别的原型样本集合,z(Pm)表征原型样本集合Pm中所有原型样本的特征向量,其中,z(Pm)可以通过将Pm中的原型样本输入识别模型提取得到。d(zi,z(Pm))表征图像样本xi到同一类别(即图像类别m)的原型样本集合Pm的特征距离,例如,可使用图像样本xi到Pm中所有原型样本的最小特征距离的作为d(zi,z(Pm)),当然也可以采用其他度量单个图像样本到多个原型样本集合特征距离的方法。Pu表征距离图像样本xi的特征距离最小的原型样本集合,该原型样本集合是图像类别m之外的其它图像类别的原型样本集合。δ表征第四预设阈值。
可选地,还可以通过分类损失函数Lcls约束模型的训练过程。例如,Lcls可采用SoftMaX损失函数或者是交叉熵损失函数。通过使用分类损失函数Lcls和每个图像类别的原型样本的损失函数共同约束模型训练过程,能够优化模型训练过程,进而提高图像识别模型的特征提取能力,以及识别图像类别的准确性。
通过每个图像类别的原型样本的损失函数约束神经网络模型的训练过程,使得图像样本xi到图像类别m的原型样本集合Pm的特征距离小于第三预设阈值,例如,第三预设阈值大于或等于0、且小于δ,并且图像样本xi到其他图像类别(即多个图像类别中图像类别m之外的图像类别)的原型样本集合的特征距离大于第四预设阈值,例如,第四预设阈值为δ。需要说明的,第二图像类别是多个图像类别中任意一个图像类别。因此,多个图像类别中每个图像类别的原型样本的损失函数的确定方法,可以参考第二图像类别的原型样本的损失函数的确定方法。
上述实施例中,通过每个图像类别的原型样本的损失函数约束神经网络模型的训练过程,从而实现已知的不同图像类别的图像样本的特征距离尽量拉远,从而让未知类别的图像样本有更大的概率落在不同的已知图像类别之间的区域,进而有助于更好地区分已知类别样本和未知类别样本。
上述主要从方法的角度对本申请实施例的方案进行了介绍。可以理解的是,计算机设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和软件模块中的至少一个。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对计算机设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
示例性的,图6示出了上述实施例中所涉及的图像识别模型的训练装置(记为图像识别模型的训练装置60)的一种可能的结构示意图,该图像识别模型的训练装置60包括识别单元601、确定单元602和训练单元603。识别单元601,用于基于至少两个图像预识别模型,确定多个图像样本中每个图像样本的不确定度;其中,不确定度用于表征至少两个图像识别模型识别图像类别的不确定性;至少两个图像预识别模型均用于从相同的多个图像类别中确定待识别图像的类别。例如,图4所示的S401。确定单元602,用于将多个图像样本中的不确定度小于等于第一预设阈值的第一目标图像样本,确定为第一目标图像样本所属图像类别的原型样本,或将多个图像样本中的不确定度小于其他图像样本的第一预设数量的第二目标图像样本,确定为第二目标图像样本所属图像类别的原型样本。例如,图4所示的S402。训练单元603,用于基于多个图像类别中每个图像类别的原型样本,训练神经网络模型,得到图像识别模型;其中,图像识别模型用于从多个图像类别中确定待识别图像的类别,或者确定待识别图像的类别不属于多个图像类别。例如,图4所示的S403,以及图5所示的S403a-S403b。
可选的,至少两个图像预识别模型包括第一图像预识别模型和第二图像预识别模型,多个图像样本包括第一图像样本;识别单元601具体用于:基于第一图像预识别模型提取每个图像样本的第一特征向量;其中,第一特征向量用于第一图像预识别模型从多个图像类别中确定待识别图像的类别;基于第二图像预识别模型提取每个图像样本的第二特征向量;其中,第二特征向量用于第二图像预识别模型从多个图像类别中确定待识别图像的类别;基第一图像样本的第一特征向量分别与每个图像样本的第一特征向量,得到第一特征分布向量;其中,第一特征分布向量用于表征第一图像样本的第一特征向量与其他图像样本的第一特征向量的距离分布;基于第一图像样本的第二特征向量分别与每个图像样本的第二特征向量,得到第二特征分布向量;其中,第二特征分布向量用于表征第一图像样本的第二特征向量与其他图像样本的第二特征向量的距离分布;基于第一特征分布向量和第二特征分布向量,得到第一图像样本的不确定度。
可选的,训练单元603,具体用于确定每个图像类别的目标原型样本集合,多个图像类别包括第一图像类别,第一图像类别的目标原型样本集合至少包括第一原型样本,第一原型样本是第一图像类别的原型样本中不确定度最小的;基于每个图像类别的目标原型样本集合,训练神经网络模型,得到图像识别模型。
可选的,训练单元603还用于:确定第一图像类别中的第二原型样本与第一图像类别的目标原型样本集合的最小特征距离,第二原型样本是不属于第一图像类别的目标原型样本集合的原型样本;将最小特征距离最大的第二原型样本,确定为属于第一图像类别的目标原型样本集合的元素;重复执行上述步骤,直至最大的最小特征距离小于等于第二预设阈值,或者第一图像类别的目标原型样本集合的元素数量等于第二预设数量。
可选的,多个图像类别包括第二图像类别,训练单元603,具体用于基于每个图像类别的原型样本和每个图像类别的原型样本的损失函数,训练神经网络模型,得到图像识别模型;其中,第二图像类别的原型样本的损失函数基于第一特征距离和第二特征距离确定,第一特征距离为第二图像类别中的每个图像样本与第二图像类别的原型样本之间的特征距离,第二特征距离为第二图像类别中每个图像样本与多个图像类别中其他图像类别的原型样本之间的特征距离。
关于上述可选方式的具体描述可以参见前述的方法实施例,此处不再赘述。此外,上述提供的任一种计算机设备60的解释以及有益效果的描述均可参考上述对应的方法实施例,不再赘述。
作为示例,结合图3,图像识别模型的训练60中的识别单元601、确定单元602和训练单元603中的部分或全部实现的功能可以通过图3中的处理器301执行图3中的存储器302中的程序代码实现。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当该计算机程序在计算机上运行时,使得该计算机执行上文提供的任一种计算机设备所执行的方法。
关于上述提供的任一种计算机可读存储介质中相关内容的解释及有益效果的描述,均可以参考上述对应的实施例,此处不再赘述。
本申请实施例还提供了一种芯片。该芯片中集成了用于实现上述计算机设备60的功能的控制电路和一个或者多个端口。可选的,该芯片支持的功能可以参考上文,此处不再赘述。本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可通过程序来指令相关的硬件完成。的程序可以存储于一种计算机可读存储介质中。上述提到的存储介质可以是只读存储器,随机接入存储器等。上述处理单元或处理器可以是中央处理器,通用处理器、特定集成电路(application specific integrated circuit,ASIC)、微处理器(digital signal processor,DSP),现场可编程门阵列(field programmable gatearray,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。
本申请实施例还提供了一种包含指令的计算机程序产品,当该指令在计算机上运行时,使得计算机执行上述实施例中的任意一种方法。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如SSD)等。
应注意,本申请实施例提供的上述用于存储计算机指令或者计算机程序的器件,例如但不限于,上述存储器、计算机可读存储介质和通信芯片等,均具有非易失性(non-transitory)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看附图、公开内容、以及所附权利要求书,可理解并实现公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
尽管结合具体特征及其实施例对本申请进行了描述,显而易见的,在不脱离本申请的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种图像识别模型的训练方法,其特征在于,包括:
基于至少两个图像预识别模型,确定多个图像样本中每个图像样本的不确定度;其中,所述不确定度用于表征所述至少两个图像预识别模型识别图像类别的不确定性;所述至少两个图像预识别模型均用于从相同的多个图像类别中确定待识别图像的类别;
将所述多个图像样本中的不确定度小于等于第一预设阈值的第一目标图像样本,确定为所述第一目标图像样本所属图像类别的原型样本,或将多个图像样本中的不确定度小于其他图像样本的第一预设数量的第二目标图像样本,确定为所述第二目标图像样本所属图像类别的原型样本;
基于所述多个图像类别中每个图像类别的原型样本,训练神经网络模型,得到图像识别模型;其中,所述图像识别模型用于从所述多个图像类别中确定待识别图像的类别,或者确定所述待识别图像的类别不属于所述多个图像类别。
2.根据权利要求1所述的方法,其特征在于,所述至少两个图像预识别模型包括第一图像预识别模型和第二图像预识别模型,所述多个图像样本包括第一图像样本;所述基于至少两个图像预识别模型,确定多个图像样本中每个图像样本的不确定度,包括:
基于所述第一图像预识别模型提取所述每个图像样本的第一特征向量;其中,所述第一特征向量用于所述第一图像预识别模型从所述多个图像类别中确定待识别图像的类别;
基于所述第二图像预识别模型提取所述每个图像样本的第二特征向量;其中,所述第二特征向量用于所述第二图像预识别模型从所述多个图像类别中确定待识别图像的类别;
基于所述第一图像样本的第一特征向量分别与所述每个图像样本的第一特征向量,得到第一特征分布向量;其中,所述第一特征分布向量用于表征所述第一图像样本的第一特征向量与其他图像样本的第一特征向量的距离分布;
基于所述第一图像样本的第二特征向量分别与所述每个图像样本的第二特征向量,得到第二特征分布向量;其中,所述第二特征分布向量用于表征所述第一图像样本的第二特征向量与其他图像样本的第二特征向量的距离分布;
基于所述第一特征分布向量和所述第二特征分布向量,得到所述第一图像样本的不确定度。
3.根据权利要求1或2所述的方法,其特征在于,所述基于多个图像类别中每个图像类别的原型样本,训练神经网络模型,得到图像识别模型,包括:
确定所述每个图像类别的目标原型样本集合,所述多个图像类别包括第一图像类别,所述第一图像类别的目标原型样本集合至少包括第一原型样本,所述第一原型样本是所述第一图像类别的原型样本中不确定度最小的;
基于所述每个图像类别的目标原型样本集合,训练神经网络模型,得到图像识别模型。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
确定所述第一图像类别中的第二原型样本与所述第一图像类别的目标原型样本集合的最小特征距离,所述第二原型样本是不属于所述第一图像类别的目标原型样本集合的原型样本;
将最小特征距离最大的第二原型样本,确定为属于所述第一图像类别的目标原型样本集合的元素;
重复执行上述步骤,直至最大的最小特征距离小于等于第二预设阈值,或者所述第一图像类别的目标原型样本集合的元素数量等于第二预设数量。
5.根据权利要求1所述的方法,其特征在于,所述多个图像类别包括第二图像类别,所述基于多个图像类别中每个图像类别的原型样本,训练神经网络模型,得到图像识别模型,包括:
基于所述每个图像类别的原型样本和所述每个图像类别的原型样本的损失函数,训练神经网络模型,得到图像识别模型;其中,所述第二图像类别的原型样本的损失函数基于第一特征距离和第二特征距离确定,所述第一特征距离为所述第二图像类别中的每个图像样本与所述第二图像类别的原型样本之间的特征距离,所述第二特征距离为所述第二图像类别中每个图像样本与所述多个图像类别中其他图像类别的原型样本之间的特征距离。
6.一种图像识别模型的训练装置,其特征在于,包括:
识别单元,用于基于至少两个图像预识别模型,确定多个图像样本中每个图像样本的不确定度;其中,所述不确定度用于表征所述至少两个图像预识别模型识别图像类别的不确定性;所述至少两个图像预识别模型均用于从相同的多个图像类别中确定待识别图像的类别;
确定单元,用于将所述多个图像样本中的不确定度小于等于第一预设阈值的第一目标图像样本,确定为所述第一目标图像样本所属图像类别的原型样本,或将多个图像样本中的不确定度小于其他图像样本的第一预设数量的第二目标图像样本,确定为所述第二目标图像样本所属图像类别的原型样本;
训练单元,用于基于所述多个图像类别中每个图像类别的原型样本,训练神经网络模型,得到图像识别模型;其中,所述图像识别模型用于从所述多个图像类别中确定待识别图像的类别,或者确定所述待识别图像的类别不属于所述多个图像类别。
7.根据权利要求6所述的装置,其特征在于,所述至少两个图像预识别模型包括第一图像预识别模型和第二图像预识别模型,所述多个图像样本包括第一图像样本;所述识别单元具体用于:
基于所述第一图像预识别模型提取所述每个图像样本的第一特征向量;其中,所述第一特征向量用于所述第一图像预识别模型从所述多个图像类别中确定待识别图像的类别;
基于所述第二图像预识别模型提取所述每个图像样本的第二特征向量;其中,所述第二特征向量用于所述第二图像预识别模型从所述多个图像类别中确定待识别图像的类别;
基于所述第一图像样本的第一特征向量分别与所述每个图像样本的第一特征向量,得到第一特征分布向量;其中,所述第一特征分布向量用于表征所述第一图像样本的第一特征向量与其他图像样本的第一特征向量的距离分布;
基于所述第一图像样本的第二特征向量分别与所述每个图像样本的第二特征向量,得到第二特征分布向量;其中,所述第二特征分布向量用于表征所述第一图像样本的第二特征向量与其他图像样本的第二特征向量的距离分布;
基于所述第一特征分布向量和所述第二特征分布向量,得到所述第一图像样本的不确定度。
8.根据权利要求7所述的装置,其特征在于,
所述训练单元,具体用于确定所述每个图像类别的目标原型样本集合,所述多个图像类别包括第一图像类别,所述第一图像类别的目标原型样本集合至少包括第一原型样本,所述第一原型样本是所述第一图像类别的原型样本中不确定度最小的;基于所述每个图像类别的目标原型样本集合,训练神经网络模型,得到图像识别模型;
所述训练单元还用于:确定所述第一图像类别中的第二原型样本与所述第一图像类别的目标原型样本集合的最小特征距离,所述第二原型样本是不属于所述第一图像类别的目标原型样本集合的原型样本;将最小特征距离最大的第二原型样本,确定为属于所述第一图像类别的目标原型样本集合的元素;重复执行上述步骤,直至最大的最小特征距离小于等于第二预设阈值,或者所述第一图像类别的目标原型样本集合的元素数量等于第二预设数量;
所述多个图像类别包括第二图像类别,所述训练单元,具体用于基于所述每个图像类别的原型样本和所述每个图像类别的原型样本的损失函数,训练神经网络模型,得到图像识别模型;其中,所述第二图像类别的原型样本的损失函数基于第一特征距离和第二特征距离确定,所述第一特征距离为所述第二图像类别中的每个图像样本与所述第二图像类别的原型样本之间的特征距离,所述第二特征距离为所述第二图像类别中每个图像样本与所述多个图像类别中其他图像类别的原型样本之间的特征距离。
9.一种计算机设备,其特征在于,包括:处理器;
所述处理器与存储器连接,所述存储器用于存储计算机执行指令,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述计算机设备实现如权利要求1-5任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,当所述计算机指令在计算机上运行时,使得所述计算机执行权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111583676.4A CN114330522A (zh) | 2021-12-22 | 2021-12-22 | 图像识别模型的训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111583676.4A CN114330522A (zh) | 2021-12-22 | 2021-12-22 | 图像识别模型的训练方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114330522A true CN114330522A (zh) | 2022-04-12 |
Family
ID=81055577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111583676.4A Pending CN114330522A (zh) | 2021-12-22 | 2021-12-22 | 图像识别模型的训练方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114330522A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114997248A (zh) * | 2022-07-29 | 2022-09-02 | 杭州电子科技大学 | 一种基于原型学习的开放集干扰识别模型和方法 |
CN115035463A (zh) * | 2022-08-09 | 2022-09-09 | 阿里巴巴(中国)有限公司 | 行为识别方法、装置、设备和存储介质 |
CN116188460A (zh) * | 2023-04-24 | 2023-05-30 | 青岛美迪康数字工程有限公司 | 基于运动矢量的图像识别方法、装置和计算机设备 |
CN116229159A (zh) * | 2023-02-02 | 2023-06-06 | 中国科学院自动化研究所 | 基于前景子空间的开放集目标检测方法和装置 |
-
2021
- 2021-12-22 CN CN202111583676.4A patent/CN114330522A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114997248A (zh) * | 2022-07-29 | 2022-09-02 | 杭州电子科技大学 | 一种基于原型学习的开放集干扰识别模型和方法 |
CN114997248B (zh) * | 2022-07-29 | 2022-11-08 | 杭州电子科技大学 | 一种基于原型学习的开放集干扰识别模型和方法 |
CN115035463A (zh) * | 2022-08-09 | 2022-09-09 | 阿里巴巴(中国)有限公司 | 行为识别方法、装置、设备和存储介质 |
CN115035463B (zh) * | 2022-08-09 | 2023-01-17 | 阿里巴巴(中国)有限公司 | 行为识别方法、装置、设备和存储介质 |
CN116229159A (zh) * | 2023-02-02 | 2023-06-06 | 中国科学院自动化研究所 | 基于前景子空间的开放集目标检测方法和装置 |
CN116188460A (zh) * | 2023-04-24 | 2023-05-30 | 青岛美迪康数字工程有限公司 | 基于运动矢量的图像识别方法、装置和计算机设备 |
CN116188460B (zh) * | 2023-04-24 | 2023-08-25 | 青岛美迪康数字工程有限公司 | 基于运动矢量的图像识别方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114330522A (zh) | 图像识别模型的训练方法、装置、设备及存储介质 | |
CN109376615B (zh) | 用于提升深度学习网络预测性能的方法、装置及存储介质 | |
CN110188641B (zh) | 图像识别和神经网络模型的训练方法、装置和系统 | |
US20240070554A1 (en) | Optimizing training data for image classification | |
CN109117879B (zh) | 图像分类方法、装置及系统 | |
CN109376786A (zh) | 一种图像分类方法、装置、终端设备及可读存储介质 | |
CN104539484B (zh) | 一种动态评估网络连接可信度的方法及系统 | |
CN111523621A (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN110046706B (zh) | 模型生成方法、装置及服务器 | |
WO2019051941A1 (zh) | 车型识别方法、装置、设备及计算机可读存储介质 | |
CN110046634B (zh) | 聚类结果的解释方法和装置 | |
KR20170109304A (ko) | 객체 인식을 위한 캐스케이드 분류기의 병렬 학습 방법 | |
CN112232300A (zh) | 全局遮挡自适应的行人训练/识别方法、系统、设备及介质 | |
CN112115996B (zh) | 图像数据的处理方法、装置、设备及存储介质 | |
CN112149754A (zh) | 一种信息的分类方法、装置、设备及存储介质 | |
CN112101114A (zh) | 一种视频目标检测方法、装置、设备以及存储介质 | |
CN110135428B (zh) | 图像分割处理方法和装置 | |
CN105678333B (zh) | 一种拥挤区域的确定方法和装置 | |
CN112418256A (zh) | 分类、模型训练、信息搜索方法、系统及设备 | |
CN110659631A (zh) | 车牌识别方法和终端设备 | |
CN112488012A (zh) | 行人属性识别方法、电子设备及存储介质 | |
CN111177388A (zh) | 一种处理方法及计算机设备 | |
WO2016149937A1 (en) | Neural network classification through decomposition | |
CN115170838A (zh) | 一种数据筛选方法及装置 | |
KR102060110B1 (ko) | 컨텐츠에 포함되는 객체를 분류하는 방법, 장치 및 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |