CN116978079A - 一种图像识别方法、装置、电子设备和存储介质 - Google Patents
一种图像识别方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN116978079A CN116978079A CN202210396887.5A CN202210396887A CN116978079A CN 116978079 A CN116978079 A CN 116978079A CN 202210396887 A CN202210396887 A CN 202210396887A CN 116978079 A CN116978079 A CN 116978079A
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- fusion
- sampling
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 238000003860 storage Methods 0.000 title claims abstract description 30
- 230000004927 fusion Effects 0.000 claims abstract description 210
- 238000005070 sampling Methods 0.000 claims abstract description 190
- 238000012549 training Methods 0.000 claims description 86
- 238000000605 extraction Methods 0.000 claims description 45
- 230000015654 memory Effects 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 41
- 238000004590 computer program Methods 0.000 claims description 34
- 230000008569 process Effects 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 19
- 238000002372 labelling Methods 0.000 claims description 18
- 230000006978 adaptation Effects 0.000 claims description 14
- 238000010586 diagram Methods 0.000 description 32
- 238000013473 artificial intelligence Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 11
- 210000000887 face Anatomy 0.000 description 9
- 230000001965 increasing effect Effects 0.000 description 9
- 230000004913 activation Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 210000001508 eye Anatomy 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 210000000697 sensory organ Anatomy 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005549 size reduction Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及计算机技术领域,尤其涉及一种图像识别方法、装置、电子设备和存储介质,用以提高对卡通人脸识别的效率和准确率。其中,方法包括:对待识别图像进行特征提取,获得不同尺度的至少两个采样特征;基于至少两个采样特征,进行不同尺度的多尺度特征融合,获得至少一个融合特征,并将至少一个融合特征和至少两个采样特征中符合目标尺度的采样特征,作为待加权特征;基于各个待加权特征及各自对应的预设权重,获得目标特征;基于目标特征对待识别图像进行识别,获得待识别图像包含的对象。由于本申请通过对不同尺度的采样特征进行多尺度特征融合,并基于获得的目标特征获得待识别图像包含的对象,能够提高对卡通人脸识别的效率和准确率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种图像识别方法、装置、电子设备和存储介质。
背景技术
随着对知识产权,品牌保护的重视程度增加,在多媒体内容发布前的内容审核需求也日益提升,例如,对多媒体内容中的卡通人脸进行审核,以实现多媒体内容的版权保护,该过程就需要对其中的卡通人脸进行识别。
如图1所示的卡通人脸图像,其中不同卡通人物的卡通人脸可以为不同尺度。由于这种类型的卡通人脸,通常是通过二次元方式绘制得到的,五官比例大小是任意设计的,因而无法通过检测自然人脸关键点的方式进行识别。
在相关技术中,为了提高不同尺度卡通人脸的识别准确率,主要通过对卡通人脸图像进行不同尺度的增强,获得大量训练样本,并在此基础上对卡通人脸识别模型进行训练,以实现不同尺度的卡通人脸识别。
但是,采用上述方式对卡通人脸进行识别时,由于采用增强方式引入了大量的训练样本,因此,模型训练过程复杂,耗时过长,识别效率较低。
因此,如何提高对卡通人脸识别的效率和准确率成为目前亟待解决的问题。
发明内容
本申请实施例提供一种图像识别方法、装置、电子设备和存储介质,用以提高对卡通人脸识别的效率和准确率。
本申请实施例提供的一种图像识别方法,包括:
对待识别图像进行特征提取,获得具有不同尺度的至少两个采样特征;
基于所述至少两个采样特征,进行所述不同尺度之间的多尺度特征融合,获得至少一个融合特征,并将所述至少一个融合特征和所述至少两个采样特征中符合目标尺度的采样特征,均作为待加权特征;
基于各个待加权特征及其各自对应的预设权重,获得目标特征;
基于所述目标特征对所述待识别图像进行识别,获得所述待识别图像包含的至少一个对象。
本申请实施例提供的一种图像识别装置,包括:
提取单元,用于对待识别图像进行特征提取,获得具有不同尺度的至少两个采样特征;
融合单元,用于基于所述至少两个采样特征,进行所述不同尺度之间的多尺度特征融合,获得至少一个融合特征,并将所述至少一个融合特征和所述至少两个采样特征中符合目标尺度的采样特征,均作为待加权特征;
加权单元,用于基于各个待加权特征及其各自对应的预设权重,获得目标特征;
识别单元,用于基于所述目标特征对所述待识别图像进行识别,获得所述待识别图像包含的至少一个对象。
可选的,通过以下方式基于所述特征融合网络进行多尺度特征融合,获得所述融合特征:
通过所述特征融合网络的上采样层对两个待融合特征中尺度较低的特征进行上采样,获得对应的第一中间特征,所述两个待融合特征为:所述两个不同尺度的采样特征,或者,上一轮次获得的融合特征与对应的采样特征;
通过所述特征融合网络的通道适配层,将所述两个待融合特征中尺度较高的特征与所述上采样特征进行通道数统一,获得对应的第二中间特征;
将所述第一中间特征和所述第二中间特征进行相加融合,获得对应的融合特征。
可选的,所述加权单元具体用于:
将所述各个待加权特征输入已训练的图像识别模型的映射网络进行特征映射,获得权重特征;
对所述权重特征进行归一化操作,获得所述各个待加权特征各自对应的预设权重;
基于各个预设权重与对应的待加权特征进行特征加权融合,获得所述目标特征。
可选的,所述装置还包括调整单元,用于:
对所述各个待加权特征进行尺度调整,获得统一尺度后的各个待加权特征;
所述加权单元具体用于:
基于各个预设权重与对应的统一尺度后的待加权特征进行特征加权融合,获得目标特征。
可选的,所述提取单元具体用于,包括:
将所述待识别图像输入已训练的图像识别模型的特征提取网络;
基于所述特征提取网络中的多个下采样层,对所述待识别图像进行逐层下采样,获得各个下采样层各自输出的采样特征,不同的下采样层输出的采样特征的尺度不同。
可选的,所述符合目标尺度的采样特征为所述特征提取网络中的最后一个下采样层输出的采样特征。
可选的,通过以下方式获得所述已训练的图像识别模型:
获取训练样本集,所述训练样本集包括多个训练样本,每个训练样本包含一个样本图像,以及所述样本图像对应的真实标注信息,所述真实标注信息用于标记所述样本图像中包含的对象,所述多个训练样本中的样本图像包含的对象为不同尺度;
基于所述训练样本集对待训练图像识别模型进行循环迭代训练,获得所述已训练的图像识别模型;其中,在一次循环迭代过程中,执行以下操作:
将选取的训练样本输入所述待训练图像识别模型,获得所述训练样本中包含的对象的预测标注信息;
基于所述预测标注信息和相应的真实标注信息之间的差异,构建损失函数,对所述待训练的图像识别模型进行参数调整。
本申请实施例提供的一种电子设备,包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述任意一种图像识别方法的步骤。
本申请实施例提供一种计算机可读存储介质,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行上述任意一种图像识别方法的步骤。
本申请实施例提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中;当电子设备的处理器从计算机可读存储介质读取所述计算机程序时,所述处理器执行所述计算机程序,使得所述电子设备执行上述任意一种图像识别方法的步骤。
本申请有益效果如下:
本申请实施例提供了一种图像识别方法、装置、电子设备和存储介质,由于本申请通过对待识别图像进行特征提取,获得具有不同尺度的至少两个采样特征,并基于至少两个采样特征,进行不同尺度之间的多尺度特征融合,能够对待识别图像进行特征维度的多尺度增强;进而,将获得的至少一个融合特征和至少两个采样特征中符合目标尺度的采样特征,均作为待加权特征;然后,基于各个待加权特征及其各自对应的预设权重,获得目标特征,通过预设权重充分平衡不同待加权特征之间的尺度差异,提高对多尺度图像识别的准确率,最后,基于目标特征对待识别图像进行识别,获得包含的至少一个对象。通过上述方式获得待识别图像包含的对象,相比于相关技术中使用大量训练样本训练识别模型的方式,识别过程简单,仅需增加少量参数进行特征融合,在提高识别准确率的同时,无需耗费大量时间进行模型训练,有效提高识别效率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为相关技术中的一种不同尺度的卡通人脸图像示意图;
图2为相关技术中的一种图像多尺度增强方法的结构示意图;
图3为本申请实施例中的一种应用场景的一个可选的示意图;
图4为本申请实施例中的一种图像识别方法的实施流程图;
图5为本申请实施例中的一种特征提取网络的结构示意图;
图6为本申请实施例中的一种特征加权融合网络的结构示意图;
图7A为本申请实施例中的一种基于特征金字塔的网络结构示意图;
图7B为本申请实施例中的另一种基于特征金字塔的网络结构示意图;
图8为本申请实施例中的一种卡通人脸识别模型的训练流程示意图;
图9为本申请实施例中的一种卡通人脸识别方法的整体流程示意图;
图10为本申请实施例中的一种图像识别方法的逻辑示意图;
图11为本申请实施例中的一种图像识别装置的结构示意图;
图12为应用本申请实施例的一种电子设备的一个硬件组成结构示意图;
图13为应用本申请实施例的另一种电子设备的一个硬件组成结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
下面对本申请实施例中涉及的部分概念进行介绍。
图像尺度:指图像在不同比例下的表示,对现实中物体的描述一定要在对自然界建模时的尺度下描述,例如,一棵树只有在几厘米至几米的距离下观察才能被描述为一棵树,而在微米级的距离下观察则只能得到细胞的概念,而在进行图像识别时,对于图像中包含的对象,需要在不同的尺度下均能准确识别。
采样特征:指对图像进行特征提取获得的特征,可以通过下采样网络获得采样特征,一般包含卷积计算、非线性激活函数和池化计算等操作,在本申请实施例中,以经过一次下采样获得的采样特征的尺寸缩小一半为例,例如,将64*64的图像输入下采样网络,下采样后输出的特征为32*32。
融合特征:指对两个待融合特征进行特征融合后获得的特征,在本申请实施例中,两个待融合特征可以是两个采样特征,也可以是一个融合特征和一个采样特征。在本申请实施例中,一种可选的特征融合的方式为将两个待融合特征进行相加融合,并且在相加融合前需要通过上采样将两个待融合特征的尺度统一,并通过通道适配将两个待融合特征的通道数统一。
待加权特征:指需要基于预设权重进行特征加权融合的特征,在本申请实施例中,待加权特征包括融合特征和目标尺度的采样特征,不同的待加权特征的尺度也不相同。
本申请实施例涉及人工智能(Artificial Intelligence,AI)、自然语言处理(Nature Language processing,NLP)和机器学习技术(Machine Learning,ML),基于人工智能中的计算机视觉技术和机器学习而设计。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本申请实施例中的图像识别模型就是采用机器学习或深度学习技术训练得到的。基于本申请实施例中的图像识别方法,可以提高对不同尺度的图像中的卡通人脸识别的准确率和效率。
下面对本申请实施例的设计思想进行简要介绍:
随着对知识产权,品牌保护的重视程度增加,在多媒体内容发布前的内容审核需求也日益提升,例如,对多媒体内容中的卡通人脸进行审核,以实现多媒体内容的版权保护,该过程就需要对其中的卡通人脸进行识别。如图1所示的卡通人脸图像,其中不同卡通人物的卡通人脸可以为不同尺度。由于这种类型的卡通人脸,通常是通过二次元方式绘制得到的,五官比例大小是任意设计的,因而无法通过检测自然人脸关键点的方式进行识别。
由于卡通人脸图像存在输入尺度不统一的问题,但要求实际部署在业务中的卡通人脸识别模型对各个尺度的数据均能稳定识别,在相关技术中,为了提高不同尺度卡通人脸的识别准确率,主要通过以下方式提升卡通人脸识别准确率:
方式一:收集大量的卡通人脸数据,对卡通人脸识别模型进行网络深度和宽度上的加大,从而提升其识别的准确率;
方式二:采用图像金字塔的方式,对图像进行不同尺度的增强,获得大量训练样本,并引入不同尺度的识别模型对其进行特征提取,在此基础上对卡通人脸识别模型进行训练,以实现不同尺度的卡通人脸识别。
但是,基于上述方式一进行卡通人脸识别,卡通人脸数据收集与标注需要耗费巨大的资源,且其无法达到与真实人脸图片相当的数据规模,并且加大识别模型的方式为提升准确率的常规性的做法,但是在一些前向推理速度要求较高的应用场景中,模型过大导致耗时要求无法满足;基于上述方式二进行卡通人脸识别,如图2所示,采用图像金字塔的方式对待识别图像进行多尺度增强。一方面,该方式需要对输入图片进行多尺度采样,运行时需要产生多张图片,大大增加存储消耗,另一方面,由于不同尺度的图片分开训练不同的模型,存在耗时大大增加的问题,识别效率较低,并且由于引入不同尺度的模型进行特征提取,需要对各个模型之间的权重比例进行调整,确定权重超参数影响相应的训练周期,且调整无法方便进行。因此,如何提高对卡通人脸识别的效率和准确率成为目前亟待解决的问题。
有鉴于此,本申请实施例提供了一种图像识别方法、装置、电子设备和存储介质,通过对待识别图像进行特征提取,获得具有不同尺度的至少两个采样特征;并基于至少两个采样特征,进行不同尺度之间的多尺度特征融合,能够对待识别图像进行特征维度的多尺度增强;进而,将获得的至少一个融合特征和至少两个采样特征中符合目标尺度的采样特征,均作为待加权特征;然后,基于各个待加权特征及其各自对应的预设权重,获得目标特征,通过预设权重充分平衡不同待加权特征之间的尺度差异,提高对多尺度图像识别的准确率,最后,基于目标特征对待识别图像进行识别,获得包含的至少一个对象。通过上述方式获得待识别图像包含的对象,相比于相关技术中使用大量训练样本训练识别模型的方式,识别过程简单,仅需增加少量参数进行特征融合,在提高识别准确率的同时,无需耗费大量时间进行模型训练,有效提高识别效率。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图3所示,其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备310和一个服务器320。
在本申请实施例中,终端设备310包括但不限于手机、平板电脑、笔记本电脑、台式电脑、电子书阅读器、智能语音交互设备、智能家电、车载终端等设备;终端设备上可以安装有图像识别相关的客户端,该客户端可以是软件(例如浏览器、短视频软件等),也可以是网页、小程序等,服务器320则是与软件或是网页、小程序等相对应的后台服务器,或者是专门用于进行图像识别的服务器,本申请不做具体限定。服务器320可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
需要说明的是,本申请实施例中的图像识别方法可以由电子设备执行,该电子设备可以为服务器320或者终端设备310,即,该方法可以由服务器320或者终端设备310单独执行,也可以由服务器320和终端设备310共同执行。比如由服务器320和终端设备310共同执行时,终端设备310获取待识别图像,并将待识别图像发送给服务器320,服务器320对待识别图像进行特征提取,获得具有不同尺度的至少两个采样特征;基于至少两个采样特征,进行不同尺度之间的多尺度特征融合,获得至少一个融合特征,并将至少一个融合特征和至少两个采样特征中符合目标尺度的采样特征,均作为待加权特征;基于各个待加权特征及其各自对应的预设权重,获得目标特征;基于目标特征对待识别图像进行识别,获得待识别图像包含的至少一个对象。服务器320将获得的待识别图像包含的对象发送给终端设备310,以使终端设备310对待识别图像中的对象进行内容审核。
在一种可选的实施方式中,终端设备310与服务器320之间可以通过通信网络进行通信。
在一种可选的实施方式中,通信网络是有线网络或无线网络。
需要说明的是,图3所示只是举例说明,实际上终端设备和服务器的数量不受限制,在本申请实施例中不做具体限定。
本申请实施例中,当服务器的数量为多个时,多个服务器可组成为一区块链,而服务器为区块链上的节点;如本申请实施例所公开的图像识别方法,其中所涉及的待识别图像可保存于区块链上。
此外,本申请实施例可应用于各种场景,不仅包括图像识别场景,还包括但不限于云技术、人工智能、智慧交通、辅助驾驶等场景。例如,当本申请应用于人工智能场景时,当用户通过社交网站发布图像时,可以基于本申请中的图像识别方法,在发布前对图像进行内容审核,确定图像中包含的对象是否存在版权问题。
下面结合上述描述的应用场景,参考附图来描述本申请示例性实施方式提供的图像识别方法,需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。
参阅图4所示,为本申请实施例提供的一种图像识别方法的实施流程图,以执行主体为服务器为例,该方法的具体实施流程包括如下步骤S41-S44:
S41:服务器对待识别图像进行特征提取,获得具有不同尺度的至少两个采样特征;
其中,对待识别图像进行特征提取主要是针对图片中包含的对象进行空间特征的提取,获得的采样特征包含待识别图像的空间结构信息,以待识别图像1为例,进行特征提取获得的采样特征可以有两个,分别为尺度为32*32的采样特征1和尺度为64*64的采样特征2。
在一种可选的实施方式中,基于以下方式实施步骤S41:
将待识别图像输入已训练的图像识别模型的特征提取网络;基于特征提取网络中的多个下采样层,对待识别图像进行逐层下采样,获得各个下采样层各自输出的采样特征。
其中,不同的下采样层输出的采样特征的尺度不同。例如,当特征提取网络包含4个下采样层时,则对待识别图像进行逐层下采样为:首先通过下采样层1对待识别图像进行下采样获得采样特征1,然后将采样特征1输入下采样层2进行下采样获得采样特征2,将采样特征2输入下采样层3进行下采样获得采样特征3,将采样特征3输入下采样层4进行下采样获得采样特征4。每进行一次下采样,特征尺度缩小一倍,例如,若待识别图像的尺度为256*256,则采样特征1为128*128,采样特征1-4的尺度不同。
在本申请实施例中,通过特征提取网络对待识别图像进行逐层下采样,获得多个采样特征,能够获得待识别图像更加丰富的特征,增强对待识别图像全局的信息获取,提高对待识别图像的识别准确率。
参阅图5,其为本申请实施例中的一种特征提取网络的结构示意图,该网络从输入图片至输出特征一般具有4个下采样层,每个下采样层内部的各个卷积层输出尺寸一致,每个阶段保留固定的特征尺度,经过一次下采样后特征尺度缩小一倍,通道数增加一倍,每个下采样层均输出一个采样特征。
S42:服务器基于至少两个采样特征,进行不同尺度之间的多尺度特征融合,获得至少一个融合特征,并将至少一个融合特征和至少两个采样特征中符合目标尺度的采样特征,均作为待加权特征;
其中,目标尺度可以是指定数值,例如,目标尺度为128*128,则将128*128的采样特征作为加权特征,目标尺度也可以是程度表示,例如,采样特征1为128*128,采样特征2为64*64,采样特征3为32*32,采样特征4为16*16,目标尺度为最小尺度,则符合目标尺度的采样特征为采样特征4。
在一种可选的实施方式中,符合目标尺度的采样特征为特征提取网络中的最后一个下采样层输出的采样特征。
具体地,仍以特征提取网络包含4个下采样层为例,则目标尺度的采样特征为下采样层4输出的采样特征4。
S43:服务器基于各个待加权特征及其各自对应的预设权重,获得目标特征;
具体地,待加权特征与预设权重一一对应,例如,待加权特征1对应的预设权重为0.5,待加权特征2对应的预设权重为0.3,待加权特征1对应的预设权重为0.2,基于各个待加权特征及其各自对应的预设权重进行特征加权融合,获得目标特征。
在一种可选的实施方式中,在步骤S43之前,对各个待加权特征进行尺度调整,获得统一尺度后的各个待加权特征;则通过以下方式实施步骤S43:
基于各个预设权重与对应的统一尺度后的待加权特征进行特征加权融合,获得目标特征。
具体地,由于各个待加权特征尺度不同,需要在进行尺度统一后再进行特征加权融合,可以采用卷积层对待加权特征进行尺度调整,将各个待加权特征的尺度调整为统一尺度后,然后基于各个预设权重与对应的统一尺度后的待加权特征进行特征加权融合。
在本申请实施例中,通过对待加权特征进行尺度调整,统一各个待加权特征的尺度,从而进行特征加权融合,提高特征加权融合的准确率,进而提升对待识别图像的识别准确率。
在一种可选的实施方式中,通过以下方式实施步骤S43:
首先,将各个待加权特征输入已训练的图像识别模型的映射网络进行特征映射,获得权重特征;然后,对权重特征进行归一化操作,获得各个待加权特征各自对应的预设权重;最后,基于各个预设权重与对应的待加权特征进行特征加权融合,获得目标特征。
具体地,映射网络对输入的待加权特征进行编码,然后进行特征映射获得权重特征,可以通过softmax(归一化)函数对权重特征进行归一化,各个预设权重之和1。
在本申请实施例中,通过映射网络自动度量每个待加权特征的权重,映射网络自动识别所需尺度的特征,进而提升对多尺度的待识别图像的识别准确率。
参阅图6,其为本申请实施例中的一种特征加权融合网络的结构示意图,包括全连接映射层(即映射网络),激活层和加权融合层,加权融合层还包括对待加权特征进行尺度统一的卷积层。其中,激活层采用的激活函数可以是softmax,各种加margin(边缘)的softmax,也可以是Relu等其他激活函数,本申请在此不做具体限定。
以输入特征为待加权特征1-3为例,特征加权融合网络的实施流程包括:将待加权特征1、待加权特征2和待加权特征3输入全连接映射层,获得权重特征1,将权重特征1输入激活层获得待加权特征1的预设权重0.1,待加权特征2的预设权重0.3,待加权特征3的预设权重0.6,将待加权特征1-3以及各自对应的预设权重输入加权融合层,通过加权融合层的卷积层对待加权特征1-3进行尺度统一后,再对待加权特征1-3以及各自对应的预设权重进行特征加权融合,输出目标特征1。
特征加权融合网络的输入为包含有多个尺度的待加权特征,全连接映射层的输出为d2维的向量wfea(即权重特征),d2为输入特征个数。wfea经过softmax激活层得到各输入特征的权重,将激活得到的权重与输入特征进行加权融合,得到最终的输出特征(即目标特征)。特征加权融合网络采用全连接映射层自动度量每个待加权特征的权重,在识别时网络自动识别所需尺度的特征,提升网络对多尺度输入图片的识别准确率。
S44:服务器基于目标特征对待识别图像进行识别,获得待识别图像包含的至少一个对象。
在本申请实施例中,通过对待识别图像进行特征提取,获得具有不同尺度的至少两个采样特征;并基于至少两个采样特征,进行不同尺度之间的多尺度特征融合,能够对待识别图像进行特征维度的多尺度增强;进而,将获得的至少一个融合特征和至少两个采样特征中符合目标尺度的采样特征,均作为待加权特征;然后,基于各个待加权特征及其各自对应的预设权重,获得目标特征,通过预设权重充分平衡不同待加权特征之间的尺度差异,提高对多尺度图像识别的准确率,最后,基于目标特征对待识别图像进行识别,获得包含的至少一个对象。通过上述方式获得待识别图像包含的对象,相比于相关技术中使用大量训练样本训练识别模型的方式,识别过程简单,仅需增加少量参数进行特征融合,在提高识别准确率的同时,无需耗费大量时间进行模型训练,有效提高识别效率。
在一种可选的实施方式中,基于以下方式实施步骤S42:
若至少两个采样特征为两个不同尺度的采样特征,则将两个不同尺度的采样特征输入已训练的图像识别模型中的特征融合网络,基于特征融合网络对两个不同尺度的采样特征进行一轮多尺度特征融合,获得融合特征;
若至少两个采样特征为至少三个不同尺度的采样特征,则按照尺度从小到大的顺序,基于已训练的图像识别模型中的特征融合网络,依次对各个采样特征进行至少两轮多尺度特征融合,获得至少两个不同尺度的融合特征。
具体地,若对待识别图像进行特征提取获得两个采样特征,则对获得的两个采样特征进行一次多尺度特征融合,获得一个融合特征;若对待识别图像进行特征提取获得至少三个采样特征,以获得4个采样特征为例,按照尺度从小到大的顺序分别是:采样特征1、采样特征2、采样特征3和采样特征4,首先对采样特征1和采样特征2进行一轮多尺度特征融合,获得融合特征1,然后将采样特征3和融合特征1进行一轮多尺度特征融合,获得融合特征2,则进行了两轮特征融合,获得两个不同尺度的融合特征;也可以继续对进行一轮多尺度特征融合,对采样特征4和融合特征2进行一轮多尺度特征融合,获得融合特征3,则进行了三轮特征融合,获得三个不同尺度的融合特征。
需要说明的是,在对待识别图像进行特征提取获得至少三个采样特征时,本申请中对各个采样特征进行至少两轮多尺度特征融合的方式并不限于上述实施例,其他对采样特征进行组合,并进行多尺度特征融合的方式均可应用于本申请实施例。
在本申请实施例中,通过特征融合网络对获得的各个采样特征进行多尺度特征融合,由此达到对不同的尺度的待识别图像均具有识别能力,在特征维度进行尺度扩展,增强卡通识别模型对不同尺度数据的识别准确率。
在一种可选的实施方式中,若至少两个采样特征包括至少三个不同尺度的采样特征,则第一轮多尺度特征融合为:基于特征融合网络,对前两个采样特征进行多尺度特征融合;
后续轮次的多尺度特征融合为:基于特征融合网络,对上一轮次获得的融合特征与对应的采样特征进行多尺度特征融合。
具体地,若采样特征的数量为至少三个时,则按照尺度从小到大的顺序,首先对前两个采样特征进行多尺度特征融合,获得融合特征,后续每一轮次的多尺度特征融合的对象为上一轮次获得的融合特征,以及与上一轮次获得的融合特征对应的采样特征,其中,每个融合特征与对应的采样特征的尺度为预设比例,预设比例可以为具体数值,预设比例为0.5时,每个融合特征的尺度为对应的采样特征的尺度的0.5倍,例如,融合特征a的尺度为16*16,则对应的采样特征的尺度为32*32。
一种可选的实施方式中,通过以下方式基于特征融合网络进行多尺度特征融合,获得融合特征:
首先,通过特征融合网络的上采样层对两个待融合特征中尺度较低的特征进行上采样,获得对应的第一中间特征,两个待融合特征为:两个不同尺度的采样特征,或者,上一轮次获得的融合特征与对应的采样特征;然后,通过特征融合网络的通道适配层,将两个待融合特征中尺度较高的特征与上采样特征进行通道数统一,获得对应的第二中间特征;最后,将第一中间特征和第二中间特征进行相加融合,获得对应的融合特征。
具体地,第一中间特征为两个待融合特征中尺度较低的特征对应的特征,对尺度较低的特征进行一次上采样后,获得的第一中间特征的尺度增加到上采样前的特征的2倍。第二中间特征为两个待融合特征中尺度较高的特征对应的特征,可以基于1×1的卷积层进行通道数变换适配,第二中间特征的通道数与两个待融合特征中尺度较低的特征的通道数一致。
在本申请实施例中,通过上采样层对两个待融合特征进行尺度统一,并通过通道适配层对两个待融合特征进行通道数统一,提高了特征融合效率,进而提高对不同尺度的待识别图像的识别效率。
在一种可选的实施方式中,通过以下方式获得已训练的图像识别模型:
首先,获取训练样本集,训练样本集包括多个训练样本,每个训练样本包含一个样本图像,以及样本图像对应的真实标注信息;然后,基于训练样本集对待训练图像识别模型进行循环迭代训练,获得已训练的图像识别模型。
其中,样本图像对应的真实标注信息用于标记样本图像中包含的对象,多个训练样本中的样本图像包含的对象为不同尺度,一个样本图像可以包含一个或多个对象,例如,图1所示的样本图像即为一个样本图像包含多个不同尺度的卡通人脸。
在一种可选的实施方式中,在一次循环迭代过程中,执行以下操作:
步骤1:将选取的训练样本输入待训练图像识别模型,获得训练样本中包含的对象的预测标注信息;
步骤2:基于预测标注信息和相应的真实标注信息之间的差异,构建损失函数,对待训练的图像识别模型进行参数调整。
其中,损失函数可以采用交叉熵损失函数,也可以采用均方差损失函数等其他损失函数,本申请在此不做具体限定。
在本申请实施例中,对待训练图像识别模型进行循环迭代训练,并构建损失函数进行模型参数调整,基于上述方式能够简单高效获得已训练的图像识别模型,增强图像识别模型对不同尺度的待识别图像的识别准确率。
在一种可选的实施方式中,在循环迭代训练过程中,检测到以下任一情况时,停止循环迭代训练,输出已训练的图像识别模型:
情况一:损失函数的函数值小于预设损失阈值;
情况二:循环迭代次数达到预设次数阈值。
具体地,当损失函数的函数值小于预设损失阈值,或者循环迭代次数达到预设次数阈值时,即可完成模型的训练,输出已训练的图像识别模型。另外,在循环迭代训练过程中,任何停止循环迭代训练的条件均可应用于本申请实施例。
参阅图7A,其为本申请实施例中的一种基于特征金字塔的网络结构示意图,包括特征提取网络和特征融合网络,其中,特征提取网络从输入图片至输出特征具有4个下采样阶段,每个阶段内部的各个卷积层输出尺寸一致,每个阶段保留固定的特征尺度,最后经过一个全连接映射单元将下采样层4输出的特征映射为规定维度d的特征。在特征提取网络的基础上引入特征金字塔结构,对特征提取网络进行特征维度的多尺度增强。下采样层2-4各个层的输入特征均为上一下采样层的输出特征,在本申请中采用多尺度特征融合模块(即特征融合网络)对特征进行多尺度增强。多尺度特征融合模块包含上采样模块(即上采样层)和通道适配模块(即通道适配层)。其中,上采样模块是对高阶段(如下采样层4,下采样层3)的输出特征图进行上采样,本申请中直接采用插值方法对特征图进行上采样,上采样模块不包含需要学习的参数;通道适配模块是对本阶段(如下采样层3,下采样层2)的输出特征进行通道变换适配,通道适配到与上采样的特征一致的数量。在通道适配模块中主要采用1×1的卷积层进行适配,为需要学习的参数。经过上采样模块与通道适配模块之后,将本阶段的特征与上一阶段的融合特征进行相加融合,得到包含不同尺度的融合特征。
下面结合图7A,以输入尺度为128*128的图像1为例,介绍本申请实施例中的特征提取网络和特征融合网络。首先,输入图像1经下采样层1下采样获得采样特征1,将采样特征1输入下采样层2获得采样特征2,将采样特征2输入下采样层3获得采样特征3,将采样特征3输入下采样层4获得采样特征4。然后,将采样特征4和采样特征3输入特征融合网络,特征融合网络的上采样层对采样特征4进行上采样,获得第一中间特征1,通道适配层对采样特征3进行通道数调整,获得第二中间特征1,将第一中间特征1和第二中间特征1进行相加融合获得融合特征1,将融合特征1和采样特征2输入特征融合网络,对融合特征1进行上采样获得第一中间特征2,对采样特征2进行通道数调整,获得第二中间特征2,第一中间特征2和第二中间特征2进行相加融合获得融合特征2。最后,将融合特征1、融合特征2,以及将尺度最小的采样特征4,均作为待加权特征。获得待加权特征后,可以将各个待加权特征输入如图6所示的特征加权融合网络,进行特征加权融合。
需要说明的是,图7A以特征提取网络包含4个下采样层为例介绍本申请中的特征提取网络,在本申请实施例中,特征提取网络包含的下采样层的数量不做具体限定,并且对采样特征进行多尺度特征融合的次数不做具体限定。
参阅图7B,其为本申请实施例中的另一种基于特征金字塔的网络结构示意图,其中,特征提取网络包含5个下采样层,通过特征提取网络对输入图像1进行下采样后,可以仅对下采样层3-5输出的采样特征3-5进行两次多尺度特征融合,并将尺度最小的采样特征5也作为待加权特征,最终获得待加权特征1-3;或者,也可以对下采样层2-5输出的采样特征2-5进行三次多尺度特征融合,并将尺度最小的采样特征5也作为待加权特征,最终获得待加权特征1-4,等等。
本申请实施例中的图像识别方法可应用于卡通人脸识别,首先对卡通识别网络模块进行初始化训练,然后在卡通识别网络模块的基础上添加特征金字塔结构、多尺度特征集成模块(特征融合网络)和特征加权融合层,并对添加后的卡通识别网络模块进行联合微调训练。
步骤一:参阅图8,其为本申请实施例中的一种卡通人脸识别模型的训练流程示意图,首先对卡通识别网络模块进行初始化训练,初始化训练流程包括以下步骤:
S81:准备训练数据;
S82:对卡通人脸图像进行空间特征提取;
S83:计算人脸识别目标函数;
S84:判断是否满足终止模型训练的条件,若是,则输出已训练的卡通识别网络,若否,执行步骤S85;
S85:优化目标函数。
其中,上述初始化训练流程可通过以下模块实现:
(a)训练数据准备模块:该模块是在训练过程中,对卡通人脸训练数据进行读取,将读取到的数据组合成一个batch(批次)送入卡通识别网络单元中进行处理。将卡通图像大小归一化至256*256,该尺寸为卡通识别网络的输入尺寸,然后将图像像素值归一化至[-1,1];
(b)卡通识别网络模块:本模块的功能是对卡通人脸图片进行空间特征的提取,输出的特征图保留着人脸图片的空间结构信息。本模块通常具有的结构为卷积神经网络,包含有卷积计算、非线性激活函数计算、池化计算等操作。在初始化训练中,卡通识别网络模块仅包含特征提取网络;
(c)人脸识别目标函数计算模块:该模块是将卡通识别网络模块的全连接映射单元所输出的特征f与产生该向量的人脸图片的标签信息作为输入,计算目标函数值。目标函数可选用分类函数(如softmax、各类加margin类型的softmax),也可采用其他类型的目标函数;
(d)人脸识别目标函数优化模块:本模块基于梯度下降的方式(如随机梯度下降,带动量项的随机梯度下降,adam,adagard),对整个网络进行训练优化。训练过程中重复(a)~(d),直至训练的结果满足训练终止条件。终止模型训练的条件一般设置迭代次数满足设定的值,或者卡通人脸识别目标函数计算的损失值小于设定的值即可完成模型的训练。
步骤二:微调基于特征金字塔的网络单元模块
在本步骤中采用图8中的训练流程,将图8中的卡通识别网络模块的结构替换为本申请中所提出的图像识别模型,包括基于特征金字塔的网络单元模块(包括特征提取网络和特征融合网络)和输出特征融合模块(即特征加权融合网络),本步骤中基于特征金字塔的网络单元模块其主干网络仍采用步骤一中的主干网络结构,其参数采用步骤一初始化训练得到的网络单元的参数。该特征金字塔网络只增加少量待更新的网络参数,因此本步骤训练中,采用微调形式进行,并且可对特征金字塔网络结构采用搜索的方式(NAS)进行优化,同时优化其接入主干网络的位置。
采用本申请实施例中的基于特征金字塔结构的网络单元模块,可以提升卡通人脸识别系统对多尺度输入图片的识别准确性。同时特征金字塔结构的网络只增加少量的计算参数,因此其部署模型只增加少量的运行内存与运行时间,使得卡通识别模型适应各种复杂的应用场景。
参阅图9,其为本申请实施例中的一种卡通人脸识别方法的整体流程示意图,用于基于特征金字塔结构提升卡通人脸识别准确率,总体流程方案如图9所示,主要分为两个阶段,网络模块训练阶段和网络模块部署阶段。在网络模块训练阶段首先是对卡通人脸识别网络进行初始化训练,得到具有初步识别能力的网络单元。然后对卡通人脸识别网络单元添加特征金字塔结构,将特征金字塔结构应用到卡通识别网络中。最后采用卡通人脸数据对该网络进行微调训练。在网络模块部署阶段,只需要导出设计的识别网络进行部署即可。该方法无需对原有的识别流程进行改动,只需要对训练的主干模型进行改进提升卡通人脸识别的准确率。本申请实施例基于特征金字塔结构解决卡通人脸无法进行配准对齐但存在尺度多样性的问题。对训练网络中的特征进行多尺度增强,从而提升卡通人脸识别模型在各个尺度下的识别准确率。
参阅图10,其为本申请实施例中的一种图像识别方法的逻辑示意图,输入待识别图像a,并对待识别图像a进行特征提取,获得采样特征a、采样特征b、采样特征c和采样特征d,然后对采样特征a-d进行多尺度特征融合,获得待加权特征a、待加权特征b和待加权特征c,基于待加权特征a-c各自的预设权重进行特征加权融合,获得目标特征1,对目标特征1进行识别获得待识别图像a的预测标注信息。
本申请采用特征金字塔的方式来解决卡通识别模型所遇到的多尺度问题,保证卡通识别模型的在各个尺度下的识别准确率。同时为保证在实际部署中的运行效率,要求控制卡通识别模型的耗时与运行空间损耗。本发明从识别模型的结构出发,利用卡通识别模型本身具有的尺度采样信息,引入特征金字塔结构,在特征维度进行尺度扩展,增强卡通识别模型对不同尺度数据的识别准确率。本申请只在模型前向的过程中加入少量计算层,该方式只增加少量的内存消耗以及推理耗时,可以应用于不同的实际场景中。
基于相同的发明构思,本申请实施例还提供一种图像识别装置。如图11所示,其为图像识别装置1100的结构示意图,可以包括:
提取单元1101,用于对待识别图像进行特征提取,获得具有不同尺度的至少两个采样特征;
融合单元1102,用于基于至少两个采样特征,进行不同尺度之间的多尺度特征融合,获得至少一个融合特征,并将至少一个融合特征和至少两个采样特征中符合目标尺度的采样特征,均作为待加权特征;
加权单元1103,用于基于各个待加权特征及其各自对应的预设权重,获得目标特征;
识别单元1104,用于基于目标特征对待识别图像进行识别,获得待识别图像包含的至少一个对象。
可选的,融合单元1102具体用于:
若至少两个采样特征为两个不同尺度的采样特征,则将两个不同尺度的采样特征输入已训练的图像识别模型中的特征融合网络,基于特征融合网络对两个不同尺度的采样特征进行一轮多尺度特征融合,获得融合特征;
若至少两个采样特征为至少三个不同尺度的采样特征,则按照尺度从小到大的顺序,基于已训练的图像识别模型中的特征融合网络,依次对各个采样特征进行至少两轮多尺度特征融合,获得至少两个不同尺度的融合特征。
可选的,若至少两个采样特征包括至少三个不同尺度的采样特征,则第一轮多尺度特征融合为:基于特征融合网络,对前两个采样特征进行多尺度特征融合;
后续轮次的多尺度特征融合为:基于特征融合网络,对上一轮次获得的融合特征与对应的采样特征进行多尺度特征融合,其中,每个融合特征与对应的采样特征的尺度为预设比例。
可选的,通过以下方式基于特征融合网络进行多尺度特征融合,获得融合特征:
通过特征融合网络的上采样层对两个待融合特征中尺度较低的特征进行上采样,获得对应的第一中间特征,两个待融合特征为:两个不同尺度的采样特征,或者,上一轮次获得的融合特征与对应的采样特征;
通过特征融合网络的通道适配层,将两个待融合特征中尺度较高的特征与上采样特征进行通道数统一,获得对应的第二中间特征;
将第一中间特征和第二中间特征进行相加融合,获得对应的融合特征。
可选的,加权单元1103具体用于:
将各个待加权特征输入已训练的图像识别模型的映射网络进行特征映射,获得权重特征;
对权重特征进行归一化操作,获得各个待加权特征各自对应的预设权重;
基于各个预设权重与对应的待加权特征进行特征加权融合,获得目标特征。
可选的,装置还包括调整单元1105,用于:
对各个待加权特征进行尺度调整,获得统一尺度后的各个待加权特征;
加权单元1103具体用于:
基于各个预设权重与对应的统一尺度后的待加权特征进行特征加权融合,获得目标特征。
可选的,提取单元1101具体用于,包括:
将待识别图像输入已训练的图像识别模型的特征提取网络;
基于特征提取网络中的多个下采样层,对待识别图像进行逐层下采样,获得各个下采样层各自输出的采样特征,不同的下采样层输出的采样特征的尺度不同。
可选的,符合目标尺度的采样特征为特征提取网络中的最后一个下采样层输出的采样特征。
可选的,通过以下方式获得已训练的图像识别模型:
获取训练样本集,训练样本集包括多个训练样本,每个训练样本包含一个样本图像,以及样本图像对应的真实标注信息,真实标注信息用于标记样本图像中包含的对象,多个训练样本中的样本图像包含的对象为不同尺度;
基于训练样本集对待训练图像识别模型进行循环迭代训练,获得已训练的图像识别模型;其中,在一次循环迭代过程中,执行以下操作:
将选取的训练样本输入待训练图像识别模型,获得训练样本中包含的对象的预测标注信息;
基于预测标注信息和相应的真实标注信息之间的差异,构建损失函数,对待训练的图像识别模型进行参数调整。
在本申请实施例中,通过对待识别图像进行特征提取,获得具有不同尺度的至少两个采样特征,并基于至少两个采样特征,进行不同尺度之间的多尺度特征融合,能够对待识别图像进行特征维度的多尺度增强;进而,将获得的至少一个融合特征和至少两个采样特征中符合目标尺度的采样特征,均作为待加权特征;然后,基于各个待加权特征及其各自对应的预设权重,获得目标特征,通过预设权重充分平衡不同待加权特征之间的尺度差异,提高对多尺度图像识别的准确率,最后,基于目标特征对待识别图像进行识别,获得包含的至少一个对象。通过上述方式获得待识别图像包含的对象,相比于相关技术中使用大量训练样本训练识别模型的方式,识别过程简单,仅需增加少量参数进行特征融合,在提高识别准确率的同时,无需耗费大量时间进行模型训练,有效提高识别效率。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备。在一种实施例中,该电子设备可以是服务器,如图3所示的服务器320。在该实施例中,电子设备的结构可以如图12所示,包括存储器1201,通讯模块1203以及一个或多个处理器1202。
存储器1201,用于存储处理器1202执行的计算机程序。存储器1201可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器1201可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器1201也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器1201是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。存储器1201可以是上述存储器的组合。
处理器1202,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器1202,用于调用存储器1201中存储的计算机程序时实现上述图像识别方法。
通讯模块1203用于与终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器1201、通讯模块1203和处理器1202之间的具体连接介质。本申请实施例在图12中以存储器1201和处理器1202之间通过总线1204连接,总线1204在图12中以粗线描述,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1204可以分为地址总线、数据总线、控制总线等。为便于描述,图12中仅用一条粗线描述,但并不描述仅有一根总线或一种类型的总线。
存储器1201中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的图像识别方法。处理器1202用于执行上述的图像识别方法,如图4所示。
在另一种实施例中,电子设备也可以是其他电子设备,如图3所示的终端设备310。在该实施例中,电子设备的结构可以如图13所示,包括:通信组件1310、存储器1320、显示单元1330、摄像头1340、传感器1350、音频电路1360、蓝牙模块1370、处理器1380等部件。
通信组件1310用于与服务器进行通信。在一些实施例中,可以包括电路无线保真(Wireless Fidelity,WiFi)模块,WiFi模块属于短距离无线传输技术,电子设备通过WiFi模块可以帮助用户收发信息。
存储器1320可用于存储软件程序及数据。处理器1380通过运行存储在存储器1320的软件程序或数据,从而执行终端设备310的各种功能以及数据处理。存储器1320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1320存储有使得终端设备310能运行的操作系统。本申请中存储器1320可以存储操作系统及各种应用程序,还可以存储执行本申请实施例图像识别方法的计算机程序。
显示单元1330还可用于显示由用户输入的信息或提供给用户的信息以及终端设备310的各种菜单的图形用户界面(graphical user interface,GUI)。具体地,显示单元1330可以包括设置在终端设备310正面的显示屏1332。其中,显示屏1332可以采用液晶显示器、发光二极管等形式来配置。显示单元1330可以用于显示本申请实施例中的图像识别用户界面等。
显示单元1330还可用于接收输入的数字或字符信息,产生与终端设备310的用户设置以及功能控制有关的信号输入,具体地,显示单元1330可以包括设置在终端设备310正面的触摸屏1331,可收集用户在其上或附近的触摸操作,例如点击按钮,拖动滚动框等。
其中,触摸屏1331可以覆盖在显示屏1332之上,也可以将触摸屏1331与显示屏1332集成而实现终端设备310的输入和输出功能,集成后可以简称触摸显示屏。本申请中显示单元1330可以显示应用程序以及对应的操作步骤。
摄像头1340可用于捕获静态图像,用户可以将摄像头1340拍摄的图像通过应用发布评论。摄像头1340可以是一个,也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给处理器1380转换成数字图像信号。
终端设备还可以包括至少一种传感器1350,比如加速度传感器1351、距离传感器1352、指纹传感器1353、温度传感器1354。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。
音频电路1360、扬声器1361、传声器1362可提供用户与终端设备310之间的音频接口。音频电路1360可将接收到的音频数据转换后的电信号,传输到扬声器1361,由扬声器1361转换为声音信号输出。终端设备310还可配置音量按钮,用于调节声音信号的音量。另一方面,传声器1362将收集的声音信号转换为电信号,由音频电路1360接收后转换为音频数据,再将音频数据输出至通信组件1310以发送给比如另一终端设备310,或者将音频数据输出至存储器1320以便进一步处理。
蓝牙模块1370用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如,终端设备可以通过蓝牙模块1370与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接,从而进行数据交互。
处理器1380是终端设备的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器1320内的软件程序,以及调用存储在存储器1320内的数据,执行终端设备的各种功能和处理数据。在一些实施例中,处理器1380可包括一个或多个处理单元;处理器1380还可以集成应用处理器和基带处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,基带处理器主要处理无线通信。可以理解的是,上述基带处理器也可以不集成到处理器1380中。本申请中处理器1380可以运行操作系统、应用程序、用户界面显示及触控响应,以及本申请实施例的图像识别方法。另外,处理器1380与显示单元1330耦接。
在一些可能的实施方式中,本申请提供的图像识别方法的各个方面还可以实现为一种程序产品的形式,其包括计算机程序,当程序产品在电子设备上运行时,计算机程序用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的图像识别方法中的步骤,例如,电子设备可以执行如图4中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机程序,并可以在电子设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的计算机程序,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。计算机程序可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序命令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序命令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的命令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序命令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的命令产生包括命令装置的制造品,该命令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序命令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的命令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (15)
1.一种图像识别方法,其特征在于,该方法包括:
对待识别图像进行特征提取,获得具有不同尺度的至少两个采样特征;
基于所述至少两个采样特征,进行所述不同尺度之间的多尺度特征融合,获得至少一个融合特征,并将所述至少一个融合特征和所述至少两个采样特征中符合目标尺度的采样特征,均作为待加权特征;
基于各个待加权特征及其各自对应的预设权重,获得目标特征;
基于所述目标特征对所述待识别图像进行识别,获得所述待识别图像包含的至少一个对象。
2.如权利要求1所述的方法,其特征在于,所述基于所述至少两个采样特征,进行所述不同尺度之间的多尺度特征融合,获得至少一个融合特征,包括:
若所述至少两个采样特征为两个不同尺度的采样特征,则将所述两个不同尺度的采样特征输入已训练的图像识别模型中的特征融合网络,基于所述特征融合网络对所述两个不同尺度的采样特征进行一轮多尺度特征融合,获得所述融合特征;
若所述至少两个采样特征为至少三个不同尺度的采样特征,则按照尺度从小到大的顺序,基于已训练的图像识别模型中的特征融合网络,依次对各个采样特征进行至少两轮多尺度特征融合,获得至少两个不同尺度的所述融合特征。
3.如权利要求2所述的方法,其特征在于,若所述至少两个采样特征包括至少三个不同尺度的采样特征,则第一轮多尺度特征融合为:基于所述特征融合网络,对前两个采样特征进行多尺度特征融合;
后续轮次的多尺度特征融合为:基于所述特征融合网络,对上一轮次获得的融合特征与对应的采样特征进行多尺度特征融合,其中,每个融合特征与对应的采样特征的尺度为预设比例。
4.如权利要求2所述的方法,其特征在于,通过以下方式基于所述特征融合网络进行多尺度特征融合,获得所述融合特征:
通过所述特征融合网络的上采样层对两个待融合特征中尺度较低的特征进行上采样,获得对应的第一中间特征,所述两个待融合特征为:所述两个不同尺度的采样特征,或者,上一轮次获得的融合特征与对应的采样特征;
通过所述特征融合网络的通道适配层,将所述两个待融合特征中尺度较高的特征与所述上采样特征进行通道数统一,获得对应的第二中间特征;
将所述第一中间特征和所述第二中间特征进行相加融合,获得对应的融合特征。
5.如权利要求1所述的方法,其特征在于,所述基于各个待加权特征及其各自对应的预设权重,获得目标特征,包括:
将所述各个待加权特征输入已训练的图像识别模型的映射网络进行特征映射,获得权重特征;
对所述权重特征进行归一化操作,获得所述各个待加权特征各自对应的预设权重;
基于各个预设权重与对应的待加权特征进行特征加权融合,获得所述目标特征。
6.如权利要求1~5任一所述的方法,其特征在于,在所述基于各个待加权特征及其各自对应的预设权重,获得目标特征之前,还包括:
对所述各个待加权特征进行尺度调整,获得统一尺度后的各个待加权特征;
所述基于各个待加权特征及其各自对应的预设权重,获得目标特征,包括:
基于各个预设权重与对应的统一尺度后的待加权特征进行特征加权融合,获得目标特征。
7.如权利要求1所述的方法,其特征在于,所述对待识别图像进行特征提取,获得具有不同尺度的至少两个采样特征,包括:
将所述待识别图像输入已训练的图像识别模型的特征提取网络;
基于所述特征提取网络中的多个下采样层,对所述待识别图像进行逐层下采样,获得各个下采样层各自输出的采样特征,不同的下采样层输出的采样特征的尺度不同。
8.如权利要求7所述的方法,其特征在于,所述符合目标尺度的采样特征为所述特征提取网络中的最后一个下采样层输出的采样特征。
9.如权利要求2~5、7、8任一项所述的方法,其特征在于,通过以下方式获得所述已训练的图像识别模型:
获取训练样本集,所述训练样本集包括多个训练样本,每个训练样本包含一个样本图像,以及所述样本图像对应的真实标注信息,所述真实标注信息用于标记所述样本图像中包含的对象,所述多个训练样本中的样本图像包含的对象为不同尺度;
基于所述训练样本集对待训练图像识别模型进行循环迭代训练,获得所述已训练的图像识别模型;其中,在一次循环迭代过程中,执行以下操作:
将选取的训练样本输入所述待训练图像识别模型,获得所述训练样本中包含的对象的预测标注信息;
基于所述预测标注信息和相应的真实标注信息之间的差异,构建损失函数,对所述待训练的图像识别模型进行参数调整。
10.一种图像识别装置,其特征在于,包括:
提取单元,用于对待识别图像进行特征提取,获得具有不同尺度的至少两个采样特征;
融合单元,用于基于所述至少两个采样特征,进行所述不同尺度之间的多尺度特征融合,获得至少一个融合特征,并将所述至少一个融合特征和所述至少两个采样特征中符合目标尺度的采样特征,均作为待加权特征;
加权单元,用于基于各个待加权特征及其各自对应的预设权重,获得目标特征;
识别单元,用于基于所述目标特征对所述待识别图像进行识别,获得所述待识别图像包含的至少一个对象。
11.如权利要求10所述的装置,其特征在于,所述融合单元具体用于:
若所述至少两个采样特征为两个不同尺度的采样特征,则将所述两个不同尺度的采样特征输入已训练的图像识别模型中的特征融合网络,基于所述特征融合网络对所述两个不同尺度的采样特征进行一轮多尺度特征融合,获得所述融合特征;
若所述至少两个采样特征为至少三个不同尺度的采样特征,则按照尺度从小到大的顺序,基于已训练的图像识别模型中的特征融合网络,依次对各个采样特征进行至少两轮多尺度特征融合,获得至少两个不同尺度的所述融合特征。
12.如权利要求11所述的装置,其特征在于,若所述至少两个采样特征包括至少三个不同尺度的采样特征,则第一轮多尺度特征融合为:基于所述特征融合网络,对前两个采样特征进行多尺度特征融合;
后续轮次的多尺度特征融合为:基于所述特征融合网络,对上一轮次获得的融合特征与对应的采样特征进行多尺度特征融合,其中,每个融合特征与对应的采样特征的尺度为预设比例。
13.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~9中任一所述方法的步骤。
14.一种计算机可读存储介质,其特征在于,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行权利要求1~9中任一所述方法的步骤。
15.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序存储在计算机可读存储介质中;当电子设备的处理器从所述计算机可读存储介质读取所述计算机程序时,所述处理器执行所述计算机程序,使得所述电子设备执行权利要求1~9中任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210396887.5A CN116978079A (zh) | 2022-04-15 | 2022-04-15 | 一种图像识别方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210396887.5A CN116978079A (zh) | 2022-04-15 | 2022-04-15 | 一种图像识别方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116978079A true CN116978079A (zh) | 2023-10-31 |
Family
ID=88478228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210396887.5A Pending CN116978079A (zh) | 2022-04-15 | 2022-04-15 | 一种图像识别方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116978079A (zh) |
-
2022
- 2022-04-15 CN CN202210396887.5A patent/CN116978079A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022156561A1 (zh) | 一种自然语言处理方法以及装置 | |
CN110728319B (zh) | 一种图像生成方法、装置以及计算机存储介质 | |
CN114238690A (zh) | 视频分类的方法、装置及存储介质 | |
CN114419641B (zh) | 文本分离模型的训练方法、装置、电子设备和存储介质 | |
CN115861462B (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN115131281A (zh) | 变化检测模型训练和图像变化检测方法、装置及设备 | |
CN112381707A (zh) | 图像生成方法、装置、设备以及存储介质 | |
CN114359289A (zh) | 一种图像处理方法及相关装置 | |
CN117496036A (zh) | 一种纹理贴图的生成方法、装置、电子设备和存储介质 | |
CN116957932A (zh) | 一种图像生成方法、装置、电子设备和存储介质 | |
CN117688204A (zh) | 视频推荐模型的训练方法、装置、电子设备和存储介质 | |
CN117011156A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN117094362B (zh) | 一种任务处理方法及相关装置 | |
CN118172134A (zh) | 虚拟试衣方法、装置、电子设备及可读存储介质 | |
CN112037305B (zh) | 对图像中的树状组织进行重建的方法、设备及存储介质 | |
CN116152938A (zh) | 身份识别模型训练和电子资源转移方法、装置及设备 | |
CN116977547A (zh) | 一种三维人脸重建方法、装置、电子设备和存储介质 | |
CN116958041A (zh) | 一种产品缺陷检测方法、装置、电子设备和存储介质 | |
CN114064973B (zh) | 视频新闻分类模型建立方法、分类方法、装置及设备 | |
CN116958852A (zh) | 视频与文本的匹配方法、装置、电子设备和存储介质 | |
CN116977195A (zh) | 复原模型的调整方法、装置、设备及存储介质 | |
CN117011415A (zh) | 一种特效文字的生成方法、装置、电子设备和存储介质 | |
CN116978079A (zh) | 一种图像识别方法、装置、电子设备和存储介质 | |
CN111291640B (zh) | 用于识别步态的方法和装置 | |
CN117576245B (zh) | 一种图像的风格转换方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |