CN110991460A - 图像识别处理方法、装置、设备及存储介质 - Google Patents

图像识别处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110991460A
CN110991460A CN201910984822.0A CN201910984822A CN110991460A CN 110991460 A CN110991460 A CN 110991460A CN 201910984822 A CN201910984822 A CN 201910984822A CN 110991460 A CN110991460 A CN 110991460A
Authority
CN
China
Prior art keywords
feature map
image
processed
feature
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910984822.0A
Other languages
English (en)
Other versions
CN110991460B (zh
Inventor
李甲
赵一凡
赵沁平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201910984822.0A priority Critical patent/CN110991460B/zh
Publication of CN110991460A publication Critical patent/CN110991460A/zh
Application granted granted Critical
Publication of CN110991460B publication Critical patent/CN110991460B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种图像识别处理方法、装置、设备和存储介质,其中,该方法包括:获取待处理图像,其中,所述待处理图像包括至少一个类别的图像部件;对所述待处理图像进行多种尺度的特征提取处理,得到所述待处理图像的多种尺度的特征图;对所述多种尺度的特征图进行筛选处理,得到所述待处理图像的多种尺度的筛选特征图;对所述多种尺度的筛选特征图进行融合处理,得到所述待处理图像的融合特征图;对所述融合特征图进行识别处理,得到所述待处理图像的所述图像部件的识别结果。利用待处理图像的多种尺度的筛选特征图,得到待处理图像的图像部件的识别结果,识别精度高、准确性强。

Description

图像识别处理方法、装置、设备及存储介质
技术领域
本申请涉及图像处理技术领域,尤其是一种图像识别处理方法、装置、设备及存储介质。
背景技术
随着图像处理技术的迅速发展,以图像识别为主的视觉任务在不同领域中得到了越来越广泛的应用。一张图像中可能包括多个类别的图像部件,图像识别的主要任务包括识别出不同类别的图像部件,图像识别的精度是影响视觉任务功能的重要因素之一。
相关技术中,在进行基于图像部件的图像识别处理时,利用提取的待处理图像的部分图像特征,构成待处理图像的特征图,然后对待处理图像的特征图进行识别处理,得到待处理图像的图像部件的识别结果。
然而,通过对待处理图像的特征图进行识别处理,得到的图像识别结果中存在图像部件的轮廓边缘信息准确性低,不同语义类别的图像部件的识别结果混淆程度高,图像识别精度低的问题。
发明内容
本申请实施例提供一种图像识别处理方法、装置、设备及存储介质,用于解决现有图像识别技术中存在的图像识别结果准确性差、精度低的技术问题。
第一方面,本申请提供一种图像识别处理方法,包括:
获取待处理图像,其中,所述待处理图像包括至少一个类别的图像部件;
对所述待处理图像进行多种尺度的特征提取处理,得到所述待处理图像的多种尺度的特征图;
对所述多种尺度的特征图进行筛选处理,得到所述待处理图像的多种尺度的筛选特征图;
对所述多种尺度的筛选特征图进行融合处理,得到所述待处理图像的融合特征图;
对所述融合特征图进行识别处理,得到所述待处理图像的所述图像部件的识别结果。
进一步地,所述多种尺度的特征图包括尺度最小的第一特征图和除第一特征图以外的至少一层第二特征图;对所述多种尺度的筛选特征图进行融合处理,得到所述待处理图像的融合特征图,包括:
对所述第一特征图进行第一筛选处理,得到第一筛选特征图,对所述至少一层第二特征图进行第二筛选处理,得到至少一层第二筛选特征图;
对所述多种尺度的筛选特征图进行融合处理,得到所述待处理图像的融合特征图,包括:
对所述第一筛选特征图和所述至少一层第二筛选特征图进行融合处理,得到所述融合特征图。
进一步地,对所述第一特征图进行第一筛选处理,得到第一筛选特征图,包括:
将所述第一特征图转换成预设大小的特征向量,构成所述第一筛选特征图。
进一步地,对所述至少一层第二特征图进行第二筛选处理,得到至少一层第二筛选特征图,包括:
对每一层所述第二特征图进行第一线性处理,得到每一层所述第二特征图对应的第一线性特征图,对每一层所述第二特征图进行第二线性处理,得到每一层所述第二特征图对应的第二线性特征图;
对每一层所述第二特征图对应的所述第一线性特征图进行特征编码处理,得到每一层所述第二特征图对应的边缘特征图;
根据每一层所述第二特征图对应的所述边缘特征图和所述第二线性特征图,确定每一层所述第二特征图对应的所述第二筛选特征图,得到至少一层第二筛选特征图。
进一步地,所述方法还包括:
根据每一层所述第二特征图对应的所述边缘特征图,确定所述待处理图像的所述图像部件的边缘预测结果。
进一步地,对所述融合特征图进行识别处理,得到所述待处理图像的识别结果,包括:
对所述融合特征图进行池化处理,得到所述融合特征图的特征向量;
根据所述融合特征图与所述特征向量,得到所述识别结果。
第二方面,本申请提供一种图像识别处理装置,包括:
获取单元,用于获取待处理图像,其中,所述待处理图像包括至少一个类别的图像部件;
第一处理单元,用于对所述待处理图像进行多种尺度的特征提取处理,得到所述待处理图像的多种尺度的特征图;
第二处理单元,用于对所述多种尺度的特征图进行筛选处理,得到所述待处理图像的多种尺度的筛选特征图;
第三处理单元,用于对所述多种尺度的筛选特征图进行融合处理,得到所述待处理图像的融合特征图;
第四处理单元,用于对所述融合特征图进行识别处理,得到所述待处理图像的所述图像部件的识别结果。
进一步地,所述多种尺度的特征图包括尺度最小的第一特征图和除第一特征图以外的至少一层第二特征图,第二处理单元,包括:
第一处理子单元,用于对所述第一特征图进行第一筛选处理,得到第一筛选特征图,对所述至少一层第二特征图进行第二筛选处理,得到至少一层第二筛选特征图;
第三处理单元,包括:
第二处理子单元,用于对所述第一筛选特征图和所述至少一层第二筛选特征图进行融合处理,得到所述融合特征图。
进一步地,第一处理子单元,包括:
第一处理模块,用于将所述第一特征图转换成预设大小的特征向量,构成所述第一筛选特征图。
进一步地,第一处理子单元,还包括:
第二处理模块,用于对每一层所述第二特征图进行第一线性处理,得到每一层所述第二特征图对应的第一线性特征图,对每一层所述第二特征图进行第二线性处理,得到每一层所述第二特征图对应的第二线性特征图;
第三处理模块,用于对每一层所述第二特征图对应的所述第一线性特征图进行特征编码处理,得到每一层所述第二特征图对应的边缘特征图;
第四处理模块,用于根据每一层所述第二特征图对应的所述边缘特征图和所述第二线性特征图,确定每一层所述第二特征图对应的所述第二筛选特征图,得到至少一层第二筛选特征图。
进一步地,第二处理单元还包括:
第三处理子单元,用于根据每一层所述第二特征图对应的所述边缘特征图,确定所述待处理图像的所述图像部件的边缘预测结果。
进一步地,第四处理单元,包括:
第四处理子单元,用于对所述融合特征图进行池化处理,得到所述融合特征图的特征向量;
第五处理子单元,用于根据所述融合特征图与所述特征向量,得到所述识别结果。
第三方面,本申请提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面中任一项所述的方法。
第四方面,本申请提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面中任一项所述的方法。
本申请提供一种图像识别处理方法、装置、设备和存储介质,其中,方法包括获取待处理图像,其中,所述待处理图像包括至少一个类别的图像部件;对所述待处理图像进行多种尺度的特征提取处理,得到所述待处理图像的多种尺度的特征图;对所述多种尺度的特征图进行筛选处理,得到所述待处理图像的多种尺度的筛选特征图;对所述多种尺度的筛选特征图进行融合处理,得到所述待处理图像的融合特征图;对所述融合特征图进行识别处理,得到所述待处理图像的所述图像部件的识别结果。对得到的待处理图像的多种尺度的特征图进行筛选处理,得到待处理图像的多种尺度的筛选特征图,根据待处理图像的多种尺度的筛选特征图得到的图像识别结果中图像部件的轮廓边缘信息准确性高,不同语义类别的图像部件的识别结果混淆程度低,图像识别精度高。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本申请实施例提供的一种图像识别处理方法的流程示意图;
图2为本申请实施例提供的又一种图像识别处理方法的流程示意图;
图2a为本申请实施例提供的一种图像识别处理的过程示意图;
图2b为本申请实施例提供的生成第二筛选特征图的过程示意图;
图3为本申请实施例提供的一种图像识别处理装置的结构示意图;
图4为本申请实施例提供的又一种图像识别处理装置的结构示意图;
图5为本申请实施例提供的一种图像识别处理设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本申请涉及的名词解释:
空洞金字塔池化:将任意大小的特征图转换成固定大小的特征向量,然后将固定大小的特征向量输入至全连接层的处理过程。
全局平均池化:将特征图全局平均得到一个特征向量,即把W*H*C的特征图转换成成1*1*C的特征向量。
ResNet网络:残差神经网络,内部的残差模块使用跳跃连接方式进行连接,有效了在深度神经网络中深度增加带来的梯度消失的问题。
下采样:对一个序列进行间隔几个样值采样一次的采样处理,得到的新序列即为原序列的下采样。
交叉熵损失函数:用于二分类损失函数的计算,其公式为:
L=-[ylog y'+(1-y)log(1-y')]
其中,y为真值,y'为估计值.当真值y为1时,L=-log y'。
空间注意力机制:计算机视觉(computer vision)中的空间注意力机制的基本思想是让系统学会注意力——能够忽略无关信息而关注重点信息。
ReLU:Rectified Linear Unit线性整流函数,又称修正线性单元,是一种人工神经网络中常用的激活函数(activation function),通常指代以斜坡函数及其变种为代表的非线性函数。
本申请具体的应用场景为:随着图像处理技术的迅速发展,以图像识别为主的视觉任务在不同领域中得到了越来越广泛的应用。一张图像中可能包括多个类别的图像部件,图像识别的主要任务包括识别出不同类别的图像部件,图像识别的精度是影响视觉任务功能的重要因素之一。相关技术中,在进行基于图像部件的图像识别处理时,利用神经网络搜索方法确定出最优的特征提取方式,然后利用确定出的最优特征提取方式对待处理图像进行固定方式的特征提取处理。
然而,对待处理图像进行固定方式的特征提取处理,存在图像识别结果准确性差、精度低的问题。
本申请提供的图像识别处理方法、装置、设备和存储介质,旨在解决现有技术中的如上技术问题。
图1为本申请实施例提供的一种图像识别处理方法的流程示意图,如图1所示,执行包括:
步骤101、获取待处理图像,其中,待处理图像包括至少一个类别的图像部件。
在本实施例中,具体的,本实施例的执行主体为终端设备、或者控制器、服务器,或者其他可以执行本实施例的装置或设备。本实施例以执行主体为终端设备进行说明,可以在终端设备中设置应用软件,然后,终端设备控制应用软件执行本实施例提供的方法。
获取需要进行图像识别处理的待处理图像,待处理图像中包括至少一个类别的图像部件,且待处理图像中需要识别的各个图像部件的语义类别是给定的。示例性的,获取的待处理图像中包括人、马、树三种语义类别的图像部件,其中,需要进行识别的是人、马两种语义类别的图像部件,在进行图像识别处理前,需要识别的图像部件的语义类别是给定的。判断图像识别效果包括判断识别出的图像部件的轮廓边缘信息的准确性,以及判断不同语义类别的图像部件的识别结果之间的混淆程度。
步骤102、对待处理图像进行多种尺度的特征提取处理,得到待处理图像的多种尺度的特征图。
在本实施例中,对待处理图像进行多种尺度的特征提取处理,得到待处理图像的多种尺度的特征图,具体的,将待处理图像经过滤波器处理,通过提取待处理图像中的部分图像特征,得到多种尺度的特征图,其中,多种尺度的特征图包括尺度最小的第一特征图和除第一特征图以外的至少一层第二特征图。
示例性的,利用ResNet网络作为骨架网络,对待处理图像进行多种尺度的特征提取处理,具体的,提取待处理图像在ResNet网络的第一、二、三、四残差模块下的图像特征,第一、二、三、四残差模块下的图像特征为对待处理图像分别进行四倍下采样、八倍下采样、十六倍下采样、十六倍倍下采样得到的图像特征,假设待处理图像的尺寸为W×H×C,W、H、C分别表示待处理图像的宽度、高度和通道数,则第一、二、三、四残差模块下的特征图的尺寸为
Figure BDA0002236357570000071
其中,第四残差模块对应的特征图尺度最小,其对应的特征图为第一特征图,第一、二、三残差模块对应的特征图均为第二特征图,对待处理图像进行多种尺度的特征提取处理,得到一层第一特征图和三层第二特征图,其中,特征图尺度越小,对应的特征图层级越高。
步骤103、对多种尺度的特征图进行筛选处理,得到待处理图像的多种尺度的筛选特征图。
在本实施例中,具体的,在得到的待处理图像的多种尺度的特征图中,不同尺度特征图对应的神经网络层级不同,其能够表征的图像信息也不同。特征图尺度越小,对应的特征图层级越高,尺度越小、特征图层级越高的特征图能够表征待处理图像更高级的图像信息。低层级特征图分辨率更高,包含更多位置、细节信息,但由于其经过的卷积更少,其语义性更低,噪声更多;高层级特征图具有更强的语义信息,但是分辨率较低,对细节的感知能力较差。层级最高的第一特征图能够表征待处理图像的语义信息,其他多层第二特征图能够表征待处理图像的细节纹理信息。
对待处理图像的每一层特征图进行筛选处理,得到待处理图像的多种尺度的筛选特征图。对待处理图像的最小尺度的特征图进行筛选处理,获取最小尺度的特征图中表征的图像部件的语义信息,将属于同一图像部件的不同对象进行统一归类,为后续的图像识别提供图像部件分类参考,有利于提高图像识别的识别精度。对待处理图像的除最小尺度特征图以外的其他特征图进行筛选处理,获取其他特征图中表征的图像部件的轮廓信息,有利于提高图像识别过程中对图像部件边缘信息的感知能力和处理能力,有利于提高图像识别的识别精度。
步骤104、对多种尺度的筛选特征图进行融合处理,得到待处理图像的融合特征图。
在本实施例中,具体的,为结合待处理图像的多种尺度的筛选特征图的优势,提高图像识别的识别精度,对得到的多种尺度的筛选特征图进行融合处理,得到待处理图像的融合特征图。具体的,对待处理图像的多种尺度的筛选特征图进行拼接处理,将尺度最小的筛选特征图与尺度第二小的筛选特征图进行拼接处理,将拼接得到的筛选特征图继续与尺度第三小的筛选特征图进行拼接处理,重复上述步骤,直至完成对所有筛选特征图的拼接处理,得到待处理图像的融合特征图,每一次拼接处理过程中使用ReLU函数,维持筛选特征图的尺寸与维度不变。
步骤105、对融合特征图进行识别处理,得到待处理图像的图像部件的识别结果。
在本实施例中,具体的,对融合特征图进行识别处理,具体的,对融合特征图进行池化处理,得到融合特征图的特征向量,示例性的,对融合特征图进行全局平均池化处理,将融合特征图全局平均得到一个特征向量,即把W×H×C的融合特征图转换成成1×1×C的特征向量。根据融合特征图和特征向量,得到待处理图像的图像部件的识别结果,具体的,将特征向量经过全连接层处理,与融合特征图点乘得到待处理图像的识别结果,示例性的,得到待处理图像中人和马的识别结果。
本实施例通过获取待处理图像,其中,待处理图像包括至少一个类别的图像部件;对待处理图像进行多种尺度的特征提取处理,得到待处理图像的多种尺度的特征图;对多种尺度的特征图进行筛选处理,得到待处理图像的多种尺度的筛选特征图;对多种尺度的筛选特征图进行融合处理,得到待处理图像的融合特征图;对融合特征图进行识别处理,得到待处理图像的图像部件的识别结果。对待处理图像进行多种尺度的特征提取处理,得到待处理图像的多种尺度的特征图,特征图多样性丰富,有利于提高图像识别的识别精度;对待处理图像的多种尺度的特征图进行筛选处理,得到待处理图像的多种尺度的筛选特征图,在根据待处理图像的多种尺度的筛选特征图得到的图像识别结果中,图像部件的轮廓边缘信息准确性高,不同语义类别的图像部件的识别结果混淆程度低,图像识别精度高。
图2为本申请实施例提供的又一种图像识别处理方法的流程示意图,图2a为本申请实施例提供的一种图像识别处理的过程示意图,如图2和图2a所示,执行包括:
步骤201、获取待处理图像,其中,待处理图像包括至少一个类别的图像部件。
在本实施例中,具体的,本步骤可以参见图1的步骤101,不再赘述。
步骤202、对待处理图像进行多种尺度的特征提取处理,得到待处理图像的多种尺度的特征图,其中,多种尺度的特征图包括尺度最小的第一特征图和除第一特征图以外的至少一层第二特征图。
在本实施例中,具体的,待处理图像中包含至少一种语义类别的图像部件,在给定需要识别的图像部件的语义类别后,对待处理图像进行多种尺度的特征提取处理,得到待处理图像的多种尺度的特征图。对于任一层特征图Ps(W×H×C),其包含待处理图像的部分图像特征,W、H分别表示特征图的宽度、高度,C表示特征图的通道数。特征图的尺度越小,对应的特征图层级越高,得到的多种尺度的特征图包括层级最高的第一特征图和除最高层级之外的第二特征图,即包括尺度最小的第一特征图和除第一特征图以外的至少一层第二特征图。
步骤203、对第一特征图进行第一筛选处理,得到第一筛选特征图,对至少一层第二特征图进行第二筛选处理,得到至少一层第二筛选特征图,对第一筛选特征图和至少一层第二筛选特征图进行融合处理,得到融合特征图。
在本实施例中,具体的,对第一特征图进行第一筛选处理,得到第一筛选特征图,包括:将第一特征图转换成预设大小的特征向量,构成第一筛选特征图,示例性的,将第一特征图输入空洞金字塔池化模块进行处理,得到第一筛选特征图。由于第一特征图尺度最小,分辨率最低,其包含待处理图像较强的语义信息,因此,可将第一特征图输入语义感知模块,快速得到待处理图像的初步语义理解信息,这有利于提高图像识别的识别效率。
对至少一层第二特征图进行第二筛选处理,得到至少一层第二筛选特征图,包括:对每一层第二特征图进行第一线性处理,得到每一层第二特征图对应的第一线性特征图,对每一层第二特征图进行第二线性处理,得到每一层第二特征图对应的第二线性特征图;对每一层第二特征图对应的第一线性特征图进行特征编码处理,得到每一层第二特征图对应的边缘特征图;根据每一层第二特征图对应的边缘特征图和第二线性特征图,确定每一层第二特征图对应的第二筛选特征图,得到待处理图像的至少一层第二筛选特征图。
图2b为本申请实施例提供的生成第二筛选特征图的过程示意图,如图2所示,对于任一层第二特征图Ps,对其进行第一线性处理,得到第二特征图Ps对应的第一线性特征图
Figure BDA0002236357570000101
其中,wk、bk为预设的可学习参数,示例性的,将第二特征图Ps输入1×1的卷积层进行第一线性处理;对于第二特征图Ps,对其进行第二线性处理,得到第二特征图Ps对应的第二线性特征图
Figure BDA0002236357570000102
其中,wv、bv为预设的可学习参数,
Figure BDA0002236357570000103
可用于表征待处理图像的原图信息,示例性的,将第二特征图Ps输入1×1的卷积层进行第二线性处理,其中,is=Ws×Hs,js=Cs,Ws、Hs分别表示第二特征图Ps的长度和宽度,Cs表示第二特征图Ps的维道数。
对第二特征图Ps对应的第一线性特征图
Figure BDA0002236357570000111
进行特征编码处理,得到第二特征图Ps对应的边缘特征图
Figure BDA0002236357570000112
Figure BDA00022363575700001110
表示特征编码操作,示例性的,
Figure BDA0002236357570000113
为3个卷积层构成的特征编码操作。
根据第二特征图Ps对应的边缘特征图
Figure BDA0002236357570000114
和第二线性特征图
Figure BDA0002236357570000115
确定第二特征图Ps对应的第二筛选特征图B(Ps),
Figure BDA0002236357570000116
其中,Pm表示第m层第二特征图,m=1、2、…、M,M为第二特征图的总层数,
Figure BDA0002236357570000117
为对
Figure BDA0002236357570000118
进行基于im的归一化处理,
Figure BDA0002236357570000119
可用于表征待处理图像的原图信息。示例性的,将第二特征图Ps对应的第二筛选特征图B(Ps)输入注意力权重矩阵,对其进行归一化处理。
对第一筛选特征图和至少一层第二筛选特征图进行融合处理,得到融合特征图,具体的,将第一筛选特征图与最高层级的第二筛选特征图进行融合处理,将融合处理得到的融合结果与次高层级的第二筛选特征图继续进行融合,重复上述步骤,直至完成第一筛选特征图和所有层级第二筛选特征图的融合处理,得到待处理图像的融合特征图。
示例性的,待处理图像的第一筛选特征图为(W×H×C4),第二筛选特征图分别为(W×H×C3)、(W×H×C2)和(W×H×C1),将第一筛选特征图(W×H×C4)与最高层级的第二筛选特征图(W×H×C3)进行融合处理,具体的,对其进行通道数拼接处理得到(W×H×(C4+C3)),然后将得到的(W×H×(C4+C3))通过1×1卷积层得到第一融合特征图(W×H×C4);将第一融合特征图(W×H×C4)与第二筛选特征图(W×H×C2)进行融合处理,得到第二融合特征图(W×H×C4);将第二融合特征图(W×H×C4)与第二筛选特征图(W×H×C1)进行融合处理,得到待处理图像的融合特征图(W×H×C4),每次融合处理过程中使用ReLU函数,维持融合特征图的维度和尺寸不变。
可选的,本方法还包括根据每一层第二特征图对应的边缘特征图,确定待处理图像的图像部件的边缘预测结果。示例性的,将每一层第二特征图对应的边缘特征图通过1×1的卷积层,变换得到待处理图像二值化的图像部件的边缘预测结果。
在训练用于图像识别的神经网络时,对于根据待处理图像的边缘特征图确定其边缘预测结果的支路,使用加权的交叉熵损失函数训练该边缘预测结果的支路,训练的真值为样本图像人工标注的图像部件的边缘识别结果。使用加权的交叉熵损失函数训练边缘预测结果的支路,有利于神经网络在图像识别的较早阶段理解待处理图像的图像部件的边缘信息,有利于提高图像识别的识别效率。但由于根据待处理图像的边缘特征图进行图像部件边缘预测不是图像识别的核心内容,因此训练使用的交叉熵损失函数可设置一个较小的权重值。
步骤204、对融合特征图进行识别处理,得到待处理图像的图像部件的识别结果。
在本实施例中,具体的,对融合特征图进行识别处理,得到待处理图像的识别结果,包括:对融合特征图进行池化处理,得到融合特征图的特征向量;根据融合特征图与特征向量,得到待处理图像的图像部件的识别结果,得到的识别结果可为后续的图像分割、图像增强、图像复原等操作提供实现基础。
具体的,对融合特征图Fi,j进行全局平均池化处理,得到融合特征图的特征向量G,
Figure BDA0002236357570000121
其中,W、H、C分别表示融合特征图Fi,j的宽度、高度和通道数,θ(Fi,j)表示对融合特征图Fi,j进行特征编码操作,示例性的,θ(Fi,j)表示对融合特征图Fi,j进行3个卷积层构成的特征编码操作,其依次为1×1的卷积单元、3×3的卷积单元、1×1的卷积单元,激活函数为ReLU。将特征向量G经过全连接层和sigmoid激活函数处理,与原特征图Fi,j进行点乘操作,得到待处理图像的识别结果E,E=G·F,得到的识别结果为对待处理图像的图像部件的识别结果,示例性的,识别结果为对待处理图像中的人、马两个类别的图像部件的识别结果。
在训练用于图像识别的神经网络时,利用基于图像部件对象的监督结果和使用交叉熵损失函数对样本图像的特征向量进行训练,快速得到样本图像初步的图像识别结果,其中,图像部件对象为构成图像部件的对象,基于图像部件对象的监督结果为对图像部件对象进行聚合处理得到的聚合结果,示例性的,图像部件对象包括构成“马”这一图像部件的头、腿、躯干,基于图像部件对象的监督结果包括对图像部件对象头、腿、躯干进行聚合处理得到的聚合结果。在进行用于图像识别的神经网络训练时,增加待识别的图像部件对应的特征图层级的权重,降低其他图像部件对应的特征图层级的权重,这有利于提高神经网络对待识别的图像部件的敏感度,有利于提高图像识别的识别效率和识别精度。
本实施例通过获取待处理图像,其中,待处理图像包括至少一个类别的图像部件;对待处理图像进行多种尺度的特征提取处理,得到待处理图像的多种尺度的特征图,其中,多种尺度的特征图包括尺度最小的第一特征图和除第一特征图以外的至少一层第二特征图;对第一特征图进行第一筛选处理,得到第一筛选特征图,对至少一层第二特征图进行第二筛选处理,得到至少一层第二筛选特征图,对第一筛选特征图和至少一层第二筛选特征图进行融合处理,得到融合特征图;对融合特征图进行识别处理,得到待处理图像的识别结果。对待处理图像进行多种尺度的特征提取处理,特征图多样性丰富,有利于提高图像识别的识别精度;对多种尺度的特征图进行筛选处理,得到待处理图像的多层级筛选特征图,然后根据多层级筛选特征图融合得到的融合特征图确定待处理图像的图像识别结果,图像识别结果中识别出的图像部件的轮廓边缘信息准确性高,不同语义类别的图像部件的识别结果混淆程度低,图像识别精度高、准确性强。
图3为本申请实施例提供的一种图像识别处理装置的结构示意图,如图3所示,该装置包括:
获取单元1,用于获取待处理图像,其中,待处理图像包括至少一个类别的图像部件;
第一处理单元2,用于对待处理图像进行多种尺度的特征提取处理,得到待处理图像的多种尺度的特征图;
第二处理单元3,用于对多种尺度的特征图进行筛选处理,得到待处理图像的多种尺度的筛选特征图;
第三处理单元4,用于对多种尺度的筛选特征图进行融合处理,得到待处理图像的融合特征图;
第四处理单元5,用于对融合特征图进行识别处理,得到待处理图像的图像部件的识别结果。
本实施例通过获取待处理图像,其中,待处理图像包括至少一个类别的图像部件;对待处理图像进行多种尺度的特征提取处理,得到待处理图像的多种尺度的特征图;对多种尺度的特征图进行筛选处理,得到待处理图像的多种尺度的筛选特征图;对多种尺度的筛选特征图进行融合处理,得到待处理图像的融合特征图;对融合特征图进行识别处理,得到待处理图像的图像部件的识别结果。对待处理图像进行多种尺度的特征提取处理,得到待处理图像的多种尺度的特征图,特征图多样性丰富,有利于提高图像识别的识别精度;对待处理图像的多种尺度的特征图进行筛选处理,得到待处理图像的多种尺度的筛选特征图,在根据待处理图像的多种尺度的筛选特征图得到的图像识别结果中,图像部件的轮廓边缘信息准确性高,不同语义类别的图像部件的识别结果混淆程度低,图像识别精度高。
图4为本申请实施例提供的又一种图像识别处理装置的结构示意图,在图3所示实施例的基础上,如图4所示,
多种尺度的特征图包括尺度最小的第一特征图和除第一特征图以外的至少一层第二特征图;第二处理单元3,包括:
第一处理子单元31,用于对第一特征图进行第一筛选处理,得到第一筛选特征图,对至少一层第二特征图进行第二筛选处理,得到至少一层第二筛选特征图;
第三处理单元4,包括
第二处理子单元41,用于对第一筛选特征图和至少一层第二筛选特征图进行融合处理,得到融合特征图。
第一处理子单元31,包括:
第一处理模块311,用于将第一特征图转换成预设大小的特征向量,构成第一筛选特征图。
第一处理子单元31,还包括:
第二处理模块312,用于对每一层第二特征图进行第一线性处理,得到每一层第二特征图对应的第一线性特征图,对每一层第二特征图进行第二线性处理,得到每一层第二特征图对应的第二线性特征图;
第三处理模块313,用于对每一层第二特征图对应的第一线性特征图进行特征编码处理,得到每一层第二特征图对应的边缘特征图;
第四处理模块314,用于根据每一层第二特征图对应的边缘特征图和第二线性特征图,确定每一层第二特征图对应的第二筛选特征图,得到至少一层第二筛选特征图。
第二处理单元3还包括:
第三处理子单元32,用于根据每一层第二特征图对应的边缘特征图,确定待处理图像的图像部件的边缘预测结果。
第四处理单元5,包括:
第四处理子单元51,用于对融合特征图进行池化处理,得到融合特征图的特征向量;
第五处理子单元52,用于根据融合特征图与特征向量,得到部件识别结果。
本实施例通过获取待处理图像,其中,待处理图像包括至少一个类别的图像部件;对待处理图像进行多种尺度的特征提取处理,得到待处理图像的多种尺度的特征图,其中,多种尺度的特征图包括尺度最小的第一特征图和除第一特征图以外的至少一层第二特征图;对第一特征图进行第一筛选处理,得到第一筛选特征图,对至少一层第二特征图进行第二筛选处理,得到至少一层第二筛选特征图,对第一筛选特征图和至少一层第二筛选特征图进行融合处理,得到融合特征图;对融合特征图进行识别处理,得到待处理图像的识别结果。对待处理图像进行多种尺度的特征提取处理,特征图多样性丰富,有利于提高图像识别的识别精度;对多种尺度的特征图进行筛选处理,得到待处理图像的多层级筛选特征图,然后根据多层级筛选特征图融合得到的融合特征图确定待处理图像的图像识别结果,图像识别结果中识别出的图像部件的轮廓边缘信息准确性高,不同语义类别的图像部件的识别结果混淆程度低,图像识别精度高、准确性强。
图5为本申请实施例提供的一种图像识别处理设备的结构示意图,如图5所示,本申请实施例提供了一种图像识别处理设备,可以用于执行图1-图2所示实施例中图像识别处理设备动作或步骤,具体包括:处理器501,存储器502和通信接口503。
存储器502,用于存储计算机程序。
处理器501,用于执行存储器502中存储的计算机程序,以实现图1-图4所示实施例中图像识别处理设备的动作,不再赘述。
可选的,图像识别处理设备还可以包括总线504。其中,处理器501、存储器502以及通信接口503可以通过总线504相互连接;总线504可以是外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。上述总线504可以分为地址总线、数据总线和控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
在本申请实施例中,上述各实施例之间可以相互参考和借鉴,相同或相似的步骤以及名词均不再一一赘述。
或者,以上各个模块的部分或全部也可以通过集成电路的形式内嵌于该轨迹预测设备的某一个芯片上来实现。且它们可以单独实现,也可以集成在一起。即以上这些模块可以被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Digital Singnal Processor,简称DSP),或,一个或者多个现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现上述处理方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、自动服务设备或数据中心通过有线(例如,同轴电缆、光纤、数字用户线(digitalsubscriber line,DSL))或无线(例如,红外、无线、微波等)方式向另一个网站站点、计算机、自动服务设备或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的自动服务设备、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本申请实施例描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims (10)

1.一种图像识别处理方法,其特征在于,包括:
获取待处理图像,其中,所述待处理图像包括至少一个类别的图像部件;
对所述待处理图像进行多种尺度的特征提取处理,得到所述待处理图像的多种尺度的特征图;
对所述多种尺度的特征图进行筛选处理,得到所述待处理图像的多种尺度的筛选特征图;
对所述多种尺度的筛选特征图进行融合处理,得到所述待处理图像的融合特征图;
对所述融合特征图进行识别处理,得到所述待处理图像的所述图像部件的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述多种尺度的特征图包括尺度最小的第一特征图和除第一特征图以外的至少一层第二特征图;对所述多种尺度的筛选特征图进行融合处理,得到所述待处理图像的融合特征图,包括:
对所述第一特征图进行第一筛选处理,得到第一筛选特征图,对所述至少一层第二特征图进行第二筛选处理,得到至少一层第二筛选特征图;
对所述多种尺度的筛选特征图进行融合处理,得到所述待处理图像的融合特征图,包括:
对所述第一筛选特征图和所述至少一层第二筛选特征图进行融合处理,得到所述融合特征图。
3.根据权利要求2所述的方法,其特征在于,对所述第一特征图进行第一筛选处理,得到第一筛选特征图,包括:
将所述第一特征图转换成预设大小的特征向量,构成所述第一筛选特征图。
4.根据权利要求2所述的方法,其特征在于,对所述至少一层第二特征图进行第二筛选处理,得到至少一层第二筛选特征图,包括:
对每一层所述第二特征图进行第一线性处理,得到每一层所述第二特征图对应的第一线性特征图,对每一层所述第二特征图进行第二线性处理,得到每一层所述第二特征图对应的第二线性特征图;
对每一层所述第二特征图对应的所述第一线性特征图进行特征编码处理,得到每一层所述第二特征图对应的边缘特征图;
根据每一层所述第二特征图对应的所述边缘特征图和所述第二线性特征图,确定每一层所述第二特征图对应的所述第二筛选特征图,得到至少一层第二筛选特征图。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据每一层所述第二特征图对应的所述边缘特征图,确定所述待处理图像的所述图像部件的边缘预测结果。
6.根据权利要求1-5任一项所述的方法,其特征在于,对所述融合特征图进行识别处理,得到所述待处理图像的识别结果,包括:
对所述融合特征图进行池化处理,得到所述融合特征图的特征向量;
根据所述融合特征图与所述特征向量,得到所述识别结果。
7.一种图像识别处理装置,其特征在于,包括:
获取单元,用于获取待处理图像,其中,所述待处理图像包括至少一个类别的图像部件;
第一处理单元,用于对所述待处理图像进行多种尺度的特征提取处理,得到所述待处理图像的多种尺度的特征图;
第二处理单元,用于对所述多种尺度的特征图进行筛选处理,得到所述待处理图像的多种尺度的筛选特征图;
第三处理单元,用于对所述多种尺度的筛选特征图进行融合处理,得到所述待处理图像的融合特征图;
第四处理单元,用于对所述融合特征图进行识别处理,得到所述待处理图像的所述图像部件的识别结果。
8.根据权利要求7所述的装置,其特征在于,所述多种尺度的特征图包括尺度最小的第一特征图和除第一特征图以外的至少一层第二特征图,第二处理单元,包括:
第一处理子单元,用于对所述第一特征图进行第一筛选处理,得到第一筛选特征图,对所述至少一层第二特征图进行第二筛选处理,得到至少一层第二筛选特征图;
第三处理单元,包括:
第二处理子单元,用于对所述第一筛选特征图和所述至少一层第二筛选特征图进行融合处理,得到所述融合特征图。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。
CN201910984822.0A 2019-10-16 2019-10-16 图像识别处理方法、装置、设备及存储介质 Active CN110991460B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910984822.0A CN110991460B (zh) 2019-10-16 2019-10-16 图像识别处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910984822.0A CN110991460B (zh) 2019-10-16 2019-10-16 图像识别处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110991460A true CN110991460A (zh) 2020-04-10
CN110991460B CN110991460B (zh) 2023-11-21

Family

ID=70082060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910984822.0A Active CN110991460B (zh) 2019-10-16 2019-10-16 图像识别处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110991460B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180068198A1 (en) * 2016-09-06 2018-03-08 Carnegie Mellon University Methods and Software for Detecting Objects in an Image Using Contextual Multiscale Fast Region-Based Convolutional Neural Network
CN108830322A (zh) * 2018-06-15 2018-11-16 联想(北京)有限公司 一种图像处理方法及装置、设备、存储介质
CN108830199A (zh) * 2018-05-31 2018-11-16 京东方科技集团股份有限公司 识别交通灯信号的方法、装置、可读介质及电子设备
WO2019007253A1 (zh) * 2017-07-06 2019-01-10 阿里巴巴集团控股有限公司 图像识别方法、装置及设备、可读介质
CN110135406A (zh) * 2019-07-09 2019-08-16 北京旷视科技有限公司 图像识别方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180068198A1 (en) * 2016-09-06 2018-03-08 Carnegie Mellon University Methods and Software for Detecting Objects in an Image Using Contextual Multiscale Fast Region-Based Convolutional Neural Network
WO2019007253A1 (zh) * 2017-07-06 2019-01-10 阿里巴巴集团控股有限公司 图像识别方法、装置及设备、可读介质
CN108830199A (zh) * 2018-05-31 2018-11-16 京东方科技集团股份有限公司 识别交通灯信号的方法、装置、可读介质及电子设备
CN108830322A (zh) * 2018-06-15 2018-11-16 联想(北京)有限公司 一种图像处理方法及装置、设备、存储介质
CN110135406A (zh) * 2019-07-09 2019-08-16 北京旷视科技有限公司 图像识别方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YIXIONG LIANG等: "Scale-Invariant Structure Saliency Selection for Fast Image Fusion", 《ARXIV》, pages 1 - 15 *

Also Published As

Publication number Publication date
CN110991460B (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN108172213B (zh) 娇喘音频识别方法、装置、设备及计算机可读介质
CN111160406A (zh) 图像分类模型的训练方法、图像分类方法及装置
CN109871845B (zh) 证件图像提取方法及终端设备
CN112232300B (zh) 全局遮挡自适应的行人训练/识别方法、系统、设备及介质
CN110148117B (zh) 基于电力图像的电力设备缺陷识别方法、装置与存储介质
CN113781510B (zh) 边缘检测方法、装置及电子设备
CN111126481A (zh) 一种神经网络模型的训练方法及装置
CN110879982A (zh) 一种人群计数系统及方法
CN113066065B (zh) 无参考图像质量检测方法、系统、终端及介质
CN111784665B (zh) 基于傅里叶变换的oct图像质量评估方法、系统及装置
US11605210B2 (en) Method for optical character recognition in document subject to shadows, and device employing method
CN112132143A (zh) 数据处理方法、电子设备及计算机可读介质
US20190340473A1 (en) Pattern recognition method of autoantibody immunofluorescence image
CN111067522A (zh) 大脑成瘾结构图谱评估方法及装置
CN111680755A (zh) 医学图像识别模型构建及医学图像识别方法、装置、介质及终端
CN110991412A (zh) 人脸识别的方法、装置、存储介质及电子设备
CN117557941A (zh) 基于多模态数据融合的视频智能分析系统及方法
CN110401488B (zh) 一种解调方法及装置
CN114638304A (zh) 图像识别模型的训练方法、图像识别方法及装置
CN114463345A (zh) 基于动态自适应网络的多参数乳腺磁共振图像分割方法
CN116071625B (zh) 深度学习模型的训练方法、目标检测方法及装置
CN110705695A (zh) 搜索模型结构的方法、装置、设备和存储介质
CN116258873A (zh) 一种位置信息确定方法、对象识别模型的训练方法及装置
CN110991460B (zh) 图像识别处理方法、装置、设备及存储介质
CN115311680A (zh) 人体图像质量检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant