CN114187442A - 图像处理方法、存储介质、电子设备及图像处理装置 - Google Patents
图像处理方法、存储介质、电子设备及图像处理装置 Download PDFInfo
- Publication number
- CN114187442A CN114187442A CN202111527123.7A CN202111527123A CN114187442A CN 114187442 A CN114187442 A CN 114187442A CN 202111527123 A CN202111527123 A CN 202111527123A CN 114187442 A CN114187442 A CN 114187442A
- Authority
- CN
- China
- Prior art keywords
- image processing
- feature
- original image
- feature map
- processing method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种图像处理方法、存储介质、电子设备及图像处理装置。方法包括:将原始图像输入特征提取网络获得融合特征图,特征提取网络包括多个特征提取层分别用于提取不同层次的特征图,融合特征图通过对原始图像的不同层次的特征图进行特征融合得到;通过具有多个采样率的空洞卷积模型组合,对融合特征图按照多个采样率进行空洞卷积并行采样得到多尺度特征图,多尺度特征图指示按照多个比例捕捉的融合特征图的上下文,多个比例与多个采样率一一对应;通过ROI校准模块,根据多个候选ROI对多尺度特征图进行划分得到多个候选图;对多个候选图分别进行语义分割得到原始图像的语义分割结果。如此实现了精确识别并标注废钢的内容和位置。
Description
技术领域
本申请涉及计算机视觉技术领域,具体涉及一种图像处理方法、存储介质、电子设备及图像处理装置。
背景技术
随着人工智能技术的发展,深度学习技术在计算机视觉技术领域取得了重大发展,并且在图像分类、图像目标检测以及图像分割等方面取得了重大突破。其中,基于计算机视觉技术的人脸识别产品已经广泛应用于出入境口岸、火车站和机场大厅等场所,通过从采集的图像中提取人脸特征并进行比对和搜索来达到身份检判的目的。在工业应用领域,例如物流中心的货物自动分拣和港口自动化等,可以借助人工智能技术和基于计算机视觉技术的产品来实现对目标货物的智能化自动检判并根据检判结果采取相应的搬运、分拣、打包等操作。另外,在废钢回收利用环节中,也需要对来源复杂、种类繁多、材质差异大的各种废弃钢材进行定级并采取相应操作,因此也可以借助人工智能技术和基于计算机视觉技术的产品来实现对废弃钢材的智能化自动检判。以上提及的对目标货物或废弃钢材的智能化自动检判,相比于传统的人工测量和人工检判,具有检判标准客观稳定、信息化程度高、降低了安全隐患和人力成本等有益效果,有利于提高生产效率和作业安全性。
在废钢检测、废弃钢材或货物的智能化自动检判等应用中,需要识别出不同废钢或者货物的内容及位置,但是这些废钢或货物的堆积情况难以预料且存在互相遮挡、形状相似等问题,从而给精确识别并检判出每一个个体的内容及位置带来巨大挑战,也使得基于计算机视觉技术的解决方案面临计算复杂度和算力方面的困难。
为此,需要一种图像处理方法、存储介质、电子设备及图像处理装置,能够基于计算机视觉技术在废钢回收利用环节和废弃钢材的智能化自动检判等应用中实现精确识别和检判。
发明内容
第一方面,本申请实施例提供了一种图像处理方法。所述图像处理方法包括:将原始图像输入特征提取网络从而获得融合特征图,所述特征提取网络包括多个特征提取层分别用于提取不同层次的特征图,所述融合特征图通过对所述原始图像的不同层次的特征图进行特征融合得到;通过具有多个采样率的空洞卷积模型组合,对所述融合特征图按照所述多个采样率进行空洞卷积并行采样,得到多尺度特征图,所述多尺度特征图指示按照多个比例捕捉的所述融合特征图的上下文,所述多个比例与所述多个采样率一一对应;通过兴趣区域ROI校准模块,根据多个候选ROI对所述多尺度特征图进行划分得到多个候选图,所述多个候选图与所述多个候选ROI一一对应,所述多个候选ROI基于所述融合特征图;对所述多个候选图分别进行语义分割,得到所述原始图像的语义分割结果。
第一方面所描述的技术方案,有效降低边缘识别误差同时还增强了对原始图像的语义理解,这样提升了对小尺寸物件或者说小型物件的识别效果和检测性能,进而在废钢检测、废钢回收利用环节和废弃钢材的智能化自动检判等应用中实现了精确识别并标注废钢的内容和位置。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述特征提取网络包括特征金字塔网络FPN,所述FPN通过对从低层次语义特征图到高层次语义特征图的不同层次的特征图进行特征融合得到所述融合特征图。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述特征提取网络还包括主干网络分支用于提取所述原始图像的高层次语义特征,所述主干网络分支的输出结果作为所述FPN的输入。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述多个候选ROI基于所述融合特征图,包括:将所述融合特征图或者所述多尺度特征图输入区域候选网络得到所述多个候选ROI。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,对所述多个候选图分别进行语义分割,得到所述原始图像的语义分割结果,包括:将所述多个候选图输入全连接FC网络进行语义分割操作从而得到所述原始图像的语义分割结果。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述将所述多个候选图输入所述FC网络进行语义分割操作包括:分类操作、回归操作和掩模生成操作。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述FC网络的掩模生成操作用于生成所述原始图像的多个掩模,所述多个掩模各自对应所述原始图像中不同类型的物件。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述多个采样率的上限与所述多个特征提取层的个数相关联并且一起被调整。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述特征提取网络所包括的所述多个特征提取层的个数配置为可被增加以增加所述融合特征图所包括的关于所述原始图像的语义信息,所述多个采样率的上限配置为可被增加以增加所述融合特征图的上下文被捕捉的比例。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述图像处理方法还包括:根据所述图像处理方法的应用场景确定所述多个采样率的上限和所述多个特征提取层的个数之间优先级较高的一方,并提高优先级较高的一方同时降低优先级较低的一方。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,当所述图像处理方法的应用场景是用于识别所述原始图像中的小型物件的应用场景,所述多个采样率的上限具有较高优先级,所述多个特征提取层的个数具有较低优先级。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,当所述图像处理方法的应用场景是用于识别所述原始图像中的相似物件的应用场景,所述多个采样率的上限具有较低优先级,所述多个特征提取层的个数具有较高优先级。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,当所述图像处理方法的应用场景是第一应用场景,所述多个采样率的上限是24,所述多个特征提取层的个数是10;当所述图像处理方法的应用场景是第二应用场景,所述多个采样率的上限是12,所述多个特征提取层的个数是16,其中,所述第一应用场景中的待识别物件的尺寸的中位数小于所述第二应用场景中的待识别物体的尺寸的中位数。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述空洞卷积模型组合的空洞卷积核尺寸与所述特征提取网络的卷积层尺寸相匹配。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述原始图像经过数据增强操作,所述数据增强操作包括以下至少之一:随机翻转、旋转、翻转及旋转、随机变换、随机缩放、随机裁剪、模糊化、高斯噪声添加、填充。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述图像处理方法用于废钢料件集合搬运过程中的料件检测,所述原始图像的语义分割结果包括所述原始图像上的废钢料件集合的语义分割识别结果。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述原始图像上的废钢料件集合的语义分割识别结果用于确定所述原始图像上的废钢料件集合的至少一种关联信息,所述废钢料件集合的至少一种关联信息包括以下至少一种:轮廓信息、种类信息、来源信息、坐标信息、面积信息、像素特征信息。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述废钢料件集合的至少一种关联信息包括种类信息并且用于确定所述原始图像上的废钢料件集合中不同种类信息的料件各自对应的比重信息、品质信息或者价格信息。
第二方面,本申请实施例提供了一种非瞬时性计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,该计算机指令被处理器执行时实现根据第一方面中任一项所述的图像处理方法。
第二方面所描述的技术方案,有效降低边缘识别误差同时还增强了对原始图像的语义理解,这样提升了对小尺寸物件或者说小型物件的识别效果和检测性能,进而在废钢检测、废钢回收利用环节和废弃钢材的智能化自动检判等应用中实现了精确识别并标注废钢的内容和位置。
第三方面,本申请实施例提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器通过运行所述可执行指令以实现根据第一方面中任一项所述的图像处理方法。
第三方面所描述的技术方案,有效降低边缘识别误差同时还增强了对原始图像的语义理解,这样提升了对小尺寸物件或者说小型物件的识别效果和检测性能,进而在废钢检测、废钢回收利用环节和废弃钢材的智能化自动检判等应用中实现了精确识别并标注废钢的内容和位置。
第四方面,本申请实施例提供了一种图像处理装置。所述图像处理装置包括:特征提取网络,用于根据原始图像获得融合特征图,其中,所述特征提取网络包括多个特征提取层分别用于提取不同层次的特征图,所述融合特征图通过对所述原始图像的不同层次的特征图进行特征融合得到;具有多个采样率的空洞卷积模型组合,用于对所述融合特征图按照所述多个采样率进行空洞卷积并行采样,得到多尺度特征图,所述多尺度特征图指示按照多个比例捕捉的所述融合特征图的上下文,所述多个比例与所述多个采样率一一对应;区域候选网络,用于基于所述融合特征图获取多个候选ROI;ROI校准模块,用于根据多个候选ROI对所述多尺度特征图进行划分得到多个候选图,所述多个候选图与所述多个候选ROI一一对应;和语义分割模块,用于对所述多个候选图分别进行语义分割,得到所述原始图像的语义分割结果。
第四方面所描述的技术方案,有效降低边缘识别误差同时还增强了对原始图像的语义理解,这样提升了对小尺寸物件或者说小型物件的识别效果和检测性能,进而在废钢检测、废钢回收利用环节和废弃钢材的智能化自动检判等应用中实现了精确识别并标注废钢的内容和位置。
根据第四方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述特征提取网络包括FPN和主干网络分支,所述FPN通过对从低层次语义特征图到高层次语义特征图的不同层次的特征图进行特征融合得到所述融合特征图,所述主干网络分支用于提取所述原始图像的高层次语义特征,所述主干网络分支的输出结果作为所述FPN的输入。
根据第四方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述语义分割模块是FC网络,所述FC网络对所述多个候选图分别进行的语义分割包括分类操作、回归操作和掩模生成操作,所述FC网络的掩模生成操作用于生成所述原始图像的多个掩模,所述多个掩模各自对应所述原始图像中不同类型的物件。
根据第四方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述多个采样率的上限与所述多个特征提取层的个数相关联并且一起被调整。
根据第四方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述特征提取网络所包括的所述多个特征提取层的个数配置为可被增加以增加所述融合特征图所包括的关于所述原始图像的语义信息,所述多个采样率的上限配置为可被增加以增加所述融合特征图的上下文被捕捉的比例。
根据第四方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述图像处理装置用于根据所述图像处理装置的应用场景确定所述多个采样率的上限和所述多个特征提取层的个数之间优先级较高的一方,并提高优先级较高的一方同时降低优先级较低的一方。
根据第四方面的技术方案的一种可能的实现方式,本申请实施例还提供了,当所述图像处理装置的应用场景是用于识别所述原始图像中的小型物件的应用场景,所述多个采样率的上限具有较高优先级,所述多个特征提取层的个数具有较低优先级;当所述图像处理装置的应用场景是用于识别所述原始图像中的相似物件的应用场景,所述多个采样率的上限具有较低优先级,所述多个特征提取层的个数具有较高优先级。
根据第四方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述图像处理装置用于废钢料件集合搬运过程中的料件检测,所述原始图像的语义分割结果包括所述原始图像上的废钢料件集合的语义分割识别结果,所述原始图像上的废钢料件集合的语义分割识别结果用于确定所述原始图像上的废钢料件集合的至少一种关联信息,所述废钢料件集合的至少一种关联信息包括以下至少一种:轮廓信息、种类信息、来源信息、坐标信息、面积信息、像素特征信息。
附图说明
为了说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1示出了本申请实施例提供的图像处理方法的流程示意图。
图2示出了本申请实施例提供的用于图1所示的图像处理方法的电子设备的框图。
图3示出了本申请实施例提供的图像处理装置的框图。
具体实施方式
本申请实施例为了解决如何基于计算机视觉技术在废钢回收利用环节和废弃钢材的智能化自动检判等应用中实现精确识别和检判,提供了一种图像处理方法、存储介质、电子设备及图像处理装置。所述图像处理方法包括:将原始图像输入特征提取网络从而获得融合特征图,所述特征提取网络包括多个特征提取层分别用于提取不同层次的特征图,所述融合特征图通过对所述原始图像的不同层次的特征图进行特征融合得到;通过具有多个采样率的空洞卷积模型组合,对所述融合特征图按照所述多个采样率进行空洞卷积并行采样,得到多尺度特征图,所述多尺度特征图指示按照多个比例捕捉的所述融合特征图的上下文,所述多个比例与所述多个采样率一一对应;通过兴趣区域ROI校准模块,根据多个候选ROI对所述多尺度特征图进行划分得到多个候选图,所述多个候选图与所述多个候选ROI一一对应,所述多个候选ROI基于所述融合特征图;对所述多个候选图分别进行语义分割,得到所述原始图像的语义分割结果。如此,有效降低边缘识别误差同时还增强了对原始图像的语义理解,这样提升了对小尺寸物件或者说小型物件的识别效果和检测性能,进而在废钢检测、废钢回收利用环节和废弃钢材的智能化自动检判等应用中实现了精确识别并标注废钢的内容和位置
本申请实施例可用于以下应用场景,包括但是不限于,工业自动化、物流中心货物分拣、港口自动化、货物智能化自动检判、废弃钢材回收、废弃钢材智能化自动检判以及任意的可能通过用于料件智能检判的识别方法、装置来提高生产效率和降低人力成本的应用场景如煤炭自动化分拣、垃圾回收和垃圾自动化分拣等。
本申请实施例可以依据具体应用环境进行调整和改进,此处不做具体限定。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请的实施例进行描述。
本申请各方面以及以下所提及的各种实施例和实施方式涉及到人工智能、机器学习和神经网络等概念。一般而言,人工智能(Artificial Intelligence,AI)研究人类智能的本质并构建能以人类智能相似的方式作出反应的智能机器。人工智能应用领域的研究包括机器人、语音识别、自然语言处理、图像识别、决策推理、人机交互和专家系统等。机器学习(Machine Learning,ML)研究人工智能系统如何模拟或实现人类的学习行为,获取新的知识或技能,重新组织已有知识结构以及改善自身能力。机器学习通过各种算法从大量样本、数据或者经验中学习规律,从而对新的样本做出识别或者对事件做出决策和预测。机器学习算法的例子包括决策树学习、贝叶斯分类、支持向量机、聚类算法等。深度学习(DeepLearning,DL)参考了人类大脑的天然深层结构和按深度分级的认知过程,研究如何将大量数据输入复杂模型中,并“训练”模型来学习如何抓取特征。神经网络(Neural Network,NN)可以分成人工神经网络(Artificial Neural Network,ANN)和脉冲神经网络(SpikingNeural Network,SNN)。SNN模仿生物神经工作机制的脉冲神经元模型,计算过程中采用脉冲编码的信息。目前获得广泛应用的是ANN。本文中所提及的神经网络NN,除非特别说明或者另有所指或者结合上下文得出不同的解释,否则一般情况下指的是人工神经网络也即ANN。
ANN指的是受到大脑神经元结构及神经传导原理的启发而建立的算法数学模型,具有模仿动物神经网络行为特征进行信息处理的网络结构。神经网络包括大量相互联接的节点或者称神经元,这些节点或称神经元受到大脑神经元结构启发,有时也称作人工神经元或者感知器。浅层神经网络(Shallow Neural Network)只包括输入层和输出层,输入层负责接收输入信号,输出层负责输出神经网络的计算结果。输入信号经过线性组合后,被施加激活函数(Activation Function)进行变换得到输出层的结果。深度学习中用到的复杂模型主要是多层神经网络,有时也称作深度神经网络(Deep Neural Network,DNN)。多层神经网络除了输入层和输出层还包括隐藏层,每个隐藏层包括任意数量的神经元,这些神经元在网络结构中作为节点与前一层的节点连接,每个神经元可以看做线性组合器并给每个连接的输入值分配权重进行加权线性组合。激活函数是对输入信号进行加权线性组合之后的非线性映射,在多层神经网络中可以理解为上一层神经元的输出与下一层神经元的输入之间的函数关系。每个隐藏层可以有不同的激活函数。常见的激活函数有ReLU、Sigmoid、Tanh等。神经网络通过网状结构将每一层的信息传递给下一层。正向传播是从输入层到输出层逐层计算的过程,在正向传播过程中反复进行加权线性组合和通过激活函数进行变换,最后计算损失函数(Loss Function)用于衡量模型预测值和真实值之间的偏离程度。反向传播是从输出层向隐藏层反向传播直至输入层,在反向传播过程中根据实际输出和期望输出之间的误差进行神经网络参数的修正。DNN按照基本层的组成可以分为卷积神经网络(Convolutional Neural Network,CNN)、全连接神经网络(Fully Connected NeuralNetwork,FCN)和循环神经网络(Recurrent Neural Network,RNN)。CNN由卷积层、池化层和全连接层组成。FCN由多个全连接层组成。RNN由全连接层组成但层与层之间具有反馈路径和门控操作,也叫递归层。不同类型的神经网络基本层具有不同的计算特点和计算需求,例如有的神经网络中卷积层的计算占比很高且各卷积层的计算量很大。另外,神经网络的各卷积层的计算参数如卷积核大小和输入输出特征图尺寸等也变化多样。
图1示出了本申请实施例提供的图像处理方法的流程示意图。如图1所示,图像处理方法100包括以下步骤。
步骤S102:将原始图像输入特征提取网络从而获得融合特征图,所述特征提取网络包括多个特征提取层分别用于提取不同层次的特征图,所述融合特征图通过对所述原始图像的不同层次的特征图进行特征融合得到。
步骤S104:通过具有多个采样率的空洞卷积模型组合,对所述融合特征图按照所述多个采样率进行空洞卷积并行采样,得到多尺度特征图,所述多尺度特征图指示按照多个比例捕捉的所述融合特征图的上下文,所述多个比例与所述多个采样率一一对应。
步骤S106:通过兴趣区域ROI校准模块,根据多个候选ROI对所述多尺度特征图进行划分得到多个候选图,所述多个候选图与所述多个候选ROI一一对应,所述多个候选ROI基于所述融合特征图。
步骤S108:对所述多个候选图分别进行语义分割,得到所述原始图像的语义分割结果。
为了得到原始图像的语义分割结果,基于图像语义分割技术对所述多个候选图分别进行语义分割。图像语义分割技术的原理包括对图像上的像素进行识别、分配类别并标注上对应的类别,从而得到图像的像素级预测结果。为了基于计算机视觉技术在废钢回收利用环节和废弃钢材的智能化自动检判等应用中实现精确识别和检判,需要精确识别并标注废钢的内容和位置,例如废钢的种类(如识别为火车的某个部件或者螺丝钉或者其它种类)、废钢的位置(图像中的坐标或者采用边框形式)等,还可以标注上各种类别及获得其它可能有用的信息。图像的像素级预测结果或者说原始图像的语义分割结果中的检测效果越好,意味着对图像中废钢的内容和位置的识别更准确,则可以带来更可靠的预测结果也能为决策和后续处理提供更好的依据。而为了获得更好的检测效果,需要改进获得原始图像的语义分割结果的过程。这里,原始图像的语义信息可以分成不同层次,例如低层次语义特征(也可以叫做低层语义特征)和高层次语义特征(也可以叫做高层语义特征)。图像的轮廓、边缘、颜色、纹理和形状等特征一般称之为低层次语义特征,有时也可以称之为底层语义特征用于对应视觉层的概念。而图像的对象等更接近人类视觉所理解的特征则称之为高层次语义特征。例如,人脸图像的语义信息中,人脸的轮廓、鼻子和眼睛等是低层次语义特征,而人脸的对象则是高层次语义特征。低层次语义特征所包含的特征语义信息比较少但是目标位置准确;高层次语义特征所包含的特征语义信息比较丰富但是目标位置比较粗略。因此,通过提取低层次语义特征可以更好地识别出目标位置例如判断边缘和关键点,但是其中所包含的特征语义信息较少所以不利于更好地理解图像的内容;另一方面,通过提取高层次语义特征可以更好地理解图像的内容,但是其中的目标位置比较粗略所以不利于识别位置且可能在边缘识别上存在较大的误差。以上面提到的人脸图像的语义信息为例,低层次语义特征能用于更好地识别鼻子和眼睛的位置,而高层次语义特征能用于更好地理解人脸的内容。为了获得更好的检测效果,需要改进获得原始图像的语义分割结果的过程以充分利用原始图像的语义信息中的不同层次的语义特征,包括低层次语义特征和高层次语义特征,下面详细说明这一点。
在步骤S102中,将原始图像输入特征提取网络从而获得融合特征图。这里,所述特征提取网络包括多个特征提取层分别用于提取不同层次的特征图。所述融合特征图通过对所述原始图像的不同层次的特征图进行特征融合得到。因此,该融合特征图包括了对原始图像的不同层次的特征图,包括与不同层次的语义特征分别对应的特征图也包括分别对应低层次语义特征和高层次语义特征的特征图,进行特征融合的结果。应当理解的是,特征提取网络的具体结构、模型参数和算法等可以根据实际需要或者场景设定而调整,在此不做具体限定,只要能实现对所述原始图像的不同层次的特征图进行特征融合得到该融合特征图的目的。在一些实施例中,特征提取网络利用Faster-RCNN网络进行特征提取然后对Faster-RCNN网络所提取的特征进行特征融合。在另一些实施例中,特征提取网络利用MaskR-CNN网络进行特征提取然后对Mask R-CNN网络所提取的特征进行特征融合。在一种可能的实施方式中,所述特征提取网络包括特征金字塔网络(Feature Pyramid Networks,FPN),所述FPN通过对从低层次语义特征图到高层次语义特征图的不同层次的特征图进行特征融合得到所述融合特征图。这里,FPN用于融合原始图像的不同层次的特征图,包括从低层次到高层次的特征图,从而实现多层次的语义特征的融合。通过FPN的特征融合,可以大幅度提升对小尺寸物件或者说小型物件的检测性能。应当理解的是,所述特征提取网络可以通过任意合适的特征融合网络来实现对所述原始图像的不同层次的特征图进行特征融合得到所述融合特征图。在一种可能的实施方式中,所述特征提取网络还包括主干网络分支用于提取所述原始图像的高层次语义特征,所述主干网络分支的输出结果作为所述FPN的输入。这里,主干网络分支可以采用任意合适的网络模型,例如Faster-RCNN网络或者Mask R-CNN网络。在一些实施例中,主干网络分支中包括CNN部分,该CNN部分包括若干个卷积层并通过卷积操作后得到最后一层特征图。而FPN或者其它的特征融合网络通过例如下采样操作、特征图通道改变操作和拼接操作等来提取出该CNN部分的中间层的结果从而得到多个层次的特征图。在另一些实施例中,主干网络分支可以包括任意合适的网络结构、模型参数和算法等,并可以跟FPN或者任意合适的特征融合网络一起来实现对所述原始图像的不同层次的特征图进行特征融合得到所述融合特征图。应当理解的是,在步骤S102得到的融合特征图,因为是通过对所述原始图像的不同层次的特征图进行特征融合得到,所以同时包含了丰富的原始图像的语义信息中的不同层次的语义特征,包括低层次语义特征和高层次语义特征。
在步骤S104中,通过具有多个采样率的空洞卷积模型组合,对所述融合特征图按照所述多个采样率进行空洞卷积并行采样,得到多尺度特征图。这里,空洞卷积模型组合用于进一步地从融合特征图中获得丰富的语义信息从而最大化利用了融合特征图中同时包含了丰富的原始图像的语义信息中的不同层次的语义特征这一优点。具体地,空洞卷积模型组合具有多个采样率,对所述融合特征图按照所述多个采样率进行空洞卷积并行采样,等效于以多个比例捕捉所述融合特征图的上下文。其中,所述多尺度特征图指示按照多个比例捕捉的所述融合特征图的上下文,所述多个比例与所述多个采样率一一对应。因为按照多个比例捕捉的所述融合特征图的上下文,而上下文的信息能更好地用在边缘识别和轮廓识别上,可以降低边缘识别误差,从而更好地区分开特定的物件和相邻物件及环境,有利于提升对小尺寸物件或者说小型物件的检测性能。在步骤S104得到的多尺度特征图通过将多个比例的上下文特征通道融合得到,因此包含了丰富的语义信息特别是按照多个比例捕捉的所述融合特征图的上下文的信息。应当理解的是,空洞卷积模型组合可以包括任意合适的网络结构并采用任意合适的多个采样率,只要能实现对所述融合特征图按照所述多个采样率进行空洞卷积并行采样得到多尺度特征图。在一种可能的实施方式中,该空洞卷积模型组合可以包括四个空洞卷积核并分别具有独立的卷积核尺寸和采样率,例如分别为第一空洞卷积核(卷积核尺寸为3x3,采样率为6),第二空洞卷积核(卷积核尺寸为3x3,采样率为12),第三空洞卷积核(卷积核尺寸为3x3,采样率为18),以及第四空洞卷积核(卷积核尺寸为3x3,采样率为24)。
在步骤S106中,通过ROI校准模块,根据多个候选ROI对所述多尺度特征图进行划分得到多个候选图。所述多个候选图与所述多个候选ROI一一对应,所述多个候选ROI基于所述融合特征图。在步骤S108中,对所述多个候选图分别进行语义分割,得到所述原始图像的语义分割结果。这里,多个候选ROI基于所述融合特征图获取,意味着多个候选ROI是该融合特征图上的感兴趣区域。因此,通过ROI校准模块可以利用这些候选ROI来提供校准操作,从而有利于解决多尺度特征图的像素级预测精度下降的问题,或者说,有利于改进基于多尺度特征图的像素级预测精度,这样就在保留多尺度特征图的丰富的语义信息同时也保持了良好的像素级预测精度。另外,ROI校准模块根据该多个候选ROI对所述多尺度特征图进行划分得到多个候选图。该多个候选图等效于对该多尺度特征图进行了区域限制,或者说提供了关于区域限制的信息与多尺度特征图的丰富的语义信息一起用于后续处理。基于具体的确定多个候选ROI的策略或者网络模型或者算法,可以决定ROI校准模块所生成的多个候选图也就是对多尺度特征图进行区域限制的具体方式。在一些实施例中,通过特定的确定多个候选ROI的策略可以实现与多个候选ROI一一对应的多个候选图的每个候选图对应一个物件或者说待识别对象,这样就等效于实现了实例分割,有利于提升识别效果。换句话说,通过基于多个候选ROI对该多尺度特征图进行区域限制,再加上后续的在步骤S108中对区域限制得到的多个候选图分别进行语义分割,等效于进行了实例分割也就是对每个候选图中的一个物件或者一个待识别对象进行了语义分割。另外,上面提到,在步骤S104得到的多尺度特征图通过将多个比例的上下文特征通道融合得到,因此包含了丰富的语义信息特别是按照多个比例捕捉的所述融合特征图的上下文的信息(上下文的信息能用在边缘识别和轮廓识别上有效降低边缘识别误差);基于步骤S104所得到的多尺度特征图,再结合步骤S106的基于多个候选ROI对该多尺度特征图进行区域限制和在步骤S108中对区域限制得到的多个候选图分别进行语义分割,不仅有效降低了边缘识别误差而且还提升了识别效果,特别是提升了对小尺寸物件或者说小型物件的识别效果。例如,通过特定的确定多个候选ROI的策略可以实现与多个候选ROI一一对应的多个候选图的每个候选图对应一个小尺寸物件或者小型物件,而按照多个比例捕捉的所述融合特征图的上下文的信息可以用来提升对该小尺寸物件的边缘识别和轮廓识别的效果从而降低边缘识别误差,同时还利用了每个候选图中所包含的丰富的语义信息增强了对该小尺寸物件的理解,从而有利于更好地判断该小尺寸物件的内容和位置。应当理解的是,在步骤S108中,对所述多个候选图分别进行语义分割,可以基于任意合适的网络模型,例如通过全连接(Fully Connected,FC)网络进行语义分割操作。FC网络可以理解成是由全连接层(Fully Connected Layers)所组成。
请参阅步骤S102至步骤S108,利用了融合特征图中所包含的丰富的原始图像的语义信息中的不同层次的语义特征(包括低层次语义特征和高层次语义特征),还利用了对所述融合特征图按照所述多个采样率进行空洞卷积并行采样得到的多尺度特征图中按照多个比例捕捉的上下文的信息,还利用了多个候选ROI对所述多尺度特征图进行划分,从而在有效降低边缘识别误差同时还增强了对原始图像的语义理解,这样提升了对小尺寸物件或者说小型物件的识别效果和检测性能,进而在废钢检测、废钢回收利用环节和废弃钢材的智能化自动检判等应用中实现了精确识别并标注废钢的内容和位置。
在一种可能的实施方式中,所述特征提取网络包括FPN,所述FPN通过对从低层次语义特征图到高层次语义特征图的不同层次的特征图进行特征融合得到所述融合特征图。所述特征提取网络还包括主干网络分支用于提取所述原始图像的高层次语义特征,所述主干网络分支的输出结果作为所述FPN的输入。
在一种可能的实施方式中,所述多个候选ROI基于所述融合特征图,包括:将所述融合特征图或者所述多尺度特征图输入区域候选网络得到所述多个候选ROI。这里,区域候选网络可以是(Region Proposal Network,RPN)或者任意合适的网络模型。候选ROI可以是RPN所生成的检测框或者其它合适形式。
在一种可能的实施方式中,对所述多个候选图分别进行语义分割,得到所述原始图像的语义分割结果,包括:将所述多个候选图输入FC网络进行语义分割操作从而得到所述原始图像的语义分割结果。FC网络可以理解成是由全连接层所组成。所述将所述多个候选ROI输入所述FC网络进行语义分割操作包括:分类操作、回归操作和掩模生成操作。所述FC网络的掩模生成操作用于生成所述原始图像的多个掩模,所述多个掩模各自对应所述原始图像中不同类型的物件。
在一种可能的实施方式中,所述多个采样率的上限与所述多个特征提取层的个数相关联并且一起被调整。这里,所述融合特征图通过对所述原始图像的不同层次的特征图进行特征融合得到而所述特征提取网络包括多个特征提取层分别用于提取不同层次的特征图。因此,特征提取网络所包括的多个特征提取层的个数影响该融合特征图的大小,当该多个特征提取层的个数越多则意味着该融合特征图越小,当该多个特征提取层的个数越少则意味着该融合特征图越大。为了获得更丰富的多层次的语义信息,可以增加所述多个特征提取层的个数但是这样做必然导致更小的融合特征图。另一方面,空洞卷积模型组合对所述融合特征图按照所述多个采样率进行空洞卷积并行采样得到多尺度特征图。空洞卷积模型组合的该多个采样率的上限或者说采样率上限,受到融合特征图大小的限制。当融合特征图越小则意味着该多个采样率的上限或者说采样率上限越低,当融合特征图越大则意味着该多个采样率的上限或者说采样率上限越高。为了获得更丰富的所述融合特征图的上下文的信息从而更好地进行边缘识别和轮廓识别,需要利用更大的用于捕捉所述融合特征图的上下文的比例也就需要与更高的比例对应的更高的采样率,而更高的采样率则可能超过当前的该多个采样率的上限或者说采样率上限。因此,通过增加所述多个特征提取层的个数来获得更丰富的多层次的语义信息,必然导致更小的融合特征图,从而决定了更低的该多个采样率的上限或者说采样率上限,这样就限制了通过更高的采样率及相应的更高的比例来获得更丰富的所述融合特征图的上下文的信息。因此,在增加所述多个特征提取层的个数和提高所述多个采样率的上限之间存在冲突,两者无法同时获得。或者说,增加所述多个特征提取层的个数则必然导致更低的所述多个采样率的上限。这样意味着,这两个参数相关联并且一起被调整,从而达到更好的平衡点。换句话说,在调整所述多个特征提取层的个数同时也必然需要调整所述多个采样率的上限。在一些实施例中,所述特征提取网络所包括的所述多个特征提取层的个数配置为可被增加以增加所述融合特征图所包括的关于所述原始图像的语义信息,所述多个采样率的上限配置为可被增加以增加所述融合特征图的上下文被捕捉的比例。这意味着,可以选择性地增加所述多个特征提取层的个数来增强对关于所述原始图像的语义信息的提取,也可以选择性地增加所述多个采样率的上限从而可能采用更高的采样率及采用更高的所述融合特征图的上下文被捕捉的比例。在一些实施例中,所述图像处理方法100还包括:根据所述图像处理方法100的应用场景确定所述多个采样率的上限和所述多个特征提取层的个数之间优先级较高的一方,并提高优先级较高的一方同时降低优先级较低的一方。这意味着,面对增加所述多个特征提取层的个数和提高所述多个采样率的上限之间存在的冲突,可以根据应用场景来选择优先级较高的一方并提高优先级较高的一方同时也一起降低了优先级较低的一方。在一些实施例中,当所述图像处理方法的应用场景是用于识别所述原始图像中的小型物件的应用场景,所述多个采样率的上限具有较高优先级,所述多个特征提取层的个数具有较低优先级。这是因为,在用于识别所述原始图像中的小型物件的应用场景,小型物件或者小尺寸物件往往具有较大可能的边缘识别误差,或者说对边缘识别要求较高。这样可以通过提高采样率来增加所述融合特征图的上下文被捕捉的比例,从而优先地降低边缘误差。在一些实施例中,当所述图像处理方法的应用场景是用于识别所述原始图像中的相似物件的应用场景,所述多个采样率的上限具有较低优先级,所述多个特征提取层的个数具有较高优先级。这是因为,在用于识别所述原始图像中的相似物件的应用场景,相似物件之间的区分需要更丰富的语义信息。这样可以通过增加所述多个特征提取层的个数从而增加所述融合特征图所包括的关于所述原始图像的语义信息,从而更好地分辨相似物件。在一些实施例中,当所述图像处理方法的应用场景是第一应用场景,所述多个采样率的上限是24,所述多个特征提取层的个数是10;当所述图像处理方法的应用场景是第二应用场景,所述多个采样率的上限是12,所述多个特征提取层的个数是16,其中,所述第一应用场景中的待识别物件的尺寸的中位数小于所述第二应用场景中的待识别物体的尺寸的中位数。可以看出,根据第一应用场景和第二应用场景各自的待识别物体的尺寸的中位数,可以选择优先提高采样率来增加所述融合特征图的上下文被捕捉的比例从而降低边缘误差,或者,选择优先增加所述多个特征提取层的个数从而增加所述融合特征图所包括的关于所述原始图像的语义信息,从而有利于根据应用场景的实际需求进行优化。
在一种可能的实施方式中,所述空洞卷积模型组合的空洞卷积核尺寸与所述特征提取网络的卷积层尺寸相匹配。如此,实现了模型之间的匹配。例如,可以均采用3x3或者5x5的尺寸。
在一种可能的实施方式中,所述原始图像经过数据增强操作,所述数据增强操作包括以下至少之一:随机翻转、旋转、翻转及旋转、随机变换、随机缩放、随机裁剪、模糊化、高斯噪声添加、填充。应当理解的是,原始图像还可能经过任意合适的预处理操作或者数据增强操作。
在一种可能的实施方式中,所述图像处理方法100用于废钢料件集合搬运过程中的料件检测,所述原始图像的语义分割结果包括所述原始图像上的废钢料件集合的语义分割识别结果。这里,将堆积起来待搬运的物件或者说待检判的物件称之为“料件”,例如将待搬运或者待回收的废弃钢材叫做废钢料件;每个料件或者说废钢料件是一个单独的个体,其可以被单独搬运也可以与其它料件或废钢料件一起搬运。将待搬运的所有料件或者说需要进行检判的所有料件称之为待搬运料件集合,也可以将需要回收利用或者搬运走的所有废弃钢材或废钢料件叫做废钢料件集合。上面提到的图像处理方法100通过改进获得原始图像的语义分割结果的过程以充分利用原始图像的语义信息中的不同层次的语义特征,从而提升了对小尺寸物件或者说小型物件的识别效果和检测性能,在废钢检测、废钢回收利用环节和废弃钢材的智能化自动检判等应用中,可以用于更好地识别并标注原始图像上的废钢料件集合的各个废钢料件的内容和位置。在一些实施例中,所述原始图像上的废钢料件集合的语义分割识别结果用于确定所述原始图像上的废钢料件集合的至少一种关联信息,所述废钢料件集合的至少一种关联信息包括以下至少一种:轮廓信息、种类信息、来源信息、坐标信息、面积信息、像素特征信息。其中,轮廓信息指示了废钢料件集合的各个废钢料件的轮廓,可以是与预设的多种轮廓类型进行匹配的结果,也可以是通过数值化方式进行语义描述(如边长、曲率等),也可以是较为概括的语义描述(如圆盘形、长条形等)。种类信息指示了废钢料件集合的各个废钢料件中包括多少种废钢料件及每种废钢料件的个数,这些信息可用于进一步分析提取出更多的情报,因此一般情况下关联信息至少包括了种类信息。例如,废钢料件集合的种类信息可以指示废钢料件集合的各个废钢料件总共有10个火车车轮、20个汽车轴承及30个螺丝钉等。来源信息指示了某个废钢料件来自哪个部位,例如来自于火车或者驳船。坐标信息指示了某个废钢料件在图像上的坐标。面积信息指示了某个废钢料件在图像上被识别出的面积。像素特征信息指示了某个废钢料件所属的全部像素的特征。应当理解的是,根据具体采用的获得原始图像的语义分割结果的计算机视觉技术可以获得更多的丰富的废钢料件集合的关联信息。以上所列举的关联信息的示例仅为说明性而不是限制性。如此,实现了获得丰富的关联信息从而更有利于为决策和后续处理提供依据。
在一种可能的实施方式中,所述废钢料件集合的至少一种关联信息包括种类信息并且用于确定所述原始图像上的废钢料件集合中不同种类信息的料件各自对应的比重信息、品质信息或者价格信息。废钢料件集合的种类信息可用于评估料件品质,例如火车车轮算精品,汽车轴承算普品而螺丝钉算废品,这样就可以建立起废钢料件集合的品质信息。而且,废钢料件集合的品质信息还可以结合不同品质的废钢料件对应的价格,估算废钢料件集合的整体价格。种类信息还可用于与废钢料件集合的轮廓信息结合在一起进行料件估重。例如,某个废钢料件的种类信息是火车车轮,则结合该废钢料件的轮廓信息可以推算出大概体积,再结合火车车轮的密度方面的经验常识或者先验知识,可以估算出重量。如此可以得到废钢料件集合的不同种类信息的料件各自对应的比重信息。
应当理解的是,上述方法可以通过相应的执行主体或者载体来实现。在一些示例性实施例中,一种非瞬时性计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,该计算机指令被处理器执行时实现上述方法以及上述任意实施例、实施方式或者它们的组合。在一些示例性实施例中,一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器通过运行所述可执行指令以实现上述方法以及上述任意实施例、实施方式或者它们的组合。
图2示出了本申请实施例提供的用于图1所示的图像处理方法的电子设备的框图。如图2所示,电子设备200包括主处理器202,内部总线204,网络接口206,主存储器208,以及辅助处理器210和辅助内存212,还有辅助处理器220和辅助内存222。其中,主处理器202与主存储器208连接,主存储器208可用于存储主处理器202可执行的计算机指令,从而可以实现图1所示的图像处理方法100,包括其中部分或者全部步骤,也包括其中步骤的任意可能的组合或结合以及可能的替换或者变体。网络接口206用于提供网络连接以及通过网络收发数据。内部总线204用于提供在主处理器202、网络接口206、辅助处理器210以及辅助处理器220之间的内部的数据交互。其中,辅助处理器210与辅助内存212连接并一起提供辅助计算能力,而辅助处理器220与辅助内存222连接并一起提供辅助计算能力。辅助处理器210和辅助处理器220可以提供相同或者不同的辅助计算能力,包括但是不限于,针对特定计算需求进行优化的计算能力如并行处理能力或者张量计算能力,针对特定算法或者逻辑结构进行优化的计算能力例如迭代计算能力或者图计算能力等。辅助处理器210和辅助处理器220可以包括特定类型的一个或者多个处理器,如数字信号处理器(DSP),专用集成电路(ASIC),现场可编程门阵列(FPGA)等,从而可以提供定制化的功能和结构。在一些示例性实施例中,电子设备200可以不包括辅助处理器,可以包括仅一个辅助处理器,还可以包括任意数量的辅助处理器且各自具有相应的定制化功能及结构,在此不做具体限定。图2中所示出的两个辅助处理器的架构仅为说明性而不应解释为限制性。另外,主处理器202可以包括单核或者多核的计算单元,用于提供本申请实施例所必需的功能和操作。另外,主处理器202和辅助处理器(如图2中的辅助处理器210和辅助处理器220)可以具有不同的架构,也就是电子设备200可以是基于异构架构的系统,例如主处理器202可以是基于指令集操作体系的通用型处理器如CPU,而辅助处理器可以是适合并行化计算的图形处理器GPU或者是适合神经网络模型相关运算的专用加速器。辅助内存(例如图2所示的辅助内存212和辅助内存222)可以用于配合各自对应的辅助处理器来实现定制化功能及结构。而主存储器208用于存储必要的指令、软件、配置、数据等从而可以配合主处理器202提供本申请实施例所必需的功能和操作。在一些示例性实施例中,电子设备200可以不包括辅助内存,可以包括仅一个辅助内存,还可以包括任意数量的辅助内存,在此不做具体限定。图2中所示出的两个辅助内存的架构仅为说明性而不应解释为限制性。主存储器208以及可能的辅助内存可以包括以下一个或多个特征:易失性,非易失性,动态,静态,可读/写,只读,随机访问,顺序访问,位置可寻址性,文件可寻址性和内容可寻址性,并且可以包括随机存取存储器(RAM),闪存,只读存储器(ROM),可擦可编程只读存储器(EPROM),电可擦可编程只读存储器(EEPROM),寄存器,硬盘,可移动磁盘,可记录和/或可重写光盘(CD),数字多功能光盘(DVD),大容量存储介质设备或任何其他形式的合适存储介质。内部总线204可以包括不同总线结构中的任何一种或不同总线结构的组合,例如存储器总线或存储器控制器,外围总线,通用串行总线和/或利用多种总线体系结构中的任何一种的处理器或本地总线。应当理解的是,图2所示的电子设备200,其所示的结构并不构成对有关装置或系统的具体限定,在一些示例性实施例中,电子设备200可以包括比具体实施例和附图更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者具有不同的部件布置。
请继续参阅图2,在一种可能的实施方式中,辅助处理器210和/或辅助处理器220可以具有针对神经网络计算的特点而进行了定制化设计的计算架构,例如神经网络加速器。并且,电子设备200还可以包括任意数量的辅助处理器且各自具有针对神经网络计算的特点而进行了定制化设计的计算架构,或者说电子设备200可以包括任意数量的神经网络加速器。在一些实施例中,仅处于说明性目的,示例性的神经网络加速器可以是:具有基于控制流的时域计算架构的神经网络加速器,其基于神经网络算法定制指令集的指令流对计算资源和存储资源进行集中控制;或者,具有基于数据流的空域计算架构的神经网络加速器,例如基于行固定(Row Stationary,RS)的数据流的二维空域计算阵列、采用脉动阵列(Systolic Array)的二维矩阵乘法阵列等;或者,任意具有任意合适的定制化设计的计算架构的神经网络加速器。
图3示出了本申请实施例提供的图像处理装置的框图。所述图像处理装置300包括:特征提取网络310,用于根据原始图像301获得融合特征图302,所述特征提取网络310包括多个特征提取层分别用于提取不同层次的特征图,所述融合特征图302通过对所述原始图像301的不同层次的特征图进行特征融合得到;具有多个采样率的空洞卷积模型组合320,用于对所述融合特征图302按照所述多个采样率进行空洞卷积并行采样,得到多尺度特征图303,所述多尺度特征图303指示按照多个比例捕捉的所述融合特征图302的上下文,所述多个比例与所述多个采样率一一对应;区域候选网络330,用于基于所述融合特征图302(例如将所述融合特征图302或者将所述多尺度特征图303输入区域候选网络330)获取多个候选ROI也叫候选ROI 304;ROI校准模块340,用于根据多个候选ROI也即候选ROI 304对所述多尺度特征图303进行划分得到多个候选图也即候选图305,所述多个候选图与所述多个候选ROI一一对应;和语义分割模块350,用于对所述多个候选图也即候选图305分别进行语义分割,得到所述原始图像的语义分割结果。另外,如图3所示,空洞卷积模型组合320包括四个空洞卷积核并分别具有独立的卷积核尺寸和采样率,例如分别为空洞卷积核322(卷积核尺寸为3x3,采样率为6),空洞卷积核324(卷积核尺寸为3x3,采样率为12),空洞卷积核326(卷积核尺寸为3x3,采样率为18),空洞卷积核328(卷积核尺寸为3x3,采样率为24)。应当理解的是,图3所示的空洞卷积模型组合320的内部结构仅为示例性,空洞卷积模型组合320可以包括任意合适的网络结构并采用任意合适的多个采样率,只要能实现对所述融合特征图302按照所述多个采样率进行空洞卷积并行采样得到多尺度特征图303。另外,语义分割模块350可以基于任意合适的网络模型,例如通过FC网络进行语义分割操作。FC网络可以理解成是由全连接层所组成。
图像处理装置300利用了融合特征图302中所包含的丰富的原始图像301的语义信息中的不同层次的语义特征(包括低层次语义特征和高层次语义特征),还利用了对所述融合特征图302按照所述多个采样率进行空洞卷积并行采样得到的多尺度特征图303中按照多个比例捕捉的上下文的信息,还利用了多个候选ROI也即候选ROI 304对所述多尺度特征图303进行划分,从而在有效降低边缘识别误差同时还增强了对原始图像301的语义理解,这样提升了对小尺寸物件或者说小型物件的识别效果和检测性能,进而在废钢检测、废钢回收利用环节和废弃钢材的智能化自动检判等应用中实现了精确识别并标注废钢的内容和位置。
在一种可能的实施方式中,所述特征提取网络310包括FPN 314和主干网络分支312,所述FPN 314通过对从低层次语义特征图到高层次语义特征图的不同层次的特征图进行特征融合得到所述融合特征图302,所述主干网络分支312用于提取所述原始图像301的高层次语义特征,所述主干网络分支312的输出结果作为所述FPN 314的输入。
在一种可能的实施方式中,所述语义分割模块350是FC网络,所述FC网络对所述多个候选图也即候选图305分别进行的语义分割包括分类操作、回归操作和掩模生成操作,所述FC网络的掩模生成操作用于生成所述原始图像301的多个掩模,所述多个掩模各自对应所述原始图像301中不同类型的物件。
在一种可能的实施方式中,所述多个采样率的上限与所述多个特征提取层的个数相关联并且一起被调整。
在一种可能的实施方式中,所述特征提取网络310所包括的所述多个特征提取层的个数配置为可被增加以增加所述融合特征图302所包括的关于所述原始图像301的语义信息,所述多个采样率的上限配置为可被增加以增加所述融合特征图302的上下文被捕捉的比例。
在一种可能的实施方式中,所述图像处理装置300用于根据所述图像处理装置300的应用场景确定所述多个采样率的上限和所述多个特征提取层的个数之间优先级较高的一方,并提高优先级较高的一方同时降低优先级较低的一方。
在一种可能的实施方式中,当所述图像处理装置300的应用场景是用于识别所述原始图像301中的小型物件的应用场景,所述多个采样率的上限具有较高优先级,所述多个特征提取层的个数具有较低优先级;当所述图像处理装置300的应用场景是用于识别所述原始图像301中的相似物件的应用场景,所述多个采样率的上限具有较低优先级,所述多个特征提取层的个数具有较高优先级。
在一种可能的实施方式中,所述图像处理装置300用于废钢料件集合搬运过程中的料件检测,所述原始图像301的语义分割结果包括所述原始图像301上的废钢料件集合的语义分割识别结果,所述原始图像301上的废钢料件集合的语义分割识别结果用于确定所述原始图像301上的废钢料件集合的至少一种关联信息,所述废钢料件集合的至少一种关联信息包括以下至少一种:轮廓信息、种类信息、来源信息、坐标信息、面积信息、像素特征信息。
本申请提供的具体实施例可以用硬件,软件,固件或固态逻辑电路中的任何一种或组合来实现,并且可以结合信号处理,控制和/或专用电路来实现。本申请具体实施例提供的设备或装置可以包括一个或多个处理器(例如,微处理器,控制器,数字信号处理器(DSP),专用集成电路(ASIC),现场可编程门阵列(FPGA)等),这些处理器处理各种计算机可执行指令从而控制设备或装置的操作。本申请具体实施例提供的设备或装置可以包括将各个组件耦合在一起的系统总线或数据传输系统。系统总线可以包括不同总线结构中的任何一种或不同总线结构的组合,例如存储器总线或存储器控制器,外围总线,通用串行总线和/或利用多种总线体系结构中的任何一种的处理器或本地总线。本申请具体实施例提供的设备或装置可以是单独提供,也可以是系统的一部分,也可以是其它设备或装置的一部分。
本申请提供的具体实施例可以包括计算机可读存储介质或与计算机可读存储介质相结合,例如能够提供非暂时性数据存储的一个或多个存储设备。计算机可读存储介质/存储设备可以被配置为保存数据,程序器和/或指令,这些数据,程序器和/或指令在由本申请具体实施例提供的设备或装置的处理器执行时使这些设备或装置实现有关操作。计算机可读存储介质/存储设备可以包括以下一个或多个特征:易失性,非易失性,动态,静态,可读/写,只读,随机访问,顺序访问,位置可寻址性,文件可寻址性和内容可寻址性。在一个或多个示例性实施例中,计算机可读存储介质/存储设备可以被集成到本申请具体实施例提供的设备或装置中或属于公共系统。计算机可读存储介质/存储设备可以包括光存储设备,半导体存储设备和/或磁存储设备等等,也可以包括随机存取存储器(RAM),闪存,只读存储器(ROM),可擦可编程只读存储器(EPROM),电可擦可编程只读存储器(EEPROM),寄存器,硬盘,可移动磁盘,可记录和/或可重写光盘(CD),数字多功能光盘(DVD),大容量存储介质设备或任何其他形式的合适存储介质。
以上是本申请实施例的实施方式,应当指出,本申请具体实施例描述的方法中的步骤可以根据实际需要进行顺序调整、合并和删减。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。可以理解的是,本申请实施例以及附图所示的结构并不构成对有关装置或系统的具体限定。在本申请另一些实施例中,有关装置或系统可以包括比具体实施例和附图更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者具有不同的部件布置。本领域技术人员将理解,在不脱离本申请具体实施例的精神和范围的情况下,可以对具体实施例记载的方法和设备的布置,操作和细节进行各种修改或变化;在不脱离本申请实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本申请的保护范围。
Claims (28)
1.一种图像处理方法,其特征在于,所述图像处理方法包括:
将原始图像输入特征提取网络从而获得融合特征图,所述特征提取网络包括多个特征提取层分别用于提取不同层次的特征图,所述融合特征图通过对所述原始图像的不同层次的特征图进行特征融合得到;
通过具有多个采样率的空洞卷积模型组合,对所述融合特征图按照所述多个采样率进行空洞卷积并行采样,得到多尺度特征图,所述多尺度特征图指示按照多个比例捕捉的所述融合特征图的上下文,所述多个比例与所述多个采样率一一对应;
通过兴趣区域ROI校准模块,根据多个候选ROI对所述多尺度特征图进行划分得到多个候选图,所述多个候选图与所述多个候选ROI一一对应,所述多个候选ROI基于所述融合特征图;
对所述多个候选图分别进行语义分割,得到所述原始图像的语义分割结果。
2.根据权利要求1所述的图像处理方法,其特征在于,
所述特征提取网络包括特征金字塔网络FPN,所述FPN通过对从低层次语义特征图到高层次语义特征图的不同层次的特征图进行特征融合得到所述融合特征图。
3.根据权利要求2所述的图像处理方法,其特征在于,
所述特征提取网络还包括主干网络分支用于提取所述原始图像的高层次语义特征,所述主干网络分支的输出结果作为所述FPN的输入。
4.根据权利要求1所述的图像处理方法,其特征在于,所述多个候选ROI基于所述融合特征图,包括:
将所述融合特征图或者所述多尺度特征图输入区域候选网络得到所述多个候选ROI。
5.根据权利要求1所述的图像处理方法,其特征在于,对所述多个候选图分别进行语义分割,得到所述原始图像的语义分割结果,包括:
将所述多个候选图输入全连接FC网络进行语义分割操作从而得到所述原始图像的语义分割结果。
6.根据权利要求5所述的图像处理方法,其特征在于,所述将所述多个候选ROI输入所述FC网络进行语义分割操作包括:分类操作、回归操作和掩模生成操作。
7.根据权利要求6所述的图像处理方法,其特征在于,所述FC网络的掩模生成操作用于生成所述原始图像的多个掩模,所述多个掩模各自对应所述原始图像中不同类型的物件。
8.根据权利要求1至7中任一项所述的图像处理方法,其特征在于,所述多个采样率的上限与所述多个特征提取层的个数相关联并且一起被调整。
9.根据权利要求8所述的图像处理方法,其特征在于,所述特征提取网络所包括的所述多个特征提取层的个数配置为可被增加以增加所述融合特征图所包括的关于所述原始图像的语义信息,所述多个采样率的上限配置为可被增加以增加所述融合特征图的上下文被捕捉的比例。
10.根据权利要求8所述的图像处理方法,其特征在于,所述图像处理方法还包括:
根据所述图像处理方法的应用场景确定所述多个采样率的上限和所述多个特征提取层的个数之间优先级较高的一方,并提高优先级较高的一方同时降低优先级较低的一方。
11.根据权利要求10所述的图像处理方法,其特征在于,当所述图像处理方法的应用场景是用于识别所述原始图像中的小型物件的应用场景,所述多个采样率的上限具有较高优先级,所述多个特征提取层的个数具有较低优先级。
12.根据权利要求10所述的图像处理方法,其特征在于,当所述图像处理方法的应用场景是用于识别所述原始图像中的相似物件的应用场景,所述多个采样率的上限具有较低优先级,所述多个特征提取层的个数具有较高优先级。
13.根据权利要求10所述的图像处理方法,其特征在于,当所述图像处理方法的应用场景是第一应用场景,所述多个采样率的上限是24,所述多个特征提取层的个数是10;当所述图像处理方法的应用场景是第二应用场景,所述多个采样率的上限是12,所述多个特征提取层的个数是16,其中,所述第一应用场景中的待识别物件的尺寸的中位数小于所述第二应用场景中的待识别物体的尺寸的中位数。
14.根据权利要求1至7中任一项所述的图像处理方法,其特征在于,所述空洞卷积模型组合的空洞卷积核尺寸与所述特征提取网络的卷积层尺寸相匹配。
15.根据权利要求1至7中任一项所述的图像处理方法,其特征在于,所述原始图像经过数据增强操作,所述数据增强操作包括以下至少之一:随机翻转、旋转、翻转及旋转、随机变换、随机缩放、随机裁剪、模糊化、高斯噪声添加、填充。
16.根据权利要求1至7中任一项所述的图像处理方法,其特征在于,所述图像处理方法用于废钢料件集合搬运过程中的料件检测,所述原始图像的语义分割结果包括所述原始图像上的废钢料件集合的语义分割识别结果。
17.根据权利要求16所述的图像处理方法,其特征在于,所述原始图像上的废钢料件集合的语义分割识别结果用于确定所述原始图像上的废钢料件集合的至少一种关联信息,所述废钢料件集合的至少一种关联信息包括以下至少一种:轮廓信息、种类信息、来源信息、坐标信息、面积信息、像素特征信息。
18.根据权利要求17所述的图像处理方法,其特征在于,所述废钢料件集合的至少一种关联信息包括种类信息并且用于确定所述原始图像上的废钢料件集合中不同种类信息的料件各自对应的比重信息、品质信息或者价格信息。
19.一种非瞬时性计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,该计算机指令被处理器执行时实现根据权利要求1至18中任一项所述的图像处理方法。
20.一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现根据权利要求1至18中任一项所述的图像处理方法。
21.一种图像处理装置,其特征在于,所述图像处理装置包括:
特征提取网络,用于根据原始图像获得融合特征图,其中,所述特征提取网络包括多个特征提取层分别用于提取不同层次的特征图,所述融合特征图通过对所述原始图像的不同层次的特征图进行特征融合得到;
具有多个采样率的空洞卷积模型组合,用于对所述融合特征图按照所述多个采样率进行空洞卷积并行采样,得到多尺度特征图,所述多尺度特征图指示按照多个比例捕捉的所述融合特征图的上下文,所述多个比例与所述多个采样率一一对应;
区域候选网络,用于基于所述融合特征图获取多个候选ROI;
ROI校准模块,用于根据多个候选ROI对所述多尺度特征图进行划分得到多个候选图,所述多个候选图与所述多个候选ROI一一对应;和
语义分割模块,用于对所述多个候选图分别进行语义分割,得到所述原始图像的语义分割结果。
22.根据权利要求21所述的图像处理装置,其特征在于,所述特征提取网络包括FPN和主干网络分支,所述FPN通过对从低层次语义特征图到高层次语义特征图的不同层次的特征图进行特征融合得到所述融合特征图,所述主干网络分支用于提取所述原始图像的高层次语义特征,所述主干网络分支的输出结果作为所述FPN的输入。
23.根据权利要求21所述的图像处理装置,其特征在于,所述语义分割模块是FC网络,所述FC网络对所述多个候选图分别进行的语义分割包括分类操作、回归操作和掩模生成操作,所述FC网络的掩模生成操作用于生成所述原始图像的多个掩模,所述多个掩模各自对应所述原始图像中不同类型的物件。
24.根据权利要求21所述的图像处理装置,其特征在于,所述多个采样率的上限与所述多个特征提取层的个数相关联并且一起被调整。
25.根据权利要求24所述的图像处理装置,其特征在于,所述特征提取网络所包括的所述多个特征提取层的个数配置为可被增加以增加所述融合特征图所包括的关于所述原始图像的语义信息,所述多个采样率的上限配置为可被增加以增加所述融合特征图的上下文被捕捉的比例。
26.根据权利要求25所述的图像处理装置,其特征在于,所述图像处理装置用于根据所述图像处理装置的应用场景确定所述多个采样率的上限和所述多个特征提取层的个数之间优先级较高的一方,并提高优先级较高的一方同时降低优先级较低的一方。
27.根据权利要求26所述的图像处理装置,其特征在于,当所述图像处理装置的应用场景是用于识别所述原始图像中的小型物件的应用场景,所述多个采样率的上限具有较高优先级,所述多个特征提取层的个数具有较低优先级;当所述图像处理装置的应用场景是用于识别所述原始图像中的相似物件的应用场景,所述多个采样率的上限具有较低优先级,所述多个特征提取层的个数具有较高优先级。
28.根据权利要求21至27中任一项所述的图像处理装置,其特征在于,所述图像处理装置用于废钢料件集合搬运过程中的料件检测,所述原始图像的语义分割结果包括所述原始图像上的废钢料件集合的语义分割识别结果,所述原始图像上的废钢料件集合的语义分割识别结果用于确定所述原始图像上的废钢料件集合的至少一种关联信息,所述废钢料件集合的至少一种关联信息包括以下至少一种:轮廓信息、种类信息、来源信息、坐标信息、面积信息、像素特征信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111527123.7A CN114187442A (zh) | 2021-12-14 | 2021-12-14 | 图像处理方法、存储介质、电子设备及图像处理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111527123.7A CN114187442A (zh) | 2021-12-14 | 2021-12-14 | 图像处理方法、存储介质、电子设备及图像处理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114187442A true CN114187442A (zh) | 2022-03-15 |
Family
ID=80604962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111527123.7A Pending CN114187442A (zh) | 2021-12-14 | 2021-12-14 | 图像处理方法、存储介质、电子设备及图像处理装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114187442A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114913325A (zh) * | 2022-03-24 | 2022-08-16 | 北京百度网讯科技有限公司 | 语义分割方法、装置及计算机程序产品 |
CN116071707A (zh) * | 2023-02-27 | 2023-05-05 | 南京航空航天大学 | 一种机场特种车辆识别方法及系统 |
CN117808685A (zh) * | 2024-02-29 | 2024-04-02 | 广东琴智科技研究院有限公司 | 一种红外图像数据增强的方法、装置 |
-
2021
- 2021-12-14 CN CN202111527123.7A patent/CN114187442A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114913325A (zh) * | 2022-03-24 | 2022-08-16 | 北京百度网讯科技有限公司 | 语义分割方法、装置及计算机程序产品 |
CN114913325B (zh) * | 2022-03-24 | 2024-05-10 | 北京百度网讯科技有限公司 | 语义分割方法、装置及计算机程序产品 |
CN116071707A (zh) * | 2023-02-27 | 2023-05-05 | 南京航空航天大学 | 一种机场特种车辆识别方法及系统 |
CN116071707B (zh) * | 2023-02-27 | 2023-11-28 | 南京航空航天大学 | 一种机场特种车辆识别方法及系统 |
CN117808685A (zh) * | 2024-02-29 | 2024-04-02 | 广东琴智科技研究院有限公司 | 一种红外图像数据增强的方法、装置 |
CN117808685B (zh) * | 2024-02-29 | 2024-05-07 | 广东琴智科技研究院有限公司 | 一种红外图像数据增强的方法、装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10318848B2 (en) | Methods for object localization and image classification | |
CN114187442A (zh) | 图像处理方法、存储介质、电子设备及图像处理装置 | |
KR102570706B1 (ko) | 분류를 위한 강제된 희소성 | |
CN111797895B (zh) | 一种分类器的训练方法、数据处理方法、系统以及设备 | |
CN113486726A (zh) | 一种基于改进卷积神经网络的轨道交通障碍物检测方法 | |
CN113936220B (zh) | 图像处理方法、存储介质、电子设备及图像处理装置 | |
Li et al. | A survey on deep learning-based panoptic segmentation | |
CN113935997B (zh) | 用于料件检测的图像处理方法、存储介质及图像处理装置 | |
CN111046949A (zh) | 一种图像分类方法、装置及设备 | |
Díaz-Romero et al. | Simultaneous mass estimation and class classification of scrap metals using deep learning | |
CN115797629A (zh) | 基于检测增强和多阶段边界框特征细化的实例分割方法 | |
Viale et al. | LaneSNNs: spiking neural networks for lane detection on the loihi neuromorphic processor | |
CN114092817B (zh) | 目标检测方法、存储介质、电子设备及目标检测装置 | |
CN113936253B (zh) | 料件搬运作业周期生成方法、存储介质、电子设备及装置 | |
CN114187211A (zh) | 用于优化图像语义分割结果的图像处理方法及装置 | |
Pei et al. | RISAT: real-time instance segmentation with adversarial training | |
Shi et al. | Fuzzy support tensor product adaptive image classification for the internet of things | |
Lv et al. | An image rendering-based identification method for apples with different growth forms | |
CN114170194A (zh) | 用于废钢料件自动检测的图像处理方法、存储介质及装置 | |
CN113963280B (zh) | 用于料件智能检判的识别方法、装置及存储介质 | |
CN111160219A (zh) | 对象完整度评估方法、装置、电子设备及存储介质 | |
CN114241262A (zh) | 吸盘作业周期生成方法、存储介质、电子设备及装置 | |
Fekri et al. | On the Safety of Autonomous Driving: A Dynamic Deep Object Detection Approach | |
VISHWAKARMA et al. | Cat Breed & Emotion Detection Using Yolo, CNN & Canny Edge Detection | |
Buechler et al. | Automated geometric analysis of metallic components through picture recognition models for manufacturing technology assessments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |