CN112614107A - 一种图像处理方法、装置、电子设备及存储介质 - Google Patents
一种图像处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112614107A CN112614107A CN202011545956.1A CN202011545956A CN112614107A CN 112614107 A CN112614107 A CN 112614107A CN 202011545956 A CN202011545956 A CN 202011545956A CN 112614107 A CN112614107 A CN 112614107A
- Authority
- CN
- China
- Prior art keywords
- image
- convolution
- feature
- characteristic
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 238000001514 detection method Methods 0.000 claims abstract description 227
- 238000013136 deep learning model Methods 0.000 claims abstract description 49
- 230000004927 fusion Effects 0.000 claims description 45
- 238000000034 method Methods 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 34
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 description 20
- 230000000875 corresponding effect Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本申请的技术方案提供了一种图像处理方法,所述方法应用于深度学习模型,包括:对输入图像进行特征检测,得到第一特征图像;对所述第一特征图像进行转换,得到不同尺度的多个第二特征图像;增加所述第二特征图像的感受野,得到不同尺度的多个第三特征图像;根据不同尺度的多个所述第三特征图像,确定所述输入图像内检测目标的检测信息。
Description
技术领域
本发明实施例涉及图像处理领域,尤其涉及一种图像处理方法、装置、电子设备及存储介质。
背景技术
随着计算机技术的发展,计算机技术的应用场景越来越多。计算机技术中包括图像处理技术,例如图像检测等。通过图像处理技术可以对图像进行多种处理,进而可以满足不同应用场景的需求。
但是,随着各种需求的不断增加以及不同应用场景的增加,对于图像处理技术的要求也会增加。
发明内容
本发明实施例提供一种图像处理方法、装置、电子设备及存储介质。
本公开实施例第一方面提供一种图像处理方法,所述方法应用于深度学习模型,包括:对输入图像进行特征检测,得到第一特征图像;对所述第一特征图像进行转换,得到不同尺度的多个第二特征图像;增加所述第二特征图像的感受野,得到不同尺度的多个第三特征图像;根据不同尺度的多个所述第三特征图像,确定所述输入图像内检测目标的检测信息。
在一个实施例中,所述对输入图像进行特征检测,得到第一特征图像,包括:对所述输入图像依次进行深度卷积和逐点卷积,得到至少具有两种不同尺度的所述第一特征图像。
在一个实施例中,所述深度学习模型包括第一网络;所述第一网络包括:第一卷积单元、第二卷积单元及第三卷积单元;所述第一卷积单元、第二卷积单元及第三卷积单元的卷积序列不同;其中,所述第一卷积单元,用于对所述输入图像依次进行深度卷积和逐点卷积,得到第一尺度的第一特征图像;所述第二卷积单元,用于对所述第一尺度的第一特征图像依次进行深度卷积和逐点卷积,得到第二尺度的第一特征图像;所述第三卷积单元,用于对所述第二尺度的第一特征图像依次进行深度卷积和逐点卷积,得到第三尺度的第一特征图像。
在一个实施例中,从所述第一尺度、所述第二尺度到所述第三尺度依次减小。
在一个实施例中,所述对所述第一特征图像进行转换,得到不同尺度的多个第二特征图像,包括:对不同尺度的所述第一特征图像进行不同的卷积,得到不同尺度的所述第二特征图像。
在一个实施例中,所述深度学习模型还包括:第二网络;所述第二网络包括:编码器和位于所述编码器输出端的解码器,所述编码器包括:自底向上的 n个编码层,且所述编码层自底向上排序;所述解码器包括:自顶向下的n个解码层,且所述解码层自顶向下排序;所述对不同尺度的所述第一特征图像进行不同的卷积,得到不同尺度的所述第二特征图像,包括:自底向上的n个所述编码层对f个尺度由大到小的所述第一特征图像对应进行卷积,n等于f;第 m个编码层对所述第一特征图像进行卷积,得到第m个输出,并将所述第m个输出传输到第n-m+1个解码层,其中,所述m为小于n的正整数;第s个解码层对从第s-1个解码层的输出和从第n-s+1个编码层的输出进行卷积,得到第s 个尺度的所述第二特征图像,其中,所述s为小于或等于n的正整数;第n个所述编码层的输出传输到第1个所述解码层;所述第1个所述解码层基于所述第n个编码层的输出,得到第1个尺度的所述第二特征图像。
在一个实施例中,所述第m个编码层与所述第一网络的所述第一卷积单元、所述第二卷积单元及所述第三卷积单元中的一个连接;其中,第m-1个编码层接收的第一特征图像,比第m个编码层接收的第一特征图像的尺度大。
在一个实施例中,所述n等于3。
在一个实施例中,所述增加所述第二特征图像的感受野,得到不同尺度的多个第三特征图像,包括:通过对所述第二特征图像的不同次数的卷积,得到相对于不同尺度的多个所述第二特征图像增加所述感受野后的不同尺度的多个所述第三特征图像。
在一个实施例中,所述深度学习模型还包括:第三网络;所述第三网络包括:第一卷积分支和第二卷积分支,所述第一卷积分支的卷积层的个数,小于所述第二卷积分支的卷积层的个数;所述通过对所述第二特征图像的不同次数的卷积,得到相对于不同尺度的多个所述第二特征图像增加所述感受野后的不同尺度的多个所述第三特征图像,包括:利用第一卷积分支对所述第二特征图像进行卷积,得到第一分支卷积结果;利用第二卷积分支对所述第二特征图像进行卷积,得到第二分支卷积结果;通过所述第一分支卷积结果和第二分支卷积结果,增加所述第二特征图像的感受野,得到相对于不同尺度的多个所述第二特征图像增加所述感受野后的不同尺度的多个所述第三特征图像。
在一个实施例中,所述根据不同尺度的多个所述第三特征图像,确定所述输入图像内检测目标的检测信息,包括:融合不同尺度的多个所述第三特征图像,得到特征融合图像;根据所述特征融合图像,确定所述输入图像内检测目标的检测信息;其中,所述检测信息包括:所述检测目标所属类别的置信度、所述检测目标的所在区域和/或所述检测目标的关键点信息。
在一个实施例中,所述根据所述特征融合图像,确定所述输入图像内检测目标的检测信息,包括:根据所述特征融合图像,基于多标签分类函数,确定所述输入图像中检测目标所属类别的置信度。
在一个实施例中,所述根据所述特征融合图像,确定所述输入图像内检测目标的检测信息,包括:将预设检测框与所述特征融合图像所在区域进行匹配;通过所述平均绝对误差函数,确定所述预设检测框的中心位置与所述特征融合图像所在区域的中心位置之间的第一平均绝对误差;在所述第一平均绝对误差小于第一预设阈值时,确定所述预设检测框所在的区域为所述检测目标的所在区域。
在一个实施例中,所述根据所述特征融合图像,确定所述输入图像内检测目标的检测信息,包括:将第一预设关键点的位置信息与所述检测目标的关键点的位置信息进行匹配;基于所述平均绝对误差函数,确定所述预设关键点的位置信息与所述检测目标的关键点的位置信息之间的第二平均绝对误差;在所述第二平均绝对误差小于第二预设阈值时,确定所述第一预设关键点所在的位置为所述检测目标的关键点的位置。
在一个实施例中,还包括:确定所述检测目标的关键点的位置信息是否与第二预设关键点的位置信息相匹配;在所述检测目标的关键点的位置信息与第二预设关键点的位置信息不匹配时,根据第二预设关键点的位置信息,将所述检测目标的关键点的位置信息进行变换,修正所述检测目标的位置。
本公开实施例第二方面提供一种图像的处理装置,包括:
特征检测模块,用于对输入图像进行特征检测,得到第一特征图像;
转换模块,用于对所述第一特征图像进行转换,得到不同尺度的多个第二特征图像;
感受野增加模块,用于增加所述第二特征图像的感受野,得到不同尺度的多个第三特征图像;
确定模块,用于根据不同尺度的多个所述第三特征图像,确定所述输入图像内检测目标的检测信息。
本公开实施例第三方面提供一种电子设备,包括:
处理器;
存储器,其存储有程序指令,当所述程序指令被所述处理器执行时,使得所述电子设备执行上述所述的方法。
本公开实施例第四方面提供一种存储介质,其存储有程序,当所述程序由处理器运行时,执行上述所述的方法。
本公开实施例的技术方案中的深度学习模型通过对输入图像进行特征检测,提取到输入图像的特征,得到第一特征图像。通过对第一特征图像的转换,得到不同尺度的多个第二特征图像。由于越深的深度学习网络的中间处理层提取得到的特征图像越抽象,得到的特征图像越高级,局部特征性越来越强,特征图像的尺度越来越小,不同尺度的第二特征图像包含的特征的丰富程度不同。所以根据不同尺度的第二特征图像,可以得到检测目标的不同特征。
通过增加各尺度的第二特征图像的感受野,增大了不同尺度的第二特征图像上的像素点在原始输入图像中的映射区域,进一步增强了不同尺度的第二特征图像所包含特征的丰富程度。所以感受野更大的不同尺度的多个第三特征图像可以映射得到输入图像的更大范围,进而减少了深度学习模型在输出结果时忽略输入图像中有用信息或者重要信息的情况的发生。
最后可以根据不同尺度的多个第三特征图像,将包括不同丰富程度特征的第三特征图像进行特征融合,经过特征融合后的特征图像包括了多种不同尺度的特征图像的特征,包括的特征丰富程度更高,所以可以更好的确定输入图像中检测目标的不同的检测信息。该深度学习模型通过对输入图像的上述处理,可以检测输入图像中不同尺度及分辨率的检测目标,提高了对图像中检测目标的泛化能力、深度学习模型的性能和检测目标的检测准确度,进而提高了该深度学习模型的鲁棒性。
附图说明
图1为本公开实施例提供的一种图像处理方法的流程示意图;
图2为本公开实施例提供的一种深度学习模型的结构示意图;
图3为本公开实施例提供的一种第二网络的结构示意图;
图4为本公开实施例提供的一种第三网络的结构示意图;
图5为本公开实施例提供的一种确定检测目标的所在区域的流程示意图;
图6为本公开实施例提供的一种确定检测目标的关键点的位置信息的流程示意图;
图7为本公开实施例提供的一种修正检测目标位置的流程示意图;
图8为本公开实施例提供的一种检测目标修正前后的示意图;
图9为本公开实施例提供的一种图像处理装置的结构示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。
通常情况下,在对图像进行处理时,例如检测图像中的检测目标等,采用二值化以及去拟合等方法对图像进行处理,得到图像处理结果。
由于图像中的检测目标不同,不同的检测目标的形状和大小等不是固定的,不同的图像中的检测目标的形状和大小等可能差异较大,而且图像中检测目标还受外界光线等外界因素的影响。即使相同的图像中的检测目标也可能是不同的,例如,大小、形状等等。
所以,通过简单的二值化以及去拟合等图像处理方法,在对图像中的检测目标进行检测时,检测难度较大,得到的图像处理结果的准确度也较差。所以这些方法在对图像中的检测目标进行检测时的鲁棒性较差。
另外,通常情况下,还可以通过一般的图像处理网络对图像进行处理,检测图像中的检测目标。但是功能比较单一,不能识别或者检测图像中的不同的检测目标,而且网络复杂度较高,计算量很大。
所以本申请的技术方案提供了一种更好的图像处理方法。
参考图1,为本公开实施例提供的一种图像处理方法的流程示意图。该方法可以应用于深度学习模型,该方法主要包括以下步骤:
步骤S100,对输入图像进行特征检测,得到第一特征图像。
步骤S200,对第一特征图像进行转换,得到不同尺度的多个第二特征图像。
步骤S300,增加第二特征图像的感受野,得到不同尺度的多个第三特征图像。
步骤S400,根据不同尺度的多个第三特征图像,确定输入图像内检测目标的检测信息。
在步骤S100中,在对图像进行处理之前,需要先获取图像,然后再对获取的图像进行处理,这里的获取的图像即为待处理图像,对待处理图像进行处理,进而得到图像处理结果。
这里的深度学习模型为预先训练完成的模型,可以对输入图像中的检测目标进行检测,得到检测目标的多种不同的检测信息。
检测目标可以包括人脸、车牌、建筑物、车辆、动物等等。检测目标可以根据训练该深度学习模型时的训练样本确定,根据不同的应用场景,可以训练不同的深度学习模型,进而可以检测不同的检测目标。当然,一个深度学习模型还可以检测多种检测目标,例如既可以检测人脸,还可以检测车牌等等。
例如,检测目标的检测信息可以包括:检测目标的在输入图像中的位置信息、所属类别信息、关键点信息、形状信息以及颜色信息等等。
位置信息可以是检测目标所在的区域,也可以是坐标点。
所属类别信息可以包括多层类别的分类,例如,检测目标的检测信息为车牌,还可以进一步得到车牌是哪一类车牌,车牌中的文字信息是单行的轿车车牌,或者车牌中的文字信息是双行的公交车车牌等。
在该实施例中,将获取的图像作为输入图像,在得到输入图像之后,对输入图像进行处理,得到该步骤对图像处理的处理结果。该步骤中对输入图像进行处理包括对输入图像进行特征检测,在对输入图像进行特征检测之后,得到输入图像的第一特征图像。
对输入图像进行特征检测,可以是通过对输入图像进行卷积处理,提取输入图像的特征。这里的卷积可以是通过多个不同的卷积层对输入图像进行卷积,或者通过多个相同的卷积层对输入图像进行的卷积,或者通过深度卷积对输入图像进行卷积,或者通过深度可分离卷积对输入图像进行卷积,即先对输入图像进行深度卷积,然后再对深度卷积的结果进行逐点卷积等,或者还可以是先对输入图像依次进行逐点卷积、深度卷积和逐点卷积等。当然,还可以通过其他卷积的方式对输入图像进行卷积,得到第一特征图像,这里并不进行限定。当然还可以是通过其他可以提取输入图像的特征,得到第一特征图像的方式,对输入图像进行处理,同样在本实施例的保护范围之内。
该步骤中的卷积操作,可以是通过多个不同的卷积对输入图像进行卷积的,不同的卷积可以通过包括不同卷积层的卷积序列进行的卷积,当然也可以通过包括相同卷积层的卷积序列进行的卷积。其中,不同卷积层可以包括卷积层的层数和卷积层的结构等。
由于随着网络的加深,卷积层数的增加,进行卷积操作的次数越多,得到的特征图像的尺度越小。经过不同的卷积,可以得到不同尺度的特征图像,所以,在对输入图像进行特征检测之后,得到的可以是多个不同尺度的第一特征图像。由于越深的卷积层提取得到的特征图像越抽象,得到的特征图像越高级,所以不同尺度的第一特征图像包含的特征不同,特征丰富程度不同,在得到多个不同尺度的第一特征图像后,可以对不同尺度的第一特征图像进行进一步的处理,利用不同尺度的第一特征图像得到不同的信息。
在步骤S200中,在得到第一特征图像后,对该第一特征图像进行转换,可以得到不同尺度的多个第二特征图像。
由于可以通过不同次数和/或不同卷积参数(例如不同卷积核)的卷积,利用不同的卷积层对输入图像进行卷积处理,可以得到多个不同尺度的第一特征图像,所以可以根据得到的多个不同尺度的第一特征图像分别进行转换,得到不同尺度的多个第二特征图像。具体可以是对不同尺度的多个第一特征图像进行转换,得到不同尺度的多个第二特征图像。
该步骤中对第一特征图像的转换可以通过对不同尺度的多个第一特征图像进行卷积,得到不同尺度的多个第二特征图像。这里的卷积可以是直接对不同尺度的第一特征图像分别进行卷积,得到一一对应的不同尺度的第二特征图像。也可以是对不同尺度的第一特征图像进行卷积,然后根据对不同尺度的第一特征图像进行卷积的结果,再对相应的第一特征图像和对第一特征图像的卷积结果进行卷积。具体的卷积过程在这里并不进行限定,并且也不限定单纯通过卷积操作,只要是可以对不同尺度的多个第一特征图像进行转换,得到不同尺度的多个第二特征图像的卷积方式均在本实施例的保护范围之内。
在一个实施例中,若在提取输入图像的特征图像之后,得到的第一特征图像的个数为一个,也可以根据这一个第一特征图像进行转换,得到不同尺度的的多个第二特征图像。这里的对这一个第一特征图像进行转换,可以包括对这一个第一特征图像进行多次下采样操作,得到不同尺度的多个第一特征图像。下采样操作可以通过池化层实现,例如,最大池化,通过卷积核对这一个第一特征图像进行卷积,或者对相应的上一层特征图像进行卷积,得到下一层与上一层特征图像尺度不同的特征图像等。
不同尺度的第一特征图像包含的特征不同,在得到多个不同尺度的第一特征图像后,可以对不同尺度的第一特征图像进行进一步的处理,利用不同尺度的第一特征图像得到不同的信息。
由于不同尺度的第一特征图像包含的特征不同,在得到多个不同尺度的第一特征图像后,将不同尺度的第一特征图像进行转换,得到不同尺度的第二特征图像,所以进一步体现了不同尺度的第二特征图像中包含的特征信息的不同。根据这些不同的尺度的第二特征图像可以进一步检测输入图像中不同尺度和分辨率的检测目标,提高了对检测目标的检测能力和检测准确度,进而可以提高该深度学习模型的鲁棒性。
步骤S300中,在得到不同尺度的多个第二特征图像之后,为了提高深度学习模型的性能,以及减少深度学习模型在输出结果时忽略输入图像中有用信息或者重要信息的情况的发生,需要感受野更大的特征图像。感受野更大的特征图像上的像素点在原始输入图像中的映射区域更大,所以根据感受野更大的特征图像可以得到输入图像的更大范围,得到输入图像更大区域的特征。
可以通过增加第二特征图像的感受野,得到与不同尺度的多个第二特征图像对应的感受野更大的第三特征图像。具体可以通过池化层以及空洞卷积等操作增大第二特征图像的感受野,得到感受野更大的第三特征图像。池化是增加感受野的方法之一,在增加感受野的同时,可能伴随着分辨率的降低,图像细节损失,可能会附加有上采样增加图像分辨率的操作。在上采样增加图像分辨率的操作过程中,可能会出现图像信息缺失的情况,所以,在进行池化之后,这里还包括空洞卷积的卷积操作,空洞卷积解决了池化层增大感受野之后进行上采样,增加图像的分辨率的过程中,出现图像信息缺失的问题。
当然,还可以通过增加卷积层的个数或者增大卷积核的方式增加第二特征图像的感受野,得到感受野增大的第三特征图像。不同尺度的第二特征图像对应的第三特征图像的尺度也是不同的,包含的特征也不同。
在步骤S400中,在得到第三特征图像后,可以根据第三特征图像,确定输入图像中检测目标的检测信息。检测目标的检测信息可以包括检测目标不同维度的信息,例如,位置信息、所属不同类别的类别信息、关键点信息、形状信息和颜色信息等等。
具体可以将包括不同丰富程度特征的第三特征图像进行特征融合,经过特征融合后的特征图像包括了多种不同尺度的特征图像的特征,包括的特征丰富程度更高,所以更好的确定输入图像中检测目标的不同的检测信息。该步骤可以通过深度学习模型的输出层,将检测目标的不同的检测信息输出。该输出层可以包括多层输出层,通过不同的输出层输出检测目标的不同检测信息。
本公开实施例的技术方案中的深度学习模型通过对输入图像进行特征检测,提取到输入图像的特征,得到第一特征图像。通过对第一特征图像的转换,得到不同尺度的多个第二特征图像。由于越深的深度学习网络的中间处理层提取得到的特征图像越抽象,得到的特征图像越高级,局部特征性越来越强,特征图像的尺度越来越小,不同尺度的第二特征图像包含的特征的丰富程度不同。所以根据不同尺度的第二特征图像,可以得到检测目标的不同特征。
通过增加第二特征图像的感受野,增大了不同尺度的第二特征图像上的像素点在原始输入图像中的映射区域,进一步增强了不同尺度的第二特征图像所包含特征的丰富程度。所以感受野更大的第三特征图像可以映射得到输入图像的更大范围,进而减少了深度学习模型在输出结果时忽略输入图像中有用信息或者重要信息的情况的发生。
最后可以根据第三特征图像,将包括不同丰富程度特征的第三特征图像进行特征融合,经过特征融合后的特征图像包括了多种不同尺度的特征图像的特征,包括的特征丰富程度更高,所以更好的确定输入图像中检测目标的不同的检测信息。该深度学习模型通过对输入图像的上述处理,可以检测输入图像中不同尺度及分辨率的检测目标,提高了对图像中检测目标的检测能力、深度学习模型的性能、对检测目标的检测能力和检测目标的检测准确度,进而提高了该深度学习模型的鲁棒性。
参考图2,在另一实施例中,本实施例提供的一种深度学习模型的结构示意图。该深度学习模型包括第一网络、第二网络和第三网络。不同的网络对输入图像进行不同的处理,得到不同的处理结果。具体各个网络的说明请参考下述内容。
在另一实施例中,步骤S100,对输入图像进行特征检测,得到第一特征图像,包括:对输入图像依次进行深度卷积和逐点卷积,得到至少具有两种不同尺度的第一特征图像。该步骤可以在深度学习模型中进行,深度学习模型中包括执行该步骤的网络结构。
该实施例中采用深度可分离卷积对输入图像进行特征提取,包括对输入图像依次进行深度卷积和逐点卷积。深度可分离卷积相比于通常的卷积网络,卷积操作的过程更少、卷积过程中使用的参数量和计算量更少,减少了模型的复杂度,进而提高了提取特征和得到第一特征图像的速度。
进行深度卷积和逐点卷积的过程可以是对输入图像进行不同的卷积,不同的卷积可以都包括对输入图像依次进行深度卷积和逐点卷积。不同的卷积进行的深度卷积和逐点卷积的卷积次数可能不同,对应的卷积核可能也不同,包括卷积核的数量等。
由于随着网络的加深,卷积层数的增加,进行卷积操作的次数越多,得到的特征图像的尺度越小。经过不同的卷积,可以得到不同尺度的特征图像,所以对输入图像进行不同的深度卷积和逐点卷积之后,可以得到至少两种不同尺度的第一特征图像。越深的卷积层提取得到的特征图像越抽象,得到的特征图像越高级,所以不同尺度的第一特征图像包含的特征不同。根据包括不同特征信息的不同尺度的第一特征图像,进一步可以得到输入图像中不同的信息。
在另一实施例中,执行上述步骤S100的深度学习模型包括第一网络,通过该第一网络完成上述步骤S100。
参考图2中的第一网络,该第一网络包括:第一卷积单元、第二卷积单元及第三卷积单元。第一卷积单元、第二卷积单元及第三卷积单元中分别包括对应的卷积序列,并且第一卷积单元、第二卷积单元及第三卷积单元包括的卷积序列不同。第二卷积单元位于第一卷积单元的输出端,第三卷积单元位于第二卷积单元的输出端,第二卷积单元可以对第一卷积单元的输出进行处理,第三卷积单元可以对第二卷积单元的输出进行处理。
每个卷积单元中的卷积序列可以包括不同的卷积层,例如,第一卷积单元中包括六个卷积序列,第一卷积序列包括一个卷积层,第二卷积序列至第六卷积序列分别包括两个卷积层。单一的卷积单元中的卷积层可以是相同的。第二卷积单元中包括六个卷积序列,每个卷积序列包括两个卷积层。第三卷积单元中包括两个卷积序列,每个卷积序列中包括两个卷积层。当然卷积序列中除了包括卷积层之外,还可以包括其他层,例如归一化层和激活层等,每一层卷积层之后可以连接一层归一化层和一层激活层。归一化层可以是批量归一化 (Batch Normalization,BN)层,激活层可以是带泄露修正线性单元(Leaky ReLU,LRelu)函数。
在第一网络执行上述步骤S100,对输入图像进行特征检测,得到第一特征图像的过程中,第一卷积单元,用于对输入图像依次进行深度卷积和逐点卷积,得到第一尺度的第一特征图像。通过第一卷积单元中包括卷积序列对输入图像依次进行深度卷积和逐点卷积,提取输入图像中的特征,得到第一尺度的第一特征图像。
第二卷积单元,用于对第一尺度的第一特征图像依次进行深度卷积和逐点卷积,得到第二尺度的第一特征图像。通过第二卷积单元中的卷积序列,对通过第一卷积单元得到的第一尺度的第一特征图像进行卷积处理,这里的卷积包括依次进行的深度卷积和逐点卷积,得到第二尺度的第一特征图像。
第三卷积单元,用于对第二尺度的第一特征图像依次进行深度卷积和逐点卷积,得到第三尺度的第一特征图像。通过第三卷积单元中的卷积序列,对通过第二卷积单元得到的第二尺度的第一特征图像进行卷积处理,这里的卷积包括依次进行的深度卷积和逐点卷积,得到第三尺度的第一特征图像。
由于随着网络的加深,卷积层单元的增加,进行卷积操作的次数越多,得到的特征图像的尺度越小,全局特征性越来越小,局部特征性越来越强。所以从第一尺度、第二尺度到第三尺度依次减小,即第一尺度的第一特征图像的尺度大于第二尺度的第一特征图像的尺度,第二尺度的第一特征图像的尺度大于第三尺度的第一特征图像的尺度。越深的卷积层提取得到的特征图像越抽象,得到的特征图像越高级,所包含的局部特征性越强,所以不同尺度的第一特征图像中包含了不同的特征信息。所以可以通过不同尺度的第一特征图像获取不同的信息,进而对输入图像中的检测目标进行检测。
例如,输入图像的大小为224*224,该输入图像经过深度学习模型中的第一网络处理之后得到不同尺度的第一特征图像。第一网络中的第一卷积单元先对输入图像进行卷积处理,提取输入图像中的特征,得到第一尺度的第一特征图像。例如,第一尺度的第一特征图像的尺度为80*80。第一网络中的第二卷积单元对第一卷积单元输出的第一尺度的第一特征图像进行卷积处理,提取第一尺度的第一特征图像中的特征,提取更高级的、更抽象的特征,得到第二尺度的第一特征图像。例如,第二尺度的第一特征图像的尺度为40*40。第一网络中的第三卷积单元对第二卷积单元输出的第二尺度的第一特征图像再次进行卷积,得到第三尺度的第一特征图像。例如,第三尺度的第一特征图像的尺度为20*20。
第一尺度的第一特征图像的尺度、第二尺度的第一特征图像的尺度和第三尺度的第一特征图像的尺度依次减小。第三尺度的第一特征图像中包括的特征信息,相对于第二尺度的第一特征图像中包含的特征信息,更加高级和更加抽象。第一尺度的第一特征图、第二尺度的第一特征图像和第三尺度的第一特征图像中包括的特征信息的详细程度,依次增加。所以在不同尺度的第一特征图像的基础上,可以得到输入图像中不同的特征对应的特征信息,便于可以根据这些不同的特征信息得到检测目标的检测信息。
在另一实施例中,步骤S200,对第一特征图像进行转换,得到不同尺度的多个第二特征图像,包括:对不同尺度的第一特征图像进行不同的卷积,得到不同尺度的所述第二特征图像。
对输入图像进行特征检测之后,可以得到不同尺度的第一特征图像,通过对得到的不同尺度的第一特征图像进行转换,可以得到不同尺度的第二特征图像。这里的转换可以包括卷积操作,对不同尺度的第一特征图像进行不同的卷积。通过该操作,可以将不同尺度的第一特征图像进一步处理,在第一特征图像的基础上,得到再次卷积的不同尺度的特征图像。该步骤同样可以通过深度学习模型实现。
在另一实施例中,深度学习模型还包括:第二网络,该第二网络用于执行上述步骤S200,对不同尺度的第一特征图像进行转换,得到不同尺度的第二特征图像。
该第二网络包括:编码器和位于该编码器输出端的解码器,编码器用于对第二网络的输入,即不同尺度的第一特征图像进行卷积,进行特征提取等。解码器用于对编码器的输出进行解码,得到输出特征图像。
该编码器包括:自底向上的n个编码层,且这n个编码层自底向上排序,自底向上依次为第1个编码层、第2个编码层……第n个编码层。解码器自顶向下具有n个解码层,n个解码层自顶向下排序,依次为第一个解码层、第二个解码层……第n个解码层。编码器中编码层的层数和解码器中解码层的层数相同,以便解码器中的解码层根据编码器中对应的编码层进行解码等操作。这里的n不是固定的,可以根据实际需求进行设定等,不同的应用场景中用到的 n可能不同。
该第二网络对不同尺度的第一特征图像进行不同的卷积,得到不同尺度的第二特征图像,包括:
自底向上的n个编码层对f个尺度由大到小的第一特征图像对应进行卷积, n等于f。深度学习模型中的第一网络对输入图像进行特征检测,得到多个不同尺度的第一特征图像,例如f个不同尺度的第一特征图像,将这f个不同尺度的第一特征图像按照尺度的大小,由大到小进行排序。编码器中自底向上的n 个编码层与f个尺度由大到小的第一特征图像一一对应,即第n个编码层对应尺度最小的第一特征图像,第1个编码层对应尺度最大的第一特征图像。编码器的编码层对于该编码层对应的第一特征图像进行卷积。
第m个编码层对第一特征图像进行卷积,该第一特征图像可以是与第m个编码层对应的某一尺度的第一特征图像,得到第m个输出,并将该第m个输出传输到第n-m+1个解码层,其中,m为小于n的正整数。
第s个解码层对从第s-1个解码层的输出和从第n-s+1个编码层的输出进行卷积,得到第s个尺度的第二特征图像,其中,s为小于或等于n的正整数。
第n个编码层的输出传输到第1个解码层,第1个解码层基于第n个编码层的输出,得到第1个尺度的第二特征图像。
在一个实施例中,编码层的层数可能与第一网络输出的第一特征图像的数量相同,也可能不同,即编码层中的任一编码层可能与第一网络中的任一卷积单元连接,对连接的相应的卷积单元输出的第一特征图像进行编码。所以第m 个编码层可以与第一网络中的第一卷积单元、第二卷积单元以及第三卷积单元中的一个连接。自底向上的编码层接收的第一特征图像的尺度依次减小,所以,第m-1个编码层接收的第一特征图像,比第m个编码层接收的第一特征图像的尺度大。
参考图3,为本实施例提供的一种第二网络的结构示意图。该图中左半部分包括的3个层为自底向上的3个编码层,右半部分包括的3个层为自顶向下的3个解码层。由于第一网络输出得到三种不同尺度的第一特征图像,这里将三种不同尺度的第一特征图像作为编码器的输入,即不同尺度的第一个特征图像的数量与编码器编码层的个数对应。所以在该第二网络中,编码器编码层的个数和解码器解码层的个数n为3。第一尺度的第一特征图像与第1个编码层对应,第二尺度的第一特征图像与第2个编码层对应,第三尺度的第一特征图像与第3个编码层对应。即,第一尺度的第一特征图像作为编码器第1个编码层的输入,第二尺度的第一特征图像作为编码器第2个编码层的输入,第三尺度的第一特征图像作为编码器第3个编码层的输入。
自底向上的第3个编码层对第三尺度的第一特征图像进行卷积,得到第3 个输出,并将该第3个输出传输到第1个解码层,这个的第3个输出指的是第 3个编码层的输出。第1个解码层基于第3个编码层的输出,得到第1个尺度的第二特征图像。
自底向上的第2个编码层对第二尺度的第一特征图像进行卷积,得到第2 个输出,并将该第2个输出传输到第2个解码层,这个的第2个输出指的是第 2个编码层的输出。第2个解码层基于第2个编码层的输出,得到第2个尺度的第二特征图像。
自底向上的第1个编码层对第一尺度的第一特征图像进行卷积,得到第1 个输出,并将该第1个输出传输到第3个解码层,这个的第1个输出指的是第 1个编码层的输出。第3个解码层基于第1个编码层的输出,得到第3个尺度的第二特征图像。
第1个解码层基于第3个编码层的输出,对第3个编码层的输出进行卷积,得到第1个尺度的第二特征图像。由于第1个解码层为最顶层的解码层,没有更上一层的解码层的输出,所以第1解码层对第3个编码层的输出进行卷积即可。从第1个解码层输出的第1个尺度的第二特征图像,进一步增强了第三尺度的第一特征图像中的特征。
第2个解码层对从第1个解码层输出的第1个尺度的第二特征图像,和从第2个编码层输出的第2个输出进行卷积,得到第2个尺度的第二特征图像。可以是对从第1个解码层输出的第1个尺度的第二特征图像,和从第2个编码层输出的第2个输出的特征融合的结果进行卷积。
可以包括先将第1个尺度的第二特征图像进行上采样,得到与从第2个编码层输出的第2个输出对应的特征图像尺度大小相同的特征图像,即将第1个尺度的第二特征图像进行上采样的上采样结果。然后将第1个尺度的第二特征图像的上采样结果与从第2个编码层输出的第2个输出对应的特征图像进行融合,这样就得到了包含更多语义强度和不同分辨率的特征图像,进而可以根据该特征图像得到检测目标的检测信息。第2个解码层对该图像进行卷积,可以提取到对于第1个尺度的第二特征图像而言,包含更多语义强度和不同分辨率的第2个尺度的第二特征图像。
第3个解码层对从第2个解码层输出的第2个尺度的第二特征图像,和从第1个编码层输出的第1个输出进行卷积,得到第3个尺度的第二特征图像。可以是对从第2个解码层输出的第2个尺度的第二特征图像,和从第1个编码层输出的第1个输出的特征融合的结果进行卷积。
可以包括先将第2个尺度的第二特征图像进行上采样,得到与从第1个编码层输出的第1个输出对应的特征图像尺度大小相同的特征图像,即将第2个尺度的第二特征图像进行上采样的上采样结果。然后将第2个尺度的第二特征图像的上采样结果与从第1个编码层输出的第1个输出对应的特征图像进行融合,这样就得到了包含更多语义强度和不同分辨率的特征图像,进而可以根据该特征图像得到检测目标的检测信息。第3个解码层对该图像进行卷积,可以提取到相对于第2个尺度的第二特征图像而言,包含更多语义强度和不同分辨率的第3个尺度的第二特征图像。
从第1个尺度的第二特征图像到第3个尺度的第二特征图像,尺度依次增大。
通过上述方法,将局部特征性更强的第一特征图像和全局特征性更强的第一特征图像进行特征融合,提取到了包含不同特征的不同尺度的第二特征图像,根据包含更多语义强度和不同分辨率的第二特征图像,可以更容易地检测到更小的、不同的检测目标。所以根据第1个尺度的第二特征图像、第2个尺度的第二特征图像到第3个尺度的第二特征图像,可以检测到不同的检测目标,例如不同大小的检测目标等,进而提高了对检测目标的检测性能和深度学习模型的鲁棒性。
在另一实施例中,步骤S300,增加第二特征图像的感受野,得到不同尺度的多个第三特征图像,包括:通过对各尺度第二特征图像分别进行不同次数的卷积,得到相对于不同尺度的多个第二特征图像增加感受野后的不同尺度的多个第三特征图像。即一个尺度的第二特征图像,在增大感受野之后,得到一个尺度的第三特征图像,另一个尺度的第二特征图像,在增大感受野之后,得到另一个尺度的第三特征图像。
可以对第二特征图像进行不同次数的卷积,可以增加第二特征图像的感受野,由于第二特征图像的尺度不同,增加感受野后的第二特征图像,可以得到不同尺度的第三特征图像。对不同尺度的第二特征图像分别执行增加感受野的操作,得到与不同尺度的第二特征图像对应的第三特征图像。当然还可以通过其他方式增加第二特征图像的感受野,这里并不进行限定。
通过增大第二特征图像的感受野,增大了不同尺度的第二特征图像上的像素点在原始输入图像中的的映射区域,进一步增强了不同尺度的第二特征图像所包含特性的丰富程度,得到输入图像更大区域的特征。这样,提高了深度学习模型的性能,以及减少了深度学习模型在输出结果时忽略输入图像中有用信息或者重要信息的情况的发生,进而可以更好的对检测目标进行检测。
在一个实施例中,深度学习模型还包括:第三网络,通过该第三网络增加第二特征图像的感受野,得到第三特征图像。该第三网络包括:第一卷积分支和第二卷积分支,第一卷积分支的卷积层的个数,小于第二卷积分支的卷积层的个数。
通过对第二特征图像进行不同次数的卷积,得到相对于第二特征图像增加感受野后的第三特征图像,包括:
利用第一卷积分支对第二特征图像进行卷积,得到第一分支卷积结果。利用第二卷积分支对第二特征图像进行卷积,得到第二分支卷积结果。然后通过根据第一分支卷积结果和第二分支卷积结果,将第一分支卷积结果和第二分支卷积结果通过关联函数关联,根据关联结果,增加了第二特征图像的感受野,得到相对于第二特征图像增加感受野后的第三特征图像。不同的第三特征图像的尺度不同,包含的特征不同。根据尺度较大的第二特征图像得到的第三特征图像的尺度,大于尺度较小的第二特征图像得到的第三特征图像的尺度。例如,第3个尺度的第二特征图像增大感受野后的第三特征图像的尺度,大于第2个尺度的第二特征图像增大感受野后的第三特征图像的尺度。第2个尺度的第二特征图像增大感受野后的第三特征图像的尺度,大于第1个尺度的第二特征图像增大感受野后的第三特征图像的尺度。
参考图4,为本实施例提供的一种第三网络的结构示意图,包括上下两个卷积分支,即第一卷积分支和第二卷积分支。第一卷积分支包括卷积层A和卷积层B,第二卷积分支包括卷积层A、卷积层C和卷积层D。第一卷积分支和第二卷积分支包括的卷积层个数不同,对第二特征图像进行卷积的卷积次数也不同。通过第三网络分别对不同尺度的第二特征图像进行卷积,得到相对于第二特征图像增加感受野的第三特征图像。
第一卷积分支和第二卷积分支中包括的卷积层可以是相同的卷积层,包括相同的卷积核。例如,第一卷积分支可以包括两个3*3卷积核的卷积层,第二卷积分支可以包括三个3*3卷积核的卷积层。相对较小的卷积核的卷积,对于相对较大的卷积核(例如5*5或7*7等)的卷积,可以大幅减少计算参数,使得计算量更小。
最后根据两个卷积分支的结果,即可得到相对于第二特征图像增加感受野的第三特征图像。
在另一实施例中,步骤S400,根据不同尺度的多个第三特征图像,确定输入图像内检测目标的检测信息,可以包括:融合不同尺度的多个的第三特征图像,得到特征融合图像。由于第二特征图像的尺度不同,经过增加感受野之后得到的对应的第三特征图像包含的特征均更加丰富,进一步增加了第二特征图像中包含的特征。然后再将不同尺度的第三特征进行特征融合,进一步增强了特征融合图像所包含的特征的丰富程度。特征融合图像中包括了输入图像中检测目标的不同特征,所以可以根据特征融合图像更好的对检测目标进行检测。
根据该特征融合图像,确定输入图像中检测目标的检测信息。检测信息可以包括检测目标所属类别的置信度、检测目标的所在区域和检测目标的关键点信息等。对第三特征图像进行融合的步骤可以通过深度学习模型的第三网络实现,根据特征融合图像确定检测信息的步骤可以在输出网络中实现。输出网络中包括输出不同检测信息的输出层。
在得到特征融合图像之后,即可根据特征融合图像,确定输入图像中检测目标的所属类别的置信度。具体可以根据特征融合图像,基于多标签分类函数,确定输入图像中检测目标所属类别的置信度。多标签分类函数可以确定检测目标属于不同类别的置信度,还可以确定属于同一类别的不同检测目标的置信度。当然还可以通过其他具有相同功能的分类函数实现。
通过基于多标签分类函数,实现了对多类别的检测目标的检测,增加了对检测目标检测的多样性,减少了只能进行单类别的检测目标进行检测所带来的局限性。
例如,可以对融合特征进行相应的卷积操作等,基于多标签分类函数,确定检测目标的所属类别的置信度。检测到输入图像中检测目标的第一所属类别的置信度为0.2,第二所属类别的置信度为0.5,第三所属类别的置信度为0.8 等等。再例如,检测目标为车牌,由于不同车牌的特征不同,公交车车牌包括两行文字信息,轿车车牌包括一行文字信息,即使两种车牌都是车牌,通过多标签分类函数,可以确定出车牌属于公交车车牌的置信度,还可以确定出车牌属于轿车车牌的置信度等。
在另一实施例中,步骤S400,根据第三特征图像,确定输入图像中检测目标的所在区域。具体可以根据特征融合图像,确定输入图像中检测目标的所在区域。该步骤可以通过深度学习模型的输出网络实现,输出网络中包括输出检测目标的所在区域的输出层。
参考图5,为确定检测目标的所在区域的流程示意图,具体可以包括:
步骤S401,将预设检测框与特征融合图像所在区域进行匹配。确定预设检测框所在区域是否与特征融合图像所在区域相匹配,即进行所在区域或者位置的匹配。
步骤S402,通过平均绝对误差函数,确定预设检测框的中心位置与特征融合图像所在区域的中心位置之间的第一平均绝对误差。当然还可以通过其他函数进行确定。
在一个实施例中,还可以确定预设检测框与特征融合图像所在区域的重合程度,进而根据该重合程度确定检测目标的所在区域。
步骤S403,在第一平均绝对误差小于第一预设阈值时,确定预设检测框所在的区域为检测目标的所在区域。
在一个实施例中,在预设检测框与特征融合图像所在区域的重合程度达到一定程度后,确定预设检测框所在的区域为检测目标的所在区域。
在一个实施例中,预设检测框的宽高比为3比1,检测目标为车牌,由于车牌的宽高比近似于3比1,所以通过该预设检测框可以便于检测车牌。
在另一实施例中,该图像处理方法还包括:
参考图6,为确定检测目标的关键点的位置信息的流程示意图。根据特征融合图像,确定检测目标的关键点的位置信息。该方法具体包括:
步骤S404,将第一预设关键点的位置信息与检测目标的关键点的位置信息进行匹配。第一预设关键点的位置是可以预先设置的,将第一预设关键点的位置与检测目标中各个位置点的位置信息进行比对,在两者相满足匹配条件时,进行进一步处理。
步骤S405,基于平均绝对误差函数,确定预设关键点的位置信息与检测目标的关键点的位置信息之间的第二平均绝对误差。当然,还可以通过其他函数确定。
步骤S406,在第二平均绝对误差小于第二预设阈值时,确定第一预设关键点所在的位置为检测目标的关键点的位置。
在另一实施例中,还包括修正检测目标位置的步骤。参考图7,为修正检测目标位置的流程示意图,该步骤包括:
步骤S501,确定检测目标的关键点的位置信息是否与第二预设关键点的位置信息相匹配。可以根据第二预设关键点的位置信息与检测目标的关键点的位置信息是否满足预设条件,例如位置的差值或者平均绝对误差等等。
步骤S502,在检测目标的关键点的位置信息与第二预设关键点的位置信息不匹配时,根据第二预设关键点的位置信息,将检测目标的关键点的位置信息进行变换,修正检测目标的位置。例如通过透视矩阵到转换矩阵的变换等方式进行变换。
参考图8,为检测目标修正前后的示意图。参考图8的(a)部分,检测目标为车牌,车牌的四个角为四个关键点,根据第二预设关键点的位置信息和车牌的四个关键点的位置信息,确定两者不匹配。通过修正,得到修正后的车牌,参考图8的(b)部分。在将检测目标的位置修正之后,降低了对检测目标的识别难度。
在另一实施例中,提供一种具体的应用场景的实施方案。该实施例以包括车牌的图像为例,将包括车牌的图像作为输入图像,该图像为224*224大小的图像。通过深度学习模型中的第一网络对该图像进行特征检测,得到包含车牌的图像的第一特征图像。
通过第一卷积单元对该包括车牌的图像进行卷积操作,得到第一尺度的第一特征图像,第一尺度可以是80*80大小。第二卷积单元对第一卷积单元输出的大小为80*80大小的第一特征图像进行卷积处理,得到第二尺度的第一特征图像,第二尺度可以是40*40大小。第三卷积单元对第二卷积单元输出的40*40 大小的第一特征图像进行卷积处理,得到第三尺度的第一特征图像,第三尺度可以是20*20大小。
20*20大小的第一特征图像中包含的特征,相对于40*40大小的第一特征图像中包含的特征,更加高级和更加抽象,所包含的局部特征性越强。40*40 大小的第一特征图像中包含的特征,相对于80*80大小的第一特征图像中包含的特征,更加高级和更加抽象,所包含的局部特征性越强。
在得到不同尺度的第一特征图像之后,通过第二网络对不同尺度的第一特征图像进行转换,得到不同尺度的第二特征图像。
通过第二网络的编码器对第一尺度的第一特征图像、第二尺度的第一特征图像和第三尺度的第一特征图像进行卷积,编码器的卷积结果输出给第二网络的解码器,解码器对编码器的输出进行解码,输出特征图像,即第二网络的输出的第二特征图像。参考图3对应实施例的内容,将局部特征性更强的第一特征图像和全局特征性更强的第一特征图像进行特征融合,提取到了包含不同特征的不同尺度的第二特征图像,根据包含更多语义强度和不同分辨率的第二特征图像,可以更容易地检测到更小的、不同的检测目标。可以检测到不同的检测目标,例如不同大小的检测目标等,进而提高了对检测目标的检测性能和深度学习模型的鲁棒性。第二网络可以得到包含车的牌图像的不同尺度的第二特征图像。
通过第三网络增加第二特征图像的感受野,得到不同尺度的多个第三特征图像,包括:通过对各尺度第二特征图像分别进行不同次数的卷积,得到相对于不同尺度的多个第二特征图像增加感受野后的不同尺度的多个第三特征图像。即一个尺度的第二特征图像,在增大感受野之后,得到一个尺度的第三特征图像,另一个尺度的第二特征图像,在增大感受野之后,得到另一个尺度的第三特征图像。具体过程可以参考图4对应实施例的内容。通过第三网络可以得到包含车牌的图像的不同尺度的第三特征图像。
通过增大第二特征图像的感受野,增大了不同尺度的第二特征图像上的像素点在原始输入图像中的的映射区域,进一步增强了不同尺度的第二特征图像所包含特性的丰富程度,得到输入图像更大区域的特征。提高了深度学习模型的性能,以及减少了深度学习模型在输出结果时忽略输入图像中有用信息或者重要信息的情况的发生,进而可以更好的对检测目标进行检测。
在得到不同尺度的第三特征图像后,将不同尺度的第三特征图像进行特征融合,得到特征融合图像。该特征融合图像包含了包括车牌的图像的不同特征,根据该特征融合图像可以更好的对检测目标进行检测。该实施例中将车牌作为检测目标。
可以通过多标签分类函数确定车牌的所述类别,例如是属于两行文字信息的公交车车牌或者属于一行文字信息的轿车车牌等。参考图8的(a)部分,该车牌为包括一行文字信息的轿车车牌。还可以确定车牌的所在区域位置,和车牌的关键点的位置信息,参考图8的(a)部分,该车牌的关键点的位置信息为四个角所在的位置的信息。
在确定车牌的关键点的位置信息之后,还可以确定车牌的位置是否需要修正。参考图8的(a)部分,车牌的四个角为四个关键点,四个角的位置信息与第二预设关键点的位置信息不匹配。此时,通过位置变换等方式将车牌的关键点的位置信息进行变换,修正车牌的位置。修正后的车牌即为图8的(b)部分所示,通过修正之后的车牌,降低了对车牌的识别难度。
在另一实施例中,本申请的技术方案还提供了一种图像处理装置。参考图 9,为图像处理装置的结构示意图,该图像处理装置包括:
特征检测模块,用于对输入图像进行特征检测,得到第一特征图像。
转换模块,用于对所述第一特征图像进行转换,得到不同尺度的多个第二特征图像。
感受野增加模块,用于增加所述第二特征图像的感受野,得到不同尺度的多个第三特征图像。
确定模块,用于根据不同尺度的多个所述第三特征图像,确定所述输入图像内检测目标的检测信息。图9中只是示出了上述模块。
特征检测模块,具体用于,对所述输入图像依次进行深度卷积和逐点卷积,得到至少具有两种不同尺度的所述第一特征图像。
所述深度学习模型包括第一网络,所述第一网络包括:第一卷积单元、第二卷积单元及第三卷积单元;所述第一卷积单元、第二卷积单元及第三卷积单元的卷积序列不同;其中,所述第一卷积单元,用于对所述输入图像依次进行深度卷积和逐点卷积,得到第一尺度的第一特征图像;所述第二卷积单元,用于对所述第一尺度的所述第一特征图像依次进行深度卷积和逐点卷积,得到第二尺度的第一特征图像;所述第三卷积单元,用于对所述第二尺度的所述第一特征图像依次进行深度卷积和逐点卷积,得到第三尺度的第一特征图像。从所述第一尺度、所述第二尺度到所述第三尺度依次减小。
转换模块,用于对不同尺度的所述第一特征图像进行不同的卷积,得到不同尺度的所述第二特征图像。
所述深度学习模型还包括:第二网络,所述第二网络包括:编码器和位于所述编码器输出端的解码器,所述编码器包括:自底向上的n个编码层,且所述编码层自底向上排序;所述解码器自顶向下具有n个解码层,且所述解码层自顶向下排序;所述对不同尺度的所述第一特征图像进行不同的卷积,得到不同尺度的所述第二特征图像,包括:自底向上的n个所述编码层对f个尺度由大到小的所述第一特征图像对应进行卷积,n等于f;第m个编码层对所述第一特征图像进行卷积,得到第m个输出,并将所述第m个输出传输到第n-m+1 个解码层,其中,所述m为小于n的正整数;第s个解码层对从第s-1个解码层的输出和从第n-s+1个编码层的输出进行卷积,得到第s个尺度的所述第二特征图像,其中,所述s为小于或等于n的正整数;第n个所述编码层的输出传输到第1个所述解码层;所述第1个所述解码层基于所述第n个编码层的输出,得到第1个尺度的所述第二特征图像。
所述第m个编码层与所述第一网络的所述第一卷积单元、所述第二卷积单元及所述第三卷积单元中的一个连接;其中,第m-1个编码层接收的所述第一特征图像,比第m个编码层接收的所述第一特征图像的尺度大。优选地,n等于3。
感受野增加模块,用于通过对所述第二特征图像的不同次数的卷积,得到相对于不同尺度的多个所述第二特征图像增加所述感受野后的不同尺度的多个所述第三特征图像。
所述深度学习模型还包括:第三网络;所述第三网络包括:第一卷积分支和第二卷积分支,所述第一卷积分支的卷积层的个数,小于所述第二卷积分支的卷积层的个数;所述通过对所述第二特征图像的不同次数的卷积,得到相对于不同尺度的多个所述第二特征图像增加所述感受野后的不同尺度的多个所述第三特征图像,包括:利用第一卷积分支对所述第二特征图像进行卷积,得到第一分支卷积结果;利用第二卷积分支对所述第二特征图像进行卷积,得到第二分支卷积结果;通过所述第一分支卷积结果和第二分支卷积结果,增加所述第二特征图像的感受野,得到相对于不同尺度的多个所述第二特征图像增加所述感受野后的不同尺度的多个所述第三特征图像。
确定模块包括:
融合单元,融合不同尺度的多个所述第三特征图像,得到特征融合图像。
确定单元,用于根据所述特征融合图像,确定所述输入图像内检测目标的检测信息,所述检测信息包括:所述检测目标所属类别的置信度、所述检测目标的所在区域和所述检测目标的关键点信息。
确定单元,包括:第一确定子单元,用于根据所述特征融合图像,基于多标签分类函数,确定所述输入图像中检测目标所属类别的置信度。
确定单元,还包括:第二确定子单元,用于将预设检测框与所述特征融合图像所在区域进行匹配;通过所述平均绝对误差函数,确定所述预设检测框的中心位置与所述特征融合图像所在区域的中心位置之间的第一平均绝对误差;在所述第一平均绝对误差小于第一预设阈值时,确定所述预设检测框所在的区域为所述检测目标的所在区域。
确定单元,还包括:第三确定子单元,用于将第一预设关键点的位置信息与所述检测目标的关键点的位置信息进行匹配;基于所述平均绝对误差函数,确定所述预设关键点的位置信息与所述检测目标的关键点的位置信息之间的第二平均绝对误差;在所述第二平均绝对误差小于第二预设阈值时,确定所述预设关键点所在的位置为所述检测目标的关键点的位置。
确定模块还包括:
修正单元,用于确定所述检测目标的关键点的位置信息是否与第二预设关键点的位置信息相匹配;在所述检测目标的关键点的位置信息与第二预设关键点的位置信息不匹配时,根据第二预设关键点的位置信息,将所述检测目标的关键点的位置信息进行变换,修正所述检测目标的位置。
本申请的技术方案还提供了一种电子设备,包括:
处理器;
存储器,其存储有程序指令,当程序指令被处理器执行时,使得电子设备执行上述任一实施例中的方法。
本申请的技术方案还提供了一种存储介质,其存储有程序,当程序由处理器运行时,执行上述任一实施例中的方法。该存储介质包括非瞬间存储介质。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
在一些情况下,上述任一两个技术特征不冲突的情况下,可以组合成新的方法技术方案。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种图像处理方法,其特征在于,所述方法应用于深度学习模型,包括:
对输入图像进行特征检测,得到第一特征图像;
对所述第一特征图像进行转换,得到不同尺度的多个第二特征图像;
增加所述第二特征图像的感受野,得到不同尺度的多个第三特征图像;
根据不同尺度的多个所述第三特征图像,确定所述输入图像内检测目标的检测信息。
2.根据权利要求1所述的方法,其特征在于,所述对输入图像进行特征检测,得到第一特征图像,包括:
对所述输入图像依次进行深度卷积和逐点卷积,得到至少具有两种不同尺度的所述第一特征图像。
3.根据权利要求2所述的方法,其特征在于,所述深度学习模型包括第一网络;
所述第一网络包括:第一卷积单元、第二卷积单元及第三卷积单元;所述第一卷积单元、第二卷积单元及第三卷积单元的卷积序列不同;
其中,所述第一卷积单元,用于对所述输入图像依次进行深度卷积和逐点卷积,得到第一尺度的第一特征图像;
所述第二卷积单元,用于对所述第一尺度的第一特征图像依次进行深度卷积和逐点卷积,得到第二尺度的第一特征图像;
所述第三卷积单元,用于对所述第二尺度的第特征图像依次进行深度卷积和逐点卷积,得到第三尺度的第一特征图像。
4.根据权利要求2或3所述的方法,其特征在于,所述对所述第一特征图像进行转换,得到不同尺度的多个第二特征图像,包括:
对不同尺度的所述第一特征图像进行不同的卷积,得到不同尺度的所述第二特征图像。
5.根据权利要求4所述的方法,其特征在于,所述深度学习模型还包括:第二网络;
所述第二网络包括:编码器和位于所述编码器输出端的解码器,
所述编码器包括:自底向上的n个编码层,且所述编码层自底向上排序;所述解码器包括:自顶向下的n个解码层,且所述解码层自顶向下排序;
所述对不同尺度的所述第一特征图像进行不同的卷积,得到不同尺度的所述第二特征图像,包括:
自底向上的n个所述编码层对f个尺度由大到小的所述第一特征图像对应进行卷积,n等于f;
第m个编码层对所述第一特征图像进行卷积,得到第m个输出,并将所述第m个输出传输到第n-m+1个解码层,其中,所述m为小于n的正整数;
第s个解码层对从第s-1个解码层的输出和从第n-s+1个编码层的输出进行卷积,得到第s个尺度的所述第二特征图像,其中,所述s为小于或等于n的正整数;
第n个所述编码层的输出传输到第1个所述解码层;
所述第1个所述解码层基于所述第n个编码层的输出,得到第1个尺度的所述第二特征图像。
6.根据权利要求5所述的方法,其特征在于,所述深度学习模型还包括:第三网络;
所述第三网络包括:第一卷积分支和第二卷积分支,所述第一卷积分支的卷积层的个数,小于所述第二卷积分支的卷积层的个数;
所述通过对所述第二特征图像的不同次数的卷积,得到相对于不同尺度的多个所述第二特征图像增加所述感受野后的不同尺度的多个所述第三特征图像,包括:
利用第一卷积分支对所述第二特征图像进行卷积,得到第一分支卷积结果;
利用第二卷积分支对所述第二特征图像进行卷积,得到第二分支卷积结果;
通过所述第一分支卷积结果和第二分支卷积结果,增加所述第二特征图像的感受野,得到相对于不同尺度的多个所述第二特征图像增加所述感受野后的不同尺度的多个所述第三特征图像。
7.根据权利要求1所述的方法,其特征在于,所述根据不同尺度的多个所述第三特征图像,确定所述输入图像内检测目标的检测信息,包括:
融合不同尺度的多个所述第三特征图像,得到特征融合图像;
根据所述特征融合图像,确定所述输入图像内检测目标的检测信息;其中,所述检测信息包括:所述检测目标所属类别的置信度、所述检测目标的所在区域和/或所述检测目标的关键点信息。
8.一种图像处理装置,其特征在于,包括:
特征检测模块,用于对输入图像进行特征检测,得到第一特征图像;
转换模块,用于对所述第一特征图像进行转换,得到不同尺度的多个第二特征图像;
感受野增加模块,用于增加所述第二特征图像的感受野,得到不同尺度的多个第三特征图像;
确定模块,用于根据不同尺度的多个所述第三特征图像,确定所述输入图像内检测目标的检测信息。
9.一种电子设备,包括:
处理器;
存储器,其存储有程序指令,当所述程序指令被所述处理器执行时,使得所述电子设备执行如权利要求1~7任一项所述的方法。
10.一种存储介质,其存储有程序,当所述程序由处理器运行时,执行如权利要求1~7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011545956.1A CN112614107A (zh) | 2020-12-23 | 2020-12-23 | 一种图像处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011545956.1A CN112614107A (zh) | 2020-12-23 | 2020-12-23 | 一种图像处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112614107A true CN112614107A (zh) | 2021-04-06 |
Family
ID=75245401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011545956.1A Pending CN112614107A (zh) | 2020-12-23 | 2020-12-23 | 一种图像处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112614107A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113096159A (zh) * | 2021-06-04 | 2021-07-09 | 城云科技(中国)有限公司 | 目标检测、轨迹跟踪方法、模型及其电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784476A (zh) * | 2019-01-12 | 2019-05-21 | 福州大学 | 一种改进dsod网络的方法 |
CN110516670A (zh) * | 2019-08-26 | 2019-11-29 | 广西师范大学 | 基于场景级与区域建议自注意模块的目标检测方法 |
CN110852349A (zh) * | 2019-10-21 | 2020-02-28 | 上海联影智能医疗科技有限公司 | 一种图像处理方法、检测方法、相关设备及存储介质 |
CN111160276A (zh) * | 2019-12-31 | 2020-05-15 | 重庆大学 | 基于遥感影像的u型空洞全卷积分割网络识别模型 |
CN111369563A (zh) * | 2020-02-21 | 2020-07-03 | 华南理工大学 | 一种基于金字塔空洞卷积网络的语义分割方法 |
CN111626373A (zh) * | 2020-06-01 | 2020-09-04 | 中国科学院自动化研究所 | 多尺度加宽残差网络、小目标识别检测网络及其优化方法 |
CN111967401A (zh) * | 2020-08-19 | 2020-11-20 | 上海眼控科技股份有限公司 | 目标检测方法、设备及存储介质 |
-
2020
- 2020-12-23 CN CN202011545956.1A patent/CN112614107A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784476A (zh) * | 2019-01-12 | 2019-05-21 | 福州大学 | 一种改进dsod网络的方法 |
CN110516670A (zh) * | 2019-08-26 | 2019-11-29 | 广西师范大学 | 基于场景级与区域建议自注意模块的目标检测方法 |
CN110852349A (zh) * | 2019-10-21 | 2020-02-28 | 上海联影智能医疗科技有限公司 | 一种图像处理方法、检测方法、相关设备及存储介质 |
CN111160276A (zh) * | 2019-12-31 | 2020-05-15 | 重庆大学 | 基于遥感影像的u型空洞全卷积分割网络识别模型 |
CN111369563A (zh) * | 2020-02-21 | 2020-07-03 | 华南理工大学 | 一种基于金字塔空洞卷积网络的语义分割方法 |
CN111626373A (zh) * | 2020-06-01 | 2020-09-04 | 中国科学院自动化研究所 | 多尺度加宽残差网络、小目标识别检测网络及其优化方法 |
CN111967401A (zh) * | 2020-08-19 | 2020-11-20 | 上海眼控科技股份有限公司 | 目标检测方法、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
姜义成等: ""基于深度可分离卷积和多级特征金字塔网络的行人检测"", 《汽车安全与节能学报》, vol. 11, no. 1, 31 March 2020 (2020-03-31), pages 95 - 96 * |
王嘉良等: ""基于R-FCN算法的糖尿病眼底病变自动诊断"", 《计算机工程与应用》, vol. 56, no. 4, 30 April 2020 (2020-04-30), pages 111 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113096159A (zh) * | 2021-06-04 | 2021-07-09 | 城云科技(中国)有限公司 | 目标检测、轨迹跟踪方法、模型及其电子设备 |
CN113096159B (zh) * | 2021-06-04 | 2021-09-14 | 城云科技(中国)有限公司 | 目标检测、轨迹跟踪方法、模型及其电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190019055A1 (en) | Word segmentation system, method and device | |
CN107944450B (zh) | 一种车牌识别方法及装置 | |
CN110033018B (zh) | 图形相似度判断方法、装置及计算机可读存储介质 | |
CN111027576B (zh) | 基于协同显著性生成式对抗网络的协同显著性检测方法 | |
CN112017192B (zh) | 基于改进U-Net网络的腺体细胞图像分割方法及系统 | |
US20240161304A1 (en) | Systems and methods for processing images | |
CN114038004A (zh) | 一种证件信息提取方法、装置、设备及存储介质 | |
US20230334893A1 (en) | Method for optimizing human body posture recognition model, device and computer-readable storage medium | |
CN112926462B (zh) | 训练方法、装置、动作识别方法、装置及电子设备 | |
CN111199050B (zh) | 一种用于对病历进行自动脱敏的系统及应用 | |
JP2019125203A (ja) | 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク | |
CN111160312A (zh) | 目标识别方法、装置和电子设备 | |
CN115272691A (zh) | 一种钢筋绑扎状态检测模型的训练方法、识别方法及设备 | |
CN114266881A (zh) | 一种基于改进型语义分割网络的指针式仪表自动读数方法 | |
CN112364974A (zh) | 一种基于激活函数改进的YOLOv3算法 | |
CN116189162A (zh) | 一种船牌检测与识别方法、装置、电子设备和储存介质 | |
CN111353429A (zh) | 基于眼球转向的感兴趣度方法与系统 | |
CN112614107A (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
CN116229406B (zh) | 车道线检测方法、系统、电子设备及存储介质 | |
CN111291712B (zh) | 基于插值的cn和胶囊网络的森林火灾识别方法及装置 | |
CN117671414A (zh) | 一种基于部分卷积嵌入和聚集分发机制的目标检测方法 | |
CN115641584B (zh) | 一种雾天图像识别方法及装置 | |
CN116778346A (zh) | 一种基于改进自注意力机制的管线识别方法及系统 | |
CN116563597A (zh) | 图像识别模型训练方法、识别方法、设备、介质及产品 | |
CN113065480B (zh) | 书法作品风格的识别方法、装置、电子装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |