CN112101391A - 图像分类器的训练装置、检测目标物体的装置和电子设备 - Google Patents
图像分类器的训练装置、检测目标物体的装置和电子设备 Download PDFInfo
- Publication number
- CN112101391A CN112101391A CN201910525335.8A CN201910525335A CN112101391A CN 112101391 A CN112101391 A CN 112101391A CN 201910525335 A CN201910525335 A CN 201910525335A CN 112101391 A CN112101391 A CN 112101391A
- Authority
- CN
- China
- Prior art keywords
- region
- image
- matrix
- directions
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 45
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 105
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 239000000284 extract Substances 0.000 claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims description 99
- 239000013598 vector Substances 0.000 claims description 86
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000000034 method Methods 0.000 description 46
- 238000001514 detection method Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 23
- 238000012545 processing Methods 0.000 description 7
- 238000000354 decomposition reaction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000004576 sand Substances 0.000 description 3
- 238000011176 pooling Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000000295 emission spectrum Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种图像分类器的训练装置、检测目标物体的装置和电子设备,该检测目标物体的装置包括:第一提取单元,其提取图像中的包含被检测为目标物体的特征部位的区域;第二提取单元,其根据所述区域的像素值提取所述区域的图像特征(feature extraction);以及识别单元,其使用基于卷积神经网络(CNN)的图像分类器,对提取出的所述图像特征进行分类,以识别所述区域中是否包含所述目标物体。
Description
技术领域
本申请涉及电子信息技术领域。
背景技术
在交通视频监控领域,进行目标物体检测是一个非常重要的课题,该目标物体例如可以是车辆等。目前,目标物体检测技术有了较大进步,并且,多数技术在白天都能具有良好的表现。
在夜间或隧道内等外界光线较弱的环境下,目标物体检测技术通常基于该目标物体自身发出的光来进行目标物体检测,例如,从前景图像中提取突出显示的区域作为检测和追踪的对象。该突出显示的区域例如可以是车辆的车灯等。
有时,在图像中可能会出现一些不需要的亮点区域,影响对车辆的车灯等突出显示的区域的检测,从而造成误检测。
在一些情况下,这些不需要的亮点区域来自其他发光物体,如路边照明设备、交通信号灯、远处建筑物的灯光等,通过在图像中设置感兴趣区域(ROI)掩模(mask)可以消除这些影响。
在另一些情况下,这些不需要的亮点区域来自车辆的车灯在道路上的反射光斑。为了消除反射光斑引起的误检测,可以采用如下的方法来检测出反射光斑:阈值分割法,例如,通过设置亮度的阈值来区分车辆的车灯和反射光斑;形状区分法,即,利用车辆的车灯的几何特征来区分前照灯和反射,例如,大多数情况下,车辆车灯的形状是小而圆的,但反射光斑面积更大且更像一个椭圆;颜色空间信息来区分车灯和反射光斑的方法,例如,反射光斑和真实的车灯之间的色调、饱和度等颜色空间信息存在不同,因而可以基于颜色空间信息来区分二者;利用高斯(Gaussian)算符的拉普拉斯函数来计算反射抑制图像,并结合大气散射模型来区分反射光斑和真实的车灯。
应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
本申请的发明人发现,现有的用于检测反射光斑的方法各有局限性,例如:当反射光斑很强或摄像机的动态范围不够大时,阈值分割法就不能很好地进行;根据图像检测到的反射光斑的形状取决于摄像机的角度和位置以及路况,因而形状区分法也会存在误检测情况;利用颜色空间信息进行检测的方法中,颜色空间信息可能受摄像头、道路、发光光谱和反射强度等因素影响,因而该方法也不稳定;高斯算符可能会在车灯区域制造黑洞,因此需要进一步处理,而且不稳定,此外,大气散射模型的计算时间过长也是一个局限。
本申请的实施例提供一种检测目标物体的装置、图像分类器的训练装置、电子设备,该检测目标物体的装置从图像的初步检测为包含目标物体的区域中提取图像特征,并利用基于卷积神经网络(CNN)的图像分类器对该图像特征进行分类,以识别该区域中是否包含目标物体,由此,能够以简单而准确的方式来检测图像中的目标物体,避免误检测。例如,在基于车辆的车灯进行车辆检测的情况下,本申请实施例的检测目标物体的装置能够识别出图像中的反射光斑,减少误检测的情况。
根据本申请实施例的第一方面,提供一种检测图像中的目标物体的装置,包括:
第一提取单元,其提取图像中的包含被检测为目标物体的特征部位的区域;
第二提取单元,其根据所述区域的像素值提取所述区域的图像特征(featureextraction);以及
识别单元,其使用基于卷积神经网络(CNN)的图像分类器,对提取出的所述图像特征进行分类,以识别所述区域中是否包含所述目标物体。
根据本实施例的第二方面,提供一种基于卷积神经网络(CNN)的图像分类器的训练装置,包括:
第三提取单元,其针对训练图像中的预定的区域,根据所述区域的像素值提取所述区域的图像特征(feature extraction);以及
训练单元,其根据提取出的所述图像特征,对基于卷积神经网络(CNN)的图像分类器进行训练。
根据本实施例的第三方面,提供一种电子设备,其包括实施例的第一方面的检测图像中的目标物体的装置,和/或实施例的第二方面的基于卷积神经网络(CNN)的图像分类器的训练装置。
本申请的有益效果在于:能够以简单而准确的方式检测图像中的目标物体,避免误检测。
参照后文的说明和附图,详细公开了本申请的特定实施方式,指明了本发明的原理可以被采用的方式。应该理解,本申请的实施方式在范围上并不因而受到限制。在所附附记的精神和条款的范围内,本申请的实施方式包括许多改变、修改和等同。
针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
附图说明
所包括的附图用来提供对本申请实施例的进一步的理解,其构成了说明书的一部分,用于例示本申请的实施方式,并与文字描述一起来阐释本发明的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本申请实施例的第一方面的检测图像中的目标物体的方法的一个示意图;
图2是图1的方法中操作102的实现方法的一个示意图;
图3是感兴趣区域的一个示意图;
图4是像素(i,j)的梯度向量与预定的k个方向的一个示意图;
图5的(a)是区域300中具有反射光斑的一个示意图;
图5的(b)是区域300中具有车辆的车灯的一个示意图;
图6是图1的方法中操作103所使用的基于卷积神经网络(CNN)的图像分类器的一个示意图;
图7是本申请实施例的第一方面中对基于CNN的图像分类器600进行训练的方法的一个示意图;
图8是本申请实施例的第二方面的检测图像中的目标物体的装置的一个示意图;
图9是本申请实施例的第二方面的训练装置的一个示意图;
图10是本申请实施例的第三方面的电子设备的一个构成示意图。
具体实施方式
参照附图,通过下面的说明书,本申请的前述以及其它特征将变得明显。在说明书和附图中,具体公开了本申请的特定实施方式,其表明了其中可以采用本申请的原则的部分实施方式,应了解的是,本申请不限于所描述的实施方式,相反,本申请包括落入所附附记的范围内的全部修改、变型以及等同物。
在本申请实施例中,术语“第一”、“第二”等用于对不同元素从称谓上进行区分,但并不表示这些元素的空间排列或时间顺序等,这些元素不应被这些术语所限制。术语“和/或”包括相关联列出的术语的一种或多个中的任何一个和所有组合。术语“包含”、“包括”、“具有”等是指所陈述的特征、元素、元件或组件的存在,但并不排除存在或添加一个或多个其他特征、元素、元件或组件。
在本申请实施例中,单数形式“一”、“该”等包括复数形式,应广义地理解为“一种”或“一类”而并不是限定为“一个”的含义;此外术语“该”应理解为既包括单数形式也包括复数形式,除非上下文另外明确指出。此外术语“根据”应理解为“至少部分根据……”,术语“基于”应理解为“至少部分基于……”,除非上下文另外明确指出。
实施例的第一方面
本申请实施例的第一方面提供一种检测图像中的目标物体的方法。
图1是本申请实施例的第一方面的检测图像中的目标物体的方法的一个示意图,该方法100包括:
操作101、提取图像中的包含被检测为目标物体的特征部位;
操作102、根据所述区域的像素值提取所述区域的图像特征(featureextraction);以及
操作103、使用基于卷积神经网络(CNN)的图像分类器,对提取出的所述图像特征进行分类,以识别所述区域中是否包含所述目标物体。
在操作101中,针对被检测为目标物体的特征部位,有可能存在误检测,因此,通过操作102和操作103,操作101的检测结果进行进一步的识别,能够提高检测的准确性。
根据本申请实施例的第一方面,该检测图像中的目标物体的方法从图像的初步检测为包含目标物体的区域中提取图像特征,并利用基于卷积神经网络(CNN)的图像分类器对该图像特征进行分类,以识别该区域中是否包含目标物体,由此,能够以简单而准确的方式来检测图像中的目标物体,避免误检测。例如,在基于车辆的车灯进行车辆检测的情况下,本申请实施例的第一方面的检测图像中的目标物体的方法能够识别出图像中的反射光斑,减少误检测的情况,由此,即使在外界光线较弱的环境下,也能准确地识别车辆的车灯,从而准确地检测出车辆。
在本申请的至少一个实施例中,图像中的目标物体例如可以是车辆,目标物体的特征部位例如可以是车辆的车灯等部位,图像中的包含被检测为目标物体的特征部位的区域例如可以是包含被检测为车辆的车灯的区域,该区域例如被称为感兴趣区域(Region ofInterest,ROI)。
在操作101中,可以通过如下的操作1011、操作1012和操作1013来提取图像中的感兴趣区域。
操作1011、基于车辆的车灯,检测前进方向的车辆,例如:首先采用背景建模的方法提取图像的前景,然后采用现有的方法,从图像的前景中检测车辆的车灯可能出现的较亮的区域,例如,利用动态阈值分割法检测车辆的车灯可能出现的较亮的区域。该车灯例如可以是车辆的头灯(headlight)或尾灯等。
在操作1011中,由于检测方法的局限,检测出的车辆的车灯可能出现的较亮的区域有可能是反射光斑等不需要的亮点区域。通过操作102、操作103能够对操作1011的检测结果进行进一步检测,从而识别出反射光斑等不需要的亮点区域,从而提高检测的准确性。
操作1012、进行感兴趣区域的提取。例如,对于操作1011中检测出的车辆的车灯可能出现的较亮的区域,提取该较亮的区域的轮廓,然后利用对称特性(symmetricalcharacteristic),得到矩形区域,该矩形区域包括同一辆车上两个车灯区域的轮廓;最后,调整该矩形区域形状,得到感兴趣区域,该感兴趣区域的形状例如可以是正方形,并捕获该感兴趣区域中的图像。
操作1013、将操作1012中得到的感兴趣区域调整到预定的尺寸,以便于在操作102中进行图像特征提取。该预定的尺寸例如可以是在第一方向具有w个像素,在第二方向具有h个像素,由此,该预定的尺寸被表示为h×w,例如,h=w=128,该第一方向和第二方向垂直,第一方向可以是图像的宽度方向,第二方向可以是图像的高度方向。
在本申请的至少一个实施例中,操作102所提取的图像特征可以与该感兴趣区域的像素值的梯度有关,例如,该图像特征可以是该感兴趣区域中像素值的梯度在预定的k个方向上的分布信息,其中,k可以为自然数,例如,k等于8,9,或12等。
图2是操作102的实现方法的一个示意图,如图2所示,操作102可以包括:
操作1021、将感兴趣区域划分为多个子区域,分别计算各子区域的像素值的梯度向量在第一方向和第二方向的分量的梯度矩阵Gx和Gy;
操作1022、对所述梯度矩阵Gx和Gy进行极坐标转换,以计算各所述子区域的像素值的梯度向量的模矩阵GA和角度矩阵Gθ;
操作1023、针对各子区域的模矩阵GA和角度矩阵Gθ,将所述梯度向量分解到预定的k个方向,计算所述k个方向的各方向上梯度向量的模的和,其中,该k个方向的梯度向量的模的和构成第一向量l;以及
操作1024、将所述区域中全部子区域对应的各第一向量l组合成第一矩阵L,该第一矩阵L为所述区域的图像特征。
图3是感兴趣区域的一个示意图。如图3所示,感兴趣区域300的尺寸为h×w,感兴趣区域300可以被划分为多个子区域301,各子区域301的尺寸为m×n即,各子区域301在第一方向具有m个像素,在第二方向具有n个像素。感兴趣区域300中的子区域301的数量为p×q,即,在第一方向上具有p个子区域301,在第二方向上具有q个子区域301。
在操作1021中,分别计算各子区域301的像素值的梯度向量在第一方向和第二方向的分量的梯度矩阵Gx和Gy,其中,Gx和Gy可以分别表示为如下的形式:
其中,梯度矩阵Gx中的元素xij表示像素(i,j)的像素值的梯度向量在第一方向的分量,梯度矩阵Gy中的元素yij表示像素(i,j)的像素值的梯度向量在第二方向的分量;像素(i,j)表示在子区域301中,在第一方向上序号为i且在第二方向上序号为j的像素,其中,子区域301的左上角的像素为像素(1,1),子区域301的右下角的像素为像素(m,n);i和j都是自然数,1≤i≤m,1≤j≤n。
在操作1022中,对梯度矩阵Gx和Gy的元素进行坐标转换,将各像素的像素值的梯度向量在第一方向的分量和在第二方向的分量转换为极坐标下的角度分量和模分量,其中,模分量表示该像素的梯度向量的值的大小,角度分量表示该像素的梯度向量的角度。
子区域301中,各像素的梯度向量的模分量可以构成模矩阵GA,各像素的梯度向量的角度分量可以构成角度矩阵Gθ。其中,GA和Gθ可以分别表示为如下的形式:
其中,模矩阵GA中的元素Aij表示像素(i,j)的梯度向量在极坐标下的模分量,角度矩阵Gθ中的元素θij表示像素(i,j)的梯度向量在极坐标下的角度分量。
图4是像素(i,j)的梯度向量与预定的k个方向的一个示意图。
如图4所示,像素(i,j)的梯度向量为401,像素(i,j)的梯度向量在极坐标下的模分量为Aij,像素(i,j)的梯度向量在极坐标下的角度分量为θij。
如图4所示,预定的k个方向的角度可以被表示为θ1,θ2,…,θs,…,θk-1,θk,其中,s是自然数,表示某方向在该k个方向中的序号,1≤s≤k。k可以大于4,例如,k可以等于8,9或12等。
在至少一个实施例中,该k个方向可以在周方向上均匀分布,即,相邻的两个方向之间的夹角彼此相等。此外,本申请可以不限于此,该k个方向也可以在周方向上不均匀分布。
在操作1023中,针对像素(i,j),当其梯度向量的角度分量的θij位于预定的k个方向中的相邻两个方向s和s+1的角度θs和θs+1之间时,将像素(i,j)的梯度向量的模分量Aij分别分解到该相邻的两个方向上,在方向s上的分量为As,在方向s+1上的分量为As+1。上述分解可以是非线性分解,例如,可以使用下式(1)和(2)进行非线性分解,从而计算出As和As+1。
此外,上述分解也可以是线性分解,例如,可以使用下式(3)和(4)进行线性分解,从而计算出As和As+1。
在操作1023中,针对子区域301中的每个像素(i,j)的梯度向量,都将其模分量Aij分解到与角度θij相邻的方向s和方向s+1上,并且,针对该k个方向中的每一个方向,计算分解到该方向的模的分量的和,例如,对于方向s,计算分解到该方向的模的分量的和ATs。由此,对于子区域301,该k个方向中的各方向的ATs构成第一向量l,第一向量l可以被表示为如下的形式:
在操作1024中,将区域300中全部子区域301对应的各第一向量l组合成第一矩阵L,该第一矩阵L作为区域300的图像特征。
例如,第一矩阵L可以被表示为如下的形式:
其中,第一矩阵L中的元素luv表示序号为(u,v)的子区域301所对应的第一向量l,其中,区域300中的左上角的子区域301的序号为(1,1),区域300中的右下角的子区域301的序号为(p,q);u和v都是自然数,1≤u≤p,1≤v≤q。
第一矩阵L的维数是p×q×k,例如,区域300的尺寸为128像素×128像素,子区域301的尺寸为8像素×8像素,k=9,那么,第一矩阵L的维数是16×16×9。
在至少一个实施例中,在操作102中提取出的区域300的第一矩阵L可以在操作103中被输入到基于卷积神经网络(CNN)的图像分类器,由此,使用该基于卷积神经网络(CNN)的图像分类器对提取出的第一矩阵L进行分类,以识别区域300中是否包含目标物体。
例如,在操作103中,如果该基于卷积神经网络(CNN)的图像分类器对第一矩阵L的分类结果是第一分类结果,那么,判断为识别区域300中包含目标物体,其中,该第一分类结果例如可以是与车辆的车灯对应的分类结果。
又例如,在操作103中,如果该基于卷积神经网络(CNN)的图像分类器对第一矩阵L的分类结果是第二分类结果,那么,判断为识别区域300中不包含目标物体,其中,该第二分类结果例如可以是与反射光斑对应的分类结果。
由此,在操作103中,基于卷积神经网络(CNN)的图像分类器对图像的特征进行分类,能够对操作101中使用的对目标物体的特征部位的检测结果进行进一步的检测,从而提高检测准确性。
图5的(a)是区域300中具有反射光斑的一个示意图,图5的(b)是区域300中具有车辆的车灯的一个示意图。
图6是操作103所使用的基于卷积神经网络(CNN)的图像分类器的一个示意图。如图6所示,基于卷积神经网络(CNN)的图像分类器600可以具有:3个卷积层6011、6012、6013;3个池化层6021、6022、6023;以及3个全连接层6031、6032、6033。
此外,如图6所示,基于卷积神经网络(CNN)的图像分类器600还可以具有平化层(Flatten)604。
此外,图6所示的基于卷积神经网络(CNN)的图像分类器600是一个示意图,本申请可以不限于此,卷积层、池化层、全连接层的数量和结构不限于图6所示。
在至少一个实施例中,输入基于卷积神经网络(CNN)的图像分类器600的第一矩阵L的维数例如是16×16×9,该图像分类器600对第一矩阵L进行分类的准确率可以达95%。
如下的表1是图6所示的基于卷积神经网络(CNN)的图像分类器600的参数列表。
表1
如表1所示,输入到基于卷积神经网络(CNN)的图像分类器600的矩阵的维数是16×16×9,因而,该基于卷积神经网络(CNN)的图像分类器600的参数总数较少,为198054,图像分类器600的处理速度快。
与之相对,如果输入到图像分类器600的图像特征不是第一矩阵L,而是图像300的像素值,那么输入的数据的维数是128×128×1,图像分类器600的各层的输出形状和各层的参数数量与表1有所不同。
例如,输入的数据的维数是128×128×1时,图6所示的基于卷积神经网络(CNN)的图像分类器600的参数列表可以如下表2所示。
表2
如表2所示,如果将图像300输入到图像分类器600,那么图像分类器600中的参数总数为6646950,可训练的参数总数也为6646950,该数量是表1的可训练的参数总数的33.56倍。
发明人通过实际的测试发现,在使用英特尔I7—790中央处理器(CPU)在视窗(Windows)7平台进行测试时,针对图像的一个区域300,在操作102中进行图像特征提取所花费的时间,以及在操作103中利用基于卷积神经网络(CNN)的图像分类器600对提取的图像特征进行分类的时间总和约为1.4毫秒,仅为直接将区域300的像素值输入同一层结构的基于卷积神经网络(CNN)的图像分类器600进行分类所花费时间的15%左右。
此外,在表1和表2中,输出形状里的N表示分类器在训练时的批尺寸(batchsize)。
在本申请实施例的第一方面中,通过提取图像特征,并将图像特征输入到图像分类器600,能够大幅降低图像分类器600中的数据量,从而提高图像分类器600的处理速度,提高分类效率和分类的准确性。其中,该图像特征与感兴趣区域的像素值的梯度有关,因此,在将该图像特征输入到基于CNN的图像分类器600中时,分类器600所需的卷积核较小,参数较少,从而能加速分类器的训练和识别过程;并且,该图像特征在预定的k个方向上保留梯度信息,因而增加了输入的图像特征的通道数,能够保证图像分类器600分类的准确性。
在至少一个实施例中,基于CNN的图像分类器600可以通过训练来得到。
图7是本申请实施例的第一方面中对基于CNN的图像分类器600进行训练的方法的一个示意图。如图7所示,该训练的方法包括:
操作701、针对训练图像中的预定的区域,根据所述区域的像素值提取所述区域的图像特征(feature extraction);以及
操作702、根据提取出的所述图像特征,对基于卷积神经网络(CNN)的图像分类器进行训练。
在操作701中,训练图像中的预定的区域可以是被提前标记过的区域,例如,包含车辆的车灯的区域被标记为第一类区域,包含反射光斑的区域被标记为第二类区域。
在操作701中,提取预定的区域的图像特征的方法可以参照操作102中的说明,例如,操作701中也可以包括操作1021、操作1022、操作1023和操作1024。操作701提取出的图像特征例如可以是预定的区域对应的第一矩阵L,第一矩阵L的维数例如是16×16×9。
在操作702中,可以根据操作701中提取出的第一矩阵L对基于卷积神经网络(CNN)的图像分类器600进行训练,例如,对基于卷积神经网络(CNN)的图像分类器600中的各层的参数的数值进行调整,其中,基于卷积神经网络(CNN)的图像分类器600中各层的可训练的参数的数量可以如上述的表1所示。在操作702中,具体的训练过程可以参考相关技术。
在至少一个实施例中,通过20个时期(epochs)的训练,基于卷积神经网络(CNN)的图像分类器600的识别准确率例如可以达到95%。
实施例的第二方面
本申请实施例的第二方面提供一种检测图像中的目标物体的装置,与实施例的第一方面的检测图像中的目标物体的方法对应。
图8是本申请实施例的第二方面的检测图像中的目标物体的装置的一个示意图,如图8所示,该装置800包括:第一提取单元801、第二提取单元802以及识别单元803。
其中,第一提取单元801提取图像中的包含被检测为目标物体的特征部位的区域;第二提取单元802根据所述区域的像素值提取所述区域的图像特征(featureextraction);识别单元803使用基于卷积神经网络(CNN)的图像分类器,对提取出的所述图像特征进行分类,以识别所述区域中是否包含所述目标物体。
在至少一个实施例中,区域300的图像特征是该区域中像素值的梯度在预定的k个方向上的分布信息,k为自然数。
在至少一个实施例中,第二提取单元802提取区域300的图像特征,包括:
操作1021、将所述区域划分为多个子区域,分别计算各子区域的像素值的梯度向量在第一方向和第二方向的分量的梯度矩阵Gx和Gy,其中,所述第一方向沿所述图像的宽度方向,所述第二方向沿所述图像的高度方向;
操作1022、对所述梯度矩阵Gx和Gy进行极坐标转换,以计算各所述子区域的像素值的梯度向量的模矩阵GA和角度矩阵Gθ;
操作1023、针对各子区域的所述模矩阵GA和角度矩阵Gθ,将所述梯度向量分解到预定的k个方向,计算所述k个方向的各方向上梯度向量的模的和,其中,该k个方向的梯度向量的模的和构成第一向量l;以及
操作1024、将所述区域中全部子区域对应的各第一向量l组合成第一矩阵L,该第一矩阵L为所述区域的图像特征。
在至少一个实施例中,在操作1023中,针对各子区域的所述模矩阵GA和所述角度矩阵Gθ,将所述梯度向量分解到预定的k个方向,包括:
针对所述子区域内的各像素,当该像素的所述梯度向量对应的所述角度矩阵Gθ中的角度元素的值位于所述k个方向中的相邻两个方向的角度之间时,将该像素的所述梯度向量对应的所述模矩阵GA中的模元素的值分别分解到该相邻的两个方向。
在至少一个实施例中,在操作1023中,针对各子区域的所述模矩阵GA和所述角度矩阵Gθ,计算所述k个方向的各方向上梯度向量的模的和,包括:
针对所述k个方向中的各方向,将分解到该方向上的模元素的值相加,作为该方向上梯度向量的模的和。
本申请实施例的第二方面还提供一种基于卷积神经网络(CNN)的图像分类器的训练装置,与实施例的第一方面的基于卷积神经网络(CNN)的图像分类器的训练方法对应。
图9是本申请实施例的第二方面的训练装置的一个示意图,如图9所示,该训练装置900包括:第三提取单元901以及训练单元902。
其中,第三提取单元901针对训练图像中的预定的区域,根据所述区域的像素值提取所述区域的图像特征(feature extraction);训练单元902根据提取出的所述图像特征,对基于卷积神经网络(CNN)的图像分类器进行训练。
在至少一个实施例中,训练图像中的预定的区域可以是预先标记好类别的区域。对第三提取单元901的说明可以参考对第二提取单元802的说明。
根据本申请实施例的第二方面,通过提取图像特征,并将图像特征输入到图像分类器600,能够大幅降低图像分类器600中的数据量,从而提高图像分类器600的处理速度,提高分类效率和分类的准确性。其中,该图像特征与感兴趣区域的像素值的梯度有关,因此,在将该图像特征输入到基于CNN的图像分类器600中时,分类器600所需的卷积核较小,参数较少,从而能加速分类器的训练和识别过程;并且,该图像特征在预定的k个方向上保留梯度信息,因而增加了输入的图像特征的通道数,能够保证图像分类器600分类的准确性。
实施例的第三方面
本申请实施例的第三方面提供一种电子设备,所述电子设备包括:如实施例的第二方面所述的检测图像中的目标物体的装置或基于卷积神经网络(CNN)的图像分类器的训练装置。
图10是本申请实施例的第三方面的电子设备的一个构成示意图。如图10所示,电子设备1000可以包括:中央处理器(CPU)1001和存储器1002;存储器1002耦合到中央处理器1001。其中该存储器1002可存储各种数据;此外还存储用于进行控制的程序,并且在中央处理器1001的控制下执行该程序。
在一个实施例中,检测图像中的目标物体的装置800或基于卷积神经网络(CNN)的图像分类器的训练装置900中的功能可以被集成到中央处理器1001中。
其中,中央处理器1001可以被配置为,执行实施例的第一方面所述的检测图像中的目标物体的方法或基于卷积神经网络(CNN)的图像分类器的训练方法。
在另一个实施例中,检测图像中的目标物体的装置800或基于卷积神经网络(CNN)的图像分类器的训练装置900可以与处理器1001分开配置,例如可以将检测图像中的目标物体的装置800或基于卷积神经网络(CNN)的图像分类器的训练装置900配置为与处理器1001连接的芯片,通过处理器1001的控制来实现检测图像中的目标物体的装置800或基于卷积神经网络(CNN)的图像分类器的训练装置900的功能。
此外,如图10所示,电子设备1000还可以包括:输入输出单元1003和显示单元1004等;其中,上述部件的功能与现有技术类似,此处不再赘述。值得注意的是,电子设备1000也并不是必须要包括图10中所示的所有部件;此外,电子设备1000还可以包括图10中没有示出的部件,可以参考现有技术。
本申请实施例还提供一种计算机可读程序,其中当在检测图像中的目标物体的装置或基于卷积神经网络(CNN)的图像分类器的训练装置或电子设备中执行所述程序时,所述程序使得检测图像中的目标物体的装置或电子设备执行实施例的第一方面所述的检测图像中的目标物体的方法,或者,所述程序使得基于卷积神经网络(CNN)的图像分类器的训练装置或电子设备执行实施例的第一方面所述的基于卷积神经网络(CNN)的图像分类器的训练方法。
本申请实施例还提供一种存储有计算机可读程序的存储介质,其中,所述存储介质存储上述计算机可读程序,所述计算机可读程序使得检测图像中的目标物体的装置或电子设备执行实施例的第一方面所述的检测图像中的目标物体的方法,或者,所述计算机可读程序使得基于卷积神经网络(CNN)的图像分类器的训练装置或电子设备执行实施例的第一方面所述的基于卷积神经网络(CNN)的图像分类器的训练方法。
结合本发明实施例描述的测量装置可直接体现为硬件、由处理器执行的软件模块或二者组合。例如,图8、9中所示的功能框图中的一个或多个和/或功能框图的一个或多个组合,既可以对应于计算机程序流程的各个软件模块,亦可以对应于各个硬件模块。这些软件模块,可以分别对应于实施例的第一方面所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。
软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息;或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该软件模块可以存储在移动终端的存储器中,也可以存储在可插入移动终端的存储卡中。例如,若电子设备采用的是较大容量的MEGA-SIM卡或者大容量的闪存装置,则该软件模块可存储在该MEGA-SIM卡或者大容量的闪存装置中。
针对图8、9描述的功能框图中的一个或多个和/或功能框图的一个或多个组合,可以实现为用于执行本申请所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件、或者其任意适当组合。针对图8、9描述的功能框图中的一个或多个和/或功能框图的一个或多个组合,还可以实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其它这种配置。
以上结合具体的实施方式对本申请进行了描述,但本领域技术人员应该清楚,这些描述都是示例性的,并不是对本申请保护范围的限制。本领域技术人员可以根据本申请的原理对本申请做出各种变型和修改,这些变型和修改也在本申请的范围内。
关于包括以上实施例的实施方式,还公开下述的附记:
1.一种检测图像中的目标物体的方法,包括:
提取图像中的包含被检测为目标物体的特征部位的区域;
根据所述区域的像素值提取所述区域的图像特征(feature extraction);以及
使用基于卷积神经网络(CNN)的图像分类器,对提取出的所述图像特征进行分类,以识别所述区域中是否包含所述目标物体。
2.如附记1所述的方法,其中,
所述区域的图像特征是所述区域中像素值的梯度在预定的k个方向上的分布信息,k为自然数。
3.如附记1所述的方法,其中,提取所述区域的图像特征,包括:
将所述区域划分为多个子区域,分别计算各子区域的像素值的梯度向量在第一方向和第二方向的分量的梯度矩阵Gx和Gy,其中,所述第一方向沿所述图像的宽度方向,所述第二方向沿所述图像的高度方向;
对所述梯度矩阵Gx和Gy进行极坐标转换,以计算各所述子区域的像素值的梯度向量的模矩阵GA和角度矩阵Gθ;
针对各子区域的所述模矩阵GA和角度矩阵Gθ,将所述梯度向量分解到预定的k个方向,计算所述k个方向的各方向上梯度向量的模的和,其中,该k个方向的梯度向量的模的和构成第一向量l;以及
将所述区域中全部子区域对应的各第一向量l组合成第一矩阵L,该第一矩阵L为所述区域的图像特征。
4.如附记3所述的方法,其中,针对各子区域的所述模矩阵GA和所述角度矩阵Gθ,将所述梯度向量分解到预定的k个方向,包括:
针对所述子区域内的各像素,当该像素的所述梯度向量对应的所述角度矩阵Gθ中的角度元素的值位于所述k个方向中的相邻两个方向的角度之间时,将该像素的所述梯度向量对应的所述模矩阵GA中的模元素的值分别分解到该相邻的两个方向。
5.如附记4所述的方法,其中,针对各子区域的所述模矩阵GA和所述角度矩阵Gθ,计算所述k个方向的各方向上梯度向量的模的和,包括:
针对所述k个方向中的各方向,将分解到该方向上的模元素的值相加,作为该方向上梯度向量的模的和。
6.一种基于卷积神经网络(CNN)的图像分类器的训练方法,包括:
针对训练图像中的预定的区域,根据所述区域的像素值提取所述区域的图像特征(feature extraction);以及
根据提取出的所述图像特征,对基于卷积神经网络(CNN)的图像分类器进行训练。
7.如附记6所述的方法,其中,
所述区域的图像特征是所述区域中像素值的梯度在预定的k个方向上的分布信息,k为自然数。
8.如附记6所述的方法,其中,提取所述区域的图像特征,包括:
将所述区域划分为多个子区域,分别计算各子区域的像素值的梯度向量在第一方向和第二方向的分量的梯度矩阵Gx和Gy,其中,所述第一方向沿所述图像的宽度方向,所述第二方向沿所述图像的高度方向;
对所述梯度矩阵Gx和Gy进行极坐标转换,以计算各所述子区域的像素值的梯度向量的模矩阵GA和角度矩阵Gθ;
针对各子区域的所述模矩阵GA和角度矩阵Gθ,将所述梯度向量分解到预定的k个方向,计算所述k个方向的各方向上梯度向量的模的和,其中,该k个方向的梯度向量的模的和构成第一向量l;以及
将所述区域中全部子区域对应的各第一向量l组合成第一矩阵L,该第一矩阵L为所述区域的图像特征。
9.如附记8所述的方法,其中,针对各子区域的所述模矩阵GA和所述角度矩阵Gθ,将所述梯度向量分解到预定的k个方向,包括:
针对所述子区域内的各像素,当该像素的所述梯度向量对应的所述角度矩阵Gθ中的角度元素的值位于所述k个方向中的相邻两个方向的角度之间时,将该像素的所述梯度向量对应的所述模矩阵GA中的模元素的值分别分解到该相邻的两个方向。
10.如附记9所述的方法,其中,针对各子区域的所述模矩阵GA和所述角度矩阵Gθ,计算所述k个方向的各方向上梯度向量的模的和,包括:
针对所述k个方向中的各方向,将分解到该方向上的模元素的值相加,作为该方向上梯度向量的模的和。
Claims (10)
1.一种检测目标物体的装置,其特征在于,所述装置包括:
第一提取单元,其提取图像中的包含被检测为目标物体的特征部位的区域;
第二提取单元,其根据所述区域的像素值提取所述区域的图像特征;以及
识别单元,其使用基于卷积神经网络的图像分类器,对提取出的所述图像特征进行分类,以识别所述区域中是否包含所述目标物体。
2.如权利要求1所述的装置,其中,
所述区域的图像特征是所述区域中像素值的梯度在预定的k个方向上的分布信息,k为自然数。
3.如权利要求1所述的装置,其中,所述第二提取单元提取所述区域的图像特征,包括:
将所述区域划分为多个子区域,分别计算各子区域的像素值的梯度向量在第一方向和第二方向的分量的梯度矩阵Gx和Gy,其中,所述第一方向沿所述图像的宽度方向,所述第二方向沿所述图像的高度方向;
对所述梯度矩阵Gx和Gy进行极坐标转换,以计算各所述子区域的像素值的梯度向量的模矩阵GA和角度矩阵Gθ;
针对各子区域的所述模矩阵GA和角度矩阵Gθ,将所述梯度向量分解到预定的k个方向,计算所述k个方向的各方向上梯度向量的模的和,其中,该k个方向的梯度向量的模的和构成第一向量l;以及
将所述区域中全部子区域对应的各第一向量l组合成第一矩阵L,该第一矩阵L为所述区域的图像特征。
4.如权利要求3所述的装置,其中,针对各子区域的所述模矩阵GA和所述角度矩阵Gθ,将所述梯度向量分解到预定的k个方向,包括:
针对所述子区域内的各像素,当该像素的所述梯度向量对应的所述角度矩阵Gθ中的角度元素的值位于所述k个方向中的相邻两个方向的角度之间时,将该像素的所述梯度向量对应的所述模矩阵GA中的模元素的值分别分解到该相邻的两个方向。
5.如权利要求4所述的装置,其中,针对各子区域的所述模矩阵GA和所述角度矩阵Gθ,计算所述k个方向的各方向上梯度向量的模的和,包括:
针对所述k个方向中的各方向,将分解到该方向上的模元素的值相加,作为该方向上梯度向量的模的和。
6.一种基于卷积神经网络的图像分类器的训练装置,包括:
第三提取单元,其针对训练图像中的预定的区域,根据所述区域的像素值提取所述区域的图像特征;以及
训练单元,其根据提取出的所述图像特征,对基于卷积神经网络的图像分类器进行训练。
7.如权利要求6所述的装置,其中,
所述区域的图像特征是所述区域中像素值的梯度在预定的k个方向上的分布信息,k为自然数。
8.如权利要求6所述的装置,其中,所述第三提取单元提取所述区域的图像特征,包括:
将所述区域划分为多个子区域,分别计算各子区域的像素值的梯度向量在第一方向和第二方向的分量的梯度矩阵Gx和Gy,其中,所述第一方向沿所述图像的宽度方向,所述第二方向沿所述图像的高度方向;
对所述梯度矩阵Gx和Gy进行极坐标转换,以计算各所述子区域的像素值的梯度向量的模矩阵GA和角度矩阵Gθ;
针对各子区域的所述模矩阵GA和角度矩阵Gθ,将所述梯度向量分解到预定的k个方向,计算所述k个方向的各方向上梯度向量的模的和,其中,该k个方向的梯度向量的模的和构成第一向量l;以及
将所述区域中全部子区域对应的各第一向量l组合成第一矩阵L,该第一矩阵L为所述区域的图像特征。
9.如权利要求8所述的装置,其中,针对各子区域的所述模矩阵GA和所述角度矩阵Gθ,将所述梯度向量分解到预定的k个方向,包括:
针对所述子区域内的各像素,当该像素的所述梯度向量对应的所述角度矩阵Gθ中的角度元素的值位于所述k个方向中的相邻两个方向的角度之间时,将该像素的所述梯度向量对应的所述模矩阵GA中的模元素的值分别分解到该相邻的两个方向。
10.一种电子设备,所述电子设备具有如权利要求1-5中任一项所述的检测目标物体的装置,和/或,所述电子设备具有如权利要求6-9中任一项所述的基于卷积神经网络的图像分类器的训练装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910525335.8A CN112101391A (zh) | 2019-06-18 | 2019-06-18 | 图像分类器的训练装置、检测目标物体的装置和电子设备 |
JP2020086808A JP2020205035A (ja) | 2019-06-18 | 2020-05-18 | 画像分類器の訓練装置、ターゲットを検出する装置及び電子機器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910525335.8A CN112101391A (zh) | 2019-06-18 | 2019-06-18 | 图像分类器的训练装置、检测目标物体的装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112101391A true CN112101391A (zh) | 2020-12-18 |
Family
ID=73749034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910525335.8A Pending CN112101391A (zh) | 2019-06-18 | 2019-06-18 | 图像分类器的训练装置、检测目标物体的装置和电子设备 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2020205035A (zh) |
CN (1) | CN112101391A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113516473B (zh) * | 2021-07-23 | 2023-03-10 | 西南交通大学 | 一种基于生物特征的区块链托管门限钱包方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304873A (zh) * | 2018-01-30 | 2018-07-20 | 深圳市国脉畅行科技股份有限公司 | 基于高分辨率光学卫星遥感影像的目标检测方法及其系统 |
CN109871730A (zh) * | 2017-12-05 | 2019-06-11 | 杭州海康威视数字技术股份有限公司 | 一种目标识别方法、装置及监控设备 |
CN109886307A (zh) * | 2019-01-24 | 2019-06-14 | 西安交通大学 | 一种基于卷积神经网络的图像检测方法及系统 |
-
2019
- 2019-06-18 CN CN201910525335.8A patent/CN112101391A/zh active Pending
-
2020
- 2020-05-18 JP JP2020086808A patent/JP2020205035A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871730A (zh) * | 2017-12-05 | 2019-06-11 | 杭州海康威视数字技术股份有限公司 | 一种目标识别方法、装置及监控设备 |
CN108304873A (zh) * | 2018-01-30 | 2018-07-20 | 深圳市国脉畅行科技股份有限公司 | 基于高分辨率光学卫星遥感影像的目标检测方法及其系统 |
CN109886307A (zh) * | 2019-01-24 | 2019-06-14 | 西安交通大学 | 一种基于卷积神经网络的图像检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP2020205035A (ja) | 2020-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ashtari et al. | An Iranian license plate recognition system based on color features | |
CN109711264B (zh) | 一种公交车道占道检测方法及装置 | |
Bauer et al. | FPGA-GPU architecture for kernel SVM pedestrian detection | |
CN109726717B (zh) | 一种车辆综合信息检测系统 | |
Mu et al. | Lane detection based on object segmentation and piecewise fitting | |
Chen et al. | Nighttime brake-light detection by Nakagami imaging | |
CN109670383B (zh) | 视频遮蔽区域选取方法、装置、电子设备及系统 | |
CN107301405A (zh) | 自然场景下的交通标志检测方法 | |
CN107480676B (zh) | 一种车辆颜色识别方法、装置和电子设备 | |
CN112613344B (zh) | 车辆占道检测方法、装置、计算机设备和可读存储介质 | |
CN111695373B (zh) | 斑马线的定位方法、系统、介质及设备 | |
CN108830131B (zh) | 基于深度学习的交通目标检测与测距方法 | |
Maldonado-Bascon et al. | Traffic sign recognition system for inventory purposes | |
Zhang et al. | Automatic detection of road traffic signs from natural scene images based on pixel vector and central projected shape feature | |
Kim et al. | Autonomous vehicle detection system using visible and infrared camera | |
Liu et al. | Multi-type road marking recognition using adaboost detection and extreme learning machine classification | |
CN111709377B (zh) | 特征提取方法、目标重识别方法、装置及电子设备 | |
Ingole et al. | Characters feature based Indian vehicle license plate detection and recognition | |
Lee et al. | Traffic light detection and recognition based on Haar-like features | |
CN105893970A (zh) | 基于亮度方差特征的夜间道路车辆检测方法 | |
Omidi et al. | An embedded deep learning-based package for traffic law enforcement | |
CN114638969A (zh) | 一种车身多属性检测方法、电子设备、存储介质 | |
CN112101391A (zh) | 图像分类器的训练装置、检测目标物体的装置和电子设备 | |
CN111695374B (zh) | 监控视角中斑马线区域的分割方法、系统、介质及设备 | |
CN112101139A (zh) | 人形检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201218 |