CN107408196B

CN107408196B - 从图像中提取特征的方法

Info

Publication number: CN107408196B
Application number: CN201580069227.4A
Authority: CN
Inventors: 伊利亚·罗曼年科
Original assignee: Apical Ltd
Current assignee: ARM
Priority date: 2014-12-19
Filing date: 2015-12-18
Publication date: 2021-03-19
Anticipated expiration: 2035-12-18
Also published as: GB201522405D0; US9892517B2; WO2016097758A1; GB2535613B; CN107408196A; GB2535613A; US20160180541A1

Abstract

本发明涉及基于边缘提取的特征提取技术。它可用于计算机视觉系统，包括图像/面部/对象识别系统、场景解释、分类和字幕系统。使用传感器中的噪声的模型或分布图来改善在来自传感器的图像上的特征提取或对象检测。

Description

从图像中提取特征的方法

本发明的背景技术

1.技术领域

本发明的领域涉及特征提取(例如边缘检测)的方法。该方法可用于计算机视觉系统，包括图像/面部/对象检测/识别系统、场景解释、分类和字幕系统。

2.技术背景

大多数现有的对象检测算法是基于机器学习分类器，它们依次使用从图像中提取的特征。从根本上说，存在两种用于增强对象检测算法的结果的方法。第一种方法是对分类方法的增强，其中文献中已经提出了许多技术(线性分类器、神经网络等)。第二种方法是对所使用的特征的增强。将其工作聚焦于对从图像中提取的特征的增强上的研究者主要集中于找到描述图像内容的离散原语的集合。特征提取的过程通常与对图像数据的滤波和对滤波器响应的归一化有关。然而，在大多数特征提取技术中存在一个常见的缺陷，即，在图像特征的归一化和累积期间，做出以下假设：产生较强响应的滤波器表示较强的图像特征。在实践中，通常使用作为图像处理流水线的产品的数字视频或摄影图像进行研究，图像处理流水线用未知的设置处理图像传感器数据。如之前所讨论的，这样的处理可以显着地改变图像数据，破坏图像的各部分之间的线性依赖性，并且使不同图像元素的外观失衡。

本发明通过在边缘检测期间考虑传感器特性来提供针对更加鲁棒的边缘检测方法的解决方案。该方法可用于特征提取或特征检测。

3.相关技术的讨论

目前对象检测和分类领域中正在进行的研究非常多。有许多对象检测技术，其中HOG-SVM和CNN被广泛使用。

最成功的对象检测技术之一被称为方向梯度直方图-支持向量机(HOG-SVM)，如[1-5]中所述。对象检测算法产生的结果正在不断改善。计算方向梯度直方图的第一步是边缘检测。标准方法呈现在[6-10]中。

卷积神经网络(CNN)是一种前馈人工神经网络(ANN)，其中个体神经元按照它们对视野中的重叠区域进行响应的方式来平铺。当用于图像识别时，卷积神经网络(CNN)由多层小神经元集合组成，小神经元集合看到输入图像的小部分，称为接收域。然后将这些集合的结果平铺，以使得它们重叠以获得对原始图像的更好的表示；这对每个这样的层都进行重复。这些层形成分层系统，其中第一层寻找较低级别的特征；这是通过滤波器和图像之间的卷积来实现的。

假设对象检测算法将在记录的视频或静止图像上运行的现有方法存在许多问题。首先，对象检测通常需要图像处理系统来产生质量RGB图像或视频序列，这在许多情况下意味着增加的系统复杂度。其次，对象检测算法假设无关于图像源的任何知识，因为图像处理设置是未知的。因此，对象检测算法的性能在低光条件下可能会快速恶化。

发明内容

本发明是一种从图像中提取特征的方法，包括以下处理器或电路实现的步骤：

(a)从传感器提供数字图像；

(b)使用传感器中的噪声的模型或分布图(profile)来改善在图像上的特征提取或对象检测。

可选实现方式特征包括以下各项中的任何一项或多项：

·特征是边缘。

·特征是局部二进制模式。

·传感器噪声的模型或分布图用于对特征提取响应进行归一化。

·图像的定义区域中的传感器噪声用于对特征提取响应进行归一化。

·特征提取或对象检测是基于边缘检测的。

·对于输入图像的每个像素，计算针对方向的边缘响应，并且通过考虑噪声方差来对针对方向的边缘响应进行归一化。

·该方法在系统中实现，该系统不是图像处理流水线的一部分、不使用图像处理流水线、或不在图像处理流水线的下游。

·该方法在具有线性数据的RAW域中操作。

·通过将滤波器核与图像的亮度进行卷积来计算边缘响应。

·滤波器是Gabor滤波器或CNN滤波器。

·针对图像中的每个像素(x，y)计算对针对方向的边缘响应∝的归一化：

其中，根据下述等式来计算响应E^∝(x，y)：

·输入图像是RAW图像传感器数据。

·图像边缘响应被馈送到诸如SVM之类的线性分类器或CNN的分类层中。

·实时实现该方法。

·该方法作为计算机视觉系统运行，适用于姿势检测、人检测、对象检测。

·该方法用于以下各项之一：智能手机；计算机视觉系统；对象识别系统；人体检测系统；面部识别系统；场景解释系统；图像分类系统；图像字幕系统；自主车辆电脑视觉系统；机器人计算机视觉系统。

·在诸如硬件块之类的嵌入式硬件中实现该方法。

根据本发明的另一方面，提供一种图像处理硬件，其被配置为：从传感器接收数字图像，并且使用传感器中的噪声的模型或分布图来改善图像上的特征提取或对象检测。

根据本发明的另一方面，提供了一种包括图像处理硬件的设备，其被配置为：从传感器接收数字图像，并且使用传感器中的噪声的模型或分布图来改善图像上的特征提取或对象检测。

设备可以是以下各项或可以包括以下各项之一：智能手机；计算机视觉系统；对象识别系统；人体检测系统；面部识别系统；场景解释系统；图像分类系统；图像字幕系统；自主车辆电脑视觉系统；机器人计算机视觉系统。

附图说明

现在将仅通过示例的方式参考以下附图来描述本发明的上述各方面和其它方面，其中：

图1表示针对特定传感器的相应噪声曲线。

图2示出了针对特定传感器在实验上测量的噪声分布图。

图3示出了传统图像处理流水线的示例。

图4示出了所提出的图像处理流水线的组织的块方案的示例。

图5示出了90度方向的Gabor函数的图示。

具体实施方式

传感器噪声建模可用于边缘检测，以改善对象检测算法的性能。

噪声特性

现在讨论添加到图像的噪声的影响。先前已经通过其它研究进行了研究，加性噪声模型通常适用于描述图像传感器的噪声。已经证明，实际的传感器噪声非常适合高斯和泊松随机过程模型。表示由传感器采样的实际场景图像而无添加到图像的噪声的图像数据被定义为I_p(x，y，t)。理想的图像数据I_p(x，y，t)是坐标x、y和t的函数。为了等式的紧凑起见，二维坐标x、y表示为v，因此理想的图像数据被定义为I_p(v，t)。假设不同性质的噪声：源自模拟电路并添加到图像数据的模拟噪声n_a(v，t)；源自多路复用器和传感器缺陷因而不是时间的函数的固定模式噪声(FPN)n_fpn(v)；和光子噪声n_q(I_p(v，t))，光子噪声n_q(I_p(v，t))也称为添加到图像数据I_p(v，t)的散粒噪声，其在时间t处捕获并且由传感器采样，如下所示：

I_s(v，t)＝I_p(v，t)+n_a(v，t)+n_fpn(v)+n_q(I_p(v，t)) (1)

假设噪声具有随机性质，并且可以由零均值随机过程表示，因此可以通过对数据和噪声进行平均来去除噪声。期望的是信号和噪声不相关，并且图像数据由一些规则图案表示，以使得可以找到图像的不同部分之间的图像数据的相关函数。如果数据和噪声不相关，则对核进行平均的选择应该允许我们在降低噪声量的同时保留细节。

通常由模拟电路产生的高斯噪声n_a(v，t)具有热性质，并且可以通过零均值高斯随机过程来近似。模拟噪声不依赖于光的特性，并且被模拟传感器组件添加到有用的图像数据。具有标准偏差σ_a的高斯分布用于表征模拟噪声。

此外，传感器缺陷会影响产生的噪音的等级。在许多传感器中发现的常见传感器缺陷即是行、列和固定模式噪声。可以使用高斯噪声分布来表征行和列噪声，在每个维度x和y中应用相应的标准偏差σ_ax和σ_ay。可以通过使用在时间上固定的高斯噪声分布σ_fpn来表征固定模式噪声。传感器缺陷可以被认为是对模拟噪声n_a(v，t)的补充。

存在于典型成像传感器中的另一噪声源是由于传感器捕获的较大量的光子而引起的光子噪声n_q(I_p(v，t))，光子噪声n_q(I_p(v，t))随光等级增加而增加。该噪声源可以被描述为具有标准偏差σ_q的泊松分布的随机过程。假设

这实际上意味着该信号比噪声更强。根据该假设，可以将光子噪声置为

所提出的系统架构可以从传感器噪声特性的知识中受益。在[11-14]中研究了传感器噪声建模，并且针对传感器噪声的标准偏差可以定义如下：

其中Imax是由传感器捕获的最大亮度等级。传感器噪声的标准偏差与由传感器捕获的光亮度的关系按以下不同的模拟增益值来计算：1、4和8倍。我们实验中使用的传感器的灵敏度在模拟增益1处对应于ISO100、在增益4处对应于ISO400、以及在增益8处对应于ISO800。在图1中表示针对传感器AS3372(分辨率：2M，捕获速率60fps，数据位：12，传感器有源区域尺寸4.6x3.4mm，像素尺寸2.7u，最大S/N比：59dB)的相应噪声曲线。

此外，等式(2)的精度可以通过散点图和图2所示的最佳拟合图来示出。

在图2中，红色、绿色和蓝色点(显示为正方形、圆形、三角形)表示针对在不同光亮度处测量的相应像素颜色的噪声方差。上面的图通常被称为传感器噪声分布图。图2中呈现的噪声分布图是针对传感器AS3372在ISO100处在实验上测量的。表征传感器的噪声特性并且用于等式(2)中的

和

的值可以在给定的ISO设置下提供对每个像素的噪声的估计。

以前尚未研究过在传感器数据上直接运行对象检测算法和使用传感器特性来提高对象检测质量的可能性。

边缘检测

在Bayer RAW数据域中提取了由方向梯度直方图使用的边缘特征，而传感器噪声模型用于执行滤波器的响应归一化。与传统的HOG特征提取方法相比，实验已经证明边缘特征提取的质量可以得到改善。

边缘检测归一化技术提高了对象检测的可靠性。该算法可以直接在传感器数据上执行边缘检测，从而允许在相机上实现对象检测，而不需要图像处理流水线。以往研究开发的方法和算法用于提高对象检测系统中特征提取功能块的质量。所提出的解决方案的一个重要结果在于所提出的对象检测系统不需要图像处理流水线。这使得整个系统更紧凑，并且允许构建不产生视频的对象检测摄像机。

所提出的系统可以用于产生作为硬件块实现的嵌入式对象检测系统。

图像处理流水线

由传感器捕获的图像数据通常由多个功能单元处理，这些功能单元被布置在连续处理块链中，在文献中被命名为图像处理流水线(IPP)。处理的每个阶段由其对应的块执行。传统IPP的一个示例如图3所示。

在上述流水线中，可以看到在Bayer RAW数据空间中执行一些处理阶段，而在RGB图像数据上执行一些其它处理。重要的是，从去马赛克块开始，通过非线性算法执行对数据的处理，使得图像亮度等级非线性地分布，从而阻碍图像中的不同区域之间的线性依赖性。设计图像处理块在线性Bayer RAW数据空间中工作，以便从数据的可预测性质中受益，使得系统能够执行有效的传感器噪声建模。通过为由算法的逻辑做出的任何决策提供非常可靠的参考，对每个图像区域的噪声特性的估计可以大大提高大多数图像处理算法的可靠性。然而，Bayer RAW数据空间中的处理将强加额外的约束，并且在算法设计中造成一些困难。我们为可实际实现的算法提出可靠、稳健可行的解决方案。

在图4中呈现了所提出的IPP组织的框图方案。

一种利用方向梯度直方图的特征提取模型

计算方向梯度直方图的第一步是边缘检测。与标准方法相反，边缘核将应用于线性数据，并且输出将根据预期的噪声进行归一化。我们的实验中使用的是具有6个不同方向的Gabor边缘核。在图5中呈现了针对90度方向的Gabor函数。

将根据等式(3)来计算针对一个边缘方向的响应：

其中K(i，k)是Gabor函数的空间核。假设每个坐标处的图像I(x，y)的局部细节以不同的亮度照亮，则对于图像的亮的部分和暗的部分，响应E^∝(x，y)将显著不同。然而，在所提出的对象检测系统中，感兴趣的是对检测到的边缘的可靠性的一些测量。由于在线性RAW数据空间中计算边缘响应，所以可以通过图像中具有坐标x、y的每个像素处的噪声的期望来对响应进行归一化。

所提出的特征归一化方法

参照等式(2)，可以匹配针对每个图像区域I(x，y)的噪声方差σ(x，y)的期望。此外，应该考虑边缘检测核

和

被构造为高斯函数

和sin(x)与cos(x)的函数的线性组合。因此，根据以下等式(4)执行对边缘响应的归一化：

为了比较的目的，根据公式(5)计算边缘响应

其中，I_g(x，y)是通过应用非线性标准伽玛函数sRGB获得的I(x，y)的非线性表示。

和

用于对象检测算法的性能的比较。所提出的边缘响应归一化方法证明了在非标准条件下操作的对象检测的改善的性能，例如低光，其对于具有非标准噪声特性的传感器也是重要的。重要的是还要注意，所提出的方案使对象检测独立于图像处理流水线的设置，这保证嵌入式和移动设备中的最佳性能。

实验结果

在所进行的实验中，使用了具有Bayer图案的RGB传感器。传感器通常用于安全、汽车和计算机视觉系统。实验的设置由定制的相机系统组成，允许以全高清分辨率和每秒25帧的Bayer RAW格式的视频捕获。使用牢固安装的相机系统在室内条件下录制视频。训练来检测人的计算机视觉算法被用于对象检测。在一种情况下，传统地进行特征提取，即没有关于图像传感器的任何知识。在第二种情况下，提取的特征通过传感器噪声方差期望来进行局部归一化。为了评估所提出的方案的有效性，进行了许多实验，在不同的照明条件下捕获视频序列。如预期的那样，检测率随着图像内的噪声增加而恶化。另一个观察结果是，在考虑了传感器噪声特性的系统中检测率较高。

对检测结果的统计呈现在表1中。按以下两类来执行人检测：头部和上身(UB)。使用三个分类器检测头部，这三个分类器被训练用于三种不同的姿势。使用五个分类器检测上身，这五个分类器分别被训练五种不同的姿势。强检测是指大于0.4的正分类器响应，并且弱分类器响应是指0.1和0.4之间的正分类器响应。人检测是指来自两类中的任一类的组合响应。正式检测率被计算为强检测数目除以可能的检测数目。如果人类对象在任一类中具有强检测，则认为检测到人类对象。正式的误报率是基于错误分类的强对象与要检测的对象总数的比率。

表1：检测率统计数据。

可以看出，根据实现本发明的传感器噪声模型的归一化显著提高了检测率并降低了误报率，这在较高的ISO设置下更为突出。

与来自标准边缘检测器的响应相比，来自边缘检测器的响应在归一化后更干净，该标准边缘检测器在伽马校正数据上运行。在存在噪声的情况下改进的系统响应改善了对象检测的结果，其结果呈现在表1中。通过使用降噪技术可实现类似的效果是公平的陈述。然而，通过执行传感器噪声建模来实现来自边缘检测器的无噪声输出是提高系统性能的更有效的方式。

结论

所提出的边缘检测器响应归一化方法成功用于以硬件实现的对象检测引擎中。在下面的表2中呈现了在赛灵思Zynq 7045FPGA中实现的对象检测引擎的细节：

资源	利用	可用	利用百分比
				FF	151193	437200	34.6
LUT	103865	218600	47.5
				存储器LUT	259	70400	0.4
BRAM	197	545	36.1
				DSP48	734	900	81.6
BUFG	5	32	15.6
				MMCM	0	8	0.0

表2：对象检测系统资源利用率

与其它已知系统相比，所提出的边缘检测改进实现了更好的对象检测性能。所提出的边缘检测器响应归一化方法还允许在传感器RAW数据上运行对象检测引擎。可以注意到，所提出的方法可以允许对象检测系统的实现，而不涉及IPP，这降低了系统的整体成本，并且在为了隐私原因不需要来自对象检测系统的实际图像时可能是有益的。

根据模型化的传感器噪声的边缘滤波器输出归一化的方法也可以被广义化，并用于改善对局部二进制模式特征提取算法的响应。局部二进制模式(LBP)的已知问题是它们对噪声的弹性弱于边缘分割方法。传感器噪声的建模也可用于提高局部模式检测的可靠性，从而提高机器视觉算法的质量。

本发明可能产生许多实际的算法实现方式，使得包含这些算法的产品更具竞争力并且实际上具有更好的质量。

应用范围广泛，并且包括但不限于：

·智能手机

·计算机视觉系统

·对象识别系统

·人体检测系统

·面部识别系统

·场景解释系统

·图像分类系统

·图像字幕系统

·自动车辆计算机视觉系统

·机器人计算机视觉系统

参考文件：

1.Antoni Buades,Bartomeu Coll和Jean-Michel Morel,“Nonlocal image andmovie denoising”计算机视觉国际期刊Vol.76,2号,123-139,(2008).

2.Ce Liu,William T.Freeman“A High-Quality Video Denoising Algorithmbased on Reliable Motion Estimation”,欧洲计算机视觉国际会议(2010).

3.Ren Ying,Chua Chin-Seng,Ho Yeong-Khing,“Statistical backgroundmodeling for non-stationary camera”.模式识别快报,24,183-196.(2002).

4.Sheikh Y.,Shah M.,“Bayesian modeling of dynamic scenes for objectdetection”.IEEE模式分析和机器智能汇刊,27(11),1778-92,(2005).

5.I.V.Romanenko,E.A.Edirisinghe,D.Larkin,"Block matching noisereduction method for photographic images applied in Bayer RAW domain andoptimized for real-time implementation",SPIE Vol.8437,84370F(2012).

6.Moctezuma,D.；Conde,C.；de Diego,I.M.；Cabello,E.,"Person detection insurveillance environment with HoGG:Gabor filters and Histogram of OrientedGradient,"计算机视觉工作室(ICCV Workshops),2011IEEE国际会议,vol.,no.,pp.1793,1800,6-13Nov.(2011).

7.N.Dalal,B.Triggs,“Histograms of oriented gradients for humandetection”,in:CVPR,pp.886–893,(2005).

8.W.Jiang,K.-M.Lam,T.Shen,“Efficient edge detection using simplifiedGabor wavelets”,IEEE Trans.Syst.Man Cybern.Part B 39(4)1036–1047,(2009).

9.V.Kruger,G.Sommer,“Gabor wavelet networks for efficient head poseestimation”,图像视觉版本.20(9–10)665–672,(2002).

10.Q.Zhu,M.-C.Yeh,K.-T.Cheng,S.Avidan,“Fast human detection using acascade of histograms of oriented gradients”,in:CVPR,pp.1491–1498,(2006).

11.Foi A.M.,Trimeche V.,Katkovnik,K.Egiazarian,"Practical Poissonian-Gaussian noise modeling and fitting for single image raw-data",IEEE图像处理汇刊Vol.17,(2008).

12.Liu,C.,W.T.Freeman,R.Szeliski,and S.B.Kang,“Noise estimation froma single image”,Proc.IEEE计算机视觉和模式识别会议,CVPR 2006,pp.901-908,(2006).

13.Blanksby,A.J.,M.J.Loinaz,D.A.Inglis,and B.D.Ackland,“Noiseperformance of a color CMOS photogate image sensor”,IEEE国际电子元件会议97Tech.Dig.,pp.205-208,1997.

14.Vladimir S.Petrovic,Costas S.Xydeas,“Sensor noise effects onsignal-level image fusion performance”,Information Fusion-INFFUS,vol.4,no.3,pp.167-183,2003.

注意

应当理解，上述参考的布置仅仅是对本发明的原理的应用的说明。在不脱离本发明的精神和范围的情况下，可以设计出许多修改和替代布置。虽然已经结合目前被认为是本发明最实际和优选的(一个或多个)示例的具体特征和细节在附图中示出并充分描述了本发明，但是对于本领域普通技术人员来说显而易见的是，在不脱离本文所阐述的本发明的原理和概念的情况下，可以进行许多修改。

Claims

1.一种从图像中提取特征的方法，所述方法包括在处理器或电路中执行以下步骤：

从传感器接收数字图像；

对所述数字图像去马赛克；

在对所述数字图像去马赛克之前，从所述数字图像中获得输入图像以供特征提取；以及

在所述输入图像上执行特征提取，其中，执行特征提取的步骤包括：

使用所述传感器中的噪声的模型或分布图来对特征提取算法的响应进行归一化；以及

对所述输入图像应用所述特征提取算法。

2.如权利要求1所述的方法，其中，所述特征提取算法适用于提取特征，并且所述特征是边缘。

3.如权利要求1所述的方法，其中，所述特征提取算法适用于提取特征，并且所述特征是局部二进制模式。

4.如权利要求1所述的方法，其中，所述图像的定义区域中的传感器噪声的方差用于对所述特征提取算法的响应进行归一化。

5.如权利要求4所述的方法，其中，特征提取的步骤包括：对于所述输入图像的每个像素，计算针对方向的边缘响应，并且通过考虑所述传感器噪声的方差来对针对所述方向的边缘响应进行归一化。

6.如权利要求5所述的方法，其中，通过将滤波器核与所述图像的亮度进行卷积来计算所述边缘响应。

7.如权利要求6所述的方法，其中，所述滤波器核是Gabor滤波器核或卷积神经网络滤波器核。

8.如权利要求5所述的方法，其中，针对所述图像中的每个像素(x，y)计算对针对方向∝的边缘响应的归一化：

其中，根据下述等式来计算响应E^∝(x，y)：

其中，I是图像区域，σ是所述传感器中的噪声的方差，G_K是高斯函数，K(i，k)是Gabor函数的空间核，并且

和

是边缘检测核。

9.如权利要求5所述的方法，其中，所述边缘响应被馈送到线性分类器或卷积神经网络的分类层中，该线性分类器例如是支持向量机。

10.如权利要求1所述的方法，其中，所述输入图像包括RAW图像传感器数据。

11.如权利要求1所述的方法，其中，实时实现所述方法。

12.如权利要求1至11中任一项所述的方法，其中，在嵌入式硬件中实现所述方法，该嵌入式硬件例如是硬件块。

13.一种图像处理硬件，被配置为执行以下操作：

从传感器接收数字图像；

对所述数字图像去马赛克；

对所述输入图像应用所述特征提取算法。

14.一种设备，包括如权利要求13所述的图像处理硬件。