CN103295031A

CN103295031A - 一种基于正则风险最小化的图像目标计数方法

Info

Publication number: CN103295031A
Application number: CN201310128763XA
Authority: CN
Inventors: 于慧敏; 吴鹏洲
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2013-04-15
Filing date: 2013-04-15
Publication date: 2013-09-11
Anticipated expiration: 2033-04-15
Also published as: CN103295031B

Abstract

本发明实施例公开了一种基于正则风险最小化的图像目标计数方法，包括以下步骤：使用的每张训练图像设置有相应的对目标进行人工标注的标记点图像，标记点图像以像素点标记的方式给出每个目标的位置；对训练图像定义密度函数；根据密度函数的定义，将训练图像对应的标记点图像与一个高斯模板卷积即得到真实密度函数；由密度函数的定义构造密度函数的参数化模型；由正则化风险最小化求取密度函数模型的参数w；将正则化风险最小化问题转化为一个线性规划问题，求得密度函数模型的参数w。本发明以一种简单的模型来描述空间信息，得到一个可以适用于不同密集程度的群体，且可以给出图像中任意区域内的目标个数的计数方法。

Description

一种基于正则风险最小化的图像目标计数方法

技术领域

本发明属于图像处理技术领域，特别地涉及一种基于正则风险最小化的图像目标计数方法。

背景技术

目标计数旨在得到某一场景中目标数目的估计。目标计数具有广泛的应用，如估计监控视频中的人群密度以对高密度情况进行警报，预防事故；估计血检、尿检图片中的细胞个数以诊断被试者是否患有疾病等。该领域目前的主要难点在于解决高密度群体和复杂场景下的目标计数。

现有的目标计数方法主要可分为两类：基于目标检测的方法和基于回归分析的方法。基于目标检测的方法需要检测出图像中的每个目标，比如利用哈尔Haar小波变换寻找具有类似人头边缘的物体，确定场景中的个体数目。这类方法的问题在于无法处理遮挡、黏连等带来的检测困难，不适用于高密度群体和复杂场景。基于回归分析的方法旨在找出某个图像区域的全局特征描述与该区域中的目标个数之间的关系。这种关系可以通过各种机器学习方法得到。由于不同密度群体的特征差异较大，根据群体密度的不同，常采用不同的特征描述，这又将此类方法分为基于像素的方法和基于纹理的方法。对于中低密度的群体，由于前景像素的面积与目标个数成近似的线性关系，多采用基于像素的方法，利用减背景、马尔科夫随机场和光流法等分割出前景像素，然后采用最小二乘拟合、卡尔曼滤波器和神经网络等得到模型的参数。但是对于高密度群体，由于遮挡、黏连等问题，前景像素的面积与目标个数不再具有可靠的相关性，这时多采用基于纹理的方法，如采用灰度共生矩阵及其改进、小波分解系数矩阵的能量、切比雪夫Chebyshev矩等描述纹理特征，利用神经网络、支持向量机 (Support Vector Machine，SVM)等学习得到特征描述到目标个数的映射关系。而在考虑中高密度群体时，现有方法基本都无法得到目标个数的精确估计，而是估计目标密度的等级(通常将密度分为由低到高的5个等级)，即密度估计(density estimation)。基于回归分析的方法虽然避免了目标检测的困难，但是仍很难找到一种普遍适用于不同密度群体的特征描述和学习方法。

由于现有方法使用的训练图像仅仅是已知目标个数或密度等级的图像集，而目标在图像上的空间分布是未知的，所以经过学习后，对于一张输入图像只能得到整张图像的目标个数或密度等级，而无法得到该图像中任意区域内的目标个数。最后，由于神经网络、支持向量机等方法的计算复杂较高，基本还无法做到实时处理。

发明内容

为解决上述问题，本发明的目的在于提供一种基于正则风险最小化的图像目标计数方法，将目标位置标注加入到训练集中，使用监督式学习框架，直接利用正则化风险最小化原理，通过各种简化最后归结为一个线性规划问题，以一种简单的模型来描述空间信息，得到一个可以适用于不同密集程度的群体，且可以给出图像中任意区域内的目标个数的计数方法。

为实现上述目的，本发明的技术方案为：

一种基于正则风险最小化的图像目标计数方法，包括以下步骤：

S10，使用的每张训练图像设置有相应的对目标进行人工标注的标记点图像，所述标记点图像以像素点标记的方式给出每个目标的位置；

S20，对所述训练图像定义密度函数，其中所述密度函数为定义在图像像素集上的实值函数，且所述密度函数在任意图像区域上的积分为该区域内的目标个数；

S30，根据密度函数的定义，将训练图像对应的标记点图像与一个高斯模板卷积即得到真实密度函数；

S40，由密度函数的定义构造密度函数的参数化模型，进行图像分割后，对于前景像素点将对应的特征向量做线性变换得到一个正实数，对于背景像素点直接赋零即得到该点的密度函数值；

S50，由正则化风险最小化求取密度函数模型的参数w：

参数w为与特征向量x_p维数相同的变换向量，其中项

称为复杂度惩罚项或正则化惩罚项，

为参数w的复杂度测度，λ为正则化常量，R_emp(w)为经验风险，近似地描述了使用参数估计w密度函数时的误差的期望；

S60，将正则化风险最小化问题转化为一个线性规划问题，求得密度函数模型的参数w。确定了密度函数的模型，可以估计图像上任意区域中的目标个数。

优选地，S20中密度函数的定义为，对训练图像I，有密度函数

将任意图像像素点映射至一个实数(R是实数集的符号)，满足：

&ForAll; S &Subset; I, \underset{p &Element; S}{Σ} F (p) = c

其中S为训练图像I的子区域，p为像素点，c为S内的目标个数。

优选地，S30中真实密度函数为：

P∈I

其中

为均值取在目标点P处，协方差矩阵为σ²I的归一化高斯核函数。

优选地，S40中密度函数参数化模型为：

F (p | w) = \{\begin{matrix} w^{T} x_{p}, & p &Element; T \\ 0, & otherwise \end{matrix}

其中x_p为像素点p的特征向量，其中T＝T₁∪T₂∪...∪T_C为所有目标区域的总和，T_i，i＝l，...C为第i个目标区域。

优选地，特征向量x_p为对每个像素点提取尺度不变特征变换描述子SIFT descriptor，用户可以设置是否分割图像，如果是，则分割图像后对目标像素提取稠密尺度不变特征变换描述于DSIFT特征；如果否，则对整张图像的所有像素提取DSIFT特征。

优选地，对特征向量x_p进行特征降维：选取一些图片，提取DSIFT特征，对得到的特征集进行K均值聚类，保存K个聚类中心，作为一个映射码表，之后的训练和预测中，以其所属的类来表示每个SIFT特征向量x_p：

x_{p} &RightArrow; \underset{k}{\arg \min} | | x_{p} - μ_{k} | |, k = 1, . . ., K .

优选地，S50中取为w的l₁范数，

优选地，S50中引入了两个密度函数的差异度量：

将每张训练图像上真实密度函数与密度函数的参数模型差异度的平均作为经验风险：

此时训练样本为每张训练图像所对应的真实密度函数。

优选地，S50中使用MESA距离作为密度函数的差异度量，MESA距离定义为，两个密度函数的积分之差的绝对值在图像的所有矩形子区域B上的最大值：

其中

为图像I的所有矩形子区域B的集合。

优选地，S60中求解的线性规划问题为：

\min_{w, ξ_{1}, . . ., ξ_{N}} ({λe}^{T} \cdot w + Σ_{i = 1}^{N} ξ_{i})

最小化括号中的表达式，并使下面条件得到满足：

w≥0

{ξ_{i} &GreaterEqual; \underset{p &Element; B \cap T_{i}}{Σ} (F_{i}^{0} (p) - w^{T} x_{p}),

ξ_{i} &GreaterEqual; \underset{p &Element; B \cap T_{i}}{Σ} (w^{T} x_{p} - F_{i}^{0} (p))}_{i &Element; {1, . . ., N}, B {&Element; B}_{i}}

其中ξ_i，i＝l，...，N为松弛变量。

与现有技术相比，本发明的有益效果如下：

(1)在目标计数问题中加入了目标位置信息，并且引入了密度函数的概念，对目标位置信息进行简单有效的描述；

(2)直接利用正则化风险最小化原理，且通过各种简化最后归结为一个线性规划问题，计算复杂度低，能很快地得到计数结果；

(3)利用图像分割提高估计精度和处理速度；

(4)由于加入了目标位置信息，能给出图像中任意区域内的目标个数，而不仅是整张图像上的目标个数；

(5)对于高密度群体，也能给出目标计数，而不仅是密度等级估计。

附图说明

图1为本发明实施例的基于正则风险最小化的图像目标计数方法的步骤流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参见图1，所示为本发明实施例的一种基于正则风险最小化的图像目标计数方法的步骤流程图，包括以下步骤：

S10，使用的每张训练图像设置有相应的对目标进行人工标注的标记点图像，标记点图像以像素点标记的方式给出每个目标的位置。

S20，对训练图像定义密度函数，其中密度函数为定义在图像像素集上的实值函数，且密度函数在任意图像区域上的积分为该区域内的目标个数。

密度函数的定义为，对训练图像I，有密度函数

&ForAll; S &Subset; I, \underset{p &Element; S}{Σ} F (p) = c

真实密度函数为：

其中

密度函数参数化模型为：

F (p | w) = \{\begin{matrix} w^{T} x_{p}, & p &Element; T \\ 0, & otherwise \end{matrix}

其中x_p为像素点p的特征向量，其中T＝T₁∪T₂∪...∪T_C为所有目标区域的总和，T_i，i＝1，...C为第i个目标区域。

尺度不变特征变换描述子(scale invariant feature transform descriptor，SIFT descriptor)具有对形变、光照和对比度变化的不变性，又能保留空间信息，因而本发明实施例对每个像素点提取SIFT描述子作为每个像素点的特征x_p(即DSIFT描述子(Dense SIFT descriptor，稠密尺度不变特征变换描述子))。用户可以设置是否分割图像，如果是，则分割图像后对目标像素提取DSIFT特征；如果否，则对整张图像的所有像素提取DSIFT特征。

进一步的，由于SIFT描述子为一个128维特征向量，又需要对每个像素点提取，这将导致在训练和预测中遇到很大的内存瓶颈。采用如下方法进行特征降维：选取一些图片，提取DSIFT特征，对得到的特征集进行K均值聚类(K-means clustering)，保存K个聚类中心，作为一个映射码表。之后的训练和预测中，以其所属的类来表示每个SIFT特征向量x_p：

x_{p} &RightArrow; \underset{k}{\arg \min} | | x_{p} - μ_{k} | |, k = 1, . . ., K

S50，由正则化风险最小化求取密度函数模型的参数w：

参数w为与特征向量x_p维数相同的变换向量，其中项

称为复杂度惩罚项或正则化惩罚项，

为参数w的复杂度测度，λ为正则化常量，控制正则化强度，可通过实验选取。R_emp(w)为经验风险，近似地描述了使用参数估计w密度函数时的误差的期望。

具体应用实例中，

取为w的l₁范数，

为了计算经验风险R_emp(w)，引入了两个密度函数的差异度量：

此时训练样本为每张训练图像所对应的真实密度函数。使用MESA距离作为密度函数的差异度量，MESA(Maximum Excess over Sub Arrays，子数组最大超量)距离定义为，两个密度函数的积分之差的绝对值在图像的所有矩形子区域B上的最大值：

其中

为图像I的所有矩形子区域B的集合。

求解的线性规划问题为：

\min_{w, ξ_{1}, . . ., ξ_{N}} ({λe}^{T} \cdot w + Σ_{i = 1}^{N} ξ_{i})

最小化括号中的表达式，并使下面条件得到满足：

w≥0

{ξ_{i} &GreaterEqual; \underset{p &Element; B \cap T_{i}}{Σ} (F_{i}^{0} (p) - w^{T} x_{p}),

ξ_{i} &GreaterEqual; \underset{p &Element; B \cap T_{i}}{Σ} (w^{T} x_{p} - F_{i}^{0} (p))}_{i &Element; {1, . . ., N}, B {&Element; B}_{i}}

其中ξ_i，i＝l，...，N为松弛变量。

该问题的约束集中对应所有可能的矩形子区域B有无限多个约束，导致上述线性规划问题无法直接求解。可以使用类似于割平面方法(cutting-plane method)的迭代过程解决这个问题，每次迭代都只取约束集的一个子集为活动约束(active constraint)求解，并在迭代过程中逐步增加约束，最终得到收敛解。在首次迭代，随机取一些训练图片再在这些图片上取一些随机的矩形子区域，以这些子区域对应的约束求解，这是一个标准的线性规划问题。设每次迭代得到解w^j，

已有w^j，可以计算并得到对应的最大子数组，即为一个矩形子区域

并判断是否满足

其中0＜ε＜＜1，若不满足，则将

对应的约束加入活动约束集中，进入下一次迭代。如果满足，则说明已经求得了问题的收敛解，迭代结束。ε越小，得到的解越接近真实解，但需要的迭代次数也越多。

通过以上技术方案，对每张测试图像同样做预处理后，带入训练模块求得的模型参数，就可得到测试图像密度函数的估计。而对密度函数的估计在任意图像区域上积分，就得到该区域上目标数目的估计。对于高密度群体，也能给出目标计数，而不仅是密度等级估计。避免了现有技术中，对于高密度群体，只能给出密度等级估计，而不能给出目标计数的问题。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于正则风险最小化的图像目标计数方法，其特征在于，包括以下步骤：

S50，由正则化风险最小化求取密度函数模型的参数w：

参数w为与特征向量x_p维数相同的变换向量，其中项

称为复杂度惩罚项或正则化惩罚项，

S60，将正则化风险最小化问题转化为一个线性规划问题，求得密度函数模型的参数w，确定了密度函数的模型，可以估计图像上任意区域中的目标个数。

2.根据权利要求1所述的基于正则风险最小化的图像目标计数方法，其特征在于，S20中密度函数的定义为，对训练图像I，有密度函数

&ForAll; S &Subset; I, \underset{p &Element; S}{Σ} F (p) = c

3.根据权利要求1所述的基于正则风险最小化的图像目标计数方法，其特征在于，S30中真实密度函数为：

其中

4.根据权利要求1所述的基于正则风险最小化的图像目标计数方法，其特征在于：S40中密度函数参数化模型为：

F (p | w) = \{\begin{matrix} w^{T} x_{p}, & p &Element; T \\ 0, & otherwise \end{matrix}

5.根据权利要求1至4任一所述的基于正则风险最小化的图像目标计数方法，其特征在于，特征向量x_p为对每个像素点提取尺度不变特征变换描述子SIFT descriptor，用户可以设置是否分割图像，如果是，则分割图像后对目标像素提取稠密尺度不变特征变换描述子DSIFT特征；如果否，则对整张图像的所有像素提取DSIFT特征。

6.根据权利要求5所述的基于正则风险最小化的图像目标计数方法，其特征在于，对特征向量x_p进行特征降维：选取一些图片，提取DSIFT特征，对得到的特征集进行K均值聚类，保存K个聚类中心，作为一个映射码表，之后的训练和预测中，以其所属的类来表示每个SIFT特征向量x_p：