CN104050665A

CN104050665A - 一种视频图像中前景停留时间的估计方法及装置

Info

Publication number: CN104050665A
Application number: CN201410253862.5A
Authority: CN
Inventors: 伊帅; 王晓刚; 卢策吾; 贾佳亚; 梁炎; 刘健庄
Original assignee: Huawei Technologies Co Ltd
Current assignee: MIGU Culture Technology Co Ltd
Priority date: 2014-06-10
Filing date: 2014-06-10
Publication date: 2014-09-17
Anticipated expiration: 2034-06-10
Also published as: CN104050665B

Abstract

本发明公开了一种视频图像中前景停留时间的估计方法及装置，本发明中，确定视频图像中的前景，将视频图像中的前景像素进行聚类，得到至少两种类别的前景像素；分别确定每种类别的前景像素的停留时间。通过本发明能够针对每种前景像素内部特征进行单独估计，故能够较为准确的估计出视频图像中的前景像素的停留时间，提高前景停留时间估计的准确度。

Description

一种视频图像中前景停留时间的估计方法及装置

技术领域

本发明涉及视频监控领域，尤其涉及一种视频图像中前景停留时间的估计方法及装置。

背景技术

前景，相对背景而言，是指在视频画面中发生过移动的事物，例如行走的人和动物、行驶的汽车、或者处于某一位置静止一段时间但是曾经不在该位置的人群，都可以认为是前景。前景停留时间估计，是指对输入的视频中的前景的停留时间进行估计。视频图像中的前景包括的像素为前景像素。前景停留时间估计一般会对输入的每一帧视频图像的每个前景像素，都计算出一个正数，计算出的正数就是该前景像素停留的时间。

前景停留时间估计，在多种行业中都具有广泛的应用。例如，在安防行业中，通过对前景停留时间的估计，可以分析群组成员之间的关系(人群的聚集、人群的暂驻、人群的迁址和人群的形变等)，进行人群行为预测和异常行为检测。再例如，在交通管控中，静止的人群或车辆，会阻碍并改变已有的人潮的速度和方向，进而会引起交通模式的改变，故可利用前景停留时间估计方法，研究静止人群或车辆，何时出现并停留多长时间，进行交通控制。

目前，前景停留时间的估计方法，主要有基于背景检测的估计方法和基于跟踪算法的估计方法。基于背景检测的估计方法中，对每一帧视频图像进行背景像素提取，进而可得到前景像素，对得到的每个前景像素进行时间估计，得到前景像素的停留时间。由于视频图像中的前景物体的密度较大，可能还会具有很多遮挡，并且很多前景物体还具有局部的移动，这些都会成为前景时间估计中的噪声，采用背景检测的估计方法，不能克服以上各种噪声，估计结果不准确，例如采用背景检测的估计方法无法区分同一个像素上连续出现的不同前景，会将同一个前景的局部运动误判为新出现的前景而重新估计停留时间，还会把静止的前景误判为背景。

基于跟踪算法的估计方法，一般是在视频图像中选取一些容易与周围像素区分、并比较有信息量的像素点作为特征点，然后对选取的特征点进行跟踪，基于跟踪结果得到停留时间的估计结果。然而由于各种原因(例如人群较多)，跟踪经常出现错误，导致估计时间不准确。

发明内容

本发明实施例提供一种视频图像中前景停留时间的估计方法及装置，以提高前景停留时间估计的准确度。

第一方面，提供一种视频图像中前景停留时间的估计方法，包括：

确定视频图像中的前景，其中，所述视频图像中的前景包括的像素为前景像素；

将所述前景像素进行聚类，得到至少两种类别的前景像素；

分别确定每种所述类别的前景像素的停留时间。

结合第一方面，在第一种实现方式中，确定视频图像中的前景，包括：

对所述视频图像中的每一帧视频图像的每个像素进行初始前景估计，得到视频图像中的初始前景；

对所述初始前景进行修正，得到修正的前景；

将所述修正的前景作为所述视频图像中的前景。

结合第一方面的第一种实现方式，在第二种实现方式中，所述方法还包括：

分别提取所述视频图像中的每一帧视频图像的每个像素的特征值，并将所述特征值组合成五维的特征向量，所述特征值包括表征像素三通道颜色空间的每个通道的分量值，以及表征像素位置的行方向数值和列方向数值；

设定所述视频图像中的前景像素被聚类为M类，每个类别对应一个聚类中心，所述聚类中心是五维向量，将所述聚类中心组合成第一矩阵，所述第一矩阵为5*M的矩阵，其中，M为不小于2的正整数；

相应的，将所述视频图像中的所述前景像素进行聚类，得到至少两种类别的前景像素，包括：

根据初始前景像素估计结果、所述特征向量和所述第一矩阵，对所述视频图像中的每一帧视频图像的每个像素进行编码约束，得到M维的编码向量，所述编码向量的分量为0或1，且最多有一个等于1的分量，其中，M为不小于2的正整数，初始前景像素估计结果为对所述视频图像中的每一帧视频图像的每个像素进行初始前景估计的结果；

若编码向量中的第i个分量等于1，则确定当前像素为第i类前景像素，其中i为正整数。

结合第一方面的第二种实现方式，在第三种实现方式中，对所述视频图像中的每一帧视频图像的每个像素进行编码约束，得到M维的编码向量，包括：

按照如下公式，对所述视频图像中的每一帧视频图像的每个像素进行编码约束：

\min_{D, α} Q (D, α) = \min_{D, α} {\underset{{p | | | α_{p} {| |}_{1} = 1}}{Σ} d_{1} ({Dα}_{p}, I_{p}) + η \underset{p}{Σ} d_{2} (| | α_{p} {| |}_{1}, u_{p})};

通过求解所述编码约束，得到每一帧视频图像的每个像素的M维的编码向量；

其中，α为所有像素的编码向量集合，D为第一矩阵，P为当前像素，I_p为像素p的特征向量，u_p为像素p的初始前景像素估计结果，u_p＝1表示像素p为前景像素，u_p＝0表示像素p为背景像素，α_p为像素p的编码向量，η为设定的参数值，||α_p||₁为像素P的编码向量的1范数，{p|||α_p||₁＝1}表示||α_p||₁＝1的像素集合，d₁(Dα_p,I_p)表示像素p的特征向量与像素p所属类别的聚类中心之间的差异，d₂(||α_p||₁,u_p)表示修正前景像素估计结果与初始前景像素估计结果之间的差异，表示所有修正前景像素的特征向量与其所属类别的聚类中心的差异的总和，表示所有像素的修正前景像素估计结果与初始前景像素估计结果之间差异的总和，Q(D,α)为与的加权和。

结合第一方面的第二种实现方式，在第四种实现方式中，对所述视频图像中的每一帧视频图像的每个像素进行编码约束，得到M维的编码向量，包括：

按照公式

\min_{D, α} Q (D, α) = \min_{D, α} {\underset{{p | | | α_{p} {| |}_{1} = 1}}{Σ} d_{1} ({Dα}_{p}, I_{p}) + η \underset{p}{Σ} d_{2} (| | α_{p} {| |}_{1}, u_{p})};

对所述视频图像中的每一帧视频图像的每个像素进行第一编码约束；

按照公式

\min_{α} c (α) = \min_{α} {# {p | n ({&PartialD;}_{x, t} α_{p}) + n ({&PartialD;}_{y, t} α_{p}) &NotEqual; 0}},

对所述视频图像中的每一帧视频图像的每个像素进行第二编码约束；

通过求解第一编码约束和第二编码约束结合后的优化约束，得到所述视频图像中的每一帧视频图像的每个像素的M维的编码向量；

其中，α为所有像素的编码向量集合，D为第一矩阵，P为当前像素，I_p为像素p的特征向量，u_p为像素p的初始前景像素估计结果，u_p＝1表示像素p为前景像素，u_p＝0表示像素p为背景像素，α_p为像素p的编码向量，η为设定的参数值，||α_p||₁为像素P的编码向量的1范数，{p|||α_p||₁＝1}表示||α_p||₁＝1的像素集合，d₁(Dα_p,I_p)表示像素p的特征向量与像素p所属类别的聚类中心之间的差异，d₂(||α_p||₁,u_p)表示修正前景像素估计结果与初始前景像素估计结果之间的差异，表示所有修正前景像素的特征向量与其所属类别的聚类中心的差异的总和，表示所有像素的修正前景像素估计结果与初始前景像素估计结果之间差异的总和，Q(D,α)为与的加权和；

#表示像素个数，表示α_p在视频图像所在坐标系水平方向和时间方向的二阶有限差分算子，表示α_p在视频图像所在坐标系竖直方向和时间方向的二阶有限差分算子，n()表示向量的范数，c(α)为一组像素的个数，该组内的像素满足像素的编码向量在视频图像所在坐标系水平方向和时间方向的二阶有限差分的范数与在视频图像所在坐标系竖直方向和时间方向的二阶有限差分的范数的总和不等于零。

结合第一方面的第四种实现方式，在第五种实现方式中，通过求解第一编码约束和第二编码约束结合后的优化约束，得到每一帧视频图像的每个像素的M维的编码向量，包括：

按照优化条件α_p＝{0,1}^M，||α_p||₁≤1，求解第一编码约束和第二编码约束结合后的优化约束，得到每一帧视频图像的每个像素的M维的编码向量；

其中，Q(D,α)为与的加权和，表示所有修正前景像素的特征向量与其所属类别的聚类中心的差异的总和，表示所有像素的修正前景像素估计结果与初始前景像素估计结果之间差异的总和，d₁(Dα_p,I_p)表示像素p的特征向量与像素p所属类别的聚类中心之间的差异，d₂(||α_p||₁,u_p)表示修正前景像素估计结果与初始前景像素估计结果之间的差异，α为所有像素的编码向量集合，D为第一矩阵，P为当前像素，I_p为像素p的特征向量，u_p为像素p的初始前景像素估计结果，u_p＝1表示像素p为前景像素，u_p＝0表示像素p为背景像素，α_p为像素p的编码向量，η为设定的参数值，||α_p||₁为像素P的编码向量的1范数，{p|||α_p||₁＝1}表示||α_p||₁＝1的像素集合，c(α)为一组像素的个数，该组内的像素满足像素的编码向量在视频图像所在坐标系水平方向和时间方向的二阶有限差分的范数与在视频图像所在坐标系竖直方向和时间方向的二阶有限差分的范数的总和不等于零，λ为设定的参数。

结合第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式或者第一方面的第五种实现方式，在第六种实现方式中，确定每种所述类别的前景像素的停留时间，包括：

判断在所述视频图像中的前一帧视频图像中，是否存在与当前前景像素属于同一类的前景像素；

若存在，则在与当前前景像素属于同一类的前景像素的停留时间的基础上累加当前前景像素的停留时间，得到前景像素的停留时间；

若不存在，则以当前前景像素所在的当前帧作为时间起始点，累加当前前景像素的停留时间，得到前景像素的停留时间。

第二方面，提供一种视频图像中前景停留时间的估计装置，确定单元、聚类单元和估计单元，其中，

所述确定单元，用于确定视频图像中的前景，其中，所述视频图像中的前景包括的像素为前景像素；

所述聚类单元，用于将所述视频图像中的前景像素进行聚类，得到至少两种类别的前景像素，并向所述估计单元输出所述至少两种类别的前景像素；

所述估计单元，用于分别确定所述聚类单元聚类得到的每种所述类别的前景像素的停留时间。

结合第二方面，在第一种实现方式中，该装置还包括初始估计单元，

所述初始估计单元，用于对所述视频图像中的每一帧视频图像的每个像素进行初始前景估计，得到视频图像中的初始前景，并向所述确定单元输出所述初始前景；

相应的，所述确定单元具体用于按如下方式确定视频图像中的前景：

对所述初始估计单元进行初始估计得到的初始前景进行修正，得到修正的前景，将所述修正的前景作为所述视频图像中的前景。

结合第二方面的第一种实现方式，在第二种实现方式中，所述装置还包括提取单元和设定单元，

所述提取单元，用于：

分别提取所述视频图像中的每一帧视频图像的每个像素的特征值，并将所述特征值组合成五维的特征向量，向所述聚类单元输出所述特征向量，所述特征值包括表征像素三通道颜色空间的每个通道的分量值，以及表征像素位置的行方向数值和列方向数值；

所述设定单元，用于设定所述视频图像中的前景像素被聚类为M类，每个类别对应一个聚类中心，所述聚类中心是五维向量，将所述聚类中心组合成第一矩阵，所述第一矩阵为5*M的矩阵，向所述聚类单元输出所述第一矩阵其中，M为不小于2的正整数；

相应的，所述聚类单元，具体用于按如下方式将所述视频图像中的所述前景像素进行聚类，得到至少两种类别的前景像素：

结合第二方面的第二种实现方式，在第三种实现方式中，所述聚类单元，具体用于按照如下方式根据初始前景像素估计结果、所述特征向量和所述第一矩阵，对所述视频图像中的每一帧视频图像的每个像素进行编码约束，得到M维的编码向量：

\min_{D, α} Q (D, α) = \min_{D, α} {\underset{{p | | | α_{p} {| |}_{1} = 1}}{Σ} d_{1} ({Dα}_{p}, I_{p}) + η \underset{p}{Σ} d_{2} (| | α_{p} {| |}_{1}, u_{p})};

通过求解所述编码约束，得到所述视频图像中的每一帧视频图像的每个像素的M维的编码向量；

结合第二方面的第二种实现方式，在第四种实现方式中，所述聚类单元，具体用于按照如下方式根据初始前景像素估计结果、所述特征向量和所述第一矩阵，对所述视频图像中的每一帧视频图像的每个像素进行编码约束，得到M维的编码向量：

按照公式

\min_{D, α} Q (D, α) = \min_{D, α} {\underset{{p | | | α_{p} {| |}_{1} = 1}}{Σ} d_{1} ({Dα}_{p}, I_{p}) + η \underset{p}{Σ} d_{2} (| | α_{p} {| |}_{1}, u_{p})},

按照公式

\min_{α} c (α) = \min_{α} {# {p | n ({&PartialD;}_{x, t} α_{p}) + n ({&PartialD;}_{y, t} α_{p}) &NotEqual; 0}},

其中，α为所有像素的编码向量集合，D为第一矩阵，P为当前像素，I_p为像素p的特征向量，u_p为像素p的初始前景像素估计结果，u_p＝1表示像素p 为前景像素，u_p＝0表示像素p为背景像素，α_p为像素p的编码向量，η为设定的参数值，||α_p||₁为像素P的编码向量的1范数，{p|||α_p||₁＝1}表示||α_p||₁＝1的像素集合，d₁(Dα_p,I_p)表示像素p的特征向量与像素p所属类别的聚类中心之间的差异，d₂(||α_p||₁,u_p)表示修正前景像素估计结果与初始前景像素估计结果之间的差异，表示所有修正前景像素的特征向量与其所属类别的聚类中心的差异的总和，表示所有像素的修正前景像素估计结果与初始前景像素估计结果之间差异的总和，Q(D,α)为与的加权和；

结合第二方面的第四种实现方式，在第五种实现方式中，所述聚类单元，具体用于：

按照优化条件α_p＝{0,1}^M，||α_p||₁≤1，求解第一编码约束和第二编码约束结合后的优化约束，得到所述视频图像中的每一帧视频图像的每个像素的M维的编码向量；

结合第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式或者第二方面的第五种实现方式，在第六种实现方式中，所述装置还包括判断单元，其中：

所述判断单元，用于判断在所述视频图像中的前一帧视频图像中是否存在与当前前景像素属于同一类的前景像素；

相应的，所述估计单元具体用于按如下方式确定每种所述类别的前景像素的停留时间：

若所述判断单元判断结果为在所述视频图像中的前一帧视频图像中存在与当前前景像素属于同一类的前景像素，则在与当前前景像素属于同一类的前景像素的停留时间的基础上累加当前景像素的停留时间，得到前景像素的停留时间；

若所述判断单元判断结果为在所述视频图像中的前一帧视频图像中不存在与当前前景像素属于同一类的前景像素，则以当前前景像素所在的当前帧作为时间起始点，累加当前前景像素的停留时间，得到前景像素的停留时间。

第三方面，提供一种视频图像中前景停留时间的估计装置，该装置包括：至少一个处理器，通信总线，存储器以及至少一个通信接口，所述存储器和所述通信接口通过所述通信总线与所述至少一个处理器连接，其中：

所述通信总线，用于至少一个处理器、存储器以及至少一个通信接口之间传送信息；

所述存储器，用于存储执行应用程序代码；

所述处理器，用于调用所述存储器中存储的应用程序，执行以下处理过程：确定视频图像中的前景，其中，所述视频图像中的前景包括的像素为前景像素；将所述视频图像中的所述前景像素进行聚类，得到至少两种类别的前景像素；分别确定每种所述类别的前景像素的停留时间。

结合第三方面，在第一种实现方式中，所述处理器，还用于：

对所述视频图像中的每一帧视频图像的每个像素进行初始前景估计，得到视频图像中的初始前景；对所述初始前景进行修正，得到修正的前景，将所述修正的前景作为所述视频图像中的前景。

结合第三方面的第一种实现方式，在第二种实现方式中，所述处理器还用于：

设定所述视频图像中的前景像素被聚类为M类，每个类别对应一个聚类中心，所述聚类中心是五维向量，将所述聚类中心组合成第一矩阵，所述第一矩阵为5*M的矩阵，向所述聚类单元输出所述第一矩阵其中，M为不小于2的正整数。

所述处理器，具体用于按如下方式对所述初始前景像素进行聚类，得到至少两种类别的前景像素：

结合第三方面的第二种实现方式，在第三种实现方式中，所述处理器，具体用于按照如下方式根据初始前景像素估计结果、所述特征向量和所述第一矩阵，对所述视频图像中的每一帧视频图像的每个像素进行编码约束，得到M维的编码向量：

\min_{D, α} Q (D, α) = \min_{D, α} {\underset{{p | | | α_{p} {| |}_{1} = 1}}{Σ} d_{1} ({Dα}_{p}, I_{p}) + η \underset{p}{Σ} d_{2} (| | α_{p} {| |}_{1}, u_{p})};

结合第三方面的第二种实现方式，在第四种实现方式中，所述处理器，具体用于按照如下方式根据初始前景像素估计结果、所述特征向量和所述第一矩阵，对所述视频图像中的每一帧视频图像的每个像素进行编码约束，得到M维的编码向量：

按照公式

\min_{D, α} Q (D, α) = \min_{D, α} {\underset{{p | | | α_{p} {| |}_{1} = 1}}{Σ} d_{1} ({Dα}_{p}, I_{p}) + η \underset{p}{Σ} d_{2} (| | α_{p} {| |}_{1}, u_{p})},

按照公式

\min_{α} c (α) = \min_{α} {# {p | n ({&PartialD;}_{x, t} α_{p}) + n ({&PartialD;}_{y, t} α_{p}) &NotEqual; 0}},

结合第三方面的第四种实现方式，在第五种实现方式中，所述处理器，具体用于：

结合第三方面的第一种实现方式、第三方面的第二种实现方式、第三方面的第三种实现方式、第三方面的第四种实现方式或者第三方面的第五种实现方式，在第六种实现方式中，所述处理器，具体用于：

判断在所述视频图像中的前一帧视频图像中是否存在与当前前景像素属于同一类的前景像素；

若存在，则在与当前前景像素属于同一类的前景像素的停留时间的基础上累加当前景像素的停留时间，得到前景像素的停留时间；

本发明实施例提供的视频图像中前景停留时间的估计方法及装置，通过将视频图像中的前景像素进行聚类，得到至少两种类别的前景像素，能够较为清楚的区分出每种类别的前景像素，并分别估计每种类别的前景像素的停留时间，得到视频图像中每种类别的前景像素的停留时间，能够针对每种前景像素内部特征进行单独估计，故能够较为准确的估计出视频图像中的前景像素的停留时间，提高前景停留时间估计的准确度。

附图说明

图1为本发明实施例提供的视频图像中前景停留时间的估计方法应用的系统构成框图；

图2为本发明实施例提供的视频图像中前景停留时间的估计方法第一实现流程图；

图3为本发明实施例提供的视频图像中前景停留时间的估计方法第二实现流程图；

图4为本发明实施例提供的视频图像中前景停留时间的估计方法第三实现流程图；

图5为本发明实施例提供的视频图像中前景停留时间估计方法实施过程示意图；

图6为本发明实施例提供的采用视频图像中前景停留时间估计方法结果示意图；

图7A为本发明实施例提供的视频图像中前景停留时间的估计装置第一构成示意图；

图7B为本发明实施例提供的视频图像中前景停留时间的估计装置第二构成示意图；

图7C为本发明实施例提供的视频图像中前景停留时间的估计装置第三构成示意图；

图7D为本发明实施例提供的视频图像中前景停留时间的估计装置第四构成示意图；

图8为本发明实施例提供的视频图像中前景停留时间的估计装置又一构成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明权利要求保护的范围。

本发明提供的视频图像中前景停留时间的估计方法应用于图1所示的系统。图1中视频获取装置101，用于获取视频图像，该视频获取装置可以是例如摄像头等具有视频获取功能的装置，视频获取装置在摄像时位置固定。存储装置102，用于存储视频获取装置101获取的视频图像，该存储装置例如可以是硬盘等具有存储功能的设备。运算装置103，具有运算处理功能，例如可以是处理器等，实现对前景停留时间的估计，即将输入存储装置102中存储的视频图像输入至运算装置103后，运算装置103对视频图像中的前景停留时间进行估计，输出视频图像的前景停留时间的估计结果。当然本发明实施例中视频获取装置101、存储装置102和运算装置103可以集成在客户端100上，通过该客户端100可以操作视频获取装置101、存储装置102和运算装置103，客户端100例如可以是PC(Personal Computer，个人电脑)机，手机、平板等。

本发明实施例提供的对视频图像中的前景停留时间进行估计的方法的执行主体可以是运算装置103，运算装置103对输入的视频图像的前景包括的前景像素进行聚类，得到至少两种类别的前景像素，并对得到的至少两种类别的前景像素进行停留时间估计，得到视频图像中每种类别的前景像素的停留时间，能够较为清楚的区分出每种类别的前景像素，进而能够较为准确的估计出视频图像中的前景像素的停留时间，提高前景停留时间估计的准确度。

图2所示为本发明实施例提供的前景停留时间的估计方法实现流程图，如图2所示，该方法包括：

S101：确定视频图像中的前景。

本发明实施例中为描述方便，将视频图像中的前景包括的像素称为前景像素。

S102：将视频图像中的前景像素进行聚类，得到至少两种类别的前景像素。

本发明实施例中为区分出视频图像中的不同前景，可将视频图像中的前景像素进行聚类，得到不同类别的前景像素，该区分的类别为至少两种。

S103：分别确定每种类别的前景像素的停留时间，得到视频图像中每种类别的前景像素的停留时间。

具体的，每一个前景像素的类别确定后，则对每种类别的前景像素的停留时间进行确定时，可判断当前前景像素所属的类别是否在前一帧视频图像中已出现过；若出现过，则当前前景像素的停留时间在已出现过的同一类的前景像素的停留时间的基础上累加；若没出现过，则当前前景像素的停留时间从它所在的那一帧开始计时累加。

本发明实施例提供的视频图像中前景停留时间的估计方法及装置，通过将视频图像中的前景像素进行聚类，得到不同类别的前景像素，能够较为清楚的区分出每种类别的前景像素，并分别估计每种类别的前景像素的停留时间，得到视频图像中每种类别的前景像素的停留时间，能够针对每种前景像素内部特征进行单独估计，故能够较为准确的估计出视频图像中的前景像素的停留时间，提高前景停留时间估计的准确度。

本发明实施例中为了进一步提高前景停留时间估计的准确度，可对视频图像中的像素进行初始前景估计得到初始前景，然后对初始前景进行修正得到修正的前景，最终将修正的前景作为视频图像中的前景。本发明实施例中进行初始前景估计是针对视频图像中的每一帧视频图像的每一像素进行初始前景估计的。本发明实施例中为描述方便将对像素进行初始估计得到的前景像素称为初始前景像素，对初始前景像素进行修正，得到修正前景像素。修正前景像素是指对初始前景像素进行修正后得到的前景像素。

本发明实施例以下将以修正前景像素作为视频图像中的前景像素为例进行说明，对每种类别的修正前景像素分别进行停留时间的估计，得到视频图像中修正前景像素的停留时间，以进一步提高视频图像中的前景像素停留时间估计的准确度。

图3所示为本发明实施例提供的另一较佳实施例中对视频图像中前景停留时间进行估计的方法实现流程图，如图3所示，该方法包括：

S201：对输入的每一帧视频图像的每个像素进行初始前景估计，得到视频图像中的初始前景。

本发明实施例中可采用现有确定前景像素的方法进行初始估计，例如可采用背景减除法，对每一帧视频图像的每个像素进行初始前景估计：首先将背景进行建模；然后将输入的像素与建立的背景模型进行匹配，如果当前像素与背景模型匹配，则可确定当前像素为背景像素；如果当前像素与背景模型不匹配，则可确定当前像素为前景像素。

S202：记录对输入的每一帧视频图像的每个像素进行初始前景估计的得到初始前景像素的初始前景像素估计结果。

初始前景像素估计结果为对所述视频图像中的每一帧视频图像的每个像素进行初始前景估计的结果。

本发明实施例中为了实现对初始前景像素的修正和分类，故记录S201中进行初始前景估计的初始前景像素估计结果，例如，本发明实施例中可将S201中得到的初始前景像素估计结果记录为u_p，其中，P表示当前像素，u_p＝1表示像素p为前景像素，u_p＝0表示像素p为背景像素。

S203：分别提取视频图像中每个像素的特征值，并将每个像素的特征值组合成五维的特征向量。

本发明实施例中可将像素p的特征值包括表征像素三通道颜色空间的每个通道的分量值，以及表征像素位置的行方向数值和列方向数值。本发明实施例中可将像素p的特征值组合成一个五维向量：

I_p＝[R_p,G_p,B_p,X_p,Y_p,]，

其中，I_p为像素p的特征向量，R_p，G_p和B_p分别是像素p的红色分量值、绿色分量值和蓝色分量值，X_p和Y_p分别是像素p在视频图像中行方向数值和列方向数值，其中视频图像中的行方向和列方向是根据图像分辨率进行确定的。

当然，本发明实施例中像素p的三通道颜色空间还可以是亮度、色度和饱和度组成的三通道颜色空间，则像素p的三通道颜色空间的三个分量值可以是亮度值、色度值和饱和度值。

S204：设定修正前景像素被区分为M类，M为不小于2的正整数，每个类别对应一个聚类中心，将全部的聚类中心组合成第一矩阵。

本发明实施例中的聚类中心是五维向量，表示为{d₁,…d_M}，其中，d_i∈R^5×1，i＝1,…M，聚类中心组合成的第一矩阵为5*M的矩阵，可表示为D＝[d₁,…d_M]。

S205：根据S202中记录的初始前景像素估计结果、S203中提取的特征向量和S204中设定的第一矩阵，对输入的每一帧视频图像的每个像素进行编码约束，得到M维的编码向量。

本发明实施例中M维的编码向量，表示为α_p。本发明实施例中编码向量α_p的分量为0或1，即α_p的分量非1即0。

S206：通过编码向量中等于1的分量，确定当前像素是否为修正前景像素以及修正前景像素所属的类别。

本发明实施例中，S205中限定编码向量α_p的分量为0或1，故本发明实施例中可通过编码向量中等于1的分量，确定当前像素是否为修正前景像素以及修正前景像素所属的类别：若编码向量中的第i个分量等于1，则确定当前像素为修正前景像素且该修正前景像素为第i类前景像素；若编码向量中没有等于1的分量，则确定当前像素为背景像素，其中i为正整数。

S207：分别估计每种类别的修正前景像素的停留时间，得到视频图像中每种类别的修正前景像素的停留时间。

本发明实施例中，对每种类别的修正前景像素的停留时间进行估计时，可采用如下方式：

判断在前一帧视频图像中是否存在与当前修正前景像素属于同一类的修正前景像素；

若存在，则在与当前修正前景像素属于同一类的修正前景像素的停留时间的基础上累加当前修正前景像素的停留时间，得到修正前景像素的停留时间；若不存在，则以当前修正前景像素所在的当前帧作为时间起始点，累加当前修正前景像素的停留时间，得到修正前景像素的停留时间。

本发明实施例提供的视频图像中前景停留时间估计的方法，通过对初始前景像素进行第一编码约束，使得所有修正前景像素的特征向量与其所属类别的聚类中心的差异总和最小，所有像素的修正前景像素估计结果与初始前景像素估计结果之间差异的总和最小，故通过本发明实施例可进一步提高视频图像中前景停留时间估计的准确度。

较佳的，本发明实施例中可采用如下方式根据初始前景像素估计结果u_p、特征向量I_p和第一矩阵D，对输入的每一帧视频图像的每个像素进行编码约束：

以D和α_p为自变量，使得所有修正前景像素的特征向量与其所属类别的聚类中心的差异的总和，与所有像素的修正前景像素估计结果与初始前景像素估计结果之间差异的总和的加权和最小，例如可采用公式(1)对输入的每一帧视频图像的每个像素进行编码约束，通过求解该编码约束，得到每一帧视频图像的每个像素的M维的编码向量。

\min_{D, α} Q (D, α) = \min_{D, α} {\underset{{p | | | α_{p} {| |}_{1} = 1}}{Σ} d_{1} ({Dα}_{p}, I_{p}) + η \underset{p}{Σ} d_{2} (| | α_{p} {| |}_{1}, u_{p})}

公式(1)

其中，α为所有像素的编码向量集合，D为第一矩阵，P为当前像素，I_p为像素p的特征向量，u_p为像素p的初始前景像素估计结果，u_p＝1表示像素p为前景像素，u_p＝0表示像素p为背景像素，α_p为像素p的编码向量，η为设定的参数值，||α_p||₁为像素P的编码向量的1范数，{p|||α_p||₁＝1}表示||α_p||₁＝1的像素集合，d1()表示两个向量之间的差异，可以是两个向量相减值的2范数的平方。d2()表示两个整数之间的差异，可以是两个整数相减值的平方。本发明实施例中，d₁(Dα_p,I_p)表示像素p的特征向量与像素p所属类别的聚类中心之间的差异，d₂(||α_p||₁,u_p)表示修正前景像素估计结果与初始前景像素估计结果之间的差异，表示所有修正前景像素的特征向量与其所属类别的聚类中心的差异的总和，表示所有像素的修正前景像素估计结果与初始前景像素估计结果之间差异的总和，Q(D,α)为与的加权和。

本发明实施例中为了能够去除前景噪声估计中的噪声，可在采用公式(1)对输入的视频图像中的每一帧视频图像的每个像素进行编码约束基础上，对输入的视频图像中的每一帧视频图像的每个像素再次进行编码约束，通过求解两个编码约束结合后的最优化问题，得到M维编码向量。本发明实施例以下将进行的两次编码约束分别称为第一编码约束和第二编码约束。

本发明实施例中对输入的视频图像中的每一帧视频图像的每个像素进行第一编码约束和第二编码约束，并实现视频图像中前景停留时间估计的方法实现流程如图4所示，图4所示的实现流程与图3所示的前景停留时间估计实现方法相似，本发明实施例以下仅就不同之处进行说明。本发明实施例中S205根据S202中记录的初始前景像素估计结果、S203中提取的特征向量和S204中设定的第一矩阵，对输入的每一帧视频图像的每个像素进行编码约束，得到M维的编码向量，具体实现过程包括：

S205a：对输入的视频图像中的每一帧视频图像的每个像素进行第一编码约束。

具体的，本发明实施例中对输入的每一帧视频图像的每个像素进行第一编码约束可采用公式(1)，具体实现过程可参阅上述实施例的描述，在此不再赘述。

S205b：对输入的每一帧视频图像的每个像素进行第二编码约束，例如可通过L0范数对每一类前景像素进行编码形状约束，以去除噪声影响。

较佳的，本发明实施例中可采用公式(2)，对输入的每一帧视频图像的每个像素进行第二编码约束：

\min_{α} c (α) = \min_{α} {# {p | n ({&PartialD;}_{x, t} α_{p}) + n ({&PartialD;}_{y, t} α_{p}) &NotEqual; 0}}

公式(2)

其中，α为所有像素的编码向量集合，#表示像素个数，P为当前像素，α_p为像素p的编码向量，表示α_p在视频图像所在坐标系水平方向和时间方向的二阶有限差分算子，表示α_p在视频图像所在坐标系竖直方向和时间方向的二阶有限差分算子，n()表示向量的范数，c(α)为一组像素的个数，该组内的像素满足像素的编码向量在视频图像所在坐标系水平方向和时间方向的二阶有限差分的范数与在视频图像所在坐标系竖直方向和时间方向的二阶有限差分的范数的总和不等于零。

S205c：通过求解第一编码约束和第二编码约束结合后的优化约束，得到视频图像中每一帧视频图像的每个像素的M维的编码向量。

本发明实施例中，以α_p为自变量，对每一个像素p，计算编码向量α_p在视频画面水平方向和时间方向上的有限差分的范数、以及在视频画面竖直方向和时间方向上的有限差分的范数的总和，令上述总和不等于零的像素的个数尽量少，以实现对前景像素的进一步约束修正，去除前景停留时间估计中存在的噪声，提高前景停留时间估计的准确度。

较佳的，结合第一编码约束和第二编码约束，对输入的视频图像中每一帧视频图像的每个像素进行优化约束，可采用如下方式：

本发明实施例中可以按照公式(3)，以第一编码约束和第二编码约束联合作为优化目标，求解关于D和α_p为自变量的优化，以对输入的每一帧视频图像的每个像素进行优化约束：

\min_{D, α} {Q (D, α) + λc (α)}

公式(3)

其中，α_p＝{0,1}^M，||α_p||₁≤1，Q(D,α)为与的加权和，表示所有修正前景像素的特征向量与其所属类别的聚类中心的差异的总和，表示所有像素的修正前景像素估计结果与初始前景像素估计结果之间差异的总和，d₁(Dα_p,I_p)表示像素p的特征向量与像素p所属类别的聚类中心之间的差异，d₂(||α_p||₁,u_p)表示修正前景像素估计结果与初始前景像素估计结果之间的差异，α为所有像素的编码向量集合，D为第一矩阵，P为当前像素，I_p为像素p的特征向量，u_p为像素p的初始前景像素估计结果，u_p＝1表示像素p为前景像素，u_p＝0表示像素p为背景像素，α_p为像素p的编码向量，η为设定的参数值，||α_p||₁为像素P的编码向量的1范数， {p|||α_p||₁＝1}表示||α_p||₁＝1的像素集合，c(α)为一组像素的个数，该组内的像素满足像素的编码向量在视频图像所在坐标系水平方向和时间方向的二阶有限差分的范数与在视频图像所在坐标系竖直方向和时间方向的二阶有限差分的范数的总和不等于零，λ为设定的参数。

具体的，本发明实施例中可按如下方式对公式(3)进行求解，以确定最终所需的编码向量α_p：

引入辅助向量将公式(3)转化为：

\min_{D, α, α^{0}} {Q (D, α^{0}) + β_{1} \underset{p}{Σ} | | α_{p} - α_{p}^{0} {| |}_{2}^{2} + λc (α)}

公式(4)

其中，α_p＝{0,1}^M,||α_p||₁≤1,β₁是设定的参数，当β₁足够大时，会足够逼近α_p。

本发明实施例中，求解公式(4)可包括以下步骤的迭代：

A：固定α_p，求解D和当α_p固定时，c(α)是常量，因此c(α)可以省略，公式(4)变为：

\min_{D, α, α^{0}} {Q (D, α^{0}) + β_{1} \underset{p}{Σ} | | α_{p} - α_{p}^{0} {| |}_{2}^{2}}, s . t . α_{p}^{0} = {0,1}^{M}, | | α_{p}^{0} {| |}_{1} \leq 1

公式(5)

其中，D和可以迭代求解。固定D能通过最小二乘法求解。固定D，可通过遍历寻找(M+1)种前景像素和背景类别求解。

B：固定D和求解α_p。给定D和的值，求解公式(6)：

\min_{α} {β_{1} \underset{p}{Σ} | | α_{p} - α_{p}^{0} {| |}_{2}^{2} + λc (α)}

公式(6)

具体的，引入两个辅助向量h_p和v_p来逼近和将公式(6)变为：

\min_{α, h, v} {β_{1} \underset{p}{Σ} {| | α_{p} - α_{p}^{0} | |}_{2}^{2} + λc (h, v) + β_{2} \underset{p}{Σ} (| | {&PartialD;}_{x, t} α_{p} - h_{p} {| |}_{2}^{2} + | | {&PartialD;}_{y, t} α_{p} - v_{p} {| |}_{2}^{2})}

公式(7)

其中，c(h,v)＝#{p|||h_p||₂+||v_p||₂≠0}，公式(7)可以采用与公式(4)一样的迭代方法求解：

固定α，求解h和v，则公式(7)等价于：

(\hat{h}, \hat{v}) = \arg \min_{h, v} {λc (h, v) + β_{2} \underset{p}{Σ} (| | {&PartialD;}_{x, t} α_{p} - h_{p} {| |}_{2}^{2} + | | {&PartialD;}_{y, t} α_{p} - v_{p} {| |}_{2}^{2})},

公式(8)

对公式(8))求解得：

(\hat{h_{p}}, \hat{v_{p}}) = \{\begin{matrix} (0,0) ifλ / β_{2} &GreaterEqual; | | {&PartialD;}_{x, t} α_{p} {| |}_{2} + | | {&PartialD;}_{y, t} α_{p} {| |}_{2} \\ ({&PartialD;}_{x, t} α_{p}, {&PartialD;}_{y, t} α_{p}) elsewhere \end{matrix}

固定h和v，求解α，则公式(7)等价于：

\hat{α} = \min_{α} {β_{1} \underset{p}{Σ} {| | α_{p} - α_{p}^{0} | |}_{2}^{2} + β_{2} \underset{p}{Σ} (| | {&PartialD;}_{x, t} α_{p} - h_{p} {| |}_{2}^{2} + | | {&PartialD;}_{y, t} α_{p} - v_{p} {| |}_{2}^{2})}

公式(9)

公式(9)可由二次规划求解，其中，β₁和β₂的初始值为1。在每一步迭代时，β₁和β₂都会以指数函数形式逐步增加，并会比较迅速地趋于无穷大，最终迭代收敛得到最终的编码向量α。

本发明实施例提供的视频图像中的前景停留时间估计在实际的具体实施时可表现为如图5所示的实施过程。图5中，(a)是在输入的视频画面中按时间顺序截取的三帧视频图像，画面内容是行人A从停留到离开、行人B到达的过程。(b)是画面中虚线在时间方向上的变化图像。(c)是按照本发明实施例提供的进行优化约束后得到的编码向量彩色渲染后的图像，其中三种不同的编码向量被赋予了三种不同的颜色。(d1)是(a)的编码向量彩色渲染后的结果表示，(d2)是(a)的编码向量停留时间估计的结果表示，(d2)中以线条纹理的疏密来表示亮度的大小，紧密的纹理表示亮度低，稀疏的纹理表示亮度高。本发明实施例中可通过彩色渲染后亮度的大小表示停留时间的长短，亮度越大，则表示该停留时间越长。

需要说明的是，本发明实施例图5中(a)的编码向量彩色渲染和停留时间估计的结果表示分别通过(d1)和(d2)进行表示，只是为了图示说明更清楚，实际实施过程中可通过一幅图像同时表示彩色渲染结果和停留时间估计结果。

通过本发明实施例提供的视频图像中的前景停留时间的估计方法，能够较为准确的估计出前景像素的停留时间，具体可参阅图6、表(1)和表(2)所示的实验数据对比结果。图6中对于高度密集的群体，物体与物体之间遮挡较为明显的情况，以及物体具有局部移动的情况，仍能得到比较理想的停留时间估计结果。

虚警率、误检率、全误差率、停留时间误差以及停留时间误差率能够反映停留时间估计准确度的高低。本发明实施例提供的前景停留时间估计结果与其它方法进行前景停留时间估计结果进行对比，可知本发明提供的前景停留时间估计结果准确度较高。公共数据库Grand Central Train Station database和香港中文大学数据库上对上述性能参数的对比结果如表(1)和表(2)所示:

方法	FAR	MDR	TER	ET	ERT
						Ours	0.29％	3.49％	0.39％	10.04	12.21％
Ours(First)	0.51％	5.90％	0.69％	16.12	26.77％
						GMM	0.27％	24.51％	1.11％	29.46	43.98％
Codebook	0.26％	21.03％	0.93％	29.51	40.14％
						Bayesian	0.33％	20.18％	1.01％	26.70	39.16％
Tracking	0.30％	24.26％	1.09％	40.78	56.49％

表(1)

方法	FAR	MDR	TER	ET	ERT
						Ours	0.91％	0.54％	0.86％	15.88	8.67％
Ours(First)	1.37％	0.98％	1.32％	16.90	10.68％
						GMM	0.92％	16.24％	3.06％	57.41	39.76％
Codebook	1.03％	13.37％	2.75％	58.28	40.67％
						Bayesian	1.05％	12.26％	2.60％	45.2	32.19％
Tracking	0.92％	5.75％	1.60％	54.14	38.86％

表(2)

表(1)和表(2)中，Ours是本发明提供的前景停留时间估计方法，Ours(First) 是指将本发明的二阶有限差分算子换为一阶有限差分算子。其它对比方法包括GMM，Codebook，Bayesian，Tracking。FAR指虚警率，MDR是误检率，TER是全误差率，ET是停留时间误差，ERT是停留时间误差率，它们都是越小表示停留时间估计越准确。

基于本发明实施例上述提供的视频图像中前景停留时间的估计方法，本发明实施例还提供了一种视频图像中前景停留时间的估计装置700，如图7A所示，该装置包括确定单元701、聚类单元702和估计单元703，其中，

确定单元701，用于确定视频图像中的前景，其中，所述视频图像中的前景包括的像素为前景像素。

聚类单元702，用于将确定单元701确定的前景中的前景像素进行聚类，得到至少两种类别的前景像素，并向估计单元703输出得到的不同类别的前景像素。

估计单元703，用于分别确定聚类单元702聚类得到的每种类别的前景像素的停留时间。

结合上述提供的视频图像中前景停留时间的估计装置，在第一种实现方式中，该装置还包括初始估计单元704，如图7B所示。

初始估计单元704，用于对每一帧视频图像的每个像素进行初始前景估计，得到视频图像中的初始前景，并向确定单元701输出初始前景。

相应的，确定单元701，具体用于按如下方式确定所述视频图像中的前景：

对初始估计单元704进行初始估计得到的初始前景进行修正，得到修正的前景，将修正的前景作为视频图像中的前景。

结合第一种实现方式，在第二种实现方式中，该装置还包括提取单元705和设定单元706，如图7C所示。

提取单元705，用于：

分别提取视频图像中的每一帧视频图像的每个像素的特征值，并将特征值组合成五维的特征向量，向聚类单元702输出特征向量，特征值包括表示当前像素的三通道颜色空间的三个分量值，以及当前像素在视频图像所在坐标系中的横坐标数值和纵坐标数值；

设定单元706，用于设定修正前景像素被聚类为M类，每个类别对应一个聚类中心，聚类中心是五维向量，将聚类中心组合成第一矩阵，第一矩阵为5*M的矩阵，向聚类单元702输出第一矩阵；

聚类单元702，具体用于：

根据初始前景像素估计结果、特征向量和第一矩阵，对输入的每一帧视频图像的每个像素进行编码约束，得到M维的编码向量，编码向量的分量为0或1，且最多有一个等于1的分量，其中，M为不小于2的正整数，初始前景像素估计结果为对所述视频图像中的每一帧视频图像的每个像素进行初始前景估计的结果；

结合第二种实现方式，在第三种实现方式中，聚类单元702，具体用于按照如下方式根据初始前景像素、特征向量和第一矩阵，对视频图像中的每一帧视频图像的每个像素进行编码约束，得到M维的编码向量：

按照如下公式，对视频图像中的每一帧视频图像的每个像素进行编码约束：

\min_{D, α} Q (D, α) = \min_{D, α} {\underset{{p | | | α_{p} {| |}_{1} = 1}}{Σ} d_{1} ({Dα}_{p}, I_{p}) + η \underset{p}{Σ} d_{2} (| | α_{p} {| |}_{1}, u_{p})};

通过求解编码约束，得到视频图像中的每一帧视频图像的每个像素的M维的编码向量；

结合第二种实现方式，在第四种实现方式中，聚类单元702，具体用于按照如下方式根据初始前景像素估计结果、特征向量和第一矩阵，对视频图像中的每一帧视频图像的每个像素进行编码约束，得到M维的编码向量：

按照公式

\min_{D, α} Q (D, α) = \min_{D, α} {\underset{{p | | | α_{p} {| |}_{1} = 1}}{Σ} d_{1} ({Dα}_{p}, I_{p}) + η \underset{p}{Σ} d_{2} (| | α_{p} {| |}_{1}, u_{p})},

对视频图像中的每一帧视频图像的每个像素进行第一编码约束；

按照公式

\min_{α} c (α) = \min_{α} {# {p | n ({&PartialD;}_{x, t} α_{p}) + n ({&PartialD;}_{y, t} α_{p}) &NotEqual; 0}},

对视频图像中的每一帧视频图像的每个像素进行第二编码约束；

通过求解第一编码约束和第二编码约束结合后的优化约束，得到视频图像中的每一帧视频图像的每个像素的M维的编码向量；

结合第四种实现方式，在第五种实现方式中，聚类单元702，具体用于：

按照优化条件α_p＝{0,1}^M，||α_p||₁≤1，求解第一编码约束和第二编码约束结合后的优化约束，得到视频图像中的每一帧视频图像的每个像素的M维的编码向量；

其中，Q(D,α)为与的加权和，表示所有修正前景像素的特征向量与其所属类别的聚类中心的差异的总和，表示所有像素的修正前景像素估计结果与初始前景像素估计结果之间差异的总和，d₁(Dα_p,I_p)表示像素p的特征向量与像素p所属类别的聚类中心之间的差异，d₂(||α_p||₁,u_p)表示修正前景像素估计结果与初始前景像素估计结果之间的差异，α为所有像素的编码向量集合，D为第一矩阵，P为当前像素，I_p为像素p的特征向量，u_p为像素p的初始前景像素估计结果，u_p＝1表示像素p为前景像素，u_p＝0表示像素p为背景像素，α_p为像素p的编码向量，η为设定的参数值，||α_p||₁为像素P的编码向量的1范数，{p|||α_p||₁＝1}表示||α_p||₁＝1 的像素集合，c(α)为一组像素的个数，该组内的像素满足像素的编码向量在视频图像的水平方向和时间方向的二阶有限差分的范数与在视频图像的竖直方向和时间方向的二阶有限差分的范数的总和不等于零，λ为设定的参数。

结合第一种实现方式、第二种实现方式、第三种实现方式、第四种实现方式或者第五种实现方式，在第六种实现方式中，该装置还包括判断单元707，如图7D所示。

判断单元707，用于判断在前一帧视频图像中是否存在与当前前景像素属于同一类的前景像素。

估计单元703，具体用于按如下方式确定每种所述类别的前景像素的停留时间：

若判断单元707判断结果为在所述视频图像中的前一帧视频图像中存在与当前前景像素属于同一类的前景像素，则在与当前前景像素属于同一类的前景像素的停留时间的基础上累加当前景像素的停留时间，得到前景像素的停留时间；

若判断单元707判断结果为在所述视频图像中的前一帧视频图像中不存在与当前前景像素属于同一类的前景像素，则以当前前景像素所在的当前帧作为时间起始点，累加当前前景像素的停留时间，得到前景像素的停留时间。

需要说明的是，本发明实施例上述提供的视频图像中前景停留时间的估计装置各个单元实现相应功能时，可以通过硬件实现，也可以通过软件方式实现，这里不做限定。

本发明实施例提供的视频图像中前景停留时间的估计装置，通过聚类单元将视频图像中的前景像素进行聚类，得到不同类别的前景像素，能够较为清楚的区分出每种类别的前景像素，并通过估计单元分别估计每种类别的前景像素的停留时间，得到视频图像中每种类别的前景像素的停留时间，能够针对每种前景像素内部特征进行单独估计，故能够较为准确的估计出视频图像中的前景像素的停留时间，提高前景停留时间估计的准确度。

基于上述实施例提供的视频图像中前景停留时间的估计方法，本发明实施例还提供一种视频图像中前景停留时间的估计装置800，如图8所示，该装置800包括：至少一个处理器801，通信总线802，存储器803以及至少一个通信接口804，存储器803和通信接口804通过通信总线802与至少一个处理器801连接。

本发明实施例中处理器801可以是一个通用中央处理器(CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。

通信总线802可包括一通路，用于至少一个处理器801、存储器803以及至少一个通信接口804之间传送信息。

存储器803，可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。这些存储器通过总线与处理器相连接。

通信接口804，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(Wireless Local Area Networks，WLAN)等。

本发明实施例中，执行本发明方案的应用程序代码保存在存储器803中，并由处理器801来调用执行。处理器801用于执行所述存储器803中存储的应用程序。

在一种可能的实施方式中，当上述应用程序被处理器801执行时，实现如下功能：

确定视频图像中的前景，以及视频图像中与所述前景对应的前景像素；将所述视频图像中的所述前景像素进行聚类，得到至少两种类别的前景像素；分别确定每种所述类别的前景像素的停留时间。

在第一种实现方式中，处理器801，还用于：

对所述视频图像中的每一帧视频图像的每个像素进行初始前景估计，得到视频图像中的初始前景；对所述初始前景进行修正，得到修正的前景，将所述修正的前景作为视频图像中的前景。

结合第一种实现方式，在第二种实现方式中，处理器801还用于：

分别提取所述视频图像中的每一帧视频图像的每个像素的特征值，并将所述特征值组合成五维的特征向量，向所述聚类单元输出所述特征向量，所述特征值包括表征像素三通道颜色空间的每个通道的分量值，以及表征像素位置的行方向数值和列方向数值；设定所述视频图像中的前景像素被聚类为M类，每个类别对应一个聚类中心，所述聚类中心是五维向量，将所述聚类中心组合成第一矩阵，所述第一矩阵为5*M的矩阵，向所述聚类单元输出所述第一矩阵其中，M为不小于2的正整数。

处理器801，具体用于按如下方式对前景像素进行聚类，得到至少两种类别的前景像素：

根据初始前景像素估计结果、特征向量和第一矩阵，对视频图像中的每一帧视频图像的每个像素进行编码约束，得到M维的编码向量，编码向量的分量为0或1，且最多有一个等于1的分量，其中，M为不小于2的正整数；

结合第二种实现方式，在第三种实现方式中，处理器801，具体用于按照如下方式根据初始前景像素估计结果、特征向量和第一矩阵，对视频图像中的每一帧视频图像的每个像素进行编码约束，得到M维的编码向量：

\min_{D, α} Q (D, α) = \min_{D, α} {\underset{{p | | | α_{p} {| |}_{1} = 1}}{Σ} d_{1} ({Dα}_{p}, I_{p}) + η \underset{p}{Σ} d_{2} (| | α_{p} {| |}_{1}, u_{p})};

通过求解编码约束，得到每一帧视频图像的每个像素的M维的编码向量；

结合第二种实现方式，在第四种实现方式中，处理器801，具体用于按照如下方式根据初始前景像素估计结果、特征向量和第一矩阵，对视频图像中的每一帧视频图像的每个像素进行编码约束，得到M维的编码向量：

按照公式

\min_{D, α} Q (D, α) = \min_{D, α} {\underset{{p | | | α_{p} {| |}_{1} = 1}}{Σ} d_{1} ({Dα}_{p}, I_{p}) + η \underset{p}{Σ} d_{2} (| | α_{p} {| |}_{1}, u_{p})},

按照公式

\min_{α} c (α) = \min_{α} {# {p | n ({&PartialD;}_{x, t} α_{p}) + n ({&PartialD;}_{y, t} α_{p}) &NotEqual; 0}},

#表示像素个数，表示α_p在视频图像水平方向和时间方向的二阶有限差分算子，表示α_p在视频图像所在坐标系竖直方向和时间方向的二阶有限差分算子，n()表示向量的范数，c(α)为一组像素的个数，该组内的像素满足像素的编码向量在视频图像所在坐标系水平方向和时间方向的二阶有限差分的范数与在视频图像所在坐标系竖直方向和时间方向的二阶有限差分的范数的总和不等于零。

结合第四种实现方式，在第五种实现方式中，处理器801，具体用于：

其中，Q(D,α)为与的加权和，表示所有修正前景像素的特征向量与其所属类别的聚类中心的差异的总和，表示所有像素的修正前景像素估计结果与初始前景像素估计结果之间差异的总和，d₁(Dα_p,I_p)表示像素p的特征向量与像素p所属类别的聚类中心之间的差异，d₂(||α_p||₁,u_p)表示修正前景像素估计结果与初始前景像素估计结果之间的差异，α为所有像素的编码向量集合，D为第一矩阵，P为当前像素，I_p为像素p的特征向量，u_p为像素p的初始前景像素估计结果，u_p＝1表示像素p为前景像素，u_p＝0表示像素p为背景像素，α_p为像素p的编码向量，η为设定的参数值，||α_p||₁为像素P的编码向量的1范数，{p|||α_p||₁＝1}表示||α_p||₁＝1的像素集合，c(α)为一组像素的个数，该组内的像素满足像素的编码向量在视频图像水平方向和时间方向的二阶有限差分的范数与在视频图像竖直方向和时间方向的二阶有限差分的范数的总和不等于零，λ为设定的参数。

结合第一种实现方式、第二种实现方式、第三种实现方式、第四种实现方式或者第五种实现方式，在第六种实现方式中，处理器801，具体用于：

判断在前一帧视频图像中是否存在与当前前景像素属于同一类的前景像素；

本发明实施例提供的视频图像中前景停留时间的估计装置，通过将视频图像中的前景像素进行聚类，得到不同类别的前景像素，能够较为清楚的区分出每种类别的前景像素，并分别估计每种类别的前景像素的停留时间，得到视频图像中每种类别的前景像素的停留时间，能够针对每种前景像素内部特征进行单独估计，故能够较为准确的估计出视频图像中的前景像素的停留时间，提高前景停留时间估计的准确度。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种视频图像中前景停留时间的估计方法，其特征在于，包括：

将所述前景像素进行聚类，得到至少两种类别的前景像素；

分别确定每种所述类别的前景像素的停留时间。

2.如权利要求1所述的方法，其特征在于，确定视频图像中的前景，包括：

对所述初始前景进行修正，得到修正的前景；

将所述修正的前景作为所述视频图像中的前景。

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

相应的，将所述前景像素进行聚类，得到至少两种类别的前景像素，包括：

4.如权利要求3所述的方法，其特征在于，对所述视频图像中的每一帧视频图像的每个像素进行编码约束，得到M维的编码向量，包括：

\min_{D, α} Q (D, α) = \min_{D, α} {\underset{{p | | | α_{p} {| |}_{1} = 1}}{Σ} d_{1} ({Dα}_{p}, I_{p}) + η \underset{p}{Σ} d_{2} (| | α_{p} {| |}_{1}, u_{p})};

5.如权利要求3所述的方法，其特征在于，对所述视频图像中的每一帧视频图像的每个像素进行编码约束，得到M维的编码向量，包括：

按照公式

\min_{D, α} Q (D, α) = \min_{D, α} {\underset{{p | | | α_{p} {| |}_{1} = 1}}{Σ} d_{1} ({Dα}_{p}, I_{p}) + η \underset{p}{Σ} d_{2} (| | α_{p} {| |}_{1}, u_{p})},

按照公式

\min_{α} c (α) = \min_{α} {# {p | n ({&PartialD;}_{x, t} α_{p}) + n ({&PartialD;}_{y, t} α_{p}) &NotEqual; 0}},

6.如权利要求5所述的方法，其特征在于，通过求解第一编码约束和第二编码约束结合后的优化约束，得到所述视频图像中的每一帧视频图像的每个像素的M维的编码向量，包括：

7.如权利要求2至6任一项所述的方法，其特征在于，确定每种所述类别的前景像素的停留时间，包括：

8.一种视频图像中前景停留时间的估计装置，其特征在于，包括确定单元、聚类单元和估计单元，其中，

所述聚类单元，用于将所述确定单元确定的所述前景包括的前景像素进行聚类，得到至少两种类别的前景像素，并向所述估计单元输出所述至少两种类别的前景像素；

9.如权利要求8所述的装置，其特征在于，该装置还包括初始估计单元，

相应的，所述确定单元具体用于按如下方式确定所述视频图像中的前景：

对所述初始估计单元进行初始估计得到的初始前景进行修正，得到修正的前景，将所述修正的前景作为所述前景。

10.如权利要求9所述的装置，其特征在于，所述装置还包括提取单元和设定单元，

所述提取单元，用于：

所述设定单元，用于设定所述视频图像中的前景像素被聚类为M类，每个类别对应一个聚类中心，所述聚类中心是五维向量，将所述聚类中心组合成第一矩阵，所述第一矩阵为5*M的矩阵，向所述聚类单元输出所述第一矩阵，其中，M为不小于2的正整数；

根据初始前景像素估计结果、所述特征向量和所述第一矩阵，对输入的每一帧视频图像的每个像素进行编码约束，得到M维的编码向量，所述编码向量的分量为0或1，且最多有一个等于1的分量，其中，M为不小于2的正整数，初始前景像素估计结果为对所述视频图像中的每一帧视频图像的每个像素进行初始前景估计的结果；

11.如权利要求10所述的装置，其特征在于，所述聚类单元，具体用于按照如下方式根据初始前景像素估计结果、所述特征向量和所述第一矩阵，对所述视频图像中的每一帧视频图像的每个像素进行编码约束，得到M维的编码向量：

\min_{D, α} Q (D, α) = \min_{D, α} {\underset{{p | | | α_{p} {| |}_{1} = 1}}{Σ} d_{1} ({Dα}_{p}, I_{p}) + η \underset{p}{Σ} d_{2} (| | α_{p} {| |}_{1}, u_{p})};

12.如权利要求10所述的装置，其特征在于，所述聚类单元，具体用于按照如下方式根据初始前景像素估计结果、所述特征向量和所述第一矩阵，对所述视频图像中的每一帧视频图像的每个像素进行编码约束，得到M维的编码向量：

按照公式

\min_{D, α} Q (D, α) = \min_{D, α} {\underset{{p | | | α_{p} {| |}_{1} = 1}}{Σ} d_{1} ({Dα}_{p}, I_{p}) + η \underset{p}{Σ} d_{2} (| | α_{p} {| |}_{1}, u_{p})},

按照公式

\min_{α} c (α) = \min_{α} {# {p | n ({&PartialD;}_{x, t} α_{p}) + n ({&PartialD;}_{y, t} α_{p}) &NotEqual; 0}},

13.如权利要求12所述的装置，其特征在于，所述聚类单元，具体用于：

14.如权利要求9至13任一项所述的装置，其特征在于，所述装置还包括判断单元，其中：