CN105243670A

CN105243670A - 一种稀疏和低秩联合表达的视频前景对象精准提取方法

Info

Publication number: CN105243670A
Application number: CN201510695505.9A
Authority: CN
Inventors: 陈小武; 邹冬青; 曹光英; 王小刚
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2015-10-23
Filing date: 2015-10-23
Publication date: 2016-01-13
Anticipated expiration: 2035-10-23
Also published as: CN105243670B; US10235571B2; US20170116481A1

Abstract

本发明提供一种稀疏和低秩联合表达的视频前景对象精准提取方法，该方法首先选取输入视频中能够代表视频特征的帧作为关键帧，然后根据关键帧中的已知像素点训练出字典，接着根据字典获取满足低秩、稀疏和非负约束的重构系数，并根据重构系数建立输入视频中每个像素之间的非局部关系矩阵，同时建立多帧之间的拉普拉斯矩阵，再根据输入视频的已知像素点的α值和字典中样本点的α值、非局部关系矩阵和拉普拉斯矩阵，获取输入视频的视频掩像，最后根据视频掩像提取出输入视频的前景对象，保证了视频掩像在时域上的一致性，提高了提取的前景对象的质量。

Description

一种稀疏和低秩联合表达的视频前景对象精准提取方法

技术领域

本发明涉及图像处理技术，尤其涉及一种稀疏和低秩联合表达的视频前景对象精准提取方法。

背景技术

视频前景对象精准提取旨在视频中提取出移动的前景物体，并且能够保证良好的时域一致性。视频前景对象精准提取作为计算机视觉领域的重要技术问题，在毛发建模、去雾等方面具有广泛的应用，近几年有不少提取方法也相继被提出，以实现在复杂的视频图像中提取高质量的前景对象。

随着稀疏表达已经被广泛地应用于人脸识别、图像分类、图像修复和视频去噪等领域，Jubin等人提出了基于稀疏表达的图像前景物体精准提取的方法，该方法用整个视频的前景像素点重构原图像，根据稀疏表达系数矩阵中每个像素点相应系数的和来估计像素点的不透明度α(alpha)值。该方法能够自动选取合适的样本点来重构原图像，但是其不能保证具有相似特征的像素点的α值相近，从而不能保证视频掩像(alphamatte)的时域一致性，且只采用前景像素点作为字典，表达能力差，从而导致采用该方法提取的前景对象质量不高。

X.Chen和Q.Chen等人提出了引入非局部先验的方法来获取视频掩像，通过构建视频掩像的非局部结构来提高提取质量。该方法在实现时，对每个像素点都直接选取固定数量的样本点来重构该像素点，但是样本点选取少了会导致遗漏掉好的样本点，样本点选取多了会导致噪声，并且很难为具备相似特征的像素点构建一致的非局部结构，这样可能会导致视频掩像时域上的不一致，从而采用该方法提取的背景对象质量不高。

上述两种方法，在进行视频前景对象提取时，都具有诸多缺点而导致提取的背景对象质量不高，因此，有必要提出一种新的方案来提高提取的前景对象的质量。

发明内容

针对现有技术的上述缺陷，本发明提供一种稀疏和低秩联合表达的视频前景对象精准提取方法，用于提高提取的前景对象的质量。

本发明提供一种稀疏和低秩联合表达的视频前景对象精准提取方法，包括：

确定输入视频中的已知像素点和未知像素点，设置已知像素点的不透明度α值，并选取输入视频中能够代表视频特征的帧作为关键帧，其中已知像素点包括前景像素点和背景像素点；根据关键帧中的已知像素点训练出字典，并设置字典中样本点的α值，字典包括前景字典和背景字典；根据字典获取输入视频关于字典的重构系数，并根据重构系数建立输入视频中每个像素之间的非局部关系矩阵，其中，重构系数满足低秩、稀疏和非负；建立多帧之间的拉普拉斯矩阵；根据输入视频的已知像素点的α值和字典中样本点的α值、非局部关系矩阵和拉普拉斯矩阵，获取输入视频的视频掩像；根据视频掩像提取出输入视频的前景对象。

在本发明的一实施例中，确定输入视频中的已知像素点和未知像素点，具体包括：

采用画笔式交互标记确定输入视频中的已知像素点和未知像素点，或者，根据输入视频的三分图确定输入视频中的已知像素点和未知像素点。

在本发明的一实施例中，设置已知像素点的不透明度α值，具体包括：

将已知的前景像素点的α值设置为1，将已知的背景像素点的α值设置为0。

在本发明的一实施例中，根据关键帧中的已知像素训练出字典，具体包括：

根据最小化以下能量方程(1)训练出字典：

\underset{(D, Z)}{argmin} \underset{i, j}{Σ} (| | \hat{X} - D Z | |_{F}^{2} + | | {\hat{X}}_{i} - D_{i} Z_{i} | |_{F}^{2} + \underset{j &NotEqual; i}{Σ} | | D_{j} Z_{i}^{j} | |_{F}^{2}) - - - (1)

其中，表示关键帧中的已知像素点，和分别表示关键帧中已知的前景像素点和背景像素点；D＝{D_f,D_b}表示训练出的字典，D_f和D_b分别表示前景字典和背景字典；Z＝{Z_f,Z_b}表示已知像素点关于字典D的重构系数，表示前景点关于字典D的重构系数，表示背景点关于字典D的构造矩阵的系数，表示已知点关于子字典D_j的重构系数。

在本发明的一实施例中，根据字典获取输入视频关于字典的重构系数，具体包括：

根据最小化以下能量方程(2)获取输入视频关于字典的重构系数：

m i n Σ_{i}^{n} (| | X_{i} - {DW}_{i} | |_{0} + | | W_{i} | |_{0}) + | | W | |_{*} &ForAll; p, q, {(w_{i})}_{p, q} &Element; W_{i}, s . t . {(w_{i})}_{p, q} > = 0. - - - (2)

其中，X＝{X₁,…,X_n}，n表示输入视频共n帧，X_i表示第i帧的RGBXY特征，||·||_*表示核范数，为矩阵奇异值的和，||·||₀表示零范数，为非零元素的个数，m表示每一帧中共m个像素点，t表示字典D共有t个样本点，(w_i)_q,p表示第i帧中第p个像素点对字典中第q个样本点的重构系数。

在本发明的一实施例中，根据重构系数建立输入视频中每个像素之间的非局部关系矩阵，具体包括：

根据公式(3)建立非局部关系矩阵：

m i n Σ_{i}^{n} Σ_{j}^{m} {(α_{i j} - α_{D} w_{i j})}^{2} - - - (3)

其中α_ij表示第i帧中第j个像素点的α值，m表示每一帧中像素点的数量，α_D＝{α_f,α_b}表示字典D中所有样本点的α值，α_f＝1表示前景字典中的样本点的α值，α_b＝0表示背景字典中的样本点的α值，w_ij＝[(w_i)_1,j,...,(w_i)_t,j]表示第i帧中第j个像素点对字典D的重构系数。

在本发明的一实施例中，建立多帧之间的拉普拉斯矩阵，具体包括：

根据公式(4)建立多帧之间的拉普拉斯矩阵：

其中，表示拉普拉斯矩阵，δ控制局部平滑的强度，k表示一帧中窗口的个数，c_k表示第k个窗口，C_i表示第i个像素点的颜色值，μ_k和Σ_k分别表示窗口中的颜色均值和方差，ò为正规系数，d×m²为窗口的尺寸，表示选取相邻d帧，每帧取m²窗口内的像素点作为邻居，I表示单位矩阵。

在本发明的一实施例中，将正规系数ò设置为10^-5，m设置为3，d设置为2。

在本发明的一实施例中，根据输入视频的已知像素点的α值和字典中样本点α值、非局部关系矩阵和拉普拉斯矩阵，获取输入视频的视频掩像，具体包括：

根据公式(5)获取输入视频中每个未知像素点的α值：

E = λ \underset{s &Element; S}{Σ} {(α_{s} - g_{s})}^{2} + Σ_{i = 1}^{n} Σ_{j = 1}^{m} {(α_{i j} - α_{D} w_{i j})}^{2} + Σ_{i = 1}^{n} Σ_{j = 1}^{m} {(Σ_{(k &Element; N_{j}} W_{j t}^{m l a p} (α_{i j} - α_{k}))}^{2} - - - (5)

其中，S表示输入视频的已知像素点的α值和字典中样本点α值构成的集合，N_j为像素点j在d×m²的窗口中的邻接点，g_s＝1表示集合S中的像素点s为前景像素点，g_s＝0表示集合S中的像素点s为背景像素点；

根据输入视频的已知像素点的α值和未知像素点的α值获取输入视频的视频掩像。

本实施例提供的稀疏和低秩联合表达的视频前景对象精准提取方法，根据选取的关键帧中已知的前景像素点和背景像素点训练出具有较强表达性的字典；然后根据该字典获取满足低秩、稀疏和非负约束的重构系数，根据重构系数建立输入视频中每个像素之间的非局部关系矩阵，同时建立多帧之间的拉普拉斯矩阵，从而保证了获取的输入视频的视频掩像的时域一致性和局部光滑性，进而使得根据该视频掩像提取的输入视频的前景对象的质量也得到了有效的提高。

附图说明

图1为本发明提供的视频前景对象提取方法实施例一的流程示意图；

图2为本发明中多帧之间的拉普拉斯矩阵的构建图；

图3为本发明提供的视频前景对象提取方法实施例二的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明提供的视频前景对象提取方法实施例一的流程示意图，本方法的执行主体可以是计算机等处理设备，如图1所示，本实施例提供的方法包括：

S101、确定输入视频中的已知像素点和未知像素点，设置已知像素点的不透明度α值，并选取输入视频中能够代表视频特征的帧作为关键帧。

具体的，已知像素点包括前景像素点和背景像素点，前景像素点就是需要提取出的图像内容所在区域中的像素，背景像素点就是不需要提取的图像内容所在区域中的像素；已知像素点就是根据输入视频可以明确确定属于前景图像或背景图像的像素点，未知像素点就是前景图像和背景图像交叉难以区别的区域中的像素。

在确定已知像素点和未知像素点时，可以采用画笔式交互标记确定输入视频中的已知像素点和未知像素点，例如：采用画笔标记视频图像中的前景像素和背景像素，其中，用白色画笔覆盖的像素点为已知的前景像素点，用黑色画笔覆盖的像素点为已知的背景像素点；其他未用画笔做标记的像素点为未知像素点。

或者，也可以根据输入视频的三分图确定输入视频中的已知像素点和未知像素点，具体的，可以提供与输入视频相同尺寸的黑白灰三分图，白色区域所对应的像素点为已知的前景像素点，黑色区域所对应的像素点为已知的背景像素点，灰色区域所对应的像素点为未知像素点。

需要说明的是，在确定输入视频中的已知像素点和未知像素点时，可以根据实际情况对全部输入视频采用上述方式进行处理，也可以只对部分输入视频进行处理，其他未确定已知像素点的视频图像中的所有像素点均确定为未知像素点。

在确定完设置输入视频中的已知像素点后，可以对已知像素点的不透明度α值进行设置，将需要提取出的前景像素点的α值设置为较大的值，将不需要提取出的背景像素点的α值设置为较小的值。优选的，本实施例中，将已知的前景像素点的α值设置为最大值1，将已知的背景像素点的α值设置为最小值0。

另外，整个输入视频的数据量较大，本实施例中，选取输入视频中能够代表视频特征的帧作为关键帧来训练字典，以减少计算量。在选取关键帧时，可以每隔若干帧图像选取一帧图像，将选取的几帧图像作为关键帧；也可以在变化较大的视频段多选取几帧图像，在变化较小的视频段少选取几帧图像作为关键帧，具体都可根据情况任意选择，只要能够代表视频特征即可。

S102、根据关键帧中的已知像素点训练出字典，并设置字典中样本点的α值。

获取关键帧之后，即可根据关键帧中的已知像素点训练出字典，字典包括前景字典和背景字典，其特征空间为包括RGBXY特征值在内的五维特征空间，其中RGB是像素点的RGB颜色值，XY是像素点在图像中的坐标位置。字典的训练过程可转化为最小化以下能量方程：

\underset{(D, Z)}{argmin} \underset{i, j}{Σ} (| | \hat{X} - D Z | |_{F}^{2} + | | {\hat{X}}_{i} - D_{i} Z_{i} | |_{F}^{2} + \underset{j &NotEqual; i}{Σ} | | D_{j} Z_{i}^{j} | |_{F}^{2}) - - - (1)

其中，表示关键帧中的已知像素点，和分别表示关键帧中已知的前景像素点和背景像素点；D＝{D_f,D_b}表示训练的字典，D_f和D_b分别表示前景字典和背景字典；Z＝{Z_f,Z_b}表示已知像素点关于字典D的重构系数，表示前景点关于字典D的重构系数，表示背景点关于字典D的构造矩阵的系数，表示已知点关于子字典D_j的重构系数。

上述公式(1)中，第一项表示该字典能够重构所有已知的像素点，从而能够保证该字典具有较强的表达能力；第二项表示字典D_i能够重构出已知像素点X_i，即前景像素点能够由前景字典重构出来并且背景像素点能够由背景字典重构出来；第三项约束已知像素点X_i关于字典D_j的重构系数要接近于0，即前景点对前景字典有响应但对背景字典几乎没有响应，并且背景点对背景点有响应但是对前景字典几乎没有响应，前景字典和背景字典有较强的区分性，也就是说，前景点是由前景字典重构出来的但不能由背景字典重构出来，背景点是由背景字典重构出来但不能由前景字典重构出来。

对于字典中各样本点的α值，可将前景字典中样本点的α值设置为1，将背景字典中样本点的α值设置为0。

S103、根据字典获取输入视频关于字典的重构系数，并根据重构系数建立输入视频中每个像素之间的非局部关系矩阵。

由于不同视频帧的描述的相同物体的像素点来自于一个完全相同的特征子空间，所以每一个像素点都能够由特征子空间中的元素通过线性组合表达出来，进而整个视频可以由字典通过低秩稀疏的表达矩阵(即下述的重构系数矩阵)重构出来。对于整个输入视频，其中的每个像素点关于字典D都有一个重构系数，整个输入视频的重构系数可以表示为：

对整个输入视频的重构系数的求解过程可归结为最小化以下能量方程：

m i n Σ_{i}^{n} (| | X_{i} - {DW}_{i} | |_{0} + | | W_{i} | |_{0}) + | | W | |_{*} &ForAll; p, q, {(w_{i})}_{p, q} &Element; W_{i}, s . t . {(w_{i})}_{p, q} > = 0. - - - (2)

其中，X＝{X₁,…,X_n}，n表示输入视频共n帧，X_i表示第i帧的RGBXY特征，||·||_*表示核范数，为矩阵奇异值的和，用于约束重构系数低秩，||·||₀表示零范数，为非零元素的个数，用于约束重构系数稀疏，m表示每一帧中共m个像素点，t表示字典D共有t个样本点，(w_i)_q,p表示第i帧中第p个像素点对字典中第q个样本点的重构系数。

在上述公式(2)中，稀疏约束能够保证视频中的每个像素点能够由字典中的几个元素重构出来，低秩约束能够保证视频掩像时域上的一致性。具体的，低秩约束能够保证一帧中具有相似特征的像素点能够由字典中相同的元素重构出来，这样便保证了视频掩像在空间上的一致性；低秩约束还能够保证连续视频中具有相似特征的像素点也能够由字典中的相同元素重构出来，这样便保证了视频掩像在时间上的一致性。优选的，低秩要求W的秩远小于它的行数和列数，稀疏要求W中的0的数量超过50％。

在求解出输入视频的重构系数之后，可以根据重构系数建立输入视频中每个像素之间的非局部关系矩阵：

m i n Σ_{i}^{n} Σ_{j}^{m} {(α_{i j} - α_{D} w_{i j})}^{2} - - - (3)

上述求解的重构系数满足低秩和稀疏约束，从而根据该重构系数构建的非局部关系矩阵能够保证视频掩像在非局部关系上的时域一致性。

S104、建立多帧之间的拉普拉斯矩阵。

在建立非局部关系的同时，可以通过建立帧间的拉普拉斯矩阵来保证视频掩像在局部关系上的时域一致性。具体可以根据公式(4)建立多帧之间的拉普拉斯矩阵

其中，δ控制局部平滑的强度，k表示一帧中窗口的个数，c_k表示第k个窗口，C_i表示第i个像素点的颜色值，μ_k和Σ_k分别表示窗口中的颜色均值和方差，ò为正规系数，d×m²为窗口的尺寸，表示选取相邻d帧，每帧取m²窗口内的像素点作为邻居，I表示单位矩阵。

上述拉普拉斯矩阵由单帧图像扩展到多帧图像，除了考虑在本帧中邻域窗口内的像素点外，还会考虑相邻视频帧间邻域窗口内的像素点，由这些像素点共同作为邻居构建该点的颜色线模型，从而既能够增强视频掩像的局部光滑性，还能够增强相邻帧的视频掩像的时域一致性。

优选的，在上述公式(4)中，将正规系数ò设置为10^-5，m设置为3，d设置为2。图2为本发明中多帧之间的拉普拉斯矩阵的构建图，如图2所示，图中说明了构建两帧拉普拉斯矩阵的方法。对于当前帧的像素点j来说，不仅要考虑本帧中3×3的窗口内的像素点，还要考虑相邻帧中3×3的窗口内的像素点，这两部分像素点共同构成像素j的邻居，然后构建拉普拉斯矩阵。

需要说明的是，步骤S103和步骤S104之间没有严格的时序关系，步骤S104也可以在步骤S103之前执行，还可以与步骤S103同时执行。

S105、根据输入视频的已知像素点的α值和字典中样本点的α值、非局部关系矩阵和拉普拉斯矩阵，获取输入视频的视频掩像。

根据S101中确定的所有已知像素点的α值、S102中训练出的字典中各样本点的α值、S103中建立的非局部关系矩阵和S104中建立的拉普拉斯矩阵，可以构建连续多帧中所有像素点额能量方程，通过最小化能量方程可以解得每一个像素点属于前景的概率(即α值)，从而得到视频掩像。

具体的，可以根据公式(5)构建能量方程：

E = λ \underset{s &Element; S}{Σ} {(α_{s} - g_{s})}^{2} + Σ_{i = 1}^{n} Σ_{j = 1}^{m} {(α_{i j} - α_{D} w_{i j})}^{2} + Σ_{i = 1}^{n} Σ_{j = 1}^{m} {(Σ_{(k &Element; N_{j}} W_{j t}^{m l a p} (α_{i j} - α_{k}))}^{2} - - - (5)

其中，S表示输入视频的已知像素点的α值和字典中样本点α值构成的集合，N_j为像素点j在d×m²的窗口中的邻接点，g_s＝1表示集合S中的像素点s为前景像素点，g_s＝0表示集合S中的像素点s为背景像素点。

在根据上述公式(5)求得输入视频中未知像素点的α值后，再结合输入视频的已知像素点的α值，即可获取输入视频的视频掩像。

对于上述公式(5)的求解，具体可以通过以下方式实现：

上述能量方程E用矩阵形式可以表示为：

E＝(α-G)^TΛ(α-G)+α^TLα(6)

其中Λ为对角线矩阵，如果像素点s属于集合S则设Λ_ss为很大的常数，例如200，否则设为0，G是一个向量，其值在步骤S102中确定的α值，如果像素点s属于已知的前景像素点则设G_s为1，否则设为0，

L = [\begin{matrix} L_{D} & - W \\ - W^{T} & L_{u} \end{matrix}],

其中W是输入视频关于字典D的重构系数矩阵，L_D＝W*W^T，L_u对角线是每一帧的多帧拉普拉斯矩阵，即L_u＝diag(W₁ ^mlap；...；W_n ^mlap)，上述能量方程的矩阵形式表示(6)是关于α的二次方程，可通过求解下列线性方程最小化α值：

(Λ+L)α＝ΛG(7)

上述方程是一个稀疏线性方程组，可以通过预处理共轭梯度方法求解一个全局最优的闭合解。

S106、根据视频掩像提取出输入视频的前景对象。

对于输入视频X，其每个像素点X_i都是由前景图像的颜色F_i和背景图像的颜色B_i线性组合而成的，即X_i＝F_i×α_i+B_i×(1-α_i)，因此将上述获取的视频掩像中各像素点的α值与输入视频中各像素点进行点乘，即可提取出输入视频的前景对象，具体用公式可以表示为：

C＝X×α(7)

其中C表示提取后的视频图像，X表示输入视频，α表示与输入视频对应的视频掩像中各像素点的α值。

现有的基于稀疏表达的图像前景物体精准提取的方法，只采用前景像素点重构原图像，不能保证视频掩像的时域一致性，且只采用前景像素点作为字典，表达能力差，导致采用该方法提取的前景对象质量不高；而相比该方法，本实施例中通过低秩约束和多帧之间的拉普拉斯矩阵来保证具有相似特征的像素点具有相似的α值，从而保证了视频掩像的时域一致性，并且用来训练字典的已知像素点包括背景像素点和前景像素点，构造出的前景字典和背景字典具有较强的区分性，表达能力强，有效的提高了提取的前景对象的质量，此外本实施例中只采用关键帧中的像素点训练字典，计算量小。现有的引入非局部先验的方法来获取视频掩像的方法，选取固定数量的样本点来重构原图像，很难为具备相似特征的像素点构建一致的非局部结构，从而可能会导致视频掩像时域上的不一致，采用该方法提取的前景对象质量不高；而本实施例提供的方法，首先根据已知像素点构造出前景字典和背景字典，然后在求解重构系数时通过稀疏约束来自动选取字典中的样本点，并且通过低秩约束和多帧之间的拉普拉斯矩阵来保证具有相似特征的像素点具有相似的α值，从而保证了视频掩像的时域一致性，进而有效的提高了提取的前景对象的质量。

本实施例提供的方法，经过多次实验，在处理物体快速运动时留下的残影问题、半透明物体的边缘和不同的半透明度、以及拓扑结构变化很大的物体时，都具有很大的优势，可广泛应用到影视节目制作等图像处理领域。

本实施例提供的稀疏和低秩联合表达的视频前景对象精准提取方法，根据选取的关键帧中已知的前景像素点和背景像素点训练出具有较强表达能力和区分性的字典；然后根据该字典获取满足低秩、稀疏和非负约束的重构系数，根据重构系数建立输入视频中每个像素之间的非局部关系矩阵，同时建立多帧之间的拉普拉斯矩阵，从而保证了获取的输入视频的视频掩像的时域一致性和局部光滑性，进而使得根据该视频掩像提取的输入视频的前景对象的质量也得到了有效的提高。

图3为本发明提供的视频前景对象提取方法实施例二的流程示意图，本实施例主要是对上述步骤S103中获取输入视频关于字典的重构系数的详细步骤进行说明。在上述实施例的基础上，如图3所示，本实施例中，步骤S103根据字典获取输入视频关于字典的重构系数，具体包括：

S201、将公式(2)等价转化为公式(8)：

\begin{matrix} m i n Σ_{i}^{n} (| | W_{i} | |_{1} + λ | | E_{i} | |_{1}) + γ | | W | |_{*} & s . t . & X_{i} = D_{i} S_{i} + E_{i}; W = J_{i}; W = S_{i}; W_{i} = T_{i}, T_{i} > = 0. \end{matrix} - - - (8)

其中，X_i表示第i帧的RGBXY特征，λ和γ表示平衡系数，S₁,…,S_n,…,J₁,…,J_n,…,T₁,…,T_n为辅助变量。

S202、将公式(3)等价转化为公式(9)：

\begin{matrix} m i n (γ | | W | |_{*} + Σ_{i}^{n} (| | J_{i} | |_{1} + λ | | E_{i} | |_{1}) + Σ_{i}^{n} (< A_{i}, W_{i} - J_{i} > + < Y_{i}, X_{i} - D_{i} S_{i} - E_{i} > + < V_{i}, W_{i} - S_{i} > \\ + < U_{i}, W_{i} - T_{i} > + \frac{μ}{2} | | X_{i} - D_{i} S_{i} - E_{i} | |_{F}^{2} + \frac{μ}{2} | | W_{i} - J_{i} | |_{F}^{2} + \frac{μ}{2} | | W_{i} - S_{i} | |_{F}^{2} + \frac{μ}{2} | | W_{i} - T_{i} | |_{F}^{2})) \end{matrix} - - - (9)

其中，E_i为对第i帧的重构误差，A₁,…,A_n,…,Y₁,…,Y_n,…,V₁,…,V_n,U₁,…,U_n为是拉格朗日乘子。

S203、采用交替方向法(alternatingdirectionmethod，ADM)求解公式(9)。

ADM算法也就是增广拉格朗日乘子法(inexactaugmentedLagrangemultiplierMethod；inexactALM)，该ADM算法主要采用迭代求解方法，输入变量有n帧视频X、字典D和平衡系数λ、γ。具体的步骤如下：

首先进行初始化A＝U＝V＝Y＝0,S＝T＝J＝0,μ＝10^-6，然后开始迭代过程：

1、固定其他变量，更新J_i，具体采用的公式为：

J_{i} = \underset{J_{i}}{argmin} \frac{1}{μ} | | J_{i} | |_{1} + \frac{1}{2} | | J_{i} - (W_{i} + \frac{A_{i}}{μ}) | |_{F}^{2} .

2、固定其他变量，更新S_i，具体采用的公式为：

S_{i} = {(D^{T} D + I)}^{- 1} (D^{T} (X_{i} - E_{i}) + W_{i} + \frac{(D^{T} Y_{i} + V_{i})}{μ}) \cdot

3、固定其他变量，更新T_i，具体采用的公式为：

T_{i} = W_{i} + \frac{U_{i}}{μ}, T_{i} = m a x (T_{i}, 0) \cdot

4、固定其他变量，更新W，具体采用的公式为：

W_{i} = \underset{W}{argmin} \frac{γ}{2 μ} | | W | |_{*} + \frac{1}{2} | | W - M | |_{F}^{2} .

其中，M＝[F₁,F₂,…,F_n]，

F_{i} = \frac{1}{3} (J_{i} + S_{i} + T_{i} = \frac{(A_{i} + V_{i} + U_{i})}{μ}) .

5、固定其他变量，更新重构误差E_i，具体采用的公式为：

E_{i} = \underset{E_{i}}{argmin} \frac{λ}{μ} | | E_{i} | |_{1} + \frac{1}{2} | | E_{i} - (X_{i} - {DS}_{i} + \frac{Y_{i}}{μ}) | |_{F}^{2} .

6、更新每个拉格朗日乘子A_i,Y_i,V_i，具体采用的公式为：

A_i＝A_i+μ(W_i-J_i),Y_i＝Y_i+μ(X_i-DS_i-E_i),

V_i＝V_i+μ(W_i-S_i),U_i＝U_i+μ(W_i-T_i).

7、更新μ，具体采用的公式为：

μ＝min(1.1μ,10¹⁰).(ρ＝1.9).

8、检查收敛条件是否达到，即X_i-DS_i-E_i→0,W_i-J_i→0,W_i-S_i→0andW_i-T_i→0，如果不收敛则继续迭代，直到收敛或者达到最大的迭代次数。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种稀疏和低秩联合表达的视频前景对象精准提取方法，其特征在于，包括：

确定输入视频中的已知像素点和未知像素点，设置所述已知像素点的不透明度α值，并选取输入视频中能够代表视频特征的帧作为关键帧，其中所述已知像素点包括前景像素点和背景像素点；

根据所述关键帧中的已知像素点训练出字典，并设置所述字典中样本点的α值，所述字典包括前景字典和背景字典；

根据所述字典获取所述输入视频关于所述字典的重构系数，并根据所述重构系数建立所述输入视频中每个像素之间的非局部关系矩阵，其中，所述重构系数满足低秩、稀疏和非负；

建立多帧之间的拉普拉斯矩阵；

根据所述输入视频的已知像素点的α值和所述字典中样本点的α值、所述非局部关系矩阵和所述拉普拉斯矩阵，获取所述输入视频的视频掩像；

根据所述视频掩像提取出所述输入视频的前景对象。

2.根据权利要求1所述的方法，其特征在于，所述确定输入视频中的已知像素点和未知像素点，具体包括：

采用画笔式交互标记确定输入视频中的已知像素点和未知像素点，

或者，根据输入视频的三分图确定输入视频中的已知像素点和未知像素点。

3.根据权利要求1所述的方法，其特征在于，所述设置所述已知像素点的不透明度α值，具体包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述关键帧中的已知像素训练出字典，具体包括：

根据最小化以下能量方程(1)训练出字典：

\underset{(D, Z)}{argmin} \underset{i, j}{Σ} (| | \hat{X} - D Z | |_{F}^{2} + | | {\hat{X}}_{i} - D_{i} Z_{i} | |_{F}^{2} + \underset{j &NotEqual; i}{Σ} | | D_{j} Z_{i}^{j} | |_{F}^{2}) - - - (1)

5.根据权利要求4所述的方法，其特征在于，所述根据所述字典获取所述输入视频关于所述字典的重构系数，具体包括：

根据最小化以下能量方程(2)获取所述输入视频关于所述字典的重构系数：

m i n Σ_{i}^{n} (| | X_{i} - {DW}_{i} | |_{0} + | | W_{i} | |_{0}) + | | W | |_{*} &ForAll; p, q, {(w_{i})}_{p, q} &Element; W_{i}, s . t . {(w_{i})}_{p, q} > = 0. - - - (2)

6.根据权利要求5所述的方法，其特征在于，根据所述重构系数建立所述输入视频中每个像素之间的非局部关系矩阵，具体包括：

根据公式(3)建立所述非局部关系矩阵：

m i n Σ_{i}^{n} Σ_{j}^{m} {(α_{i j} - α_{D} w_{i j})}^{2} - - - (3)

7.根据权利要求6所述的方法，其特征在于，所述建立多帧之间的拉普拉斯矩阵，具体包括：

根据公式(4)建立多帧之间的拉普拉斯矩阵：

8.根据权利要求7所述的方法，其特征在于，将正规系数ò设置为10^-5，m设置为3，d设置为2。

9.根据权利要求7所述的方法，其特征在于，所述根据所述输入视频的已知像素点的α值和所述字典中样本点α值、所述非局部关系矩阵和所述拉普拉斯矩阵，获取所述输入视频的视频掩像，具体包括：

根据公式(5)获取所述输入视频中每个未知像素点的α值：

E = λ \underset{s &Element; S}{Σ} {(α_{s} - g_{s})}^{2} + Σ_{i = 1}^{n} Σ_{j = 1}^{m} {(α_{i j} - α_{D} w_{i j})}^{2} + Σ_{i = 1}^{n} Σ_{j = 1}^{m} {(Σ_{(k &Element; N_{j}} W_{j t}^{m l a p} (α_{i j} - α_{k}))}^{2} - - - (5)

根据所述输入视频的已知像素点的α值和未知像素点的α值获取所述输入视频的视频掩像。