CN104700086A

CN104700086A - 一种用于视频分析的人机交互主题动作挖掘方法

Info

Publication number: CN104700086A
Application number: CN201510123014.7A
Authority: CN
Inventors: 刘华平; 滕辉; 孙富春
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2015-03-20
Filing date: 2015-03-20
Publication date: 2015-06-10
Anticipated expiration: 2035-03-20
Also published as: CN104700086B

Abstract

本发明涉及一种用于视频分析的人机交互主题动作挖掘方法，属于图像处理技术领域。首先从视频中提取时空兴趣点，并利用方向梯度直方图和光流直方图对其提取特征描述子，采用K-均值的方法对特征描述子进行聚类，进一步形成词袋模型。利用向量化的方法得到最终的特征矩阵，通过带有约束项的非负矩阵分解法得到特定个数的主题动作，并将主题动作以不同的颜色绘制在视频序列整个时间轴上。相比于一般的非负矩阵分解，通过增加边缘权值矩阵和约束项等，主题动作分割更加准确。本发明方法基于非负矩阵分解，通过对删除、添加和融合算法的设计，用户可以根据主观意图挖掘视频中的主题动作信息，从而保证了视频分析中主题动作的主观性和准确性。

Description

一种用于视频分析的人机交互主题动作挖掘方法

技术领域

本发明涉及一种用于视频分析的人机交互主题动作挖掘方法，属于图像处理技术领域。

背景技术

最近几年，网络的日趋流行，更多的视频片段信息呈现出来。相比于文字，视频中有更多的信息，也更难以人为主观的加以区分和概括。用户如何能根据自身的主观意图去挖掘视频中的内在信息，是视频动作挖掘的主要难点。

已有技术中，文献[Interest point detection and scale selection in space-time，Ivan Laptev and Tony Lindeberg]使用时空兴趣点特征描述子来检测视频中运动剧烈部分，在动作识别中得到了较为广泛的应用，并结合词袋模型取得了较好的效果。该方法并不依赖于预处理过程，识别过程对于噪声、背景混乱和光照的改变都具有较好的鲁棒性，但所识别的动作很难满足不同主观性。已有技术中，文献[User-driven topic modelingbased on interactive nonnegative matrix factorization，Choo J,Lee C,Reddy C K,et al.UTOPIAN]公开了一种利用非负矩阵分解方法，通过交互的方式，来挖掘文本中的主题摘要文字。对于文本信息而言，一段文本有明确的主题摘要，但对于视频来说，由于用户的主观性，很难找到一个最为精准的主题，不同的用户获得的主题摘要完全依赖于自身的主观意图。

发明内容

本发明的目的是提出一种用于视频分析的人机交互主题动作挖掘方法，以针对人机交互用户的主观意图来挖掘视频中用户感兴趣的主题动作，更具有针对性和准确性。

本发明提出的用于视频分析的人机交互主题动作挖掘方法，包括以下步骤：

(1)提取待分析视频序列的特征矩阵V，具体过程如下：

(1-1)设待分析视频序列为I(x,y,t)，其中x，y为第t帧图像中的像素点在该图像中的坐标，对视频序列I进行高斯卷积，得到高斯卷积后的视频图像序列L：

L (x, y, t; σ_{l}^{2}, τ_{l}^{2}) = g (x, y, t; σ_{l}^{2}, τ_{l}^{2}) * I (x, y, t)

其中，为时空高斯平滑滤波器：

g (x, y, t; σ_{l}^{2}, τ_{l}^{2}) = {\frac{1}{\sqrt{{(2 π)}^{3} σ_{l}^{4} τ_{l}^{2}}} e}^{- \frac{x^{2} + y^{2}}{{2 σ}_{l}^{2}} - \frac{t^{2}}{{2 τ}_{l}^{2}}},

其中，σ_l,τ_l分别为高斯平滑滤波器中空间和时间维度的标准差；

(1-2)根据上述步骤(1-1)的L，按照下式计算得到待分析视频序列的时空二阶矩矩阵μ：

μ = g (x, y, t; σ_{l}^{2}, τ_{l}^{2}) * (\begin{matrix} L_{x}^{2} & L_{x} L_{y} & L_{x} L_{t} \\ L_{x} L_{y} & L_{y}^{2} & L_{y} L_{t} \\ L_{x} L_{t} & L_{y} L_{t} & L_{t}^{2} \end{matrix}),

其中L_x为L在x方向上的偏导，L_y为L在y方向上的偏导，L_t为L在t方向上的偏导；

(1-3)利用上述步骤(1-2)得到的时空二阶矩矩阵μ，构造一个判别函数R：

R＝λ₁λ₂λ₃-k(λ₁+λ₂+λ₃)²，

其中，λ₁，λ₂，λ₃为时空二阶矩矩阵μ的三个特征值，k为常数，取值范围为0.1～10；

(1-4)计算上述判别函数R在时间和坐标上的所有正极大值点，所有正极大值点在待分析视频序列中的位置，即为时空兴趣点集合{x_k,y_k,t_k,σ_k,τ_k}，k＝1，2，…M，其中，M为时空兴趣点个数；

(1-5)提取上述步骤(1-4)的时空兴趣点的特征描述子，具体步骤如下：

(1-5-1)在上述时空兴趣点的四周得到一个长方体区域(Δ_x,Δ_y,Δ_t)，Δ_x＝Δ_y＝2σ_l，Δ_t＝2τ_l，σ_l,τ_l分别为上述高斯平滑滤波器中空间和时间维度的标准差，对长方体区域(Δ_x,Δ_y,Δ_t)进行归一化处理，得到长方体区域(Δ_x,Δ_y,Δ_t)的方向梯度直方图HOG描述子和光流直方图HOF描述子；

(1-5-2)将方向梯度直方图HOG描述子和光流直方图HOF描述子拼接成为HOG/HOF联合描述子，作为时空兴趣点的特征描述子q；

(1-6)重复上述步骤(1-5)，遍历时空兴趣点集合{x_k,y_k,t_k,σ_k,τ_k}中的所有时空兴趣点，提取特征描述子，得到所有时空兴趣点特征描述子集合Q＝[q₁,q₂,…,q_d]，其中，d为特征描述子个数；

(1-7)利用K-均值方法，对上述特征描述子集合Q进行聚类，得到N个聚类中心向量，并得到聚类中心向量矩阵B：B＝[B₁,B₂,…,B_N]；

(1-8)根据步骤(1-6)的时空兴趣点特征描述子和步骤(1-7)的聚类中心向量，按照如下公式计算编码向量c_i：

对于任意i，满足约束条件‖c_i‖₀＝1，‖c_i‖₁＝1，c_i≥0，

得到编码矩阵C_N×d：C＝[c₁,c₂,…,c_d]；

(1-9)利用上述编码矩阵C_N×d，得到待分析视频的特征矩阵V：V＝C^T，特征矩阵V为d×N的非负矩阵，其中，C^T为编码矩阵C_N×d的转置；

(2)利用上述步骤(1)得到的待分析视频的特征矩阵V，提取待处理视频中的主题动作，具体步骤如下：

(2-1)对特征矩阵V＝[v₁,v₂,…,v_i,…,v_N]，按照公式进行归一化处理，得到归一化后的特征矩阵V′＝[v′₁，v′₂，…，v′_i，…，v′_N]，V′为d×N的非负矩阵，其中，N为聚类数，即为待分析视频聚类后的片段个数，d为上述特征描述子个数，令V＝V′；

(2-2)设定一个N维向量m，m＝[m₁,m₂,…,m_i,…,m_N],N为待分析视频聚类后的片段个数，定义一个边缘权值矩阵P_W，其中，N_p(m_i)为与m_i距离为p的所有点的集合，设p＝1，得到边缘权值矩阵

P_{W} = {[\begin{matrix} 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 \\ . & . & . \\ . & . & . \\ . & . & . \\ 1 & 1 & 1 \\ 1 & 1 \end{matrix}]}_{N \times N},

P_W为N×N的方阵；

(2-3)利用上述边缘权值矩阵P_W，定义一个对角矩阵P_D，使P_D为N×N的对角阵；

(2-4)设非负矩阵V≈WH，其中W为d×r的非负矩阵，H为r×N的非负矩阵，d为特征描述子个数，N为待分析视频聚类后的片段个数，r为人机交互中用户设定的主题动作数，利用非负矩阵分解法，分别得到非负矩阵W和非负矩阵H，具体步骤如下：

(2-4-1)初始化非负矩阵W为一个d×r的随机矩阵，每个元素值取为0到1之间的随机数，初始化非负矩阵H为r×N的随机矩阵，每个元素值取为0到1之间的随机数；

(2-4-2)设定一个约束系数λ，0≤λ≤50，按照如下迭代规则分别对W、H进行更新，得到更新后的非负矩阵W和H：

W_{ij} &LeftArrow; W_{ij} \frac{{({VH}^{T})}_{ij}}{{({WHH}^{T})}_{ij}}

H_{αβ} &LeftArrow; H_{αβ} \frac{{(W^{T} V + {λHP}_{w})}_{αβ}}{{(W^{T} WH + {λHP}_{D})}_{αβ}}

其中，H_T为非负矩阵H的转置，P_W为上述边缘权值矩阵，P_D为上述对角矩阵，i、j、α和β分别为矩阵中相应元素的位置；

(2-4-3)重复上述步骤(2-4-2)，迭代1000次，分别得到更新后的非负矩阵W和非负矩阵H，其中，非负矩阵W为d×r的矩阵，非负矩阵W中的每一列分别为挖掘的主题动作的特征描述子，非负矩阵H为r×N的矩阵，非负矩阵H中的每一列为聚类后片段的主题动作分布；

(2-5)使上述步骤(2-4-3)的非负矩阵W＝[w₁,w₂,…,w_r]，按照如下公式，分别计算非负矩阵W的第1列与特征矩阵V中的每一列的相似度，共得到N个相似度值Sim：

Sim (w_{1}, v_{η}) = \frac{< w_{1}, v_{η} >}{| w_{1} | | v_{η} |},

其中<w₁,v_η>为w₁和v_η的内积，w₁为非负矩阵W的第1列，v_η为特征矩阵V中的所有列，η＝1，2，…，N，令w₁＝v，v为相似度值Sim最大时特征矩阵V中的对应列，将w₁作为挖掘出的待分析视频主题动作的特征描述子，用该主题动作的特征描述子的下标表示待分析视频聚类后的对应视频片段数，即为主题动作数，该对应视频片段即为与该特征描述子相对应的主题动作；

(2-6)遍历上述步骤(2-4-3)的非负矩阵W的所有列，重复上述步骤(2-5)，挖掘出待分析视频中的r个主题动作和r个主题动作数；

(2-7)利用上述步骤(2-4)得到的非负矩阵H_r×N，计算得到待分析视频中N个片段主题动作分布的熵值，具体步骤如下：

(2-7-1)对上述步骤(2-4)得到的非负矩阵H＝[h₁ h₂ ... h_N]进行归一化，得到归一化后的非负矩阵

\overset{&OverBar;}{H} = [\begin{matrix} P_{1} \\ P_{2} \\ . \\ . \\ . \\ P_{N} \end{matrix}],

中的每一行即为待分析视频的一个片段，

其中，为h_z的转置，P_z为1×r的向量，r为人机交互中用户设定的主题动作数；

(2-7-2)设上述非负矩阵的第一行P₁＝[p₁,p₂,…,p_r]，计算非负矩阵第一行的熵值S₁：

其中r为人机交互中用户设定的主题动作数；

(2-7-3)遍历非负矩阵的所有行，得到非负矩阵的所有行的熵值S，

S = [\begin{matrix} S_{1} \\ S_{2} \\ . \\ . \\ . \\ S_{N} \end{matrix}],

S即为待分析视频的N个片段主题动作分布的熵值；

(2-8)从上述熵值S中选取5个最大的熵值，将5个最大的熵值的下标作为5个备选主题动作的片段数，将上述步骤(2-1)的特征矩阵V中与该5个片段数相对应的列作为5个备选主题动作的特征描述子[w′₁，…，w′_s]；

(2-9)用不同的颜色绘制待分析视频的N个片段在时间轴上的分布，具体步骤如下：

(2-9-1)利用上述步骤(2-7-1)的非负矩阵，由于中的每一行表示待分析视频的一个片段，取中每一个行向量中r个元素中的最大值，以该最大值的下标作为该行即该片段的主题动作数；

(2-9-2)遍历非负矩阵的N行，分别得到非负矩阵所有行所对应的主题动作数，相同的主题动作数用同一种颜色绘制在时间轴上，得到主题动作时间分布图；

(3)利用人机交互，在r个主题动作中添加感兴趣的主题动作，具体包括以下几个步骤：

(3-1)利用上述步骤(2-6)挖掘出的r个主题动作的特征描述子W＝[w₁,w₂,…,w_r]，人机交互用户从上述步骤(2-8)中的备选主题动作的特征描述子[w′₁，…，w′₅]中选择g个备选主题动作特征描述子，将该g个备选主题动作特征描述子添加到主题动作特征描述子中，其中0<g<5，得到r+g个特征描述子矩阵其中为d×(r+g)的矩阵；

(3-2)根据上述特征描述子矩阵，按照如下迭代公式，迭代1000次，重新计算非负矩阵H：

H_{αβ} &LeftArrow; H_{αβ} \frac{{({\overset{&OverBar;}{W}}^{T} V + {λHP}_{w})}_{αβ}}{{({\overset{&OverBar;}{W}}^{T} \overset{&OverBar;}{W} H + {λHP}_{D})}_{αβ}};

(3-3)根据上述步骤(3-2)的非负矩阵H，重复上述步骤(2-9)，更新待分析视频的N个片段在时间轴上的分布；

(3-4)将上述步骤(2-8)的5个备选动作片段数中的g个片段数，添加到r个主题动作数中，得到r+g个主题动作数，将与待分析视频片段数中的r+g个主题动作数相对应的片段作为挖掘的待分析视频的初始主题动作；

(4)利用人机交互，从上述初始主题动作中删除不感兴趣的主题动作，具体步骤如下：

(4-1)根据上述步骤(3)的特征描述子人机交互用户删除特征描述子中的第f列，其中，0≤f<r-1,f为整数，得到r+g-1个主题动作的特征描述子使

\overset{&OverBar;}{W} = [w_{1}, w_{2}, . . ., w_{r + g - 1}];

(4-2)根据上述步骤(4-1)的特征描述子按照如下迭代公式，迭代1000次，重新计算非负矩阵H，

H_{αβ} &LeftArrow; H_{αβ} \frac{{({\overset{&OverBar;}{W}}^{T} V + {λHP}_{w})}_{αβ}}{{({\overset{&OverBar;}{W}}^{T} \overset{&OverBar;}{W} H + {λHP}_{D})}_{αβ}};

(4-3)利用上述步骤(4-2)的非负矩阵H，重复上述步骤(2-9)，更新待分析视频的N个片段在时间轴上的分布；

(4-4)删除r+g个主题动作数中的第f个主题动作数，得到r+g-1个主题动作数，将与待分析视频片段数中的r+g-1个主题动作数相对应的片段作为挖掘的待分析视频的中间主题动作；

(5)根据上述中间主题动作，利用人机交互融合用户感兴趣的主题动作，具体步骤如下：

(5-1)人机交互的用户从上述步骤(4)的中间主题动作中挑选相近似的第t和第t+b个动作，从上述步骤(4)的特征描述子中删除第t+b列，得到特征描述子其中，t和b均为正整数，0<t<t+b<5；

(5-2)将主题动作数为t和t+b的主题动作标记为同一种颜色，更新待分析视频的N个片段在时间轴上的分布；

(5-3)人机交互的用户从上述步骤(4)的中间主题动作数中删除第t+b个主题动作数，得到r+g-2个主题动作数，与待分析视频片段数中的r+g-2个主题动作数相对应的片段即为人机交互挖掘的待分析视频的主题动作。

本发明提出的用于视频分析的人机交互主题动作挖掘方法，具有以下优点：

1、本发明提出的视频分析的交互式动作挖掘方法采用时空兴趣点描述子结合词袋模型来提取视频序列特征，对视频序列中的动作剧烈部分捕捉可靠。

2、本发明采用的挖掘算法基于非负矩阵分解，同时加入了边缘权值矩阵、对角阵以及约束系数，对视频序列中的主题动作有更加准确的挖掘。

3、本发明的挖掘算法利用熵值，得到了5个备选主题动作，可为用户挖掘主题动作提供选择。

4、本发明的交互式挖掘算法采用了对主题动作的删除、添加和融合，分别可以删除用户不关心的主题动作，添加任意多个备选动作，融合相似的主题动作，并将主题动作以不同的颜色绘制在整个视频时间轴上，加以区分。

具体实施方式

(1)提取待分析视频序列的特征矩阵V，具体过程如下：

L (x, y, t; σ_{l}^{2}, τ_{l}^{2}) = g (x, y, t; σ_{l}^{2}, τ_{l}^{2}) * I (x, y, t)

其中，为时空高斯平滑滤波器：

g (x, y, t; σ_{l}^{2}, τ_{l}^{2}) = {\frac{1}{\sqrt{{(2 π)}^{3} σ_{l}^{4} τ_{l}^{2}}} e}^{- \frac{x^{2} + y^{2}}{{2 σ}_{l}^{2}} - \frac{t^{2}}{{2 τ}_{l}^{2}}},

μ = g (x, y, t; σ_{l}^{2}, τ_{l}^{2}) * (\begin{matrix} L_{x}^{2} & L_{x} L_{y} & L_{x} L_{t} \\ L_{x} L_{y} & L_{y}^{2} & L_{y} L_{t} \\ L_{x} L_{t} & L_{y} L_{t} & L_{t}^{2} \end{matrix}),

R＝λ₁λ₂λ₃-k(λ₁+λ₂+λ₃)²，

得到编码矩阵C_N×d：C＝[c₁,c₂,…,c_d]；

P_{W} = {[\begin{matrix} 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 \\ . & . & . \\ . & . & . \\ . & . & . \\ 1 & 1 & 1 \\ 1 & 1 \end{matrix}]}_{N \times N},

P_W为N×N的方阵；

W_{ij} &LeftArrow; W_{ij} \frac{{({VH}^{T})}_{ij}}{{({WHH}^{T})}_{ij}}

H_{αβ} &LeftArrow; H_{αβ} \frac{{(W^{T} V + {λHP}_{w})}_{αβ}}{{(W^{T} WH + {λHP}_{D})}_{αβ}}

其中，H^T为非负矩阵H的转置，P_W为上述边缘权值矩阵，P_D为上述对角矩阵，i、j、α和β分别为矩阵中相应元素的位置；

Sim (w_{1}, v_{η}) = \frac{< w_{1}, v_{η} >}{| w_{1} | | v_{η} |},

\overset{&OverBar;}{H} = [\begin{matrix} P_{1} \\ P_{2} \\ . \\ . \\ . \\ P_{N} \end{matrix}],

中的每一行即为待分析视频的一个片段，

其中r为人机交互中用户设定的主题动作数；

S = [\begin{matrix} S_{1} \\ S_{2} \\ . \\ . \\ . \\ S_{N} \end{matrix}],

S即为待分析视频的N个片段主题动作分布的熵值；

(2-8)从上述熵值S中选取5个最大的熵值，将5个最大的熵值的下标作为5个备选主题动作的片段数，将上述步骤(2-1)的特征矩阵V中与该5个片段数相对应的列作为5个备选主题动作的特征描述子[w′₁，…，w′₅]；

(2-9-1)利用上述步骤(2-7-1)的非负矩阵由于中的每一行表示待分析视频的一个片段，取中每一个行向量中r个元素中的最大值，以该最大值的下标作为该行即该片段的主题动作数；

H_{αβ} &LeftArrow; H_{αβ} \frac{{({\overset{&OverBar;}{W}}^{T} V + {λHP}_{w})}_{αβ}}{{({\overset{&OverBar;}{W}}^{T} \overset{&OverBar;}{W} H + {λHP}_{D})}_{αβ}};

若用户需要多次添加感兴趣的主题动作，则可以重复上述步骤(3-1)～步骤(3-4)，进行多次人机交互，以添加感兴趣的主题动作。

\overset{&OverBar;}{W} = [w_{1}, w_{2}, . . ., w_{r + g - 1}];

H_{αβ} &LeftArrow; H_{αβ} \frac{{({\overset{&OverBar;}{W}}^{T} V + {λHP}_{w})}_{αβ}}{{({\overset{&OverBar;}{W}}^{T} \overset{&OverBar;}{W} H + {λHP}_{D})}_{αβ}};

若用户需要多次删除不感兴趣的主题动作，则可以重复上述步骤(4-1)～步骤(4-4)，进行多次人机交互，以删除不感兴趣的主题动作。

若用户需要多次融合相近似的主题动作，则可以重复上述步骤(5-1)～步骤(5-3)，进行多次人机交互，以融合相近似的主题动作。

Claims

1.一种用于视频分析的人机交互主题动作挖掘方法，其特征在于该方法包括以下步骤：

(1)提取待分析视频序列的特征矩阵V，具体过程如下：

L (x, y, t; σ_{l}^{2}, τ_{l}^{2}) = g (x, y, t; σ_{l}^{2}, τ_{l}^{2}) * I (x, y, t)

其中，为时空高斯平滑滤波器：

g (x, y, t; σ_{l}^{2}, τ_{l}^{2}) = \frac{1}{\sqrt{{(2 π)}^{3} σ_{l}^{4} τ_{l}^{2}}} e^{- \frac{x^{2} + y^{2}}{2 σ_{l}^{2}} - \frac{t^{2}}{2 τ_{l}^{2}}},

μ = g (x, y, t; σ_{l}^{2}, τ_{l}^{2}) * (\begin{matrix} L_{x}^{2} & L_{x} l_{y} & L_{x} L_{t} \\ L_{x} L_{y} & L_{y}^{2} & L_{y} L_{t} \\ L_{x} L_{t} & L_{y} L_{t} & L_{t}^{2} \end{matrix}),

R＝λ₁λ₂λ₃-k(λ₁+λ₂+λ₃)²，

对于任意i，满足约束条件||c_i||₀＝1，||c_i||₁＝1，c_i≥0，

得到编码矩阵C_N×d：C＝[c₁,c₂,…,c_d]；

(2-1)对特征矩阵V＝[v₁,v₂,…,v_i,…,v_N]，按照公式进行归一化处理，得到归一化后的特征矩阵V'＝[v′₁,v'₂,…,v′_i,…,v'N]，V'为d×N的非负矩阵，其中，N为聚类数，即为待分析视频聚类后的片段个数，d为上述特征描述子个数，令V＝V'；

P_{W} = {[\begin{matrix} 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \\ 1 & 1 & 1 \\ 1 & 1 \end{matrix}]}_{N \times N},

P_W为N×N的方阵；

W_{ij} &LeftArrow; W_{ij} \frac{{({VH}^{T})}_{ij}}{{({WHH}^{T})}_{ij}}

H_{αβ} &LeftArrow; H_{αβ} \frac{{(W^{T} V + λ {HP}_{w})}_{αβ}}{{(W^{T} WH + λ {HP}_{D})}_{αβ}}

Sim (w_{1}, v_{η}) = \frac{< w_{1}, v_{η} >}{| w_{1} | | v_{η} |},

\overset{&OverBar;}{H} = [\begin{matrix} P_{1} \\ P_{2} \\ \cdot \\ \cdot \\ \cdot \\ P_{N} \end{matrix}],

中的每一行即为待分析视频的一个片段，

其中，z＝1,2，…N，为h_z的转置，P_z为1×r的向量，r为人机交互中用户设定的主题动作数；

其中r为人机交互中用户设定的主题动作数；

S = [\begin{matrix} S_{1} \\ S_{2} \\ \cdot \\ \cdot \\ \cdot \\ S_{N} \end{matrix}],

S即为待分析视频的N个片段主题动作分布的熵值；

(2-8)从上述熵值S中选取5个最大的熵值，将5个最大的熵值的下标作为5个备选主题动作的片段数，将上述步骤(2-1)的特征矩阵V中与该5个片段数相对应的列作为5个备选主题动作的特征描述子[w′₁,…,w'₅]；

(3-1)利用上述步骤(2-6)挖掘出的r个主题动作的特征描述子W＝[w₁,w₂,…,w_r]，人机交互用户从上述步骤(2-8)中的备选主题动作的特征描述子[w′₁,…,w'₅]中选择g个备选主题动作特征描述子，将该g个备选主题动作特征描述子添加到主题动作特征描述子中，其中0<g<5，得到r+g个特征描述子矩阵其中为d×(r+g)的矩阵；

(3-2)根据上述特征描述子矩阵按照如下迭代公式，迭代1000次，重新计算非负矩阵H：

H_{αβ} &LeftArrow; H_{αβ} \frac{{({\overset{&OverBar;}{W}}^{T} V + λ {HP}_{w})}_{αβ}}{{({\overset{&OverBar;}{W}}^{T} \overset{&OverBar;}{W} H + λ {HP}_{D})}_{αβ}};

\overset{&OverBar;}{W} = [w_{1}, w_{2}, \cdot \cdot \cdot, w_{r + g - 1}];

H_{αβ} &LeftArrow; H_{αβ} \frac{{({\overset{&OverBar;}{W}}^{T} V + λ {HP}_{w})}_{αβ}}{{({\overset{&OverBar;}{W}}^{T} \overset{&OverBar;}{W} H + λ {HP}_{D})}_{αβ}};