CN103246922A

CN103246922A - 一种视频摘要生成方法

Info

Publication number: CN103246922A
Application number: CN2013101648375A
Authority: CN
Inventors: 徐玲; 颜昕骅; 张小洪; 周小龙; 洪明坚
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2013-05-07
Filing date: 2013-05-07
Publication date: 2013-08-14
Anticipated expiration: 2033-05-07
Also published as: CN103246922B

Abstract

本发明提供视频摘要生成方法，该方法步骤包括：首先，接收视频文件，并将该视频文件的视频信息分解成序列视频帧；其次，对序列视频帧进行运动物体检测和跟踪，获得运动物体各序列视频帧中的运动轨迹；再次，利用遗传算法对运动物体的运动轨迹进行组合优化得到最优染色体；最优，将最优染色体中各个基因对应的起始帧所确定的视频摘要中的运动轨迹，按照各个基因的排列顺序粘贴到背景帧中，生成视频摘要输出。本方法对原始视频中所有运动物体的运动轨迹进行操作，信息损失量更小，同时也更具普遍性，另外由于本方法采用遗产算法对运动轨迹的进行组合优化，不但减低了运动轨迹的信息损失量，而且提高了视频摘要生成的效率。

Description

一种视频摘要生成方法

技术领域

本发明涉及电子通信及视频图像处理领域，特别涉及一种视频摘要生成方法。

背景技术

随着数字视频技术的快速发展，对视频分析和处理要求不断提高。而从海量监控视频数据中查找某个时间段发生的事情，十分耗时耗力。如何快速获取大容量视频的内容，帮助用户迅速浏览视频数据，成为目前监控行业的迫切需求。

作为基于内容的视频分析的一种主要应用，近年来有大量的研究集中在视频摘要提取算法上。视频摘要，是通过对视频的结构和内容进行分析，从原始视频中提取出有意义的部分，并将它们以某种方式进行组合而成的紧凑的、能充分表达视频语义内容。它是对视频内容的简单概括，观众可以通过观看摘要快速而准确的获取视频内容。视频摘要可分为静态视频摘要和动态视频摘要两类。静态视频摘要一般是提取关键帧序列，通过多个关键帧组合成视频得到的视频摘要。动态视频摘要也称为缩略视频，相比关键帧序列，它由原始视频中提取的运动信息组成。显然运动视频比静止的图像帧更有意义，从语义方面增加了对原始视频的表达力。

目前，最为经典的视频摘要生成方法是通过抽取原视频的关键帧，将关键帧聚合在一起，形成不同主题的场景视频片段，选取出其中一些场景按时间顺序组合起来，编码形成视频摘要输出。这种方法存在如下缺点：首先，该方法选取的原视频中的关键帧，并不能覆盖尽可能多的镜头从而得到最完备的视频摘要，因此，会造成大量行为信息的丢失，无法充分满足用户获取全面信息的需求；另外，该种采用截取关键帧的方法很难做到普适性，比如对于一方面要求能提供一个比原始视频短得多的压缩视频片段，另一方面必须保持原始视频中的绝大部分的运动信息的监控视频就不适用。

发明内容

针对现有技术存在的上述问题，本发明的目的是：提供一种视频摘要生成方法，该方法解决了现有技术在生产视频摘要过程中存在的信息完备性差、应用普遍性低的技术问题。

为实现上述发明目的，本发明采用如下技术方案：一种视频摘要生成方法，包括如下步骤：

S1，接收视频文件，并将该视频文件的视频信息分解成序列视频帧；

S2，对步骤S1中的序列视频帧进行运动物体检测，得到运动物体的轮廓，该运动物体的轮廓称为团块，对检测得到团块进行跟踪，根据运动物体的轮廓确定团块在各序列视频帧中的运动轨迹；

S3，利用遗传算法对步骤S2得到的团块运动轨迹进行组合优化，具体如下：

S31，将视频摘要的长度定义为SynopLen，并预先设定SynopLen的值，预先设定循环终止条件，该循环终止条件为循环次数经验值或代价损失最小阈值E_min；

S32，选择操作，具体如下：

S321，采用实数编码的方式，将步骤S31中得到的团块的运动轨迹进行实数编码，得到各个团块的运动轨迹的集合，定义从视频文件中检测出的各个团块的运动轨迹的集合为B，B={b₁,b₂,b₃…b_i…b_n}，b_i表示从视频文件中检测出的第i个团块的运动轨迹，n表示从视频文件中检测出的团块的数量；所述团块的运动轨迹的集合B映射到视频摘要中的运动轨迹集合为B′，

其中，表示第i个团块的运动轨迹映射到视频摘要中的运动轨迹，k表示映射到视频摘要中的团块数量；将视频摘要中的运动轨迹集合B′中的每条运动轨迹的起始帧的帧序号作为基因组合成染色体，所述运动轨迹集合B′中的每条运动轨迹的起始帧的帧序号为0至SynopLen间的随机整数；

S322，将步骤S331的过程重复Q次，Q为正整数，得到Q条染色体，将该Q条染色体作为父代种群；

S323，根据式（2）表示的适应度函数计算所述Q条染色体各自对应的代价损失值，将最小的代价损失值记为E_min′，记录E_min′及其对应的染色体，并将该染色体作为首次优化的染色体；

E_{q} (M) = \min (\underset{b_{i}^{'} &Element; B^{'}}{Σ} E_{a} ({b_{i}}^{'}) + \underset{b_{k 1}^{'}, b_{k 2}^{'} &Element; B^{'}}{Σ} E_{c} (b_{k_{1}}^{'}, b_{k 2}^{'})), 1 \leq q \leq Q; k_{1}, k_{2} \leq k; k_{1} &NotEqual; k_{2} - - - (2);

其中，E_q(M)为父代种群中第q条染色体对应的代价损失值，

为父代种群中第q条染色体对应的视频摘要中的运动轨迹

的活动能量损失函数，如式（3）：

E_{a} (b_{i}^{'}) = \underset{x, y, t}{Σ} X_{b_{i}^{'}} (x, y, t) - - - (3);

表示父代种群中第q条染色体对应的视频摘要中的运动轨迹

在第t帧视频帧中坐标（x,y）处的像素值，

表示父代种群中第q条染色体对应的视频摘要中的运动轨迹

在第t帧对应的背景帧在坐标（x,y）处的像素值，

表示父代种群中第q条染色体对应的视频摘要中的运动轨迹

的帧数范围；

是父代种群中第q条染色体对应的视频摘要中的运动轨迹

与

之间的活动冲突能量代价函数，如式（5）：

E_{c} (b_{k_{1}}^{'}, b_{k 2}^{'}) = \underset{x, y, t}{Σ} [X_{b_{k_{1}}^{'}} (x, y, t) \cdot X_{b_{k_{2}}^{'}} (x, y, t)], t &Element; t b_{k_{1}}^{'} \cap t b_{k 2}^{'} - - - (5)

表示父代种群中第q条染色体对应的视频摘要中的运动轨迹b_k1′在第t帧视频帧中坐标（x,y）处的像素值，表示父代种群中第q条染色体对应的视频摘要中的运动轨迹b_k1′在第t帧对应的背景帧在坐标（x,y）处的像素值，

表示在父代种群中第q条染色体对应的视频摘要中的运动轨迹b_k1′的帧数范围；

表示父代种群中第q条染色体对应的视频摘要中的运动轨迹b_k2′在第t帧对应的背景帧在坐标（x,y）处的像素值，

表示在父代种群中第q条染色体对应的视频摘要中的运动轨迹b_k2′的帧数范围；

S33，交叉操作，具体如下：

S331，将步骤S322得到的父代种群作为测试种群；

S332，从测试种群中随机选取两条染色体Q1和Q2，定义交叉概率为Pc=0.9，生成两个随机整数a和b，其中0≤a，b≤k，利用交叉算子算法和步骤S341中定义的交叉概率Pc，截取所述两条染色体Q1和Q2上位于a与b之间的基因进行交换，形成两条交叉后的染色体Q1‘和Q2‘，使用所述两条交叉后的染色体Q1‘和Q2‘替换测试种群中与之相应的两条染色体Q1和Q2，更新测试种群；

S34，变异操作：生成随机整数c，d和e，其中0≤c≤Q；0≤d≤k，0≤e≤SynopLen，变异概率为P_m=0.01，随机整数c确定从经步骤S34更新后的测试种群中选取第c条染色体Qc进行变异操作，随机整数d确定第c条染色体Qc发生变异的基因，随机整数e确定染色体Qc发生变异的第d个基因所代表的视频摘要中的运动轨迹

的起始帧帧序号，再利用变异概率P_m和变异遗传算法，形成变异后的染色体Qc‘，使用所述变异后的染色体Qc‘替换父代种群中与之相应的染色体Qc，更新测试种群；

S35，个体评价：

S351，根据公式（8）表示的适应度函数计算经过步骤S35更新后的测试种群中的Q条染色体各自对应的代价损失值，将最小的代价损失值记为E_min″，并将该染色体作为再次优化的染色体；

{E_{q}}^{''} (M) = \min (\underset{b^{''} &Element; B^{''}}{Σ} E_{a} ({b_{i}}^{''}) + \underset{b_{k 1}^{''}, b_{k 2}^{''} &Element; B^{''}}{Σ} E_{c} (b_{k_{1}}^{''}, b_{k 2}^{''})), 1 \leq q \leq Q; k_{1}, k_{2} \leq k; k_{1} &NotEqual; k_{2} - - - (8);

其中，E_q″(M)表示测试种群中第q条染色体对应的代价损失值，E_a(b_i″)为测试种群中第q条染色体对应的视频摘要中的运动轨迹b_i″的活动能量损失函数，如式（9）：

E_{a} ({b_{i}}^{''}) = \underset{x, y, t}{Σ} X_{{b_{i}}^{''}} (x, y, t) - - - (9);

表示测试种群中第q条染色体对应的视频摘要中的运动轨迹b_i″在第t帧视频帧中坐标（x,y）处的像素值，

表示测试种群中第q条染色体对应的视频摘要中的运动轨迹b_i″在第t帧对应的背景帧在坐标（x,y）处的像素值，

表示测试种群中第q条染色体对应的视频摘要中的运动轨迹b_i″的帧数范围；

是测试种群中第q条染色体对应的视频摘要中的运动轨迹

与

之间的活动冲突能量代价函数，如式（11）：

E_{c} (b_{k_{1}}^{''}, b_{k 2}^{''}) = \underset{x, y, t}{Σ} [X_{b_{k_{1}}^{''}} (x, y, t) \cdot X_{b_{k_{2}}^{''}} (x, y, t)], t &Element; t b_{k_{1}}^{''} \cap t b_{k 2}^{''} - - - (11)

其中，

表示测试种群中第q条染色体对应的视频摘要中的运动轨迹b_k1″在第t帧视频帧中坐标（x,y）处的像素值，

表示测试种群中第q条染色体对应的视频摘要中的运动轨迹b_k1″在第t帧对应的背景帧在坐标（x,y）处的像素值，表示在测试种群中第q条染色体对应的视频摘要中的运动轨迹b_k1″的帧数范围；表示测试种群中第q条染色体对应的视频摘要中的运动轨迹b_k1″′在第t帧对应的背景帧在坐标（x,y）处的像素值，

表示测试种群中第q条染色体对应的视频摘要中的运动轨迹b_k2″在第t帧对应的背景帧在坐标（x,y）处的像素值，

表示在测试种群中第q条染色体对应的视频摘要中的运动轨迹b_k2″的帧数范围；

S352，采用步骤S361相同的方法分别计算经步骤S335更新后的父代种群中的T条再次优化的染色体对应的得到T个运动轨迹的集合的代价损失值，将最小的代价损失值记为E_min″，当E_min″≤E_min时，存储E_min″，并将E_min″对应的染色体作为最优染色体，执行步骤S4；当E_min″≤E_min′时，将E_min′替换为E_min″，执行步骤S36；当E_min″＞E_min′时，采用蒙特卡洛概率的判断是否将E_min′替换为E_min″，执行步骤S36；

S36，循环上述步骤S332～S35，当循环次数等于预先设定的经验值时，将该次循环中的染色体作为最优染色体，并执行步骤S4；

S4，将所述最优染色体中各个基因对应的起始帧所确定的视频摘要中的运动轨迹，按照最优染色体中各个基因的排列顺序，粘贴到背景帧中，从而生成视频摘要输出。

作为优化，所述步骤S2中采用码本模型运动检测法对运动物体进行检测。

作为优化，所述步骤S2中采用粒子滤波跟踪算法对运动物体进行跟踪，确定团块运动轨迹。

作为优化，所述步骤S332中的Q≥20。父代种群中染色体数量的选择跟计算的精确度有关，为达到本发明的目的，申请人父代种群中染色体数量设定为20。

相对于现有技术，本发明具有如下优点：

1、本发明是对原始视频中所有运动物体的运动轨迹进行操作，相比现有抽取原视频的关键帧的方法生成的视频摘要，信息损失量更小，能充分满足用户获取全面信息的需求。

2、本发明方法提供的视频摘要生成方法具有普遍性。

3、由于本发明对运动轨迹的组合优化采用了遗产算法，不但减低了运动轨迹的信息损失量，而且提高了视频摘要生成的效率。

附图说明

图1为本发明视频摘要生成示例。

图2a和2b为实施例1中的原始视频截图。

图3为实施例1中生成的视频摘要截图。

图4为实施例1中模拟退火算法与遗传算法的代价损失值对比图。

图5为实施例1中模拟退火算法与遗传算法的时间花费对比图。

图6a和6b为实施例2中的原始视频截图。

图7为实施例2中生成的视频摘要截图。

图8为实施例2中模拟退火算法与遗传算法的代价损失值对比图。

图9为实施例2中模拟退火算法与遗传算法的时间花费对比图。

图10为本发明方法的流程图。

具体实施方式

下面结合附图和实施例对本发明的技术做进一步详细说明。

一种视频摘要生成方法，包括如下步骤：

运动物体检测是将序列视频帧中活动的部分（行人、车等）从背景帧中分离出来。运动物体检测的方法属于现有技术，作为优选，本发明采用码本模型运动检测算法。码本模型运动检测算法是Kim等人提出的基于统计规律的运动目标检测方法，该算法为视频帧的每个像素位置建立包含一个或多个码字的码本，然后对新输入的像素值按亮度和色度失真度进行聚类，提取前景目标。该算法具有计算量小、鲁棒性强的特点，可通过迭代更新码本模型来适应背景变化。

团块进行跟踪实际上就是对所检测出来的团块的处理过程，确定各运动物体的运动轨迹。对团块进行跟踪的方法属于现有技术，作为优选，本发明采用粒子滤波跟踪算法获得运动目标跟踪。利用码本模型运动检测后，结合前后帧信息，视频帧中前景团块的状态一般为如下几种：

①新进入团块:刚出出现在视频中。判断准则是看其是否与前一帧的某个团块存在重合，如果存在重合，说明此团结是旧的团块，否则是新进来的目标团块。

②单独团块：视频中单独运动的团块。

③合并的团块：几个目标发生交叉、遮挡等而并在一起的团块。

④拆分的团块：合并的团块拆分出来的团块。

⑤正消失的团块：正从视频中消失的团块。如果该团块处于视频帧的边界上并且团块面积小于阈值，进一步判断其面积是否有变小的趋势，若是，则认为此团块即将消失，对该团块所在的目标跟踪完毕。

S31，将视频摘要的长度定义为SynopLen，并预先设定SynopLen的值，预先设定循环终止条件，该循环终止条件为循环次数经验值或目标代价损失最小阈值E_min；

摘要的长度SynopLen的值通常是根据经验设定，也即该SynopLen的值为经验值，循环次数经验值和目标代价损失最小阈值E_min也均为根据经验设定的经验值。

S32，选择操作，具体如下：

其中，

表示第i个团块的运动轨迹映射到视频摘要中的运动轨迹，k表示映射到视频摘要中的团块数量；将视频摘要中的运动轨迹集合B′中的每条运动轨迹的起始帧的帧序号作为基因组合成染色体，所述运动轨迹集合B′中的每条运动轨迹的起始帧的帧序号为0至SynopLen间的随机整数；

二进制编码的标准遗传算法在各个领域有着广泛的应用，但是处理高位连续扫所空间问题和对问题的解要求较大数值精度的时候，二进制编码的长度往往较过长，从而增加了算法实现的复杂性，而且可能影响信息传递量，使运算结果产生较大误差。实数编码的方式可以极大的缩减编码长度，使得信息传递量进坑内地保持一致，不但简化了运算，而且运算的准确性更高。

序列视频帧中每一个团块的运动轨迹，看通过以下的特征函数来描述：

X_{blob} (x, y, t) = \{\begin{matrix} | | I (x, y, t) - P (x, y, t) | |, t &Element; t_{blob} \\ 0, otherwise \end{matrix} - - - (20)

其中，I(x,y,t)表示第t帧视频帧中，坐标（x,y）处的像素值，B(x,y,t)表示第t帧对应的背景帧在坐标（x,y）处的像素值，t_blob表示团块运动轨迹的帧数范围。当坐标（x,y）处存在团块时，取I(x,y,t)与B(x,y,t)之差的第一范数来表示团块与背景的区分度。当范数越小，则说明团块与背景帧的差异越小，视觉效果不明显，看不太清晰；当范数越大，则说明团块与背景帧的差异越大，视觉效果越明显，很容易与背景帧区分开来。当坐标(x,y)处不存在团块时，I(x,y,t)与B(x,y,t)之差为0，物理意义为此处即等同于背景帧。最终得到的X_blob(x,y,t)的集合即为视频中某一团块的轨迹信息b_i，将所有团块都做类似处理，即得到该视频中所述团块的运动轨迹B={b₁,b₂,b₃…b_i…b_z},z=n。

视频摘要的生成是建立在对团块的运动轨迹进行时间轴上转移的基础上，将团块的运动轨迹的集合B={b₁,b₂,b₃…b_i…b_z},z=n映射到视频摘要中后的运动轨迹的集合，即得

B^{'} = {b_{1}^{'}, b_{2}^{'}, b_{3}^{'} \cdot \cdot \cdot b_{i}^{'} \cdot \cdot \cdot b_{k}^{'}}, k = n .

定义视频摘要中的运动轨迹其中nsf_i1表示视频摘要中的运动轨迹b_i的起始帧，nsf_ih表示视频摘要中的运动轨迹b_i的第h帧，nef_i表示视频摘要中的运动轨迹b_i的结束帧，nsf_i1的帧序号作为一个染色体的一个基因，nsf_i1的帧序号指的是该起始帧nsf_i1在视频摘要中出现的帧序号，将集合中的每条运动轨迹的起始帧的帧序号分别作为一个基因，然后将这些基因组合便成了一条染色体，其中每条运动轨迹的起始帧的帧序号均为0至SynopLen间的随机整数。一条染色体中基因的排序方式就表示集合

中每条运动轨迹的起始帧的排序，完成对染色体基因排序方式优化，其实就是对集合B′中每条运动轨迹排布的优化。

E_{q} (M) = \min (\underset{b_{i}^{'} &Element; B^{'}}{Σ} E_{a} ({b_{i}}^{'}) + \underset{b_{k 1}^{'}, b_{k 2}^{'} &Element; B^{'}}{Σ} E_{c} (b_{k_{1}}^{'}, b_{k 2}^{'})), 1 \leq q \leq Q; k_{1}, k_{2} \leq k; k_{1} &NotEqual; k_{2} - - - (2);

其中，E_q(M)为父代种群中第q条染色体对应的代价损失值，

为父代种群中第q条染色体对应的视频摘要中的运动轨迹

的活动能量损失函数，如式（3）：

E_{a} (b_{i}^{'}) = \underset{x, y, t}{Σ} X_{b_{i}^{'}} (x, y, t) - - - (3);

表示父代种群中第q条染色体对应的视频摘要中的运动轨迹

在第t帧视频帧中坐标（x,y）处的像素值，

表示父代种群中第q条染色体对应的视频摘要中的运动轨迹

在第t帧对应的背景帧在坐标（x,y）处的像素值，

表示在父代种群中第q条染色体对应的视频摘要中的运动轨迹

的帧数范围；此处的帧数范围是指视频摘要中的运动轨迹

的从起始帧到结束帧的帧数范围。

从视频文件中检测出的第i个团块的运动轨迹为b_i，运动轨迹b_i的长度为Len，团块的运动轨迹b_i的起始帧为startFrame，团块的运动轨迹b_i的结束帧为endFrame，团块的运动轨迹b_i映射到摘要中的运动轨迹为

摘要中的运动轨迹

的起始帧nsf_i1的帧序号为newStartFrame，摘要中的运动轨迹的结束帧nef_i的帧序号为newEndFrame；

摘要中的运动轨迹

的起始帧nsf_i1的帧序号newStartFrame为0至SynopLen间的任一随机整数，利用公式（1）计算得到摘要中的运动轨迹

的结束帧nef_i的帧序号newEndFrame：

newEndFrame = \{\begin{matrix} newStartFrame + Len - 1, & newStartFrame + Len \leq SynopLen \\ SynopLen - 1, & otherwise \end{matrix} - - - (1);

也就是说，当摘要中的运动轨迹

的结束帧nef_i的帧序号newEndFrame未超出视频摘要的长度SynopLen的范围时，则将EndFrame的值更新为计算得到的newEndFrame的值；当newEndFrame的值超出视频摘要的长度SynopLen的范围时，则需要将摘要中的运动轨迹

超出视频摘要长度SynopLen的帧序号对应的序列帧截掉，并将视频摘要的最后一帧的帧序号作为摘要中的运动轨迹

的结束帧nef_i序号newEndFrame。视频摘要的起始帧序号为0，因此，视频摘要的结束帧的序号为SynopLen-1。

从视频文件中检测出的团块的运动轨迹的集合为B={b₁,b₂,b₃…b_i…b_n}，集合B中的每个团块的运动轨迹分别映射到视频摘要中后，由于在视频摘要中的运动轨迹的起始帧的帧序号是在0至SynopLen间的任一随机整数，所以，有部分团块的运动轨迹映射到视频摘要中后，可能就会部分丢失，造成信息量的丢失。例如，假设某一团块的运动轨迹映射到视频摘要中运动轨迹的起始帧的帧序号为SynopLen-1，那就意味着该团块的运动轨迹映射到视频摘要中后只保留了第一帧，其他部分都将被截掉。通过公式（3）便可计算出第i个团块的运动轨迹b_i映射到视频摘要中后的运动轨迹

的信息损失量。

是父代种群中第q条染色体对应的视频摘要中的运动轨迹

与

之间的活动冲突能量代价函数，如式（5）：

E_{c} (b_{k_{1}}^{'}, b_{k 2}^{'}) = \underset{x, y, t}{Σ} [X_{b_{k_{1}}^{'}} (x, y, t) \cdot X_{b_{k_{2}}^{'}} (x, y, t)], t &Element; t b_{k_{1}}^{'} \cap t b_{k 2}^{'} - - - (5)

表示父代种群中第q条染色体对应的视频摘要中的运动轨迹b_k1′在第t帧视频帧中坐标（x,y）处的像素值，

表示父代种群中第q条染色体对应的视频摘要中的运动轨迹b_k1′在第t帧对应的背景帧在坐标（x,y）处的像素值，

表示在父代种群中第q条染色体对应的视频摘要中的运动轨迹b_k1′的帧数范围，此处的帧数范围是指视频摘要中的运动轨迹b_k1′的从起始帧到结束帧的帧数范围；表示父代种群中第q条染色体对应的视频摘要中的运动轨迹b_k2′在第t帧对应的背景帧在坐标（x,y）处的像素值，

表示在父代种群中第q条染色体对应的视频摘要中的运动轨迹b_k2′的帧数范围；此处的帧数范围是指视频摘要中的运动轨迹b_k2′的从起始帧到结束帧的帧数范围。

由于团块的运动轨迹映射到视频摘要中后，可能会存在交叉、重叠的情况，从而造成相应运动轨迹信息量的损失。若两个团块的运动轨迹映射到视频摘要中的运动轨迹分别为

与

由于视频摘要中的运动轨迹

与

的起始帧的帧序号号均是帧序号为0至SynopLen间的随机整数，则运动轨迹

与

有可能存在交叉、重叠的情况，从而可能造成运动轨迹

与

的信息量的损失。通过公式（5）便可计算出两个团块的运动轨迹映射到视频摘要中后的运动轨迹与

的信息损失量。

最后，再利用公式（2）计算将所有团块的运动轨迹映射到视频摘要中产生的总的信息损失量，将该总的信息损失量记为代价损失值，也就是完成了对一条染色体的代价损失值的计算。如此，计算Q条染色体各自对应的代价损失值，记录最小的代价损失值E_min′及其对应的染色体。

S33，交叉操作，具体如下：

S331，将步骤S322得到的父代种群作为测试种群；

S332，从测试种群中随机选取两条染色体Q1和Q2，定义交叉概率为Pc=0.9，生成两个随机整数a和b，其中0≤a，b≤k，利用交叉算子算法和步骤S341中定义的交叉概率Pc，截取所述两条染色体Q1和Q2上位于a与b之间的基因进行交换，形成两条交叉后的染色体Q1‘和Q2‘，使用所述两条交叉后的染色体Q1‘和Q2‘替换测试种群中与之相应的两条染色体Q1和Q2，更新测试种群；其中，交叉算子算法为现有已经公开的算法。

的起始帧帧序号，再利用变异概率P_m和变异遗传算法，形成变异后的染色体Qc‘，使用所述变异后的染色体Qc‘替换父代种群中与之相应的染色体Qc，更新测试种群；其中，变异遗传算法为现有已经公开的算法。

S35，个体评价：

{E_{q}}^{''} (M) = \min (\underset{b^{''} &Element; B^{''}}{Σ} E_{a} ({b_{i}}^{''}) + \underset{b_{k 1}^{''}, b_{k 2}^{''} &Element; B^{''}}{Σ} E_{c} (b_{k_{1}}^{''}, b_{k 2}^{''})), 1 \leq q \leq Q; k_{1}, k_{2} \leq k; k_{1} &NotEqual; k_{2} - - - (8);

E_{a} ({b_{i}}^{''}) = \underset{x, y, t}{Σ} X_{{b_{i}}^{''}} (x, y, t) - - - (9);

X_{b_{i}^{''}} (x, y, t) = \{\begin{matrix} | | I_{b_{i}^{''}} (x, y, t) - P_{b_{i}^{''}} (x, y, t) | |, t &Element; t_{b_{i}^{''}} \\ 0, otherwise \end{matrix} - - - (10);

表示在测试种群中第q条染色体对应的视频摘要中的运动轨迹b_i″的帧数范围；此处的帧数范围是指视频摘要中的运动轨迹b_i″的从起始帧到结束帧的帧数范围。

是测试种群中第q条染色体对应的视频摘要中的运动轨迹

与

之间的活动冲突能量代价函数，如式（11）：

E_{c} (b_{k_{1}}^{''}, b_{k 2}^{''}) = \underset{x, y, t}{Σ} [X_{b_{k_{1}}^{''}} (x, y, t) \cdot X_{b_{k_{2}}^{''}} (x, y, t)], t &Element; t b_{k_{1}}^{''} \cap t b_{k 2}^{''} - - - (11)

X_{{b_{k 1}}^{''}} (x, y, t) = \{\begin{matrix} | | I_{{b_{k 1}}^{''}} (x, y, t) - P_{{b_{k 1}}^{''}} (x, y, t) | |, t &Element; t_{{b_{k 1}}^{'}} \\ 0, otherwise \end{matrix} - - - (12)

X_{{b_{k 2}}^{''}} (x, y, t) = \{\begin{matrix} | | I_{{b_{k 2}}^{''}} (x, y, t) - P_{{b_{k 2}}^{''}} (x, y, t) | |, t &Element; t_{{b_{k 2}}^{'}} \\ 0, otherwise \end{matrix} - - - (13)

其中，

表示测试种群中第q条染色体对应的视频摘要中的运动轨迹b_k1″在第t帧对应的背景帧在坐标（x,y）处的像素值，

表示在测试种群中第q条染色体对应的视频摘要中的运动轨迹b_k1″的帧数范围，此处的帧数范围是指视频摘要中的运动轨迹b_k1″的从起始帧到结束帧的帧数范围；

表示测试种群中第q条染色体对应的视频摘要中的运动轨迹b_k1″′在第t帧对应的背景帧在坐标（x,y）处的像素值，

表示在测试种群中第q条染色体对应的视频摘要中的运动轨迹b_k2″的帧数范围，此处的帧数范围是指视频摘要中的运动轨迹b_k2″的从起始帧到结束帧的帧数范围。

S352，采用步骤S361相同的方法分别计算经步骤S335更新后的父代种群中的T条再次优化的染色体对应的得到T个运动轨迹的集合的代价损失值，将最小的代价损失值记为E_min″，当E_min″＜E_min时，存储E_min″，并将E_min″对应的染色体作为最优染色体，执行步骤S4；当E_min″＜E_min′时，将E_min′替换为E_min″，执行步骤S36；当E_min″＞E_min′时，采用蒙特卡洛概率的判断是否将E_min′替换为E_min″，执行步骤S36；

对团块运动轨迹进行组合优化，从而形成最优的视频摘要，最优的视频摘要应至少满足四个方面的特性：

①视频摘要应当比原始视频要短得多；

②视频摘要应当尽可能的保留原始视频中的活动内容，不丢失事件信息；

③视频摘要应当尽可能的还原原始视频中的运动信息，运动目标的行为在视频摘要中不应发生改变；

④视频摘要应当具有观赏性，在时间轴上平移运动轨迹之后，生成的视频摘要中团块与背景帧之间不应有明显的接缝，或明显的脱离于背景帧。

参见图1，本发明中视频摘要生成方法的示例可简单的描述如下：

最上部分为输入的原始视频，长20帧，其中包含了三段运动信息，分别用五角星、圆圈、方块表示。三段运动信息分布在不同时间段，甚至空间位置也略有差异。随着时间的推移，三段运动信息的主体在空间中发生位移。提取运动信息之后，得到目标主体的运动轨迹。对运动轨迹重新排布后，将原20帧的输入视频缩减为一段仅长8帧的新视频，即是用户所需要的视频摘要。从图1中可以看到，原始视频中的三段运动信息并未丢失，都保留在视频摘要中，使不同时间发生的事情在同一时间段播放，即压缩了视频又保留了运动信息。

与抽取关键帧生成视频摘要的方法相同的是，视频摘要核心目的也是缩减视频长度，减少原始视频中的时空冗余。对于一段视频，我们关心的往往是其中的运动目标，如行人、车辆等的运动轨迹，因此，视频中不包含显著物体运动信息的那些帧就是冗余，比如背景帧等，如图1中的第一帧、第十帧、第十五帧和最后一帧。在生成的视频摘要中，这些空白帧都被剔除，即削减了时间冗余。同时，五角星所代表的运动信息占据的是空间的上半部，而方块与圆圈代表的运动信息多位于空间的下半部，组合在同一帧里显示时不会因为占据的空间有所交叉而导致运动信息损失，由此减少了空间冗余。

模拟退火算法被广泛应用于组合优化问题求解，它将目标函数值看作固体的内能E，把温度演化成系统控制参数，而得到经典的解组合优化问题。但模拟退火的时间开销太大，收敛速度慢。以下两个实施例中，将本发明的算法生成视频摘要与将本发明中步骤S3替换成模拟退火算法生成视频摘要，进行效果比对。其中，代价损失值按照适应度函数计算，记录的是损失的那部分团块所占的像素数量，单位为“个”，时间花费采用系统函数clock()计算，计时单位为“毫秒”，其中，为了表示方便，表格中将单位分别处理成“万个”与“秒”。

实施例1：原始视频highwayII_raw.avi来源于网络下载，该原始视频共312帧，如图2a和如图2b所示，生成视频摘要共100帧，效果如图3所示，表1为10次采用本发明所述原始视频进行处理生成视频摘要的代价损失值和时间花费，及将本发明中步骤S3替换成模拟退火算法生成视频摘要的代价损失值和时间花费：

表1

实施例2：原始视频WalkByShop1cor_clip.avi数据来源于CAVIAR测试数据集，该原始视频共236帧，如图6a和如图6b所示，生成视频摘要共80帧，效果如图7所示，表2为10次采用本发明所述原始视频进行处理生成视频摘要的代价损失值和时间花费，及将本发明中步骤S3替换成模拟退火算法生成视频摘要的代价损失值和时间花费：

表2

从表1、表2、图4和图8来看，不论是遗传算法还是模拟退火算法，其结果都存在一定的波动性。这是因为它们都是基于随机性的优化算法。然而，相对而言，遗传算法比模拟退火算法的结果要更稳定，代价损失值基本稳定在一个小范围，而模拟退火算法的结果波动很大。遗传算法的稳定性要优于模拟退火算法。这是因为虽然两种算法都是基于随机性的，但遗传算法它并不仅仅是简单的随机搜索，而是具有一定的方向性，使用随机方法来指导搜索向着一个最优解的方向前进。遗传算法的每两次迭代间，得到的最优解都有一定的关联性，因为变异操作的存在，又不会被局限在种群初始化的影响中，因此遗传算法得到的结果更为紧凑。

从表1、表2、图5和图9来看，遗传算法的时间花费也要明显低于模拟退火算法。这是因为模拟退火算法收到问题规模的影响，计算的复杂度呈指数级增加，而遗传算法虽然也受问题规模的影响，但是它的特性决定了它并非直接作用于问题的个体上，而且对个体的映射进行操作，编码的操作使得遗传算法更容易被计算机处理，无形中大大简化了计算量，因此在时间花费上要少于模拟退火算法。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种视频摘要生成方法，其特征在于，包括如下步骤：

S32，选择操作，具体如下：

其中，

E_{q} (M) = \min (\underset{b_{i}^{'} &Element; B^{'}}{Σ} E_{a} ({b_{i}}^{'}) + \underset{b_{k 1}^{'}, b_{k 2}^{'} &Element; B^{'}}{Σ} E_{c} (b_{k_{1}}^{'}, b_{k 2}^{'})), 1 \leq q \leq Q; k_{1}, k_{2} \leq k; k_{1} &NotEqual; k_{2} - - - (2);

其中，E_q(M)为父代种群中第q条染色体对应的代价损失值，

为父代种群中第q条染色体对应的视频摘要中的运动轨迹

的活动能量损失函数，如式（3）：

E_{a} (b_{i}^{'}) = \underset{x, y, t}{Σ} X_{b_{i}^{'}} (x, y, t) - - - (3);

表示父代种群中第q条染色体对应的视频摘要中的运动轨迹

在第t帧视频帧中坐标（x,y）处的像素值，

表示父代种群中第q条染色体对应的视频摘要中的运动轨迹

在第t帧对应的背景帧在坐标（x,y）处的像素值，

表示父代种群中第q条染色体对应的视频摘要中的运动轨迹

的帧数范围；

是父代种群中第q条染色体对应的视频摘要中的运动轨迹

与

之间的活动冲突能量代价函数，如式（5）：

E_{c} (b_{k_{1}}^{'}, b_{k 2}^{'}) = \underset{x, y, t}{Σ} [X_{b_{k_{1}}^{'}} (x, y, t) \cdot X_{b_{k_{2}}^{'}} (x, y, t)], t &Element; t b_{k_{1}}^{'} \cap t b_{k 2}^{'} - - - (5)

S33，交叉操作，具体如下：

S331，将步骤S322得到的父代种群作为测试种群；

S35，个体评价：

{E_{q}}^{''} (M) = \min (\underset{b^{''} &Element; B^{''}}{Σ} E_{a} ({b_{i}}^{''}) + \underset{b_{k 1}^{''}, b_{k 2}^{''} &Element; B^{''}}{Σ} E_{c} (b_{k_{1}}^{''}, b_{k 2}^{''})), 1 \leq q \leq Q; k_{1}, k_{2} \leq k; k_{1} &NotEqual; k_{2} - - - (8);

其中，

表示测试种群中第q条染色体对应的代价损失值，E_a(b_i″)为测试种群中第q条染色体对应的视频摘要中的运动轨迹b_i″的活动能量损失函数，如式（9）：

E_{a} ({b_{i}}^{''}) = \underset{x, y, t}{Σ} X_{{b_{i}}^{''}} (x, y, t) - - - (9);

表示测试种群中第q条染色体对应的视频摘要中的运动轨迹

的帧数范围；

是测试种群中第q条染色体对应的视频摘要中的运动轨迹与之间的活动冲突能量代价函数，如式（11）：

E_{c} (b_{k_{1}}^{''}, b_{k 2}^{''}) = \underset{x, y, t}{Σ} [X_{b_{k_{1}}^{''}} (x, y, t) \cdot X_{b_{k_{2}}^{''}} (x, y, t)], t &Element; t b_{k_{1}}^{''} \cap t b_{k 2}^{''} - - - (11)

其中，

表示在测试种群中第q条染色体对应的视频摘要中的运动轨迹b_k1″的帧数范围；表示测试种群中第q条染色体对应的视频摘要中的运动轨迹b_k1″′在第t帧对应的背景帧在坐标（x,y）处的像素值，表示测试种群中第q条染色体对应的视频摘要中的运动轨迹b_k2″在第t帧对应的背景帧在坐标（x,y）处的像素值，表示在测试种群中第q条染色体对应的视频摘要中的运动轨迹b_k2″的帧数范围；

2.如权利要求1所述的视频摘要生成方法，其特征在于，所述步骤S2中采用码本模型运动检测法对运动物体进行检测。

3.如权利要求1所述的视频摘要生成方法，其特征在于，所述步骤S2中采用粒子滤波跟踪算法对运动物体进行跟踪，确定团块运动轨迹。

4.如权利要求1所述的视频摘要生成方法，其特征在于，所述步骤S332中的T≥20。