CN105741269A

CN105741269A - 视频切割的方法及装置

Info

Publication number: CN105741269A
Application number: CN201610046722.XA
Authority: CN
Inventors: 陈世峰
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2016-01-25
Filing date: 2016-01-25
Publication date: 2016-07-06

Abstract

本发明适用于视频切割领域，提供了一种视频切割的方法及装置，所述方法包括：切割视频中第一帧图像的目标物体，所述视频包括至少一帧图像；学习第一帧图像切割的目标物体区域、非目标物体区域以及边界的统计特性，所述边界的统计特性为目标物体区域与非目标物体区域的边界的统计特性；结合所述边界的统计特性，多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧，以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性，进而根据当前帧的目标物体区域切割出目标物体，重复该步骤，直到完成对视频的切割。通过上述方法能够提高视频切割的便利性及准确性。

Description

视频切割的方法及装置

技术领域

本发明实施例属于视频切割领域，尤其涉及一种视频切割的方法及装置。

背景技术

图像分割，是指利用图像的颜色、灰度、边缘、纹理等空间信息对图像进行分割。常见的分割模式有：根据时间段分割视频、根据容量分割视频、指定起始时间和转换终止容量转换，将视频平均分割成多段等等。

现有的视频分割算法中，需要给定一些已知的信息，例如视频的背景模型、一些帧的标注结果、或者大量的训练数据。但由于现有的视频分割算法中，通常都假设或者隐含以下假设：背景静止、相机静止、或者前景需要运动，而这些假设在很多的时候并不满足，因此难以得到较好的分割结果。

发明内容

本发明实施例提供了一种视频切割的方法及装置，旨在解决现有方法需要设定一定条件才能实现视频的切割，从而导致切割效果较差的问题。

本发明实施例是这样实现的，一种视频切割的方法，所述方法包括：

切割视频中第一帧图像的目标物体，所述视频包括至少一帧图像；

学习第一帧图像切割的目标物体区域、非目标物体区域以及边界的统计特性，所述边界的统计特性为目标物体区域与非目标物体区域的边界的统计特性；

结合所述边界的统计特性，多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧，以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性，进而根据当前帧的目标物体区域切割出目标物体，重复该步骤，直到完成对视频的切割。

本发明实施例的另一目的在于提供一种视频切割的装置，所述装置包括：

第一帧目标物体切割单元，用于切割视频中第一帧图像的目标物体，所述视频包括至少一帧图像；

上一帧统计特性学习单元，用于学习第一帧图像切割的目标物体区域、非目标物体区域以及边界的统计特性，所述边界的统计特性为目标物体区域与非目标物体区域的边界的统计特性；

当前帧统计特性确定单元，用于结合所述边界的统计特性，多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧，以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性，进而根据当前帧的目标物体区域切割出目标物体，重复该步骤，直到完成对视频的切割。

在本发明实施例中，由于对视频进行切割时，是通过切割视频中第一帧图像的目标物体，再通过学习第一帧图像的目标物体区域、非目标物体区域以及边界的统计特性，并将上一帧的学习结果传递至当前帧，因此，无需参考背景区域，即无需假设背景静止也能够切割出视频中各个帧的目标物体，从而提高视频切割的便利性及准确性。

附图说明

图1是本发明第一实施例提供的一种视频切割的方法的流程图；

图2是本发明第一实施例提供的切割的目标物体的示意图；

图3是本发明第二实施例提供的一种视频切割的装置的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例中，切割视频中第一帧图像的目标物体，所述视频包括至少一帧图像，学习第一帧图像切割的目标物体区域、非目标物体区域以及边界的统计特性，所述边界的统计特性为目标物体区域与非目标物体区域的边界的统计特性，结合所述边界的统计特性，多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧，以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性，进而根据当前帧的目标物体区域切割出目标物体，重复该步骤，直到完成对视频的切割。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一：

图1示出了本发明第一实施例提供的一种视频切割的方法的流程图，详述如下：

步骤S11，切割视频中第一帧图像的目标物体，所述视频包括至少一帧图像。

该步骤中，由于视频的第一帧图像可能包括多个物体，因此，需要先确定多个物体哪个是目标物体，再利用图形切割算法简单交互地切割出该第一帧图像中的目标物体。

步骤S12，学习第一帧图像切割的目标物体区域、非目标物体区域以及边界的统计特性，所述边界的统计特性为目标物体区域与非目标物体区域的边界的统计特性。

该步骤中，基于第一帧图像的切割结果，学习出目标物体区域、非目标物体区域以及边界的统计特性。

步骤S13，结合所述边界的统计特性，多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧，以实现对视频的切割。

可选地，所述结合所述边界的统计特性，多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧，以实现对视频的切割，具体包括：

结合所述边界的统计特性以及多重参考模型确定能量函数；确定所述能量函数的最小值，以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性，进而根据当前帧的目标物体区域切割出目标物体，重复该步骤，直到完成对视频的切割。

进一步地，采用多重参考(MRF)模型，上述能量函数为：

E (r) = Σ_{i &Element; I} (E_{1} (r_{i}) + {λΣ}_{j &Element; N_{i}} E_{2} (r_{i}, r_{j})),

其中N_i是像素i的邻域，其包括空间领域与时间邻域(分别记为N^s和N^t)，对于每个像素，采用多个空间邻域和多个时间邻域，比如采用8个空间邻域和18个时间邻域，以提高计算的精确度，r＝{r_i}_i∈I为根据视频的亮度或色彩进行切割的结果，I为视频图像的像素结合，r_i是像素i的标注，其值为-1或+1，且在r_i＝+1代表像素i属于目标物体区域，r_i＝-1代表像素i属于非目标物体区域；

E₁(r_i)是似然项，表示像素i给定标签r_i的惩罚值，为了提升算法的目标物体与背景的区分能力，似然项定义如下：E₁(r_i)＝-(log(p(c_i|r_i))+log(p(e_i|r_i)))，其中c_i是像素i的色彩(或者亮度)，e_i是以像素i为中心的图像块中所有像素的色彩值，p(c_i|r_i)和p(e_i|r_i)表示一个概率值，p(c_i|r_i)通过YUV色彩空间的直方图查表求得，p(e_i|r_i)通过以下方法求得，首先，提取第一帧的分割结果中的目标物体区域与非目标物体区域的所有图像块，分别对目标物体区域与非目标物体区域的所有图像块做K-means聚类，取类中心，分别得到K个目标物体码字与K个目标物体码字：

p (e_{i} | r_{i}) = \max_{k} {\frac{\exp (- \frac{1}{2} {(e_{i} - {\hat{e}}_{k}^{r_{i}})}^{T} {(Σ_{k}^{r_{i}})}^{- 1} (e_{i} - {\hat{e}}_{k}^{r_{i}}))}{{(2 π)}^{D / 2} {| Σ_{k}^{r_{i}} |}^{1 / 2}}},

其中，为对上一帧的目标物体区域的所有图像块做K-means聚类得到的第K个目标物体码字，为对上一帧的非目标物体区域的所有图像块做K-means聚类得到的第K个非目标物体码字，是均值为的第K个类的协方差矩阵，D是的维度；

λ是一个模型参数，可根据实际情况进行设定；

E₂(r_i,r_j)是先验项，表示相邻像素i和j分别给定标签r_i和r_j的惩罚值，先验项包括三个部分：对比度项边界项和时域项

先验项定义为：其中，对比度项在对比度项中，i与j是空间邻域内的像素对，α与σ是控制参数，α采用随机至少10张以上(如100张)图的分割结果求得，σ自动设置为σ＝2<||c_i-c_j||>，其中<·>是针对整个图像的均值操作；边界项H_ij＝max{H^r(c_i,c_j),H^g(c_i,c_j),H^b(c_i,c_j)}，H^r，H^g，H^b分别对应R、G、B色彩通道的直方图，α'＝α，σ'＝N_p，N_p是从初始结果选择的像素对的数目；时域项不同的是时域项中i与j是时间邻域内的像素对。

根据上述的能量函数，可知，当最小化能量函数时，得到最终的最佳标注，这里的标注为像素的标注。由于像素在标注值为+1时代表像素属于目标物体区域，为-1时代表像素属于非目标物体区域，因此通过确定最佳标注即可确定目标物体区域，进而根据确定的目标物体区域分割出目标物体。

可选地，在所述结合所述边界的统计特性，多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧，以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性，进而根据当前帧的目标物体区域切割出目标物体，重复该步骤，直到完成对视频的切割之后，包括：

显示切割的目标物体。具体地，可显示视频序列帧中被切割的多个目标物体。如图2所示，两个图的左侧都为原图，右侧无背景，只有人物的为切割的目标物体。

本发明第一实施例中，切割视频中第一帧图像的目标物体，所述视频包括至少一帧图像，学习第一帧图像切割的目标物体区域、非目标物体区域以及边界的统计特性，所述边界的统计特性为目标物体区域与非目标物体区域的边界的统计特性，结合所述边界的统计特性，多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧，以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性，进而根据当前帧的目标物体区域切割出目标物体，重复该步骤，直到完成对视频的切割。由于对视频进行切割时，是通过切割视频中第一帧图像的目标物体，再通过学习第一帧图像的目标物体区域、非目标物体区域以及边界的统计特性，并将上一帧的学习结果传递至当前帧，因此，无需参考背景区域，即无需假设背景静止也能够切割出视频中各个帧的目标物体，从而提高视频切割的便利性及准确性。

应理解，在本发明实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例二：

图3示出了本发明第二实施例提供的一种视频切割的装置的结构图，该视频切割的装置应用于智能终端中，该智能终端可以包括经无线接入网RAN与一个或多个核心网进行通信的用户设备，该用户设备可以是移动电话(或称为“蜂窝”电话)、具有移动设备的计算机等，例如，用户设备还可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语音和/或数据。又例如，该移动设备可以包括智能手机、平板电脑、个人数字助理PDA、销售终端POS或车载电脑等。为了便于说明，仅示出了与本发明实施例相关的部分。

该视频切割的装置包括：第一帧目标物体切割单元31、上一帧统计特性学习单元32、当前帧统计特性确定单元33。其中：

第一帧目标物体切割单元31，用于切割视频中第一帧图像的目标物体，所述视频包括至少一帧图像。

由于视频的第一帧图像可能包括多个物体，因此，需要先确定多个物体哪个是目标物体，再利用图形切割算法简单交互地切割出该第一帧图像中的目标物体。

上一帧统计特性学习单元32，用于学习第一帧图像切割的目标物体区域、非目标物体区域以及边界的统计特性，所述边界的统计特性为目标物体区域与非目标物体区域的边界的统计特性。

当前帧统计特性确定单元33，用于结合所述边界的统计特性，多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧，以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性，进而根据当前帧的目标物体区域切割出目标物体，重复该步骤，直到完成对视频的切割。

可选地，所述当前帧统计特性确定单元33包括：

能量函数确定模块，用于结合所述边界的统计特性以及多重参考模型确定能量函数。

当前帧目标物体区域确定模块，用于确定所述能量函数的最小值，以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性，进而根据当前帧的目标物体区域切割出目标物体，重复该步骤，直到完成对视频的切割。

进一步地，上述能量函数为：

E (r) = Σ_{i &Element; I} (E_{1} (r_{i}) + {λΣ}_{j &Element; N_{i}} E_{2} (r_{i}, r_{j})),

其中N_i是像素i的邻域，其包括空间领域与时间邻域(分别记为N^s和N^t)，对于每个像素，采用多个空间邻域和多个时间邻域，比如采用8个空间邻域和18个时间邻域，以提高计算的精确度，r＝{r_i}_i∈I为视频切割的结果，I为视频图像的像素结合，r_i是像素i的标注，其值为-1或+1，且在r_i＝+1代表像素i属于目标物体区域，r_i＝-1代表像素i属于非目标物体区域；

E₁(r_i)是似然项，表示像素i给定标签r_i的惩罚值，为了提升算法的目标物体与背景的区分能力，似然项定义如下：E₁(r_i)＝-(log(p(c_i|r_i))+log(p(e_i|r_i)))，其中c_i是像素i的色彩，e_i是以像素i为中心的图像块中所有像素的色彩值，p(c_i|r_i)通过YUV色彩空间的直方图查表求得，p(e_i|r_i)通过以下方法求得，首先，提取第一帧的分割结果中的目标物体区域与非目标物体区域的所有图像块，分别对目标物体区域与非目标物体区域的所有图像块做K-means聚类，取类中心，分别得到K个目标物体码字与K个目标物体码字：

p (e_{i} | r_{i}) = \max_{k} {\frac{\exp (- \frac{1}{2} {(e_{i} - {\hat{e}}_{k}^{r_{i}})}^{T} {(Σ_{k}^{r_{i}})}^{- 1} (e_{i} - {\hat{e}}_{k}^{r_{i}}))}{{(2 π)}^{D / 2} {| Σ_{k}^{r_{i}} |}^{1 / 2}}},

其中，为对上一帧的目标物体区域的所有图像块做K－means聚类得到的第K个目标物体码字，为对上一帧的非目标物体区域的所有图像块做K-means聚类得到的第K个非目标物体码字，是均值为的第K个类的协方差矩阵，D是的维度；

λ是一个模型参数；

E_{2} (r_{i}, r_{j}) = φ_{i j}^{c} + φ_{i j}^{b} + φ_{i j}^{t},

其中，对比度项

φ_{i j}^{c} = α \cdot \exp (- \frac{| | c_{i} - c_{j} | |}{σ}) \cdot | r_{i} - r_{j} |,

在对比度项中，i与j是空间邻域内的像素对，α与σ是控制参数，α采用随机至少10张以上图的分割结果求得，σ自动设置为σ＝2<||c_i-c_j||>，其中<·>是针对整个图像的均值操作；边界项H_ij＝max{H^r(c_i,c_j),H^g(c_i,c_j),H^b(c_i,c_j)}，H^r，H^g，H^b分别对应R、G、B色彩通道的直方图，α'＝α，σ'＝N_p，N_p是从初始结果选择的像素对的数目；时域项不同的是时域项中i与j是时间邻域内的像素对。

可选地，所述视频切割的装置包括：

切割目标物体显示单元，用于显示切割的目标物体。具体地，可显示视频序列帧中被切割的多个目标物体。

本发明第二实施例中，由于对视频进行切割时，是通过切割视频中第一帧图像的目标物体，再通过学习第一帧图像的目标物体区域、非目标物体区域以及边界的统计特性，并将上一帧的学习结果传递至当前帧，因此，无需参考背景区域，即无需假设背景静止也能够切割出视频中各个帧的目标物体，从而提高视频切割的便利性及准确性。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视频切割的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述结合所述边界的统计特性，多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧，以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性，进而根据当前帧的目标物体区域切割出目标物体，重复该步骤，直到完成对视频的切割，具体包括：

结合所述边界的统计特性以及多重参考模型确定能量函数；

确定所述能量函数的最小值，以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性，进而根据当前帧的目标物体区域切割出目标物体，重复该步骤，直到完成对视频的切割。

3.根据权利要求1所述的方法，其特征在于，所述能量函数为：

E (r) = Σ_{i &Element; I} (E_{1} (r_{i}) + {λΣ}_{j &Element; N_{i}} E_{2} (r_{i}, r_{j})),

其中N_i是像素i的邻域，r＝{r_i}_i∈I为视频切割的结果，I为视频图像的像素结合，r_i是像素i的标注，其值为-1或+1，且在r_i＝+1代表像素i属于目标物体区域，r_i＝-1代表像素i属于非目标物体区域；

E₁(r_i)是似然项，表示像素i给定标签r_i的惩罚值，E₁(r_i)＝-(log(p(c_i|r_i))+log(p(e_i|r_i)))，其中c_i是像素i的色彩，e_i是以像素i为中心的图像块中所有像素的色彩值，p(c_i|r_i)通过YUV色彩空间的直方图查表求得，

p (e_{i} | r_{i}) = \max_{k} {\frac{\exp (- \frac{1}{2} {(e_{i} - {\hat{e}}_{k}^{r_{i}})}^{T} {(Σ_{k}^{r_{i}})}^{- 1} (e_{i} - {\hat{e}}_{k}^{r_{i}}))}{{(2 π)}^{D / 2} | Σ_{k}^{r_{i}} |^{1 / 2}}},

λ是一个模型参数；

E_{2} (r_{i}, r_{j}) = φ_{i j}^{c} + φ_{i j}^{b} + φ_{i j}^{t},

其中，对比度项

φ_{i j}^{c} = α \cdot \exp (- \frac{| | c_{i} - c_{j} | |}{σ}) \cdot | r_{i} - r_{j} |,

4.根据权利要求1所述的方法，其特征在于，在所述结合所述边界的统计特性，多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧，以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性，进而根据当前帧的目标物体区域切割出目标物体，重复该步骤，直到完成对视频的切割之后，包括：

显示切割的目标物体。

5.一种视频切割的装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述当前帧统计特性确定单元包括：

能量函数确定模块，用于结合所述边界的统计特性以及多重参考模型确定能量函数；

7.根据权利要求5所述的装置，其特征在于，所述能量函数为：

E (r) = Σ_{i &Element; I} (E_{1} (r_{i}) + {λΣ}_{j &Element; N_{i}} E_{2} (r_{i}, r_{j})),

p (e_{i} | r_{i}) = \max_{k} {\frac{\exp (- \frac{1}{2} {(e_{i} - {\hat{e}}_{k}^{r_{i}})}^{T} {(Σ_{k}^{r_{i}})}^{- 1} (e_{i} - {\hat{e}}_{k}^{r_{i}}))}{{(2 π)}^{D / 2} | Σ_{k}^{r_{i}} |^{1 / 2}}},

λ是一个模型参数；

E_{2} (r_{i}, r_{j}) = φ_{i j}^{c} + φ_{i j}^{b} + φ_{i j}^{t},

其中，对比度项

φ_{i j}^{c} = α \cdot \exp (- \frac{| | c_{i} - c_{j} | |}{σ}) \cdot | r_{i} - r_{j} |,

8.根据权利要求5所述的装置，其特征在于，所述装置包括：

切割目标物体显示单元，用于显示切割的目标物体。