CN105261032A

CN105261032A - 用于处理视频文件中的视频帧的方法和装置

Info

Publication number: CN105261032A
Application number: CN201410226947.4A
Authority: CN
Inventors: 汪孔桥; 李江伟; 阎贺
Original assignee: Nokia Oyj
Current assignee: Nokia Technologies Oy
Priority date: 2014-05-27
Filing date: 2014-05-27
Publication date: 2016-01-20
Anticipated expiration: 2034-05-27
Also published as: EP2950272A2; US20150348276A1; US9514540B2; CN105261032B; EP2950272B1; EP2950272A3

Abstract

本发明提供一种用于处理视频文件中的视频帧的方法和装置，所述方法包括：对于一个或多个预定数值中的每个预定数值：比较所述视频帧与其前间隔所述预定数值个帧的视频帧，以获得第一帧间差；比较所述视频帧与其后间隔所述预定数值个帧的视频帧，以获得第二帧间差；以及针对所述视频帧的每个像素，基于所述第一帧间差和所述第二帧间差的较小值，获得所述视频帧与所述预定数值关联的置信度图；并且至少基于每个像素在与相应预定数值关联的一个或多个所述置信度图中的值，确定像素是否属于前景。

Description

用于处理视频文件中的视频帧的方法和装置

技术领域

本发明的实施方式涉及视频文件处理领域，更具体地，涉及一种用于处理视频文件中的视频帧的方法和装置。

背景技术

随着计算机技术，尤其是视频技术的不断发展，从背景中分割出对象(前景)对于许多应用场景而言非常关键。例如，基于这类技术，可以容易地创建多个视频效果、背景散景或者出于隐私或趣味等原因而希望另一背景代替真实场景。另一示例是为包括小视频的实时图像创建视觉效果。例如，通过将前景(例如移动的人员)从背景(其为静止或缓慢移动)中分离，可以为小视频创建所期望的视觉效果，比如将背景虚化，或者将背景变灰以突出前景等。

现有技术中存在两类常见的分割方法：即基于背景建模的方法以及基于运动估计的方法。这两种方法对背景的运动都有限制。然而，即使用户稳定地持握拍摄设备，也可能发生一些不可避免的无意识晃动，这将给视频带来不希望的背景运动，从而使得利用现有技术进行前景对象的分割变得困难。

发明内容

为了解决现有技术中存在的上述问题，本说明书提出如下方案。

根据本发明第一方面，提供一种用于处理视频文件中的视频帧的方法，包括：对于一个或多个预定数值中的每个预定数值：比较所述视频帧与其前间隔所述预定数值个帧的视频帧，以获得第一帧间差；比较所述视频帧与其后间隔所述预定数值个帧的视频帧，以获得第二帧间差；以及针对所述视频帧的每个像素，基于所述第一帧间差和所述第二帧间差的较小值，获得所述视频帧与所述预定数值关联的置信度图；并且至少基于每个像素在与相应预定数值关联的一个或多个所述置信度图中的值，确定像素是否属于前景。

在本发明的可选实现中，所述确定像素是否属于前景还基于每个像素在与背景关联的置信度图中的值，所述与背景关联的置信度图通过如下步骤获得：选择所述视频文件中包括所述视频帧的多个连续视频帧；基于所述多个连续视频帧，构建所述视频文件的背景；以及比较所述视频帧与所述背景，以获得与所述背景关联的置信度图。

在本发明的可选实现中，所述多个连续视频帧还包括所述视频帧前间隔所述一个或多个预定数值中的最大数值个帧的视频帧，以及所述视频帧后间隔所述最大数值个帧的视频帧。

在本发明的可选实现中，所述至少基于每个像素在与相应时间间隔关联的一个或多个所述置信度图中的值，确定所述像素是否属于前景包括：当所述像素在各个置信度图中的相应值均大于第一闽值时，确定所述像素属于前景；以及当所述像素在各个置信度图中的相应值均小于第二阈值时，确定所述像素属于背景。

在本发明的可选实现中，所述至少基于每个像素在与相应时间间隔关联的一个或多个所述置信度图中的值，确定所述像素是否属于前景包括：(i)当所述像素在各个置信度图中的相应值并非均大于所述第一阈值或并非均小于所述第二阈值时：当所述像素的邻域中仅存在被确定为前景的像素时，将所述相应值中的最大值作为所述像素属于前景的概率值；当所述像素的邻域中仅存在被确定为背景的像素时，将所述相应值中的最小值作为所述像素属于前景的概率值；否则，将所述相应值的均值作为所述像素属于前景的概率值；以及(ii)当所述像素属于前景的概率值大于第三阈值时，确定所述像素属于前景；以及(iii)当所述像素属于前景的概率值小于第三阈值时，确定所述像素属于背景。

在本发明的可选实现中，基于所述多个连续视频帧，构建所述视频文件的背景包括：确定所述多个连续视频帧中每一视频帧相对于前一视频帧的相对运动矢量；基于所述相对运动矢量，在空间上对齐所述多个视频帧，以确定同一空间点在所述多个视频帧的每个视频帧上对应的像素点；将对应于所述每个空间点的所有像素点进行聚类，以获得对应于所述每个空间点的与背景有关的像素点；以及基于获得的对应于所述每个空间点的与背景有关的像素点，构建所述视频文件的背景。

在本发明的可选实现中，比较所述视频帧与其前/其后间隔所述预定数值个帧的视频帧，以获得第一/第二帧间差包括：将所述视频帧与其前/其后间隔所述预定数值个帧的视频帧在每个像素上针对同一属性值的差的绝对值作为所述第一/第二帧间差。

在本发明的可选实现中，所述属性值包括灰度值。

在本发明的可选实现中，基于所述第一帧间差和所述第二帧间差的较小值，获得所述视频帧与所述预定数值关联的置信度图还包括：将所述各个较小值归一化，以形成与所述预定数值关联的所述置信度图。

在本发明的可选实现中，比较所述视频帧与所述背景，以获得与所述背景关联的置信度图还包括：将所述视频帧与所述背景在每个像素上针对所述同一属性值的差的绝对值归一化，以获得与所述背景关联的置信度图。

在本发明的可选实现中，所述第三阈值是所述第一阈值和所述第二阈值之间的值。

根据本发明的另一方面，提供一种用于处理视频文件中的视频帧的装置，包括：第一类置信度图获得单元和前景确定单元。其中，该第一类置信度图获得单元被配置为对于一个或多个预定数值中的每个预定数值：比较所述视频帧与其前间隔所述预定数值个帧的视频帧，以获得第一帧间差；比较所述视频帧与其后间隔所述预定数值个帧的视频帧，以获得第二帧间差；以及针对所述视频帧的每个像素，基于所述第一帧间差和所述第二帧间差的较小值，获得所述视频帧与所述预定数值关联的置信度图；而该前景确定单元被配置为至少基于每个像素在与相应预定数值关联的一个或多个所述置信度图中的值，确定像素是否属于前景。

根据本发明的又一方面，提供一种包括计算机程序产品的非瞬态计算机可读介质，所述计算机程序产品包括机器可执行指令，所述机器可执行指令在被执行时使得机器执行根据本发明第一方面所述的方法。

根据本发明的再一方面，提供一种装置，包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器；所述至少一个存储器和所述计算机程序代码被配置用于与所述至少一个处理器一起使得所述装置至少执行本发明第一方面所述的方法。

通过下文描述将会理解，当希望从视频文件的当前视频帧中分离出前景时，即便该视频文件较大，或者所捕获的视频存在抖动，也可以较为准确地根据本发明的实施方式来完成。

附图说明

通过结合附图对本发明示例性实施方式进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显，其中，在本发明示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本发明的一个示例性实施方式的用于处理视频文件中的视频帧的方法100的流程图；

图2示出了根据本发明一个示例性实施方式的用于针对一预定数值i，获得当前帧的一置信度图的具体示例；

图3示出了根据本发明示例性实施方式的用于获得该与背景关联的置信度图的方法300的流程图；

图4示出了根据本发明一个示例性实施方式的用于获得与背景关联的置信度图的具体示例；

图5示出了根据本发明一个示例性实施方式的用于基于一个或多个置信度图确定每个像素是否属于前景的流程图500；

图6-图7示出了根据图5的示例性方法的具体示例；

图8示出了根据本发明示例性实施方式的基于多个置信度图来得到用于从当前视频帧中分离出前景的示意性判决图；

图9示出了根据本发明示例性实施方式的用于处理视频帧的总体示意图；

图10示出了根据本发明示例性实施方式的用于处理视频文件中的视频帧的装置1000的示意性框图；

图11示出了适于用来实践本发明实施方式的计算机系统1100的示意性框图；

图12示出了适于用来实践本发明实施方式的用户终端1200；

图13示意性示出了如图12所示用户终端的配置示意图。

具体实施方式

下面将参照附图更详细地描述本发明的优选实施方式。虽然附图中显示了本发明的优选实施方式，然而应该理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1示出了根据本发明的一个示例性实施方式的用于处理视频文件中的视频帧的方法100的流程图。这里所称的“视频文件，，可以是各种类型和格式的视频文件，其包括有多个视频帧。对于其中的任一视频帧，在需要区分出该视频帧的背景/前景时，进行如下方法100的处理。首先进行步骤S101，对于一个或多个预定数值中的每个预定数值，比较该视频帧与其前间隔该预定数值个帧的视频帧，以获得第一帧间差。可以理解，这里的预定数值可以为0、1、2等任何整数值。可以通过两帧相减(或差分运算)的方式获得该第一帧间差。例如，在一种可选实现中，可以将该视频帧与其前间隔该预定数值个帧的视频帧在每个像素上针对同一属性值(例如灰度值或亮度值)的差的绝对值，作为该第一帧间差。

接下来，方法100前进至步骤S102，比较该视频帧与其后间隔该预定数值个帧的视频帧，以获得第二帧间差。步骤S102以与步骤S101类似的方式实现。

继而，方法100前进至步骤S103，针对当前视频帧的每个像素，基于该第一帧间差和该第二帧间差中的较小值，获得该视频帧的、与预定数值关联的置信度图。

为了便于理解步骤S101-S103，以下参考图2进行阐述。图2示出了根据本发明一个示例性实施方式的用于针对一预定数值i’获得当前帧的一置信度图的具体示例。如图2所示，为了确定当前帧201上哪些像素属于前景(在本示例中，前景以椭圆形区域表示)，选取该当前帧201之前与其间隔预定数值i的视频帧202，以及该当前帧之后与其间隔同一预定数值i的视频帧203，分别将其前和其后所选取的视频帧202/203与当前视频帧201进行比较(差分运算)。获得第一帧间差204和第二帧间差205。接着，通过将第一帧间差204和第二帧间差205针对每个像素p取较小值(例如，进行“与’’运算)，以找到该当前帧中与其前后用于比较的帧均有差别的像素集，例如，图206中的椭圆形区域。与其余部分相比，图206中的椭圆形区域的灰度值较大，表明其属于前景的概率较高，其余部分区域的灰度值较小，表明其属于前景的概率较低。优选的，为了便于后续处理，也可以图206中各像素的值归一化，从而形成置信度图207。

返回图1，由于对于每个预定数值，均执行步骤S101-S103以获得相应的置信度图，从而，基于一个或多个预定数值可以相应地获得一个或多个置信度图，方法100前进到步骤S104，至少基于每个像素在与相应预定数值关联的一个或多个置信度图中的值，确定像素是否属于前景。一般而言，当选取的预定数值较小时，相应的置信度图易于体现快速运动的对象；而当选取的预定数值较大时，相应的置信度图易于体现较慢运动的对象。通过适当选择不同的预定数值，可以获得较为全面地反映前景对象的各种置信度图，从而能使得前景的分割更加准确。

此外，本领域技术人员可以理解，在步骤S104确定像素是否属于前景时，除了基于每个像素在与相应预定数值关联的一个或多个置信度图中的值，还可以基于其他内容。例如，还可以附加地基于与背景关联的置信度图。图3示出了根据本发明示例性实施方式的用于获得该与背景关联的置信度图的方法300的流程图。如图3所示，方法300首先进到步骤S301，选择该视频文件中包括当前视频帧在内的多个连续视频帧。一种优选的方式例如如下：假定在前述方法100的步骤S101中的一个或多个预定数值中的最大数值为M，则使得所选择的多个连续视频帧包括在该当前视频帧前间隔M个帧的视频帧，以及在该当前视频帧后间隔M个帧的视频帧。

接下来，方法300前进到步骤S302，基于该多个连续视频帧，构建该视频文件的背景。本领域技术人员应理解，可以采用现有技术中的各种方法来构建视频文件的背景。例如，在一个可选实施方式中，可以通过如下步骤来构建视频文件的背景：

S3021：确定多个连续视频帧中每一视频帧相对于前一视频帧的相对运动矢量；

S3022：基于该相对运动矢量，在空间上对齐该多个视频帧，以确定同一空间点在该多个视频帧的每个视频帧上对应的像素；

S3023：将对应于每个空间点的所有像素进行聚类，以获得对应于每个空间点的与背景有关的像素；以及

S3024：基于获得的对应于每个空间点的与背景有关的像素，构建该视频文件的背景。

但本领域技术人员应当理解，上述方式仅是构建视频文件背景一个示例，并不作为限制。实际上，根据需要可以通过各种现有方式来构建粗粒度或细粒度的背景。另外，所构建的背景也可以随时间进行更新。

继而，方法300前进到步骤S303，比较该视频帧与该背景，以获得与背景关联的置信度图。类似于方法100中的步骤S101，步骤S303中的比较也可以通过两帧相减(或差分运算)的方式进行。

为了便于理解步骤S301-S303，参考图4加以说明。图4示出了根据本发明一个示例性实施方式的用于获得与背景关联的置信度图的具体示例。如图4所示，对4a中包含当前帧在内的多个连续的视频帧进行运动估计(在本示例中，前景以椭圆形区域表示)，以将每一帧与一参考帧(通常为4a中该多个连续视频帧的第一帧)对齐(如4b所示)，从而获得多个对齐的视频帧(4c)。针对图4c中对齐的多个视频帧，例如通过多数表决的方式获得重构的背景4d。同样，在一种可选实现中，可以将该视频帧与该背景4d在每个像素上针对同一属性值(例如灰度值或亮度值)的差的绝对值，以找到该当前帧中与背景4d有差别的像素集，例如，图4e中的椭圆形区域。与其余部分相比，图4e中的椭圆形区域的灰度值较大，表明其属于前景的概率较高，其余部分区域的灰度值较小，表明其属于前景的概率较低。优选的，为了便于后续处理，也可以将图4e中各像素的概率值归一化，从而形成置信度图4f。

可以理解，在前景对象运动非常缓慢的情况下，在方法100的步骤S104除了考虑一个或多个与预定数值关联的置信度图之外，还补充考虑与背景关联的置信度图来综合确定当前帧的哪些像素属于前景将会是有利的。

图5示出了根据本发明一个示例性实施方式的用于基于一个或多个置信度图确定每个像素是否属于前景的流程图500。如图500所示，当该像素在各个置信度图中的相应值均大于第一阈值时，确定所述像素属于前景(步骤S501，是)；否则(步骤S501，否)，在当该像素在各个置信度图中的相应值均小于第二阈值时，确定所述像素属于背景(步骤S502，是)。需要注意的是，步骤S501/S502中涉及的各个置信度图既可以是如方法100的步骤S103所获得的一个或多个与预定数值关联的置信度图，也可以除其之外还包括如方法300的步骤S303所获得的与背景关联的置信度图。

如果该像素在各个置信度图中的相应值并非均大于第一阈值或并非均小于第二阈值(步骤S502，否)：

(i)在该像素的邻域中仅存在被确定为前景的像素时(步骤S503，是)，将该相应值中的最大值作为该像素属于前景的概率值(步骤S504)；

(ii)在该像素的邻域中仅存在被确定为背景的像素时(步骤S503，否；步骤S505，是)，将该相应值中的最小值作为该像素属于前景的概率值(步骤S506)；

(iii)否则(步骤S505，否)，将该相应值的均值作为该像素属于前景的概率值(步骤S507)。

接着，方法500判断该像素属于前景的概率值是否大于第三阈值，当判断为是时(步骤S508，是)，确定该像素属于前景；否则(步骤S508，否)，确定该像素属于背景。

本领域技术人员可以理解，方法500中涉及的第一阈值、第二阈值以及第三阈值可以根据需要来设定。一般而言，第三阈值是介于第一阈值和第二阈值之间的值。另外，方法500中提及的术语“邻域’’指代像素在其上、下、左、右以及对角线方向的共8个相邻像素，或称为8-邻域。

图6-图7示出了根据图5的示例性方法的具体示例。如图6所示，基于已经获得的一个或多个置信度图601(可能包含或可能不包含与背景关联的置信度图)，针对每个像素在该一个或多个置信度图601上的值进行统计分析，当如602所示，所有值均大于一预定阈值θ1时，可以将其中的最大值作为该像素属于前景的概率值，并且在该当前视频帧的前景判决图604中将对应于该像素的判决设置为1，即认为该像素属于前景。反之，当如603所示，所有值均小于一预定阈值θ2时，可以将其中的最小值作为该像素属于前景的概率值，并且在该当前视频帧的前景判决图604中将对应于该像素的判决设置为0，即认为该像素属于背景。在置信度图被归一化的情况下，θ1和θ2的取值范围在0至1之间，典型地为θ1＞θ2。

下面参照图7。如果一像素在该一个或多个置信度图701上的各值并非均大于θ1或并非均小于θ2(702)，则如图7a所示，在其8-邻域申存在且仅存在被确定为前景的像素时(图703_a)，将各值中的最大值作为所述像素属于前景的概率值。如果这一概率值大于预定阈值θ3，则可以在该当前视频帧的前景判决图704中将对应于该像素的判决设置为1，即认为该像素属于前景；若小于预定阈值θ3，则可以在该当前视频帧的前景判决图704中将对应于该像素的判决设置为0，即认为该像素属于背景。

相反，如图7b所示，在该像素的8-邻域中存在且仅存在被确定为背景的像素时(图703_b)，将各值中的最小值作为所述像素属于前景的概率值。如果这一概率值小于预定阈值θ3，则可以在该当前视频帧的前景判决图704中将对应于该像素的判决设置为0，即认为该像素属于背景；若大于预定阈值θ3，则可以在该当前视频帧的前景判决图704中将对应于该像素的判决设置为1，即认为该像素属于前景。

或者，如图7c所示，在该像素的8-邻域中既没有被确定为前景也没有被确定为背景的像素时(图703_c)，将各值的平均值作为所述像素属于前景的概率值。根据其与θ3大小的比较来在前景判决图704中设置对应于该像素的判决。

又或者，如图7d所示，在该像素的8-邻域中既存在被确定为前景又存在被确定为背景的像素时(图703_d)，将各值的平均值作为所述像素属于前景的概率值。根据其与θ3大小的比较来在前景判决图704中设置对应于该像素的判决。

图8示出了根据本发明示例性实施方式的基于多个置信度图来得到用于从当前视频帧中分离出前景的示意性判决图。如图8所示，在融合例如通过图5-7描述的方式获得的一个或多个置信度图之后，可以得到当前帧的示意性判决图。由此判决图，可以清楚地获知当前视频帧中的每一像素是属于前景还是背景。

图9示出了根据本发明示例性实施方式的用于处理视频帧的总体示意图。如图9所示，针对要处理的视频帧901，首先通过方法100的步骤S101-S103获得一个或多个与预定数值关联的置信度图902_1至902_n，可选地，还可以附加地通过方法300的步骤S301-S303获得一个或多个与背景关联的置信度图902_n+1。基于对所获得的所有置信度图902_1至902_n+1的分析(例如，通过方法500)，可以获得该视频帧中每个像素属于前景的概率903，以便完成将视频帧的前景从背景中分割904。

接下来参照图10进一步描述根据本发明示例性实施方式的用于处理视频文件中的视频帧的装置1000的示意性框图。

如图所示，装置1000包括第一类置信度图获得单元1010和前景确定单元1020。其中，第一类置信度图获得单元1010被配置为对于一个或多个预定数值中的每个预定数值：比较所述视频帧与其前间隔所述预定数值个帧的视频帧，以获得第一帧间差；比较所述视频帧与其后间隔所述预定数值个帧的视频帧，以获得第二帧间差；以及针对所述视频帧的每个像素，基于所述第一帧间差和所述第二帧间差的较小值，获得所述视频帧与所述预定数值关联的置信度图。而前景确定单元1020被配置为至少基于每个像素在与相应预定数值关联的一个或多个所述置信度图中的值，确定像素是否属于前景。

在本发明的可选实施方式中，前景确定单元1020还被配置为基于每个像素在与背景关联的置信度图中的值来确定像素是否属于前景，并且装置1000还包括：选择单元1030，被配置为选择所述视频文件中包括所述视频帧的多个连续视频帧；构建单元1040，被配置为基于所述多个连续视频帧，构建所述视频文件的背景；以及第二类置信度图获得单元1050，被配置为比较所述视频帧与所述背景，以获得与所述背景关联的置信度图。

在本发明的可选实施方式中，多个连续视频帧还包括所述视频帧前间隔所述一个或多个预定数值中的最大数值个帧的视频帧，以及所述视频帧后间隔所述最大数值个帧的视频帧。

在本发明的可选实施方式中，前景确定单元1020包括：第一确定单元1021，被配置为当所述像素在各个置信度图中的相应值均大于第一阈值时，确定所述像素属于前景；以及第二确定单元1022，被配置为当所述像素在各个置信度图中的相应值均小于第二阈值时，确定所述像素属于背景。

在本发明的可选实施方式中，前景确定单元1020包括：概率确定单元1023，被配置为当所述像素在各个置信度图中的相应值并非均大于所述第一阈值或并非均小于所述第二阈值时：当所述像素的邻域中仅存在被确定为前景的像素时，将所述相应值中的最大值作为所述像素属于前景的概率值；当所述像素的邻域中仅存在被确定为背景的像素时，将所述相应值中的最小值作为所述像素属于前景的概率值；否则，将所述相应值的均值作为所述像素属于前景的概率值；第三确定单元1024，被配置为当所述像素属于前景的概率值大于第三阈值时，确定所述像素属于前景；以及第四确定单元1025，被配置为当所述像素属于前景的概率值小于第三阈值时，确定所述像素属于背景。

在本发明的可选实施方式中，构建单元1040包括：运动矢量确定单元1041，被配置为确定所述多个连续视频帧中每一视频帧相对于前一视频帧的相对运动矢量；对齐单元1042，被配置为基于所述相对运动矢量，在空间上对齐所述多个视频帧，以确定同一空间点在所述多个视频帧的每个视频帧上对应的像素点；聚类单元1043，被配置为将对应于所述每个空间点的所有像素点进行聚类，以获得对应于所述每个空间点的与背景有关的像素点；以及子构建单元1044，被配置为基于获得的对应于所述每个空间点的与背景有关的像素点，构建所述视频文件的背景。

在本发明的可选实施方式中，比较所述视频帧与其前/其后间隔所述预定数值个帧的视频帧，以获得第一/第二帧间差包括：将所述视频帧与其前/其后间隔所述预定数值个帧的视频帧在每个像素上针对同一属性值的差的绝对值作为所述第一/第二帧间差。

在本发明的可选实施方式中，所述属性值包括灰度值。

在本发明的可选实施方式中，基于所述第一帧间差和所述第二帧间差的较小值，获得所述视频帧与所述预定数值关联的置信度图还包括：将所述各个较小值归一化，以形成与所述预定数值关联的所述置信度图。

在本发明的可选实施方式中，第二类置信度图获得单元1050还包括：归一化单元1051，被配置为将所述视频帧与所述背景在每个像素上针对所述同一属性值的差的绝对值归一化，以获得与所述背景关联的置信度图。

在本发明的可选实施方式中，第三阈值是所述第一阈值和所述第二阈值之间的值。

需要注意的是，为了便于说明，在图10中的装置1000中示出了选择单元1030、构建单元1040、第二类置信度图获得单元1050，然而应当理解，这些单元并非是必须的，而是备选的或可选的。同样，虽然在图10中的装置1000中示出前景确定单元1020包括第一确定单元1021、第二确定单元1022、概率确定单元1023、第三确定单元1024以及第四确定单元1025，但单元1021-1025是可选的；虽然在装置1000中示出构建单元1040包括运动矢量确定单元1041、对齐单元1042、聚类单元1043、以及子构建单元1044，但单元1041-1044是可选的；虽然在装置1000中示出第二类置信度图确定单元1050包括归一化单元1051，但单元1051是可选的；本发明的范围在此方面不受限制。

而且，这里所用的术语“单元’’既可以是硬件模块，也可以是软件单元模块。相应地，装置1000可以通过各种方式实现。例如，在某些实施方式中，装置1000可以部分或者全部利用软件和/或固件来实现，例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地，装置1000可以部分或者全部基于硬件来实现，例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本发明的范围在此方面不受限制。

根据本发明的用于处理视频文件的方法和装置可以在各种电子设备上实施。例如，其可以在计算机上实施。图11示出了适于用来实践本发明实施方式的计算机系统1100的示意性框图。例如，图11所示的计算机系统1100可以用于实现如上文描述的用于处理视频文件的装置1000的各个部件，也可以用于固化或实现如上文描述的处理视频文件的方法100-300的各个步骤。

如图11所示，计算机系统可以包括：CPU(中央处理单元)1101、RAM(随机存取存储器)1102、ROM(只读存储器)1103、系统总线1104、硬盘控制器1105、键盘控制器1106、串行接口控制器1107、并行接口控制器1108、显示控制器1109、硬盘1110、键盘1111、串行外部设备1112、并行外部设备1113和显示器1114。在这些设备中，与系统总线1104耦合的有CPU1101、RAM1102、ROM1103、硬盘控制器1105、键盘控制器1106、串行控制器1107、并行控制器1108和显示控制器1109。硬盘1110与硬盘控制器1105耦合，键盘1111与键盘控制器1106耦合，串行外部设备1112与串行接口控制器1107耦合，并行外部设备1113与并行接口控制器1108耦合，以及显示器1114与显示控制器1109耦合。应当理解，图11所述的结构框图仅仅为了示例的目的而示出的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况而增加或者减少某些设备。

如上所述，装置1000可以实现为纯硬件，例如芯片、ASIC、SOC等。这些硬件可以集成在计算机系统1100中。此外，本发明的实施方式也可以通过计算机程序产品的形式实现。例如，参考图1-图8描述的各种方法可以通过计算机程序产品来实现。该计算机程序产品可以存储在例如图11所示的RAM1104、ROM1104、硬盘1110和/或任何适当的存储介质中，或者通过网络从适当的位置下载到计算机系统1100上。计算机程序产品可以包括计算机代码部分，其包括可由适当的处理设备(例如，图11中示出的CPU1101)执行的程序指令。所述程序指令至少可以包括用于实现方法100、300、500中任一的步骤的指令。

上文已经结合若干具体实施方式阐释了本发明的精神和原理。根据本发明的用于处理视频文件中的视频帧的方法和装置相对于现有技术具有诸多优点。例如，其可以在视频文件较长、或者在捕获视频文件时有所抖动的情况下也能从中较为准确地分割出前景，从而满足用户的各种需求。

如前所述用于实施根据本发明的用于处理视频文件的方法和装置的电子设备也可以包括如图12所示的用户终端1200。

用户终端1200包括扬声器或耳机1202、麦克风1206、触摸屏1203和一组按键1204，其可以包括虚拟按键1204a、软键1204b、1204c和游戏杆1205或其他类型的导航输入设备。

图13示意性示出了如图12所示用户终端的配置示意图。

现在，参考图13来描述用户终端1200的内部组件、软件和协议结构。用户终端1200具有控制器1300，其负责用户终端的整体操作，并且可以利用任何商业可得CPU(“中央处理单元’’)、DSP(“数字信号处理器”)或任何其他电子可编程逻辑器件实现。控制器1300具有关联电子存储器1302，诸如RAM存储器、ROM存储器、EEPROM存储器、闪存或其任何组合。存储器1302由控制器1300用于各种目的，其中之一在于为用户终端中各种软件存储程序指令和数据。软件包括实时操作系统1320、用于人机界面(MMI)1334的驱动器、应用处理机1332和各种应用。应用可以包括消息文本编辑器1350、手写识别(HWR)应用1360和各种其他应用1370，诸如，用于语音呼叫、视频呼叫、发送和接收短消息服务(SMS)消息、多媒体消息服务(MMS)或电子邮件、web浏览、即时消息收发应用、电话簿应用、日历应用、控制面板应用、照相机应用、一个或多个视频游戏、记事本应用等。应当注意，上述应用的两个或更多可以作为同一应用执行。

MMI1334还包括一个或多个硬件控制器，其与MMI驱动器一起与第一显示器1336/1203，小键盘1338/1204和各种其他I/0设备(诸如麦克风、扬声器、振动器、响铃发生器、LED指示器等)协作。如所公知的，用户可以通过这样形成的人机界面来操作用户终端。

软件还可以包括各种模块、协议栈、驱动器等，其被共同标记为1330，并且为RF接口1306以及可选地为蓝牙接口1308和/或IrDA接口1310提供通信服务(诸如，传输、网络和连通性)，以用于本地连通性。RF接口1306包括内部或外部天线以及用于建立和维护通往基站的无线链路的适当无线电电路。如本领域技术人员公知的，无线电电路包括一系列模拟和数字电子组件，其一起形成无线电接收机和发射机。这些组件例如包括带通滤波器、放大器、混频器、本地振荡器、低通滤波器、AD/DA转换器等。

用户终端还可以包括SIM卡1304和相关联的读出器。如所公知的，SIM卡1304包括处理器以及本地工作和数据存储器。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现。在实现中，在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。

在一个例子中，提供了一种计算机程序产品的非瞬态计算机可读介质，所述计算机程序产品包括机器可执行指令，所述机器可执行指令在被执行时使得机器执行：对于一个或多个预定数值中的每个预定数值：比较所述视频帧与其前间隔所述预定数值个帧的视频帧，以获得第一帧间差；比较所述视频帧与其后间隔所述预定数值个帧的视频帧，以获得第二帧间差；以及针对所述视频帧的每个像素，基于所述第一帧间差和所述第二帧间差的较小值，获得所述视频帧与所述预定数值关联的置信度图；并且至少基于每个像素在与相应预定数值关联的一个或多个所述置信度图中的值，确定像素是否属于前景。

在另一个例子中，提供了一种装置，其包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器；所述至少一个存储器和所述计算机程序代码被配置用于与所述至少一个处理器一起使得所述装置至少执行：对于一个或多个预定数值中的每个预定数值：比较所述视频帧与其前间隔所述预定数值个帧的视频帧，以获得第一帧间差；比较所述视频帧与其后间隔所述预定数值个帧的视频帧，以获得第二帧间差；以及针对所述视频帧的每个像素，基于所述第一帧间差和所述第二帧间差的较小值，获得所述视频帧与所述预定数值关联的置信度图；并且至少基于每个像素在与相应预定数值关联的一个或多个所述置信度图中的值，确定像素是否属于前景。

本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

应当注意，尽管在上文详细描述中提及了设备的若干装置或子装置，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明，但是应该理解，本发明并不限于所公开的具体实施方式。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种用于处理视频文件中的视频帧的方法，包括：

对于一个或多个预定数值中的每个预定数值：

比较所述视频帧与其前间隔所述预定数值个帧的视频帧，以获得第一帧间差；

比较所述视频帧与其后间隔所述预定数值个帧的视频帧，以获得第二帧间差；以及

针对所述视频帧的每个像素，基于所述第一帧间差和所述第二帧间差的较小值，获得所述视频帧与所述预定数值关联的置信度图；并且

至少基于每个像素在与相应预定数值关联的一个或多个所述置信度图中的值，确定像素是否属于前景。

2.根据权利要求1所述的方法，其中，所述确定像素是否属于前景还基于每个像素在与背景关联的置信度图中的值，所述与背景关联的置信度图通过如下步骤获得：

选择所述视频文件中包括所述视频帧的多个连续视频帧；

基于所述多个连续视频帧，构建所述视频文件的背景；以及

比较所述视频帧与所述背景，以获得与所述背景关联的置信度图。

3.根据权利要求2所述的方法，其中，所述多个连续视频帧还包括所述视频帧前间隔所述一个或多个预定数值中的最大数值个帧的视频帧，以及所述视频帧后间隔所述最大数值个帧的视频帧。

4.根据权利要求1或2所述的方法，其中，所述至少基于每个像素在与相应时间间隔关联的一个或多个所述置信度图中的值，确定所述像素是否属于前景包括：

当所述像素在各个置信度图中的相应值均大于第一阈值时，确定所述像素属于前景；以及

当所述像素在各个置信度图中的相应值均小于第二阈值时，确定所述像素属于背景。

5.根据权利要求4所述的方法，其中，所述至少基于每个像素在与相应时间间隔关联的一个或多个所述置信度图中的值，确定所述像素是否属于前景包括：

当所述像素在各个置信度图中的相应值并非均大于所述第一阈值或并非均小于所述第二阈值时：

当所述像素的邻域中仅存在被确定为前景的像素时，将所述相应值中的最大值作为所述像素属于前景的概率值；

当所述像素的邻域中仅存在被确定为背景的像素时，将所述相应值中的最小值作为所述像素属于前景的概率值；

否则，将所述相应值的均值作为所述像素属于前景的概率值；以及

当所述像素属于前景的概率值大于第三阈值时，确定所述像素属于前景；以及

当所述像素属于前景的概率值小于第三阈值时，确定所述像素属于背景。

6.根据权利要求2所述的方法，其中，基于所述多个连续视频帧，构建所述视频文件的背景包括：

确定所述多个连续视频帧中每一视频帧相对于前一视频帧的相对运动矢量；

基于所述相对运动矢量，在空间上对齐所述多个视频帧，以确定同一空间点在所述多个视频帧的每个视频帧上对应的像素点；

将对应于所述每个空间点的所有像素点进行聚类，以获得对应于所述每个空间点的与背景有关的像素点；以及

基于获得的对应于所述每个空间点的与背景有关的像素点，构建所述视频文件的背景。

7.根据权利要求1或2所述的方法，其中，比较所述视频帧与其前/其后间隔所述预定数值个帧的视频帧，以获得第一/第二帧间差包括：

将所述视频帧与其前/其后间隔所述预定数值个帧的视频帧在每个像素上针对同一属性值的差的绝对值作为所述第一/第二帧间差。

8.根据权利要求7所述的方法，其中，所述属性值包括灰度值。

9.根据权利要求7所述的方法，其中，基于所述第一帧间差和所述第二帧间差的较小值，获得所述视频帧与所述预定数值关联的置信度图还包括：

将所述各个较小值归一化，以形成与所述预定数值关联的所述置信度图。

10.根据权利要求2所述的方法，其中，比较所述视频帧与所述背景，以获得与所述背景关联的置信度图还包括：

将所述视频帧与所述背景在每个像素上针对所述同一属性值的差的绝对值归一化，以获得与所述背景关联的置信度图。

11.根据权利要求5所述的方法，其中，所述第三阈值是所述第一阈值和所述第二阈值之间的值。

12.一种用于处理视频文件中的视频帧的装置，包括：

第一类置信度图获得单元，被配置为对于一个或多个预定数值中的每个预定数值：

针对所述视频帧的每个像素，基于所述第一帧间差和所述第二帧间差的较小值，获得所述视频帧与所述预定数值关联的置信度图；以及

前景确定单元，被配置为至少基于每个像素在与相应预定数值关联的一个或多个所述置信度图中的值，确定像素是否属于前景。

13.根据权利要求12所述的装置，其中，所述前景确定单元还被配置为基于每个像素在与背景关联的置信度图中的值来确定像素是否属于前景，并且所述用于处理视频文件中的视频帧的装置还包括：

选择单元，被配置为选择所述视频文件中包括所述视频帧的多个连续视频帧；

构建单元，被配置为基于所述多个连续视频帧，构建所述视频文件的背景；以及

第二类置信度图获得单元，被配置为比较所述视频帧与所述背景，以获得与所述背景关联的置信度图。

14.根据权利要求13所述的装置，其中，所述多个连续视频帧还包括所述视频帧前间隔所述一个或多个预定数值中的最大数值个帧的视频帧，以及所述视频帧后间隔所述最大数值个帧的视频帧。

15.根据权利要求12或13所述的装置，其中，所述前景确定单元包括：

第一确定单元，被配置为当所述像素在各个置信度图中的相应值均大于第一阈值时，确定所述像素属于前景；以及

第二确定单元，被配置为当所述像素在各个置信度图中的相应值均小于第二阈值时，确定所述像素属于背景。

16.根据权利要求15所述的装置，其中，所述前景确定单元包括：

概率确定单元，被配置为当所述像素在各个置信度图中的相应值并非均大于所述第一阈值或并非均小于所述第二阈值时：

第三确定单元，被配置为当所述像素属于前景的概率值大于第三阈值时，确定所述像素属于前景；以及

第四确定单元，被配置为当所述像素属于前景的概率值小于第三阈值时，确定所述像素属于背景。

17.根据权利要求13所述的装置，其中，所述构建单元包括：

运动矢量确定单元，被配置为确定所述多个连续视频帧中每一视频帧相对于前一视频帧的相对运动矢量；

对齐单元，被配置为基于所述相对运动矢量，在空间上对齐所述多个视频帧，以确定同一空间点在所述多个视频帧的每个视频帧上对应的像素点；

聚类单元，被配置为将对应于所述每个空间点的所有像素点进行聚类，以获得对应于所述每个空间点的与背景有关的像素点；以及

子构建单元，被配置为基于获得的对应于所述每个空间点的与背景有关的像素点，构建所述视频文件的背景。

18.根据权利要求12或13所述的装置，其中，比较所述视频帧与其前/其后间隔所述预定数值个帧的视频帧，以获得第一/第二帧间差包括：

19.根据权利要求18所述的装置，其中，所述属性值包括灰度值。

20.根据权利要求18所述的装置，其中，基于所述第一帧间差和所述第二帧间差的较小值，获得所述视频帧与所述预定数值关联的置信度图还包括：

21.根据权利要求13所述的装置，其中，所述第二类置信度图获得单元还包括：

归一化单元，被配置为将所述视频帧与所述背景在每个像素上针对所述同一属性值的差的绝对值归一化，以获得与所述背景关联的置信度图。

22.根据权利要求16所述的装置，其中，所述第三阈值是所述第一阈值和所述第二阈值之间的值。

23.一种包括计算机程序产品的非瞬态计算机可读介质，所述计算机程序产品包括机器可执行指令，所述机器可执行指令在被执行时使得机器执行根据权利要求1至11中任何一项所述的方法。

24.一种装置，包括：

至少一个处理器；以及

包括计算机程序代码的至少一个存储器；

所述至少一个存储器和所述计算机程序代码被配置用于与所述至少一个处理器一起使得所述装置至少执行根据权利要求1至11中任一项所述的方法。