CN108537134B

CN108537134B - 一种视频语义场景分割及标注方法

Info

Publication number: CN108537134B
Application number: CN201810218659.2A
Authority: CN
Inventors: 白双
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2020-06-30
Anticipated expiration: 2038-03-16
Also published as: CN108537134A

Abstract

本发明所述的视频语义场景分割及标注方法，包括以下步骤：基于有标注场景图像集离线训练深度卷积神经网络构建场景分类器；计算视频序列中相邻视频帧之间的相似度并对视频帧按照相似度分组；自适应调节相似度阈值获得视频帧帧数分布均匀的视频帧分组；合并包含帧数过少的帧分组，分裂包含帧数过多的帧分组以对视频帧分组结果重新调整；为每个视频帧分组选择代表性视频帧；利用场景分类器识别视频帧分组的场景类别；对视频序列进行语义场景分割及标注。本发明为解决视频的检索和管理问题提供了有效手段，并提高用户观看视频的体验和乐趣。

Description

一种视频语义场景分割及标注方法

技术领域

本发明涉及计算机视频处理技术领域，尤其涉及一种视频语义场景分割及标注方法。

背景技术

随着数字多媒体以及互联网技术的快速发展，每天都有大量的数字视频数据产生。海量的视频数据对视频的有效检索和管理构成了巨大的挑战。将视频按照语义场景进行分割并进行标注对于解决视频检索和管理问题具有重要的作用。此外，对视频内容按语义场景进行分割及标注可以有效地提高用户观看视频的体验和乐趣。目前，场景识别主要包括静态图像场景识别和视频场景识别。其中，静态图像场景识别是指将静态场景图像归类为对应的语义场景类别。而视频场景识别是指将事先分割好的视频片断归类为对应的语义场景类别。当前的场景识别技术中还没有将包含多种语义场景的视频按照语义进行分割并标注的有效方法。

发明内容

本发明针对现有技术的不足，提出一种视频语义场景分割及标注方法，能够将视频按语义场景进行分割并为分割得到的视频片段进行语义标注，具体的技术方案如下：

本发明提供了一种视频语义场景分割及标注方法，包括以下步骤：

S1：基于有标注场景图像集，离线训练深度卷积神经网络构建多类场景分类器；

S2：计算视频序列中相邻帧之间的相似度，通过将所述相似度与设定阈值作对比得到视频序列的视频帧分组；

S3：调整所述视频帧分组，并根据设定指标从各个所述视频帧分组中选取代表性视频帧；

S4：利用所述多类场景分类器对所述代表性视频帧进行分类；

S5：基于所述多类场景分类器的分类结果对所述视频帧分组进行语义标注以及融合，完成视频语义场景分割及标注。

进一步地，所述S1还包括：

S11：选取有标注场景的图像集，或者构建设定场景的图像集；

S12：基于所述选取或构建的图像集训练深度卷积神经网络，基于深度卷积神经网络构建场景分类器，令所述场景分类器能够预测输入图像属于各个场景类别的概率；

S13：提取所述深度卷积神经网络的多个中间层，利用向量化方法把每个中间层的输出进行向量化，然后基于神经网络层的输出，训练Softmax分类函数构建场景分类器。

进一步地，所述S2还包括：

从视频序列的每幅视频帧中提取能够反映视频帧内容的RGB颜色直方图作为相应视频帧的特征向量，基于所述视频帧的特征向量计算相邻两幅视频帧之间的欧几里得距离，接着将所述欧几里得距离的倒数通过sigmoid函数映射到(0,1)数值区间，得到相似度度量；

将相邻两帧之间的相似度与设定阈值进行比较，如果相邻两帧之间的相似度大于设定阈值则将这两帧归入相同的视频帧分组，否则将这两帧归入不同的帧分组。

进一步地，计算相邻两幅视频帧之间的欧几里得距离d为：

其中，v_i和v_j表示相邻两帧的特征向量，K表示特征向量的维度；

所述欧几里得距离的倒数通过sigmoid函数映射到(0,1)数值区间，映射方式为：

其中，d表示相邻帧之间的距离，e表示自然常数。

进一步地，所述S3还包括：

将设定阈值从0到1按设定的步长进行变化，将所述按设定的步长进行变化的阈值根据S2对视频序列进行分组，按照分组中视频帧的数量对视频分组做降序排列，然后用每个视频帧分组中的帧数除以整个视频序列的长度进行归一化处理，接着按照以下方式计算每次视频帧分组的帧数分布均匀度：

Length(Gs₁)＞Length(Gs₂)＞···Length(Gs_L-1)＞Length(Gs_L)

其中，Gs_i表示排序后第i个视频帧分组，Length(.)表示视频帧分组的长度，L表示视频帧分组的个数；

选取视频帧分布均匀度最大的一次分组作为视频帧分组的结果，视频帧分布均匀度D_a为：

其中，L表示视频帧分组的个数，Gs_i表示排序后第i个视频帧分组，Length(.)表示视频帧分组的长度。

进一步地，所述S3还包括：

通过随机方式或者按照设定方式或者通过组内帧聚类的方式选择N幅视频帧作为对应帧分组的代表性视频帧。

进一步地，所述S4还包括：

利用所述场景分类器对每个视频帧分组的每幅代表性帧进行分类，即对应于每幅视频帧得到一个该视频帧属于每个场景类别的概率分布。

进一步地，所述S5还包括：

融合每个帧分组的代表性帧的分类结果，确定对应帧分组的场景类别，并将相邻且具有相同场景类别的帧分组进行合并，完成视频序列的语义场景分割及标注。

由上述本发明提供的技术方案可以看出，本发明能够将视频按照视频所包含的语义场景进行分割，并能够对每个得到的视频片断进行语义标注。通过本发明所提技术方案，可以根据视频所包含的语义场景对视频进行检索、组织及管理。大大提高视频处理的效率和视频观看的体验和乐趣。

本发明附加的方面和优点将在下面的描述部分中给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述视频语义场景分割及标注方法的流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本发明提供一种对视频序列进行语义场景分割及标注的方法，分别以下步骤：

为便于对本发明技术方案的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

实施例一

本实施例提供一种对视频序列进行语义场景分割及标注的方法，结合图1对该方法进行详细介绍，如图1所示：

步骤201：利用有标注场景图像集训练深度卷积神经网络构建场景分类器，所述场景分类器能够预测输入图像属于各个场景类别的概率；

在本实施例中，有标注场景图像集可以利用现有的图像集如Places和SUN397，也可以自行搜集感兴趣场景的图像构建场景图像集，用于训练场景分类器的有标注场景图像集中的场景类别就是可用于对视频进行场景语义标注的场景类别；

深度卷积神经网络的结构可采用经典的网络结果如VGG-Net或ResNet等，网络结构的最后一层的输出是输入图像属于每个预先定义的场景类别的概率的分布向量，在构建集成分类器的过程中，可以将深度神经网络的若干中间层的输出作为输入图像的特征，训练Softmax分类器；采用批量随机梯度下降法和反向传播算法对深度网络模型进行训练。

步骤202：从视频序列的每幅视频帧中提取能够反映视频帧在红、绿、蓝三个颜色通道上的像素分布情况的RGB颜色直方图作为相应视频帧的特征向量，基于所述视频帧的特征向量计算相邻两幅视频帧之间的欧几里得距离，接着将所述欧几里得距离的倒数通过sigmoid函数映射到(0,1)数值区间，得到相似度度量；

将相邻帧之间的相似度与相似度阈值Ts进行比较，如果相邻两帧间的相似度大于Ts则将其归入相同的视频帧分组，否则将其归入不同的帧分组。

在本实施例中，计算相邻两幅视频帧之间的欧几里得距离d为：

其中，v_i和v_j是相邻两帧的特征向量，K表示特征向量的维度；

在本实施例中，所述欧几里得距离的倒数通过sigmoid函数映射到(0,1)数值区间，映射方式为：

其中，d表示相邻帧之间的距离，e表示自然常数。

步骤203：将视频帧分组阈值Ts从0到1按0.1步长进行变化，得到一组Ts的取值为0.1,0.2,...,0.9，对应于每个阈值Ts，分别按照步骤202中所述的方法对视频序列进行分组；对应于每一次分组，按照分组中视频帧的数量对视频分组做降序排列，然后用每个视频帧分组中的帧数除以整个视频序列的长度进行归一化；接着按照以下公式计算视频帧分组的帧数分布均匀度：

其中，G_i表示第i个视频帧分组，Gs_i表示排序后第i个视频分组，Length(.)表示视频帧分组的长度，D_a表示视频序列分组的均匀程度度量，L表示视频帧分组的个数。

步骤204：对得到的视频帧分组进行检验，每个帧分组包含的视频帧数分别与阈值T_L和T_G进行比较，如果一个帧分组包含的帧数小于阈值T_L，则将该分组并入到与其具有更高相似度的相邻的前向或后向分组中；如果一个帧分组包含的帧数大于阈值T_G，则将该分组中的每个视频帧分割成规则的图像块，然后分别为每个得到的图像块生成相应的RGB颜色直方图，并将得到的颜色直方图进行串接，作为对应视频帧的更详细的表示；然后基于视频帧的更详细的表示按照步骤202所述方法对该视频帧分组进行重新分组。

步骤205：从视频序列的每个分组中，选取视频帧分组的首帧，尾帧和中间帧作为对应视频帧分组的代表性视频帧。

代表性视频帧的选择可通过以下过程实现：

a.随机选取；b.从预先指定的位置选取，比如取视频帧分组的首帧，尾帧和中间帧等。c.利用算法进行选取，如计算视频帧组内所有视频帧的特征表示的平均值，选取与平均值距离最小的视频帧等。

步骤206：用集成分类器中的每一个成员分类器分别对每个视频帧分组中的代表性视频帧进行分类，对应于每一幅代表性视频帧的每个分类器得到一个概率分布向量，其中概率分布向量的每一维表示对应视频帧属于相应场景类别的概率；通过向量求和的方式对集成分类器的输出进行融合，从和向量中选取取值最大的一维对应的场景类别作为视频帧分组的场景类别。

步骤207：根据步骤206确定每个视频帧分组的场景语义标注；将连续且具有相同语义标注的视频帧分组合并，得到具有场景语义标注的视频分割。

综上所述，本发明实施例通过自适应方法将视频序列分割成视频片断，并通过集成深度卷积神经网络分类器构建场景分类器，利用场景分类器对视频片断进行标注，实现对视频序列的语义场景分割及标注。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种视频语义场景分割及标注方法，其特征在于，包括以下步骤：

S3：调整所述视频帧分组，并根据设定指标从各个所述视频帧分组中选取代表性视频帧；还包括：

Length(Gs₁)>Length(Gs₂)>…Length(Gs_L-1)>Length(Gs_L)

其中，L表示视频帧分组的个数，Gs_i表示排序后第i个视频帧分组，Length(.)表示视频帧分组的长度；

2.根据权利要求1所述的视频语义场景分割及标注方法，其特征在于，所述S1还包括：

3.根据权利要求1所述的视频语义场景分割及标注方法，其特征在于，所述S2还包括：

4.根据权利要求3所述的视频语义场景分割及标注方法，其特征在于，

计算相邻两幅视频帧之间的欧几里得距离d为：

其中，d表示相邻帧之间的距离，e表示自然常数。

5.根据权利要求1所述的视频语义场景分割及标注方法，其特征在于，所述S3还包括：

6.根据权利要求1所述的视频语义场景分割及标注方法，其特征在于，所述S4还包括：

7.根据权利要求1所述的视频语义场景分割及标注方法，其特征在于，所述S5还包括：