CN106612457A

CN106612457A - 视频序列对齐方法和系统

Info

Publication number: CN106612457A
Application number: CN201610986953.9A
Authority: CN
Inventors: 雷延强
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2016-11-09
Filing date: 2016-11-09
Publication date: 2017-05-03
Anticipated expiration: 2036-11-09
Also published as: WO2018086231A1; CN106612457B

Abstract

本发明涉及一种视频序列对齐方法和系统，方法包括以下步骤：从待对齐的视频序列中抓取无场景切换的视频片段；分别将所述视频片段中的各个视频帧划分为若干个子块，根据各个视频帧的子块生成视频片段序列；将所述视频片段序列输入至预先训练的场景类别分类器，分别计算所述视频片段序列属于各个场景类别的概率值，将概率值最大的场景类别设为所述视频片段所属的第一场景类别；将所述视频片段与预存的原始视频序列中属于所述第一场景类别的视频片段进行对齐。

Description

视频序列对齐方法和系统

技术领域

本发明涉及信号检测技术领域，特别是涉及一种视频序列对齐方法和系统。

背景技术

显示设备是一种可输出图像或感触信息的设备。为了保证显示设备正常工作，通常需要对显示设备的一些性能参数进行检测。以电视机为例，电视机的主板灵敏度是电视机的一个重要性能性能参数。

现有的检测电视机主板灵敏度的方案是：利用原始的视频信号作为参考，将待检测的视频信号与原始视频信号进行对齐，将对齐后的视频信号的信号强度调整为经所述显示设备输出后无马赛克效应与出现马赛克效应之间的临界信号强度，并根据该信号强度确定所述显示设备的性能参数。

然而，这种方式需要花费较多的时间进行视频信号对齐，导致信号处理效率较低。

发明内容

基于此，有必要针对信号处理效率较低的问题，提供一种视频序列对齐方法和系统。

一种视频序列对齐方法，包括以下步骤：

从待对齐的视频序列中抓取无场景切换的视频片段；

分别将所述视频片段中的各个视频帧划分为若干个子块，根据各个视频帧的子块生成视频片段序列；

将所述视频片段序列输入至预先训练的场景类别分类器，分别计算所述视频片段序列属于各个场景类别的概率值，将概率值最大的场景类别设为所述视频片段所属的第一场景类别；

将所述视频片段与预存的原始视频序列中属于所述第一场景类别的视频片段进行对齐。

一种视频序列对齐系统，包括：

视频抓取模块，用于从待对齐的视频序列中抓取无场景切换的视频片段；

序列生成模块，用于分别将所述视频片段中的各个视频帧划分为若干个子块，根据各个视频帧的子块生成视频片段序列；

计算模块，用于将所述视频片段序列输入至预先训练的场景类别分类器，分别计算所述视频片段序列属于各个场景类别的概率值，将概率值最大的场景类别设为所述视频片段所属的第一场景类别；

对齐模块，用于将所述视频片段与预存的原始视频序列中属于所述第一场景类别的视频片段进行对齐。

上述视频序列对齐方法和系统，从待对齐的视频序列中抓取无场景切换的视频片段，分别将所述视频片段中的各个视频帧划分为若干个子块，根据各个视频帧的子块生成视频片段序列，分别计算所述视频片段序列属于各个场景类别的概率值，将概率值最大的场景类别设为所述视频片段所属的第一场景类别，将所述视频片段与预存的原始视频序列中属于所述第一场景类别的视频片段进行对齐，通过先进行粗对齐找到原始视频序列中属于所述第一场景类别的视频片段，再将待对齐的视频序列与所述第一场景类别的视频片段进行精对齐，能够有效减少视频对齐的时间，提高视频对齐的效率。

附图说明

图1为一个实施例的视频序列对齐方法流程图；

图2为一个实施例的原始视频序列按场景分类示意图；

图3为一个实施例的深度卷积网络结构示意图；

图4为一个实施例的视频序列对齐系统的结构示意图。

具体实施方式

下面结合附图对本发明的技术方案进行说明。

如图1所示，本发明提供一种视频序列对齐方法，可包括以下步骤：

S1，从待对齐的视频序列中抓取无场景切换的视频片段；

其中，所述视频序列的长度应满足一定的时间代价约束条件，所述时间代价约束条件用于表征视频序列对齐操作花费的时间。一般来说，视频序列的长度越长，对齐过程花费的时间越长。为了满足上述约束条件，一般抓取一段较短的视频片段(例如长度为1秒的视频片段)。通过设置时间代价约束条件，能够提高对齐结果的实时性，缩短用户等待时间，提高用户体验。

抓取视频片段后，需要对抓取的视频片段进行判断，若不符合条件，则重新抓取。判断的基本原理是：尽量保持获取的视频片段前后变化小，无场景切换等。可采用累积的帧间误差作为评判标准，累积的帧间误差为：

式中，f(z_i)为第i个视频帧的特征(例如分区域的颜色直方图)，f(z_i-1)为第i-1个视频帧的特征，||·||为距离度量函数(例如，L₂距离度量函数)，T为预设的距离阈值，n为所述待对齐的视频序列中的视频片段的总数。

若不满足上述条件，则需要重新抓取视频片段。一般来说，1秒内的视频片段很容易满足上述条件，因此不会过多地重复采集。无场景切换表示视频内容基本一致，有利于分类。

S2，分别将所述视频片段中的各个视频帧划分为若干个子块，根据各个视频帧的子块生成视频片段序列；

假设步骤S1中抓取到的视频片段为Z＝[z₀,z₁,...z_n]，其中，z_i(i＝1,2,…,n)为第i个视频帧，若每个视频帧中包括K个子块，在本步骤中，可以生成如下视频片段序列：

S3，将所述视频片段序列输入至预先训练的场景类别分类器，分别计算所述视频片段序列属于各个场景类别的概率值，将概率值最大的场景类别设为所述视频片段所属的第一场景类别；

其中，所述概率值可以根据如下公式计算：

式中，表示所述视频片段序列的第i个视频帧中的第k个子块，Y_j表示所述原始视频序列中属于第j场景类别的视频片段，为所述视频片段序列中的子块属于第j场景类别的概率值，p(Y_j/Z)为所述视频片段序列属于第j场景类别的概率值，K为所述视频片段序列的一个视频帧中子块的总数，∏表示乘法操作。

所述场景类别分类器可以在执行对齐操作之前预先训练。训练场景分类器的方式可包括以下步骤：

步骤1，获取视频序列样本，将所述视频序列样本按场景划分为多个场景类别；

视频序列中，若场景不进行切换，则相邻图像相似度极高。因此可以将视频序列样本按场景划分为较粗的类别，并保持时间先后关系。在粗定位时，只需确定当前视频片段与哪一个类别最为相似即可。具体分类描述如下：

设视频序列样本为Y＝[y₁,y₂,...y_m]，m为视频序列样本中的视频帧的总数。按场景划分为多个类别，如图2所示。图2中，Y_l为视频序列样本中的第l个视频片段，每个视频片段包括若干个视频帧。

可以预先在场景边界做标注，根据该标注信息进行场景划分(一般原始视频序列20-30分钟，标注量不大，并且是一次性工作)，也可以采用典型的帧间累积误差自动进行场景分类：累积的帧间误差为：

其中，f(y_i)表示第i个视频帧的特征表示(例如分区域的颜色直方图)，||·||是距离度量函数。若d(Y)小于设置的阈值，则将当前相邻图像划分为同一个类别；后续未划分的序列则重复上述划分过程即可。

步骤2，分别将各个场景类别的视频序列样本划分为若干个样本子块；其中，所述视频序列样本中包括非重叠的样本子块；

针对每个场景类别中每个图像样本，进行非重叠的子块划分(也可以带重叠，但应包括非重叠划分的特例)，构建立出更为精细的小图(例如256*256，若非重叠划分不能整除256时，可以在最右侧划分时采用重叠划分)，进行训练深度卷积网络。一般学习策略，用的样本越多越好，非重叠下，采用的样本是最少的，不能再少了，并且它们之间没有重叠。而有重叠的划分，需要包括非重叠的特例，否则失去了一般性。这样做的好处有：1)样本数量增多，有利于深度卷积网络训练；2)样本图像尺寸变小，可以有效地减少深度神经网络中全连接层的数量，复杂度降低。例如：每个原始样本图像y_i，经过子块划分后，可以得到K+1个子块图像

步骤3，根据所述样本子块及其所属的场景类别对深度卷积网络进行训练，得到场景类别分类器。

利用收集的场景类别样本图(即子块图像)及其标注(子块图像对应的场景类别)，对深度卷积网络进行训练，得到分类器，如图3所示。本发明采用的深度卷积网络包括五个卷积层(Convolutional Layer)，每个卷积层的输出都经过ReLU(Rectified LinearUnits)激活函数进行非线性变换，再经过池化层(Pooling Layer)进行池化，再接两个全连接层(Fully-Connected Layer)，最后通过Softmax函数输出分类概率(输入子块图像属于某个场景类别的概率)。

S4，将所述视频片段与预存的原始视频序列中属于所述第一场景类别的视频片段进行对齐。

步骤S3已经粗略定位当前视频片段Z＝[z₀,z₁,...z_n]属于哪个类别Y_J＝[y_u,y_u+1,...y_v]。本步骤即将在中精确地定位当前视频片段所属位置。为了防止边界问题，可以将Y_J进行左右扩展为Y_J＝[y_u-n,y_u-n+1,...y_v+n]，则精确对齐的计算方式为：

其中，Y_J＝[y_u-n,y_u-n+1,...y_v+n]；

式中，Q表示所述视频片段与原始视频序列的最佳对齐位置，d(·)为距离度量函数，Z为所述视频片段，z_i为Z中的第i个视频帧，Y_j＝[y_u,y_u+1,...y_v]表示所述原始视频序列中属于第j场景类别的视频片段，y_i为Y_j中的第i个视频帧，y_u-i(i＝1,2,…,n)为y₀前i时刻的视频帧，y_v+i(i＝1,2,…,n)为y_n后i时刻的视频帧，n为正整数，q∈[u-n,v]。

上述视频序列对齐方法，采用由粗到精的搜索策略，通过先进行粗对齐找到原始视频序列中属于所述第一场景类别的视频片段，再将待对齐的视频序列与所述第一场景类别的视频片段进行精对齐，有效减少了视频对齐的时间，提高了视频对齐的效率。

如图2所示，本发明提供一种视频序列对齐系统，可包括：

视频抓取模块10，用于从待对齐的视频序列中抓取无场景切换的视频片段；

抓取视频片段后，需要对抓取的视频片段进行判断，若不符合条件，则重新抓取。判断的基本原理是：尽量保持获取的视频片段前后变化小，无场景切换等。可设置一判定模块，采用累积的帧间误差作为评判标准进行判断，累积的帧间误差为：

式中，f(z_i)为第i个视频帧的特征(例如分区域的颜色直方图)，f(z_i-1)为第i-1个视频帧的特征，||·||为距离度量函数(例如，L₂距离度量函数)，T为预设的距离阈值，n为所述待对齐的视频序列中的视频片段的总数。无场景切换表示视频内容基本一致，有利于分类。

若不满足上述条件，则需要重新抓取视频片段。一般来说，1秒内的视频片段很容易满足上述条件，因此不会过多地重复采集。

序列生成模块20，用于分别将所述视频片段中的各个视频帧划分为若干个子块，根据各个视频帧的子块生成视频片段序列；

假设视频抓取模块10中抓取到的视频片段为Z＝[z₀,z₁,...z_n]，其中，z_i(i＝1,2,…,n)为第i个视频帧，若每个视频帧中包括K个子块，在序列生成模块20中，可以生成如下视频片段序列：

计算模块30，用于将所述视频片段序列输入至预先训练的场景类别分类器，分别计算所述视频片段序列属于各个场景类别的概率值，将概率值最大的场景类别设为所述视频片段所属的第一场景类别；

其中，所述概率值可以根据如下公式计算：

所述场景类别分类器可以在执行对齐操作之前预先训练。所述视频序列对齐系统还可包括：

分类模块，用于获取视频序列样本，将所述视频序列样本按场景划分为多个场景类别；

子块划分模块，用于分别将各个场景类别的视频序列样本划分为若干个样本子块；其中，所述视频序列样本中包括非重叠的样本子块；

训练模块，用于根据所述样本子块及其所属的场景类别对深度卷积网络进行训练，得到场景类别分类器。

对齐模块40，用于将所述视频片段与预存的原始视频序列中属于所述第一场景类别的视频片段进行对齐。

计算模块30已经粗略定位当前视频片段Z＝[z₀,z₁,...z_n]属于哪个类别Y_J＝[y_u,y_u+1,...y_v]。对齐模块40即将在中精确地定位当前视频片段所属位置。为了防止边界问题，可以将Y_J进行左右扩展为Y_J＝[y_u-n,y_u-n+1,...y_v+n]，则精确对齐的计算方式为：

其中，Y_J＝[y_u-n,y_u-n+1,...y_v+n]；

上述视频序列对齐系统，采用由粗到精的搜索策略，通过先进行粗对齐找到原始视频序列中属于所述第一场景类别的视频片段，再将待对齐的视频序列与所述第一场景类别的视频片段进行精对齐，有效减少了视频对齐的时间，提高了视频对齐的效率。

本发明的视频序列对齐系统与本发明的视频序列对齐方法一一对应，在上述视频序列对齐方法的实施例阐述的技术特征及其有益效果均适用于视频序列对齐系统的实施例中，特此声明。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种视频序列对齐方法，其特征在于，包括以下步骤：

从待对齐的视频序列中抓取无场景切换的视频片段；

2.根据权利要求1所述的视频序列对齐方法，其特征在于，在将所述视频序列输入至预先训练的场景类别分类器之前，还包括以下步骤：

获取视频序列样本，将所述视频序列样本按场景划分为多个场景类别；

分别将各个场景类别的视频序列样本划分为若干个样本子块；其中，所述视频序列样本中包括非重叠的样本子块；

根据所述样本子块及其所属的场景类别对深度卷积网络进行训练，得到场景类别分类器。

3.根据权利要求1所述的视频序列对齐方法，其特征在于，还包括以下步骤：

若所述视频片段满足如下条件，判定所述视频片段无场景切换：

Σ_{i = 1}^{n} | | f (z_{i}) - f (z_{i - 1}) | | \leq T;

式中，f(z_i)为第i个视频帧的特征，f(z_i-1)为第i-1个视频帧的特征，||·||为距离度量函数，T为预设的距离阈值，n为所述待对齐的视频序列中的视频片段的总数。

4.根据权利要求1所述的视频序列对齐方法，其特征在于，分别计算所述视频片段序列属于各个场景类别的概率值的步骤包括：

根据如下公式计算所述视频片段序列属于各个场景类别的概率值：

\begin{matrix} p (Y_{j} / Z) = p (Y_{j} / z_{0}^{0}, ... z_{0}^{K}, z_{1}^{0}, ... z_{1}^{K}, ..., z_{n}^{0}, ... z_{n}^{K}) \\ = \underset{i, k}{Π} p (Y_{j} / z_{i}^{k}) \end{matrix};

式中，表示所述视频片段序列的第i个视频帧中的第k个子块，Y_j表示所述原始视频序列中属于第j场景类别的视频片段，为所述视频片段序列中的子块属于第j场景类别的概率值，p(Y_j/Z)为所述视频片段序列属于第j场景类别的概率值，K为所述视频片段序列的一个视频帧中子块的总数。

5.根据权利要求1所述的视频序列对齐方法，其特征在于，将所述视频片段与预存的原始视频序列中属于所述第一场景类别的视频片段进行对齐的步骤包括：

根据如下公式将所述视频片段与原始视频序列中属于所述第一场景类别的视频片段进行对齐：

\begin{matrix} Q = \underset{q}{argmin} d (Z, Y_{J}) \\ = \underset{q}{\arg \min} Σ_{i = 0}^{n} d (z_{i}, y_{q + i}) \end{matrix};

其中，Y_J＝[y_u-n,y_u-n+1,...y_v+n]；

6.一种视频序列对齐系统，其特征在于，包括：

7.根据权利要求6所述的视频序列对齐系统，其特征在于，还包括：

8.根据权利要求6所述的视频序列对齐系统，其特征在于，还包括：

判定模块，用于若所述视频片段满足如下条件，判定所述视频片段无场景切换：

Σ_{i = 1}^{n} | | f (z_{i}) - f (z_{i + 1}) | | \leq T;

9.根据权利要求6所述的视频序列对齐系统，其特征在于，所述计算模块进一步根据如下公式计算所述视频片段序列属于各个场景类别的概率值：

\begin{matrix} p (Y_{j} / Z) = p (Y_{j} / z_{0}^{0}, ... z_{0}^{K}, z_{1}^{0}, ... z_{1}^{K}, ..., z_{n}^{0}, ... z_{n}^{K}) \\ = \underset{i, k}{Π} p (Y_{j} / z_{i}^{k}) \end{matrix};

10.根据权利要求6所述的视频序列对齐系统，其特征在于，所述对齐模块进一步根据如下公式将所述视频片段与原始视频序列中属于所述第一场景类别的视频片段进行对齐：

\begin{matrix} Q = \underset{q}{argmin} d (Z, Y_{J}) \\ = \underset{q}{\arg \min} Σ_{i = 0}^{n} d (z_{i}, y_{q + i}) \end{matrix};

其中，Y_J＝[y_u-n,y_u-n+1,…y_v+n]；