CN110602527A

CN110602527A - 视频处理方法、装置及存储介质

Info

Publication number: CN110602527A
Application number: CN201910867365.7A
Authority: CN
Inventors: 胡佳高; 王飞
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Xiaomi Technology Wuhan Co Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2019-12-20
Anticipated expiration: 2039-09-12
Also published as: US11288514B2; CN110602527B; US20210081671A1; EP3792818A1

Abstract

本公开是关于一种视频处理方法、装置及存储介质。视频处理方法包括：在待处理视频中按照时序采集多个视频帧；对多个视频帧中每一视频帧对应的图像分别进行分类以获得分类结果；对每一视频帧对应的图像的分类结果进行时序平滑处理，以确定与每一视频帧相关联的至少一个类别；将时序上相邻且同一类别的视频帧，划分为同一个视频片段，以获得多个视频片段；其中，如果同一视频帧属于不同的类别，则将该视频帧划分到对应类别的不同视频片段中。通过本公开实施例，可对视频中同时出现的不同类别实例进行分类，并确定不同类别实例在视频中出现的起止位置。

Description

视频处理方法、装置及存储介质

技术领域

本公开涉及视频理解领域，尤其涉及一种视频处理方法、装置及存储介质。

背景技术

随着视频技术的发展以及网络的普及，视频资源的数量也快速增长，日益庞大。对数量巨大的视频进行管理、分类，并从数量巨大的视频中准确详尽地理解视频内容(例如便捷地获取用户感兴趣的资源)，成为视频理解领域研究的热点问题。

相关技术中，采用视频分类标记方法理解视频内容。在视频分类标记方法中，通过一系列的特征编码加时序特征融合的方式，实现对整段视频所属类别的判别，并赋予整个视频一个或多个类别标签。然而，一段视频可能涵盖大量的类别实例，不同类别的实例可能存在于视频中的任何片段中。因此，目前的视频分类标记方法无法分类出视频中出现的不同类别实例。另外，当前的视频分类方法只能给出整个视频的类别，无法准确定位到多个不同类别在视频中出现的起止时间段。

发明内容

为克服相关技术中存在的问题，本公开提供一种视频处理方法、装置及存储介质。

根据本公开实施例，提供一种视频处理方法，包括：在待处理视频中按照时序采集多个视频帧；对多个视频帧中每一视频帧对应的图像分别进行分类以获得分类结果；对每一视频帧对应的图像的分类结果进行时序平滑处理，以确定与每一视频帧相关联的至少一个类别；将时序上相邻且同一类别的视频帧，划分为同一个视频片段，以获得多个视频片段；其中，如果同一视频帧属于不同的类别，则将该视频帧划分到对应类别的不同视频片段中。

在一实施例中，对多个视频帧中每一视频帧对应的图像分别进行分类以获得分类结果，包括：调用图像分类器，图像分类器的输入为图像，图像分类器的输出为多个类别的置信度；将时序上相邻且为同一类别的视频帧，划分为同一个视频片段，以获得多个视频片段，包括：根据每一视频帧对应图像所属的至少一个类别及其置信度，确定时序上相邻且为同一类别的视频帧，以划分多个视频片段。

在一实施例中，对每一视频帧对应的图像的分类结果进行时序平滑处理，以确定与每一视频帧相关联的至少一个类别，包括：根据图像分类器针对每一视频帧输出的多个类别的置信度，构建所采集的多个视频帧的帧分类置信度矩阵；基于所述帧分类置信度矩阵，执行一次时序平滑处理，以输出一个平滑标记序列，平滑标记序列为多维向量，多维向量中的每个值分别表示每一视频帧在本次时序平滑处理中所输出的类别标记；重复执行以上过程，直至确定出预定数量的平滑标记序列；利用预定数量的平滑标记序列中的置信度，从多个类别中确定与每一视频帧相关联的所述至少一个类别。

在一实施例中，基于所述帧分类置信度矩阵，执行一次时序平滑处理，以输出一个平滑标记序列，包括：构建线性链条件随机场模型；利用线性链条件随机场模型，确定满足最大概率条件的平滑标记序列。

在一实施例中，利用线性链条件随机场模型，确定满足最大概率条件的平滑标记序列包括：基于帧分类置信度矩阵以及预定状态转移矩阵，进行归一化处理，其中，预定状态转移矩阵与单位矩阵之间具有预定倍数关系，预定倍数依据平滑程度确定。

在一实施例中，基于所述帧分类置信度矩阵，执行一次时序平滑处理，以输出一个平滑标记序列，包括：构建全连接条件随机场模型；利用全连接条件随机场模型，基于最小化能量函数确定平滑标记序列。

在一实施例中，在利用预定数量的平滑标记序列中的置信度，从多个类别中确定与每一视频帧相关联的至少一个类别之后，还包括：将预定数量的平滑标记序列中时序上相邻且为同一类别的置信度的均值，作为时序上相邻且为同一类别的视频帧对应图像所属类别的置信度。

在一实施例中，将时序上相邻且为同一类别的视频帧，划分为一个视频片段之后，方法还包括：确定划分得到的视频片段中各视频片段的置信度；将置信度大于预定阈值的视频片段，作为最终的视频片段。

在一实施例中。根据每一视频帧对应图像所属的至少一个类别及其置信度，确定时序上相邻且为同一类别的视频帧，以划分多个视频片段，包括：根据图像分类器针对每一视频帧输出的多个类别的置信度，构建所采集的多个视频帧的帧分类置信度矩阵；基于帧分类置信度矩阵，构造灰度图像，灰度图像包括横轴坐标和纵轴坐标，横轴坐标表征类别的置信度，纵轴坐标表征视频帧的时序；利用线段检测法，检测出灰度图像的纵向直线；依据纵向直线，划分视频片段，其中，纵向直线的纵轴起止坐标对应视频片段的起止帧，纵向直线的横轴坐标对应视频片段所述类别。

根据本公开实施例的第二方面，提供一种视频处理装置，包括：采集模块，用于在待处理视频中按照时序采集多个视频帧；分类模块，用于对多个视频帧中每一视频帧对应的图像分别进行分类以获得分类结果；处理模块，用于对每一视频帧对应的图像的分类结果进行时序平滑处理，以确定与每一视频帧相关联的至少一个类别；分段模块，用于将时序上相邻且同一类别的视频帧，划分为同一个视频片段，以获得多个视频片段，其中，如果同一视频帧属于不同的类别，则将该视频帧划分到对应类别的不同视频片段中。

在一实施例中，分类模块采用如下方式对多个视频帧中每一视频帧对应的图像分别进行分类以获得分类结果：调用图像分类器，图像分类器的输入为图像，图像分类器的输出为多个类别的置信度；分段模块采用如下方式将时序上相邻且为同一类别的视频帧，划分为同一个视频片段，以获得多个视频片段：根据每一视频帧对应图像所属的至少一个类别及其置信度，确定时序上相邻且为同一类别的视频帧，以划分多个视频片段。

在一实施例中，处理模块采用如下方式对每一视频帧对应的图像的分类结果进行时序平滑处理，以确定与每一视频帧相关联的至少一个类别：根据图像分类器针对每一视频帧输出的多个类别的置信度，构建所采集的多个视频帧的帧分类置信度矩阵；基于帧分类置信度矩阵，执行一次时序平滑处理，以输出一个平滑标记序列，平滑标记序列为多维向量，多维向量中的每个值分别表示每一视频帧在本次时序平滑处理中所输出的类别标记；重复执行以上过程，直至确定出预定数量的平滑标记序列；利用预定数量的平滑标记序列中的置信度，从多个类别中确定与每一视频帧相关联的所述至少一个类别。

在一实施例中，处理模块采用如下方式基于帧分类置信度矩阵，执行一次时序平滑处理，以输出一个平滑标记序列：构建线性链条件随机场模型；利用线性链条件随机场模型，确定满足最大概率条件的平滑标记序列。

在一实施例中，处理模块采用如下方式利用线性链条件随机场模型，确定满足最大概率条件的平滑标记序列：基于帧分类置信度矩阵以及预定状态转移矩阵，进行归一化处理，其中，预定状态转移矩阵与单位矩阵之间具有预定倍数关系，预定倍数依据平滑程度确定。

在一实施例中，处理模块采用如下方式基于帧分类置信度矩阵，执行一次时序平滑处理，以输出一个平滑标记序列：构建全连接条件随机场模型；利用全连接条件随机场模型，基于最小化能量函数确定平滑标记序列。

在一实施例中，处理模块采用如下方式利用预定数量的平滑标记序列中的置信度，确定时序上相邻且为同一类别的视频帧对应图像所属类别的置信度：将预定数量的平滑标记序列中时序上相邻且为同一类别的置信度的均值，作为时序上相邻且为同一类别的视频帧对应图像所属类别的置信度。

在一实施例中，将时序上相邻且为同一类别的视频帧，划分为一个视频片段之后，分段模块还用于：确定划分得到的视频片段中各视频片段的置信度；将置信度大于预定阈值的视频片段，作为最终的视频片段。

在一实施例中，分类模块采用如下方式根据每一视频帧对应图像所属的至少一个类别及其置信度，确定时序上相邻且为同一类别的视频帧，以划分所述多个视频片段：根据图像分类器针对每一视频帧输出的多个类别的置信度，构建所采集的多个视频帧的帧分类置信度矩阵；基于帧分类置信度矩阵，构造灰度图像，灰度图像包括横轴坐标和纵轴坐标，横轴坐标表征类别的置信度，纵轴坐标表征视频帧的时序；利用线段检测法，检测出灰度图像的纵向直线；依据纵向直线，划分视频片段，其中，纵向直线的纵轴起止坐标对应视频片段的起止帧，纵向直线的横轴坐标对应所述视频片段所述类别。

根据本公开实施例的第三方面，提供一种视频处理的装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为：执行前述任意一项所述的视频处理的方法。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行前述任意一项所述的视频处理的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：通过图像分类器来标注图像，可以利用预标注的图像数据进行分类模型的训练，从而对视频进行自动分段，能降低视频理解任务中训练数据采集和标注的负担；利用图像识别来标注多种语义的对象，从而根据丰富的语义对象来自动标注视频；通过将待处理视频中按照时序采集多个视频帧对应的图像分别进行分类，将时序上相邻且为同一类别的视频帧划分为一个视频片段，实现对视频中重叠或交叉出现的不同类别实例进行分类，并确定不同类别实例在视频中出现的起止位置。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据本公开一示例性实施例示出的一种视频处理的方法的流程图。

图2是根据本公开一示例性实施例示出的将采集到的多个视频帧中每一视频帧对应的图像分别进行分类的流程图。

图3是根据本公开另一示例性实施例示出的将采集到的多个视频帧中每一视频帧对应的图像分别进行分类的流程图。

图4是根据本公开一示例性实施例示出的视频处理方法中根据平滑标记序列划分视频片段示意图。

图5是根据本公开一示例性实施例示出的视频处理方法中根据平滑标记序列划分视频片段结果示意图。

图6是根据本公开一示例性实施例示出的一种视频处理的装置的框图。

图7是根据本公开一示例性实施例示出的一种视频处理装置的框图。

实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据本公开一示例性实施例示出的一种视频处理的方法的流程图。如图1所示，该方法包括以下步骤。

在步骤S110中，在待处理视频中按照时序采集多个视频帧。

本公开中，在待处理视频中按照时序采集视频帧时，可在待处理视频中等间隔地采集多个视频帧。本公开中，采集的频率可以是每秒等间隔抽取待处理视频中预定数量的视频帧，例如预定数量可以是2至5帧，也可根据需要选择其它的采集频率。

本公开中采集到视频帧后，可将采集到的多个视频帧中的每一视频帧分别转换成与之一一对应的图像。

在步骤S120中，对多个视频帧中每一视频帧对应的图像分别进行分类，以获得分类结果。

在本公开的实施例中，可以采用图像分类器对多个视频帧中每一视频帧对应的图像进行分类。一方面，本公开可采集并标注一定量的图像，训练得到图像分类器。另一方面，本公开也可以选择已有图像分类器。本公开中在选择已有图像分类器可以根据实际应用需求来选择，如为了提高精度，可以选择大型网络如Inception-Resnet、DenseNet、NASNet等。又如为了在终端设备部署，可以选择轻量型网络如Mobilenet、Shufflenet等。本公开对图像分类器的选择不作限定。

在步骤S130中，对每一视频帧对应的图像的分类结果进行时序平滑处理，以确定与每一视频帧相关联的至少一个类别。

图像分类器输出的分类结果，存在较多的噪声，即无法实现对同一类别在时序上连续性的识别。所以需要对每一视频帧对应的图像的分类结果进行时序平滑处理，以确定与每一视频帧相关联的至少一个类别。

可以理解地，这里的至少一个类别是选择的图像分类器能够判别的多个类别中的至少一个类别。

即，如果把图像分类器能够判别的多个类别看成一个类别集合，那么平滑处理后的、与每一视频帧相关联的至少一个类别可以组成这个类别集合的一个子集。

在步骤S140中，将时序上相邻且同一类别的视频帧，划分为同一个视频片段，以获得多个视频片段。

在本公开的实施例中，时序上相邻的、且划分为同一类别的视频帧中的分类类别实例，可视为该类别实例在上述连续的视频帧中持续出现，将其划分为该类别实例在待处理视频中的视频片段。若同一视频帧属于不同的类别，该视频帧被划分到对应类别的不同视频片段中。

本公开通过图像分类器来标注图像，利用预标注的图像数据进行分类模型的训练，从而对视频进行自动分段，能降低视频理解任务中训练数据采集和标注的负担；利用图像识别来标注多种语义的对象，从而根据丰富的语义对象来自动标注视频；通过将待处理视频中按照时序采集多个视频帧对应的图像分别进行分类，将时序上相邻且为同一类别的视频帧划分为一个视频片段，实现对视频中重叠或交叉出现的不同类别实例进行分类，并确定不同类别实例在视频中出现的起止位置。

图2是根据本公开一示例性实施例示出的将采集到的多个视频帧中每一视频帧对应的图像分别进行分类的流程图。如图2所示，步骤S1210中，调用图像分类器。图像分类器可以是基于SVM、CNN等分类器，对任意输入图像，图像分类器的输出为图像分类得到的类别，以及图像属于每个类别的置信度。

步骤S1220，将采集到的多个视频帧按照时序先后顺序输入至图像分类器中，得到每一视频帧对应的图像分类得到的类别以及该图像属于每一类别的置信度。

采集到的多个视频帧的数量为M帧，将采集到的M(M为大于等于2的正整数)个视频帧按照时序先后顺序输入至图像分类器中。例如，上述图像分类器可以判别N(N为大于等于2的正整数)个类别，则图像分类器对任一输入视频帧，输出N维向量，向量的第i维(i∈{1，2，...，N})，表示该分类器将该图像分为第i类的置信度。例如，在步骤S110中，抽取了15个视频帧，图像分类器可以判别7个类别，例如，天空、鸟、海洋、花、树、山、草原7个类别，则采用图像分类器对多个视频帧中每一视频帧对应的图像进行分类之后，可以得到一个15*7的帧分类置信度矩阵，矩阵第j行(j∈{1，2，...，15})为图像分类器对第j帧的分类向量。

步骤S1230中，根据时序上相邻且为同一类别的视频帧对应图像所属类别的置信度，划分视频片段。

图3是根据本公开一示例性实施例示出的将采集到的多个视频帧中每一视频帧对应的图像分别进行分类的流程图。如图3所示，将采集到的多个视频帧中每一视频帧对应的图像分别进行分类，还包括步骤S1240，针对每一视频帧，基于所述该视频帧对应的图像所属类别的置信度，对所述图像所属类别进行平滑处理。

步骤S1250，将全部视频帧中平滑处理后的类别进行标记得到平滑标记序列。

步骤S1260，将平滑处理后的类别对应的置信度置零，并对置零后的所述每一视频帧对应的图像所属类别再次进行平滑处理，得到新的平滑标记序列。

当经过一次平滑处理，确定一种分类的平滑标记序列之后，将平滑处理后的图像所属类别对应的类别置信度置零，对每一视频帧对应的图像所属类别再次执行以上平滑过程，直至确定出预定数量的平滑标记序列。其中，预定数量可以根据需要选为4、5或其他数值，每求解一次最大目标函数，就可以得到一个平滑标记序列。

重复执行以上过程，直至确定出预定数量的平滑标记序列。

在本公开的一个实施例中，针对每一视频帧对应的图像所属类别进行平滑处理，得到平滑处理后的平滑标记序列。其中，在针对每一视频帧对应的图像所属类别进行平滑处理时，可基于视频帧对应图像所属每一类别的置信度，以及预定状态转移矩阵之间的累乘项进行归一化处理，确定满足最大概率条件的置信度，并将满足最大概率条件的置信度对应的类别，确定为平滑处理后的类别。例如，可以构建条件随机场(Conditional RandomFields，CRF)，进行平滑处理。例如，构建线性链CRF模型，将待处理视频的全部视频帧中平滑处理后的分类类别进行标记，得到平滑标记序列。具体地，利用图像分类器对每一视频帧对应图像的分类结果向量分别构建观察序列X，对观察序列X进行平滑处理，其中，X是M*N的矩阵，M为多个视频帧的数量，N为图像分类器可以判别的类别数，X(j,i)表示第j帧被分类为第i类的置信度。确定平滑后的平滑标记序列Y，Y是M维向量，Y＝{y₁，y₂，...，y_M}，且y_m∈{C₁，C₂，......C_N}，(m∈{1，2，...，M})，其中C₁，C₂，......，C_N是分别代表着第1，2，......，N类的常量。y_m取C_n(n∈{1，2，...，N})，表示在本次平滑处理结果中，对第m帧输出的类别为第n类。给定线性链CRF模型的条件概率分布P(y|x)和观察序列X,计算使条件概率最大时输出的序列，即平滑标记序列Y，Y＝{y₁，y₂，...，y_M}。例如，假设计算平滑标记序列次数为4，则经过4次运算，得到平滑标记序列Y1、Y2、Y3和Y4。

上式中，P(Y|X)为条件概率函数，累乘项的计算结果是平滑标记序列Y的概率得分，p_m为图像分类器将第m帧识别为第y_m类(假设y_m＝C_n，即为第n类)的置信度，W∈R^N×N为状态转移矩阵，Z_(x)为归一化因子。当已知W与p_m，任一序列Y的条件概率P(Y|X)可以通过上述公式求解。

本公开中，可以利用例如维特比算法求解满足上述条件概率P(Y|X)最大时的对应的平滑标记序列Y。

本公开中，状态转移矩阵W一方面可以通过梯度下降法、牛顿法或拟牛顿法计算训练得到。另一方面，也可以通过单位矩阵得到。

在本公开的一个实施例中，预定状态转移矩阵与单位矩阵之间具有预定倍数关系，预定倍数依据平滑程度确定。例如，将状态转移矩阵W设置为单位矩阵的α倍，可以通过调整α的大小实现对平滑程度的控制，即α取值越大，经平滑处理所得到的平滑标记序列的结果越趋于平滑。例如，对待处理视频采集的视频帧数量多，α即需要相应地选取较大值，反之，对待处理视频采集的视频帧数量少，α即需要相应地选取较小值，在本公开一实施例中，可以根据实验测试确定预定倍数α。

在本公开的一个实施例中，针对每一视频帧对应的图像所属类别进行平滑处理，单个平滑标记序列的求解方式除了上述基于线性链CRF建模策略之外，还可以选择全连接CRF建模的策略。。

示例性地，可以构建全连接CRF模型，利用最小化如下能量函数得到平滑后的平滑标记序列Y，Y＝{y₁，y₂，...，y_M}，平滑标记序列Y中y_m与线性链CRF模型中的含义一致，在此不再赘述。

上式中，y_i(y_i∈{C₁，C₂，......C_N})表示待处理视频第i帧的类别标记，p_i为图像分类器将第i帧识别为第y_i类的置信度，y_i＝y_j时，μ(y_i，y_j)＝0；y_i≠y_j时，μ(y_i，y_j)＝1。ω和σ为常量参数，可以用验证数据集调整。可以利用三维条件随机场DenseCRF算法求解上述能量最小化问题，进而得到平滑后的平滑标记序列Y。

在本公开的一个实施例中，将预定数量的平滑标记序列中时序上相邻且为同一类别的置信度的均值，作为时序上相邻且为同一类别的视频帧对应图像所属类别的置信度。

具体地，按时序扫描每一视频帧的多个类别标记，计算相邻且同一类别的所有帧属于该类别的置信度均值，作为该类别片段分类的置信度。对于待处理视频中存在的多个类别，重复上述过程直至确定所有类别对应的片段。相较于传统视频分段策略中仅抽取置信度最高的若干类别标签而言，本公开先保留所有置信度取值的各种类别，后再进行多次的时序平滑处理，能够保留更丰富且更合理的语义。

图4是根据本公开一示例性实施例示出的视频处理方法中根据平滑标记序列划分视频片段示意图。对照图4，图4示出了一待处理视频经平滑处理后输出的视频帧分类类别标记以及对应该类别的置信度统计。横向代表该视频中的15个连续的帧，纵向代表假设计算平滑标记序列次数为4时得到的四个平滑标记序列，即每求解一次平滑标记序列Y，对应得到图4中的一行。具体Y的求解方式可以采用上面实施例中的线性链CRF建模策略或全连接CRF建模策略。

示例性地，图4中的第i行(i＝1，2，3，4)、第j列(j＝1，2……，15)记录了第j帧在第i个平滑标记序列Y中的平滑后的类别标记结果、以及图像分类器输出的第j帧对应的图像属于该类别的置信度值，即采用图像分类器对多个视频帧中每一视频帧对应的图像进行分类之后、得到的15*7的帧分类置信度矩阵中对应的置信度值。

其中，计算15个连续帧中属于该类别的置信度平均值，作为该视频片段对应该类别分类的置信度。例如，天空，出现范围为第1帧到第6帧，置信度分别为0.7、0.85、0.1、0.6、0.5和0.5，则1至6帧天空类别的置信度为：

(0.7+0.85+0.1+0.6+0.5+0.5)/6＝0.540，以下各个类别对应的置信度计算方法相同。

根据图4所示的结果，可以得到前述示例中，7个类别标记和对应的置信度如下：

第1类别：天空，起止位置：第1帧到第6帧，置信度0.540。

第2类别：草原，起止位置：第7帧到第15帧，置信度0.384。

第3类别：鸟，起止位置：第1帧到第4帧，置信度0.223。

第4类别；山，起止位置：第5帧到第15帧，置信度0.266。

第5类别；海洋，起止位置：第1帧到第5帧，置信度0.078。

第6类别：花，起止位置：第6帧到第15帧，置信度0.282。

第7类别：树，起止位置：第1帧到第15帧，置信度0.031。

图5是根据本公开一示例性实施例示出的视频处理方法中根据平滑标记序列划分视频片段结果示意图。参照图5，示出了上述示例中第1帧、第2帧……到第15帧，对应7个类别中的每个类别出现的起止位置。

在本公开一实施例中，利用置信度大于预定置信度阈值的视频片段，作为最终的视频片段。不同类别可以对应选取不同的置信度阈值，本实施例中，示例性地选取所有类别的置信度阈值均为0.1，去除置信度小于0.1的类别片段，即将置信度为0.078的第5类别(花)和置信度为0.031的第7类别(海洋)对应视频删除，保留其余视频片段。在另一示例中，各个类别的阈值可以不同，一般可以利用验证集计算出最优阈值。

通过每个类别的视频片段的起止帧编号计算出其在视频中的起止时间，得到最终的该类别对应视频片段。即，上述示例的视频共包括5个类别，每个类别出现的起止帧统计如下：

第1类别：天空，起止位置：第1帧到第6帧。

第2类别：草原，起止位置：第7帧到第15帧。

第3类别，鸟，起止位置：第1帧到第4帧。

第4类别，山，起止位置：第5帧到第15帧。

第5类别，花，起止位置：第6帧到第15帧。

从上述统计结果可以看出，通过本公开的方法，在平滑处理前保留所有置信度取值的类别，可以实现不同类别的视频片段在时序上至少部分相互重叠或交叉的情况下的片段划分。也即，在某视频帧同时属于多个视频类别时，可以分别输出每个类别实例出现的起止位置。相较于传统视频分段策略中仅抽取置信度最高的若干类别标签而言，本公开先保留所有置信度取值的各种类别，然后通过CRF模型进行多次时序平滑处理，能够保留更丰富且更合理的语义。

在本公开的一个实施例中，可以根据线段检测法划分视频片段。具体而言，依据每一视频帧对应的图像分类得到的类别，以及每一类别的置信度，构造灰度图像。灰度图像包括横轴坐标和纵轴坐标，其中，图像的横轴坐标为类别的置信度，纵轴坐标为视频帧的时序。利用线段检测法，例如霍夫直线检测法、端点扩张线段检测法或LSD线段检测法等检测出灰度图像的纵向直线；每一条纵向直线即为一个类别对应的视频片段。纵向直线的纵轴起止坐标对应视频片段的起止帧，纵向直线的横轴坐标对应视频片段类别。

基于相同的构思，本公开实施例还提供一种视频处理的装置。

可以理解的是，本公开实施例提供的视频处理的装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的技术方案的范围。

图6是根据本公开一示例性实施例示出的一种视频处理的装置的框图。参照图6，装置200包括：

采集模块210，用于在待处理视频中按照时序采集多个视频帧。

分类模块220，用于对多个视频帧中每一视频帧对应的图像分别进行分类以获得分类结果。

处理模块230，用于对每一视频帧对应的图像的分类结果进行时序平滑处理，以确定与每一视频帧相关联的至少一个类别。

分段模块240，用于将时序上相邻且同一类别的视频帧，划分为同一个视频片段，以获得多个视频片段，其中，如果同一视频帧属于不同的类别，则将该视频帧划分到对应类别的不同视频片段中。

在一实施例中，分类模块220采用如下方式对多个视频帧中每一视频帧对应的图像分别进行分类以获得分类结果：调用图像分类器，图像分类器的输入为图像，图像分类器的输出为多个类别的置信度；分段模块240采用如下方式将时序上相邻且为同一类别的视频帧，划分为同一个视频片段，以获得多个视频片段：根据每一视频帧对应图像所属的至少一个类别及其置信度，确定时序上相邻且为同一类别的视频帧，以划分多个视频片段。

在一实施例中，处理模块230采用如下方式对每一视频帧对应的图像的分类结果进行时序平滑处理，以确定与每一视频帧相关联的至少一个类别：根据图像分类器针对每一视频帧输出的多个类别的置信度，构建所采集的多个视频帧的帧分类置信度矩阵；基于帧分类置信度矩阵，执行一次时序平滑处理，以输出一个平滑标记序列，平滑标记序列为多维向量，多维向量中的每个值分别表示每一视频帧在本次时序平滑处理中所输出的类别标记；重复执行以上过程，直至确定出预定数量的平滑标记序列；利用预定数量的平滑标记序列中的置信度，从多个类别中确定与每一视频帧相关联的所述至少一个类别。

在一实施例中，处理模块230采用如下方式基于帧分类置信度矩阵，执行一次时序平滑处理，以输出一个平滑标记序列：构建线性链条件随机场模型；利用线性链条件随机场模型，确定满足最大概率条件的平滑标记序列。

在一实施例中，处理模块230采用如下方式利用线性链条件随机场模型，确定满足最大概率条件的平滑标记序列：基于帧分类置信度矩阵以及预定状态转移矩阵，进行归一化处理，其中，预定状态转移矩阵与单位矩阵之间具有预定倍数关系，预定倍数依据平滑程度确定。

在一实施例中，处理模块230采用如下方式基于帧分类置信度矩阵，执行一次时序平滑处理，以输出一个平滑标记序列：构建全连接条件随机场模型；利用全连接条件随机场模型，基于最小化能量函数确定平滑标记序列。

在一实施例中，处理模块230采用如下方式利用预定数量的平滑标记序列中的置信度，确定时序上相邻且为同一类别的视频帧对应图像所属类别的置信度：将预定数量的平滑标记序列中时序上相邻且为同一类别的置信度的均值，作为时序上相邻且为同一类别的视频帧对应图像所属类别的置信度。

在一实施例中，将时序上相邻且为同一类别的视频帧，划分为一个视频片段之后，分段模块240还用于：确定划分得到的视频片段中各视频片段的置信度；将置信度大于预定阈值的视频片段，作为最终的视频片段。

在一实施例中，分段模块240采用如下方式根据每一视频帧对应图像所属的至少一个类别及其置信度，确定时序上相邻且为同一类别的视频帧，以划分所述多个视频片段：根据图像分类器针对每一视频帧输出的多个类别的置信度，构建所采集的多个视频帧的帧分类置信度矩阵；基于帧分类置信度矩阵，构造灰度图像，灰度图像包括横轴坐标和纵轴坐标，横轴坐标表征类别的置信度，纵轴坐标表征视频帧的时序；利用线段检测法，检测出灰度图像的纵向直线；依据纵向直线，划分视频片段，其中，纵向直线的纵轴起止坐标对应视频片段的起止帧，纵向直线的横轴坐标对应所述视频片段所述类别。

图7是根据一示例性实施例示出的一种用于视频处理的装置300的框图。例如，装置300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，装置300可以包括以下一个或多个组件：处理组件302，存储器304，电力组件306，多媒体组件308，音频组件310，输入/输出(I/O)的接口312，传感器组件314，以及通信组件316。

处理组件302通常控制装置300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件302可以包括一个或多个处理器320来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件302可以包括一个或多个模块，便于处理组件302和其他组件之间的交互。例如，处理组件302可以包括多媒体模块，以方便多媒体组件308和处理组件302之间的交互。

存储器304被配置为存储各种类型的数据以支持在设备300的操作。这些数据的示例包括用于在装置300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件306为装置300的各种组件提供电力。电力组件306可以包括电源管理系统，一个或多个电源，及其他与为装置300生成、管理和分配电力相关联的组件。

多媒体组件308包括在所述装置300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件308包括一个前置摄像头和/或后置摄像头。当设备300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件310被配置为输出和/或输入音频信号。例如，音频组件310包括一个麦克风(MIC)，当装置300处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中，音频组件310还包括一个扬声器，用于输出音频信号。

I/O接口312为处理组件302和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件314包括一个或多个传感器，用于为装置300提供各个方面的状态评估。例如，传感器组件314可以检测到设备300的打开/关闭状态，组件的相对定位，例如所述组件为装置300的显示器和小键盘，传感器组件314还可以检测装置300或装置300一个组件的位置改变，用户与装置300接触的存在或不存在，装置300方位或加速/减速和装置300的温度变化。传感器组件314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件316被配置为便于装置300和其他设备之间有线或无线方式的通信。装置300可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器304，上述指令可由装置300的处理器320执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行如前所述的任一视频处理的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

在待处理视频中按照时序采集多个视频帧；

对所述多个视频帧中每一视频帧对应的图像分别进行分类以获得分类结果；

对所述每一视频帧对应的图像的分类结果进行时序平滑处理，以确定与每一视频帧相关联的至少一个类别；

将时序上相邻且同一类别的视频帧，划分为同一个视频片段，以获得多个视频片段；

其中，如果同一视频帧属于不同的类别，则将该视频帧划分到对应类别的不同视频片段中。

2.根据权利要求1所述的视频处理方法，其特征在于，对所述多个视频帧中每一视频帧对应的图像分别进行分类以获得分类结果，包括：

调用图像分类器，所述图像分类器的输入为所述图像，所述图像分类器的输出为多个类别的置信度；

将时序上相邻且为同一类别的视频帧，划分为同一个视频片段，以获得多个视频片段，包括：

根据每一视频帧对应图像所属的至少一个类别及其置信度，确定时序上相邻且为同一类别的视频帧，以划分所述多个视频片段。

3.根据权利要求2所述的视频处理方法，其特征在于，对所述每一视频帧对应的图像的分类结果进行时序平滑处理，以确定与每一视频帧相关联的至少一个类别，包括：

根据所述图像分类器针对每一视频帧输出的所述多个类别的置信度，构建所采集的多个视频帧的帧分类置信度矩阵；

基于所述帧分类置信度矩阵，执行一次时序平滑处理，以输出一个平滑标记序列，所述平滑标记序列为多维向量，所述多维向量中的每个值分别表示每一视频帧在本次时序平滑处理中所输出的类别标记；

重复执行以上过程，直至确定出预定数量的平滑标记序列；

利用所述预定数量的平滑标记序列中的置信度，从所述多个类别中确定与每一视频帧相关联的所述至少一个类别。

4.根据权利要求3所述的视频处理方法，其特征在于，基于所述帧分类置信度矩阵，执行一次时序平滑处理，以输出一个平滑标记序列，包括：

构建线性链条件随机场模型；

利用所述线性链条件随机场模型，确定满足最大概率条件的平滑标记序列。

5.根据权利要求4所述的视频处理方法，其特征在于，利用所述线性链条件随机场模型，确定满足最大概率条件的平滑标记序列包括：

基于所述帧分类置信度矩阵以及预定状态转移矩阵，进行归一化处理，

其中，所述预定状态转移矩阵与单位矩阵之间具有预定倍数关系，所述预定倍数依据平滑程度确定。

6.根据权利要求3所述的视频处理方法，其特征在于，基于所述帧分类置信度矩阵，执行一次时序平滑处理，以输出一个平滑标记序列，包括：

构建全连接条件随机场模型；

利用所述全连接条件随机场模型，基于最小化能量函数确定平滑标记序列。

7.根据权利要求3所述的视频处理方法，其特征在于，在利用所述预定数量的平滑标记序列中的置信度，从所述多个类别中确定与每一视频帧相关联的所述至少一个类别之后，还包括：

将所述预定数量的平滑标记序列中时序上相邻且为同一类别的置信度的均值，作为时序上相邻且为同一类别的视频帧对应图像所属类别的置信度。

8.根据权利要求2至7中任意一项所述的视频处理方法，其特征在于，将时序上相邻且为同一类别的视频帧，划分为一个视频片段之后，所述方法还包括：

确定划分得到的视频片段中各视频片段的置信度；

将置信度大于预定阈值的视频片段，作为最终的视频片段。

9.根据权利要求2所述的视频处理方法，其特征在于，根据每一视频帧对应图像所属的至少一个类别及其置信度，确定时序上相邻且为同一类别的视频帧，以划分所述多个视频片段，包括：

基于所述帧分类置信度矩阵，构造灰度图像，所述灰度图像包括横轴坐标和纵轴坐标，所述横轴坐标表征类别的置信度，所述纵轴坐标表征视频帧的时序；

利用线段检测法，检测出所述灰度图像的纵向直线；

依据所述纵向直线，划分视频片段，其中，所述纵向直线的纵轴起止坐标对应视频片段的起止帧，所述纵向直线的横轴坐标对应所述视频片段所述类别。

10.一种视频处理装置，其特征在于，所述装置包括：

采集模块，用于在待处理视频中按照时序采集多个视频帧；

分类模块，用于对所述多个视频帧中每一视频帧对应的图像分别进行分类以获得分类结果；

处理模块，用于对所述每一视频帧对应的图像的分类结果进行时序平滑处理，以确定与每一视频帧相关联的至少一个类别；

分段模块，用于将时序上相邻且同一类别的视频帧，划分为同一个视频片段，以获得多个视频片段，其中，如果同一视频帧属于不同的类别，则将该视频帧划分到对应类别的不同视频片段中。

11.根据权利要求10所述的视频处理装置，其特征在于，所述分类模块采用如下方式对所述多个视频帧中每一视频帧对应的图像分别进行分类以获得分类结果：

分段模块采用如下方式将时序上相邻且为同一类别的视频帧，划分为同一个视频片段，以获得多个视频片段：

12.根据权利要求11所述的视频处理装置，其特征在于，所述处理模块采用如下方式对所述每一视频帧对应的图像的分类结果进行时序平滑处理，以确定与每一视频帧相关联的至少一个类别：

重复执行以上过程，直至确定出预定数量的平滑标记序列；

13.根据权利要求12所述的视频处理装置，其特征在于，所述处理模块采用如下方式基于所述帧分类置信度矩阵，执行一次时序平滑处理，以输出一个平滑标记序列：

构建线性链条件随机场模型；

14.根据权利要求13所述的视频处理装置，其特征在于，所述处理模块采用如下方式利用所述线性链条件随机场模型，确定满足最大概率条件的平滑标记序列：

15.根据权利要求12所述的视频处理装置，其特征在于，所述处理模块采用如下方式基于所述帧分类置信度矩阵，执行一次时序平滑处理，以输出一个平滑标记序列：

构建全连接条件随机场模型；

16.根据权利要求12所述的视频处理装置，其特征在于，所述处理模块采用如下方式利用所述预定数量的平滑标记序列中的置信度，确定时序上相邻且为同一类别的视频帧对应图像所属类别的置信度：将所述预定数量的平滑标记序列中时序上相邻且为同一类别的置信度的均值，作为时序上相邻且为同一类别的视频帧对应图像所属类别的置信度。

17.根据权利要求11至16中任意一项所述的视频处理装置，其特征在于，将时序上相邻且为同一类别的视频帧，划分为一个视频片段之后，分段模块还用于：

确定划分得到的视频片段中各视频片段的置信度；

将置信度大于预定阈值的视频片段，作为最终的视频片段。

18.根据权利要求11所述的视频处理装置，其特征在于，所述分类模块采用如下方式根据每一视频帧对应图像所属的至少一个类别及其置信度，确定时序上相邻且为同一类别的视频帧，以划分所述多个视频片段：

利用线段检测法，检测出所述灰度图像的纵向直线；

19.一种非临时性计算机可读存储介质，其特征在于，所述非临时性计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由处理器执行时，执行权利要求1至9中任一项所述的视频处理方法。

20.一种电子设备，其特征在于，所述电子设备包括：

存储器，配置用于存储指令；以及

处理器，配置用于调用所述指令执行权利要求1-9中任一项所述的视频处理方法。