CN107609513A

CN107609513A - 视频类型确定方法及装置

Info

Publication number: CN107609513A
Application number: CN201710818220.9A
Authority: CN
Inventors: 杨松
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2017-09-12
Filing date: 2017-09-12
Publication date: 2018-01-19
Anticipated expiration: 2037-09-12
Also published as: CN107609513B

Abstract

本公开是关于视频类型确定方法，该方法包括：将原视频划分为M段第一子视频；通过第一预设卷积神经网络提取每段第一子视频的图像特征；计算每段第一子视频的光流，通过第二预设卷积神经网络提取光流的特征作为相应段的第一子视频的时序特征；针对任一段第一子视频，整合图像特征和时序特征得到综合特征，通过M段所述第一子视频分别对应的综合特征构成项数为M的特征序列；在原视频中确定N段第二子视频；通过第三预设卷积神经网络对特征序列进行多层的一维卷积运算，运算结果包含N个元素，N个元素与N段第二子视频一一对应；根据概率确定相应第二子视频的类型。根据本公开的实施例确定视频的类型，消耗人力较少，且处理速度更快。

Description

视频类型确定方法及装置

技术领域

本公开涉及终端技术领域，尤其涉及视频类型确定方法、视频类型确定装置、电子设备和计算机可读存储介质。

背景技术

目前对于图像的识别技术已经较为成熟，可以通过现有算法确定图像的类型等参数。

然而目前对于视频的识别，则仍然主要依靠人眼识别，或者通过对视频中的每一帧图像进行识别来实现对视频的识别。其中，通过人眼进行识别，主观性较强，而且消耗人力较多，而若对视频中每一帧图像都进行识别，消耗资源且耗时较长。

发明内容

本公开提供视频类型确定方法、视频类型确定装置、电子设备和计算机可读存储介质，以解决相关技术中的不足。

根据本公开实施例的第一方面，提供一种视频类型确定方法，包括：

将原视频划分为M段第一子视频，其中，M为大于1的整数；

通过第一预设卷积神经网络提取每段所述第一子视频的图像特征；

计算每段所述第一子视频的光流，通过第二预设卷积神经网络提取所述光流的特征作为相应段的所述第一子视频的时序特征；

针对任一段所述第一子视频，整合其图像特征和时序特征得到综合特征，通过M段所述第一子视频分别对应的综合特征构成项数为M的特征序列；

在所述原视频中确定N段第二子视频，其中，N为大于1的整数；

通过第三预设卷积神经网络对所述特征序列进行多层的一维卷积运算，运算结果包含N个元素，所述N个元素与所述N段第二子视频一一对应，其中，所述元素用于指示相应的第二子视频属于每种预设类型的概率；

根据所述概率确定相应第二子视频的类型。

可选地，所述根据所述概率确定相应第二子视频的类型包括：

确定所述第二子视频属于每种预设类型的概率中是否存在大于预设概率的目标概率；

若存在，确定所述第二子视频属于所述目标概率对应的预设类型；

若不存在，确定所述第二子视频属于所述概率中最大概率对应的预设类型。

可选地，所述方法还包括：

接收查询目标类型视频的查询指令；

在所述N段第二子视频中查询属于所述目标类型的多个第二子视频；

若确定的多个第二子视频存在重叠区间，通过非极大值抑制算法对所述多个第二子视频进行处理，以确定所述多个第二子视频中的属于所述目标类型的概率最大的目标第二子视频。

可选地，每段所述第一子视频包含相同数目帧的图像，其中，所述通过第一预设卷积神经网络提取每段所述第一子视频的图像特征包括：

通过第一预设卷积神经网络提取每段所述第一子视频中预设帧的图像。

可选地，所述元素还用于指示相应的第二子视频的区间边界调整量；

所述方法还包括：

根据所述区间边界调整量调整所述第二子视频的区间边界。

可选地，在将原视频划分为M段第一子视频之前，所述方法还包括：

在样本视频中获取与所述概率和所述边界调整量相关联的特征数据；

将所述特征数据和相应的概率以及边界调整量构成的训练数据作为训练集；

通过机器学习算法，利用所述训练集学习得到所述第一预设卷积神经网络、所述第二预设卷积神经网络和所述第三预设卷积神经网络。

根据本公开实施例的第二方面，提供一种视频类型确定装置，包括：

视频划分模块，被配置为将原视频划分为M段第一子视频，其中，M为大于1的整数；

第一提取模块，被配置为通过第一预设卷积神经网络提取每段所述第一子视频的图像特征；

第二提取模块，被配置为计算每段所述第一子视频的光流，通过第二预设卷积神经网络提取所述光流的特征作为相应段的所述第一子视频的时序特征；

特征整合模块，被配置为针对任一段所述第一子视频，整合其图像特征和时序特征得到综合特征，通过M段所述第一子视频分别对应的综合特征构成项数为M的特征序列；

视频确定模块，被配置为在所述原视频中确定N段第二子视频，其中，N为大于1的整数；

卷积运算模块，被配置为通过第三预设卷积神经网络对所述特征序列进行多层的一维卷积运算，运算结果包含N个元素，所述N个元素与所述N段第二子视频一一对应，其中，所述元素用于指示相应的第二子视频属于每种预设类型的概率；

类型确定模块，被配置为根据所述概率确定相应第二子视频的类型。

可选地，所述类型确定模块包括：

概率确定子模块，被配置为确定所述第二子视频属于每种预设类型的概率中是否存在大于预设概率的目标概率；

类型确定子模块，被配置为在存在大于预设概率的目标概率的情况下，确定所述第二子视频属于所述目标概率对应的预设类型；以及在不存在大于预设概率的目标概率的情况下，确定所述第二子视频属于所述概率中最大概率对应的预设类型。

可选地，所述装置还包括：

指令接收模块，被配置为接收查询目标类型视频的查询指令；

视频查询模块，被配置为在所述N段第二子视频中查询属于所述目标类型的多个第二子视频；

视频处理模块，被配置为在确定的多个第二子视频存在重叠区间的情况下，通过非极大值抑制算法对所述多个第二子视频进行处理，以确定所述多个第二子视频中的属于所述目标类型的概率最大的目标第二子视频。

可选地，每段所述第一子视频包含相同数目帧的图像，其中，所述第一提取模块被配置为通过第一预设卷积神经网络提取所述第一子视频中预设帧的图像。

所述装置还包括：

边界调整模块，被配置为根据所述区间边界调整量调整所述第二子视频的区间边界。

可选地，所述装置还包括：

特征提取模块，被配置为在将原视频划分为M段第一子视频之前，在样本视频中获取与所述概率和所述边界调整量相关联的特征数据；

训练集生成模块，被配置为将所述特征数据和相应的概率以及边界调整量构成的训练数据作为训练集；

机器学习模块，被配置为通过机器学习算法，利用所述训练集学习得到所述第一预设卷积神经网络、所述第二预设卷积神经网络和所述第三预设卷积神经网络。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

将原视频划分为M段第一子视频，其中，M为大于1的整数；

根据所述概率确定相应第二子视频的类型。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

将原视频划分为M段第一子视频，其中，M为大于1的整数；

根据所述概率确定相应第二子视频的类型。

本公开的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本公开通过第一卷积神经网络提取视频的图像特征，通过第二卷积神经网络提取视频的时序特征，并进一步通过第三卷积神经网络提取视频度图像特征和时序特征构成的综合特征的序列进行多层的一维卷积运算，实现了机器深度学习来确定原视频中每个第二子视频所属的类型，相对于人工确定视频的类型，更加客观，而且消耗人力较少，相对于根据视频的每一帧图像来确定视频的类型，处理数据量较少，因此处理速度更快，而且由于所用到的几个神经网络可以通过机器学习不断改进，更容易拓展适用范围。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种视频类型确定方法的示意流程图。

图2是根据一示例性实施例示出的一种根据所述概率确定相应第二子视频的类型的示意流程图。

图3是根据一示例性实施例示出的另一种视频类型确定方法的示意流程图。

图4是根据一示例性实施例示出的又一种视频类型确定方法的示意流程图。

图5是根据一示例性实施例示出的又一种视频类型确定方法的示意流程图。

图6是根据一示例性实施例示出的又一种视频类型确定方法的示意流程图。

图7是根据一示例性实施例示出的一种视频类型确定装置的示意框图。

图8是根据一示例性实施例示出的一种类型确定模块的示意框图。

图9是根据一示例性实施例示出的另一种视频类型确定装置的示意框图。

图10是根据一示例性实施例示出的又一种视频类型确定装置的示意框图。

图11是根据一示例性实施例示出的又一种视频类型确定装置的示意框图。

图12是根据一示例性实施例示出的一种用于视频类型确定的装置的示意框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种视频类型确定方法的示意流程图。本实施例所示的方法可以适用于各类终端，例如手机、平板电脑等。如图1所示，所述方法包括以下步骤。

在步骤S1中，将原视频划分为M段第一子视频，其中，M为大于1的整数；

在步骤S2中，通过第一预设卷积神经网络提取每段所述第一子视频的图像特征。

在一个实施例中，每段第一子视频可以包括相同数量帧的图像，而针对每段第一子视频提取的图像特征，可以来自每段第一子视频中相同的一帧或相同的几帧图像，据此，无需针对视频中的每一帧图像提取特征。

在一个实施例中，图像特征可以来自第一子视频居中的一帧(第一子视频包含奇数帧)或两帧(第一子视频包含偶数帧)图像，例如一段第一子视频包括25帧图像，那么提取的图像特征，可以来自其中第13帧图像，而居中的一帧图像相对于首尾两帧图像，内容与该段资第一子视频的主要内容相符的概率更高，因此从其中提取图像特征，能够更好地反应第一子视频中每帧图像的相关静态特征。

在一个实施例中，图像特征可以包括图像中物体的类型、物体的姿态、物体的颜色等，而图像特征并不限于此，并且除了上述具体特征，还可以包含抽象特征，具体可以包括几十乃至上百种图像特征。

在步骤S3中，计算每段所述第一子视频的光流，通过第二预设卷积神经网络提取所述光流的特征作为相应段的所述第一子视频的时序特征。

在一个实施例中，时序特征可以是视频中连续两帧图像中物体、物体表面、物体边缘在一个视角下和背景之间产生的移动距离，而时序特征并不限于此，并且除了上述具体特征，还可以包含抽象特征，具体可以包括几十乃至上百种时序特征。

在步骤S4中，针对任一段所述第一子视频，整合其图像特征和时序特征得到综合特征，通过M段所述第一子视频分别对应的综合特征构成项数为M的特征序列。

在一个实施例中，例如针对某段第一子视频而言，存在100个图像特征和100个时序特征，那么该段第一子视频的综合特征即包含100个图像特征和100个时序特征，也即200个特征，由于图像特征能够体现第一子视频中每帧图像的静态特征，而时序特征能够体现第一子视频中相邻帧之间的动态特征，因此综合特征能够体现该段第一子视频的静态特征和动态特征。进一步将M段第一子视频分别对应的总和特征构成项数为M(也即包含M个综合特征)的特征序列，特征序列中的每个综合特征则可以表示相应的第一子视频的静态特征和动态特征。

在步骤S5中，在所述原视频中确定N段第二子视频，其中，N为大于1的整数。

在一个实施例中，可以进一步在原视频中确定N段第二子视频，不同的第二子视频可以存在重叠区域。其中，第一子视频和第二子视频都是可以根据原视频得到，只是确定第一子视频和第二子视频的方式不同，例如将原视频划分得到的第一子视频，不同第一子视频之间不存在重叠区域，第二在原视频中确定的第二子视频，不同第二子视频之间可以存在重叠区域。并且，为了保证能够完整地确定原视频所有内容的类型，确定的N段第二子视频之和所包含的内容，大于或等于原视频所包含的内容，也即N段第二子视频的图像帧之和，包含原视频的所有图像帧，并且可以存在重复的图像帧。

在步骤S6中，通过第三预设卷积神经网络对所述特征序列进行多层的一维卷积运算(其中，第三卷积神经网络是多层结构，根据第三卷积神经网络的每一层可以分别对特征序列做一维卷积运算)，运算结果包含N个元素，所述N个元素与所述N段第二子视频一一对应，其中，所述元素用于指示相应的第二子视频属于每种预设类型的概率。

在一个实施例中，由于原视频包括多个图像帧，而不同的图像帧内容可能不同，相应的类型也有所不同，例如有的图像帧的内容为人吃饭，有的图像帧的内容为蓝天，因此，由多个图像帧构成的原视频中每一段第二子视频包含的内容也就不同，例如某段第二子视频包含的图像帧均涉及人在吃饭，那么该段第二子视频的类型可以是吃饭，若某段第二子视频包含的图像帧均涉及蓝天、白云等，那么该段第二子视频的类型可以是自然风光。

可以预先设置一个或多个视频的类型(例如跑步、开车、工作、吃饭、建筑、自然风光等)，并通过机器学习确定第二预设卷积神经网络、第一预设卷积神经网络、第三预设卷积神经网络，使得通过第三预设卷积神经网络对特征序列进行多层的一维卷积运算后能够得到N个元素，并且N个元素用于分别指示相应的第二子视频属于每种预设类型的概率。

在步骤S7中，根据所述概率确定相应第二子视频的类型。

在一个实施例中，可以将第二子视频所述类型的概率最大的概率对应的类型确定为第二子视频的类型，例如针对某个第二子视频而言，其对应的元素可以用以表示其有25％的概率属于跑步类型，25％的概率属于开车类型，50％的概率属于吃饭类型，那么可以确定该第二子视频的类型为吃饭。进而可以确定原视频中每个第二子视频所属的类型。

在一个实施例中，通过第一卷积神经网络提取视频的图像特征，通过第二卷积神经网络提取视频的时序特征，并进一步通过第三卷积神经网络提取视频度图像特征和时序特征构成的综合特征的序列进行多层的一维卷积运算，实现了机器深度学习来确定原视频中每个第二子视频所属的类型，相对于人工确定视频的类型，更加客观，而且消耗人力较少，相对于根据视频的每一帧图像来确定视频的类型，处理数据量较少，因此处理速度更快，而且由于所用到的几个神经网络可以通过机器学习不断改进，更容易拓展适用范围。

图2是根据一示例性实施例示出的一种根据所述概率确定相应第二子视频的类型的示意流程图。所述根据所述概率确定相应第二子视频的类型包括：

在步骤S701中，确定所述第二子视频属于每种预设类型的概率中是否存在大于预设概率的目标概率；若存在，执行步骤S72，若不存在，执行步骤S73；

在步骤S702中，确定所述第二子视频属于所述目标概率对应的预设类型；

在步骤S703中，确定所述第二子视频属于所述概率中最大概率对应的预设类型。

在一个实施例中，可以预先设置预设概率，例如预设概率为40％，那么在针对元素所指示的第二子视频属于每种预设类型的概率，可以确定其中是否存在大于该预设概率的目标概率，例如针对某个第二子视频而言，其对应的元素用以表示其有25％的概率属于跑步类型，25％的概率属于开车类型，50％的概率属于吃饭类型，其中50％大于40％，则可以确定第二子视频属于吃饭类型。而如果其对应的元素用以表示其有25％的概率属于跑步类型，25％的概率属于开车类型，30％的概率属于吃饭类型，20％的概率属于工作类型，其中的概率均小于40％，因此可以确定其中最大概率对应的预设类型，也即吃饭类型为第二子视频所属的预设类型。

图3是根据一示例性实施例示出的另一种视频类型确定方法的示意流程图。如图3所示，在图1所示实施例的基础上，所述方法还包括：

在步骤S8中，接收查询目标类型视频的查询指令；

在步骤S9中，在所述N段第二子视频中查询属于所述目标类型的多个第二子视频；

在步骤S10中，若确定的多个第二子视频存在重叠区间，通过非极大值抑制算法对所述多个第二子视频进行处理，以确定所述多个第二子视频中的属于所述目标类型的概率最大的目标第二子视频。

在一个实施例中，用户可以输入查询指令来查询员视频中属于目标类型的第二子视频，而根据上述概率，可能确定存在多个第二子视频(例如根据图2所示的实施例，多个第二子视频属于目标类型的概率均大于预设概率)，在这种情况下，如果确定的多个第二子视频存在重叠区间，说明确定的多个第二子视频存重复的图像帧，进而可以通过非极大值抑制算法对所述多个第二子视频进行处理，例如在确定的多个第二子视频中进一步确定属于目标类型的概率最大的目标第二子视频，将其作为结果反馈给用户，以提高查询结果的准确性，并易于用户辨识。

图4是根据一示例性实施例示出的又一种视频类型确定方法的示意流程图。如图4所示，在图1所示实施例的基础上，每段所述第一子视频包含相同数目帧的图像，其中，所述通过第一预设卷积神经网络提取每段所述第一子视频的图像特征包括：

在步骤S201中，通过第一预设卷积神经网络提取每段所述第一子视频中预设帧的图像。

在一个实施例中，每段第一子视频可以包括相同数量帧的图像，而提取的第一子视频的图像特征，可以来自第一子视频中某一帧图像，据此，无需针对视频中的每一帧图像提取特征。并且由于每段第一子视频可以包括相同数量帧的图像，可以保证每个特征所能反应其所在的第一子视频的特征的程度相同。

在一个实施例中，图像特征具体可以来自第一子视频居中的一帧图像，例如一段第一子视频包括25帧图像，那么提取的图像特征，可以来自其中第13帧图像，而居中的一帧图像相对于首尾两帧图像，内容与该段资第一子视频的主要内容相符的概率更高，因此从其中提取图像特征，能够更好地反应第一子视频中每帧图像的相关静态特征。

图5是根据一示例性实施例示出的又一种视频类型确定方法的示意流程图。如图5所示，在图1所示实施例的基础上，所述元素还用于指示相应的第二子视频的区间边界调整量；

所述方法还包括：

在步骤S11中，根据所述区间边界调整量调整所述第二子视频的区间边界。

在一个实施例中，通过第三卷积神经网络计算得到的元素，还可以进一步表示对于第二子视频边界的调整量，由于第二子视频是预先随机确定的，相应的边界也是预先确定的，但是确定第二子视频时并未确定其所属的类型，也并非根据类型来确定第二子视频，因此第二子视频包含的图像帧，实际上可能属于多个类型。而根据区间边界调整量调整第二子视频的区间边界，则可以在确定第二子视频所属的类型之后，对其边界进行调整，使得调整后的第二子视频中的每一帧图像都属于同一类型。

图6是根据一示例性实施例示出的又一种视频类型确定方法的示意流程图。如图6所示，在图5所示实施例的基础上，在将原视频划分为M段第一子视频之前，所述方法还包括：

在步骤S12中，在样本视频中获取与所述概率和所述边界调整量相关联的特征数据；

在步骤S13中，将所述特征数据和相应的概率以及边界调整量构成的训练数据作为训练集；

在步骤S14中，通过机器学习算法，利用所述训练集学习得到所述第一预设卷积神经网络、所述第二预设卷积神经网络和所述第三预设卷积神经网络。

在一个实施例中，可以预先确定一些特征数据，该特征数据与上述概率和边界调整量相关联，然后针对大量的样本视频，可以从中提取特征数据，然后根据提取的数据确定相应样本视频属于预设类型的概率，以及相应的边界调整量，进而可以将所提取的特征数据和相应样本视频属于预设类型的概率，以及相应的边界调整量作为训练数据，进而将多个样本视频的训练数据构成训练集，即可通过机器学习算法利用训练集进行学习得到第一预设卷积神经网络、所述第二预设卷积神经网络和所述第三预设卷积神经网络

其中，机器学习算法包括以下至少之一：

线性回归算法、回归决策树算法、迭代决策树算法或随机森林算法。

与前述的视频类型确定方法的实施例相对应，本公开还提供了视频类型确定装置的实施例。

图7是根据一示例性实施例示出的一种视频类型确定装置的示意框图。参照图7，该装置包括：

视频划分模块1，被配置为将原视频划分为M段第一子视频，其中，M为大于1的整数；

第一提取模块2，被配置为通过第一预设卷积神经网络提取每段所述第一子视频的图像特征；

第二提取模块3，被配置为计算每段所述第一子视频的光流，通过第二预设卷积神经网络提取所述光流的特征作为相应段的所述第一子视频的时序特征；

特征整合模块4，被配置为针对任一段所述第一子视频，整合其图像特征和时序特征得到综合特征，通过M段所述第一子视频分别对应的综合特征构成项数为M的特征序列；

视频确定模块5，被配置为在所述原视频中确定N段第二子视频，其中，N为大于1的整数；

卷积运算模块6，被配置为通过第三预设卷积神经网络对所述特征序列进行多层的一维卷积运算，运算结果包含N个元素，所述N个元素与所述N段第二子视频一一对应，其中，所述元素用于指示相应的第二子视频属于每种预设类型的概率；

类型确定模块7，被配置为根据所述概率确定相应第二子视频的类型。

图8是根据一示例性实施例示出的一种类型确定模块的示意框图。如图8所示，在图7所示实施例的基础上，所述类型确定模块7包括：

概率确定子模块71，被配置为确定所述第二子视频属于每种预设类型的概率中是否存在大于预设概率的目标概率；

类型确定子模块72，被配置为在存在大于预设概率的目标概率的情况下，确定所述第二子视频属于所述目标概率对应的预设类型；以及在不存在大于预设概率的目标概率的情况下，确定所述第二子视频属于所述概率中最大概率对应的预设类型。

图9是根据一示例性实施例示出的另一种视频类型确定装置的示意框图，如图9所述，在图7所示实施例的基础上，所述装置还包括：

指令接收模块8，被配置为接收查询目标类型视频的查询指令；

视频查询模块9，被配置为在所述N段第二子视频中查询属于所述目标类型的多个第二子视频；

视频处理模块10，被配置为在确定的多个第二子视频存在重叠区间的情况下，通过非极大值抑制算法对所述多个第二子视频进行处理，以确定所述多个第二子视频中的属于所述目标类型的概率最大的目标第二子视频。

图10是根据一示例性实施例示出的又一种视频类型确定装置的示意框图，如图10所述，在图7所示实施例的基础上，所述元素还用于指示相应的第二子视频的区间边界调整量；

所述装置还包括：

边界调整模块11，被配置为根据所述区间边界调整量调整所述第二子视频的区间边界。

图11是根据一示例性实施例示出的又一种视频类型确定装置的示意框图，如图11所述，在图10所示实施例的基础上，所述装置还包括：

特征提取模块12，被配置为在将原视频划分为M段第一子视频之前，在样本视频中获取与所述概率和所述边界调整量相关联的特征数据；

训练集生成模块13，被配置为将所述特征数据和相应的概率以及边界调整量构成的训练数据作为训练集；

机器学习模块14，被配置为通过机器学习算法，利用所述训练集学习得到所述第一预设卷积神经网络、所述第二预设卷积神经网络和所述第三预设卷积神经网络。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在相关方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本公开还提出一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

将原视频划分为M段第一子视频，其中，M为大于1的整数；

针对任一段所述第一子视频，整合其图像特征和时序特征得到综合特征，通过M段短缩第一子视频分别对应的综合特征构成项数为M的特征序列；

根据所述概率确定相应第二子视频的类型。

本公开还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

将原视频划分为M段第一子视频，其中，M为大于1的整数；

根据所述概率确定相应第二子视频的类型。

图12是根据一示例性实施例示出的一种用于视频类型确定的装置1200的示意框图。例如，装置1200可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图12，装置1200可以包括以下一个或多个组件：处理组件1202，存储器1204，电源组件1206，多媒体组件1208，音频组件1210，输入/输出(I/O)的接口1212，传感器组件1214，以及通信组件1216。

处理组件1202通常控制装置1200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1202可以包括一个或多个处理器1220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1202可以包括一个或多个模块，便于处理组件1202和其他组件之间的交互。例如，处理组件1202可以包括多媒体模块，以方便多媒体组件1208和处理组件1202之间的交互。

存储器1204被配置为存储各种类型的数据以支持在装置1200的操作。这些数据的示例包括用于在装置1200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1206为装置1200的各种组件提供电力。电源组件1206可以包括电源管理系统，一个或多个电源，及其他与为装置1200生成、管理和分配电力相关联的组件。

多媒体组件1208包括在所述装置1200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1208包括一个前置摄像头和/或后置摄像头。当装置1200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1210被配置为输出和/或输入音频信号。例如，音频组件1210包括一个麦克风(MIC)，当装置1200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中，音频组件1210还包括一个扬声器，用于输出音频信号。

I/O接口1212为处理组件1202和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1214包括一个或多个传感器，用于为装置1200提供各个方面的状态评估。例如，传感器组件1214可以检测到装置1200的打开/关闭状态，组件的相对定位，例如所述组件为装置1200的显示器和小键盘，传感器组件1214还可以检测装置1200或装置1200一个组件的位置改变，用户与装置1200接触的存在或不存在，装置1200方位或加速/减速和装置1200的温度变化。传感器组件1214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1216被配置为便于装置1200和其他设备之间有线或无线方式的通信。装置1200可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1216还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1204，上述指令可由装置1200的处理器1220执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频类型确定方法，其特征在于，包括：

将原视频划分为M段第一子视频，其中，M为大于1的整数；

根据所述概率确定相应第二子视频的类型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述概率确定相应第二子视频的类型包括：

3.根据权利要求1所述的方法，其特征在于，还包括：

接收查询目标类型视频的查询指令；

4.根据权利要求1所述的方法，其特征在于，每段所述第一子视频包含相同数目帧的图像，其中，所述通过第一预设卷积神经网络提取每段所述第一子视频的图像特征包括：

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述元素还用于指示相应的第二子视频的区间边界调整量；

所述方法还包括：

根据所述区间边界调整量调整所述第二子视频的区间边界。

6.根据权利要求5所述的方法，其特征在于，在将原视频划分为M段第一子视频之前，所述方法还包括：

7.一种视频类型确定装置，其特征在于，包括：

特征整合模块，被配置为针对任一段所述第一子视频，整合其图像特征和时序特征得到的综合特征，通过M段所述第一子视频分别对应的综合特征构成项数为M的特征序列；

8.根据权利要求7所述的装置，其特征在于，所述类型确定模块包括：

9.根据权利要求7所述的装置，其特征在于，还包括：

10.根据权利要求7所述的装置，其特征在于，每段所述第一子视频包含相同数目帧的图像，其中，所述第一提取模块被配置为通过第一预设卷积神经网络提取每段所述第一子视频中预设帧的图像。

11.根据权利要求7至10中任一项所述的装置，其特征在于，所述元素还用于指示相应的第二子视频的区间边界调整量；

所述装置还包括：

12.根据权利要求10所述的装置，其特征在于，还包括：

13.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

将原视频划分为M段第一子视频，其中，M为大于1的整数；

根据所述概率确定相应第二子视频的类型。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现以下步骤：

将原视频划分为M段第一子视频，其中，M为大于1的整数；

根据所述概率确定相应第二子视频的类型。