CN112070044A

CN112070044A - 一种视频物体分类方法及装置

Info

Publication number: CN112070044A
Application number: CN202010966442.7A
Authority: CN
Inventors: 王成; 许迪; 俞益洲; 李一鸣; 乔昕
Original assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Current assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2020-12-11
Anticipated expiration: 2040-09-15
Also published as: CN112070044B

Abstract

本申请公开了一种视频物体分类方法及装置，该方法中提取目标视频中的关键帧，并利用预设卷积神经网络对关键帧进行图像特征提取得到多层特征图，对各层特征图包含的局部特征进行加权融合得到融合特征，对融合特征进行降维处理得到降维结果，对降维结果进行聚类得到关键帧包含的所有像素的分类结果。由于在得到融合特征后对融合特征进行降维处理得到降维结果，避免了使用fc‑lstm结构进行分类，可有效的学出视频数据之间的时间和空间依赖性，使得降维结果中携带有空间时序特性，可以对于有多物体做复杂移动的复杂场景无法产生有效的分类，同时基于聚类方法的算法特质实现对单帧图像的像素级分割得到分类结果。

Description

一种视频物体分类方法及装置

技术领域

本申请涉及视频物体分类领域，尤其涉及一种视频物体分类方法及装置。

背景技术

目前，对视频场景中的物体进行分类至关重要，为了实现对视频数据中物体进行分类需要在处理好单帧图片的空间维度信息的基础上能够联系上下文语境。然而现有技术中的分类方法由于其仅能对一维向量进行映射导致其极易丢失单帧图片中的空间相关性，也就无法联系上下文语境，导致其只能对具有简单强线性特征的视频数据进行分类，而对于有多物体做复杂移动的复杂场景无法产生有效的分类。

发明内容

本申请提供一种视频物体分类方法及装置，以实现对于有多物体做复杂移动的复杂场景无法产生有效的分类。

第一方面，本申请提供了一种视频物体分类方法，所述方法包括：

提取目标视频中的关键帧，并利用预设卷积神经网络对所述关键帧进行图像特征提取得到多层特征图，其中，各层特征图包含的局部特征不同；

对所述各层特征图包含的局部特征进行加权融合得到融合特征；

对所述融合特征进行降维处理得到降维结果，其中，所述降维结果中携带有空间时序特性；

对所述降维结果进行聚类得到所述关键帧包含的所有像素的分类结果。

可选的，所述提取目标视频中的关键帧的步骤，包括：

确定聚类类别个数m，提取所述目标视频中的每个视频帧的颜色特征值，其中，m为正整数；

从提取的颜色特征值中选取m个颜色特征值分别作为m个类别的聚类中心；

将所述目标视频帧中的第一帧视频帧作为当前视频帧，计算所述当前视频帧的颜色特征值到各聚类中心之间的欧式距离，将所述当前视频帧划分到距离自身的欧式距离最小的聚类中心所在的类别中，计算该类别包含的所有视频帧的颜色特征值的算数平均值，并将所述算数平均值更新为该类别的聚类中心；

将所述当前视频帧的下一视频帧作为当前视频帧，返回执行所述计算所述当前视频帧的颜色特征值到各聚类中心之间的欧式距离的步骤，直至所有视频帧分类完成，将各类别中距离该类别的聚类中心的欧氏距离最小的视频帧作为关键帧。

可选的，所述预设卷积神经网络为利用ImageNet数据库进行训练所形成的卷积神经网络。

可选的，所述对所述各层特征图包含的局部特征进行加权融合得到融合特征的步骤，包括：

利用双向特征金字塔网络对所述关键帧的各层特征图包含的局部特征进行加权融合得到融合特征。

可选的，所述对所述融合特征进行降维处理得到降维结果的步骤，包括：

采用自表达子空间聚类算法以及长短期记忆人工神经网络对所述融合特征进行降维处理得到降维结果。

可选的，所述采用自表达子空间聚类算法以及长短期记忆人工神经网络对所述融合特征进行降维处理得到降维结果的步骤，包括：

将所述融合特征输入至长短期记忆人工神经网络中，通过反向传播方法求解得到带有空间时序特征的优化特征；

利用自表达子空间聚类算法对所述优化特征进行降维处理得到低维子空间表达矩阵。

可选的，所述对所述降维结果进行聚类得到所述关键帧包含的所有像素的分类结果的步骤，包括：

采用谱聚类算法对所述降维结果进行聚类得到所述关键帧包含的所有像素的分类结果。

可选的，所述采用谱聚类算法对所述降维结果进行聚类得到所述关键帧包含的所有像素的分类结果的步骤，包括：

根据所述降维结果计算出相似度矩阵；

根据所述相似度矩阵计算出度矩阵；

根据所述相似度矩阵和所述度矩阵计算出拉普拉斯矩阵；

将所述拉普拉斯矩阵的特征值按照从小到大的顺序进行排列，提取前k个特征值对应的特征向量，其中，k为正整数；

对所述特征向量进行聚类，得到所述关键帧包含的所有像素的分类结果。

第二方面，本申请提供了一种视频物体分类装置，所述装置包括：

提取模块，用于提取目标视频中的关键帧，并利用预设卷积神经网络对所述关键帧进行图像特征提取得到多层特征图，其中，各层特征图包含的局部特征不同；

融合模块，用于对所述各层特征图包含的局部特征进行加权融合得到融合特征；

降维处理模块，用于对所述融合特征进行降维处理得到降维结果，其中，所述降维结果中携带有空间时序特性；

分类模块，用于对所述降维结果进行聚类得到所述关键帧包含的所有像素的分类结果。

第三方面，本申请提供了一种电子设备，包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器执行如第一方面中任一所述的方法。

第四方面，本申请提供了一种可读介质，包括执行指令，当电子设备的处理器执行所述执行指令时，所述电子设备执行如第一方面中任一所述的方法。

由上述技术方案可以看出，本申请可以提取目标视频中的关键帧，并利用预设卷积神经网络对关键帧进行图像特征提取得到多层特征图，对各层特征图包含的局部特征进行加权融合得到融合特征，以便于获得关于单帧图片更多的深层特征，然后对融合特征进行降维处理得到降维结果，对降维结果进行聚类得到关键帧包含的所有像素的分类结果。由于本发明实施例中，在得到融合特征后对融合特征进行降维处理得到降维结果，避免了使用fc-lstm结构进行分类，可有效的学出视频数据之间的时间和空间依赖性，使得降维结果中携带有空间时序特性，同时基于聚类方法的算法特质实现对单帧图像的像素级分割得到分类结果，由于本发明实施例中的降维结果中携带有空间时序特性，使得本发明实施例提供的分类方法可以联系上下文语境，可以对于有多物体做复杂移动的复杂场景无法产生有效的分类。

上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

为了更清楚地说明本申请实施例或现有的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一种视频物体分类方法的流程示意图；

图2为本申请一实施例提供的预设卷积神经网络的结构示意图；

图3为本申请一实施例提供的双向特征金字塔网络的结构示意图

图4为本申请一实施例提供的LSTM模型求解过程示意图；

图5为本申请一实施例提供的一种视频物体分类装置的结构示意图；

图6为本申请一实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合具体实施例及相应的附图对本申请的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了解决现有技术中，由于分类方法仅能对一维向量进行映射导致其极易丢失单帧图片中的空间相关性，也就无法联系上下文语境，导致其只能对具有简单强线性特征的视频数据进行分类，而对于有多物体做复杂移动的复杂场景无法产生有效的分类的问题。

本申请提供了一种视频物体分类方法，在本方法中，可以提取目标视频中的关键帧，并利用预设卷积神经网络对关键帧进行图像特征提取得到多层特征图，对各层特征图包含的局部特征进行加权融合得到融合特征，以便于获得关于单帧图片更多的深层特征，然后对融合特征进行降维处理得到降维结果，对降维结果进行聚类得到关键帧包含的所有像素的分类结果。由于本发明实施例中，在得到融合特征后对融合特征进行降维处理得到降维结果，避免了使用fc-lstm结构进行分类，可有效的学出视频数据之间的时间和空间依赖性，使得降维结果中携带有空间时序特性，同时基于聚类方法的算法特质实现对单帧图像的像素级分割得到分类结果，由于本发明实施例中的降维结果中携带有空间时序特性，使得本发明实施例提供的分类方法可以联系上下文语境，可以对于有多物体做复杂移动的复杂场景无法产生有效的分类。

并且，利用通过ImageNet数据库预训练过的cnn(Convolutional NeuralNetworks，卷积神经网络)模型完成对视频图像空间域特征的导出，cnn模型中的卷积操作通过多个不同的卷积核以及局部感受野的信息抓取机制，遍历上一层的卷积特征立方体捕获不同的局部特征，随着层数增加，这些提取的显著特征被组合和压缩，不同特征层涵盖不同层级的局部感知特征表达，用来对更为精细的运动模式进行建模。

利用双向特征金字塔网络结构通过加权融合的机制基于不同层级的卷积特征不同的注意力来更为有效得融合特征，产生输入LSTM(Long Short-Term Memory，长短期记忆人工神经网络)模型的单帧输入特征图谱。

单帧分割通过自表达子空间聚类求得，不同视频帧之间的相关性特征和融合特征的低维表达在时序上的相关性通过利用LSTM模型来抓取，通过谱聚类算法对单帧求解出的所有低维子空间表达矩阵进行处理完成原始图片中单个像素的标签化过程。

下面结合附图，详细说明本申请的各种非限制性实施方式。

参见图1，示出了本申请实施例中的一种视频物体分类方法的流程示意图。在本实施例中，该方法应用于电子设备，其中，电子设备不限于电脑和平板电脑，该方法例如可以包括以下步骤：

S101：提取目标视频中的关键帧，并利用预设卷积神经网络对关键帧进行图像特征提取得到多层特征图，其中，各层特征图包含的局部特征不同。

视力损害是全球范围严重性的公共卫生问题。全国有视力残疾患者1233万，大部分低视力人群可依靠视障辅助技术，借助各种助视器获得视觉增强。随着人工智能技术的不断成熟，以及基于计算机视觉和图形学的虚拟增强现实技术的快速发展，在技术层面上逐步变得可实现通过视力辅助装备和视功能训练来重建患者视觉功能，帮助视障人士及老年人进行视功能补偿或代偿。

视力辅助设备主要用于深层次挖掘包括视频在内的重要信息，需要对大量视频的内容做分析，并通过分析结果来提供有效信息。其中，在视频理解技术中最核心的部分是即使在无人干预的条件下，也能使智能设备实现对视频场景中运动物体的检测或分割及行为类别的分类。

传统技术主要依赖于手工来对视频场景中的物体进行分类，且分类中的特征的设计往往需要专家利用相应的领域知识进行设计，这使得人工成本较高，同时分类方法的迁移性和泛化性较差。而人工智能深度学习方法能够较好得弥补上述传统方法的缺陷，深度学习能够自动描述数据本质的特征表达，从而避免了人工设计特征的缺陷，使用深度学习的方法能够获得一个普遍的深层次的特征，不仅人工成本低，而且判别能力强。

目前，深度学习网络多作用于物体的分类，且主要作用模型为cnn-lstm或cnn-attention-lstm，其中，cnn为卷积神经网络，attention为注意力，lstm为长短期记忆人工神经网络。cnn-lstm模型的作用原理为通过cnn对多视频图像逐帧导出深度特征，再利用lstm对视频帧之间的时空上下文信息进行获取，最后通过分类器进行动作分类。目前，大多数算法是集中于使用掩码来形成注意力机制。掩码的原理在于通过另一层新的权重，将图片数据中关键的特征标识出来，通过学习训练，让深度神经网络学到每一张新图片中需要关注的区域，也就形成了注意力。

但是目前的大部分注意力机制集中作用于cnn卷积的最后一张特征图，该类处理方式对感受野较大的物体例如大型物体有较好的作用，但对于感受野较小的物体例如小型物体表现较差，因此当前的机制无法充分开发利用cnn各个特征层的信息，实现高效的分类。

为了实现对视频数据中物体进行分类需要在处理好单帧图片的空间维度信息的基础上能够联系上下文语境。然而现有技术中的cnn-lstm模型不仅受限于缺乏动作细粒度的高语境的全连接特征作为时序建模输入，且fc-lstm结构由于其仅能对一维向量进行映射还易于对具有空间拓扑结构的卷基层时序特征建模时极易丢失单帧图片中的空间相关性，从而影响对视频数据的识别分类。cnn-lstm模型只能对具有简单强线性特征的视频数据进行分类，而对于有多物体做复杂移动的复杂场景无法产生有效的分类。

因此，为了解决对于有多物体做复杂移动的复杂场景无法产生有效的分类的问题，本申请提供了一种基于cnn-bifpn-lstm-evolutionary self-expressive subspaceclustering的视频物体分类方法，其中，bifpn为双向特征金字塔网络，evolutionary为进化，self-expressive subspace clustering为自表达子空间聚类算法。为了对视频物体进行分类，需要提取目标视频中的关键帧，其中，提取目标视频中的关键帧的方式可以为任何一种关键帧提取方式，本发明实施例在此并不做任何限定。

在提取关键帧后，需要利用预设卷积神经网络对所述关键帧进行图像特征提取得到多层特征图，其中，各层特征图包含的局部特征不同。

也就是说，在提取关键帧后，从预设卷积神经网络中导出多层的深度特征来描述目标视频中的单帧图片中的信息得到多层特征图，多层的深度特征只来自于卷积层，也就是图2中的左边虚线所框出的部分，图2为预设卷积神经网络的结构示意图，保留多层特征图的原因是多层特征图可以提取更为丰富的语义信息，为后续的分类提供较好的信息输入。

示例性的，预设卷积神经网络为利用ImageNet数据库进行训练所形成的卷积神经网络。其中，ImageNet数据库为一个用于视觉对象识别软件研究的大型可视化数据库。

利用通过ImageNet数据库预训练过的cnn模型完成对视频图像空间域特征的导出，cnn模型中的卷积操作通过多个不同的卷积核以及局部感受野的信息抓取机制，遍历上一层的卷积特征立方体捕获不同的局部特征，随着层数增加，这些提取的显著特征被组合和压缩，不同特征层涵盖不同层级的局部感知特征表达，用来对更为精细的运动模式进行建模。

S102：对各层特征图包含的局部特征进行加权融合得到融合特征。

在得到多层特征图后，对各层特征图包含的局部特征进行加权融合得到融合特征。也就是，对来自底层至顶层的各层特征图的局部特征进行加权融合最终产出单帧的特征图，经过加权融合后产出的特征图可以用来更全面的理解单帧图片的信息，即经过融合的特征图包含的融合特征是获得了关于单帧图片更多的深层特征，是更具表征力的特征，可以加强网络模型处理视频动作的能力，其中，各层特征图的权重是通过预设优化方法求解得到的。

其中，对各层特征图包含的局部特征进行加权融合得到融合特征，可以包括：

利用双向特征金字塔网络对关键帧的各层特征图包含的局部特征进行加权融合得到融合特征。

示例性的，双向特征金字塔网络的结构示意图如图3所示。利用双向特征金字塔网络结构通过加权融合的机制基于不同层级的卷积特征不同的注意力来更为有效得融合特征，产生输入LSTM模型的单帧输入特征图谱。

S103：对融合特征进行降维处理得到降维结果，其中，降维结果中携带有空间时序特性。

为了避免现有技术中的fc-lstm结构中的全连接层分类时对空间层面信息的损失，本发明实施例中在得到融合特征后，对融合特征进行降维处理得到降维结果从而实现降噪和有效信息的提取，也就是对融合特征进行进一步的有效降维得到降维结果，由此避免使用fc-lstm结构进行分类，可有效的学出视频数据之间的时间和空间依赖性，即降维结果中携带有空间时序特性。

S104：对降维结果进行聚类得到关键帧包含的所有像素的分类结果。

得到降维结果后，对降维结果进行聚类得到关键帧包含的所有像素的分类结果，实现对每一个像素的标签化和分类，从而实现对视频的单帧做图像分割，达到像素级别的识别水平，对图片中的物体进行精确的定位。

图1所示仅为本申请所述方法的基础实施例，在其基础上进行一定的优化和拓展，还能够得到所述方法的其他可选实施例。

接下来，将介绍本申请所述视频物体分类方法的一个具体实施例。本实施例在图1对应实施例的基础上，对S101进行进一步阐述(S101包括S201)。在本实施例中，所述方法具体包括以下步骤：

S201：确定聚类类别个数m，提取目标视频中的每个视频帧的颜色特征值，从提取的颜色特征值中选取m个颜色特征值分别作为m个类别的聚类中心，其中，m为正整数。

本发明实施例中基于视频聚类的方法来提取目标视频中的关键帧，该方法的基本思想是：首先，初始化一个聚类中心；其次，通过计算聚类中心与当前视频帧之间的范围，确定被分为类的参考帧或者作为类的新聚类中心；最后，选择离聚类中心最近的视频帧处理成关键帧。

首先确定聚类类别个数m，提取目标视频中的每个视频帧的颜色特征值，从提取的颜色特征值中选取m个颜色特征值分别作为m个类别的聚类中心，其中，m为正整数。

具体可以为：输入目标视频包含的视频帧数据的集合X＝{x₁，...x_n},其中每个x分别代表的是第i帧对应的h维特征向量，在给定的初始聚类个数m的前提下来划分聚类的集合个数，其中，1≤i≤n，m≤n。基于每个视频帧的颜色直方图的属性来提取集合X中的特征值，根据提取到的颜色特征值划分聚类个数，划分过程可以用聚类模型来表示，计算公式如下所示：

式中：M＝(M₁,M₂,…M_n)是聚类的结果，u_i表示聚类类别M_i的平均值，x_j表示第j帧对应的h维特征向量。

S202：将目标视频帧中的第一帧视频帧作为当前视频帧，计算当前视频帧的颜色特征值到各聚类中心之间的欧式距离，将当前视频帧划分到距离自身的欧式距离最小的聚类中心所在的类别中，计算该类别包含的所有视频帧的颜色特征值的算数平均值，并将算数平均值更新为该类别的聚类中心。

在得到聚类中心后，就将目标视频帧中的第一帧视频帧作为当前视频帧，计算当前视频帧的颜色特征值到各聚类中心之间的欧式距离，将当前视频帧划分到距离自身的欧式距离最小的聚类中心所在的类别中，计算该类别包含的所有视频帧的颜色特征值的算数平均值，并将算数平均值更新为该类别的聚类中心。

也可以是，在得到聚类中心后，将目标视频帧中的第一帧视频帧对应的特征向量x₁归入到第一个类中，并且将第一帧视频帧对应的的颜色直方图的特征值作为第一个类的初始质心。计算各视频帧到质心的距离，如果当前比较的视频帧的距离大于给定的初始阈值，那么就把该视频帧归入到新的类中；反之，把当前视频帧归入到距离它最近的类中，并且更新该类的质心。

S203：将当前视频帧的下一视频帧作为当前视频帧，返回执行计算当前视频帧的颜色特征值到各聚类中心之间的欧式距离的步骤，直至所有视频帧分类完成，将各类别中距离该类别的聚类中心的欧氏距离最小的视频帧作为关键帧。

在对目标视频帧中的第一帧视频帧进行聚类完成后，继续对第一帧视频帧的下一视频帧进行聚类，重复对第一帧视频帧进行聚类的过程对之后的各个视频帧进行聚类，即将当前视频帧的下一视频帧作为当前视频帧，返回执行计算当前视频帧的颜色特征值到各聚类中心之间的欧式距离的步骤，直至所有视频帧分类完成，将各类别中距离该类别的聚类中心的欧氏距离最小的视频帧作为关键帧。

S204：利用预设卷积神经网络对关键帧进行图像特征提取得到多层特征图，其中，各层特征图包含的局部特征不同。

S205：对各层特征图包含的局部特征进行加权融合得到融合特征。

S206：对融合特征进行降维处理得到降维结果，其中，降维结果中携带有空间时序特性；

S207：对降维结果进行聚类得到关键帧包含的所有像素的分类结果。

需要说明的是，本实施例中的S204与图1对应实施例中的S101中相应的利用预设卷积神经网络对关键帧进行图像特征提取得到多层特征图的特征相同。本实施例中的S205与图1对应实施例中的S102相同，S206与图1对应实施例中的S103相同，S207与图1对应实施例中的S104相同，因此，在本实施例中，不再对S204-S207进行阐述，具体可以参见图1对应实施例中的相应步骤的介绍。

在本实施例中，通过基于视频聚类的方法来提取目标视频中的关键帧，可以得到较为具有代表性的视频帧，为后续分类奠定了基础，并且，由于本发明实施例中，在得到融合特征后对融合特征进行降维处理得到降维结果，避免了使用fc-lstm结构进行分类，可有效的学出视频数据之间的时间和空间依赖性，使得降维结果中携带有空间时序特性，同时基于聚类方法的算法特质实现对单帧图像的像素级分割得到分类结果，由于本发明实施例中的降维结果中携带有空间时序特性，使得本发明实施例提供的分类方法可以联系上下文语境，可以对于有多物体做复杂移动的复杂场景无法产生有效的分类。

接下来，将介绍本申请所述视频物体分类方法的一个具体实施例。本实施例在图1对应实施例的基础上，对S103进行进一步阐述(S103包括S303)。在本实施例中，所述方法具体包括以下步骤：

S301：提取目标视频中的关键帧，并利用预设卷积神经网络对关键帧进行图像特征提取得到多层特征图，其中，各层特征图包含的局部特征不同。

S302：对各层特征图包含的局部特征进行加权融合得到融合特征。

S303：采用自表达子空间聚类算法以及长短期记忆人工神经网络对融合特征进行降维处理得到降维结果，其中，降维结果中携带有空间时序特性。

为了避免现有技术中的fc-lstm结构中的全连接层分类时对空间层面信息的损失，本发明实施例中在得到融合特征后，采用自表达子空间聚类算法以及长短期记忆人工神经网络对融合特征进行降维处理得到降维结果，其中，降维结果中携带有空间时序特性。

示例性的，步骤S303可以包括：

将融合特征输入至长短期记忆人工神经网络中，通过反向传播方法求解得到带有空间时序特征的优化特征；

利用自表达子空间聚类算法对优化特征进行降维处理得到低维子空间表达矩阵。

在得到融合特征后，利用自表达子空间聚类算法即self-expressive subspaceclustering来对特征图进行进一步的有效降维从而实现降噪和有效信息的提取，自表达子空间聚类算法的表达式如下所示：

X＝XC

diag(C)＝0

其中，X为自表达矩阵，C为低维子空间表达矩阵。

自表达子空间聚类算法的结果通过矩阵C进行结果显示，而矩阵C的优化求解可以通过LSTM模型完成。具体关于矩阵C的求解可以为通过将矩阵C带入LSTM模型中的cellstate并通过反向传播方法求解优化。其中，LSTM模型求解过程如图四所示，图4为LSTM模型求解过程示意图。

由此将融合特征输入至长短期记忆人工神经网络中的cell state并通过反向传播方法得到带有空间时序特征的优化特征，然后利用自表达子空间聚类算法对优化特征进行降维处理得到低维子空间表达矩阵，其中，低维子空间表达矩阵也就是矩阵C。

S304：对降维结果进行聚类得到关键帧包含的所有像素的分类结果。

需要说明的是，本实施例中的S301与图1对应实施例中的S101相似，S302与图1对应实施例中的S102相似，S304与图1对应实施例中的S104相似。因此，在本实施例中，不再对S301、S302和S304进行具体阐述，具体可以参见图1对应实施例中对应步骤的介绍。

本实施例可以通过采用自表达子空间聚类算法以及长短期记忆人工神经网络对融合特征进行降维处理得到降维结果，使得不同视频帧之间的相关性特征和融合特征的低维表达在时序上的相关性通过利用LSTM模型来抓取，避免了使用fc-lstm结构进行分类，可有效的学出视频数据之间的时间和空间依赖性，同时基于聚类方法的算法特质实现对单帧图像的像素级分割得到分类结果，由于本发明实施例中的降维结果中携带有空间时序特性，使得本发明实施例提供的分类方法可以联系上下文语境，可以对于有多物体做复杂移动的复杂场景无法产生有效的分类。

接下来，将介绍本申请所述视频物体分类方法的一个具体实施例。本实施例在图1对应实施例的基础上，对S104进行进一步阐述(S104包括S404)。在本实施例中，所述方法具体包括以下步骤：

S401：提取目标视频中的关键帧，并利用预设卷积神经网络对关键帧进行图像特征提取得到多层特征图，其中，各层特征图包含的局部特征不同。

S402：对各层特征图包含的局部特征进行加权融合得到融合特征。

S403：对融合特征进行降维处理得到降维结果，其中，降维结果中携带有空间时序特性。

需要说明的是，本实施例中的S401与图1对应实施例中的S101相似，S402与图1对应实施例中的S102相似，S403与图1对应实施例中的S103相似。因此，在本实施例中，不再对S401-S403进行具体阐述，具体可以参见图1对应实施例中对应步骤的介绍。

S404：采用谱聚类算法对降维结果进行聚类得到关键帧包含的所有像素的分类结果。

在本发明实施例中，得到降维结果后，采用谱聚类算法对降维结果进行聚类得到关键帧包含的所有像素的分类结果，实现对每一个像素的标签化和分类，从而实现对视频的单帧做图像分割，达到像素级别的识别水平，对图片中的物体进行精确的定位。

其中，步骤S404，可以包括：

根据降维结果计算出相似度矩阵；

根据相似度矩阵计算出度矩阵；

根据相似度矩阵和度矩阵计算出拉普拉斯矩阵；

将拉普拉斯矩阵的特征值按照从小到大的顺序进行排列，提取前k个特征值对应的特征向量，其中，k为正整数；

对特征向量进行聚类，得到关键帧包含的所有像素的分类结果。

具体的，使用公式(1)计算n×n的相似度矩阵W：

其中，W为由s_ij组成的n×n的相似度矩阵，s_ij为组成W的第i行第j列元素，x_i为根据降维结果得到的第i个样本点，x_j为根据降维结果得到的第j个样本点，σ为相关系数。

使用公式(2)计算度矩阵D：

其中，D为由d_i组成的n×n的对角矩阵，d_i为组成D的第i行对角线的元素，s_ij为组成W的第i行第j列元素。

使用公式(3)计算拉普拉斯矩阵L：

L＝D-W 公式(3)

其中，L为拉普拉斯矩阵，W为相似度矩阵，D为对角矩阵。

在得到拉普拉斯矩阵L后，计算L的特征值，将特征值从小到大排序，取前k个特征值，并计算前k个特征值的特征向量u₁…，u_k,定义U∈R_nxk为以特征向量u₁…，u_k为列向量的矩阵，使y_i∈R_k为U的第i行行向量，i＝1,…,n；通过K-means聚类算法将点Y＝{y₁，y₂，...，y_n}进行聚类，得到聚类簇C₁,...,C_k，输出簇A₁，A₂，...，A_n，其中，A_i＝{y_j|y_j∈C_i}，也就是得到关键帧包含的所有像素的分类结果。

综上可见，谱聚类算法的输入和输出分别为：

输入：n个样本点X＝{x₁，x₂，...，x_n}和聚类簇的数目k；

输出：聚类簇A₁，A₂，...，A_n。

示例性的，当降维结果为低维子空间表达矩阵时，采用谱聚类算法对低维子空间表达矩阵进行聚类得到关键帧包含的所有像素的分类结果，也就是像素的分割是通过谱聚类算法对单帧求解出的所有低维子空间表达矩阵进行处理完成原始图片中单个像素的标签化过程。

本实施例可以通过采用谱聚类算法对降维结果进行聚类得到关键帧包含的所有像素的分类结果，可以实现对单帧图像的像素级分割得到分类结果，同时由于自表达子空间聚类算法以及长短期记忆人工神经网络对融合特征进行降维处理得到降维结果，避免了使用fc-lstm结构进行分类，可有效的学出视频数据之间的时间和空间依赖性，使得本发明实施例提供的分类方法可以联系上下文语境，可以对于有多物体做复杂移动的复杂场景无法产生有效的分类。

如图5所示，为本申请所述视频物体分类装置的一个具体实施例。本实施例所述装置，即用于执行上述实施例所述方法的实体装置。其技术方案本质上与上述实施例一致，上述实施例中的相应描述同样适用于本实施例中。本实施例中所述装置包括：

提取模块501，用于提取目标视频中的关键帧，并利用预设卷积神经网络对所述关键帧进行图像特征提取得到多层特征图，其中，各层特征图包含的局部特征不同；

融合模块502，用于对所述各层特征图包含的局部特征进行加权融合得到融合特征；

降维处理模块503，用于对所述融合特征进行降维处理得到降维结果，其中，所述降维结果中携带有空间时序特性；

分类模块504，用于对所述降维结果进行聚类得到所述关键帧包含的所有像素的分类结果。

在一种实现方式中，所述提取模块501，具体用于：

在一种实现方式中，所述预设卷积神经网络为利用ImageNet数据库进行训练所形成的卷积神经网络。

在一种实现方式中，所述融合模块502，具体用于：

在一种实现方式中，所述降维处理模块503，包括：

降维子模块，用于采用自表达子空间聚类算法以及长短期记忆人工神经网络对所述融合特征进行降维处理得到降维结果。

在一种实现方式中，所述降维子模块，具体用于：

在一种实现方式中，所述分类模块504，包括：

分类子模块，用于采用谱聚类算法对所述降维结果进行聚类得到所述关键帧包含的所有像素的分类结果。

在一种实现方式中，所述分类子模块，具体用于：

根据所述降维结果计算出相似度矩阵；

根据所述相似度矩阵计算出度矩阵；

根据所述相似度矩阵和所述度矩阵计算出拉普拉斯矩阵；

图6是本申请实施例提供的一种电子设备的结构示意图。在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放执行指令。具体地，执行指令即可被执行的计算机程序。存储器可以包括内存和非易失性存储器，并向处理器提供执行指令和数据。

在一种可能实现的方式中，处理器从非易失性存储器中读取对应的执行指令到内存中然后运行，也可从其它设备上获取相应的执行指令，以在逻辑层面上形成车辆底盘控制装置。处理器执行存储器所存放的执行指令，以通过执行的执行指令实现本申请任一实施例中提供的视频物体分类方法。

上述如本申请图1所示实施例提供的视频物体分类装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

本申请实施例还提出了一种可读介质，该可读存储介质存储有执行指令，存储的执行指令被电子设备的处理器执行时，能够使该电子设备执行本申请任一实施例中提供的视频物体分类。

前述各个实施例中所述的电子设备可以为计算机。

本领域内的技术人员应明白，本申请的实施例可提供为方法或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例，或软件和硬件相结合的形式。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种视频物体分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述提取目标视频中的关键帧的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述预设卷积神经网络为利用ImageNet数据库进行训练所形成的卷积神经网络。

4.根据权利要求1-3中任一所述的方法，其特征在于，所述对所述各层特征图包含的局部特征进行加权融合得到融合特征的步骤，包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述融合特征进行降维处理得到降维结果的步骤，包括：

6.根据权利要求5所述的方法，其特征在于，所述采用自表达子空间聚类算法以及长短期记忆人工神经网络对所述融合特征进行降维处理得到降维结果的步骤，包括：

7.根据权利要求1所述的方法，其特征在于，所述对所述降维结果进行聚类得到所述关键帧包含的所有像素的分类结果的步骤，包括：

8.根据权利要求7所述的方法，其特征在于，所述采用谱聚类算法对所述降维结果进行聚类得到所述关键帧包含的所有像素的分类结果的步骤，包括：

根据所述降维结果计算出相似度矩阵；

根据所述相似度矩阵计算出度矩阵；

根据所述相似度矩阵和所述度矩阵计算出拉普拉斯矩阵；

9.一种视频物体分类装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器执行权利要求1-8任一项所述的方法。