CN112668533A

CN112668533A - 一种视频的视角分类方法、装置、设备及存储介质

Info

Publication number: CN112668533A
Application number: CN202110008444.XA
Authority: CN
Inventors: 彭联贴; 熊敏君; 崔宵洋; 颜家云; 黎孟; 张慧源; 李晨; 刘昕武; 褚金鹏; 刘邦繁; 孙木兰; 刘雨聪
Original assignee: Zhuzhou CRRC Times Electric Co Ltd
Current assignee: Zhuzhou CRRC Times Electric Co Ltd
Priority date: 2021-01-05
Filing date: 2021-01-05
Publication date: 2021-04-16

Abstract

本发明公开了一种视频的视角分类方法，在本方法中，对目标视频的视角进行分类时，首先需要从目标视频中抽取多帧图像，并输入预先训练的单帧图像分类模型，得到每帧图像属于不同视角的概率值，基于每帧图像间的特异性特征及共性特征获得目标视频属于各个视角的目标概率值，并通过将属于同一视角的目标概率值与概率值阈值进行比较的方式，自动获得目标视频的视角分类结果；可见，本申请可实现对视频视角的自动分类，减少了人工分类的工作，提高了分类速度；并且，本申请还考虑到了不同帧之间的共性特征及特异性特征，实现对视角的精准分类；本发明还公开了一种视频视角分类装置、设备及可读存储介质。

Description

一种视频的视角分类方法、装置、设备及存储介质

技术领域

本发明涉及图像处理技术领域，更具体地说，涉及一种视频的视角分类方法、装置、设备及存储介质。

背景技术

近年来，随着视频分析技术的发展，关于机车司机行为的分析识别正逐步由人工分析向智能分析转变，其中的一种智能分析方式需要借助已有机车车载安全防护系统(6A系统)中的视频监控设备。

目前，基于6A视频的司机行为识别系统在前期的试用中有着不错的效果，但都是以分析类似视角的视频为前提，而机车上6A摄像头安装位置、角度的差异，会导致6A视频会有不同的视角，以和谐电力机车为例，普遍存在右方和右后方这两种视角画面，以同一模型去分析不同视角的画面，效果并不理想。因此，为了提升识别司机行为等智能分析系统的效果，如何对视频视角进行分类是本领域技术人员需要解决的问题。

发明内容

本发明的目的在于提供一种视频的视角分类方法、装置、设备及存储介质，以实现对视频视角进行准确分类。

为实现上述目的，本发明提供一种视频的视角分类方法，包括：

获取目标视频；

以预定时长为时间间隔从所述目标视频中抽取第一预定数量帧的图像；

将每帧图像输入预先训练的单帧图像分类模型，得到每帧图像属于不同视角的概率值；

基于图像间的特异性特征及共性特征，利用所述目标视频中每帧图像属于不同视角的概率值，计算所述目标视频属于每个视角的目标概率值；

将所述目标视频属于每个视角的目标概率值与对应视角的概率值阈值进行比较，根据比较结果确定目标视频的视角分类结果。

其中，所述获取目标视频之前，还包括：

确定与每个视角对应的概率值阈值。

其中，所述确定与每个视角对应的概率值阈值，包括：

确定训练视频；其中，每个训练视频均具有已识别的视角；

以预定时长为时间间隔从每个训练视频中抽取第二预定数量帧的训练图像，并通过所述单帧图像分类模型获得每帧训练图像属于不同视角的概率值；

对每个训练视频中各帧训练图像属于对应视角的概率值进行更新；

利用所述更新后的概率值，计算与每个视角对应的每个训练视频的第一总概率值；所述第一总概率值为同一训练视频中各帧训练图像属于对应视角的更新后的概率值之和；

根据所述第一总概率值以及所述第二预定数量帧确定与每个视角对应的概率值阈值。

其中，所述对每个训练视频中各帧训练图像属于对应视角的概率值进行更新，包括：

获取当前训练视频的每帧训练图像属于所述当前训练视频的视角的训练概率值，并判断所述训练概率值是否大于第一判定阈值；

若大于，则保留训练图像的概率值，否则，则将训练图像的概率值修改为零，以得到每个训练视频的每帧训练图像属于对应视角的更新后的概率值。

其中，所述根据所述第一总概率值以及所述第二预定数量帧确定与每个视角对应的概率值阈值，包括：

从每个视角的至少一个训练视频的第一总概率值中，确定与每个视角对应的目标总概率值；

利用每个视角的目标总概率值及所述第二预定数量帧，确定与每个视角对应的概率值阈值。

其中，所述从每个视角的至少一个训练视频的第一总概率值中，确定与每个视角对应的目标总概率值包括：

从每个视角的至少一个训练视频的第一总概率值中，选择数值最小的第一总概率值作为每个视角的目标总概率值。

计算与每个视角对应的所有训练视频的第一总概率值的平均值，将所述平均值作为对应视角的目标总概率值。

其中，所述获取目标视频，包括：

从机车车载安全防护系统获取待分类的目标视频，以实现对所述目标视频中的驾驶室视角进行分类。

其中，所述根据比较结果确定目标视频的视角分类结果之后，还包括：

通过与所述视角分类结果对应的智能分析系统对所述目标视频进行分析。

其中，所述通过与所述视角分类结果对应的智能分析系统对所述目标视频进行分析，包括：

通过与所述视角分类结果对应的司机行为分析系统对所述目标视频进行分析。

其中，所述将所述目标视频属于每个视角的目标概率值与对应视角的概率值阈值进行比较，根据比较结果确定目标视频的视角分类结果，包括：

将所述目标视频属于每个视角的目标概率值，与对应的同一视角的概率值阈值进行对比，若对比结果为：仅有一个目标视角的目标概率值大于等于所述目标视角的概率值阈值，则判定所述目标视频的视角为目标视角；否则，判定对所述目标视频视角分类失败。

其中，所述基于图像间的特异性特征及共性特征，利用所述目标视频中每帧图像属于不同视角的概率值，计算所述目标视频属于每个视角的目标概率值，包括：

基于图像间的特异性特征，对所述目标视频中每帧图像属于每个视角的概率值进行更新；

基于图像间的共性特征，计算所述目标视频属于每个视角的第二总概率值；所述第二总概率值为所述目标视频中各帧图像属于同一视角的更新后的概率值之和；

根据所述第二总概率值以及所述第一预定数量帧计算所述目标视频属于每个视角的目标概率值。

其中，所述对所述目标视频中每帧图像属于每个视角的概率值进行更新，包括：

判断所述目标视频中每帧图像属于当前视角的概率值是否大于第二判定阈值；

若大于所述第二判定阈值，则保留图像属于当前视角的概率值，否则，则将图像属于当前视角的概率值修改为零，以得到每帧图像属于每个视角的更新后的概率值。

为实现上述目的，本发明进一步提供一种视频的视角分类装置，包括：

目标视频获取模块，用于获取目标视频；

图像抽取模块，用于以预定时长为时间间隔从所述目标视频中抽取第一预定数量帧的图像；

概率值获取模块，用于将每帧图像输入预先训练的单帧图像分类模型，得到每帧图像属于不同视角的概率值；

计算模块，用于基于图像间的特异性特征及共性特征，利用所述目标视频中每帧图像属于不同视角的概率值，计算所述目标视频属于每个视角的目标概率值；

分类模块，用于将所述目标视频属于每个视角的目标概率值与对应视角的概率值阈值进行比较，根据比较结果确定目标视频的视角分类结果。

为实现上述目的，本发明进一步提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述的视角分类方法的步骤。

为实现上述目的，本发明进一步提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的视角分类方法的步骤。

通过以上方案可知，本发明实施例提供的一种视频的视角分类方法，在本方法中，对目标视频的视角进行分类时，首先需要从目标视频中抽取多帧图像，并输入预先训练的单帧图像分类模型，得到每帧图像属于不同视角的概率值，基于每帧图像间的特异性特征及共性特征获得目标视频属于各个视角的目标概率值，并通过将属于同一视角的目标概率值与概率值阈值进行比较的方式，自动获得目标视频的视角分类结果；可见，本申请可实现对视频视角的自动分类，减少了人工分类的工作，提高了分类速度；并且，本申请计算目标视频属于每个视角的目标概率值时，是通过目标视频的单帧图像属于每个视角的概率值确定的，通过该方式，即考虑到了不同帧之间的共性特征，又考虑到了不同帧之间的特异性特征，从而大大避免了因光线差异、司机的存在与否和有司机所处的不同位置对分类结果造成的影响，实现对视角的精准分类；本发明还公开了一种视频视角分类装置、设备及可读存储介质。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种视频的视角分类方法流程示意图；

图2为本发明实施例公开的概率值阈值确定方法流程示意图；

图3为本发明实施例公开的基于6A视频的驾驶室视角分类方法的实现流程示意图；

图4为本发明实施例公开的视频视角分类模型结构示意图；

图5为本发明实施例公开的视频视角分类模型的核心逻辑；

图6为本发明实施例公开的一种视频的视角分类装置结构示意图；

图7为本发明实施例公开的一种电子设备结构示意图。

具体实施方式

传统的视频分类或是图像分类方法，由于其对特征的分辨力不够，图像的语义与图像的特征表达之间的联系较弱，无法精准的对视频视角进行分类。以对机车车载安全防护系统(6A系统)的6A视频进行视角分类为例，6A视频中机车驾驶室的图像特征因为光照的差异(如：白天光线的强度差异、夜间成像时红外光的强度差异)、司机的存在与否、以及有司机时所处位置的不同，呈现出了不一样的图像特征，然而视频画面的对象都是机车驾驶室，不同视角的视频也会呈现出一定的共性特征，因此，对同一视角来说，在增强共性特征的同时，如何消除特异性特征成了关键，因此本发明实施例公开了一种视频的视角分类方法、装置、设备及存储介质，以实现对视频视角进行准确分类。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，由于本申请对目标视频视角进行分类时，需要通过单帧图像分类模型对目标视频的每帧图像进行分类，因此在本实施例中，先对单帧图像分类模型的训练过程进行说明，以便后续直接通过训练好的单帧图像分类模型对每帧图像进行分类，得到每帧图像属于不同视角的概率值。并且，本申请以6A视频为例对本方案进行说明，其他视频均可，在此便不具体限定。

具体来说，本申请中的单帧图像分类模型可以为基于深度卷积神经网络 (DeepConvolutional Neural Network，DCNN)的模型，模型的简易构建过程包括数据集的准备、训练、测试评估。其中，对于数据集的准备过程，首先需要对一定数量的6A视频按视角进行分类，然后对视频进行抽帧，再选取出涵盖不同图像特征的正常图片，并保证每个视角下的图片数量要达到一定数量，且重复的图片要尽量的少，最终按一定比例划分出训练集和测试集。对模型的训练过程，可利用现有的成熟模型结合训练集进行训练，训练除了关注损失函数，还需要结合测试集对模型效果进行评估，通过数次测试评估后，选取一版合适的模型作为训练好的单帧图像分类模型，将单帧图片输入训练好的模型后，可输出该图片对应的视角以及属于该视角的概率值。

参见图1，本发明实施例提供的一种视频的视角分类方法流程示意图；通过图1可以看出，该方法包括如下步骤：

S101、获取目标视频；

具体来说，本申请中的目标视频表示待分类的视频，可以为演唱会不同视角的目标视频，也可以为教师内老师讲课的不同视角的目标视频，也可以为驾驶室内不同视角的目标视频，若该目标视频为驾驶室内不同视角的目标视频，则该目标视频可以为客运机车的驾驶室环境视频、货运机车的驾驶室环境视频，同样也可以为地铁驾驶室环境视频、城轨驾驶室环境视频等等，在此并不具体限定。

在本申请中，以目标视频为机车驾驶室环境视频为例对本方案进行说明。其中，若该目标视频为机车驾驶室环境内的视频，由于机车车载安全防护系统(即6A系统)中具有视频监控设备，因此本申请在获取目标视频时，具体是从机车车载安全防护系统获取待分类的目标视频，以实现对目标视频中的驾驶室视角进行分类。

S102、以预定时长为时间间隔从目标视频中抽取第一预定数量帧的图像；

具体来说，本申请为了对目标视频进行准确分类，需要通过目标视频单帧图像属于每个视角的概率值获得目标视频属于每个视角的概率值，因此在本实施例中，需要与预定时长为时间间隔从目标视频中连续抽取帧图像，图像的数量为第一预定数量帧，如：目标视频的总时长为5分钟，预定时长为 30s，也即：每隔30s从目标视频中抽取1帧图像，从而获得第一预定数量帧的图像。

S103、将每帧图像输入预先训练的单帧图像分类模型，得到每帧图像属于不同视角的概率值；

在本实施例中，获得第一预定数量帧的图像后，需要将该第一预定数量帧的图像输入预先训练好的单帧图像分类模型中，得到初步分类结果，该初步分类结果为每帧图像属于不同视角的概率值，如：视角的类型包括：右方视角、右后方视角1、右后方视角2，因此将每帧图像输入单帧图像分类模型得到的初步分类结果可以为：图像1属于右方视角的概率值为80％，图像1 属于右后方视角1的概率值为10％，图像1属于右后方视角2的概率值为10％，以及类推，得到每帧图像属于各个视角的概率值。

S104、基于图像间的特异性特征及共性特征，利用目标视频中每帧图像属于不同视角的概率值，计算目标视频属于每个视角的目标概率值；

需要说明的是，由于本申请是对同一个目标视频在不同时刻抽取帧图像，因此与同一个目标视频对应的帧图像中，存在了特异性特征和共性特征，如：视频中动态变化的特征即为特异性特征，而静止不变的特征即为共性特征，因此，本申请利用目标视频中每帧图像属于不同视角的概率值，计算目标视频属于每个视角的目标概率值时，可以基于图像间的特异性特征及共性特征进行计算，例如：为了消除每帧图像之间特异性特征对分类结果造成的负向影响，可以对每帧图像的概率值进行重新赋值，或者，由于图像间有共性特征，因此可将不同帧图像的概率值归总为代表当前视频的概率值等等，当然，也可以通过其他方式基于图像间的特异性特征及共性特征，确定目标视频的目标概率值，在此并不局限于上述两种方式。

S105、将目标视频属于每个视角的目标概率值与对应视角的概率值阈值进行比较，根据比较结果确定目标视频的视角分类结果。

其中，本申请将目标视频属于每个视角的目标概率值与对应视角的概率值阈值进行比较，根据比较结果确定目标视频的视角分类结果时，具体包括如下操作：将目标视频属于每个视角的目标概率值，与对应的同一视角的概率值阈值进行对比，若对比结果为：仅有一个目标视角的目标概率值大于等于目标视角的概率值阈值，则判定目标视频的视角为目标视角；否则，判定对目标视频视角分类失败。

需要说明的是，在本申请中，每个视角均具有对应的概率值阈值，该概率值阈值的确定方式，可以通过用户自定义设定，也可以为基于图像间的特异性特征及共性特征通过数据集训练设定的，在此并不具体限定其获取方式，本领域技术人员可根据实际情况进行选择。

并且，本申请获得目标视频属于每个视频的目标概率值之后，需要将该目标概率值与对应视角的概率值阈值进行比较，可以理解的是，本申请中的对应视角的概率值阈值，是与目标概率值相同视角的概率值阈值，例如：视角包括：右方视角、右后方视角1、右后方视角2，则目标概率值包括：右方视角的目标概率值1、右后方视角1的目标概率值2、右后方视角2的目标概率值3，概率值阈值包括：右方视角的概率值阈值1、右后方视角1的概率值阈值2、右后方视角2的概率值阈值3，在进行对比时，将目标概率值与对应视角的概率值阈值进行比较具体为：将目标概率值1与概率值阈值1进行比较，将目标概率值2与概率值阈值2进行比较，将目标概率值3与概率值阈值3进行比较。

进一步，本申请得到的比较结果可包括如下几种：比较结果1：只有1个目标概率值大于等于对应的概率值阈值；比较结果2：有多个目标概率值大于等于对应的概率值阈值；比较结果3：目标概率值小于对应的概率值阈值；其中，对于上述三种比较结果来说，只有比较结果1表明当前视角分类成功，也即：目标视频的视角为唯一一个目标概率值大于等于对应概率值阈值的目标视角，而对于比较结果2和比较结果3，均认定为分类失败，为异常类。若分类结果为异常类，则可生成对应的提醒信息来告知用户，该提醒信息可以包括分类过程中的各项数据以及分类失败原因等等，帮助用户分析失败原因。

可以理解的是，目前的智能分析系统对视频进行分析时，由于将不同角度的视频均通过同一模型去分析不同视角的画面，效果并不理想。因此在本申请中，根据比较结果确定目标视频的视角分类结果之后，还包括：通过与视角分类结果对应的智能分析系统对目标视频进行分析。通过该方式，可以将识别出的不同视角的视频，通过对应视角的智能分析系统进行视频分析，从而提高了智能分析系统的分析效果，如：通过与视角分类结果对应的司机行为分析系统对目标视频进行分析后，可以得到准确的司机行为分析结果，较好的解决传统算法存在的问题，从而促进类似司机行为识别的智能分析系统在轨道交通领域的推广应用。

综上可以看出，通过本申请所述的视频的视角分类方法，可实现对视频视角的自动分类，减少了人工分类的工作，提高了分类速度；并且，本申请计算目标视频属于每个视角的目标概率值时，是通过目标视频的单帧图像属于每个视角的概率值确定的，通过该方式，即考虑到了不同帧之间的共性特征，又考虑到了不同帧之间的特异性特征，从而大大避免了因光线差异、司机的存在与否和有司机所处的不同位置对分类结果造成的影响，实现对视角的精准分类。并且，将本申请应用于6A视频的驾驶室视频时，可解决由于 6A视频视角存在差异，而导致的诸如司机行为识别等智能分析系统效果不理想的问题，并且，本实施例采用了基于深度学习的方法对视频的前后帧进行关联分析，通过分析不同帧的共性特征与特异性特征，完成对机车6A视频的分类，能够较好的解决传统算法存在的问题，从而促进类似司机行为识别的智能分析系统在轨道交通领域的推广应用。

基于上述实施例，在本实施例中，获取目标视频之前，还需要确定与每个视角对应的概率值阈值。参见图2，为本发明实施例提供的概率值阈值确定方法流程示意图，可以看出，本申请确定与每个视角对应的概率值阈值的过程具体包括如下步骤：

S201、确定训练视频；其中，每个训练视频均具有已识别的视角；

具体来说，本申请确定的训练视频为已经确定视角的训练视频，该视角为右方视角、右后方视角1、右后方视角2等等。并且，本申请中的训练视频的数量可自定义设定，但需要保证每个视角都有对应的训练视频，而每个视角对应的训练视频的数量可以根据需求设定，如可以设定每个视角的训练视频数量为20或者30等等。

S202、以预定时长为时间间隔从每个训练视频中抽取第二预定数量帧的训练图像，并通过单帧图像分类模型获得每帧训练图像属于不同视角的概率值；

在本实施例中，从已经根据视角进行分类的多个视频中，选取出一定数量的训练视频，然后再对同一视角下的每个训练视频按相同的时间间隔抽取1 帧图像作为训练图像，然后将这些帧训练图像输入预先训练的单帧图像分类模型中，输出每一帧训练图像的分类结果和概率。

S203、对每个训练视频中各帧训练图像属于对应视角的概率值进行更新；

需要说明的是，在本实施例中，需要结合视频的实际分类结果和当前帧的特异性特征，对训练图像的概率值重新赋值；具体来说，重新赋值的过程包括：获取当前训练视频的每帧训练图像属于当前训练视频的视角的训练概率值，并判断训练概率值是否大于第一判定阈值；若大于，则保留训练图像的概率值，否则，则将训练图像的概率值修改为零，以得到每个训练视频的每帧训练图像属于对应视角的更新后的概率值。

可以理解的是，为了方便说明，本申请将待处理的训练视频称为当前训练视频，如：对于视角为右方视角的10个训练视频来说，若目前处理的是第 1个训练视频，则第1个训练视频即为当前训练视频；并且，将当前训练视频的每帧训练图像输入单帧图像分类模型后，会得出每帧训练图像属于每个视角的概率值，然后判断每帧训练图像属于训练视频的角度的概率值是否大于第一判定阈值，若大于该第一判定阈值，则说明该帧训练图像的分类结果是准确的，将该帧训练图像的概率值保留，否则，说明该帧训练图像的分类结果为错误的，将概率值用0替换。

在此以当前训练视频的第1帧训练图像为例进行说明：若第1帧训练图像输入单帧图像分类模型后得出的结果为：属于右方视角的概率值为80％，属于右后方视角1的概率值为10％，属于右后方视角2的概率值为10％，第一判定阈值为70％，由于第1帧训练图像属于第1个训练视频，且第1个训练视频的视角为右方视角，因此，对于第1帧训练图像来说，仅仅判断第1 帧训练图像属于右方视角的概率值是否大于第一判定阈值，可见，第1帧训练图像属于右方视角的概率值为80％，大于第一判定阈值70％，因此，第1 帧训练图像的分类结果是准确的，将第1帧训练图像的概率值保留；可以理解的是，如果第1帧训练图像输入单帧图像分类模型后得出的结果为：属于右方视角的概率值为10％，属于右后方视角1的概率值为80％，属于右后方视角2的概率值为10％，虽然右后方视角1的概率值大于第一判定阈值70％，但是由于第1帧训练图像所属的当前训练视频的视角为右方视角，因此并不考虑属于右后方视角1的概率值，且由于属于右方视角的概率值小于第一判定阈值，因此第1帧训练图像的分类结果为错误的，概率值用0替换。

通过上述方式，对属于每个视角的每个训练视频中的每帧训练图片的概率值进行更新，便得到每个训练视频的每帧训练图像属于对应视角的更新后的概率值。

S204、利用更新后的概率值，计算与每个视角对应的每个训练视频的第一总概率值；第一总概率值为同一训练视频中各帧训练图像属于对应视角的更新后的概率值之和；

在本实施例中，考虑到同一训练视频的不同帧之间存在明显的共性特征，因此在本实施例中，将这些帧的概率值归总为一个代表当前视频的第一总概率值，该第一总概率值为每帧训练图片的概率值之和，如：训练视频1的视角为右方视角，训练视频1具有30帧训练图片，将通过S203更新后，这30 帧训练图片的概率值之和即为训练视频1的第一总概率值。如果与同一视角对应的训练视频为多个，则生成的第一总概率值与训练视频的数量相同，同样也为多个。

S205、根据所述第一总概率值以及所述第二预定数量帧确定与每个视角对应的概率值阈值。

需要说明的是，本申请得到与每个视角对应的每个训练视频的第一总概率值后，需要对每个视角下所有训练视频的第一概率值进行统计分布，得到一个能让每个视角下绝大部分视频都正确划分到该视角下的阈值参数，每个视角对应一个阈值参数，多个视角便会有一组阈值参数。具体来说，本申请是从每个视角的至少一个训练视频的第一总概率值中，确定与每个视角对应的目标总概率值；然后利用每个视角的目标总概率值及第二预定数量帧，确定与每个视角对应的概率值阈值。

也就是说，若一个视角的训练视频数量为多个，则同样会具有多个第一总概率值，本申请需要通过预先设定的方式从多个第一总概率值中选择具有代表性的目标总概率值，如：可以从每个视角的至少一个训练视频的第一总概率值中，选择数值最小的第一总概率值作为每个视角的目标总概率值。或者，计算与每个视角对应的所有训练视频的第一总概率值的平均值，将平均值作为对应视角的目标总概率值。确定每个视角的目标总概率值后，便可计算目标总概率值与第二预定数量帧的商作为对应视角的概率值阈值。

可以看出，本申请在确定每个视角的概率值阈值时，同样考虑到了同一训练视频的不同帧之间存在的特异性特征及共性特征，使得训练获得的概率值阈值设定的更为准确，实现该方式获得的概率值阈值，可以更准确的对目标视频进行分类，提高分类的精准度。

基于上述任意实施例，在本实施例中，基于图像间的特异性特征及共性特征，利用所述目标视频中每帧图像属于不同视角的概率值，计算所述目标视频属于每个视角的目标概率值，包括：

基于图像间的特异性特征，对所述目标视频中每帧图像属于每个视角的概率值进行更新；基于图像间的共性特征，计算所述目标视频属于每个视角的第二总概率值；所述第二总概率值为所述目标视频中各帧图像属于同一视角的更新后的概率值之和；根据所述第二总概率值以及所述第一预定数量帧计算所述目标视频属于每个视角的目标概率值。

在本实施例中，计算每个视角的目标概率值的过程，与上一实施例中确定每个视角对应的概率值阈值的过程相似，具体来说，本实施例同样需要将待分类的目标视频每隔相同的时间间隔抽取1帧，然后假定该视频属于某一类视角，根据上一实施例的处理过程，计算出该目标视频属于此类视角时的目标概率值，进而也可得到一组概率参数，该组概率参数包括该目标视频属于每个视角的目标概率值。然后将这组概率参数和概率值阈值进行逻辑判断，既实现了前后帧的关联判断，又结合了图像匹配的逻辑。

具体来说，本申请基于图像间的特异性特征，对目标视频中每帧图像属于每个视角的概率值进行更新时，具体包括：判断目标视频中每帧图像属于当前视角的概率值是否大于第二判定阈值；若大于第二判定阈值，则保留图像属于当前视角的概率值，否则，则将图像属于当前视角的概率值修改为零，以得到每帧图像属于每个视角的更新后的概率值。

需要说明的是，本申请中的当前视角为当前进行处理的视角，例如：视角包括右方视角、右后方视角1、右后方视角2，若此时要基于右方视角对概率值进行更新，则将右方视角为当前视角执行后续操作。如：目标视频的第一帧图像输入单帧图像分类模型后得出的结果为：属于右方视角的概率值为 80％，属于右后方视角1的概率值为10％，属于右后方视角2的概率值为10％，第二判定阈值为70％，若当前视角为右方视角，则可看出，第一帧图像属于右方视角的概率值80％大于第二判定阈值70％，则保留第一帧图像属于右方视角的概率值；若当前视角为右后方视角1或者右后方视角2，由于第一帧图像属于右后方视角1或者右后方视角2的概率10％小于第二判定阈值70％，则将第一帧图像属于右后方视角1或者右后方视角2的概率值修改为零，也即：第一帧图像更新后的概率值为：属于右方视角的概率值为80％，属于右后方视角1的概率值为0％，属于右后方视角2的概率值为0％，通过上述方式，便可得到目标视频中每帧图像属于每个视角的更新后的概率值。

然后基于图像间的共性特征，将目标视频中每帧图像属于同一视角的概率值相加，得到目标视频属于每个视角的第二总概率值；将每个视角的第二总概率值与第一预定数量帧做商，即可得到目标视频属于每个视角的目标概率值，将每个视角的目标概率值与对应视角的概率值阈值进行比较，即可得到视角分类结果。

在本实施例中，为了对本方案进行清楚说明，以目标视频为6A视频为例对本方案进行具体说明。参见图3，为本发明实施例提供的基于6A视频的驾驶室视角分类方法的实现流程示意图，可以看出，本申请对于待分类的6A视频，输入分类模型后即可获得分类结果；并且对于同一视角的视频来说，该模型可捕获其共性特征，还能消除特异性特征造成的负向影响。其中，对于该分类过程中基于深度学习的视频视角分类模型为核心内容。

参见图4，为本发明实施例提供的视频视角分类模型结构示意图，该模型包括三部分：基于深度学习的单帧分类模型、阈值确定模块和前后帧关联分析模块；其中，基于深度学习的单帧图像分类模型是基础，用来获得每帧图像的分类结果；阈值确定模块是通过已分类的视频、单帧图像分类模型，以及前后帧关联分析模块的部分逻辑生成，以确定不同角度的概率值阈值；前后帧关联分析模块在关联前后帧对视频进行分类时，需要通过上述获得的概率值阈值组进行逻辑判断。

具体来说，本方案包括如下几部分：

一、6A视频数据集的准备。

获取司机室M个视角的6A视频(可设定M≥2，在本实施例中设定M＝3，分别为右方视角、右后方视角1、右后方视角2)，将视频按视角分类后，每个视角的视频数量为N_v(在本实施例中，设定N_v＝400)。对每类视角中的视频数量按一定比例划分为数据集1、数据集2和数据集3(本实施例，该比例可以为：5:4:1)。其中，数据集1用于构建单帧图像分类模型，数据集2用于构建视频分类模型，数据集3用于验证视频分类模型。并且，将数据集1 抽帧后，人工选取各个视角下具有代表性的图片，所谓的具有代表性的图片必须涵盖如下各类特征在内：白天(晴天、非晴天)的成像，夜间(司机室开灯与不开灯)的成像，司机室内无司机、有司机时所处的不同位置和不同姿态(只关注常规位置和姿态)。每个视角下的图片不能少于N_t1(本实施例中可设定N_t1＝2000)，且重复图片要尽量的少(如变化不大的相邻帧)，然后按8:2的比例划分出训练集与测试集。

二、构建单帧分类模型。

在本实施例中，可借助caffe平台，采用VGG-16对数据集1中的样本数据进行训练。在每个视角下的训练集样本中各取1500张图片作为训练样本，测试集样本中取400张图片用于测试。训练的过程中会输出损失函数loss和每个batch的准确率，并自动保存权值文件；当训练集数据呈现出较好的结果时，如分类准确率达到预定阈值时，再结合测试样本进行测试评估，最终选取合适的权值文件完成模型构建。需要说明的是，本实施例中基于深度学习的单帧图像分类模型包括但不限本实施例中的VGG-16模型，还可以使用 DCNN(DeepConvolutional Neural Network，深度卷积神经网络)模型等等。

三、获取对应不用视角的一组概率值阈值。

在数据集2的每个视角类中各取N_t2个视频(本实施例中可设置N_t2＝150)，每个视频按相同的时间间隔(本实施例为30s)抽取1帧训练图像，单个视频获取的总帧数为N_f(本实施例中N_f＝30)，将每一帧训练图像都输入到上述单帧图像分类模型中，得到分类的结果后进行如下判断。

具体来说，本实施例为了在一定程度上消除掉某些帧的特异性特征对分类结果造成的负向影响，需要将这些帧的准确概率重新赋值。以第k个视角下第i个视频的第j帧为例，若当前帧分类准确，则将对应的概率值赋值给该帧的准确概率P_j；否则P_j＝0，公式表达如下所示：

并且，考虑到同一视频的不同帧之间存在明显的共性特征，将这些帧的准确概率归总为一个代表当前视频的概率参数。本实施例对当前视频抽取帧的准确概率直接进行求和，得到第一总概率值S_i，表示当前视角的第i个训练视频的第一总概率值；

最后，确定一个让当前视角下绝大部分视频都准确划分到当前视角下的阈值参数T_k，T_k表示第k个视角的概率值阈值；：

通过公式3，即可获得每个视角的概率值阈值{T₁,...,T_k,...,T_M}，在本实施例中，由于一致性较为理想，可直接取S_i的最小值进行运算，当然也可以通过其他方式选取，可根据实际情况进行适当变形。

四、前后帧关联分析模块进行视频分类。

基于上述实施例可知，本申请将待分类的6A视频按照上述公式1、公式 2以及相关的逻辑，计算出该视频属于第k个视角时，其抽取帧的第二总概率值S'_k，进而按公式4计算出待分类的6A视频属于第k个视角的目标概率值T_k'：

最终将第k个视角的目标概率值T_k'和第k个视角的概率值阈值T_k进行对比，若能找到唯一的k值满足T_k'≥T_k，则将该视频的视角归为第k类视角；否则归入异常类。其中，上述推导出T_k'的过程以及最终的分类逻辑即为前后帧关联分析模块。本实施例中仅作简单的逻辑判别，在其他实施例中可结合实际情况对于T_k'和T_k的逻辑关系进行更为复杂的关联判断。

五、模型验证。

在数据集3的每个视角中选取30个样本对分类模型进行测试，测试结果如表1所示。

表1

从表1可以看出，对于正常的6A视频数据，可以取得了较好的效果，对于利用6A视频进行智能分析的系统，基本满足应用的需求。其中归属到异常类的几个视频，可以增加T_k'和T_k的逻辑关系进行规避。参见图5，为本发明实施例提供的视频视角分类模型的核心逻辑，包括：将已按视角分类的6A视频的每帧图像输入单帧图像分类模块提供共性特征，通过前后帧关联分析模块强化共性特征，消除异性特征，在模型训练后获得模型参数，基于该模型参数在实际使用中对待分类的图像进行视角识别。

综上可以看出，本实施例提供的这种视角的智能分类方法，可以实现6A 视频驾驶室视角的自动分类，减少了人工分类的工作，并且有助于驾驶室6A 摄像头的维护和规范化。这种基于深度学习的方法应用于机车6A视频的驾驶室视角分类，相比传统分类算法该方法能够提高分类的精度。并且，本实施例将前后帧进行了关联分析，相比传统的分类方法，既能提取出不同帧之间的共性特征，又能获取到不同帧之间的特异性特征，大大降低了因光线差异、司机的存在与否和有司机时所处的不同位置对分类结果造成的影响。

下面对本发明实施例提供的视角分类装置进行介绍，下文描述的视角分类装置与上文描述的视角分类方法可以相互参照。

参见图6，本发明实施例提供的一种视频的视角分类装置结构示意图；通过图6可以看出，该装置包括：

目标视频获取模块100，用于获取目标视频；

图像抽取模块200，用于以预定时长为时间间隔从所述目标视频中抽取第一预定数量帧的图像；

概率值获取模块300，用于将每帧图像输入预先训练的单帧图像分类模型，得到每帧图像属于不同视角的概率值；

计算模块400，用于基于图像间的特异性特征及共性特征，利用所述目标视频中每帧图像属于不同视角的概率值，计算所述目标视频属于每个视角的目标概率值；

分类模块500，用于将所述目标视频属于每个视角的目标概率值与对应视角的概率值阈值进行比较，根据比较结果确定目标视频的视角分类结果。

其中，本装置还包括：

阈值确定模块，用于确定与每个视角对应的概率值阈值。

其中，所述阈值确定模块包括：

训练视频确定单元，用于确定训练视频；其中，每个训练视频均具有已识别的视角；

图像抽取单元，用于以预定时长为时间间隔从每个训练视频中抽取第二预定数量帧的训练图像；

概率值确定单元，用于通过所述单帧图像分类模型获得每帧训练图像属于不同视角的概率值；

第一更新单元，用于对每个训练视频中各帧训练图像属于对应视角的概率值进行更新；

第一总概率值计算单元，用于利用所述更新后的概率值，计算与每个视角对应的每个训练视频的第一总概率值；所述第一总概率值为同一训练视频中各帧训练图像属于对应视角的更新后的概率值之和；

概率值阈值确定单元，用于根据所述第一总概率值以及所述第二预定数量帧确定与每个视角对应的概率值阈值。

其中，所述第一更新单元包括：

第一判断子单元，用于获取当前训练视频的每帧训练图像属于所述当前训练视频的视角的训练概率值，并判断所述训练概率值是否大于第一判定阈值；

第一更新子单元，用于在所述训练概率值大于第一判定阈值时，保留训练图像的概率值，否则，则将训练图像的概率值修改为零，以得到每个训练视频的每帧训练图像属于对应视角的更新后的概率值。

其中，所述概率值阈值确定单元包括：

目标总概率值确定子单元，用于从每个视角的至少一个训练视频的第一总概率值中，确定与每个视角对应的目标总概率值；

概率值阈值确定子单元，用于利用每个视角的目标总概率值及所述第二预定数量帧，确定与每个视角对应的概率值阈值。

其中，所述目标总概率值确定子单元具体用于：从每个视角的至少一个训练视频的第一总概率值中，选择数值最小的第一总概率值作为每个视角的目标总概率值；或者，计算与每个视角对应的所有训练视频的第一总概率值的平均值，将所述平均值作为对应视角的目标总概率值。

其中，所述目标视频获取模块具体用于：从机车车载安全防护系统获取待分类的目标视频，以实现对所述目标视频中的驾驶室视角进行分类。

其中，该装置还包括：分析模块，用于通过与所述视角分类结果对应的智能分析系统对所述目标视频进行分析。

其中，所述分析模块具体用于：通过与所述视角分类结果对应的司机行为分析系统对所述目标视频进行分析。

其中，所述分类模块具体用于：将所述目标视频属于每个视角的目标概率值，与对应的同一视角的概率值阈值进行对比，若对比结果为：仅有一个目标视角的目标概率值大于等于所述目标视角的概率值阈值，则判定所述目标视频的视角为目标视角；否则，判定对所述目标视频视角分类失败。

其中，计算模块包括：

第二更新单元，用于基于图像间的特异性特征，对所述目标视频中每帧图像属于每个视角的概率值进行更新；

第二总概率值计算单元，用于基于图像间的共性特征，计算所述目标视频属于每个视角的第二总概率值；所述第二总概率值为所述目标视频中各帧图像属于同一视角的更新后的概率值之和；

目标概率值计算单元，用于根据所述第二总概率值以及所述第一预定数量帧计算所述目标视频属于每个视角的目标概率值。

其中，所述第二更新单元包括：

第二判断子单元，用于判断所述目标视频中每帧图像属于当前视角的概率值是否大于第二判定阈值；

第二更新子单元，用于在大于所述第二判定阈值，则保留图像属于当前视角的概率值，否则，则将图像属于当前视角的概率值修改为零，以得到每帧图像属于每个视角的更新后的概率值。

参见图7，本发明实施例提供了一种电子设备结构示意图，包括：

存储器11，用于存储计算机程序；

处理器12，用于执行所述计算机程序时实现上述任意方法实施例所述的视角分类方法的步骤。

在本实施例中，设备可以是PC(Personal Computer，个人电脑)，也可以是智能手机、平板电脑、掌上电脑、便携计算机等终端设备。

该设备可以包括存储器11、处理器12和总线13。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是设备的内部存储单元，例如该设备的硬盘。存储器11在另一些实施例中也可以是设备的外部存储设备，例如设备上配备的插接式硬盘，智能存储卡(SmartMedia Card, SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括设备的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于设备的应用软件及各类数据，例如执行视角分类方法的程序代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器 11中存储的程序代码或处理数据，例如执行视角分类方法的程序代码等。

该总线13可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称 EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

进一步地，设备还可以包括网络接口14，网络接口14可选的可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该设备与其他电子设备之间建立通信连接。

可选地，该设备还可以包括用户接口15，用户接口15可以包括显示器 (Display)、输入单元比如键盘(Keyboard)，可选的用户接口15还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED 显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在设备中处理的信息以及用于显示可视化的用户界面。

图7仅示出了具有组件11-15的设备，本领域技术人员可以理解的是，图 7示出的结构并不构成对设备的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

本发明实施例提供还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例所述的视角分类方法的步骤。

其中，该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频的视角分类方法，其特征在于，包括：

获取目标视频；

2.根据权利要求1所述的视角分类方法，其特征在于，所述获取目标视频之前，还包括：

确定与每个视角对应的概率值阈值。

3.根据权利要求2所述的视角分类方法，其特征在于，所述确定与每个视角对应的概率值阈值，包括：

确定训练视频；其中，每个训练视频均具有已识别的视角；

4.根据权利要求3所述的视角分类方法，其特征在于，所述对每个训练视频中各帧训练图像属于对应视角的概率值进行更新，包括：

5.根据权利要求3所述的视角分类方法，其特征在于，所述根据所述第一总概率值以及所述第二预定数量帧确定与每个视角对应的概率值阈值，包括：

6.根据权利要求5所述的视角分类方法，其特征在于，所述从每个视角的至少一个训练视频的第一总概率值中，确定与每个视角对应的目标总概率值包括：

7.根据权利要求5所述的视角分类方法，其特征在于，所述从每个视角的至少一个训练视频的第一总概率值中，确定与每个视角对应的目标总概率值包括：

8.根据权利要求1所述的视角分类方法，其特征在于，所述获取目标视频，包括：

9.根据权利要求8所述的视角分类方法，其特征在于，所述根据比较结果确定目标视频的视角分类结果之后，还包括：

10.根据权利要求9所述的视角分类方法，其特征在于，所述通过与所述视角分类结果对应的智能分析系统对所述目标视频进行分析，包括：

11.根据权利要求1所述的视角分类方法，其特征在于，所述将所述目标视频属于每个视角的目标概率值与对应视角的概率值阈值进行比较，根据比较结果确定目标视频的视角分类结果，包括：

12.根据权利要求1至11中任意一项所述的视角分类方法，其特征在于，所述基于图像间的特异性特征及共性特征，利用所述目标视频中每帧图像属于不同视角的概率值，计算所述目标视频属于每个视角的目标概率值，包括：

13.根据权利要求12所述的视角分类方法，其特征在于，所述对所述目标视频中每帧图像属于每个视角的概率值进行更新，包括：

14.一种视频的视角分类装置，其特征在于，包括：

目标视频获取模块，用于获取目标视频；

15.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至13任一项所述的视角分类方法的步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至13任一项所述的视角分类方法的步骤。