CN111160134A

CN111160134A - 一种以人为主体的视频景别分析方法和装置

Info

Publication number: CN111160134A
Application number: CN201911274443.9A
Authority: CN
Inventors: 陈实; 王禹溪; 吴文齐; 杨昌源; 马春阳; 陈羽飞
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-05-15

Abstract

本发明公开了一种以人为主体的视频景别分析方法和装置，包括：采集图像，并对图像进行景别标注，利用深度学习方法提取图像的人体特征向量，图像的人体特征向量与标注的景别组成一个训练样本，构成训练样本集；利用所述训练集训练随机森林模型，随机森林模型参数确定后，获得景别分析模型；读取待分析视频的每一帧图像，利用深度学习方法提取帧图像的人体特征向量，并利用所述景别分析模型基于输入的所述人体特征向量计算输出每一帧图像的景别分类结果。该方法和装置能够准确地识别出视频的景别，满足视频自动化分析与编辑对于快速准确景别计算的要求。

Description

一种以人为主体的视频景别分析方法和装置

技术领域

本发明涉及图像处理领域，具体涉及一种以人为主体的视频景别分析方法和装置。

背景技术

随着多媒体技术的不断增强以及互联网的不断普及，人们对捕获信息方式的多样性及便捷性提出了更高的要求，与视频载体有关应用和产品随之增多，视频自动化相关的技术也应运而生。而视频自动分析、自动剪辑、自动生成等技术都需要对其属性和特征进行准确的计算和分析。

在影像创作的过程中，各式各样的镜头中各式各样的视觉元素会影响视频带给观众的直观感受，观众会从中接收到不同的信息和含义，因此剪辑师、导演等需要决定哪些是重点要呈现给观众的部分，以及该如何表达这些信息、动作、事件和细节。在一段视频中，人们看到的人物，动作和事件并不是从相同的角度、透视关系或距离呈现的。而这些角度、视角或距离的变化往往包含了大量的语义特征和信息传达。其中，景别的变化是最重要的变化特征之一。景别代表镜头与主体(画面里的被摄对象)的距离，表现为主体在画面中所占据的比例，通常分为特写(与主体距离比较“亲密”的镜头，表现某些人物局或动作的局部放大影像)、近景(包含较明显的面部特征)、中景(最接近人类观察周围环境的视角)、全景(包含主体及一定的周围环境信息)、远景(包含非常多的人、物、表演周围的环境信息)。不同的景别可以传达出不同的影视效果和画面节奏。专业的导演、剪辑师会通过复杂多变的镜头运动、剪辑效果来制造景深变化，从而使视频的叙事节奏、画面节奏、情感渲染更具有表现力，增强视频的艺术感染力。

现有的景别分析方法，可分为人工识别和计算机计算。人工识别的方法往往是视频剪辑人员在剪辑视频时，利用现有的经验对视频子镜头的景别进行观察和主观判断。这种方法要求识别人员有一定的剪辑、编导、影视等方面的专业基础，人工成本很高，且识别效率低、出错概率大。传统的计算机计算方法，即通过简单的特征识别提取人物轮廓，计算人体轮廓在全幅画面中所占的比例，通过为五种景别设定阈值判断比例所属的景别类别。这种方法缺乏了具体语义特征的识别，容错率较低，鲁棒性差，对不同类型、不同画面比例的视频没有普适性。

视频画面的景别与画幅、摄影角度、人的姿势、动作角度等因素都有关，所以上述的方法和算法均不适用于对视频景别进行快速识别，也就是利用上述方法分析景别，准确率会很低，无法满足视频自动化设计中快速、准确地进行景别的计算与分类。

发明内容

本发明的目的是提供一种以人为主体的视频景别分析方法和装置，该方法和装置能够准确地识别出视频的景别，满足视频自动化分析与编辑对于快速准确景别计算的要求。

为实现上述发明目的，本发明提供以下技术方案：

一方面，一种以人为主体的视频景别分析方法，所述方法包括：

采集图像，并对图像进行景别标注，利用深度学习方法提取图像的人体特征向量，图像的人体特征向量与标注的景别组成一个训练样本，构成训练样本集；

利用所述训练集训练随机森林模型，随机森林模型参数确定后，获得景别分析模型；

读取待分析视频的每一帧图像，利用深度学习方法提取帧图像的人体特征向量，并利用所述景别分析模型基于输入的所述人体特征向量计算输出每一帧图像的景别分类结果。

另一方面，一种以人为主体的视频景别分析装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，所述存储器中存有基于随机森林模型构建的景别分析模型，所述处理器执行所述计算机程序时实现以下步骤：

读取待分析视频的每一帧图像，提取帧图像的人体特征向量；

调用所述景别分析模型基于输入的所述人体特征向量计算输出每一帧图像的景别分类结果。

与现有技术相比，本发明具有的有益效果至少包括：

本发明根据视频剪辑语法和镜头语法的定义，将视频的景别分为特写、近景、中景、全景、远景、环境六个类别，并提取样本图片中人体在画面中的位置、人体面积的画面占比、人体主要关节点的坐标，以其作为标注参数，对模型进行训练和评估，获得能够较准确识别画面景别的景别分析模型，利用景别分析模型可快速而准确地得到一个视频的各个片段的景别特征，提高了视频分析的效率，减少人工成本，具有高效、准确、易操作的特点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是本发明实施例提供的以人为主体的视频景别分析方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

图1是本发明实施例提供的以人为主体的视频景别分析方法的流程示意图。参见图1，该视频景别分析方法包括以下步骤：

S101，采集图像，并对图像进行景别标注，利用深度学习方法提取图像的人体特征向量，图像的人体特征向量与标注的景别组成一个训练样本，构成训练样本集。

实施例中，对图像进行景别标注包括：

定义景别类型，由镜头语言、剪辑语法定义，根据相机与主体的距离、主体在画面中的占比、主体拍摄角度，将景别分为特写、近景、中景、全景、远景五类，并增加第六个类别为环境，即没有人物、全部为空间环境的画面；根据所述的景别类型，标注每张图像的景别。

其中，特写镜头为比较亲密的镜头，表现的是某些人、物或动作的放大影像，为观众提供细节信息；近景为以较近的距离观察、拍摄主体；中景是几乎最接近人类观察周围环境方式的景别，除了表现主体之外，也会关注地点、环境信息；全景为“全身”的镜头，视角很广但距离较近，画面中包含人的头部和脚部；远景通常为广角镜头，空间中的环境占据了画幅的大部分。在本发明中，定义分析、识别的主体为人，并增加一个分类为环境，即没有人物、全部为空间环境的画面。

在定义了以上六种分类的基础上，对每个景别分类采集1500张样本图片，具体的获取方式包括预先通过网络搜索、拍摄或影视截图或存储的数据库中获取，具体的分类采集依据是由专业人员根据上述定义对每张图片进行标注和评定。

提取图像的人体特征向量的包括：首先利用深度学习模型提取出画面中的人体特征，本发明使用的深度学习方法分别为Mask-RCNN模型和openpose模型。利用Mask-RCNN模型可以检测画面中是否有人，并在画面中框选出人体轮廓。利用openpose模型可以识别出人体关节点的位置，关节点分别是双眼、双耳、鼻子、颈部、肩部、手肘、手腕、臀部、膝盖、脚踝。

对提取的人体轮廓和标定的人体关节点进一步计算人体轮廓在画面中的占比、人体轮廓中心坐标、人体轮廓边缘与画面边缘在四个方向上的距离、人体关节点的坐标，以这些计算结果组成人体特征向量。

S102，利用所述训练集训练随机森林模型，随机森林模型参数确定后，获得景别分析模型。

具体地，利用所述训练集训练随机森林模型包括：

将训练样本输入至随机森林工具函数中进行训练，调整参数，参数确定时，即获得景别分析模型，其中调整的参数包括组成随机森林的决策树的个数、决策树的节点分裂属性和节点决策函数。

随机森林由很多决策树分类器组合而成，单个决策树分类器用随机方法构成，因而被称为“随机森林”。其对错误和离群点更加具有鲁棒性，在数据多的情况下速度快，性能好。

S103，读取待分析视频的每一帧图像，利用深度学习方法提取帧图像的人体特征向量，并利用所述景别分析模型基于输入的所述人体特征向量计算输出每一帧图像的景别分类结果。

S103中，利用深度学习方法提取帧图像的人体特征向量与S101中相同，此处不再赘述。在获得的人体特征向量后，将人体特征向量输入至并所述景别分析模型中，经计算输出每一帧图像的景别分类结果。

景别分析模型的输出结果是通过多数投票对比分析完成，即把待分析帧图像通过n个决策树进行分类决策，把所有决策树的输出结果进行汇总，通过比较投票数量得出随机森林的总体输出结果，经计算最终获得视频每一帧景别分类的结果。

在其他实施例中，在上述以人为主体的视频景别分析方法的基础上，所述视频景别分析方法还包括：对景别分析模型的景别分类结果进行修正。

具体地，对景别分析模型的景别分类结果进行修正包括：

对于待分析视频，以20帧为单位将视频分为若干个视频子单元，对于每个视频子单元中每一帧图像的景别进行投票，20帧中票数最多的景别即为该视频子单元的景别；

以视频子单元的景别代表该视频子单元中全部20帧图像的景别，以修正每帧图像的景别计算误差。

通过对景别分类结果进行修正可以修正景别分析模型的分析误差，以此来提升景别分析的准确性。

上述以人为主体的视频景别分析方法利用景别分析模型可快速而准确地得到一个视频的各个片段的景别特征，提高了视频分析的效率，减少人工成本，具有高效、准确、易操作的特点。

实施例还提供了一种以人为主体的视频景别分析装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，其特征在于，所述存储器中存有基于随机森林模型构建的景别分析模型，所述处理器执行所述计算机程序时实现以下步骤：

该视频景别分析装置中，所述景别分析模型的构建方法为：

该视频景别分析装置中，利用深度学习方法提取图像的人体特征向量包括：

通过Mask-RCNN模型检测图像中是否有人，并在图像中框选出人体轮廓；

通过openpose模型识别并标定人体关节点的位置，关节点分别是双眼、双耳、鼻子、颈部、肩部、手肘、手腕、臀部、膝盖、脚踝；

针对框选的人体轮廓和标定的人体关节点，分别为计算人体轮廓在画面中的占比、人体轮廓中心坐标、人体轮廓边缘与画面边缘在四个方向上的距离、人体关节点的坐标，以这些计算结果组成人体特征向量。

其中，存储器可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器所执行以实现本发明中方法实施例提供的以人为主体的视频景别分析方法。

上述以人为主体的视频景别分析装置利用景别分析模型可快速而准确地得到一个视频的各个片段的景别特征，提高了视频分析的效率，减少人工成本，具有高效、准确、易操作的特点。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种以人为主体的视频景别分析方法，其特征在于，所述方法包括：

2.如权利要求1所述的以人为主体的视频景别分析方法，其特征在于，对图像进行景别标注包括：

定义景别类型，由镜头语言、剪辑语法定义，根据图像中人体在画面中的占比，将景别分为特写、近景、中景、全景、远景五类，并增加第六个类别为环境，即没有人物、全部为空间环境的画面；根据所述的景别类型，标注每张图像的景别。

3.如权利要求1所述的以人为主体的视频景别分析方法，其特征在于，利用深度学习方法提取图像的人体特征向量包括：

4.如权利要求1所述的以人为主体的视频景别分析方法，其特征在于，所述利用所述训练集训练随机森林模型包括：

5.如权利要求1所述的以人为主体的视频景别分析方法，其特征在于，所述视频景别分析方法还包括：对景别分析模型的景别分类结果进行修正。

6.如权利要求1所述的以人为主体的视频景别分析方法，其特征在于，所述对景别分析模型的景别分类结果进行修正包括：

7.一种以人为主体的视频景别分析装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，其特征在于，所述存储器中存有基于随机森林模型构建的景别分析模型，所述处理器执行所述计算机程序时实现以下步骤：

8.如权利要求1所述的以人为主体的视频景别分析装置，其特征在于，所述景别分析模型的构建方法为：

9.如权利要求1所述的以人为主体的视频景别分析装置，其特征在于，利用深度学习方法提取图像的人体特征向量包括：