CN111401238B

CN111401238B - 一种视频中人物特写片段的检测方法及装置

Info

Publication number: CN111401238B
Application number: CN202010181935.XA
Authority: CN
Inventors: 杨杰; 宋施恩; 金义彬; 肖恺吟; 卢海波
Original assignee: Hunan MgtvCom Interactive Entertainment Media Co Ltd
Current assignee: Hunan MgtvCom Interactive Entertainment Media Co Ltd
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2023-04-28
Anticipated expiration: 2040-03-16
Also published as: CN111401238A

Abstract

本发明提供了一种视频中人物特写片段的检测方法及装置，通过调用预先构建的人像检测模型对视频中的每个视频帧进行人像检测，得到多个人像视频帧，并根据每个人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比，对多个人像视频帧进行筛选得到多个特写镜头帧，然后调用预先构建的目标人物人脸检测模型对特写镜头帧中的目标人物人脸，如明星人脸进行检测，得到包含目标人物人脸的多个目标视频帧，进一步，根据每个目标视频帧的时间，将包含同一目标人物，且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段，整个人物特写片段检测过程全部自动化完成，大幅度提高了视频中人物特写片段的检测速度和准确性。

Description

一种视频中人物特写片段的检测方法及装置

技术领域

本发明涉及视频数据分析技术领域，更具体的，涉及一种视频中人物特写片段的检测方法及装置。

背景技术

在视频，如综艺影视剧集的播放中，会在目标人物第一次出场的特写镜头中对该目标人物进行介绍，介绍显示的时长一般为该目标人物特写片段的时长。对目标人物的介绍方式很多，当目标人物是明星时，在特写镜头下可以进行明星相关广告“创可贴”式投放、在明星特写片段中进行AI广告植入等。为了满足这些需求，需要对视频中目标人物的特写片段进行检测。

目前，一般通过人工浏览视频的方式检测视频中的人物特写片段，但是人工浏览效率低，不能实现对大量视频中的人物特写片段的快速检测；并且在人工浏览过程中，从发现人物特写片段到记录人物特写片段的起始时间，以及从发现人物特写片段结束到记录人物特写片段的结束时间，存在由于人工操作导致的时延，因此，人工检测人物特写片段的方式很难准确记录人物特写片段的起始时间和结束时间。

可见，目前通过人工浏览视频的方式检测视频中的人物特写片段，效率低下且准确性较低，亟需一种可以快速、准确检测视频中人物特写片段的方法

发明内容

有鉴于此，本发明提供了一种视频中人物特写片段的检测方法及装置，实现对视频中人物特写片段的快速、准确检测。

为了实现上述发明目的，本发明提供的具体技术方案如下：

一种视频中人物特写片段的检测方法，包括：

将视频中的每个视频帧依次输入预先构建的人像检测模型中进行人像检测，得到包含人像的多个人像视频帧；

获取每个所述人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比；

根据每个所述人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比，确定所述人像视频帧中的多个特写镜头帧；

调用预先构建的目标人物人脸检测模型，依次对多个所述特写镜头帧进行处理，得到包含目标人物人脸的多个目标视频帧，并记录每个目标视频帧的时间；

将包含同一目标人物，且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段。

可选的，所述根据每个所述人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比，确定所述人像视频帧中的多个特写镜头帧，包括：

从多个所述人像视频帧中提取仅包含一个人像的人像视频帧；

从仅包含一个人像的人像视频帧中提取人像的中心点坐标在中心预设区域的人像视频帧；

从仅包含一个人像且人像的中心点坐标在中心预设区域的人像视频帧中提取人像的屏占比大于阈值的视频帧，作为所述特写视频帧。

可选的，所述调用预先构建的目标人物人脸检测模型，依次对多个所述特写镜头帧进行处理，得到包含目标人物人脸的多个目标视频帧，包括：

分别从每个所述特写镜头帧中截取人像图像；

将每个所述人像图像依次输入预先构建的人脸检测模型中进行人脸检测，得到多个人脸图像；

分别从每个所述人脸图像中提取人脸特征码；

将每个所述人脸特征码依次输入预先构建的目标人物人脸检测模型中进行检测，得到包含目标人物人脸的多个目标视频帧。

可选的，所述分别从每个所述人脸图像中提取人脸特征码，包括：

将所述人脸图像的尺寸调整为预设尺寸；

将调整后的人脸图像输入到预先构建的目标人物人脸检测模型中，提取所述目标人物人脸检测模型中的全连接层输出的人脸特征码。

可选的，在所述将包含同一目标人物，且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段之后，所述方法还包括：

获取视频标识以及视频中每个目标人物的特写片段的开始时间和结束时间；

将所述视频标识以及视频中每个目标人物的特写片段的开始时间和结束时间存储在数据库中。

一种视频中人物特写片段的检测装置，包括：

人像检测单元，用于将视频中的每个视频帧依次输入预先构建的人像检测模型中进行人像检测，得到包含人像的多个人像视频帧；

数据获取单元，用于获取每个所述人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比；

特写镜头确定单元，用于根据每个所述人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比，确定所述人像视频帧中的多个特写镜头帧；

人脸检测单元，用于调用预先构建的目标人物人脸检测模型，依次对多个所述特写镜头帧进行处理，得到包含目标人物人脸的多个目标视频帧，并记录每个目标视频帧的时间；

特写片段确定单元，用于将包含同一目标人物，且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段。

可选的，所述特写镜头确定单元，具体用于：

可选的，所述人脸检测单元，具体用于：

人像图像截取子单元，用于分别从每个所述特写镜头帧中截取人像图像；

第一检测子单元，用于将每个所述人像图像依次输入预先构建的人脸检测模型中进行人脸检测，得到多个人脸图像；

特征码提取子单元，用于分别从每个所述人脸图像中提取人脸特征码；

第二检测子单元，用于将每个所述人脸特征码依次输入预先构建的目标人物人脸检测模型中进行检测，得到包含目标人物人脸的多个目标视频帧。

可选的，所述特征码提取子单元，具体用于：

将所述人脸图像的尺寸调整为预设尺寸；

可选的，所述装置还包括：

数据存储单元，用于在将包含同一目标人物，且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段之后，获取视频标识以及视频中每个目标人物的特写片段的开始时间和结束时间；将所述视频标识以及视频中每个目标人物的特写片段的开始时间和结束时间存储在数据库中。

相对于现有技术，本发明的有益效果如下：

本发明公开的一种视频中人物特写片段的检测方法，通过调用预先构建的人像检测模型对视频中的每个视频帧进行人像检测，得到多个人像视频帧，并根据每个人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比，对多个人像视频帧进行筛选得到多个特写镜头帧，然后调用预先构建的目标人物人脸检测模型对特写镜头帧中的目标人物人脸，如明星人脸进行检测，得到包含目标人物人脸的多个目标视频帧，进一步，根据每个目标视频帧的时间，将包含同一目标人物，且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段，整个人物特写片段检测过程全部自动化完成，大幅度提高了视频中人物特写片段的检测速度。

同时，通过以视频帧为单位进行人物特写片段检测，能够准确记录检测得到的人物特写片段中每一帧的时间，可以准确记录视频中人物特写片段的开始时间和结束时间，提高了视频中人物特写片段检测的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种视频中人物特写片段的检测方法的流程示意图；

图2为本发明实施例公开的一种特写镜头帧的确定方法的流程示意图；

图3为本发明实施例公开的一种目标人物人脸的检测方法的流程示意图；

图4为本发明实施例公开的一种视频中人物特写片段的检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开了一种视频中人物特写片段的检测方法，应用于视频处理设备，如台式电脑、笔记本电脑、平板电脑、智能手机等，对现有的人工浏览视频检测目标人物特写片段的方法进行改进，自动化完成整个人物特写片段检测过程，大幅度提高了视频中人物特写片段的检测速度；同时，通过以视频帧为单位进行人物特写片段检测，能够准确记录检测得到的人物特写片段中每一帧的时间，可以准确记录视频中人物特写片段的开始时间和结束时间，提高了视频中人物特写片段检测的准确性。

具体的，请参阅图1，本实施例公开的视频中人物特写片段的检测方法包括以下步骤：

S101：将视频中的每个视频帧依次输入预先构建的人像检测模型中进行人像检测，得到包含人像的多个人像视频帧；

将待处理视频拆分为多个视频帧，然后将每个视频帧依次输入预先构建的人像检测模型中进行人像检测。

上述人像检测模型可以为利用包含人像的图像训练数据集，如公共人像检测数据、基于综艺影视剧集标注的人像检测数据等，对tiny yolov3的深度学习模型或深度卷积神经网络模型或其他机器学习模型进行训练得到的。

为了便于人像检测模型的人像检测，可以将视频帧的尺寸调整为人像检测模型适合的尺寸，如对于tiny yolov3的深度学习模型，需要将视频帧的尺寸调整为320*320。

当视频帧中包含人像时，人像检测模型的输出结果为包含人像目标框的人像视频帧。

S102：获取每个人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比；

通过识别人像视频帧中人像目标框的数量，可以获取人像视频帧中的人像数量。

人像目标框可以为矩形，人像的中心点坐标即为人像目标框的中心点坐标。

根据人像目标框的框宽和匡高可以计算人像目标框的面积，视频帧的尺寸是已知的，人像目标框的面积与视频帧的面积的比值为人像的屏占比。

S103：根据每个人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比，确定人像视频帧中的多个特写镜头帧；

请参阅图2，一种可选的特写镜头帧的确定方法包括以下步骤：

S201：从多个人像视频帧中提取仅包含一个人像的人像视频帧；

S202：从仅包含一个人像的人像视频帧中提取人像的中心点坐标在中心预设区域的人像视频帧；

中心预设区域可以根据实际需求进行预先设定，如设定在((Frame-Width,Frame-Height)*1/4—(Frame-Width,Frame-Height)*3/4)的区域内，其中，Frame-Width为视频帧的宽，Frame-Height为视频帧的高。

S203：从仅包含一个人像且人像的中心点坐标在中心预设区域的人像视频帧中提取人像的屏占比大于阈值的视频帧，作为特写视频帧。

S104：调用预先构建的目标人物人脸检测模型，依次对多个特写镜头帧进行处理，得到包含目标人物人脸的多个目标视频帧，并记录每个目标视频帧的时间；

具体的，调用预先构建的目标人物人脸检测模型，依次对多个特写镜头帧进行处理包括对特写镜头帧的人脸检测和对人脸图像进行目标人物人脸检测两部分。

请参阅图3，一种可选的目标人物人脸检测方法包括以下步骤：

S301：分别从每个特写镜头帧中截取人像图像；

由于特写镜头帧中包含人像目标框，根据人像目标框可以对特写镜头帧进行截取，得到人像头像。

S302：将每个人像图像依次输入预先构建的人脸检测模型中进行人脸检测，得到多个人脸图像；

上述人脸检测模型可以为利用包含人脸的图像训练数据集，如公共人脸检测数据、明星人脸检测数据等，对tiny yolov3的深度学习模型或深度卷积神经网络模型或其他机器学习模型进行训练得到的。

S303：分别从每个人脸图像中提取人脸特征码；

为了便于基于目标人物人脸检测模型从人脸图像中提取人脸特征码，可以对人脸图像的尺寸进行调整，将人脸图像的尺寸调整为适合目标人物人脸检测模型处理的预设尺寸，如112*112。

然后将调整后的人脸图像输入到上述目标人物人脸检测模型中，提取目标人物人脸检测模型中的全连接层输出的人脸特征码。

其中，可以采用目前流行的arcface损失函数进行人脸分类训练；采用resnet50为骨干网络；当寻得损失值loss降低到最低时，裁剪掉分类层，取出上一个512维的全连接层，此时获取的512维特征能够很好的表征人脸的特征，即为人脸特征码。

在对目标人物人脸检测模型的训练过程中，首先采集目标人物的人脸数据，如目前综艺影视剧中出现的明星人物人脸数据，(每个明星人脸约30-50张)，通过上述方法获取每个目标人物每张人脸图像的512维特征值，即得到目标人物人脸检测模型的训练数据，再利用多层感知机算法(MLP)完成对目标人物人脸检测模型的训练。

S304：将每个人脸特征码依次输入预先构建的目标人物人脸检测模型中进行检测，得到包含目标人物人脸的多个目标视频帧。

S105：将包含同一目标人物，且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段。

由于每个目标视频帧都对应着一个时间，在此基础上，可以得到包含同一目标人物的连续多个目标视频帧，当连续多个目标视频帧所对应的时长超过预设值时，确定该连续多个目标视频帧为目标人物的特写片段。

进一步，为了便于后续利用目标人物的特写片段，在视频中目标人物的特写片段中投放广告等操作，可以获取视频标识以及视频中每个目标人物的特写片段的开始时间和结束时间；将视频标识以及视频中每个目标人物的特写片段的开始时间和结束时间存储在数据库中。通过查询数据库，即可找到某个视频中的所有目标人物的特写片段的开始时间和结束时间。

可见，本实施例公开的一种视频中人物特写片段的检测方法，通过调用预先构建的人像检测模型对视频中的每个视频帧进行人像检测，得到多个人像视频帧，并根据每个人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比，对多个人像视频帧进行筛选得到多个特写镜头帧，然后调用预先构建的目标人物人脸检测模型对特写镜头帧中的目标人物人脸，如明星人脸进行检测，得到包含目标人物人脸的多个目标视频帧，进一步，根据每个目标视频帧的时间，将包含同一目标人物，且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段，整个人物特写片段检测过程全部自动化完成，大幅度提高了视频中人物特写片段的检测速度。

基于上述实施例公开的一种视频中人物特写片段的检测方法，本实施例对应公开了一种视频中人物特写片段的检测装置，请参阅图4，该装置具体包括：

人像检测单元401，用于将视频中的每个视频帧依次输入预先构建的人像检测模型中进行人像检测，得到包含人像的多个人像视频帧；

数据获取单元402，用于获取每个所述人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比；

特写镜头确定单元403，用于根据每个所述人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比，确定所述人像视频帧中的多个特写镜头帧；

人脸检测单元404，用于调用预先构建的目标人物人脸检测模型，依次对多个所述特写镜头帧进行处理，得到包含目标人物人脸的多个目标视频帧，并记录每个目标视频帧的时间；

特写片段确定单元405，用于将包含同一目标人物，且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段。

可选的，所述特写镜头确定单元，具体用于：

可选的，所述人脸检测单元，具体用于：

可选的，所述特征码提取子单元，具体用于：

将所述人脸图像的尺寸调整为预设尺寸；

可选的，所述装置还包括：

本实施例公开的一种视频中人物特写片段的检测装置，通过调用预先构建的人像检测模型对视频中的每个视频帧进行人像检测，得到多个人像视频帧，并根据每个人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比，对多个人像视频帧进行筛选得到多个特写镜头帧，然后调用预先构建的目标人物人脸检测模型对特写镜头帧中的目标人物人脸，如明星人脸进行检测，得到包含目标人物人脸的多个目标视频帧，进一步，根据每个目标视频帧的时间，将包含同一目标人物，且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段，整个人物特写片段检测过程全部自动化完成，大幅度提高了视频中人物特写片段的检测速度；同时，通过以视频帧为单位进行人物特写片段检测，能够准确记录检测得到的人物特写片段中每一帧的时间，可以准确记录视频中人物特写片段的开始时间和结束时间，提高了视频中人物特写片段检测的准确性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频中人物特写片段的检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据每个所述人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比，确定所述人像视频帧中的多个特写镜头帧，包括：

3.根据权利要求1所述的方法，其特征在于，所述调用预先构建的目标人物人脸检测模型，依次对多个所述特写镜头帧进行处理，得到包含目标人物人脸的多个目标视频帧，包括：

分别从每个所述特写镜头帧中截取人像图像；

分别从每个所述人脸图像中提取人脸特征码；

4.根据权利要求3所述的方法，其特征在于，所述分别从每个所述人脸图像中提取人脸特征码，包括：

将所述人脸图像的尺寸调整为预设尺寸；

5.根据权利要求1所述的方法，其特征在于，在所述将包含同一目标人物，且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段之后，所述方法还包括：

6.一种视频中人物特写片段的检测装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述特写镜头确定单元，具体用于：

8.根据权利要求6所述的装置，其特征在于，所述人脸检测单元，具体用于：

9.根据权利要求8所述的装置，其特征在于，所述特征码提取子单元，具体用于：

将所述人脸图像的尺寸调整为预设尺寸；

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：