CN110021034A

CN110021034A - 一种基于头肩检测的跟踪录播方法及系统

Info

Publication number: CN110021034A
Application number: CN201910210983.4A
Authority: CN
Inventors: 吴玉香; 王玉; 郭泽辉
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2019-07-16

Abstract

本发明公开了一种基于头肩检测的跟踪录播方法及系统，该跟踪录播方法包括：预先对头肩图片进行深度学习，生成已训练的头肩检测网络模型；摄像机在预设位置实时采集图像帧，采用已训练的头肩检测网络模型进行计算，判断待检测图像帧中是否有待跟踪目标对象，如果没有，摄像机保持预设静止状态；如果有，确定待跟踪目标对象并切换摄像机的状态为跟踪录播状态，根据待跟踪目标对象的运动情况自动调整摄像机的角度并进行相应缩放，从而实现目标的自动跟踪录播。其优点是：将对人体的检测转换为对头肩部位的检测，对遮挡和姿态变化具有一定的鲁棒性；根据目标运动情况自动调整镜头进行跟踪录播，保证跟踪录播的准确性。

Description

一种基于头肩检测的跟踪录播方法及系统

技术领域

本发明涉及跟踪录播技术领域，具体涉及一种基于头肩检测的跟踪录播方法及系统。

背景技术

录播系统，是将现场拍录的视频、音频、电子设备的图像信号进行整合同步录制并生成标准化的流媒体文件，用于对外直播、存储、后期编辑、点播。传统的录播系统需要专门的拍摄人员或导播人员对摄像机进行导播操作，在进行跟踪录播时，人为调整跟踪录播策略对拍摄人员的技术要求较高，容易产生误操作。现有的自动跟踪录播系统大多通过增加辅助摄像头对人体进行检测，从而调整摄像头实现跟踪录播，但是这种方法不仅成本较高，而且在受到遮挡或姿态变化等干扰的情况下，目标跟踪的鲁棒性较低，录播的准确性也会受到影响。

因此，在录播跟踪过程中提高跟踪录播的鲁棒性和准确性，成为现有技术有待解决的问题。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于头肩检测的跟踪录播方法及系统。

本发明的第一个目的可以通过采取如下技术方案达到：

一种基于头肩检测的跟踪录播方法，所述跟踪录播方法包括下列步骤：

S1、预先对头肩图片进行深度学习，生成已训练的头肩检测网络模型；

S2、将实时采集的待检测视频帧采用已训练的头肩检测网络模型进行计算，判断待检测视频帧序列中是否检测到待跟踪目标对象；

S3、当没有检测到待跟踪目标对象时，摄像机保持预设静止状态；当检测到待跟踪目标对象时，确定待跟踪目标对象并切换摄像机的状态为跟踪录播状态。

进一步地，所述步骤S1包括：

S11、制作包含训练集和验证集的图片数据库：采集人体目标运动视频并对视频帧中的头肩区域进行标注，标注区域为正样本，未标注区域为负样本，组成训练集和验证集。

S12、构建用于深度学习的头肩检测网络模型：以TensorFlow深度学习框架为基础，在SSD目标检测模型上获取头肩检测网络模型；

S13、采用头肩检测网络模型对图片数据库进行训练学习，生成已训练的头肩检测网络模型。

进一步地，所述头肩检测网络模型的具体结构如下：

从输入层到输出层依次连接为：VGG-16网络部分(包括卷积层 conv1_1、卷积层conv1_2、卷积层conv2_1、卷积层conv2_2、卷积层conv3_1、卷积层conv3_2、卷积层conv4_1、卷积层conv4_2、卷积层conv4_3、卷积层conv5_1、卷积层conv5_2、卷积层conv5_3)、卷积层conv6、卷积层 conv7、卷积层conv8_2、卷积层conv9_2、卷积层conv10_2、卷积层conv11_2；对卷积层conv4_3、卷积层conv7、卷积层conv8、卷积层conv9_2、卷积层conv10_2、卷积层conv11_2六个卷积层的输出分别采用两个3*3大小的卷积核进行卷积并将结果合并，获取8732个默认框(default box)；采用非极大值抑制(Non-Maximum Suppression)算法选取置信度最高的区域作为预测结果。

进一步地，所述头肩检测网络模型进行训练的目标损失函数定义为：

其中x＝{0,1}是指示变量，表示默认包围框与真实包围框对目标类型是否匹配，c表示对每一类的置信度，l表示预测框，g表示真实框，L_conf表示置信度损失，L_loc为定位损失，α用于平衡定位损失和置信度损失，N表示匹配的默认框的数目。

进一步地，所述步骤S13包括：

S131、对头肩检测网络模型进行深度学习参数的配置及初始化：使用标准差σ的高斯分布初始化参数，设置学习率和最大迭代次数，进行动量设置；

S132、对训练集中的头肩图片采用随机梯度下降法及反向传播算法进行批量学习，并监测学习图片的数量是否超过预设的图片数量阈值，当超过时，得到初步训练的头肩检测网络模型，进行下一步；

S133、使用验证集中的头肩图片对初步训练的头肩检测网络模型进行准确率计算，判断准确率是否超过预设的准确率阈值，当准确率没有超过预设准确率阈值时，返回步骤S132继续训练学习；

S134、当准确率超过预设的准确率阈值时，生成已训练的头肩检测网络模型。

进一步地，所述步骤S2包括：

S21、加载已训练的头肩检测网络模型，并读取实时采集的待检测视频帧，然后对待检测的视频帧进行预处理，其中，预处理包括图像去噪以及归一化，归一化的目的是使图像的尺寸能够适应头肩检测网络模型的输入；

S22、将预处理后的待检测视频帧采用已训练的头肩检测网络模型进行计算，判断待检测视频帧序列中是否检测到待跟踪目标对象。

进一步地，所述判断是否检测到待跟踪目标对象的过程如下：

获取摄像机在预设静止状态下拍摄得到的视频帧序列；

当所述视频帧序列中连续且超过预设帧数的视频帧中出现待跟踪的目标对象时，确定检测到待跟踪目标对象。

进一步地，所述步骤S3包括：

在预设静止状态下检测到并确定待跟踪目标对象后，将摄像机从预设静止状态切换为跟踪录播状态，其中，所述预设静止状态表示摄像机的初始状态；

在所述跟踪录播状态下，对待跟踪目标对象实施自动跟踪录播控制，其中，所述自动跟踪录播控制过程如下：

获取连续视频帧内待跟踪目标对象的定位，根据待跟踪目标对象的偏移情况相应调整跟踪录播的控制策略；

当待跟踪目标对象的偏移在预设的数值范围内时，忽略微小移动，以保证录播画面的流畅及稳定；

当待跟踪目标对象的偏移超过预设的数值范围时，认为目标有明显移动，调整摄像机的角度，使得所述待跟踪目标对象在所述摄像机中的图像位置达到预设位置，然后调整摄像机的焦距，使得所述待跟踪目标对象在所述摄像机中的图像大小达到预设大小。

进一步地，自适应调整控制策略可以保证目标处于画面中的最佳位置并维持画面最佳比例，提高录播的准确性。

进一步地，所述自动跟踪录播控制还包括：

判断在所述跟踪录播状态时是否丢失待跟踪目标对象；

当确定丢失待跟踪目标对象时，重新找回所述待跟踪目标对象，以应对待跟踪目标对象被短时间遮挡的情况；

其中，所述判断在所述跟踪录播状态时是否丢失待跟踪目标对象，包括：

获取摄像机在跟踪录播状态下拍摄得到的视频帧序列；

当所述视频帧序列中连续且超过预设帧数的视频帧中检测不到待跟踪的目标对象时，确定在所述跟踪录播状态下已经丢失待跟踪目标对象。

其中，所述重新找回所述待跟踪目标对象，包括：

从丢失待跟踪目标对象之前拍摄的视频帧序列中提取待跟踪目标对象的第一特征信息；

获取丢失待跟踪目标对象之后拍摄到的视频帧序列，采用已训练的头肩检测网络模型进行计算，获取检测到的待跟踪目标对象的第二特征信息；

比较第一特征信息和第二特征信息的相似度；

根据所述相似度结果判断是否找回所述待跟踪目标对象。

进一步地，所述判断是否找回所述待跟踪目标对象的过程如下：

若所述第一特征信息和第二特征信息的相似度超过预设阈值时，确定在所述跟踪录播状态下重新找回所述待跟踪目标对象，并继续对待跟踪目标对象进行跟踪录播；

若所述第一特征信息和第二特征信息的相似度不超过预设阈值时，在所述跟踪录播状态下继续寻找所述待跟踪目标对象；

若在预设时长内未能找回所述待跟踪目标，结束跟踪录播控制，并切换摄像机的状态为预设静止状态。

本发明的第二个目的可以通过采取如下技术方案达到：

一种基于头肩检测的跟踪录播系统，所述跟踪录播系统包括：

深度学习模块，用于预先对头肩图片进行深度学习，生成已训练的头肩检测网络模型；

目标检测模块，用于将实时采集的待检测视频帧采用已训练的头肩检测网络模型进行计算，判断待检测视频帧序列中是否检测到待跟踪目标对象；

跟踪录播控制模块，用于当没有检测到待跟踪目标对象时，摄像机保持预设静止状态；当检测到待跟踪目标对象时，确定待跟踪目标对象并切换摄像机的状态为跟踪录播状态。

所述跟踪录播系统还包括：

视频采集模块，用于实时采集视频图像并传输；

预处理模块，用于加载训练好的头肩检测网络模型，并输入实时采集的待检测视频，然后对待检测视频进行预处理。

本发明相对于现有技术具有如下的优点及效果：

1、本发明将对人体的检测转换为对头肩部位的检测，对遮挡和姿态变化具有一定的鲁棒性，能够更准确地对人体进行定位；

2、本发明通过深度学习建立头肩检测网络模型，采用训练好的网络模型对视频帧进行检测，相比传统的运动目标检测方法更加稳定，检测速度快、实时性强、准确率高；

3、本发明在确定待跟踪目标对象后实施自动跟踪录播控制策略，不需要增加辅助设施或人为调整，不仅节约了成本，而且保证了录播的准确性；

4、本发明在对目标进行自动跟踪录播时，针对目标的偏移情况相应调整控制策略，并且能重新找回短时丢失的跟踪目标，提高了跟踪录播的鲁棒性和准确性，具有较强的实用性。

附图说明

图1为本发明所述的一种基于头肩检测的跟踪录播方法的方法流程图；

图2为本发明所述的一种基于头肩检测的跟踪录播系统的原理框图；

图3为本发明中SSD目标检测模型的网络结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例公开了一种基于头肩检测的跟踪录播方法，如图1中该跟踪录播方法的流程图所示，包括以下步骤：

本实施例中，所述步骤S1具体包括：

S11、制作包含训练集和验证集的图片数据库；

具体实施时，可以采集人体目标运动视频并对视频帧中的头肩区域进行标注，标注区域为正样本，未标注区域为负样本，组成训练集和验证集。

S12、构建用于深度学习的头肩检测网络模型；

具体实施时，可以以TensorFlow深度学习框架为基础，在SSD目标检测模型上微调获取头肩检测网络模型，以便能够更快速的训练和更加适用于环境。

SSD模型的具体结构如下：

从输入层到输出层依次连接为：VGG-16网络部分(包括卷积层 conv1_1、卷积层conv1_2、卷积层conv2_1、卷积层conv2_2、卷积层conv3_1、卷积层conv3_2、卷积层conv4_1、卷积层conv4_2、卷积层conv4_3、卷积层conv5_1、卷积层conv5_2、卷积层conv5_3)、卷积层conv6、卷积层 conv7、卷积层conv8_2、卷积层conv9_2、卷积层conv10_2、卷积层conv11_2；对卷积层conv4_3、卷积层conv7、卷积层conv8、卷积层conv9_2、卷积层conv10_2、卷积层conv11_2五个卷积层的输出分别采用两个3*3大小的卷积核进行卷积并将结果合并，获取8732个默认框(default box)；采用非极大值抑制(Non-Maximum Suppression)算法选取置信度最高的区域作为预测结果。

其中，SSD目标检测模型的网络结构图如图3所示。

头肩检测网络模型进行训练的目标损失函数定义为：

其中，步骤S13具体包括：

S131、对头肩检测网络模型进行深度学习参数的配置及初始化；具体实施时，可以使用标准差σ＝0.01的高斯分布初始化参数，可以设置学习率为0.001，动量设置为0.9，最大迭代次数为60000次。

S132、对训练集中的头肩图片进行批量学习，并监测学习图片的数量是否超过预设的图片数量阈值，当是时，得到初步训练的头肩检测网络模型；

其中，学习图片的数量要超过预设的图片数量阈值，以保证模型能够充分地学习到样本中的有用信息。

具体实施时，采用随机梯度下降法及反向传播算法进行学习和优化，可以设置预设的图片数量阈值为2000，图片数据库有100000张图片，每学习2000张图片，进行一次验证，调整参数优化学习效果。

S133、使用验证集中的头肩图片对初步训练的头肩检测网络模型进行准确率计算，判断准确率是否超过预设的准确率阈值，当准确率没有超过预设准确率阈值时，返回S132继续训练学习；

其中，准确率要超过预设的准确率阈值，以保证模型在检测目标时能够达到足够高的准确率，降低对目标误检的概率。

具体实施时，可以设置预设的准确率阈值为99.5％。

具体实施时，步骤S2具体包括：

S21、加载已训练的头肩检测网络模型，并读取实时采集的待检测视频帧，然后对待检测的视频帧进行预处理；具体实施时，预处理包括：图像去噪，归一化，以便检测。

其中，步骤S22中判断是否检测到待跟踪目标对象，包括：

获取摄像机在预设静止状态下拍摄得到的视频帧序列；

当所述视频帧序列中连续且超过预设帧数的视频帧中出现待跟踪的目标对象时，确定检测到待跟踪目标对象，以避免不稳定的环境因素导致的单帧误检现象的发生。

具体实施时，步骤S3具体包括：

在所述跟踪录播状态下，对待跟踪目标对象实施自动跟踪录播控制。

其中，自动跟踪录播控制，具体包括：

当待跟踪目标对象的偏移在预设的数值范围内时，忽略微小移动，以保证录播画面的流畅及稳定，避免画面出现跳动、晃眼等现象；

当待跟踪目标对象的偏移超过预设的数值范围时，认为目标有明显移动，调整摄像机的角度，使得所述待跟踪目标对象在所述摄像机中的图像位置达到预设位置，以保证目标处于录播画面的合适位置，保证录播的准确性；调整摄像机的焦距，使得所述待跟踪目标对象在所述摄像机中的图像大小达到预设大小，以适应目标在画面中的比例，保证录播时的画面效果；

其中，自动跟踪录播控制还包括：

判断在所述跟踪录播状态时是否丢失待跟踪目标对象；

其中，判断在所述跟踪录播状态时是否丢失待跟踪目标对象，包括：

获取摄像机在跟踪录播状态下拍摄得到的视频帧序列；

其中，重新找回所述待跟踪目标对象，包括：

比较第一特征信息和第二特征信息的相似度；

根据所述相似度结果判断是否找回所述待跟踪目标对象。

其中，判断是否找回所述待跟踪目标对象，具体包括：

实施例二

本实施例公开了一种基于头肩检测的跟踪录播系统，如图2所示，所述跟踪录播系统包括：

在本实施例中，该跟踪录播系统还包括：

视频采集模块，用于实时采集视频图像并传输；

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于头肩检测的跟踪录播方法，其特征在于，所述跟踪录播方法包括下列步骤：

2.根据权利要求1所述的一种基于头肩检测的跟踪录播方法，其特征在于，所述步骤S1包括：

S11、制作包含训练集和验证集的图片数据库：采集人体目标运动视频并对视频帧中的头肩区域进行标注，标注区域为正样本，未标注区域为负样本，组成训练集和验证集；

S12、构建用于深度学习的头肩检测网络模型：以TensorFlow深度学习框架为基础，在SSD目标检测模型上获取头肩检测网络模型，其中，所述头肩检测网络模型的结构如下：

从输入层到输出层依次连接为：VGG-16网络部分、卷积层conv6、卷积层conv7、卷积层conv8_2、卷积层conv9_2、卷积层conv10_2、卷积层conv11_2，其中，VGG-16网络部分包括卷积层conv1_1、卷积层conv1_2、卷积层conv2_1、卷积层conv2_2、卷积层conv3_1、卷积层conv3_2、卷积层conv4_1、卷积层conv4_2、卷积层conv4_3、卷积层conv5_1、卷积层conv5_2、卷积层conv5_3，对卷积层conv4_3、卷积层conv7、卷积层conv8、卷积层conv9_2、卷积层conv10_2、卷积层conv11_2的输出分别采用两个3*3大小的卷积核进行卷积并将结果合并，获取8732个默认框default box；采用非极大值抑制算法选取置信度最高的区域作为预测结果；

3.根据权利要求1所述的一种基于头肩检测的跟踪录播方法，其特征在于，所述头肩检测网络模型进行训练的目标损失函数定义为：

4.根据权利要求2所述的一种基于头肩检测的跟踪录播方法，其特征在于，所述步骤S13包括：

5.根据权利要求1所述的一种基于头肩检测的跟踪录播方法，其特征在于，所述步骤S2包括：

S21、加载已训练的头肩检测网络模型，并读取实时采集的待检测视频帧，然后对待检测的视频帧进行预处理，其中，预处理包括图像去噪以及归一化；

6.根据权利要求5所述的一种基于头肩检测的跟踪录播方法，其特征在于，所述判断是否检测到待跟踪目标对象的过程如下：

获取摄像机在预设静止状态下拍摄得到的视频帧序列；

7.根据权利要求1所述的一种基于头肩检测的跟踪录播方法，其特征在于，所述步骤S3包括：

8.根据权利要求7所述的一种基于头肩检测的跟踪录播方法，其特征在于，所述自动跟踪录播控制还包括：

判断在所述跟踪录播状态时是否丢失待跟踪目标对象；

获取摄像机在跟踪录播状态下拍摄得到的视频帧序列；

其中，所述重新找回所述待跟踪目标对象，包括：

比较第一特征信息和第二特征信息的相似度；

根据所述相似度结果判断是否找回所述待跟踪目标对象。

9.根据权利要求8所述的一种基于头肩检测的跟踪录播方法，其特征在于，所述判断是否找回所述待跟踪目标对象的过程如下：

10.一种基于头肩检测的跟踪录播系统，其特征在于，所述跟踪录播系统包括：