CN112183235A

CN112183235A - 针对运动场所进行视频采集的自动控制方法

Info

Publication number: CN112183235A
Application number: CN202010945507.XA
Authority: CN
Inventors: 李国显; 管伟东; 王海滨
Original assignee: Root Sports Science And Technology Beijing Co ltd
Current assignee: Root Sports Science And Technology Beijing Co ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2021-01-05

Abstract

本申请公开了一种针对运动场所进行视频采集的自动控制方法，包括：针对运动场所周期性采集图像；利用训练好的人工神经网络模型处理采集的图像从而判断运动场所中是否有人在运动；若有人在运动，则启动视频采集；否则，不启动视频采集。本申请实施例提供的针对运动场所进行视频采集的自动控制方法，利用训练好的人工神经网络模型处理采集的图像从而判断运动场所中是否有人在运动，根据判断结果自动控制是否启动视频采集，克服了现有技术的极易受环境影响且受限于环境复杂度需要调整阈值的缺陷，能够实现对运动场所进行视频采集的精确自动控制，精确度和反应灵敏度均能够满足实际应用的需要。

Description

针对运动场所进行视频采集的自动控制方法

技术领域

本申请涉及图像处理技术领域，具体涉及一种针对运动场所进行视频采集的自动控制方法。

背景技术

在体育场所中，经常需要进行视频采集，其目的主要是为了保存精彩的运动瞬间以及应用于运动场景下的教学和运动领域的社交以及直播等。但是运动场馆有时候会有空闲无人的时间段。如果一直开启视频录制会造成带宽的浪费和垃圾数据的产生对于后期的视频回放等产生不良的影响。所以需要一种能检测到运动场馆是否为闲时的方法来控制运动场馆下视频是否需要被采集。

目前对于运动场馆视频采集开关的方法主要通过帧差法和背景差分两种方法实现。

帧差法是最为常用的运动目标检测和分割方法之一，基本原理就是在图像序列相邻两帧或三帧间采用基于像素的时间差分通过阈值化来提取出图像中的运动区域。首先，将相邻帧图像对应像素值相减得到差分图像，然后对差分图像二值化，如果对应像素值变化小于事先确定的阈值时，可以认为此处为背景像素；如果图像区域的像素值变化很大，超过了设置的阈值，则认为这是由于图像中运动物体引起的，将这些区域标记为前景像素，利用标记的像素区域可以确定运动目标在图像中的位置。

帧差法的不足在于对环境噪声较为敏感，阈值的选择相当关键，选择过低不足以抑制图像中的噪声，过高则忽略了图像中有用的变化。对于比较大的、颜色一致的运动目标，有可能在目标内部产生空洞，无法完整地提取运动目标。

背景差分法是一种有效的运动对象检测算法，基本思想是利用背景的参数模型来近似背景图像的像素值，将当前帧与背景图像进行差分比较实现对运动区域的检测，其中区别较大的像素区域被认为是运动区域，而区别较小的像素区域被认为是背景区域。背景差分法必须要有背景图像，并且背景图像必须是随着光照或外部环境的变化而实时更新的，因此背景差分法的关键是背景建模及其更新。

背景差法的不足：由于现场场景的复杂性、不可预知性以及各种环境干扰和噪声的存在，如光照的突然变化、实际背景图像中有些物体的波动、摄像机的抖动、运动物体进出场景对原场景的影响等，使得背景的建模和模拟变得比较困难。以上两种方法都是通过阈值的结果去判断当前运动场所是不是闲时，从而决定是不是需要去录制并上传视频到服务端，所以在不同的环境下，需要不同的数值来作为判断的阈值。由于场景的复杂性与不可预知性，环境光对阈值的影响比较大，所以很难去确定这个阈值的值到底是多少从而会影响算法输出的结果的正确性。而且在视频采集的过程中还需要人员去调试阈值，这样增加了成本。

发明内容

本申请的目的是提供一种针对运动场所进行视频采集的自动控制方法。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

根据本申请实施例的一个方面，提供一种针对运动场所进行视频采集的自动控制方法，包括：

针对运动场所周期性采集图像；

利用训练好的人工神经网络模型处理采集的图像从而判断运动场所中是否有人在运动；

若有人在运动，则启动视频采集；否则，不启动视频采集。

进一步地，在所述利用训练好的人工神经网络模型处理采集的图像之前，所述方法还包括：

利用训练数据集训练人工神经网络；

利用测试数据集检测完成一次训练的人工神经网络的判断准确率；

若所述判断准确率未达到阈值要求，则继续利用训练数据集训练人工神经网络，直至所述判断准确率达到阈值要求为止。

进一步地，在所述利用训练数据集训练人工神经网络之前，所述方法还包括：获取训练数据集和测试数据集。

进一步地，所述人工神经网络模型为yolov3网络模型。

进一步地，所述利用训练好的人工神经网络模型处理采集的图像，包括：转换所采集的图像的格式，将转换格式后的图像输入训练好的人工神经网络模型进行处理。

进一步地，所述针对运动场所周期性采集图像，包括：针对运动场所周期性拍摄视频，从视频中抽取图像，对抽取的图像进行格式转换。

进一步地，所述利用测试数据集检测完成一次训练的人工神经网络的判断准确率，包括：

在测试数据集上生成对应的检测目标的矩形框坐标；

根据检测的矩形框坐标和标注的检测框的坐标，计算平均精度和平均精度的均值。

根据本申请实施例的另一个方面，提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现上述的针对运动场所进行视频采集的自动控制方法。

根据本申请实施例的另一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现上述的针对运动场所进行视频采集的自动控制方法。

本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果：

本申请实施例提供的针对运动场所进行视频采集的自动控制方法，利用训练好的人工神经网络模型处理采集的图像从而判断运动场所中是否有人在运动，根据判断结果自动控制是否启动视频采集，克服了现有技术的极易受环境影响且受限于环境复杂度需要调整阈值的缺陷，能够实现对运动场所进行视频采集的精确自动控制，精确度和反应灵敏度均能够满足实际应用的需要。

本申请的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者，部分特征和优点可以从说明书中推知或毫无疑义地确定，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请的一个实施方式的针对运动场所进行视频采集的自动控制方法流程图；

图2示出了本申请另一实施方式的针对运动场所进行视频采集的自动控制方法流程图；

图3示出了用于视频处理的系统架构图；

图4示出了本申请一实施方式中媒体处理平台对视频的内部处理流程；

图5示出了本申请一实施方式中对传感器所采集的数据的处理过程；

图6示出了本申请一实施方式中训练数据集的选择与预处理、yolov3参数设置、训练及测试的流程；

图7为本申请一实施方式采用的yolov3网络模型结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本申请做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

如图1所示，本申请的一个实施例提供了一种针对运动场所进行视频采集的自动控制方法，包括：

针对运动场所周期性采集图像；

根据判断的结果，如果运动场所中有人在运动，则启动视频采集；

否则不启动视频录制。从而实现了视频录制的自动控制功能。

例如，利用摄像装置对着运动场所每隔2秒采集一帧图像，把图像从YUV/420p格式转换为RGB格式，将RGB格式的图像数据传入到人工神经网络模型中进行处理以判断运动场所是否有人在运动，如果有人在运动那么启动录制任务和视频上传任务。YUV和RGB是比较常用的颜色空间，基于YUV和RGB的颜色编码是流媒体的常用编码方式。

在某些实施方式中，在所述利用训练好的人工神经网络模型处理采集的图像之前，所述方法还包括：

利用训练数据集训练人工神经网络；

在某些实施方式中，在所述利用训练数据集训练人工神经网络之前，所述方法还包括：获取训练数据集和测试数据集。

在某些实施方式中，所述人工神经网络模型为yolov3网络模型。

在某些实施方式中，所述利用训练好的人工神经网络模型处理采集的图像，包括：转换所采集的图像的格式，将转换格式后的图像输入训练好的人工神经网络模型进行处理。

在某些实施方式中，所述转换所采集的图像的格式，包括：将图像的格式由YUV格式转换为RGB格式。

在某些实施方式中，所述针对运动场所周期性采集图像，包括：针对运动场所周期性拍摄视频，从视频中抽取图像，对抽取的图像进行格式转换。

在某些实施方式中，所述利用测试数据集检测完成一次训练的人工神经网络的判断准确率，包括：

在测试数据集上生成对应的检测目标的矩形框坐标；

在某些实施方式中，针对运动场所周期性采集图像包括：针对运动场所周期性拍摄视频(例如每隔五秒钟采集一段两秒钟的视频)，从视频中抽取图像，对图像进行格式转换。

例如基于海思sdk采集视频。海思sdk应用在基于linux操作系统的嵌入式系统中，该系统用于处理视频，如图3所示，该系统层次架构包括：硬件层、操作系统层、操作系统适配层、媒体软件处理平台、应用层和其他驱动。

该系统主要分为视频输入(VI)、视频处理(VPSS)、视频编码(VENC)、视频解码(VDEC)、视频输出(VO)、视频侦测分析(VDA)、音频输入(AI)、音频输出(AO)、音频编码(AENC)、音频解码(ADEC)、区域管理(REGION)等模块。海思媒体处理平台的对视频的内部处理流程如图4所示，包括：

VI模块捕获视频图像，可对其做剪切、缩放等处理，并输出多路不同分辨率的图像数据。

解码模块对编码后的视频码流进行解码，并将解析后的图像数据送VPSS进行图像处理或直接送VO显示。可对H264/MPEG4/MPEG2格式的视频码流进行解码。

VPSS模块接收VI和解码模块发送过来的图像，可对图像进行去噪、图像增强、锐化等处理，并实现同源输出多路不同分辨率的图像数据用于编码、预览或抓拍。

编码模块接收VI捕获并经VPSS处理后输出的图像数据，可叠加用户通过Region模块设置的OSD图像，然后按不同协议进行编码并输出相应码流。

VDA模块接收VI的输出图像，并进行移动侦测和遮挡侦测，最后输出侦测分析结果。

VO模块接收VPSS处理后的输出图像，可进行播放控制等处理，最后按用户配置的输出协议输出给外围视频设备。

AI模块捕获音频数据，然后AENC模块支持按多种音频协议对其进行编码，最后输出音频码流。

用户从网络或外围存储设备获取的音频码流可直接送给ADEC模块，ADEC支持解码多种不同的音频格式码流，解码后数据送给AO模块即可播放声音。

如图5所示，通过传感器采集的数据最后被分别用作主码流(用以输出rtsp流或者视频录制用)、子码流(视频录制或者rtmp推流用)、视频侦测流(用于做为视频录制和上传的开关，分辨率为960x540，帧率为1帧)。

对图像进行格式转换包括将图像由YUV格式转换为RGB格式：

通过如下函数将YUV数据转为RGB数据然后再加载到人工神经网络模型中。转换的原理如下：

R＝Y+1.402(Cr-128)

G＝Y-0.34414(Cb-128)-0.71414(Cr-128)

B＝Y+1.772(Cb-128)

其中Y为颜色亮度，Cb和Cr分别为蓝色和红色的浓度偏移量，这三个值是由上述视频采集中Ext_Chann2输出的视频数据，转换成的RGB数据则会传入神经网络参与计算。

人工神经网络模型对图像的检测与运动场所是否需要开启录制的判断，采用了基于darknet的神经网络框架。

如图7所示，本实施例的人工神经网络模型采用yolov3网络模型。

如图6所示，进行训练数据集的选择与预处理，然后利用训练数据集对人工神经网络模型进行训练。

选用的数据集包括：coco17 person图片及其标注文件、voc12 person图片及其标注文件、caltech行人检测数据集、tud行人检测数据集以及实时标注的数据集-私有集。

用实际应用环境中采集的图像进行正样本标注训练：含人的图像训练；

用实际应用环境中采集的图像进行负样本标注训练：不含人的图像训练；

把上述的数据集修改成pascal voc类型的数据集，分别生成标注数据集和图像数据，然后再将标注数据集和图像数据按照一定的比例划分为训练数据集和测试数据集。

例如，yolov3网络模型的参数设置包括：

1.修改darknet下的data/voc.names的内容为person；

2.修改darknet下cfg/yolov3.cfg图片resize的宽高为608和608；

3.修改darknet下cfg/yolov3.cfg学习率为0.001；

4.修改darknet下cfg/yolov3.cfg yolo层的classes为1；

5.修改darknet下cfg/yolov3.cfg下yolo层上面的卷积层的filters数目为(1+5)*3＝18；

6.修改darknet下cfg/voc.data文件classes为1，指定训练数据集和验证数据集，指定标签名的文件，指定模型输出文件的位置；

7.修改darknet下cfg/yolov3.cfg下训练的迭代次数为3000次。

数据训练：

1.下载预训练权重darknet53.conv.74

2.在darknet下执行./darknet detector train cfg/voc.data cfg/yolov3-voc.cfg darknet53.conv.74。

利用测试数据集测试人工神经网络模型的判断准确率：

1.在测试数据集上生成对应的检测目标的矩形框坐标，

2.根据检测的矩形框的坐标和标注的检测框的坐标，计算平均精度和平均精度的均值。

根据上述的测试，平均精度和平均精度的均值达到百分之97以上，则认为该人工神经网络模型达到的精度阈值要求，训练完成。

将图像输入训练好的人工神经网络模型中进行处理，从而得到运动场所中是否有人在运动的判断结果。也就是说通过摄像机视频捕获能够检测到运动场所是不是有人。如果有人则开启视频录制和视频上传，如果在三分钟的时间里都没有人那么认为运动场所没有人，则需要停止摄像机的录制和视频的上传。

本申请另一实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现上述的方法。

本申请另一实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现上述的方法。

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例仅表达了本申请的实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种针对运动场所进行视频采集的自动控制方法，其特征在于，包括：

针对运动场所周期性采集图像；

若有人在运动，则启动视频采集；否则，不启动视频采集。

2.根据权利要求1所述的方法，其特征在于，在所述利用训练好的人工神经网络模型处理采集的图像之前，所述方法还包括：

利用训练数据集训练人工神经网络；

3.根据权利要求2所述的方法，其特征在于，在所述利用训练数据集训练人工神经网络之前，所述方法还包括：获取训练数据集和测试数据集。

4.根据权利要求1所述的方法，其特征在于，所述人工神经网络模型为yolov3网络模型。

5.根据权利要求1所述的方法，其特征在于，所述利用训练好的人工神经网络模型处理采集的图像，包括：转换所采集的图像的格式，将转换格式后的图像输入训练好的人工神经网络模型进行处理。

6.根据权利要求1所述的方法，其特征在于，所述针对运动场所周期性采集图像，包括：针对运动场所周期性拍摄视频，从视频中抽取图像，对抽取的图像进行格式转换。

7.根据权利要求2所述的方法，其特征在于，所述利用测试数据集检测完成一次训练的人工神经网络的判断准确率，包括：

在测试数据集上生成对应的检测目标的矩形框坐标；

8.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-7中任一所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以实现如权利要求1-7中任一所述的方法。