CN111767798A

CN111767798A - 一种面向室内联网视频监控的智能导播方法及系统

Info

Publication number: CN111767798A
Application number: CN202010483838.6A
Authority: CN
Inventors: 梁超; 沈宇轩; 傅佑铭; 陈强国; 王中元; 朱家伟
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2020-10-13
Anticipated expiration: 2040-06-01
Also published as: CN111767798B

Abstract

本发明公开了一种面向室内联网视频监控的智能导播方法及系统，该系统包括：视频采集模块，用于从设置在室内的联网监控摄像头拉取视频流，并以固定时长的离线视频的形式保存；时间解析模块，用于利用离线视频制作时间戳数据集，在视频各帧的对应监控时间位置进行图像识别，得到视频各帧对应的时间戳；空间解析模块，用于根据检测框坐标确定目标的全局物理空间位置；目标的空间位置确定模块，用于得到目标的空间位置，生成目标运动轨迹；导播模块，用于根据导播规则决定是否切换摄像头以及切换的对应摄像头；视频播放同步模块，用于视频播放同步控制。本发明通过导播控制和多路视频画面同步机制，使用户能够便捷、持续地观察目标，提升观感。

Description

一种面向室内联网视频监控的智能导播方法及系统

技术领域

本发明涉及联网监控视频分析技术，尤其涉及一种面向室内联网视频监控的智能导播方法及系统。

背景技术

联网监控系统是室内公共场所信息化建设中的重要环节，为室内公共场所安全提供了有力的保障。本文设计并实现了一套面向室内联网视频监控的智能导播系统。它能够为用户提供关于感兴趣目标的实时监控画面，并且随着感兴趣目标的运动将其在不同摄像头下的画面以实时导播的方式呈现给定制用户，从而使用户能够便捷、持续地观察感兴趣目标，知晓目标的即时状态。但由于室内环境中易出现频繁遮挡、不同光源导致色彩表现不一致、目标检测框图片的分辨率大小差异大等问题，单纯依靠行人重识别技术进行目标匹配的可靠性不够。并且由于IO繁忙或网络拥堵等原因，保存的离线视频可能会存在时长一致但起始时间不一致的情况，以及各个视频的帧率与程序所设置的视频播放帧率存在较大差别的现象。针对上述问题，提出解决方案。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种面向室内联网视频监控的智能导播方法及系统。

本发明解决其技术问题所采用的技术方案是：一种面向室内联网视频监控的智能导播方法，包括以下步骤：

1)从设置在室内的联网监控摄像头拉取视频流，以固定时长的离线视频的形式保存；

2)利用离线视频制作时间戳数据集，在视频各帧的对应监控时间位置进行图像识别，得到视频各帧对应的时间戳；

3)对图像识别得到的各帧对应的时间戳进行校正和精确化操作；

4)在监控画面中选定多个固定参照物并记录其像素坐标，建立描述室内环境的全局坐标系和描述参照物与摄像头位置关系的局部坐标系，并确定局部坐标系中坐标与像素坐标的映射关系；

其中，各路摄像头的局部坐标系是以各路摄像头为原点，摄像头监控方向为y轴正方向建立的右手坐标系；

全局坐标系是以在监控区域的平面俯视图的中心点作为原点，以东方向为X轴正方向、北方向为Y轴正方向建立坐标系；

5)利用梯度提升树为每个摄像头训练适用于当前监控环境的空间解析模型，该模型以目标在监控画面中的像素坐标为输入，以目标在以摄像头位置为原点的局部坐标系上坐标为输出，使用梯度提升树时将n_estimators设置为100、max_depth设置为2，即内部含有100个深度为2的子回归树，并且使用最小二乘法表示损失函数；

6)根据多目标跟踪返回的目标的检测框，读取检测框的底部中点，利用空间解析模型恢复该目标在以摄像头为原点的局部坐标系上的坐标，然后利用坐标转换方法将目标恢复到整个监控环境的全局坐标系上，得到目标的空间位置，生成目标运动轨迹；

7)根据用户确定的监控目标，分析多目标跟踪生成的目标运动轨迹，根据目标的运动方向、检测框面积、检测框位置信息判断目标是否离开当前摄像头的监控画面；

8)根据导播规则决定是否切换摄像头以及切换的对应摄像头；

9)同时开启多路摄像头画面时，首先读取视频文件对应的时间解析数据，以确定各视频起始帧对应的时刻，取多时刻的最大值为基准，找到各路视频对应该基准的帧号，并将各路视频同时从各对应帧帧开始播放；

10)在视频播放过程中，通过不断获取视频帧号，读取时间解析结果来定期检查视频是否同步；

11)使用差速播放的视频播放方法，实现多路画面的同步播放。

按上述方案，所述步骤2)中，利用离线视频制作时间戳数据集，在视频各帧的对应监控时间位置进行图像识别，得到视频各帧对应的时间戳，具体如下：

2.1)视频各帧的对应监控时间位置的图像，并截取每个数字的图片；

2.2)对截取每个数字的图片，手动打上标签：0至9，作为训练数据；

2.3)利用神经网络进行训练，得到适用于当前环境的OCR数字识别的神经网络模型；

2.4)对视频的画面依照策略进行OCR时间识别，并将识别到的数字进行有序拼接，得到当前帧对应的时间戳。

按上述方案，所述步骤3)中，对图像识别得到的各帧对应的时间戳进行校正和精确化操作，具体如下：

利用视频生成时的时间作为参考，若出现丢失现象导致解析错误即与视频生成时间误差过大时，则利用上下文解析结果校准错误；

根据同一时间出现的次数确定当前视频的秒帧率P，把该秒内的帧间时间间隔设置为1/(P-1)以将时间戳解析结果精确到了毫秒。

按上述方案，所述步骤5)中，模型以目标在监控画面中的像素坐标为输入，以目标在以摄像头位置为原点的局部坐标系上坐标为输出，使用梯度提升树时将n_estimators设置为100、max_depth设置为2，即内部含有100个深度为2的子回归树，并且使用最小二乘法表示损失函数。

按上述方案，所述步骤8)中，具体如下：

若目标还在当前监控画面中，在当前摄像头下进行视频目标重识别，找到新的目标轨迹后继续跟踪，不切换画面；

若目标离开了当前监控画面，找到当前摄像头下目标运动轨迹，随机抽样计算目标运动速度，构建速度概率分布模型，然后在近邻摄像头下生成的轨迹中进行视频目标重识别，再找到当前摄像头下运动轨迹的最后一帧，近邻摄像头下新运动轨迹的第一帧，计算上述两者间的时间差并利用包围盒方法计算目标运动距离，利用距离和时间计算出运动速度后，将运动速度放入速度概率分布模型得到映射的概率；关联目标重识别返回的视觉特征距离和概率得到新的匹配得分；若得分低于阈值，递进设定时间步(5秒)继续寻找该目标，20秒内未找到目标则判断当前目标已离开监控区域；若得分高于阈值，判断目标进入的近邻摄像头监控画面，并切换到新的监控画面。

本发明还提供一种面向室内联网视频监控的智能导播系统，包括：

视频采集模块，用于从设置在室内的联网监控摄像头拉取视频流，并以固定时长的离线视频的形式保存；

时间解析模块，用于利用离线视频制作时间戳数据集，在视频各帧的对应监控时间位置进行图像识别，得到视频各帧对应的时间戳；

空间解析模块，用于根据检测框坐标确定目标的全局物理空间位置；

具体如下：

根据多目标跟踪返回的目标的检测框，读取检测框的底部中点像素坐标作为检测框坐标，利用空间解析模型恢复该目标在以摄像头为原点的局部坐标系上的坐标，然后利用坐标转换方法将目标恢复到整个监控环境的全局坐标系上，得到目标的空间位置；

其中，空间解析模型通过利用梯度提升树为每个摄像头训练适用于当前监控环境的解析模型得到；

局部坐标系是以各路摄像头为原点，摄像头监控方向为y轴正方向建立的右手坐标系；

目标的空间位置确定模块，用于根据多目标跟踪返回的目标的检测框，读取检测框的底部中点，利用空间解析模型恢复该目标在以摄像头为原点的局部坐标系上的坐标，然后利用坐标转换方法将目标恢复到整个监控环境的全局坐标系上，得到目标的空间位置，生成目标运动轨迹；

导播模块，用于根据用户确定的监控目标，分析多目标跟踪生成的目标运动轨迹，根据目标的运动方向、检测框面积、检测框位置信息判断目标是否离开当前摄像头的监控画面；并根据导播规则决定是否切换摄像头以及切换的对应摄像头；

视频播放同步模块，用于同时开启多路摄像头画面时，首先读取视频文件对应的时间解析数据，以确定各视频起始帧对应的时刻，取多时刻的最大值为基准，找到各路视频对应该基准的帧号，并将各路视频同时从各对应帧帧开始播放。

按上述方案，所述时间解析模块中，还包括对图像识别得到的各帧对应的时间戳进行校正和精确化操作，具体如下：

按上述方案，所述导播模块中，根据导播规则决定是否切换摄像头以及切换的对应摄像头，具体如下：

按上述方案，所述视频播放同步模块还包括轮询检查模块和差速轮播放模块；

所述差速轮播放模块，用于在同时播放多路视频的过程中，采用以下视频播放方法进行同步：设某一视频播放的当前帧帧号为F₀，当前帧所处的这一秒内实际有X帧画面，摄像头设置帧率为X₀，设F_N为该视频下次播放的对应的帧号，在时间为以F₀为标准的这一秒内，该视频帧号的增长值应该为X/X₀：

当检测到进入新的一秒内时会重复上述操作；

所述轮询检查模块，用于每隔设定时间，根据各路视频正在播放时对应的帧号，在该视频的时间戳文件检索帧号对应的时间戳，根据检索结构检查各路视频是否同步，若不同步则会根据主画面对应时刻，来对副画面的各路摄像头进行强制同步。

本发明产生的有益效果是：

1)利用时空约束关系，关联基于视觉的目标重识别结果对目标身份进行判别，提高目标匹配的可靠性；

2)通过导播控制和多路视频的画面同步机制，使用户能够便捷、持续地观察感兴趣目标，知晓目标的即时状态，提升观感。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明实施例的面向室内联网视频监控的智能导播方法流程图；

图2为本发明实施例的时间解析流程图；

图3为本发明实施例的空间解析流程图；

图4为本发明实施例的包围盒方法示意图；

图5为本发明实施例的速度概率分布模型示意图。

图6为本发明实施例的导播流程示意图；

图7为本发明实施例的定位播放点机制示意图；

图8为本发明实施例的差速播放机制示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，一种面向室内联网视频监控的智能导播方法，包括步骤：

步骤1，通过rtsp协议，从监控摄像头拉取视频流，以固定时长的离线视频的形式保存，便于分析服务器对视频进行分析，如行人检测，多目标跟踪，行人重识别等。

步骤2，利用离线视频制作数据集，即在视频各帧的对应位置上，利用算法自动的截取每个数字的图片，手动打上标签(0至9)。

如图2，步骤2中，首先要确定摄像头画面上时间戳的像素位置，每隔一定的时间As采集一次数字(避免采集过多重复数据)。采集一天后可以得到24×60×60/A×12(YYYY-MM-DD H-M-S)个数字，手动为这些数据打上标签(0-9)，即放入10个不同的文件夹中。

步骤3，利用一个卷积神经网络进行训练，得到一个适用于当前监控环境的时间解析模型。

步骤3中，时间解析模块中会将字符图片拉伸至28×28后送入由两个卷积层、两个池化层、加上两个全连接层和一个输出层组成的神经网络中。在该网络的卷积层中使用了5×5的卷积核，第一次经过卷积后输出16个28×28的张量，然后在池化层中使用了2×2的窗利用最大池化的方式对图像进行下采样至14×14。第二次卷积及池化后将得到的32个7×7张量送入全连接层，然后输出至10个输出层节点得到识别出的数字。

步骤4，在分析服务器对视频(帧率为20)进行分析时，首先会对视频的帧画面进行OCR时间识别，并将识别到的数字进行有序拼接，得到当前帧对应的时间戳。

当识别到新的时间帧时，会默认其后的第2-10帧与第1帧结果相同；在识别11-15帧时采用跳帧识别的方式识别第11、13、15帧，并默认未识别帧与上一帧结果相同；对第16-20帧逐帧识别。上述过程中一旦识别到新的时间即从第一步开始。(YYYY-MM-DD H-M-S)的形式，由于该系统主要使用Python，将时间戳转化为1970纪元后经过的浮点秒数(如：1577672010.50等于2019/12/3010:13:30)，便于精确到毫秒。

步骤5，对时间解析结果进行校正和精确化操作。

由于监控摄像头画面上的时间可能出现丢失的异常现象，且往往精确到秒。该方法利用视频生成时的时间作为参考，若出现丢失现象导致解析错误即与视频生成时间误差过大时，则利用上下文解析结果校准错误。为了使时间解析结果更为精确，该方法会根据同一时间出现的次数，把该秒内的帧间时间间隔设置为1/(当前秒帧率-1)以将时间戳解析结果精确到了毫秒。

步骤6，在监控画面中选定多个参照物并记录其像素坐标，以及建立描述室内环境的全局坐标系和描述参照物与摄像头位置关系的局部坐标系。在局部坐标系上确定参照物坐标，得到与像素坐标的映射关系。

步骤7，利用梯度提升树为每个摄像头训练适用于当前监控环境的空间解析模型。

使用梯度提升树时将n_estimators设置为100、max_depth设置为2，即内部含有100个深度为2的子回归树，并且使用最小二乘法表示损失函数。

步骤8，多目标跟踪可以返回目标的检测框，读取检测框的底部中点，即可利用梯度提升树模型恢复该目标在以摄像头为原点的局部坐标系上的坐标。然后利用坐标转换方法将目标恢复到整个监控环境的全局坐标系上，得到目标的空间位置，如图3。

步骤9，当用户确定监控目标时，分析多目标跟踪生成的目标运动轨迹，根据目标的运动方向、检测框面积、检测框位置等信息判断其是否离开当前监控画面。

步骤10，根据导播规则决定是否切换摄像头以及切换到哪个摄像头。导播规则如下：

如图6，若目标未离开当前监控画面，在当前摄像头下进行视频行人重识别，找到新的目标轨迹后继续跟踪，不切换画面。若目标离开了当前监控画面，找到当前摄像头下目标运动轨迹，随机抽样计算目标运动速度，构建速度概率分布模型。然后在近邻摄像头下生成的轨迹中进行视频行人重识别。再找到当前摄像头下运动轨迹的最后一帧，新运动轨迹的第一帧，计算上述两者间的时间差并利用“包围盒”方法计算目标运动距离，利用距离和时间计算出运动速度后，将速度放入速度概率分布模型得到映射的概率。关联行人重识别返回的视觉特征距离和概率得到新的匹配得分。如得分低于阈值，递进时间步(5秒)持续寻找该目标，20秒内未找到目标则代表当前目标已离开监控区域；如得分高于阈值，切换到新的监控画面。

如图4，包围盒方法距离计算流程如下：

第一步，划分包围盒；

第二步，设置包围盒间中转点；

第三步，计算跨包围盒运动时首先计算到中转点的距离。

如图5，速度概率分布模型构建流程如下：

第一步，在多目标跟踪结果中提取目标运动轨迹信息；

第二步，随机抽取两帧(帧号间隔大于4)，计算两帧时间差、两帧内目标的空间距离；

第三步，利用时间差和空间距离计算目标运动速度；

第四步，重复第二步和第三步获得多个数据，构建速度概率分布模型。

步骤11，同时开启多路摄像头画面时，系统首先会读取视频文件对应的时间解析数据，以确定各视频起始帧对应的时刻。取多时刻的最大值为基准，找到各路视频对应该基准的帧号，并将各路视频同时从不同帧开始播放。

如图7，假设同时播放5路摄像头的画面，5个视频的首帧对应时刻分别为t₁,t₂,...,t₅。那么各路视频播放的首帧画面对应的时刻应该为T＝max(t₁,t₂,...,t₅)，帧号应为与T时刻对应的。

步骤12，在视频播放过程中，系统通过不断获取视频帧号，读取时间解析结果来定期检查视频是否同步。

每隔设定时间，根据各路视频正在播放时对应的帧号，在该视频的时间戳文件检索帧号对应的时间戳，根据检索结构检查各路视频是否同步，若不同步(误差超过0.5秒)则会根据主画面对应时刻，来对副画面的各路摄像头进行强制同步。

步骤13，使用一种“差速播放”的视频播放方法。实现多路画面的同步播放。

差速播放具体如下：在同时播放多路视频的过程中，采用以下视频播放方法进行同步：设某一视频播放的当前帧帧号为F₀，当前帧所处的这一秒内实际有X帧画面，摄像头设置帧率为X₀，设F_N为该视频下次播放的对应的帧号，在时间为以F₀为标准的这一秒内，该视频帧号的增长值应该为X/X₀：

当检测到进入新的一秒内时会重复上述操作；

如图8，设某一视频在某一秒内的帧率为F，程序设置帧率为20，当前播放的帧号为P，则在1/20秒后应播放的帧号为

根据上述方法，我们容易获得一种面向室内联网视频监控的智能导播系统，包括：

时间解析模块中，还包括对图像识别得到的各帧对应的时间戳进行校正和精确化操作，具体如下：

具体如下：

导播规则具体如下：

视频播放同步模块，用于同时开启多路摄像头画面时，首先读取视频文件对应的时间解析数据，以确定各视频起始帧对应的时刻，取多时刻的最大值为基准，找到各路视频对应该基准的帧号，并将各路视频同时从该帧号的对应帧开始播放；

视频播放同步模块还包括轮询检查模块和差速轮播放模块；

F_N＝F₀+[X/X₀]；

当检测到进入新的一秒内时会重复上述操作；

本发明设计并实现了一套面向室内联网视频监控的智能导播系统。它能够为用户提供关于感兴趣目标的实时监控画面，并且随着感兴趣目标的运动将其在不同摄像头下的画面以实时导播的方式呈现给定制用户，从而使用户能够便捷、持续地观察感兴趣目标，知晓目标的即时状态。但由于室内环境中易出现频繁遮挡、不同光源导致色彩表现不一致、目标检测框图片的分辨率大小差异大等问题，单纯依靠行人重识别技术进行目标匹配的可靠性不够。并且由于IO繁忙或网络拥堵等原因，保存的离线视频可能会存在时长一致但起始时间不一致的情况，以及各个视频的帧率与程序所设置的视频播放帧率存在较大差别的现象。针对上述问题，提出解决方案。其中，方法包括：1)利用时空约束关系，关联基于视觉的行人重识别结果对目标身份进行判别；2)在系统中设置导播规则，节省计算资源，提升观感；3)利用“定位播放点”和“差速播放”机制，使各路画面同步。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种面向室内联网视频监控的智能导播方法，其特征在于，包括以下步骤：

4)在监控画面中选定多个固定参照点并记录其像素坐标，建立描述室内环境的全局坐标系和描述参照物与摄像头位置关系的局部坐标系，并确定局部坐标系中坐标与像素坐标的映射关系；

5)利用梯度提升树为每个摄像头训练适用于当前监控环境的空间解析模型，该模型以目标在监控画面中的像素坐标为输入，以目标在以摄像头位置为原点的局部坐标系上坐标为输出；

2.根据权利要求1所述的面向室内联网视频监控的智能导播方法，其特征在于，所述步骤2)中，利用离线视频制作时间戳数据集，在视频各帧的对应监控时间位置进行图像识别，得到视频各帧对应的时间戳，具体如下：

3.根据权利要求1所述的面向室内联网视频监控的智能导播方法，其特征在于，所述步骤3)中，对图像识别得到的各帧对应的时间戳进行校正和精确化操作，具体如下：

4.根据权利要求1所述的面向室内联网视频监控的智能导播方法，其特征在于，所述步骤5)中，该模型使用梯度提升树时将n_estimators设置为100、max_depth设置为2，即内部含有100个深度为2的子回归树，并且使用最小二乘法表示损失函数。

5.根据权利要求1所述的面向室内联网视频监控的智能导播方法，其特征在于，所述步骤8)中，根据导播规则决定是否切换摄像头以及切换的对应摄像头，具体如下：

若目标离开了当前监控画面，找到当前摄像头下目标运动轨迹，随机抽样计算目标运动速度，构建速度概率分布模型，然后在近邻摄像头下生成的轨迹中进行视频目标重识别，再找到当前摄像头下运动轨迹的最后一帧，近邻摄像头下新运动轨迹的第一帧，计算上述两者间的时间差并利用包围盒方法计算目标运动距离，利用距离和时间计算出运动速度后，将运动速度放入速度概率分布模型得到映射的概率；关联目标重识别返回的视觉特征距离和概率得到新的匹配得分；若得分低于阈值，递进设定时间步继续寻找该目标，20秒内未找到目标则判断当前目标已离开监控区域；若得分高于阈值，判断目标进入的近邻摄像头监控画面，并切换到新的监控画面。

6.一种面向室内联网视频监控的智能导播系统，其特征在于，包括：

具体如下：

7.根据权利要求6所述的面向室内联网视频监控的智能导播系统，其特征在于，所述时间解析模块中，还包括对图像识别得到的各帧对应的时间戳进行校正和精确化操作，具体如下：

8.根据权利要求6所述的面向室内联网视频监控的智能导播系统，其特征在于，所述导播模块中，根据导播规则决定是否切换摄像头以及切换的对应摄像头，具体如下：

9.根据权利要求6所述的面向室内联网视频监控的智能导播系统，其特征在于，所述视频播放同步模块还包括轮询检查模块和差速轮播放模块；

当检测到进入新的一秒内时会重复上述操作；