CN107527045A

CN107527045A - 一种面向多路视频的人体行为事件实时分析方法

Info

Publication number: CN107527045A
Application number: CN201710851835.1A
Authority: CN
Inventors: 蒙儒省; 徐增敏; 滕盛弟; 丁勇; 赵汝文; 李春海
Original assignee: Guilin Anne Technology Co Ltd
Current assignee: Guilin Anne Technology Co Ltd
Priority date: 2017-09-19
Filing date: 2017-09-19
Publication date: 2017-12-29

Abstract

本发明公开一种面向多路视频的人体行为事件实时分析方法，前端摄像机通过RTMP协议将采集到的视频内容推送到服务器端；服务器接收视频内容并将RTMP协议流媒体转换为HLS协议；服务器开启索引文件定时扫描线程，读取HLS协议中的M3U8索引文件，得到索引中指定的TS视频文件名，并将其加入作业队列；循环读取队列中的作业，每个作业在服务器端开启相应子线程，子线程并发地对每个作业的视频内容进行分析识别；将分析识别的结果写入原视频片段，最终展现到客户端，或将信息提交到其他预警系统中。本发明采用多路并发处理前端摄像机的视频流数据，后台服务器的多线程直接对前端多路摄像机做一对一的多路并发处理，从而实时响应多路视频的人体行为事件分析。

Description

一种面向多路视频的人体行为事件实时分析方法

技术领域

本发明涉及视频分析技术领域，具体涉及一种面向多路视频的人体行为事件实时分析方法。

背景技术

目前绝大部分监控视频数据的处理与分析靠人工完成，城市安全体系仍停留在传统劳动密集型工作模式基础上，因此如何有效分析海量视频数据成为一个亟待解决的问题。

发明内容

本发明所要解决的是现有技术无法对视频特别是多路视频进行人体行为识别的问题，提供一种面向多路视频的人体行为事件实时分析方法。

为解决上述问题，本发明是通过以下技术方案实现的：

一种面向多路视频的人体行为事件实时分析方法，包括步骤如下：

步骤1.前端摄像机通过RTMP协议将单路视频内容推送到服务器端；

步骤2.服务器端接收多路来自前端摄像机的视频内容后，将每路RTMP协议的流媒体转换为相应HLS协议；

步骤3.将步骤2中多路HLS协议的M3U8索引文件和视频片段写入指定位置；

步骤4.开启定时任务，读取多路M3U8索引文件，将其新的视频片段加入作业队列中；

步骤5.循环读取步骤4队列中的作业，开启多路子线程并发处理每个作业，得到单路视频片段；

步骤6.在步骤5的子线程中，对单路视频片段进行特征采样和特征预处理；

步骤7.在步骤5的子线程中，用提前训练好的模型，来进行单路视频片段的编码量化和池化操作；

步骤8.在步骤5的子线程中，用提前训练好的分类器，来预测单路视频片段中人体行为事件的类别；

步骤9.将分析识别结果写入到对应单路视频片段，并将该作业从队列中删除，同时将识别结果提交到预警系统中；

步骤10.通过HTTP服务，将已识别的多路视频通过HLS协议提供给用户进行访问。

上述步骤5中，对每一路子线程进行如下作业：

步骤5.1.利用提前训练好的Faster R-CNN模型，对于当前作业的视频片断，逐帧检测图像帧中的人体目标区域，并生成人体目标框；

步骤5.2.对于步骤5.1所生成的当前图像帧上的n个人体目标框的左上角坐标和右下角坐标分别为(x₁,y₁),(x₂,y₂)；......(x_n,y_n),(x_n2,y_n2)；先将所有n个人体目标框按各自框的宽和高扩大至预定倍数，且保证人体目标框的坐标不超过当前图像帧的宽和高；再将所有这些放大后的人体目标框的并集作为前景目标运动区域，得到后续处理所需的带有前景人体目标区域的单路视频片段。

上述步骤6的子步骤为：

步骤6.1.通过TS视频片段名读取单路视频片段内容，使用ffmpeg降低视频片段的分辨率，并根据视频帧分辨率降低的比例来降低视频片段的前景人体目标区域；

步骤6.2.对步骤6.1所得视频片段的前景人体目标区域进行网格单元的特征采样；即通过MF特征对选出的网格单元相关信息进行直方图统计，并对统计结果做归一化，然后拼接相邻的网格单元，进行L2归一化后得到最终的MF特征。

与现有技术相比，本发明采用多路并发处理前端摄像机的视频流数据，后台服务器的多线程直接对前端多路摄像机做一对一的多路并发处理，从而实时响应多路视频的人体行为事件分析。

附图说明

图1为一种面向多路视频的人体行为事件实时分析方法的流程图。

图2为脚本的处理流程图。

图3为开启多路子线程并发处理每个作业的流程图。

图4为MF的特征向量组成图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，并参照附图，对本发明进一步详细说明。

一种面向多路视频的人体行为事件实时分析方法，包括以下步骤：

步骤1：前端摄像机通过RTMP协议将单路视频内容推送到服务器端。

从前端摄像设备(如监控摄像机、嵌入式系统、手机等)读取视频内容后，利用ffmpeg将视频内容通过RTMP协议推送至服务器端，此过程在10路视频测试的平均延迟时间为0.5秒。RTMP协议的报文依次由基本头、消息头、时间戳和数据块组成。

步骤2：服务器端接收多路来自前端摄像机的视频内容后，将每路RTMP协议的流媒体转换为相应HLS协议。

Nginx服务器加载nginx-rtmp-module模块后，在配置文件的application节点中配置hls on。Nginx可并发地处理多路来自客户端的RTMP视频流媒体，在接收到每路RTMP流媒体之后，Nginx服务器会将其转换为HLS协议，此过程在10路视频测试的平均延迟时间为0.4秒。

步骤3：将步骤2中多路HLS协议的M3U8索引文件和视频片段写入指定位置。

在Nginx配置文件中按照rtmp->server->application选项设置hls_path属性，将其设为/tmp/hls目录。在将RTMP协议转为HLS协议时，Nginx会自动把每个视频片段文件存入此目录中，同时更新M3U8文件，此过程在10路视频测试的平均延迟时间为2.5秒。

步骤4：开启定时任务，读取多路M3U8索引文件，将其新的视频片段加入作业队列中。

在Nginx配置文件中按照rtmp->server->application选项设置exec属性，将其指向服务器中的shell脚本，并且在脚本后面附加$name参数，此属性配置如下：

exec/opt/nginx/sbin/rtmp-hls.sh$name；

其中/opt/nginx/sbin/rtmp-hls.sh脚本的处理流程如图2所示。在接收RTMP流媒体的时，此脚本将每5s执行一次。

步骤5：循环读取步骤4队列中的作业，开启多路子线程并发处理每个作业。

编写服务进程，让其不断地循环扫描队列中是否有新作业出现；判断队列是否为空，如果是则让进程休眠一秒，不是则开启子线程并行处理每个作业；当每个作业的子线程完成处理后，继续扫描队列中是否有新作业出现。执行过程如图3所示。

对每一路子线程进行如下作业：

步骤5.1.利用提前训练好的Faster R-CNN模型，对于当前作业的视频片断，逐帧检测图像帧中的人体目标区域，并生成人体目标框。

步骤5.2.分析步骤5.1得到的人体目标框，生成前景目标运动区域。

设当前图像帧n个人体目标框的左上角坐标和右下角坐标分别为(x₁,y₁),(x₂,y₂)；......(x_n,y_n),(x_n2,y_n2)。先将所有n个人体目标框按各自框的宽和高扩大至预定倍数(如1.5倍)，并保证扩大后的人体目标框坐标不超过当前视频帧的宽和高，然后选定这些放大后的人体目标框的并集作为前景目标运动区域，得到后续处理所需的前景人体目标区域的单路视频片段。

步骤6：在步骤5的子线程中，对单路视频片段进行特征采样和特征预处理。

步骤6.1.通过TS视频片段名读取该单路视频片段内容，使用ffmpeg降低视频片段的分辨率，根据视频帧分辨率降低的比例来降低步骤5.2获取的前景人体目标区域。

步骤6.2.对步骤6.1所得前景人体目标区域进行网格单元的特征采样；即通过MF特征对选出的网格单元相关信息进行直方图统计，并对统计结果做归一化，然后拼接相邻的网格单元，进行L2归一化后得到最终的MF特征。

在一个视频帧立体空间中基于RGB图像和MPEG运动矢量直方图来描述行为局部特征。受MPEG运动矢量宏块16×16像素的分辨率约束，MPEG flow(简称MF)特征定义的最小单位为16像素×16像素×5帧的网格单元(grid cell，如图4所示)，以便与运动矢量宏块对齐(图4中灰色点所示)。根据步骤5.2获取的前景人体目标区域筛选当前帧的网格单元。

MF同时使用了双线性插值方法来提高空间分辨率(图4中白色点所示)。MF特征中的HOF描述符利用MPEG运动矢量建立了9个方向的统计直方图，而MBHx和MBHy描述符则分别通过MPEG运动矢量的X方向和Y方向空间梯度值构造了9个方向的统计直方图。假设在视频帧的空间邻域为16像素×16像素、时间长度为5帧的网格单元计算MF特征，则每个MF特征描述的是32像素×32像素×15帧的时空卷。

特征预处理的方法为：通过PCA白化和L2归一化，将上文MF特征共396维的HOG、HOF和MBH描述符算子降维到198维，预处理的变换公式如下：

x＝ΛU^Tf

其中f∈R^M是原始特征，x∈R^N是PCA白化之后的特征，U∈R^M×N是PCA降维矩阵，Λ是对角矩阵并且λ_i是第i个协方差矩阵的最大特征值。特征采样和特征预处理在10路视频测试的平均速度为37fps。

步骤7：在步骤5的子线程中，用提前训练好的模型，来进行单路视频片段的编码量化和池化操作。

利用预先训练好的混合高斯模型(GMM)，可使用vlfeat工具箱的vl_gmm函数进行字典(码本)学习，然后再调用vlfeat工具箱的vl_fisher函数对视频进行编码量化后生成码字。FV编码在10路视频测试的平均速度为26fps。

混合高斯模型可表示为：

其中，模型参数θ＝{π₁,μ₁,σ₁,…,π_K,μ_K,σ_K}中π、μ和σ分别表示GMM的权重、均值和协方差，k表示有k个高斯模型，X表示视频中人体行为事件的时空特征(如MF、HOF、HOG等)。

根据GMM模型对视频进行编码量化的Fisher Vector(FV)可表示为：

其中π_k、μ_k、σ_k分别表示第k个混合高斯的权重、均值和方差，γ_k表示特征向量X(如IDT、DT等)第k个高斯模型的权重。

经过GMM+FV编码生成的码字，即fisher vectors是将所有和串联后形成的2DK维向量。

步骤8：在步骤5的子线程中，用提前训练好的分类器，来预测单路视频片段中人体行为事件的类别。

在步骤7中得到了对应视频量化后的数据，利用支持向量机(SVM)训练分类超平面，生成多个指定行为事件类别的二分类器，然后使用这些训练好的分类器预测新视频片段中人体行为事件的类别。调用libsvm工具箱中的svmtrain函数完成分类器的训练。

支持向量机训练分类超平面的方法可表示为：

输入：线性可分的m个样本(x₁,y₁),(x₂,y₂),...,(x_m,y_m)，其中x为n维特征向量，y为对应视频样本所属的行为类别，其值为1或-1，分别代表正样本或负样本。

输出：分离超平面的参数w^*,b^*和分类决策函数。

得到的分类决策函数：

f(x)＝sign(w^*·x+b^*)

其中，w^*是法向量，b^*是截距，x是码字。

在预测过程中，根据分类决策函数计算得当前视频与所有预先训练的样本对比的得分(相似概率)，对得分进行降序排列，从中选出前三个行为类别，如果最大得分小于1.7，则认为此视频中的行为是未知行为。根据SVM训练好的分类器，预测新视频中人体行为事件所属类别的过程，在10路视频测试的平均速度为34fps。

步骤9：将分析识别结果写入到对应视频片段，并将该作业从队列中删除，同时将识别结果提交到预警系统中。

从步骤7中的并行识别线程传递到处理线程的参数：$video_name,$action1,$prob1,$action2,$prob2,$action3,$prob3

执行过程：读取参数中的行为类别和对应概率，拼接成一条shell语句；判断$video_name指向的视频片段是否存在，如果不存在则不执行写入结果的操作；利用ffmpeg将行为类别和对应概率写入视频中，并将参数中的识别结果提交到预警系统中。此过程在10路视频测试的平均延迟时间为0.3秒。

步骤10：通过HTTP服务，将已识别的多路视频通过HLS协议提供给显示终端或其它系统模块访问。

在Nginx的配置文件中，从rtmp->server选项新增一个与hls_path同名的location，将root属性指向hls_path的父目录，并且增加如下配置：

本发明的前端摄像机通过RTMP协议将采集到的视频内容推送到服务器端；服务器接收视频内容并将RTMP协议流媒体转换为HLS协议；服务器开启索引文件定时扫描线程，读取HLS协议中的M3U8索引文件，得到索引中指定的TS视频文件名，并将其加入作业队列；循环读取队列中的作业，每个作业在服务器端开启相应子线程，子线程并发地对每个作业的视频内容进行分析识别；将分析识别的结果写入原视频片段，最终展现到客户端，或将信息提交到其他预警系统中。

需要说明的是，尽管以上本发明所述的实施例是说明性的，但这并非是对本发明的限制，因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下，凡是本领域技术人员在本发明的启示下获得的其它实施方式，均视为在本发明的保护之内。

Claims

1.一种面向多路视频的人体行为事件实时分析方法，其特征是，包括步骤如下：

2.根据权利要求1所述一种面向多路视频的人体行为事件实时分析方法，其特征是，步骤5对每一路子线程进行如下作业：

3.根据权利要求2所述一种面向多路视频的人体行为事件实时分析方法，其特征是，步骤6的子步骤为：