CN110276265A

CN110276265A - 基于智能三维立体监控设备的行人监测方法及装置

Info

Publication number: CN110276265A
Application number: CN201910447820.8A
Authority: CN
Inventors: 魏运; 田青; 仝淑贞
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2019-09-24

Abstract

一种基于智能三维立体监控设备的行人监测方法及装置，对同一场景采集两张不同视角的行人图像，用立体匹配算法计算得到深度图像，将深度图像与基准彩色图像分别作为浅层和深层网络的输入，构建基于卷积特征融合的行人检测网络，获得行人检测结果；对采集到音频信息，采用语音识别算法进行异常事件关键词句识别，根据关键词句识别结果和音频图像同步校准结果截取连续帧图像，采用LSTM算法对连续帧图像的融合特征进行时域关联表征，经过全连接方式的特征映射后，采用softmax分类器进行客流状态与事件判别。采用该算法的设备包括视频图像处理及中央控制单元以及高速缓存模块、存储模块、加密芯片、网络传送模块、USB接口和电源模块。

Description

基于智能三维立体监控设备的行人监测方法及装置

技术领域

本发明属智能检测领域，尤其涉及一种基于智能三维立体监控设备的行人监测方法及装置。

背景技术

行人检测技术在行人分析、智能监控、客流统计、安防等领域都有着广泛的应用，可应用于的场景包括：学校、地铁车站、广场、商场、停车场、公园等重要场所及人流密集区域，能够实现对行人的实时检测、个体特征及群体特征与参数的提取等功能，可为基于行人检测的运动态势分析、大规模数据采集、异常事件分析、客流分析与预警等系统提供数据获取手段，本发明在传统视频监控仅采用彩色视频信息分析的基础上，创新性的提出了结合彩色信息、深度信息及语音信号结合的智能化三维立体监控方法，是对监控设备的智能化升级，也是智慧城市的重要体现所在。

国内外很多大学和科研机构均对行人检测进行过研究，并取得了一定的研究成果。从目前主要的检测方法来看，有基于激光扫描的方法、基于雷达探测的方法及基于视频图像分析的方法等。由于视频图像包含的信息比较丰富，可以直观地展现客流状态及事件情况、客流运动态势、客流所处的区域环境等重要的信息，并且相较激光设备及雷达设备来说，基于视频图像分析的方法具有成本低、易实现、适用范围广的优势，这使得基于视频图像分析的方法成为国内外研究的热点。并且，随着越来越多监控摄像头尤其是高清监控摄像头的普及，基于视频图像分析的行人检测方法将会得到更加广泛的应用和推广。现有的基于视频分析的行人监测系统可大致分为两类，一类系统采用的仍然是模板匹配的方法，而行人本身具有姿态各异的特点，因而准确率较低。另一类系统采用的是深度学习的方法，这类方法虽然通过大样本数据训练降低了行人姿态各异的影响，但仍易受光照条件及背景条件等因素的干扰，尤其是环境复杂或高密度人流情况下，检测精度较低。这也进一步影响了异常事件判别的准确度。

因此，为了提高检测精度，就需要进一步降低光照及背景条件的影响，如：采用深度图像，从而增强前景目标轮廓信息。同时，为了进一步提高异常事件的判别，还需要引入其它辅助信息，如：实时的语音信息，在决策级辅助视频手段进行异常事件判别。

发明内容

为了克服上述缺陷，本发明的目的是提供一种智能三维立体监控设备的行人监测算法和装置，通过引入深度图像和基准彩色图像构造融合特征，克服光照条件及背景干扰的问题，并通过采集语音信息辅助异常事件的判别，克服仅采用视频方法对事件判别准确率较低的问题，实现包括晚上等各种环境下的准确行人检测，可满足复杂环境下及客流密集区域的行人监测及统计。

为达到上述目的，本发明的技术解决方案是：

一种基于智能三维立体监控设备的行人监测方法，步骤包括：

1)进行彩色图像采集，获取两个不同视角下的某一监控区域图像，并根据二维视差优化下的立体匹配算法，将彩色图像转换成深度图像，深度图像和彩色图像都有时间标记；

2)通过构造浅层特征提取网络，自动提取深度图像的卷积特征；

3)通过构造深层特征提取网络，自动提取基准彩色图像的卷积特征；

4)在中间层统一浅层特征提取网络和深层特征提取网络特征图的宽度和高度，并对两种特征进行通道信息融合，保存融合特征信息；

5)通过加载卷积特征分类器进行分类判别，判断各目标是否为行人：

如果判别为否，直接滤除该目标；

如果判别为是，确认为行人检测结果(检测结果以矩形目标检测框表示，包括其在图像中的位置和大小)；然后进入步骤6)；

6)根据采集到的语音信息，采用语音识别算法实现关键词句识别，进行异常事件关键词句判别；

如果判别为否，不进行连续帧融合特征读取操作，进入步骤8)；

如果判别为是，读取对应连续帧的融合特征信息，进入步骤7)；

7)将各组图像对应的融合特征按照时间顺序排列后，采用LSTM网络融合连续帧图像的关联特征，采用全连接方式进行特征映射，根据Softmax分类器对异常事件判别；

如果判别为否，不进行报警，进入步骤8)；

如果判别为是，报警并显示异常事件类别，清除已存储的融合特征，进入步骤8)；

8)对结合深度图像和彩色图像的判断得到所确认的行人检测结果，统计当前区域内客流量，根据摄像头架设角度、内参及架设高度计算监控区域面积，进一步统计当前区域内客流密度、行人高度等信息，并将异常事件判别结果与客流参数显示。

本方法中：

由于深度图像相较彩色图像所含信息更为单一，为了防止模型过拟合，因此针对深度图像构造的特征提取网络更为简单，针对彩色图像构造的特征提取网络较为复杂，然后通过深度图像和彩色图像卷积特征的通道融合实现特征融合表征。(见图4)

通过预先建立一系列的行人样本，包括多种场景、多种角度、多种姿态的行人样本，根据设计好的网络框架训练生成行人目标特征分类器。

通过采集摄像头架设角度、内参及架设高度，根据三角测距原理计算监控区域面积，结合统计出的客流量计算得到客流密度，根据客流密度可对异常事件的发生进行初步的分析预警。

通过语音识别算法对采集到的语音信息进行关键词句的识别，根据识别出的语义信息，进一步分析异常事件所属的类别，包含严重拥挤、踩踏、斗殴等。

一种采用上述方法的基于智能三维立体监控设备的行人监测装置，包括智能三维立体监控设备(同时采集音频信息及彩色图像并进行同步校正)、视频图像处理及中央控制单元、高速缓存模块、存储模块、加密芯片、网络传送模块、USB接口和电源模块；电源模块与其它各模块电连接。视频图像处理及中央控制单元控制各模块协同工作。

所述的装置中，智能三维立体监控设备包括双目彩色CCD/彩色CMOS、拾音器、彩色图像采集及控制单元、音频信号采集及控制单元和音频图像同步校正模块；彩色图像采集及控制单元向彩色CCD/彩色CMOS发送控制信号，确定其采样帧率及分辨率；双目彩色CCD/彩色CMOS获取到的二维阵列数据逐帧经视频图像采集及控制单元进行预处理及编码，逐帧转换成普通RGB彩色图像；音频信号采集及控制单元将语谱图像传送到音频图像同步校正模块，彩色图像采集及控制单元将彩色图像逐帧传送到音频图像同步校正模块；音频图像同步校正模块将接收到的语谱图像和彩色图像进行时间和空间同步校准后，发送至视频图像处理及中央控制单元。

彩色图像采集及控制单元控制与双目彩色CCD(或彩色CMOS)通过控制线和数据线相连，彩色图像采集及控制单元通过控制线向彩色CCD(或彩色CMOS)发送控制信号，确定其采样帧率及分辨率。双目彩色CCD(或彩色CMOS)获取到的二维阵列数据逐帧通过数据线传送到视频图像采集及控制单元，并经视频图像采集及控制单元进行预处理及编码，逐帧转换成普通RGB彩色图像序列。

音频信号采集及控制单元和彩色图像采集及控制单元与图像同步校正模块连接。音频信号采集及控制单元将语谱图像传送到音频图像同步校正模块，彩色图像采集及控制单元将彩色图像逐帧传送到图像同步校正模块，图像同步校正模块将接收到的语谱图像和彩色图像进行时间和空间同步校准后，逐帧发送至视频图像处理及中央控制单元。

本装置中：

视频图像处理及中央控制单元逐帧接收智能三维立体监控设备通过图像同步校正模块发送过来的语谱图像和彩色图像，按照前述算法进行实时处理，获取行人检测跟踪结果，及客流计数、行人高度及异常事件判别预警结果信息，并将这些结果及深度图像和彩色图像通过网络传送模块发送至远端服务器或远程监控终端。

视频图像处理及中央控制单元与存储模块、高速缓存模块直接电连接，将客流监控结果及深度图像和彩色图像以视频形式编码后存储到存储模块中，并从存储模块读取系统设置参数、网络设置参数和行人目标特征分类器，加载到高速缓存模块。

加密芯片与视频图像处理及中央控制单元连接，作用是对视频图像处理及中央控制单元进行加密保护。

本装置的工作流程为：

步骤a.视频图像处理及中央控制智能三维立体监控设备启动；

音频信号采集及控制单元控制开启拾音器，接收音频信号，把这些音频信号数据经预处理及编码，转换成语谱图数据，再发送至音频图像同步校正模块；

同时，彩色图像采集及控制单元控制双目彩色CCD彩色/CMOS工作，并接收彩色CCD/彩色CMOS发送的二维阵列数据，把这些转换为双目RGB彩色图像数据，并发送至图像同步校正模块；

图像同步校正模块接收语谱图数据和RGB彩色图像数据，进行时间和空间同步校准后，发送至视频图像处理及中央控制单元；

步骤b.视频图像处理及中央控制单元接收智能三维立体监控设备发送过来的语谱图数据和双目RGB彩色图像数据，采用实时立体匹配算法生成深度图像，并从存储模块读取系统设置参数、网络设置参数；所述语谱图数据、双目RGB彩色图像数据、深度图像数据、系统设置参数、行人目标特征分类器和关键词句分类器加载到高速缓存模块，并按照所述基于智能三维立体监控的行人监测方法进行实时处理，获取行人检测结果，存入缓存队列；

步骤c.从缓存队列读取前帧检测结果，确定目标出现位置，进而进行客流量统计，并计算客流密度参数，根据预先设定的异常事件参数预警值，判别是否有异常事件发生，进一步通过语谱图识别异常事件种类，并将这些结果及深度图像和彩色图像通过接口模块发送至远端服务器或远程监控终端；

步骤d.返回步骤a。

附图说明：

图1为基于智能三维立体监控设备的行人监测方法流程图。

图2为基于智能三维立体监控设备的行人检测方法示意图。

图3为基于智能三维立体监控设备的行人监测装置结构原理示意图。

图4为基于深度图像和彩色图像的行人检测网络框架示意图。

图5、6、7和8为垂直拍摄时深度图像样本示例,

图9、10、11和12为倾斜拍摄时深度图像样本示例，

图13、14、15和16为彩色图像样本示例。

具体实施方式：

下面结合附图与具体实施方式对本技术方案进一步说明如下：

如图1，本例的基于智能三维立体监控设备的行人监测方法，步骤包括：

如果判别为否，直接滤除该目标；

如果判别为否，不进行报警，进入步骤8)；

所述步骤2)中，浅层特征提取网络仅设计了6层，用于提取信息较为单一的深度图像，网络设计中使用了3个5×5的卷积核和3个2×2的池化核，激活函数采用了PReLU。见图4。

所述步骤3)中，深层特征提取网络设计了16层，用于提取信息较为丰富的基准彩色图像，网络设计中，为了提高特征表征能力，采用NIN的方式加深特征提取层层数， 7层选择了3×3的卷积核、6层选择了1×1的卷积核、3层选择了2×2的池化核。见图4。

所述步骤4)中，通过构建后续特征提取网络进行通道信息融合，分别采用了3×3的卷积核和1×1的卷积核进行通道信息融合，提高网络特征表征能力。

所述步骤5)中，根据深度图像和彩色图像样本构建样本集，训练生成行人目标特征分类器。

所述步骤6)中，通过语音识别算法对采集到的语音信息进行关键词句的识别，根据识别出的语义信息，初步判别有无异常事件发生，作为连续帧图像的融合特征读取的依据。

所述步骤7)中，对时间连续的融合特征通过LSTM网络提取关联信息，并以全连接的方式进行特征映射，根据分类器结果判别异常事件类别。见图4。

所述步骤8)中，通过采集摄像头架设角度、内参及架设高度，根据三角测距原理计算监控区域面积，结合统计出的客流量计算得到客流密度，根据客流密度可对异常事件的发生进行初步的分析预警。

如图3，本例的采用所述方法的基于智能三维立体监控设备的行人监测装置，包括智能三维立体监控设备(同时采集音频信息及彩色图像并进行同步校正)、视频图像处理及中央控制单元、高速缓存模块、存储模块、加密芯片、接口模块和电源模块；电源模块与其它各模块电连接。

所述智能三维立体监控设备包括双目彩色CCD/彩色CMOS、拾音器、彩色图像采集及控制单元、音频信号采集及控制单元和音频图像同步校正模块；

彩色图像采集及控制单元向彩色CCD/彩色CMOS发送控制信号，确定其采样帧率及分辨率；双目彩色CCD/彩色CMOS获取到的二维阵列数据逐帧经视频图像采集及控制单元进行预处理及编码，逐帧转换成普通RGB彩色图像；

音频信号采集及控制单元将音频信号传送到音频图像同步校正模块，彩色图像采集及控制单元将彩色图像逐帧传送到音频图像同步校正模块；音频图像同步校正模块将接收到的音频信号和彩色图像进行时间和空间同步校准后，逐帧发送至视频图像处理及中央控制单元；

视频图像处理及中央控制单元逐帧接收智能三维立体监控设备通过音频图像同步校正模块发送过来的音频信号和彩色图像，按照所述基于智能三维立体监控设备的行人监测方法进行实时处理，获取行人检测结果、客流计数及异常事件判别预警结果信息，得到客流监控结果；视频图像处理及中央控制单元将客流监控结果及深度图像和基准彩色图像以视频形式编码后存储到存储模块中，并从存储模块读取系统设置参数及行人目标特征分类器和关键词句分类器，加载到高速缓存模块；

视频图像处理及中央控制单元将这些客流监控结果及深度图像和基准彩色图像通过接口模块发送至远端服务器或远程监控终端。

本例的行人监测装置工作流程为：

步骤d.返回步骤a。

所述接口模块包括网络传送模块和USB接口模块，它们都与视频图像处理及中央控制单元进行数据交换。

所述加密芯片与视频图像处理及中央控制单元连接，作用是对视频图像处理及中央控制单元进行加密保护。

进一步说明如下：

如图1所示，描述了基于智能三维立体监控设备的行人监测方法流程。首先进行双目图像采集，获取某一监控区域的基准彩色图像和待匹配彩色图像，采用立体匹配算法计算得到与基准彩色图像对应的深度图像，分别构建面向基准彩色图像的深层特征提取网络和面向深度图像的浅层特征提取网络，并采用通道融合的方法实现两种特征融合，然后对提取到的感兴趣区域根据特征融合结果判别目标是否为行人。如果判别为否，直接滤除该目标样本。对判断为是的目标区域处的对应的彩色图像，显示检测结果(检测结果以矩形目标检测框表示，包括其在在图像中的位置和大小)。同时，根据语音识别结果判别有无异常事件发生，如果判别为否，不进行报警，如果判别为是，根据时间标记读取连续帧图像的融合特征，采用LSTM网络提取时域关联特征并根据 softmax分类器对异常事件进行判别。结合摄像头内参、架设角度、架设高度，根据三角测距原理计算行人高度信息、待检测区域面积，进一步完成客流数目和客流密度等参数计算，并对所有监测结果可视化显示。

如图2所示，为基于智能三维立体监控设备的行人检测方法示意图。在网络框架设计阶段，通过采集行人深度图像和彩色图像样本，建立样本库，计算深度图像和彩色图像特征，训练生成融合特征的行人目标分类器。监测过程以图示形式表示，步骤为首先采集双目彩色图像及语音信号，采用立体匹配算法计算深度图像，同时完成语谱图像的生成，然后将基准彩色图像和深度图像作为网络输入，设定好网络参数，进行融合特征提取并进行行人目标，获得行人检测结果，如图中蓝框和橙框所示，采用语音识别算法进行关键词句识别，根据识别结果与时间标记，对发生异常事件的连续帧图像的融合特征进行LSTM建模并实现分类判别。最后根据三角测距原理，结合摄像头内参、架设高度、架设角度计算待检测区域面积，统计客流数目及客流密度，并将所有监测结果显示。

如图3所示，描述了基于智能三维立体监控设备的行人监测装置结构。该装置包括智能三维立体监控设备、视频图像处理及中央控制单元以及存储模块、网络传送模块和电源模块。电源模块与其它各模块电连接。智能三维立体监控设备包括双目彩色 CCD/彩色CMOS、拾音器、彩色图像采集及控制单元、音频信号采集及控制单元和音频图像同步校正模块。

音频信号采集及控制单元将语谱图像传送到音频图像同步校正模块，彩色图像采集及控制单元将彩色图像逐帧传送到音频图像同步校正模块；音频图像同步校正模块将接收到的语谱图像和彩色图像进行时间和空间同步校准后，逐帧发送至视频图像处理及中央控制单元；

视频图像处理及中央控制单元逐帧接收智能三维立体监控设备通过音频图像同步校正模块发送过来的语谱图像和彩色图像，按照所述基于智能三维立体监控设备的行人监测方法进行实时处理，获取行人检测结果、客流计数及异常事件判别预警结果信息，得到客流监控结果；视频图像处理及中央控制单元将客流监控结果及深度图像和基准彩色图像以视频形式编码后存储到存储模块中，并从存储模块读取系统设置参数及行人目标特征分类器和关键词句分类器，加载到高速缓存模块；

视频图像处理及中央控制单元将这些客流监控结果及深度图像和基准彩色图像通过接口模块发送至远端服务器或远程监控终端，同时存储到存储模块中。。

电源模块根据其它各模块需要提供多路电源供电。

如图4所示，为基于深度图像和彩色图像的行人检测网络框架示意图，针对彩色图像构建了16层特征提取网络，得到深层卷积特征，针对深度图像构建了6层特征提取网络，得到浅层卷积特征，通过统一深层和浅层卷积特征的宽和高，进一步实现通道融合，之后进一步进行通道信息融合得到行人目标的融合特征，采用全连接的方式实现行人特征的稀疏表征，设计Softmax分类器实现行人目标的检测。

如图5、6、7和8为垂直拍摄时深度图像样本示例，图9、10、11和12为倾斜拍摄时深度图像样本示例，图13、14、15和16为彩色图像样本示例。由于双目摄像头在倾斜角度不同时所获取的原始图像中行人特征差异较大，需根据倾斜角度设置多组样本。

现有技术中，基准彩色图像是指通过双目彩色相机对同一场景拍摄并进行立体匹配时，通常选择左相机拍摄的图像作为基准彩色图像，右相机拍摄的图像作为待匹配彩色图像，通过立体匹配算法计算出的深度图像与基准彩色图像的像素位置信息是一致的。

现有技术中，通道(信息)融合是指对两种或多种宽度高度一致的特征图，在通道这一维度上进行拼接实现多种特征整合，形成表征能力更强的特征，然后通过3×3 和1×1的卷积核进一步对整合后的特征进行通道信息融合，提高网络拟合能力。

Claims

1.一种基于智能三维立体监控设备的行人监测方法，其特征是步骤包括：

1)采集语音和彩色图像；

获取两个不同视角下的某一监控区域的彩色图像，并将彩色图像转换成深度图像；深度图像和彩色图像都进行时间标记；

2)通过构造浅层特征提取网络，提取深度图像的卷积特征；

3)通过构造深层特征提取网络，提取彩色图像的卷积特征；

4)在中间层统一浅层特征提取网络和深层特征提取网络特征图的宽度特征和高度特征，并对两种特征进行通道信息融合，保存融合特征信息；

5)通过加载卷积特征分类器对步骤4)得到的特征信息进行分类判别，判断各目标是否为行人：

如果判别为否，则直接滤除该目标；

如果判别为是，则确认为行人检测结果，然后进入步骤6)；

6)把采集到的语音信息进行关键词句识别，进而判断是否为异常事件关键词句；

如果判别为否，则进入步骤8)；

如果判别为是，则进入步骤7)，读取对应连续帧的融合特征信息；

7)将各组图像对应的融合特征按照时间顺序排列后，采用长短期记忆LSTM网络融合连续帧图像的关联特征，采用全连接方式进行特征映射，根据Softmax分类器判别连续帧图像是否为异常事件；

如果判别为否，则不进行报警，进入步骤8)；

如果判别为是，则报警，并显示异常事件类别，清除已存储的融合特征信息，进入步骤8)；

8)对结合深度图像和彩色图像的判断得到所确认的行人检测结果，统计当前区域内客流量；根据摄像头架设角度、内参及架设高度计算监控区域面积，进一步统计当前区域内客流密度、行人高度信息，并显示异常事件判别结果与客流参数。

2.根据权利要求1所述的方法，其特征是所述步骤2)中，浅层特征提取网络设计了6层，用于提取深度图像；浅层特征提取网络中使用了3个5×5的卷积核和3个2×2的池化核，激活函数采用了PReLU。

3.根据权利要求1所述的方法，其特征是所述步骤3)中，深层特征提取网络设计了16层，用于提取基准彩色图像；深层特征提取网络中，采用NIN的方式加深特征提取层层数，7层选择3×3的卷积核、6层选择1×1的卷积核、3层选择2×2的池化核。

4.根据权利要求1所述的方法，其特征是所述步骤4)中，通过构建后续特征提取网络进行通道信息融合，后续特征提取网络采用了3×3的卷积核和1×1的卷积核进行通道信息融合。

5.根据权利要求1所述的方法，其特征是所述步骤5)中，根据深度图像和彩色图像样本构建样本集，训练生成用于行人目标特征分类的卷积特征分类器。

6.根据权利要求1所述的方法，其特征是所述步骤8)中，通过采集摄像头架设角度、内参及架设高度，根据三角测距原理计算监控区域面积，结合统计出的客流量计算得到客流密度，根据客流密度可对异常事件的发生进行分析预警。

7.一种采用权利要求1～6任一所述方法的基于智能三维立体监控设备的行人监测装置，其特征是包括智能三维立体监控设备、视频图像处理及中央控制单元、高速缓存模块、存储模块、接口模块和电源模块；电源模块与其它各模块电连接；

智能三维立体监控设备包括双目彩色CCD/彩色CMOS、拾音器、彩色图像采集及控制单元、音频信号采集及控制单元、音频图像同步校正模块；同时采集语音信息及彩色图像并进行同步校正；

彩色图像采集及控制单元向彩色CCD/彩色CMOS发送控制信号，确定其采样帧率及分辨率；双目彩色CCD/彩色CMOS获取到的二维阵列数据逐帧经视频图像采集及控制单元进行预处理及编码，逐帧转换成普通RGB的彩色图像；

视频图像处理及中央控制单元逐帧接收音频信号和彩色图像，按照所述基于智能三维立体监控设备的行人监测方法进行实时处理，获取行人检测结果、客流计数及异常事件判别预警结果信息，并得到客流监控结果；视频图像处理及中央控制单元将客流监控结果、深度图像和基准彩色图像以视频形式编码后存储到存储模块中，并从存储模块用于行人目标特征分类的卷积特征分类器、用于语音关键词句判别的分类方法，把它们加载到高速缓存模块；

视频图像处理及中央控制单元将这些客流监控结果、深度图像和基准彩色图像通过接口模块发送至远端服务器或远程监控终端。

8.根据权利要求7所述的行人监测装置，其特征是本行人监测装置工作流程为：

步骤d.返回步骤a。

9.根据权利要求8所述的行人监测装置，其特征是所述接口模块包括网络传送模块和USB接口模块，它们都与视频图像处理及中央控制单元进行数据交换。

10.根据权利要求8所述的行人监测装置，其特征是还包括加密芯片；所述加密芯片与视频图像处理及中央控制单元连接，作用是对视频图像处理及中央控制单元进行加密保护。