CN113537165B

CN113537165B - 一种行人打闹的检测方法和系统

Info

Publication number: CN113537165B
Application number: CN202111077792.9A
Authority: CN
Inventors: 宋旭军; 黄双龙; 杨超
Original assignee: Hunan Xindatong Information Technology Co ltd
Current assignee: Hunan Xindatong Information Technology Co ltd
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2021-12-07
Anticipated expiration: 2041-09-15
Also published as: CN113537165A

Abstract

本发明公开了一种行人打闹的检测方法和系统，涉及地铁视频识别领域。该方法包括：提取实时待检测的视频信息，通过稠密光流算法过滤掉所述视频信息中位移量小于预设阈值的第一干扰因素，通过yolo5s模型去除过滤后的所述视频信息中的第二干扰因素，将去除所述第二干扰因素的所述视频信息发送到改进后的CRNN模型中，对所述视频信息进行识别和分类，对分类结果进行判断，如果超过告警阈值，则发送告警提示，通过本方案稠密光流算法、yolo5s模型和CRNN模型结合进行相比较以往单纯的分类方案大大降低误报率。

Description

一种行人打闹的检测方法和系统

技术领域

本发明涉及地铁视频识别领域，尤其涉及一种行人打闹的检测方法和系统。

背景技术

安全是一个家庭和社会赖以生存和发展的基础,尤其是在信息技术快速发展的今天,强大的安防系统必定会使城市的安全更有保障性。公共场所例如地铁等场景一旦出现打闹或斗殴，应该第一时间有监控告警使得安防人员能立刻出现避免不必要的损失。

现有的打闹检测方案包括：光流变化、人体关键点、图像分类等方法来识别，但也存在相对的不足，例如单纯的光流只能判别图像中的运动剧烈程度，而基于人体关键点配合图神经网络的方式又只适合少量人的场景，直接图像分类往往存在大量误报漏报的情况，必须考虑多帧的图像来识别。而在地铁场景下行人往往较多，现有方案都无法在人流密集的情况下进行准确识别。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种行人打闹的检测方法和系统。

本发明解决上述技术问题的技术方案如下：

一种行人打闹的检测方法，包括：

S1，提取实时待检测的视频信息；

S2，通过稠密光流算法过滤掉所述视频信息中位移量小于预设阈值的第一干扰因素；

S3，通过yolo5s模型去除过滤后的所述视频信息中的第二干扰因素；

S4，将去除所述第二干扰因素的所述视频信息发送到改进后的CRNN模型中，对所述视频信息进行识别和分类；

S5，对分类结果进行判断，如果超过告警阈值，则发送告警提示。

本发明的有益效果是：本方案通过稠密光流算法过滤掉视频信息中没有剧烈运动的场景，有效减少后续识别的计算数据量。

通过yolo5s模型去除视频信息中没有人的场景，进一步精确定位到目标识别区域。

通过CRNN模型能很好的提取多帧的图像的整体特征来用于分类判别。

通过本方案相比较以往单纯的分类方案大大降低误报率。

进一步地，所述S2具体包括：

通过稠密光流算法采集所述视频信息的每一帧图像中每个像素点的位移矢量；

通过位移矢量的平方值对每个位移矢量进行降序排列，将排序后位移矢量组成位移矢量集合；

选取降序排列后预设数量的位移矢量；

对所述预设数量的位移矢量进行平方再求和，将求和值小于预设阈值的图像滤除。

采用上述进一步方案的有益效果是：本方案通过位移矢量能够精准判断出没有剧烈运动的场景，并将相应场景进行滤除，提高打闹识别的精准度。

进一步地，所述S3具体包括：

将预处理后的所述视频信息输入yolo5s模型进行处理；

生成所述视频信息每帧图像的目标框，将所述目标框外的像素值设置为零。

采用上述进一步方案的有益效果是：本方案yolo5s模型去除视频信息中没有人的场景，进一步精确定位到目标识别区域。

进一步地，所述S4之前还包括：

在CNN卷积层中添加Focus模块；

将原始激活函数修改为带参数的PReLU激活函数；

通过全卷积替换CRNN模型的输出层，获得改进后的CRNN模型。

采用上述进一步方案的有益效果是：通过改进的CRNN模型的全卷积层有效防止视频信息特征丢失，有效提高打闹识别准确度。

进一步地，所述S4具体包括：

将去除所述第二干扰因素的所述视频信息发送到改进后的CRNN模型，生成二维向量；

对所述二维向量进行sigmoid操作，再经reshape变形成长为一维向量，完成识别和分类；

所述一维向量包括：属于打闹的置信度。

本发明解决上述技术问题的另一种技术方案如下：

一种行人打闹的检测系统，包括：视频信息提取模块、第一过滤模块、第二过滤模块、识别分类模块和告警发送模块；

所述视频信息提取模块用于提取实时待检测的视频信息；

所述第一过滤模块用于通过稠密光流算法过滤掉所述视频信息中位移量小于预设阈值的第一干扰因素；

所述第二过滤模块用于通过yolo5s模型去除过滤后的所述视频信息中的第二干扰因素；

所述识别分类模块用于将去除所述第二干扰因素的所述视频信息发送到改进后的CRNN模型中，对所述视频信息进行识别和分类；

所述告警发送模块用于对分类结果进行判断，如果超过告警阈值，则发送告警提示。

通过本方案相比较以往单纯的分类方案大大降低误报率。

进一步地，所述第一过滤模块具体用于通过稠密光流算法采集所述视频信息的每一帧图像中每个像素点的位移矢量；

选取降序排列后预设数量的位移矢量；

进一步地，所述第二过滤模块具体用于将预处理后的所述视频信息输入yolo5s模型进行处理；

进一步地，还包括：模型改进模块，用于在CNN卷积层中添加Focus模块；

将原始激活函数修改为带参数的PReLU激活函数；

通过全卷积替换CRNN模型的输出层，获得改进后的CRNN模型。

进一步地，所述识别分类模块具体用于将去除所述第二干扰因素的所述视频信息发送到改进后的CRNN模型，生成二维向量；

所述一维向量包括：属于打闹的置信度。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

图1为本发明的实施例提供的一种行人打闹的检测方法的流程示意图；

图2为本发明的实施例提供的一种行人打闹的检测系统的结构框图；

图3为本发明的其他实施例提供的CRNN模型的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实施例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，为本发明实施例提供的一种行人打闹的检测方法，包括：

S1，提取实时待检测的视频信息；

S2，通过稠密光流算法过滤掉所述视频信息中位移量小于预设阈值的第一干扰因素；其中，第一干扰因素可以是没有剧烈运动的场景；

在某一实施例中，光流法是利用图像序列中的像素在时间域上的变化、相邻帧之间的相关性来找到的上一帧跟当前帧间存在的对应关系，计算出相邻帧之间物体的运动信息的一种方法。稠密光流Farneback 算法可以包括：通过每个像素点的邻域信息来对该像素点的坐标位置进行多项式展开，其中，邻域信息可以由邻域像素点的像素值大小和位置来确定权重获得，得到一个邻域信息以原坐标（x0，y0）为自变量，新坐标（x，y）为因变量的多项式，并代入坐标数据来求取该像素点在x和y方向上的移动量（dx，dy）。这样就得到了每个像素点在前后两帧图像中的位移矢量，包含振幅和相位。

在某一实施例中，通过稠密光流算法过滤掉没有剧烈运动可以包括：

首先从视频流中解码了连续的75帧，一般摄像头的帧率25则75帧大约是3秒，每隔5帧取一帧一共15帧，全部都取的话对硬件要求太高，统一缩放到分辨率480X272，分辨率太大不利于实时检测，而一般的摄像机分辨率宽高比都是16/9，因此属于等比缩放，而取16的倍数是方便后面CRNN网络使用。接下来对15帧进行稠密光流过滤，首先转灰度图，每相邻两帧图像A、B，计算A上坐标点集｛x,y｝，x从5开始间隔10递增直到475，y从5开始间隔10递增直到265)，在这2帧图像中的位移矢量集合｛fx,fy｝，求平方和｛G=fx^2+fy^2｝，对集合排序取最大的40个G求和设为S。判断S>17000，计数变量n加一，那么15帧一共会计算14次S,当n>2时符合条件否则过滤不再往下走，n<=2的情况，当S<=17000时n不变，当s>17000时n+1，最后n>2说明15帧中有至少3帧波动大的帧，需要说明的是，我们的目的是检测15帧是否属于打闹。其中，17000可以通过实际大量正常视频和打闹视频进行比对实验而得出的一个阈值，该阈值表示预设阈值，当取这个阈值时可以用上述方法过滤掉我们的验证数据集中正常视频约60%同时保留打闹视频约92%。

S3，通过yolo5s模型去除过滤后的所述视频信息中的第二干扰因素；其中，第二干扰因素可以是无人的场景。

在某一实施例中，通过yolo5s模型过滤掉15帧图像中没有人的部分可以包括：15帧480X272的图像，循环每一帧预处理成640X640大小的图像送到yolo5s模型中生成N个，N为检测到的人的个数，目标框在480X272中坐标｛（x1,y1,x2,y2）｝,然后设置这些框外的像素值为0。则相当于把没有人的部分全部设置为黑点。

在某一实施例中，对CRNN模型进行改进可以包括：添加Focus模块减小输入了到卷积尺寸，替换激活函数为带参数的PReLU，模型最后几层，即输出层，使用全卷积防止特征丢失，使用了Dropout提高泛化能力。

在某一实施例中，通过CRNN模型对所述视频信息进行识别和分类可以包括：首先将15帧图像转换成模型可识别的数据送至CRNN网络，结果会生成1个二维向量，对其进行sigmoid操作再reshape变形成长度为2的一维向量，假设结果为（0.2,0.8）则说明这15帧图像属于正常的可能性为20%，属于打闹的可能性是80%。当然中间我们使用了我们的大量数据集去训练这个CRNN网络，使得当输入为15帧正常图像时输出的向量接近于（1，0），而当输入的为15帧打闹图像时输出向量接近于（0，1）。

S5，对分类结果进行判断，如果分类结果向量中的第二个数值超过告警阈值，则发送告警提示。

在某一实施例中，阈值可以取0.8，CRNN模型最终会输出一个长度为2的一维向量，其中第一个表示属于正常的置信度，第二个表示属于打闹的置信度。这个阈值0.8是我们在测试集上调试得出的值，小了例如0.5会使得一些正常的也算入打闹，大了例如0.9会使得一些打闹的漏检，而取0.8效果最好，在我们的验证数据集中打闹识别准确率在90%以上。

本方案通过稠密光流算法过滤掉视频信息中没有剧烈运动的场景，有效减少后续识别的计算数据量。

通过本方案相比较以往单纯的分类方案大大降低误报率。

优选地，在上述任意实施例中，所述S2具体包括：

选取降序排列后预设数量的位移矢量；

本方案通过位移矢量能够精准判断出没有剧烈运动的场景，并将相应场景进行滤除，提高打闹识别的精准度。

优选地，在上述任意实施例中，所述S3具体包括：

将预处理后的所述视频信息输入yolo5s模型进行处理；

本方案yolo5s模型去除视频信息中没有人的场景，进一步精确定位到目标识别区域。

优选地，在上述任意实施例中，所述S4之前还包括：

在CNN卷积层中添加Focus模块；

将原始激活函数修改为带参数的PReLU激活函数；

通过全卷积替换CRNN模型的输出层，获得改进后的CRNN模型。

在某一实施例中，CRNN模型可以如图3所示，CRNN模型包括：CNN卷积层； CNN卷积层包括：Focus模块、CBP模块、reshape变形、FC全卷积；FC全卷积包括：RNN循环层；RNN循环层包括：reshape变形、双向LSTM网络；CBP模块包括Conv、BN和Prelu，CNN用于提取二维图像特征，RNN用于合并多帧特征并带记忆功能；

Focus模块包括：slice、concat和CBL，CBL包括：Conv 、BN和LeakyReLU

通过改进的CRNN模型的全卷积层有效防止视频信息特征丢失，有效提高打闹识别准确度。

优选地，在上述任意实施例中，所述S4具体包括：

所述一维向量包括：属于打闹的置信度。

在某一实施例中，如图2所示，一种行人打闹的检测系统，包括：视频信息提取模块1101、第一过滤模块1102、第二过滤模块1103、识别分类模块1104和告警发送模块1105；

所述视频信息提取模块1101用于提取实时待检测的视频信息；

所述第一过滤模块1102用于通过稠密光流算法过滤掉所述视频信息中位移量小于预设阈值的第一干扰因素；

所述第二过滤模块1103用于通过yolo5s模型去除过滤后的所述视频信息中的第二干扰因素；

所述识别分类模块1104用于将去除所述第二干扰因素的所述视频信息发送到改进后的CRNN模型中，对所述视频信息进行识别和分类；

所述告警发送模块1105用于对分类结果进行判断，如果超过告警阈值，则发送告警提示。

通过本方案相比较以往单纯的分类方案大大降低误报率。

优选地，在上述任意实施例中，所述第一过滤模块1102具体用于通过稠密光流算法采集所述视频信息的每一帧图像中每个像素点的位移矢量；

选取降序排列后预设数量的位移矢量；

优选地，在上述任意实施例中，所述第二过滤模块1103具体用于将预处理后的所述视频信息输入yolo5s模型进行处理；

优选地，在上述任意实施例中，还包括：模型改进模块，用于在CNN卷积层中添加Focus模块；

将原始激活函数修改为带参数的PReLU激活函数；

通过全卷积替换CRNN模型的输出层，获得改进后的CRNN模型。

优选地，在上述任意实施例中，所述识别分类模块1104具体用于将去除所述第二干扰因素的所述视频信息发送到改进后的CRNN模型，生成二维向量；

所述一维向量包括：属于打闹的置信度。

可以理解，在一些实施例中，可以包含如上述各实施例中的部分或全部可选实施方式。

需要说明的是，上述各实施例是与在先方法实施例对应的产品实施例，对于产品实施例中各可选实施方式的说明可以参考上述各方法实施例中的对应说明，在此不再赘述。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，RandomAccessMemory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种行人打闹的检测方法，其特征在于，包括：

S1，提取实时待检测的视频信息；

S5，对分类结果进行判断，如果超过告警阈值，则发送告警提示；

其中，所述S2具体包括：

选取降序排列后预设数量的位移矢量；

对所述预设数量的位移矢量进行平方再求和，将求和值小于预设阈值的图像滤除；

所述S4之前还包括：

在CNN卷积层中添加Focus模块；

将原始激活函数修改为带参数的PReLU激活函数；

通过全卷积替换CRNN模型的输出层，获得改进后的CRNN模型。

2.根据权利要求1所述的一种行人打闹的检测方法，其特征在于，所述S3具体包括：

将预处理后的所述视频信息输入yolo5s模型进行处理；

3.根据权利要求1所述的一种行人打闹的检测方法，其特征在于，所述S4具体包括：

所述一维向量包括：属于打闹的置信度。

4.一种行人打闹的检测系统，其特征在于，包括：视频信息提取模块、第一过滤模块、第二过滤模块、识别分类模块、告警发送模块和模型改进模块；

所述视频信息提取模块用于提取实时待检测的视频信息；

所述告警发送模块用于对分类结果进行判断，如果超过告警阈值，则发送告警提示；

其中，所述第一过滤模块具体用于通过稠密光流算法采集所述视频信息的每一帧图像中每个像素点的位移矢量；

选取降序排列后预设数量的位移矢量；

所述模型改进模块，用于在CNN卷积层中添加Focus模块；

将原始激活函数修改为带参数的PReLU激活函数；

通过全卷积替换CRNN模型的输出层，获得改进后的CRNN模型。

5.根据权利要求4所述的一种行人打闹的检测系统，其特征在于，所述第二过滤模块具体用于将预处理后的所述视频信息输入yolo5s模型进行处理；

6.根据权利要求4所述的一种行人打闹的检测系统，其特征在于，所述识别分类模块具体用于将去除所述第二干扰因素的所述视频信息发送到改进后的CRNN模型，生成二维向量；

所述一维向量包括：属于打闹的置信度。