CN108345841B

CN108345841B - 一种智能过滤视频图像处理方法

Info

Publication number: CN108345841B
Application number: CN201810065825.XA
Authority: CN
Inventors: 吴晓晖
Original assignee: HANGZHOU VISION TECHNOLOGY Co Ltd
Current assignee: HANGZHOU VISION TECHNOLOGY Co Ltd
Priority date: 2018-01-23
Filing date: 2018-01-23
Publication date: 2019-02-12
Anticipated expiration: 2038-01-23
Also published as: CN108345841A

Abstract

本发明属于视频分析技术领域，尤其是涉及一种智能过滤视频图像处理方法。本发明采用了智能切片、智能过滤和智能分析3个部分相结合的运行模式，减少重复图像和无效信息图像数量，尽量保证图像信息不丢失情况，图像数据量从最原始的1百万张图（12小时视频）压缩到500‑1000张高可疑图。本发明根据不同场景可选择采用了基于深度学习的目标识别算法，将存在违规行为的图像反馈给客户，也可选择采用人工确认的方式进行反馈，并且无论基于深度学习的目标识别算法还是人工确认工作量都很低。

Description

一种智能过滤视频图像处理方法

技术领域

本发明属于视频分析技术领域，尤其是涉及一种智能过滤视频图像处理方法。

背景技术

在连锁商业场景下，客户往往对一个场景的视频自动分析，同时提出多种服务品质控制要求。例如酒店前台，客户会要求人工智能服务同时识别：前台服务员必须起立，并跟客户交谈、必须双手给客户递上门卡、必须交谈时跟客户保持微笑、不得在交谈时接手机等等。

现有连锁商业场景的视频服务模式一般分为两种：基于视频流的分析和基于图像的分析。

第一种为：基于视频分析服务的运营模式，是将视频流直接输入到智能算法分析服务器中，并获取目标结果图的模式。

这种模式主要存在以下三种缺点：

(1)该运营模式对客户各个门店的宽带要求高。

该模式需要每一帧图像都要分析，因此每一帧图像都要上传到云端，这就需要运营的连锁门店拥有较好的宽带网络。在实际情况下，大多数连锁门店的宽带良莠不齐，无法保证摄像头高清视频(2-4Mbps)稳定地上传到云端，从而影响了人工智能算法在云端的应用。

(2)该运营模式输入的视频流中存在大量的无效信息和信息重复图像，对于后续的智能分析产生较大的资源浪费。

由于视频流直接输入到智能分析算法分析，由于每一帧图像都需要分析造成计算量巨大。因为需要分析的视频流中存在大量的信息重复和无效信息图像，对这部分的图像进行分析将会消耗大量的硬件资源，大大提高运营成本，降低效率，而且这部分计算消耗是没意义且完全多余的。

(3)基于深度学习的客户多需求智能分析对硬件消耗巨大，该运营模式在同样的需求的情况下消耗更多的硬件资源。

目前基于深度学习的人工智能图像算法，需要针对每一种客户需求分别训练算法模型。同时在实际应用的时候，需要并发运行多个算法模型，每个算法解决一种需求，从而需要消耗海量的算力，运营成本居高不下，因此，提取包含客户需求信息的有效图像从而减少图像数据量是降低运营成本的有效途径。该运营模式不能够提取有效的包含客户要求信息的图像数据导致输入的图像数据含有无效信息的图像会加大计算分析的消耗。

第二种为：基于图像的运营模式，是将从视频流定时截取的图像推送到分析服务器进行分析的运营模式。

该模式存在以下两种缺点：

(1)该模式信息丢失量大，导致分析结果存在较大误差。

定时截图是在固定的时长截取图像，该方法忽略图像内容变化，可能造成包含有效信息图像未被保存，以及大量无效图像被保存，大大提高运营成本，降低准确率。

(2)该模式存在大量的无信息和信息重复图像，对于后续的智能分析产生较大的资源浪费，分析服务的运营成本很高。

发明内容

本发明的目的在于，针对现有技术中存在的不足，提供一种智能过滤视频图像处理方法。

为此，本发明的上述目的通过以下技术方案来实现：

一种智能过滤视频图像处理方法，所述智能过滤视频图像处理方法依次包括如下步骤：

智能切片，所述智能切片为根据图像内容变化智能地调整从视频流中抓取图像的时间间隔，并保证将信息丢失量降到最低，得到图像集合A；

智能过滤，所述智能过滤为高效快速地过滤经过智能切片后的图像集合A中信息重复的图像，得到图像集合B1；然后过滤图像集合B1中不含有效行为模式信息的图像，得到图像集合B2；以及

智能分析，所述智能分析为根据图像集合B2中的图像进行信息识别。

在采用上述技术方案的同时，本发明还可以采用或者组合采用以下进一步的技术方案：

优选地，所述智能切片包括：(1)对不同时间段预设不同的抓图时间间隔；(2)根据预设的抓图时间间隔，获取当前时间下的抓图时间间隔；(3)按照当前时间下的抓图时间间隔，抓取图像，并形成图像集合；(4)根据前端摄像头反馈的移动变化状态，动态地调整抓图频率，调整规则为：若第二张所抓图像与第一张所抓图像的前端摄像头变化幅度相比，变化幅度超过变化幅度阈值上限，则将当前的抓图时间间隔调整为当前时间下预设的抓图时间间隔的一半；若变化幅度小于变化幅度阈值下限，则恢复使用预设抓图时间间隔继续抓图。

优选地，所述预设的抓图时间间隔的规则为：根据门店顾客流量将运营时间分为低流量时间段、一般流量时间段和高流量时间段；在低流量时间段内顾客数量少，不同顾客的进店时间间隔大，该时间段内图像中含有有效信息的概率比较小，因此，此时间段内智能切片的预设抓图时间间隔为1张/4秒；在一般流量时间段内顾客数量相对较多，不同顾客进店时间间隔相对较小，该时间段内图像中含有有效信息的概率相对较大，因此，此时间段内智能切片的预设抓图时间间隔为1张/2秒；在高流量时间段内顾客流量最多，该时间段内图像中含有有效信息的概率最大，因此，此时间段内智能切片的预设抓图时间间隔为1张/1秒。

优选地，所述智能切片中相邻两张所抓的图像的变化幅度计算依次基于如下步骤：依次包括如下步骤：(1)图像背景建模阶段；(2)前景计算阶段；(3)背景更新阶段：(4)图像形态学处理阶段；(5)图像变化幅度计算阶段。

所述图像背景建模阶段为：从像素点的8邻域像素随机初始化该像素点的背景数组；所述前景计算阶段为：计算当前图像位置中每个像素点是否发生变化；所述背景更新阶段为：发生变化的像素值更新到背景数组中，并根据邻域相关性，该像素值也将随机更新至该像素点的8位邻域像素点的背景模型矩阵中；所述图像形态学处理阶段为：对前景mask图像进行形态学处理；所述图像变化幅度计算阶段为：计算前景mask图像中前景目标连通域的像素面积，并与面积阈值相比较，计算其变化幅度，若得到的前景目标连通域的像素面积不小于面积阈值，则将变化幅度设为该前景目标连通域的像素面积，若得到的前景目标连通域的像素面积小于面积阈值，则将变化幅度设为0。

优选地，所述智能过滤依次包括：相似图像过滤和行为模式识别过滤；所述相似图像过滤为：对输入的图像集合A中图像进行变化幅度计算，过滤变化幅度小的图像，保留变化幅度大的图像；所述行为模式识别过滤为：过滤未发生顾客和服务员进行交互的场景图像，保留包含顾客和服务员进行交互的场景图像。

优选地，所述相似图像过滤为：对输入的图像集合A中图像进行图像背景建模并生成变化前景的目标图像，计算变化前景面积，查找最大前景面积并与面积阈值相比较，若大于面积阈值，则保留。

优选地，所述行为模式识别过滤为：将图像集合B1中的图像输入至卷积神经网络中进行目标检测，获取目标对象的种类和位置；获取相应类型的位置后，进行顾客和服务员之间的距离计算，根据两者之间距离的大小进行筛选：当两者之间的距离小于距离阈值时，保留该图像。

优选地，所述智能分析为：将图像集合B2中的图像输入至卷积神经网络中获取图像中服务员和顾客的信息。

本发明提供一种智能过滤视频图像处理方法，具有如下优点：

(1)本发明采用智能切片、智能过滤和智能分析三个部分相结合，减少了重复图像和无效信息图像的数量，尽量保证图像重要信息不丢失的情况下，把12个小时的视频过滤后，剩下500-1000张可疑图像；

(2)本发明采用了可动态调整抓图频率的智能切片方法，相对于定时截图方法减少了信息丢失，保证了信息的完整性；

(3)本发明采用了图像变化幅度的检测和基于深度学习的行为模式的智能过滤方法，也即分别为相似图过滤和基于卷积神经网络的行为模式识别过滤，通过基于领域相关的图像背景建模来检测图像变化，并采用前景面积排序的方法进行变化幅度的计算，提高光照变化鲁棒性，降低图像噪声带来的干扰，采用基于深度学习的目标检测来检测服务员和顾客的位置，并采用两者像素值的欧氏距离来计算是否属于两者交互场景，提高了检测的准确率，进一步减少了智能分析的计算量；

(4)本发明根据不同场景需求可以选择采用基于深度学习的目标识别算法，进行与需求相关的行为分析、危险场景分析等识别与分析，将存在违规行为或者异常情况的图形反馈给监控人员，当然由于本发明已经将数百万张级别的图像数量压缩到了1000张级别以下的高可疑图像数量，也可以选择人工进行确认。

附图说明

图1为本发明所提供的智能过滤视频图像处理方法的流程示意图；

图2为本发明所提供的智能过滤视频图像处理方法的原理示意图；

图3为本发明所提供的智能过滤视频图像处理方法的不同流量时间段下预设的抓图时间间隔分布示意图；

图4为本发明所提供的智能切片的流程示意图；

图5为本发明所提供的智能过滤中相似图过滤的流程示意图；

图6为本发明所提供的智能过滤中行为模式识别过滤的流程示意图；

图7为本发明所提供的智能分析的流程示意图。

具体实施方式

参照附图和具体实施例对本发明作进一步详细地描述。

本发明采用根据图像内容变化实时调整切片频率的智能切片来代替现有的视频流输入模式或者定时截图模式，然后采用高效快速的图像背景建模算法过滤信息重复的图像，接下来采用基于深度学习的目标检测算法过滤输入图像中的无效信息图像，最后对保留的图像采用基于深度学习的人工智能图像算法(速度慢，消耗算力大)进行识别，图1为本发明所提供的智能过滤视频图像处理方法的流程示意图；图2为本发明所提供的智能过滤视频图像处理方法的原理示意图；图2中①指原始视频的图像数据量，②指智能切片输出的图像数据量，③指智能过滤输出的图像数据量。

本发明的方案如下：

(1)云端采用智能切片模块根据图像内容变化从连锁门店的摄像头获取不同时间间隔的图像取代现有模式的视频流输入或者定时截图模式。

智能切片模块是根据从云端获取的图像的变化程度动态调整抓图频率，获取含有有效信息的图像，降低信息损失，保证质量同时将数据量减少到原来的不到1％(12小时视频相当于1百万张图，最终切片后保留不到1万张图)。

首先根据连锁门店的顾客流量将运营时间分为低流量时间段、一般流量时间段和高流量时间段3个时间段。低流量时间段的顾客数量少，不同顾客的进店时间间隔大，图像中含有有效信息的概率小，因此智能切片的默认的抓图频率是1张/4秒；在一般流量时间段内顾客数量相对较多，不同顾客进店时间间隔相对较小，该时间段内含有有效信息的概率相对较大，因此设置智能切片的默认的抓图频率是1张/2秒；在高流量时间段内顾客数量最多，该时间段内含有有效信息的概率最大，因此设置默认的抓图频率是1张/1秒，如图3所示，图3为本发明所提供的智能过滤视频图像处理方法的不同流量时间段下预设的抓图时间间隔分布示意图，图中：①指低流量时间段，②指一般流量时间段，③指高流量时间段。

接下来根据前端摄像头反馈的移动变化状态，动态调整抓图频率。调整原则是第二张图开始与前一张图进行变化幅度比较，变化幅度超过预先设定的阈值，则将原来的抓图时间间隔调整为原来的0.5倍。如果变化幅度小于预先设定的最小阈值，则将保持初始抓图时间间隔的进行抓图。

智能切片采用的是图像背景建模算法进行计算图像之间的相似度比较，算法分为图像背景建模阶段、前景计算阶段、背景更新阶段、图像形态学处理阶段、图像变化幅度计算阶段。

图像背景建模阶段是从像素点的8邻域像素随机初始化该像素点的背景数组，背景数组的元素个数是20个。即：(M_i是第i个像素点背景模型矩阵)

前景计算阶段是计算当前图像位置每个像素点是否发生变化。计算公式如下：

R_i＝M_i-x_i*P_i,其中

R_i是第i像素点与背景模型矩阵差值的结果矩阵，P_i是系数矩阵，x_i是当前图像i像素点的像素值，N为背景模型的元素大小。遍历R_i矩阵的每一个元素，若小于模型半径r＝20的个数NUM_i＞2，则认为该像素点发生变化，在前景mask中该像素位置的像素值设定为255(白色)；若NUM_i≤2则认为未发生变化的，在前景mask中该像素位置的像素值设定为0(黑色)。

背景更新阶段：将发生变化的i像素值更新到中，根据邻域相关性，该像素值也将随机更新i的8邻域像素点的背景模型矩阵中。

图像形态学处理阶段：对于生成的前景mask图进行形态学处理，作用是过滤因光照等原因造成的噪声，使得前景目标图像更加准确，计算公式如下：

其中

图像变化幅度计算阶段：是计算mask图像中前景目标连通域的像素面积Area，得到面积后根据与阈值T的大小比较，计算其变化幅度，计算公式如下：

最后是根据抓图频率获取图像，输入到智能过滤进行下一步处理。图4为本发明所提供的智能切片的流程示意图。

(2)云端收到图像后，用智能过滤模块进行处理。智能过滤中只保留顾客和服务员两个群体交互的画面。

智能过滤模块是将智能切片模块中获取的图像进行过滤，智能过滤包含两个部分：相似图像过滤部分和行为模式识别过滤，最后输出客户需要的行为的图像，如：服务员与顾客交互等，该部分将图像数据量降为原来的1/10-1/20。

由于上述智能切片模块输出的图像存在大量的信息重复和无效信息，会对基于行为模式识别的部分产生多余的计算消耗，首先将输入的图像进行变化幅度计算，过滤变化幅度小的图像，只保留变化较大的图像，以减少信息重复造成的计算消耗，为了减少光照变化和图像传输过程的噪声干扰，采用基于邻域相关的图像背景建模算法来检测图像变化差异，提高对光照变化的鲁棒性和检测速度，1080*1920分辨率的图像检测速度40帧/s，为了提高相似度计算的可靠性，采用结构相关的前景面积排序方法来检测图像变化幅度，避免了局部噪声造成的干扰。此处所采用的基于邻域相关的图像背景建模算法的原理与智能切片中判断图像相似度的算法原理相同。图5为本发明所提供的智能过滤中相似图过滤的流程示意图。

行为模式识别过滤是对上述图像进行目标检测，将未发生顾客与服务员的场景图像过滤，保留客户需求行为的场景图像如含有服务员与顾客交流等。为了筛选出满足可能发生客户要求行为的图像，本发明采用深度学习中的目标检测算法检测处服务员与顾客的相应位置，根据两者欧式距离值以及分别与柜台的欧式距离值来判断是否属于顾客与服务员交互的行为，从而进行过滤。该部分将图像数量进一步减少，将减少智能分析工作量，提高效率。

行为模式识别过滤算法的原理是将图像输入到卷积神经网络中进行目标检测，获取进行目标的种类和位置。获取相应类型的位置后进行客户和服务员的距离的计算，计算公式如下：

根据相互之间的距离大小进行筛选，将Sort≠1的图像过滤，保留Sort＝1的图像。筛选公式如下：

图6为本发明所提供的智能过滤中行为模式识别过滤的流程示意图。

(3)对过滤保留的图像，再用基于深度学习的图像算法进行识别(智能分析)，甚至可以用操作员人工来完成识别，因为数量很少。

智能分析是将智能过滤模块输出的图像输入到卷积神经网络中获取图像中员工、客户或者物品的位置、个数、姿势，颜色以及工作内容等信息，根据深度神经网络获取的信息，可以判断员工是否存在违规行为，门店是否存在异常物品出现风险，客户指定区域的卫生状况，客户的进行交易的次数，以及危险区域预警等。最终生成客户需求报告，并将相应结果反馈到客户图7为本发明所提供的智能分析的流程示意图，图中①部分表示由智能过滤模块保留的图像，图中②部分表示用于目标检测的卷积神经网络。

由于上述智能切片部分和智能过滤部分将图像量降到了最低，同样可以采用人工确认的方式进行。

新技术方案的运营成本(主要是算力)大约是现有方案的1/10。

本发明采用了智能切片、智能过滤和智能分析3个部分相结合的运行模式，减少重复图像和无效信息图像数量，尽量保证图像信息不丢失情况，图像数据量从最原始的1百万张图(12小时视频)压缩到500-1000张高可疑图。本发明根据不同场景可选择采用了基于深度学习的目标识别算法，将存在违规行为的图像反馈给客户，也可选择采用人工确认的方式进行反馈，因为图像数量已经被减少了3个数量级，无论基于深度学习的目标识别算法还是人工确认工作量都很低。

其次，本发明采用了可动态调整抓图频率的智能切片算法，相对于定时截图方法减少了信息丢失，保证信息的完整性。针对现有模式下存在大量重复信息和无效信息的图像，本发明采用了图像变化的检测和基于深度学习的行为模式识别的智能过滤算法。针对传统相似度算法，速度慢，计算量大，内容不相关等问题，本发明采用了基于邻域相关的图像背景建模算法来检测图像变化，并采用前景面积排序的方法进行变化幅度计算，提高光照变化鲁棒性，降低图像噪声带来的干扰，对图像内容变化计算的更加准确。针对现有场景中含有较多重复信息的图像导致计算资源浪费的问题，本发明采用了基于深度学习的目标检测来检测服务员和顾客位置，并采用两者像素值的欧氏距离来计算是否属于两者交互场景，提高准确率，进一步减少智能分析部分的计算量。以健身连锁的收银台为例，12小时工作时间，第一步经智能切片后会获得3000-8000张图，第二步经图像背景建模和行为模式识别过滤后，保留500-1000张图。

Claims

1.一种智能过滤视频图像处理方法，其特征在于，所述智能过滤视频图像处理方法依次包括如下步骤：

智能分析，所述智能分析为根据图像集合B2中的图像进行信息识别；

所述智能切片包括：(1)对不同时间段预设不同的抓图时间间隔；(2)根据预设的抓图时间间隔，获取当前时间下的抓图时间间隔；(3)按照当前时间下的抓图时间间隔，抓取图像，并形成图像集合；(4)根据前端摄像头反馈的移动变化状态，动态地调整抓图频率，调整规则为：若第二张所抓图像与第一张所抓图像的前端摄像头变化幅度相比，变化幅度超过变化幅度阈值上限，则将当前的抓图时间间隔调整为当前时间下预设的抓图时间间隔的一半；若变化幅度小于变化幅度阈值下限，则恢复使用预设抓图时间间隔继续抓图；

所述预设的抓图时间间隔的规则为：根据门店顾客流量将运营时间分为低流量时间段、一般流量时间段和高流量时间段；在低流量时间段内顾客数量少，不同顾客的进店时间间隔大，该时间段内图像中含有有效信息的概率比较小，因此，此时间段内智能切片的预设抓图时间间隔为1张/4秒；在一般流量时间段内顾客数量相对较多，不同顾客进店时间间隔相对较小，该时间段内图像中含有有效信息的概率相对较大，因此，此时间段内智能切片的预设抓图时间间隔为1张/2秒；在高流量时间段内顾客流量最多，该时间段内图像中含有有效信息的概率最大，因此，此时间段内智能切片的预设抓图时间间隔为1张/1秒；

所述智能切片中相邻两张所抓的图像的变化幅度计算依次基于如下步骤：(1)图像背景建模阶段；(2)前景计算阶段；(3)背景更新阶段：(4)图像形态学处理阶段；(5)图像变化幅度计算阶段；

所述智能过滤依次包括：相似图像过滤和行为模式识别过滤；所述相似图像过滤为：对输入的图像集合A中图像进行变化幅度计算，过滤变化幅度小的图像，保留变化幅度大的图像；所述行为模式识别过滤为：过滤未发生顾客和服务员进行交互的场景图像，保留包含顾客和服务员进行交互的场景图像；

2.根据权利要求1所述的智能过滤视频图像处理方法，其特征在于，所述相似图像过滤为：对输入的图像集合A中图像进行图像背景建模并生成变化前景的目标图像，计算变化前景面积，查找最大前景面积并与面积阈值相比较，若大于面积阈值，则保留。

3.根据权利要求1所述的智能过滤视频图像处理方法，其特征在于，所述行为模式识别过滤为：将图像集合B1中的图像输入至卷积神经网络中进行目标检测，获取目标对象的种类和位置；获取相应类型的位置后，进行顾客和服务员之间的距离计算，根据两者之间距离的大小进行筛选：当两者之间的距离小于距离阈值时，保留该图像。

4.根据权利要求1所述的智能过滤视频图像处理方法，其特征在于，所述智能分析为：将图像集合B2中的图像输入至卷积神经网络中获取图像中服务员和顾客的信息。