CN114821440A

CN114821440A - 一种基于深度学习的移动视频流内容识别分析方法

Info

Publication number: CN114821440A
Application number: CN202210513663.8A
Authority: CN
Inventors: 黄冬虹; 倪燕; 朱琪
Original assignee: Qingyan Lingzhi Information Consulting Beijing Co ltd
Current assignee: Qingyan Lingzhi Information Consulting Beijing Co ltd
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-07-29
Anticipated expiration: 2042-05-12
Also published as: CN114821440B

Abstract

本发明提供一种基于深度学习的移动视频流内容识别分析方法，包括：S1服务器获取由摄像头模块实时采集并传输的视频流数据；S2服务器针对获取的视频流数据进行目标检测，提取待分析的视频帧图像；S3服务器检测待分析视频帧图像中的目标对象，并基于图像识别模型识别目标对象的种类；S4服务器输出目标对象种类的识别结果。本发明基于获取的视频流数据进行检测，当检测到视频流数据中的目标区域出现待检测目标对象的时候，自动提取对应的视频帧图像并基于深度学习训练的图像识别模型对目标对象进行分类的识别，得到对应的识别结果并根据识别结果完成相应的控制，有助于提高城市部件建设的智能化水平。

Description

一种基于深度学习的移动视频流内容识别分析方法

技术领域

本发明涉及视频处理技术领域，特别是一种基于深度学习的移动视频流内容识别分析方法。

背景技术

随着机器视觉技术的不断发展，通过视觉方式进行信息处理变得越来越普遍，利用视觉进行目标识别就是其中一个重要应用。

目前，机器视觉也应用到垃圾分类当中，现有技术中，也有一些设置在城市部件(如公共设施，市容环境维护设施、交通设施等)上的垃圾分类装置，通常是在垃圾分类装置中设置图像采集设备，通过机器视觉技术来对垃圾进行识别，从而实现自动化垃圾分类的技术。现有的基于机器视觉的垃圾分类技术中心，通常是需要用户放置相应的垃圾后，对垃圾分类装置发出指令，由垃圾分类装置拍摄垃圾分类的照片进行基于该照片进行分类，最终根据识别结果将垃圾投入对应的垃圾箱。但是上述通过拍照片来采集垃圾图像的方式，智能化水平不高，不能满足目前基于机器视觉控制垃圾分类装置运作的要求。

发明内容

针对上述问题，本发明旨在提供一种基于深度学习的移动视频流内容识别分析方法。

本发明的目的采用以下技术方案来实现：

本发明示出一种基于深度学习的移动视频流内容识别分析方法，包括：

S1服务器获取由摄像头模块实时采集并传输的视频流数据；

S2服务器针对获取的视频流数据进行目标检测，提取待分析的视频帧图像；

S3服务器检测待分析视频帧图像中的目标对象，并基于图像识别模型识别目标对象的种类；

S4服务器输出目标对象种类的识别结果。

一种实施方式中，所述目标对象包括垃圾；摄像头模块对准设置在城市部件上的垃圾分类装置，用于实时采集垃圾分类装置中预设的垃圾摆放处的视频图像，并将视频流数据实时上传到服务器。

一种实施方式中，步骤S2包括：

服务器根据获取的视频流数据，对视频流数据中预设的目标区域进行检测，当检测到目标区域中出现目标时，提取对应的视频帧图像。

一种实施方式中，步骤S2中，对视频流数据中预设的目标区域进行检测，包括：

垃圾分类装置的垃圾摆放处区域设置有遮挡标识；

服务器对视频流数据进行检测，当检测到视频中的遮挡标识被遮挡时，则判断目标区域中出现目标，提取对应的视频帧图像；

垃圾分类装置的垃圾摆放处区域设置有红外传感器；

当红外传感器被遮挡时，则垃圾分类装置向服务器发出相应的遮挡信息；

服务器根据接收到的遮挡信息，判断目标区域中出现目标，提取对应的视频帧图像。

一种实施方式中，步骤S3中，服务器检测待分析视频帧图像中的目标对象，并基于图像识别模型识别目标对象的种类，包括：

S31服务器对待分析的视频帧图像进行预处理，得到预处理后的视频帧图像；

S32服务器根据预处理后的视频帧图像进行图像分割，提取目标检测区域图像；

S32服务器将目标检测区域图像输入到训练好的图像识别模型，获取图像识别模型输出的垃圾分类结果；其中，图像识别模型基于YOLOv5网络构建。

一种实施方式中，基于YOLOv5网络构建的图像识别模型包括依次连接的输入层、backbone层、neck层和输出层；

其中输入层用于输入目标检测区域图像；

backbone层以Focus结构作为基准网络，将目标检测区域图像输入到Focus结构中，通过卷积核对图像进行切片操作，得到对应的特征图；

neck层采用FPN+PAN结构，其中FPN自顶向下将高层的特征信息通过上采样的方式进行传递融合，得到预测的特征图；PAN层自底向上进行下采样向上传达定位特征，实现特征的融合；

输出层采用CIOU_loss为损失函数，采用nms的方式进行极大值抑制来进行目标框的筛选，并根据特征图输出垃圾分类识别结果。

一种实施方式中，该方法还包括：

SB1训练所述图像识别模型，包括：

构建垃圾图像数据集，其中垃圾图像数据集中包含有不同种类垃圾的图像集；

对垃圾图像数据集进行分类标注，对垃圾图像数据集中各垃圾图像标注对应的垃圾分类表示；

采用垃圾图像数据集对基于YOLOv5网络构建的图像识别模型进行训练，并对训练后的图像识别模型进行测试，测试通过后输出训练好的图像识别模型。

一种实施方式中，该方法还包括：

S5服务器根据垃圾种类的识别结果向城市部件上的垃圾分类装置发送对应的控制信号，以使得垃圾分类装置根据接收到的控制指令，将垃圾摆放处上的垃圾投入对应分类的垃圾箱中。

本发明的有益效果为：提出了一种基于深度学习的移动视频流内容识别分析方法，通过设置服务器实时获取由摄像头模块采集的视频流数据，由服务器对获取的视频流数据进行实时的分析，当检测到视频流数据中的目标区域出现待检测目标对象(垃圾)的时候，自动提取对应的视频帧图像进行目标对象检测，并基于深度学习训练的图像识别模型对目标对象进行分类的识别，得到对应的识别结果，并根据得到的目标对象分类结果对垃圾分类装置进行进一步的控制。上述基于视频流数据对垃圾分类装置目标区域进行实时监测的技术方案，能够避免传统方式中的需要额外的拍摄操作，有助于提高垃圾分类装置设计的智能化水平，同时提高了城市部件建设的智能化水平。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1为本发明实施例所示一种基于深度学习的移动视频流内容识别分析方法的方法流程示意图；

图2为图1中步骤S3的方法流程示意图。

具体实施方式

结合以下应用场景对本发明作进一步描述。

参见图1实施例所示一种基于深度学习的移动视频流内容识别分析方法，包括：

S1服务器获取由摄像头模块实时采集并传输的视频流数据；

S4服务器输出目标对象种类的识别结果。

一种实施方式中，以基于深度学习的移动视频流内容识别分析城市部件的垃圾为例，所述目标对象包括垃圾；摄像头模块对准设置在城市部件上的垃圾分类装置，用于实时采集垃圾分类装置中预设的垃圾摆放处的视频图像，并将视频流数据实时上传到服务器。

一种场景中，以所述城市部件为设置在公共区域的垃圾分类箱为例，垃圾分类箱上设置有4种分类的垃圾箱和垃圾分类装置，其中垃圾分类装置设置在垃圾分类箱的上方，垃圾分类装置上设置有垃圾摆放处(台)；其中摄像头模块采用高清CCD摄像头，将CCD摄像头的镜头方向对准垃圾摆放台，实时拍摄垃圾摆放台的图像。

当用户将垃圾放置在垃圾摆放台后，摄像头将实时的视频流数据传输到服务器，服务器根据接收到的视频流数据，以垃圾摆放处作为目标区域进行实时的检测，当检测到垃圾摆放处上放置了垃圾并静止后，服务器提取相应的视频帧图像进行，根据视频帧图像对垃圾摆放处上的垃圾进行分类识别，并根据分类识别结果控制垃圾分类装置将垃圾摆放处上的垃圾投放到相应分类的垃圾箱中。

一种实施方式中，步骤S2包括：

垃圾分类装置的垃圾摆放处区域设置有遮挡标识；

服务器对视频流数据进行检测，当检测到视频中的遮挡标识被遮挡时，则判断目标区域中出现目标，提取对应的视频帧图像。

一种实施方式，服务器检测遮挡标识是否被遮挡可以通过模板匹配、背景匹配或者特征点检测等方式进行。

一种场景中，针对在基于视频流数据检测垃圾摆放处中是否存在垃圾的过程中，可以采用基于图像分析的方式来进行，通过预先录入空置的垃圾摆放处(台)的图像作为基准图像，将垃圾摆放处的区域作为目标检测区域，针对接收到的视频流数据，服务器仅对目标检测区域的部分进行模板匹配，通过将采集到的目标检测区域图像与预存的基准图像进行比较，当比较结果一致是，则判断垃圾摆放处中没有垃圾，当比较结果出现不一致时，此时则判断垃圾分类装置可能被使用，并进一步对接收到的视频流数据的目标检测区域进行分析，当目标检测区域的图像画面没有发生改变后且匹配结果依然与基准图像不一致时，则判断当前用户已经完成将垃圾放置在垃圾摆放处的过程，服务器进一步根据当前时刻提取对应的视频帧图像进行进一步的垃圾分类识别处理。通过设置目标检测区域进行初步的待检测目标检测，并且目标检测区域的图像变化完毕后再提取相应的视频帧图像，能够在节省计算资源的基础上，准确提取需要识别的待识别垃圾图像，有效避免了视频帧图像提取过早或过晚导致识别结果不准确或者计算资源浪费的情况，提高了针对识别分析的性能。

垃圾分类装置的垃圾摆放处区域设置有红外传感器；

一种实施方式中，参见图2，步骤S3中，服务器检测待分析视频帧图像中的垃圾，并基于图像识别模型识别垃圾的种类，包括：

一种实施方式中，步骤S31中，服务器对待分析的视频帧图像进行预处理，包括：

根据获取的当前视频帧图像，将视频帧图像从RGB颜色空间转换到HSI颜色空间，分别获取视频帧图色调分量H、饱和度分量S和强度分量I；

基于自适应亮度调节函数对获取的强度分量I进行自适应强度调节：

其中，I′(x,y)表示自适应强度调节后像素点(x,y)的强度分量值，β_I(x,y)表示像素点(x,y)的强度调节因子，其中强度调节因子通过以下函数获得：

其中，β_I(x,y)表示像素点(x,y)的强度调节因子，D(x,y)表示像素点(x,y)到视频帧图像中心的像素距离，D₄表示视频帧图像的对角像素距离，α表示设定的像素调节参量，其中α∈[0.001,0.1]；I_3×3(x,y)表示以像素点(x,y)为中心的3×3范围内的各像素点的平均强度分量值，I(x,y)表示像素点(x,y)的强度分量值，I_min和I_max分别表示视频帧图像中各像素点的最小强度分量值和最大强度分量值；max(β_I)和min(β_I)分别表示视频帧图像中各像素点的最大强度调节因子和最小强度调节因子；

根据自适应强度调节后各像素点的强度分量值构成调节后的强度分量I′，并进一步根据色调分量H、饱和度分量S和调节后的强度分量I′重新转换到RGB颜色空间，得到强度调节后的视频帧图像；

采用sym3小波基和2层分解尺度对强度调节后的视频帧图像进行小波分解，获取亮度调节后的视频帧图像的高频小波系数和低频小波系数；

采用的除噪声增强处理函数获取的高频小波系数进行除噪声增强处理：

式中，w′_j,k表示除噪声增强处理后的第j层第k个高频小波系数，w_j,k表示获取的第j层第k个高频小波系数，Z表示设定的阈值，α表示设定的抑制调节参量，β表示设定的补偿调节参量，γ表示平滑调节参量，sgn(*)表示符号函数；

根据除噪声增强处理后的高频系数进行小波逆变换，得到高频图像；

根据获取的低频小波系数进行小波逆变换获取低频图像，获取的低频图像尺寸与原视频帧图像相同，采用清晰度增强函数对低频图像进行清晰度增强处理：

式中，X′(x,y)表示低频图像中像素点(x,y)的像素值，max(X)和min(X)分别表示低频图像中各像素点的最大像素值和最小像素值；

基于清晰度增强处理后的低频图像和高频图像进行图像重构，得到预处理后的视频帧图像。

考虑到服务器根据视频帧图像识别垃圾的过程中，由于视频采集现场存在光照或者管径影响，或者是垃圾本身的遮挡或反光影响，容易使得视频图像的画面清晰度(特别是关键目标位置的清晰度)收到影响，从而影响进一步根据视频图像进行垃圾分类处理的效果，上述实施方式，提供了一种针对视频帧图像进行预处理的技术方案，首先根据获取的视频帧图像进行基于HIS颜色空间的自适应明度增强处理，其中提出的自适应亮度调节函数进行强度处理的过程中，通过计算像素点的强度调节因子对像素点的强度信息进行拉伸，同时结合像素点所在的位置对强度进行调节，有助于针对城市部件摆放环境中出现的反光或者突亮点导致的画面过渡曝光、或者现场环境亮度不足导致的画面过暗的情况进行自适应调节，同时也有助于提高视频帧图像中关键位置的清晰度；同时，基于小波分解得到的高频图像和低频图像分别进行增强处理，能够基于高频图像对视频帧图像中收到的噪声干扰进行去除，同时针对图像中的有用信息进行增强显示，有助于提高视频图像的整体和细节显示效果，为后续根据视频帧图像进行进一步的垃圾分类识别奠定基础。

其中输入层用于输入目标检测区域图像；

其中，基于YOLOv5网络构建的图像识别模型，能够准确提取目标检测区域图像中可能存在的垃圾的图像特性，提取相应的特征信息并进一步根据得到的特征信息进行垃圾分类的识别，具有较好的垃圾分类识别效果。

一种实施方式中，该方法还包括：

SB1训练所述图像识别模型，包括：

一种实施方式中，该方法还包括：

S5服务器根据垃圾种类的识别结果向城市部件(垃圾分类箱)上的垃圾分类装置发送对应的控制信号，以使得垃圾分类装置根据接收到的控制指令，将垃圾摆放处上的垃圾投入对应分类的垃圾箱中。

本发明上述实施方式，提出了一种基于深度学习的移动视频流内容识别分析方法，通过设置服务器实时获取由摄像头模块采集的视频流数据，由服务器对获取的视频流数据进行实时的分析，当检测到视频流数据中的目标区域出现待检测目标对象(垃圾)的时候，自动提取对应的视频帧图像进行目标对象(垃圾)检测，并基于深度学习训练的图像识别模型对目标对象(垃圾)进行分类的识别，得到对应的识别结果，并根据得到的目标对象(垃圾)分类结果对垃圾分类装置进行进一步的控制。上述基于视频流数据对垃圾分类装置目标区域进行实时监测的技术方案，能够避免传统方式中的需要额外的拍摄操作，有助于提高垃圾分类装置设计的智能化水平，同时提高了城市部件建设的智能化水平。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解应当理解，可以以硬件、软件、固件、中间件、代码或其任何恰当组合来实现这里描述的实施例。对于硬件实现，处理器可以在一个或多个下列单元中实现：专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、设计用于实现这里所描述功能的其他电子单元或其组合。对于软件实现，实施例的部分或全部流程可以通过计算机程序来指令相关的硬件来完成。实现时，可以将上述程序存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。计算机可读介质可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细地说明，本领域的普通技术人员应当分析，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种基于深度学习的移动视频流内容识别分析方法，其特征在于，包括：

S1服务器获取由摄像头模块实时采集并传输的视频流数据；

S4服务器输出目标对象种类的识别结果。

2.根据权利要求1所述的一种基于深度学习的移动视频流内容识别分析方法，其特征在于，所述目标对象包括垃圾；

摄像头模块对准设置在城市部件上的垃圾分类装置，用于实时采集垃圾分类装置中预设的垃圾摆放处的视频图像，并将视频流数据实时上传到服务器。

3.根据权利要求2所述的一种基于深度学习的移动视频流内容识别分析方法，其特征在于，步骤S2包括：

4.根据权利要求3所述的一种基于深度学习的移动视频流内容识别分析方法，其特征在于，步骤S2中，对视频流数据中预设的目标区域进行检测，包括：

垃圾分类装置的垃圾摆放处区域设置有遮挡标识；

或，

垃圾分类装置的垃圾摆放处区域设置有红外传感器；

5.根据权利要求3所述的一种基于深度学习的移动视频流内容识别分析方法，其特征在于，步骤S3中，服务器检测待分析视频帧图像中的目标对象，并基于图像识别模型识别目标对象的种类，包括：

6.根据权利要求5所述的一种基于深度学习的移动视频流内容识别分析方法，其特征在于，基于YOLOv5网络构建的图像识别模型包括依次连接的输入层、backbone层、neck层和输出层；

其中输入层用于输入目标检测区域图像；

7.根据权利要求6所述的一种基于深度学习的移动视频流内容识别分析方法，其特征在于，还包括：

SB1训练所述图像识别模型，包括：

8.根据权利要求2所述的一种基于深度学习的移动视频流内容识别分析方法，其特征在于，该方法还包括：