CN114821440A - 一种基于深度学习的移动视频流内容识别分析方法 - Google Patents

一种基于深度学习的移动视频流内容识别分析方法 Download PDF

Info

Publication number
CN114821440A
CN114821440A CN202210513663.8A CN202210513663A CN114821440A CN 114821440 A CN114821440 A CN 114821440A CN 202210513663 A CN202210513663 A CN 202210513663A CN 114821440 A CN114821440 A CN 114821440A
Authority
CN
China
Prior art keywords
image
garbage
video stream
server
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210513663.8A
Other languages
English (en)
Other versions
CN114821440B (zh
Inventor
黄冬虹
倪燕
朱琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingyan Lingzhi Information Consulting Beijing Co ltd
Original Assignee
Qingyan Lingzhi Information Consulting Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingyan Lingzhi Information Consulting Beijing Co ltd filed Critical Qingyan Lingzhi Information Consulting Beijing Co ltd
Priority to CN202210513663.8A priority Critical patent/CN114821440B/zh
Publication of CN114821440A publication Critical patent/CN114821440A/zh
Application granted granted Critical
Publication of CN114821440B publication Critical patent/CN114821440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02WCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
    • Y02W30/00Technologies for solid waste management
    • Y02W30/10Waste collection, transportation, transfer or storage, e.g. segregated refuse collecting, electric or hybrid propulsion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于深度学习的移动视频流内容识别分析方法,包括:S1服务器获取由摄像头模块实时采集并传输的视频流数据;S2服务器针对获取的视频流数据进行目标检测,提取待分析的视频帧图像;S3服务器检测待分析视频帧图像中的目标对象,并基于图像识别模型识别目标对象的种类;S4服务器输出目标对象种类的识别结果。本发明基于获取的视频流数据进行检测,当检测到视频流数据中的目标区域出现待检测目标对象的时候,自动提取对应的视频帧图像并基于深度学习训练的图像识别模型对目标对象进行分类的识别,得到对应的识别结果并根据识别结果完成相应的控制,有助于提高城市部件建设的智能化水平。

Description

一种基于深度学习的移动视频流内容识别分析方法
技术领域
本发明涉及视频处理技术领域,特别是一种基于深度学习的移动视频流内容识别分析方法。
背景技术
随着机器视觉技术的不断发展,通过视觉方式进行信息处理变得越来越普遍,利用视觉进行目标识别就是其中一个重要应用。
目前,机器视觉也应用到垃圾分类当中,现有技术中,也有一些设置在城市部件(如公共设施,市容环境维护设施、交通设施等)上的垃圾分类装置,通常是在垃圾分类装置中设置图像采集设备,通过机器视觉技术来对垃圾进行识别,从而实现自动化垃圾分类的技术。现有的基于机器视觉的垃圾分类技术中心,通常是需要用户放置相应的垃圾后,对垃圾分类装置发出指令,由垃圾分类装置拍摄垃圾分类的照片进行基于该照片进行分类,最终根据识别结果将垃圾投入对应的垃圾箱。但是上述通过拍照片来采集垃圾图像的方式,智能化水平不高,不能满足目前基于机器视觉控制垃圾分类装置运作的要求。
发明内容
针对上述问题,本发明旨在提供一种基于深度学习的移动视频流内容识别分析方法。
本发明的目的采用以下技术方案来实现:
本发明示出一种基于深度学习的移动视频流内容识别分析方法,包括:
S1服务器获取由摄像头模块实时采集并传输的视频流数据;
S2服务器针对获取的视频流数据进行目标检测,提取待分析的视频帧图像;
S3服务器检测待分析视频帧图像中的目标对象,并基于图像识别模型识别目标对象的种类;
S4服务器输出目标对象种类的识别结果。
一种实施方式中,所述目标对象包括垃圾;摄像头模块对准设置在城市部件上的垃圾分类装置,用于实时采集垃圾分类装置中预设的垃圾摆放处的视频图像,并将视频流数据实时上传到服务器。
一种实施方式中,步骤S2包括:
服务器根据获取的视频流数据,对视频流数据中预设的目标区域进行检测,当检测到目标区域中出现目标时,提取对应的视频帧图像。
一种实施方式中,步骤S2中,对视频流数据中预设的目标区域进行检测,包括:
垃圾分类装置的垃圾摆放处区域设置有遮挡标识;
服务器对视频流数据进行检测,当检测到视频中的遮挡标识被遮挡时,则判断目标区域中出现目标,提取对应的视频帧图像;
一种实施方式中,步骤S2中,对视频流数据中预设的目标区域进行检测,包括:
垃圾分类装置的垃圾摆放处区域设置有红外传感器;
当红外传感器被遮挡时,则垃圾分类装置向服务器发出相应的遮挡信息;
服务器根据接收到的遮挡信息,判断目标区域中出现目标,提取对应的视频帧图像。
一种实施方式中,步骤S3中,服务器检测待分析视频帧图像中的目标对象,并基于图像识别模型识别目标对象的种类,包括:
S31服务器对待分析的视频帧图像进行预处理,得到预处理后的视频帧图像;
S32服务器根据预处理后的视频帧图像进行图像分割,提取目标检测区域图像;
S32服务器将目标检测区域图像输入到训练好的图像识别模型,获取图像识别模型输出的垃圾分类结果;其中,图像识别模型基于YOLOv5网络构建。
一种实施方式中,基于YOLOv5网络构建的图像识别模型包括依次连接的输入层、backbone层、neck层和输出层;
其中输入层用于输入目标检测区域图像;
backbone层以Focus结构作为基准网络,将目标检测区域图像输入到Focus结构中,通过卷积核对图像进行切片操作,得到对应的特征图;
neck层采用FPN+PAN结构,其中FPN自顶向下将高层的特征信息通过上采样的方式进行传递融合,得到预测的特征图;PAN层自底向上进行下采样向上传达定位特征,实现特征的融合;
输出层采用CIOU_loss为损失函数,采用nms的方式进行极大值抑制来进行目标框的筛选,并根据特征图输出垃圾分类识别结果。
一种实施方式中,该方法还包括:
SB1训练所述图像识别模型,包括:
构建垃圾图像数据集,其中垃圾图像数据集中包含有不同种类垃圾的图像集;
对垃圾图像数据集进行分类标注,对垃圾图像数据集中各垃圾图像标注对应的垃圾分类表示;
采用垃圾图像数据集对基于YOLOv5网络构建的图像识别模型进行训练,并对训练后的图像识别模型进行测试,测试通过后输出训练好的图像识别模型。
一种实施方式中,该方法还包括:
S5服务器根据垃圾种类的识别结果向城市部件上的垃圾分类装置发送对应的控制信号,以使得垃圾分类装置根据接收到的控制指令,将垃圾摆放处上的垃圾投入对应分类的垃圾箱中。
本发明的有益效果为:提出了一种基于深度学习的移动视频流内容识别分析方法,通过设置服务器实时获取由摄像头模块采集的视频流数据,由服务器对获取的视频流数据进行实时的分析,当检测到视频流数据中的目标区域出现待检测目标对象(垃圾)的时候,自动提取对应的视频帧图像进行目标对象检测,并基于深度学习训练的图像识别模型对目标对象进行分类的识别,得到对应的识别结果,并根据得到的目标对象分类结果对垃圾分类装置进行进一步的控制。上述基于视频流数据对垃圾分类装置目标区域进行实时监测的技术方案,能够避免传统方式中的需要额外的拍摄操作,有助于提高垃圾分类装置设计的智能化水平,同时提高了城市部件建设的智能化水平。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1为本发明实施例所示一种基于深度学习的移动视频流内容识别分析方法的方法流程示意图;
图2为图1中步骤S3的方法流程示意图。
具体实施方式
结合以下应用场景对本发明作进一步描述。
参见图1实施例所示一种基于深度学习的移动视频流内容识别分析方法,包括:
S1服务器获取由摄像头模块实时采集并传输的视频流数据;
S2服务器针对获取的视频流数据进行目标检测,提取待分析的视频帧图像;
S3服务器检测待分析视频帧图像中的目标对象,并基于图像识别模型识别目标对象的种类;
S4服务器输出目标对象种类的识别结果。
一种实施方式中,以基于深度学习的移动视频流内容识别分析城市部件的垃圾为例,所述目标对象包括垃圾;摄像头模块对准设置在城市部件上的垃圾分类装置,用于实时采集垃圾分类装置中预设的垃圾摆放处的视频图像,并将视频流数据实时上传到服务器。
一种场景中,以所述城市部件为设置在公共区域的垃圾分类箱为例,垃圾分类箱上设置有4种分类的垃圾箱和垃圾分类装置,其中垃圾分类装置设置在垃圾分类箱的上方,垃圾分类装置上设置有垃圾摆放处(台);其中摄像头模块采用高清CCD摄像头,将CCD摄像头的镜头方向对准垃圾摆放台,实时拍摄垃圾摆放台的图像。
当用户将垃圾放置在垃圾摆放台后,摄像头将实时的视频流数据传输到服务器,服务器根据接收到的视频流数据,以垃圾摆放处作为目标区域进行实时的检测,当检测到垃圾摆放处上放置了垃圾并静止后,服务器提取相应的视频帧图像进行,根据视频帧图像对垃圾摆放处上的垃圾进行分类识别,并根据分类识别结果控制垃圾分类装置将垃圾摆放处上的垃圾投放到相应分类的垃圾箱中。
一种实施方式中,步骤S2包括:
服务器根据获取的视频流数据,对视频流数据中预设的目标区域进行检测,当检测到目标区域中出现目标时,提取对应的视频帧图像。
一种实施方式中,步骤S2中,对视频流数据中预设的目标区域进行检测,包括:
垃圾分类装置的垃圾摆放处区域设置有遮挡标识;
服务器对视频流数据进行检测,当检测到视频中的遮挡标识被遮挡时,则判断目标区域中出现目标,提取对应的视频帧图像。
一种实施方式,服务器检测遮挡标识是否被遮挡可以通过模板匹配、背景匹配或者特征点检测等方式进行。
一种场景中,针对在基于视频流数据检测垃圾摆放处中是否存在垃圾的过程中,可以采用基于图像分析的方式来进行,通过预先录入空置的垃圾摆放处(台)的图像作为基准图像,将垃圾摆放处的区域作为目标检测区域,针对接收到的视频流数据,服务器仅对目标检测区域的部分进行模板匹配,通过将采集到的目标检测区域图像与预存的基准图像进行比较,当比较结果一致是,则判断垃圾摆放处中没有垃圾,当比较结果出现不一致时,此时则判断垃圾分类装置可能被使用,并进一步对接收到的视频流数据的目标检测区域进行分析,当目标检测区域的图像画面没有发生改变后且匹配结果依然与基准图像不一致时,则判断当前用户已经完成将垃圾放置在垃圾摆放处的过程,服务器进一步根据当前时刻提取对应的视频帧图像进行进一步的垃圾分类识别处理。通过设置目标检测区域进行初步的待检测目标检测,并且目标检测区域的图像变化完毕后再提取相应的视频帧图像,能够在节省计算资源的基础上,准确提取需要识别的待识别垃圾图像,有效避免了视频帧图像提取过早或过晚导致识别结果不准确或者计算资源浪费的情况,提高了针对识别分析的性能。
一种实施方式中,步骤S2中,对视频流数据中预设的目标区域进行检测,包括:
垃圾分类装置的垃圾摆放处区域设置有红外传感器;
当红外传感器被遮挡时,则垃圾分类装置向服务器发出相应的遮挡信息;
服务器根据接收到的遮挡信息,判断目标区域中出现目标,提取对应的视频帧图像。
一种实施方式中,参见图2,步骤S3中,服务器检测待分析视频帧图像中的垃圾,并基于图像识别模型识别垃圾的种类,包括:
S31服务器对待分析的视频帧图像进行预处理,得到预处理后的视频帧图像;
S32服务器根据预处理后的视频帧图像进行图像分割,提取目标检测区域图像;
S32服务器将目标检测区域图像输入到训练好的图像识别模型,获取图像识别模型输出的垃圾分类结果;其中,图像识别模型基于YOLOv5网络构建。
一种实施方式中,步骤S31中,服务器对待分析的视频帧图像进行预处理,包括:
根据获取的当前视频帧图像,将视频帧图像从RGB颜色空间转换到HSI颜色空间,分别获取视频帧图色调分量H、饱和度分量S和强度分量I;
基于自适应亮度调节函数对获取的强度分量I进行自适应强度调节:
Figure BDA0003640515480000051
其中,I′(x,y)表示自适应强度调节后像素点(x,y)的强度分量值,βI(x,y)表示像素点(x,y)的强度调节因子,其中强度调节因子通过以下函数获得:
Figure BDA0003640515480000052
Figure BDA0003640515480000053
其中,βI(x,y)表示像素点(x,y)的强度调节因子,D(x,y)表示像素点(x,y)到视频帧图像中心的像素距离,D4表示视频帧图像的对角像素距离,α表示设定的像素调节参量,其中α∈[0.001,0.1];I3×3(x,y)表示以像素点(x,y)为中心的3×3范围内的各像素点的平均强度分量值,I(x,y)表示像素点(x,y)的强度分量值,Imin和Imax分别表示视频帧图像中各像素点的最小强度分量值和最大强度分量值;max(βI)和min(βI)分别表示视频帧图像中各像素点的最大强度调节因子和最小强度调节因子;
根据自适应强度调节后各像素点的强度分量值构成调节后的强度分量I′,并进一步根据色调分量H、饱和度分量S和调节后的强度分量I′重新转换到RGB颜色空间,得到强度调节后的视频帧图像;
采用sym3小波基和2层分解尺度对强度调节后的视频帧图像进行小波分解,获取亮度调节后的视频帧图像的高频小波系数和低频小波系数;
采用的除噪声增强处理函数获取的高频小波系数进行除噪声增强处理:
Figure BDA0003640515480000061
式中,w′j,k表示除噪声增强处理后的第j层第k个高频小波系数,wj,k表示获取的第j层第k个高频小波系数,Z表示设定的阈值,α表示设定的抑制调节参量,β表示设定的补偿调节参量,γ表示平滑调节参量,sgn(*)表示符号函数;
根据除噪声增强处理后的高频系数进行小波逆变换,得到高频图像;
根据获取的低频小波系数进行小波逆变换获取低频图像,获取的低频图像尺寸与原视频帧图像相同,采用清晰度增强函数对低频图像进行清晰度增强处理:
Figure BDA0003640515480000062
式中,X′(x,y)表示低频图像中像素点(x,y)的像素值,max(X)和min(X)分别表示低频图像中各像素点的最大像素值和最小像素值;
基于清晰度增强处理后的低频图像和高频图像进行图像重构,得到预处理后的视频帧图像。
考虑到服务器根据视频帧图像识别垃圾的过程中,由于视频采集现场存在光照或者管径影响,或者是垃圾本身的遮挡或反光影响,容易使得视频图像的画面清晰度(特别是关键目标位置的清晰度)收到影响,从而影响进一步根据视频图像进行垃圾分类处理的效果,上述实施方式,提供了一种针对视频帧图像进行预处理的技术方案,首先根据获取的视频帧图像进行基于HIS颜色空间的自适应明度增强处理,其中提出的自适应亮度调节函数进行强度处理的过程中,通过计算像素点的强度调节因子对像素点的强度信息进行拉伸,同时结合像素点所在的位置对强度进行调节,有助于针对城市部件摆放环境中出现的反光或者突亮点导致的画面过渡曝光、或者现场环境亮度不足导致的画面过暗的情况进行自适应调节,同时也有助于提高视频帧图像中关键位置的清晰度;同时,基于小波分解得到的高频图像和低频图像分别进行增强处理,能够基于高频图像对视频帧图像中收到的噪声干扰进行去除,同时针对图像中的有用信息进行增强显示,有助于提高视频图像的整体和细节显示效果,为后续根据视频帧图像进行进一步的垃圾分类识别奠定基础。
一种实施方式中,基于YOLOv5网络构建的图像识别模型包括依次连接的输入层、backbone层、neck层和输出层;
其中输入层用于输入目标检测区域图像;
backbone层以Focus结构作为基准网络,将目标检测区域图像输入到Focus结构中,通过卷积核对图像进行切片操作,得到对应的特征图;
neck层采用FPN+PAN结构,其中FPN自顶向下将高层的特征信息通过上采样的方式进行传递融合,得到预测的特征图;PAN层自底向上进行下采样向上传达定位特征,实现特征的融合;
输出层采用CIOU_loss为损失函数,采用nms的方式进行极大值抑制来进行目标框的筛选,并根据特征图输出垃圾分类识别结果。
其中,基于YOLOv5网络构建的图像识别模型,能够准确提取目标检测区域图像中可能存在的垃圾的图像特性,提取相应的特征信息并进一步根据得到的特征信息进行垃圾分类的识别,具有较好的垃圾分类识别效果。
一种实施方式中,该方法还包括:
SB1训练所述图像识别模型,包括:
构建垃圾图像数据集,其中垃圾图像数据集中包含有不同种类垃圾的图像集;
对垃圾图像数据集进行分类标注,对垃圾图像数据集中各垃圾图像标注对应的垃圾分类表示;
采用垃圾图像数据集对基于YOLOv5网络构建的图像识别模型进行训练,并对训练后的图像识别模型进行测试,测试通过后输出训练好的图像识别模型。
一种实施方式中,该方法还包括:
S5服务器根据垃圾种类的识别结果向城市部件(垃圾分类箱)上的垃圾分类装置发送对应的控制信号,以使得垃圾分类装置根据接收到的控制指令,将垃圾摆放处上的垃圾投入对应分类的垃圾箱中。
本发明上述实施方式,提出了一种基于深度学习的移动视频流内容识别分析方法,通过设置服务器实时获取由摄像头模块采集的视频流数据,由服务器对获取的视频流数据进行实时的分析,当检测到视频流数据中的目标区域出现待检测目标对象(垃圾)的时候,自动提取对应的视频帧图像进行目标对象(垃圾)检测,并基于深度学习训练的图像识别模型对目标对象(垃圾)进行分类的识别,得到对应的识别结果,并根据得到的目标对象(垃圾)分类结果对垃圾分类装置进行进一步的控制。上述基于视频流数据对垃圾分类装置目标区域进行实时监测的技术方案,能够避免传统方式中的需要额外的拍摄操作,有助于提高垃圾分类装置设计的智能化水平,同时提高了城市部件建设的智能化水平。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解应当理解,可以以硬件、软件、固件、中间件、代码或其任何恰当组合来实现这里描述的实施例。对于硬件实现,处理器可以在一个或多个下列单元中实现:专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、设计用于实现这里所描述功能的其他电子单元或其组合。对于软件实现,实施例的部分或全部流程可以通过计算机程序来指令相关的硬件来完成。实现时,可以将上述程序存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。计算机可读介质可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当分析,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (8)

1.一种基于深度学习的移动视频流内容识别分析方法,其特征在于,包括:
S1服务器获取由摄像头模块实时采集并传输的视频流数据;
S2服务器针对获取的视频流数据进行目标检测,提取待分析的视频帧图像;
S3服务器检测待分析视频帧图像中的目标对象,并基于图像识别模型识别目标对象的种类;
S4服务器输出目标对象种类的识别结果。
2.根据权利要求1所述的一种基于深度学习的移动视频流内容识别分析方法,其特征在于,所述目标对象包括垃圾;
摄像头模块对准设置在城市部件上的垃圾分类装置,用于实时采集垃圾分类装置中预设的垃圾摆放处的视频图像,并将视频流数据实时上传到服务器。
3.根据权利要求2所述的一种基于深度学习的移动视频流内容识别分析方法,其特征在于,步骤S2包括:
服务器根据获取的视频流数据,对视频流数据中预设的目标区域进行检测,当检测到目标区域中出现目标时,提取对应的视频帧图像。
4.根据权利要求3所述的一种基于深度学习的移动视频流内容识别分析方法,其特征在于,步骤S2中,对视频流数据中预设的目标区域进行检测,包括:
垃圾分类装置的垃圾摆放处区域设置有遮挡标识;
服务器对视频流数据进行检测,当检测到视频中的遮挡标识被遮挡时,则判断目标区域中出现目标,提取对应的视频帧图像;
或,
垃圾分类装置的垃圾摆放处区域设置有红外传感器;
当红外传感器被遮挡时,则垃圾分类装置向服务器发出相应的遮挡信息;
服务器根据接收到的遮挡信息,判断目标区域中出现目标,提取对应的视频帧图像。
5.根据权利要求3所述的一种基于深度学习的移动视频流内容识别分析方法,其特征在于,步骤S3中,服务器检测待分析视频帧图像中的目标对象,并基于图像识别模型识别目标对象的种类,包括:
S31服务器对待分析的视频帧图像进行预处理,得到预处理后的视频帧图像;
S32服务器根据预处理后的视频帧图像进行图像分割,提取目标检测区域图像;
S32服务器将目标检测区域图像输入到训练好的图像识别模型,获取图像识别模型输出的垃圾分类结果;其中,图像识别模型基于YOLOv5网络构建。
6.根据权利要求5所述的一种基于深度学习的移动视频流内容识别分析方法,其特征在于,基于YOLOv5网络构建的图像识别模型包括依次连接的输入层、backbone层、neck层和输出层;
其中输入层用于输入目标检测区域图像;
backbone层以Focus结构作为基准网络,将目标检测区域图像输入到Focus结构中,通过卷积核对图像进行切片操作,得到对应的特征图;
neck层采用FPN+PAN结构,其中FPN自顶向下将高层的特征信息通过上采样的方式进行传递融合,得到预测的特征图;PAN层自底向上进行下采样向上传达定位特征,实现特征的融合;
输出层采用CIOU_loss为损失函数,采用nms的方式进行极大值抑制来进行目标框的筛选,并根据特征图输出垃圾分类识别结果。
7.根据权利要求6所述的一种基于深度学习的移动视频流内容识别分析方法,其特征在于,还包括:
SB1训练所述图像识别模型,包括:
构建垃圾图像数据集,其中垃圾图像数据集中包含有不同种类垃圾的图像集;
对垃圾图像数据集进行分类标注,对垃圾图像数据集中各垃圾图像标注对应的垃圾分类表示;
采用垃圾图像数据集对基于YOLOv5网络构建的图像识别模型进行训练,并对训练后的图像识别模型进行测试,测试通过后输出训练好的图像识别模型。
8.根据权利要求2所述的一种基于深度学习的移动视频流内容识别分析方法,其特征在于,该方法还包括:
S5服务器根据垃圾种类的识别结果向城市部件上的垃圾分类装置发送对应的控制信号,以使得垃圾分类装置根据接收到的控制指令,将垃圾摆放处上的垃圾投入对应分类的垃圾箱中。
CN202210513663.8A 2022-05-12 2022-05-12 一种基于深度学习的移动视频流内容识别分析方法 Active CN114821440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210513663.8A CN114821440B (zh) 2022-05-12 2022-05-12 一种基于深度学习的移动视频流内容识别分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210513663.8A CN114821440B (zh) 2022-05-12 2022-05-12 一种基于深度学习的移动视频流内容识别分析方法

Publications (2)

Publication Number Publication Date
CN114821440A true CN114821440A (zh) 2022-07-29
CN114821440B CN114821440B (zh) 2023-03-24

Family

ID=82513620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210513663.8A Active CN114821440B (zh) 2022-05-12 2022-05-12 一种基于深度学习的移动视频流内容识别分析方法

Country Status (1)

Country Link
CN (1) CN114821440B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116312996A (zh) * 2023-01-29 2023-06-23 广州兆熠数字科技有限公司 一种基于视频会诊的医疗服务系统
CN116704400A (zh) * 2023-04-28 2023-09-05 上海旋荣科技股份有限公司 一种基于图像识别增强的视觉ai精确识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170083762A1 (en) * 2015-06-22 2017-03-23 Photomyne Ltd. System and Method for Detecting Objects in an Image
US20180168512A1 (en) * 2016-03-03 2018-06-21 Hoya Corporation Correction data generation method and correction data generation apparatus
CN111814750A (zh) * 2020-08-14 2020-10-23 深延科技(北京)有限公司 基于深度学习目标检测和图像识别的智能垃圾分类方法及系统
CN112508759A (zh) * 2020-12-10 2021-03-16 清研灵智信息咨询(北京)有限公司 基于微服务的大数据管理和挖掘系统
CN113135368A (zh) * 2021-04-29 2021-07-20 怀化学院 一种智能垃圾前端分类系统和方法
CN113158956A (zh) * 2021-04-30 2021-07-23 杭州电子科技大学 一种基于改进型yolov5网络的垃圾检测与识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170083762A1 (en) * 2015-06-22 2017-03-23 Photomyne Ltd. System and Method for Detecting Objects in an Image
US20180168512A1 (en) * 2016-03-03 2018-06-21 Hoya Corporation Correction data generation method and correction data generation apparatus
CN111814750A (zh) * 2020-08-14 2020-10-23 深延科技(北京)有限公司 基于深度学习目标检测和图像识别的智能垃圾分类方法及系统
CN112508759A (zh) * 2020-12-10 2021-03-16 清研灵智信息咨询(北京)有限公司 基于微服务的大数据管理和挖掘系统
CN113135368A (zh) * 2021-04-29 2021-07-20 怀化学院 一种智能垃圾前端分类系统和方法
CN113158956A (zh) * 2021-04-30 2021-07-23 杭州电子科技大学 一种基于改进型yolov5网络的垃圾检测与识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
PARK S.B.等: "Content-based image classification using a neural network", 《RECOGNITION LETTERS》 *
刘波等: "一种基于色差灰度图像的足球机器人足球识别方法", 《江苏工业学院学报》 *
王文胜等: "基于YOLO_v5模型的非住宅区自动垃圾分类箱设计", 《环境工程》 *
王荀: "基于可见光与红外成像融合的目标识别与跟踪技术", 《万方学位论文》 *
郑誉煌等: "基于迁移学习的可回收生活垃圾图像分类识别研究", 《广东第二师范学院学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116312996A (zh) * 2023-01-29 2023-06-23 广州兆熠数字科技有限公司 一种基于视频会诊的医疗服务系统
CN116312996B (zh) * 2023-01-29 2024-02-09 广州兆熠数字科技有限公司 一种基于视频会诊的医疗服务系统
CN116704400A (zh) * 2023-04-28 2023-09-05 上海旋荣科技股份有限公司 一种基于图像识别增强的视觉ai精确识别方法

Also Published As

Publication number Publication date
CN114821440B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN110956094B (zh) 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN114821440B (zh) 一种基于深度学习的移动视频流内容识别分析方法
CN109948566B (zh) 一种基于权重融合与特征选择的双流人脸反欺诈检测方法
CN111611907B (zh) 一种图像增强的红外目标检测方法
CN101983507A (zh) 自动红眼检测
CN113435407B (zh) 一种输电系统的小目标识别方法及装置
US11275947B2 (en) Image processing system, image processing method, and image processing program
CN112232204B (zh) 基于红外图像的活体检测方法
CN104361357B (zh) 基于图片内容分析的相片集分类系统及分类方法
CN114821376B (zh) 一种基于深度学习的无人机影像地质灾害自动提取方法
CN112232205B (zh) 移动端cpu实时多功能人脸检测方法
CN107563985A (zh) 一种红外图像空中运动目标的检测方法
CN113537037A (zh) 路面病害识别方法、系统、电子设备及存储介质
CN108711160B (zh) 一种基于hsi增强性模型的目标分割方法
JP4230730B2 (ja) 画像処理システム及び画像処理方法
CN113781421A (zh) 基于水下的目标识别方法、装置及系统
CN115965934A (zh) 一种停车位检测方法及装置
CN117456371B (zh) 一种组串热斑检测方法、装置、设备及介质
CN117710868B (zh) 一种对实时视频目标的优化提取系统及方法
CN117496019B (zh) 一种驱动静态图像的图像动画处理方法及系统
CN110298796A (zh) 基于改进Retinex与对数图像处理的低照度图像增强方法
CN116311212B (zh) 基于高速摄像机实现运动状态下的船号识别方法及装置
CN117496532A (zh) 基于0cr的智慧识别工具
CN112183287A (zh) 一种移动机器人在复杂背景下的人数统计方法
CN110633705A (zh) 一种低照度成像车牌识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant