CN116503810A - 一种安全监控视频目标检测方法及相关装置 - Google Patents
一种安全监控视频目标检测方法及相关装置 Download PDFInfo
- Publication number
- CN116503810A CN116503810A CN202310539865.4A CN202310539865A CN116503810A CN 116503810 A CN116503810 A CN 116503810A CN 202310539865 A CN202310539865 A CN 202310539865A CN 116503810 A CN116503810 A CN 116503810A
- Authority
- CN
- China
- Prior art keywords
- scale
- network
- feature
- target
- targets
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 64
- 238000012544 monitoring process Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000013461 design Methods 0.000 claims description 22
- 238000007499 fusion processing Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 230000035945 sensitivity Effects 0.000 claims description 8
- 230000001965 increasing effect Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000004807 localization Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Closed-Circuit Television Systems (AREA)
- Alarm Systems (AREA)
Abstract
本申请公开了一种安全监控视频目标检测方法及相关装置,首先,采用基于ResNet‑101的Faster‑RCNN网络,实现多目标的定位与分类;然后,设计网络尺度不变性指标,有效验证模型对多尺度目标的检测精度;引入精度高且速度快的特征金字塔网络(FPN),并对其Conv2层和Conv3层分别采用低层特征增强与尺度特征均衡两种策略来提高对远处目标和小尺度目标的检测能力。本申请通过基于ResNet‑101的Faster‑RCNN网络检测和分类监控视频中的多个目标,再通过改进网络结构,在满足实时性要求的前提下,实现对更小尺寸目标的可靠检测。该方法的虚警率和漏警率低,可广泛应用于智能视频监控系统。
Description
技术领域
本申请涉及目标检测技术领域,尤其涉及一种安全监控视频目标检测方法及相关装置。
背景技术
随着视频监控技术的飞速发展,基于视频检测监控场景的目标位置和种类成为主流。安全监控视频中通常会同时出现多个目标,但是由于视角远近不同或者目标本身大小不一,导致画面中的多个目标具有不同尺度,及时准确检测其位置和种类对维护他人生命财产安全及社会稳定有积极意义。
然而传统视频监控技术的智能化水平较低,主要依靠人工辨别来检测监控视频中可能同时出现的多个大小不一的目标。因为监控中心通常配备多个监控大屏,值班人员往往会顾此失彼。此外,长时间值班难免会因为疲劳产生疏忽,极易遗漏画面中的小尺寸目标,可能给监控场所带来重大损失。
时值人工智能技术赋能传统产业的热潮之下,各种场景都需要用于检测多尺度目标的位置和种类的智能检测系统。采用视频分析技术智能检测监控视频中的多尺度目标是高效解决目标检测的有效途径之一。虽然多尺度目标训练策略和多尺度目标测试策略有助于提升网络精度以及尺度不变性,但是前者的训练时间成本过高,后者不适用于实时检测的安全监控场景。
发明内容
本申请提供了一种安全监控视频目标检测方法及相关装置,用于解决现有技术对实时性视频进行小尺寸目标进行检测的可靠性较低的技术问题。
有鉴于此,本申请第一方面提供了一种安全监控视频目标检测方法,所述方法包括:
通过基于ResNet-101的Faster-RCNN网络作为目标检测的基础模型,对从安全监控终端获取的视频帧图像进行分类和定位;
对视频帧图像的不同类别的目标分别计算尺度与召回率的关系,并基于尺度大小与召回率的相关性表示检测算法对尺度的敏感度,从而设计Faster-RCNN网络综合尺度不变性指标;
基于Inception网络,设计底层特征增强的尺度不变性策略,并基于FPN网络自顶向下的特征融合过程为基础,设计尺度特征均衡的尺度不变性策略,从而返回所述视频帧图像中所有目标的位置和种类。
可选地,所述通过基于ResNet-101的Faster-RCNN网络作为目标检测的基础模型,对从安全监控终端获取的视频帧图像进行分类和定位,具体包括:
通过结构简化后的特征提取网络ResNet-101从所述视频帧图像中获取特征图;
通过区域候选网络判断所有预设anchor内是否有目标并生成可能是前景的候选框;
由兴趣域池化层收集所述候选框的坐标,并根据所述坐标从所述特征图中获取候选框特征图;
由全连接层利用所述候选框特征图判断检测框内目标的类别,通过边界框回归获得检测框的精确位置。
可选地,所述对视频帧图像的不同类别的目标分别计算尺度与召回率关系,并基于尺度大小与召回率的相关性表示检测算法对尺度的敏感度,从而设计Faster-RCNN网络综合尺度不变性指标,具体包括:
对视频帧图像不同类别的目标分别计算尺度与召回率关系;统计不同类别间目标尺度与平均召回率之间的相关系数;将所有类别对应的相关系数取平均值,得到Faster-RCNN网络综合尺度不变性指标。
可选地,所述基于Inception网络,设计底层特征增强的尺度不变性策略,并基于FPN网络自顶向下的特征融合过程为基础,设计尺度特征均衡的尺度不变性策略,具体包括:
在Inception网络的基础上,增加卷积核的尺寸,去除最大池化层;根据卷积核的尺寸大小对卷积核进行替换,并设计共享卷积核用于减少计算量;
以原始特征金字塔网络(FPN)自顶向下的特征融合过程为基础,赋予不同层不同的权重,从而融合不同层的特征。
本申请第二方面提供一种安全监控视频目标检测系统,所述系统包括:
分类和定位单元,用于通过基于ResNet-101的Faster-RCNN网络作为目标检测的基础模型,对从安全监控终端获取的视频帧图像进行分类和定位;
第一设计单元,用于对视频帧图像的不同类别的目标分别计算尺度与召回率的关系,并基于尺度大小与召回率的相关性表示检测算法对尺度的敏感度,从而设计Faster-RCNN网络综合尺度不变性指标;
第二设计单元,用于基于Inception网络,设计底层特征增强的尺度不变性策略,并基于FPN网络自顶向下的特征融合过程为基础,设计尺度特征均衡的尺度不变性策略,从而返回所述视频帧图像中所有目标的位置和种类。
可选地,所述分类和定位单元,具体用于:
通过结构简化后的特征提取网络ResNet-101从所述视频帧图像中获取特征图;
通过区域候选网络判断所有预设anchor内是否有目标并生成可能是前景的候选框;
由兴趣域池化层收集所述候选框的坐标,并根据所述坐标从所述特征图中获取候选框特征图;
由全连接层利用所述候选框特征图判断检测框内目标的类别,通过边界框回归获得检测框的精确位置。
可选地,所述第一设计单元,具体用于:
对视频帧图像不同类别的目标分别计算尺度与召回率关系;统计不同类别间目标尺度与平均召回率之间的相关系数;将所有类别对应的相关系数取平均值,得到Faster-RCNN网络综合尺度不变性指标。
可选地,所述第二设计单元,具体用于:
在Inception网络的基础上,增加卷积核的尺寸,去除最大池化层;根据卷积核的尺寸大小对卷积核进行替换,并设计共享卷积核用于减少计算量;
以原始特征金字塔网络(FPN)自顶向下的特征融合过程为基础,赋予不同层不同的权重,从而融合不同层的特征。
本申请第三方面提供一种安全监控视频目标检测设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令,执行如上述第一方面所述的安全监控视频目标检测方法的步骤。
本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述第一方面所述的安全监控视频目标检测方法。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供了一种安全监控视频目标检测方法,提出了融合分类与定位的多目标检测方法,智能检测监控视频中的多类和多个目标,可以降低依靠人工检测时易出现的漏警现象,提高监控系统的智能化水平;在分类与定位之前检测可能包含目标的前景区域,可以减少复杂环境对目标识别的干扰,从而降低虚警率;设计基于低层特征增强和尺度特征均衡的尺度不变性策略,可以降低智能检测时对小尺度目标的漏警现象,提高智能监控的安全性。
附图说明
图1为本申请实施例中提供的一种安全监控视频目标检测方法实施例的流程示意图;
图2为本申请实施例中提供的一种选择Inception网络的特征提取层的示意图;
图3为本申请实施例中提供的一种增大卷积核的尺寸并裁剪Maxpool层的示意图;
图4为本申请实施例中提供的一种替换卷积核的示意图;
图5为本申请实施例中提供的一种安全监控视频目标检测系统实施例的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,本申请实施例中提供的一种安全监控视频目标检测方法,包括:
步骤101、通过基于ResNet-101的Faster-RCNN网络作为目标检测的基础模型,对从安全监控终端获取的视频帧图像进行分类和定位;
需要说明的是,融合分类与定位的多目标检测方法具体步骤如下:
Step1:裁剪ResNet-101的分类结构和最后一部分卷积层,以conv4_22层的输出作为特征提取结果。
Step2:输入为特征提取模块输出的1*4096维特征,经回归定位与分类检测模块并行处理,得到各自结果,再分别求出与标签值之间的损失值,最后求和得到总损失,用于BP算法训练。
Step3:分类检测模块通过卷积层将输入的1*4096维特征转化为1*(K+1)维分类结果。其中,K为数据集类别数。采用基于极大似然法的softmax分类器。训练时,对于分类检测模块,第i类的交叉熵损失函数Lcls为:
其中,pi为softmax函数计算出的第i个网络输出概率;为对应的类别标签,若为对应类别取值为1,反之为0。
Step4:回归定位模块通过卷积层将输入的1*4096维特征转化为1*4维特征。损失计算方式采用为smoothL1,用t=[tx,ty,tw,th]代表检测框,其中tx,ty代表目标的坐标,tw,th代表目标的高和宽,则损失函数Lreg为:
其中,ti为对应的检测框,/>为对应的目标框。
Step5:计算总损失函数时,需要判断该类是否为背景,即:
其中,u=0时为背景,使用超参数λ来均衡Lcls与Lreg,一般取值为1。
步骤102、对视频帧图像的不同类别的目标分别计算尺度与召回率的关系,并基于尺度大小与召回率的相关性表示检测算法对尺度的敏感度,从而设计Faster-RCNN网络综合尺度不变性指标;
需要说明的是,尺度不变性指标设计具体步骤如下:
Step1:对不同类别,分别计算尺度与召回率的关系。
Step2:对计算得到的类别i的平均召回率-尺度曲线上的尺度di和召回率pi,各类别尺度不变性指标为:
其中,cov为不同类别尺度di和召回率pi之间的协方差,σ为对应尺度di和召回率pi的标准差。
Step3:网络综合尺度不变性指标为:
步骤103、基于Inception网络,设计底层特征增强的尺度不变性策略,并基于FPN网络自顶向下的特征融合过程为基础,设计尺度特征均衡的尺度不变性策略,从而返回视频帧图像中所有目标的位置和种类。
基于底层特征增强的尺度不变性策略,具体步骤如下:
Step1:选择Inception网络的特征提取层,如图2所示。
Step2:增大相应卷积核的尺寸,并裁剪Maxpool层,如图3所示。
Step3:为了进一步在具有相同感受野的情况下增强非线性,用两个Conv3*3来代替一个Conv5*5,用三个Conv3*3代替一个Conv7*7。右边两路共用一个Conv3*3,运算过程相对于输入通道数减半。如图4所示。
基于尺度特征均衡的尺度不变性策略具体步骤如下:
Step1:在使用FPN网络进行自顶向下的特征融合时不同层的作用不同,因此不应直接相加,而应赋予不同的权重,使得相邻层间的特征层更恰当地融合,具体方法如下式来描述。
其中,i代表自底向上计数的特征层,分别取3,2,1。ini为第i个尺度特征FPN的输入,outi+1代表上一层特征融合的结果或者最顶层的特征,resize()代表上采样过程,outi为此次特征融合的输出。n为归一化常量,取2。
Step2:如果需要简化计算过程,可采用下式来均衡尺度特征。
其中,ξ作用为避免被除数为0,取值为0.0001。
以上为本申请实施例中提供的一种安全监控视频目标检测方法,以下为本申请实施例中提供的一种安全监控视频目标检测系统。
请参阅图2,本申请实施例中提供的一种安全监控视频目标检测系统,包括:
分类和定位单元201,用于通过基于ResNet-101的Faster-RCNN网络作为目标检测的基础模型,对从安全监控终端获取的视频帧图像进行分类和定位;
第一设计单元202,用于对视频帧图像的不同类别的目标分别计算尺度与召回率的关系,并基于尺度大小与召回率的相关性表示检测算法对尺度的敏感度,从而设计Faster-RCNN网络综合尺度不变性指标;
第二设计单元203,用于基于Inception网络,设计底层特征增强的尺度不变性策略,并基于FPN网络自顶向下的特征融合过程为基础,设计尺度特征均衡的尺度不变性策略,从而返回视频帧图像中所有目标的位置和种类。
进一步地,本申请实施例中还提供了一种安全监控视频目标检测设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令,执行如上述方法实施例所述的安全监控视频目标检测方法的步骤。
进一步地,本申请实施例中还提供了计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述方法实施例所述的安全监控视频目标检测方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种安全监控视频目标检测方法,其特征在于,包括:
通过基于ResNet-101的Faster-RCNN网络作为目标检测的基础模型,对从安全监控终端获取的视频帧图像进行分类和定位;
对视频帧图像的不同类别的目标分别计算尺度与召回率的关系,并基于尺度大小与召回率的相关性表示检测算法对尺度的敏感度,从而设计Faster-RCNN网络综合尺度不变性指标;
基于Inception网络,设计底层特征增强的尺度不变性策略,并基于FPN网络自顶向下的特征融合过程为基础,设计尺度特征均衡的尺度不变性策略,从而返回所述视频帧图像中所有目标的位置和种类。
2.根据权利要求1所述的安全监控视频目标检测方法,其特征在于,所述通过基于ResNet-101的Faster-RCNN网络作为目标检测的基础模型,对从安全监控终端获取的视频帧图像进行分类和定位,具体包括:
通过结构简化后的特征提取网络ResNet-101从所述视频帧图像中获取特征图;
通过区域候选网络判断所有预设anchor内是否有目标并生成可能是前景的候选框;
由兴趣域池化层收集所述候选框的坐标,并根据所述坐标从所述特征图中获取候选框特征图;
由全连接层利用所述候选框特征图判断检测框内目标的类别,通过边界框回归获得检测框的精确位置。
3.根据权利要求1所述的安全监控视频目标检测方法,其特征在于,所述对视频帧图像的不同类别的目标分别计算尺度与召回率关系,并基于尺度大小与召回率的相关性表示检测算法对尺度的敏感度,从而设计Faster-RCNN网络综合尺度不变性指标,具体包括:
对视频帧图像不同类别的目标分别计算尺度与召回率关系;统计不同类别间目标尺度与平均召回率之间的相关系数;将所有类别对应的相关系数取平均值,得到Faster-RCNN网络综合尺度不变性指标。
4.根据权利要求1所述的安全监控视频目标检测方法,其特征在于,所述基于Inception网络,设计底层特征增强的尺度不变性策略,并基于FPN网络自顶向下的特征融合过程为基础,设计尺度特征均衡的尺度不变性策略,具体包括:
在Inception网络的基础上,增加卷积核的尺寸,去除最大池化层;根据卷积核的尺寸大小对卷积核进行替换,并设计共享卷积核用于减少计算量;
以原始特征金字塔网络(FPN)自顶向下的特征融合过程为基础,赋予不同层不同的权重,从而融合不同层的特征。
5.一种安全监控视频目标检测系统,其特征在于,包括:
分类和定位单元,用于通过基于ResNet-101的Faster-RCNN网络作为目标检测的基础模型,对从安全监控终端获取的视频帧图像进行分类和定位;
第一设计单元,用于对视频帧图像的不同类别的目标分别计算尺度与召回率的关系,并基于尺度大小与召回率的相关性表示检测算法对尺度的敏感度,从而设计Faster-RCNN网络综合尺度不变性指标;
第二设计单元,用于基于Inception网络,设计底层特征增强的尺度不变性策略,并基于FPN网络自顶向下的特征融合过程为基础,设计尺度特征均衡的尺度不变性策略,从而返回所述视频帧图像中所有目标的位置和种类。
6.根据权利要求5所述的安全监控视频目标检测系统,其特征在于,所述分类和定位单元,具体用于:
通过结构简化后的特征提取网络ResNet-101从所述视频帧图像中获取特征图;
通过区域候选网络判断所有预设anchor内是否有目标并生成可能是前景的候选框;
由兴趣域池化层收集所述候选框的坐标,并根据所述坐标从所述特征图中获取候选框特征图;
由全连接层利用所述候选框特征图判断检测框内目标的类别,通过边界框回归获得检测框的精确位置。
7.根据权利要求5所述的安全监控视频目标检测系统,其特征在于,所述第一设计单元,具体用于:
对视频帧图像不同类别的目标分别计算尺度与召回率关系;统计不同类别间目标尺度与平均召回率之间的相关系数;将所有类别对应的相关系数取平均值,得到Faster-RCNN网络综合尺度不变性指标。
8.根据权利要求5所述的安全监控视频目标检测系统,其特征在于,所述第二设计单元,具体用于:
在Inception网络的基础上,增加卷积核的尺寸,去除最大池化层;根据卷积核的尺寸大小对卷积核进行替换,并设计共享卷积核用于减少计算量;
以原始特征金字塔网络(FPN)自顶向下的特征融合过程为基础,赋予不同层不同的权重,从而融合不同层的特征。
9.一种安全监控视频目标检测设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的安全监控视频目标检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-4任一项所述的安全监控视频目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310539865.4A CN116503810A (zh) | 2023-05-12 | 2023-05-12 | 一种安全监控视频目标检测方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310539865.4A CN116503810A (zh) | 2023-05-12 | 2023-05-12 | 一种安全监控视频目标检测方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116503810A true CN116503810A (zh) | 2023-07-28 |
Family
ID=87316383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310539865.4A Pending CN116503810A (zh) | 2023-05-12 | 2023-05-12 | 一种安全监控视频目标检测方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116503810A (zh) |
-
2023
- 2023-05-12 CN CN202310539865.4A patent/CN116503810A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416902B (zh) | 基于差异识别的实时物体识别方法和装置 | |
US8983200B2 (en) | Object segmentation at a self-checkout | |
CN110598558B (zh) | 人群密度估计方法、装置、电子设备及介质 | |
Bertini et al. | Multi-scale and real-time non-parametric approach for anomaly detection and localization | |
CN110853033B (zh) | 基于帧间相似度的视频检测方法和装置 | |
US7822275B2 (en) | Method for detecting water regions in video | |
US20140169639A1 (en) | Image Detection Method and Device | |
WO2014081687A1 (en) | Method and system for counting people using depth sensor | |
US20210124928A1 (en) | Object tracking methods and apparatuses, electronic devices and storage media | |
CN110298297A (zh) | 火焰识别方法和装置 | |
CN110197185B (zh) | 一种基于尺度不变特征变换算法监测桥下空间的方法和系统 | |
CN112102409A (zh) | 目标检测方法、装置、设备及存储介质 | |
CN115546705B (zh) | 目标识别方法、终端设备及存储介质 | |
CN112163572A (zh) | 识别对象的方法和装置 | |
CN115660262B (zh) | 一种基于数据库应用的工程智慧质检方法、系统及介质 | |
CN109816041A (zh) | 商品检测摄像头、商品检测方法和装置 | |
CN111310531B (zh) | 图像分类方法、装置、计算机设备及存储介质 | |
CN114973057A (zh) | 基于人工智能的视频图像检测方法及相关设备 | |
CN114255377A (zh) | 一种智能货柜的差异商品检测分类方法 | |
CN114169425A (zh) | 训练目标跟踪模型和目标跟踪的方法和装置 | |
CN106778822B (zh) | 基于漏斗变换的图像直线检测方法 | |
KR101513180B1 (ko) | 감시카메라 영상을 이용한 실시간 결제 이벤트 요약 시스템 및 그 방법 | |
CN111814653A (zh) | 一种视频中异常行为的检测方法、装置、设备及存储介质 | |
CN115205793B (zh) | 基于深度学习二次确认的电力机房烟雾检测方法及装置 | |
CN116503810A (zh) | 一种安全监控视频目标检测方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |