CN111814565A - 一种目标检测方法和装置 - Google Patents

一种目标检测方法和装置 Download PDF

Info

Publication number
CN111814565A
CN111814565A CN202010528711.1A CN202010528711A CN111814565A CN 111814565 A CN111814565 A CN 111814565A CN 202010528711 A CN202010528711 A CN 202010528711A CN 111814565 A CN111814565 A CN 111814565A
Authority
CN
China
Prior art keywords
scale
initial
model
feature
extended
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010528711.1A
Other languages
English (en)
Inventor
邓积杰
何楠
林星
白兴安
徐扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Weiboyi Technology Co ltd
Original Assignee
Beijing Weiboyi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Weiboyi Technology Co ltd filed Critical Beijing Weiboyi Technology Co ltd
Priority to CN202010528711.1A priority Critical patent/CN111814565A/zh
Publication of CN111814565A publication Critical patent/CN111814565A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种目标检测方法和装置,涉及数据处理领域。为解决现有技术小目标检测的准确率较低的问题而发明。本发明实施例提供的技术方案包括:获取待检测文件;通过预先训练的目标检测模型对所述待检测文件进行检测,得到需要检测的目标;所述预先训练的目标检测模型为预先通过含有所述目标的图片对扩展YOLOv3模型进行训练得到的,所述扩展YOLOv3模型为对预设初始YOLOv3模型进行尺度扩展后的模型。该方案可以应用在对图片、短视频等的目标检测中。

Description

一种目标检测方法和装置
技术领域
本发明涉及数据处理领域,特别是涉及一种目标检测方法和装置。
背景技术
目标检测是计算机视觉领域中一个热门研究课题,其在人脸识别、安全监控、动态追踪、图像识别等众多领域都具有广泛的应用前景。目标检测指从特定场景/图片中检测并识别其中的特定目标,并输出特定目标的位置、大小等信息。
现有技术中,一般采用YOLOv3实现目标检测。YOLOv3是深度学习方面的一种目标检测网络,在单帧图像的检测和识别层面应用很广;相比于传统目标检测算法,其优势在于更高的检测准确率以及更快的检测速度。
然而,由于YOLOv3神经网络过深,在目标检测任务中容易忽略浅层位置信息,导致小目标检测的准确率较低。
发明内容
有鉴于此,本发明的主要目的在于解决现有目标检测方法小目标检测的准确率较低的问题。
一方面,本发明实施例提供的一种目标检测方法,包括:获取待检测文件;通过预先训练的目标检测模型对所述待检测文件进行检测,得到需要检测的目标;所述预先训练的目标检测模型为预先通过含有所述目标的图片对扩展YOLOv3模型进行训练得到的,所述扩展YOLOv3模型为对预设初始YOLOv3模型进行尺度扩展后的模型。
另一方面,本发明实施例提供一种目标检测装置,包括:
文件获取模块、文件检测模块和预先训练的目标检测模型;
文件获取模块,用于获取待检测文件;
文件检测模块,分别与所述文件获取模块和预先训练的目标检测模型相连,用于通过预先训练的目标检测模型对所述待检测文件进行检测,得到需要检测的目标;
所述预先训练的目标检测模型为预先通过含有所述目标的图片对扩展YOLOv3模型进行训练得到的,所述扩展YOLOv3模型为对预设初始YOLOv3模型进行尺度扩展后的模型。
综上所述,本发明提供的目标检测方法和装置,通过预先训练的目标检测模型对所述待检测文件进行检测,从而实现目标检测。本实施例提供的技术方案,由于预先训练的目标检测模型为预先通过含有所述目标的图片对扩展YOLOv3模型进行训练得到的,而所述扩展YOLOv3模型为对预设初始YOLOv3模型进行尺度扩展后的模型;通过对初始YOLOv3模型进行尺度扩展,能够增强浅层特征的表征能力,从而提高小目标的检测效果和准确率。该方案解决了现有技术中由于YOLOv3神经网络过深,在目标检测任务中容易忽略浅层位置信息,导致小目标检测的准确率较低的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的目标检测方法的流程图一;
图2为图1所示的目标检测方法中进行1个尺度扩展后的YOLOv3模型的结构示意图;
图3为图1所示的目标检测方法中进行2个尺度扩展后的YOLOv3模型的结构示意图;
图4为本发明实施例1提供的目标检测方法的流程图二;
图5为本发明实施例1提供的目标检测方法的流程图三;
图6为图5所示的目标检测方法中改进CBAM模块的结构示意图;
图7为本发明实施例1提供的目标检测方法的流程图四;
图8为本发明实施例2提供的目标检测装置的结构示意图。
具体实施方式
下面将结合本发明的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本发明提供一种目标检测方法,包括:
步骤101,获取待检测文件。
在本实施例中,步骤101中待检测文件,可以为待检测视频,也可以为待检测图片,在此不作限制。
步骤102,通过预先训练的目标检测模型对该待检测文件进行检测,得到需要检测的目标。
在本实施例中,步骤102中预先训练的目标检测模型为预先通过含有目标的图片对扩展YOLOv3模型进行训练得到的,扩展YOLOv3模型为对预设初始YOLOv3模型进行尺度扩展后的模型。通过对初始YOLOv3模型进行尺度扩展,能够增强浅层特征的表征能力,从而提高小目标的检测效果和准确率。该初始YOLOv3模型为现有技术中的YOLOv3模型。
在本实施例中,待检测文件为待检测视频时,通过步骤102对待检测文件进行检测,可以为对待检测文件进行逐帧检测;为了提高检测效率,特别的,该检测过程也可以包括:获取待检测视频的至少一个图像帧;将至少一个图像帧进行组合,得到至少一个图像批次;通过预先训练的目标检测模型分别对至少一个图像批次进行检测。其中,获取待检测视频的至少一个图像帧的方式可以为:对待检测视频进行解码,按照N帧/短视频获得整个短视频的图像帧,N为正整数;具体的,可以每秒取一个图像帧。将至少一个图像帧进行组合的方式可以为,设置每批次包含的帧数,然后根据每批次包含的帧数对图像帧进行组合。
具体的,为了在不明显提高计算量的条件下提高小目标的检测精度,该扩展YOLOv3模型具体为对预设初始YOLOv3模型进行1个或2个尺度扩展后的模型。
初始YOLOv3模型一般在三个不同的尺度上进行检测,初始YOLOv3模型的初始第一尺度与第23个残差块相连,初始YOLOv3模型的初始第二尺度分别与初始第一尺度和第19个残差块相连,初始YOLOv3模型的初始第三尺度分别与初始第二尺度和第11个残差块相连。
进行1个尺度扩展时,扩展的第一尺度分别与预设初始YOLOv3模型的初始第三尺度和第3个残差块相连。此时,进行1个尺度扩展后的YOLOv3模型的结构如图2所示。具体的,初始第一尺度、初始第二尺度和初始第三尺度的内部结构及连接关系,与现有的YOLOv3模型类似,在此不再一一赘述。扩展的第一尺度的结构与初始第二/三尺度的结构类似,扩展的第一尺度的内部结构与初始第三尺度和第3个残差块的连接方式,与初始第三尺度的连接方式类似,在此不再一一赘述。
进行2个尺度扩展时,扩展的第一尺度分别与预设初始YOLOv3模型的初始第三尺度和第3个残差块相连,扩展的第二尺度分别与扩展的第一尺度和预设初始YOLOv3模型的第1个残差块相连。此时,进行2个尺度扩展后的YOLOv3模型的结构如图3所示。具体的,扩展的第一/二尺度的结构与初始第二/三尺度的结构类似,扩展的第一尺度的内部模块与初始第三尺度和第3个残差块的连接方式、扩展的第二尺度的内部模块与扩展的第一尺度和第1个残差块的连接方式,与初始第三尺度的连接方式类似,在此不再一一赘述。
进一步的,如图4所示,本实施例提供的目标检测方法,在步骤102之前,还可以包括:
步骤103,获取对预设初始YOLOv3模型进行尺度扩展后的扩展YOLOv3模型。
在本实施例中,通过步骤103获取的扩展YOLOv3模型,与图2/3所示的相似,在此不再一一赘述。
步骤104,通过含有目标的图片对扩展YOLOv3模型进行训练,得到预先训练的目标检测模型。
在本实施例中,可以采用学习率预热方法通过步骤104或预先通过含有目标的图片对扩展YOLOv3模型进行训练。训练时采用的数据包括:含有目标的图片以及目标的位置,具体的,该目标的位置可以通过目标的中心坐标、宽度和高度描述;特别的,为了能够检测多个目标,训练时采用的数据还可以包括目标的类型。
在本实施例中,为了能够对不同尺度的文件进行检测,训练时使用的含有目标的图片具体为预先进行多尺度变换后的图片;具体的,训练获取的图片可以为单一尺度的,经过多尺度变换得到多尺度图片后,再使用多尺度图片进行训练。该多尺度变换的尺度范围可以为416*416、320*320、352*352、384*384、448*448、480*480、512*512等,在此不作限制。
进一步的,如图5所示,本实施例提供的目标检测方法,在步骤104之前,还可以包括:
步骤105,获取将初始CBAM模块去除全局最大池化分支后得到的改进CBAM模块。
在本实施例中,步骤105中改进CBAM模块的结构如图6所示。改进CBAM模块去除了全局最大池化分支,仅保留全局平均池化分支,可以消除全局最大池化对噪声点/区域(图像中的黑色像素点/区域)过于敏感带来的副作用,从而提高目标检测的检测精度。
步骤106,将改进CBAM模块设置在扩展YOLOv3模型的残差块中。
在本实施例中,步骤106以改进模块设置在扩展YOLOv3模型的残差块中为例进行说明,此时通过步骤104“通过含有目标的图片对扩展YOLOv3模型进行训练”中扩展YOLOv3模型为设置了改进CBAM模块的扩展YOLOv3模型。当将改进模块设置在初始YOLOv3模型的残差块中时,该步骤应在步骤103之前,此时通过步骤103“获取对预设初始YOLOv3模型进行尺度扩展后的扩展YOLOv3模型”中的初始YOLOv3模型为设置了改进CBAM模块的初始YOLOv3模型。
通过步骤106将改进CBAM模块设置在初始/扩展YOLOv3模型的残差块中,可以设置在初始/扩展YOLOv3模型的一个或多个残差块中。特别的,为了提高目标检测精度,步骤106具体为将改进CBAM模块设置在初始/扩展YOLOv3模型的第1、3、11、19和23个残差块中一个或多个残差块中。
在本实施例中,将改进CBAM模块设置在残差块中,具体位置可以为将改进CBAM模块设置在初始/扩展YOLOv3模型的残差块内的第二个激活函数之后。
在本实施例中,将改进CBAM模块嵌入到初始/扩展YOLOv3模型中,能够在不显著增加计算量和参数量的前提下,提升扩展YOLOv3模型的特征提取能力,让扩展YOLOv3模型更关注通道的特征,同时也能够增强特征区域的表征。
进一步的,如图7所示,本实施例提供的目标检测方法,在步骤104之前,还可以包括:
步骤107,对扩展YOLOv3模型得到的最终残差特征进行视觉空间注意力调整。
在本实施例中,步骤107以对扩展YOLOv3模型得到的最终残差特征进行视觉空间注意力调整为例进行说明,此时通过步骤104“通过含有目标的图片对扩展YOLOv3模型进行训练”中扩展YOLOv3模型为进行视觉空间注意力调整后的扩展YOLOv3模型。当对初始YOLOv3模型得到的最终残差特征进行视觉空间注意力调整时,该步骤应在步骤103之前,此时通过步骤103“获取对预设初始YOLOv3模型进行尺度扩展后的扩展YOLOv3模型”中的初始YOLOv3模型为进行视觉空间注意力调整后的初始YOLOv3模型。
通过步骤107进行视觉空间注意力调整的过程包括:分别通过第一卷积、第二卷积和第三卷积对最终残差特征的通道信息进行压缩,得到第一特征、第二特征和第三特征;第一卷积、第二卷积和第三卷积为1*1卷积;对第一特征进行重塑和转置处理,得到第四特征;对第二特征进行重塑处理,得到第五特征;对第五特征与第四特征之积进行归一化指数处理,得到第六特征;对第三特征进行重塑处理,得到第七特征;根据第七特征与第六特征之积获取第八特征;根据第八特征与最终残差特征之和获取调整后的特征。其中,第一卷积、第二卷积和第三卷积可以为不同的卷积。
在本实施例中,通过对最终残差特征进行视觉空间注意力调整,能够使扩展YOLOv3模型关注到关键区域,进一步提高检测准确率。
在本实施例中,通过上述目标检测方法,在保持原有YOLOv3模型计算量没有明显提高的情况下,对待检测文件中出现的特定目标能够进行快速准确识别,快速实现目标检测且提高原有模型的检测精度,具有较强的鲁棒性和泛化能力,能够应用在短视频等文件的目标检测中。通过上述过程确定需要检测的目标后,可以对该目标进行多种方式的交互,如点赞、评价、购买等。而且,通过上述过程确定需要检测的目标后,还可以根据目标为待检测文件设置标签,如商品品类标签、品牌标签等,以便对待检测文件进行推荐、搜索。
综上,本发明提供的目标检测方法,通过预先训练的目标检测模型对待检测文件进行检测,从而实现目标检测。本实施例提供的技术方案,由于预先训练的目标检测模型为预先通过含有目标的图片对扩展YOLOv3模型进行训练得到的,而扩展YOLOv3模型为对预设初始YOLOv3模型进行尺度扩展后的模型;通过对初始YOLOv3模型进行尺度扩展,能够增强浅层特征的表征能力,从而提高小目标的检测效果和准确率。该方案解决了现有技术中由于YOLOv3神经网络过深,在目标检测任务中容易忽略浅层位置信息,导致小目标检测的准确率较低的问题。
实施例2
如图8所示,本发明提供一种目标检测装置,包括:
文件获取模块801、文件检测模块802和预先训练的目标检测模型803;
文件获取模块,用于获取待检测文件;
文件检测模块,分别与文件获取模块和预先训练的目标检测模型相连,用于通过预先训练的目标检测模型对待检测文件进行检测,得到需要检测的目标;
预先训练的目标检测模型为预先通过含有目标的图片对扩展YOLOv3模型进行训练得到的,扩展YOLOv3模型为对预设初始YOLOv3模型进行尺度扩展后的模型。
在本实施例中,通过文件获取模块801、文件检测模块802和预先训练的目标检测模型803实现目标检测的过程,与本发明实施例1提供的相似,在此不再一一赘述。
在本实施例中,扩展YOLOv3模型具体为对预设初始YOLOv3模型进行1个或2个尺度扩展后的模型。
具体的进行1个尺度扩展时,扩展YOLOv3模型包括:
23个残差块、初始第一尺度、初始第二尺度、初始第三尺度和扩展的第一尺度;
初始第一尺度与第23个残差块相连,初始第二尺度分别与初始第一尺度和第19个残差块相连,初始第三尺度分别与初始第二尺度和第11个残差块相连,扩展的第一尺度分别与初始第三尺度和第3个残差块相连。
此时,扩展YOLOv3模型的结构与图2所示的相似。
具体的进行2个尺度扩展时,扩展YOLOv3模型包括:
23个残差块、初始第一尺度、初始第二尺度、初始第三尺度、扩展的第一尺度和扩展的第二尺度;
初始第一尺度与第23个残差块相连,初始第二尺度分别与初始第一尺度和第19个残差块相连,初始第三尺度分别与初始第二尺度和第11个残差块相连,扩展的第一尺度分别与初始第三尺度和第3个残差块相连,扩展的第二尺度分别与扩展的第一尺度和第1个残差块相连。
此时,扩展YOLOv3模型的结构与图3所示的相似。
在本实施例中,初始/扩展YOLOv3模型的残差块中还设有改进CBAM模块,改进CBAM模块为初始CBAM模块去除全局最大池化分支后得到的模块。具体的,改进CBAM模块设置在初始/扩展YOLOv3模型的第1、3、11、19和23个残差块中一个或多个残差块中。该改进CBAM模块的结构及连接关系与图6所示的相似,在此不再一一赘述。
进一步的,本实施例提供的目标检测装置中初始/扩展YOLOv3模型的第23个残差块后还设有视觉空间注意力调整模块,视觉空间注意力模块用于对第23个残差块得到的最终残差特征进行视觉空间注意力调整。
具体的,该视觉空间注意力调整模块,包括:
通道压缩子模块,用于分别通过第一卷积、第二卷积和第三卷积对最终残差特征的通道信息进行压缩,得到第一特征、第二特征和第三特征;第一卷积、第二卷积和第三卷积为1*1卷积;
第一特征处理子模块,与通道压缩子模块相连,用于对第一特征进行重塑和转置处理,得到第四特征;
第二特征处理子模块,与通道压缩子模块相连,用于对第二特征进行重塑处理,得到第五特征;
归一化处理子模块,分别与第一特征处理子模块和第二特征处理子模块相连,用于对第五特征与第四特征之积进行归一化指数处理,得到第六特征;
第三特征处理子模块,与通道压缩子模块相连,用于对第三特征进行重塑处理,得到第七特征;
第八特征获取子模块,分别与第三特征处理子模块和归一化处理子模块相连,用于根据第七特征与第六特征之积获取第八特征;
调整特征获取子模块,与第八特征获取子模块相连,用于根据第八特征与最终残差特征之和获取调整后的特征。
在本实施例中,目标检测装置还设有视觉空间注意力调整模块时,实现视觉空间注意力调整的过程,与本发明实施例1相似,在此不再一一赘述。
进一步的,本实施例提供的目标检测装置中,待检测文件为待检测视频时,文件检测模块,包括:
图像帧获取子模块,用于获取待检测视频至少一个图像帧;
图像帧组合子模块,与图像帧获取子模块相连,用于将至少一个图像帧进行组合,得到至少一个图像批次;
图像帧检测子模块,与图像帧组合子模块相连,用于通过预先训练的目标检测模型分别对至少一个图像批次进行检测。
在本实施例中,待检测文件为待检测视频时,文件检测模块进行检测的过程,与本发明实施例1提供的相似,在此不再一一赘述。
综上,本发明提供的目标检测装置,通过预先训练的目标检测模型对待检测文件进行检测,从而实现目标检测。本实施例提供的技术方案,由于预先训练的目标检测模型为预先通过含有目标的图片对扩展YOLOv3模型进行训练得到的,而扩展YOLOv3模型为对预设初始YOLOv3模型进行尺度扩展后的模型;通过对初始YOLOv3模型进行尺度扩展,能够增强浅层特征的表征能力,从而提高小目标的检测效果和准确率。该方案解决了现有技术中由于YOLOv3神经网络过深,在目标检测任务中容易忽略浅层位置信息,导致小目标检测的准确率较低的问题。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (24)

1.一种目标检测方法,其特征在于,包括:
获取待检测文件;
通过预先训练的目标检测模型对所述待检测文件进行检测,得到需要检测的目标;
所述预先训练的目标检测模型为预先通过含有所述目标的图片对扩展YOLOv3模型进行训练得到的,所述扩展YOLOv3模型为对预设初始YOLOv3模型进行尺度扩展后的模型。
2.根据权利要求1所述的目标检测方法,其特征在于,
所述扩展YOLOv3模型具体为对预设初始YOLOv3模型进行1个或2个尺度扩展后的模型。
3.根据权利要求2所述的目标检测方法,其特征在于,进行1个尺度扩展时,扩展的第一尺度分别与所述预设初始YOLOv3模型的初始第三尺度和第3个残差块相连。
4.根据权利要求2所述的目标检测方法,其特征在于,进行2个尺度扩展时,扩展的第一尺度分别与所述预设初始YOLOv3模型的初始第三尺度和第3个残差块相连,扩展的第二尺度分别与所述扩展的第一尺度和所述预设初始YOLOv3模型的第1个残差块相连。
5.根据权利要求1至4中任意一项所述的目标检测方法,其特征在于,在所述通过预先训练的目标检测模型对所述待检测文件进行检测之前,还包括:
获取对预设初始YOLOv3模型进行尺度扩展后的扩展YOLOv3模型;
通过含有所述目标的图片对扩展YOLOv3模型进行训练,得到所述预先训练的目标检测模型。
6.根据权利要求5所述的目标检测方法,其特征在于,在所述通过含有所述目标的图片对扩展YOLOv3模型进行训练之前,还包括:
获取将初始CBAM模块去除全局最大池化分支后得到的改进CBAM模块;
将所述改进CBAM模块设置在所述初始/扩展YOLOv3模型的残差块中。
7.根据权利要求6所述的目标检测方法,其特征在于,所述将所述改进CBAM模块设置在所述初始/扩展YOLOv3模型的残差块中,包括:
将所述改进CBAM模块设置在所述初始/扩展YOLOv3模型的第1、3、11、19和23个残差块中一个或多个残差块中。
8.根据权利要求6所述的目标检测方法,其特征在于,将所述改进CBAM模块设置在所述初始/扩展YOLOv3模型的残差块中,包括:
将所述改进CBAM模块设置在所述初始/扩展YOLOv3模型的残差块内的第二个激活函数之后。
9.根据权利要求5所述的目标检测方法,其特征在于,在所述通过含有所述目标的图片对扩展YOLOv3模型进行训练之前,还包括:
对所述初始/扩展YOLOv3模型得到的最终残差特征进行视觉空间注意力调整。
10.根据权利要求9所述的目标检测方法,其特征在于,所述对所述初始/扩展YOLOv3模型得到的最终残差特征进行视觉空间注意力调整,包括:
分别通过第一卷积、第二卷积和第三卷积对所述最终残差特征的通道信息进行压缩,得到第一特征、第二特征和第三特征;所述第一卷积、第二卷积和第三卷积为1*1卷积;
对所述第一特征进行重塑和转置处理,得到第四特征;
对所述第二特征进行重塑处理,得到第五特征;
对所述第五特征与所述第四特征之积进行归一化指数处理,得到第六特征;
对所述第三特征进行重塑处理,得到第七特征;
根据所述第七特征与所述第六特征之积获取第八特征;
根据所述第八特征与所述最终残差特征之和获取调整后的特征。
11.根据权利要求1至4中任意一项所述的目标检测方法,其特征在于,所述预先通过含有所述目标的图片对扩展YOLOv3模型进行训练,包括:
采用学习率预热方法预先通过含有所述目标的图片对扩展YOLOv3模型进行训练。
12.根据权利要求1至4中任意一项所述的目标检测方法,其特征在于,所述含有所述目标的图片为预先进行多尺度变换后的图片。
13.根据权利要求1至4中任意一项所述的目标检测方法,其特征在于,所述待检测文件为待检测视频时,所述通过预先训练的目标检测模型对所述待检测文件进行检测,包括:
获取所述待检测视频的至少一个图像帧;
将所述至少一个图像帧进行组合,得到至少一个图像批次;
通过预先训练的目标检测模型分别对所述至少一个图像批次进行检测。
14.根据权利要求1至4中任意一项所述的目标检测方法,其特征在于,训练所述扩展YOLOv3模型所采用的数据包括:含有所述目标的图片和所述目标的位置。
15.根据权利要求14所述的目标检测方法,其特征在于,训练所述扩展YOLOv3模型所采用的数据还包括:所述目标的类型。
16.一种目标检测装置,其特征在于,包括:
文件获取模块、文件检测模块和预先训练的目标检测模型;
文件获取模块,用于获取待检测文件;
文件检测模块,分别与所述文件获取模块和预先训练的目标检测模型相连,用于通过预先训练的目标检测模型对所述待检测文件进行检测,得到需要检测的目标;
所述预先训练的目标检测模型为预先通过含有所述目标的图片对扩展YOLOv3模型进行训练得到的,所述扩展YOLOv3模型为对预设初始YOLOv3模型进行尺度扩展后的模型。
17.根据权利要求16所述的目标检测装置,其特征在于,
所述扩展YOLOv3模型具体为对预设初始YOLOv3模型进行1个或2个尺度扩展后的模型。
18.根据权利要求17所述的目标检测装置,其特征在于,进行1个尺度扩展时,所述扩展YOLOv3模型包括:
23个残差块、初始第一尺度、初始第二尺度、初始第三尺度和扩展的第一尺度;
所述初始第一尺度与第23个残差块相连,所述初始第二尺度分别与所述初始第一尺度和第19个残差块相连,所述初始第三尺度分别与所述初始第二尺度和第11个残差块相连,所述扩展的第一尺度分别与所述初始第三尺度和第3个残差块相连。
19.根据权利要求17所述的目标检测装置,其特征在于,进行2个尺度扩展时,所述扩展YOLOv3模型包括:
23个残差块、初始第一尺度、初始第二尺度、初始第三尺度、扩展的第一尺度和扩展的第二尺度;
所述初始第一尺度与第23个残差块相连,所述初始第二尺度分别与所述初始第一尺度和第19个残差块相连,所述初始第三尺度分别与所述初始第二尺度和第11个残差块相连,所述扩展的第一尺度分别与所述初始第三尺度和第3个残差块相连,所述扩展的第二尺度分别与所述扩展的第一尺度和第1个残差块相连。
20.根据权利要求16至19中任意一项所述的目标检测装置,其特征在于,所述初始/扩展YOLOv3模型的残差块中还设有改进CBAM模块,所述改进CBAM模块为初始CBAM模块去除全局最大池化分支后得到的模块。
21.根据权利要求20所述的目标检测装置,其特征在于,所述改进CBAM模块设置在所述初始/扩展YOLOv3模型的第1、3、11、19和23个残差块中一个或多个残差块中。
22.根据权利要求16至19中任意一项所述的目标检测装置,其特征在于,所述初始/扩展YOLOv3模型的第23个残差块后还设有视觉空间注意力调整模块,所述视觉空间注意力模块用于对所述第23个残差块得到的最终残差特征进行视觉空间注意力调整。
23.根据权利要求22所述的目标检测装置,其特征在于,所述视觉空间注意力调整模块,包括:
通道压缩子模块,用于分别通过第一卷积、第二卷积和第三卷积对所述最终残差特征的通道信息进行压缩,得到第一特征、第二特征和第三特征;所述第一卷积、第二卷积和第三卷积为1*1卷积;
第一特征处理子模块,与所述通道压缩子模块相连,用于对所述第一特征进行重塑和转置处理,得到第四特征;
第二特征处理子模块,与所述通道压缩子模块相连,用于对所述第二特征进行重塑处理,得到第五特征;
归一化处理子模块,分别与所述第一特征处理子模块和第二特征处理子模块相连,用于对所述第五特征与所述第四特征之积进行归一化指数处理,得到第六特征;
第三特征处理子模块,与所述通道压缩子模块相连,用于对所述第三特征进行重塑处理,得到第七特征;
第八特征获取子模块,分别与所述第三特征处理子模块和归一化处理子模块相连,用于根据所述第七特征与所述第六特征之积获取第八特征;
调整特征获取子模块,与所述第八特征获取子模块相连,用于根据所述第八特征与所述最终残差特征之和获取调整后的特征。
24.根据权利要求16至19中任意一项所述的目标检测装置,其特征在于,所述待检测文件为待检测视频时,所述文件检测模块,包括:
图像帧获取子模块,用于获取所述待检测视频的至少一个图像帧;
图像帧组合子模块,与所述图像帧获取子模块相连,用于将所述至少一个图像帧进行组合,得到至少一个图像批次;
图像帧检测子模块,与所述图像帧组合子模块相连,用于通过预先训练的目标检测模型分别对所述至少一个图像批次进行检测。
CN202010528711.1A 2020-06-11 2020-06-11 一种目标检测方法和装置 Pending CN111814565A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010528711.1A CN111814565A (zh) 2020-06-11 2020-06-11 一种目标检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010528711.1A CN111814565A (zh) 2020-06-11 2020-06-11 一种目标检测方法和装置

Publications (1)

Publication Number Publication Date
CN111814565A true CN111814565A (zh) 2020-10-23

Family

ID=72845742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010528711.1A Pending CN111814565A (zh) 2020-06-11 2020-06-11 一种目标检测方法和装置

Country Status (1)

Country Link
CN (1) CN111814565A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113223044A (zh) * 2021-04-21 2021-08-06 西北工业大学 一种结合特征聚合和注意力机制的红外视频目标检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232350A (zh) * 2019-06-10 2019-09-13 哈尔滨工程大学 一种基于在线学习的实时水面多运动目标检测跟踪方法
CN110378331A (zh) * 2019-06-10 2019-10-25 南京邮电大学 一种基于深度学习的端到端车牌识别系统及其方法
CN110826379A (zh) * 2018-08-13 2020-02-21 中国科学院长春光学精密机械与物理研究所 一种基于特征复用与YOLOv3的目标检测方法
CN111079815A (zh) * 2019-12-11 2020-04-28 常州大学 一种面向废线路板拆解的高值电子器件自动识别方法
CN111142819A (zh) * 2019-12-13 2020-05-12 中国科学院深圳先进技术研究院 一种视觉空间注意力检测方法及相关产品

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826379A (zh) * 2018-08-13 2020-02-21 中国科学院长春光学精密机械与物理研究所 一种基于特征复用与YOLOv3的目标检测方法
CN110232350A (zh) * 2019-06-10 2019-09-13 哈尔滨工程大学 一种基于在线学习的实时水面多运动目标检测跟踪方法
CN110378331A (zh) * 2019-06-10 2019-10-25 南京邮电大学 一种基于深度学习的端到端车牌识别系统及其方法
CN111079815A (zh) * 2019-12-11 2020-04-28 常州大学 一种面向废线路板拆解的高值电子器件自动识别方法
CN111142819A (zh) * 2019-12-13 2020-05-12 中国科学院深圳先进技术研究院 一种视觉空间注意力检测方法及相关产品

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孔方方等: "改进YOLOv3 的全景交通监控目标检测", 《计算机工程与应用》, pages 1 - 4 *
王生霄;侯兴松;黑夏萌;: "嵌入CBAM结构的改进YOLOV3超宽带雷达生命信号检测算法", 国外电子测量技术, no. 03 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113223044A (zh) * 2021-04-21 2021-08-06 西北工业大学 一种结合特征聚合和注意力机制的红外视频目标检测方法

Similar Documents

Publication Publication Date Title
Zeng et al. Multi-scale convolutional neural networks for crowd counting
US11830230B2 (en) Living body detection method based on facial recognition, and electronic device and storage medium
CN104915649A (zh) 一种应用于人脸识别的活体检测方法
CN111612741B (zh) 一种基于失真识别的精确无参考图像质量评价方法
CN102457724B (zh) 一种图像运动检测系统及方法
CN105657435B (zh) 基于量化dct系数的视频单帧复制粘贴篡改检测方法
CN112037254A (zh) 目标跟踪方法及相关装置
CN105550703A (zh) 一种适用于人体再识别的图片相似度计算方法
CN112801037A (zh) 一种基于连续帧间差异的人脸篡改检测方法
CN112084838A (zh) 一种车间安全帽检测方法
CN102301697B (zh) 视频签名产生设备
CN113239937A (zh) 镜头偏移检测方法、装置、电子设备及可读存储介质
CN106709915B (zh) 一种图像重采样操作检测方法
CN103561274B (zh) 静止摄像头拍摄的运动目标被移除视频时域篡改检测方法
Sun et al. Recaptured image forensics algorithm based on image texture feature
CN101320477A (zh) 一种人体跟踪方法及其设备
CN114419102A (zh) 一种基于帧差时序运动信息的多目标跟踪检测方法
CN111814565A (zh) 一种目标检测方法和装置
CN102013101A (zh) 一种经过模糊后处理的置换篡改图像盲检测方法
CN112330618A (zh) 图像偏移检测方法、设备及存储介质
CN116645718A (zh) 一种基于多流架构的微表情识别方法及系统
CN107273801B (zh) 一种视频多目标跟踪检测异常点的方法
US20220207261A1 (en) Method and apparatus for detecting associated objects
CN114550032A (zh) 一种端到端三维卷积目标检测网络的视频烟雾检测方法
CN114596609A (zh) 一种视听伪造检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination