CN111476064A - 小目标检测方法、装置、计算机设备及存储介质 - Google Patents

小目标检测方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111476064A
CN111476064A CN201910065111.3A CN201910065111A CN111476064A CN 111476064 A CN111476064 A CN 111476064A CN 201910065111 A CN201910065111 A CN 201910065111A CN 111476064 A CN111476064 A CN 111476064A
Authority
CN
China
Prior art keywords
target
preset
area
value
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910065111.3A
Other languages
English (en)
Inventor
何军林
刘洛麒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201910065111.3A priority Critical patent/CN111476064A/zh
Publication of CN111476064A publication Critical patent/CN111476064A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种小目标检测方法、装置、计算机设备及存储介质,包括下述步骤:获取待检测视频中的运动区域,其中,所述运动区域包括目标对象;按照预设的比例将所述运动区域放大得到待检测的目标区域;通过预设的目标检测算法在所述目标区域中对所述目标对象进行检测。从待检测视频中获取运动区域,并将运动区域进行放大,通过目标检测算法在目标区域中对目标对象进行检测,该方法可以在一定程度上放大微小目标或者被遮挡的目标的特征,进而提高了目标检测算法对目标对象的识别的准确度。

Description

小目标检测方法、装置、计算机设备及存储介质
技术领域
本发明实施例涉及视频检测领域,尤其是一种小目标检测方法、装置、计算机设备及存储介质。
背景技术
深度学习源于人工神经网络的研究,其动机在于建立、模拟人脑进行分析学习的神经网络,模仿人脑的机制来解释数据,例如图像,声音和文本。即,深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
随着深度学习的快速发展,深度学习在各个领域均有广泛的应用前景。例如,将深度学习应用于视频中用来检测目标。
随着视频中目标检测技术的普及,基于深度学习的目标检测算法对大物体、无遮挡的物体检测的结果都比较准确,但是,对于小物体或者有遮挡的物体,由于其特征较小、不明显或者不完整,导致检测结果的准确度较低。
发明内容
本发明实施例提供一种小目标检测方法、装置、计算机设备及存储介质。
为解决上述技术问题,本发明创造的实施例采用的一个技术方案是:提供一种小目标检测方法,包括下述步骤:
获取待检测视频中的运动区域,其中,所述运动区域包括目标对象;
按照预设的比例将所述运动区域放大得到待检测的目标区域;
通过预设的目标检测算法在所述目标区域中对所述目标对象进行检测。
可选地,所述获取待检测视频中的运动区域,包括:
从待检测视频中获取第一视频帧和第二视频帧,其中,所述第一视频帧和所述第二视频帧连续;
将所述第一视频帧的像素值减去所述第二视频帧的像素值得到差分图像;
将所述差分图像中的像素变化值与预设的阈值进行比对,当所述像素变化值大于所述阈值时,将所述像素变化值大于所述阈值的区域确定为所述运动区域。
可选地,所述获取待检测视频中的运动区域,包括:
获取用于识别背景图像的背景识别模型;
根据所述背景识别模型识别所述待检测视频中的视频帧的背景图像;
将每一个视频帧与所述背景图像进行差分得到差分图像,并将所述差分图像中像素值大于预设像素值的区域确定为所述运动区域。
可选地,所述按照预设的比例将所述目标区域放大得到待检测的目标区域,包括:
以所述运动区域为中心按照预设的扩展比例在将所述运动区域在所述视频帧中进行延展;
对延展后的区域进行裁剪;
将裁剪的区域按照预设的放大比例进行放大得到所述目标区域。
可选地,所述通过预设的目标检测算法在所述目标区域中对所述目标对象进行检测,包括:
获取用于识别所述目标对象的目标检测模型;
将所述目标区域输入到所述目标检测模型中得到分类值;
将分类值与预先设置的对象分类范围进行比对,并将所述分类值符合的对象分类范围表征的对象确定为所述目标对象。
可选地,所述获取用于识别所述目标对象的目标检测模型,包括:
获取所述目标对象的样本图像;
根据所述样本图像对预设的卷积神经网络模型进行训练得到所述目标检测模型。
可选地,所述根据所述样本图像对预设的卷积神经网络模型进行训练得到所述目标检测模型,包括:
将所述样本图像输入到预设的卷积神经网络模型中,获取所述神经网络模型输出的激励分类值;
比对预先获取到的期望分类值与所述激励分类值之间的距离是否小于或等于预设的第一阈值;
当所述期望分类值与所述激励分类值之间的距离大于预设的第一阈值时,反复循环迭代的通过反向算法更新所述卷积神经网络模型中的权重,至所述期望分类值与所述激励分类值之间的距离小于或等于预设的第一阈值时结束。
为解决上述技术问题,本发明实施例还提供一种小目标检测装置,包括:
获取模块,用于获取待检测视频中的运动区域,其中,所述运动区域包括目标对象;
处理模块,用于按照预设的比例将所述运动区域放大得到待检测的目标区域;
执行模块,用于通过预设的目标检测算法在所述目标区域中对所述目标对象进行检测。
可选地,所述获取模块包括:
第一获取子模块,用于从待检测视频中获取第一视频帧和第二视频帧,其中,所述第一视频帧和所述第二视频帧连续;
第一处理子模块,用于将所述第一视频帧的像素值减去所述第二视频帧的像素值得到差分图像;
第一执行子模块,用于将所述差分图像中的像素变化值与预设的阈值进行比对,当所述像素变化值大于所述阈值时,将所述像素变化值大于所述阈值的区域确定为所述运动区域。
可选地,所述获取模块包括:
第二获取子模块,用于获取用于识别背景图像的背景识别模型;
第二处理子模块,用于根据所述背景识别模型识别所述待检测视频中的视频帧的背景图像;
第二执行子模块,用于将每一个视频帧与所述背景图像进行差分得到差分图像,并将所述差分图像中像素值大于预设像素值的区域确定为所述运动区域。
可选地,所述处理模块包括:
第三处理子模块,用于以所述运动区域为中心按照预设的扩展比例在将所述运动区域在所述视频帧中进行延展;
第四处理子模块,用于对延展后的区域进行裁剪;
第三执行子模块,用于将裁剪的区域按照预设的放大比例进行放大得到所述目标区域。
可选地,所述执行模块包括:
第三获取子模块,用于获取用于识别所述目标对象的目标检测模型;
第五处理子模块,用于将所述目标区域输入到所述目标检测模型中得到分类值;
第四执行子模块,用于将分类值与预先设置的对象分类范围进行比对,并将所述分类值符合的对象分类范围表征的对象确定为所述目标对象。
可选地,所述第三获取子模块包括:
第四获取子模块,用于获取所述目标对象的样本图像;
第六处理子模块,用于根据所述样本图像对预设的卷积神经网络模型进行训练得到所述目标检测模型。
可选地,所述第六处理子模块包括:
第五获取子模块,用于将所述样本图像输入到预设的卷积神经网络模型中,获取所述神经网络模型输出的激励分类值;
第七处理子模块,用于比对预先获取到的期望分类值与所述激励分类值之间的距离是否小于或等于预设的第一阈值;
第五执行子模块,用于当所述期望分类值与所述激励分类值之间的距离大于预设的第一阈值时,反复循环迭代的通过反向算法更新所述卷积神经网络模型中的权重,至所述期望分类值与所述激励分类值之间的距离小于或等于预设的第一阈值时结束。
为解决上述技术问题,本发明实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述小目标检测方法的步骤。
为解决上述技术问题,本发明实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述小目标检测方法的步骤。
本发明实施例的有益效果是:从待检测视频中获取运动区域,并将运动区域进行放大,通过目标检测算法在目标区域中对目标对象进行检测,该方法可以在一定程度上放大微小目标或者被遮挡的目标的特征,进而提高了目标检测算法对目标对象的识别的准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种小目标检测方法的基本流程示意图;
图2为本发明实施例提供的一种获取待检测视频中的运动区域的方法的基本流程示意图;
图3为本发明实施例提供的另一种获取待检测视频中的运动区域的方法的基本流程示意图;
图4为本发明实施例提供的一种按照预设的比例将目标区域放大得到待检测的目标区域的方法的基本流程示意图;
图5为本发明实施例提供一种通过预设的目标检测算法在所述目标区域中对目标对象进行检测的方法的基本流程示意图;
图6为本发明实施例提供的一种获取用于识别所述目标对象的目标检测模型的方法的基本流程示意图;
图7为本发明实施例提供的一种根据样本图像对预设的卷积神经网络模型进行训练得到目标检测模型的方法的基本流程示意图;
图8为本发明实施例提供的小目标检测装置基本结构框图;
图9为本发明实施例提供的计算机设备基本结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本实施方式中的客户终端即为上述的终端。
具体地,请参阅图1,图1为本实施例小目标检测方法的基本流程示意图。
如图1所示,小目标检测方法包括下述步骤:
S1100、获取待检测视频中的运动区域,其中,运动区域包括目标对象;
本实施例中的目标对象为小目标,即在待检测视频中出现的相对于视频帧来说尺寸比例较小的物体或者是被遮挡的物体。在实际应用中,由于小目标的尺寸较小,被遮挡,导致特征不明显,在待检测视频中不容易被检测到。
运动区域为待检测视频的每个视频帧中所出现的特征变化的区域。由于待检测视频中,静止的区域一般为背景特征,即为非目标特征。例如,在安防系统中,通常监控的是环境中出现的人或者物,上述人和物均是变化的特征,而对于环境中的其他特征均为背景特征,是静止特征。
在获取运动区域时,可以采用帧差法或者背景减除法来提取运动区域。例如,采用帧差法时,从待检测视频中提取连续的前后两个视频帧,并将两个视频帧的像素值进行相减,得到差分图。将判断差分图中的像素值与预设像素值进行比对,并将差分图中大于预设像素值的区域确定为运动区域。又如,采用背景减除法提取运动区域时,利用待检测视频中的背景特征对预设的特征模型进行训练得到背景识别模型,并采用背景识别模型识别待检测视频中每一个视频帧的背景,以及利用待检测视频中的每一个视频帧分别减除识别的背景特征后得到的区域为运动区域。
S1200、按照预设的比例将运动区域放大得到待检测的目标区域;
由于本实施例中的目标对象为微小目标或者被遮挡的目标,特征较少或者不明显,因此,本实施例中,将运动区域进行放大,增大目标对象的特征,便于识别。
在一些实施方式中,可以动态的设置预设的比例,例如,当运动区域较小时,可以设置较大的比例,当运动区域较大时,可以设置较小的比例。举例说明,获取当前运动区域的尺寸,判断运动区域的尺寸所属的范围,从预设的比例配置表中查找该范围对应的比例,并按照该比例对运动区域进行放大,得到待检测目标区域。其中,目标区域为待检测的目标对象所在的区域。
在一些实施方式中,为了扩大微小目标或者被遮挡目标的特征,还可以在视频帧中按照预设的扩展比例对运动区域进行延展,以增加目标区域的范围。其中,扩展比例可以按照自定义设置,也可以按照运动区域的大小进行自动配置。
S1300、通过预设的目标检测算法在目标区域中对目标对象进行检测。
目标检测算法为预先利用目标对象的样本图像对预设的算法进行训练得到的。该算法可以为卷积神经网络算法(Convolutional Neural Networks,CNN),高通滤波器,matlab算法等。
需要说明的是,样本图像为根据目标对象选取的样本图像,例如,目标对象为人,样本图像为各种形态的人物的图像,例如,人脸图像、人体形态图像、侧面图像、正面图像等等。
上述小目标检测方法,从待检测视频中获取运动区域,并将运动区域进行放大,通过目标检测算法在目标区域中对目标对象进行检测,该方法可以在一定程度上放大微小目标或者被遮挡的目标的特征,进而提高了目标检测算法对目标对象的识别的准确度。
本发明实施例提供一种获取待检测视频中的运动区域的方法,如图2所示,图2为本发明实施例提供的一种获取待检测视频中的运动区域的方法的基本流程示意图。
具体地,如图2所示,步骤S1100包括下述步骤:
S1111、从待检测视频中获取第一视频帧和第二视频帧,其中,第一视频帧和第二视频帧连续;
本实施例中,采用帧差法获取运动区域,即,从待检测视频中提取连续的两个视频帧,采用基于像素的时间差分通过闭值话提取图像中的运动区域。
例如,按照待检测视频帧中时间周期提取连续的第一视频帧和第二视频帧,其中,时间周期可以自定义设置,对于目标变化较快的视频,可以设置较短的周期,对于目标变化较慢的视频,可以设置较长的周期。
S1112、将第一视频帧的像素值减去第二视频帧的像素值得到差分图像;
S1113、将差分图像中的像素变化值与预设的阈值进行比对,当像素变化值大于阈值时,将像素变化值大于阈值的区域确定为运动区域。
在环境亮度变化不大的情况下,通过将第一视频帧的像素值和第二视频帧的像素值相减,由于对于静止的图像来说,像素变化小,差分之后像素变化值接近于0,因此得到的差分图像中像素变化较小的区域一般为静止的背景图像,像素变化较大的区域为一般为运动区域。因此,本实施例中预设到了阈值,将差分图像中的每个像素点的像素值与阈值进行比对,当大于阈值时为像素值变化较大的像素点,确定该像素点为运动区域的像素点。如此,多个大于阈值的像素点组成的区域即为运动区域。
本发明实施例提供另一种获取待检测视频中的运动区域的方法,如图3所示,图3为本发明实施例提供的另一种获取待检测视频中的运动区域的方法的基本流程示意图。
具体地,如图3所示,步骤S1100包括下述步骤:
S1121、获取用于识别背景图像的背景识别模型;
本实施例中,采用背景减除法获取运动区域,该方法利用背景的参数模型来近似背景图像的像素值,将当前帧与背景图像进行差分比较,并将区别较大的像素区域确定为运动区域。
本实施例中,通过待检测视频中的背景图像作为样本图像对预设的检测模型进行训练,得到背景识别模型。其中,预设的检测模型为该检测算法可以为卷积神经网络算法(Convolutional Neural Networks,CNN),高通滤波器,matlab算法等。
S1122、根据背景识别模型识别待检测视频中的视频帧的背景图像;
S1123、将每一个视频帧与背景图像进行差分得到差分图像,并将差分图像中像素值大于预设像素值的区域确定为运动区域。
将待检测视频中的每一个视频帧输入到背景识别模型中,得到视频帧中的背景图像。将背景图像与待检测视频中的每一帧进行差分。由于待检测视频帧中每一帧图像均包含背景图像,且在光线变化不大的情况下,由于背景图像是静止的且每个像素点的像素值基本相同,因此,经过差分之后得到的差分图像中背景图像部分的像素值变化最小,而像素变化值最大的区域为运动区域。
在一些实施方式中,还可以对差分图像进行二值化处理,直接从二值化后的图像中提取运动区域,例如,将二值化后预设灰度的区域即为运动区域,即,对差分图像二值化处理后,假设灰度为0的区域为像素变化较小的区域,灰度为256的区域为像素变化较大的区域,则直接提取灰度为256的白色区域作为运动区域。
在实际应用中,当待检测的目标对象为被遮挡的目标时,很可能是由于从视频帧中截取运动区域的过程中造成目标对象特征的缺失,因此,为了解决这一问题,本发明实施例提供一种按照预设的比例将目标区域放大得到待检测的目标区域的方法,如图4所示,图4为本发明实施例提供的一种按照预设的比例将目标区域放大得到待检测的目标区域的方法的基本流程示意图。
具体地,如图4所示,步骤S1200包括下述步骤:
S1210、以运动区域为中心按照预设的扩展比例在将运动区域在视频帧中进行延展;
扩展比例为确定运动区域延展尺寸的比例,可以按照运动区域的尺寸来设置扩展比例,举例说明,当运动区域为矩形时,可以按照矩形的长和宽的长度来设置扩展比例,例如,扩展比例设置为长和宽的10%,当运动区域为圆形时,可以按照圆形的直径设置扩展比例,例如,设置扩展比例为直径的10%。还可以按照运动区域的面积来设置扩展比例,例如,设置扩展比例为原运动区域面积的10%,在扩展时,可以先计算出扩展后的面积,再利用面积计算扩展后的运动区域的尺寸。
S1220、对延展后的区域进行裁剪;
S1230、将裁剪的区域按照预设的放大比例进行放大得到目标区域。
放大比例为将裁剪后的区域进行放大的比例,可以为预设的固定值,也可以动态的设置预设的比例,例如,当运动区域较小时,可以设置较大的比例,当运动区域较大时,可以设置较小的比例。举例说明,获取当前运动区域的尺寸,判断运动区域的尺寸所属的范围,从预设的比例配置表中查找该范围对应的比例,并按照该比例对运动区域进行放大,得到待检测目标区域。
本发明实施例中,可以利用图像处理软件对延展后的区域进行裁剪,例如,可以用Photoshop软件,还可以为word中自带的裁剪功能。
本发明实施例提供一种通过预设的目标检测算法在所述目标区域中对目标对象进行检测的方法,如图5所示,图5为本发明实施例提供一种通过预设的目标检测算法在所述目标区域中对目标对象进行检测的方法的基本流程示意图。
具体地,如图5所示,步骤S1300包括下述步骤:
S1310、获取用于识别目标对象的目标检测模型;
目标检测模型为用于对目标区域进行检测以得到目标对象的模型。其中,目标检测模型为预先利用样本图像对预设的检测算法进行训练得到的模型。该检测算法可以为卷积神经网络算法(Convolutional Neural Networks,CNN),高通滤波器,matlab算法等。
本发明实施例提供一种获取用于识别所述目标对象的目标检测模型的方法,如图6所示,图6为本发明实施例提供的一种获取用于识别所述目标对象的目标检测模型的方法的基本流程示意图。
具体地,如图6所示,步骤S1310包括下述步骤:
S1311、获取目标对象的样本图像;
样本图像为根据目标对象选取的样本图像,例如,目标对象为人,样本图像为各种形态的人物的图像,例如,人脸图像、人体形态图像、侧面图像、正面图像等等。其中,可以从网络中下载样本图像,也可以从待检测视频中的视频帧中截取图像作为样本图像。
S1312、根据样本图像对预设的卷积神经网络模型进行训练得到目标检测模型。
本发明实施例提供一种根据样本图像对预设的卷积神经网络模型进行训练得到目标检测模型的方法,如图7所示,图7为本发明实施例提供的一种根据样本图像对预设的卷积神经网络模型进行训练得到目标检测模型的方法的基本流程示意图。
具体地,如图7所示,步骤S1312包括下述步骤:
S13121、将样本图像输入到预设的卷积神经网络模型中,获取神经网络模型输出的激励分类值;
激励分类值是卷积神经网络模型根据输入的人脸图像而输出的激励数据,在神经网络模型未被训练至收敛之前,激励分类值为离散性较大的数值,当神经网络模型未被训练至收敛之后,激励分类值为相对稳定的数据。
S13122、比对预先获取到的期望分类值与激励分类值之间的距离是否小于或等于预设的第一阈值;
通过损失函数判断神经网络模型全连接层输出的激励分类值与设定的期望分类值是否一致,当结果不一致时,需要通过反向传播算法对第一通道内的权重进行调整。
在一些实施方式中,损失函数通过计算激励分类值与设定的期望分类值之间的距离(欧氏距离或者空间距离),来确定激励分类值与设定的期望分类值是否一致,设定第一阈值(例如,0.05),当激励分类值与设定的期望分类值之间的距离小于或等于第一阈值时,则确定激励分类值与设定的期望分类值一致,否则,则激励分类值与设定的期望分类值不一致。
需要说明的是,期望分类值可以通过预设的图像处理软件对样本数据进行计算得到的。
S13123、当期望分类值与激励分类值之间的距离大于预设的第一阈值时,反复循环迭代的通过反向算法更新卷积神经网络模型中的权重,至期望分类值与激励分类值之间的距离小于或等于预设的第一阈值时结束。
当神经网络模型的激励分类值与设定的期望分类值不一致时,需要采用随机梯度下降算法对神经网络模型中的权重进行校正,以使卷积神经网络模型的输出结果与分类判断信息的期望结果相同。通过若干训练样本集(在一些实施方式中,训练时将所有训练样本集内的照片打乱进行训练,以增加模型的靠干扰能力,增强输出的稳定性。)的反复的训练与校正,当神经网络模型输出分类数据与各训练样本的分类参照信息比对达到(不限于)99.5%时,训练结束。
S1320、将目标区域输入到目标检测模型中得到分类值;
该分类值为将目标区域输入到目标检测模型中经过计算得到的与样本图像相似的概率的数值。
S1330、将分类值与预先设置的对象分类范围进行比对,并将分类值符合的对象分类范围表征的对象确定为目标对象。
对象分类范围为一概率值范围,当分类值在该对象分类范围内时,说明该目标为目标对象。
为解决上述技术问题本发明实施例还提供一种小目标检测装置。具体请参阅图8,图8为本实施例小目标检测装置基本结构框图。
如图8所示,一种小目标检测装置,包括:获取模块2100、处理模块2200和执行模块2300。其中,获取模块2100,用于获取待检测视频中的运动区域,其中,所述运动区域包括目标对象;处理模块2200,用于按照预设的比例将所述运动区域放大得到待检测的目标区域;执行模块2300,用于通过预设的目标检测算法在所述目标区域中对所述目标对象进行检测。
上述小目标检测装置从待检测视频中获取运动区域,并将运动区域进行放大,通过目标检测算法在目标区域中对目标对象进行检测,该方法可以在一定程度上放大微小目标或者被遮挡的目标的特征,进而提高了目标检测算法对目标对象的识别的准确度。
在一些实施方式中,所述获取模块包括:第一获取子模块,用于从待检测视频中获取第一视频帧和第二视频帧,其中,所述第一视频帧和所述第二视频帧连续;第一处理子模块,用于将所述第一视频帧的像素值减去所述第二视频帧的像素值得到差分图像;第一执行子模块,用于将所述差分图像中的像素变化值与预设的阈值进行比对,当所述像素变化值大于所述阈值时,将所述像素变化值大于所述阈值的区域确定为所述运动区域。
在一些实施方式中,所述获取模块包括:第二获取子模块,用于获取用于识别背景图像的背景识别模型;第二处理子模块,用于根据所述背景识别模型识别所述待检测视频中的视频帧的背景图像;第二执行子模块,用于将每一个视频帧与所述背景图像进行差分得到差分图像,并将所述差分图像中像素值大于预设像素值的区域确定为所述运动区域。
在一些实施方式中,所述处理模块包括:第三处理子模块,用于以所述运动区域为中心按照预设的扩展比例在将所述运动区域在所述视频帧中进行延展;第四处理子模块,用于对延展后的区域进行裁剪;第三执行子模块,用于将裁剪的区域按照预设的放大比例进行放大得到所述目标区域。
在一些实施方式中,所述执行模块包括:第三获取子模块,用于获取用于识别所述目标对象的目标检测模型;第五处理子模块,用于将所述目标区域输入到所述目标检测模型中得到分类值;第四执行子模块,用于将分类值与预先设置的对象分类范围进行比对,并将所述分类值符合的对象分类范围表征的对象确定为所述目标对象。
在一些实施方式中,所述第三获取子模块包括:第四获取子模块,用于获取所述目标对象的样本图像;第六处理子模块,用于根据所述样本图像对预设的卷积神经网络模型进行训练得到所述目标检测模型。
在一些实施方式中,所述第六处理子模块包括:第五获取子模块,用于将所述样本图像输入到预设的卷积神经网络模型中,获取所述神经网络模型输出的激励分类值;第七处理子模块,用于比对预先获取到的期望分类值与所述激励分类值之间的距离是否小于或等于预设的第一阈值;第五执行子模块,用于当所述期望分类值与所述激励分类值之间的距离大于预设的第一阈值时,反复循环迭代的通过反向算法更新所述卷积神经网络模型中的权重,至所述期望分类值与所述激励分类值之间的距离小于或等于预设的第一阈值时结束。
为解决上述技术问题,本发明实施例还提供计算机设备。具体请参阅图9,图9为本实施例计算机设备基本结构框图。
如图9所示,计算机设备的内部结构示意图。如图9所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种小目标检测方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种小目标检测方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图8中获取模块2100、处理模块2200和执行模块2300的具体内容,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有小目标检测方法中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
计算机设备从待检测视频中获取运动区域,并将运动区域进行放大,通过目标检测算法在目标区域中对目标对象进行检测,该方法可以在一定程度上放大微小目标或者被遮挡的目标的特征,进而提高了目标检测算法对目标对象的识别的准确度。。
本发明还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例所述小目标检测方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种小目标检测方法,其特征在于,包括下述步骤:
获取待检测视频中的运动区域,其中,所述运动区域包括目标对象;
按照预设的比例将所述运动区域放大得到待检测的目标区域;
通过预设的目标检测算法在所述目标区域中对所述目标对象进行检测。
2.根据权利要求1所述的小目标检测方法,其特征在于,所述获取待检测视频中的运动区域,包括:
从待检测视频中获取第一视频帧和第二视频帧,其中,所述第一视频帧和所述第二视频帧连续;
将所述第一视频帧的像素值减去所述第二视频帧的像素值得到差分图像;
将所述差分图像中的像素变化值与预设的阈值进行比对,当所述像素变化值大于所述阈值时,将所述像素变化值大于所述阈值的区域确定为所述运动区域。
3.根据权利要求1所述的小目标检测方法,其特征在于,所述获取待检测视频中的运动区域,包括:
获取用于识别背景图像的背景识别模型;
根据所述背景识别模型识别所述待检测视频中的视频帧的背景图像;
将每一个视频帧与所述背景图像进行差分得到差分图像,并将所述差分图像中像素值大于预设像素值的区域确定为所述运动区域。
4.根据权利要求1所述的小目标检测方法,其特征在于,所述按照预设的比例将所述目标区域放大得到待检测的目标区域,包括:
以所述运动区域为中心按照预设的扩展比例在将所述运动区域在所述视频帧中进行延展;
对延展后的区域进行裁剪;
将裁剪的区域按照预设的放大比例进行放大得到所述目标区域。
5.根据权利要求1所述的小目标检测方法,其特征在于,所述通过预设的目标检测算法在所述目标区域中对所述目标对象进行检测,包括:
获取用于识别所述目标对象的目标检测模型;
将所述目标区域输入到所述目标检测模型中得到分类值;
将分类值与预先设置的对象分类范围进行比对,并将所述分类值符合的对象分类范围表征的对象确定为所述目标对象。
6.根据权利要求5所述的小目标检测方法,其特征在于,所述获取用于识别所述目标对象的目标检测模型,包括:
获取所述目标对象的样本图像;
根据所述样本图像对预设的卷积神经网络模型进行训练得到所述目标检测模型。
7.根据权利要求6所述的小目标检测方法,其特征在于,所述根据所述样本图像对预设的卷积神经网络模型进行训练得到所述目标检测模型,包括:
将所述样本图像输入到预设的卷积神经网络模型中,获取所述神经网络模型输出的激励分类值;
比对预先获取到的期望分类值与所述激励分类值之间的距离是否小于或等于预设的第一阈值;
当所述期望分类值与所述激励分类值之间的距离大于预设的第一阈值时,反复循环迭代的通过反向算法更新所述卷积神经网络模型中的权重,至所述期望分类值与所述激励分类值之间的距离小于或等于预设的第一阈值时结束。
8.一种小目标检测装置,其特征在于,包括:
获取模块,用于获取待检测视频中的运动区域,其中,所述运动区域包括目标对象;
处理模块,用于按照预设的比例将所述运动区域放大得到待检测的目标区域;
执行模块,用于通过预设的目标检测算法在所述目标区域中对所述目标对象进行检测。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述小目标检测方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述小目标检测方法的步骤。
CN201910065111.3A 2019-01-23 2019-01-23 小目标检测方法、装置、计算机设备及存储介质 Pending CN111476064A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910065111.3A CN111476064A (zh) 2019-01-23 2019-01-23 小目标检测方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910065111.3A CN111476064A (zh) 2019-01-23 2019-01-23 小目标检测方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111476064A true CN111476064A (zh) 2020-07-31

Family

ID=71743345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910065111.3A Pending CN111476064A (zh) 2019-01-23 2019-01-23 小目标检测方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111476064A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347985A (zh) * 2020-11-30 2021-02-09 广联达科技股份有限公司 一种物料类别检测方法及装置
CN113505744A (zh) * 2021-07-27 2021-10-15 中国银行股份有限公司 用户行为检测方法及装置
CN116152863A (zh) * 2023-04-19 2023-05-23 尚特杰电力科技有限公司 一种人员信息识别方法、装置、电子设备及存储介质
CN116245835A (zh) * 2023-02-13 2023-06-09 数坤(北京)网络科技股份有限公司 图像检测方法、装置、电子设备和存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347985A (zh) * 2020-11-30 2021-02-09 广联达科技股份有限公司 一种物料类别检测方法及装置
CN113505744A (zh) * 2021-07-27 2021-10-15 中国银行股份有限公司 用户行为检测方法及装置
CN116245835A (zh) * 2023-02-13 2023-06-09 数坤(北京)网络科技股份有限公司 图像检测方法、装置、电子设备和存储介质
CN116245835B (zh) * 2023-02-13 2023-12-01 数坤科技股份有限公司 图像检测方法、装置、电子设备和存储介质
CN116152863A (zh) * 2023-04-19 2023-05-23 尚特杰电力科技有限公司 一种人员信息识别方法、装置、电子设备及存储介质
CN116152863B (zh) * 2023-04-19 2023-07-21 尚特杰电力科技有限公司 一种人员信息识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US11670012B2 (en) Encoding and decoding a stylized custom graphic
CN111476064A (zh) 小目标检测方法、装置、计算机设备及存储介质
CN109614989B (zh) 快速模型的训练方法、装置、计算机设备及存储介质
CN108229418B (zh) 人体关键点检测方法和装置、电子设备、存储介质和程序
CN110136198B (zh) 图像处理方法及其装置、设备和存储介质
CN109389096B (zh) 检测方法和装置
US20230013451A1 (en) Information pushing method in vehicle driving scene and related apparatus
CN112381092B (zh) 跟踪方法、装置及计算机可读存储介质
US10180782B2 (en) Fast image object detector
CN114241277A (zh) 注意力引导的多特征融合伪装目标检测方法、装置、设备及介质
CN113723159A (zh) 场景识别模型训练方法、场景识别方法及模型训练装置
CN114529462A (zh) 一种基于改进YOLO V3-Tiny的毫米波图像目标检测方法及系统
CN111507467A (zh) 神经网络模型的训练方法、装置、计算机设备及存储介质
CN113313098B (zh) 视频处理方法、设备、系统及存储介质
CN114998756A (zh) 一种基于yolov5的遥感图像检测方法、装置及存储介质
CN114283281A (zh) 目标检测方法及其装置、设备、介质、产品
CN110751004A (zh) 二维码检测方法、装置、设备及存储介质
CN116452900A (zh) 一种基于轻量级神经网络的目标检测方法
CN115223018A (zh) 伪装对象协同检测方法及装置、电子设备和存储介质
CN112015936B (zh) 用于生成物品展示图的方法、装置、电子设备和介质
CN112115740B (zh) 用于处理图像的方法和装置
CN116580054A (zh) 视频数据处理方法、装置、设备以及介质
CN113221718A (zh) 公式识别方法、装置、存储介质和电子设备
CN111476174A (zh) 一种基于人脸图像的情绪识别方法及装置
Cong et al. Salient man-made object detection based on saliency potential energy for unmanned aerial vehicles remote sensing image

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination