CN111476059A - 目标检测方法、装置、计算机设备及存储介质 - Google Patents

目标检测方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111476059A
CN111476059A CN201910064416.2A CN201910064416A CN111476059A CN 111476059 A CN111476059 A CN 111476059A CN 201910064416 A CN201910064416 A CN 201910064416A CN 111476059 A CN111476059 A CN 111476059A
Authority
CN
China
Prior art keywords
objects
target
preset
video
continuous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910064416.2A
Other languages
English (en)
Inventor
何军林
刘洛麒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201910064416.2A priority Critical patent/CN111476059A/zh
Publication of CN111476059A publication Critical patent/CN111476059A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种目标检测方法、装置、计算机设备及存储介质,包括下述步骤:从待检测视频的视频帧中获取目标区域,其中,所述目标区域包括多个对象;判断所述多个对象中是否存在连续出现次数大于预设次数的对象,其中,所述连续出现次数为在所述待检测视频中的连续视频帧中均出现的次数;当所述多个对象中存在连续出现次数大于所述预设次数的对象时,将连续出现次数大于所述预设次数的对象确定为需要检测的目标对象。该检测方法符合目标对象在视频中的出现规律,通过判断出现次数来区分目标对象和非目标对象,可以准确的检测目标对象,提高了目标检测的准确率。

Description

目标检测方法、装置、计算机设备及存储介质
技术领域
本发明实施例涉及视频检测领域,尤其是一种目标检测方法、装置、计算机设备及存储介质。
背景技术
目前,在视频中对目标物进行检测的技术主要依赖于深度学习。随着深度学习技术的发展,视频中的目标检测技术的应用越来越多。
但是,现有的目标检测技术检测到的结果找那个经常会混入到不需要的物体,即检测结果的误报率较高,严重影响了目标检测技术的应用。
发明内容
本发明实施例提供一种目标检测方法、装置、计算机设备及存储介质。
为解决上述技术问题,本发明创造的实施例采用的一个技术方案是:提供一种目标检测方法,包括下述步骤:
从待检测视频的视频帧中获取目标区域,其中,所述目标区域包括多个对象;
判断所述多个对象中是否存在连续出现次数大于预设次数的对象,其中,所述连续出现次数为在所述待检测视频中的连续视频帧中均出现的次数;
当所述多个对象中存在连续出现次数大于所述预设次数的对象时,将连续出现次数大于所述预设次数的对象确定为需要检测的目标对象。
可选地,所述从待检测视频的视频帧中获取目标区域,包括:
从所述待检测视频中提取所述视频帧;
通过预设的目标分类模型对所述视频帧中的多个对象进行分类,其中,所述目标分类模型用于识别目标对象和非目标对象;
将所述目标分类模型识别出的目标对象所在的预设形状的区域确定为所述目标区域。
可选地,所述通过预设的目标分类模型对所述视频帧中的多个对象进行分类之前,还包括:
获取样本图像,其中,所述样本图像包括:目标对象的图像和非目标对象的图像;
采用所述样本图像对预设的卷积神经网络模型进行训练,得到所述目标分类模型。
可选地,所述判断所述多个对象中是否存在连续出现次数大于预设次数的对象,包括:
从所述视频帧的目标区域中提取所述多个对象;
采用预设的多目标跟踪算法在以所述视频帧为首帧的多个连续视频帧中对所述目标区域中的多个对象进行跟踪,得到每个对象出现的次数;
将所述每个对象出现的次数与所述预设次数依次进行比对。
可选地,所述采用预设的多目标跟踪算法在以所述视频帧为首帧的多个连续视频帧中对所述目标区域中的多个对象进行跟踪,得到每个对象出现的次数,包括:
对所述视频帧中目标区域的多个对象分别创建识别码;
采用sort多目标跟踪算法将所述多个对象分别与多个连续视频帧中的对象进行匹配,以分别确定多个所述连续视频帧中对象的识别码;
统计每个对象在多个所述连续视频帧中出现的识别码的个数,并将所述识别码的个数作为所述对象的出现次数。
可选地,所述判断所述多个对象中是否存在连续出现次数大于预设次数的对象之后,还包括:
当所述多个对象中包含在所述连续视频帧中出现的次数小于或等于预设次数的对象时,将出现的次数小于或等于预设次数的对象确定为不需要检测的对象。
可选地,所述采用所述样本图像对预设的卷积神经网络模型进行训练,得到所述目标分类模型,包括:
将所述样本图像输入到预设的卷积神经网络模型中,获取所述神经网络模型输出的激励分类值;
比对预先获取到的期望分类值与所述激励分类值之间的距离是否小于或等于预设的第一阈值;
当所述期望分类值与所述激励分类值之间的距离大于预设的第一阈值时,反复循环迭代的通过反向算法更新所述卷积神经网络模型中的权重,至所述期望分类值与所述激励分类值之间的距离小于或等于预设的第一阈值时结束。
为解决上述技术问题,本发明实施例还提供一种目标检测装置,包括:
获取模块,用于从待检测视频的视频帧中获取目标区域,其中,所述目标区域包括多个对象;
处理模块,用于判断所述多个对象中是否存在连续出现次数大于预设次数的对象,其中,所述连续出现次数为在所述待检测视频中的连续视频帧中均出现的次数;
执行模块,用于当所述多个对象中存在连续出现次数大于所述预设次数的对象时,将连续出现次数大于所述预设次数的对象确定为需要检测的目标对象。
可选地,所述获取模块包括:
第一获取子模块,用于从所述待检测视频中提取所述视频帧;
第一处理子模块,用于通过预设的目标分类模型对所述视频帧中的多个对象进行分类,其中,所述目标分类模型用于识别目标对象和非目标对象;
第一执行子模块,用于将所述目标分类模型识别出的目标对象所在的预设形状的区域确定为所述目标区域。
可选地,还包括:
第二获取子模块,用于获取样本图像,其中,所述样本图像包括:目标对象的图像和非目标对象的图像;
第二处理子模块,用于采用所述样本图像对预设的卷积神经网络模型进行训练,得到所述目标分类模型。
可选地,所述处理模块包括:
第三获取子模块,用于从所述视频帧的目标区域中提取所述多个对象;
第三处理子模块,用于采用预设的多目标跟踪算法在以所述视频帧为首帧的多个连续视频帧中对所述目标区域中的多个对象进行跟踪,得到每个对象出现的次数;
第四处理子模块,用于将所述每个对象出现的次数与所述预设次数依次进行比对。
可选地,所述第三处理子模块包括:
第五处理子模块,用于对所述视频帧中目标区域的多个对象分别创建识别码;
第六处理子模块,用于采用sort多目标跟踪算法将所述多个对象分别与多个连续视频帧中的对象进行匹配,以分别确定多个所述连续视频帧中对象的识别码;
第二执行子模块,用于统计每个对象在多个所述连续视频帧中出现的识别码的个数,并将所述识别码的个数作为所述对象的出现次数。
可选地,还包括:
第三执行子模块,用于当所述多个对象中包含在所述连续视频帧中出现的次数小于或等于预设次数的对象时,将出现的次数小于或等于预设次数的对象确定为不需要检测的对象。
可选地,所述第二处理子模块包括:
第四获取子模块,用于将所述样本图像输入到预设的卷积神经网络模型中,获取所述神经网络模型输出的激励分类值;
第七处理子模块,用于比对预先获取到的期望分类值与所述激励分类值之间的距离是否小于或等于预设的第一阈值;
第四执行子模块,用于当所述期望分类值与所述激励分类值之间的距离大于预设的第一阈值时,反复循环迭代的通过反向算法更新所述卷积神经网络模型中的权重,至所述期望分类值与所述激励分类值之间的距离小于或等于预设的第一阈值时结束。
为解决上述技术问题,本发明实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述目标检测方法的步骤。
为解决上述技术问题,本发明实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述目标检测方法的步骤。
本发明实施例的有益效果是:判断目标区域中的多个对象在连续帧中出现的次数是否大于预设次数,并将大于预设次数的对象确定为待检测的目标对象。该检测方法符合目标对象在视频中的出现规律,通过判断出现次数来区分目标对象和非目标对象,可以准确的检测目标对象,提高了目标检测的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的目标检测方法的基本流程示意图;
图2为本发明实施例提供的一种从待检测视频的视频帧中获取目标区域的方法的基本流程示意图;
图3为本发明实施例提供的一种获取目标分类模型的方法的基本流程示意图;
图4为本发明实施例提供的一种采用样本图像对预设的卷积神经网络模型进行训练的方法的基本流程示意图;
图5为本发明实施例提供的一种判断所述多个对象中是否存在连续出现次数大于预设次数的对象的方法的基本流程示意图;
图6为本发明实施例提供的一种获取多个对象在连续视频帧中出现次数的方法的基本流程示意图;
图7为本发明实施例提供的目标检测装置基本结构框图;
图8为本发明实施例提供的计算机设备基本结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(PersonalDigital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本实施方式中的客户终端即为上述的终端。
具体地,请参阅图1,图1为本实施例目标检测方法的基本流程示意图。
如图1所示,目标检测方法包括下述步骤:
S1100、从待检测视频的视频帧中获取目标区域,其中,目标区域包括多个对象;
待检测视频为需要检测目标的视频中提取的视频,其中,需要检测的目标可以为各种设定的目标对象,例如,在安防系统中需要的检测的目标可以是人,在车辆检测系统中,需要检测的目标可以是速度超过预设值的车辆,在安检系统中,需要检测目标可以是各类管制用品等等。
目标区域为待检测目标所在的区域,通常以现有的目标检测方法检测到的目标对象为中心,按照预设的比例的边框确定的区域,例如,当待检测目标为人时,以视频帧中的人为中心,以包含人在内的矩形边框确定的区域为目标区域。
在实际应用中,由于现有的目标检测算法的限制,确定的目标区域中除了包含待检测目标对象外,还包括其它的对象,例如,当检测的目标对象为可以运动的人时,目标区域中,可能会包括跑跳的动物等,这样会造成检测结果的误报。因此,为解决误报的问题,本实施例中,目标区域包括以目标对象在内的多个对象,并从多个对象中确定准确的目标对象。
在一些实施方式中,从待检测视频的视频帧中获取目标区域时,从视频中依次提取视频帧,通过预先训练的目标检测模型对每一帧视频帧中的图像进行检测,确定待检测的对象,进而确定目标区域。其中,目标检测模型可以为预先利用待检测对象的样本数据对神经网络算法训练至收敛的模型,还可以为利用待检测对象的提取的特征样本图像训练得到的滤波器。
S1200、判断多个对象中是否存在连续出现次数大于预设次数的对象,其中,连续出现次数为在待检测视频中的连续视频帧中均出现的次数;
本实施例中,从目标区域中提取所有的对象,在预设个数的连续视频帧中对目标区域中提取的多个对象进行跟踪,以确定在连续视频帧中是否均出现,并统计每个对象连续出现的次数,并将每个对象出现的次数与预设次数依次进行比对,判断每个对象连续出现的次数是否大于预设次数。
需要说明的是,在统计每个对象的出现次数时,有效的出现次数是指对象连续出现的次数。例如,目标区域中包含对象1和对象2,连续视频帧包括:帧1、帧2、帧3、帧4和帧5,其中,对象1在帧1、帧2、帧3和帧4中均出现,则统计对象1的出现次数为4次,对象2在帧1、帧2、帧3、帧5中均出现,则统计对象2出现的次数为3次。
需要说明的是,对目标区域中的多个对象进行跟踪时,可以采用离子滤波算法、卡拉曼滤波算法等。
S1300、当多个对象中存在连续出现次数大于预设次数的对象时,将连续出现次数大于预设次数的对象确定为需要检测的目标对象。
目标对象为视频中需要检测的对象。由于确定的区域通常大于目标对象所在的区域以及目标检测技术的缺陷通常会导致目标区域中通常包括多个对象,即包含目标对象和非目标对象。在实际应用中,目标对象会连续的在视频帧中出现,而非目标对象一般为环境中的物体,随着目标对象的运动,环境中的物体不会在连续帧中出现,因此,本实施例中,当多个对象中存在在连续视频帧中出现的次数大于预设次数的对象时,将该对象确定为目标对象。
在一些实施方式中,当多个对象中包含在连续视频帧中出现的次数小于或等于预设次数的对象时,将出现的次数小于或等于预设次数的对象确定为不需要检测的对象。
上述目标检测方法,通过判断目标区域中的多个对象在连续帧中出现的次数是否大于预设次数,并将大于预设次数的对象确定为待检测的目标对象。该检测方法符合目标对象在视频中的出现规律,通过判断出现次数来区分目标对象和非目标对象,可以准确的检测目标对象,提高了目标检测的准确率。
在实际应用中,目标区域通常为在视频中为待检测目标划定的区域,本发明实施例提供一种从待检测视频的视频帧中获取目标区域的方法,如图2所示,图2为本发明实施例提供的一种从待检测视频的视频帧中获取目标区域的方法的基本流程示意图。
具体地,如图2所示,步骤S1100包括下述步骤:
S1110、从待检测视频中提取视频帧;
S1120、通过预设的目标分类模型对视频帧中的多个对象进行分类,其中,目标分类模型用于识别目标对象和非目标对象;
本实施例中,从需要检测目标的视频中提取的视频帧。其中,需要检测目标的视频可以为利用摄像机录制的监控视频,还可以为从网络上下载的需要分析或检测目标的视频等等。
本发明实施例提供一种获取目标分类模型的方法,如图3所示,图3为本发明实施例提供的一种获取目标分类模型的方法的基本流程示意图。
具体地,如图3所示,步骤S1120之前还包括下述步骤:
S1121、获取样本图像,其中,样本图像包括:目标对象的图像和非目标对象的图像;
本实施例中,获取样本图像时,可以从网络上下载图片,也可以从视频中截取包含目标图像的视频帧。
本实施例中,目标分类模型用于对视频帧中的多个对象进行分类,以确定待检测的目标对象和非目标对象,例如,待检测的目标为人,则视频帧中出现的人为目标对象,视频帧中除人以外的对象,例如,周围的景色、物体等均为非目标对象。
S1122、采用样本图像对预设的卷积神经网络模型进行训练,得到目标分类模型。
本发明实施例提供一种采用样本图像对预设的卷积神经网络模型进行训练的方法,如图4所示,图4为本发明实施例提供的一种采用样本图像对预设的卷积神经网络模型进行训练的方法的基本流程示意图。
具体地,如图4所示,步骤S1122包括下述步骤:
S11221、将样本图像输入到预设的卷积神经网络模型中,获取神经网络模型输出的激励分类值;
激励分类值是卷积神经网络模型根据输入的人脸图像而输出的激励数据,在神经网络模型未被训练至收敛之前,激励分类值为离散性较大的数值,当神经网络模型未被训练至收敛之后,激励分类值为相对稳定的数据。
S11222、比对预先获取到的期望分类值与激励分类值之间的距离是否小于或等于预设的第一阈值;
通过损失函数判断神经网络模型全连接层输出的激励分类值与设定的期望分类值是否一致,当结果不一致时,需要通过反向传播算法对第一通道内的权重进行调整。
在一些实施方式中,损失函数通过计算激励分类值与设定的期望分类值之间的距离(欧氏距离或者空间距离),来确定激励分类值与设定的期望分类值是否一致,设定第一阈值(例如,0.05),当激励分类值与设定的期望分类值之间的距离小于或等于第一阈值时,则确定激励分类值与设定的期望分类值一致,否则,则激励分类值与设定的期望分类值不一致。
需要说明的是,期望分类值可以通过预设的图像处理软件对样本数据进行计算得到的。
S11223、当期望分类值与激励分类值之间的距离大于预设的第一阈值时,反复循环迭代的通过反向算法更新卷积神经网络模型中的权重,至期望分类值与激励分类值之间的距离小于或等于预设的第一阈值时结束。
当神经网络模型的激励分类值与设定的期望分类值不一致时,需要采用随机梯度下降算法对神经网络模型中的权重进行校正,以使卷积神经网络模型的输出结果与分类判断信息的期望结果相同。通过若干训练样本集(在一些实施方式中,训练时将所有训练样本集内的照片打乱进行训练,以增加模型的靠干扰能力,增强输出的稳定性。)的反复的训练与校正,当神经网络模型输出分类数据与各训练样本的分类参照信息比对达到(不限于)99.5%时,训练结束。
S1130、将目标分类模型识别出的目标对象所在的预设形状的区域确定为目标区域。
本实施例中,将提取的视频帧输入到目标分类模型中以使目标分类模型对目标对象进行识别,并将识别出的目标对象按照预设形状和比例对目标对象设置边框,以及将边框之内的区域作为目标区域。例如,目标分类模型从视频帧中识别出的目标对象为一个人,预设的形状为矩形,预设的比例为按照目标对象的比例自动匹配,则在视频帧中目标区域为以该人为中心,该人所占的长款比例确定的矩形的长和框为边框得到的区域。
本发明实施例提供一种判断多个对象中是否存在连续出现次数大于预设次数的对象的方法,如图5所示,图5为本发明实施例提供的一种判断多个对象中是否存在连续出现次数大于预设次数的对象的方法的基本流程示意图。
具体地,如图5所示,步骤S1200包括下述步骤:
S1210、从视频帧的目标区域中提取多个对象;
本实施例中,可以将视频帧通过低通滤波、中值滤波、形态滤波等,以对视频帧进行简化,然后利用预设的特征提取方法提取特征,其中,特征可以是颜色、纹理、运动、帧差、位移差等。在基于某种均匀性标准确定分离策略,并将提取到的特征进行归类,得到各个对象,以及对各个对象消除噪声、确定边界等处理,最终对确定的边界进行剪切以得到各个对象。
S1220、采用预设的多目标跟踪算法在以视频帧为首帧的多个连续视频帧中对目标区域中的多个对象进行跟踪,得到每个对象出现的次数;
本发明实施例还提供一种获取多个对象在连续视频帧中出现次数的方法,如图6所示,图6为本发明实施例提供的一种获取多个对象在连续视频帧中出现次数的方法的基本流程示意图。
具体地,如图6所示,步骤S1220包括下述步骤:
S1221、对视频帧中目标区域的多个对象分别创建识别码;
本实施例中,通过步骤S1210中的方法提取对象后,以该视频帧作为首帧对提取的多个对象分别标注识别码,即用于唯一识别每个对象的符号。
S1222、采用sort多目标跟踪算法将多个对象分别与多个连续视频帧中的对象进行匹配,以分别确定多个连续视频帧中对象的识别码;
在对首帧之后的多个连续帧中的对象与首帧创建了识别码的对象进行匹配时,采用sort夺目宝跟踪算法。即,获取首帧之后的第二帧视频帧,利用卡尔曼滤波器进行处理得到由首帧产生的状态预测和协方差预测。求跟踪器所有目标状态预测与本帧(第二帧)检测的各个对象的IOU,通过匈牙利指派算法得到IOU最大的唯一匹配(即数据关联部分)然后再去掉小于IOU-threshold的匹配对。用本帧中匹配到的对象去更新卡尔曼跟踪器,计算卡尔曼增益、状态更新和协方差更新,并将状态更新至输出作为本帧的跟踪对象。对于本帧中没有匹配到的对象重新初始化跟踪器。
本实施例中,连续视频帧中对匹配到的对象进行计数,并记录其在视频帧中出现的视频帧的顺序。
S1223、统计每个对象在多个连续视频帧中出现的识别码的个数,并将识别码的个数作为对象的出现次数。
在统计每个对象在多个连续视频帧中出现的识别码的个数时,参照每个对象在视频帧中出现的视频帧的顺序,并以连续出现的次数作为每个对象最终出现的次数。
举例说明,例设目标区域中包含对象1和对象2,连续视频帧包括:帧1、帧2、帧3、帧4和帧5,其中,对象1在帧1、帧2、帧3和帧4中均出现,则统计对象1的出现次数为4次,对象2在帧1、帧2、帧3、帧5中均出现,则统计对象2出现的次数为3次。
S1230、将每个对象出现的次数与预设次数依次进行比对。
本实施例中,对于需要检测的目标来说,在视频帧中出现的次数较多且连续,即目标对象会连续的在视频帧中出现,而非目标对象一般为环境中的物体,随着目标对象的运动,环境中的物体不会在连续帧中均出现。因此,通过将每个对象连续出现的次数与预设次数进行比对,可以筛除非目标对象,大大减小误报率。其中,预设次数可以按照视频中实际检测目标的出现频率进行设置。例如,目标对象为人,视频为人出现较少的环境时,可以对预设次数设置较小的数值,例如,3或4。
为解决上述技术问题本发明实施例还提供一种目标检测装置。具体请参阅图7,图7为本实施例目标检测装置基本结构框图。
如图7所示,一种目标检测装置,包括:获取模块2100、处理模块2200和执行模块2300。其中,获取模块2100,用于从待检测视频的视频帧中获取目标区域,其中,所述目标区域包括多个对象;处理模块2200,用于判断所述多个对象中是否存在连续出现次数大于预设次数的对象,其中,所述连续出现次数为在所述待检测视频中的连续视频帧中均出现的次数;执行模块2300,用于当所述多个对象中存在连续出现次数大于所述预设次数的对象时,将连续出现次数大于所述预设次数的对象确定为需要检测的目标对象。
上述目标检测装置通过判断目标区域中的多个对象在连续帧中出现的次数是否大于预设次数,并将大于预设次数的对象确定为待检测的目标对象。该检测方法符合目标对象在视频中的出现规律,通过判断出现次数来区分目标对象和非目标对象,可以准确的检测目标对象,提高了目标检测的准确率。
在一些实施方式中,所述获取模块包括:第一获取子模块,用于从所述待检测视频中提取所述视频帧;第一处理子模块,用于通过预设的目标分类模型对所述视频帧中的多个对象进行分类,其中,所述目标分类模型用于识别目标对象和非目标对象;第一执行子模块,用于将所述目标分类模型识别出的目标对象所在的预设形状的区域确定为所述目标区域。
在一些实施方式中,还包括:第二获取子模块,用于获取样本图像,其中,所述样本图像包括:目标对象的图像和非目标对象的图像;第二处理子模块,用于采用所述样本图像对预设的卷积神经网络模型进行训练,得到所述目标分类模型。
在一些实施方式中,所述处理模块包括:第三获取子模块,用于从所述视频帧的目标区域中提取所述多个对象;第三处理子模块,用于采用预设的多目标跟踪算法在以所述视频帧为首帧的多个连续视频帧中对所述目标区域中的多个对象进行跟踪,得到每个对象出现的次数;第四处理子模块,用于将所述每个对象出现的次数与所述预设次数依次进行比对。
在一些实施方式中,所述第三处理子模块包括:第五处理子模块,用于对所述视频帧中目标区域的多个对象分别创建识别码;第六处理子模块,用于采用sort多目标跟踪算法将所述多个对象分别与多个连续视频帧中的对象进行匹配,以分别确定多个所述连续视频帧中对象的识别码;第二执行子模块,用于统计每个对象在多个所述连续视频帧中出现的识别码的个数,并将所述识别码的个数作为所述对象的出现次数。
在一些实施方式中,还包括:第三执行子模块,用于当所述多个对象中包含在所述连续视频帧中出现的次数小于或等于预设次数的对象时,将出现的次数小于或等于预设次数的对象确定为不需要检测的对象。
在一些实施方式中,所述第二处理子模块包括:第四获取子模块,用于将所述样本图像输入到预设的卷积神经网络模型中,获取所述神经网络模型输出的激励分类值;第七处理子模块,用于比对预先获取到的期望分类值与所述激励分类值之间的距离是否小于或等于预设的第一阈值;第四执行子模块,用于当所述期望分类值与所述激励分类值之间的距离大于预设的第一阈值时,反复循环迭代的通过反向算法更新所述卷积神经网络模型中的权重,至所述期望分类值与所述激励分类值之间的距离小于或等于预设的第一阈值时结束。
为解决上述技术问题,本发明实施例还提供计算机设备。具体请参阅图8,图8为本实施例计算机设备基本结构框图。
如图8所示,计算机设备的内部结构示意图。如图8所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种目标检测方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种目标检测方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图7中获取模块2100、处理模块2200和执行模块2300的具体内容,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有目标检测方法中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
计算机设备通过判断目标区域中的多个对象在连续帧中出现的次数是否大于预设次数,并将大于预设次数的对象确定为待检测的目标对象。该检测方法符合目标对象在视频中的出现规律,通过判断出现次数来区分目标对象和非目标对象,可以准确的检测目标对象,提高了目标检测的准确率。。
本发明还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例所述目标检测方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种目标检测方法,其特征在于,包括下述步骤:
从待检测视频的视频帧中获取目标区域,其中,所述目标区域包括多个对象;
判断所述多个对象中是否存在连续出现次数大于预设次数的对象,其中,所述连续出现次数为在所述待检测视频中的连续视频帧中均出现的次数;
当所述多个对象中存在连续出现次数大于所述预设次数的对象时,将连续出现次数大于所述预设次数的对象确定为需要检测的目标对象。
2.根据权利要求1所述的目标检测方法,其特征在于,所述从待检测视频的视频帧中获取目标区域,包括:
从所述待检测视频中提取所述视频帧;
通过预设的目标分类模型对所述视频帧中的多个对象进行分类,其中,所述目标分类模型用于识别目标对象和非目标对象;
将所述目标分类模型识别出的目标对象所在的预设形状的区域确定为所述目标区域。
3.根据权利要求2所述的目标检测方法,其特征在于,所述通过预设的目标分类模型对所述视频帧中的多个对象进行分类之前,还包括:
获取样本图像,其中,所述样本图像包括:目标对象的图像和非目标对象的图像;
采用所述样本图像对预设的卷积神经网络模型进行训练,得到所述目标分类模型。
4.根据权利要求1所述的方法,其特征在于,所述判断所述多个对象中是否存在连续出现次数大于预设次数的对象,包括:
从所述视频帧的目标区域中提取所述多个对象;
采用预设的多目标跟踪算法在以所述视频帧为首帧的多个连续视频帧中对所述目标区域中的多个对象进行跟踪,得到每个对象出现的次数;
将所述每个对象出现的次数与所述预设次数依次进行比对。
5.根据权利要求4所述的方法,其特征在于,所述采用预设的多目标跟踪算法在以所述视频帧为首帧的多个连续视频帧中对所述目标区域中的多个对象进行跟踪,得到每个对象出现的次数,包括:
对所述视频帧中目标区域的多个对象分别创建识别码;
采用sort多目标跟踪算法将所述多个对象分别与多个连续视频帧中的对象进行匹配,以分别确定多个所述连续视频帧中对象的识别码;
统计每个对象在多个所述连续视频帧中出现的识别码的个数,并将所述识别码的个数作为所述对象的出现次数。
6.根据权利要求1所述的方法,其特征在于,所述判断所述多个对象中是否存在连续出现次数大于预设次数的对象之后,还包括:
当所述多个对象中包含在所述连续视频帧中出现的次数小于或等于预设次数的对象时,将出现的次数小于或等于预设次数的对象确定为不需要检测的对象。
7.根据权利要求3所述的方法,其特征在于,所述采用所述样本图像对预设的卷积神经网络模型进行训练,得到所述目标分类模型,包括:
将所述样本图像输入到预设的卷积神经网络模型中,获取所述神经网络模型输出的激励分类值;
比对预先获取到的期望分类值与所述激励分类值之间的距离是否小于或等于预设的第一阈值;
当所述期望分类值与所述激励分类值之间的距离大于预设的第一阈值时,反复循环迭代的通过反向算法更新所述卷积神经网络模型中的权重,至所述期望分类值与所述激励分类值之间的距离小于或等于预设的第一阈值时结束。
8.一种目标检测装置,其特征在于,包括:
获取模块,用于从待检测视频的视频帧中获取目标区域,其中,所述目标区域包括多个对象;
处理模块,用于判断所述多个对象中是否存在连续出现次数大于预设次数的对象,其中,所述连续出现次数为在所述待检测视频中的连续视频帧中均出现的次数;
执行模块,用于当所述多个对象中存在连续出现次数大于所述预设次数的对象时,将连续出现次数大于所述预设次数的对象确定为需要检测的目标对象。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述目标检测方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述目标检测方法的步骤。
CN201910064416.2A 2019-01-23 2019-01-23 目标检测方法、装置、计算机设备及存储介质 Pending CN111476059A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910064416.2A CN111476059A (zh) 2019-01-23 2019-01-23 目标检测方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910064416.2A CN111476059A (zh) 2019-01-23 2019-01-23 目标检测方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111476059A true CN111476059A (zh) 2020-07-31

Family

ID=71743359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910064416.2A Pending CN111476059A (zh) 2019-01-23 2019-01-23 目标检测方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111476059A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100435A (zh) * 2020-09-09 2020-12-18 沈阳帝信人工智能产业研究院有限公司 一种基于边缘端交通音视频同步样本的自动标注方法
CN114401440A (zh) * 2021-12-14 2022-04-26 北京达佳互联信息技术有限公司 视频剪辑及剪辑模型生成方法、装置、设备、程序和介质
CN115019111A (zh) * 2022-08-05 2022-09-06 天津艺点意创科技有限公司 用于互联网文创作品的数据处理方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100435A (zh) * 2020-09-09 2020-12-18 沈阳帝信人工智能产业研究院有限公司 一种基于边缘端交通音视频同步样本的自动标注方法
CN112100435B (zh) * 2020-09-09 2023-11-07 沈阳帝信人工智能产业研究院有限公司 一种基于边缘端交通音视频同步样本的自动标注方法
CN114401440A (zh) * 2021-12-14 2022-04-26 北京达佳互联信息技术有限公司 视频剪辑及剪辑模型生成方法、装置、设备、程序和介质
CN115019111A (zh) * 2022-08-05 2022-09-06 天津艺点意创科技有限公司 用于互联网文创作品的数据处理方法
CN115019111B (zh) * 2022-08-05 2022-10-04 天津艺点意创科技有限公司 用于互联网文创作品的数据处理方法

Similar Documents

Publication Publication Date Title
CN108090508B (zh) 一种分类训练方法、装置及存储介质
CN108229456B (zh) 目标跟踪方法和装置、电子设备、计算机存储介质
US20170161591A1 (en) System and method for deep-learning based object tracking
CN110781836A (zh) 人体识别方法、装置、计算机设备及存储介质
US20170358093A1 (en) Method and apparatus for updating a background model
CN110460838B (zh) 一种镜头切换的检测方法、装置及计算机设备
EP3151160B1 (en) Visual attention detector and visual attention detection method
CN112800944B (zh) 人群行为检测方法及装置、电子设备和存储介质
CN111476059A (zh) 目标检测方法、装置、计算机设备及存储介质
CN110991397B (zh) 一种行进方向确定方法及相关设备
CN113191180B (zh) 目标跟踪方法、装置、电子设备及存储介质
CN111476064A (zh) 小目标检测方法、装置、计算机设备及存储介质
CN113850838A (zh) 船舶航行意图获取方法、装置、计算机设备及存储介质
CN114902299A (zh) 图像中关联对象的检测方法、装置、设备和存储介质
CN112132130A (zh) 一种面向全场景的实时性车牌检测方法及系统
CN112101156A (zh) 一种目标识别的方法、装置和电子设备
CN105678333B (zh) 一种拥挤区域的确定方法和装置
CN112200862B (zh) 目标检测模型的训练方法、目标检测方法及装置
CN111476070A (zh) 图像处理方法、装置、电子设备以及计算机可读存储介质
CN117630844A (zh) 目标识别方法及相关装置、设备和存储介质
CN115393755A (zh) 视觉目标跟踪方法、装置、设备以及存储介质
CN116383423A (zh) 图像检索结果的重排方法、装置、计算机设备及介质
CN116246303A (zh) 用于模型跨域训练的样本构建方法、装置、设备及介质
CN105447887A (zh) 一种基于历史轨迹的目标跟踪方法及电子设备
CN112905832B (zh) 复杂背景细粒度图像检索系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination