CN111950517A - 一种目标检测方法、模型训练方法,电子设备及存储介质 - Google Patents

一种目标检测方法、模型训练方法,电子设备及存储介质 Download PDF

Info

Publication number
CN111950517A
CN111950517A CN202010874397.2A CN202010874397A CN111950517A CN 111950517 A CN111950517 A CN 111950517A CN 202010874397 A CN202010874397 A CN 202010874397A CN 111950517 A CN111950517 A CN 111950517A
Authority
CN
China
Prior art keywords
frame image
current frame
image
target detection
state matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010874397.2A
Other languages
English (en)
Inventor
马兆远
朱善伟
李康
韩德伟
董利健
梁冬雪
殷小雷
徐建
王路
毕东柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bmi Beijing Intelligent System Co ltd
Original Assignee
Bmi Beijing Intelligent System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bmi Beijing Intelligent System Co ltd filed Critical Bmi Beijing Intelligent System Co ltd
Priority to CN202010874397.2A priority Critical patent/CN111950517A/zh
Publication of CN111950517A publication Critical patent/CN111950517A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种目标检测方法、模型训练方法,电子设备及存储介质。目标检测方法,包括:获取待检测的未解码的视频中的图像组中的当前帧图像;其中,图像组包括一个I帧图像,至少一个P帧图像以及至少一个B帧图像;将所述当前帧图像以及所述当前帧图像对应的状态矩阵输入至预先训练好的目标检测模型中,得到所述当前帧图像的目标检测结果以及表征所述当前帧图像的图像信息的状态矩阵;其中,所述当前帧图像对应的状态矩阵表征在所述图像组中的前一帧图像的图像信息。通过该方式,使得每一帧图像可以基于前一帧图像的图像信息来获取图像中的目标,进而使得一段未解码的视频无需对所有的图像帧进行解码即可,如此提高了对视频中目标的检测效率。

Description

一种目标检测方法、模型训练方法,电子设备及存储介质
技术领域
本申请涉及视频处理技术领域,具体而言,涉及一种目标检测方法、模型训练方法,电子设备及存储介质。
背景技术
对于一些特殊场景,视频中的某些目标是更需要关心的,将视频中需要关心的目标检测出来,有利于后续对目标的识别和分析。常见的目标检测方法,传统的有帧差法、多帧差法、背景消除法、颜色分布法以及光流法。在深度神经网络出现之后,基于深度卷积神经网络的检测模型也出现很多,例如Faster-rcnn、SSD(Single Shot MultiBoxDetector)、YOLO(You Only Look Once)、RetinaNet等,上述的方法均需要在视频完全解码的情况下进行处理,而这一过程需要耗费大量的计算资源。
发明内容
本申请实施例的目的在于提供一种目标检测方法、模型训练方法,电子设备及存储介质,以改善“目前针对视频的目标检测方法,均需要将视频完全解码,进而耗费大量的计算资源”的问题。
本发明是这样实现的:
第一方面,本申请实施例提供一种目标检测方法,包括:获取待检测的未解码的视频中的图像组中的当前帧图像;其中,所述图像组包括一个I帧图像,至少一个P帧图像以及至少一个B帧图像;将所述当前帧图像以及所述当前帧图像对应的状态矩阵输入至预先训练好的目标检测模型中,得到所述当前帧图像的目标检测结果以及表征所述当前帧图像的图像信息的状态矩阵;其中,所述当前帧图像对应的状态矩阵表征在所述图像组中的前一帧图像的图像信息。
在本申请实施例中,在检测视频中目标的时候,将每一帧图像结合状态矩阵作为目标检测模型的输入,通过该方式,使得每一帧图像可以基于前一帧图像的图像信息来获取图像中的目标,进而使得一段未解码的视频无需对所有的图像帧进行解码即可,如此提高了对视频中目标的检测效率。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述当前帧图像为I帧图像,所述将所述当前帧图像以及所述当前帧图像对应的状态矩阵输入至预先训练好的目标检测模型中,得到所述当前帧图像的目标检测结果以及表征所述当前帧图像的图像信息的状态矩阵,包括:对所述I帧图像进行解码;将解码后的I帧图像与所述I帧图像对应的状态矩阵输入至所述目标检测模型中,得到所述I帧图像的目标检测结果以及表征所述I帧图像的图像信息的状态矩阵;其中,所述I帧图像对应的状态矩阵为初始状态矩阵。
由于图像组中的第一帧图像为I帧图像,而I帧图像为关键帧,包含完整的图像,因此,在当前帧为I帧图像时,需要将I帧图像进行解码,并将解码后的I帧图像与初始状态矩阵输入至目标检测模型中进行检测。通过该方式,可以使得后续的多帧图像无需进行解码,仅需基于I帧图像的图像信息即可得到对应的目标检测结果,提高对视频中目标的检测效率。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述当前帧图像为P帧图像,所述将所述当前帧图像以及所述当前帧图像对应的状态矩阵输入至预先训练好的目标检测模型中,得到所述当前帧图像的目标检测结果以及表征所述当前帧图像的图像信息的状态矩阵,包括:获取所述P帧图像的矢量场幅值图;将所述矢量场幅值图与所述P帧图像对应的状态矩阵输入至所述目标检测模型中,得到所述P帧图像的目标检测结果以及表征所述P帧图像的图像信息的状态矩阵。
在本申请实施例中,在当前帧为P帧时,将P帧图像所对应的矢量场幅值图与P帧图像对应的状态矩阵输入至目标检测模型进行的目标检测,该方式无需对P帧图像进行解码,提高了对视频中目标的检测效率。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述当前帧图像为B帧图像,所述将所述当前帧图像以及所述当前帧图像对应的状态矩阵输入至预先训练好的目标检测模型中,得到所述当前帧图像的目标检测结果以及表征所述当前帧图像的图像信息的状态矩阵,包括:获取所述B帧图像的矢量场幅值图;将所述矢量场幅值图与所述B帧图像对应的状态矩阵输入至所述目标检测模型中,得到所述B帧图像的目标检测结果以及表征所述B帧图像的图像信息的状态矩阵。
在本申请实施例中,在当前帧为B帧时,将B帧图像所对应的矢量场幅值图与B帧图像对应的状态矩阵输入至目标检测模型进行的目标检测,该方式无需对B帧图像进行解码,提高了对视频中目标的检测效率。
第二方面,本申请实施例提供一种模型训练方法,包括:获取标注数据;其中,所述标注数据为解码后的测试视频中标记好目标区域的每一帧图像;获取未解码的所述测试视频中的图像组中的当前帧图像;将所述当前帧图像以及所述当前帧图像对应的状态矩阵输入至初始的目标检测模型中,得到所述当前帧图像的目标检测结果以及表征所述当前帧图像的图像信息的状态矩阵;其中,所述当前帧图像对应的状态矩阵表征前一帧图像的图像信息;基于所述目标检测结果以及与所述当前帧图像对应的标注数据计算损失值,并基于所述损失值对所述初始的目标检测模型的网络参数进行更新,得到预先训练好的目标检测模型。
在本申请实施例中,结合每一帧图像对应的状态矩阵作为初始的目标检测模型的输入数据进行训练,再结合预先标注好目标区域的图像对模型的参数进行更新,通过该方式能够得到准确获取到目标检测模型,且通过该模型,使得后续进行目标检测时,无需对视频中的每一帧视频进行解码。
结合上述第二方面提供的技术方案,在一些可能的实现方式中,所述目标区域包括目标点的坐标、所述目标区域的宽度以及所述目标区域的高度;相应的,所述基于所述目标检测结果以及与所述当前帧图像对应的标注数据计算损失值,包括:基于所述目标检测结果中的目标检测区域的目标点的坐标、所述目标检测区域的宽度、所述目标检测区域的高度与所述当前帧图像对应的标注数据中的目标区域中的目标点的坐标、所述当前帧图像对应的标注数据中的目标区域的宽度、所述当前帧图像对应的标注数据中的目标区域的高度计算损失值。
在本申请实施例中,通过目标检测结果中的目标检测区域的目标点的坐标、目标检测区域的宽度、目标检测区域的高度与当前帧图像对应的标注数据中的目标区域中的目标点的坐标、当前帧图像对应的标注数据中的目标区域的宽度、当前帧图像对应的标注数据中的目标区域的高度多项数据计算损失值,通过该方式,能够获取准确的损失值,进而得到准确的目标检测模型。
第三方面,本申请实施例提供一种目标检测装置,包括:第一获取模块,用于获取待检测的未解码的视频中的图像组中的当前帧图像;其中,所述图像组包括一个I帧图像,至少一个P帧图像以及至少一个B帧图像;目标检测模块,将所述当前帧图像以及所述当前帧图像对应的状态矩阵输入至预先训练好的目标检测模型中,得到所述当前帧图像的目标检测结果以及表征所述当前帧图像的图像信息的状态矩阵;其中,所述当前帧图像对应的状态矩阵表征在所述图像组中的前一帧图像的图像信息。
第四方面,本申请实施例提供一种模型训练装置,包括:第二获取模块,用于获取标注数据;其中,所述标注数据为解码后的测试视频中标记好目标区域的每一帧图像;第三获取模块,用于获取未解码的所述测试视频中的图像组中的当前帧图像;训练模块,用于将所述当前帧图像以及所述当前帧图像对应的状态矩阵输入至初始的目标检测模型中,得到所述当前帧图像的目标检测结果以及表征所述当前帧图像的图像信息的状态矩阵;其中,所述当前帧图像对应的状态矩阵表征前一帧图像的图像信息;以及基于所述目标检测结果以及与所述当前帧图像对应的标注数据计算损失值,并基于所述损失值对所述初始的目标检测模型的网络参数进行更新,得到预先训练好的目标检测模型。
第五方面,本申请实施例提供一种电子设备,包括:处理器和存储器,所述处理器和所述存储器连接;所述存储器用于存储程序;所述处理器用于调用存储在所述存储器中的程序,执行如上述第一方面实施例和/或结合上述第一方面实施例的一些可能的实现方式提供的方法,和/或执行执行如上述第二方面实施例和/或结合上述第二方面实施例的一些可能的实现方式提供的方法。
第六方面,本申请实施例提供一种存储介质,其上存储有计算机程序,所述计算机程序在被处理器运行时执行如上述第一方面实施例和/或结合上述第一方面实施例的一些可能的实现方式提供的方法,和/或执行执行如上述第二方面实施例和/或结合上述第二方面实施例的一些可能的实现方式提供的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种模型训练方法的步骤流程图。
图2为本申请实施例提供的标注数据的流程框图。
图3为本申请实施例提供的一种训练过程的流程框图。
图4为本申请实施例提供的另一种训练过程的流程框图。
图5为本申请实施例提供的一种目标检测方法的步骤流程图。
图6为本申请实施例提供的一种电子设备的结构示意图。
图标:100-电子设备;110-处理器;120-存储器。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
鉴于目前针对视频的目标检测方法,均需要将视频完全解码,进而存在耗费大量的计算资源的问题,本申请实施例提供一种基于目标检测模型来实现的目标检测方法。该方法首先获取待检测的未解码的视频中的图像组中的当前帧图像,然后将当前帧图像以及当前帧图像对应的状态矩阵输入至预先训练好的目标检测模型中,得到当前帧图像的目标检测结果以及表征当前帧图像的图像信息的状态矩阵。通过该方式,使得每一帧图像可以基于前一帧图像的图像信息来获取图像中的目标,进而使得一段未解码的视频无需对所有的图像帧进行解码即可,如此提高了对视频中目标的检测效率。
以上为基于目标检测模型实现对未解码的视频中的目标的检测过程,也即目标检测模型的应用过程。而为了便于理解本方案,下面先对上述目标检测模型的训练过程进行说明,请参阅图1,本申请实施例提供一种模型训练方法,该方法包括:步骤S101-步骤S104。需要说明的是,本申请实施例提供的模型训练方法不以图1及以下所示的顺序为限制。
步骤S101:获取标注数据;其中,所述标注数据为解码后的测试视频中标记好目标区域的每一帧图像。
首先,需要制作标注数据。如图2所示,在获取到一个视频文件后,先将视频文件进行解码。需要解释的是,视频文件在压缩时包括I帧、P帧和B帧。I帧是关键帧,可以理解为这帧画面被完整保留,解码时,仅需根据本帧数据即可完成解码。而P帧和B帧均为差别帧,P帧表示的是这一帧跟之前的一个关键帧(或P帧)的差别,解码时需要用之前缓存的画面叠加上本帧定义的差别,生成最终画面。而B帧是双向差别帧,B帧记录的是本帧与前后帧的差别,通过前后画面的与本帧数据的叠加取得最终的画面。上述的对视频文件解码,也即对视频文件中的I帧、P帧和B帧进行解码,得到各自对应的画面的图像帧。
然后,对解码后的每帧图像(图像帧)进行标注,也即对I帧、P帧和B帧进行解码后的每帧图像进行标注。标注方法可以采用矩形的目标框(bounding box,bbox)在图像上进行框选。其中,一个目标框可以由四个值组成,分别为目标框在图像中的左上角位置的坐标(x,y)以及目标框的宽度w和目标框的高度h。也即,于本申请实施例中,以目标框在图像中的左上角位置的坐标作为目标点确定目标框在图像上的位置。当然,在其他实施例中,还可以是以目标框在图像中的中心位置的坐标作为目标点确定目标框在图像上的位置获取以目标框在图像中的右下角位置的坐标作为目标点确定目标框在图像上的位置,对此,本申请不作限定。标注时,仅需对图像中所需要进行检测的目标区域进行标注即可,其余内容不需要进行处理。比如,目标检测的目的是要检测视频中的行人,则只需要对图像中的行人进行标注即可。又比如,目标检测的目的是要检测视频中的车辆,则只需要对图像中的车辆进行标注即可。通过上述方式,即可获取到视频文件中的标注数据。
可选地,上述的目标框还可以是圆形或者五边形、六边形的目标框。比如以圆形目标框为例,当目标框为圆形时,则该目标框可以由三个值组成,分别为目标框的圆心的坐标(a,b)和目标框的半径r。具体选择何种形状的目标框,技术人员可以根据实际需求而定,本申请不作限定。
步骤S102:获取未解码的所述测试视频中的图像组中的当前帧图像。
在获取到标注数据后,即可开始进行模型的训练。模型训练时,以与获取标注数据的视频文件作为模型训练的样本。也即,若是标注数据为解码后的测试视频A进行标注的,则训练时以未解码的测试视频A作为训练视频。
需要说明的是,训练时是以图像组(group)作为一个单元进行的训练。一个视频文件可以分为若干个图像组。每个图像组中包括一个I帧图像和至少一个P帧图像以及至少一个B帧图像。且每个图像组的第一帧图像为I帧图像。例如一个图像组的组成形式为:IBBPPB。例如一个视频文件的组成形式为:IBBPPBIBPBPBIPPPBBB。
步骤S103:将所述当前帧图像以及所述当前帧图像对应的状态矩阵输入至初始的目标检测模型中,得到所述当前帧图像的目标检测结果以及表征所述当前帧图像的图像信息的状态矩阵;其中,所述当前帧图像对应的状态矩阵表征前一帧图像的图像信息。
在获取到未解码的测试视频中的图像组中的当前帧图像后,将该图像与对应的状态矩阵一起输入至初始的目标检测模型中进行训练。
上述的目标检测模型,可以是神经网络模型,比如卷积神经网络模型、循环神经网络模型,也可以是采用卷积神经网络模型与循环神经网络模型的组合模型,对此,本申请不作限定。
下面结合图3,对训练过程进行说明。首先在获取到未解码的测试视频中的图像组中的当前帧图像后,判断当前帧图像的类别,由于视频文件中的每个视频帧有对应的属于I帧、P帧或B帧的标识,因此,可以根据标识来识别当前帧图像的类别。
若当前帧图像为I帧图像,则解码图像。一般图像组的第一帧图像即为I帧图像。在将I帧图像解码后,初始化一个全为0的初始状态矩阵,然后将解码后的I帧图像与初始状态矩阵共同输入至初始的目标检测模型中。初始的目标检测模型会输出一个中间状态矩阵以及I帧图像的目标测试结果。其中,输出的中间状态矩阵为表征I帧图像的图像信息的状态矩阵。该中间状态矩阵用于与下一帧图像一起作为初始的目标检测模型的输入。而目标检测结果用于后续计算损失值,并基于损失值对初始的目标检测模型的网络参数的更新。
若当前帧图像为P帧图像,则可以不对P帧图像进行解码,而是获取P帧图像的宏块矢量场的矢量场幅值图。然后与P帧图像对应的状态矩阵输入(P帧图像对应的状态矩阵输入即为前一帧图像经初始的目标检测模型输出的中间状态矩阵,P帧图像对应的状态矩阵表征前一帧图像的图像信息)至初始的目标检测模型中,得到P帧图像的目标检测结果以及中间状态矩阵。其中,输出的中间状态矩阵为表征P帧图像的图像信息的状态矩阵。该中间状态矩阵用于与下一帧图像一起作为初始的目标检测模型的输入。而目标检测结果用于后续计算损失值对初始的目标检测模型的网络参数的更新。
若当前帧图像为B帧图像,则可以不对B帧图像进行解码,而是获取B帧图像的宏块矢量场的矢量场幅值图。然后与B帧图像对应的状态矩阵输入(B帧图像对应的状态矩阵输入即为前一帧图像经初始的目标检测模型输出的中间状态矩阵,B帧图像对应的状态矩阵表征前一帧图像的图像信息)至初始的目标检测模型中,得到B帧图像的目标检测结果以及中间状态矩阵。其中,输出的中间状态矩阵为表征B帧图像的图像信息的状态矩阵。该中间状态矩阵用于与下一帧图像一起作为初始的目标检测模型的输入。而目标检测结果用于后续计算损失值对初始的目标检测模型的网络参数的更新。
需要说明的是,本申请实施例所提供的模型训练方法的原理是结合状态矩阵,从图像组中解码的I帧图像来获取P帧、B帧图像对应的图像信息,进而得到I帧图像、P帧图像和B帧图像的目标检测结果,而无需把P帧图像和B帧图像解码出来后再得到对应的目标检测结果。
可以理解的是,由于上述P帧图像和B帧图像的训练过程基本一致,因此,可以进一步的优化上述步骤,比如,请参考图4,在判断当前帧图像的类别时,可以仅判断当前帧图像是否为I帧图像即可,若当前帧图像为I帧图像,则采用上述I帧图像的训练过程,若当前帧图像不是I帧图像,则获取当前帧图像的宏块矢量场的矢量场幅值图进行训练。
步骤S104:基于所述目标检测结果以及与所述当前帧图像对应的标注数据计算损失值,并基于所述损失值对所述初始的目标检测模型的网络参数进行更新,得到预先训练好的目标检测模型。
在步骤S103中已揭示了不同类别的图像如何输入至初始的目标检测模型中,本步骤即利用初始的目标检测模型的目标检测结果对初始的目标检测模型的网络参数进行更新。
比如,当前帧图像为I帧,输出的是I帧图像的目标测试结果,然后结合在步骤S101中对I帧图像的标注数据来计算损失值,并基于损失值,计算梯度反向传播来更新网络参数。
具体的损失值L(x,c,l,g)的计算公式为:
L(x,c,l,g)=Lconf(x,c)+aLloc(x,l,g) (1)
公式(1)中Lconf(x,c)为分类损失,其计算公式为:
Figure BDA0002651527010000101
公式(2)中,i表示目标检测结果的目标框;j表示当前帧图像对应的标注数据;p表示是类别(如0表示背景,1表示目标);Pos表示正样本(指的是目标框预测有目标);Neg表示负样本(指的目标框预测为背景,不包含目标);
Figure BDA0002651527010000102
表示目标框被预测为各类别的概率;
Figure BDA0002651527010000103
表示目标框所对应的目标类别的标识;
Figure BDA0002651527010000104
表示目标框被预测为背景的概率。
Figure BDA0002651527010000105
公式(3)中,where表示条件。
Figure BDA0002651527010000111
表示目标检测模型的网络在对应类别的节点处输出的值。
公式(1)中Lloc(x,l,g)为回归损失,a表示权重参数,其计算公式为:
Figure BDA0002651527010000112
公式(4)中
Figure BDA0002651527010000113
为目标检测结果的目标框的数值,
Figure BDA0002651527010000114
为目标检测结果的目标框的数值。
通过上述两部分的损失相加,即可得到训练网络所需要的损失值,并计算梯度进行反向传播更新网络参数。
可选地,由于标准的数据中的目标区域包括目标点的坐标、目标区域的宽度以及目标区域的高度,因此,可以基于目标检测结果中的目标检测区域的目标点的坐标、目标检测区域的宽度、目标检测区域的高度与当前帧图像对应的标注数据中的目标区域中的目标点的坐标、当前帧图像对应的标注数据中的目标区域的宽度、当前帧图像对应的标注数据中的目标区域的高度计算损失值。也即,上述公式(4)中
Figure BDA0002651527010000115
对应的即为目标检测结果中的目标检测区域的目标点的坐标、目标检测区域的宽度、目标检测区域的高度;上述公式(4)中
Figure BDA0002651527010000116
即为当前帧图像对应的标注数据中的目标区域中的目标点的坐标、当前帧图像对应的标注数据中的目标区域的宽度、当前帧图像对应的标注数据中的目标区域的高度。
重复上述步骤S102-步骤S104直至未解码的测试视频中的所有图像组中的所有图像帧均输入至初始的目标检测模型。对初始的目标检测模型进行训练之后,即可得到训练好的目标检测模型,然后即可将预习训练好的目标检测模型用于对视频中的目标进行检测。
具体的,请参阅图5,图5为本申请实施例提供的目标检测方法的步骤流程图,该方法包括:步骤S201-步骤S202。
步骤S201:获取待检测的未解码的视频中的图像组中的当前帧图像;其中,所述图像组包括一个I帧图像,至少一个P帧图像以及至少一个B帧图像。
于本申请实施例中,视频可以是视频文件,也可以是实时的视频流。本申请不作限定。
需要说明的是,实际的检测时也是以图像组(group)作为一个单元进行的检测。一个视频文件可以分为若干个图像组。每个图像组中包括一个I帧图像和至少一个P帧图像以及至少一个B帧图像。且每个图像组的第一帧图像为I帧图像。例如一个图像组的组成形式为:IBBPPB。例如一个视频文件的组成形式为:IBBPPBIBPBPBIPPPBBB。
步骤S202:将所述当前帧图像以及所述当前帧图像对应的状态矩阵输入至预先训练好的目标检测模型中,得到所述当前帧图像的目标检测结果以及表征所述当前帧图像的图像信息的状态矩阵;其中,所述当前帧图像对应的状态矩阵表征在所述图像组中的前一帧图像的图像信息。
在实际的检测过程中,与上述训练过程的方式类似,也是先确定当前帧图像的类型,然后在基于当前帧图像的类型采用对应的检测方式,进行检查。
具体的,若当前帧图像为I帧图像,则对I帧图像进行解码;将解码后的I帧图像与I帧图像对应的状态矩阵输入至目标检测模型中,得到I帧图像的目标检测结果以及表征I帧图像的图像信息的状态矩阵,其中,I帧图像对应的状态矩阵为初始状态矩阵。
若当前帧图像为P帧图像,则获取P帧图像的矢量场幅值图;将矢量场幅值图与P帧图像对应的状态矩阵输入至目标检测模型中,得到P帧图像的目标检测结果以及表征P帧图像的图像信息的状态矩阵。
若当前帧图像为B帧图像,则获取B帧图像的矢量场幅值图;将矢量场幅值图与B帧图像对应的状态矩阵输入至目标检测模型中,得到B帧图像的目标检测结果以及表征P帧图像的图像信息的状态矩阵。
上述步骤S202具体的过程与步骤S103相似,为了避免累赘,此处不作重复阐述,但与步骤S103的区别在于通过步骤S202即可通过预先训练好的目标检测模型输出每一帧图像对应的准确的目标检测结果。
综上,在本申请实施例中,在检测视频中目标的时候,将每一帧图像结合状态矩阵作为目标检测模型的输入,通过该方式,使得每一帧图像可以基于前一帧图像的图像信息来获取图像中的目标,进而使得一段未解码的视频无需对所有的图像帧进行解码即可,如此提高了对视频中目标的检测效率。也即,在当前帧为I帧图像时,需要将I帧图像进行解码,并将解码后的I帧图像与初始状态矩阵输入至目标检测模型中进行检测。在当前帧为P帧时,将P帧图像所对应的矢量场幅值图与P帧图像对应的状态矩阵输入至目标检测模型进行的目标检测,以及在当前帧为B帧时,将B帧图像所对应的矢量场幅值图与B帧图像对应的状态矩阵输入至目标检测模型进行的目标检测。通过该方式,可以使得后续的P帧、B帧图像无需进行解码,仅需基于I帧图像的图像信息即可得到对应的目标检测结果,提高对视频中目标的检测效率。
请参阅图6,图6为本申请实施例提供的一种应用目标检测方法和/或模型训练方法的电子设备100的示意性结构框图。本申请实施例中,电子设备100可以是,但不限于个人计算机(Personal Computer,PC)、平板电脑、个人数字助理(Personal DigitalAssistant,PDA)、移动上网设备(Mobile Internet Device,MID)等。在结构上,电子设备100可以包括处理器110和存储器120。
处理器110与存储器120直接或间接地电性连接,以实现数据的传输或交互,例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。目标检测装置和/或模型训练装置包括至少一个可以软件或固件(Firmware)的形式存储在存储器120中或固化在电子设备100的操作系统(Operating System,OS)中的软件模块。处理器110用于执行存储器120中存储的可执行模块,例如,目标检测装置和/或模型训练装置所包括的软件功能模块及计算机程序等。处理器110可以在接收到执行指令后,执行计算机程序。
其中,处理器110可以是一种集成电路芯片,具有信号处理能力。处理器110也可以是通用处理器,例如,可以是中央处理器(Central Processing Unit,CPU)、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、分立门或晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。此外,通用处理器可以是微处理器或者任何常规处理器等。
存储器120可以是,但不限于,随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-OnlyMemory,PROM)、可擦可编程序只读存储器(Erasable Programmable Read-Only Memory,EPROM),以及电可擦编程只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)。存储器120用于存储程序,处理器110在接收到执行指令后,执行该程序。
应当理解,图6所示的结构仅为示意,本申请实施例提供的电子设备100还可以具有比图6更少或更多的组件,或是具有与图6所示不同的配置。此外,图6所示的各组件可以通过软件、硬件或其组合实现。
基于同一发明构思,本申请实施例还提供一种目标检测装置,包括:第一获取模块以及目标检测模块。
第一获取模块,用于获取待检测的未解码的视频中的图像组中的当前帧图像;其中,所述图像组包括一个I帧图像,至少一个P帧图像以及至少一个B帧图像。
目标检测模块,将所述当前帧图像以及所述当前帧图像对应的状态矩阵输入至预先训练好的目标检测模型中,得到所述当前帧图像的目标检测结果以及表征所述当前帧图像的图像信息的状态矩阵;其中,所述当前帧图像对应的状态矩阵表征在所述图像组中的前一帧图像的图像信息。
可选地,若当前帧图像为I帧图像,则目标检测模块具体用于对所述I帧图像进行解码;将解码后的I帧图像与所述I帧图像对应的状态矩阵输入至所述目标检测模型中,得到所述I帧图像的目标检测结果以及表征所述I帧图像的图像信息的状态矩阵;其中,所述I帧图像对应的状态矩阵为初始状态矩阵。
可选地,若当前帧图像为P帧图像,则目标检测模块具体用于获取所述P帧图像的矢量场幅值图;将所述矢量场幅值图与所述P帧图像对应的状态矩阵输入至所述目标检测模型中,得到所述P帧图像的目标检测结果以及表征所述P帧图像的图像信息的状态矩阵。
可选地,若当前帧图像为B帧图像,则目标检测模块具体用于获取所述B帧图像的矢量场幅值图;将所述矢量场幅值图与所述B帧图像对应的状态矩阵输入至所述目标检测模型中,得到所述B帧图像的目标检测结果以及表征所述B帧图像的图像信息的状态矩阵。
基于同一发明构思,本申请实施例还提供一种模型训练装置,包括:第二获取模块、第三获取模块以及训练模块。
第二获取模块,用于获取标注数据;其中,所述标注数据为解码后的测试视频中标记好目标区域的每一帧图像。
第三获取模块,用于获取未解码的所述测试视频中的图像组中的当前帧图像。
训练模块,用于将所述当前帧图像以及所述当前帧图像对应的状态矩阵输入至初始的目标检测模型中,得到所述当前帧图像的目标检测结果以及表征所述当前帧图像的图像信息的状态矩阵;其中,所述当前帧图像对应的状态矩阵表征前一帧图像的图像信息;以及基于所述目标检测结果以及与所述当前帧图像对应的标注数据计算损失值,并基于所述损失值对所述初始的目标检测模型的网络参数进行更新,得到预先训练好的目标检测模型。
可选地,目标区域包括目标点的坐标、所述目标区域的宽度以及所述目标区域的高度。相应的,训练模块具体用于基于所述目标检测结果中的目标检测区域的目标点的坐标、所述目标检测区域的宽度、所述目标检测区域的高度与所述当前帧图像对应的标注数据中的目标区域中的目标点的坐标、所述当前帧图像对应的标注数据中的目标区域的宽度、所述当前帧图像对应的标注数据中的目标区域的高度计算损失值。
需要说明的是,由于所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
基于同一发明构思,本申请实施例还提供一种存储介质,其上存储有计算机程序,计算机程序在被运行时执行上述实施例中提供的方法。
该存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种目标检测方法,其特征在于,包括:
获取待检测的未解码的视频中的图像组中的当前帧图像;其中,所述图像组包括一个I帧图像,至少一个P帧图像以及至少一个B帧图像;
将所述当前帧图像以及所述当前帧图像对应的状态矩阵输入至预先训练好的目标检测模型中,得到所述当前帧图像的目标检测结果以及表征所述当前帧图像的图像信息的状态矩阵;其中,所述当前帧图像对应的状态矩阵表征在所述图像组中的前一帧图像的图像信息。
2.根据权利要求1所述的目标检测方法,其特征在于,所述当前帧图像为I帧图像,所述将所述当前帧图像以及所述当前帧图像对应的状态矩阵输入至预先训练好的目标检测模型中,得到所述当前帧图像的目标检测结果以及表征所述当前帧图像的图像信息的状态矩阵,包括:
对所述I帧图像进行解码;
将解码后的I帧图像与所述I帧图像对应的状态矩阵输入至所述目标检测模型中,得到所述I帧图像的目标检测结果以及表征所述I帧图像的图像信息的状态矩阵;其中,所述I帧图像对应的状态矩阵为初始状态矩阵。
3.根据权利要求1所述的目标检测方法,其特征在于,所述当前帧图像为P帧图像,所述将所述当前帧图像以及所述当前帧图像对应的状态矩阵输入至预先训练好的目标检测模型中,得到所述当前帧图像的目标检测结果以及表征所述当前帧图像的图像信息的状态矩阵,包括:
获取所述P帧图像的矢量场幅值图;
将所述矢量场幅值图与所述P帧图像对应的状态矩阵输入至所述目标检测模型中,得到所述P帧图像的目标检测结果以及表征所述P帧图像的图像信息的状态矩阵。
4.根据权利要求1所述的目标检测方法,其特征在于,所述当前帧图像为B帧图像,所述将所述当前帧图像以及所述当前帧图像对应的状态矩阵输入至预先训练好的目标检测模型中,得到所述当前帧图像的目标检测结果以及表征所述当前帧图像的图像信息的状态矩阵,包括:
获取所述B帧图像的矢量场幅值图;
将所述矢量场幅值图与所述B帧图像对应的状态矩阵输入至所述目标检测模型中,得到所述B帧图像的目标检测结果以及表征所述B帧图像的图像信息的状态矩阵。
5.一种模型训练方法,其特征在于,包括:
获取标注数据;其中,所述标注数据为解码后的测试视频中标记好目标区域的每一帧图像;
获取未解码的所述测试视频中的图像组中的当前帧图像;
将所述当前帧图像以及所述当前帧图像对应的状态矩阵输入至初始的目标检测模型中,得到所述当前帧图像的目标检测结果以及表征所述当前帧图像的图像信息的状态矩阵;其中,所述当前帧图像对应的状态矩阵表征前一帧图像的图像信息;
基于所述目标检测结果以及与所述当前帧图像对应的标注数据计算损失值,并基于所述损失值对所述初始的目标检测模型的网络参数进行更新,得到预先训练好的目标检测模型。
6.根据权利要求5所述的模型训练方法,其特征在于,所述目标区域包括目标点的坐标、所述目标区域的宽度以及所述目标区域的高度;
相应的,所述基于所述目标检测结果以及与所述当前帧图像对应的标注数据计算损失值,包括:
基于所述目标检测结果中的目标检测区域的目标点的坐标、所述目标检测区域的宽度、所述目标检测区域的高度与所述当前帧图像对应的标注数据中的目标区域中的目标点的坐标、所述当前帧图像对应的标注数据中的目标区域的宽度、所述当前帧图像对应的标注数据中的目标区域的高度计算损失值。
7.一种目标检测装置,其特征在于,包括:
第一获取模块,用于获取待检测的未解码的视频中的图像组中的当前帧图像;其中,所述图像组包括一个I帧图像,至少一个P帧图像以及至少一个B帧图像;
目标检测模块,将所述当前帧图像以及所述当前帧图像对应的状态矩阵输入至预先训练好的目标检测模型中,得到所述当前帧图像的目标检测结果以及表征所述当前帧图像的图像信息的状态矩阵;其中,所述当前帧图像对应的状态矩阵表征在所述图像组中的前一帧图像的图像信息。
8.一种模型训练装置,其特征在于,包括:
第二获取模块,用于获取标注数据;其中,所述标注数据为解码后的测试视频中标记好目标区域的每一帧图像;
第三获取模块,用于获取未解码的所述测试视频中的图像组中的当前帧图像;
训练模块,用于将所述当前帧图像以及所述当前帧图像对应的状态矩阵输入至初始的目标检测模型中,得到所述当前帧图像的目标检测结果以及表征所述当前帧图像的图像信息的状态矩阵;其中,所述当前帧图像对应的状态矩阵表征前一帧图像的图像信息;以及基于所述目标检测结果以及与所述当前帧图像对应的标注数据计算损失值,并基于所述损失值对所述初始的目标检测模型的网络参数进行更新,得到预先训练好的目标检测模型。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器和所述存储器连接;
所述存储器用于存储程序;
所述处理器用于运行存储在所述存储器中的程序,执行如权利要求1-4中任一项所述的方法和/或执行如权利要求5-6中任一项所述的方法。
10.一种存储介质,其特征在于,其上存储有计算机程序,所述计算机程序在被计算机运行时执行如权利要求1-4中任一项所述的方法和/或运行如权利要求5-6中任一项所述的方法。
CN202010874397.2A 2020-08-26 2020-08-26 一种目标检测方法、模型训练方法,电子设备及存储介质 Pending CN111950517A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010874397.2A CN111950517A (zh) 2020-08-26 2020-08-26 一种目标检测方法、模型训练方法,电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010874397.2A CN111950517A (zh) 2020-08-26 2020-08-26 一种目标检测方法、模型训练方法,电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN111950517A true CN111950517A (zh) 2020-11-17

Family

ID=73367803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010874397.2A Pending CN111950517A (zh) 2020-08-26 2020-08-26 一种目标检测方法、模型训练方法,电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111950517A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192057A (zh) * 2021-05-21 2021-07-30 上海西井信息科技有限公司 目标检测方法、系统、设备及存储介质
CN114119594A (zh) * 2021-12-06 2022-03-01 华能东莞燃机热电有限责任公司 一种基于深度学习的油液渗漏检测方法和检测装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869178A (zh) * 2016-04-26 2016-08-17 昆明理工大学 一种基于多尺度组合特征凸优化的复杂目标动态场景无监督分割方法
CN108596109A (zh) * 2018-04-26 2018-09-28 济南浪潮高新科技投资发展有限公司 一种基于神经网络和运动矢量的目标检测方法及装置
CN109544598A (zh) * 2018-11-21 2019-03-29 电子科技大学 目标跟踪方法、装置及可读存储介质
CN109711322A (zh) * 2018-12-24 2019-05-03 天津天地伟业信息系统集成有限公司 一种基于rfcn的人车分离方法
CN109886243A (zh) * 2019-03-01 2019-06-14 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质、设备以及系统
CN110008789A (zh) * 2018-01-05 2019-07-12 中国移动通信有限公司研究院 多类物体检测与识别的方法、设备及计算机可读存储介质
CN110225348A (zh) * 2019-06-24 2019-09-10 北京大米科技有限公司 视频数据的修复方法、装置、电子设备和存储介质
CN110378259A (zh) * 2019-07-05 2019-10-25 桂林电子科技大学 一种面向监控视频的多目标行为识别方法及系统
CN110414544A (zh) * 2018-04-28 2019-11-05 杭州海康威视数字技术股份有限公司 一种目标状态分类方法、装置及系统
CN111161316A (zh) * 2019-12-18 2020-05-15 深圳云天励飞技术有限公司 目标物体跟踪方法、装置及终端设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869178A (zh) * 2016-04-26 2016-08-17 昆明理工大学 一种基于多尺度组合特征凸优化的复杂目标动态场景无监督分割方法
CN110008789A (zh) * 2018-01-05 2019-07-12 中国移动通信有限公司研究院 多类物体检测与识别的方法、设备及计算机可读存储介质
CN108596109A (zh) * 2018-04-26 2018-09-28 济南浪潮高新科技投资发展有限公司 一种基于神经网络和运动矢量的目标检测方法及装置
CN110414544A (zh) * 2018-04-28 2019-11-05 杭州海康威视数字技术股份有限公司 一种目标状态分类方法、装置及系统
CN109544598A (zh) * 2018-11-21 2019-03-29 电子科技大学 目标跟踪方法、装置及可读存储介质
CN109711322A (zh) * 2018-12-24 2019-05-03 天津天地伟业信息系统集成有限公司 一种基于rfcn的人车分离方法
CN109886243A (zh) * 2019-03-01 2019-06-14 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质、设备以及系统
CN110225348A (zh) * 2019-06-24 2019-09-10 北京大米科技有限公司 视频数据的修复方法、装置、电子设备和存储介质
CN110378259A (zh) * 2019-07-05 2019-10-25 桂林电子科技大学 一种面向监控视频的多目标行为识别方法及系统
CN111161316A (zh) * 2019-12-18 2020-05-15 深圳云天励飞技术有限公司 目标物体跟踪方法、装置及终端设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192057A (zh) * 2021-05-21 2021-07-30 上海西井信息科技有限公司 目标检测方法、系统、设备及存储介质
CN114119594A (zh) * 2021-12-06 2022-03-01 华能东莞燃机热电有限责任公司 一种基于深度学习的油液渗漏检测方法和检测装置

Similar Documents

Publication Publication Date Title
CN112137591B (zh) 基于视频流的目标物位置检测方法、装置、设备及介质
CN109086811A (zh) 多标签图像分类方法、装置及电子设备
WO2022141858A1 (zh) 行人检测方法、装置、电子设备及存储介质
CN112801047B (zh) 缺陷检测方法、装置、电子设备及可读存储介质
CN113420757B (zh) 文本审核方法、装置、电子设备和计算机可读介质
CN111950517A (zh) 一种目标检测方法、模型训练方法,电子设备及存储介质
CN110781823A (zh) 录屏检测方法、装置、可读介质及电子设备
CN110910375A (zh) 基于半监督学习的检测模型训练方法、装置、设备及介质
CN116596935B (zh) 形变检测方法、装置、计算机设备及计算机可读存储介质
CN111369524B (zh) 结节识别模型训练方法、结节识别方法及装置
CN114419070A (zh) 一种图像场景分割方法、装置、设备及存储介质
CN116958267B (zh) 位姿处理方法、装置、电子设备及存储介质
CN112258647A (zh) 地图重建方法及装置、计算机可读介质和电子设备
CN114708230B (zh) 基于图像分析的车架质量检测方法、装置、设备及介质
CN114821513B (zh) 一种基于多层网络的图像处理方法及装置、电子设备
CN115578386A (zh) 泊车图像生成方法、装置、电子设备及存储介质
Suk et al. Fixed homography–based real‐time sw/hw image stitching engine for motor vehicles
CN111124862A (zh) 智能设备性能测试方法、装置及智能设备
CN110991543B (zh) 图像感兴趣区聚类方法和装置、计算设备、和存储介质
CN117437288B (zh) 摄影测量方法、装置、设备及存储介质
CN111353464B (zh) 一种物体检测模型训练、物体检测方法及装置
CN112749765A (zh) 图片场景分类方法、系统、设备及计算机可读介质
CN118570255A (zh) 运动目标的检测跟踪方法、装置、计算机设备及存储介质
CN117876432A (zh) 目标跟踪方法、终端设备及计算机可读存储介质
CN110958489A (zh) 视频处理方法、装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination