CN111626263A - 一种视频感兴趣区域检测方法、装置、设备及介质 - Google Patents

一种视频感兴趣区域检测方法、装置、设备及介质 Download PDF

Info

Publication number
CN111626263A
CN111626263A CN202010507871.8A CN202010507871A CN111626263A CN 111626263 A CN111626263 A CN 111626263A CN 202010507871 A CN202010507871 A CN 202010507871A CN 111626263 A CN111626263 A CN 111626263A
Authority
CN
China
Prior art keywords
roi
processed
tracking
frame
current frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010507871.8A
Other languages
English (en)
Other versions
CN111626263B (zh
Inventor
周志超
何栋梁
李甫
孙昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010507871.8A priority Critical patent/CN111626263B/zh
Publication of CN111626263A publication Critical patent/CN111626263A/zh
Priority to US17/116,578 priority patent/US11514676B2/en
Application granted granted Critical
Publication of CN111626263B publication Critical patent/CN111626263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请公开了一种视频感兴趣区域检测方法、装置、设备及介质,涉及人工智能计算机视觉技术领域。具体实现方式为:从视频的图片帧序列中获取当前待处理帧;如果确定所述当前待处理帧为检测图片帧,则对所述当前待处理帧中的ROI进行检测,以确定所述当前待处理帧中的至少一个ROI;并根据所述当前待处理帧中的ROI和前序跟踪图片帧确定的跟踪结果,更新待跟踪ROI;如果确定所述当前待处理帧为跟踪图片帧,则对所述当前待处理帧基于已有的待跟踪ROI进行跟踪,以确定至少一个跟踪结果作为所述当前待处理帧的ROI。本申请实施例提高了视频中ROI检测结果的准确度,同时减少了ROI检测过程的计算量。

Description

一种视频感兴趣区域检测方法、装置、设备及介质
技术领域
本申请涉及图像处理技术,尤其涉及人工智能计算机视觉技术,特别涉及一种视频感兴趣区域检测方法、装置、设备及介质。
背景技术
在图像处理领域,ROI(Region of Interest,感兴趣区域)是从图像中选择的一个图像区域,这个区域是你的图像分析所关注的重点。圈定该区域以便进行进一步处理。
而现有技术在检测图像中的ROI时,存在检测结果不准确的问题。
发明内容
本申请实施例提供了一种视频感兴趣区域检测方法、装置、设备及介质,以提高视频中ROI检测结果的准确度。
根据第一方面,提供了一种视频感兴趣区域检测方法,包括:
从视频的图片帧序列中获取当前待处理帧;
如果确定所述当前待处理帧为检测图片帧,则对所述当前待处理帧中的感兴趣区域ROI进行检测,以确定所述当前待处理帧中的至少一个ROI;并根据所述当前待处理帧中的ROI和前序跟踪图片帧确定的跟踪结果,更新待跟踪ROI;
如果确定所述当前待处理帧为跟踪图片帧,则对所述当前待处理帧基于已有的待跟踪ROI进行跟踪,以确定至少一个跟踪结果作为所述当前待处理帧的ROI。
根据第二方面,提供了一种视频感兴趣区域检测装置,包括:
获取模块,用于从视频的图片帧序列中获取当前待处理帧;
检测模块,用于如果确定所述当前待处理帧为检测图片帧,则对所述当前待处理帧中的感兴趣区域ROI进行检测,以确定所述当前待处理帧中的至少一个ROI;
更新模块,用于如果确定所述当前待处理帧为检测图片帧,则根据所述当前待处理帧中的ROI和前序跟踪图片帧确定的跟踪结果,更新待跟踪ROI;
跟踪模块,用于如果确定所述当前待处理帧为跟踪图片帧,则对所述当前待处理帧基于已有的待跟踪ROI进行跟踪,以确定至少一个跟踪结果作为所述当前待处理帧的ROI。
根据第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面提供的一种视频感兴趣区域检测方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面提供的一种视频感兴趣区域检测方法。
本申请实施例从视频的图片帧序列中获取当前待处理帧;如果确定待处理帧为检测图片帧,则对当前待处理帧中的ROI进行检测,以确定当前待处理帧中的至少一个ROI,并根据当前待处理帧中的ROI和前序跟踪图片帧确定的跟踪结果,更新待跟踪ROI;如果确定当前待处理帧为跟踪图片帧,则对当前待处理帧基于已有的待跟踪ROI进行跟踪,以确定至少一个跟踪结果作为当前待处理帧的ROI。本申请实施例采用上述技术方案,提高了视频中ROI检测结果的准确度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请实施例提供的一种视频感兴趣区域检测方法的流程图;
图2是本申请实施例提供的另一种视频感兴趣区域检测方法的流程图;
图3是本申请实施例提供的另一种视频感兴趣区域检测方法的流程图;
图4是本申请实施例提供的一种视频感兴趣区域检测过程框图;
图5是本申请实施例提供的一种视频感兴趣区域检测装置的结构图;
图6是用来实现本申请实施例的视频感兴趣区域检测方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是本申请实施例提供的一种视频感兴趣区域检测方法的流程图,本申请实施例适用于对视频中的图片帧的ROI进行检测的情况,该方法由视频感兴趣区域检测装置执行,该装置采用软件和/或硬件实现,并具体配置于电子设备中。
如图1所示的一种视频感兴趣区域检测方法,包括:
S101、从视频的图片帧序列中获取当前待处理帧。
视频是由一系列单幅静态画面,组合得到的平滑连续的图片帧序列。感兴趣区域,即ROI,是指从图片帧序列的各个图片帧中,以方框、圆、椭圆、或不规则多边形等方式勾勒出的需要处理或比较关注的区域。
为了便于对视频中的ROI检测,可以从视频的图片帧序列中进行当前待处理帧的获取,后续通过分别对各个当前待处理帧中的ROI进行检测,最终得到视频中各图片帧的ROI的信息。
在本申请实施例的一种可选实施方式中,可以预先将视频存储在电子设备本地、与电子设备关联的其他存储设备或云端中,并在需要时,从电子设备本地、与电子设备关联的其他存储设备或云端中,获取视频的图片帧序列,从而对图片帧序列中注意提取的各个待处理帧中的ROI进行检测。
为了实现ROI的实时处理,还可以在视频采集装置采集视频的过程中,从视频采集装置中实时获取所采集的图片帧,并将所获取的图片帧作为当前待处理帧进行后续处理。
S102A、如果确定所述当前待处理帧为检测图片帧,则对所述当前待处理帧中的ROI进行检测,以确定所述当前待处理帧中的至少一个ROI。
S103A、根据所述当前待处理帧中的ROI和前序跟踪图片帧确定的跟踪结果,更新待跟踪ROI。
S102B、如果确定所述当前待处理帧为跟踪图片帧,则对所述当前待处理帧基于已有的待跟踪ROI进行跟踪,以确定至少一个跟踪结果作为所述当前待处理帧的ROI。
本申请实施例将视频中的待处理帧划分为至少两类,其中包括检测图片帧,表征后续对该类图片帧进行ROI检测来获取ROI检测结果;还包括跟踪图片帧,表征后续对该类图片帧进行对象跟踪来获取ROI检测结果。
可以理解的是,通过对检测图片帧进行ROI检测,能够得到较为精确的ROI检测结果。然而,由于检测过程耗时较长,因此可以在对检测图片帧进行检测,得到ROI检测结果之后,针对ROI检测结果中的各ROI创建跟踪器(tracker),从而对ROI进行跟踪,得到ROI跟踪结果作为ROI检测结果。由于跟踪算法计算速度较快,因此能够大幅度减少ROI检测结果的数据运算量,提高检测效率。
然而,在对ROI跟踪过程中,可能存在检测结果中出现了新的目标或者ROI跟踪过程中出现目标跟丢的情况,使得跟踪结果与检测结果两者之间无法很好的匹配,导致出现最终确定的视频中的ROI出现误检和漏检情况,进而影响了视频中ROI检测结果的准确度。
为了避免上述情况的发生,在确定当前待处理帧为检测图片帧时,对当前待处理帧中的ROI进行检测,从而确定当前待处理帧中的至少一个ROI。并且,根据当前待处理帧中的ROI和前序跟踪图片帧的跟踪结果,更新待跟踪ROI,从而使得待跟踪ROI与当前待处理帧的检测结果相匹配。示例性地,可以采用SSD(Single Shot MultiBox Detector)、Yolo(YouOnly Look Once)、faster-rcnn(Faster Region Convolutional Neural Networks,更快的区域卷积神经网络)等检测算法中的至少一个,对检测图片帧中的ROI进行检测。
可以理解的是,通过检测图片帧的ROI检测结果和前序跟踪图片帧的ROI跟踪结果,对待跟踪ROI进行更新,从而避免了视频中新增目标而未启动追踪导致的目标漏检的情况,同时还可以避免在视频中已跟踪目标消失时仍然跟踪导致的目标误检的情况。
如果确定当前待处理帧为跟踪图片帧,则对当前待处理帧基于已有的待跟踪ROI进行跟踪,以确定至少一个跟踪结果作为当前待处理帧的ROI,从而实现对已有目标的跟踪。示例性地,可以采用卡尔曼滤波或相关滤波算法等,对跟踪图片帧中的已有待跟踪ROI进行跟踪。
需要说明的是,检测图片帧中的ROI检测结果中,包括检测框的大小信息和位置信息;跟踪图片帧中的ROI跟踪结果中,包括跟踪框的大小信息和位置信息。最终,可以将ROI检测结果和ROI跟踪结果,作为视频中各个图片帧的ROI检测结果。
本申请实施例从视频的图片帧序列中获取当前待处理帧;如果确定待处理帧为检测图片帧,则对当前待处理帧中的ROI进行检测,以确定当前待处理帧中的至少一个ROI,并根据当前待处理帧中的ROI和前序跟踪图片帧确定的跟踪结果,更新待跟踪ROI;如果确定当前待处理帧为跟踪图片帧,则对当前待处理帧基于已有的待跟踪ROI进行跟踪,以确定至少一个跟踪结果作为当前待处理帧的ROI。上述技术方案通过采用对视频中的检测图片帧的ROI检测结果和检测图片帧的前序跟踪图片帧的ROI跟踪结果,对待跟踪ROI进行修正,从而避免了ROI跟踪结果与ROI检测结果两者不匹配,导致的新增ROI漏跟踪或消失ROI误跟踪的情况的发生,从而提高了ROI检测结果的准确度。由于部分图片帧采用了ROI检测方式来确定ROI,其他部分图片帧采用了对象跟踪的方式来确定ROI,因此可减少检测算法对图像处理计算资源的占用,且能够提高ROI检测速度。
在本申请实施例的一种可选实施方式中,可以直接将当前待处理帧的ROI检测结果作为ROI检测结果,以及将当前待处理帧的跟踪结果作为ROI跟踪结果。
由于受跟踪模型或检测模型鲁棒性的影响,连续图片帧的ROI检测结果可能存在不连续或抖动的情况,致使最终确定的ROI检测结果可用性较差。为了减少上述情况的影响,在本申请实施例的另一种可选实施方式中,在对当前待处理帧进行检测或跟踪之后,还可以根据当前待处理帧的相邻图片帧的ROI的检测结果或跟踪结果,对所述当前待处理帧的ROI的检测结果或跟踪结果进行平滑处理。
为了提高最终确定的ROI检测结果的准确度,可以采用如下方式,对ROI检测结果或ROI跟踪结果进行平滑处理:根据所述当前待处理帧的相邻图片帧与所述当前待处理帧的帧间距,确定各相邻图片帧的权重;根据各相邻图片帧的权重,以及各相邻图片帧的ROI的检测结果或跟踪结果,对所述当前待处理帧的ROI的检测结果或跟踪结果进行平滑处理。
其中,相邻图片帧距离当前待处理帧的帧间距越小,权重越大;相邻图片帧距离当前待处理帧的帧间距越大,权重越小。其中,相邻图片帧的数量由技术人员根据需要或经验值进行确定。其中,相邻图片帧可以包括相邻历史图片帧,还可以包括相邻未来图片帧。
举例说明,在确定第i帧的第j个框(对应ROI目标)的位置时,可以由前(i-N)帧、当前帧和后(i+N)帧图片中该目标的位置加权求和取平均得到。
需要说明的是,在跟踪ROI过程中,当视频中的待跟踪ROI对应目标消失时,针对该目标所创建的跟踪器仍然在使用,因此会出现误跟踪的情况,影响ROI跟踪结果的精度。为了避免误跟踪情况对ROI检测结果的准确度的影响,还可以在确定当前待处理帧为检测图片帧之后,根据当前待处理帧中的ROI对前序跟踪图片帧的跟踪结果进行有效性验证,从而确定前序跟踪图片帧的ROI跟踪结果中的无效跟踪结果,并进行剔除。
相应的,为了提高ROI检测结果的准确度,在根据所述当前待处理帧的相邻图片帧的ROI的检测结果或跟踪结果,对所述当前待处理帧的ROI的检测结果或跟踪结果进行平滑处理时,还可以根据所述当前待处理帧的相邻图片帧的ROI的检测结果或有效跟踪结果的位置,对所述当前待处理帧的ROI的检测结果或跟踪结果的位置进行平滑处理。
在本申请实施例的一种可选实施方式中,根据所述当前待处理帧中的ROI对前序跟踪图片帧确定的跟踪结果进行有效性验证,可以是:将所述当前待处理帧中的ROI和相邻历史跟踪图片帧的跟踪结果中的ROI进行匹配;若匹配失败,则获取各所述前序跟踪图片帧的跟踪结果的置信度;根据所述置信度,对各所述前序跟踪图片帧的跟踪结果进行验证。示例性地,可以采用匈牙利匹配算法,将当前待处理帧中的ROI和相邻历史跟踪图片帧的跟踪结果中的ROI进行匹配。
具体的,若检测图片帧中的ROI和相邻历史跟踪图片帧的跟踪结果中的ROI匹配失败,则表明相邻历史跟踪图片帧中出现了目标消失,但仍然持续跟踪而产生的误跟踪的情况,此时的跟踪结果明显有误。此时,可以通过跟踪结果中各跟踪框的置信度,对ROI跟踪结果的有效性进行验证。例如,当置信度大于设定置信度阈值,则确定该ROI跟踪结果无效;否则,确定该ROI跟踪结果有效。其中,设定置信度阈值由技术人员根据需要或经验值进行设定,或通过大量试验加以确定。
为了便于视频的存储传输,通常会对视频进行编码压缩,以去除空间维度和时间维度的冗余。
在本申请实施例的一种可选实施方式中,当确定视频中的ROI检测结果之后,还可以根据ROI检测结果对视频进行编码处理,以提高视频编码质量。示例性地,为当前待处理帧中的ROI和非ROI分配不同码率;其中,ROI的码率大于非ROI码率;根据所分配码率对当前待处理帧进行编码。
可以理解的是,传统视频编码过程中,对图片帧中所有区域同等对待,拥有相同的码率分配比例,因此ROI对应视频画质相对较差。而通过将ROI和非ROI的码率区别对待,通过将ROI分配更多的码率,使得编码后的视频相比传统编码的视频具有相同码率情况下的更高画质,提高了视频质量。
图2是本申请实施例提供的另一种视频感兴趣区域检测方法的流程图,该方法在上述各技术方案的基础上,进行了优化改进。
进一步地,将操作“根据所述当前待处理帧中的ROI和前序跟踪图片帧确定的跟踪结果,更新待跟踪ROI”,细化为“将所述当前待处理帧中的ROI和前序跟踪图片帧的跟踪结果中的ROI进行匹配;根据匹配结果,更新待跟踪ROI”,以完善待跟踪ROI的更新机制。
如图2所示的一种视频感兴趣区域检测方法,包括:
S201、从视频的图片帧序列中获取当前待处理帧。
S202A、如果确定所述当前待处理帧为检测图片帧,则对所述当前待处理帧中的感兴趣区域ROI进行检测,以确定所述当前待处理帧中的至少一个ROI。
S203A、将所述当前待处理帧中的ROI和前序跟踪图片帧的跟踪结果中的ROI进行匹配。
示例性地,可以采用匈牙利匹配算法,将当前待处理帧中的ROI和前序跟踪图片帧的跟踪结果中的ROI进行匹配。
在本申请实施例的一种可选实施方式中,确定所述当前待处理帧中的ROI和前序跟踪图片帧的跟踪结果中的ROI的交并比;根据各所述交并比,确定所述当前待处理帧中的各ROI和前序跟踪图片帧的跟踪结果中的各ROI的匹配情况。
示例性地,确定检测图片帧的ROI检测结果中的检测框和前序跟踪图片帧的ROI跟踪结果中的跟踪框的交并比;根据各检测框与各跟踪框的交并比,确定检测图片帧的ROI检测结果与前序跟踪图片帧的跟踪结果的匹配情况。其中,匹配情况包括:检测框与其中一个跟踪框相匹配;检测框与各跟踪框均不匹配;以及,跟踪框与各检测框均不匹配。
S204A、根据匹配结果,更新待跟踪ROI。
可选的,若当前待处理帧中的当前ROI与前序跟踪图片帧的跟踪结果中的各ROI匹配失败,则表明在跟踪过程中,视频中出现了新的目标,因此需要将该当前ROI添加至待跟踪ROI,以便针对该新的目标创建跟踪器,进行跟踪,从而减少视频中ROI漏检情况的发生,进而提高ROI检测结果准确度。
可选的,若当前待处理帧中的当前ROI与前序跟踪图片帧的跟踪结果中的任一ROI匹配成功,则表明所跟踪目标不存在误跟踪或漏跟踪的情况,因此保持待跟踪ROI不变,以便持续对待跟踪ROI进行跟踪处理。
可选的,若前序跟踪图片帧的跟踪结果中的当前ROI与当前待处理帧中的各ROI匹配失败,则表明视频中该跟踪目标已消失,但仍然在采用该目标的跟踪器进行跟踪处理,从而出现了误跟踪的情况,因此需要从待跟踪ROI中删除该当前ROI,以便及时终止误跟踪的情况,减少计算资源的浪费,同时提高ROI检测结果的准确度。
S202B、如果确定所述当前待处理帧为跟踪图片帧,则对所述当前待处理帧基于已有的待跟踪ROI进行跟踪,以确定至少一个跟踪结果作为所述当前待处理帧的ROI。
本申请实施例通过将对待跟踪ROI的跟踪过程,细化为将当前待处理帧中的ROI和前序跟踪图片帧的跟踪结果中的ROI进行匹配;根据匹配结果,更新待跟踪ROI,从而完善了对待跟踪ROI的更新机制,为视频感兴趣区域检测结果的准确度提供了保障。
图3是本申请实施例提供的另一种视频感兴趣区域检测方法的流程图,该方法在上述各实施例的技术方案的基础上,进行了优化改进。
进一步地,在执行视频感兴趣区域检测方法的过程中,追加“根据检测跟踪策略,确定所述当前待处理帧的检测类型;根据所述检测类型,确定所述当前待处理帧为检测图片帧或跟踪图片帧;其中,所述检测类型包括检测类型和跟踪类型”,以完善检测图片帧和跟踪图片帧的确定机制。
如图3所示的一种视频感兴趣区域检测方法,包括:
S301、从视频的图片帧序列中获取当前待处理帧。
S302、根据检测跟踪策略,确定所述当前待处理帧的处理类型。
其中,所述处理类型包括检测类型和跟踪类型。
在本申请实施例的一种可选实施方式中,根据当前待处理帧的帧号,确定该当前待处理帧的处理类型为检测类型或跟踪类型。
示例性地,预先设定各检测类型和各跟踪类型对应的图片帧的帧号,对各图片帧的处理类型进行标记。相应的,根据当前待处理帧的帧号,确定该当前待处理帧为检测类型或跟踪类型。
举例说明,预先设定视频的图片帧序列中的第i个图片帧为检测类型;相邻两个检测类型的图片帧之间间隔有N个跟踪类型的图片帧。其中,N可以由技术人员根据需要或经验值进行确定。例如N为5个。以N为5为例,当确定当前待处理帧的帧号为i+2时,确定该当前待处理帧的处理类型为跟踪类型;当确定当前待处理帧的帧号为i+6时,确定该当前待处理帧的处理类型为检测类型。
上述可选实施方式可以适用于视频实时或离线获取的情况。在视频实时获取的场景中,由于视频中图片帧的数量无法确定,因此实时进行图片帧累计编号的准确性无法保证。为了避免由于帧号累计有误导致对图片帧进行ROI检测混乱的情况的发生,在本申请实施例的另一可选实施方式中,还可以采用以下方式进行当前待处理帧的处理类型的确定:若当前待处理帧与前一检测图片帧之间的帧间隔为设定数量阈值,则确定当前待处理帧的处理类型为检测类型;若当前待处理帧与前一检测图片帧之间的帧间隔不是设定数量阈值,则确定当前待处理帧的处理类型为跟踪类型。其中,设定数量阈值由技术人员根据需要或经验值进行设定,或通过大量试验加以确定。
S303、根据所述处理类型,确定所述当前待处理帧为检测图片帧或跟踪图片帧。
示例性地,若当前待处理帧为检测类型,则确定当前待处理帧为检测图片帧;若当前待处理帧为跟踪类型,则确定当前待处理帧为跟踪图片帧。
S304A、如果确定所述当前待处理帧为检测图片帧,则对所述当前待处理帧中的感兴趣区域ROI进行检测,以确定所述当前待处理帧中的至少一个ROI。
S305A、根据所述当前待处理帧中的ROI和前序跟踪图片帧确定的跟踪结果,更新待跟踪ROI。
S304B、如果确定所述当前待处理帧为跟踪图片帧,则对所述当前待处理帧基于已有的待跟踪ROI进行跟踪,以确定至少一个跟踪结果作为所述当前待处理帧的ROI。
需要说明的是,由于视频中连续图片帧的图片之间的变化往往很小,因此视频的图片帧存在一定的冗余性,对视频逐帧进行ROI检测或跟踪,将会带来一定的计算冗余。为了减少ROI检测过程的数据运算量,还可以在处理类型中引入跳过类型。相应的,在确定当前待处理帧的处理类型之后,若当前待处理帧为跳过类型,则将当前待处理帧的前序图片帧的ROI的检测结果作为当前待处理帧的ROI检测结果。例如,将前序检测图片帧的ROI检测结果,作为当前跟踪图片帧的ROI跟踪结果;将前序跟踪图片帧的ROI跟踪结果,作为当前跟踪图片帧的ROI跟踪结果;或者,将前序跟踪图片帧的ROI跟踪结果,作为当前检测图片帧的ROI检测结果。
在本申请实施例的一种可选实施方式中,据检测跟踪策略,确定当前待处理帧的处理类型,可以是:分别提取当前待处理帧的前序图片帧与当前待处理帧的图片特征,得到特征向量;确定两特征向量之间的相似度;若相似度小于设定相似度阈值,则确定当前待处理帧的处理类型为跳过类型。其中,设定相似度阈值可以由技术人员根据需要或经验值设定,还可以通过反复实验进行确定。
需要说明的是,通过相似度确定的方式确定当前待处理帧的处理类型是否为跳过类型,对特征向量提取的准确度依赖性较高。一般的,将会采用大量的训练样本,对机器学习模型或深度学习模型进行训练,并采用训练好的机器学习模型或深度学习模型进行特征提取,用于进行相似度确定,需要大量的前期投入。
为了减少跳过类型确定的前期投入,同时保证跳过类型确定结果的准确度,在本申请实施例的一种可选实施方式中,根据检测跟踪策略,确定当前待处理帧的处理类型,还可以是:确定当前待处理帧的前序图片帧与当前待处理帧的差异度;若差异度小于设定差异度阈值,则确定当前待处理帧的处理类型为跳过类型。其中,设定差异度阈值由技术人员根据需要或经验值设定,或通过大量试验加以确定。
示例性地,可以确定当前待处理帧的前序图片帧与当前待处理帧的直方图距离,并将直方图距离作为差异度。可选的,直方图距离可以是颜色直方图距离。
可以理解的是,通过引入相邻图片帧之间的差异度,表征相邻图片帧之间的变化程度。当差异度小于设定差异度阈值,则表明相邻图片帧之间的变化较小,可以采用跳过方式替代ROI检测或ROI跟踪,将前序图片帧的检测结果直接作为当前待处理图片帧的检测结果。当差异度不小于设定差异度阈值,则表明相邻图片帧之间的变化较大,如果直接将前序图片帧的检测结果作为当前待处理图片帧的检测结果,那么可能会导致ROI漏检情况的发生,因此不能通过跳过的方式代替ROI检测或ROI跟踪。
本申请实施例通过在进行ROI检测过程中,追加根据检测跟踪策略,确定当前待处理帧的处理类型,其中处理类型包括检测类型和跟踪类型;根据处理类型,确定当前待处理帧为检测图片帧或跟踪图片帧。采用上述技术方案,完善了检测图片帧和跟踪图片帧的确定机制,从而为后续进行ROI检测或ROI跟踪的选取奠定了基础。
本申请实施例在上述各技术方案的基础上,还提供了一种优选实施方式,结合图4是本申请实施例提供的一种视频感兴趣区域检测过程框图,进行示例性说明。
该视频感兴趣区域检测过程包括:视频解析、目标检测、多目标匹配、目标平滑和视频编码五个阶段。
一、视频解析阶段
获取视频数据,并对视频数据进行解析,得到图片帧序列。
其中,视频可以是实时获取的视频,还可以是离线视频。
二、目标检测阶段
1、检测
对第i个图片帧进行ROI检测,并记录检测框的位置信息作为检测结果。
其中,可以采用SSD、Yolo、faster-rcnn等检测算法中的至少一种,对图片帧进行ROI检测。
其中,检测框的位置信息包括参照点坐标和检测框大小。
2、跟踪
创建跟踪器(tracker)对第i+1至第i+n个图片帧进行ROI跟踪,并记录跟踪框的位置信息作为检测结果。
其中,n由技术人员根据需要或经验值进行设定,还可以通过反复实验加以确定。例如,n可以是5。
其中,可以采用卡尔曼滤波或相关滤波等跟踪算法中的至少一种,对图片帧进行ROI跟踪。
可以理解的是,由于跟踪算法旺旺比检测算法速度快,因此采用ROI跟踪代替部分ROI检测进行ROI检测,能够提高ROI检测效率。
3、跳过
在对图片帧进行检测或跟踪处理之前,对当前图片帧与前一图片帧的差异度进行确定;
若差异度小于设定阈值,则将前一图片帧的检测结果作为当前图片帧的检测结果。
其中,可以计算相邻两图片帧的颜色直方图距离,并将计算结果作为差异度。
其中,设定阈值可以由技术人员根据需要或经验值进行设定,还可以通过反复试验加以确定。
由于视频中存在大量的数据冗余,连续帧的图片帧往往变化很小,因此,逐帧检测将会带来很大的计算量,可以通过跳过代替检测和/或跟踪的方式,减少数据计算量,进而提高ROI检测效率。
三、多目标匹配阶段
对第i+n+1个图片帧进行检测,并记录检测框的位置信息作为检测结果;
将第i+n+1个图片帧的检测结果中的检测框,与第i+1至i+n个的图片帧的检测结果中的跟踪框进行匹配,得到匹配结果;
根据不同的匹配结果,确定相应的处理策略。
其中,将第i+n+1个图片帧的检测框(N个框)与第i+1至i+n个图片帧的跟踪框(M个)进行匹配,可以是:
根据匹配算法,确定各检测框与各跟踪框之间的匹配距离,并根据匹配距离,确定匹配结果。
其中,匹配距离为框与框之间的交并比(IoU);匹配算法可以是匈牙利算法等。
其中,根据不同的匹配结果,确定相应的处理策略,包括:
1)相匹配的检测框+跟踪框,继续跟踪和检测,并记录检测结果;
2)未匹配的检测框,表明检测框中的目标为新出现目标,新建跟踪器,对目标进行跟踪;
3)未匹配的跟踪框,表明当前图片帧中未检测到之前的跟踪目标,也即跟踪目标已跟丢,之前的跟踪结果已过期失效,将被删除,对应的跟踪器停止跟踪。
其中,将跟踪结果删除,可以是:
1)直接删除第i+1至i+n个图片帧的跟踪结果;或者,
2)在第i+1至i+n个图片帧的跟踪结果中,确定置信度小于设定置信度阈值的跟踪结果,仅删除满足上述条件的跟踪结果。
其中,设定置信度阈值由技术人员根据需要或经验值进行设定,或通过反复实验加以确定。
四、目标平滑阶段
针对第i个图片帧中第j个框的目标,根据该目标在前i-N个图片帧中的检测结果以及后i+N个图片帧中的检测结果,进行平滑处理,得到该目标在第i个图片帧中的检测结果。
其中,平滑处理可以是:
将第i-N至i+N个图片帧中该目标的检测结果进行加权平均,得到该目标在第i个图片帧中的检测结果。
权重由帧号离第i帧的距离确定,距离越近,权重越大。例如,可以采用高斯算法,根据帧号距离确定权重。
其中,N为经验值,可以结合视频传输延迟,和/或跟踪延迟加以设定,可以是10。
五、视频编码阶段
针对每一个图片帧,根据ROI检测结果,调整ROI区域和其他区域的码率;
根据分配后的码率对视频进行编码。
其中,ROI区域的码率比其他区域的码率大。
需要说明的是,若视频为实时采集的视频,则检测过程采用串行处理的方式加以实现;若视频为离线视频,则检测过程可以对视频对应的图片帧进行分段,可以采用并行处理的方式对各段图片帧序列进行处理。
本申请实施例通过ROI跟踪的方式部分替代ROI检测,提高了ROI检测效率。进一步地,通过ROI检测结果对需要跟踪的ROI进行修正,能够减少ROI误检和漏检的情况,提高了ROI检测结果的准确度。进一步地,通过跳过方式替代部分ROI检测和/或跟踪,进一步提高了ROI检测效率。进一步地,通过平滑方式对ROI检测结果进行确定,避免了连续帧的检测结果不连续或抖动,导致检测结果精度较差的情况,进一步提高了检测结果准确度。
图5是本申请实施例提供的一种视频感兴趣区域检测装置的结构图,该装置采用软件和/或硬件实现,并具体配置于电子设备中。
如图5所示的一种视频感兴趣区域检测装置500,包括:获取模块501、检测模块502、更新模块503和跟踪模块504。其中,
获取模块501,用于从视频的图片帧序列中获取当前待处理帧;
检测模块502,用于如果确定所述当前待处理帧为检测图片帧,则对所述当前待处理帧中的感兴趣区域ROI进行检测,以确定所述当前待处理帧中的至少一个ROI;
更新模块503,用于如果确定当前待处理帧为检测图片帧,则根据所述当前待处理帧中的ROI和前序跟踪图片帧确定的跟踪结果,更新待跟踪ROI;
跟踪模块504,用于如果确定所述当前待处理帧为跟踪图片帧,则对所述当前待处理帧基于已有的待跟踪ROI进行跟踪,以确定至少一个跟踪结果作为所述当前待处理帧的ROI。
本申请实施例通过获取模块从视频的图片帧序列中获取当前待处理帧;如果确定待处理帧为检测图片帧,则通过检测模块对当前待处理帧中的ROI进行检测,以确定当前待处理帧中的至少一个ROI,并通过更新模块根据当前待处理帧中的ROI和前序跟踪图片帧确定的跟踪结果,更新待跟踪ROI;通过跟踪模块如果确定当前待处理帧为跟踪图片帧,则对当前待处理帧基于已有的待跟踪ROI进行跟踪,以确定至少一个跟踪结果作为当前待处理帧的ROI。上述技术方案通过采用对视频中的检测图片帧的ROI检测结果和检测图片帧的前序跟踪图片帧的ROI跟踪结果,对待跟踪ROI进行修正,从而避免了ROI跟踪结果与ROI检测结果两者不匹配导致的新增ROI漏跟踪或消失ROI误跟踪的情况的发生,从而提高了ROI检测结果的准确度。由于部分图片帧采用了ROI检测方式来确定ROI,其他部分图片帧采用了对象跟踪的方式来确定ROI,因此可减少检测算法对图像处理计算资源的占用,且能够提高ROI检测速度。
进一步地,更新模块503,包括:
匹配单元,用于将所述当前待处理帧中的ROI和前序跟踪图片帧的跟踪结果中的ROI进行匹配;
更新单元,用于根据匹配结果,更新待跟踪ROI。
进一步地,更新单元,包括:
添加子单元,用于若所述当前待处理帧中的当前ROI与前序跟踪图片帧的跟踪结果中的各ROI匹配失败,则将该当前ROI添加至所述待跟踪ROI;
保持子单元,用于若所述当前待处理帧中的当前ROI与前序跟踪图片帧的跟踪结果中的任一ROI匹配成功,则保持所述待跟踪ROI不变;
删除子单元,用于若所述前序跟踪图片帧的跟踪结果中的当前ROI与所述当前待处理帧中的各ROI匹配失败,则将从所述待跟踪ROI中删除该当前ROI。
进一步地,匹配单元,包括:
交并比确定子单元,用于确定所述当前待处理帧中的ROI和前序跟踪图片帧的跟踪结果中的ROI的交并比;
匹配子单元,用于根据各所述交并比,确定所述当前待处理帧中的各ROI和前序跟踪图片帧的跟踪结果中的各ROI的匹配情况。
进一步地,所述装置还包括:
处理类型确定模块,用于根据检测跟踪策略,确定所述当前待处理帧的处理类型;
检测跟踪确定模块,用于根据所述处理类型,确定所述当前待处理帧为检测图片帧或跟踪图片帧;
其中,所述处理类型包括检测类型和跟踪类型。
进一步地,处理类型确定模块,包括:
检测类型确定单元,用于若所述当前待处理帧与前一检测图片帧之间的帧间隔为设定数量阈值,则确定所述当前待处理帧的处理类型为检测类型;
跟踪类型确定单元,用于若所述当前待处理帧与前一检测图片帧之间的帧间隔不是所述设定数量阈值,则确定所述当前待处理帧的处理类型为跟踪类型。
进一步地,所述处理类型还包括跳过类型;相应的,所述装置还包括:
跳过模块,用于根据检测跟踪策略,确定所述当前待处理帧的处理类型之后,如果所述当前待处理帧为跳过类型,则将所述当前待处理帧的前序图片帧的ROI的检测结果作为所述当前待处理帧的ROI检测结果。
进一步地,处理类型确定模块,包括:
差异度确定单元,用于确定所述当前待处理帧的前序图片帧与所述当前待处理帧的差异度;
跳过类型确定单元,用于若所述差异度小于设定差异度阈值,则确定所述当前待处理帧的处理类型为跳过类型。
进一步地,差异度确定单元,包括:
差异度确定子单元,用于确定所述当前待处理帧的前序图片帧与所述当前待处理帧的直方图距离,并将所述直方图距离作为所述差异度。
进一步地,所述装置还包括:
平滑处理模块,用于在对所述当前待处理帧进行检测或跟踪之后,根据所述当前待处理帧的相邻图片帧的ROI的检测结果或跟踪结果,对所述当前待处理帧的ROI的检测结果或跟踪结果进行平滑处理。
进一步地,平滑处理模块,包括:
权重确定单元,用于根据所述当前待处理帧的相邻图片帧与所述当前待处理帧的帧间距,确定各相邻图片帧的权重;
平滑处理单元,用于根据各相邻图片帧的权重,以及各相邻图片帧的ROI的检测结果或跟踪结果,对所述当前待处理帧的ROI的检测结果或跟踪结果进行平滑处理。
进一步地,所述装置还包括:
有效性验证模块,用于若所述当前待处理帧为检测图片帧,则根据所述当前待处理帧中的ROI对前序跟踪图片帧的跟踪结果进行有效性验证。
进一步地,有效性验证模块,包括:
ROI匹配单元,用于将所述当前待处理帧中的ROI和相邻历史跟踪图片帧的跟踪结果中的ROI进行匹配;
置信度获取单元,用于若匹配失败,则获取各所述前序跟踪图片帧的跟踪结果的置信度;
验证单元,用于根据所述置信度,对各所述前序跟踪图片帧的跟踪结果进行验证。
进一步地,所述装置还包括:
码率分配模块,用于为所述当前待处理帧中的ROI和非ROI分配不同码率;其中,ROI的码率大于非ROI的码率;
编码模块,用于根据所分配码率对所述当前待处理帧进行编码。
上述视频感兴趣区域检测装置可执行本申请任意实施例所提供的视频感兴趣区域检测方法,具备执行视频感兴趣区域检测方法相应的功能模块和有益效果。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是实现本申请实施例的视频感兴趣区域检测方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的视频感兴趣区域检测方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的视频感兴趣区域检测方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的视频感兴趣区域检测方法对应的程序指令/模块(例如,附图5所示的获取模块501、检测模块502、更新模块503和跟踪模块504)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的视频感兴趣区域检测方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储执行视频感兴趣区域检测方法的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至执行视频感兴趣区域检测方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
执行视频感兴趣区域检测方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与执行视频感兴趣区域检测方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,本申请实施例从视频的图片帧序列中获取当前待处理帧;如果确定待处理帧为检测图片帧,则对当前待处理帧中的ROI进行检测,以确定当前待处理帧中的至少一个ROI,并根据当前待处理帧中的ROI和前序跟踪图片帧确定的跟踪结果,更新待跟踪ROI;如果确定当前待处理帧为跟踪图片帧,则对当前待处理帧基于已有的待跟踪ROI进行跟踪,以确定至少一个跟踪结果作为当前待处理帧的ROI。上述技术方案通过采用对视频中的检测图片帧的ROI检测结果和检测图片帧的前序跟踪图片帧的ROI跟踪结果,对待跟踪ROI进行修正,从而避免了ROI跟踪结果与ROI检测结果两者不匹配导致的新增ROI漏跟踪或消失ROI误跟踪的情况的发生,从而提高了ROI检测结果的准确度。由于部分图片帧采用了ROI检测方式来确定ROI,其他部分图片帧采用了对象跟踪的方式来确定ROI,因此可减少检测算法对图像处理计算资源的占用,且能够提高ROI检测速度。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (20)

1.一种视频感兴趣区域检测方法,其特征在于,包括:
从视频的图片帧序列中获取当前待处理帧;
如果确定所述当前待处理帧为检测图片帧,则对所述当前待处理帧中的感兴趣区域ROI进行检测,以确定所述当前待处理帧中的至少一个ROI;并根据所述当前待处理帧中的ROI和前序跟踪图片帧确定的跟踪结果,更新待跟踪ROI;
如果确定所述当前待处理帧为跟踪图片帧,则对所述当前待处理帧基于已有的待跟踪ROI进行跟踪,以确定至少一个跟踪结果作为所述当前待处理帧的ROI。
2.根据权利要求1所述的方法,其特征在于,根据所述当前待处理帧中的ROI和前序跟踪图片帧确定的跟踪结果,更新待跟踪ROI,包括:
将所述当前待处理帧中的ROI和前序跟踪图片帧的跟踪结果中的ROI进行匹配;
根据匹配结果,更新待跟踪ROI。
3.根据权利要求2所述的方法,其特征在于,根据匹配结果,更新待跟踪ROI,包括:
若所述当前待处理帧中的当前ROI与前序跟踪图片帧的跟踪结果中的各ROI匹配失败,则将该当前ROI添加至所述待跟踪ROI;
若所述当前待处理帧中的当前ROI与前序跟踪图片帧的跟踪结果中的任一ROI匹配成功,则保持所述待跟踪ROI不变;
若所述前序跟踪图片帧的跟踪结果中的当前ROI与所述当前待处理帧中的各ROI匹配失败,则从所述待跟踪ROI中删除该当前ROI。
4.根据权利要求2所述的方法,其特征在于,将所述当前待处理帧中的ROI和前序跟踪图片帧的跟踪结果中的ROI进行匹配,包括:
确定所述当前待处理帧中的ROI和前序跟踪图片帧的跟踪结果中的ROI的交并比;
根据各所述交并比,确定所述当前待处理帧中的各ROI和前序跟踪图片帧的跟踪结果中的各ROI的匹配情况。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据检测跟踪策略,确定所述当前待处理帧的处理类型;
根据所述处理类型,确定所述当前待处理帧为检测图片帧或跟踪图片帧;
其中,所述处理类型包括检测类型和跟踪类型。
6.根据权利要求5所述的方法,其特征在于,根据检测跟踪策略,确定所述当前待处理帧的处理类型,包括:
若所述当前待处理帧与前一检测图片帧之间的帧间隔为设定数量阈值,则确定所述当前待处理帧的处理类型为检测类型;
若所述当前待处理帧与前一检测图片帧之间的帧间隔不是所述设定数量阈值,则确定所述当前待处理帧的处理类型为跟踪类型。
7.根据权利要求5所述的方法,其特征在于,所述处理类型还包括跳过类型;相应的,根据检测跟踪策略,确定所述当前待处理帧的处理类型之后,所述方法还包括:
如果所述当前待处理帧为跳过类型,则将所述当前待处理帧的前序图片帧的ROI的检测结果作为所述当前待处理帧的ROI检测结果。
8.根据权利要求7所述的方法,其特征在于,根据检测跟踪策略,确定所述当前待处理帧的检测类型,包括:
确定所述当前待处理帧的前序图片帧与所述当前待处理帧的差异度;
若所述差异度小于设定差异度阈值,则确定所述当前待处理帧的处理类型为跳过类型。
9.根据权利要求8所述的方法,其特征在于,确定所述当前待处理帧的前序图片帧与所述当前待处理帧的差异度,包括:
确定所述当前待处理帧的前序图片帧与所述当前待处理帧的直方图距离,并将所述直方图距离作为所述差异度。
10.根据权利要求1-9任一项所述的方法,其特征在于,在对所述当前待处理帧进行检测或跟踪之后,所述方法还包括:
根据所述当前待处理帧的相邻图片帧的ROI的检测结果或跟踪结果,对所述当前待处理帧的ROI的检测结果或跟踪结果进行平滑处理。
11.根据权利要求10所述的方法,其特征在于,根据所述当前待处理帧的相邻图片帧的ROI的检测结果或跟踪结果,对所述当前待处理帧的ROI的检测结果或跟踪结果进行平滑处理,包括:
根据所述当前待处理帧的相邻图片帧与所述当前待处理帧的帧间距,确定各相邻图片帧的权重;
根据各相邻图片帧的权重,以及各相邻图片帧的ROI的检测结果或跟踪结果,对所述当前待处理帧的ROI的检测结果或跟踪结果进行平滑处理。
12.根据权利要求1-9任一项所述的方法,其特征在于,所述方法还包括:
若所述当前待处理帧为检测图片帧,则根据所述当前待处理帧中的ROI对前序跟踪图片帧的跟踪结果进行有效性验证。
13.根据权利要求12所述的方法,其特征在于,根据所述当前待处理帧中的ROI对前序跟踪图片帧确定的跟踪结果进行有效性验证,包括:
将所述当前待处理帧中的ROI和相邻历史跟踪图片帧的跟踪结果中的ROI进行匹配;
若匹配失败,则获取各所述前序跟踪图片帧的跟踪结果的置信度;
根据所述置信度,对各所述前序跟踪图片帧的跟踪结果进行验证。
14.根据权利要求1-9任一项所述的方法,其特征在于,所述方法还包括:
为所述当前待处理帧中的ROI和非ROI分配不同码率;其中,ROI的码率大于非ROI的码率;
根据所分配码率对所述当前待处理帧进行编码。
15.一种视频感兴趣区域检测装置,其特征在于,包括:
获取模块,用于从视频的图片帧序列中获取当前待处理帧;
检测模块,用于如果确定所述当前待处理帧为检测图片帧,则对所述当前待处理帧中的感兴趣区域ROI进行检测,以确定所述当前待处理帧中的至少一个ROI;
更新模块,用于如果确定所述当前待处理帧为检测图片帧,则根据所述当前待处理帧中的ROI和前序跟踪图片帧确定的跟踪结果,更新待跟踪ROI;
跟踪模块,用于如果确定所述当前待处理帧为跟踪图片帧,则对所述当前待处理帧基于已有的待跟踪ROI进行跟踪,以确定至少一个跟踪结果作为所述当前待处理帧的ROI。
16.根据权利要求15所述的装置,其特征在于,所述更新模块,包括:
匹配单元,用于将所述当前待处理帧中的ROI和前序跟踪图片帧的跟踪结果中的ROI进行匹配;
更新单元,用于根据匹配结果,更新待跟踪ROI。
17.根据权利要求16所述的装置,其特征在于,所述更新单元,包括:
添加子单元,用于若所述当前待处理帧中的当前ROI与前序跟踪图片帧的跟踪结果中的各ROI匹配失败,则将该当前ROI添加至所述待跟踪ROI;
保持子单元,用于若所述当前待处理帧中的当前ROI与前序跟踪图片帧的跟踪结果中的任一ROI匹配成功,则保持所述待跟踪ROI不变;
删除子单元,用于若所述前序跟踪图片帧的跟踪结果中的当前ROI与所述当前待处理帧中的各ROI匹配失败,则将从所述待跟踪ROI中删除该当前ROI。
18.根据权利要求16所述的装置,其特征在于,所述匹配单元,包括:
交并比确定子单元,用于确定所述当前待处理帧中的ROI和前序跟踪图片帧的跟踪结果中的ROI的交并比;
匹配子单元,用于根据各所述交并比,确定所述当前待处理帧中的各ROI和前序跟踪图片帧的跟踪结果中的各ROI的匹配情况。
19.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-14中任一项所述的一种视频感兴趣区域检测方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-14中任一项所述的一种视频感兴趣区域检测方法。
CN202010507871.8A 2020-06-05 2020-06-05 一种视频感兴趣区域检测方法、装置、设备及介质 Active CN111626263B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010507871.8A CN111626263B (zh) 2020-06-05 2020-06-05 一种视频感兴趣区域检测方法、装置、设备及介质
US17/116,578 US11514676B2 (en) 2020-06-05 2020-12-09 Method and apparatus for detecting region of interest in video, device and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010507871.8A CN111626263B (zh) 2020-06-05 2020-06-05 一种视频感兴趣区域检测方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN111626263A true CN111626263A (zh) 2020-09-04
CN111626263B CN111626263B (zh) 2023-09-05

Family

ID=72260914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010507871.8A Active CN111626263B (zh) 2020-06-05 2020-06-05 一种视频感兴趣区域检测方法、装置、设备及介质

Country Status (2)

Country Link
US (1) US11514676B2 (zh)
CN (1) CN111626263B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022231947A1 (en) * 2021-04-30 2022-11-03 Nvidia Corporation Object tracking using optical flow
CN115861603A (zh) * 2022-12-29 2023-03-28 宁波星巡智能科技有限公司 兴趣区域锁定方法、装置、设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230370653A1 (en) * 2022-05-16 2023-11-16 Microsoft Technology Licensing, Llc Streaming video with internally-variable frame quality based on intelligent identification of high-relevance regions

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066990A (zh) * 2017-05-04 2017-08-18 厦门美图之家科技有限公司 一种目标跟踪方法及移动设备
EP3223237A1 (en) * 2016-03-22 2017-09-27 Tata Consultancy Services Limited Systems and methods for detecting and tracking a marker
KR101840167B1 (ko) * 2017-07-19 2018-03-20 건국대학교 산학협력단 클라우드 상에서 멀티 카메라 간의 핸드오버를 통한 관심 객체의 연계추적 장치 및 그 방법
CN108073864A (zh) * 2016-11-15 2018-05-25 北京市商汤科技开发有限公司 目标对象检测方法、装置及系统和神经网络结构
US20180218221A1 (en) * 2015-11-06 2018-08-02 The Boeing Company Systems and methods for object tracking and classification
CN109117830A (zh) * 2018-09-21 2019-01-01 上海晔芯电子科技有限公司 图像传感器、目标跟踪系统及方法
CN110443824A (zh) * 2018-05-02 2019-11-12 北京京东尚科信息技术有限公司 用于生成信息的方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8116527B2 (en) * 2009-10-07 2012-02-14 The United States Of America As Represented By The Secretary Of The Army Using video-based imagery for automated detection, tracking, and counting of moving objects, in particular those objects having image characteristics similar to background
US20120294514A1 (en) * 2011-05-19 2012-11-22 Xerox Corporation Techniques to enable automated workflows for the creation of user-customized photobooks
US9542585B2 (en) * 2013-06-06 2017-01-10 Apple Inc. Efficient machine-readable object detection and tracking
CN104794733B (zh) * 2014-01-20 2018-05-08 株式会社理光 对象跟踪方法和装置
US10909377B2 (en) * 2018-04-18 2021-02-02 Baidu Usa Llc Tracking objects with multiple cues

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180218221A1 (en) * 2015-11-06 2018-08-02 The Boeing Company Systems and methods for object tracking and classification
EP3223237A1 (en) * 2016-03-22 2017-09-27 Tata Consultancy Services Limited Systems and methods for detecting and tracking a marker
CN108073864A (zh) * 2016-11-15 2018-05-25 北京市商汤科技开发有限公司 目标对象检测方法、装置及系统和神经网络结构
CN107066990A (zh) * 2017-05-04 2017-08-18 厦门美图之家科技有限公司 一种目标跟踪方法及移动设备
KR101840167B1 (ko) * 2017-07-19 2018-03-20 건국대학교 산학협력단 클라우드 상에서 멀티 카메라 간의 핸드오버를 통한 관심 객체의 연계추적 장치 및 그 방법
CN110443824A (zh) * 2018-05-02 2019-11-12 北京京东尚科信息技术有限公司 用于生成信息的方法和装置
CN109117830A (zh) * 2018-09-21 2019-01-01 上海晔芯电子科技有限公司 图像传感器、目标跟踪系统及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022231947A1 (en) * 2021-04-30 2022-11-03 Nvidia Corporation Object tracking using optical flow
CN115861603A (zh) * 2022-12-29 2023-03-28 宁波星巡智能科技有限公司 兴趣区域锁定方法、装置、设备及存储介质
CN115861603B (zh) * 2022-12-29 2023-09-26 宁波星巡智能科技有限公司 婴幼儿看护场景下兴趣区域锁定方法、装置、设备及介质

Also Published As

Publication number Publication date
CN111626263B (zh) 2023-09-05
US11514676B2 (en) 2022-11-29
US20210383120A1 (en) 2021-12-09

Similar Documents

Publication Publication Date Title
CN111640140B (zh) 目标跟踪方法、装置、电子设备及计算机可读存储介质
CN110659600B (zh) 物体检测方法、装置及设备
CN111626263B (zh) 一种视频感兴趣区域检测方法、装置、设备及介质
CN112528786B (zh) 车辆跟踪方法、装置及电子设备
CN111079670A (zh) 人脸识别方法、装置、终端和介质
CN112149636A (zh) 用于检测目标物体的方法、装置、电子设备及存储介质
CN112507949A (zh) 目标跟踪方法、装置、路侧设备以及云控平台
CN113691733B (zh) 视频抖动检测方法、装置、电子设备和存储介质
CN110717933B (zh) 针对运动物体漏检的后处理方法、装置、设备和介质
CN110968718A (zh) 目标检测模型负样本挖掘方法、装置及电子设备
CN111462174A (zh) 多目标跟踪方法、装置以及电子设备
CN111709288B (zh) 人脸关键点检测方法、装置以及电子设备
CN112561879A (zh) 模糊度评价模型训练方法、图像模糊度评价方法及装置
CN112560772B (zh) 人脸的识别方法、装置、设备及存储介质
CN110889392B (zh) 人脸图像处理的方法及装置
CN116228867B (zh) 位姿确定方法、装置、电子设备、介质
CN112270303A (zh) 图像识别方法、装置以及电子设备
CN112528932A (zh) 用于优化位置信息的方法、装置、路侧设备和云控平台
CN111783600A (zh) 一种人脸识别模型训练方法、装置、设备及介质
CN113255411A (zh) 目标检测方法、装置、电子设备及存储介质
CN111768485A (zh) 三维图像的关键点标注方法、装置、电子设备及存储介质
CN114461078B (zh) 一种基于人工智能的人机交互方法
CN110956649A (zh) 多目标三维物体跟踪的方法和装置
CN111008305B (zh) 一种视觉搜索方法、装置以及电子设备
CN112183484A (zh) 一种图像处理方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant