CN110427800A - 视频物体加速检测方法、装置、服务器及存储介质 - Google Patents

视频物体加速检测方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN110427800A
CN110427800A CN201910523099.6A CN201910523099A CN110427800A CN 110427800 A CN110427800 A CN 110427800A CN 201910523099 A CN201910523099 A CN 201910523099A CN 110427800 A CN110427800 A CN 110427800A
Authority
CN
China
Prior art keywords
key frame
image
detection
selection
detection target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910523099.6A
Other languages
English (en)
Inventor
叶明�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910523099.6A priority Critical patent/CN110427800A/zh
Publication of CN110427800A publication Critical patent/CN110427800A/zh
Priority to JP2021506484A priority patent/JP7266668B2/ja
Priority to SG11202100930VA priority patent/SG11202100930VA/en
Priority to PCT/CN2020/093360 priority patent/WO2020253499A1/zh
Priority to US17/167,515 priority patent/US11816570B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

一种视频物体加速检测方法,该方法通过将视频图像中的所有帧图像分为预设组帧图像,其中,每一组帧图像包括关键帧图像和非关键帧图像;利用关键帧图像中的目标的检测框在非关键帧图像中生成预选框,再通过侦测预选框中目标的位置来实现对视频中目标物体的侦测。本发明还提供一种视频物体加速检测装置、服务器及存储介质。通过本发明充分利用了视频连续帧的空间相关性,在不损失精度的情况下,极大减少了锚点分类的时间消耗,且在基本不降低检测性能的情况下,大幅优化了检测速度。

Description

视频物体加速检测方法、装置、服务器及存储介质
技术领域
本发明涉及图像识别技术领域,具体涉及一种视频物体加速检测方法、装置、服务器及存储介质。
背景技术
科技的发展使得摄像设备得到了普及,应运而生海量的图像数据、视频数据,其中视频数据也受到了广泛的关注,许多领域都需要用到目标的检测和追踪,例如监控视频,无人机追踪等。
传统的目标检测方法需要对视频中逐帧做如下处理:1)根据每一帧图像的骨干网络生成特征图;2)在所述特征图的金字塔上划分锚点,做前景背景分类和坐标框回归;3)将前一步骤中获得的高得分前景特征图送入分类网络,做二次分类和坐标回归并输出结果。
上述方法在处理720p以上的图片时由于检测锚点过多,会出现检测速度慢的问题,往往很难达到实时检测的效果,因此只能通过跳帧来解决,从而降低了检测精度。
发明内容
鉴于以上内容,有必要提出一种视频物体加速检测方法、装置、服务器及存储介质,能够加快侦测视频图像中的目标的速度。
本发明的第一方面提供一种视频物体加速检测方法,所述方法包括:
将视频图像中的所有帧图像分为预设组帧图像,其中,每一组帧图像包括关键帧图像和非关键帧图像;
识别所述关键帧图像中的检测目标,并在所述检测目标上标记检测框;
识别所述预设组帧图像中的非关键帧图像中的检测目标,将所述关键帧图中的检测框进行预设比例放大后生成预选框,通过所述预选框标记所述非关键帧图像中的检测目标;
根据所述预选框裁剪所述非关键帧图像得到多个预选框图像;
将所述多个预选框图像输入至非关键帧检测网络,以得到所述检测目标在所述预选框中的位置;及
根据所述检测目标在所述预选框中的位置将所述检测目标映射至所述非关键帧对应的原图。
优选地,在将所述多个预选框图像输入至非关键帧检测网络之前,所述视频物体加速检测方法还包括:
将所述多个预选框图像进行缩放处理。
优选地,识别所述预设组帧图像中的非关键帧图像中的检测目标,将所述关键帧图中的检测框进行预设比例放大后生成预选框,通过所述预选框标记所述非关键帧图像中的检测目标包括:
识别所述预设组帧图像中当前非关键帧图像中的检测目标;
将所述当前非关键帧图像对应的前一关键帧图像中的检测框进行预设比例放大后生成预选框,通过所述预选框标记所述当前非关键帧图像中的检测目标;
识别所述当前非关键帧图像对应的后一非关键帧图像中的检测目标;
将所述当前非关键帧图像中的预选框进行预设比例放大后生成第一预选框,通过所述第一预选框标记所述当前非关键帧图像对应的后一非关键帧图像中的检测目标,依此类推,直到标记完所述预设组帧图像中的所有非关键帧图像中的检测目标。
优选地,所述非关键帧网络是用于获取检测目标在图像中的位置的深度学习神经网络。
优选地,所述识别所述关键帧图像中的检测目标包括:
通过不同窗口大小的滑窗对所述关键帧图像按预设顺序进行滑动;
每次滑动时将当前窗口对应的图像输入至预先训练好的分类器;及
当所述分类器处理所述当前窗口对应的图像后输出分类概率大于预设值时,确认识别到所述关键帧图像中的检测目标,输出所述检测目标的标记。
优选地,所述方法还包括:筛选所述检测目标的标记以得到所述关键帧图像中的检测目标。
优选地,所述筛选所述检测目标的标记以得到所述关键帧图像中的目标包括:
将所有滑窗输入至分类器后得到的概率按照降序排列,选取最大分类概率对应的滑窗;
分别计算其他滑窗与所述最大分类概率对应的滑窗之间的重叠面积,并判断所述重叠面积是否大于预设面积;
若所述重叠面积小于或等于所述预设面积,保留对应的滑窗并输出所述滑窗对应的检测目标;
若所述重叠面积大于所述预设面积,删除对应的滑窗;及
重复上述步骤,直到所有其他滑窗都比对完成。
本发明的第二方面提供一种视频物体加速检测装置,所述装置包括:
初始化模块,用于将视频图像中的所有帧图像分为预设组帧图像,其中,每一组帧图像包括关键帧图像和非关键帧图像;
识别模块,用于识别所述关键帧图像中的检测目标,并在所述检测目标上标记检测框;
所述识别模块,还用于识别预设组帧图像中的非关键帧图像中的检测目标,将所述关键帧图中的检测框进行预设比例放大后生成预选框,通过所述预选框标记所述非关键帧图像中的检测目标;
裁剪模块,用于根据所述预选框裁剪所述非关键帧图像得到多个预选框图像;
处理模块,用于将所述多个预选框图像输入至非关键帧检测网络,以得到所述检测目标在所述预选框中的位置;及
所述处理模块,还用于根据所述检测目标在所述预选框中的位置将所述检测目标映射至所述非关键帧对应的原图。
本发明的第三方面提供一种服务器,所述服务器包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述视频物体加速检测方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述视频物体加速检测方法。
本发明所述的视频物体加速检测方法、装置、系统及存储介质,本发明通过将视频图像中的所有帧图像分为预设组帧图像,其中,每一组帧图像包括关键帧图像和非关键帧图像;利用关键帧图像中的目标的检测框在非关键帧图像中生成预选框,再通过侦测预选框中目标的位置来实现对视频中目标物体的侦测。充分利用了视频连续帧的空间相关性,在不损失精度的情况下,极大减少了锚点分类的时间消耗,且在基本不降低检测性能的情况下,大幅优化了检测速度。另外可以通过调节关键帧与非关键帧的比例,可以在不改变算法的基础上,实现不同硬件场景的需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明实施例一提供的视频物体加速检测方法的流程图。
图2是本发明实施例二提供的本发明视频物体加速检测装置较佳实施例中的功能模块图。
图3是本发明实施例三提供的服务器的示意图。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例的视频物体加速检测方法应用在由至少一个服务器和通过网络与所述服务器进行连接的移动终端所构成的硬件环境中。网络包括但不限于:广域网、城域网或局域网。本发明实施例的视频物体加速检测方法可以由服务器来执行,也可以由移动终端来执行;还可以是由服务器和移动终端共同执行。
所述对于需要进行视频物体加速检测方法的服务器,可以直接在服务器上集成本发明的方法所提供的视频物体加速检测功能,或者安装用于实现本发明的方法的客户端。再如,本发明所提供的方法还可以以软件开发工具包(Software Development Kit,SDK)的形式运行在服务器等设备上,以SDK的形式提供视频物体加速检测功能的接口,服务器或其他设备通过提供的接口即可实现视频物体加速检测功能。
实施例一
图1是本发明实施例一提供的视频物体加速检测方法的流程图。根据不同的需求,该流程图中的执行顺序可以改变,某些步骤可以省略。
步骤S1,将视频图像中的所有帧图像分为预设组帧图像,其中,每一组帧图像包括关键帧图像和非关键帧图像。
具体地,可以将所述视频图像中的所有帧图像分为预设组帧图像,其中每一组帧图像包括连续预设帧图像,所述连续预设帧图像中的第一帧图像为关键帧图像,其余帧图像为非关键帧图像。
例如,将具有五十帧图像的视频图像分为十组帧图像,将连续五帧图像分为一组,所述五帧图像中第一帧图像为关键帧图像,第二至第五帧图像为非关键帧图像。每一张所述关键帧图像对应了所述视频图像中的一张原图,且每一张所述非关键帧图像也对应所述视频图像中的一张原图,所述原图为720p以上的图片。
可以理解的是,所述每一组帧图像中的图像帧数并不限定,且所述每一组帧图像中的关键帧图像与非关键帧图像的数量也不限定。
当需要精确检测视频图像中的目标时,所述预设组帧图像的数量可以适当增加,对应每一组帧图像中的图像帧数适当减少。例如,将具有六十帧图像的视频图像分为组二十帧图像,将所述视频图像中的所有帧图像中连续三帧图像分为一组。
当对视频图像中的目标检测精度要求不高时,所述预设组帧图像的数量可以适当减少,对应每一组帧图像中的图像帧数适当增加。例如,将具有六十帧图像的视频图像分为组十帧图像,将所述视频图像中的所有帧图像中连续六帧图像分为一组。
在本实施方式中,在将视频图像中的所有帧图像分为预设组帧图像之前,所述视频物体加速检测方法还包括:
接收摄像头采集的视频图像,并对所述视频图像进行解码的步骤。
在本实施方式中,通过摄像头采集视频图像。所述摄像头与所述服务器之间通过有线或无线网络通信连接。所述摄像头将采集的视频图像通过有线或无线网络发送至所述服务器。
步骤S2,识别所述关键帧图像中的检测目标,并在所述检测目标上标记检测框。
在本实施方式中,所述检测目标可以是人、或动物、或交通工具等。所述关键帧图像中的所述检测目标可以包括多个,每一个所述检测目标对应一个检测框。可以理解的是,根据所述检测目标的不同,对应的检测框大小也不相同。
在本实施方式中,所述识别所述关键帧图像中的检测目标包括:
通过不同窗口大小的滑窗对所述关键帧图像按预设顺序进行滑动;
每次滑动时将当前窗口对应的图像输入至预先训练好的分类器;及
当所述分类器处理所述当前窗口对应的图像后输出分类概率大于预设值,则确认识别所述关键帧图像中的检测目标,输出检测目标的标记。
例如,首先对当前帧图像进行不同窗口大小的滑窗进行从左往右、从上到下的滑动。每次滑动时候对当前窗口执行分类器(分类器是事先训练好的)。如果当前窗口得到较高的分类概率,则认为检测到了目标。对每个不同窗口大小的滑窗都进行检测后,会得到不同窗口检测到的目标标记,这些窗口大小会存在重复较高的部分,最后采用非极大值抑制(Non-Maximum Suppression,NMS)的方法进行筛选以得到所述关键帧图像中的检测目标。最终,经过NMS筛选后获得检测到的目标。
筛选所述检测目标的标记以得到所述关键帧图像中的检测目标包括:
将所有滑窗输入至分类器后得到的概率按照降序排列,选取最大分类概率对应的滑窗;
分别计算其他滑窗与所述最大分类概率对应的滑窗之间的重叠面积,并判断所述重叠面积是否大于预设面积;
若所述重叠面积小于或等于所述预设面积,保留对应的滑窗并输出所述滑窗对应的检测目标;
若所述重叠面积大于所述预设面积,删除对应的滑窗;及
重复上述步骤,直到所有其他滑窗都比对完成。
步骤S3,所述识别预设组帧图像中的非关键帧图像中的检测目标,将所述关键帧图中的检测框进行预设比例放大后生成预选框,通过所述预选框标记所述非关键帧图像中的检测目标。
可以理解的是,所述识别当前非关键帧图像中的检测目标的方法可以与所述识别所述关键帧图像中的检测目标的方法一致,在此不再赘述。
在本实施方式中,识别每一组帧图像中每一非关键帧图像中的检测目标。所述前一帧图像可以是关键帧图像,也可以是非关键帧图像。
所述识别预设组帧图像中的非关键帧图像中的检测目标,将所述关键帧图中的检测框进行预设比例放大后生成预选框,通过所述预选框标记所述非关键帧图像中的检测目标包括如下步骤:
识别所述预设组帧图像中当前非关键帧图像中的检测目标;
将所述当前非关键帧图像之前的关键帧图像中的检测框进行预设比例放大后生成预选框,通过所述预选框标记所述当前非关键帧图像中的检测目标;
识别所述当前非关键帧图像之后的非关键帧图像中的检测目标;
将所述当前非关键帧图像中的预选框进行预设比例放大后生成第一预选框,通过所述第一预选框标记所述当前非关键帧图像之后的非关键帧图像中的检测目标,依此类推,直到标记完所述预设组帧图像中的所有非关键帧图像中的检测目标。
例如,若连续五帧图像分为一组,所述五帧图像中第一帧图像为关键帧图像,第二至第五帧图像为非关键帧图像。识别第一帧为关键帧图像中的检测目标,并在所述检测目标上标记检测框;识别第二帧为非关键帧图像中的检测目标,将所述关键帧图像中的检测框进行预设比例放大后生成第一预选框,通过所述第一预选框标记所述第二帧图像中的检测目标;接着识别第三帧为非关键帧图像中的检测目标,将所述第二帧图像(非关键帧图像)中的检测框(即第一预选框)进行预设比例放大后生成第二预选框,通过所述第二预选框标记所述第三帧图像中的检测目标,依此类推,将每一组帧图像中的非关键帧图像中的检测目标都通过预选框进行标记。
例如,若连续五帧图像分为一组,所述五帧图像中第二帧图像为关键帧图像,第一帧和第三至第五帧图像为非关键帧图像。识别第二帧为关键帧图像中的检测目标,并在所述检测目标上标记检测框;识别第三帧为非关键帧图像中的检测目标,将所述关键帧图像中的检测框进行预设比例放大后生成第一预选框,通过所述第一预选框标记所述第三帧图像中的检测目标;接着识别第四帧为非关键帧图像中的检测目标,将所述第三帧图像(非关键帧图像)中的检测框(即第一预选框)进行预设比例放大后生成第二预选框,通过所述第二预选框标记所述第四帧图像中的检测目标,依此类推,将每一组帧图像中的非关键帧图像中的检测目标都通过预选框进行标记。
也就是说,并非限定每一组帧图像中的第一帧为关键帧图像,其他帧图像也可以作为关键帧图像。
步骤S4,根据所述预选框裁剪所述非关键帧图像得到多个预选框图像。
例如,所述非关键帧图像中的检测目标包括五个,通过五个预选框分别标记所述五个检测目标,根据所述五个预选框裁剪所述非关键帧图像可以得到五个预选框图像。
在处理720p以上的图片时,由于图片太大,处理起来计算量大且费时。因此,在本实施方式中,可以将所述非关键帧图像根据所述预选框进行裁剪得到预选框图像,再将所述预选框图像输入至非关键帧网络中处理。不仅可以将大图片转换成小图片处理,还可以去除大图片中的非检测目标区域,从而可以提高处理速度。
步骤S5,将所述多个预选框图像输入至非关键帧检测网络,以得到所述检测目标在所述预选框中的位置。
在本实施方式中,所述非关键帧检测网络可以是预先训练的目标检测模型。其中,所述目标检测模型用于表征预选框图像与所述预选框图像包括的检测目标的位置信息的对应关系。
当所述预选框图像输入至所述目标检测模型时,可以确定所述预选框中的检测目标的位置信息。即,所述非关键帧网络是用于获取检测目标在图像中的位置的深度学习神经网络。相比传统神经网络,深度神经网络具有更多神经元,能够对大规模不同位置、形态的区域目标图像样本进行学习;同时在数据准备阶段,通过增强变换方法可以对同一图像进行翻转变换、色调变换、尺度变换、噪声扰动、颜色变换等操作,从而生成多种不同环境特性的训练图像,使得神经网络检测器对于不同场景,不同环境,不同形状的区域目标都能够进行性能稳定的检测,保证充足的样本数据量,避免过拟合出现。另外,神经网络的Dropout机制能够在训练过程的前馈运算时随机剔除部分神经元,从而减少神经网络之间的相互依赖关系,让神经网络具备更强的泛化能力,避免过拟合。所述深度学习神经网络可以是卷积神经网络、深度信念网络和堆叠自动编码器。
作为实例,所述目标检测模型可以是技术人员基于对大量的预选框图像和预选框图像包括的检测目标的对应关系表,该对应关系表可以反映预选框图像和预选框图像包括的检测目标的对应关系。所述目标检测模型也可以是技术人员基于现有的人工神经网络进行有监督地训练而得到的图像识别模型。
优选地,在将所述多个预选框图像输入至非关键帧检测网络之前,所述视频物体加速检测方法还包括:将所述多个预选框图像进行缩放处理。
可以理解的是,由于检测目标大小不一,其对应的预选框大小也各不相同。为了快速处理图像,需将所述多个预选框图像进行缩放处理成大小近似的图像,然后将同一大小后图像输入至非关键帧检测网络。
在本实施方式中,将所述非关键帧图像中裁剪出的预选框图像批量输入至非关键帧检测网络之前,可以将所述预选框图像缩放处理成大小相似的图像。如此,实现将统一大小后图像输入至非关键帧检测网络,便于所述非关键帧检测网络快速检测所述检测目标在所述预选框中的位置。
例如,所述当前非关键帧图像中的检测目标包括五个,通过五个预选框分别标记所述五个检测目标,根据所述五个预选框裁剪所述非关键帧图像可以得到五个预选框图像。所述五个预选框图像大小不一,需要进行缩放处理成相似大小的五个预选框图像。
步骤S6,根据所述预选框中的位置将所述检测目标映射至所述非关键帧对应的原图。
可以理解的是,所述检测目标在所述预选框中的位置是视频中的原图经过缩放处理后检测到的位置,因此,需要其进行映射至所述非关键帧对应的原图中以完成对视频图像中的目标的侦测。
综上所述,本发明提供的视频物体加速检测方法,包括将视频图像中的所有帧图像分为预设组帧图像,其中,每一组帧图像包括关键帧图像和非关键帧图像;识别所述关键帧图像中的检测目标,并在所述检测目标上标记检测框;识别当前非关键帧图像中的检测目标,将所述当前非关键帧的前一帧图像中的检测目标对应的检测框进行预设比例放大后生成预选框,通过所述预选框标记所述当前非关键帧图像中的检测目标;根据所述预选框裁剪所述当前非关键帧图像得到多个预选框图像;将所述多个预选框图像输入至非关键帧检测网络,以得到所述检测目标在所述预选框中的位置;及根据所述预选框中的位置将所述检测目标映射至所述非关键帧对应的原图。
主要针对检测网络在720p以上场景中由于检测锚点过多导致的检测速度慢问题,通过将视频图像分成关键帧图像和非关键帧图像,并对所述非关键帧图像进行简化运算,实现了无需对视频中的每一帧图像都进行精确的目标检测处理,充分利用了视频连续帧的空间相关性,在不损失精度的情况下,极大减少了锚点分类的时间消耗,且在基本不降低检测性能的情况下,大幅优化了检测速度。另外可以通过调节关键帧与非关键帧的比例,可以在不改变算法的基础上,应对不同硬件场景的需求。
实施例二
图2为本发明视频物体加速检测装置较佳实施例中的功能模块图。
在一些实施例中,所述视频物体加速检测装置20(下文简称为“检测装置20”)运行于服务器中。所述检测装置20可以包括多个由程序代码段所组成的功能模块。所述检测装置20中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行(详见图1及其相关描述)视频物体加速检测功能。
本实施例中,所述检测装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:初始化模块201、识别模块202、裁剪模块203及处理模块204。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在一些实施例中,关于各模块的功能将在后续的实施例中详述。
所述初始化模块201用于将视频图像中的所有帧图像分为预设组帧图像,其中,每一组帧图像包括关键帧图像和非关键帧图像。
具体地,可以将所述视频图像中的所有帧图像分为预设组帧图像,其中每一组帧图像包括连续预设帧图像,所述连续预设帧图像中的第一帧图像为关键帧图像,其余帧图像为非关键帧图像。
例如,将具有五十帧图像的视频图像分为十组帧图像,将连续五帧图像分为一组,所述五帧图像中第一帧图像为关键帧图像,第二至第五帧图像为非关键帧图像。每一张所述关键帧图像对应了所述视频图像中的一张原图,且每一张所述非关键帧图像也对应所述视频图像中的一张原图,所述原图为720p以上的图片。
可以理解的是,所述每一组帧图像中的图像帧数并不限定,且所述每一组帧图像中的关键帧图像与非关键帧图像的数量也不限定。
当需要精确检测视频图像中的目标时,所述预设组帧图像的数量可以适当增加,对应每一组帧图像中的图像帧数适当减少。例如,将具有六十帧图像的视频图像分为组二十帧图像,将所述视频图像中的所有帧图像中连续三帧图像分为一组。
当对视频图像中的目标检测精度要求不高时,所述预设组帧图像的数量可以适当减少,对应每一组帧图像中的图像帧数适当增加。例如,将具有六十帧图像的视频图像分为组十帧图像,将所述视频图像中的所有帧图像中连续六帧图像分为一组。
在本实施方式中,在将视频图像中的所有帧图像分为预设组帧图像之前,所述视频物体加速检测装置20还可以:接收摄像头采集的视频图像,并对所述视频图像进行解码。
在本实施方式中,通过摄像头采集视频图像。所述摄像头与所述服务器之间通过有线或无线网络通信连接。所述摄像头将采集的视频图像通过有线或无线网络发送至所述服务器。
所述识别模块202用于识别所述关键帧图像中的检测目标,并在所述检测目标上标记检测框。
在本实施方式中,所述检测目标可以是人、或动物、或交通工具等。所述关键帧图像中的所述检测目标可以包括多个,每一个所述检测目标对应一个检测框。可以理解的是,根据所述检测目标的不同,对应的检测框大小也不相同。
在本实施方式中,所述识别所述关键帧图像中的检测目标包括:
通过不同窗口大小的滑窗对所述关键帧图像按预设顺序进行滑动;
每次滑动时将当前窗口对应的图像输入至预先训练好的分类器;及
当所述分类器处理所述当前窗口对应的图像后输出分类概率大于预设值,则确认识别所述关键帧图像中的检测目标,输出检测目标的标记。
例如,首先对当前帧图像进行不同窗口大小的滑窗进行从左往右、从上到下的滑动。每次滑动时候对当前窗口执行分类器(分类器是事先训练好的)。如果当前窗口得到较高的分类概率,则认为检测到了目标。对每个不同窗口大小的滑窗都进行检测后,会得到不同窗口检测到的目标标记,这些窗口大小会存在重复较高的部分,最后采用非极大值抑制(Non-Maximum Suppression,NMS)的方法进行筛选以得到所述关键帧图像中的检测目标。最终,经过NMS筛选后获得检测到的目标。
筛选所述检测目标的标记以得到所述关键帧图像中的检测目标包括:
将所有滑窗输入至分类器后得到的概率按照降序排列,选取最大分类概率对应的滑窗;
分别计算其他滑窗与所述最大分类概率对应的滑窗之间的重叠面积,并判断所述重叠面积是否大于预设面积;
若所述重叠面积小于或等于所述预设面积,保留对应的滑窗并输出所述滑窗对应的检测目标;
若所述重叠面积大于所述预设面积,删除对应的滑窗;及
重复上述步骤,直到所有其他滑窗都比对完成。
所述识别模块202还用于识别所述预设组帧图像中的非关键帧图像中的检测目标,将所述关键帧图中的检测框进行预设比例放大后生成预选框,通过所述预选框标记所述非关键帧图像中的检测目标。
可以理解的是,所述识别当前非关键帧图像中的检测目标的方法可以与所述识别所述关键帧图像中的检测目标的方法一致,在此不再赘述。
在本实施方式中,识别每一组帧图像中每一非关键帧图像中的检测目标。所述前一帧图像可以是关键帧图像,也可以是非关键帧图像。
所述识别预设组帧图像中的非关键帧图像中的检测目标,将所述关键帧图中的检测框进行预设比例放大后生成预选框,通过所述预选框标记所述非关键帧图像中的检测目标包括如下步骤:
识别所述预设组帧图像中当前非关键帧图像中的检测目标;
将所述当前非关键帧图像之前的关键帧图像中的检测框进行预设比例放大后生成预选框,通过所述预选框标记所述当前非关键帧图像中的检测目标;
识别所述当前非关键帧图像之后的非关键帧图像中的检测目标;
将所述当前非关键帧图像中的预选框进行预设比例放大后生成第一预选框,通过所述第一预选框标记所述当前非关键帧图像之后的非关键帧图像中的检测目标,依此类推,直到标记完所述预设组帧图像中的所有非关键帧图像中的检测目标。
例如,若连续五帧图像分为一组,所述五帧图像中第一帧图像为关键帧图像,第二至第五帧图像为非关键帧图像。识别第一帧为关键帧图像中的检测目标,并在所述检测目标上标记检测框;识别第二帧为非关键帧图像中的检测目标,将所述关键帧图像中的检测框进行预设比例放大后生成第一预选框,通过所述第一预选框标记所述第二帧图像中的检测目标;接着识别第三帧为非关键帧图像中的检测目标,将所述第二帧图像(非关键帧图像)中的检测框(即第一预选框)进行预设比例放大后生成第二预选框,通过所述第二预选框标记所述第三帧图像中的检测目标,依此类推,将每一组帧图像中的非关键帧图像中的检测目标都通过预选框进行标记。
例如,若连续五帧图像分为一组,所述五帧图像中第二帧图像为关键帧图像,第一帧和第三至第五帧图像为非关键帧图像。识别第二帧为关键帧图像中的检测目标,并在所述检测目标上标记检测框;识别第三帧为非关键帧图像中的检测目标,将所述关键帧图像中的检测框进行预设比例放大后生成第一预选框,通过所述第一预选框标记所述第三帧图像中的检测目标;接着识别第四帧为非关键帧图像中的检测目标,将所述第三帧图像(非关键帧图像)中的检测框(即第一预选框)进行预设比例放大后生成第二预选框,通过所述第二预选框标记所述第四帧图像中的检测目标,依此类推,将每一组帧图像中的非关键帧图像中的检测目标都通过预选框进行标记。
也就是说,并非限定每一组帧图像中的第一帧为关键帧图像,其他帧图像也可以作为关键帧图像。
所述裁剪模块203用于根据所述预选框裁剪所述非关键帧图像得到多个预选框图像。
例如,所述非关键帧图像中的检测目标包括五个,通过五个预选框分别标记所述五个检测目标,根据所述五个预选框裁剪所述非关键帧图像可以得到五个预选框图像。
在处理720p以上的图片时,由于图片太大,处理起来计算量大且费时。因此,在本实施方式中,可以将所述非关键帧图像根据所述预选框进行裁剪得到预选框图像,再将所述预选框图像输入至非关键帧网络中处理。不仅可以将大图片转换成小图片处理,还可以去除大图片中的非检测目标区域,从而可以提高处理速度。
所述处理模块204用于将所述多个预选框图像输入至非关键帧检测网络,以得到所述检测目标在所述预选框中的位置。
在本实施方式中,所述非关键帧检测网络可以是预先训练的目标检测模型。其中,所述目标检测模型用于表征预选框图像与所述预选框图像包括的检测目标的位置信息的对应关系。
当所述预选框图像输入至所述目标检测模型时,可以确定所述预选框中的检测目标的位置信息。即,所述非关键帧网络是用于获取检测目标在图像中的位置的深度学习神经网络。
相比传统神经网络,深度神经网络具有更多神经元,能够对大规模不同位置、形态的区域目标图像样本进行学习;同时在数据准备阶段,通过增强变换方法可以对同一图像进行翻转变换、色调变换、尺度变换、噪声扰动、颜色变换等操作,从而生成多种不同环境特性的训练图像,使得神经网络检测器对于不同场景,不同环境,不同形状的区域目标都能够进行性能稳定的检测,保证充足的样本数据量,避免过拟合出现。另外,神经网络的Dropout机制能够在训练过程的前馈运算时随机剔除部分神经元,从而减少神经网络之间的相互依赖关系,让神经网络具备更强的泛化能力,避免过拟合。所述深度学习神经网络可以是卷积神经网络、深度信念网络和堆叠自动编码器。
作为实例,所述目标检测模型可以是技术人员基于对大量的预选框图像和预选框图像包括的检测目标的对应关系表,该对应关系表可以反映预选框图像和预选框图像包括的检测目标的对应关系。所述目标检测模型也可以是技术人员基于现有的人工神经网络进行有监督地训练而得到的图像识别模型。
优选地,在将所述多个预选框图像输入至非关键帧检测网络之前,所述视频物体加速检测装置20还可以:将所述多个预选框图像进行缩放处理。
可以理解的是,由于检测目标大小不一,其对应的预选框大小也各不相同。为了快速处理图像,需将所述多个预选框图像进行缩放处理成大小近似的图像,然后将同一大小后图像输入至非关键帧检测网络。
在本实施方式中,将所述非关键帧图像中裁剪出的预选框图像批量输入至非关键帧检测网络之前,可以将所述预选框图像缩放处理成大小相似的图像。如此,实现将统一大小后图像输入至非关键帧检测网络,便于所述非关键帧检测网络快速检测所述检测目标在所述预选框中的位置。
例如,所述当前非关键帧图像中的检测目标包括五个,通过五个预选框分别标记所述五个检测目标,根据所述五个预选框裁剪所述当前非关键帧图像可以得到五个预选框图像。所述五个预选框图像大小不一,需要进行缩放处理成相似大小的五个预选框图像。
所述处理模块204还用于根据所述预选框中的位置将所述检测目标映射至所述非关键帧对应的原图。
可以理解的是,所述检测目标在所述预选框中的位置是视频中的原图经过缩放处理后检测到的位置,因此,需要其进行映射至所述非关键帧对应的原图中以完成对视频图像中的目标的侦测。
综上所述,本发明提供的视频物体加速检测装置20,包括初始化模块201、识别模块202、裁剪模块203及处理模块204。所述初始化模块201用于将视频图像中的所有帧图像分为预设组帧图像,其中,每一组帧图像包括关键帧图像和非关键帧图像;所述识别模块202用于识别所述关键帧图像中的检测目标,并在所述检测目标上标记检测框;所述识别模块202还用于识别所述预设组帧图像中的非关键帧图像中的检测目标,将所述关键帧图中的检测框进行预设比例放大后生成预选框,通过所述预选框标记所述非关键帧图像中的检测目标;所述裁剪模块203用于根据所述预选框裁剪所述非关键帧图像得到多个预选框图像;所述处理模块204用于将所述多个预选框图像输入至非关键帧检测网络,以得到所述检测目标在所述预选框中的位置;及所述处理模块204还用于根据所述预选框中的位置将所述检测目标映射至所述非关键帧对应的原图。
主要针对检测网络在720p以上场景中由于检测锚点过多导致的检测速度慢问题,通过将视频图像分成关键帧图像和非关键帧图像,并对所述非关键帧图像进行简化运算,实现了无需对视频中的每一帧图像都进行精确的目标检测处理,充分利用了视频连续帧的空间相关性,在不损失精度的情况下,极大减少了锚点分类的时间消耗,且在基本不降低检测性能的情况下,大幅优化了检测速度。另外可以通过调节关键帧与非关键帧的比例,可以在不改变算法的基础上,应对不同硬件场景的需求。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,双屏设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
实施例三
图3为本发明实施例三提供的服务器的示意图。
所述服务器3包括:数据库31、存储器32、至少一个处理器33、存储在所述存储器32中并可在所述至少一个处理器33上运行的计算机程序34及至少一条通讯总线35。
所述至少一个处理器33执行所述计算机程序34时实现上述视频物体加速检测方法实施例中的步骤。
示例性的,所述计算机程序34可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器32中,并由所述至少一个处理器33执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序34在所述服务器3中的执行过程。
所述服务器3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(应用程序licationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。本领域技术人员可以理解,所述示意图3仅仅是服务器3的示例,并不构成对服务器3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述服务器3还可以包括输入输出设备、网络接入设备、总线等。
所述数据库(Database)31是按照数据结构来组织、存储和管理数据的建立在所述服务器3上的仓库。数据库通常分为层次式数据库、网络式数据库和关系式数据库三种。在本实施方式中,所述数据库31用于存储所述视频图像。
所述至少一个处理器33可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器33可以是微处理器或者该处理器33也可以是任何常规的处理器等,所述处理器33是所述服务器3的控制中心,利用各种接口和线路连接整个服务器3的各个部分。
所述存储器32可用于存储所述计算机程序34和/或模块/单元,所述处理器33通过运行或执行存储在所述存储器32内的计算机程序和/或模块/单元,以及调用存储在存储器32内的数据,实现所述服务器3的各种功能。所述存储器32可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器3的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器32可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述存储器32中存储有程序代码,且所述至少一个处理器33可调用所述存储器32中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块(初始化模块201、识别模块202、裁剪模块203及处理模块204)是存储在所述存储器32中的程序代码,并由所述至少一个处理器33所执行,从而实现所述各个模块的功能以达到视频物体加速检测目的。
所述初始化模块201用于将视频图像中的所有帧图像分为预设组帧图像,其中,每一组帧图像包括关键帧图像和非关键帧图像;
所述识别模块202用于识别所述关键帧图像中的检测目标,并在所述检测目标上标记检测框;
所述识别模块202还用于识别所述预设组帧图像中的非关键帧图像中的检测目标,将所述关键帧图中的检测框进行预设比例放大后生成预选框,通过所述预选框标记所述非关键帧图像中的检测目标;
所述裁剪模块203用于根据所述预选框裁剪所述非关键帧图像得到多个预选框图像;所述处理模块204用于将所述多个预选框图像输入至非关键帧检测网络,以得到所述检测目标在所述预选框中的位置;及
所述处理模块204还用于根据所述预选框中的位置将所述检测目标映射至所述非关键帧对应的原图。
所述服务器3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
尽管未示出,所述服务器3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理系统与所述至少一个处理器33逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述服务器3还可以包括蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
在本发明所提供的几个实施例中,应该理解到,所揭露的电子设备和方法,可以通过其它的方式实现。例如,以上所描述的电子设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能单元可以集成在相同处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神范围。

Claims (10)

1.一种视频物体加速检测方法,其特征在于,所述方法包括:
将视频图像中的所有帧图像分为预设组帧图像,其中,每一组帧图像包括关键帧图像和非关键帧图像;
识别所述关键帧图像中的检测目标,并在所述检测目标上标记检测框;
识别所述预设组帧图像中的非关键帧图像中的检测目标,将所述关键帧图中的检测框进行预设比例放大后生成预选框,通过所述预选框标记所述非关键帧图像中的检测目标;
根据所述预选框裁剪所述非关键帧图像得到多个预选框图像;
将所述多个预选框图像输入至非关键帧检测网络,以得到所述检测目标在所述预选框中的位置;及
根据所述检测目标在所述预选框中的位置将所述检测目标映射至所述非关键帧对应的原图。
2.如权利要求1所述的视频物体加速检测方法,其特征在于,在将所述多个预选框图像输入至非关键帧检测网络之前,所述视频物体加速检测方法还包括:
将所述多个预选框图像进行缩放处理。
3.如权利要求1所述的视频物体加速检测方法,其特征在于,识别所述预设组帧图像中的非关键帧图像中的检测目标,将所述关键帧图中的检测框进行预设比例放大后生成预选框,通过所述预选框标记所述非关键帧图像中的检测目标包括:
识别所述预设组帧图像中当前非关键帧图像中的检测目标;
将所述当前非关键帧图像对应的前一关键帧图像中的检测框进行预设比例放大后生成预选框,通过所述预选框标记所述当前非关键帧图像中的检测目标;
识别所述当前非关键帧图像对应的后一非关键帧图像中的检测目标;
将所述当前非关键帧图像中的预选框进行预设比例放大后生成第一预选框,通过所述第一预选框标记所述当前非关键帧图像对应的后一非关键帧图像中的检测目标,依此类推,直到标记完所述预设组帧图像中的所有非关键帧图像中的检测目标。
4.如权利要求3所述的视频物体加速检测方法,其特征在于,所述非关键帧网络是用于获取检测目标在图像中的位置的深度学习神经网络。
5.如权利要求1所述的视频物体加速检测方法,其特征在于,所述识别所述关键帧图像中的检测目标包括:
通过不同窗口大小的滑窗对所述关键帧图像按预设顺序进行滑动;
每次滑动时将当前窗口对应的图像输入至预先训练好的分类器;及
当所述分类器处理所述当前窗口对应的图像后输出分类概率大于预设值时,确认识别到所述关键帧图像中的检测目标,输出所述检测目标的标记。
6.如权利要求5所述的视频物体加速检测方法,其特征在于,所述方法还包括:筛选所述检测目标的标记以得到所述关键帧图像中的检测目标。
7.如权利要求6所述的视频物体加速检测方法,其特征在于,所述筛选所述检测目标的标记以得到所述关键帧图像中的检测目标包括:
将所有滑窗输入至所述分类器后得到的概率按照降序排列,选取最大分类概率对应的滑窗;
分别计算其他滑窗与所述最大分类概率对应的滑窗之间的重叠面积,并判断所述重叠面积是否大于预设面积;
若所述重叠面积小于或等于所述预设面积,保留对应的滑窗并输出所述滑窗对应的检测目标;
若所述重叠面积大于所述预设面积,删除对应的滑窗;及
重复上述步骤,直到所有其他滑窗都比对完成。
8.一种视频物体加速检测装置,其特征在于,所述装置包括:
初始化模块,用于将视频图像中的所有帧图像分为预设组帧图像,其中,每一组帧图像包括关键帧图像和非关键帧图像;
识别模块,用于识别所述关键帧图像中的检测目标,并在所述检测目标上标记检测框;
所述识别模块,还用于识别所述预设组帧图像中的非关键帧图像中的检测目标,将所述关键帧图中的检测框进行预设比例放大后生成预选框,通过所述预选框标记所述非关键帧图像中的检测目标;
裁剪模块,用于根据所述预选框裁剪所述非关键帧图像得到多个预选框图像;
处理模块,用于将所述多个预选框图像输入至非关键帧检测网络,以得到所述检测目标在所述预选框中的位置;及
所述处理模块,还用于根据所述检测目标在所述预选框中的位置将所述检测目标映射至所述非关键帧对应的原图。
9.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的视频物体加速检测方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的视频物体加速检测方法。
CN201910523099.6A 2019-06-17 2019-06-17 视频物体加速检测方法、装置、服务器及存储介质 Pending CN110427800A (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201910523099.6A CN110427800A (zh) 2019-06-17 2019-06-17 视频物体加速检测方法、装置、服务器及存储介质
JP2021506484A JP7266668B2 (ja) 2019-06-17 2020-05-29 ビデオ物体の高速検出方法、装置、サーバ及び記憶媒体
SG11202100930VA SG11202100930VA (en) 2019-06-17 2020-05-29 Method and device for accelerated detection of objects in videos, server, and storage medium
PCT/CN2020/093360 WO2020253499A1 (zh) 2019-06-17 2020-05-29 视频物体加速检测方法、装置、服务器及存储介质
US17/167,515 US11816570B2 (en) 2019-06-17 2021-02-04 Method for accelerated detection of object in videos, server, and non-transitory computer readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910523099.6A CN110427800A (zh) 2019-06-17 2019-06-17 视频物体加速检测方法、装置、服务器及存储介质

Publications (1)

Publication Number Publication Date
CN110427800A true CN110427800A (zh) 2019-11-08

Family

ID=68407690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910523099.6A Pending CN110427800A (zh) 2019-06-17 2019-06-17 视频物体加速检测方法、装置、服务器及存储介质

Country Status (5)

Country Link
US (1) US11816570B2 (zh)
JP (1) JP7266668B2 (zh)
CN (1) CN110427800A (zh)
SG (1) SG11202100930VA (zh)
WO (1) WO2020253499A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797728A (zh) * 2020-06-19 2020-10-20 浙江大华技术股份有限公司 一种运动物体的检测方法、装置、计算设备及存储介质
CN111832492A (zh) * 2020-07-16 2020-10-27 平安科技(深圳)有限公司 静态交通异常的判别方法、装置、计算机设备及存储介质
WO2020253499A1 (zh) * 2019-06-17 2020-12-24 平安科技(深圳)有限公司 视频物体加速检测方法、装置、服务器及存储介质
CN112560684A (zh) * 2020-12-16 2021-03-26 北京百度网讯科技有限公司 车道线检测方法、装置、电子设备、存储介质以及车辆
CN113177526A (zh) * 2021-05-27 2021-07-27 中国平安人寿保险股份有限公司 基于人脸识别的图像处理方法、装置、设备及存储介质
CN113516006A (zh) * 2021-04-01 2021-10-19 广州云硕科技发展有限公司 一种用于智能机器人的高效信息处理方法及系统
WO2022042352A1 (zh) * 2020-08-28 2022-03-03 安翰科技(武汉)股份有限公司 图像识别方法、电子设备及可读存储介质
JP2023509750A (ja) * 2020-01-08 2023-03-09 シャンハイ センスタイム リンガン インテリジェント テクノロジー カンパニー リミテッド 表情識別方法及び装置、機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
WO2023138444A1 (zh) * 2022-01-22 2023-07-27 北京眼神智能科技有限公司 行人动作连续检测识别方法、装置、存储介质及计算机设备

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112862806B (zh) * 2021-03-05 2023-01-20 中冶赛迪信息技术(重庆)有限公司 一种皮带机打滑检测方法、系统、介质及电子终端
CN113255564B (zh) * 2021-06-11 2022-05-06 上海交通大学 基于关键对象拼合的实时视频识别加速器
CN113392775B (zh) * 2021-06-17 2022-04-29 广西大学 一种基于深度神经网络的甘蔗幼苗自动识别与计数方法
CN114782400B (zh) * 2022-05-17 2023-06-20 东风本田发动机有限公司 金属物料渣点检测方法、装置、设备、介质和程序产品
CN115797330B (zh) * 2022-12-30 2024-04-05 北京百度网讯科技有限公司 基于超声视频的算法修正方法、超声视频生成方法和设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060228029A1 (en) * 2005-03-29 2006-10-12 Microsoft Corporation Method and system for video clip compression
CN108230357A (zh) * 2017-10-25 2018-06-29 北京市商汤科技开发有限公司 关键点检测方法、装置、存储介质、计算机程序和电子设备
US20180268208A1 (en) * 2017-03-20 2018-09-20 Microsoft Technology Licensing, Llc Feature flow for video recognition

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7760956B2 (en) * 2005-05-12 2010-07-20 Hewlett-Packard Development Company, L.P. System and method for producing a page using frames of a video stream
US8620026B2 (en) * 2011-04-13 2013-12-31 International Business Machines Corporation Video-based detection of multiple object types under varying poses
KR101804848B1 (ko) * 2011-04-22 2017-12-06 삼성전자주식회사 비디오 객체 탐색 장치, 비디오 객체 변형 장치 및 그 방법
JP2018005520A (ja) * 2016-06-30 2018-01-11 クラリオン株式会社 物体検出装置及び物体検出方法
US11257198B1 (en) * 2017-04-28 2022-02-22 Digimarc Corporation Detection of encoded signals and icons
US10497122B2 (en) * 2017-10-11 2019-12-03 Adobe Inc. Image crop suggestion and evaluation using deep-learning
US20190130583A1 (en) * 2017-10-30 2019-05-02 Qualcomm Incorporated Still and slow object tracking in a hybrid video analytics system
CN108229336B (zh) * 2017-12-13 2021-06-04 北京市商汤科技开发有限公司 视频识别及训练方法和装置、电子设备、程序和介质
US10818033B2 (en) * 2018-01-18 2020-10-27 Oath Inc. Computer vision on broadcast video
US20190304102A1 (en) * 2018-03-30 2019-10-03 Qualcomm Incorporated Memory efficient blob based object classification in video analytics
CN108830246B (zh) * 2018-06-25 2022-02-15 中南大学 一种交通环境行人多维运动特征视觉提取方法
US10810435B2 (en) * 2018-11-07 2020-10-20 Adobe Inc. Segmenting objects in video sequences
CN109685066B (zh) * 2018-12-24 2021-03-09 中国矿业大学(北京) 一种基于深度卷积神经网络的矿井目标检测与识别方法
CN110427800A (zh) * 2019-06-17 2019-11-08 平安科技(深圳)有限公司 视频物体加速检测方法、装置、服务器及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060228029A1 (en) * 2005-03-29 2006-10-12 Microsoft Corporation Method and system for video clip compression
US20180268208A1 (en) * 2017-03-20 2018-09-20 Microsoft Technology Licensing, Llc Feature flow for video recognition
CN108230357A (zh) * 2017-10-25 2018-06-29 北京市商汤科技开发有限公司 关键点检测方法、装置、存储介质、计算机程序和电子设备

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020253499A1 (zh) * 2019-06-17 2020-12-24 平安科技(深圳)有限公司 视频物体加速检测方法、装置、服务器及存储介质
US11816570B2 (en) 2019-06-17 2023-11-14 Ping An Technology (Shenzhen) Co., Ltd. Method for accelerated detection of object in videos, server, and non-transitory computer readable storage medium
JP2023509750A (ja) * 2020-01-08 2023-03-09 シャンハイ センスタイム リンガン インテリジェント テクノロジー カンパニー リミテッド 表情識別方法及び装置、機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
JP7317241B2 (ja) 2020-01-08 2023-07-28 シャンハイ センスタイム リンガン インテリジェント テクノロジー カンパニー リミテッド 表情識別方法及び装置、機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
CN111797728A (zh) * 2020-06-19 2020-10-20 浙江大华技术股份有限公司 一种运动物体的检测方法、装置、计算设备及存储介质
CN111832492A (zh) * 2020-07-16 2020-10-27 平安科技(深圳)有限公司 静态交通异常的判别方法、装置、计算机设备及存储介质
CN111832492B (zh) * 2020-07-16 2024-06-04 平安科技(深圳)有限公司 静态交通异常的判别方法、装置、计算机设备及存储介质
WO2022042352A1 (zh) * 2020-08-28 2022-03-03 安翰科技(武汉)股份有限公司 图像识别方法、电子设备及可读存储介质
CN112560684B (zh) * 2020-12-16 2023-10-24 阿波罗智联(北京)科技有限公司 车道线检测方法、装置、电子设备、存储介质以及车辆
US11967132B2 (en) 2020-12-16 2024-04-23 Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. Lane marking detecting method, apparatus, electronic device, storage medium, and vehicle
CN112560684A (zh) * 2020-12-16 2021-03-26 北京百度网讯科技有限公司 车道线检测方法、装置、电子设备、存储介质以及车辆
CN113516006A (zh) * 2021-04-01 2021-10-19 广州云硕科技发展有限公司 一种用于智能机器人的高效信息处理方法及系统
CN113177526B (zh) * 2021-05-27 2023-10-03 中国平安人寿保险股份有限公司 基于人脸识别的图像处理方法、装置、设备及存储介质
CN113177526A (zh) * 2021-05-27 2021-07-27 中国平安人寿保险股份有限公司 基于人脸识别的图像处理方法、装置、设备及存储介质
WO2023138444A1 (zh) * 2022-01-22 2023-07-27 北京眼神智能科技有限公司 行人动作连续检测识别方法、装置、存储介质及计算机设备

Also Published As

Publication number Publication date
WO2020253499A1 (zh) 2020-12-24
SG11202100930VA (en) 2021-02-25
JP7266668B2 (ja) 2023-04-28
US11816570B2 (en) 2023-11-14
US20210182567A1 (en) 2021-06-17
JP2021533497A (ja) 2021-12-02

Similar Documents

Publication Publication Date Title
CN110427800A (zh) 视频物体加速检测方法、装置、服务器及存储介质
CN108596277B (zh) 一种车辆身份识别方法、装置和存储介质
CN104463117B (zh) 一种基于视频方式的人脸识别样本采集方法及系统
CN101271515B (zh) 能识别多角度目标的图像检测装置
CN104809187B (zh) 一种基于rgb‑d数据的室内场景语义标注方法
CN104156937B (zh) 阴影检测方法和装置
Muja et al. Rein-a fast, robust, scalable recognition infrastructure
CN111181939A (zh) 一种基于集成学习的网络入侵检测方法及装置
CN109697434A (zh) 一种行为识别方法、装置和存储介质
CN110414313A (zh) 异常行为告警方法、装置、服务器及存储介质
CN105608441B (zh) 一种车型识别方法及系统
CN105654066A (zh) 一种车辆识别方法及装置
CN107808126A (zh) 车辆检索方法及装置
CN104809469A (zh) 一种面向服务机器人的室内场景图像分类方法
CN110069959A (zh) 一种人脸检测方法、装置及用户设备
CN108961267A (zh) 图片处理方法、图片处理装置及终端设备
CN108564598A (zh) 一种改进的在线Boosting目标跟踪方法
CN112257799A (zh) 一种生活垃圾目标检测的方法、系统及装置
CN113516146A (zh) 一种数据分类方法、计算机及可读存储介质
CN110009038A (zh) 筛查模型的训练方法、装置及存储介质
CN109740527B (zh) 一种视频帧中图像处理方法
CN116091748B (zh) 一种基于aigc的图像识别系统及装置
CN106373121A (zh) 模糊图像识别方法和装置
CN115171042A (zh) 一种学生课堂行为的识别方法、装置、终端设备及介质
CN108924753A (zh) 用于场景的实时检测的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination