CN108073933B - 一种目标检测方法及装置 - Google Patents
一种目标检测方法及装置 Download PDFInfo
- Publication number
- CN108073933B CN108073933B CN201610980457.2A CN201610980457A CN108073933B CN 108073933 B CN108073933 B CN 108073933B CN 201610980457 A CN201610980457 A CN 201610980457A CN 108073933 B CN108073933 B CN 108073933B
- Authority
- CN
- China
- Prior art keywords
- cnn
- image sequence
- feature
- detected
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24317—Piecewise classification, i.e. whereby each classification requires several discriminant rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种目标检测方法及装置,涉及视频处理技术领域,上述方法包括:从待检测视频中获得待检测图像序列;基于预先训练的CNN模型,提取待检测图像序列的第一CNN特征,根据第二CNN特征对第一CNN特征进行特征融合,获得第一融合CNN特征;将第一融合CNN特征输入至第一级分类器,获得第一备选目标区域;根据第一备选目标区域,确定第二级分类器的第一输入区域;根据第一融合CNN特征,获得第一输入区域的第三CNN特征;将第三CNN特征输入至第二级分类器,根据第二级分类器的输出结果,获得针对待检测图像序列的目标检测结果。应用本申请实施例提供的方案进行目标检测,提高了针对视频进行目标检测时的准确度。
Description
技术领域
本申请涉及视频处理技术领域,特别涉及一种目标检测方法及装置。
背景技术
随着网络技术以及硬件技术的快速发展,视频越来越多的出现在人们的生活中,对人们生活的影响越来越大。例如,视频监控技术中的监控视频,使得人们能够方便、直观的了解整个监控场景的动态情况。
以上述监控视频为例,人们可能需要特别关注具有某些特征的目标,例如,快速跑动的人、在特定区域徘徊的人等等,为此,实际应用中需要对视频中的目标进行检测。
相关技术中进行目标检测时,一般是以视频中的单帧图像为单位进行检测,检测单帧图像中是否存在满足特定特征的疑似目标区域,例如,上述特定特征为:跑步动作的特征,在检测出多个单帧图像中存在的满足特定特征的疑似目标区域后,再根据连续多个单帧图像中检测出的疑似目标区域生成运动轨迹,最后根据上述运动轨迹检测视频中是否存在具有特定特征的目标。
通常情况下上述特定特征需要通过多帧图像才能完整表现,而单帧图像仅仅能够表现目标某一时刻的特征,因此,目标在单一时刻的特征很可能与其他特定特征某一时刻的特征相似,例如:跑步动作中两腿并拢时的动作特征与正常行走时的动作特征极其相似。鉴于上述情况,应用上述方式检测出的单帧图像中的疑似目标区域可能存在误差,进而导致针对视频的目标检测准确度低。
发明内容
本申请实施例公开了一种目标检测方法及装置,以提升针对视频的目标检测准确度。
为达到上述目的,本申请实施例公开了一种目标检测方法,所述方法包括:
根据基于视频时序的图像序列确定算法,从待检测视频中获得待检测图像序列;
基于预先训练的卷积神经网络CNN模型,提取所述待检测图像序列的第一CNN特征,并根据第二CNN特征对所述第一CNN特征进行特征融合,获得所述待检测图像序列的第一融合CNN特征,其中,所述第二CNN特征为:所述待检测视频中已检测图像序列的CNN特征,所述CNN模型包括:第一级分类器和第二级分类器,所述第一级分类器为:根据样本图像序列的第二融合CNN特征和所述样本图像序列中目标所在标定区域,对CNN进行训练得到的分类器,所述第二级分类器为:根据所述第二融合CNN特征、标定区域和第一级分类器的输出结果对CNN进行训练得到的分类器,所述样本图像序列为:根据所述图像序列确定算法,从样本视频中获得的图像序列;
将所述第一融合CNN特征输入至所述第一级分类器,从所述第一级分类器的输出结果中,获得所述待检测图像序列中的第一备选目标区域;
根据所述第一备选目标区域,确定所述第二级分类器的第一输入区域;
根据所述第一融合CNN特征,获得所述第一输入区域的第三CNN特征;
将所述第三CNN特征输入至所述第二级分类器,根据所述第二级分类器的输出结果,获得针对所述待检测图像序列的目标检测结果。
在本申请的一种实现方式中,所述根据基于视频时序的图像序列确定算法,从待检测视频中获得待检测图像序列的步骤,包括:
基于视频时序,根据预设的图像重复度,从待检测视频中获得包含预设数量个图像的待检测图像序列,其中,所述图像重复度,表示相邻两次从所述待检测视频中获得的图像序列之间所包含重复图像的数量。
在本申请的一种实现方式中,所述根据第二CNN特征对所述第一CNN特征进行特征融合,获得所述待检测图像序列的第一融合CNN特征的步骤,包括:
获得第一已检测图像序列的第三融合CNN特征,其中,所述第一已检测图像序列为:按照视频时序、与所述待检测图像序列相邻的已检测图像序列,所述第三融合CNN特征,是根据所述第一已检测图像序列之前已检测图像序列的CNN特征确定的;
采用所述第三融合CNN特征对所述第一CNN特征进行特征融合,获得待检测图像序列的第一融合CNN特征。
在本申请的一种实现方式中,所述采用所述第三融合CNN特征对所述第一CNN特征进行特征融合,获得所述待检测图像序列的第一融合CNN特征的步骤,包括:
基于预先训练的循环神经网络RNN模型,对所述第三融合CNN特征和所述第一CNN特征进行特征融合,获得所述待检测图像序列的第一融合CNN特征,其中,所述RNN模型是:根据第一样本图像序列的融合CNN特征和第二样本序列的CNN特征对RNN进行训练得到的,所述第一样本图像序列为:按照视频时序在所述第二样本图像序列之前,且与所述第二样本图像序列相邻的样本图像序列。
在本申请的一种实现方式中,通过以下方式获得所述第一级分类器:
确定所述样本图像序列中的所述标定区域;
获得所述第二融合CNN特征;
基于所述标定区域,确定所述样本图像序列中的初始样本区域,其中,对于每一标定区域,所述初始样本区域中至少存在一个样本区域与该标定区域的重合度大于预设阈值;
采用所述第二融合CNN特征、所述标定区域和所述初始样本区域对CNN进行第一次训练,获得所述第一级分类器和第一次训练的结果。
在本申请的一种实现方式中,所述第一次训练的结果中包含第二备选目标区域;
通过以下方式获得所述第二级分类器:
根据所述第二备选目标区域,确定针对所述第二级分类器的第二输入区域;
根据所述第二融合CNN特征,获得所述第二输入区域的第四CNN特征;
通过所述第四CNN特征和所述标定区域对CNN进行第二次训练,获得所述第二级分类器。
在本申请的一种实现方式中,所述第一次训练的结果中还包括:所述第二备选目标区域中包含目标的第一概率;
所述根据所述第二备选目标区域,确定针对所述第二级分类器的第二输入区域的步骤,包括:
根据预设的非极大值抑制算法和所述第一概率,从所述第二备选目标本区域中选择针对所述第二级分类器的第二输入区域。
在本申请的一种实现方式中,所述第一级分类器的输出结果中包括:所述第一备选目标区域中包含目标的第二概率;
所述根据所述第一备选目标区域,确定所述第二级分类器的第一输入区域的步骤,包括:
根据所述非极大值抑制算法和所述第二概率,从所述第一备选目标区域中选择所述第二级分类器的第一输入区域。
为达到上述目的,本申请实施例公开了一种目标检测装置,所述装置包括:
序列获得模块,用于根据基于视频时序的图像序列确定算法,从待检测视频中获得待检测图像序列;
特征提取模块,用于基于预先训练的卷积神经网络CNN模型,提取所述待检测图像序列的第一CNN特征,其中,所述CNN模型包括:第一级分类器和第二级分类器,所述第一级分类器为:根据样本图像序列的第二融合CNN特征和所述样本图像序列中目标所在标定区域,对CNN进行训练得到的分类器,所述第二级分类器为:根据所述第二融合CNN特征、标定区域和第一级分类器的输出结果对CNN进行训练得到的分类器,所述样本图像序列为:根据所述图像序列确定算法,从样本视频中获得的图像序列;
第一特征获得模块,用于根据第二CNN特征对所述第一CNN特征进行特征融合,获得所述待检测图像序列的第一融合CNN特征,其中,所述第二CNN特征为:所述待检测视频中已检测图像序列的CNN特征;
区域获得模块,用于将所述第一融合CNN特征输入至所述第一级分类器,从所述第一级分类器的输出结果中,获得所述待检测图像序列中的第一备选目标区域;
区域确定模块,用于根据所述第一备选目标区域,确定所述第二级分类器的第一输入区域;
第二特征获得模块,用于根据所述第一融合CNN特征,获得所述第一输入区域的第三CNN特征;
结果获得模块,用于将所述第三CNN特征输入至所述第二级分类器,根据所述第二级分类器的输出结果,获得针对所述待检测图像序列的目标检测结果。
在本申请的一种实现方式中,所述序列获得模块,具体用于基于视频时序,根据预设的图像重复度,从待检测视频中获得包含预设数量个图像的待检测图像序列,其中,所述图像重复度,表示相邻两次从所述待检测视频中获得的图像序列之间所包含重复图像的数量。
在本申请的一种实现方式中,所述特征获得模块,包括:
第一特征获得单元,用于获得第一已检测图像序列的第三融合CNN特征,其中,所述第一已检测图像序列为:按照视频时序、与所述待检测图像序列相邻的已检测图像序列,所述第三融合CNN特征,是根据所述第一已检测图像序列之前已检测图像序列的CNN特征确定的;
第二特征获得单元,用于采用所述第三融合CNN特征对所述第一CNN特征进行特征融合,获得待检测图像序列的第一融合CNN特征。
在本申请的一种实现方式中,所述第二特征获得单元,具体用于基于预先训练的循环神经网络RNN模型,对所述第三融合CNN特征和所述第一CNN特征进行特征融合,获得所述待检测图像序列的第一融合CNN特征,其中,所述RNN模型是:根据第一样本图像序列的融合CNN特征和第二样本序列的CNN特征对RNN进行训练得到的,所述第一样本图像序列为:按照视频时序在所述第二样本图像序列之前,且与所述第二样本图像序列相邻的样本图像序列。
在本申请的一种实现方式中,所述目标检测装置还包括:
第一分类器获得模块,用于获得所述第一级分类器;
其中,所述第一分类器获得模块,包括:
第一区域确定单元,用于确定所述样本图像序列中的所述标定区域;
第三特征获得单元,用于获得所述第二融合CNN特征;
第二区域确定单元,用于基于所述标定区域,确定所述样本图像序列中的初始样本区域,其中,对于每一标定区域,所述初始样本区域中至少存在一个样本区域与该标定区域的重合度大于预设阈值;
第一分类器获得单元,用于采用所述第二融合CNN特征、所述标定区域和所述初始样本区域对CNN进行第一次训练,获得所述第一级分类器和第一次训练的结果。
在本申请的一种实现方式中,所述第一次训练的结果中包含第二备选目标区域;
所述目标检测装置还包括:
第二分类器获得模块,用于获得所述第二级分类器;
其中,所述第二分类器获得模块,包括:
第三区域确定单元,用于根据所述第二备选目标区域,确定针对所述第二级分类器的第二输入区域;
第四特征获得单元,用于根据所述第二融合CNN特征,获得所述第二输入区域的第四CNN特征;
第二分类器获得单元,用于通过所述第四CNN特征和所述标定区域对CNN进行第二次训练,获得所述第二级分类器。
在本申请的一种实现方式中,所述第一次训练的结果中还包括:所述第二备选目标区域中包含目标的第一概率;
所述第三区域确定单元,具体用于根据预设的非极大值抑制算法和所述第一概率,从所述第二备选目标区域中选择针对所述第二级分类器的第二输入区域。
在本申请的一种实现方式中,所述第一级分类器的输出结果中包括:所述第一备选目标区域中包含目标的第二概率;
所述区域确定模块,具体用于根据所述非极大值抑制算法和所述第二概率,从所述第一备选目标区域中选择所述CNN网络的第二级分类器的第一输入区域。
由以上可见,本申请实施例中,从待检测视频中获得待检测图像序列,基于预先训练的CNN模型,提取该待检测图像序列的第一CNN特征,并根据待检测视频中已检测图像序列的CNN特征计算待检测图像序列的第一融合CNN特征,然后将上述第一融合CNN特征输入CNN模型的第一级分类器,获得待检测图像序列中的第一备选目标区域,根据上述第一备选目标区域,确定上述CNN网络的第二级分类器的第一输入区域后,根据第一融合CNN特征,获得第一输入区域的第三CNN特征,将上述第三CNN特征输入CNN模型的第二级分类器,最后根据第二级类分类器的输出结果,获得针对待检测图像序列的目标检测结果。本申请实施例提供的方案中,用于确定第一备选目标区域的CNN特征是根据待检测图像序列的CNN特征以及已检测图像序列的CNN特征获得的,考虑了一系列图像的CNN特征,也就是考虑了视频中图像之间的相关性,而不再是单纯的仅考虑一帧图像的特征,因此,能够更加准确的反应图像中目标的特征,进而提高针对视频进行目标检测的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种目标检测方法的流程示意图;
图2为本申请实施例提供的一种获得分类器的方法的流程示意图;
图3为本申请实施例提供的另一种获得分类器的方法的流程示意图;
图4a为本申请实施例提供的第一张CNN训练过程的示意图;
图4b为本申请实施例提供的第二张CNN训练过程的示意图;
图4c为本申请实施例提供的第三张CNN训练过程的示意图;
图4d为本申请实施例提供的第四张CNN训练过程的示意图;
图4e为本申请实施例提供的第一张目标检测过程的示意图;
图4f为本申请实施例提供的第二张目标检测过程的示意图;
图4g为本申请实施例提供的第三张目标检测过程的示意图;
图4h为本申请实施例提供的第四张目标检测过程的示意图;
图5为本申请实施例提供的一种目标检测装置的结构示意图;
图6为本申请实施例提供的一种获得分类器的装置的结构示意图;
图7为本申请实施例提供的另一种获得分类器的装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种目标检测方法的流程示意图,该方法可以应用于摄像机,也可以应用于视频存储设备或者服务器等,在此不做限定。该方法包括:
S101:根据基于视频时序的图像序列确定算法,从待检测视频中获得待检测图像序列。
上述视频时序可以理解为视频中各帧图像的播放顺序,也就是显示顺序。
上述待检测图像序列可以理解为:待检测视频中一定数量的图像按照上述视频时序形成的图像集合。其中,上述一定数量的取值可以为:1帧、2帧、3帧、5帧等等,较佳的,上述一定数量的取值大于1。
具体的,上述取值的选择一般与具体应用场景相关,如需要检测静止场景中的目标,则上述取值可以设置为1帧等较小的数值,而需要检测运动场景中的目标,则上述区域可以设置的稍微大一些,例如,5帧、7帧等等。
另外,上述图像序列确定算法可以是与要选取图像的数量等信息相关的算法,当然,还可以与其他信息相关,例如,视频中各图像之间存在时间相关性,也就是连续的图像之间画面内容存在连贯性,基于此,为了得到较佳的目标检测效果,在从待检测视频中选择图像确定待检测图像序列时,两次相邻的选择操作中所选择的图像之间可以存在部分重复图像,所以上述图像序列确定算法还可以是与重复图像的数量相关的算法。
基于上述情况,在本申请的一种实现方式中,根据基于视频时序的图像序列确定算法,从待检测视频中获得待检测图像序列时,可以基于视频时序,根据预设的图像重复度,从待检测视频中获得包含预设数量个图像的待检测图像序列。
其中,上述图像重复度,表示相邻两次从待检测视频中获得的图像序列之间所包含重复图像的数量,该图像重复度的取值可以为:0、1、2等等。
另外,上述预设数量的取值可以为:3、4、5等等。
下面通过一个具体实例对上述情况进行说明:
假设,上述预设数量的取值为:5,上述图像重复度的取值为:2,则各次从待检测图像中获得的图像序列所包含的图像分别如下表1所示。
表1
获得次数 | 图像在待检测视频中的播放顺序 |
第一次 | 第1帧、第2帧、第3帧、第4帧、第5帧 |
第二次 | 第4帧、第5帧、第6帧、第7帧、第8帧 |
第三次 | 第7帧、第8帧、第9帧、第10帧、第11帧 |
S102:基于预先训练的CNN(Convolutional Neural Network,卷积神经网络)模型,提取待检测图像序列的第一CNN特征,并根据第二CNN特征对第一CNN特征进行特征融合,获得待检测图像序列的第一融合CNN特征。
上述CNN模型包括:第一级分类器和第二级分类器,其中,第一级分类器可以根据样本图像序列的第二融合CNN特征和样本图像序列中目标所在标定区域,对CNN进行训练得到;第二级分类器可以根据第二融合CNN特征、标定区域和第一级分类器的输出结果对CNN进行训练得到;样本图像序列可以为:根据图像序列确定算法,从样本视频中获得的若干个连续图像(或者,一个图像序列可以是一组图像)。上述标定区域可以是通过人工标定的方式确定的。
需要说明的是,从样本视频中获得样本图像序列时,所采用的图像序列确定算法需与S101中从待检测视频中获得待检测图像序列的算法一致。
对CNN进行训练时,为保证得到的较佳的训练结果,可以考虑选择多样化的样本视频,例如,包含目标的正样本视频、不包含目标的负样本视频、一部分包含目标一部分不包含目标的视频等等。
具体如何获得第一级分类器和第二级分类器,可参考如下图2、图3所示实施例。
另外,上述第二CNN特征包括:待检测视频中已检测图像序列的CNN特征。
上述CNN特征可以理解为:基于CNN模型提取的图像特征。其中,CNN是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,申请人经过大量实验发现CNN对于大型图像处理具有出色的表现。
通常情况下待检测视频是由众多图像组成的,所以,在对待检测视频进行目标检测时,可以按照检测顺序依次从待检测视频中确定出两个或两个以上图像序列,基于此,上述S101中确定出的待检测图像序列可以分为以下两种情况:
第一种情况:待检测图像序列是待检测视频的第一个图像序列;
第二种情况:待检测图像序列不是待检测视频的第一个图像序列。
当待检测图像序列属于上述第二种情况时,可能已经完成过针对待检测视频的其他图像序列的目标检测,在对上述待检测图像序列之前的其他图像序列进行目标检测时,也可以采用本申请实施例提供的目标检测方法进行。
值得一提的是,上述第一CNN特征可以理解为:由待检测图像序列中包含的所有图像共同确定的一个CNN特征。例如,待检测图像序列包括两张图像,则上述第一CNN特征为:由这两张图像共同确定的一个CNN特征。
由于视频中播放顺序连续的各个图像之间具有时间相关性,上述图像序列确定算法又是基于视频时序的,所以待检测图像序列与在其之前获得的图像序列之间也具有相关性,因而为减小目标检测的误差,在目标检测过程中除了可以考虑待检测图像序列本身的特征外,还可以考虑在待检测图像序列之前确定的图像序列。
鉴于上述情况,在本申请的一种实现方式中,根据第二CNN特征对第一CNN特征进行特征融合,获得待检测图像序列的第一融合CNN特征时,可以先获得第一已检测图像序列的第三融合CNN特征,再采用第三融合CNN特征对第一CNN特征进行特征融合,获得待检测图像序列的第一融合CNN特征。
其中,第一已检测图像序列为:按照视频时序、与待检测图像序列相邻的已检测图像序列,第三融合CNN特征,是根据第一已检测图像序列之前已检测图像序列的CNN特征确定的。
由于第三融合CNN特征是根据第一已检测图像序列之前已检测图像序列的CNN特征确定的,所以采用第三融合CNN特征对第一CNN特征进行特征融合时,也就考虑了待检测图像序列之前已检测图像序列的CNN特征,即待检测视频中已检测图像序列的CNN特征。
具体的,上述第三融合CNN特征可以是:采用第四融合CNN特征对第一已检测图像序列的CNN特征进行特征融合得到的,其中,第四融合CNN特征为第二已检测图像序列之前已检测图像序列的CNN特征确定的,第二已检测图像序列为:按照视频时序、在第一已检测图像序列之前且与第一已检测图像序列相邻的已检测图像序列。这样来看每一图像序列的融合CNN特征可以是采用递归形式进行特征融合得到的。也就是说,这种情况下,获得上述第一融合CNN特征和第三融合CNN特征的思路是一致的,那么,在获得待检测视频各个图像序列的融合CNN特征时,可以均采用这一思想进行。
或者,也可以通过其他方式获得第三融合CNN特征,本申请并不对此进行限定。
在本申请的一种实现方式中,采用第三融合CNN特征对所述第一CNN特征进行特征融合,获得所述待检测图像序列的第一融合CNN特征时,可以基于预先训练的RNN(Recurrent Neural Network,循环神经网络)模型,对上述第三融合CNN特征和第一CNN特征进行特征融合,获得待检测图像序列的第一融合CNN特征。
其中,RNN模型是:根据第一样本图像序列的融合CNN特征和第二样本序列的CNN特征对RNN进行训练得到的,第一样本图像序列为:按照视频时序在第二样本图像序列之前,且与所述第二样本图像序列相邻的样本图像序列。
RNN(Recurrent Neural Network,循环神经网络)模型,是一类以在网络中出现环为特点的网络模型,上述RNN模型的基本组成单元为神经元,并且该模型能够反映神经元这一时刻的输入与前一时刻输出的依赖关系。
其中,上述神经元可以理解为数学上神经网络中的逻辑回归模型。
基于RNN模型进行特征融合时,可以采用LSTM(Long Short-Term Memory,LSTM)层进行特征融合,也可以采用简单的RNN隐含层进行特征融合。通过RNN模型融合CNN特征,可以有效地利用视频中相邻图像间的相关信息,提高目标检测的准确度。
S103:将第一融合CNN特征输入至第一级分类器,从第一级分类器的输出结果中,获得待检测图像序列中的第一备选目标区域。
一种情况下,上述第一级分类器的输出结果中可以包括:可能包含目标的区域以及这些区域包含目标的概率,这些区域中有些区域包含目标的概率较高,而有些区域则包含目标的概率较低,为此可以先对这些区域进行选择,例如,选择概率大于第一预设阈值的区域作为第一备选目标区域。
另一种情况下,上述第一级分类器还可以对上述可能包含目标的区域进行选择,仅仅将概率高于第一预设阈值的区域作为结果输出,这种情况下,可以直接从第一级分类器的输出结果中获得第一备选目标区域,也就是上述输出结果中包含的区域,当然这种情况下,上述第一级分类器的输出结果中也可以包含:所输出的各个区域中包含目标的概率。
可以理解的,待检测图像序列是由图像组成的,所以上述第一备选目标区域对应于待检测图像序列各个图像中的相应区域。
S104:根据第一备选目标区域,确定第二级分类器的第一输入区域。
可以理解的,可以直接将所有第一备选目标区域确定为上述第一输入区域,但是当第一备选目标区域数量较多时,后期第二级分类器的计算压力较大。鉴于这种情况,又考虑到第一备选目标区域中可能会存在位置相近的区域,所以为减小计算量可以在位置相近的区域中进行筛选,仅保留其中的一部分用于进行目标检测。基于此,在第一级分类器的输出结果中包括:第一备选目标区域中包含目标的第二概率的情况下,根据第一备选目标区域,确定CNN网络的第二级分类器的第一输入区域时,可以根据预设的非极大值抑制算法和上述第二概率,从第一备选目标区域中选择CNN网络的第二级分类器的第一输入区域。
具体的,根据预设的非极大值抑制算法和上述第二概率,从第一备选目标区域中选择第二级分类器的第一输入区域时,采用上述非极大值抑制算法找到第一备选目标区域中位置相近的区域后,可以按照所找到的这些区域第二概率由高到低的顺序,进行区域选择,例如,选择第二概率最高的区域,进而确定第二级分类器的第一输入区域。
S105:根据第一融合CNN特征,获得第一输入区域的第三CNN特征。
由于第一融合CNN特征所反映的是待检测图像序列整体的特征,而各个图像中不同区域可能会具有不同的特征,所以为检测各个区域中是否存在目标,还需要获得各个区域的CNN特征。
第一融合CNN特征虽然反映的是待检测图像序列整体的特征,但是其中也记录了待检测图像序列各个图像中不同区域与上述第一融合CNN特征中具体信息的对应关系,上述不同区域对应的具体信息,可以理解为:不同区域对应的CNN特征,另外,上述第一融合CNN特征中还记录了不同区域对应CNN特征的长度,所以说,上述第一融合CNN特征也在一定程度上保留了待检测图像序列中各图像的空间信息,故可将第一融合CNN特征视为多通道的第一融合CNN特征图像。也就是说,对于待检测图像序列中的图像而言,其中固定大小的区域在第一融合CNN特征图像中对应固定长度的CNN特征向量,即:第一融合CNN特征图像中的一个区域。
因此,根据第一融合CNN特征,获得第一输入区域的第三CNN特征时,可以基于待检测图像序列中图像的各区域和第一融合CNN特征图像的空间对应关系,通过对第一融合CNN特征图像做相应的裁剪和缩放操作,进而提取第一输入区域的CNN特征。其中,裁剪操作是为了获取指定区域的特征,而缩放操作是为了将所获取指定区域的特征限制到固定维数,进而保证所有区域的特征均具有相同的维数,以便后期统一处理。
具体的,可以将待检测图像序列某一图像中的大区域分解为:M*N个小区域,通过在第一融合CNN特征图像上进行裁剪操作,得到这M*N个小区域在上述第一融合CNN特征图像中对应M*N个CNN特征向量,即:D个通道的M*N的小图像,然后将这些小图像缩放为D个通道的固定大小的图像,得到上述大区域的CNN特征,即得到:M*N*D的CNN特征,其中,D表示CNN特征向量的长度,M表示横向小区域的数量,N表示纵向小区域的数量。
S106:将第三CNN特征输入至第二级分类器,根据第二级分类器的输出结果,获得针对待检测图像序列的目标检测结果。
具体的,上述第二级分类器的输出结果中可以包括:各个第一输入区域包含目标的概率。根据第二级分类器的输出结果,获得针对待检测图像序列的目标检测结果时,可以将第一输入区域中概率大于第二预设阈值的区域确定为待检测图像序列中包含目标的区域。
另外,第二级分类器还可以直接根据分析得到的概率进行选择,直接将第一输入区域中概率大于第二预设阈值的区域作为检测结果输出。
需要说明的是,本申请仅仅以上述为例进行说明,并不对本申请构成限定。
下面通过具体实施例分别对如何获得上述第一级分类器和第二级分类器进行说明。
在本申请的一种实现方式中,参见图2,提供了一种生成分类器的方法的流程示意图,该方法包括:
S201:确定样本图像序列中的标定区域。
上述样本图像序列为:根据前述图像序列确定算法,从样本视频中获得的图像序列。
上述标定区域可以是通过人工标定的方式确定的。
S202:获得上述第二融合CNN特征。
在本申请的一种实现方式中,上述第二融合CNN特征可以是通过以下方式获得的:
首先,提取样本图像序列的第五CNN特征,然后根据第六CNN特征对上述第五CNN特征进行特征融合,获得样本图像序列的第二融合CNN特征。其中,上述第六CNN特征包括:样本视频中已训练图像序列的CNN特征。
由于视频中播放顺序连续的各个图像之间具有时间相关性,上述样本图像序列一般是基于视频时序从样本视频中确定的,所以样本图像序列与在其之前获得的图像序列之间也具有相关性,因而为得到更加准确的第一分类器,在生成第一分类器的过程中除了可以考虑待样本图像序列本身的特征外,还可以考虑在样本图像序列之前确定的图像序列。
鉴于上述情况,在本申请的一种实现方式中,根据第六CNN特征对第五CNN特征进行特征融合,获得第二融合CNN特征时,可以先获得第一已训练图像序列的第五融合CNN特征,再采用第五融合CNN特征对第五CNN特征进行特征融合,获得样本图像序列的第二融合CNN特征。
其中,第一已训练图像序列为:按照视频时序、与样本图像序列相邻的已训练图像序列,第五融合CNN特征,是根据第一已训练图像序列之前已训练图像序列的CNN特征确定的。
由于第五融合CNN特征是根据第一已训练图像序列之前已训练图像序列的CNN特征确定的,所以采用第五融合CNN特征对第五CNN特征进行特征融合时,也就考虑了样本图像序列之前已训练图像序列的CNN特征,即样本视频中已训练图像序列的CNN特征。
具体的,上述第五融合CNN特征可以是:采用第六融合CNN特征对第一已训练图像序列的CNN特征进行特征融合得到的,其中,第六融合CNN特征为第二已训练图像序列之前已训练图像序列的CNN特征确定的,第二已训练图像序列为:按照视频时序、在第一已训练图像序列之前且与第一已训练图像序列相邻的已训练图像序列。每一图像序列的融合CNN特征可以是采用递归形式进行特征融合得到的。也就是说,这种情况下,获得上述第二融合CNN特征和第五融合CNN特征的思路是一致的,那么,在获得待检测视频各个图像序列的融合CNN特征时,可以均采用这一思想进行。
或者,也可以通过其他方式获得第五融合CNN特征,本申请并不对此进行限定。
在本申请的一种实现方式中,采用第五融合CNN特征对所述第五CNN特征进行特征融合,获得样本图像序列的第二融合CNN特征时,可以基于预先训练的RNN模型,对上述第五融合CNN特征和第五CNN特征进行特征融合,获得样本图像序列的第二融合CNN特征。
S203:基于上述标定区域,确定样本图像序列中的初始样本区域。
其中,对于每一标定区域,初始样本区域中至少存在一个样本区域与该标定区域的重合度大于预设阈值。
在样本图像序列中确定初始样本区域时,除了上述重合度因素外,还可以要求初始样本区域均匀覆盖样本图像序列中各个图像的所有区域,这样可以保证以样本图像序列中各个图像的全面信息对CNN进行训练。
S204:采用第二融合CNN特征、标定区域和初始样本区域对CNN进行第一次训练,获得第一级分类器和第一次训练的结果。
具体的,上述第一次训练的结果中可以包含:可能包含目标的区域,还可以包含这些区域包含目标的概率。
上述可能包含目标的区域可能是前述初始样本区域的全部,也可能仅仅是初始样本区域的一部分。
在本申请的一种实现方式中,参见图3,提供了另一种生成分类器的方法的流程示意图,上述第一次训练的结果中包含第二备选目标区域,该方法包括:
S301:根据上述第二备选目标样本区域,确定针对第二级分类器的第二输入区域。
具体的,可以直接将全部上述第二备选目标区域确定为针对第二级分类器的第二输入区域。
由于上述第二备选目标区域所包含的区域数量一般比较多,其中还可能会包含存在目标概率较低的区域,因此,本申请的一种实现方式中,可以将第二备选目标区域中,存在目标的概率大于第三预设阈值的区域确定为上述第二输入区域。
另外,上述第二备选目标区域中还可能会存在区域位置相近的区域,为减小后期的计算压力,也可以对上述第二备选目标区域进行筛选。基于此,在第一次训练的结果中包括第二备选目标区域中包含目标的第一概率的情况下,根据第二备选目标区域,确定针对第二级分类器的第二输入区域时,可以根据预设的非极大值抑制算法和上述第一概率,从第二备选目标区域中选择针对第二级分类器的第二输入区域。
当然,还可以采取上述两种方式相结合的方式确定第二输入区域,如,先根据区域中包含目标的概率进行区域选择,然后再在选择出的区域中,采用非极大值抑制算法和第一概率,进行区域选择。
需要说明的是,本申请仅仅以上述为例进行说明,实际应用中确定第二输入区域的方式并不仅限于此。
S302:根据第二融合CNN特征,获得第二输入区域的第四CNN特征。
由于第二融合CNN特征所反映的是样本图像序列整体的特征,而各个图像中不同区域可能会具有不同的特征,所以为生成准确的第二分类器,还需要获得各个区域的CNN特征。
第二融合CNN特征虽然反映的是样本图像序列整体的特征,但是其中也记录了样本图像序列各个图像中不同区域与上述第二融合CNN特征中具体信息的对应关系,上述不同区域对应的具体信息,可以理解为:不同区域对应的CNN特征,另外,上述第二融合CNN特征中还记录了不同区域对应CNN特征的长度,所以说,上述第二融合CNN特征也在一定程度上保持了样本图像序列中各图像的空间信息,故可将第二融合CNN特征视为多通道的第二融合CNN特征图像。也就是说,对于样本图像序列中的图像而言,其中固定大小的区域在第二融合CNN特征图像中对应固定长度的CNN特征向量,即:第二融合CNN特征图像中的一个区域。
因此,根据第二融合CNN特征,获得第二输入区域的第四CNN特征时,可以基于样本图像序列的图像中各区域和第二融合CNN特征图像的空间对应关系,通过对第二融合CNN特征图像做相应的裁剪和缩放操作,进而提取第二输入区域的CNN特征。其中,裁剪操作是为了获取指定区域的特征,而缩放操作是为了将所获取指定区域的特征限制到固定维数,进而保证所有区域的特征均具有相同的维数,以便后期统一处理。
具体的,可以将样本图像序列某一图像中的大区域分解为:M*N个小区域,通过在第二融合CNN特征图像上进行裁剪操作,得到这M*N个小区域在上述第二融合CNN特征图像中对应M*N个CNN特征向量,即:D个通道的M*N的小图像,然后将这些小图像缩放为D个通道的固定大小的图像,得到上述大区域的CNN特征,即得到:M*N*D的CNN特征,其中,D表示CNN特征向量的长度,M表示横向小区域的数量,N表示纵向小区域的数量。
S303:通过第四CNN特征和标定区域对CNN进行第二次训练,获得第二级分类器。
由以上可见,上述各个实施例中,从待检测视频中获得待检测图像序列,基于预先训练的CNN模型,提取该待检测图像序列的第一CNN特征,并根据待检测视频中已检测图像序列的CNN特征计算待检测图像序列的第一融合CNN特征,然后将上述第一融合CNN特征输入CNN模型的第一级分类器,获得待检测图像序列中的第一备选目标区域,根据上述第一备选目标区域,确定上述CNN网络的第二级分类器的第一输入区域后,根据第一融合CNN特征,获得第一输入区域的第三CNN特征,将上述第三CNN特征输入CNN模型的第二级分类器,最后根据第二级类分类器的输出结果,获得针对待检测图像序列的目标检测结果。上述各个实施例提供的方案中,用于确定第一备选目标区域的CNN特征是根据待检测图像序列的CNN特征以及已检测图像序列的CNN特征获得的,考虑了一系列图像的CNN特征,也就是考虑了视频中图像之间的相关性,而不再是单纯的仅考虑一帧图像的特征,因此,能够更加准确的反应图像中目标的特征,进而提高针对视频进行目标检测的准确度。
下面通过具体实例再对本申请实施例提供的目标检测方法进行介绍。
假设,样本视频共包含11张图像,前述预设数量的取值为:5,图像重复度的取值为:3,则按照视频时序从样本视频中获得的样本图像序列如下表2所示:
表2
图像在样本视频中的播放顺序 | |
第一个样本图像序列 | 第1帧、第2帧、第3帧、第4帧、第5帧 |
第二个样本图像序列 | 第3帧、第4帧、第5帧、第6帧、第7帧 |
第三个样本图像序列 | 第5帧、第6帧、第7帧、第8帧、第9帧 |
第四个样本图像序列 | 第7帧、第8帧、第9帧、第10帧、第11帧 |
上述四个样本图像序列对应的CNN特征分别记为:样本CNN1、样本CNN2、样本CNN3和样本CNN4;上述四个样本图像序列对应的融合CNN特征分别记为:样本融合CNN1、样本融合CNN2、样本融合CNN3和样本融合CNN4。
下面先介绍一下上述四个融合CNN特征的计算过程:
1、样本融合CNN1:由样本CNN1和初始融合CNN特征进行特征融合得到,其中,初始融合CNN特征可以取0;
2、样本融合CNN2:由样本CNN2和样本融合CNN1进行特征融合得到;
3、样本融合CNN3:由样本CNN3和样本融合CNN2进行特征融合得到;
4、样本融合CNN4:由样本CNN3和样本融合CNN3进行特征融合得到。
下面以第二个样本图像序列为例,介绍如何对CNN进行训练得到第一级分类器和第二级分类器。
参见图4a-图4d,提供了四张CNN训练过程的示意图。
步骤1、在第二个样本图像序列的每一张图像进行人工标定,标定图像中的目标所在区域,即上述的标定区域,如图4a所示的方框区域;
步骤2、通过上述方式获得样本融合CNN2;
步骤3、基于上述标定区域,在第二个样本图像序列的每一张图像中获得初始样本区域;其中,每张图像中的样本区域均匀覆盖于该图像的所有位置,并且对于每一标定区域,初始样本区域中至少存在一个样本区域与该标定区域的重合度大于预设阈值;
步骤4、采用样本融合CNN2、上述标定区域以及初始样本区域,对CNN进行第一次训练,得到得到第一级分类器和第二备选样本区域,如图4b所示的方框区域;
步骤5、基于非极大值抑制算法和各个第二备选样本区域包含目标的概率,在第二备选样本区域中进行选择,确定针对第二级分类器的第二输入区域,如图4c所示的方框区域;
步骤6、根据样本融合CNN2,获得上述第二输入区域的CNN特征;
步骤7、采用步骤6获得的CNN特征和标定区域对CNN进行第二次训练,得到第二级分类器以及第二样本图像序列中包含目标的区域,如图4d所示的方框区域。
上述仅仅是以一个样本图像序列为例说明的如何对CNN进行训练,实际在对CNN进行训练时,需采用大量样本进行训练,但是采用每个样本图像序列进行训练的过程均以上述过程类似。
下面再以一个待检测图像序列为例,对目标检测过程进行介绍。
假设,待检测视频共包含7张图像,采用上面训练得到的CNN模型进行目标检测,则从待检测视频中可以得到两个待检测图像序列:
待检测图像序列1包含:第1帧、第2帧、第3帧、第4帧、第5帧
待检测图像序列2包含:第3帧、第4帧、第5帧、第6帧、第7帧
参见图4e-图4h,提供了四张目标检测过程的示意图。其中,图4e为待检测图像序列所包含的一张图像。
对待检测图像序列1进行目标检测的过程如下:
步骤1、基于上述训练得到的CNN模型,提取待检测图像序列1的CNN特征,记为:检测CNN1;
步骤2、对检测CNN1和初始融合CNN特征进行特征融合,获得待检测图像序列1的融合CNN特征,记为:检测融合CNN1;
步骤3、将检测融合CNN1输入第一级分类器,得到备选目标区域1;
步骤4、采用非极大值抑制算法和备选目标区域1包含目标的概率,在备选目标区域1中进行选择,确定第二级分类器的输入区域1;
步骤5、根据检测融合CNN1,获得输入区域1的CNN特征;
步骤6、将步骤5获得CNN特征输入至第二级分类器,获得针对待检测图像序列1的目标检测结果。
对待检测图像序列2进行目标检测的过程如下:
步骤7、基于上述训练得到的CNN模型,提取待检测图像序列2的CNN特征,记为:检测CNN2;
步骤8、对检测CNN2和检测融合CNN1进行特征融合,得到待检测图像序列2的融合CNN特征,记为:检测融合CNN2;
步骤9、将检测融合CNN2输入第一级分类器,得到备选目标区域2,如图4f所示的方框区域;
步骤10、采用非极大值抑制算法和上述备选目标区域2包含目标的概率,在备选目标区域2中进行选择,确定第二级分类器的输入区域2,如图4g所示的方框区域;
步骤11、根据检测融合CNN2,获得输入区域2的CNN特征;
步骤12、将步骤11获得CNN特征输入至第二级分类器,获得针对待检测图像序列2的目标检测结果,其中,目标所在区域如图4h所示的方框区域。
与上述目标检测方法相对应,本申请实施例还提供了一种目标检测装置。
图5为本申请实施例提供的一种目标检测装置的结构示意图,该装置包括:
序列获得模块401,用于根据基于视频时序的图像序列确定算法,从待检测视频中获得待检测图像序列;
特征提取模块402,用于基于预先训练的卷积神经网络CNN模型,提取所述待检测图像序列的第一CNN特征,其中,所述CNN模型包括:第一级分类器和第二级分类器,所述第一级分类器为:根据样本图像序列的第二融合CNN特征和所述样本图像序列中目标所在标定区域,对CNN进行训练得到的分类器,所述第二级分类器为:根据所述第二融合CNN特征、标定区域和第一级分类器的输出结果对CNN进行训练得到的分类器,所述样本图像序列为:根据所述图像序列确定算法,从样本视频中获得的图像序列;
第一特征获得模块403,用于根据第二CNN特征对所述第一CNN特征进行特征融合,获得所述待检测图像序列的第一融合CNN特征,其中,所述第二CNN特征为:所述待检测视频中已检测图像序列的CNN特征;
区域获得模块404,用于将所述第一融合CNN特征输入至所述第一级分类器,从所述第一级分类器的输出结果中,获得所述待检测图像序列中的第一备选目标区域;
区域确定模块405,用于根据所述第一备选目标区域,确定所述第二级分类器的第一输入区域;
第二特征获得模块406,用于根据所述第一融合CNN特征,获得所述第一输入区域的第三CNN特征;
结果获得模块407,用于将所述第三CNN特征输入至所述第二级分类器,根据所述第二级分类器的输出结果,获得针对所述待检测图像序列的目标检测结果。
可选的,所述序列获得模块401,具体用于基于视频时序,根据预设的图像重复度,从待检测视频中获得包含预设数量个图像的待检测图像序列,其中,所述图像重复度,表示相邻两次从所述待检测视频中获得的图像序列之间所包含重复图像的数量。
可选的,所述特征获得模块403,包括:
第一特征获得单元,用于获得第一已检测图像序列的第三融合CNN特征,其中,所述第一已检测图像序列为:按照视频时序、与所述待检测图像序列相邻的已检测图像序列,所述第三融合CNN特征,是根据所述第一已检测图像序列之前已检测图像序列的CNN特征确定的;
第二特征获得单元,用于采用所述第三融合CNN特征对所述第一CNN特征进行特征融合,获得待检测图像序列的第一融合CNN特征。
可选的,所述第二特征获得单元,具体用于基于预先训练的循环神经网络RNN模型,对所述第三融合CNN特征和所述第一CNN特征进行特征融合,获得所述待检测图像序列的第一融合CNN特征,其中,所述RNN模型是:根据第一样本图像序列的融合CNN特征和第二样本序列的CNN特征对RNN进行训练得到的,所述第一样本图像序列为:按照视频时序在所述第二样本图像序列之前,且与所述第二样本图像序列相邻的样本图像序列。
在本申请的一种实现方式中,参见图6,提供了一种获得分类器的装置的结构示意图,该装置还包括:
第一分类器获得模块,用于获得所述第一级分类器;
其中,所述第一分类器获得模块,包括:
第一区域确定单元501,用于确定所述样本图像序列中的所述标定区域;
第三特征获得单元502,用于获得所述第二融合CNN特征;
第二区域确定单元503,用于基于所述标定区域,确定所述样本图像序列中的初始样本区域,其中,对于每一标定区域,所述初始样本区域中至少存在一个样本区域与该标定区域的重合度大于预设阈值;
第一分类器获得单元504,用于采用所述第二融合CNN特征、所述标定区域和所述初始样本区域对CNN进行第一次训练,获得所述第一级分类器和第一次训练的结果。
在本申请的一种实现方式中,参见图7,提供了另一种获得分类器的装置的结构示意图,所述第一次训练的结果中包含第二备选目标区域;该装置包括:
第二分类器获得模块,用于获得所述第二级分类器;
其中,所述第二分类器获得模块,包括:
第三区域确定单元601,用于根据所述第二备选目标区域,确定针对所述第二级分类器的第二输入区域;
第四特征获得单元602,用于根据所述第二融合CNN特征,获得所述第二输入区域的第四CNN特征;
第二分类器获得单元603,用于通过所述第四CNN特征和所述标定区域对CNN进行第二次训练,获得所述第二级分类器。
可选的,所述第一次训练的结果中还包括:所述第二备选目标区域中包含目标的第一概率;
所述第三区域确定单元601,具体用于根据预设的非极大值抑制算法和所述第一概率,从所述第二备选目标区域中选择针对所述第二级分类器的第二输入区域。
可选的,所述第一级分类器的输出结果中包括:所述第一备选目标区域中包含目标的第二概率;
所述区域确定模块405,具体用于根据所述非极大值抑制算法和所述第二概率,从所述第一备选目标区域中选择所述CNN网络的第二级分类器的第一输入区域。
由以上可见,上述各个实施例中,从待检测视频中获得待检测图像序列,基于预先训练的CNN模型,提取该待检测图像序列的第一CNN特征,并根据待检测视频中已检测图像序列的CNN特征计算待检测图像序列的第一融合CNN特征,然后将上述第一融合CNN特征输入CNN模型的第一级分类器,获得待检测图像序列中的第一备选目标区域,根据上述第一备选目标区域,确定上述CNN网络的第二级分类器的第一输入区域后,根据第一融合CNN特征,获得第一输入区域的第三CNN特征,将上述第三CNN特征输入CNN模型的第二级分类器,最后根据第二级类分类器的输出结果,获得针对待检测图像序列的目标检测结果。上述各个实施例提供的方案中,用于确定第一备选目标区域的CNN特征是根据待检测图像序列的CNN特征以及已检测图像序列的CNN特征获得的,考虑了一系列图像的CNN特征,也就是考虑了视频中图像之间的相关性,而不再是单纯的仅考虑一帧图像的特征,因此,能够更加准确的反应图像中目标的特征,进而提高针对视频进行目标检测的准确度。
对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。
Claims (16)
1.一种目标检测方法,其特征在于,所述方法包括:
根据基于视频时序的图像序列确定算法,从待检测视频中获得待检测图像序列;
基于预先训练的卷积神经网络CNN模型,提取所述待检测图像序列的第一CNN特征,并根据第二CNN特征对所述第一CNN特征进行特征融合,获得所述待检测图像序列的第一融合CNN特征,其中,所述第二CNN特征为:所述待检测视频中已检测图像序列的CNN特征,所述CNN模型包括:第一级分类器和第二级分类器,所述第一级分类器为:根据样本图像序列的第二融合CNN特征和所述样本图像序列中目标所在标定区域,对CNN进行训练得到的分类器,所述第二级分类器为:根据所述第二融合CNN特征、标定区域和第一级分类器的输出结果对CNN进行训练得到的分类器,所述样本图像序列为:根据所述图像序列确定算法,从样本视频中获得的图像序列;所述第二融合CNN特征为:根据第六CNN特征对所述样本图像序列的第五CNN特征进行特征融合得到的特征,所述第六CNN特征包括:样本视频中已训练图像序列的CNN特征,所述第五CNN特征为:对所述样本图像序列进行特征提取得到的特征;
将所述第一融合CNN特征输入至所述第一级分类器,从所述第一级分类器的输出结果中,获得所述待检测图像序列中的第一备选目标区域;
根据所述第一备选目标区域,确定所述第二级分类器的第一输入区域;
根据所述第一融合CNN特征,获得所述第一输入区域的第三CNN特征;
将所述第三CNN特征输入至所述第二级分类器,根据所述第二级分类器的输出结果,获得针对所述待检测图像序列的目标检测结果。
2.根据权利要求1所述的方法,其特征在于,所述根据基于视频时序的图像序列确定算法,从待检测视频中获得待检测图像序列的步骤,包括:
基于视频时序,根据预设的图像重复度,从待检测视频中获得包含预设数量个图像的待检测图像序列,其中,所述图像重复度,表示相邻两次从所述待检测视频中获得的图像序列之间所包含重复图像的数量。
3.根据权利要求1所述的方法,其特征在于,所述根据第二CNN特征对所述第一CNN特征进行特征融合,获得所述待检测图像序列的第一融合CNN特征的步骤,包括:
获得第一已检测图像序列的第三融合CNN特征,其中,所述第一已检测图像序列为:按照视频时序、与所述待检测图像序列相邻的已检测图像序列,所述第三融合CNN特征,是根据所述第一已检测图像序列之前已检测图像序列的CNN特征确定的;
采用所述第三融合CNN特征对所述第一CNN特征进行特征融合,获得待检测图像序列的第一融合CNN特征。
4.根据权利要求3所述的方法,其特征在于,所述采用所述第三融合CNN特征对所述第一CNN特征进行特征融合,获得所述待检测图像序列的第一融合CNN特征的步骤,包括:
基于预先训练的循环神经网络RNN模型,对所述第三融合CNN特征和所述第一CNN特征进行特征融合,获得所述待检测图像序列的第一融合CNN特征,其中,所述RNN模型是:根据第一样本图像序列的融合CNN特征和第二样本序列的CNN特征对RNN进行训练得到的,所述第一样本图像序列为:按照视频时序在所述第二样本图像序列之前,且与所述第二样本图像序列相邻的样本图像序列。
5.根据权利要求1-4中任一项所述的方法,其特征在于,通过以下方式获得所述第一级分类器:
确定所述样本图像序列中的所述标定区域;
获得所述第二融合CNN特征;
基于所述标定区域,确定所述样本图像序列中的初始样本区域,其中,对于每一标定区域,所述初始样本区域中至少存在一个样本区域与该标定区域的重合度大于预设阈值;
采用所述第二融合CNN特征、所述标定区域和所述初始样本区域对CNN进行第一次训练,获得所述第一级分类器和第一次训练的结果。
6.根据权利要求5所述的方法,其特征在于,所述第一次训练的结果中包含第二备选目标区域;
通过以下方式获得所述第二级分类器:
根据所述第二备选目标区域,确定针对所述第二级分类器的第二输入区域;
根据所述第二融合CNN特征,获得所述第二输入区域的第四CNN特征;
通过所述第四CNN特征和所述标定区域对CNN进行第二次训练,获得所述第二级分类器。
7.根据权利要求6所述的方法,其特征在于,所述第一次训练的结果中还包括:所述第二备选目标区域中包含目标的第一概率;
所述根据所述第二备选目标区域,确定针对所述第二级分类器的第二输入区域的步骤,包括:
根据预设的非极大值抑制算法和所述第一概率,从所述第二备选目标本区域中选择针对所述第二级分类器的第二输入区域。
8.根据权利要求7所述的方法,其特征在于,所述第一级分类器的输出结果中包括:所述第一备选目标区域中包含目标的第二概率;
所述根据所述第一备选目标区域,确定所述第二级分类器的第一输入区域的步骤,包括:
根据所述非极大值抑制算法和所述第二概率,从所述第一备选目标区域中选择所述第二级分类器的第一输入区域。
9.一种目标检测装置,其特征在于,所述装置包括:
序列获得模块,用于根据基于视频时序的图像序列确定算法,从待检测视频中获得待检测图像序列;
特征提取模块,用于基于预先训练的卷积神经网络CNN模型,提取所述待检测图像序列的第一CNN特征,其中,所述CNN模型包括:第一级分类器和第二级分类器,所述第一级分类器为:根据样本图像序列的第二融合CNN特征和所述样本图像序列中目标所在标定区域,对CNN进行训练得到的分类器,所述第二级分类器为:根据所述第二融合CNN特征、标定区域和第一级分类器的输出结果对CNN进行训练得到的分类器,所述样本图像序列为:根据所述图像序列确定算法,从样本视频中获得的图像序列;所述第二融合CNN特征为:根据第六CNN特征对所述样本图像序列的第五CNN特征进行特征融合得到的特征,所述第六CNN特征包括:样本视频中已训练图像序列的CNN特征,所述第五CNN特征为:对所述样本图像序列进行特征提取得到的特征;
第一特征获得模块,用于根据第二CNN特征对所述第一CNN特征进行特征融合,获得所述待检测图像序列的第一融合CNN特征,其中,所述第二CNN特征为:所述待检测视频中已检测图像序列的CNN特征;
区域获得模块,用于将所述第一融合CNN特征输入至所述第一级分类器,从所述第一级分类器的输出结果中,获得所述待检测图像序列中的第一备选目标区域;
区域确定模块,用于根据所述第一备选目标区域,确定所述第二级分类器的第一输入区域;
第二特征获得模块,用于根据所述第一融合CNN特征,获得所述第一输入区域的第三CNN特征;
结果获得模块,用于将所述第三CNN特征输入至所述第二级分类器,根据所述第二级分类器的输出结果,获得针对所述待检测图像序列的目标检测结果。
10.根据权利要求9所述的装置,其特征在于,
所述序列获得模块,具体用于基于视频时序,根据预设的图像重复度,从待检测视频中获得包含预设数量个图像的待检测图像序列,其中,所述图像重复度,表示相邻两次从所述待检测视频中获得的图像序列之间所包含重复图像的数量。
11.根据权利要求9所述的装置,其特征在于,所述特征获得模块,包括:
第一特征获得单元,用于获得第一已检测图像序列的第三融合CNN特征,其中,所述第一已检测图像序列为:按照视频时序、与所述待检测图像序列相邻的已检测图像序列,所述第三融合CNN特征,是根据所述第一已检测图像序列之前已检测图像序列的CNN特征确定的;
第二特征获得单元,用于采用所述第三融合CNN特征对所述第一CNN特征进行特征融合,获得待检测图像序列的第一融合CNN特征。
12.根据权利要求11所述的装置,其特征在于,
所述第二特征获得单元,具体用于基于预先训练的循环神经网络RNN模型,对所述第三融合CNN特征和所述第一CNN特征进行特征融合,获得所述待检测图像序列的第一融合CNN特征,其中,所述RNN模型是:根据第一样本图像序列的融合CNN特征和第二样本序列的CNN特征对RNN进行训练得到的,所述第一样本图像序列为:按照视频时序在所述第二样本图像序列之前,且与所述第二样本图像序列相邻的样本图像序列。
13.根据权利要求9-12中任一项所述的装置,其特征在于,所述装置还包括:
第一分类器获得模块,用于获得所述第一级分类器;
其中,所述第一分类器获得模块,包括:
第一区域确定单元,用于确定所述样本图像序列中的所述标定区域;
第三特征获得单元,用于获得所述第二融合CNN特征;
第二区域确定单元,用于基于所述标定区域,确定所述样本图像序列中的初始样本区域,其中,对于每一标定区域,所述初始样本区域中至少存在一个样本区域与该标定区域的重合度大于预设阈值;
第一分类器获得单元,用于采用所述第二融合CNN特征、所述标定区域和所述初始样本区域对CNN进行第一次训练,获得所述第一级分类器和第一次训练的结果。
14.根据权利要求13所述的装置,其特征在于,所述第一次训练的结果中包含第二备选目标区域;
所述装置还包括:
第二分类器获得模块,用于获得所述第二级分类器;
其中,所述第二分类器获得模块,包括:
第三区域确定单元,用于根据所述第二备选目标区域,确定针对所述第二级分类器的第二输入区域;
第四特征获得单元,用于根据所述第二融合CNN特征,获得所述第二输入区域的第四CNN特征;
第二分类器获得单元,用于通过所述第四CNN特征和所述标定区域对CNN进行第二次训练,获得所述第二级分类器。
15.根据权利要求14所述的装置,其特征在于,所述第一次训练的结果中还包括:所述第二备选目标区域中包含目标的第一概率;
所述第三区域确定单元,具体用于根据预设的非极大值抑制算法和所述第一概率,从所述第二备选目标区域中选择针对所述第二级分类器的第二输入区域。
16.根据权利要求15所述的装置,其特征在于,所述第一级分类器的输出结果中包括:所述第一备选目标区域中包含目标的第二概率;
所述区域确定模块,具体用于根据所述非极大值抑制算法和所述第二概率,从所述第一备选目标区域中选择所述CNN网络的第二级分类器的第一输入区域。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610980457.2A CN108073933B (zh) | 2016-11-08 | 2016-11-08 | 一种目标检测方法及装置 |
EP17869978.1A EP3540649A4 (en) | 2016-11-08 | 2017-11-07 | TARGET RECOGNITION AND DEVICE |
PCT/CN2017/109745 WO2018086513A1 (zh) | 2016-11-08 | 2017-11-07 | 一种目标检测方法及装置 |
US16/347,626 US10949673B2 (en) | 2016-11-08 | 2017-11-07 | Target detection method and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610980457.2A CN108073933B (zh) | 2016-11-08 | 2016-11-08 | 一种目标检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108073933A CN108073933A (zh) | 2018-05-25 |
CN108073933B true CN108073933B (zh) | 2021-05-25 |
Family
ID=62109374
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610980457.2A Active CN108073933B (zh) | 2016-11-08 | 2016-11-08 | 一种目标检测方法及装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10949673B2 (zh) |
EP (1) | EP3540649A4 (zh) |
CN (1) | CN108073933B (zh) |
WO (1) | WO2018086513A1 (zh) |
Families Citing this family (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8855375B2 (en) | 2012-01-12 | 2014-10-07 | Kofax, Inc. | Systems and methods for mobile image capture and processing |
US11321772B2 (en) | 2012-01-12 | 2022-05-03 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
US11620733B2 (en) | 2013-03-13 | 2023-04-04 | Kofax, Inc. | Content-based object detection, 3D reconstruction, and data extraction from digital images |
US10783615B2 (en) | 2013-03-13 | 2020-09-22 | Kofax, Inc. | Content-based object detection, 3D reconstruction, and data extraction from digital images |
US10127636B2 (en) | 2013-09-27 | 2018-11-13 | Kofax, Inc. | Content-based detection and three dimensional geometric reconstruction of objects in image and video data |
US10242285B2 (en) | 2015-07-20 | 2019-03-26 | Kofax, Inc. | Iterative recognition-guided thresholding and data extraction |
US10467465B2 (en) | 2015-07-20 | 2019-11-05 | Kofax, Inc. | Range and/or polarity-based thresholding for improved data extraction |
CN108304755B (zh) | 2017-03-08 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 用于图像处理的神经网络模型的训练方法和装置 |
WO2019102072A1 (en) * | 2017-11-24 | 2019-05-31 | Heyday Oy | Method and system for identifying authenticity of an object |
US10803350B2 (en) | 2017-11-30 | 2020-10-13 | Kofax, Inc. | Object detection and image cropping using a multi-detector approach |
EP3495988A1 (en) | 2017-12-05 | 2019-06-12 | Aptiv Technologies Limited | Method of processing image data in a connectionist network |
EP3561726A1 (en) | 2018-04-23 | 2019-10-30 | Aptiv Technologies Limited | A device and a method for processing data sequences using a convolutional neural network |
EP3561727A1 (en) * | 2018-04-23 | 2019-10-30 | Aptiv Technologies Limited | A device and a method for extracting dynamic information on a scene using a convolutional neural network |
CN108764235B (zh) * | 2018-05-23 | 2021-06-29 | 中国民用航空总局第二研究所 | 目标检测方法、设备及介质 |
CN108846421B (zh) * | 2018-05-28 | 2021-11-16 | 杭州电子科技大学 | 一种基于深度学习的图像分类方法 |
CN108985346B (zh) * | 2018-06-25 | 2021-01-22 | 厦门安图威信息科技有限公司 | 融合低层图像特征及cnn特征的现勘图像检索方法 |
CN109101913A (zh) * | 2018-08-01 | 2018-12-28 | 北京飞搜科技有限公司 | 行人重识别方法和装置 |
CN108932509A (zh) * | 2018-08-16 | 2018-12-04 | 新智数字科技有限公司 | 一种基于视频跟踪的跨场景目标检索方法及装置 |
CN109325520B (zh) * | 2018-08-24 | 2021-06-29 | 北京航空航天大学 | 一种石油泄漏的检查方法、装置及系统 |
CN111144175B (zh) * | 2018-11-05 | 2023-04-18 | 杭州海康威视数字技术股份有限公司 | 一种图像检测方法及装置 |
CN109299274B (zh) * | 2018-11-07 | 2021-12-17 | 南京大学 | 一种基于全卷积神经网络的自然场景文本检测方法 |
CN111353001B (zh) * | 2018-12-24 | 2023-08-18 | 杭州海康威视数字技术股份有限公司 | 对用户进行分类的方法和装置 |
CN109543662B (zh) * | 2018-12-28 | 2023-04-21 | 广州海昇计算机科技有限公司 | 基于区域提议的目标检测方法、系统、装置和存储介质 |
CN109815364B (zh) * | 2019-01-18 | 2020-01-14 | 上海极链网络科技有限公司 | 一种海量视频特征提取、存储和检索方法及系统 |
CN109934096B (zh) * | 2019-01-22 | 2020-12-11 | 浙江零跑科技有限公司 | 基于特征时序相关性的自动驾驶视觉感知优化方法 |
CN111488475A (zh) * | 2019-01-29 | 2020-08-04 | 北京三星通信技术研究有限公司 | 图像检索方法、装置、电子设备及计算机可读存储介质 |
US11176421B2 (en) | 2019-06-03 | 2021-11-16 | Wipro Limited | System and method for implementing neural network models on edge devices in IoT networks |
CN112052709B (zh) * | 2019-06-06 | 2024-04-19 | 北京搜狗科技发展有限公司 | 一种人脸属性识别方法及装置 |
CN110348374B (zh) * | 2019-07-09 | 2021-06-08 | 北京字节跳动网络技术有限公司 | 车辆检测方法、装置、电子设备及存储介质 |
CN111144220B (zh) * | 2019-11-29 | 2023-03-24 | 福建省星云大数据应用服务有限公司 | 适于大数据的人员检测方法、装置、设备和介质 |
CN111080593B (zh) * | 2019-12-07 | 2023-06-16 | 上海联影智能医疗科技有限公司 | 一种图像处理装置、方法及存储介质 |
CN111080596A (zh) * | 2019-12-11 | 2020-04-28 | 浙江工业大学 | 一种融合局部阴影与全局特征的尘肺病辅助筛查方法及系统 |
CN111061898A (zh) * | 2019-12-13 | 2020-04-24 | Oppo(重庆)智能科技有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN111160340B (zh) * | 2019-12-24 | 2023-11-28 | 普联国际有限公司 | 一种运动目标检测方法、装置、存储介质及终端设备 |
CN111259923A (zh) * | 2020-01-06 | 2020-06-09 | 燕山大学 | 一种基于改进三维r-cnn算法的多目标检测方法 |
JP7297705B2 (ja) * | 2020-03-18 | 2023-06-26 | 株式会社東芝 | 処理装置、処理方法、学習装置およびプログラム |
US12039696B2 (en) * | 2020-03-27 | 2024-07-16 | Alibaba Group Holding Limited | Method and system for video processing based on spatial or temporal importance |
CN111985385B (zh) * | 2020-08-14 | 2023-08-29 | 杭州海康威视数字技术股份有限公司 | 一种行为检测方法、装置及设备 |
CN112287772B (zh) * | 2020-10-10 | 2023-02-10 | 深圳市中达瑞和科技有限公司 | 指纹痕迹检测方法、指纹检测装置及计算机可读存储介质 |
CN112347916B (zh) * | 2020-11-05 | 2023-11-17 | 安徽继远软件有限公司 | 基于视频图像分析的电力现场作业安全监控方法及装置 |
CN112686114A (zh) * | 2020-12-23 | 2021-04-20 | 杭州海康威视数字技术股份有限公司 | 一种行为检测方法、装置及设备 |
CN112507983B (zh) * | 2021-02-03 | 2021-11-16 | 北京世纪好未来教育科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN112926431A (zh) * | 2021-02-20 | 2021-06-08 | 北京市商汤科技开发有限公司 | 垃圾检测方法、装置、设备及计算机存储介质 |
CN113037730B (zh) * | 2021-02-27 | 2023-06-20 | 中国人民解放军战略支援部队信息工程大学 | 基于多特征学习的网络加密流量分类方法及系统 |
CN113128340B (zh) * | 2021-03-16 | 2022-09-02 | 广州华微明天软件技术有限公司 | 一种人员入侵检测方法及装置 |
CN113128564B (zh) * | 2021-03-23 | 2022-03-22 | 武汉泰沃滋信息技术有限公司 | 一种基于深度学习的复杂背景下典型目标检测方法及系统 |
CN112801233B (zh) * | 2021-04-07 | 2021-07-23 | 杭州海康威视数字技术股份有限公司 | 一种物联网设备蜜罐系统攻击分类方法、装置及设备 |
TW202300201A (zh) * | 2021-04-30 | 2023-01-01 | 美商尼安蒂克公司 | 興趣點之重複性預測 |
US11868443B1 (en) * | 2021-05-12 | 2024-01-09 | Amazon Technologies, Inc. | System for training neural network using ordered classes |
CN113673342A (zh) * | 2021-07-19 | 2021-11-19 | 浙江大华技术股份有限公司 | 行为检测方法、电子装置和存储介质 |
CN115909076B (zh) * | 2022-12-25 | 2023-09-08 | 盐城市粮油作物技术指导站 | 一种基于图像特征的玉米大豆间作方法、装置、设备及介质 |
CN117496394B (zh) * | 2023-10-16 | 2024-07-02 | 国家计算机网络与信息安全管理中心 | 基于图像和语音多模态融合的伪造视频检测方法及装置 |
CN117173640B (zh) * | 2023-11-02 | 2024-03-05 | 南通双和食品有限公司 | 一种肉牛温度异常检测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001216515A (ja) * | 2000-02-01 | 2001-08-10 | Matsushita Electric Ind Co Ltd | 人物の顔の検出方法およびその装置 |
CN101173987A (zh) * | 2007-10-31 | 2008-05-07 | 北京航空航天大学 | 多模多目标精密跟踪装置和方法 |
CN103049751A (zh) * | 2013-01-24 | 2013-04-17 | 苏州大学 | 一种改进的加权区域匹配高空视频行人识别方法 |
CN103116746A (zh) * | 2013-03-08 | 2013-05-22 | 中国科学技术大学 | 一种基于多特征融合技术的视频火焰探测方法 |
CN103164694A (zh) * | 2013-02-20 | 2013-06-19 | 上海交通大学 | 一种人体动作识别的方法 |
CN104361316A (zh) * | 2014-10-30 | 2015-02-18 | 中国科学院自动化研究所 | 一种基于多尺度时序建模的维度情感识别方法 |
CN104835178A (zh) * | 2015-02-02 | 2015-08-12 | 郑州轻工业学院 | 一种低信噪比运动小目标的跟踪与识别的方法 |
CN105678231A (zh) * | 2015-12-30 | 2016-06-15 | 中通服公众信息产业股份有限公司 | 一种基于稀疏编码和神经网络的行人图片检测方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7375731B2 (en) * | 2002-11-01 | 2008-05-20 | Mitsubishi Electric Research Laboratories, Inc. | Video mining using unsupervised clustering of video content |
US9430829B2 (en) * | 2014-01-30 | 2016-08-30 | Case Western Reserve University | Automatic detection of mitosis using handcrafted and convolutional neural network features |
US9811735B2 (en) * | 2015-04-13 | 2017-11-07 | Nec Corporation | Generic object detection on fixed surveillance video |
WO2016184705A1 (en) * | 2015-05-21 | 2016-11-24 | Koninklijke Philips N.V. | Determining a pulse signal from a video sequence |
US10002313B2 (en) * | 2015-12-15 | 2018-06-19 | Sighthound, Inc. | Deeply learned convolutional neural networks (CNNS) for object localization and classification |
US9858496B2 (en) * | 2016-01-20 | 2018-01-02 | Microsoft Technology Licensing, Llc | Object detection and classification in images |
CN105787458B (zh) * | 2016-03-11 | 2019-01-04 | 重庆邮电大学 | 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法 |
CN105844239B (zh) | 2016-03-23 | 2019-03-29 | 北京邮电大学 | 一种基于cnn和lstm的暴恐视频检测方法 |
CN106056628B (zh) * | 2016-05-30 | 2019-06-18 | 中国科学院计算技术研究所 | 基于深度卷积神经网络特征融合的目标跟踪方法及系统 |
-
2016
- 2016-11-08 CN CN201610980457.2A patent/CN108073933B/zh active Active
-
2017
- 2017-11-07 WO PCT/CN2017/109745 patent/WO2018086513A1/zh unknown
- 2017-11-07 EP EP17869978.1A patent/EP3540649A4/en not_active Ceased
- 2017-11-07 US US16/347,626 patent/US10949673B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001216515A (ja) * | 2000-02-01 | 2001-08-10 | Matsushita Electric Ind Co Ltd | 人物の顔の検出方法およびその装置 |
CN101173987A (zh) * | 2007-10-31 | 2008-05-07 | 北京航空航天大学 | 多模多目标精密跟踪装置和方法 |
CN103049751A (zh) * | 2013-01-24 | 2013-04-17 | 苏州大学 | 一种改进的加权区域匹配高空视频行人识别方法 |
CN103164694A (zh) * | 2013-02-20 | 2013-06-19 | 上海交通大学 | 一种人体动作识别的方法 |
CN103116746A (zh) * | 2013-03-08 | 2013-05-22 | 中国科学技术大学 | 一种基于多特征融合技术的视频火焰探测方法 |
CN104361316A (zh) * | 2014-10-30 | 2015-02-18 | 中国科学院自动化研究所 | 一种基于多尺度时序建模的维度情感识别方法 |
CN104835178A (zh) * | 2015-02-02 | 2015-08-12 | 郑州轻工业学院 | 一种低信噪比运动小目标的跟踪与识别的方法 |
CN105678231A (zh) * | 2015-12-30 | 2016-06-15 | 中通服公众信息产业股份有限公司 | 一种基于稀疏编码和神经网络的行人图片检测方法 |
Non-Patent Citations (3)
Title |
---|
"A sensor fusion model for detection and classification of anti-personal mines";Baikunth Nath等;《International journal of innovative computing and applications》;20090131;第1-25页 * |
"图像物体分类与检测算法综述";黄凯奇;《计算机学报》;20140630;第37卷(第6期);第1225-1240页 * |
"快速实用的人脸检测与跟踪算法的研究";孔潇;《万方数据库》;20060531;第2-7章 * |
Also Published As
Publication number | Publication date |
---|---|
EP3540649A1 (en) | 2019-09-18 |
CN108073933A (zh) | 2018-05-25 |
WO2018086513A1 (zh) | 2018-05-17 |
US20190347485A1 (en) | 2019-11-14 |
US10949673B2 (en) | 2021-03-16 |
EP3540649A4 (en) | 2019-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108073933B (zh) | 一种目标检测方法及装置 | |
Haines et al. | Background subtraction with dirichlet processes | |
CN111553259B (zh) | 一种图像去重方法及系统 | |
EP1542155A1 (en) | Object detection | |
CN110942009A (zh) | 基于时空混合卷积网络的跌倒检测方法与系统 | |
US20060152634A1 (en) | Method for detecting and eliminating flash scene in digital video | |
JP2006031678A (ja) | 画像処理 | |
GB2409027A (en) | Face detection | |
EP1542152A1 (en) | Object detection | |
CN111402298A (zh) | 基于目标检测与轨迹分析的粮库视频数据压缩方法 | |
CN113469118B (zh) | 多目标行人跟踪方法及装置、电子设备、存储介质 | |
CN110674886B (zh) | 一种融合多层级特征的视频目标检测方法 | |
CN111191535B (zh) | 基于深度学习的行人检测模型构建方法及行人检测方法 | |
CN113096159A (zh) | 目标检测、轨迹跟踪方法、模型及其电子设备 | |
EP1542154A2 (en) | Object detection | |
Silverman et al. | Temporal filtering for point target detection in staring IR imagery: II. Recursive variance filter | |
KR20160107734A (ko) | 동영상의 시간정보를 이용한 유해 동영상 분류방법 및 장치 | |
CN109191498A (zh) | 基于动态记忆和运动感知的目标检测方法及系统 | |
CN111428589A (zh) | 一种渐变转场的识别方法及系统 | |
CN109101884B (zh) | 一种脉冲阵列预测方法 | |
CN116258991A (zh) | 一种异常检测装置、系统、方法、以及计算机程序产品 | |
CN113553952A (zh) | 异常行为识别方法及装置、设备、存储介质、程序产品 | |
Tahboub et al. | Accuracy prediction for pedestrian detection | |
Parui et al. | An efficient violence detection system from video clips using ConvLSTM and keyframe extraction | |
CN104182959A (zh) | 目标搜索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |