CN111723719A - 基于类别外部记忆的视频目标检测方法、系统、装置 - Google Patents
基于类别外部记忆的视频目标检测方法、系统、装置 Download PDFInfo
- Publication number
- CN111723719A CN111723719A CN202010536900.3A CN202010536900A CN111723719A CN 111723719 A CN111723719 A CN 111723719A CN 202010536900 A CN202010536900 A CN 202010536900A CN 111723719 A CN111723719 A CN 111723719A
- Authority
- CN
- China
- Prior art keywords
- frame
- video
- category
- class
- target detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 123
- 238000012549 training Methods 0.000 claims abstract description 49
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 43
- 238000000034 method Methods 0.000 claims description 42
- 230000002708 enhancing effect Effects 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000011478 gradient descent method Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 230000010354 integration Effects 0.000 abstract description 4
- 230000035945 sensitivity Effects 0.000 abstract description 3
- 238000012360 testing method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000005070 sampling Methods 0.000 description 6
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明属于领域,具体涉及了一种基于类别外部记忆的视频目标检测方法、系统、装置,旨在解决现有技术中当辅助帧数量较小时目标检测性能下降明显的问题。本发明包括:先根据训练视频信息通过自注意机制训练视频目标检测模型,再通过训练好的视频目标检测模型和自注意机制获得待测视频增强的实例特征,最后将增强后的实例特征输入通用目标检测网络的分类分支和边界框回归分支得到目标检测结果。本发明降低了现有技术中基于特征整合的视频目标检测方法对辅助帧数目的敏感性,使在辅助帧较少或没有辅助帧的情况下也能准确地进行目标检测。
Description
技术领域
本发明属于计算机视觉和模式识别领域,具体涉及了一种基于类别外部记忆的视频目标检测方法、系统、装置。
背景技术
视频目标检测是一个重要且具有挑战性的计算机视觉任务,在安防监控、智能视频分析、自动驾驶等领域具有广泛的应用。然而,由于视频中的一些帧存在运动模糊、失焦等现象,直接使用图像检测器来检测视频中的目标效果不够理想。与图像不同,视频数据包含了丰富的时序运动信息,因此,为了解决图像检测器在视频中低质量帧中效果不好的问题,很多方法通过利用时序上下文的信息来提高检测器的性能,如基于特征聚合的方法。虽然这些方法相比图像检测器在性能上取得了很大提升,但是在测试阶段对采样策略很敏感,这是因为这些方法需要采样辅助帧来为当前帧提供上下文信息,辅助帧的质量对性能影响很大,比如当辅助帧数量较少时,性能下降很明显。这些困难在之前的研究中都尚未得到很好的解决,本方法提出的基于类别外部记忆的视频目标检测方法可以较好的解决这一问题。
发明内容
为了解决现有技术中的上述问题,即现有技术的基于特征聚合的图像识别方法在辅助帧数量较小时性能下降明显的问题,本发明的第一方面提供了一种基于类别外部记忆的视频目标检测方法,所述视频目标检测方法包括以下步骤:
步骤S10,将获取的待检测视频转换为帧序列;
步骤S20,依次选择所述图像帧序列中的一帧作为当前帧,选取其他K帧作为当前帧的辅助帧,通过训练好的视频目标检测模型提取每一帧图像对应的实例特征以及每个实例的类别概率分布;K为自然数;
步骤S30,基于所述每个实例的类别概率分布获取当前帧和当前帧对应的辅助帧的类别中心,通过自注意机制获取当前帧每个实例的实例-类别中心关系,并进行当前帧对应的实例特征的增强;
所述每个实例的实例-类别中心关系为当前帧和当前帧对应的辅助帧的每个实例与当前时刻类别外部记忆中所有类别中心的关系;
步骤S40,将增强的当前帧的实例特征输入视频目标检测模型的分类分支和边界框回归分支,获得当前帧中实例的类别和位置;
重复执行步骤S20-步骤S40直至所述图像帧序列检测完成,获得待检测视频的每一帧图像中实例的类别和位置;
其中,所述视频目标检测模型为基于通用目标检测网络和soft-max预分类器构建,并基于训练视频以及设定的全局损失函数,通过反向传播算法和随机梯度下降法来减小所述全局损失函数值,多次迭代获得的用于进行视频目标检测的模型。
在一些优选的实施方式中,步骤S30中“基于所述每个实例的类别概率分布获取当前帧的类别中心”,其方法为:
在一些优选的实施方式中,步骤S30中“通过自注意机制获取当前帧每个实例的实例-类别中心关系”,其方法为:
在一些优选的实施方式中,步骤S30中“进行当前帧对应的实例特征的增强”其方法为:
在一些优选的实施方式中,步骤S20之后还设置有类别外部记忆更新的步骤,其方法为:
将所述实例特征和每个实例的类别概率分布与类别外部记忆的历史记录组成新的历史记录并存储在类别外部记忆:
在一些优选的实施方式中,历史记录的大小为C×D,其中D为实例特征的维数。
所述视频目标检测模型,其训练方法为:
步骤B10,将获取的训练视频集合转化为第一帧序列集合,并分别进行图像归一化操作,获得归一化第一帧序列集合;
步骤B20,对于所述归一化第一帧序列集合中每一个归一化第一帧序列,随机选取一帧作为训练帧,m帧作为训练帧对应的辅助帧,通过基于深度学习的通用目标检测网络提取每一帧图像对应的第一实例特征;m为自然数;
步骤B30,将所述第一实例特征输入soft-max预分类器,得到每个第一实例对应的第一类别概率分布,并计算soft-max预分类器的损失函数值Lpre;
步骤B40,基于所述第一实例特征和第一类别概率分布获取训练帧和训练帧对应的辅助帧的第一类别中心,并将所述第一类别中心存入类别外部记忆;
步骤B50,通过自注意机制计算训练帧的每个第一实例的第一实例-类别中心关系,并进行训练帧对应的第一实例特征的增强;
所述第一实例-类别中心关系为训练帧的每个第一实例和当前时刻类别外部记忆中所有类别中心的关系;
步骤B60,将增强的训练帧对应的第一实例特征输入通用目标检测网络的分类分支和边界框回归分支,获得训练帧中实例的类别和位置;
步骤B70,通过反向传播算法和随机梯度下降法来减小全局损失函数迭代训练soft-max预分类器和通用目标检测网络,直至全局损失函数值低于设定阈值或达到设定训练次数,得到训练好的视频目标检测模型。
在一些优选的实施方式中,所述全局损失函数为:
Lall=Lrcnn+Lpre+Lrpn
其中,Lall为全局损失函数,Lrpn为目标检测模型中区域提案网络部分的损失函数;Lrcnn为增强后的实例特征输入的通用目标检测网络的分类分支和边界框回归分支的损失函数;Lpre为soft-max预分类器的损失函数。
本发明的另一方面,提出了一种基于类别外部记忆的视频目标检测系统,包括检测视频预处理模块100、特征及概率分布计算模块200、特征增强模块300和实例分类模块400:
检测视频预处理模块100,用于将获取的待检测视频转换为帧序列;
特征及概率分布计算模块200,用于依次选择所述图像帧序列中的一帧作为当前帧,选取其他K帧作为当前帧的辅助帧,通过训练好的视频目标检测模型提取每一帧图像对应的实例特征以及每个实例的类别概率分布;K为自然数;
特征增强模块300,基于所述每个实例的类别概率分布获取当前帧和当前帧对应的辅助帧的类别中心,通过自注意机制获取当前帧每个实例的实例-类别中心关系,并进行当前帧对应的实例特征的增强;
所述每个实例的实例-类别中心关系为当前帧和当前帧对应的辅助帧的每个实例与当前时刻类别外部记忆中所有类别中心的关系;
实例分类模块400,用于将增强的当前帧的实例特征输入视频目标检测模型的分类分支和边界框回归分支,获得当前帧中实例的类别和位置;
重复执行特征及概率分布计算模块200-实例分类模块400的功能直至所述图像帧序列检测完成,获得待检测视频的每一帧图像中实例的类别和位置;
其中,所述视频目标检测模型为基于通用目标检测网络和soft-max预分类器构建,并基于训练视频以及设定的全局损失函数,通过反向传播算法和随机梯度下降法来减小所述全局损失函数值,多次迭代获得的用于进行视频目标检测的模型。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于类别外部记忆的视频目标检测方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;所述处理器,适于执行各条程序;所述存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于类别外部记忆的视频目标检测方法。
本发明的有益效果:
(1)通过采用基于自注意机制的读取方法,在实例-类别中心关系的指导下利用类别外部记忆中存储的类别的全局表达来增强当前帧中实例的特征,增强了实例特征的鲁棒性和判别力。
(2)通过外部记忆以类别全局表达的形式存储当前帧及其辅助帧信息及过去时刻的所有信息,将长时的时序信息传递给当前帧,增强当前帧特征的鲁棒性和判别力,提高目标检测的准确率。
(3)通过提高不同辅助帧采样策略的鲁棒性降低了现有技术中基于特征整合的视频目标检测方法对辅助帧数目的敏感性,使在辅助帧较少或没有辅助帧的情况下也能准确的进行目标检测。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于类别外部记忆的视频目标检测方法流程示意图;
图2是本发明基于类别外部记忆的视频目标检测方法中的视频目标检测模型获得方法示意图;
图3是本发明实施例中基于类别外部记忆的目标检测模型示意图;
图4是本发明实施例中外部记忆的写入操作示意图;
图5是本发明实施例中外部记忆的读取操作示意图;
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供一种基于类别外部记忆的视频目标检测方法,该方法引入的类别外部记忆能以类别全局表达的形式存储当前测试帧及其辅助帧的信息,还可以存储过去时刻的所有信息,将长时的时序信息传递给当前测试帧,增强其特征的鲁棒性和判别力,提高视频目标检测的准确率。在测试过程中,该方法对于不同的辅助帧采样策略具有极强的鲁棒性。以某大型目标检测数据库为例,其中包含3862段训练视频和555段测试视频,30类目标。最终获取的视频目标检测模型,其检测结果精度高、准确率高,模型的鲁棒性好。
本发明的一种基于类别外部记忆的视频目标检测方法,该目标检测方法包括:
步骤S10,将获取的待检测视频转换为图像帧序列;
步骤S20,依次选择所述图像帧序列中的一帧作为当前帧,选取其他K帧作为当前帧的辅助帧,通过训练好的视频目标检测模型提取每一帧图像对应的实例特征以及每个实例的类别概率分布;K为自然数;
步骤S30,基于所述每个实例的类别概率分布获取当前帧和当前帧对应的辅助帧的类别中心,通过自注意机制获取当前帧每个实例的实例-类别中心关系,并进行当前帧对应的实例特征的增强;
所述每个实例的实例-类别中心关系为当前帧和当前帧对应的辅助帧的每个实例与当前时刻类别外部记忆中所有类别中心的关系;
步骤S40,将增强的当前帧的实例特征输入视频目标检测模型的分类分支和边界框回归分支,获得当前帧中实例的类别和位置;
步骤S50,重复执行步骤S20-步骤S40直至所述图像帧序列检测完成,获得待检测视频的每一帧图像中实例的类别和位置;
其中,所述视频目标检测模型为基于通用目标检测网络和soft-max预分类器构建,并基于训练视频以及设定的全局损失函数,通过反向传播算法和随机梯度下降法来减小所述全局损失函数值,多次迭代获得的用于进行视频目标检测的模型。
为了更清晰地对本发明基于类别外部记忆的视频目标检测方法进行说明,下面结合图1本发明基于类别外部记忆的视频目标检测方法流程示意图和图3本发明实施例中基于类别外部记忆目标检测模型示意图对本发明方法实施例中各步骤展开详述。
本发明一种实施例的基于类别外部记忆的视频目标检测方法,包括步骤S10-步骤S50,各步骤详细描述如下
步骤S10,将获取的待检测视频转换为图像帧序列;
优选的,可以将每帧图像归一化处理,如归一化为短边长度至少600个像素。
步骤S20,依次选择所述图像帧序列中的一帧作为当前帧,选取其他K帧作为当前帧的辅助帧,通过训练好的视频目标检测模型提取每一帧图像对应的实例特征以及每个实例的类别概率分布;K为自然数;
K通常的取值范围为0-25的整数,在模型的应用中,可以不选取辅助帧也能获得较好的检测结果,因此,在一些实施例中,K的取值可以为0。
如图2本发明基于类别外部记忆的视频目标检测方法中的视频目标检测模型获得方法示意图所示,视频目标检测模型的训练方法为:
步骤B10,将获取的训练视频集合转化为第一帧序列集合,并分别进行图像归一化操作,获得归一化第一帧序列集合;
步骤B20,对于所述归一化第一帧序列集合中每一个归一化第一帧序列,随机选取一帧作为训练帧,m帧作为辅助帧,m为自然数优选地为平衡训练速度和模型性能的选择,选取两帧为训练帧对应的辅助帧,选取其他数目的帧数也可以达到类似效果此处不做具体限定,通过基于深度学习的通用目标检测网络提取每一帧图像对应的第一实例特征;
本发明一个实施例中,通用目标检测网络选取Faster R-CNN,在其他的实施例中,也可以根据需要选择合适的网络,本发明在此不一一详述;
步骤B30,将所述第一实例特征输入soft-max预分类器,得到每个第一实例对应的第一类别概率分布,并计算soft-max预分类器的损失函数值Lpre;
步骤B40,基于所述第一实例特征和第一类别概率分布获取训练帧和训练帧对应的辅助帧的第一类别中心,并将所述第一类别中心存入类别外部记忆;
步骤B50,通过自注意机制计算训练帧的每个第一实例的第一实例-类别中心关系,并进行训练帧对应的第一实例特征的增强;
所述第一实例-类别中心关系为训练帧的每个第一实例和当前时刻类别外部记忆中所有类别中心的关系;
步骤B60,将增强的训练帧对应的第一实例特征输入通用目标检测网络的分类分支和边界框回归分支,获得训练帧中实例的类别和位置;
步骤B70,通过反向传播算法和随机梯度下降法来减小全局损失函数迭代训练soft-max预分类器和通用目标检测网络,直至全局损失函数值低于设定阈值或达到设定训练次数,得到训练好的视频目标检测模型。
全局损失函数如式(1)所示:
Lall=Lrcnn+Lpre+Lrpn
式(1)
其中,Lall为全局损失函数,Lrpn为目标检测模型中区域提案网络部分的损失函数;Lrcnn为增强后的实例特征输入通用目标检测网络的分类分支和边界框回归分支的损失函数;Lpre为soft-max预分类器的损失函数。
在一些优选的实施方式中,步骤S20之后还设置有类别外部记忆更新的步骤,如图4本发明实施例中外部记忆的写入操作示意图,所示,其方法为:
将所述实例特征和每个实例的类别概率分布与类别外部记忆的历史记录组成新的历史记录并存储在类别外部记忆,如式(2)所示:
在测试阶段,历史记录内容的大小为C×D,其中D为实例特征的维数。因此,记忆内容大小不会随着时间的推移越来越大。
步骤S30,基于所述每个实例的类别概率分布获取当前帧的类别中心,通过自注意机制获取当前帧每个实例的实例-类别中心关系,并进行当前帧对应的实例特征的增强;
所述每个实例的实例-类别中心关系为当前帧的每个实例与当前时刻类别外部记忆中所有类别中心的关系;
基于所述每个实例的类别概率分布获取当前帧的类别中心,如式(3)所示:
图5为本发明实施例中外部记忆的读取示意图,读取过程包括:“通过自注意机制获取当前帧每个实例的实例-类别中心关系;进行当前帧对应的实例特征的增强”;
通过自注意机制获取当前帧每个实例的实例-类别中心关系,如式(4)所示:
进行当前帧对应的实例特征的增强,如式(5)所示:
步骤S40,将增强的当前帧的实例特征输入通用目标检测网络的分类分支和边界框回归分支,获得当前帧中实例的类别和位置;
步骤S50,重复执行步骤S20-步骤S40直至所述图像帧序列检测完成,获得待检测视频的每一帧图像中实例的类别和位置;
其中,所述视频目标检测模型基于通用目标检测网络和soft-max预分类器构建,并基于训练视频以及设定的全局损失函数,通过反向传播算法和随机梯度下降法来减小所述全局损失函数值,多次迭代获得的用于进行视频目标检测的模型。
本发明提供一种基于类别外部记忆的视频目标检测方法,本方法提高了不同辅助帧采样策略的鲁棒性降低了现有技术中基于特征整合的视频目标检测方法对辅助帧数目的敏感性,使在辅助帧较少或没有辅助帧的情况下也能准确的进行目标检测。
本发明的一种基于类别外部记忆的视频目标检测方法,先根据待测视频选取当前帧和辅助帧,再通过训练好的视频目标检测模型获取实例特征和类别概率分布计算类别中心,然后更新外部记忆,通过自注意机制计算每个实例-类别中心关系并增强实例特征,最后将实例特征输入目标检测模型的分类和回归分支计算测试中实例的类别和位置得到检测结果。
本方法通过引进类别外部记忆来传递视频中时序上下文信息,然后设计了估计视频中类别中心的方法以及写入方法来对外部记忆中存储内容进行更新,最后采用基于自注意机制的读取方法,在实例-类别中心关系的指导下,利用外部记忆中存储的类别的全局表达来增强测试帧中实例的特征,增强特征的鲁棒性和判别力。本方法引入的外部记忆除了能以类别全局表达的行驶存储当前测试帧及辅助帧的信息,还可以存储过去时刻的所有信息,将长时的时序信息传递给当前测试帧,增强其鲁棒性和判别力,提高视频目标检测的准确率。在测试过程中,该方法对于不同的辅助帧采样策略具有极强的鲁棒性,可以较好的解决当前基于特征整合的视频目标检测方法对辅助帧数目敏感的问题,甚至在没有辅助帧的情况下,该方法仍能显著提高目标检测的准确率。
本发明第二实施例的基于类别外部记忆的视频目标检测系统,包括检测视频预处理模块100、特征及概率分布计算模块200、特征增强模块300和实例分类模块400:
检测视频预处理模块100,用于将获取的待检测视频转换为帧序列;
特征及概率分布计算模块200,,用于依次选择所述图像帧序列中的一帧作为当前帧,选取其他K帧作为当前帧的辅助帧,通过训练好的视频目标检测模型提取每一帧图像对应的实例特征以及每个实例的类别概率分布;K为自然数;
特征增强模块300,基于所述每个实例的类别概率分布获取当前帧和当前帧对应的辅助帧的类别中心,通过自注意机制获取当前帧每个实例的实例-类别中心关系,并进行当前帧对应的实例特征的增强;
所述每个实例的实例-类别中心关系为当前帧和当前帧对应的辅助帧的每个实例与当前时刻类别外部记忆中所有类别中心的关系;
用于将增强的当前帧的实例特征输入视频目标检测模型的分类分支和边界框回归分支,获得当前帧中实例的类别和位置;
重复执行特征及概率分布计算模块200-实例分类模块400的功能直至所述图像帧序列检测完成,获得待检测视频的每一帧图像中实例的类别和位置;
其中,所述视频目标检测模型为基于通用目标检测网络和soft-max预分类器构建,并基于训练视频以及设定的全局损失函数,通过反向传播算法和随机梯度下降法来减小所述全局损失函数值,多次迭代获得的用于进行视频目标检测的模型。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于类别外部记忆的视频目标检测系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于类别外部记忆的视频目标检测方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于类别外部记忆的视频目标检测方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (11)
1.一种基于类别外部记忆的视频目标检测方法,其特征在于,所述方法包括:
步骤S10,将获取的待检测视频转换为图像帧序列;
步骤S20,依次选择所述图像帧序列中的一帧作为当前帧,选取其他K帧作为当前帧的辅助帧,通过训练好的视频目标检测模型提取每一帧图像对应的实例特征以及每个实例的类别概率分布;K为自然数;
步骤S30,基于所述每个实例的类别概率分布获取当前帧和当前帧对应的辅助帧的类别中心,通过自注意机制获取当前帧每个实例的实例-类别中心关系,并进行当前帧对应的实例特征的增强;
所述每个实例的实例-类别中心关系为当前帧和当前帧对应的辅助帧的每个实例与当前时刻类别外部记忆中所有类别中心的关系;
步骤S40,将增强的当前帧的实例特征输入视频目标检测模型的分类分支和边界框回归分支,获得当前帧中实例的类别和位置;
步骤S50,重复执行步骤S20-步骤S40直至所述图像帧序列检测完成,获得待检测视频的每一帧图像中实例的类别和位置;
其中,所述视频目标检测模型为基于通用目标检测网络和soft-max预分类器构建,并基于训练视频以及设定的全局损失函数,通过反向传播算法和随机梯度下降法来减小所述全局损失函数值,多次迭代获得的用于进行视频目标检测的模型。
6.根据权利要求5所述的一种基于类别外部记忆的视频目标检测方法,其特征在于,历史记录内容的大小为C×D,其中D为实例特征的维数。
7.根据权利要求1所述的基于类别外部记忆的视频目标检测方法,其特征在于,所述视频目标检测模型,其训练方法为:
步骤B10,将获取的训练视频集合转化为第一帧序列集合,并分别进行图像归一化操作,获得归一化第一帧序列集合;
步骤B20,对于所述归一化第一帧序列集合中每一个归一化第一帧序列,随机选取一帧作为训练帧,m帧作为训练帧对应的辅助帧,通过基于深度学习的通用目标检测网络提取每一帧图像对应的第一实例特征;m为自然数;
步骤B30,将所述第一实例特征输入soft-max预分类器,得到每个第一实例对应的第一类别概率分布,并计算soft-max预分类器的损失函数值Lpre;
步骤B40,基于所述第一实例特征和第一类别概率分布获取训练帧和训练帧对应的辅助帧的第一类别中心,并将所述第一类别中心存入类别外部记忆;
步骤B50,通过自注意机制计算训练帧的每个第一实例的第一实例-类别中心关系,并进行训练帧对应的第一实例特征的增强;
所述第一实例-类别中心关系为训练帧的每个第一实例和当前时刻类别外部记忆中所有类别中心的关系;
步骤B60,将增强的训练帧对应的第一实例特征输入通用目标检测网络的分类分支和边界框回归分支,获得训练帧中实例的类别和位置;
步骤B70,通过反向传播算法和随机梯度下降法来减小全局损失函数迭代训练soft-max预分类器和通用目标检测网络,直至全局损失函数值低于设定阈值或达到设定训练次数,得到训练好的视频目标检测模型。
8.根据权利要求6所述的基于类别外部记忆的视频目标检测方法,其特征在于,所述全局损失函数为:
Lall=Lrcnn+Lpre+Lrpn
其中,Lall为全局损失函数,Lrpn为目标检测模型中区域提案网络部分的损失函数;Lrcnn为增强后的实例特征输入的通用目标检测网络的分类分支和边界框回归分支的损失函数;Lpre为soft-max预分类器的损失函数。
9.一种基于类别外部记忆的视频目标检测系统,其特征在于,包括检测视频预处理模块100、特征及概率分布计算模块200、特征增强模块300和实例分类模块400:
检测视频预处理模块100,用于将获取的待检测视频转换为帧序列;
特征及概率分布计算模块200,用于依次选择所述图像帧序列中的一帧作为当前帧,选取其他K帧作为当前帧的辅助帧,通过训练好的视频目标检测模型提取每一帧图像对应的实例特征以及每个实例的类别概率分布;K为自然数;
特征增强模块300,基于所述每个实例的类别概率分布获取当前帧和当前帧对应的辅助帧的类别中心,通过自注意机制获取当前帧每个实例的实例-类别中心关系,并进行当前帧对应的实例特征的增强;
所述每个实例的实例-类别中心关系为当前帧和当前帧对应的辅助帧的每个实例与当前时刻类别外部记忆中所有类别中心的关系;
实例分类模块400,用于将增强的当前帧的实例特征输入视频目标检测模型的分类分支和边界框回归分支,获得当前帧中实例的类别和位置;
重复执行特征及概率分布计算模块200-实例分类模块400的功能直至所述图像帧序列检测完成,获得待检测视频的每一帧图像中实例的类别和位置;
其中,所述视频目标检测模型为基于通用目标检测网络和soft-max预分类器构建,并基于训练视频以及设定的全局损失函数,通过反向传播算法和随机梯度下降法来减小所述全局损失函数值,多次迭代获得的用于进行视频目标检测的模型。
10.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-8所述的基于类别外部记忆的视频目标检测方法。
11.一种处理装置,包括处理器,适于执行各条程序;以及存储装置,适于存储多条程序;其特征在于,所述程序适于由处理器加载并执行以实现:权利要求1-8所述的基于类别外部记忆的视频目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010536900.3A CN111723719B (zh) | 2020-06-12 | 2020-06-12 | 基于类别外部记忆的视频目标检测方法、系统、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010536900.3A CN111723719B (zh) | 2020-06-12 | 2020-06-12 | 基于类别外部记忆的视频目标检测方法、系统、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111723719A true CN111723719A (zh) | 2020-09-29 |
CN111723719B CN111723719B (zh) | 2021-08-13 |
Family
ID=72566611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010536900.3A Active CN111723719B (zh) | 2020-06-12 | 2020-06-12 | 基于类别外部记忆的视频目标检测方法、系统、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111723719B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116311003A (zh) * | 2023-05-23 | 2023-06-23 | 澳克多普有限公司 | 一种基于双通道加载机制的视频检测方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268532A (zh) * | 2014-09-30 | 2015-01-07 | 郑州轻工业学院 | 网络环境下大规模图像与视频数据高效处理的方法 |
CN106133685A (zh) * | 2014-03-27 | 2016-11-16 | 微软技术许可有限责任公司 | 对运行时行为的基于分层指令的管理 |
EP3182331A1 (en) * | 2015-12-14 | 2017-06-21 | Tata Consultancy Services Limited | Method and system to detect objects using block based histogram of oriented gradients |
CN109547479A (zh) * | 2018-12-27 | 2019-03-29 | 国网浙江省电力有限公司电力科学研究院 | 一种工业环境中威胁情报整合系统和方法 |
CN109948425A (zh) * | 2019-01-22 | 2019-06-28 | 中国矿业大学 | 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置 |
CN110378362A (zh) * | 2019-04-22 | 2019-10-25 | 浙江师范大学 | 基于概念稳定特征及其差异化网络的概念学习方法 |
CN110555345A (zh) * | 2018-06-01 | 2019-12-10 | 北京深鉴智能科技有限公司 | 智能图像分析系统和方法 |
CN110647893A (zh) * | 2019-09-20 | 2020-01-03 | 北京地平线机器人技术研发有限公司 | 目标对象识别方法、装置、存储介质和设备 |
CN110728263A (zh) * | 2019-10-24 | 2020-01-24 | 中国石油大学(华东) | 一种基于距离选择的强判别特征学习的行人重识别方法 |
CN110879994A (zh) * | 2019-12-02 | 2020-03-13 | 中国科学院自动化研究所 | 基于形状注意力机制的三维目测检测方法、系统、装置 |
US20200134357A1 (en) * | 2018-10-31 | 2020-04-30 | Abbyy Production Llc | Neural-network-based optical character recognition using specialized confidence functions |
CN111242019A (zh) * | 2020-01-10 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 视频内容的检测方法、装置、电子设备以及存储介质 |
-
2020
- 2020-06-12 CN CN202010536900.3A patent/CN111723719B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106133685A (zh) * | 2014-03-27 | 2016-11-16 | 微软技术许可有限责任公司 | 对运行时行为的基于分层指令的管理 |
CN104268532A (zh) * | 2014-09-30 | 2015-01-07 | 郑州轻工业学院 | 网络环境下大规模图像与视频数据高效处理的方法 |
EP3182331A1 (en) * | 2015-12-14 | 2017-06-21 | Tata Consultancy Services Limited | Method and system to detect objects using block based histogram of oriented gradients |
CN110555345A (zh) * | 2018-06-01 | 2019-12-10 | 北京深鉴智能科技有限公司 | 智能图像分析系统和方法 |
US20200134357A1 (en) * | 2018-10-31 | 2020-04-30 | Abbyy Production Llc | Neural-network-based optical character recognition using specialized confidence functions |
CN109547479A (zh) * | 2018-12-27 | 2019-03-29 | 国网浙江省电力有限公司电力科学研究院 | 一种工业环境中威胁情报整合系统和方法 |
CN109948425A (zh) * | 2019-01-22 | 2019-06-28 | 中国矿业大学 | 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置 |
CN110378362A (zh) * | 2019-04-22 | 2019-10-25 | 浙江师范大学 | 基于概念稳定特征及其差异化网络的概念学习方法 |
CN110647893A (zh) * | 2019-09-20 | 2020-01-03 | 北京地平线机器人技术研发有限公司 | 目标对象识别方法、装置、存储介质和设备 |
CN110728263A (zh) * | 2019-10-24 | 2020-01-24 | 中国石油大学(华东) | 一种基于距离选择的强判别特征学习的行人重识别方法 |
CN110879994A (zh) * | 2019-12-02 | 2020-03-13 | 中国科学院自动化研究所 | 基于形状注意力机制的三维目测检测方法、系统、装置 |
CN111242019A (zh) * | 2020-01-10 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 视频内容的检测方法、装置、电子设备以及存储介质 |
Non-Patent Citations (6)
Title |
---|
HAIPING WU 等: "Sequence Level Semantics Aggregation for Video Object Detection", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 * |
HANMING DENG 等: "Object Guided External Memory Network for Video Object Detection", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 * |
MASON LIU 等: "Looking Fast and Slow: Memory-Guided Mobile Video Object Detection", 《HTTPS://ARXIV.ORG/ABS/1903.10172》 * |
YIHONG CHEN 等: "Memory Enhanced Global-Local Aggregation for Video Object Detection", 《HTTPS://ARXIV.ORG/ABS/2003.12063》 * |
朱盈盈 等: "适用于文字检测的候选框提取算法", 《数据采集与处理》 * |
梁栋 等: "结合运动目标检测和ResNet的车速车型智能识别", 《北京交通大学学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116311003A (zh) * | 2023-05-23 | 2023-06-23 | 澳克多普有限公司 | 一种基于双通道加载机制的视频检测方法及系统 |
CN116311003B (zh) * | 2023-05-23 | 2023-08-01 | 澳克多普有限公司 | 一种基于双通道加载机制的视频检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111723719B (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11823429B2 (en) | Method, system and device for difference automatic calibration in cross modal target detection | |
CN109598287B (zh) | 基于深度卷积生成对抗网络样本生成的外观瑕疵检测方法 | |
US11501162B2 (en) | Device for classifying data | |
CN108229522B (zh) | 神经网络的训练方法、属性检测方法、装置及电子设备 | |
CN111814690B (zh) | 一种目标重识别方法、装置和计算机可读存储介质 | |
CN110348392B (zh) | 车辆匹配方法及设备 | |
CN108664970A (zh) | 一种快速目标检测方法、电子设备、存储介质及系统 | |
WO2015146113A1 (ja) | 識別辞書学習システム、識別辞書学習方法および記録媒体 | |
Stadler et al. | Pas tracker: Position-, appearance-and size-aware multi-object tracking in drone videos | |
CN110610123A (zh) | 一种多目标车辆检测方法、装置、电子设备及存储介质 | |
CN115861738A (zh) | 一种类别语义信息引导的遥感目标检测主动采样方法 | |
CN112541394A (zh) | 黑眼圈及鼻炎识别方法、系统及计算机介质 | |
CN111723719B (zh) | 基于类别外部记忆的视频目标检测方法、系统、装置 | |
CN111553184A (zh) | 一种基于电子围网的小目标检测方法、装置及电子设备 | |
CN109492702A (zh) | 基于排序度量函数的行人重识别方法、系统、装置 | |
CN112699842A (zh) | 宠物识别方法、装置、设备及计算机可读存储介质 | |
CN110675382A (zh) | 基于CNN-LapsELM的铝电解过热度识别方法 | |
CN114067401A (zh) | 目标检测模型的训练及身份验证方法和装置 | |
CN113420824A (zh) | 针对工业视觉应用的预训练数据筛选及训练方法、系统 | |
CN110147790B (zh) | 基于自适应阈值的场景图像商标检测方法、系统、装置 | |
Ma et al. | Hard ship detection via generative adversarial networks | |
Sugiarto et al. | A smartphone-based of wood identification using image feature extraction | |
CN117351240B (zh) | 一种正样本采样方法、系统、存储介质和电子设备 | |
Nguyen et al. | Complementary ensemble learning | |
CN116541713B (zh) | 基于局部时频特征迁移学习的轴承故障诊断模型训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |