CN111914756A - 一种视频数据处理方法和装置 - Google Patents
一种视频数据处理方法和装置 Download PDFInfo
- Publication number
- CN111914756A CN111914756A CN202010769394.2A CN202010769394A CN111914756A CN 111914756 A CN111914756 A CN 111914756A CN 202010769394 A CN202010769394 A CN 202010769394A CN 111914756 A CN111914756 A CN 111914756A
- Authority
- CN
- China
- Prior art keywords
- frame image
- feature map
- current frame
- optical flow
- flow information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 11
- 230000003287 optical effect Effects 0.000 claims abstract description 98
- 238000001514 detection method Methods 0.000 claims abstract description 81
- 238000012545 processing Methods 0.000 claims abstract description 47
- 238000000605 extraction Methods 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000007499 fusion processing Methods 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 2
- 230000008859 change Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 4
- 238000011084 recovery Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种视频数据处理方法和装置,涉及图像处理技术领域。该方法包括:将当前帧图像输入特征提取网络,以得到所述当前帧图像的特征图;确定所述当前帧图像与历史帧图像之间的光流信息,根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理;其中,所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像;对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理,以得到融合后的特征图;对所述融合后的特征图进行目标关键点检测,以得到目标关键点检测结果。通过以上步骤,能够解决由于视频中广泛存在的运动模糊、遮挡等问题造成检测算法的性能急剧下降、目标检测结果不准确的问题。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种视频数据处理方法和装置。
背景技术
人体关键点检测研究的是如何对图像中人体的各个关键点进行准确地识别与定位,它是动作识别、人机交互等诸多计算机视觉应用的基础。
随着深度学习的发展,深度神经网络被应用在人体关键点检测上,并且大大提高了人体关键点检测的准确率。当前,根据是否需要先检测全局人体可将人体关键点检测算法分为“自底向上”和“自顶向下”两种。其中,“自底向上”算法不需要先检测图像中的全局人体,它是直接利用神经网络先检测图像中可能存在的关键点,之后对这些关键点进行聚类、去除冗余连接,最后将每一个检测到的关键点匹配到具体的一个人。“自顶向下”算法需要先采用faster rcnn、yolo等通用目标检测算法检测出图像中的每一个全局人体,然后根据得到的检测框对图像进行剪裁,从而将一幅多人图像剪裁成多幅单人图像,之后再对每一幅单人图像再进行关键点检测。
在实现本发明的过程中,本发明的发明人发现:无论是“自底向上”还是“自顶向下”算法,当前的研究多集中在单帧图像方面。在现有技术中,处理视频数据时大都只是简单的将视频分解为若干帧,再利用单帧检测算法进行逐帧处理,即将视频中的每一帧作为独立的图像处理。这种简单、粗暴的处理方式没有利用帧间的时域信息,无法解决视频中广泛存在的运动模糊、遮挡等问题。当视频中的某一帧存在运动模糊或者遮挡时,单帧检测算法的性能会急剧下降。
因此,针对以上不足,需要提供一种新的视频数据处理方法和装置,以提高视频中目标的检测准确性。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是解决现有利用单帧检测算法对视频进行逐帧处理时由于视频中广泛存在的运动模糊、遮挡等问题造成检测算法的性能急剧下降、目标检测结果不准确的问题。
(二)技术方案
为了解决上述技术问题,一方面,本发明提供了一种视频数据处理方法。
本发明的视频数据处理方法包括:将当前帧图像输入特征提取网络,以得到所述当前帧图像的特征图;确定所述当前帧图像与历史帧图像之间的光流信息,根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理;其中,所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像;对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理,以得到融合后的特征图;对所述融合后的特征图进行目标关键点检测,以得到目标关键点检测结果。
可选地,所述确定所述当前帧图像与历史帧图像之间的光流信息包括:将所述当前帧图像与历史帧图像输入光流信息提取网络,以得到所述当前帧图像与历史帧图像之间的光流信息;其中,所述光流信息提取网络基于卷积神经网络构建。
可选地,所述根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理包括:通过双线性插值将对所述历史帧图像与所述当前帧的光流信息进行缩放,以使缩放后的光流信息与所述特征图的尺寸相同;根据缩放后的光流信息对历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐。
可选地,所述方法还包括:在所述对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理之前,根据所述光流信息提取网络输出的尺度场对所述空间对齐后的历史帧图像的特征图进行细化处理。
可选地,所述对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理,以得到融合后的特征图包括:将当前帧图像的特征图与细化处理后的历史帧图像的特征图输入时域特征融合网络,以得到融合后的特征图。
可选地,所述方法还包括:在所述对所述融合后的特征图进行目标关键点检测,以得到目标关键点检测结果之后,根据所述目标关键点检测结果对目标的姿态进行估计。
为了解决上述技术问题,另一方面,本发明还提供了一种视频数据处理装置。
本发明的视频数据处理装置包括:特征提取模块,用于将当前帧图像输入特征提取网络,以得到所述当前帧图像的特征图;特征对齐模块,用于确定所述当前帧图像与历史帧图像之间的光流信息,根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理;其中,所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像;融合处理模块,用于对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理,以得到融合后的特征图;检测模块,用于对所述融合后的特征图进行目标关键点检测,以得到目标关键点检测结果。
可选地,所述特征对齐模块确定所述当前帧图像与历史帧图像之间的光流信息包括:所述特征对齐模块将所述当前帧图像与历史帧图像输入光流信息提取网络,以得到所述当前帧图像与历史帧图像之间的光流信息;其中,所述光流信息提取网络基于卷积神经网络构建。
可选地,所述特征对齐模块根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理包括:所述特征对齐模块通过双线性插值将对所述历史帧图像与所述当前帧的光流信息进行缩放,以使缩放后的光流信息与所述特征图的尺寸相同;所述特征对齐模块根据缩放后的光流信息对历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐。
可选地,所述特征对齐模块,还用于根据所述光流信息提取网络输出的尺度场对所述空间对齐后的历史帧图像的特征图进行细化处理。
(三)有益效果
本发明的上述技术方案具有如下优点:通过确定所述当前帧图像与历史帧图像之间的光流信息,根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理,能够消除帧间特征的空间误差,提高视频检测结果的准确率;进一步,通过对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理,对融合后的特征图进行目标关键点检测,能够提取帧间的时域信息来增强当前帧的特征,进而提高视频检测结果的准确率。
附图说明
图1是本发明实施例一中的视频数据处理方法的主要流程示意图;
图2是本发明实施例二中的视频数据处理方法的主要流程示意图;
图3是本发明实施例三中的视频数据处理装置的主要组成模块示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要指出的是,在不影响本发明实施的情况下,本发明的实施例以及实施例中的技术特征可以相互组合。
实施例一
图1是本发明实施例一中的视频数据处理方法的主要流程示意图。如图1所示,本发明实施例提供的视频数据处理方法包括:
步骤S101:将当前帧图像输入特征提取网络,以得到所述当前帧图像的特征图。
其中,当前帧图像为从待检测视频中提取的一帧图像。在该步骤中,将当前帧图像输入特征提取网络,以从当前帧图像中提取丰富的特征。示例性地,所述特征提取网络可采用卷积神经网络,比如VGG、Resnet(残差网络)等网络。
步骤S102:确定所述当前帧图像与历史帧图像之间的光流信息,根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理。
其中,所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像。比如,当前帧图像为视频中的第5帧图像,可将视频中的第3帧图像和第4帧图像作为历史帧图像。
光流估计是根据两个观测瞬间之间的物体表面、形状等的变化从而计算出物体运动变化的一种方法。光流表征的是两幅图像间的运动信息,它反映的是前一帧图像中的像素运动到后一帧图像的瞬时速度。
在一个可选示例中,可基于深度学习算法确定当前帧图像与历史帧图像之间的光流信息。在该可选示例中,可将所述当前帧图像与历史帧图像输入光流信息提取网络,以得到所述当前帧图像与历史帧图像之间的光流信息。其中,所述光流信息提取网络可基于卷积神经网络构建。具体实施时,所述光流信息提取网络可采用Flownet、Flownet2.0等网络。在另一个可选示例中,可基于传统的光流估计算法(比如Lucas-Kanade算法等)确定当前帧图像与历史帧图像之间的光流信息。
进一步,在确定当前帧图像与历史帧图像之间的光流信息之后,可基于该光流信息将历史帧图像的特征图与当前帧图像的特征图进行空间对齐,以得到空间对齐处理后的历史帧图像的特征图。
步骤S103:对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理,以得到融合后的特征图。
示例性地,在该步骤中,可将当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图输入时域特征融合网络,以得到融合后的特征图。其中,所述时序特征融合网络可以为LSTM(Long Short-Term Memory,长短期记忆网络)、GRU(Gated Recurrent Units,门控循环单元)、ConvGRU等可用于时序特征融合的网络。
步骤S104:对所述融合后的特征图进行目标关键点检测,以得到目标关键点检测结果。
示例性地,在得到融合后的特征图之后,可将融合后的特征图输入目标关键点检测网络,以输出目标关键点检测结果。以目标为人体为例,可将融合后的特征图输入人体关键点检测模型,以得到人体关键点检测结果。例如,在进行人体关键点检测时,可采用Mask-RCNN中具体任务的子网络(包括8层3*3的卷积层)。另外,考虑到人体关键点检测的准确率对于特征图的分辨率很敏感,因此还可在8层卷积层的基础上级联一个解卷积层和一个双线性插值层,使得最后输出的结果尺度为56×56。
在本发明实施例中,通过确定所述当前帧图像与历史帧图像之间的光流信息,根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理,能够消除帧间特征的空间误差,提高视频检测结果的准确率;进一步,通过对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理,对融合后的特征图进行目标关键点检测,能够提取帧间的时域信息来增强当前帧的特征,进而提高视频检测结果的准确率。
实施例二
图2是本发明实施例二中的视频数据处理方法的主要流程示意图。如图2所示,本发明实施例的视频数据方法包括:
步骤S201:将当前帧图像输入特征提取网络,以得到所述当前帧图像的特征图。
其中,当前帧图像为从待检测视频中提取的一帧图像。在该步骤中,将当前帧图像输入特征提取网络,以从当前帧图像中提取丰富的特征。示例性地,所述特征提取网络可采用卷积神经网络,比如VGG、或者Resnet(残差网络)、FPN(特征图金字塔网络)等网络。
在一个可选实施方式中,考虑到图像中往往存在大小、尺度各异的不同目标,仅从单一尺度的特征图进行检测容易漏检,故而,采用FPN网络作为特征提取网络,以输出多尺度的特征图。与采用Resnet网络相比,通过使用FPN网络作为主干网络可以将不同尺度的信息融合起来,输出的多尺度特征图对于后续的目标关键点检测具有重要的意义。
步骤S202:将所述当前帧图像与历史帧图像输入光流信息提取网络,以得到所述当前帧图像与历史帧图像之间的光流信息以及尺度场信息。
其中,所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像。比如,当前帧图像为视频中的第5帧图像,可将视频中的第3帧图像和第4帧图像作为历史帧图像。
光流估计是根据两个观测瞬间之间的物体表面、形状等的变化从而计算出物体运动变化的一种方法。光流表征的是两幅图像间的运动信息,它反映的是前一帧图像中的像素运动到后一帧图像的瞬时速度。
在本发明实施例中,可基于深度学习算法确定当前帧图像与历史帧图像之间的光流信息。具体来说,可将所述当前帧图像与历史帧图像输入光流信息提取网络,以得到所述当前帧图像与历史帧图像之间的光流信息。其中,所述光流信息提取网络可基于卷积神经网络构建。具体实施时,所述光流信息提取网络可采用Flownet、Flownet2S等网络。
步骤S203:根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理。
示例性地,步骤S203可具体包括以下步骤:通过双线性插值将对所述历史帧图像与所述当前帧的光流信息进行缩放,以使缩放后的光流信息与所述特征图的尺寸相同;根据缩放后的光流信息对历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐。
进一步,假设用Mi→k来表示一个通过光流提取网络计算得到的第i帧到第k帧的二维光流场,假设某一像素在第i帧位于位置p,在第k帧时该像素运动到位置q,则有q=p+δp,其中δp=Mi→k(p)。由于上式中的δp大都是小数,因此可通过式(1)来实现特征对齐。
其中,c表示特征图f的一个通道;q表示特征图上的任一个坐标;G(q,p+δp)表示双线性插值变换核,用于将光流缩放到特征图的相同尺寸;由于G(q,p+δp)是二维变换核的,可以将其分解为两个一维变换核相乘的形式,如式(2)所示。
G(q,p+δp)=g(qx,px+δpx)·g(qy,py+δpy) (2)
其中,G(qx,px+δpx)表示一个一维变换核,G(qy,py+δpy)表示其另一个一维变换核;这两个一维变换核满足:g(a,b)=max(0,1-|a-b)。由于上式中只有很少项是非零的,所以上式的计算会很快。
步骤S204:根据所述尺度场信息对空间对齐后的历史帧图像的特征图进行细化处理。
在本发明实施例中,考虑到光流估计结果可能存在误差,进而导致上述空间对齐存在误差。为了使得对齐后的特征能够更有利于进行目标关键点检测,可令光流提取网络在输出光流场的同时输出一个和特征图相同维度的尺度场Si→k,并令尺度场Si→k和空间对齐后的特征图相乘,以得到细化后的特征图。
步骤S205:将当前帧图像的特征图与细化处理后的历史帧图像的特征图输入时域特征融合网络,以得到融合后的特征图。
示例性地,在该步骤中,可将当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图输入时域特征融合网络,以得到融合后的特征图。其中,所述时序特征融合网络可以为LSTM(Long Short-Term Memory,长短期记忆网络)、GRU(Gated Recurrent Units,门控循环单元)、ConvGRU等可用于时序特征融合的网络。其中,LSTM有遗忘门、输入门、输出门三个门控制信息的流动,LSTM通过记忆单元把隐层状态包装起来。GRU有更新门、重置门两个门,GRU直接将隐层状态传给下一个单元。与LSTM相比,GRU参数更少因此更容易收敛。ConvGRU是传统GRU的扩展,它将传统GRU中的全连接层换成了卷积层,因此它不仅具有GRU的时序建模能力,而且还能像CNN(卷积神经网络)一样刻画局部特征,可以说是时空特性兼备。
步骤S206:对所述融合后的特征图进行目标关键点检测,以得到目标关键点检测结果。
示例性地,在得到融合后的特征图之后,可将融合后的特征图输入目标关键点检测网络,以输出目标关键点检测结果。以目标为人体为例,可将融合后的特征图输入人体关键点检测模型,以得到人体关键点检测结果。例如,在进行人体关键点检测时,可采用Mask-RCNN中具体任务的子网络(包括8层3*3的卷积层)。另外,考虑到人体关键点检测的准确率对于特征图的分辨率很敏感,因此还可在8层卷积层的基础上级联一个解卷积层和一个双线性插值层,使得最后输出的结果尺度为56×56。具体实施时,在得到融合后的特征图之后,且在步骤S206之前,可先通过候选框生成网络生成目标候选框,根据目标候选框对特征图进行剪裁。
步骤S207:根据所述目标关键点检测结果对目标的姿态进行估计。
在得到目标关键点检测结果,可据此对目标的姿态进行估计。例如,在得到人体关键点检测结果后,可据此对视频中人物的姿态进行估计。
在本发明实施例中,通过以上步骤实现了一种适用于视频的目标关键点检测算法,能够进一步提高目标关键点检测的准确率,解决了现有利用单帧检测算法对视频进行逐帧处理时由于视频中广泛存在的运动模糊、遮挡等问题造成检测算法的性能急剧下降、目标检测结果不准确的问题。进一步,通过将相邻的几帧图像送到特征提取网络生成相应的特征图,根据光流信息将历史帧的特征图于当前帧的特征图进行对齐,再通过convGRU(Convlution Gate Recurrent Unit)将对齐后的历史帧的特征图和当前帧的特征图进行融合,并将融合后的特征图用于后续的目标关键点检测,能够进一步提高检测的准确率。
实施例三
图3是本发明实施例三中的视频数据处理装置的主要组成模块示意图。如图3所示,本发明实施例的视频数据处理装置300包括:特征提取模块301、特征对齐模块302、融合处理模块303、检测模块304。
特征提取模块301,用于将当前帧图像输入特征提取网络,以得到所述当前帧图像的特征图。
其中,当前帧图像为从待检测视频中提取的一帧图像。具体来说,特征提取模块301将当前帧图像输入特征提取网络,以从当前帧图像中提取丰富的特征。示例性地,所述特征提取网络可采用卷积神经网络,比如VGG、Resnet(残差网络)等网络。
特征对齐模块302,用于确定所述当前帧图像与历史帧图像之间的光流信息,根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理。
其中,所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像。比如,当前帧图像为视频中的第5帧图像,可将视频中的第3帧图像和第4帧图像作为历史帧图像。
光流估计是根据两个观测瞬间之间的物体表面、形状等的变化从而计算出物体运动变化的一种方法。光流表征的是两幅图像间的运动信息,它反映的是前一帧图像中的像素运动到后一帧图像的瞬时速度。
在一个可选示例中,特征对齐模块302可基于深度学习算法确定当前帧图像与历史帧图像之间的光流信息。在该可选示例中,特征对齐模块302可将所述当前帧图像与历史帧图像输入光流信息提取网络,以得到所述当前帧图像与历史帧图像之间的光流信息。其中,所述光流信息提取网络可基于卷积神经网络构建。具体实施时,所述光流信息提取网络可采用Flownet、Flownet2.0等网络。在另一个可选示例中,特征对齐模块302可基于传统的光流估计算法(比如Lucas-Kanade算法等)确定当前帧图像与历史帧图像之间的光流信息。
进一步,在确定当前帧图像与历史帧图像之间的光流信息之后,特征对齐模块302可基于该光流信息将历史帧图像的特征图与当前帧图像的特征图进行空间对齐,以得到空间对齐处理后的历史帧图像的特征图。
融合处理模块303,用于对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理,以得到融合后的特征图。
示例性地,融合处理模块303可将当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图输入时域特征融合网络,以得到融合后的特征图。其中,所述时序特征融合网络可以为LSTM(Long Short-Term Memory,长短期记忆网络)、GRU(Gated RecurrentUnits,门控循环单元)、ConvGRU等可用于时序特征融合的网络。
检测模块304,用于对所述融合后的特征图进行目标关键点检测,以得到目标关键点检测结果。
示例性地,在得到融合后的特征图之后,检测模块304可将融合后的特征图输入目标关键点检测网络,以输出目标关键点检测结果。以目标为人体为例,检测模块304可将融合后的特征图输入人体关键点检测模型,以得到人体关键点检测结果。例如,在进行人体关键点检测时,可采用Mask-RCNN中具体任务的子网络(包括8层3*3的卷积层)。另外,考虑到人体关键点检测的准确率对于特征图的分辨率很敏感,因此还可在8层卷积层的基础上级联一个解卷积层和一个双线性插值层,使得最后输出的结果尺度为56×56。
在本发明实施例的装置中,通过特征对齐模块确定所述当前帧图像与历史帧图像之间的光流信息,根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理,能够消除帧间特征的空间误差,提高视频检测结果的准确率;进一步,通过融合处理模块对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理,对融合后的特征图进行目标关键点检测,能够提取帧间的时域信息来增强当前帧的特征,进而提高视频检测结果的准确率。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种视频数据处理方法,其特征在于,所述方法包括:
将当前帧图像输入特征提取网络,以得到所述当前帧图像的特征图;
确定所述当前帧图像与历史帧图像之间的光流信息,根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理;其中,所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像;
对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理,以得到融合后的特征图;
对所述融合后的特征图进行目标关键点检测,以得到目标关键点检测结果。
2.根据权利要求1所述的方法,其特征在于,所述确定所述当前帧图像与历史帧图像之间的光流信息包括:
将所述当前帧图像与历史帧图像输入光流信息提取网络,以得到所述当前帧图像与历史帧图像之间的光流信息;其中,所述光流信息提取网络基于卷积神经网络构建。
3.根据权利要求1所述的方法,其特征在于,所述根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理包括:
通过双线性插值将对所述历史帧图像与所述当前帧的光流信息进行缩放,以使缩放后的光流信息与所述特征图的尺寸相同;根据缩放后的光流信息对历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在所述对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理之前,根据所述光流信息提取网络输出的尺度场对所述空间对齐后的历史帧图像的特征图进行细化处理。
5.根据权利要求4所述的方法,其特征在于,所述对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理,以得到融合后的特征图包括:
将当前帧图像的特征图与细化处理后的历史帧图像的特征图输入时域特征融合网络,以得到融合后的特征图。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述对所述融合后的特征图进行目标关键点检测,以得到目标关键点检测结果之后,根据所述目标关键点检测结果对目标的姿态进行估计。
7.一种视频数据处理装置,其特征在于,所述装置包括:
特征提取模块,用于将当前帧图像输入特征提取网络,以得到所述当前帧图像的特征图;
特征对齐模块,用于确定所述当前帧图像与历史帧图像之间的光流信息,根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理;其中,所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像;
融合处理模块,用于对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理,以得到融合后的特征图;
检测模块,用于对所述融合后的特征图进行目标关键点检测,以得到目标关键点检测结果。
8.根据权利要求7所述的装置,其特征在于,所述特征对齐模块确定所述当前帧图像与历史帧图像之间的光流信息包括:
所述特征对齐模块将所述当前帧图像与历史帧图像输入光流信息提取网络,以得到所述当前帧图像与历史帧图像之间的光流信息;其中,所述光流信息提取网络基于卷积神经网络构建。
9.根据权利要求7所述的装置,其特征在于,所述特征对齐模块根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理包括:
所述特征对齐模块通过双线性插值将对所述历史帧图像与所述当前帧的光流信息进行缩放,以使缩放后的光流信息与所述特征图的尺寸相同;所述特征对齐模块根据缩放后的光流信息对历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐。
10.根据权利要求8所述的装置,其特征在于,所述特征对齐模块,还用于根据所述光流信息提取网络输出的尺度场对所述空间对齐后的历史帧图像的特征图进行细化处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010769394.2A CN111914756A (zh) | 2020-08-03 | 2020-08-03 | 一种视频数据处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010769394.2A CN111914756A (zh) | 2020-08-03 | 2020-08-03 | 一种视频数据处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111914756A true CN111914756A (zh) | 2020-11-10 |
Family
ID=73286503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010769394.2A Pending CN111914756A (zh) | 2020-08-03 | 2020-08-03 | 一种视频数据处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914756A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418104A (zh) * | 2020-11-24 | 2021-02-26 | 深圳云天励飞技术股份有限公司 | 行人跟踪方法及相关设备 |
CN113111842A (zh) * | 2021-04-26 | 2021-07-13 | 浙江商汤科技开发有限公司 | 一种动作识别方法、装置、设备及计算机可读存储介质 |
CN113191316A (zh) * | 2021-05-21 | 2021-07-30 | 上海商汤临港智能科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN113506316A (zh) * | 2021-05-27 | 2021-10-15 | 北京迈格威科技有限公司 | 分割视频物体的方法、装置以及网络模型训练方法 |
CN113870307A (zh) * | 2021-09-01 | 2021-12-31 | 河北汉光重工有限责任公司 | 一种基于帧间信息的目标检测方法及装置 |
CN113901909A (zh) * | 2021-09-30 | 2022-01-07 | 北京百度网讯科技有限公司 | 基于视频的目标检测方法、装置、电子设备和存储介质 |
CN114071167A (zh) * | 2022-01-13 | 2022-02-18 | 浙江大华技术股份有限公司 | 视频增强方法、装置、解码方法、解码器及电子设备 |
CN118658107A (zh) * | 2024-08-22 | 2024-09-17 | 季华实验室 | 人体姿态估计方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977912A (zh) * | 2019-04-08 | 2019-07-05 | 北京环境特性研究所 | 视频人体关键点检测方法、装置、计算机设备和存储介质 |
US20190266712A1 (en) * | 2018-02-24 | 2019-08-29 | United States Of America As Represented By The Administrator Of The Nasa | System and method for imaging underwater environments using fluid lensing |
CN110348524A (zh) * | 2019-07-15 | 2019-10-18 | 深圳市商汤科技有限公司 | 一种人体关键点检测方法及装置、电子设备和存储介质 |
CN110443173A (zh) * | 2019-07-26 | 2019-11-12 | 华中科技大学 | 一种基于帧间关系的视频实例分割方法及系统 |
-
2020
- 2020-08-03 CN CN202010769394.2A patent/CN111914756A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190266712A1 (en) * | 2018-02-24 | 2019-08-29 | United States Of America As Represented By The Administrator Of The Nasa | System and method for imaging underwater environments using fluid lensing |
CN109977912A (zh) * | 2019-04-08 | 2019-07-05 | 北京环境特性研究所 | 视频人体关键点检测方法、装置、计算机设备和存储介质 |
CN110348524A (zh) * | 2019-07-15 | 2019-10-18 | 深圳市商汤科技有限公司 | 一种人体关键点检测方法及装置、电子设备和存储介质 |
CN110443173A (zh) * | 2019-07-26 | 2019-11-12 | 华中科技大学 | 一种基于帧间关系的视频实例分割方法及系统 |
Non-Patent Citations (4)
Title |
---|
OLLY STYLES等: "Multiple object forecasting:predicting future object locations in diverse environments", 《2020 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION(WACV)》, pages 679 - 688 * |
张开军: "基于深度学习的视觉目标检测与识别关键技术及其应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2019, no. 07, pages 138 - 1099 * |
方圆圆: "人脸识别与美颜算法实践 基于Python、机器学习与深度学习", 《机械工业出版社》, pages: 201 * |
胡保林: "基于深度学习的人体关键点检测", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2019, no. 12, pages 138 - 817 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418104A (zh) * | 2020-11-24 | 2021-02-26 | 深圳云天励飞技术股份有限公司 | 行人跟踪方法及相关设备 |
CN113111842A (zh) * | 2021-04-26 | 2021-07-13 | 浙江商汤科技开发有限公司 | 一种动作识别方法、装置、设备及计算机可读存储介质 |
CN113191316A (zh) * | 2021-05-21 | 2021-07-30 | 上海商汤临港智能科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN113506316A (zh) * | 2021-05-27 | 2021-10-15 | 北京迈格威科技有限公司 | 分割视频物体的方法、装置以及网络模型训练方法 |
CN113870307A (zh) * | 2021-09-01 | 2021-12-31 | 河北汉光重工有限责任公司 | 一种基于帧间信息的目标检测方法及装置 |
CN113901909A (zh) * | 2021-09-30 | 2022-01-07 | 北京百度网讯科技有限公司 | 基于视频的目标检测方法、装置、电子设备和存储介质 |
CN113901909B (zh) * | 2021-09-30 | 2023-10-27 | 北京百度网讯科技有限公司 | 基于视频的目标检测方法、装置、电子设备和存储介质 |
CN114071167A (zh) * | 2022-01-13 | 2022-02-18 | 浙江大华技术股份有限公司 | 视频增强方法、装置、解码方法、解码器及电子设备 |
CN114071167B (zh) * | 2022-01-13 | 2022-04-26 | 浙江大华技术股份有限公司 | 视频增强方法、装置、解码方法、解码器及电子设备 |
CN118658107A (zh) * | 2024-08-22 | 2024-09-17 | 季华实验室 | 人体姿态估计方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914756A (zh) | 一种视频数据处理方法和装置 | |
CN109977912B (zh) | 视频人体关键点检测方法、装置、计算机设备和存储介质 | |
CN107330439B (zh) | 一种图像中物体姿态的确定方法、客户端及服务器 | |
CN108960211B (zh) | 一种多目标人体姿态检测方法以及系统 | |
US10225473B2 (en) | Threshold determination in a RANSAC algorithm | |
US10621446B2 (en) | Handling perspective magnification in optical flow processing | |
CN109858333B (zh) | 图像处理方法、装置、电子设备及计算机可读介质 | |
CN108986152B (zh) | 一种基于差分图像的异物检测方法及装置 | |
CN111062263B (zh) | 手部姿态估计的方法、设备、计算机设备和存储介质 | |
CN107516322B (zh) | 一种基于对数极空间的图像物体大小和旋转估计计算方法 | |
CN112800964A (zh) | 基于多模块融合的遥感影像目标检测方法及系统 | |
CN111739144A (zh) | 一种基于深度特征光流的同时定位和建图的方法及装置 | |
CN113793370B (zh) | 三维点云配准方法、装置、电子设备及可读介质 | |
CN112435223B (zh) | 目标检测方法、装置及存储介质 | |
CN103761768A (zh) | 一种三维重建的立体匹配方法 | |
CN111160291A (zh) | 基于深度信息与cnn的人眼检测方法 | |
Wang et al. | Improving RGB-D SLAM accuracy in dynamic environments based on semantic and geometric constraints | |
CN116092178A (zh) | 一种面向移动端的手势识别和跟踪方法及系统 | |
CN116091998A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN116740126A (zh) | 目标跟踪方法、高速相机及存储介质 | |
Padole et al. | Motion based particle filter for human tracking with thermal imaging | |
CN108986135B (zh) | 一种基于llc与频域残差显著度的目标跟踪方法及装置 | |
CN112884804A (zh) | 行动对象追踪方法及相关设备 | |
CN114596580B (zh) | 一种多人体目标识别方法、系统、设备及介质 | |
Zhang et al. | A stereo matching algorithm based on multiresolution and epipolar constraint |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201110 |
|
RJ01 | Rejection of invention patent application after publication |