CN114693557B - 基于姿态引导的行人视频修复方法、系统、设备和介质 - Google Patents
基于姿态引导的行人视频修复方法、系统、设备和介质 Download PDFInfo
- Publication number
- CN114693557B CN114693557B CN202210328650.3A CN202210328650A CN114693557B CN 114693557 B CN114693557 B CN 114693557B CN 202210328650 A CN202210328650 A CN 202210328650A CN 114693557 B CN114693557 B CN 114693557B
- Authority
- CN
- China
- Prior art keywords
- gesture
- video
- sequence
- neural network
- pedestrian
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012546 transfer Methods 0.000 claims abstract description 61
- 238000013528 artificial neural network Methods 0.000 claims abstract description 54
- 230000008439 repair process Effects 0.000 claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000003860 storage Methods 0.000 claims abstract description 19
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 17
- 238000010586 diagram Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 19
- 238000005096 rolling process Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 4
- 230000000295 complement effect Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 239000012633 leachable Substances 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims 2
- 230000000694 effects Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 4
- 210000001503 joint Anatomy 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 241000238097 Callinectes sapidus Species 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000364483 Lipeurus epsilon Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000002310 elbow joint Anatomy 0.000 description 1
- 238000003874 inverse correlation nuclear magnetic resonance spectroscopy Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/10—Image enhancement or restoration using non-spatial domain filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20052—Discrete cosine transform [DCT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于姿态引导的行人视频修复方法、系统、计算机设备和存储介质,所述方法包括:获取行人视频修复的数据集;利用数据集对图卷积神经网络进行训练;将数据集中被遮挡的姿态序列输入训练好的图卷积神经网络,得到优化后的姿态序列;利用优化后的姿态序列和数据集对姿态注意转移网络进行训练;将待修复的行人视频中被遮挡的姿态序列输入训练好的图卷积神经网络中得到优化后的姿态序列;将优化后的姿态序列与待修复的行人视频输入训练好的姿态注意转移网络,得到修复好的行人视频。本发明通过对被遮挡的姿态序列补全得到优化后的人体姿态序列,根据其与被遮挡的视频逐步修复视频帧中人体缺失部分,从而得到更真实清晰的行人视频。
Description
技术领域
本发明涉及人工智能技术领域,尤其是涉及一种基于姿态引导的行人视频修复方法、系统、计算机设备和存储介质。
背景技术
视频修复也被称为视频补全,即用一些复杂的修复算法将缺损或被遮挡的区域用其周围的区域进行填充。在某些特殊的情况下视频中的行人会被一些障碍物或视频中的另一运动目标所遮挡,行人视频修复的任务是对视频中被遮挡行人进行修复。目前还未发现有专门针对行人视频修复任务的研究,特别是在生成神经网络领域。把现有的视频修复方法直接用于行人视频修复工作是不可行的,因为没有考虑到人体语义信息,会出现使用背景像素信息来修复人体缺失区域的情况,从而导致修复结果模糊失真。
发明内容
为了解决上述现有技术的不足,本发明提供了一种基于姿态引导的行人视频修复方法、系统、计算机设备和存储介质,针对视频中的行人会被遮挡,本发明提出行人视频修复从人体姿态着手,先修复视频中被遮挡的姿态序列,然后根据优化后的姿态序列逐步修复视频帧中人体缺失部分。具体地,将基于姿态引导的行人视频修复方法分为两个子任务,第一个子任务是从被遮挡的视频中提取出被遮挡的人体姿态序列,然后对其进行修复得到优化的姿态序列;第二个子任务是根据被遮挡的视频与得到的优化后的姿态序列,逐步修复视频帧中人体缺失部分,从而得到更真实清晰的行人视频。
本发明的第一个目的在于提供一种基于姿态引导的行人视频修复方法。
本发明的第二个目的在于提供一种基于姿态引导的行人视频修复系统。
本发明的第三个目的在于提供一种计算机设备。
本发明的第四个目的在于提供一种存储介质。
本发明的第一个目的可以通过采取如下技术方案达到:
一种基于姿态引导的行人视频修复方法,所述方法包括:
获取行人视频修复的数据集;
利用所述数据集对图卷积神经网络进行训练,得到训练好的图卷积神经网络;
将所述数据集中被遮挡的姿态序列输入训练好的图卷积神经网络,得到优化后的姿态序列;
利用所述优化后的姿态序列和所述数据集对姿态注意转移网络进行训练,得到训练好的姿态注意转移网络;
将待修复的行人视频中被遮挡的姿态序列输入训练好的图卷积神经网络中得到优化后的姿态序列;将所述优化后的姿态序列与待修复的行人视频输入训练好的姿态注意转移网络,得到修复好的行人视频。
进一步的,所述利用所述数据集对图卷积神经网络进行训练,得到训练好的图卷积神经网络,具体包括:
利用离散余弦变换对数据集中被遮挡的姿态序列进行时间维度上的编码以获得每个关节点的运动模式,得到处理后被遮挡的姿态序列;
将所述处理后被遮挡的姿态序列输入图卷积神经网络中,利用图卷积神经网络的特性提取出空间维度上的信息,综合考虑人体姿态的时空信息对残缺序列进行修复,得到网络输出结果;
对网络输出结果进行逆离散余弦变换,得到优化后的姿态序列;
训练时,根据所述优化后的姿态序列和数据集中对应的真值姿态,计算训练误差以进行误差反向传播,得到训练好的图卷积神经网络。
进一步的,所述将所述处理后被遮挡的姿态序列输入图卷积神经网络中,利用图卷积神经网络的特性提取出空间维度上的信息,综合考虑人体姿态的时空信息对残缺序列进行修复,得到网络输出结果,具体包括:
在图卷积神经网络中,用具有K个节点的全连接图表示人体姿态,图中每条边的强度用加权邻接矩阵表示,/>表示图卷积层p的输入,其中F是上一层的特征输出数量;/>表示一组可学习的权重,/>是上一层的特征输出数量,图卷积层p+1的输出如下所示:
H(p+1)=σ(A(p)H(p)W(p))
其中,A(p)是图卷积层p中可学习的加权邻接矩阵,σ(.)是激活函数;若每个姿态包括n个关节点,则k=2*n。
进一步的,利用所述优化后的姿态序列和所述数据集对姿态注意转移网络进行训练前,将所述优化后的姿态序列制作成热力图;同时将数据集中的被遮挡的视频和二值掩码视频进行拼接,作为行人视频修复输入。
进一步的,所述利用所述优化后的姿态序列和所述数据集对姿态注意转移网络进行训练,得到训练好的姿态注意转移网络,具体包括:
将所述热力图和所述行人视频修复输入分别输入到具有两次下采样卷积层的卷积神经网络中提取出对应的特征,分别记为姿态特征和视频特征;
将所述姿态特征和视频特征输入姿态注意转移网络中得到修复结果,其中,姿态信息用来指示姿态注意转移网络复制有用的信息来补全缺失区域:当修复某一视频帧时,其余的视频帧是参考视频帧;
训练时,目标函数是最小化修复结果和数据集中对应的真值视频的差,使用的损失函数为L1 loss、Perceptual loss和Style loss,从而得到训练好的姿态注意转移网络。
进一步的,所述姿态注意转移网络由多个姿态注意转移模块组成;
堆叠多个姿态注意转移模块能够不断地融合视频帧间的有效信息,从而实现逐步修复行人视频。
进一步的,所述获取行人视频修复的数据集,具体包括:
将Human3.6M中Walking视频作为原始视频,将Human3.6M中Walking视频中的人体姿态作为原始姿态数据;
把原始视频中的人固定在画面的中心位置,然后把视频统一裁剪缩放为固定的大小,得到真值视频;同理,调整原始姿态数据并提取多个关节点得到真值姿态;
为每个真值视频产生自由形式的二值掩码视频;
将每个真值视频和对应的掩码视频进行组合,得到被遮挡的视频;
使用人体姿态估计开源库检测出每个被遮挡的视频中的被遮挡的姿态,所述被遮挡的姿态即为被遮挡的姿态序列;
对所述真值视频、二值掩码视频、被遮挡的视频、被遮挡的姿态及对应的真值姿态等间隔进行采样,得到数据样本,所有的数据样本构成行人视频修复的数据集。
本发明的第二个目的可以通过采取如下技术方案达到:
一种基于姿态引导的行人视频修复系统,所述系统包括:
数据集获取模块,用于获取行人视频修复的数据集;
图卷积神经网络训练模块,用于利用所述数据集对图卷积神经网络进行训练,得到训练好的图卷积神经网络;
优化后的姿态序列生成模块,用于将所述数据集中被遮挡的姿态序列输入训练好的图卷积神经网络,得到优化后的姿态序列;
姿态注意转移网络训练模块,用于利用所述优化后的姿态序列和所述数据集对姿态注意转移网络进行训练,得到训练好的姿态注意转移网络;
行人视频修复模块,用于将待修复的行人视频中被遮挡的姿态序列输入训练好的图卷积神经网络中得到优化后的姿态序列;将所述优化后的姿态序列与待修复的行人视频输入训练好的姿态注意转移网络,得到修复好的行人视频。
本发明的第三个目的可以通过采取如下技术方案达到:
一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的行人视频修复方法。
本发明的第四个目的可以通过采取如下技术方案达到:
一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的行人视频修复方法。
本发明相对于现有技术具有如下的有益效果:
本发明提供了一种基于姿态引导的行人视频修复方法、系统、计算机设备和存储介质,对被遮挡的视频中提取出的人体姿态序列进行补全,得到优化后的人体姿态序列;把优化后的人体姿态序列作为指导信息,根据被遮挡视频帧的遮挡区域中人体关节点的位置,在其他参考视频帧中的对应关节点周围提取人体的肢体信息逐步修复缺失的区域。该方法考虑到人体姿态的语义信息,采用逐步修复的思想进行行人视频修复。采用本方法,相对于只单纯地从背景中复制有效像素,可以修复出更真实清晰的行人视频。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例1的基于姿态引导的行人视频修复方法的流程图。
图2为本发明实施例1的获取行人视频修复的数据集的流程图。
图3为本发明实施例1的人体姿态的关节点示意图
图4为本发明实施例1的GCN网络模型结构示意图。
图5为本发明实施例1的PATN网络模型结构示意图。
图6为本发明实施例1的PATN网络模型中的block结构示意图。
图7为本发明实施例1的人体姿态优化的效果图。
图8为本发明实施例1的根据优化后的姿态逐步修复行人视频的效果。
图9为本发明实施例2的基于姿态引导的行人视频修复系统的结构框图。
图10为本发明实施例3的计算机设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。应当理解,描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
实施例1:
如图1所示,本实施例提供了一种基于姿态引导的行人视频修复方法,包括以下步骤:
(1)获取行人视频修复的数据集。
目前还没有专门针对行人视频修复任务的研究,所以也没有专门用于行人视频修复的数据集。
本实施例选用了开源数据集Human3.6M,作为本发明的源数据集,开源数据集Human3.6M有360万个3D人体姿态和相应的图像,共有11个实验者(Subject),一般选取S1、S5、S6、S7和S8作为训练集,S9和S11作为测试集,出于保密不公开S10这个实验者的所有数据信息,以及17个动作场景(Scenario),诸如讨论、吃饭、运动、问候等动作。上述数据集通过4个数字摄像机、1个时间传感器和10个运动摄像机捕获。
本实施例选取Human3.6M数据集里面的不对称行走Walking姿势作为行人视频修复的数据集,其中S1、S6、S7、S8、S9作为训练集,S5作为验证集,S11作为测试集。行人视频修复的数据集中,每一个样本包含真值视频、真值姿态、二值掩码、被遮挡的视频、被遮挡的姿态,其中,真值视频记为gt_video;真值姿态记为gt_pose;二值掩码记为mask,用来标注真值视频中被遮挡像素位置;被遮挡的视频记为masked_video,被遮挡的姿态记为masked_pose。如图2所示,获取行人视频修复的数据集包括以下步骤:
(1-1)将Human3.6M中Walking视频作为原始视频,将Human3.6M中Walking视频中的人体姿态作为原始的姿态数据;把原始视频中的人固定在画面的中心位置,然后把视频统一裁剪缩放成高、宽为256×128的大小,得到真值视频gt_video;与调整原始视频的方式一样,调整原始的姿态数据并提取需要用的17个关节点得到真值姿态gt_pose,具体关节点标号和名称如图3所示。
(1-2)为每个真值视频gt_video产生自由形式的二值掩码视频mask,1标注被遮挡像素,0标注可见像素。
(1-3)将每个真值视频gt_video和对应的掩码视频mask组合得到被遮挡的视频masked_video。
(1-4)使用成熟的人体姿态估计开源库OpenPose检测出每个被遮挡的视频masked_video中的被遮挡的姿态masked_pose,且只保留关键的17个关节点,图3是本发明人体姿态的关节点示意图。即使存在遮挡,OpenPose也会预测每个关节点的位置,当关节点位置被预测为在图像坐标系原点位置(也就是图像左上角位置),表示OpenPose认为被遮挡的视频帧中不存在该关节点。图7第一行就是一个被遮挡的的姿态序列示例。
(1-5)将真值视频等间隔进行采样,将间隔长度的帧作为一个样本,对应的姿态数据也按相应的间隔提取,得到数据样本,所有的数据样本构成行人视频修复的数据集,将数据集分为训练集、验证集和测试集。
本实施例中将真值视频的帧率按照25帧每秒采样,10帧作为一个样本,对应的姿态数据也按相应的间隔提取,每个样本间隔10帧,共制作出80403个数据样本,训练集、验证集和测试集的大小分别为:63013、10957和6433。
假设原始完整视频长度是3000帧,那被遮挡的完整视频长度也是3000帧,用人体姿态估计开源库可以估计出被遮挡的整个视频的3000个人体姿态。接着等间隔采样(每隔一帧),取10帧作为一个样本。那[0、2、4、6、8、10、12、14、16、18]这些帧构成第1个样本的数据,因为每个样本之间的步长是2,那么第2个样本的数据是[2,4,6,8,10,12,14,16,18,20]对应的帧。每个样本数据中被遮挡的姿态称为被遮挡的姿态序列。
(2)对数据集中被遮挡的姿态序列进行修复,得到优化后的姿态序列。
从行人视频修复数据集中获得被遮挡的人体姿态,用mPose1:N=[mP1,mP2,...,mPN]表示N(本发明中N=10)个连续的被遮挡的人体姿态,其中表示用于描述每个人体姿态的关节点数量,本实施例中K=34,17个关节点是二维数据,所以用参数34描述一个人体姿态。mPose1:N中的每一列表示在某一个时间点的被遮挡的人体姿态,如mPt表示在t时刻的被遮挡的人体姿态。mPose1:N中的每一行表示该关节点横跨N帧的运动轨迹,如表示第k个关节点参数在N帧上的运动轨迹信息。这一过程主要包括以下步骤:
(2-1)首先利用离散余弦变换(Discrete Cosine Transform,DCT)对被遮挡的姿态序列mPose1:N进行时间维度上的编码以获得每个关节点的运动模式。给定轨迹它对应的第l个DCT系数可以通过公式(1)计算得到:
其中l∈{1,2,...,N},δij表示克罗内克δ函数(Kronecker delta function),可以通过公式(2)计算得到:
(2-2)将处理好的被遮挡的姿态序列输入图卷积神经网络,利用图卷积神经网络的特性对被遮挡的姿态序列提取出空间维度上的信息,综合考虑人体姿态的时空信息对残缺序列进行修复,得到网络输出结果。
图卷积神经网络(Graph Convolutional Network,GCN)和卷积神经网络(Convolutional Network,CNN)的作用一样,是一个特征提取器,它用来提取用顶点和边建立相关关系的拓扑图的空间特征。把人体姿态关节点作为拓扑图的顶点集,关节点之间的连接关系作为拓扑图的边集,这样就把人体姿态表示成GCN可以处理的数据。
如图4所示,在GCN中,用具有K个节点的全连接图来表示人体姿态,图中每条边的强度可以用一个加权邻接矩阵来表示,/>(F是上一层的特征输出数量)表示图卷积层p的输入,/>(/>是上一层的特征输出数量)表示一组可学习的权重,图卷积层p+1的输出如公式(3)所示:
H(p+1)=σ(A(p)H(p)W(p)) (3)
其中,A(p)是图卷积层p中可学习的加权邻接矩阵,σ(.)是一个激活函数。
(2-3)对GCN的输出结果进行逆离散余弦变换(Inverse Discrete CosineTransform,IDCT)即可得到优化后的姿态序列(记为refined_pose)。
根据公式(1)计算得到的DCT系数,通过公式(4)即可进行IDCT:
其中n∈{1,2,...,N}
(2-4)计算训练误差以进行误差反向传播。
训练时,目标函数是最小化预测出来的关节点位置和真实值的差,预测出来的关节点即为网络输出结果中的关节点,真实值为数据集中对应的真值姿态中的关节点。
本实施例使用L2 loss直接度量预测出来的关节点位置和真实值的曼哈顿距离,则L2 loss的计算公式如下所示:
其中,为预测出来的关节点,y为对应的真实值。
图7展示了本发明系统中人体姿态优化的效果图,是测试集中第16个样本的修复效果图,图中第一行为输入的被遮挡的姿态序列,第二行为优化后的姿态序列与真值姿态序列的重叠图,在第二行中蓝色的点是真值,红色的点为预测值,可以看到在测试集中预测出来的每一帧中,蓝点和红点基本上保持了重合,说明GCN模型能够很好地提取被遮挡的人体姿态数据的特征信息,这对于被遮挡姿态序列的修复是十分有效的。
(3)根据优化后的姿态序列,逐步修复被遮挡的行人视频,得到修复好的行人视频。
进一步的,步骤(3)包括以下步骤:
(3-1)把得到的优化后的姿态序列(refined_pose)制作成热力图。
优化后的姿态序列的数据形状是10×17×2,在这一步中需要为每一帧中的每一个关节点制作热力图,即以该关节点所在坐标为均值,σ(本发明中σ=6)为方差,在256×128的空白图片上画一个高斯分布,把优化后的姿态序列变成10×256×128×17形状的热力图(pose_heatmap)。
(3-2)将数据形状为10×256×128×3的被遮挡的视频(masked_video)和形状为10×256×128×1的二值掩码视频(mask)进行拼接,得到形状为10×256×128×4的行人视频修复输入(记为vInput),并按照公式(6)进行归一化操作:
其中,masked_video表示被遮挡的视频帧序列,mask表示二值掩码视频帧序列,concat(.)表示拼接操作,用来拼接被遮挡视频和二值掩码视频。
(3-3)将得到的热力图(pose_heatmap)和行人视频修复输入(vInput)分别输入到一个具有两次下采样卷积层的卷积神经网络中提取出对应的特征,分别记为视频特征和姿态特征/>
(3-4)将得到的视频特征和姿态特征/>放到姿态注意转移网络(Pose-Attentional Transfer Network,PATN)中得到修复结果Ouput1,N,姿态信息用来指示神经网络从哪些位置复制有用的信息来补全缺失区域:假设被遮挡视频的某一帧中人的手肘位置被遮挡,就从其他手肘关节点未被遮挡的参考视频帧(当修复某一视频帧时,其余的视频帧是参考视频帧)中,复制该关节点周围信息来修复当前遮挡区域,其中步骤(3-1)中高斯分布的方差决定了关节点周围信息的范围。
PATN网络模型如图5所示,该网络由T(本发明中T=6)个姿态注意转移(Pose-Attentional Transfer Blocks,PATB)模块组成。堆叠多个PATB模块可以不断地融合视频帧间的有效信息,从而实现逐步修复行人视频。PATB的结构如图6所示。
(3-5)训练时,目标函数是最小化预测出来的视频帧序列(用表示)和真实值(用y表示)的差,这里用到了三种损失函数,L1 loss、Perceptual loss和Style loss。L1 loss用于把真实值(y)与预测值/>的绝对差值的总和最小化,Perceptual loss和Style loss用以减轻L1 loss造成的模糊问题。
L1 loss直接度量预测出来的视频帧序列和真实值的曼哈顿距离,如公式(7)所示:
其中,为姿态注意转移网络输出的视频帧序列,y为数据集中对应的真值视频帧序列。
Perceptual loss和Style loss用到了损失网络先对预测值和真实值计算特征再计算损失,这里用到的损失网络都使用在ImageNet上训练好的VGG网络,使用来表示损失网络。
Perceptual loss损失函数为:
其中,为姿态注意转移网络输出的视频帧序列,y为数据集中对应的真值视频帧序列,/>表示/>通过损失网络第j层得到的特征,/>表示y通过损失网络第j层得到的特征,CjHjWj表示第j层的特征图的大小。
Style loss损失函数为:
其中,表示/>的Gram矩阵,/>表示y的Gram矩阵,/>表示y通过损失网络第j层得到的特征,/>表示y通过损失网络第j层得到的特征的转置。
公式(11)就是最终的目标函数:
Lobj=λ1L1+λPerLPer+λStyleLStyle (11)
其中,λ1、λPer和λStyle分别是上述三种loss的权重系数。
图8展示了本发明系统中根据优化后的姿态逐步修复行人视频的效果图,是从测试集中随机挑选出来的一个样本的修复效果图,第一行数据是根据被遮挡的人体姿态序列修复得到的优化后的姿态序列,第二行是被遮挡的视频帧序列,第三行是该样本对应的二值掩码(黑色标记被遮挡的部分,白色标记可见的部分),第四行是根据姿态逐步修复行人视频的效果图。
本领域技术人员可以理解,实现上述实施例的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,相应的程序可以存储于计算机可读存储介质中。
应当注意,尽管在附图中以特定顺序描述了上述实施例的方法操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
实施例2:
如图9所示,本实施例提供了一种基于姿态引导的行人视频修复系统,该系统包括数据集获取模块901、图卷积神经网络训练模块902、优化后的姿态序列生成模块903、姿态注意转移网络训练模块904和行人视频修复模块905,其中:
数据集获取模块901,用于获取行人视频修复的数据集;
图卷积神经网络训练模块902,用于利用所述数据集对图卷积神经网络进行训练,得到训练好的图卷积神经网络;
优化后的姿态序列生成模块903,用于将所述数据集中被遮挡的姿态序列输入训练好的图卷积神经网络,得到优化后的姿态序列;
姿态注意转移网络训练模块904,用于利用所述优化后的姿态序列和所述数据集对姿态注意转移网络进行训练,得到训练好的姿态注意转移网络;
行人视频修复模块905,用于将待修复的行人视频中被遮挡的姿态序列输入训练好的图卷积神经网络中得到优化后的姿态序列;将所述优化后的姿态序列与待修复的行人视频输入训练好的姿态注意转移网络,得到修复好的行人视频。
本实施例中各个模块的具体实现可以参见上述实施例1,在此不再一一赘述;需要说明的是,本实施例提供的系统仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例3:
本实施例提供了一种计算机设备,该计算机设备可以为计算机,如图10所示,其通过系统总线1001连接的处理器1002、存储器、输入装置1003、显示器1004和网络接口1005,该处理器用于提供计算和控制能力,该存储器包括非易失性存储介质1006和内存储器1007,该非易失性存储介质1006存储有操作系统、计算机程序和数据库,该内存储器1007为非易失性存储介质中的操作系统和计算机程序的运行提供环境,处理器1002执行存储器存储的计算机程序时,实现上述实施例1的行人视频修复方法,如下:
获取行人视频修复的数据集;
利用所述数据集对图卷积神经网络进行训练,得到训练好的图卷积神经网络;
将所述数据集中被遮挡的姿态序列输入训练好的图卷积神经网络,得到优化后的姿态序列;
利用所述优化后的姿态序列和所述数据集对姿态注意转移网络进行训练,得到训练好的姿态注意转移网络;
将待修复的行人视频中被遮挡的姿态序列输入训练好的图卷积神经网络中得到优化后的姿态序列;将所述优化后的姿态序列与待修复的行人视频输入训练好的姿态注意转移网络,得到修复好的行人视频。
实施例4:
本实施例提供了一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时,实现上述实施例1的行人视频修复方法,如下:
获取行人视频修复的数据集;
利用所述数据集对图卷积神经网络进行训练,得到训练好的图卷积神经网络;
将所述数据集中被遮挡的姿态序列输入训练好的图卷积神经网络,得到优化后的姿态序列;
利用所述优化后的姿态序列和所述数据集对姿态注意转移网络进行训练,得到训练好的姿态注意转移网络;
将待修复的行人视频中被遮挡的姿态序列输入训练好的图卷积神经网络中得到优化后的姿态序列;将所述优化后的姿态序列与待修复的行人视频输入训练好的姿态注意转移网络,得到修复好的行人视频。
需要说明的是,本实施例的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
综上所述,本发明通过利用图卷积神经网络,对被遮挡的视频中提取出的人体姿态序列补全得到优化后的人体姿态序列;通过利用姿态注意转移网络,把优化后的人体姿态序列作为指导信息,根据被遮挡视频帧的遮挡区域中人体关节点的位置,在其他参考视频帧中的对应关节点周围提取人体的肢体信息逐步修复缺失的区域,从而得到修复好的行人视频。通过采用本发明提供的方法,相对于只单纯地从背景中复制有效像素,可以修复出更真实清晰的行人视频。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。
Claims (5)
1.一种基于姿态引导的行人视频修复方法,其特征在于,所述方法包括:
获取行人视频修复的数据集;
利用所述数据集对图卷积神经网络进行训练,得到训练好的图卷积神经网络;
将所述数据集中被遮挡的姿态序列输入训练好的图卷积神经网络,得到优化后的姿态序列;
利用所述优化后的姿态序列和所述数据集对姿态注意转移网络进行训练,得到训练好的姿态注意转移网络;所述姿态注意转移网络由多个姿态注意转移模块组成;堆叠多个姿态注意转移模块能够不断地融合视频帧间的有效信息,从而实现逐步修复行人视频;
将待修复的行人视频中被遮挡的姿态序列输入训练好的图卷积神经网络中得到优化后的姿态序列;将所述优化后的姿态序列与待修复的行人视频输入训练好的姿态注意转移网络,得到修复好的行人视频;
其中,所述利用所述数据集对图卷积神经网络进行训练,得到训练好的图卷积神经网络,具体包括:
利用离散余弦变换对数据集中被遮挡的姿态序列进行时间维度上的编码以获得每个关节点的运动模式,得到处理后被遮挡的姿态序列;
将所述处理后被遮挡的姿态序列输入图卷积神经网络中,利用图卷积神经网络的特性提取出空间维度上的信息,综合考虑人体姿态的时空信息对残缺序列进行修复,得到网络输出结果;
对网络输出结果进行逆离散余弦变换,得到优化后的姿态序列;
训练时,根据所述优化后的姿态序列和数据集中对应的真值姿态,计算训练误差以进行误差反向传播,得到训练好的图卷积神经网络;
所述将所述处理后被遮挡的姿态序列输入图卷积神经网络中,利用图卷积神经网络的特性提取出空间维度上的信息,综合考虑人体姿态的时空信息对残缺序列进行修复,得到网络输出结果,具体包括:
在图卷积神经网络中,用具有K个节点的全连接图表示人体姿态,图中每条边的强度用加权邻接矩阵表示,/>表示图卷积层p的输入,其中F是上一层的特征输出数量;/>表示一组可学习的权重,/>是上一层的特征输出数量,图卷积层p+1的输出如下所示:
H(p+1)=σ(A(p)H(p)W(p))
其中,A(p)是图卷积层p中可学习的加权邻接矩阵,σ(.)是激活函数;若每个姿态包括n个关节点,则k=2*n;
利用所述优化后的姿态序列和所述数据集对姿态注意转移网络进行训练前,将所述优化后的姿态序列制作成热力图;同时将数据集中的被遮挡的视频和二值掩码视频进行拼接,作为行人视频修复输入;
所述利用所述优化后的姿态序列和所述数据集对姿态注意转移网络进行训练,得到训练好的姿态注意转移网络,具体包括:
将所述热力图和所述行人视频修复输入分别输入到具有两次下采样卷积层的卷积神经网络中提取出对应的特征,分别记为姿态特征和视频特征;
将所述姿态特征和视频特征输入姿态注意转移网络中得到修复结果,其中,姿态信息用来指示姿态注意转移网络复制有用的信息来补全缺失区域:当修复某一视频帧时,其余的视频帧是参考视频帧;
训练时,目标函数是最小化修复结果和数据集中对应的真值视频的差,使用的损失函数为L1 loss、Perceptual loss和Style loss,从而得到训练好的姿态注意转移网络。
2.根据权利要求1所述的行人视频修复方法,其特征在于,所述获取行人视频修复的数据集,具体包括:
将Human3.6M中Walking视频作为原始视频,将Human3.6M中Walking视频中的人体姿态作为原始姿态数据;
把原始视频中的人固定在画面的中心位置,然后把视频统一裁剪缩放为固定的大小,得到真值视频;同理,调整原始姿态数据并提取多个关节点得到真值姿态;
为每个真值视频产生自由形式的二值掩码视频;
将每个真值视频和对应的掩码视频进行组合,得到被遮挡的视频;
使用人体姿态估计开源库检测出每个被遮挡的视频中的被遮挡的姿态,所述被遮挡的姿态即为被遮挡的姿态序列;
对所述真值视频、二值掩码视频、被遮挡的视频、被遮挡的姿态及对应的真值姿态等间隔进行采样,得到数据样本,所有的数据样本构成行人视频修复的数据集。
3.一种基于姿态引导的行人视频修复系统,其特征在于,所述系统包括:
数据集获取模块,用于获取行人视频修复的数据集;
图卷积神经网络训练模块,用于利用所述数据集对图卷积神经网络进行训练,得到训练好的图卷积神经网络;
优化后的姿态序列生成模块,用于将所述数据集中被遮挡的姿态序列输入训练好的图卷积神经网络,得到优化后的姿态序列;
姿态注意转移网络训练模块,用于利用所述优化后的姿态序列和所述数据集对姿态注意转移网络进行训练,得到训练好的姿态注意转移网络;所述姿态注意转移网络由多个姿态注意转移模块组成;堆叠多个姿态注意转移模块能够不断地融合视频帧间的有效信息,从而实现逐步修复行人视频;
行人视频修复模块,用于将待修复的行人视频中被遮挡的姿态序列输入训练好的图卷积神经网络中得到优化后的姿态序列;将所述优化后的姿态序列与待修复的行人视频输入训练好的姿态注意转移网络,得到修复好的行人视频;
其中,所述利用所述数据集对图卷积神经网络进行训练,得到训练好的图卷积神经网络,具体包括:
利用离散余弦变换对数据集中被遮挡的姿态序列进行时间维度上的编码以获得每个关节点的运动模式,得到处理后被遮挡的姿态序列;
将所述处理后被遮挡的姿态序列输入图卷积神经网络中,利用图卷积神经网络的特性提取出空间维度上的信息,综合考虑人体姿态的时空信息对残缺序列进行修复,得到网络输出结果;
对网络输出结果进行逆离散余弦变换,得到优化后的姿态序列;
训练时,根据所述优化后的姿态序列和数据集中对应的真值姿态,计算训练误差以进行误差反向传播,得到训练好的图卷积神经网络;
所述将所述处理后被遮挡的姿态序列输入图卷积神经网络中,利用图卷积神经网络的特性提取出空间维度上的信息,综合考虑人体姿态的时空信息对残缺序列进行修复,得到网络输出结果,具体包括:
在图卷积神经网络中,用具有K个节点的全连接图表示人体姿态,图中每条边的强度用加权邻接矩阵表示,/>表示图卷积层p的输入,其中F是上一层的特征输出数量;/>表示一组可学习的权重,/>是上一层的特征输出数量,图卷积层p+1的输出如下所示:
H(p+1)=σ(A(p)H(p)W(p))
其中,A(p)是图卷积层p中可学习的加权邻接矩阵,σ(.)是激活函数;若每个姿态包括n个关节点,则k=2*n;
利用所述优化后的姿态序列和所述数据集对姿态注意转移网络进行训练前,将所述优化后的姿态序列制作成热力图;同时将数据集中的被遮挡的视频和二值掩码视频进行拼接,作为行人视频修复输入;
所述利用所述优化后的姿态序列和所述数据集对姿态注意转移网络进行训练,得到训练好的姿态注意转移网络,具体包括:
将所述热力图和所述行人视频修复输入分别输入到具有两次下采样卷积层的卷积神经网络中提取出对应的特征,分别记为姿态特征和视频特征;
将所述姿态特征和视频特征输入姿态注意转移网络中得到修复结果,其中,姿态信息用来指示姿态注意转移网络复制有用的信息来补全缺失区域:当修复某一视频帧时,其余的视频帧是参考视频帧;
训练时,目标函数是最小化修复结果和数据集中对应的真值视频的差,使用的损失函数为L1 loss、Perceptual loss和Style loss,从而得到训练好的姿态注意转移网络。
4.一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1-2任一项所述的行人视频修复方法。
5.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-2任一项所述的行人视频修复方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210328650.3A CN114693557B (zh) | 2022-03-31 | 2022-03-31 | 基于姿态引导的行人视频修复方法、系统、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210328650.3A CN114693557B (zh) | 2022-03-31 | 2022-03-31 | 基于姿态引导的行人视频修复方法、系统、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114693557A CN114693557A (zh) | 2022-07-01 |
CN114693557B true CN114693557B (zh) | 2024-05-28 |
Family
ID=82140437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210328650.3A Active CN114693557B (zh) | 2022-03-31 | 2022-03-31 | 基于姿态引导的行人视频修复方法、系统、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114693557B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115294228B (zh) * | 2022-07-29 | 2023-07-11 | 北京邮电大学 | 基于模态引导的多图人体姿态生成方法及装置 |
CN115880774B (zh) * | 2022-12-01 | 2024-08-16 | 湖南工商大学 | 基于人体姿态估计的健身动作识别方法、装置及相关设备 |
CN117058016A (zh) * | 2023-07-14 | 2023-11-14 | 清华大学深圳国际研究生院 | 人体运动序列补全方法及装置、设备、存储介质 |
CN117290733B (zh) * | 2023-11-27 | 2024-03-12 | 浙江华创视讯科技有限公司 | 姿态样本生成方法、模型训练方法、设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102509086A (zh) * | 2011-11-22 | 2012-06-20 | 西安理工大学 | 一种基于目标姿态预测及多特征融合的行人目标检测方法 |
CN111444879A (zh) * | 2020-04-10 | 2020-07-24 | 广东工业大学 | 一种关节劳损自主康复动作识别方法及系统 |
CN111738092A (zh) * | 2020-05-28 | 2020-10-02 | 华南理工大学 | 一种基于深度学习的恢复被遮挡人体姿态序列方法 |
CN113012268A (zh) * | 2021-03-05 | 2021-06-22 | 华南理工大学 | 静态行人图像的运动动态化方法、系统、装置及介质 |
-
2022
- 2022-03-31 CN CN202210328650.3A patent/CN114693557B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102509086A (zh) * | 2011-11-22 | 2012-06-20 | 西安理工大学 | 一种基于目标姿态预测及多特征融合的行人目标检测方法 |
CN111444879A (zh) * | 2020-04-10 | 2020-07-24 | 广东工业大学 | 一种关节劳损自主康复动作识别方法及系统 |
CN111738092A (zh) * | 2020-05-28 | 2020-10-02 | 华南理工大学 | 一种基于深度学习的恢复被遮挡人体姿态序列方法 |
CN113012268A (zh) * | 2021-03-05 | 2021-06-22 | 华南理工大学 | 静态行人图像的运动动态化方法、系统、装置及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114693557A (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114693557B (zh) | 基于姿态引导的行人视频修复方法、系统、设备和介质 | |
CN114782691B (zh) | 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备 | |
CN112597941B (zh) | 一种人脸识别方法、装置及电子设备 | |
WO2020182117A1 (zh) | 视差图获取方法、装置和设备及控制系统和存储介质 | |
CN103279936B (zh) | 基于画像的人脸伪照片自动合成及修正方法 | |
CN112232134B (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
WO2021237875A1 (zh) | 基于图卷积网络的手部数据识别方法、系统和存储介质 | |
Meng et al. | 3d interacting hand pose estimation by hand de-occlusion and removal | |
KR20220081261A (ko) | 객체 포즈 추정 방법 및 장치 | |
CN112001859A (zh) | 一种人脸图像的修复方法及系统 | |
CN111723707A (zh) | 一种基于视觉显著性的注视点估计方法及装置 | |
CN113313810A (zh) | 一种透明物体的6d姿态参数计算方法 | |
CN117456136A (zh) | 一种基于多模态视觉识别的数字孪生场景智能生成方法 | |
CN116486489B (zh) | 基于语义感知图卷积的三维手物姿态估计方法及系统 | |
CN113781659A (zh) | 一种三维重建方法、装置、电子设备及可读存储介质 | |
Cho et al. | Multi-task self-supervised visual representation learning for monocular road segmentation | |
CN114140623A (zh) | 一种图像特征点提取方法及系统 | |
CN113888697A (zh) | 一种双手交互状态下的三维重建方法 | |
Yang et al. | [Retracted] A Method of Image Semantic Segmentation Based on PSPNet | |
CN114612545A (zh) | 图像分析方法及相关模型的训练方法、装置、设备和介质 | |
CN103208109A (zh) | 一种基于局部约束迭代邻域嵌入的人脸幻构方法 | |
CN113744280B (zh) | 图像处理方法、装置、设备及介质 | |
CN114677330A (zh) | 一种图像处理方法、电子设备及存储介质 | |
CN117095300B (zh) | 建筑图像处理方法、装置、计算机设备和存储介质 | |
CN111914596A (zh) | 车道线检测方法、装置、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |