CN113191301B - 融合时序和空间信息的视频密集人群计数方法及系统 - Google Patents
融合时序和空间信息的视频密集人群计数方法及系统 Download PDFInfo
- Publication number
- CN113191301B CN113191301B CN202110528792.XA CN202110528792A CN113191301B CN 113191301 B CN113191301 B CN 113191301B CN 202110528792 A CN202110528792 A CN 202110528792A CN 113191301 B CN113191301 B CN 113191301B
- Authority
- CN
- China
- Prior art keywords
- sequence
- dense
- convolution
- prediction
- density
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种融合时序和空间信息的视频密集人群计数方法及系统,该方法包括:获取包括密集行人的视频序列,确定所述视频序列中密集人群坐标数据,并转化为密集人群密度图序列;将所述密集人群密度图序列作为预测网络学习目标,采用空间一致性损失函数和时序一致性损失函数,对生成目标进行约束;所述预测网络采用引入3D卷积和分组卷积的预测网络;将需预测的密集人群图像序列输入所述预测网络,输出预测的密度预测图;对所述密度预测图所有像素值进行求和,得到最终的预测人数。本发明较大程度提升了精度,具有良好的鲁棒性,具有较强的应用价值。
Description
技术领域
本发明涉及计算机视觉技术领域,具体地,涉及一种融合时序和空间信息的视频密集人群计数方法、系统。
背景技术
随着世界人口的快速增长和迅猛的城市化建设,人群集聚场景显著增加,如高峰时段的车站和地铁站,节假日的热门景区,大型表演和群众活动场地等,如果不加预警和及时疏导,容易引发各类严重事故,甚至造成严重伤亡。
但是现有的针对视频的人群计数方法主要以基于光流法和循环神经网络为主,但是密集人群场景下被遮挡行人的光流无法被提取,影响了算法的性能,而循环神经网络具有计算量大、不利于实际场景应用的问题。
发明内容
本发明的目的在于克服上述现有技术的不足之处,提出了一种融合时序和空间信息的视频密集人群计数方法、系统,提升性能,实现在各场景下自适应解决人群计数。
本发明的第一方面,提供一种融合时序和空间信息的视频密集人群计数方法,包括:
获取包括密集行人的视频序列,确定所述视频序列中密集人群坐标数据,并转化为密集人群密度图序列;
将所述密集人群密度图序列作为预测网络学习目标,采用空间一致性损失函数和时序一致性损失函数,对生成目标进行约束;所述预测网络采用引入3D卷积和分组卷积的预测网络;
将需预测的密集人群图像序列输入所述预测网络,输出预测的密度预测图;
对所述密度预测图所有像素值进行求和,得到最终的预测人数。
可选地,所述确定所述视频序列中密集人群坐标数据,并转化为密集人群密度图序列,包括:
对于密集人群坐标数据,将每个坐标点对应像素与一个固定方差的高斯核相卷积,得到密集人群密度图序列。
可选地,所述采用空间一致性损失函数和时序一致性损失函数,对生成目标进行约束,包括:
采用空间一致性损失函数,通过像素级的约束和生成式对抗损失来增强输出密度图的空间质量;
采用时序一致性损失函数,通过像素级别的平滑项损失、基于运动对称性的镜像损失和基于时序判别器的生成式对抗损失来增强输出密度图的时空质量;
采用协同学习策略,融合空间信息和时序信息和使预测器与两个鉴别器之间对抗学习,分步对其进行优化学习。
本发明的第二方面,提供一种融合时序和空间信息的视频密集人群计数系数,包括:
视频序列处理模块,该模块获取包括密集行人的视频序列,确定所述视频序列中密集人群坐标数据,并转化为密集人群密度图序列;
预测网络学习模块,该模块将所述密集人群密度图序列作为预测网络学习目标,采用空间一致性损失函数和时序一致性损失函数,对生成目标进行约束;
密度预测图获取模块,将需预测的密集人群图像序列输入所述预测网络学习模块得到的预测网络,输出预测的密度预测图;
计数预测模块,对所述密度预测图所有像素值进行求和,得到最终的预测人数。
本发明的第三方面,提供一种视频密集人群计数终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的融合时序和空间信息的视频密集人群计数方法。
本发明的第四方面,提供一种计算机可读存储介质,其存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行上述的融合时序和空间信息的视频密集人群计数方法。
与现有技术相比,本发明实施例具有以下至少一种有益效果:
本发明上述的视频密集人群计数方法、系统和终端,引入了3D卷积,在按时序排列的视频序列上进行卷积。为了平衡模型能力和计算量,使时序信息与高维空间特征融合,提升性能,实现在各场景下自适应解决人群计数。
进一步的,本发明上述的视频密集人群计数方法、系统和终端,在2D的鉴别器的基础上,引入3D鉴别器判别生成的密度分布图的时序一致性,增强输出结果的鲁棒性和质量。
本发明上述的视频密集人群计数方法、系统和终端,还采用空间一致性损失函数和时序平滑损失函数,约束引导预测结果的分布与学习目标的分布相一致。
本发明上述的视频密集人群计数方法、系统和终端,通过协同学习框架,将预测器和两个判别器共同训练优化,从而提高了生成结果在空间维度的质量和时序上的平滑性,增强了预测的鲁棒性。
附图说明
图1为本发明一较优实施例中融合时序和空间信息的视频密集人群计数方法的原理示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
图1为本发明一实施例中融合时序和空间信息的视频密集人群计数方法的原理示意图。如图1所示,本实施例中,融合时序和空间信息的视频密集人群计数方法包括:
S100,获取包括密集行人的T帧视频序列IT=It,It+1,…It+T,确定密集人群视频序列IT中密集人群坐标数据,并转化为密集人群密度图序列Dg T=Dt,Dt+1,…Dt+T;
S200,将密集人群密度图序列Dg T作为预测网络学习目标,采用空间一致性损失函数和时序一致性损失函数,对生成目标进行约束;
为了更好地说明本发明技术方案的实施,以下给出融合时序和空间信息的视频密集人群计数方法的具体应用实施例,具体操作步骤可以包括:
S101,获取包括密集行人的T帧视频帧序列.
本实施例中,原目标集中可以包含三通道的彩色图,也可以包括单通道的灰度图。视频帧序列为从视频中以固定的采样率(10HZ)采样得到的有固定间隔的连续图片。
S102,获取密集人群视频序列IT中密集人群坐标数据,并转化为密集人群密度图序列Dg T。
本实施例中,人群计数任务标注数据以孤立的人头坐标形式表现,如人头在像素坐标xi处,表示为δ(x-xi),x为图片像素位置,每个像素对应一个坐标;对于一张有N个行人的图片,坐标点图表示如下所示:
将每个坐标点对应像素与一个固定方差的高斯核Gσ(x)相卷积,可得到人群的密度分布图Dg(x):
Dg(x)=H(x)*Gσ(x)
S103,将密集人群密度图序列Dg T作为预测网络学习目标,采用空间一致性损失函数和时序一致性损失函数,对生成目标进行约束.
本实施例中,整体训练架构由预测器和判别器两部分所组成,其中判别器由两个子网络:时空判别器和空间判别器。空间判别器考虑了每帧图片在空间上的相关性时空判别器被用来鉴别预测的分布图序列和真实的密度分布图序列,从时空的角度提高预测结果。为了便于网络学习帧与帧之间的关系。预测器负责将输入的视频序列It,It+1...It+T,输出对应的N帧密度分布预测结果Dt,Dt+1...Dt+T。
本实施例中,预测网络采用了基于2D卷积和3D卷积混合组成的VggNet-19架构,对于主干网络部分的前16层,采用权重共享的2D卷积进行特征提取,将得到的特征图在时序维度进行特征拼接,上述主干网络的输出经过一层上采样,进入解码部分。对于解码网络部分,采用3D卷积结构,即先采用1×3×3的卷积核进行空间特征的提取,再利用3×1×1的卷积进行时序信息融合。针对输出层,对上述特征图采用分组卷积,使每个时刻的特征图对应一张输出密度分布图,从而得到T张密度预测图。
其中,xr为真实图像,由T帧真实的密度分布图及对应行人自然图像拼接而成,而xf则由T帧预测器生成的预测密度分布结果和对应行人自然图像拼接组成,表示分布的期望,DI(x)表示空间鉴别器对输入的鉴别结果。
本实施例中,除空间对抗损失函数之外,还基于生成结果图像结构化相似度和像素级别相似度进行约束,将T帧预测结果与对应的真实的密度分布图求SSIM损失函数Lssim和L1损失函数Ll1,即:
完整的空间一致性损失函数Lspatial为上述损失函数的线性加权:
λssim和λl1为对应损失函数Lssim和Ll1的权重。本实施例中,λssim和λl1均取20。
同时本实施例引入了时间一致性,使预测的结果在时间序列上平滑稳定,增强结果的鲁棒性,以及对称性损失函数,保证输入视频序列与预测的序列一一对应。
本实施例中,时序判别器DV对于前两层用3×4×4尺寸的3D卷积替换了空间判别器中的2D卷积,从而引入时序信息,利用时序维度的卷积捕获相邻帧的变化特征,后续卷积采用1×4×4尺寸,判断密度图序列的每一帧是否为真实,保证生成的预测结果在时间维度也与真实密度分布图一致。时空判别器损失函数如下所示:
DT(x)表示时空鉴别器对输入的鉴别结果,xf表示生成的预测序列,xr代表真实的密度分布图序列,DT为时序判别器。
为了进一步保证时序训练的稳定性和预测结果在时序上的连贯性,本实施例还采用了平滑损失函数Lsm和对称损失函数Lcyc,设Dp T+1为T+1时刻的预测结果,Dp T+1-t为T+1-t时刻预测结果:
完整时序损失函数Ltemporal如下:
本实例中,λsm取1,λcyc均取10。上述公式中Dp T为密度预测图,对应于训练阶段。
本实施例中是以空间一致性损失函数和时序一致性损失函数一起优化来说明的,需要说明的是,在其他实施例中,也可以只保留空间一致性损失函数或者仅保留其中一项进行优化,但会造成部分精度损失。
S104,测试阶段将时序图片IT输入训练好的预测网络模型中,得到预测结果即密度预测图Dp T。将Dp T所有像素值累加,得到每帧预测人数的结果。
在另一优选实施例中,在上述实施例基础上,还可以协同交替优化密度预测器、图像判别器、时空判别器,分步对其进行更新学习。
在另一实施例中,本发明还提供一种融合时序和空间信息的视频密集人群计数系数,包括:视频序列处理模块、预测网络学习模块、密度预测图获取模块和计数预测模块,其中,视频序列处理模块获取包括密集行人的视频序列,确定所述视频序列中密集人群坐标数据,并转化为密集人群密度图序列;预测网络学习模块将所述密集人群密度图序列作为预测网络学习目标,采用空间一致性损失函数和时序一致性损失函数,对生成目标进行约束;密度预测图获取模块将需预测的密集人群图像序列输入所述预测网络学习模块得到的预测网络,输出预测的密度预测图;计数预测模块对所述密度预测图所有像素值进行求和,得到最终的预测人数。
对于上述融合时序和空间信息的视频密集人群计数系数的各个模块,其具体实现的技术可以参照上述融合时序和空间信息的视频密集人群计数方法实施例中对应步骤中的技术,在此不再赘述。
在另一实施例中,本发明还提供一种视频密集人群计数终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的融合时序和空间信息的视频密集人群计数方法。
在另一实施例中,本发明还提供一种计算机可读存储介质,其存储用于电子数据交换的计算机程序,其中,计算机程序使得计算机执行上述的融合时序和空间信息的视频密集人群计数方法。
基于上述的实施例方法步骤和系统,具体实例训练数据分别来自于Fudan-ShanghaiTech数据集和CrowdFlow数据集,前者来自于由来自13个点位的共100段视频,后者为电脑仿真行人流动制作的数据集,由五段长度不等的视频组成,每段视频分别以动态摄像机和静态摄像机的形式进行渲染。
可以看出由本发明实施例得到的结果较大程度了提升了精度,具有良好的鲁棒性,此外,本发明实施例相比基准算法未增加推断阶段的参数量和运算量。
本发明上述实施例,将3D卷积引入视频人群计数领域,利用3D卷积处理前后帧上的时序关系,并利用空间一致性损失函数和图像判别器增强输出密度图的空间质量,利用时序一致性损失函数和时序判别器增强输出密度图的时空质量,进一步协同优化预测网络、图像判别器和视频判别器,最终得到融合时序信息的更具鲁棒性和更高精度的预测结果。本发明较大程度提升了精度,具有良好的鲁棒性,具有较强的应用价值。
需要说明的是,本发明提供的所述方法中的步骤,可以利用所述系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程,即,所述系统中的实施例可理解为实现所述方法的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (6)
1.一种融合时序和空间信息的视频密集人群计数方法,其特征在于,包括:
获取包括密集行人的视频序列,确定所述视频序列中密集人群坐标数据,并转化为密集人群密度图序列;
将所述密集人群密度图序列作为预测网络学习目标,采用空间一致性损失函数和时序一致性损失函数,对生成目标进行约束;所述预测网络采用引入3D卷积和分组卷积的预测网络;
将需预测的密集人群图像序列输入所述预测网络,输出预测的密度预测图;
对所述密度预测图所有像素值进行求和,得到最终的预测人数;
所述采用空间一致性损失函数和时序一致性损失函数,对生成目标进行约束,包括:
采用空间一致性损失函数,通过像素级的约束和生成式对抗损失来增强输出密度图的空间质量;
采用时序一致性损失函数,通过像素级别的平滑项损失、基于运动对称性的镜像损失和基于时序判别器的生成式对抗损失来增强输出密度图的时空质量;
采用协同学习策略,融合空间信息和时序信息使预测器与两个鉴别器之间对抗学习,分步对其进行优化学习;
所述预测网络采用基于2D卷积和3D卷积混合组成的VggNet-19架构,其中:
对于主干网络部分的前16层,采用权重共享的2D卷积进行特征提取,将得到的特征图在时序维度进行特征拼接,上述主干网络的输出经过一层上采样,进入解码部分;
对于解码网络部分,采用3D卷积结构,即先采用1×3×3的卷积核进行空间特征的提取,再利用3×1×1的卷积进行时序信息融合;
针对输出层,对上述特征图采用分组卷积,使每个时刻的特征图对应一张输出密度分布图,从而得到T张密度预测图。
2.根据权利要求1所述的融合时序和空间信息的视频密集人群计数方法,其特征在于,所述确定所述视频序列中密集人群坐标数据,并转化为密集人群密度图序列,包括:
对于密集人群坐标数据,将每个坐标点对应像素与一个固定方差的高斯核相卷积,得到密集人群密度图序列。
3.一种融合时序和空间信息的视频密集人群计数系数,其特征在于,包括:
视频序列处理模块,该模块获取包括密集行人的视频序列,确定所述视频序列中密集人群坐标数据,并转化为密集人群密度图序列;
预测网络学习模块,该模块将所述密集人群密度图序列作为预测网络学习目标,采用空间一致性损失函数和时序一致性损失函数,对生成目标进行约束;所述预测网络采用引入3D卷积和分组卷积的预测网络;
密度预测图获取模块,将需预测的密集人群图像序列输入所述预测网络学习模块得到的预测网络,输出预测的密度预测图;
计数预测模块,对所述密度预测图所有像素值进行求和,得到最终的预测人数;
所述预测网络学习模块,包括:
采用空间一致性损失函数,通过像素级的约束和生成式对抗损失来增强输出密度图的空间质量;
采用时序一致性损失函数,通过像素级别的平滑项损失、基于运动对称性的镜像损失和基于时序判别器的生成式对抗损失来增强输出密度图的时空质量;
采用协同学习策略,融合空间信息和时序信息和使预测器与两个鉴别器之间对抗学习,分步对其进行优化学习;
所述预测网络采用基于2D卷积和3D卷积混合组成的VggNet-19架构,其中:
对于主干网络部分的前16层,采用权重共享的2D卷积进行特征提取,将得到的特征图在时序维度进行特征拼接,上述主干网络的输出经过一层上采样,进入解码部分;
对于解码网络部分,采用3D卷积结构,即先采用1×3×3的卷积核进行空间特征的提取,再利用3×1×1的卷积进行时序信息融合;
针对输出层,对上述特征图采用分组卷积,使每个时刻的特征图对应一张输出密度分布图,从而得到T张密度预测图。
4.根据权利要求3所述的融合时序和空间信息的视频密集人群计数系统,其特征在于,所述视频序列处理模块,对于密集人群坐标数据,将每个坐标点对应像素与一个固定方差的高斯核相卷积,得到密集人群密度图序列。
5.一种视频密集人群计数终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-2任一所述的方法。
6.一种计算机可读存储介质,其特征在于,其存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-2任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110528792.XA CN113191301B (zh) | 2021-05-14 | 2021-05-14 | 融合时序和空间信息的视频密集人群计数方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110528792.XA CN113191301B (zh) | 2021-05-14 | 2021-05-14 | 融合时序和空间信息的视频密集人群计数方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113191301A CN113191301A (zh) | 2021-07-30 |
CN113191301B true CN113191301B (zh) | 2023-04-18 |
Family
ID=76981739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110528792.XA Active CN113191301B (zh) | 2021-05-14 | 2021-05-14 | 融合时序和空间信息的视频密集人群计数方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113191301B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115617882B (zh) * | 2022-12-20 | 2023-05-23 | 粤港澳大湾区数字经济研究院(福田) | 基于gan的带有结构约束的时序图数据生成方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611878A (zh) * | 2020-04-30 | 2020-09-01 | 杭州电子科技大学 | 一种基于视频图像的人群计数和未来人流量预测的方法 |
CN111626134A (zh) * | 2020-04-28 | 2020-09-04 | 上海交通大学 | 一种基于隐密度分布的密集人群计数方法、系统及终端 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241895B (zh) * | 2018-08-28 | 2021-06-04 | 北京航空航天大学 | 密集人群计数方法及装置 |
CN111860162B (zh) * | 2020-06-17 | 2023-10-31 | 上海交通大学 | 一种视频人群计数系统及方法 |
CN111986105B (zh) * | 2020-07-27 | 2024-03-26 | 成都考拉悠然科技有限公司 | 基于时域去噪掩码的视频时序一致性增强方法 |
CN112767451B (zh) * | 2021-02-01 | 2022-09-06 | 福州大学 | 一种基于双流卷积神经网络的人群分布预测方法及其系统 |
-
2021
- 2021-05-14 CN CN202110528792.XA patent/CN113191301B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626134A (zh) * | 2020-04-28 | 2020-09-04 | 上海交通大学 | 一种基于隐密度分布的密集人群计数方法、系统及终端 |
CN111611878A (zh) * | 2020-04-30 | 2020-09-01 | 杭州电子科技大学 | 一种基于视频图像的人群计数和未来人流量预测的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113191301A (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11176381B2 (en) | Video object segmentation by reference-guided mask propagation | |
CN110176027B (zh) | 视频目标跟踪方法、装置、设备及存储介质 | |
CN110363716B (zh) | 一种基于条件生成对抗网络复合降质图像高质量重建方法 | |
CN113286194A (zh) | 视频处理方法、装置、电子设备及可读存储介质 | |
CN112149459B (zh) | 一种基于交叉注意力机制的视频显著性物体检测模型及系统 | |
GB2553782A (en) | Predicting depth from image data using a statistical model | |
Mahjourian et al. | Geometry-based next frame prediction from monocular video | |
CN113837938B (zh) | 基于动态视觉传感器重建潜在图像的超分辨率方法 | |
CN111008633B (zh) | 一种基于注意力机制的车牌字符分割方法 | |
CN110942484B (zh) | 基于遮挡感知和特征金字塔匹配的相机自运动估计方法 | |
CN113379771B (zh) | 带有边缘约束的层次化人体解析语义分割方法 | |
CN113077505A (zh) | 一种基于对比学习的单目深度估计网络的优化方法 | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测系统 | |
CN114641800A (zh) | 用于预报人群动态的方法和系统 | |
CN112257526A (zh) | 一种基于特征交互学习的动作识别方法及终端设备 | |
CN112633220A (zh) | 一种基于双向序列化建模的人体姿态估计方法 | |
CN111626134A (zh) | 一种基于隐密度分布的密集人群计数方法、系统及终端 | |
CN113283356A (zh) | 多级注意力尺度感知人群计数方法 | |
CN113191301B (zh) | 融合时序和空间信息的视频密集人群计数方法及系统 | |
CN106384359A (zh) | 运动目标跟踪方法和电视 | |
CN116977674A (zh) | 图像匹配方法、相关设备、存储介质及程序产品 | |
CN115577768A (zh) | 半监督模型训练方法和装置 | |
CN114708615A (zh) | 基于图像增强的低照度环境下人体检测方法、电子设备及储存介质 | |
Yuan et al. | A novel deep pixel restoration video prediction algorithm integrating attention mechanism | |
CN114898355A (zh) | 用于自动驾驶的体住运动的自监督学习的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |