CN111565318A - 一种基于稀疏样本的视频压缩方法 - Google Patents

一种基于稀疏样本的视频压缩方法 Download PDF

Info

Publication number
CN111565318A
CN111565318A CN202010372156.8A CN202010372156A CN111565318A CN 111565318 A CN111565318 A CN 111565318A CN 202010372156 A CN202010372156 A CN 202010372156A CN 111565318 A CN111565318 A CN 111565318A
Authority
CN
China
Prior art keywords
frame
video
encoder
training
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010372156.8A
Other languages
English (en)
Inventor
郑志浩
姚远
张学睿
张帆
尚明生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Institute of Green and Intelligent Technology of CAS
Original Assignee
Chongqing Institute of Green and Intelligent Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Institute of Green and Intelligent Technology of CAS filed Critical Chongqing Institute of Green and Intelligent Technology of CAS
Priority to CN202010372156.8A priority Critical patent/CN111565318A/zh
Publication of CN111565318A publication Critical patent/CN111565318A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Abstract

本发明涉及一种基于稀疏样本的视频压缩方法,属于视频压缩技术领域。该方法包括:S1:数据预处理;S2:首先通过变分自编码器与生成对抗网络结合的视频生成方法,利用变分自编码器对数据集中视频的每一帧进行学习,构建具有良好连续性的隐空间,隐空间中的每一点对应视频中的一帧;然后将噪声与文本输入生成对抗网络的生成器,生成器则生成潜变量空间中的多个相关联的点,最后通过变分自编码器的解码器生成连续图像;S3:将生成的连续图像输入视频压缩模型,通过CNN网络筛选背景帧,然后使用YOLO神经网络对每一帧图像当中的目标进行识别。本发明能够提高视频压缩效率,同时减少网络传输时延和本地资源的消耗。

Description

一种基于稀疏样本的视频压缩方法
技术领域
本发明属于视频压缩技术领域,涉及一种基于稀疏样本的视频压缩方法。
背景技术
视频压缩技术常用于视频数据的传输、保存等,在日常生活中常有应用。视频监控成为越来越流行,随之带来的是海量的视频存储,因此视频压缩成为一个需求非常强烈的技术,视频压缩也成为了视频监控领域的研究热点。随着人工智能技术快速发展,尤其是深度学习的已经成功的应用到很多领域中,例如图像识别、语音识别、NLP和目标检测等领域中。因此可以考虑利用深度学习到视频压缩,来实现更高效的视频压缩。然而一个健壮的视频压缩神经网络通常需要大量的训练数据进行长期的训练才能成型,训练数据的采集制作需要长期且大量的人员、设备、时间投入,增加项目的研发成本,也使得模型的计算复杂性很高。因此需要在保证模型质量的前提下,减小数据集的采集难度和体量,确保视频压缩模型既能保证原视频的分辨率等信息,又能降低视频的存储代价是目前现有技术中急需解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于稀疏样本的视频压缩方法,提高视频压缩效率的同时,减少网络传输时延和本地资源的消耗。
为达到上述目的,本发明提供如下技术方案:
一种基于稀疏样本的视频压缩方法,具体包括以下步骤:
S1:数据预处理;
S2:构建训练稀疏视频样本扩充模型,首先通过变分自编码器与生成对抗网络结合的视频生成方法,利用变分自编码器对数据集中视频的每一帧进行学习,构建具有良好连续性的隐空间,隐空间中的每一点对应视频中的一帧;然后将噪声与文本输入生成对抗网络的生成器,生成器则生成潜变量空间中的多个相关联的点,最后将这些相关联的点通过变分自编码器的解码器生成多帧相关联连续图像,这些图像组成所要生成的视频;
S3:构建训练视频压缩网络模型,并将生成的连续图像输入视频压缩模型,通过CNN网络进行背景帧的筛选,然后使用基于卷积神经网络的YOLO神经网络对每一帧图像当中的目标进行识别,并保存识别信息,即为压缩视频。
进一步,步骤S1中,所述数据预处理具体包括:针对少量采集视频,先将视频文件做音频抽离处理,得到“视频-音频”数据,对收集的视频及音频数据做归一化处理,得到生成对抗网络训练过程中使用的数据集;并将视频按帧分割,对分割得到的每一帧图像匹配其原所属视频的音频片段,得到稀疏样本扩充模型的基础数据集。
进一步,步骤S2中,构建的稀疏视频样本扩充模型包括训练变分自编码器和生成对抗网络,模型训练具体包括:
1)从预处理得到的数据集中随机抽取N个“图像-音频”样本输入到变分自编码器进行训练;变分自编码器中编码器输出的隐空间维度为D,变分自编码器包括编码器Encoder和解码器Decoder,其中编码器Encoder通过对输入的每一帧图像x计算均值mx和方差vx,将图像映射到专属于该图像的正态分布N(mx,vx),再从该分布中随机采样一个D维的隐变量,将该隐变量输入解码器Decoder,Decoder输出解码图像;同一类别的图像经过Encoder编码后所对应的分布聚集在隐空间的同一均值mi附近,这个均值通过神经网络计算得到;然后从预处理之后的数据集中取出M个样本对,作为生成对抗网络训练中使用的真实样本对;将取得的样本对进行视频-音频随机配对,得到M个不匹配样本对,随后将M个真实样本对、M个不匹配样本对、以及M个实际匹配的音频输入生成对抗网络进行训练;
2)生成对抗网络的训练过程分为生成器G的训练和判别器D的训练,生成器G的训练以最小化LossG为目标,判别器D的训练以最小化LossD为目标;训练过程中先训练判别器D,再训练生成器G,重复训练过程,直到生成的视频样本质量达到要求。
进一步,所述变分自编码器的损失函数为:
Figure BDA0002478539550000021
其中,mx、vx分别是图像x经过编码器Encoder得到的正态分布的均值和方差,mi是图像x所属类别均值,x为变分自编码器输出的重建图像,
Figure BDA0002478539550000022
为目标值;训练过程以最小化损失函数loss为目标;
生成器G的损失函数为:
LossG=-log(D(xg,xvg)) (2)
其中,xg为输入生成器G生成的视频样本,xvg为生成器G输入的音频样本;
判别器D的损失函数为:
LoosD=-log(D(zr,sr))-log(1-D(zm,sm))-log(1-D(zf,sg)) (3)
其中,zr、zm、zf分别是xr、xm、xg经过变分自编码器的编码器Encoder后得到的正态分布中随机采样出的隐变量。
进一步,步骤S3中,通过CNN网络进行背景帧的筛选,具体包括:使用OpenCV将已有的数据集和生成的数据集分帧,提取出匹配的音频,音频不继续做处理,将得到的图像帧进行卷及神经网络分类得到类别G,分别在Gi当中取得该类别当中置信度最高的Gij为背景帧。
进一步,步骤S3中,构建训练视频压缩网络模型具体包括:基于深度学习的注意力机制和目标检测算法将每一帧图像中的运动物体检测出来,并将运动物体所在的位置行成矩形框裁剪出来,保存为图片;所述目标检测算法为基于区域的卷积神经网络为YOLO,目标检测算法用于检测出物体的种类,定位物体的位置;
首先,将运动物体所在的位置行成矩形框裁剪出来保存为图片的过程中,将运动物体所在的位置作为感兴趣区域,滤除非感兴趣区域如其他静止物体,取得运动帧为m-1帧,根据第m-1帧重构帧及第m帧计算运动向量,得到第m帧预测帧;计算重构m帧和实际第m帧的残差,作用于重构计算网络,优化运动向量,当残差足够小后,将运动向量保存为帧信息;将矩形框图像的边缘和背景图像RGB颜色信息数值求均值,使背景和目标物两张图像之间的色彩平滑过渡,以便于将解码还原的所有图像帧组合形成视频;
然后,将裁剪的运动物体矩形框图片、定位信息、以及所处理的帧信息作为一组保存到链表中,完成所有帧图像的压缩。
本发明的有益效果在于:本发明的视频压缩方法,支持少量样本通过生成对抗网络进行扩充,进一步训练视频压缩YOLO模型,结合监控视频背景变化小的特点,对每一帧进行关键信息抽取,只关心运动物体,减少了大量的冗余信息,提高了视频的压缩率,同时,还提高了监控的视频传输速率,节省了大量的视频存储空间,减少了监控视频的传输时延,减少了其他无关因素对视频的影响。同时本发明方法结合神经网络模型进行视频压缩,随着压缩视频的量逐渐增加,模型的压缩效果会越来越好。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明基于稀疏样本的视频压缩方法的框架图;
图2为视频背景帧选取流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图2,图1为一种基于稀疏样本的视频压缩方法的框架图,本发明方法使用生成对抗网络生成新的训练数据对采集的稀疏视频数据进行扩充,然后使用这类数据训练视频压缩网络,实现视频背景帧和运动物体的抽取。
生成对抗网络以生成器生成样本,以判别器区分生成器生成的样本与真样本,二者以对抗的方式进行学习,构成动态的博弈,当最终达到纳什均衡时,判别器不能区分生成样本与真样本,那么使用生成对抗网络根据已有稀疏样本,生成新视频数据进行训练,此时采用生成数据训练得到的视频压缩模型和使用实际数据训练得到的视频压缩模型也就几乎没有差异。
本发明优选了一种基于稀疏样本的视频压缩方法,具体包括以下步骤:
1)数据预处理
少量采集视频,并将视频文件做音频抽离处理,得到“视频-音频”数据,对收集的视频及音频数据做归一化处理,得到生成对抗网络训练过程中使用的数据集;并且将视频按帧分割,对分割得到的每一帧图像匹配其原所属视频的音频片段,得到稀疏样本扩充模型的基础数据集。
2)定义生成对抗网络模型
从上述得到的数据集中随机抽取N个“图像-音频”样本输入到变分自编码器进行训练。变分自编码器中编码器输出的隐空间维度为D,变分自编码器包括编码器Encoder和解码器Decoder,其中编码器Encoder通过对输入的每一帧图像x计算均值mx和方差vx,将图像映射到专属于该图像的正态分布N(mx,vx),再从该分布随机中采样一个D维的隐变量,将该隐变量输入解码器Decoder,Decoder输出解码图像。同一类别的图像经过Encoder编码后所对应的分布聚集在隐空间的同一均值mi附近,这个均值通过神经网络计算得到。然后从预处理之后的数据集中取出M个样本对,作为生成对抗网络训练中使用的真实样本对;将取得的样本对进行视频-音频随机配对,得到M个不匹配样本对,随后将M个真实样本对、M个不匹配样本对、以及M个实际匹配的音频输入生成对抗网络进行训练。
变分自编码器的损失函数:
Figure BDA0002478539550000051
其中,mx、vx分别是图像x经过编码器Encoder得到的正态分布的均值和方差,mi是该图像所属类别均值,x为变分自编码器输出的重建图像,
Figure BDA0002478539550000052
为目标值。训练过程以最小化损失函数loss为目标。
生成器G的损失函数为:
LossG=-log(D(xg,xvg)) (2)
其中,xg为输入生成器G生成的视频样本,xvg为生成器G输入的音频样本。
判别器D的损失函数为:
LoosD=-log(D(zr,sr))-log(1-D(zm,sm))-log(1-D(zf,sg)) (3)
其中,zr、zm、zf分别是xr、xm、xg经过变分自编码器的编码器Encoder后得到的正态分布中随机采样出的隐变量。
生成对抗网络的训练过程分为生成器G的训练和判别器D的训练,生成器G的训练以最小化LossG为目标,判别器D的训练以最小化LossD为目标。训练过程中先训练判别器D,再训练生成器G,重复训练过程,直到生成的视频样本质量达到要求。
3)选取视频的背景帧
如图2所示,使用OpenCV将已有的数据集和生成的数据集分帧,提取出匹配的音频,音频不继续做处理,将得到的图像帧进行卷及神经网络分类得到类别G,分别在Gi当中取得该类别当中置信度最高的Gij为背景帧。
4)定义视频压缩网络模型
基于深度学习的注意力机制和目标检测算法将每一帧图像中的运动物体检测出来,并将运动物体所在的位置行成矩形框裁剪出来,保存为图片,所述目标检测算法为基于区域的卷积神经网络为YOLO,目标检测算法用于检测出物体的种类,定位物体的位置。
首先,将运动物体所在的位置行成矩形框裁剪出来保存为图片的过程中,将运动物体所在的位置作为感兴趣区域,滤除非感兴趣区域如其他静止物体,取得运动帧为m-1帧,根据第m-1帧重构帧及第m帧计算运动向量,得到第m帧预测帧。计算重构m帧和实际第m帧的残差,作用于重构计算网络,优化运动向量,当残差足够小后,将运动向量保存为帧信息。将矩形框图像的边缘和背景图像RGB颜色信息数值求均值,使背景和目标物两张图像之间的色彩平滑过渡,以便于将解码还原的所有图像帧组合形成视频。
然后,将裁剪的运动物体矩形框图片、定位信息、所处理的帧信息这三项作为一组保存到链表中,完成所有帧图像的压缩。
5)视频解压还原
首先从链表中依次取出运动物体的裁剪矩形框、位置和图像帧的编号作为一组,把每一组覆盖到背景帧中,完成所有帧图像的解码还原。
对比实验:利用本实施例方法在实验工程中进行多参数对比试验,本发明建立的压缩模型的压缩效果很好。在实验中,保持其他参数不变,改变其中一个参数,分别记录实验结果。其中压缩效率是源视频大小与压缩视频大小之比,值越大,效率越高。
表1实验结果一览表
Figure BDA0002478539550000061
表1中数据可以看出,视频压缩效率和一次性压缩视频体积、视频帧数有一定的关系,剪辑源视频大小为341M、1001M时,帧数不同,压缩效果不同,帧数高的源视频,压缩效率普遍高于帧数低的视频。压缩过程中,模型可以设置输出视频的帧数和原视频一致,但考虑到增加该参数会导致模型强行凑帧数,使得解压视频失真率大大提高,故输出帧率是根据模型实际的情况得到的。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于稀疏样本的视频压缩方法,其特征在于,该方法具体包括以下步骤:
S1:数据预处理;
S2:构建训练稀疏视频样本扩充模型,首先通过变分自编码器与生成对抗网络结合的视频生成方法,利用变分自编码器对数据集中视频的每一帧进行学习,构建具有良好连续性的隐空间,隐空间中的每一点对应视频中的一帧;然后将噪声与文本输入生成对抗网络的生成器,生成器则生成潜变量空间中的多个相关联的点,最后将这些相关联的点通过变分自编码器的解码器生成多帧相关联连续图像;
S3:构建训练视频压缩网络模型,并将生成的连续图像输入视频压缩模型,通过CNN网络进行背景帧的筛选,然后使用基于卷积神经网络的YOLO神经网络对每一帧图像当中的目标进行识别,并保存识别信息,即为压缩视频。
2.根据权利要求1所述的一种基于稀疏样本的视频压缩方法,其特征在于,步骤S1中,所述数据预处理具体包括:针对少量采集视频,先将视频文件做音频抽离处理,得到“视频-音频”数据,对收集的视频及音频数据做归一化处理,得到生成对抗网络训练过程中使用的数据集;并将视频按帧分割,对分割得到的每一帧图像匹配其原所属视频的音频片段,得到稀疏样本扩充模型的基础数据集。
3.根据权利要求1所述的一种基于稀疏样本的视频压缩方法,其特征在于,步骤S2中,构建的稀疏视频样本扩充模型包括训练变分自编码器和生成对抗网络,模型训练具体包括:
1)从预处理得到的数据集中随机抽取N个“图像-音频”样本输入到变分自编码器进行训练;变分自编码器中编码器输出的隐空间维度为D,变分自编码器包括编码器Encoder和解码器Decoder,其中编码器Encoder通过对输入的每一帧图像x计算均值mx和方差vx,将图像映射到专属于该图像的正态分布N(mx,vx),再从该分布中随机采样一个D维的隐变量,将该隐变量输入解码器Decoder,Decoder输出解码图像;同一类别的图像经过Encoder编码后所对应的分布聚集在隐空间的同一均值mi附近,这个均值通过神经网络计算得到;然后从预处理之后的数据集中取出M个样本对,作为生成对抗网络训练中使用的真实样本对;将取得的样本对进行视频-音频随机配对,得到M个不匹配样本对,随后将M个真实样本对、M个不匹配样本对、以及M个实际匹配的音频输入生成对抗网络进行训练;
2)生成对抗网络的训练过程分为生成器G的训练和判别器D的训练,生成器G的训练以最小化LossG为目标,判别器D的训练以最小化LossD为目标;训练过程中先训练判别器D,再训练生成器G,重复训练过程,直到生成的视频样本质量达到要求。
4.根据权利要求3所述的一种基于稀疏样本的视频压缩方法,其特征在于,所述变分自编码器的损失函数为:
Figure FDA0002478539540000021
其中,mx、vx分别是图像x经过编码器Encoder得到的正态分布的均值和方差,mi是图像x所属类别均值,x为变分自编码器输出的重建图像,
Figure FDA0002478539540000022
为目标值;训练过程以最小化损失函数loss为目标;
生成器G的损失函数为:
LossG=-log(D(xg,xvg)) (2)
其中,xg为输入生成器G生成的视频样本,xvg为生成器G输入的音频样本;
判别器D的损失函数为:
LoosD=-log(D(zr,sr))-log(1-D(zm,sm))-log(1-D(zf,sg)) (3)
其中,zr、zm、zf分别是xr、xm、xg经过变分自编码器的编码器Encoder后得到的正态分布中随机采样出的隐变量。
5.根据权利要求1所述的一种基于稀疏样本的视频压缩方法,其特征在于,步骤S3中,通过CNN网络进行背景帧的筛选,具体包括:使用OpenCV将已有的数据集和生成的数据集分帧,提取出匹配的音频,音频不继续做处理,将得到的图像帧进行卷及神经网络分类得到类别G,分别在Gi当中取得该类别当中置信度最高的Gij为背景帧。
6.根据权利要求1所述的一种基于稀疏样本的视频压缩方法,其特征在于,步骤S3中,构建训练视频压缩网络模型具体包括:基于深度学习的注意力机制和目标检测算法将每一帧图像中的运动物体检测出来,并将运动物体所在的位置行成矩形框裁剪出来,保存为图片;所述目标检测算法为基于区域的卷积神经网络为YOLO;
首先,将运动物体所在的位置行成矩形框裁剪出来保存为图片的过程中,将运动物体所在的位置作为感兴趣区域,滤除非感兴趣区域如其他静止物体,取得运动帧为m-1帧,根据第m-1帧重构帧及第m帧计算运动向量,得到第m帧预测帧;计算重构m帧和实际第m帧的残差,作用于重构计算网络,优化运动向量,当残差足够小后,将运动向量保存为帧信息;将矩形框图像的边缘和背景图像RGB颜色信息数值求均值,使背景和目标物两张图像之间的色彩平滑过渡,以便于将解码还原的所有图像帧组合形成视频;
然后,将裁剪的运动物体矩形框图片、定位信息、以及所处理的帧信息作为一组保存到链表中,完成所有帧图像的压缩。
CN202010372156.8A 2020-05-06 2020-05-06 一种基于稀疏样本的视频压缩方法 Pending CN111565318A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010372156.8A CN111565318A (zh) 2020-05-06 2020-05-06 一种基于稀疏样本的视频压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010372156.8A CN111565318A (zh) 2020-05-06 2020-05-06 一种基于稀疏样本的视频压缩方法

Publications (1)

Publication Number Publication Date
CN111565318A true CN111565318A (zh) 2020-08-21

Family

ID=72074498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010372156.8A Pending CN111565318A (zh) 2020-05-06 2020-05-06 一种基于稀疏样本的视频压缩方法

Country Status (1)

Country Link
CN (1) CN111565318A (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348806A (zh) * 2020-11-14 2021-02-09 四川大学华西医院 一种无参考数字病理切片模糊度评价算法
CN112906561A (zh) * 2021-02-18 2021-06-04 上海明略人工智能(集团)有限公司 用于获取动作识别模型的方法、装置及设备
CN112929662A (zh) * 2021-01-29 2021-06-08 中国科学技术大学 解决码流结构化图像编码方法中对象重叠问题的编码方法
CN113191266A (zh) * 2021-04-30 2021-07-30 江苏航运职业技术学院 船舶动力装置远程监控管理方法及系统
US11403069B2 (en) 2017-07-24 2022-08-02 Tesla, Inc. Accelerated mathematical engine
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
CN114900714A (zh) * 2022-04-12 2022-08-12 科大讯飞股份有限公司 一种基于神经网络的视频生成方法及相关装置
CN114926555A (zh) * 2022-03-25 2022-08-19 江苏预立新能源科技有限公司 一种安防监控设备数据智能压缩方法与系统
US11487288B2 (en) 2017-03-23 2022-11-01 Tesla, Inc. Data synthesis for autonomous control systems
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
CN115599984A (zh) * 2022-09-09 2023-01-13 北京理工大学(Cn) 一种检索方法
CN115619882A (zh) * 2022-09-29 2023-01-17 清华大学 一种视频的压缩方法
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11665108B2 (en) 2018-10-25 2023-05-30 Tesla, Inc. QoS manager for system on a chip communications
US11681649B2 (en) 2017-07-24 2023-06-20 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11734562B2 (en) 2018-06-20 2023-08-22 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11748620B2 (en) 2019-02-01 2023-09-05 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11790664B2 (en) 2019-02-19 2023-10-17 Tesla, Inc. Estimating object properties using visual image data
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11841434B2 (en) 2018-07-20 2023-12-12 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11893774B2 (en) 2018-10-11 2024-02-06 Tesla, Inc. Systems and methods for training machine models with augmented data
US11983630B2 (en) 2023-01-19 2024-05-14 Tesla, Inc. Neural networks for embedded devices

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070024635A1 (en) * 2002-11-14 2007-02-01 Microsoft Corporation Modeling variable illumination in an image sequence
CN105701480A (zh) * 2016-02-26 2016-06-22 江苏科海智能系统有限公司 一种视频语义分析方法
CN108596958A (zh) * 2018-05-10 2018-09-28 安徽大学 一种基于困难正样本生成的目标跟踪方法
US20190377955A1 (en) * 2018-06-08 2019-12-12 Adobe Inc. Generating digital video summaries utilizing aesthetics, relevancy, and generative neural networks
CN110572696A (zh) * 2019-08-12 2019-12-13 浙江大学 一种变分自编码器与生成对抗网络结合的视频生成方法
CN110659628A (zh) * 2019-10-09 2020-01-07 山东浪潮人工智能研究院有限公司 一种基于深度学习的煤矿监控视频解压缩方法及系统
CN110728203A (zh) * 2019-09-23 2020-01-24 清华大学 基于深度学习的手语翻译视频生成方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070024635A1 (en) * 2002-11-14 2007-02-01 Microsoft Corporation Modeling variable illumination in an image sequence
CN105701480A (zh) * 2016-02-26 2016-06-22 江苏科海智能系统有限公司 一种视频语义分析方法
CN108596958A (zh) * 2018-05-10 2018-09-28 安徽大学 一种基于困难正样本生成的目标跟踪方法
US20190377955A1 (en) * 2018-06-08 2019-12-12 Adobe Inc. Generating digital video summaries utilizing aesthetics, relevancy, and generative neural networks
CN110572696A (zh) * 2019-08-12 2019-12-13 浙江大学 一种变分自编码器与生成对抗网络结合的视频生成方法
CN110728203A (zh) * 2019-09-23 2020-01-24 清华大学 基于深度学习的手语翻译视频生成方法及系统
CN110659628A (zh) * 2019-10-09 2020-01-07 山东浪潮人工智能研究院有限公司 一种基于深度学习的煤矿监控视频解压缩方法及系统

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11487288B2 (en) 2017-03-23 2022-11-01 Tesla, Inc. Data synthesis for autonomous control systems
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11403069B2 (en) 2017-07-24 2022-08-02 Tesla, Inc. Accelerated mathematical engine
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11681649B2 (en) 2017-07-24 2023-06-20 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11797304B2 (en) 2018-02-01 2023-10-24 Tesla, Inc. Instruction set architecture for a vector computational unit
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11734562B2 (en) 2018-06-20 2023-08-22 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11841434B2 (en) 2018-07-20 2023-12-12 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
US11893774B2 (en) 2018-10-11 2024-02-06 Tesla, Inc. Systems and methods for training machine models with augmented data
US11665108B2 (en) 2018-10-25 2023-05-30 Tesla, Inc. QoS manager for system on a chip communications
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11908171B2 (en) 2018-12-04 2024-02-20 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US11748620B2 (en) 2019-02-01 2023-09-05 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US11790664B2 (en) 2019-02-19 2023-10-17 Tesla, Inc. Estimating object properties using visual image data
CN112348806B (zh) * 2020-11-14 2022-08-26 四川大学华西医院 一种无参考数字病理切片模糊度评价方法
CN112348806A (zh) * 2020-11-14 2021-02-09 四川大学华西医院 一种无参考数字病理切片模糊度评价算法
CN112929662A (zh) * 2021-01-29 2021-06-08 中国科学技术大学 解决码流结构化图像编码方法中对象重叠问题的编码方法
CN112906561A (zh) * 2021-02-18 2021-06-04 上海明略人工智能(集团)有限公司 用于获取动作识别模型的方法、装置及设备
CN113191266A (zh) * 2021-04-30 2021-07-30 江苏航运职业技术学院 船舶动力装置远程监控管理方法及系统
CN114926555B (zh) * 2022-03-25 2023-10-24 江苏预立新能源科技有限公司 一种安防监控设备数据智能压缩方法与系统
CN114926555A (zh) * 2022-03-25 2022-08-19 江苏预立新能源科技有限公司 一种安防监控设备数据智能压缩方法与系统
CN114900714B (zh) * 2022-04-12 2023-11-21 科大讯飞股份有限公司 一种基于神经网络的视频生成方法及相关装置
CN114900714A (zh) * 2022-04-12 2022-08-12 科大讯飞股份有限公司 一种基于神经网络的视频生成方法及相关装置
CN115599984B (zh) * 2022-09-09 2023-06-09 北京理工大学 一种检索方法
CN115599984A (zh) * 2022-09-09 2023-01-13 北京理工大学(Cn) 一种检索方法
CN115619882B (zh) * 2022-09-29 2024-02-13 清华大学 一种视频的压缩方法
CN115619882A (zh) * 2022-09-29 2023-01-17 清华大学 一种视频的压缩方法
US11983630B2 (en) 2023-01-19 2024-05-14 Tesla, Inc. Neural networks for embedded devices

Similar Documents

Publication Publication Date Title
CN111565318A (zh) 一种基于稀疏样本的视频压缩方法
Singh et al. Muhavi: A multicamera human action video dataset for the evaluation of action recognition methods
CN101299241B (zh) 基于张量表示的多模态视频语义概念检测方法
CN111353395A (zh) 一种基于长短期记忆网络的换脸视频检测方法
CN113269787A (zh) 一种基于门控融合的遥感图像语义分割方法
CN111738054B (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
Li et al. Learning face image super-resolution through facial semantic attribute transformation and self-attentive structure enhancement
CN112801068B (zh) 一种视频多目标跟踪与分割系统和方法
CN113792635A (zh) 一种基于轻量化卷积神经网络的手势识别方法
WO2023151529A1 (zh) 人脸图像的处理方法及相关设备
CN114723760B (zh) 人像分割模型的训练方法、装置及人像分割方法、装置
CN110782458A (zh) 一种非对称编码网络的物体图像3d语义预测分割方法
CN111260577B (zh) 基于多引导图和自适应特征融合的人脸图像复原系统
CN116399588A (zh) 一种小样本下基于WPD和AFRB-LWUNet的滚动轴承故障诊断方法
CN105825201A (zh) 视频监控中的运动目标跟踪方法
CN112508121B (zh) 一种工业机器人感知外界的方法和系统
CN111539434B (zh) 基于相似度的红外弱小目标检测方法
CN116434759B (zh) 一种基于srs-cl网络的说话人识别方法
CN117176998A (zh) 基于通道注意力的双流网络跨模态嘴型同步方法和系统
Ouyang et al. The comparison and analysis of extracting video key frame
CN104243986A (zh) 基于数据驱动张量子空间的压缩视频采集与重构系统
CN114387553A (zh) 一种基于帧结构感知聚合的视频人脸识别方法
CN115240106B (zh) 任务自适应的小样本行为识别方法及系统
Prabakaran et al. Key Frame Extraction Analysis Based on Optimized Convolution Neural Network (OCNN) using Intensity Feature Selection (IFS)
CN111291602A (zh) 视频检测方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200821

RJ01 Rejection of invention patent application after publication