CN113132727A - 一种基于图像生成的可伸缩机器视觉编码方法 - Google Patents

一种基于图像生成的可伸缩机器视觉编码方法 Download PDF

Info

Publication number
CN113132727A
CN113132727A CN201911393847.XA CN201911393847A CN113132727A CN 113132727 A CN113132727 A CN 113132727A CN 201911393847 A CN201911393847 A CN 201911393847A CN 113132727 A CN113132727 A CN 113132727A
Authority
CN
China
Prior art keywords
frame
key
coded
motion
heat map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911393847.XA
Other languages
English (en)
Other versions
CN113132727B (zh
Inventor
刘家瑛
段凌宇
夏思烽
杨文瀚
胡煜章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201911393847.XA priority Critical patent/CN113132727B/zh
Publication of CN113132727A publication Critical patent/CN113132727A/zh
Application granted granted Critical
Publication of CN113132727B publication Critical patent/CN113132727B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Abstract

本发明公开了一种基于图像生成的可伸缩机器视觉编码方法,其步骤包括:构建一运动引导图像生成网络;训练神经网络:每次迭代时,从视频序列中选取关键帧与待编码帧及对应的关键点数据并输入网络,计算出关键帧和待编码帧的关键点;根据关键帧与待编码帧的关键点差别进行运动估计;根据估计所得运动以及关键帧获得待编码帧的重建帧;计算关键点位置的预测结果与关键点实际位置之间的预测误差以及计算待编码帧与其重建帧的重建误差,并将其反向传播到网络直到网络收敛;编码阶段:将待处理视频序列的每一帧输入训练后的运动引导图像生成网络,计算每一帧中的关键点的位置信息并进行量化压缩;解码阶段根据码流和任务进行图像重建。

Description

一种基于图像生成的可伸缩机器视觉编码方法
技术领域
本发明属于视频编码领域,主要涉及运动模式信息传输以及视频图像压缩重建。可以用于机器视觉分析以及视频压缩。
背景技术
随着大数据时代的到来,每时每刻都会有大量新的数据产生,其中就包括大量的视频数据。为了解决视频数据存储代价过大的问题,诸如H.264等新的视频编码标准被不断提出,通过对于空域和时域冗余信息的消除来降低存储代价,从而方便视频的存储和传播。但是即便如此,在对于视频数据进行动作识别、动作分析等进一步的处理的过程中发现,经过压缩之后的视频依然存在着大量对于机器视觉无效的冗余信息,从而产生了大量的浪费。对于监控视频等数据,这个问题更加明显,因为对于监控视频的高层语义信息分析,比获得其本身的图像数据更加重要。因此,设计一个更灵活的可伸缩视频压缩框架,使其能够在满足机器视觉分析任务和满足人眼视觉效果的目标之间自由切换,具有重要的意义。
近年来,深度学习技术发展迅速,其中,图像生成问题被广泛研究。通过给定一定的约束,比如图像类别等高级语义信息,模型能够生成服从该输入约束的图像,进而实现从稀疏数据到密集数据的映射。对于机器视觉任务,相比于原始图像,经过处理的更加紧致、简洁的特征是更加有效的。而利用这些更加紧致的特征对于深度学习中的生成模型而言,也能够作为原始图像重建过程中的重要参考。
发明内容
本发明在上述技术背景的前提下,设计了一个基于图像生成的可伸缩机器视觉编码方法,能够在机器视觉与人眼对于图像的需求之间进行自由切换,从而满足不同应用场景下对于不同类型的视频数据的需求。通过仅存储动作模式或者加入额外的关键帧图像数据的选择性存储,实现针对于机器视觉或者人眼主观视觉效果之前的切换。
本发明的技术方案为:
一种基于图像生成的可伸缩机器视觉编码方法,其步骤包括:
1)构建一运动引导图像生成网络,其包括稀疏点预测模块、运动流估计模块和外观生成模块;
2)训练该运动引导图像生成网络和解码器构成的神经网络:首先收集带有关键点标注的连续视频序列作为训练数据;然后每次迭代时,从视频序列中选取关键帧与待编码帧以及它们对应的关键点数据,构建出训练数据对;将每个训练数据对的关键帧和待编码帧分别作为稀疏点预测模块的输入,计算出关键帧的关键点和待编码帧的关键点;运动流估计模块根据关键帧的关键点与待编码帧的关键点的差别进行两帧之间的运动估计;外观生成模块根据估计所得的运动以及关键帧,获得待编码帧的重建帧;然后计算关键点位置的预测结果与标注数据中关键点实际位置之间的预测误差以及计算待编码帧与其重建帧的重建误差;并将所得预测误差和重建误差反向传播到神经网络,以更新神经网络的权值,直到神经网络收敛;
3)编码阶段:编码端将待处理视频序列的每一帧输入训练后的运动引导图像生成网络,计算每一帧中的关键点的位置信息并进行量化,然后对量化结果进行压缩后发送给解码器;
4)解码阶段:解码器根据收到的码流和任务需求进行图像重建。
进一步的,训练神经网络的方法为:
11)选取一训练数据集,包括视频序列中的N张训练图像{I1,I2,…,IN}以及该N张训练图像的关键点{π12,…,πN};
12)每次迭代过程中,从{I1,I2,…,IN}中选择两帧,分别作为关键帧和待编码帧,并将关键帧和待编码帧分别输入稀疏点预测模块;对于输入的每一帧,该稀疏点预测模块输出L张热度图
Figure BDA0002345730510000021
每一热度图对应一个关键点;并且利用关键点的预测结果计算稀疏点预测模块的损失函数;
13)对每一热度图按照
Figure BDA0002345730510000022
进行类高斯操作,得到新的关键帧的热度图集合
Figure BDA0002345730510000023
以及待编码帧的热度图集合
Figure BDA0002345730510000024
其中,p为热度图的像素坐标,pl为热度图中关键点l对应的像素坐标,α为归一化范数;
14)根据步骤13)得到的热度图集合,计算出热度图差值
Figure BDA0002345730510000025
运动流估计模块会根据该热度图差值
Figure BDA0002345730510000026
计算出关键帧到待编码帧之间的运动流ξk→t
15)将运动流ξk→t以及关键帧作为外观生成模块的输入,重建待编码帧并计算重建的待编码帧与原始待编码帧之间的损失函数;
16)根据步骤12)的损失函数和步骤15)的损失函数,对于神经网络进行误差的反向传播,更新神经网络参数;
17)重复步骤12)~步骤16)直到神经网络收敛。
进一步的,每一张热度图是一个大小与输入图像大小相同的矩阵;其中热度图中的元素
Figure BDA0002345730510000031
其中,Hl[p]为热点图中位置p处的关键点l的响应值,Ω指热度图中所有像素集合。
进一步的,所述预测结果为关键点和其相邻像素之间的协方差
Figure BDA0002345730510000032
进一步的,步骤3)中,如果需要传输人眼感知的图像信息,则编码端选取关键帧并对所选关键帧进行压缩后写入码流发送给解码端。
进一步的,步骤3)中,如果需要进行图像重建,则编码端对关键帧进行压缩编码并写入码流发送给解码端;步骤4)中,解码端首先对关键帧进行解码重建,之后将关键帧以及待解码帧与重建帧之间的关键点信息输入运动引导图像生成网络,完成待解码帧的重建。
进一步的,使用LZMA算法对所述量化结果进行压缩;利用HEVC对关键帧进行压缩。
一种运动引导图像生成网络,其特征在于,包括稀疏点预测模块、运动流估计模块和外观生成模块;其中,所述稀疏点预测模块,用于估计出输入帧中的关键点的位置信息;所述运动流估计模块,用于根据两帧之间的关键点位置信息估计两帧之间的运动信息;所述外观生成模块,用于根据关键帧以及待编码帧与关键帧之间的运动信息来重建该待编码帧。
一种神经网络的训练方法,其步骤包括:
11)选取一训练数据集,包括视频序列中的N张训练图像{I1,I2,…,IN}以及该N张训练图像的关键点{π12,…,πN};
12)每次迭代过程中,从{I1,I2,…,IN}中选择两帧,分别作为关键帧和待编码帧,并将关键帧和待编码帧分别输入稀疏点预测模块;对于输入的每一帧,该稀疏点预测模块输出L张热度图
Figure BDA0002345730510000033
每一热度图对应一个关键点;并且利用关键点的预测结果计算稀疏点预测模块的损失函数;
13)对每一热度图按照
Figure BDA0002345730510000034
进行类高斯操作,得到新的关键帧的热度图集合
Figure BDA0002345730510000035
以及待编码帧的热度图集合
Figure BDA0002345730510000036
其中,p为热度图的像素坐标,pl为热度图中关键点l对应的像素坐标,α为归一化范数;
14)根据步骤13)得到的热度图集合,计算出热度图差值
Figure BDA0002345730510000041
运动流估计模块会根据该热度图差值
Figure BDA0002345730510000042
计算出关键帧到待编码帧之间的运动流ξk→t
15)将运动流ξk→t以及关键帧作为外观生成模块的输入,重建待编码帧并计算重建的待编码帧与原始待编码帧之间的损失函数;
16)根据步骤12)的损失函数和步骤15)的损失函数,对于神经网络进行误差的反向传播,更新神经网络参数;
17)重复步骤12)~步骤16)直到神经网络收敛。
本发明中训练了运动引导图像生成网络,如图2所示,由稀疏点预测模块、运动流估计模块和外观生成模块组成。其中,稀疏点预测模块能够根据输入帧,估计出该帧中的关键点的位置信息,运动流估计模块能够根据两帧之间的关键点位置信息估计两帧之间的运动信息,外观生成模块由外形编解码器以及外观重构模块组成,能够根据关键帧以及待编码帧与关键帧之间的运动信息来重建该待编码帧。为了训练该运动引导图像生成网络,首先需要收集带有关键点标注的视频数据,然后基于这些训练数据进行训练,从而使得稀疏点预测模块据有提取视频帧的关键点的能力。而对于外观生成模块,对于生成结果进行约束,从而产生更好的生成结果。通过对误差进行反向传播,并更新网络中的权值,不断迭代直到模型收敛,具体如下:
步骤1:收集带有关键点标注的连续视频序列作为训练数据,并从视频序列中选取关键帧与待编码帧以及它们对应的关键点数据,构建出训练数据对。
步骤2:将每个训练数据对的关键帧和待编码帧分别作为稀疏点预测模块的输入,从而计算出这两帧各自的关键点。之后根据两帧之间的关键点的差别,通过运动流估计模块进行两帧之间的运动估计。再利用估计所得的运动以及关键帧,输入外观生成模块从而获得待编码帧的重建帧。
步骤3:根据步骤2中得到的计算结果,分别计算关键帧和待编码帧的关键点位置的预测结果与标注数据中实际的关键点的预测误差以及重建结果和原始待编码帧的重建误差。
步骤4:将计算得到的关键点的预测误差以及生成结果的重建误差反向传播到神经网络各层,从而更新各层权值,在下次迭代中使得结果更接近目标效果。
步骤5:重复步骤1-步骤4直到神经网络的预测误差与重建误差收敛。
在获取了训练完毕的神经网络之后,将其应用到可伸缩机器视觉编码中。对于一个原始视频序列,首先将每一帧输入稀疏点预测模块,从而获得每一帧中的关键点的位置信息并进行量化,然后对量化结果使用LZMA算法进行压缩。如果视频压缩目标仅仅针对于机器视觉任务,那么编码过程就此结束。而如果需要进一步传输人眼感知的图像信息,则需要选取关键帧,并利用HEVC对于关键帧进行压缩,并且将压缩结果同样写入码流。在解码端,如果需要进行图像重建,则可以将关键帧以及关键帧与某一帧之间的运动信息输入外观生成模块来进行特定帧的图像重建。
与现有技术相比,本发明的积极效果为:
本发明相比于现有方法更灵活的进行相关数据传输,及相比于传统编码方法压缩整个视频并传输用于机器及人眼视觉,本发明方法在面向机器视觉时,可以仅传输很少量的特征便满足机器识别的相关需求,面向人眼视觉的需求,本发明方法可以额外压缩传输关键帧,结合为机器传输的特征,便可以相比于传统压缩方法以更少的开销获得更佳的人眼视觉重建效果。
附图说明
图1为本发明的整体编解码流程;
图2为本发明的运动引导图像生成网络的结构。
具体实施方式
为了对本发明的技术方法进一步阐述,下面结合说明书附图和具体实例,对本发明进行进一步的详细说明。
本实例将重点详细阐述该技术方法中神经网络的训练过程。假设目前本发明已经构建了所需的卷积神经网络模型,并且某个训练数据的视频序列有N张训练图像{I1,I2,…,IN}以及对应的N张训练图像的关键点{π12,…,πN}作为训练数据。
结合图1和图2的本实例方法如下:
一、训练过程:
步骤1:每次迭代过程中,从训练集{I1,I2,…,IN}中选择两帧,分别作为关键帧和待编码帧,并将它们各自输入稀疏点预测模块。对于每一帧,该网络会输出L张热度图
Figure BDA0002345730510000051
分别对应L个关键点。而每一张热度图是一个大小与输入图像大小相同的矩阵,对应了某一个关键点的位置,通过以下方式计算
Figure BDA0002345730510000052
其中,p指热度图中每个像素的坐标,Hl[p]为热度图中位置p处的关键点l的响应值(响应值通过网络训练中习得到,取值为0-1中的任意实数),Ω指热度图中所有像素集合。此外,该关键点和其相邻像素之间的协方差
Figure BDA0002345730510000061
也会被计算,用于表示关键点与相邻像素之间的相互关系。同时,利用关键点的预测结果,计算稀疏点预测模块的损失函数。
步骤2:为了使得热度图更加适合于卷积操作,对于原始热度图按照
Figure BDA0002345730510000062
进行类高斯操作,
Figure BDA0002345730510000063
表示生成的高斯图中位置p处第l个关键点的响应值,α为归一化范数,此处为0.5。对于关键帧和待编码帧的热度图集合均进行同样的操作,从而得到新的关键帧以及待编码帧的热度图集合
Figure BDA0002345730510000064
以及
Figure BDA0002345730510000065
步骤3:根据步骤2得到的关键帧和待编码帧之间的热度图集合,计算出热度图差值
Figure BDA0002345730510000066
运动流估计模块会根据该热度图差值计算出关键帧到待编码帧之间的运动流ξk→t
步骤4:将运动流ξk→t以及关键帧作为外观生成模块的输入,尝试重建待编码帧。并计算重建的待编码帧与原始待编码帧之间的损失函数。
步骤5:根据关键点的损失函数(即稀疏点预测模块的损失函数)和重建图像的损失函数(即重建的待编码帧与原始待编码帧之间的损失函数),对于网络进行误差的反向传播,从而更新包括稀疏点预测网络和外观生成网络在内的网络参数。
步骤6:重复步骤1-步骤5直到神经网络收敛。
二、编码过程:
如图1所示,对于待编码视频,首先将每一帧输入稀疏点预测网络,从而获取每一帧的关键点位置信息,并对于关键点位置进行量化,压缩。根据用户的需求,决定是否需要进行关键帧的图像信息的传输。如果解码器端需要对于图像进行重建,那么则使用HEVC对于关键帧进行压缩编码。在解码器端,可以根据码流中的关键点信息,进行动作分类等机器视觉任务。如果需要进行图像重建,则首先利用HEVC解码器对于关键帧进行解码重建,之后将关键帧以及待解码帧与重建帧之间的关键点信息输入运动引导生成网络,完成待解码帧的重建。
图1总结了本发明的编解码流程,图2总结了本发明的运动引导图像生成网络的结构。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种基于图像生成的可伸缩机器视觉编码方法,其步骤包括:
1)构建一运动引导图像生成网络,其包括稀疏点预测模块、运动流估计模块和外观生成模块;
2)训练该运动引导图像生成网络和解码器构成的神经网络:首先收集带有关键点标注的连续视频序列作为训练数据;然后每次迭代时,从视频序列中选取关键帧与待编码帧以及它们对应的关键点数据,构建出训练数据对;将每个训练数据对的关键帧和待编码帧分别作为稀疏点预测模块的输入,计算出关键帧的关键点和待编码帧的关键点;运动流估计模块根据关键帧的关键点与待编码帧的关键点的差别进行两帧之间的运动估计;外观生成模块根据估计所得的运动以及关键帧,获得待编码帧的重建帧;然后计算关键点位置的预测结果与标注数据中关键点实际位置之间的预测误差以及计算待编码帧与其重建帧的重建误差;并将所得预测误差和重建误差反向传播到神经网络,以更新神经网络的权值,直到神经网络收敛;
3)编码阶段:编码端将待处理视频序列的每一帧输入训练后的运动引导图像生成网络,计算每一帧中的关键点的位置信息并进行量化,然后对量化结果进行压缩后发送给解码器;
4)解码阶段:解码器根据收到的码流和任务需求进行图像重建。
2.如权利要求1所述的方法,其特征在于,训练该神经网络的方法为:
11)选取一训练数据集,包括视频序列中的N张训练图像{I1,I2,…,IN}以及该N张训练图像的关键点{π12,…,πN};
12)每次迭代过程中,从{I1,I2,…,IN}中选择两帧,分别作为关键帧和待编码帧,并将关键帧和待编码帧分别输入稀疏点预测模块;对于输入的每一帧,该稀疏点预测模块输出L张热度图
Figure FDA0002345730500000011
每一热度图对应一个关键点;并且利用关键点的预测结果计算稀疏点预测模块的损失函数;
13)对每一热度图按照
Figure FDA0002345730500000012
进行类高斯操作,得到新的关键帧的热度图集合
Figure FDA0002345730500000013
以及待编码帧的热度图集合
Figure FDA0002345730500000014
其中,p为热度图的像素坐标,pl为热度图中关键点l对应的像素坐标,α为归一化范数;
14)根据步骤13)得到的热度图集合,计算出热度图差值
Figure FDA0002345730500000015
运动流估计模块会根据该热度图差值
Figure FDA0002345730500000021
计算出关键帧到待编码帧之间的运动流ξk→t
15)将运动流ξk→t以及关键帧作为外观生成模块的输入,重建待编码帧并计算重建的待编码帧与原始待编码帧之间的损失函数;
16)根据步骤12)的损失函数和步骤15)的损失函数,对于神经网络进行误差的反向传播,更新神经网络参数;
17)重复步骤12)~步骤16)直到神经网络收敛。
3.如权利要求2所述的方法,其特征在于,每一张热度图是一个大小与输入图像大小相同的矩阵;其中热度图中的元素
Figure FDA0002345730500000022
其中,Hl[p]为热点图中位置p处的关键点l的响应值,Ω指热度图中所有像素集合。
4.如权利要求2所述的方法,其特征在于,所述预测结果为关键点和其相邻像素之间的协方差
Figure FDA0002345730500000023
5.如权利要求1所述的方法,其特征在于,步骤3)中,如果需要传输人眼感知的图像信息,则编码端选取关键帧并对所选关键帧进行压缩后写入码流发送给解码端。
6.如权利要求5所述的方法,其特征在于,步骤3)中,如果需要进行图像重建,则编码端对关键帧进行压缩编码并写入码流发送给解码端;步骤4)中,解码端首先对关键帧进行解码重建,之后将关键帧以及待解码帧与重建帧之间的关键点信息输入运动引导图像生成网络,完成待解码帧的重建。
7.如权利要求1所述的方法,其特征在于,使用LZMA算法对所述量化结果进行压缩;利用HEVC对关键帧进行压缩。
8.一种运动引导图像生成网络,其特征在于,包括稀疏点预测模块、运动流估计模块和外观生成模块;其中,所述稀疏点预测模块,用于估计出输入帧中的关键点的位置信息;所述运动流估计模块,用于根据两帧之间的关键点位置信息估计两帧之间的运动信息;所述外观生成模块,用于根据关键帧以及待编码帧与关键帧之间的运动信息来重建该待编码帧。
9.一种神经网络的训练方法,其步骤包括:
11)选取一训练数据集,包括视频序列中的N张训练图像{I1,I2,…,IN}以及该N张训练图像的关键点{π12,…,πN};
12)每次迭代过程中,从{I1,I2,…,IN}中选择两帧,分别作为关键帧和待编码帧,并将关键帧和待编码帧分别输入稀疏点预测模块;对于输入的每一帧,该稀疏点预测模块输出L张热度图
Figure FDA0002345730500000031
每一热度图对应一个关键点;并且利用关键点的预测结果计算稀疏点预测模块的损失函数;
13)对每一热度图按照
Figure FDA0002345730500000032
进行类高斯操作,得到新的关键帧的热度图集合
Figure FDA0002345730500000033
以及待编码帧的热度图集合
Figure FDA0002345730500000034
其中,p为热度图的像素坐标,pl为热度图中关键点l对应的像素坐标,α为归一化范数;
14)根据步骤13)得到的热度图集合,计算出热度图差值
Figure FDA0002345730500000035
运动流估计模块会根据该热度图差值
Figure FDA0002345730500000036
计算出关键帧到待编码帧之间的运动流ξk→t
15)将运动流ξk→t以及关键帧作为外观生成模块的输入,重建待编码帧并计算重建的待编码帧与原始待编码帧之间的损失函数;
16)根据步骤12)的损失函数和步骤15)的损失函数,对于神经网络进行误差的反向传播,更新神经网络参数;
17)重复步骤12)~步骤16)直到该神经网络收敛。
CN201911393847.XA 2019-12-30 2019-12-30 可伸缩机器视觉编码方法和运动引导图像生成网络的训练方法 Active CN113132727B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911393847.XA CN113132727B (zh) 2019-12-30 2019-12-30 可伸缩机器视觉编码方法和运动引导图像生成网络的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911393847.XA CN113132727B (zh) 2019-12-30 2019-12-30 可伸缩机器视觉编码方法和运动引导图像生成网络的训练方法

Publications (2)

Publication Number Publication Date
CN113132727A true CN113132727A (zh) 2021-07-16
CN113132727B CN113132727B (zh) 2022-07-22

Family

ID=76767927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911393847.XA Active CN113132727B (zh) 2019-12-30 2019-12-30 可伸缩机器视觉编码方法和运动引导图像生成网络的训练方法

Country Status (1)

Country Link
CN (1) CN113132727B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113706641A (zh) * 2021-08-11 2021-11-26 武汉大学 一种基于空间和光谱内容重要性的高光谱图像压缩方法
WO2023016155A1 (zh) * 2021-08-12 2023-02-16 腾讯科技(深圳)有限公司 图像处理方法、装置、介质及电子设备
WO2023124461A1 (zh) * 2021-12-28 2023-07-06 中国电信股份有限公司 面向机器视觉任务的视频编解码方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104159112A (zh) * 2014-08-08 2014-11-19 哈尔滨工业大学深圳研究生院 基于双重稀疏模型解码的压缩感知视频传输方法及系统
CN107396124A (zh) * 2017-08-29 2017-11-24 南京大学 基于深度神经网络的视频压缩方法
CN107690070A (zh) * 2017-08-23 2018-02-13 南通河海大学海洋与近海工程研究院 基于无反馈码率控制的分布式视频压缩感知系统及方法
CN110070066A (zh) * 2019-04-30 2019-07-30 福州大学 一种基于姿态关键帧的视频行人重识别方法及系统
US20190303677A1 (en) * 2018-03-30 2019-10-03 Naver Corporation System and method for training a convolutional neural network and classifying an action performed by a subject in a video using the trained convolutional neural network

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104159112A (zh) * 2014-08-08 2014-11-19 哈尔滨工业大学深圳研究生院 基于双重稀疏模型解码的压缩感知视频传输方法及系统
CN107690070A (zh) * 2017-08-23 2018-02-13 南通河海大学海洋与近海工程研究院 基于无反馈码率控制的分布式视频压缩感知系统及方法
CN107396124A (zh) * 2017-08-29 2017-11-24 南京大学 基于深度神经网络的视频压缩方法
US20190303677A1 (en) * 2018-03-30 2019-10-03 Naver Corporation System and method for training a convolutional neural network and classifying an action performed by a subject in a video using the trained convolutional neural network
CN110070066A (zh) * 2019-04-30 2019-07-30 福州大学 一种基于姿态关键帧的视频行人重识别方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113706641A (zh) * 2021-08-11 2021-11-26 武汉大学 一种基于空间和光谱内容重要性的高光谱图像压缩方法
CN113706641B (zh) * 2021-08-11 2023-08-15 武汉大学 一种基于空间和光谱内容重要性的高光谱图像压缩方法
WO2023016155A1 (zh) * 2021-08-12 2023-02-16 腾讯科技(深圳)有限公司 图像处理方法、装置、介质及电子设备
WO2023124461A1 (zh) * 2021-12-28 2023-07-06 中国电信股份有限公司 面向机器视觉任务的视频编解码方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113132727B (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
Habibian et al. Video compression with rate-distortion autoencoders
US11153566B1 (en) Variable bit rate generative compression method based on adversarial learning
CN106973293B (zh) 基于视差预测的光场图像编码方法
CN110309732B (zh) 基于骨架视频的行为识别方法
CN113132727B (zh) 可伸缩机器视觉编码方法和运动引导图像生成网络的训练方法
Chen et al. Exploiting intra-slice and inter-slice redundancy for learning-based lossless volumetric image compression
CN113259665B (zh) 一种图像处理方法以及相关设备
CN110290386B (zh) 一种基于生成对抗网络的低码率人体运动视频编码系统及方法
CN116233445B (zh) 视频的编解码处理方法、装置、计算机设备和存储介质
CN113822147A (zh) 一种协同机器语义任务的深度压缩方法
CN111046766A (zh) 一种行为识别方法、装置及计算机存储介质
CN113132735A (zh) 一种基于视频帧生成的视频编码方法
Zebang et al. Densely connected AutoEncoders for image compression
CN113949880B (zh) 一种极低码率人机协同图像编码训练方法及编解码方法
CN115880762A (zh) 面向人机混合视觉的可伸缩人脸图像编码方法、系统
CN111163320A (zh) 一种视频压缩方法及系统
CN113132732B (zh) 一种人机协同的视频编码方法及视频编码系统
Yin et al. A co-prediction-based compression scheme for correlated images
CN113132755B (zh) 可扩展人机协同图像编码方法及系统、解码器训练方法
CN115205117A (zh) 图像重建方法及装置、计算机存储介质、电子设备
CN113902000A (zh) 模型训练、合成帧生成、视频识别方法和装置以及介质
CN115052147B (zh) 基于生成模型的人体视频压缩方法、系统
Saudagar Learning based coding for medical image compression
CN116634178B (zh) 一种极低码率的安防场景监控视频编解码方法及系统
CN114501031B (zh) 一种压缩编码、解压缩方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant