CN113132732B - 一种人机协同的视频编码方法及视频编码系统 - Google Patents

一种人机协同的视频编码方法及视频编码系统 Download PDF

Info

Publication number
CN113132732B
CN113132732B CN201911408329.0A CN201911408329A CN113132732B CN 113132732 B CN113132732 B CN 113132732B CN 201911408329 A CN201911408329 A CN 201911408329A CN 113132732 B CN113132732 B CN 113132732B
Authority
CN
China
Prior art keywords
video
resolution
frame
key point
code stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911408329.0A
Other languages
English (en)
Other versions
CN113132732A (zh
Inventor
刘家瑛
段凌宇
胡越予
夏思烽
杨文瀚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201911408329.0A priority Critical patent/CN113132732B/zh
Publication of CN113132732A publication Critical patent/CN113132732A/zh
Application granted granted Critical
Publication of CN113132732B publication Critical patent/CN113132732B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种人机协同的视频编码方法及视频编码系统。本方法为:1)对于一段待编码视频以及对应的关键点序列,编码器首先对关键点序列进行编码压缩,形成关键点序列码流;然后从待编码视频中选取一帧并编码,作为参考帧,形成参考帧码流;根据关键点序列和参考帧生成一预测视频;2)降低该待编码视频的分辨率;计算该真实低分率视频与预测视频信号之间的残差,根据各帧的残差组成一残差视频序列并将其编码成残差码流;3)编码器根据需求将码流选择性的传输到解码器;如果为机器视觉任务,则根据关键点码流重建得到关键点序列;如果需要重建视频序列,则根据三码流重建得到原分辨率视频。本发明根据应用需求,提供可伸缩的视频编码。

Description

一种人机协同的视频编码方法及视频编码系统
技术领域
本发明主要涉及视频压缩编码以及视频处理与理解技术,尤其涉及一种人机协同的视频编码方法。
背景技术
近年来,影像采集技术获得了长足发展,带动了基于影像的人工智能系统的突飞猛进,机器视觉系统逐渐被广泛应用于日常生活的方方面面,越来越多的被采集的图像需要被机器视觉系统所处理分析,图像视频编码器的设计需要逐渐关注机器视觉系统的应用需求。
人眼视觉与机器视觉需求的区别主要体现在两个方面。其一,人眼直接接受图像信号,因此信号的保真度是人眼视觉质量的关键因素;而机器视觉系统对图像的分析基于图像特征,相比于图像信号,图像特征表示往往更加紧凑,因此传输图像特征表示所需要的码率远远小于图像信号本身。其二,人眼作为传统视频编解码框架的主要终端需要直接接受图像信号,因此以上述框架为基础的机器视觉终端,其分析运算需要在解码器后进行。随着硬件技术的发展,智能影像采集设备具有一定的运算处理能力,因此为机器视觉设计的编解码框架能够进行分布式的运算处理,其整体性能能够被进一步提升。
在过去的几十年间,为人眼视觉优化的高效视频编解码器已经取得了巨大的进步,而随着计算机视觉技术的发展,图像生成和重建问题逐渐得到解决,以上技术使得人机协同的视频编解码器的实现成为可能。
发明内容
本发明在上述技术背景的前提下,构建基于条件生成模型的人机协同的视频编码方法及视频编码系统。具体来说,本发明分为编码器和解码器两个部分。编码器接受来自采集设备的视频以及对应的视频中运动的人体的关键点信息(采集设备对采集的视频进行处理得到关键点信息)。对于一段待编码视频片段以及对应的关键点序列,本发明中的编码器首先对关键点序列进行无损编码压缩,形成关键点序列码流。然后,使用视频编码器编码待编码视频的第一帧,作为参考帧,形成参考帧码流。参考帧与关键点序列两者能够在一定程度上分别表达视频中人的外貌信息和动作信息。根据关键点序列中的关键点,进一步产生关键点图。具体来说,首先按照参考帧分辨率初始化全为0的图像,在每个关键点位置上,画出RGB像素值均为255的圆形,根据关键点对应的骨骼结构,在存在骨骼连接的两个关键点之间,画出像素值均为255的线段,形成关键点图。关键点图与参考帧均降采样到低分辨率(短边为128像素),两图在通道维度上拼接后,使用Pixel2Pixel网络结构,在编码器中形成大致的包含动作的预测视频。由于全分辨率的预测较为困难,实际上,在编码器中会根据关键点序列和低分辨率参考帧形成低分辨率预测视频。
预测出的低分辨率视频,与待编码视频在降低分辨率之后得到的真实低分辨率视频之间仍然存在差异,为了减少由于码率较小导致的最终解码器的重建降质,在本发明中,首先计算真实低分辨率视频与预测的低分辨率视频信号之间的残差,视频中每一帧的残差被重新组成为残差视频序列,使用视频编码器编码成残差码流。残差码流中包含了对预测误差的补偿。
以上三份码流分别经过信道传输到解码器。解码器首先能够从关键点码流中无损重建得到关键点序列,该序列能够被机器视觉系统用于完成相关动作分析任务。解码器还能够根据参考帧码流和关键点码流,重建得到参考帧和关键点序列,并且预测得到低分辨率预测视频。在此基础之上,通过解码残差码流,获得低分辨率残差信号,结合预测视频重建得到低分辨率的补偿后视频。最终,解码器利用参考帧和补偿后的视频,使用条件超分辨率生成网络,重建得到原分辨率视频。实验表明,本发明能够使用极低带宽支持仅使用关键点序列的机器视觉系统,并且在带宽充分的情况下,本发明相比现有编码方法,在相同的带宽下,能够更好地重建视频。
训练过程:
本发明存在两处需要训练的模型。其一,由参考帧结合关键点序列,生成预测视频的深度神经网络模型;其二,由补偿后的低分辨率视频,结合参考帧生成高分辨率重建视频的深度神经网络模型。
以下首先描述生成预测视频的深度神经网络模型的训练过程:
步骤1:采集训练数据,包括视频和对应的人体关键点序列。
步骤2:随机初始化待训练神经网络模型参数。
步骤3:从视频中随机选取一帧以及对应的人体关键点,并且获取该视频的第一帧,作为参考帧。
步骤4:构建关键点图:首先按照视频分辨率初始化全为0的图像,在每个关键点位置上,画出RGB像素值均为255的圆形,根据关键点对应的骨骼结构,在存在骨骼连接的两个关键点之间,画出像素值均为255的线段,形成关键点图。
步骤5:关键点图与参考帧均降采样到低分辨率(短边为128像素),两图在通道维度上拼接。将步骤3中随机选中的原始视频中的一帧降采样到低分辨率(短边128像素)。
步骤6:使用Pixel2Pixel网络结构,设置网络输入为步骤5拼接之后拼接图像;设置网络输出为:步骤中5降采样的原始视频中的选中帧。
步骤7:按照Pixel2Pixel的训练方法和参数,训练网络,更新网络中的参数。
步骤8:重复步骤3-7,直到网络收敛,得到低分辨率预测网络。
以下描述生成重建视频的深度神经网络模型的训练过程:
步骤1:采集数据集。首先获取一组视频和对应的一组关键点序列。将视频降采样,得到低分辨率视频,使用上述低分辨率预测网络对数据集中的视频和关键点序列进行处理,得到低分辨率预测视频。计算低分辨率视频和上述低分辨率预测视频之间的信号差值。数据集中的每一视频得到一条对应的残差视频序列。
步骤2:准备数据集。将上述残差视频使用视频编码器HEVC进行有损编码并解码,解码之后的解码残差视频,用于与预测视频相加,得到补偿后的低分辨率视频。该补偿后的低分辨率视频与原始的一组视频一一对应。
步骤3:随机初始化待训练深度神经网络参数。
步骤4:随机选取一个补偿后的低分辨率视频和对应的原始视频。选取该原始视频的第一帧作为参考帧。在补偿后的低分辨率视频中随机选取一帧,在补偿后的低分辨率视频对应的原始视频中选取对应的一帧。
步骤5:使用BiCubic采样方法,对选中的补偿后的低分辨率视频中选中的一帧进行上采样,使其分辨率与原始视频一致。在通道维度上,将该上采样后的一帧与步骤4中选中的参考帧进行拼接。
步骤6:使用Pixel2Pixel网络结构,设置网络输入为:步骤5中拼接得到的拼接图;设置网络输出为:步骤4中选中的原始视频中选中的对应一帧。
步骤7:按照Pixel2Pixel的训练方法和参数,训练网络,更新网络中的参数。
步骤8:重复步骤4-7,直到网络收敛。
以上训练过程产生两个网络:低分辨率预测网络和条件超分辨率重建网络。
结合训练产生的网络,可以进行以下编解码过程。
编码过程:
步骤1:获取待编码的视频以及对应的待编码关键点序列。
步骤2:使用LZMA算法对关键点序列进行无损压缩编码,得到关键点序列码流。
步骤3:使用HEVC帧内编码器,对待编码视频的第一帧进行编码得到参考帧码流。
步骤4:使用HEVC帧内解码器,解码步骤3中获得的参考帧码流,得到重建的参考帧。使用“生成预测视频的深度神经网络模型的训练过程”中得到的训练完成的神经网络,根据重建参考帧和关键点序列,生成低分辨率预测视频。
步骤5:将待编码视频降采样为低分辨率真实视频,与步骤4中得到的低分辨率预测视频计算像素残差。
步骤6:使用HEVC编码器,编码步骤5中获得的残差视频序列,得到残差码流。
步骤7:根据客户端需求,选择性传输关键点码流,参考帧码流以及残差码流三者中的全部或部分码流。
客户端向服务端请求码流,以下描述客户端的解码过程:
步骤1:向服务端请求关键点码流,使用LZMA算法解码关键点码流,得到关键点序列。该序列可用于机器视觉任务。
步骤2:若需要重建视频序列,向服务端请求参考帧码流和残差码流。
步骤3:使用HEVC帧内解码器,解码步骤2中获得的参考帧码流,得到重建的参考帧。
步骤4:使用“生成预测视频的深度神经网络模型的训练过程”中得到的训练完成的神经网络,根据重建参考帧和关键点序列,生成低分辨率预测视频。
步骤5:使用HEVC解码器,解码步骤2中获得的残差码流,得到重建的残差视频。
步骤6:利用步骤4中获得的低分辨率预测视频和步骤5中获得的重建的残差视频,两者相加进行残差补偿操作,得到补偿的低分辨率视频。
步骤7:获取步骤3中的重建的参考帧,以及步骤6中的低分辨率重建视频,使用“生成重建视频的深度神经网络模型的训练过程”中得到的重建视频生成网络,生成得到原始分辨率的重建视频。该重建视频为解码输出。
与现有技术相比,本发明的积极效果为:
本发明中的关键点序列作为基础码流,在有限带宽下能够支持机器视觉任务,而补充码流能够在关键点序列流的基础上重建视频信号,提供人眼可视的视频表示。本发明基于深度神经网络以及视频编码器,能够应用于智能影像采集和处理系统中,根据不同的带宽限制以及应用需求,提供可伸缩的视频编码,其性能优于现有视频编码系统。在测试视频上,码率和重建质量测试性能如下:
Figure BDA0002349280160000041
附图说明
图1为本发明的编码器数据处理方法流程图;
图2为本发明的解码器数据处理方法流程图。
具体实施方式
为了对本发明的技术进行进一步阐释,下面结合说明书附图和具体实例,对本发明中的训练以及编解码流程进行进一步的详细说明。在本实例中,有一待传输视频V={F1,F2,...,Fn}及与其对应的关键点序列S={s1,s2,...,sn},视频和关键点序列均包含n帧。假设现已根据前文已述步骤完成图1及图2中的“预测”和“超分辨率”重建两个深度神经网络模块的训练。
编码步骤:
步骤1:使用LZMA算法,压缩关键点序列S={s1,s2,...,sn},得到图1中所示关键点码流。
步骤2:使用HEVC将视频第一帧F1编码为参考帧码流,并且同时解码得到重建的参考帧。
步骤3:根据关键点序列S={s1,s2,...,sn},和步骤2得到的重建的参考帧,预测得到低分辨率预测视频。
步骤4:待传输视频V={F1,F2,...,Fn},经过降采样后,与步骤2中得到的预测视频逐像素相减,得到低分辨率残差序列。
步骤5:使用HEVC编码低分辨率残差序列,得到残差码流。
步骤6:残差码流,参考帧码流,关键点码流分别通过信道传输。
解码步骤:
步骤1:解码器从信道分别获得关键点码流,参考帧码流以及关键点码流。
步骤2:使用LZMA算法解压缩关键点码流,得到关键点序列。
步骤3:使用HEVC解码参考帧码流,得到重建的参考帧。
步骤4:使用预测深度神经网络,根据重建的参考帧以及关键点序列,得到低分辨率的预测视频。
步骤5:使用HEVC解码残差码流,得到重建的残差序列。
步骤6:根据重建的残差序列以及低分辨率的预测视频,做加法操作,得到补偿的低分辨率重建视频。
步骤7:根据步骤3得到的重建的参考帧以及步骤6得到的补偿的低分辨率重建视频,使用超分辨率重建深度神经网络模块,重建得到图2中解码重建视频。
解码重建视频与关键点序列为解码器的输出。
图1和图2总结了本发明的总体流程,显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1.一种人机协同的视频编码方法,其步骤包括:
1)对于一段待编码视频以及对应的关键点序列,编码器首先对所述关键点序列进行编码压缩,形成关键点序列码流;然后从待编码视频中选取一帧并编码,作为参考帧,形成参考帧码流;然后根据关键点序列和参考帧,利用低分辨率预测网络生成一预测视频;其中,训练得到所述低分辨率预测网络的方法为:
11)生成或选取一训练数据集;其中训练数据包括视频和对应的关键点序列;
12)初始化待训练神经网络的参数;
13)从训练数据的视频中随机选取一帧以及对应的关键点,并获取所选视频的第一帧作为参考帧;
14)按照视频分辨率初始化所选帧中像素值全为0的图像,在每个关键点位置上,画出RGB像素值均为255的圆形,根据关键点对应的骨骼结构,在存在骨骼连接的两个关键点之间,画出像素值均为255的线段,形成关键点图;
15)将该关键点图与参考帧分别降采样后进行拼接;
16)使用Pixel2Pixel网络结构,设置网络输入为拼接之后拼接图像;设置网络输出为降采样后的所选帧;
17)按照Pixel2Pixel的训练方法和参数,训练网络,更新网络中的参数;
18)重复步骤13)~17)直到该神经网络收敛,将收敛后的该神经网络作为低分辨率预测网络;
2)降低该待编码视频的分辨率得到一真实低分辨率视频;计算该真实低分率视频与预测视频信号之间的残差,根据各帧的残差组成一残差视频序列并将其编码成残差码流;
3)编码器根据客户端需求将所述关键点序列码流、参考帧码流和残差码流选择性的传输到解码器;如果为机器视觉任务,则解码器根据所述关键点序列码流重建得到关键点序列;如果需要重建视频序列,则根据所述参考帧码流重建得到参考帧,根据重建得到的关键点序列和重建得到的参考帧预测得到低分辨率预测视频;然后通过解码所述残差码流,获得低分辨率残差信号,然后利用低分辨率残差信号对预测得到的低分辨率预测视频进行补偿;然后解码器根据参考帧和补偿后的视频,使用条件超分辨率生成网络,重建得到原分辨率视频;其中,训练得到所述条件超分辨率生成网络的方法为:
21)选取或生成一数据集;该数据集包括一组视频和对应的一组关键点序列;对每一视频i降采样,得到低分辨率视频,并生成视频i的预测视频;计算视频i的低分辨率视频和视频i的预测视频之间的信号差值,得到视频i的残差视频序列;
22)对所述残差视频进行有损编码并解码,将解码之后的残差视频与视频i的预测视频相加,得到补偿后的低分辨率视频;
23)随机初始化待训练深度神经网络的参数;
24)随机选取一个补偿后的低分辨率视频和对应的原始视频;选取该原始视频的第一帧作为参考帧,从所选补偿后的低分辨率视频中随机选取一帧a,从该原始视频中选取与该帧a对应的一帧a’;
25)使用BiCubic采样方法,对帧a进行上采样,使其分辨率与原始视频一致;然后在通道维度上,将该上采样后的帧a与步骤24)所选的参考帧进行拼接;
26)使用Pixel2Pixel网络结构,设置网络输入为拼接得到的拼接图;设置网络输出为帧a’;
27)按照Pixel2Pixel的训练方法和参数,训练网络,更新网络中的参数;
28)重复步骤24)~27),直到该深度神经网络收敛;将收敛后的该深度神经网络作为条件超分辨率生成网络。
2.如权利要求1所述的方法,其特征在于,使用LZMA算法对关键点序列进行无损压缩编码,得到关键点序列码流;使用HEVC帧内编码器,对待编码视频的第一帧进行编码得到参考帧码流。
3.如权利要求1所述的方法,其特征在于,根据客户端需求,选择性传输关键点序列码流、参考帧码流以及残差码流三者中的全部或部分码流。
4.如权利要求3所述的方法,其特征在于,如果为机器视觉任务,则客户端向服务端请求关键点序列码流,使用LZMA算法解码关键点序列码流,得到关键点序列;如果为重建视频序列任务,则客户端向服务端请求参考帧码流和残差码流,然后使用HEVC帧内解码器,解码参考帧码流,得到重建的参考帧;然后根据重建参考帧和关键点序列,生成低分辨率预测视频;然后使用HEVC解码器解码残差码流,得到重建的残差视频;将低分辨率预测视频和重建的残差视频相加进行残差补偿操作,得到补偿的低分辨率视频;根据重建的参考帧和补偿后的低分辨率重建得到原始分辨率的重建视频。
5.一种人机协同的视频编码系统,其特征在于,包括编码器和解码器;其中
所述编码器,用于根据客户端需求将生成的关键点序列码流、参考帧码流和残差码流选择性的传输到解码器;其中,对于一段待编码视频以及对应的关键点序列,编码器首先对所述关键点序列进行编码压缩,形成关键点序列码流;从待编码视频中选取一帧并编码,作为参考帧,形成参考帧码流;根据关键点序列和参考帧,利用低分辨率预测网络生成一预测视频,降低该待编码视频的分辨率得到一真实低分辨率视频,然后计算该真实低分率视频与预测视频信号之间的残差,根据各帧的残差组成一残差视频序列并将其编码成残差码流;
所述解码器,如果为机器视觉任务,则解码器根据所述关键点序列码流重建得到关键点序列;如果需要重建视频序列,则解码器根据所述参考帧码流重建得到参考帧,根据重建得到的关键点序列和重建得到的参考帧预测得到低分辨率预测视频;然后通过解码所述残差码流,获得低分辨率残差信号,然后利用低分辨率残差信号对预测得到的低分辨率预测视频进行补偿;然后解码器根据参考帧和补偿后的视频,使用条件超分辨率生成网络,重建得到原分辨率视频;
其中,训练得到所述低分辨率预测网络的方法为:
11)生成或选取一训练数据集;其中训练数据包括视频和对应的关键点序列;
12)初始化待训练神经网络的参数;
13)从训练数据的视频中随机选取一帧以及对应的关键点,并获取所选视频的第一帧作为参考帧;
14)按照视频分辨率初始化所选帧中像素值全为0的图像,在每个关键点位置上,画出RGB像素值均为255的圆形,根据关键点对应的骨骼结构,在存在骨骼连接的两个关键点之间,画出像素值均为255的线段,形成关键点图;
15)将该关键点图与参考帧分别降采样后进行拼接;
16)使用Pixel2Pixel网络结构,设置网络输入为拼接之后拼接图像;设置网络输出为降采样后的所选帧;
17)按照Pixel2Pixel的训练方法和参数,训练网络,更新网络中的参数;
18)重复步骤13)~17)直到该神经网络收敛,将收敛后的该神经网络作为低分辨率预测网络;
其中,训练得到所述条件超分辨率生成网络的方法为:
21)选取或生成一数据集;该数据集包括一组视频和对应的一组关键点序列;对每一视频i降采样,得到低分辨率视频,并生成视频i的预测视频;计算视频i的低分辨率视频和视频i的预测视频之间的信号差值,得到视频i的残差视频序列;
22)对所述残差视频进行有损编码并解码,将解码之后的残差视频与视频i的预测视频相加,得到补偿后的低分辨率视频;
23)随机初始化待训练深度神经网络的参数;
24)随机选取一个补偿后的低分辨率视频和对应的原始视频;选取该原始视频的第一帧作为参考帧,从所选补偿后的低分辨率视频中随机选取一帧a,从该原始视频中选取与该帧a对应的一帧a’;
25)使用BiCubic采样方法,对帧a进行上采样,使其分辨率与原始视频一致;然后在通道维度上,将该上采样后的帧a与步骤24)所选的参考帧进行拼接;
26)使用Pixel2Pixel网络结构,设置网络输入为拼接得到的拼接图;设置网络输出为帧a’;
27)按照Pixel2Pixel的训练方法和参数,训练网络,更新网络中的参数;
28)重复步骤24)~27),直到该深度神经网络收敛;将收敛后的该深度神经网络作为条件超分辨率生成网络。
CN201911408329.0A 2019-12-31 2019-12-31 一种人机协同的视频编码方法及视频编码系统 Active CN113132732B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911408329.0A CN113132732B (zh) 2019-12-31 2019-12-31 一种人机协同的视频编码方法及视频编码系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911408329.0A CN113132732B (zh) 2019-12-31 2019-12-31 一种人机协同的视频编码方法及视频编码系统

Publications (2)

Publication Number Publication Date
CN113132732A CN113132732A (zh) 2021-07-16
CN113132732B true CN113132732B (zh) 2022-07-29

Family

ID=76769849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911408329.0A Active CN113132732B (zh) 2019-12-31 2019-12-31 一种人机协同的视频编码方法及视频编码系统

Country Status (1)

Country Link
CN (1) CN113132732B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114222124B (zh) * 2021-11-29 2022-09-23 广州波视信息科技股份有限公司 一种编解码方法及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104159112A (zh) * 2014-08-08 2014-11-19 哈尔滨工业大学深圳研究生院 基于双重稀疏模型解码的压缩感知视频传输方法及系统
CN104618721A (zh) * 2015-01-28 2015-05-13 山东大学 基于特征建模的极低码率下人脸视频编解码方法
CN107396124A (zh) * 2017-08-29 2017-11-24 南京大学 基于深度神经网络的视频压缩方法
CN107690070A (zh) * 2017-08-23 2018-02-13 南通河海大学海洋与近海工程研究院 基于无反馈码率控制的分布式视频压缩感知系统及方法
CN110070066A (zh) * 2019-04-30 2019-07-30 福州大学 一种基于姿态关键帧的视频行人重识别方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3547211B1 (en) * 2018-03-30 2021-11-17 Naver Corporation Methods for training a cnn and classifying an action performed by a subject in an inputted video using said cnn

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104159112A (zh) * 2014-08-08 2014-11-19 哈尔滨工业大学深圳研究生院 基于双重稀疏模型解码的压缩感知视频传输方法及系统
CN104618721A (zh) * 2015-01-28 2015-05-13 山东大学 基于特征建模的极低码率下人脸视频编解码方法
CN107690070A (zh) * 2017-08-23 2018-02-13 南通河海大学海洋与近海工程研究院 基于无反馈码率控制的分布式视频压缩感知系统及方法
CN107396124A (zh) * 2017-08-29 2017-11-24 南京大学 基于深度神经网络的视频压缩方法
CN110070066A (zh) * 2019-04-30 2019-07-30 福州大学 一种基于姿态关键帧的视频行人重识别方法及系统

Also Published As

Publication number Publication date
CN113132732A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
Hu et al. Learning end-to-end lossy image compression: A benchmark
US20200162789A1 (en) Method And Apparatus Of Collaborative Video Processing Through Learned Resolution Scaling
CN108737823B (zh) 基于超分辨技术的图像编码方法和装置、解码方法和装置
CN113259676B (zh) 一种基于深度学习的图像压缩方法和装置
CN109949222B (zh) 基于语义图的图像超分辨率重建方法
CN109996073B (zh) 一种图像压缩方法、系统、可读存储介质及计算机设备
CN109903351B (zh) 基于卷积神经网络和传统编码相结合的图像压缩方法
WO2023000179A1 (zh) 视频超分辨网络及视频超分辨、编解码处理方法、装置
Zebang et al. Densely connected AutoEncoders for image compression
CN113132727B (zh) 可伸缩机器视觉编码方法和运动引导图像生成网络的训练方法
He et al. Beyond coding: Detection-driven image compression with semantically structured bit-stream
Akbari et al. Learned multi-resolution variable-rate image compression with octave-based residual blocks
CN114979672A (zh) 视频编码方法、解码方法、电子设备及存储介质
CN113132732B (zh) 一种人机协同的视频编码方法及视频编码系统
CN112492313B (zh) 一种基于生成对抗网络的图片传输系统
KR102245682B1 (ko) 영상 압축 장치, 이의 학습 장치 및 방법
CN111080729A (zh) 基于Attention机制的训练图片压缩网络的构建方法及系统
CN115205117B (zh) 图像重建方法及装置、计算机存储介质、电子设备
CN113747242B (zh) 图像处理方法、装置、电子设备及存储介质
KR20200044668A (ko) Ai 부호화 장치 및 그 동작방법, 및 ai 복호화 장치 및 그 동작방법
CN115941966A (zh) 一种视频压缩方法及电子设备
Zhang et al. Dual-layer image compression via adaptive downsampling and spatially varying upconversion
CN113691792A (zh) 基于3d卷积的视频比特位深扩展方法、装置及介质
CN116918329A (zh) 一种视频帧的压缩和视频帧的解压缩方法及装置
CN113132755A (zh) 一种可扩展人机协同图像编码方法及编码系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant