CN114257818A - 视频的编、解码方法、装置、设备和存储介质 - Google Patents

视频的编、解码方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN114257818A
CN114257818A CN202011004238.3A CN202011004238A CN114257818A CN 114257818 A CN114257818 A CN 114257818A CN 202011004238 A CN202011004238 A CN 202011004238A CN 114257818 A CN114257818 A CN 114257818A
Authority
CN
China
Prior art keywords
characteristic information
frame
information
target
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011004238.3A
Other languages
English (en)
Inventor
孙振鉷
谭志羽
李东阳
孙修宇
李�昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Damo Institute Hangzhou Technology Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202011004238.3A priority Critical patent/CN114257818A/zh
Publication of CN114257818A publication Critical patent/CN114257818A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请实施例提供了一种视频的编、解码方法、装置、设备和存储介质,以简化编解码的网络结构,提高编解码效率。所述方法包括:将目标帧输入到编码网络中,获取所述目标帧的第一特征信息,其中,所述编码网络为关键帧的编码网络;获取参考帧通过编码网络处理的第二特征信息,其中,所述参考帧为目标帧的相邻N帧;依据所述第一特征信息和第二特征信息,确定待压缩的目标特征信息;对所述目标特征信息进行熵编码,得到目标帧的压缩信息。能够复用关键帧的编码网络对非关键帧进行编码,得到压缩信息,提高编码效率。

Description

视频的编、解码方法、装置、设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种视频的编码方法和装置、一种视频的解码方法和装置、一种视频传输方法和装置、一种视频播放方法和装置、一种视频的编码训练方法和装置、一种电子设备和一种存储介质。
背景技术
近年来,基于深度学习的图片/视频压缩已经成为压缩方向的热点问题,目前基于深度学习的图片压缩已超越传统的图片压缩算法,并且,基于深度学习的视频压缩算法还在快速发展中。
视频压缩包含帧内压缩和帧间压缩,帧内压缩利用的是空间冗余或称为帧内空间的重复数据来定义可以丢弃的数据,帧内压缩等同于图片压缩,因此经常使用视频压缩标准的帧内压缩来评估图片压缩;帧间压缩利用的是相邻帧间的运动相关性来进行压缩。
视频压缩中,每帧代表一幅静止的图像。而在实际传输视频流中,视频帧分为I帧(Intracoded frames)、P帧(Predicted pictures)、B帧(Bi-directional predictivepictures)。其中,I帧是关键帧,采用帧内压缩,而P帧、B帧是基于I帧来压缩数据,采用帧间压缩,P是向前搜索,B是双向搜索。其中,I帧的压缩率最低、P帧压缩率较高、B帧压缩率最高。Group Of Pictures(GOP,画面组)指的就是两个I帧之间的间隔,以P帧为例,一个GOP期间第一个P帧的压缩是需要参考I帧的恢复图,第2个P帧参考第一个P帧恢复图或者I帧恢复图,以此类推。
但是,由于P帧需要参考前面帧,会存在恢复质量不断累计下降的过程,虽然GOP越长压缩效率越大,但是相应的,P帧的恢复质量会下降,导致不能实现很长的GOP压缩。目前主流的深度学习的视频压缩方案就参考上述过程,其中,I帧和P帧采用不同的压缩网络进行压缩,且P帧的压缩网络包括运动信息压缩网络和残差压缩网络。这种方式导致视频压缩中,I帧和P帧总共需要3套编解码网络,网络结构复杂且数据量大。
发明内容
本申请实施例提供了一种视频的编码方法,以简化编解码的网络结构,提高编解码效率。
相应的,本申请实施例还提供了一种视频的编码装置、一种视频的解码方法和装置、一种视频传输方法和装置、一种视频播放方法和装置、一种视频的编码训练方法和装置、一种基于视频编、解码的处理方法和装置、一种电子设备和一种存储介质,用以保证上述方法的实现及应用。
为了解决上述问题,本申请实施例公开了一种视频的编码方法,所述方法包括:将目标帧输入到编码网络中,获取所述目标帧的第一特征信息,其中,所述编码网络为关键帧的编码网络;获取参考帧通过编码网络处理的第二特征信息,其中,所述参考帧为目标帧的相邻N帧;依据所述第一特征信息和第二特征信息,确定待压缩的目标特征信息;对所述目标特征信息进行熵编码,得到目标帧的压缩信息。
本申请实施例还公开了一种视频的解码方法,包括:获取目标帧的第一压缩信息;对所述第一压缩信息进行熵解码,获取目标特征信息;确定参考帧的第二特征信息,其中,所述参考帧为目标帧的相邻N帧,所述第一特征信息为参考帧的第二压缩信息通过熵解码获取的;采用所述目标特征信息和第二特征信息,确定所述目标帧的第一特征信息;将所述第一特征信息输入到解码网络中,得到对应的目标帧,所述解码网络为关键帧的解码网络。
本申请实施例还公开了一种视频传输方法,所述方法包括:获取视频数据;对所述视频数据中的图像帧进行压缩处理,确定各图像帧的压缩信息;传输所述图像帧的压缩信息;其中,针对图像数据中目标帧的压缩处理包括以下步骤:将目标帧输入到编码网络中,获取所述目标帧的第一特征信息,其中,所述编码网络为关键帧的编码网络;获取参考帧通过编码网络处理的第二特征信息,其中,所述参考帧为目标帧的相邻N帧;依据所述第一特征信息和第二特征信息,确定待压缩的目标特征信息;对所述目标特征信息进行熵编码,得到目标帧的压缩信息。
本申请实施例还公开了一种视频播放方法,所述方法包括:获取视频数据中各图像帧的压缩信息;对所述各图像帧的压缩信息进行解压处理,得到恢复的图像帧;按照时间戳将各图像帧组合为视频数据;播放所述视频数据;其中,图像帧包括目标帧,对所述图像帧的压缩信息进行解压处理包括以下步骤:获取目标帧的第一压缩信息;对所述第一压缩信息进行熵解码,获取目标特征信息;确定参考帧的第二特征信息,其中,所述参考帧为目标帧的相邻N帧,所述第一特征信息为参考帧的第二压缩信息通过熵解码获取的;采用所述目标特征信息和第二特征信息,确定所述目标帧的第一特征信息;将所述第一特征信息输入到解码网络中,得到对应的目标帧,所述解码网络为关键帧的解码网络。
本申请实施例还公开了一种视频编码的训练方法,所述方法包括:将参考帧和目标帧分别输入到编码网络中,获取所述参考帧的第二特征信息和所述目标帧的第一特征信息,其中,所述编码网络为关键帧的编码网络其中,所述参考帧为目标帧的相邻N帧;将所述第一特征信息和第二特征信息输入到压缩网络中进行处理,得到目标帧的压缩信息,其中,所述压缩网络基于第一特征信息和第二特征信息,确定待压缩的目标特征信息,并对所述目标特征信息进行熵编码,得到目标帧的压缩信息;依据所述目标帧的压缩信息确定损失函数,依据损失函数对所述压缩网络进行调整。
本申请实施例还公开了一种基于视频编码的处理方法,所述方法包括:部署视频的编码器,并提供所述编码器的第一调用接口;通过所述第一调用接口接收编码调用参数,所述编码调用参数包括编码参数和视频参数;依据所述视频参数获取视频数据,并依据所述编码参数确定编码器;采用所述编码器对所述视频数据进行编码,得到视频数据的压缩信息;通过第二调用接口反馈编码结果,以依据所述编码结果获取所述视频数据的压缩信息;其中,针对所述视频数据中的目标帧,采用编码器执行以下编码处理步骤:通过编码器的编码网络中,获取所述目标帧的第一特征信息,其中,所述编码网络为关键帧的编码网络;获取参考帧通过编码网络处理的第二特征信息,其中,所述参考帧为目标帧的相邻N帧;依据所述第一特征信息和第二特征信息,确定待压缩的目标特征信息;对所述目标特征信息进行熵编码,得到目标帧的压缩信息。
本申请实施例还公开了一种基于视频解码的处理方法,所述方法包括:部署视频的解码器,并提供所述解码器的第三调用接口;通过所述第三调用接口接收解码调用参数,所述解码调用参数包括视频压缩参数和解码参数;通过所述视频压缩参数获取视频的压缩信息,并依据所述解码参数确定解码器;采用所述解码器对所述压缩信息进行解码,得到对应的视频数据;通过第四调用接口反馈解码结果,以依据所述解码结果获取所述视频数据;其中,针对所述视频数据中的目标帧,采用解码器执行以下解码步骤:对目标帧的第一压缩信息进行熵解码,获取目标特征信息;确定参考帧的第二特征信息,其中,所述参考帧为目标帧的相邻N帧,所述第一特征信息为参考帧的第二压缩信息通过熵解码获取的;采用所述目标特征信息和第二特征信息,确定所述目标帧的第一特征信息;将所述第一特征信息输入到解码网络中,得到对应的目标帧,所述解码网络为关键帧的解码网络。
本申请实施例还公开了一种视频的编码装置,所述装置包括:编码模块,用于将目标帧输入到编码网络中,获取所述目标帧的第一特征信息,其中,所述编码网络为关键帧的编码网络;获取参考帧通过编码网络处理的第二特征信息,其中,所述参考帧为目标帧的相邻N帧;运动估计模块,用于依据所述第一特征信息和第二特征信息,确定待压缩的目标特征信息;压缩模块,用于对所述目标特征信息进行熵编码,得到目标帧的压缩信息。
本申请实施例还公开了一种视频的编码装置,所述装置包括:解压模块,用于获取目标帧的第一压缩信息;对所述第一压缩信息进行熵解码,获取目标特征信息;确定参考帧的第二特征信息,其中,所述参考帧为目标帧的相邻N帧,所述第一特征信息为参考帧的第二压缩信息通过熵解码获取的;运动恢复模块,用于采用所述目标特征信息和第二特征信息,确定所述目标帧的第一特征信息;解码模块,用于将所述第一特征信息输入到解码网络中,得到对应的目标帧,所述解码网络为关键帧的解码网络。
本申请实施例还公开了一种视频传输装置,所述装置包括:视频获取模块,用于获取视频数据;视频压缩模块,用于对所述视频数据中的图像帧进行压缩处理,确定各图像帧的压缩信息;视频传输模块,用于传输所述图像帧的压缩信息;其中,视频压缩模块,用于将目标帧输入到编码网络中,获取所述目标帧的第一特征信息,其中,所述编码网络为关键帧的编码网络;获取参考帧通过编码网络处理的第二特征信息,其中,所述参考帧为目标帧的相邻N帧;依据所述第一特征信息和第二特征信息,确定待压缩的目标特征信息;对所述目标特征信息进行熵编码,得到目标帧的压缩信息。
本申请实施例还公开一种视频播放装置,所述装置包括:视频接收模块,用于获取视频数据中各图像帧的压缩信息;视频解压模块,用于对所述各图像帧的压缩信息进行解压处理,得到恢复的图像帧;按照时间戳将各图像帧组合为视频数据;视频播放模块,用于播放所述视频数据;其中,图像帧包括目标帧,视频解压模块,用于获取目标帧的第一压缩信息;对所述第一压缩信息进行熵解码,获取目标特征信息;确定参考帧的第二特征信息,其中,所述参考帧为目标帧的相邻N帧,所述第一特征信息为参考帧的第二压缩信息通过熵解码获取的;采用所述目标特征信息和第二特征信息,确定所述目标帧的第一特征信息;将所述第一特征信息输入到解码网络中,得到对应的目标帧,所述解码网络为关键帧的解码网络。
本申请实施例还公开了一种视频编码的训练装置,所述装置包括:置编码模块,用于将参考帧和目标帧分别输入到编码网络中,获取所述参考帧的第二特征信息和所述目标帧的第一特征信息,其中,所述编码网络为关键帧的编码网络其中,所述参考帧为目标帧的相邻N帧;压缩处理模块,用于将所述第一特征信息和第二特征信息输入到压缩网络中进行处理,得到目标帧的压缩信息,其中,所述压缩网络基于第一特征信息和第二特征信息,确定待压缩的目标特征信息,并对所述目标特征信息进行熵编码,得到目标帧的压缩信息;训练模块,用于依据所述目标帧的压缩信息确定损失函数,依据损失函数对所述压缩网络进行调整。
本申请实施例还公开了一种基于视频编码的处理装置,所述装置包括:编码器部署模块,用于部署视频的编码器,并提供所述编码器的第一调用接口;编码器调用模块,用于通过所述第一调用接口接收编码调用参数,所述编码调用参数包括编码参数和视频参数;编码器压缩模块,用于依据所述视频参数获取视频数据,并依据所述编码参数确定编码器;采用所述编码器对所述视频数据进行编码,得到视频数据的压缩信息;反馈模块,用于通过第二调用接口反馈编码结果,以依据所述编码结果获取所述视频数据的压缩信息;其中,所述编码压缩模块,用于针对所述视频数据中的目标帧,采用编码器执行以下编码处理:通过编码器的编码网络中,获取所述目标帧的第一特征信息,其中,所述编码网络为关键帧的编码网络;获取参考帧通过编码网络处理的第二特征信息,其中,所述参考帧为目标帧的相邻N帧;依据所述第一特征信息和第二特征信息,确定待压缩的目标特征信息;对所述目标特征信息进行熵编码,得到目标帧的压缩信息。
本申请实施例还公开了一种基于视频解码的处理装置,所述装置包括:解码器部署模块,用于部署视频的解码器,并提供所述解码器的第三调用接口;解码器调用模块,用于通过所述第三调用接口接收解码调用参数,所述解码调用参数包括视频压缩参数和解码参数;解码器处理模块,用于通过所述视频压缩参数获取视频的压缩信息,并依据所述解码参数确定解码器;采用所述解码器对所述压缩信息进行解码,得到对应的视频数据;解码反馈模块,用于通过第四调用接口反馈解码结果,依据所述解码结果获取所述视频数据;其中,解码器处理模块,用于针对所述视频数据中的目标帧,采用解码器执行以下解码步骤:对目标帧的第一压缩信息进行熵解码,获取目标特征信息;确定参考帧的第二特征信息,其中,所述参考帧为目标帧的相邻N帧,所述第一特征信息为参考帧的第二压缩信息通过熵解码获取的;采用所述目标特征信息和第二特征信息,确定所述目标帧的第一特征信息;将所述第一特征信息输入到解码网络中,得到对应的目标帧,所述解码网络为关键帧的解码网络。
本申请实施例还公开了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如本申请实施例中一个或多个所述的方法。
本申请实施例还公开了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如本申请实施例中一个或多个所述的方法。
与现有技术相比,本申请实施例包括以下优点:
在本申请实施例中,能够复用关键帧的编码网络对非关键帧进行编码,确定第一特征信息,再结合非关键帧的参考帧的第二特征信息,可以确定出待压缩的目标特征信息,然后对目标特征信息进行熵编码,得到压缩信息,提高编码效率。
附图说明
图1是本申请实施例的一种视频的编码处理示例的示意图;
图2是本申请实施例的一种视频的解码处理示例的示意图;
图3是本申请的一种视频的编码方法实施例的步骤流程图;
图4是本申请的一种视频的解码方法实施例的步骤流程图;
图5是本申请实施例的一种编解码处理示例的示意图;
图6是本申请的一种视频编码的训练方法实施例的步骤流程图;
图7是本申请的一种视频传输方法实施例的步骤流程图;
图8是本申请的一种视频播放方法实施例的步骤流程图;
图9是本申请的一种基于视频编码的处理方法实施例的步骤流程图;
图10是本申请的一种基于视频解码的处理方法实施例的步骤流程图;
图11是本申请的一种视频的编码装置实施例的结构框图;
图12是本申请的一种视频的解码装置实施例的结构框图;
图13是本申请的一种视频传输装置实施例的结构框图;
图14是本申请的一种视频播放装置实施例的结构框图;
图15是本申请的一种视频编码的训练装置实施例的结构框图;
图16是本申请一实施例提供的装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请实施例中可应用于视频压缩场景。视频是由多帧连续图像构成的,帧是组成视频图像的基本单位,每帧代表一幅静止的图像。通常正常观看的视频每秒不低于25帧。在视频传输中,图像帧分为I帧和P帧,其中,I帧也称为关键帧,是一个全帧压缩的编码帧,通常采用帧内压缩,解码时仅用I帧的数据就可重构完整图像;P帧是向前搜索帧,B帧是双向搜索帧,P帧和B帧也可称为非关键帧,以P帧为例,P帧是根据本帧与相邻的前N帧(I帧或P帧)的不同点来压缩本帧数据,B帧是根据本帧与相邻的前、后N帧的不同点来压缩本帧数据,即P帧、B帧采用帧间压缩的方式。
一个视频可以分为多个画面组GOP,GOP由视频中的图像帧序列构成,可以理解为两个I帧之间的间隔。以P帧为例,GOP以I帧为起始帧,直到下一个I帧之前的P帧为尾帧,则在一个GOP期间第一个P帧的压缩是需要参考I帧的恢复图,第2个P帧参考第一个P帧恢复图或者I帧恢复图,以此类推。以B帧为例,B帧需要参考前、后M帧的恢复图。
视频经过压缩后可进行传输,接收端接收后可进行解压、重构成视频后,然后进行视频的其他处理,例如播放等。因此本申请的视频压缩、解压方法可应用于多种视频相关的场景中,例如视频的点播、直播以及各种网络视频播放场景,还可应用于其他需要视频传输的场景中,例如对于监控视频的网络传输等。
其中,视频的编解码是相对视频压缩、解压过程而言的,编码指的是将视频通过编码算法压缩到较小的比特流,解码指的是从比特流中恢复出原视频。常用的视频编解码包括H.264和H.265,这两种中最常用的是H.264。
本申请实施例中,为了简化编解码的网络结构,提高编解码效率,对于P帧、B帧等非关键帧采用关键帧的编、解码网络,再基于该P帧、B帧等非关键帧的相邻帧进行运动分析,确定对应的压缩信息。
参照图1,示出了本申请实施例的一种视频的编码处理示例的示意图。
步骤102,将目标帧输入到编码网络中,获取所述目标帧的第一特征信息。
本申请实施例中,视频数据的关键帧如I帧和非关键帧,如P帧、B帧,复用相同的编、解码网络。因此,对于关键帧和非关键帧可输入到相同的编码网络中。对于视频的编码过程中,可以将视频的一个GOP的图像帧依次输入到编码网络中。
本实施例以P帧的编解码为例进行描述,将当前需要编、解码的P帧称为目标帧,将该目标帧的前N帧称为参考帧;以B帧的编解码为例,将当前需要编、解码的P帧称为目标帧,将该目标帧的前N帧和后N帧称为参考帧。将目标帧输入到编码网络中,获取所述目标帧的第一特征信息。其中,关键帧和非关键帧都是通过关键帧的编码网络产生特征分布,在特征层进行运动预测,来减少图像帧的熵。
假设将目标帧称为t,将目标帧t输入到编码网络(ecoder)可以得到第一特征信息y_hat。
步骤104,获取参考帧通过编码网络处理的第二特征信息。
目标帧的压缩需要参考其相邻N帧图像帧,即参考帧,N为正整数。如将参考帧记录为t-n,n的取值依据N确定。因此还可获取该目标帧的参考帧通过编码网络处理后,得到的第二特征信息。例如,参考帧为目标帧的前一帧,则其对应的第二特征信息可记录为y-t-1_hat,参考帧为后一帧,则对应的第二特征信息可记录为y-t+1_hat。其中,以B帧为例,参考帧为目标帧的相邻N帧,由于B帧需要参考前、后帧,因此此种情况下N可为2的倍数。本申请实施例中,N的取值可依据实际的场景需求确定,本申请实施例对此不做限制。
步骤106,依据所述第一特征信息和第二特征信息,确定待压缩的目标特征信息。
由于目标帧和其参考帧相似性高,因此还会对这些图像帧进行运动分析,从而去除相似的部分特征,因此可基于第一特征信息和第二特征信息,确定待压缩的目标特征信息,可记录为y_hat_res。如P帧可计算本帧和前一帧的差值,而B帧可计算本帧和前后帧的差值。
一个可选实施例中,可所述依据所述第一特征信息和第二特征信息,确定待压缩的目标特征信息,包括:对所述第一特征信息和第二特征信息进行运动分析,确定待压缩的目标特征信息。可以对第一特征信息和第二特征信息进行运动分析,确定两个图像帧之间的差异,得到待压缩的目标特征信息。其中,对于图像之间的运动分析可通过多种方式,如通过相减操作、光流、特征对齐等方式。
进一步的可选实施例中,所述对所述第一特征信息和第二特征信息进行运动分析,确定待压缩的目标特征信息,包括以下至少一种步骤:将所述第一特征信息和第二特征信息相减,确定待压缩的目标特征信息;计算第一特征信息和第二特征信息的光流运动信息,作为待压缩的目标特征信息;对所述第一特征信息和第二特征信息进行特征对齐,确定待压缩的目标特征信息。
可以将第一特征信息和第二特征信息相减,确定对应的差值,作为待压缩的目标特征信息。如P帧可将本帧和前一帧相减来计算差值,而B帧可计算将本帧和前、后帧相减来计算差值。
也可以基于光流运动的方式,计算第一特征信息和第二特征信息的光流运动信息,作为待压缩的目标特征信息。其中,光流法是运动图像分析的一种方法,是指时变图像中模式运动速度,因为当物体在运动时,它在图像上对应点的亮度模式也在运动。可通过光流计算网络确定第一特征信息和第二特征信息的光流运动信息,得到待压缩的目标特征信息。
还可将第一特征信息和第二特征信息进行特征对齐,从而确定出存在差异的特征,作为待压缩的目标特征信息。
本申请实施例中,对于目标帧和参考帧之间的运动分析可通过各种方式进行分析,确定出待压缩的目标特征信息,具体可依据需求确定,本实施例对此不做限制。
步骤108,对所述目标特征信息进行熵编码,得到目标帧的压缩信息。
熵编码为编码过程中按熵原理不丢失信息的编码,对于目标特征信息可进行熵编码,从而压缩得到目标帧的压缩信息。其中,熵编码可基于各种熵编码算法实现,例如算术编码、霍夫曼编码等,本申请实施例对此不做限制,可以基于需求选择。
一种熵编码方式中,可先确定熵编码的估计参数,然后依据所述估计参数对所述目标特征信息进行熵编码,得到目标帧的压缩信息。该估计参数可依据所述第一特征信息、第二特征信息和目标特征信息确定。
其中,可以基于第一特征信息、第二特征信息以及目标特征信息挖掘图像帧之间在特征层面的关系,从而确定估计参数。
一个可选实施例中,依据所述第一特征信息、第二特征信息和目标特征信息,计算估计参数,包括:依据所述第一特征信息和第二特征信息,确定对应的第三特征信息;依据所述目标特征信息和第三特征信息,计算估计参数。可以将第一特征参数和第二特征参数进行叠加,然后通过参数编码网络、参数解码网络进行处理,得到第三特征参数,从而挖掘相互帧特征侧边的关系,后续可以降低图像帧的压缩率。
进一步的可选实施例中,所述依据所述第一特征信息和第二特征信息,确定对应的第三特征信息,包括:将所述第一特征信息和第二特征信息进行叠加,确定对应的第四特征信息;将所述第四特征信息通过参数编码网络,确定对应的第五特征信息;将所述第五特征信息进行熵编码,确定对应的参数压缩信息;对所述参数压缩信息进行熵解码,确定对应的第六特征信息;将所述第六特征信息通过参数解码网络,确定对应的第三特征信息。
可以设置参数编码网络和参数解码网络,相对于I帧的编、解码网络,该参数编、解码网络也可称为超参编、解码网络,该超参编、解码网络应用于针对P帧、B帧等非关键帧的编解码过程,因此可称为非关键帧模式超参编、解码网络。可以将第一特征信息和第二特征信息进行叠加,确定对应的第四特征信息,然后将第四特征信息通过参数编码网络,确定对应的第五特征信息,也可称为超参特征z。然后对该第五特征信息进行熵编码,得到对应的参数压缩信息bpp_z,其中,bpp指的是像素深度(bit per pixel),用来表示图像的每个像素值所需要的位数。基于熵编码确定超参特征z的像素深度bpp_z,然后对参数压缩信息进行熵解码,可以无损恢复得到第六特征参数,再将第六特征信息通过参数解码网络,确定对应的第三特征信息。
然后可以依据所述目标特征信息和第三特征信息,计算估计参数,包括:对所述第二特征信息进行卷积处理,得到第一卷积结果;对所述目标特征信息进行卷积处理,得到第二卷积结果;将所述第一卷积结果、第二卷积结果和第三特征信息进行叠加,得到第七特征信息;对所述第七特征信息进行卷积处理,得到对应的估计参数。
可以将第二特征参数进行卷积处理,其中,卷积核和卷积次数可依据需求设置,例如通过2个5*5的卷积,得到对应的第一卷积结果。并且可以对目标特征参数进行卷积处理,例如可以通过像素(pixel)卷积神经网络(Convolutional Neural Networks,CNN)进行上下文的卷积处理,得到对应得第二卷积结果,然后将第一卷积结果、第二卷积结果和第三特征信息进行叠加,得到第七特征信息,然后将第七特征信息进行卷积处理,与上述情况类似,该卷积处理的卷积核和卷积次数可依据需求设置,例如通过3个1*1的卷积,得到对应的拉普拉斯估计参数Mu/Sigma
Figure BDA0002695357120000121
一个可选实施例中,所述对所述目标特征信息进行熵编码,得到目标帧的压缩信息,包括:依据所述估计参数对所述目标特征信息进行熵编码,得到目标帧的压缩信息。可以依据该估计参数对目标特征信息进行熵编码,例如通过拉普拉斯估计对目标特征信息进行熵编码,得到目标帧的压缩信息bpp_y。从而在视频传输过程中,针对目标帧可传输的压缩信息。
从而能够复用关键帧的编码网络对非关键帧进行编码,确定第一特征信息,再结合非关键帧的参考帧的第二特征信息,可以确定出待压缩的目标特征信息,然后对目标特征信息进行熵编码,得到压缩信息,提高编码效率。
上述描述了针对目标帧的压缩方式,基于该压缩方式继续描述对于目标帧的解压方式。与压缩时采用I帧的压缩编码网络相对应,对于目标帧的解压,也可采用I帧的解压的解码网络,具体过程如下:
参照图2,示出了本申请实施例的一种视频的解码处理示例的示意图。
步骤202,获取目标帧的第一压缩信息,其中,所述参考帧为目标帧的前一帧。
步骤204,对所述第一压缩信息进行熵解码,获取目标特征信息。
视频的各图像帧压缩得到压缩信息后,可传输压缩信息,之后在解码端进行解压,再组合成视频数据。针对I帧可直接进行解码恢复,得到相应的图像帧,而对于非关键帧需要参考其相邻帧进行解码恢复,如P帧则需要参考其前N帧进行解码恢复,B帧要参考其前后M帧等,其中2M=N。因此在获取到目标帧的第一压缩信息后,可先进行熵解码,无损恢复得到对应的目标特征信息。
步骤206,确定参考帧的第二特征信息,所述第一特征信息为参考帧的第二压缩信息通过熵解码获取的。
由于需要参考参考帧的特征信息,因此可获取参考帧的第二特征信息,该第二特征信息为参考帧的第二压缩信息通过熵解码,无损恢复得到的。
步骤208,采用所述目标特征信息和第二特征信息,确定所述目标帧的第一特征信息。
可以采用目标帧的目标特征信息和其参考帧的第二特征信息,得到该目标帧的第一特征信息。其中,由于目标帧和参考帧的相似度很高,因此目标特征信息是目标帧的第一特征信息和参考帧的第二特征信息去除相似部分,的得到的,基于编码过程中处理的逆过程,可以得到目标帧的第一特征信息。
一个可选实施例中,采用所述目标特征信息和第二特征信息,确定所述目标帧的第一特征信息,包括:依据所述目标特征信息和第二特征信息对目标帧进行运动分析,确定所述目标帧的第一特征信息。与压缩过程相反,在解压过程中,对于目标帧的运动分析,可以在基于参考帧的第二特征信息,叠加目标特征信息,得到目标帧的第一特征信息。
进一步的可选实施例中,所述依据所述目标特征信息和第二特征信息对目标帧进行运动分析,确定所述目标帧的第一特征信息,包括以下至少一种步骤:将所述目标特征信息和第二特征信息相加,确定目标帧的第一特征信息;依据所述第二特征信息和目标特征信息分析目标帧的光流特征,确定目标帧的第一特征信息;依据所述目标特征信息对第二特征信息进行特征偏移,确定目标帧的第一特征信息。
针对在压缩过程中采用相减的方式,在解压过程中可以将所述目标特征信息和第二特征信息相加,确定目标帧的第一特征信息。
针对在压缩过程中采用光流的方式,在解压过程也可以分析第二特征信息和目标特征信息的光流特征,从而得到目标帧的第一特征信息。
对于在压缩过程中采用特征对齐的方式,在解压过程中可进行特征偏移,依据所述目标特征信息对第二特征信息进行特征偏移,确定目标帧的第一特征信息。
步骤210,将所述第一特征信息输入到解码网络中,得到对应的目标帧,所述解码网络为关键帧的解码网络。
可以恢复的第一特征信息输入到I帧的解码网络中,得到输出的目标帧。然后可以按照时间戳等时间顺序将各图像帧合成为视频,从而完成视频的传输。
综上,对于非关键帧的压缩信息,可以基于熵解码无损恢复对应的目标特征信息,非关键帧的解码要参考参考帧,因此可获取参考帧的第二特征信息,然后基于目标特征信息和第二特征信息,得到对应的第一特征信息,再复用关键帧的解码网络对非关键帧进行解码,得到该非关键帧,能够快速的恢复图像,提高解码效率。
在上述实施例的基础上,本申请实施例还提供了一种视频的编码方法,能够复用关键帧的编码网络对非关键帧进行编码,再基于估计参数对该非关键帧的特征进行熵编码,得到非关键帧的压缩信息。
参照图3,示出了本申请的一种视频的编码方法实施例的步骤流程图。
步骤302,将目标帧输入到编码网络中,获取所述目标帧的第一特征信息。
步骤304,获取参考帧通过编码网络处理的第二特征信息。
步骤306,对所述第一特征信息和第二特征信息进行运动分析,确定待压缩的目标特征信息。
其中,所述对所述第一特征信息和第二特征信息进行运动分析,确定待压缩的目标特征信息,包括以下至少一种步骤:将所述第一特征信息和第二特征信息相减,确定待压缩的目标特征信息;计算第一特征信息和第二特征信息的光流运动信息,作为待压缩的目标特征信息;对所述第一特征信息和第二特征信息进行特征对齐,确定待压缩的目标特征信息。
步骤308,依据所述第一特征信息、第二特征信息和目标特征信息,计算估计参数。
步骤310,依据所述估计参数对所述目标特征信息进行熵编码,得到目标帧的压缩信息。
从而能够复用关键帧的编码网络对目标帧等非关键帧进行编码,确定第一特征信息,再结合目标帧的参考帧的第二特征信息,可以确定出待压缩的目标特征信息,还可确定出该目标帧的估计参数,然后对目标特征信息进行熵编码,得到压缩信息,提高编码率。
本申请实施例中,目标帧可以参考相邻一帧,也可以参考相邻N帧的运动信息的概率估计进行更强的估计,进一步减少像素深度bpp值。
在上述实施例的基础上,还提供了一种视频的解码方法,能够基于熵解码无损恢复非关键帧的目标特征信息,再结合参考帧的第二特征信息得到非关键帧的第一特征信息,然后复用关键帧的解码网络对非关键帧进行解码。
参照图4,示出了本申请的一种视频的解码方法实施例的步骤流程图。
步骤402,获取目标帧的第一压缩信息,其中,所述参考帧为目标帧的相邻N帧。
步骤404,按照估计参数对所述第一压缩信息进行熵解码,获取目标特征信息。
步骤406,确定参考帧的第二特征信息,所述第一特征信息为参考帧的第二压缩信息通过熵解码获取的。
步骤408,依据所述目标特征信息和第二特征信息对目标帧进行运动分析,确定所述目标帧的第一特征信息。
步骤410,将所述第一特征信息输入到解码网络中,得到对应的目标帧,所述解码网络为关键帧的解码网络。
本申请实施例中,由于非关键帧复用关键帧相同的编码(encoder)网络和解码(decoder)网络,目标帧和参照帧的图像相似度高,恢复图质量相似,不会出现现有的视频压缩方式中,参考参考帧恢复图进行解码的方案存在帧间质量衰减现象。本申请通过熵解码、熵编码能够进行无损恢复,并且能够挖掘相互帧特征层面的关系,使得非关键帧压缩的像素深度值比关键帧的像素深度值低,实现了非关键帧的压缩。
在上述实施例的基础上,为了更加清晰的描述编、解码过程,将其结合在一起进行描述,实际处理中,两个过程可以在不同的端进行处理,例如编码过程在视频的采集端指定,解码过程在视频的处理端如播放端等执行,具体可以依据需求设置。以针对P帧的编解码过程为例:
参照图5,示出了本申请实施例的一种编解码处理示例的示意图。
以下为目标帧的编码过程:
步骤502,将目标帧t输入到编码网络中,获取所述目标帧的第一特征信息y_hat。
其中,所述编码网络为关键帧I帧的编码网络。
步骤504,获取参考帧t-1通过编码网络处理的第二特征信息y-t-1_hat。
本实例中,以目标帧的前一帧为参考帧为例进行论述,实际处理中,所述参考帧为目标帧的前N帧。
步骤506,将所述第一特征信息y_hat和第二特征信息y-t-1_hat相减,确定待压缩的目标特征信息y_hat_res。
本实施例以相减的方式进行运动估计为例,实际处理中还可依据需求选择其他的方式,如光流、特征对齐等。
步骤508,将所述第一特征信息y_hat和第二特征信息y-t-1_hat进行叠加concat,确定对应的第四特征信息。
步骤510,将第四特征信息通过参数编码网络PmodHE(P帧模式超参编码网络),确定对应的第五特征信息z。
步骤512,将所述第五特征信息z进行熵编码,确定对应的参数压缩信息bpp_z。
步骤514,对所述参数压缩信息bpp_z进行熵解码,确定对应的第六特征信息z_hat。
步骤516,将所述第六特征信息通过参数解码网络,确定对应的第三特征信息。
步骤518,对所述第二特征信息y-t-1_hat进行卷积处理,得到第一卷积结果。如通过2个5*5的卷积处理,得到第一卷积结果。
步骤520,对所述目标特征信息y_hat_res进行卷积处理,得到第二卷积结果。如通过上下文(context)的CNN卷积处理,得到第二卷积结果。
步骤522,将所述第一卷积结果、第二卷积结果和第三特征信息进行叠加,得到第七特征信息。
步骤524,对所述第七特征信息进行卷积处理,得到对应的估计参数。如通过3个1*1的卷积,得到对应的拉普拉斯估计参数Mu/Sigma
Figure BDA0002695357120000171
步骤526,依据所述估计参数对所述目标特征信息进行熵编码,得到目标帧的压缩信息bpp_y。
目标帧编码完成后可进行后续的处理,例如,在完成视频中关键帧和非关键帧压缩后可进行传输。
在关键帧、非关键帧的压缩信息达到处理端之后,处理端可解码后按照时间戳等顺序信息组合成视频,进行后续的播放等处理。
以下为非关键帧的解码过程。
步骤528,获取目标帧t的第一压缩信息bpp_y。
步骤530,获取目标帧t的估计参数Mu/Sigma。
步骤532,依据所述估计参数Mu/Sigma对所述第一压缩信息bpp_y进行熵解码,获取目标特征信息y_hat_res。
步骤534,确定参考帧t-1的第二特征信息y-t-1_hat。
与上述压缩过程对应,本示例中,所述参考帧为目标帧的前一帧,所述第一特征信息为参考帧的第二压缩信息bpp_y-t-1通过熵解码获取的。
步骤536,将所述目标特征信息y_hat_res和第二特征信息y-t-1_hat相加,确定目标帧的第一特征信息y_hat。
与编码过程采用相减的方式进行运动估计对应,本实例采用相加的方式。具体可以编码方式的运动估计为主,在解码过程中采用对应的逆过程。
步骤538,将所述第一特征信息输入到I帧的解码网络中,得到对应的目标帧t。
本申请实施例中,由于P帧复用I帧相同的编码(encoder)网络和解码(decoder)网络,目标帧和参照帧的图像相似度高,恢复图质量相似,不会出现现有的视频压缩方式中,参考参考帧恢复图进行解码的方案存在帧间质量衰减现象。并且,能够使用P帧模式的超参挖掘相互帧特征层面的关系,使得P帧比直接用I帧压缩的bpp值低,从而实现了P帧的压缩。
上述实施例以前一帧为例进行论述,实际处理中,了处分挖掘帧间关系,目标帧可以参考的帧不仅仅是1帧,可以参考前面的N帧的运动信息对目标帧的概率估计做更强的估计,可以进一步减少bpp值。
本申请上述各实施例的编、解码过程,可为视频实际的处理过程,也可应用到训练过程中。其中,可将上述通过关键帧的编码网络输出参考帧的第二特征信息和目标帧的第一特征信息之后,基于所述第一特征信息和第二特征信息确定目标帧的压缩信息的过程确定为压缩网络的执行过程,因此可对该压缩网络进行训练,在训练通过后结合关键帧的编码网络,进行视频中非关键帧的编码处理。
参照图6,示出了本申请的一种视频编码的训练方法实施例的步骤流程图。
步骤602,将参考帧和目标帧分别输入到编码网络中,获取所述参考帧的第二特征信息和所述目标帧的第一特征信息。其中,所述编码网络为关键帧的编码网络其中,所述参考帧为目标帧的相邻N帧;
步骤604,将所述第一特征信息和第二特征信息输入到压缩网络中进行处理,得到目标帧的压缩信息。
其中,所述压缩网络基于第一特征信息和第二特征信息,确定待压缩的目标特征信息,并对所述目标特征信息进行熵编码,得到目标帧的压缩信息。
该压缩网络的处理过程可参见上述各实施例中的描述,在此不再赘述。
步骤606,依据所述目标帧的压缩信息确定损失函数,依据损失函数对所述压缩网络进行调整。
该压缩网络中还包括参数编、解码网络,其中,将所述第一特征信息和第二特征信息进行叠加,确定对应的第四特征信息;将所述第四特征信息通过参数编码网络,确定对应的第五特征信息;将所述第五特征信息进行熵编码,确定对应的参数压缩信息。针对该参数压缩信息也可确定对应的参数损失函数,基于该参数损失函数对参数编码网络进行调整。
还可基于上述损失函数和参数损失函数共同确定网络的损失函数,在梯度更新时,对该压缩网络进行梯度更新,迭代到收敛为止,可完成训练过程,在非关键帧的编码过程中使用。其中,可设置一定的迭代次数,达到迭代次数则达到收敛。
例如,针对P帧的训练时,输入前后2帧图像,通过I帧的编码网络得到对应的第一特征信息y_hat和第二特征信息y-t-1_hat,再经过处理得到对应目标帧的压缩信息bpp_y,以及处理过程中的参数压缩信息bpp_z。
然后可确定训练过程的损失函数bpp=bpp_y+bpp_z。
其中:
Figure BDA0002695357120000191
Figure BDA0002695357120000192
Figure BDA0002695357120000193
μ_z,
Figure BDA0002695357120000194
都是随机初始化的可学习变量。
本申请的视频编解码方法可应用于各种视频处理的场景中,以视频传输为例:
参照图7,示出了本申请的一种视频传输方法实施例的步骤流程图。
步骤702,获取视频数据。
步骤704,对所述视频数据中的图像帧进行压缩处理,确定各图像帧的压缩信息。
步骤706,传输所述图像帧的压缩信息。从而可以传输压缩的视频码流。
其中,步骤704,针对图像数据中目标帧的压缩处理包括以下步骤:
步骤7042,将目标帧输入到编码网络中,获取所述目标帧的第一特征信息,其中,所述编码网络为关键帧的编码网络。
步骤7044,获取参考帧通过编码网络处理的第二特征信息,其中,所述参考帧为目标帧的相邻N帧。
步骤7046,依据所述第一特征信息和第二特征信息,确定待压缩的目标特征信息。
步骤7048,对所述目标特征信息进行熵编码,得到目标帧的压缩信息。
从而视频采集或在存储端中需要传输之前,可先对各视频帧进行编码,从而是视频压缩到较小的比特流,针对视频中非关键帧可通过上述各实施例的方式进行压缩,能够复用I帧的编码网络,简化编码的网络结构,提高编解码效率。
在上述实施例的基础上,处理端在接收到压缩的视频码流后,可以进行解码并执行后续的处理,以播放为例,在视频的直播、点播、在线播放等各种视频播放场景中可以应用。
参照图8,示出了本申请的一种视频播放方法实施例的步骤流程图。
步骤802,获取视频数据中各图像帧的压缩信息。
步骤804,对所述各图像帧的压缩信息进行解压处理,得到恢复的图像帧。
步骤806,按照时间戳将各图像帧组合为视频数据。
步骤808,播放所述视频数据。
其中,图像帧包括目标帧,对所述图像帧的压缩信息进行解压处理包括以下步骤:
步骤80402,获取目标帧的第一压缩信息;
步骤80404,对所述第一压缩信息进行熵解码,获取目标特征信息;
步骤80406,确定参考帧的第二特征信息,其中,所述参考帧为目标帧的相邻N帧,所述第一特征信息为参考帧的第二压缩信息通过熵解码获取的;
步骤80408,采用所述目标特征信息和第二特征信息,确定所述目标帧的第一特征信息;
步骤80410,将所述第一特征信息输入到解码网络中,得到对应的目标帧,所述解码网络为关键帧的解码网络。
在上述实施例的基础上,本申请各实施例的编、解码方法,还可集成为对应的编码器、解码器,并采用软件即服务(Software-as-a-Service,SaaS)方式提供基于所集成的编码器、解码器的编解码服务,SaaS可理解为通过网络提供软件服务。
服务提供方可在SaaS服务器(集群)上部署上述编码器、解码器,提供编、解码服务,服务使用方,如视频制作方、视频播放方、视频处理方等第三方用户可申请使用该编、解码服务。其中,在服务器上部署编码器、解码器后,可提供相应的调用接口,以便在使用编、解码服务的情况下,能够基于上述调用接口调用编码器、解码器,进行视频的编解码处理。
以编码服务为例:
参照图9,示出了本申请的一种基于视频编码的处理方法实施例的步骤流程图。
步骤902,部署视频的编码器,并提供所述编码器的第一调用接口。
步骤904,通过所述第一调用接口接收编码调用参数。
使用视频编解码服务的服务使用方可通过第一调用接口调用编码器进行视频压缩。其中,可通过第一调用接口发送编码调用参数,以便调用对应的编码器。其中,所述编码调用参数可包括用户参数、编码参数和视频参数。
用户参数为与用户到的各种参数,如用户标识等来确定用户,还可包括权限信息等以便验证用户是否具有使用该编码器的权限等。
所述编码参数为与编码相关的各种参数,例如所需编码器的标识信息,从而可确定所需的编码器,还可包括编码对应的其他参数,如压缩率等。基于压缩率的不同可调整编码器中编码网络的参数,以及卷积参数等。
所述视频参数为视频所对应的参数,如视频数据的名称、标识等,又如视频数据的存储地址等视频地址,以便基于该视频地址来获取视频数据,还可包括视频数据的格式信息等其他参数,具体可依据需求设置。
步骤906,依据所述视频参数获取视频数据,并依据所述编码参数确定编码器。
步骤908,采用所述编码器对所述视频数据进行编码,得到视频数据的压缩信息。
其中,针对所述视频数据中的目标帧,采用编码器执行以下编码处理步骤:步骤90802,通过编码器的编码网络中,获取所述目标帧的第一特征信息,其中,所述编码网络为关键帧的编码网络;步骤90804,获取参考帧通过编码网络处理的第二特征信息,其中,所述参考帧为目标帧的相邻N帧;步骤90806,依据所述第一特征信息和第二特征信息,确定待压缩的目标特征信息;步骤90808,对所述目标特征信息进行熵编码,得到目标帧的压缩信息。
步骤910,通过第二调用接口反馈编码结果,以依据所述编码结果获取所述视频数据的压缩信息。
基于视频数据中各图像帧的关系,视频数据的压缩信息也可构成压缩码流,以便传输。
基于上述编码方法可集成编码器,因此对于编码器的编码方法可参照上述实施例的描述。基于SaaS技术在服务器上部署编码器,从而通过网络给服务使用方提供编码服务,从而便捷的使用软件服务资源。
以解码服务为例,与上述编码服务对应:
参照图10,示出了本申请的一种基于视频解码的处理方法实施例的步骤流程图。
步骤1002,部署视频的解码器,并提供所述解码器的第三调用接口。
步骤1004,通过所述第三调用接口接收解码调用参数,所述解码调用参数包括视频参数和解码参数。
使用视频编解码服务的服务使用方可通过第三调用接口调用解码器进行视频压缩信息的解码来得到视频数据。其中,可通过第三调用接口发送调用参数,以便调用对应的编码器。其中,所述解码调用参数可包括用户参数、解码参数和视频压缩参数。
用户参数为与用户到的各种参数,如用户标识等来确定用户,还可包括权限信息等以便验证用户是否具有使用该解码器的权限等。
所述解码参数为与解码相关的各种参数,例如所需解码器的标识信息,从而可确定所需的解码器,该解码器与所使用的编码器相对应,还可包括解码对应的其他参数,如编码使得压缩率等。基于压缩率的不同可调整解码器中解码网络的参数,以及卷积参数等。解码过程与编码过程相对应。
所述视频压缩参数为压缩视频所对应的参数,如视频数据的名称、标识等,又如视频的压缩信息的存储地址,以便基于该存储地址来获取视频数据,还可包括视频数据的格式信息、帧率等其他参数,具体可依据需求设置。
步骤1006,通过所述视频参数获取视频的压缩信息,并依据所述解码参数确定解码器。
步骤1008,采用所述解码器对所述压缩信息进行解码,得到对应的视频数据。
其中,针对所述视频数据中的目标帧,采用解码器执行以下解码步骤:步骤100802,对目标帧的第一压缩信息进行熵解码,获取目标特征信息;步骤100804,确定参考帧的第二特征信息,其中,所述参考帧为目标帧的相邻N帧,所述第一特征信息为参考帧的第二压缩信息通过熵解码获取的;步骤100806,采用所述目标特征信息和第二特征信息,确定所述目标帧的第一特征信息;步骤100808,将所述第一特征信息输入到解码网络中,得到对应的目标帧,所述解码网络为关键帧的解码网络。
通过解码得到各图像帧(包括关键帧和非关键帧)之后,可合成为对应的视频数据。
步骤1010,通过第四调用接口反馈解码结果,以依据所述解码结果获取所述视频数据。
基于上述解码方法可集成解码器,因此对于解码器的解码方法可参照上述实施例的描述。基于SaaS技术在服务器上部署编码器对应的解码器,从而通过网络给服务使用方提供解码服务,从而便捷的使用软件服务资源。
本申请实施例不在图像的像素层面做运动预测编码,而是将关键帧和非关键帧都经过关键帧的编、解码网络产生特征分布,在特征分布层面进行运动预测减小非关键帧的熵。通过特征分布层面进行非关键帧编码至少具有以下优势:(1)关键帧、非关键帧共用编、解码网络,极大简化网络结构,通过1套编、解码网络,将运动信息的挖掘放在特征层面,可以有更多熵优化的空间;(2)由于不需要参考恢复图,将编、解码分离开,无需在编码过程中进行复杂的解码操作,提高编解码效率;(3)关键帧、非关键帧如果处于相同的场景中,恢复图质量保持恒定,不存在衰减,在不考虑传输过程帧的丢失的情况下,GOP长度理论上可以设计无限长;(4)结合插值多码率的关键帧模型,一个模型可以解决关键帧、非关键帧以及不同精细码率控制的压缩,压缩质量可控。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
在上述实施例的基础上,本实施例还提供了一种视频的编码装置,应用于终端设备、服务器等电子设备中。
参照图11,示出了本申请的一种视频的编码装置实施例的结构框图,具体可以包括如下模块:
编码模块1102,用于将目标帧输入到编码网络中,获取所述目标帧的第一特征信息,其中,所述编码网络为关键帧的编码网络;获取参考帧通过编码网络处理的第二特征信息,其中,所述参考帧为目标帧的相邻N帧。
运动估计模块1104,用于依据所述第一特征信息和第二特征信息,确定待压缩的目标特征信息。
压缩模块1106,用于对所述目标特征信息进行熵编码,得到目标帧的压缩信息。
其中,运动估计模块1104,用于对所述第一特征信息和第二特征信息进行运动分析,确定待压缩的目标特征信息。
运动估计模块1104,用于将所述第一特征信息和第二特征信息相减,确定待压缩的目标特征信息;和/或,计算第一特征信息和第二特征信息的光流运动信息,作为待压缩的目标特征信息;和/或,对所述第一特征信息和第二特征信息进行特征对齐,确定待压缩的目标特征信息。
压缩模块1106,还用于依据所述第一特征信息、第二特征信息和目标特征信息,计算估计参数。
所述压缩模块1106,用于依据所述估计参数对所述目标特征信息进行熵编码,得到目标帧的压缩信息。
压缩模块1106,用于依据所述第一特征信息和第二特征信息,确定对应的第三特征信息;依据所述目标特征信息和第三特征信息,计算估计参数。
压缩模块1106,用于将所述第一特征信息和第二特征信息进行叠加,确定对应的第四特征信息;将所述第四特征信息通过参数编码网络,确定对应的第五特征信息;将所述第五特征信息进行熵编码,确定对应的参数压缩信息;对所述参数压缩信息进行熵解码,确定对应的第六特征信息;将所述第六特征信息通过参数解码网络,确定对应的第三特征信息。
压缩模块1106,用于对所述第二特征信息进行卷积处理,得到第一卷积结果;对所述目标特征信息进行卷积处理,得到第二卷积结果;将所述第一卷积结果、第二卷积结果和第三特征信息进行叠加,得到第七特征信息;对所述第七特征信息进行卷积处理,得到对应的估计参数。
综上,能够复用关键帧的编码网络对非关键帧进行编码,确定第一特征信息,再结合非关键帧的参考帧的第二特征信息,可以确定出待压缩的目标特征信息,然后对目标特征信息进行熵编码,得到压缩信息,提高编码效率。
在上述实施例的基础上,本实施例还提供了一种视频的解码装置,应用于终端设备、服务器等电子设备中。
参照图12,示出了本申请的一种视频的解码装置实施例的结构框图,具体可以包括如下模块:
解压模块1202,用于获取目标帧的第一压缩信息;对所述第一压缩信息进行熵解码,获取目标特征信息;确定参考帧的第二特征信息,其中,所述参考帧为目标帧的相邻N帧,所述第一特征信息为参考帧的第二压缩信息通过熵解码获取的;
运动恢复模块1204,用于采用所述目标特征信息和第二特征信息,确定所述目标帧的第一特征信息;
解码模块1206,用于将所述第一特征信息输入到解码网络中,得到对应的目标帧,所述解码网络为关键帧的解码网络。
其中,所述运动恢复模块1204,用于依据所述目标特征信息和第二特征信息对目标帧进行运动分析,确定所述目标帧的第一特征信息。
所述运动恢复模块1204,用于将所述目标特征信息和第二特征信息相加,确定目标帧的第一特征信息;和/或,依据所述第二特征信息和目标特征信息分析目标帧的光流特征,确定目标帧的第一特征信息;和/或,依据所述目标特征信息对第二特征信息进行特征偏移,确定目标帧的第一特征信息。
所述解压模块1202,用于获取目标帧的估计参数;依据所述估计参数对所述第一压缩信息进行熵解码,获取目标特征信息。
综上,对于非关键帧的压缩信息,可以基于熵解码无损恢复对应的目标特征信息,非关键帧的解码要参考参考帧,因此可获取参考帧的第二特征信息,然后基于目标特征信息和第二特征信息,得到对应的第一特征信息,再复用关键帧的解码网络对非关键帧进行解码,得到该非关键帧,能够快速的恢复图像,提高解码效率。
由于P帧复用I帧相同的编码(encoder)网络和解码(decoder)网络,目标帧和参照帧的图像相似度高,恢复图质量相似,不会出现现有的视频压缩方式中,参考参考帧恢复图进行解码的方案存在帧间质量衰减现象。本申请通过熵解码、熵编码能够进行无损恢复,并且能够挖掘相互帧特征层面的关系,是的P帧压缩的像素深度值比I帧的像素深度值低,实现了P帧的压缩。
在上述实施例的基础上,本实施例还提供了一种视频传输装置,应用于终端设备、服务器等电子设备中。
参照图13,示出了本申请的一种视频传输装置实施例的结构框图,具体可以包括如下模块:
视频获取模块1302,用于获取视频数据。
视频压缩模块1304,用于对所述视频数据中的图像帧进行压缩处理,确定各图像帧的压缩信息。
视频传输模块1306,用于传输所述图像帧的压缩信息。
其中,视频压缩模块1304,用于将目标帧输入到编码网络中,获取所述目标帧的第一特征信息,其中,所述编码网络为关键帧的编码网络;获取参考帧通过编码网络处理的第二特征信息,其中,所述参考帧为目标帧的相邻N帧;依据所述第一特征信息和第二特征信息,确定待压缩的目标特征信息;对所述目标特征信息进行熵编码,得到目标帧的压缩信息。
在上述实施例的基础上,本实施例还提供了一种视频播放装置,应用于终端设备、服务器等电子设备中。
参照图14,示出了本申请的一种视频播放装置实施例的结构框图,具体可以包括如下模块:
视频接收模块1402,用于获取视频数据中各图像帧的压缩信息。
视频解压模块1404,用于对所述各图像帧的压缩信息进行解压处理,得到恢复的图像帧;按照时间戳将各图像帧组合为视频数据。
视频播放模块1406,用于播放所述视频数据。
其中,图像帧包括目标帧,视频解压模块,用于获取目标帧的第一压缩信息;对所述第一压缩信息进行熵解码,获取目标特征信息;确定参考帧的第二特征信息,其中,所述参考帧为目标帧的相邻N帧,所述第一特征信息为参考帧的第二压缩信息通过熵解码获取的;采用所述目标特征信息和第二特征信息,确定所述目标帧的第一特征信息;将所述第一特征信息输入到解码网络中,得到对应的目标帧,所述解码网络为关键帧的解码网络。
在上述实施例的基础上,本实施例还提供了一种视频编码的训练装置,应用于终端设备、服务器等电子设备中。
参照图15,示出了本申请的一种视频编码的训练装置实施例的结构框图,具体可以包括如下模块:
前置编码模块1502,用于将参考帧和目标帧分别输入到编码网络中,获取所述参考帧的第二特征信息和所述目标帧的第一特征信息,其中,所述编码网络为关键帧的编码网络其中,所述参考帧为目标帧的相邻N帧。
压缩处理模块1504,用于将所述第一特征信息和第二特征信息输入到压缩网络中进行处理,得到目标帧的压缩信息,其中,所述压缩网络基于第一特征信息和第二特征信息,确定待压缩的目标特征信息,并对所述目标特征信息进行熵编码,得到目标帧的压缩信息。
训练模块1506,用于依据所述目标帧的压缩信息确定损失函数,依据损失函数对所述压缩网络进行调整。
在上述实施例的基础上,本实施例还提供了一种基于视频编码的处理装置,应用于服务器(集群)等电子设备中。
编码器部署模块,用于部署视频的编码器,并提供所述编码器的第一调用接口。
编码器调用模块,用于通过所述第一调用接口接收编码调用参数,所述编码调用参数包括编码参数和视频参数。
编码器压缩模块,用于依据所述视频参数获取视频数据,并依据所述编码参数确定编码器;采用所述编码器对所述视频数据进行编码,得到视频数据的压缩信息。
反馈模块,用于通过第二调用接口反馈编码结果,以依据所述编码结果获取所述视频数据的压缩信息。
其中,所述编码压缩模块,用于针对所述视频数据中的目标帧,采用编码器执行以下编码处理:通过编码器的编码网络中,获取所述目标帧的第一特征信息,其中,所述编码网络为关键帧的编码网络;获取参考帧通过编码网络处理的第二特征信息,其中,所述参考帧为目标帧的相邻N帧;依据所述第一特征信息和第二特征信息,确定待压缩的目标特征信息;对所述目标特征信息进行熵编码,得到目标帧的压缩信息。
在上述实施例的基础上,本实施例还提供了一种基于解码编码的处理装置,应用于服务器(集群)等电子设备中。
解码器部署模块,用于部署视频的解码器,并提供所述解码器的第三调用接口;
解码器调用模块,用于通过所述第三调用接口接收解码调用参数,所述解码调用参数包括视频压缩参数和解码参数;
解码器处理模块,用于通过所述视频压缩参数获取视频的压缩信息,并依据所述解码参数确定解码器;采用所述解码器对所述压缩信息进行解码,得到对应的视频数据;
解码反馈模块,用于通过第四调用接口反馈解码结果,依据所述解码结果获取所述视频数据;
其中,解码器处理模块,用于针对所述视频数据中的目标帧,采用解码器执行以下解码步骤:对目标帧的第一压缩信息进行熵解码,获取目标特征信息;确定参考帧的第二特征信息,其中,所述参考帧为目标帧的相邻N帧,所述第一特征信息为参考帧的第二压缩信息通过熵解码获取的;采用所述目标特征信息和第二特征信息,确定所述目标帧的第一特征信息;将所述第一特征信息输入到解码网络中,得到对应的目标帧,所述解码网络为关键帧的解码网络。
本申请实施例不在图像的像素层面做运动预测编码,而是将I帧和P帧都经过I帧的编、解码网络产生特征分布,在特征分布层面进行运动预测减小P帧的熵。通过特征分布层面进行P帧编码至少具有以下优势:(1)I帧、P帧共用编、解码网络,极大简化网络结构,通过1套编、解码网络,将运动信息的挖掘放在特征层面,可以有更多熵优化的空间;(2)由于不需要参考恢复图,将编、解码分离开,无需在编码过程中进行复杂的解码操作,提高编解码效率;(3)I帧、P帧如果处于相同的场景中,恢复图质量保持恒定,不存在衰减,在不考虑传输过程帧的丢失的情况下,GOP长度理论上可以设计无限长;(4)结合插值多码率的I帧模型,一个模型可以解决I帧、P帧以及不同精细码率控制的压缩,压缩质量可控。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。
本申请实施例提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中,所述电子设备包括终端设备、服务器(集群)等各类型的设备。
本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的装置,该装置可包括终端设备、服务器(集群)等电子设备。图16示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置1600。
对于一个实施例,图16示出了示例性装置1600,该装置具有一个或多个处理器1602、被耦合到(一个或多个)处理器1602中的至少一个的控制模块(芯片组)1604、被耦合到控制模块1604的存储器1606、被耦合到控制模块1604的非易失性存储器(NVM)/存储设备1608、被耦合到控制模块1604的一个或多个输入/输出设备1610,以及被耦合到控制模块1604的网络接口1612。
处理器1602可包括一个或多个单核或多核处理器,处理器1602可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,装置1600能够作为本申请实施例中所述终端设备、服务器(集群)等设备。
在一些实施例中,装置1600可包括具有指令1614的一个或多个计算机可读介质(例如,存储器1606或NVM/存储设备1608)以及与该一个或多个计算机可读介质相合并被配置为执行指令1614以实现模块从而执行本公开中所述的动作的一个或多个处理器1602。
对于一个实施例,控制模块1604可包括任意适当的接口控制器,以向(一个或多个)处理器1602中的至少一个和/或与控制模块1604通信的任意适当的设备或组件提供任意适当的接口。
控制模块1604可包括存储器控制器模块,以向存储器1606提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
存储器1606可被用于例如为装置1600加载和存储数据和/或指令1614。对于一个实施例,存储器1606可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,存储器1606可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,控制模块1604可包括一个或多个输入/输出控制器,以向NVM/存储设备1608及(一个或多个)输入/输出设备1610提供接口。
例如,NVM/存储设备1608可被用于存储数据和/或指令1614。NVM/存储设备1608可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备1608可包括在物理上作为装置1600被安装在其上的设备的一部分的存储资源,或者其可被该设备访问可不必作为该设备的一部分。例如,NVM/存储设备1608可通过网络经由(一个或多个)输入/输出设备1610进行访问。
(一个或多个)输入/输出设备1610可为装置1600提供接口以与任意其他适当的设备通信,输入/输出设备1610可以包括通信组件、音频组件、传感器组件等。网络接口1612可为装置1600提供接口以通过一个或多个网络通信,装置1600可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi、2G、3G、4G、5G等,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器1602中的至少一个可与控制模块1604的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1602中的至少一个可与控制模块1604的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器1602中的至少一个可与控制模块1604的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器1602中的至少一个可与控制模块1604的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,装置1600可以但不限于是:服务器、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中,装置1600可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,装置1600包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
其中,检测装置中可采用主控芯片作为处理器或控制模块,传感器数据、位置信息等存储到存储器或NVM/存储设备中,传感器组可作为输入/输出设备,通信接口可包括网络接口。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种视频的编码方法和装置、一种视频的解码方法和装置、一种视频传输方法和装置、一种视频播放方法和装置、一种视频的编码训练方法和装置、一种基于视频编、解码的处理方法和装置、一种电子设备和一种存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (28)

1.一种视频的编码方法,其特征在于,所述方法包括:
将目标帧输入到编码网络中,获取所述目标帧的第一特征信息,其中,所述编码网络为关键帧的编码网络;
获取参考帧通过编码网络处理的第二特征信息,其中,所述参考帧为目标帧的相邻N帧;
依据所述第一特征信息和第二特征信息,确定待压缩的目标特征信息;
对所述目标特征信息进行熵编码,得到目标帧的压缩信息。
2.根据权利要求1所述的方法,其特征在于,所述依据所述第一特征信息和第二特征信息,确定待压缩的目标特征信息,包括:
对所述第一特征信息和第二特征信息进行运动分析,确定待压缩的目标特征信息。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一特征信息和第二特征信息进行运动分析,确定待压缩的目标特征信息,包括以下至少一种步骤:
将所述第一特征信息和第二特征信息相减,确定待压缩的目标特征信息;
计算第一特征信息和第二特征信息的光流运动信息,作为待压缩的目标特征信息;
对所述第一特征信息和第二特征信息进行特征对齐,确定待压缩的目标特征信息。
4.根据权利要求1所述的方法,其特征在于,还包括:
依据所述第一特征信息、第二特征信息和目标特征信息,计算估计参数。
5.根据权利要求4所述的方法,其特征在于,所述对所述目标特征信息进行熵编码,得到目标帧的压缩信息,包括:
依据所述估计参数对所述目标特征信息进行熵编码,得到目标帧的压缩信息。
6.根据权利要求4所述的方法,其特征在于,依据所述第一特征信息、第二特征信息和目标特征信息,计算估计参数,包括:
依据所述第一特征信息和第二特征信息,确定对应的第三特征信息;
依据所述目标特征信息和第三特征信息,计算估计参数。
7.根据权利要求6所述的方法,其特征在于,所述依据所述第一特征信息和第二特征信息,确定对应的第三特征信息,包括:
将所述第一特征信息和第二特征信息进行叠加,确定对应的第四特征信息;
将所述第四特征信息通过参数编码网络,确定对应的第五特征信息;
将所述第五特征信息进行熵编码,确定对应的参数压缩信息;
对所述参数压缩信息进行熵解码,确定对应的第六特征信息;
将所述第六特征信息通过参数解码网络,确定对应的第三特征信息。
8.根据权利要求6所述的方法,其特征在于,所述依据所述目标特征信息和第三特征信息,计算估计参数,包括:
对所述第二特征信息进行卷积处理,得到第一卷积结果;
对所述目标特征信息进行卷积处理,得到第二卷积结果;
将所述第一卷积结果、第二卷积结果和第三特征信息进行叠加,得到第七特征信息;
对所述第七特征信息进行卷积处理,得到对应的估计参数。
9.一种视频的解码方法,其特征在于,包括:
获取目标帧的第一压缩信息;
对所述第一压缩信息进行熵解码,获取目标特征信息;
确定参考帧的第二特征信息,其中,所述参考帧为目标帧的相邻N帧,所述第一特征信息为参考帧的第二压缩信息通过熵解码获取的;
采用所述目标特征信息和第二特征信息,确定所述目标帧的第一特征信息;
将所述第一特征信息输入到解码网络中,得到对应的目标帧,所述解码网络为关键帧的解码网络。
10.根据权利要求9所述的方法,其特征在于,所述采用所述目标特征信息和第二特征信息,确定所述目标帧的第一特征信息,包括:
依据所述目标特征信息和第二特征信息对目标帧进行运动分析,确定所述目标帧的第一特征信息。
11.根据权利要求10所述的方法,其特征在于,所述依据所述目标特征信息和第二特征信息对目标帧进行运动分析,确定所述目标帧的第一特征信息,包括以下至少一种步骤:
将所述目标特征信息和第二特征信息相加,确定目标帧的第一特征信息;
依据所述第二特征信息和目标特征信息分析目标帧的光流特征,确定目标帧的第一特征信息;
依据所述目标特征信息对第二特征信息进行特征偏移,确定目标帧的第一特征信息。
12.根据权利要求9所述的方法,其特征在于,所述对所述第一压缩信息进行熵解码,获取目标特征信息,包括:
获取目标帧的估计参数;
依据所述估计参数对所述第一压缩信息进行熵解码,获取目标特征信息。
13.一种视频传输方法,其特征在于,所述方法包括:
获取视频数据;
对所述视频数据中的图像帧进行压缩处理,确定各图像帧的压缩信息;
传输所述图像帧的压缩信息;
其中,针对图像数据中目标帧的压缩处理包括以下步骤:
将目标帧输入到编码网络中,获取所述目标帧的第一特征信息,其中,所述编码网络为关键帧的编码网络;
获取参考帧通过编码网络处理的第二特征信息,其中,所述参考帧为目标帧的相邻N帧;
依据所述第一特征信息和第二特征信息,确定待压缩的目标特征信息;
对所述目标特征信息进行熵编码,得到目标帧的压缩信息。
14.一种视频播放方法,其特征在于,所述方法包括:
获取视频数据中各图像帧的压缩信息;
对所述各图像帧的压缩信息进行解压处理,得到恢复的图像帧;
按照时间戳将各图像帧组合为视频数据;
播放所述视频数据;
其中,图像帧包括目标帧,对所述图像帧的压缩信息进行解压处理包括以下步骤:
获取目标帧的第一压缩信息;
对所述第一压缩信息进行熵解码,获取目标特征信息;
确定参考帧的第二特征信息,其中,所述参考帧为目标帧的相邻N帧,所述第一特征信息为参考帧的第二压缩信息通过熵解码获取的;
采用所述目标特征信息和第二特征信息,确定所述目标帧的第一特征信息;
将所述第一特征信息输入到解码网络中,得到对应的目标帧,所述解码网络为关键帧的解码网络。
15.一种视频编码的训练方法,其特征在于,所述方法包括:
将参考帧和目标帧分别输入到编码网络中,获取所述参考帧的第二特征信息和所述目标帧的第一特征信息,其中,所述编码网络为关键帧的编码网络其中,所述参考帧为目标帧的相邻N帧;
将所述第一特征信息和第二特征信息输入到压缩网络中进行处理,得到目标帧的压缩信息,其中,所述压缩网络基于第一特征信息和第二特征信息,确定待压缩的目标特征信息,并对所述目标特征信息进行熵编码,得到目标帧的压缩信息;
依据所述目标帧的压缩信息确定损失函数,依据损失函数对所述压缩网络进行调整。
16.一种基于视频编码的处理方法,其特征在于,所述方法包括:
部署视频的编码器,并提供所述编码器的第一调用接口;
通过所述第一调用接口接收编码调用参数,所述编码调用参数包括编码参数和视频参数;
依据所述视频参数获取视频数据,并依据所述编码参数确定编码器;
采用所述编码器对所述视频数据进行编码,得到视频数据的压缩信息;
通过第二调用接口反馈编码结果,以依据所述编码结果获取所述视频数据的压缩信息;
其中,针对所述视频数据中的目标帧,采用编码器执行以下编码处理步骤:
通过编码器的编码网络中,获取所述目标帧的第一特征信息,其中,所述编码网络为关键帧的编码网络;
获取参考帧通过编码网络处理的第二特征信息,其中,所述参考帧为目标帧的相邻N帧;
依据所述第一特征信息和第二特征信息,确定待压缩的目标特征信息;
对所述目标特征信息进行熵编码,得到目标帧的压缩信息。
17.一种基于视频解码的处理方法,其特征在于,所述方法包括:
部署视频的解码器,并提供所述解码器的第三调用接口;
通过所述第三调用接口接收解码调用参数,所述解码调用参数包括视频压缩参数和解码参数;
通过所述视频压缩参数获取视频的压缩信息,并依据所述解码参数确定解码器;
采用所述解码器对所述压缩信息进行解码,得到对应的视频数据;
通过第四调用接口反馈解码结果,以依据所述解码结果获取所述视频数据;
其中,针对所述视频数据中的目标帧,采用解码器执行以下解码步骤:
对目标帧的第一压缩信息进行熵解码,获取目标特征信息;
确定参考帧的第二特征信息,其中,所述参考帧为目标帧的相邻N帧,所述第一特征信息为参考帧的第二压缩信息通过熵解码获取的;
采用所述目标特征信息和第二特征信息,确定所述目标帧的第一特征信息;
将所述第一特征信息输入到解码网络中,得到对应的目标帧,所述解码网络为关键帧的解码网络。
18.一种视频的编码装置,其特征在于,所述装置包括:
编码模块,用于将目标帧输入到编码网络中,获取所述目标帧的第一特征信息,其中,所述编码网络为关键帧的编码网络;获取参考帧通过编码网络处理的第二特征信息,其中,所述参考帧为目标帧的相邻N帧;
运动估计模块,用于依据所述第一特征信息和第二特征信息,确定待压缩的目标特征信息;
压缩模块,用于对所述目标特征信息进行熵编码,得到目标帧的压缩信息。
19.一种视频的编码装置,其特征在于,所述装置包括:
解压模块,用于获取目标帧的第一压缩信息;对所述第一压缩信息进行熵解码,获取目标特征信息;确定参考帧的第二特征信息,其中,所述参考帧为目标帧的相邻N帧,所述第一特征信息为参考帧的第二压缩信息通过熵解码获取的;
运动恢复模块,用于采用所述目标特征信息和第二特征信息,确定所述目标帧的第一特征信息;
解码模块,用于将所述第一特征信息输入到解码网络中,得到对应的目标帧,所述解码网络为关键帧的解码网络。
20.一种视频传输装置,其特征在于,所述装置包括:
视频获取模块,用于获取视频数据;
视频压缩模块,用于对所述视频数据中的图像帧进行压缩处理,确定各图像帧的压缩信息;
视频传输模块,用于传输所述图像帧的压缩信息;
其中,视频压缩模块,用于将目标帧输入到编码网络中,获取所述目标帧的第一特征信息,其中,所述编码网络为关键帧的编码网络;获取参考帧通过编码网络处理的第二特征信息,其中,所述参考帧为目标帧的相邻N帧;依据所述第一特征信息和第二特征信息,确定待压缩的目标特征信息;对所述目标特征信息进行熵编码,得到目标帧的压缩信息。
21.一种视频播放装置,其特征在于,所述装置包括:
视频接收模块,用于获取视频数据中各图像帧的压缩信息;
视频解压模块,用于对所述各图像帧的压缩信息进行解压处理,得到恢复的图像帧;按照时间戳将各图像帧组合为视频数据;
视频播放模块,用于播放所述视频数据;
其中,图像帧包括目标帧,视频解压模块,用于获取目标帧的第一压缩信息;对所述第一压缩信息进行熵解码,获取目标特征信息;确定参考帧的第二特征信息,其中,所述参考帧为目标帧的相邻N帧,所述第一特征信息为参考帧的第二压缩信息通过熵解码获取的;采用所述目标特征信息和第二特征信息,确定所述目标帧的第一特征信息;将所述第一特征信息输入到解码网络中,得到对应的目标帧,所述解码网络为关键帧的解码网络。
22.一种视频编码的训练装置,其特征在于,所述装置包括:
前置编码模块,用于将参考帧和目标帧分别输入到编码网络中,获取所述参考帧的第二特征信息和所述目标帧的第一特征信息,其中,所述编码网络为关键帧的编码网络其中,所述参考帧为目标帧的相邻N帧;
压缩处理模块,用于将所述第一特征信息和第二特征信息输入到压缩网络中进行处理,得到目标帧的压缩信息,其中,所述压缩网络基于第一特征信息和第二特征信息,确定待压缩的目标特征信息,并对所述目标特征信息进行熵编码,得到目标帧的压缩信息;
训练模块,用于依据所述目标帧的压缩信息确定损失函数,依据损失函数对所述压缩网络进行调整。
23.一种基于视频编码的处理装置,其特征在于,所述装置包括:
编码器部署模块,用于部署视频的编码器,并提供所述编码器的第一调用接口;
编码器调用模块,用于通过所述第一调用接口接收编码调用参数,所述编码调用参数包括编码参数和视频参数;
编码器压缩模块,用于依据所述视频参数获取视频数据,并依据所述编码参数确定编码器;采用所述编码器对所述视频数据进行编码,得到视频数据的压缩信息;
反馈模块,用于通过第二调用接口反馈编码结果,以依据所述编码结果获取所述视频数据的压缩信息;
其中,所述编码压缩模块,用于针对所述视频数据中的目标帧,采用编码器执行以下编码处理:通过编码器的编码网络中,获取所述目标帧的第一特征信息,其中,所述编码网络为关键帧的编码网络;获取参考帧通过编码网络处理的第二特征信息,其中,所述参考帧为目标帧的相邻N帧;依据所述第一特征信息和第二特征信息,确定待压缩的目标特征信息;对所述目标特征信息进行熵编码,得到目标帧的压缩信息。
24.一种基于视频解码的处理装置,其特征在于,所述装置包括:
解码器部署模块,用于部署视频的解码器,并提供所述解码器的第三调用接口;
解码器调用模块,用于通过所述第三调用接口接收解码调用参数,所述解码调用参数包括视频压缩参数和解码参数;
解码器处理模块,用于通过所述视频压缩参数获取视频的压缩信息,并依据所述解码参数确定解码器;采用所述解码器对所述压缩信息进行解码,得到对应的视频数据;
解码反馈模块,用于通过第四调用接口反馈解码结果,依据所述解码结果获取所述视频数据;
其中,解码器处理模块,用于针对所述视频数据中的目标帧,采用解码器执行以下解码步骤:对目标帧的第一压缩信息进行熵解码,获取目标特征信息;确定参考帧的第二特征信息,其中,所述参考帧为目标帧的相邻N帧,所述第一特征信息为参考帧的第二压缩信息通过熵解码获取的;采用所述目标特征信息和第二特征信息,确定所述目标帧的第一特征信息;将所述第一特征信息输入到解码网络中,得到对应的目标帧,所述解码网络为关键帧的解码网络。
25.一种电子设备,其特征在于,包括:处理器;和
存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如权利要求1-8、13、15、16中一个或多个所述的方法。
26.一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如权利要求1-8、13、15、16中一个或多个所述的方法。
27.一种电子设备,其特征在于,包括:处理器;和
存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如权利要求9-12、14、17中一个或多个所述的方法。
28.一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如权利要求9-12、14、17中一个或多个所述的方法。
CN202011004238.3A 2020-09-22 2020-09-22 视频的编、解码方法、装置、设备和存储介质 Pending CN114257818A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011004238.3A CN114257818A (zh) 2020-09-22 2020-09-22 视频的编、解码方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011004238.3A CN114257818A (zh) 2020-09-22 2020-09-22 视频的编、解码方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN114257818A true CN114257818A (zh) 2022-03-29

Family

ID=80789696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011004238.3A Pending CN114257818A (zh) 2020-09-22 2020-09-22 视频的编、解码方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN114257818A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116916033A (zh) * 2022-06-24 2023-10-20 澳门大学 一种基于随机自适应傅里叶分解的联合时空视频压缩方法
WO2024061316A1 (zh) * 2022-09-22 2024-03-28 中国电信股份有限公司 数据压缩的方法、数据解压缩的方法和相关设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116916033A (zh) * 2022-06-24 2023-10-20 澳门大学 一种基于随机自适应傅里叶分解的联合时空视频压缩方法
CN116916033B (zh) * 2022-06-24 2024-05-10 澳门大学 一种基于随机自适应傅里叶分解的联合时空视频压缩方法
WO2024061316A1 (zh) * 2022-09-22 2024-03-28 中国电信股份有限公司 数据压缩的方法、数据解压缩的方法和相关设备

Similar Documents

Publication Publication Date Title
RU2676408C1 (ru) Устройство кодирования движущегося изображения с предсказанием, способ кодирования движущегося изображения с предсказанием, программа кодирования движущегося изображения с предсказанием, устройство декодирования движущегося изображения с предсказанием, способ декодирования движущегося изображения с предсказанием и программа декодирования движущегося изображения с предсказанием
TWI692245B (zh) 視訊解碼裝置、視訊編碼方法及裝置與電腦可讀儲存媒體
CN111010495B (zh) 一种视频降噪处理方法及装置
US9414086B2 (en) Partial frame utilization in video codecs
KR100952892B1 (ko) 비디오 데이타의 인트라코딩 방법 및 장치
CN109922336B (zh) 视频数据的帧间预测方法和装置
CN113923455A (zh) 一种双向帧间预测方法及装置
CN111800653B (zh) 视频解码方法、系统、设备及计算机可读存储介质
CN114257818A (zh) 视频的编、解码方法、装置、设备和存储介质
US9565404B2 (en) Encoding techniques for banding reduction
US20190268619A1 (en) Motion vector selection and prediction in video coding systems and methods
JP2023542029A (ja) 低ビット精度のニューラルネットワーク(nn)に基づくクロスコンポーネント予測のための方法、機器、及びコンピュータプログラム
CN115118976A (zh) 一种图像编码方法、可读介质及其电子设备
US20140328383A1 (en) Encoding apparatus and method
WO2023225808A1 (en) Learned image compress ion and decompression using long and short attention module
JP2023542332A (ja) 倍率を有するdnnに基づくクロスコンポーネント予測のためのコンテンツ適応型オンライントレーニング
JP2010010917A (ja) 動画像符号化装置、動画像復号装置、動画像符号化方法、及び動画像復号方法
KR20060043050A (ko) 영상 신호의 인코딩 및 디코딩 방법
CN102907099A (zh) 适用利用选择性运动检索区域的运动补偿方法的视频压缩编码装置及解码装置和用于运动补偿的选择性运动检索区域的决定方法
CN112738509B (zh) 视频编码方法、视频解码方法、存储介质以及电子设备
JP4209783B2 (ja) 画像圧縮装置、画像再生装置、画像圧縮方法、画像再生方法、画像圧縮プログラム、及び画像再生プログラム
CN102204253B (zh) 基于运动估计的视频编码/解码装置和方法
JP2024510433A (ja) ビデオ圧縮のための時間的構造ベースの条件付き畳み込みニューラルネットワーク
CN117596392A (zh) 编码块的编码信息确定方法及相关产品
CN102892000B (zh) 一种视频文件压缩及播放的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230830

Address after: Room 516, floor 5, building 3, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba Dharma Institute (Hangzhou) Technology Co.,Ltd.

Address before: Box 847, four, Grand Cayman capital, Cayman Islands, UK

Applicant before: ALIBABA GROUP HOLDING Ltd.

TA01 Transfer of patent application right