CN114449285A - 视频编解码方法及相关设备 - Google Patents
视频编解码方法及相关设备 Download PDFInfo
- Publication number
- CN114449285A CN114449285A CN202011226975.8A CN202011226975A CN114449285A CN 114449285 A CN114449285 A CN 114449285A CN 202011226975 A CN202011226975 A CN 202011226975A CN 114449285 A CN114449285 A CN 114449285A
- Authority
- CN
- China
- Prior art keywords
- image
- frame
- code stream
- sub
- decoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 238000013139 quantization Methods 0.000 claims abstract description 60
- 239000013598 vector Substances 0.000 claims description 131
- 230000005236 sound signal Effects 0.000 claims description 87
- 230000015654 memory Effects 0.000 claims description 51
- 238000012545 processing Methods 0.000 claims description 32
- 238000003709 image segmentation Methods 0.000 claims description 29
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 238000001914 filtration Methods 0.000 claims description 17
- 230000009466 transformation Effects 0.000 claims description 16
- 230000003190 augmentative effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 6
- 230000002401 inhibitory effect Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 17
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 230000003287 optical effect Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 230000003068 static effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 239000004984 smart glass Substances 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/154—Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/625—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using discrete cosine transform [DCT]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/91—Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/96—Tree coding, e.g. quad-tree coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Discrete Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请涉及视频编解码领域,具体公开了一种视频编解码方法及相关设备。该视频编码方法包括:获取待编码图像的第一栅格图像,第一栅格图像是根据待编码图像的α图像得到的,待编码图像为待传输视频中的任一帧;对第一栅格图像进行四叉树栅格编码操作,以得到第一码流;对第二栅格图像进行类链式编码操作,以得到第二码流,第二栅格图像为第一栅格图像的掩膜图像;将第一码流和第二码流编入第三码流,第三码流是根据待编码图像的YUV图像进行熵编码得到的。通过对待编码图像的α图像的mask图像进行类链式编码,可有效防止mask图像的量化失真,从而达到抑制毛刺的作用。
Description
技术领域
本申请涉及视频编解码领域,尤其涉及一种视频编解码方法及相关设备。
背景技术
目前,YUV视频编解码技术是一种发展比较成熟的技术,该技术被广泛用于视频通话,视频传输,视频录播与直播等领域。比较主流的视频编码技术包括AVC、HEVC、VP8与VP9等。YUVA视频联合编码技术是指在原本的视频编解码基础上,增加透明通道(A通道)的联合编码技术,通过增加A通道的视频编解码,可以有效对视频帧进行前后背景图像分离,因此,该方法未来将会广泛用于增强现实(augmented reality,AR)技术。由于目前主流的视频编码技术存在A通道的冗余明显,Mask边缘存在严重的毛刺。
发明内容
本申请实施例提供一种视频编解码方法及相关设备,通过对视频帧的α图像的mask图像进行类链式编码,可有效防止mask图像的量化失真,从而达到抑制毛刺的作用。
第一方面,本申请提供一种视频编码方法,包括:
获取待编码图像的第一栅格图像,第一栅格图像是根据待编码图像的α图像得到的,待编码图像为待传输视频中的任一帧;对第一栅格图像进行四叉树栅格编码操作,以得到第一码流;对第二栅格图像进行类链式编码操作,以得到第二码流,第二栅格图像为第一栅格图像的掩膜图像;根据待编码图像的YUV图像得到第三码流,将第一码流、第二码流和第三码流合并输出。
其中,将第一码流、第二码流和第三码流合并输出,具体包括:按照串行方式依次输出第一码流、第二码流和第三码。
通过对待编码图像的α图像的mask图像进行类链式编码,可有效防止mask图像的量化失真,从而达到抑制毛刺的作用;通过对待编码图像的α图像进行四叉树栅格化编码,使得后续熵编码时只需对待编码图像的α图像中的部分栅格进行编码,从而提高了编码效率。
在一个可行的实施例中,对第一栅格图像进行四叉树栅格编码操作,以得到第一码流,包括:
对第一栅格图像进行精细边缘AR编码,得到多个子区域中每个子区域的尺寸及该子区域的第一像素值,多个子区域是根据第一栅格图像得到的;对每个子区域的共性像素值的量化结果和该子区域的尺寸进行熵编码,以得到第一码流。
在一个可行的实施例中,对第一栅格图像进行精细边缘AR编码,得到多个子区域中每个子区域的尺寸及该子区域的第一像素值,包括:
对第一栅格图像进行四叉树栅格编码,得到多个子区域,多个子区域中的每个子区域内每个网格单元的像素值均相同;对多个子区域中的每个子区域进行离散余弦变换DCT,以得到每个子区域的共性像素值及该子区域的尺寸,每个子区域的共性像素值为该子区域内任一网格单元的像素值;对多个子区域的共性像素值进行矢量量化,得到每个子区域的共性像素值的量化结果,每个子区域的共性像素值的量化结果为每个子区域的第一像素值。
由于上述子区域内栅格的像素值均相同,因此为了提高编码效率,对子区域进行DCT,得到该子区域的共性像素值及尺寸,再对共性像素值进行矢量量化,得到共性像素值的量化结果,后续编码时只需对子区域的尺寸及性像素值的量化结果进行编码,不需要对整个第一栅格图像的像素值进行编码,从而提高了编码效率。
在一个可行的实施例中,对第二栅格图像进行类链式编码操作,以得到第二码流,包括:
对第二栅格图像进行列值化处理,以得到第二栅格图像的第一向量;第二栅格图像的第一向量中的元素包括第二栅格图像中网格单元的像素值;根据第一向量中每个第一网格单元在第二栅格图像中与其相邻的第一网格单元的位置关系,对第二向量中的每个第一网格单元进行类链式编码,得到第二栅格图像的第二向量,第二向量中的每个元素用于指示在第二栅格图像中该元素对应的第一网格单元与前一个元素对应的第一网格单元的位置关系;第一向量中的第一网格单元为像素值为预设值的网格单元;对第二栅格图像的第二向量和第二栅格图像的尺寸进行熵编码,以得到第二码流。
第二栅格图像可以看成待编码图像的α图像的mask图像,通过对待编码图像的α图像的mask图像进行类链式编码,可有效防止mask图像的量化失真,从而达到抑制毛刺的作用。
在一个可行的实施例中,当待编码图像为I帧时,第一栅格图像为待编码图像的α图像,第二栅格图像为待编码图像的α图像的掩膜图像;
根据待编码图像的YUV图像得到第三码流,包括:对待编码图像的YUV图像进行熵编码得到第三码流;
当待编码图像为P帧时,第一栅格图像为待编码图像的α图像相对于待编码图像的参考帧的α图像的残差图像;
根据待编码图像的YUV图像得到第三码流,包括:根据根据待编码图像的参考帧的YUV图像和待编码图像的YUV图像得到待编码图像的YUV图像的残差图像;对待编码图像的YUV图像的残差图像进行熵编码,以得到第三码流。
在一个可行的实施例中,对待编码图像对应的音频信号进行编码,得到音频码流,并将该音频码流与第一码流、第二码流和第三码流合并输出;具体地,按照串行方式依次输出第一码流、第二码流、第三码流和音频码流。
在一个可行的实施例中,在对第一栅格图像、待编码图像的YUV图像和待编码图像对应的音频信号进行编码时,对第一栅格图像、待编码图像的YUV图像和待编码图像对应的音频信号打上相同的时间戳,然后将第一栅格图像的时间戳编入第一码流,将待编码图像的YUV图像的时间戳编入第三码流,并将待解码图像对应的音频信号的时间戳编入音频码流,从而使得解码端能从码流中解码出时间同步的待编码图像的重建帧和音频信号。
第二方面,本申请实施例还提供一种视频解码方法,包括:
获取视频的码流,视频的码流包括第一码流、第二码流和第三码流;对第一码流进行解码操作,以得到第一重建帧,第一重建帧与待解码图像的α图像的重建帧相关;待解码图像为视频中的任一帧;对第二码流进行解码操作,以得到第二重建帧;第二重建帧与待解码图像的α图像的掩膜图像的重建帧相关;根据第三码流得到第三重建帧,该第三重建帧为待解码图像的YUV图像的重建帧;根据第一重建帧和第二重建帧得到目标α图像的重建帧,根据目标α图像的重建帧对第三重建帧进行图像分割和叠加,以得到待解码图像的重建帧,待解码图像的重建帧为背景透明的第三重建帧。
其中,当待解码图像为I帧时,第一重建帧为待解码图像的α图像的重建帧,第二重建帧为待解码图像的α图像的掩膜图像的重建帧;根据第三码流得到第三重建帧,包括:对第三码流进行解码,得到第三重建帧;当待解码图像为P帧时,第一重建帧为待解码图像的α图像的残差图像的重建帧,第二重建帧为待解码图像的α图像的残差图像的掩膜图像的重建帧;根据第三码流得到第三重建帧,包括:对第三码流进行解码,以得到待解码图像的YUV图像的残差图像的重建帧;根据待解码图像的YUV图像的残差图像的重建帧和待解码图像的参考帧的YUV图像的重建帧得到第三重建帧。
在一个可行的实施例中,对第一码流进行解码操作,以得到第一重建帧,包括:
对第一码流进行熵解码,得到第一重建帧的多个子区域的每个子区域的第一像素值及每个子区域的尺寸;对第一重建帧的多个子区域的每个子区域的第一像素值及每个子区域的尺寸进行精细边缘AR解码,得到第一重建帧。
在一个可行的实施例中,对第一重建帧的多个子区域的每个子区域的第一像素值及每个子区域的尺寸进行精细边缘AR解码,得到第一重建帧,包括:
对多个子区域的第一像素值进行逆矢量量化,以得到多个子区域中每个子区域的共性像素值;根据多个子区域中每个子区域的共性像素值及尺寸进行逆DCT,以得到多个子区域,每个子区域内的每个像素值均为共性像素值;对多个子区域进行四叉树栅格解码,以得到第一重建帧。
在一个可行的实施例中,对第二码流进行解码操作,以得到第二重建帧,包括:
对第二码流进行熵解码,以得到第二重建帧的第二向量和第二重建帧的尺寸;第二向量中的每个元素用于表征在第二重建帧中与该元素对应的网格单元与前一个元素对应的网格单元的位置关系;对第二向量进行类链式解码,以得到第二重建帧的第一向量,第一向量中的元素包括第二重建帧中所有网格单元的像素值;根据第二重建帧的尺寸对第一向量进行行列变换,以得到第二重建帧。
在一个可行的实施例中,根据第一重建帧和第二重建帧得到目标α图像的重建帧,包括:
对第一重建帧和第二重建帧进行与操作,以得到目标α图像的重建帧,
或者;
对第一重建帧和第二重建帧进行与操作,以得到第一α图像的重建帧,并将第一α图像的重建帧输入到补偿模型中进行边缘滤波处理,以得到目标α图像的重建帧;其中,补偿模型是基于神经网络实现的。
在一个可行的实施例中,根据第一重建帧和第二重建帧得到目标α图像的重建帧,包括:
对第一重建帧和第二重建帧进行与操作,以得到第二α图像的重建帧;根据待解码图像的参考帧的α图像的重建帧和第二α图像的重建帧得到目标α图像的重建帧;
或者;
对第一重建帧和第二重建帧进行与操作,以得第二α图像的重建帧;根据待解码图像的参考帧的α图像的重建帧和第二α图像的重建帧得到第三α图像的重建帧,并将第三α图像的重建帧输入到补偿模型中进行边缘滤波处理,以得到目标α图像的重建帧;其中,补偿模型是基于神经网络实现的。
可选地,上述神经网路可以为卷积神经网络、循环神经网络、全连接神经功能网络或者其他神经网络。
由于第一重建帧和第二重建帧在融合过滤时,第一重建帧和第二重建帧的部分边缘线条出现像素值落差,导致边缘线条存在明显生硬且锐化的现象,通过采用补偿模型对第一重建帧和第二重建帧融合后得到的α图像的重建帧进行边缘滤波进行边缘滤波,弱化了像素值落差,使得解码出来的α图像更加自然。
在一个可行的实施例中,码流还包括音频码流,本申请的方法还包括:
对音频码流进行解码,以得到待解码图像对应的音频信号。
在一个可行的实施例中,根据目标α图像的重建帧对第三重建帧进行图像分割和叠加,以得到待解码图像的重建帧之前,本申请的方法还包括:
从码流解码出目标α图像的重建帧的时间戳、第三重建帧的时间戳和待解码图像对应的音频信号的时间戳;
根据目标α图像的重建帧对第三重建帧进行图像分割和叠加,以得到待解码图像的重建帧,包括:
当目标α图像的重建帧的时间戳、第三重建帧的时间戳和待解码图像对应的音频信号的时间戳一致时,根据目标α图像的重建帧对第三重建帧进行图像分割和叠加,以得到待解码图像的重建帧;
当目标α图像的重建帧的时间戳、第三重建帧的时间戳和待解码图像对应的音频信号的时间戳中任一个与其他两个不相同时,将上述目标α图像的重建帧、第三重建帧和待解码图像对应的音频信号全部丢弃,继续下一帧图像的解码。
通过采用上述同步方式,使得α图像的重建帧和YUV图像的重建帧保持同步,可得到精确的待解码图像的重建帧,最终输出时间同步的待解码图像的重建帧和音频信号,提高了用户体验。
第三方面,本申请实施例提供一种视频编码设备,包括:
获取单元,用于获取待编码图像的第一栅格图像,第一栅格图像是根据待编码图像的α图像得到的,待编码图像为待传输视频中的任一帧;
编码单元,用于对第一栅格图像进行四叉树栅格编码操作,以得到第一码流;对第二栅格图像进行类链式编码操作,以得到第二码流,第二栅格图像为第一栅格图像的掩膜图像;根据待编码图像的YUV图像得到第三码流;
输出单元,用于将第一码流、第二码流和第三码流合并输出。
在一个可行的实施例中,在对第一栅格图像进行四叉树栅格编码操作,以得到第一码流的方面,编码单元具体用于:
对第一栅格图像进行精细边缘AR编码,得到多个子区域中每个子区域的尺寸及该子区域的第一像素值,多个子区域是根据第一栅格图像得到的;对每个子区域的共性像素值的量化结果和该子区域的尺寸进行熵编码,以得到第一码流。
在一个可行的实施例中,在对对第一栅格图像进行精细边缘AR编码,得到多个子区域中每个子区域的尺寸及该子区域的第一像素值的方面,编码单元具体用于:
对第一栅格图像进行四叉树栅格编码,得到多个子区域,多个子区域中的每个子区域内每个网格单元的像素值均相同;对多个子区域中的每个子区域进行离散余弦变换DCT,以得到每个子区域的共性像素值及该子区域的尺寸,每个子区域的共性像素值为该子区域内任一网格单元的像素值;对多个子区域的共性像素值进行矢量量化,得到每个子区域的共性像素值的量化结果,每个子区域的共性像素值的量化结果为每个子区域的第一像素值。
在一个可行的实施例中,在对第二栅格图像进行类链式编码操作,以得到第二码流的方面,编码单元具体用于:
对第二栅格图像进行列值化处理,以得到第二栅格图像的第一向量;第二栅格图像的第一向量中的元素包括第二栅格图像中网格单元的像素值;根据第一向量中每个第一网格单元在第二栅格图像中与其相邻的第一网格单元的位置关系,对第二向量中的每个第一网格单元进行类链式编码,得到第二栅格图像的第二向量,第二向量中的每个元素用于指示在第二栅格图像中该元素对应的第一网格单元与前一个元素对应的第一网格单元的位置关系;第一向量中的第一网格单元为像素值为预设值的网格单元;对第二栅格图像的第二向量和第二栅格图像的尺寸进行熵编码,以得到第二码流。
在一个可行的实施例中,当待编码图像为I帧时,第一栅格图像为待编码图像的α图像,第二栅格图像为待编码图像的α图像的掩膜图像。
在一个可行的实施例中,当待编码图像为I帧时,在根据待编码图像的YUV图像得到第三码流的方面,编码单元具体用于:
对待编码图像的YUV图像进行熵编码,以得到第三码流。
在一个可行的实施例中,当待编码图像为P帧时,第一栅格图像为待编码图像的α图像相对于待编码图像的参考帧的α图像的残差图像。
在一个可行的实施例中,当待编码图像为P帧时,在根据待编码图像的YUV图像得到第三码流的方面,编码单元具体用于:
根据根据待编码图像的参考帧的YUV图像和待编码图像的YUV图像得到待编码图像的YUV图像的残差图像;对待编码图像的YUV图像的残差图像进行熵编码,以得到第三码流。
在一个可行的实施例中,输出单元具体用于:
按照串行方式依次输出第一码流、第二码流和第三码流。
在一个可行的实施例中,编码单元还用于:
对待编码图像对应的音频信号进行编码,得到第一码流、第二码流、第三码流和音频码流;
输出单元,还用于按照串行方式依次输出音频码流。
第四方面,本申请实施例提供一种视频解码设备,包括:
获取单元,用于获取视频的码流,视频的码流包括第一码流、第二码流和第三码流;
解码单元,用于对第一码流进行解码操作,以得到第一重建帧,第一重建帧与待解码图像的α图像的重建帧相关;待解码图像为视频中的任一帧;对第二码流进行解码操作,以得到第二重建帧;第二重建帧与待解码图像的α图像的掩膜图像的重建帧相关;根据第三码流得到第三重建帧,该第三重建帧为待解码图像的YUV图像的重建帧;
重建单元,用于根据第一重建帧和第二重建帧得到目标α图像的重建帧,根据目标α图像的重建帧对第三重建帧进行图像分割和叠加,以得到待解码图像的重建帧,待解码图像的重建帧为背景透明的第三重建帧。
在一个可行的实施例中,在对第一码流进行解码操作,以得到第一重建帧的方面,解码单元具体用于:
对第一码流进行熵解码,得到第一重建帧的多个子区域的每个子区域的共性像素值的量化结果及每个子区域的尺寸;对第一重建帧的多个子区域的每个子区域的第一像素值及每个子区域的尺寸进行精细边缘AR解码,得到第一重建帧。
在一个可行的实施例中,在对第一重建帧的多个子区域的每个子区域的第一像素值及每个子区域的尺寸进行精细边缘AR解码,得到第一重建帧的方面,解码单元具体用于:
对多个子区域的第一像素值进行逆矢量量化,以得到多个子区域中每个子区域的共性像素值;根据多个子区域中每个子区域的共性像素值及尺寸进行逆DCT,以得到多个子区域,每个子区域内的每个像素值均为共性像素值;对多个子区域进行四叉树栅格解码,以得到第一重建帧。
在一个可行的实施例中,在对第二码流进行解码操作,以得到第二重建帧的方面,解码单元具体用于:
对第二码流进行熵解码,以得到第二重建帧的第二向量和第二重建帧的尺寸;第二向量中的每个元素用于表征在第二重建帧中与该元素对应的网格单元与前一个元素对应的网格单元的位置关系;对第二向量进行类链式解码,以得到第二重建帧的第一向量,第一向量中的元素包括第二重建帧中所有网格单元的像素值;根据第二重建帧的尺寸对第一向量进行行列变换,以得到第二重建帧。
在一个可行的实施例中,当待解码图像为I帧时,第一重建帧为待解码图像的α图像的重建帧;第二重建帧为待解码图像的α图像的掩膜图像的重建帧;
在根据第三码流得到第三重建帧的方面,解码单元具体用于:对第三码流进行解码,得到第三重建帧。
在一个可行的实施例中,当待解码图像为P帧时,第一重建帧为待解码图像的α图像相对于待解码图像的参考帧的α图像的残差图像的重建帧,第二重建帧为待解码图像的α图像相对于待解码图像的参考帧的α图像的残差图像的掩膜图像的重建帧;
在根据第三码流得到第三重建帧的方面,解码单元具体用于:
对第三码流进行解码,以得到待解码图像的YUV图像的残差图像的重建帧;根据待解码图像的YUV图像的残差图像的重建帧和待解码图像的参考帧的YUV图像的重建帧得到第三重建帧。
在一个可行的实施例中,在根据第一重建帧和第二重建帧得到目标α图像的重建帧的方面,重建单元具体用于:
对第一重建帧和第二重建帧进行与操作,以得到目标α图像的重建帧,
或者;
对第一重建帧和第二重建帧进行与操作,以得到第一α图像的重建帧,并将第一α图像的重建帧输入到补偿模型中进行边缘滤波处理,以得到目标α图像的重建帧;其中,补偿模型是基于神经网络实现的。
在一个可行的实施例中,在根据第一重建帧和第二重建帧得到目标α图像的重建帧的方面,重建单元具体用于:
对第一重建帧和第二重建帧进行与操作,以得到第二α图像的重建帧;根据待解码图像的参考帧的α图像的重建帧和第二α图像的重建帧得到目标α图像的重建帧;
或者;
对第一重建帧和第二重建帧进行与操作,以得第二α图像的重建帧;根据待解码图像的参考帧的α图像的重建帧和第二α图像的重建帧得到第三α图像的重建帧,并将第三α图像的重建帧输入到补偿模型中进行边缘滤波处理,以得到目标α图像的重建帧;其中,补偿模型是基于神经网络实现的。
可选地,上述神经网路可以为卷积神经网络、循环神经网络、全连接神经功能网络或者其他神经网络。
在一个可行的实施例中,码流还包括音频码流,解码单元还用于:
对音频码流进行解码,以得到待解码图像对应的音频信号。
在一个可行的实施例中,在重建单元用于根据目标α图像的重建帧对第三重建帧进行图像分割和叠加,以得到待解码图像的重建帧之前,解码单元还用于:
从码流解码出目标α图像的重建帧的时间戳、第三重建帧的时间戳和待解码图像对应的音频信号的时间戳;
在根据目标α图像的重建帧对第三重建帧进行图像分割和叠加,以得到待解码图像的重建帧的方面,重建单元具体用于:
当目标α图像的重建帧的时间戳、第三重建帧的时间戳和待解码图像对应的音频信号的时间戳一致时,根据目标α图像的重建帧对第三重建帧进行图像分割和叠加,以得到待解码图像的重建帧。
第五方面,本申请实施例还提供一种视频编码设备,包括:
存储器和与该存储器耦合的处理器,其中,存储器中存储有指令,当处理器执行该指令时,执行如第一方面中的部分或者全部。
第六方面,本申请实施例还提供一种视频解码设备,包括:
存储器和与该存储器耦合的处理器,其中,存储器中存储有指令,当处理器执行该指令时,执行如第二方面方法中的部分或者全部。
第七方面,本申请实施例还提供一种视频设备,包括:
存储器和与该存储器耦合的处理器,其中,存储器中存储有指令,当处理器执行该指令时,执行如第一方面或第二方面方法中的部分或者全部。
本申请实施例提供的视频设备可以为具有视频处理能力的设备。
第八方面,本申请实施例提供一种芯片系统,该芯片系统应用于电子设备;芯片系统包括一个或多个接口电路,以及一个或多个处理器;所述接口电路和所述处理器通过线路互联;所述接口电路用于从所述电子设备的存储器接收信号,并向所述处理器发送所述信号,所述信号包括所述存储器中存储的计算机指令;当所述处理器执行所述计算机指令时,所述电子设备执行如第一方面或第二方面所述方法的部分或全部。
第九方面,本申请实施例提供一种计算机可读存储介质,该计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如第一方面或第二方面所述方法的部分或全部。
第十方面,本申请实施例提供一种计算机程序产品,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如第一方面或第二方面所述方法的部分或全部。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为链式编码原理示意图;
图1b为四叉树栅格编码原理示意图;
图1c为矢量量化原理示意图;
图2a为本申请实施例提供的一种应用场景示意图;
图2b为本申请实施例提供的另一种应用场景示意图;
图2c为本申请实施例提供的另一种应用场景示意图;
图3为本申请实施例提供的一种视频编码方法的流程示意图;
图4a为本申请提供的一种四叉树栅格编码的具体示例的示意图;
图4b为本申请提供的一种矢量量化的具体示例的示意图;
图5为本申请提供的一种链式编码的具体示例的示意图;
图6为本申请实施例提供的一种视频解码方法的流程示意图;
图7为本申请实施例提供的一种视频编解码的流程示意图;
图8为本申请实施例提供的另一种视频编解码的流程示意图;
图9为本申请实施例提供的一种视频编码设备的结构示意图;
图10为本申请实施例提供的一种视频解码设备的结构示意图;
图11为本申请实施例提供的另一种视频编码设备的结构示意图;
图12为本申请实施例提供的另一种视频解码设备的结构示意图。
具体实施方式
下面结合附图对本申请的实施例进行描述。
首先对本申请中的关键术语进行解释。
YUV图像,该图像的每个像素点是以YUV格式存储的图像。其中,Y代表亮度,U和V表示色度。YUV可以由色彩三原色RGB转换得到,由于计算机对RGB不敏感,因此计算机的像素点均采用YUV格式表示。
本申请的α图像是指A通道图像,其中,图像的A通道是指图像的透明或者半透明度。
栅格编码:是指将空间分割成有规律的网格,每个网格称为一个单元,并在各单元上赋予相应的属性值来表示实体的一种数据形式。每一个单元(像素)的位置由它的行列号定义,所表示的实体位置隐含在栅格行列位置中。栅格结构是用有限的网格逼近某个图形,因此用栅格数据表示的地表是不连续的,是近似离散的数据。栅格数据多数用于地理信息系统(geographic information system,GIS),其GIS地图主要包含国界、省道、铁路和河流等。
链式编码,又称弗里曼链码或世界链码。它由某一原始点和一系列在基本方向上数字确定的单位矢量链。基本方向有东、东南、南、西南、西、西北、北、东北等8个,每个后继点位于其前继点可能的8个基本方位之一,如图1a所示。8个基本方向的代码可分别用东=0,南=3,西=2,北=1,东南=4,东北=5,西南=6,西北=7表示,既可按顺时针也可按逆时针表示。栅格结构按顺时针编码,如图1a所示,以灰色点为起始点,每个后继点与其前一点的位置关系分别为:东南,东,东,南,西南,…;对应的编码为4,0,0,3,6,…。链式编码有效地压缩了栅格数据,尤其对多边形的表示最为显著,比较适于存储图形数据。
四叉树编码:其基本思想是将一幅栅格地图或图像等分为四部分。逐块检查其格网属性值(或灰度)。如果某个子区的所有像素值都具有相同的值。则这个子区就不再继续分割,否则还要把这个子区再分割成四个子区,如图1b所示。这样依次地分割,直到每个子块都只含有相同的属性值或灰度为止。也就是根据栅格数据二维空间分布的特点,将空间区域按照4个象限进行递归分割(2n×2n,且n>1),直到子象限的数值单调为止,最后得到一棵四分叉的倒向树。
矢量量化是将数据先进行分组,每个组K个数据构成K维矢量,再以矢量为处理单元进行量化。它的思想和“四舍五入”有异曲同工之妙,都是用一个和一个数最接近的整数来近似表示这个数。如图1c所示,对一维数组进行矢量量化,小于-2的数都近似为-3,在-2和0之间的数都近似为-1,在0和2之间的数都近似为1,大于2的数都近似为3。这样任意的一个数都会被近似为-3、-1、1或者3这四个数中的其中一个。
I帧的编解码和P帧的编解码:
I帧表示关键帧,解码时只需要本帧数据就可以解码得到本帧。当对I帧进行压缩编码时,也不需要依赖其它帧。而P帧又可称为前向预测帧,表示这一帧跟之前的一个关键帧(或P帧)的差别,解码时需要用之前缓存的画面叠加上本帧定义的差别,生成最终画面。P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,将预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。
下面介绍本申请的应用场景。
在一个示例中,如图2a所示,该应用场景包括编码设备101和一个或多个解码设备102,其中,编码设备101包括但不限于内容提供商的服务器,用于提供音视频等内容;解码设备102包括但不限于用户设备,比如智能手机、智能眼镜或者智能手表;
编码设备101按照本申请的编码方法对待传输图像进行编码,得到待传输图像的码流,并将待传输图像的码流传输至一个或多个解码设备102,然后一个或多个解码设备102中的每个解码设备102按照本申请的解码方法对接收到的码流进行解码,得到图像;可选地,在解码设备102的显示界面显示该图像。
在另一个示例中,如图2b所示,该应用场景包括编码设备101、解码设备103和一个或多个显示设备104,其中,编码设备101包括但不限于内容提供商的服务器,用于提供音视频等内容;解码设备103用于对接收到的码流进行解码;显示设备104可以为智能手机、智能眼镜或者智能手表等可用于显示图像或者视频的设备;
编码设备101按照本申请的编码方法对待传输图像进行编码,得到待传输图像的码流,并将待传输图像的码流传输至解码设备103,然后解码设备103按照本申请的解码方法对接收到的码流进行解码,得到图像;解码设备103将解码得到的图像传输至一个或多个显示设备104,以在显示设备104上显示。
在另一个示例中,如图2c所示,该应用场景包括编码设备101、多个解码设备103和多个显示设备104,其中,多个解码设备103和多个显示设备104一一对应,也就是说,每个解码设备有唯一一个显示设备104用于显示解码得到图片或者视频;编码设备101包括但不限于内容提供商的服务器,用于提供音视频等内容;解码设备103用于对接收到的码流进行解码;显示设备104可以为智能手机、智能眼镜或者智能手表等可用于显示图像或者视频的设备;
编码设备101按照本申请的编码方法对待传输图像进行编码,得到待传输图像的码流,并将待传输图像的码流传输至解码设备103,然后解码设备103按照本申请的解码方法对接收到的码流进行解码,得到图像;解码设备103将解码得到的图像传输至对应的显示设备104上显示。
参见图3,图3为本申请实施例提供的一种是视频编码方法的流程示意图。如图3所示,该方法包括:
S301、获取待编码图像的第一栅格图像和第二栅格图像。
其中,第一栅格图像为是根据待编码图像的α图像得到的,第二栅格图像为第一栅格图像的掩膜图像;上述待编码图形为待传输视频中的任一帧。
当待编码图像为I帧时,第一栅格图像为待编码图像的α图像;当待编码图像为P帧时,第一栅格图像为待编码图像的α图像相对于待编码图像的参考帧的α图像的残差图像。其中,上述第一栅格图像为灰度图。
S302、对第一栅格图像分别进行四叉树栅格编码操作,以得到第一码流;对第二栅格图像进行类链式编码操作,以得到第二码流;根据待编码图像的YUV图像得到第三码流。
在一个可行的实施例中,对第一栅格图像进行四叉树栅格编码操作,以得到第一码流,包括:
对第一栅格地图进行精细边缘增强现实AR编码,得到多个子区域中每个子区域的尺寸和该子区域的第一像素值,多个子区域是根据所述第一栅格图像得到的;对多个子区域中每个子区域的共性像素值的量化结果和该子区域的尺寸进行熵编码,以得到第一码流。
进一步地,对第一栅格地图进行精细边缘增强现实AR编码,得到多个子区域中每个子区域的尺寸和该子区域的第一像素值,包括:
对第一栅格图像进行四叉树栅格编码,以得到多个子区域,其中,多个子区域中的每个子区域中的每个网格单元的像素值均相同;对多个子区域中的每个子区域进行DCT,以得到每个子区域的共性像素值和该子区域的尺寸,每个子区域的共性像素值为该子区域中任一网格单元的像素值;对多个子区域的共性像素值进行矢量量化,得到每个子区域的共性像素值的量化结果;每个子区域的共性像素值的量化结果为每个子区域的第一像素值。
具体地,如图4a所示,对第一栅格图像进行四叉树栅格编码,得到如图4a中D图所示的14个子区域,其中,该14个子区域中每个子区域内所有栅格单元的像素值均相同,然后再对14个子区域中的每个子区域进行DCT,以得到每个子区域的共性像素值和该子区域的尺寸;其中,按照从左到右从上到下的顺序,该14个子区域中的共性像素值分别为95、97、88、94、84、87、106、101、89、91、87、72、86和88;需要指出的是,上述子区域的共性像素值为该子区域内任一栅格单元的像素值;再对14个子区域的共性像素值进行矢量量化,以得到14个区域中每个子区域的共性像素值的量化的结果,按照如图4b所示的量化规则,14个子区域的共性像素值的量化结果分比为95、95、85、95、85、85、105、105、85、95、85、75、85和85;最后对14个子区域中每个子区域的共性像素值的量化结果和尺寸进行熵编码,以得到上述第一码流。
在一个可行的实施例中,对第二栅格图像进行类链式编码操作,以得到第二码流,包括:
对第二栅格图像进行列值化处理,以得到第二栅格图像的第一向量;第二栅格图像的第一向量中的元素包括第二栅格图像中网格单元的像素值;根据第一向量中每个第一网格单元在第二栅格图像中与其相邻的第一网格单元的位置关系,对第一向量中的每个第一网格单元进行类链式编码,得到第二栅格图像的第二向量,第二向量中的每个元素用于指示在第二栅格图像中该元素对应的第一网格单元与前一个元素对应的第一网格单元的位置关系;第一向量中的第一网格单元为像素值为预设值的网格单元,对第二栅格图像的第二向量和第二栅格图像的尺寸进行熵编码,以得到第二码流。
在此需要说明的是,第一栅格图像可以为灰度图,第二栅格图像为二值图像,第二栅格图像可以看成对第一栅格图像进行降维处理得到,具体将第一栅格图像转换为像素值为0和1的二值图,即第二栅格图像为像素值为0和1的二值图。
举例说明,第二栅格图像如图5所示,其中,1表示白色,0表示黑色,第二栅格图像的尺寸为5*5,然后对第二栅格图像进行列值化,得到长度为1*25的第一向量,如图5所示;再以图5所示的矩阵中的灰色网格单元为起点,按照顺时针的顺序,根据第一向量中每个像素值为0的网格单元在第二栅格图像中与该网格单元相邻的网格单元之间的位置关系,对第一向量中每个像素值为0的网格单元进行类链式编码,以得到第二栅格图像的第二向量,如图5所示,以灰色网格单元为起点,按照顺时针的顺序,方位分别为:东、东南、南、西南、南、西、西、西北、北、北、东、东,因此第二向量表示为[0,4,3,6,3,2,2,7,1,1,0,0];最后再对第二向量进行熵编码,从而得到上述第二码流。为了解码端能够正常解码出第二栅格图像,在对第二向量进行编码时,同时将第二栅格图像的尺寸编入第二码流。
在此需要指出的是,当网格单元A的相邻网格单元同时包括与其在第一方向和第二方向上相邻的网格单元时,在类链式编码时,仅将与其在第一方向上相邻的网格单元作为与网格单元A相邻的网格单元。其中,第一方向为东、南、西或北,第二方向为东南、东北、西南或西北。如图5所示,在顺时针方向,与网格单元B相邻的网格单元包括位于网格单元的西面和西南面的两个网格单元,在进行类链式编码时,只将位于网格单元B的西面的网格单元作为与网格单元B相邻的网格单元。
在一个可行的实施例中,根据待编码图像的YUV图像得到第三码流,包括:
当待编码图像为I帧时,对待编码图像的YUV图像进行熵编码,以得到第三码流;当待编码图像为P帧时,根据待编码图像的参考帧的YUV图像和待编码图像的YUV图像得到待编码图像的YUV图像的残差图像;对待编码图像的YUV图像的残差图像进行熵编码,以得到所述第三码流。
在此需要说明的是,当待编码图像为P帧时,针对待编码图像的YUV图像和α图像,在获取待编码图像的YUV图像的残差图像和待编码图像的α图像的残差图像时,将待编码图像的参考帧的YUV图像作为待编码图像的YUV图像的参考帧,将待编码图像的参考帧的α图像作为待编码图像的α图像的参考帧;并且基于待编码图像的参考帧的YUV图像得到待编码图像的YUV图像的残差图像所进行运动估计与基于待编码图像的参考帧的α图像得到待编码图像的α图像的残差图像所进行的运动估计相同,其中,运动估计包括但不限于平移、仿射和/或双线性操作等。
S303、将第一码流、第二码流和第三码流合并输出。
具体地,将第一码流、第二码流和第三码流合并输出,包括:按照串联方式依次输出所述第一码流、所述第二码流和所述第三码流。
在一个可行的实施例中,本申请的方法还包括:
对视频所对应的音频信号进行编码,以得到音频码流,并将该音频码流与第一码流、第二码流和第三码流合并输出;具体地,按照串行方式依次输出第一码流、第二码流、第三码流和音频码流,从而使得解码端在解码出图像的同时,也能解码出音频信号,以提供用户的视听体验。
在一个可行的实施例中,对待编码图像及其对应的音频信号打上相同的时间戳,并将待编码图像的时间戳编入第一码流或者第二码流,将音频信号的时间戳编入音频码流。
在一个可行的实施例中,对待编码图像的α图像和待编码图像的YUV图像及其对应的音频信号打上相同的时间戳,然后将待编码图像的α图像编入第一码流,将待编码图像的YUV图像的时间戳编入第三码流,将音频信号的时间戳编入音频码流,从而使得解码端能从码流中解码出时间同步的待编码图像的重建帧和音频信号。
可以看出,在本申请的实施例中,通过对待编码图像的α图像的掩膜图像进行类链式编码,有效地压缩了栅格数据,尤其对多边形的表示最为显著,链式编码还有一定的运算能力,对计算长度、面积或转折方向的凸凹度更为方便;将类链式编码应用于掩膜图像(mask)的块划分可以有效防止掩膜图像的线条的量化失真,从而达到抑制边缘毛刺严重的作用;使用四叉树栅格编码对待编码图像的α图像进行编码,使得后续编码集中在待编码图像的α图像中的mask内,从而提高编码效率。
参见图6、图6为本申请实施例提供的一种视频解码方法的流程示意图。如图6所示,该方法包括:
S601、获取码流,该码流包括第一码流、第二码流和第三码流。
其中,上述第一码流为对待解码图像的α图像进行编码得到的,或者为对待解码图像的α图像的残差图像进行编码得到的;上述第二码流为对待解码图像的α图像的掩膜图像进行编码得到的,或者为对待解码图像的α图像的残差图像的掩膜图像进行编码得到的;上述第三码流为对待解码图像的YUV图像进行编码得到的,或者为对待编码图像的YUV图像的残差图像进行编码得到的。
当待解码图像为I帧时,上述第一码流为对待解码图像的α图像进行编码得到的,上述第二码流为对待解码图像的α图像的掩膜图像进行编码得到的,上述第三码流为对待解码图像的YUV图像进行编码得到的;当待解码图像为P帧时,上述第一码流为对待解码图像的α图像的残差图像进行编码得到的,上述第二码流为对待解码图像的α图像的残差图像的掩膜图像进行编码得到的,上述第三码流为对待编码图像的YUV图像的残差图像进行编码得到的。
S602、对第一码流进行解码操作,以得到第一重建帧;对第二码流进行解码操作,以得到第二重建帧;根据第三码流得到第三重建帧。
在一个可行的实施例中,对第一码流进行解码操作,以得到第一重建帧,包括:
对第一码流进行熵解码,得到第一重建帧的多个子区域的每个子区域的第一像素值及每个子区域的尺寸;对第一重建帧的多个子区域的每个子区域的第一像素值及每个子区域的尺寸进行精细边缘AR解码,得到第一重建帧。
在一个可行的实施例中,对第一重建帧的多个子区域的每个子区域的第一像素值及每个子区域的尺寸进行精细边缘AR解码,得到第一重建帧,包括:
对多个子区域的第一像素值进行逆矢量量化,以得到多个子区域中每个子区域的共性像素值;根据多个子区域中每个子区域的共性像素值及尺寸进行逆DCT,以得到多个子区域,每个子区域内的每个像素值均为共性像素值;对多个子区域进行四叉树栅格解码,以得到第一重建帧。
在此需要指出的是,对第一码流进行解码操作的具体实现过程可以看成对第一栅格图像进行四叉树栅格编码操作的逆过程,其具体实现过程可参见S302的相关描述,在此不再叙述。
在一个可行的实施例中,对第二码流进行解码操作,以得到第二重建帧,包括:
对第二码流进行熵解码,以得到第二重建帧的第二向量和第二重建帧的尺寸;第二向量中的每个元素用于表征在第二重建帧中与该元素对应的网格单元与前一个元素对应的网格单元的位置关系;对第二向量进行类链式解码,以得到第二重建帧的第一向量,第一向量中的元素包括第二重建帧中所有网格单元的像素值;根据第二重建帧的尺寸对第一向量进行行列变换,以得到第二重建帧。
在此需要指出的是,对第二码流进行解码操作的具体实现过程可以看成对第一栅格图像进行类链式编码操作的逆过程,其具体实现过程可参见S302的相关描述,在此不再叙述。
可选地,当待解码图像为I帧时,第一重建帧为待解码图像的α图像的重建帧;当待解码图像为P帧时,第一重建帧为待解码图像的α图像的残差图像的重建帧;
当待解码图像为I帧时,第一重建帧为待解码图像的α图像的掩膜图像的重建帧;当待解码图像为P帧时,第一重建帧为待解码图像的α图像的掩膜图像的残差图像的重建帧;
第三重建帧为待解码图像的YUV图像的重建帧,根据第三码流得到第三重建帧,包括:
当待解码图像为I帧时,对第三码流进行熵解码得到第三重建帧;当待解码图像为P帧时,对第三码流进行熵解码得到待解码图像的YUV图像的残差图像的重建帧,根据待解码图像的YUV图像的残差图像的重建帧和待解码图像的参考帧的YUV图像的重建帧得到第三重建帧。
S603、根据第一重建帧和第二重建帧得到目标α图像的重建帧。
在一个可行的实施例中,根据第一重建帧和第二重建帧得到目标α图像的重建帧,包括:
当待解码图像为I帧时,对第一重建帧和第二重建帧进行与操作,以得到目标α图像的重建帧;或者,对第一重建帧和第二重建帧进行与操作,以得到待解码图像的第一α图像的重建帧,并将第一α图像的重建帧输入到补偿模型中进行边缘滤波处理,以得到目标α图像的重建帧;
当待解码图像为P帧时,对第一重建帧和第二重建帧进行与操作,以得到第二α图像的重建帧;根据待解码图像的参考帧的α图像的重建帧和第二α图像的重建帧得到目标α图像的重建帧;
或者;
对第一重建帧和所述第二重建帧进行与操作,以得到第二α图像的重建帧;根据待解码图像的参考帧的α图像的重建帧和第二α图像的重建帧得到第三α图像的重建帧,并将第三α图像的重建帧输入到补偿模型中进行边缘滤波处理,以得到目标α图像的重建帧;其中,补偿模型是基于神经网络实现的。
具体地,第一重建帧为灰度图像,第二重建帧为二值图像,且第一重建帧的尺寸和第二重建帧的尺寸相同,对第一重建帧和第二重建帧进行与操作,具体是对第一重建帧和第二重建帧中相同位置的栅格单元的像素值进行与操作,以得到处理后的第一重建帧;当待解码图像为I帧时,处理后的第一重建帧为上述目标α图像的重建帧。由于第一重建帧和第二重建帧在融合过滤时,第一重建帧和第二重建帧的部分边缘线条出现像素值落差,导致边缘线条存在明显生硬且锐化的现象,对后续图像分割与叠加有较大的影响,因此在得到处理的第一重建帧后,将处理后的第一重建帧输入到补偿模型中进行边缘滤波处理,得到目标α图像的重建帧,此时处理后的第一重建帧即为上述第一α图像的重建帧;
当待解码图像为P帧时,第一重建帧为待解码图像的α图像的残差图像的重建帧,处理后的第一重建帧为上述第二α图像的重建帧;在得到处理后的第一重建帧后,根据待解码图像的参考帧的α图像的重建帧和处理后的第一重建帧得到的图像,即为目标α图像的重建帧,在该过程中,所采用的运动估计与编码端在基于待解码图像的参考帧的α图像得到待解码图像的α图像的残差图像所采用的运动估计相同,也是说,在编码端和解码端,对于同一P帧,所采用的参考帧和运动估计相同;由于第一重建帧和第二重建帧在融合过滤时,第一重建帧和第二重建帧的部分边缘线条出现像素值落差,导致边缘线条存在明显生硬且锐化的现象,对后续图像分割与叠加有较大的影响,因此在根据待解码图像的参考帧的α图像的重建帧和处理后的第一重建帧得到的图像(即上述第三α图像的重建帧)后,将第三α图像的重建帧输入到补偿模型中进行边缘滤波处理,得到的图像即为目标α图像的重建帧。通过采用补偿模型对边缘线条的像素值落差进行补偿,弱化了边缘线条的像素值落差,从而使得待解码图像的重建帧更加自然地呈现。
S604、根据目标α图像的重建帧对第三重建帧进行图像分割和叠加,以得到待解码图像的重建帧。
其中,待解码图像的重建帧为背景透明的第三重建帧。
在得到第三重建帧之后,根据目标α图像的重建帧对第三重建帧进行图像分割和叠加得到待解码图像的重建帧;也就是说,目标α图像的重建帧可以看成第三重建帧的掩膜图像,先根据目标α图像的重建帧对第三重建帧进行分割,得到分割结果,该分割结果包括待解码图像中的主体对象;然后将目标α图像的重建帧与上述分割结果进行叠加,从而得到上述待解码图像的重建帧。
对视频中每张待解码图像的码流按照上述方法进行解码,进而得到视频。
在一个可行的实施例中,上述码流还包括音频码流,本申请的方法还包括:
对音频码流进行解码,得到待解码图像对应的音频信号,可在输出待解码图像的重建帧时,也可以输出待解码图像对应的音频信号,提高了用户的视听体验。
在一个可行的实施例中,根据目标α图像的重建帧对第三重建帧进行图像分割和叠加,以得到待解码图像的重建帧之前,本申请的方法还包括:
从码流解码出目标α图像的重建帧的时间戳、第三重建帧的时间戳和待解码图像对应的音频信号的时间戳;具体地,从第一码流中解码出目标α图像的重建帧的时间戳,从第三码流中解码出第三重建帧的时间戳,从音频码流中解码出待解码图像对应的音频信号;
根据目标α图像的重建帧对第三重建帧进行图像分割和叠加,以得到待解码图像的重建帧,包括:
当目标α图像的重建帧的时间戳、第三重建帧的时间戳和待解码图像对应的音频信号的时间戳一致时,根据目标α图像的重建帧对第三重建帧进行图像分割和叠加,以得到待解码图像的重建帧。
在一个可行的实施例中,为了保证音频信号与视频的同步,在编码时,对待解码图像及其对应的音频信号打上相同的时间戳,在得到待解码图像的重建帧和音频信号时,同时从对应的码流中解码出待解码图像的重建帧的时间戳和音频信号的时间戳,将待解码图像的重建帧额和音频信号分别缓存到第一缓存和第二缓存中;
当具有相同时间戳的待解码图像的重建帧和音频信号中的任一个丢失时,则将待解码图像的重建帧和对应的音频信号中的另一个丢弃;当具有相同时间戳的待解码图像的重建帧和音频信号中均未丢失时,输出具有相同时间戳的待解码图像的重建帧和音频信号,或者;
当具有相同时间戳的待解码图像的重建帧和音频信号中任一个先被解码出来时,则停止对待解码图像的下一帧图像的码流及对应的音频码流进行解码,等待预设时长后,或者在具有相同时间戳的待解码图像的重建帧和音频信号中的另一个被解码出来后,再对下一帧图像的码流及对应的音频码流进行解码,其中,当具有相同时间戳的待解码图像的重建帧和音频信号被解码出来后,输出具有相同时间戳的待解码图像的重建帧和音频信号,或者;
当第一缓存中存在多个待解码图像的重建帧,或者第二缓存中存在多个音频信号时,若第一缓存中的多个待解码图像的重建帧的被解码出来的时刻的顺序与多个待解码图像在编码时所打上的时间戳的顺序不一致,则对第一缓存中的多个待解码图像的重建帧的被解码出来的时刻进行调整,使得第一缓存中的多个待解码图像的重建帧的被解码出来的时刻的顺序与多个待解码图像在编码时所打上的时间戳的顺序一致,然后按照调整后的多个待解码图像的重建帧的被解码出来的时刻输出多个待解码图像的重建帧;
若第二缓存中的多个音频信号的被解码出来的时刻的顺序与多个音频信号在编码时所打上的时间戳的顺序不一致,则对第一缓存中的多个待解码图像的重建帧的被解码出来的时刻进行调整,使得第一缓存中的多个音频信号的被解码出来的时刻的顺序与多个音频信号在编码时所打上的时间戳的顺序一致,然后按照调整后的多个音频信号的被解码出来的时刻输出多个音频信号。
在一个可选地实施例中,在编码之前,对待解码图像的YUV图像、α图像和音频信号打上相同的时间戳,在解码得到待解码图像的YUV图像的重建帧、目标α图像的重建帧和音频信号时,同时解码出待解码图像的YUV图像的重建帧的时间戳、目标α图像的重建帧的时间戳和音频信号的时间,并分别将待解码图像的YUV图像的重建帧、目标α图像的重建帧和音频信号保存至第三缓存、第四缓存和第二缓存中;
当根据时间戳确定待解码图像的YUV图像的重建帧、目标α图像的重建帧和音频信号中任一个丢失时,将待解码图像的YUV图像的重建帧、目标α图像的重建帧和音频信号中的另外两个也丢弃;
当具有相同时间戳的待解码图像的YUV图像的重建帧、目标α图像的重建帧和音频信号中任一个先被解码出来时,则停止对待解码图像的下一帧图像的码流及对应的音频码流进行解码,等待预设时长后,或者在具有相同时间戳的待解码图像的YUV图像的重建帧、目标α图像的重建帧和音频信号中的另外两个被解码出来后,再对下一帧图像的码流及对应的音频码流进行解码;
在解码出具有相同时间戳的待解码图像的YUV图像的重建帧和目标α图像的重建帧后,根据待解码图像的α图像重建帧对待解码图像的YUV图像的重建帧进行分割和叠加,以得到待解码图像的重建帧。
按照上述方法,可以保证图像与音频信号之间的同步;或者保证待解码图像的YUV图像的重建帧、目标α图像的重建帧和音频信号的同步,从而确保后续得到的待解码重建帧的准确性,同时提高了用户的视听体验。
以下对视频编解码过程进行系统性介绍。
参见图7,图7为本申请实施例提供的一种视频编解码的流程示意图。如图7所示,在编码端,根据待编码图像得到待编码图像的YUV图像和α图像;当待编码图像为I帧时,对于YUV图像的编码过程,具体包括:对YUV图像依次进行块划分、预测、变换、量化和熵编码,得到YUV图像的码流,这个过程是有损编码;对YUV图像的码流的解码过程,具体包括对YUV图像的码流依次进行熵解码、反量化、反变换和预测,得到YUV图像的重建帧;在本申请中,YUV图像的码流也可称为第三码流;
对于α图像,进行两路处理:一路是对图像进行四叉树编码,得到子区域,多个子区域中每个子区域中的网格单元的像素值均相同;然后对每个子区域进行DCT,得到每个子区域的共性像素值和该子区域的尺寸,其中,每个子区域的共性像素值为该子区域中任一网格单元的像素值;再对多个子区域的共性像素值进行矢量量化,得到每个子区域的共性像素值的量化结果;对多个子区域中每个子区域的共性像素值的量化结果和该子区域的尺寸进行熵编码,以得到第一码流;
另一路处理具体是:获取α图像的掩膜图像,也就是mask图像;一般来说,α图像为灰度图,mask图像为二值图,因此根据α图像得到α图像的mask图像,可以看成是对α图像进行降维处理得到mask图像;对mask图像进行列值化,得到mask图像的第一向量,该向量中的元素包括mask图像中网格单元的像素值;根据第一向量中第一网格单元在mask图像中与其相邻的网格单元的位置关系,对第一向量中的每个第一网格单元进行类链式编码,得到mask图像的第二向量;第二向量中的每个元素用于指示在mask中该元素对应的第一网格单元与前一个元素对应的第一网格单元的位置关系;第一向量中的第一网格单元为像素值为预设值的网格单元,对mask图像的第二向量和mask的尺寸进行熵编码,得到第二码流。
至此,对待编码图像完成编码;同时,对待编码图像对应的音频信号进行编码,得到音频码流。
为待编码图像的YUV图像、α图像和对应的音频信号打上相同的时间戳,然后在编码时,将该时间戳分别编入第三码流、第一码流和音频码流中。
对于α图像的解码过程,具体包括:对第一码流进行解码,得到α图像的重建帧,该解码过程为编码过程的逆过程,具体包括对第一码流进行熵解码,得到α图像的重建帧的多个子区域的每个子区域的共性像素值的量化结果及每个子区域的尺寸;对多个子区域的共性像素值的量化结果进行逆矢量量化,以得到多个子区域中每个子区域的共性像素值;根据多个子区域中每个子区域的共性像素值及尺寸进行逆DCT,以得到多个子区域,每个子区域内的每个像素值均为共性像素值;对多个子区域进行四叉树栅格解码,以得到α图像的重建帧;对第二码流进行解码,以得到mask图像的第二向量和mask图像的尺寸;第二向量中的每个元素用于表征在mask图像中与该元素对应的网格单元与前一个元素对应的网格单元的位置关系;对第二向量进行类链式解码,以得到mask图像的第一向量,第一向量中的元素包括mask图像中所有网格单元的像素值;根据mask图像的尺寸对第一向量进行行列变换,以得到mask图像;
得到待解码图像的mask图像和待解码图像的α图像的重建帧后,对mask图像和α图像的重建帧进行与操作,得到处理后的α图像,该处理后的α图像即为目标α图像的重建帧;可选地,为了提高α图像的重建帧的准确性,将处理后的α图像输入到补偿模型中进行边缘滤波,得到目标α图像的重建帧。
从YUV图像的码流和第一码流中还分别解码出YUV图像的时间戳和α图像的时间戳。
对音频码流进行解码,得到待解码图像对应的音频信号及音频信号的时间戳,
为了保证解码的同步,需要对YUV图像的重建帧、目标α图像的重建帧及音频信号进行同步处理,具体可采用以下方式:
方式一:对于同一待解码图像的YUV图像的重建帧、目标α图像的重建帧及音频信号,若当前只解码出YUV图像的重建帧、目标α图像的重建帧及音频信号中的部分,则需要等到预设时长或者直至解码出待解码图像的YUV图像的重建帧、目标α图像的重建帧及音频信号中的另一部分,才能对待解码图像的下一帧的码流进行解码;
方式二:将解码出来的YUV图像的重建帧、目标α图像的重建帧和音频信号分别进行缓存;然后对于同一时间戳,如果缓存中只包括YUV图像的重建帧、目标α图像的重建帧和音频信号中的部分,则将该部分全部丢掉;
方式三:对于缓存的同一类别的多个数据,该类别包括YUV图像的重建帧、目标α图像的重建帧和音频信号中;若被解码出来的时刻的顺序与时间戳的顺序不一致,则对多个数据进行重新排序,使得重新排序后的被解码出来的时刻的顺序与时间戳的顺序一致。
在进行上述同步处理后,使得在后续处理时所使用的YUV图像的重建帧、目标α图像的重建帧和音频信号具有相同的时间戳,后续处理包括:根据待解码图像的α图像重建帧对待解码图像的YUV图像的重建帧进行分割和叠加,以得到待解码图像的重建帧;在显示该待解码图像的重建帧时,同时播放音频信号。
如图8所示,当待解码图像为P帧时,在编码端,根据待编码图像得到待编码图像的YUV图像和α图像后,根据待编码图像的参考帧的YUV图像和α图像,分别得到待编码图像的YUV图像的残差图像和α图像的残差图像;对于YUV图像的残差图像的编码过程,具体包括:对YUV图像依次进行块划分、预测、变换、量化和熵编码,得到YUV图像的残差图像的码流,这个过程是有损编码;对YUV图像的残差图像的码流的解码过程,具体包括对YUV图像的残差图像的码流依次进行熵解码、反量化、反变换和预测,得到YUV图像的残差图像的重建帧;
对于α图像的残差图像,编码过程可参见上述图7所示的对α图像的进行编码的相关描述,在此不再具体叙述。
在解码端,对于对α图像的残差图像编码得到的码流,解码过程可参见上述图7所示的对第一码流和第二码流的进行解码的相关描述,得到待解码图像的α图像的残差图像的重建帧和对应的mask图像,在此不再具体叙述。
按照图7所示的方法得到待解码图像的α图像的残差图像的重建帧和对应的mask图像后,对待解码图像的α图像的残差图像的重建帧和对应的mask图像进行与操作,得到处理后的α图像的残差图像的重建帧,然后根据待解码图像的参考帧的α图像的重建帧和α图像的残差图像的重建帧得到待解码图像的α图像的重建帧;可选地,将根据待解码图像的参考帧的α图像的重建帧和α图像的残差图像的重建帧得到图像输入到补偿模型中进行边缘滤波处理,从而得到待解码图像的α图像的重建帧。
从第三码流和第一码流中还分别解码出YUV图像的时间戳和α图像的时间戳,该YUV图像的时间戳也就是上述YUV图像的重建帧的时间戳,α图像的时间戳也就是上述目标α图像的重建帧的时间戳;对音频码流进行解码,得到待解码图像对应的音频信号及音频信号的时间戳。
为了保证解码的同步,需要对YUV图像的重建帧、目标α图像的重建帧及音频信号进行同步处理,同步方式可参见图7所示实施例中的相关描述,在此不再叙述。
在进行上述同步处理后,使得在后续处理时所使用的YUV图像的重建帧、目标α图像的重建帧和音频信号具有相同的时间戳,后续处理包括:根据目标α图像的重建帧对待解码图像的YUV图像的重建帧进行分割和叠加,以得到待解码图像的重建帧;在显示该待解码图像的重建帧时,同时播放音频信号。
可以看出,在本申请的实施例中,通过对待编码图像的α图像的掩膜图像进行类链式编码,有效地压缩了栅格数据;将类链式编码应用于掩膜图像(mask)的块划分可以有效防止掩膜图像的线条的量化失真,从而达到抑制边缘毛刺严重的作用;使用四叉树栅格编码对待编码图像的α图像进行编码,使得后续编码集中在待编码图像的α图像中的mask内,从而提高编码效率。在解码端,通过引入补偿模型对输入的α图像的重建帧进行边缘滤波,避免了边缘线条存在明显生硬且锐化的现象,同时提高了待解码图像的重建帧的精度。
参见图9,图9为本申请实施例提供的一种编码设备的结构示意图。如图9所示,该视频编码设备900包括:
获取单元901,用于获取待编码图像的第一栅格图像,第一栅格图像是根据待编码图像的α图像得到的,待编码图像为待传输视频中的任一帧;
编码单元902,用于对第一栅格图像进行四叉树栅格编码操作,以得到第一码流;对第二栅格图像进行类链式编码操作,以得到第二码流,第二栅格图像为第一栅格图像的掩膜图像;根据待编码图像的YUV图像得到第三码流;
输出单元903,用于将第一码流、第二码流和第三码流合并输出。
在一个可行的实施例中,在对第一栅格图像进行四叉树栅格编码操作,以得到第一码流的方面,编码单元902具体用于:
对第一栅格图像进行精细边缘AR编码,得到多个子区域中每个子区域的尺寸及该子区域的第一像素值,多个子区域是根据第一栅格图像得到的;对每个子区域的共性像素值的量化结果和该子区域的尺寸进行熵编码,以得到第一码流。
在一个可行的实施例中,在对对第一栅格图像进行精细边缘AR编码,得到多个子区域中每个子区域的尺寸及该子区域的第一像素值的方面,编码单元902具体用于:
对第一栅格图像进行四叉树栅格编码,得到多个子区域,多个子区域中的每个子区域内每个网格单元的像素值均相同;对多个子区域中的每个子区域进行离散余弦变换DCT,以得到每个子区域的共性像素值及该子区域的尺寸,每个子区域的共性像素值为该子区域内任一网格单元的像素值;对多个子区域的共性像素值进行矢量量化,得到每个子区域的共性像素值的量化结果,每个子区域的共性像素值的量化结果为每个子区域的第一像素值。
在一个可行的实施例中,在对第二栅格图像进行类链式编码操作,以得到第二码流的方面,编码单元902具体用于:
对第二栅格图像进行列值化处理,以得到第二栅格图像的第一向量;第二栅格图像的第一向量中的元素包括第二栅格图像中网格单元的像素值;根据第一向量中每个第一网格单元在第二栅格图像中与其相邻的第一网格单元的位置关系,对第二向量中的每个第一网格单元进行类链式编码,得到第二栅格图像的第二向量,第二向量中的每个元素用于指示在第二栅格图像中该元素对应的第一网格单元与前一个元素对应的第一网格单元的位置关系;第一向量中的第一网格单元为像素值为预设值的网格单元;对第二栅格图像的第二向量和第二栅格图像的尺寸进行熵编码,以得到第二码流。
在一个可行的实施例中,当待编码图像为I帧时,第一栅格图像为待编码图像的α图像,第二栅格图像为待编码图像的α图像的掩膜图像。
在一个可行的实施例中,当待编码图像为I帧时,在根据待编码图像的YUV图像得到第三码流的方面,编码单元具体用于:
对待编码图像的YUV图像进行熵编码,以得到第三码流。
在一个可行的实施例中,当待编码图像为P帧时,第一栅格图像为待编码图像的α图像相对于待编码图像的参考帧的α图像的残差图像。
在一个可行的实施例中,当待编码图像为P帧时,在根据待编码图像的YUV图像得到第三码流的方面,编码单元具体用于:
根据待编码图像的参考帧的YUV图像和待编码图像的YUV图像得到待编码图像的YUV图像的残差图像;对待编码图像的YUV图像的残差图像进行熵编码,以得到第三码流
在一个可行的实施例中,输出单元903具体用于:
按照串行方式依次输出第一码流、第二码流和第三码流。
在一个可行的实施例中,编码单元902还用于:
对待编码图像对应的音频信号进行编码,得到第一码流、第二码流、第三码流和音频码流;
输出单元903,还用于按照串行方式依次输出音频码流。
需要说明的是,上述各单元(获取单元901、编码单元902和输出单元903)用于执行上述方法的步骤S301-S303的相关内容。其中,获取单元901用于执行S301的相关内容,编码单元902和输出单元903用于执行S302和S303的相关内容。
在本实施例中,视频编码设备900是以单元的形式来呈现。这里的“单元”可以指特定应用集成电路(application-specific integrated circuit,ASIC),执行一个或多个软件或固件程序的处理器和存储器,集成逻辑电路,和/或其他可以提供上述功能的器件。此外,以上获取单元901、编码单元902和输出单元903可通过图11所示的编码设备的处理器1101来实现。
参见图10,图10为本申请实施例提供的一种解码设备的结构示意图。如图10所示,该视频解码设备1000包括:
获取单元1001,用于获取视频的码流,视频的码流包括第一码流、第二码流和第三码流;
解码单元1002,用于对第一码流进行解码操作,以得到第一重建帧,第一重建帧与待解码图像的α图像的重建帧相关;待解码图像为视频中的任一帧;对第二码流进行解码操作,以得到第二重建帧;第二重建帧与待解码图像的α图像的掩膜图像的重建帧相关;根据第三码流得到第三重建帧,该第三重建帧为待解码图像的YUV图像的重建帧;
重建单元1003,用于根据第一重建帧和第二重建帧得到目标α图像的重建帧,根据目标α图像的重建帧对第三重建帧进行图像分割和叠加,以得到待解码图像的重建帧,待解码图像的重建帧为背景透明的第三重建帧。
在一个可行的实施例中,在对第一码流进行解码操作,以得到第一重建帧的方面,解码单元1002具体用于:
对第一码流进行熵解码,得到第一重建帧的多个子区域的每个子区域的第一像素值及每个子区域的尺寸;对第一重建帧的多个子区域的每个子区域的第一像素值及每个子区域的尺寸进行精细边缘AR解码,得到第一重建帧。
在一个可行的实施例中,在对第一重建帧的多个子区域的每个子区域的第一像素值及每个子区域的尺寸进行精细边缘AR解码,得到第一重建帧的方面,解码单元1002具体用于:
对多个子区域的第一像素值进行逆矢量量化,以得到多个子区域中每个子区域的共性像素值;根据多个子区域中每个子区域的共性像素值及尺寸进行逆DCT,以得到多个子区域,每个子区域内的每个像素值均为共性像素值;对多个子区域进行四叉树栅格解码,以得到第一重建帧。
在一个可行的实施例中,在对第二码流进行解码操作,以得到第二重建帧的方面,解码单元1002具体用于:
对第二码流进行熵解码,以得到第二重建帧的第二向量和第二重建帧的尺寸;第二向量中的每个元素用于表征在第二重建帧中与该元素对应的网格单元与前一个元素对应的网格单元的位置关系;对第二向量进行类链式解码,以得到第二重建帧的第一向量,第一向量中的元素包括第二重建帧中所有网格单元的像素值;根据第二重建帧的尺寸对第一向量进行行列变换,以得到第二重建帧。
在一个可行的实施例中,当待解码图像为I帧时,第一重建帧为待解码图像的α图像的重建帧;第二重建帧为待解码图像的α图像的掩膜图像的重建帧;
在根据第三码流得到第三重建帧的方面,解码单元1002具体用于:对第三码流进行解码,得到第三重建帧。
在一个可行的实施例中,当待解码图像为P帧时,第一重建帧为待解码图像的α图像相对于待解码图像的参考帧的α图像的残差图像的重建帧,第二重建帧为待解码图像的α图像相对于待解码图像的参考帧的α图像的残差图像的掩膜图像的重建帧;
在根据第三码流得到第三重建帧的方面,解码单元1002具体用于:
对第三码流进行解码,以得到待解码图像的YUV图像的残差图像的重建帧;根据待解码图像的YUV图像的残差图像的重建帧和待解码图像的参考帧的YUV图像的重建帧得到第三重建帧。
在一个可行的实施例中,在根据第一重建帧和第二重建帧得到目标α图像的重建帧的方面,重建单元1003具体用于:
对第一重建帧和第二重建帧进行与操作,以得到目标α图像的重建帧,
或者;
对第一重建帧和第二重建帧进行与操作,以得到第一α图像的重建帧,并将第一α图像的重建帧输入到补偿模型中进行边缘滤波处理,以得到目标α图像的重建帧;其中,补偿模型是基于神经网络实现的。
在一个可行的实施例中,在根据第一重建帧和第二重建帧得到目标α图像的重建帧的方面,重建单元1003具体用于:
对第一重建帧和第二重建帧进行与操作,以得到第二α图像的重建帧;根据待解码图像的参考帧的α图像的重建帧和第二α图像的重建帧得到目标α图像的重建帧;
或者;
对第一重建帧和第二重建帧进行与操作,以得第二α图像的重建帧;根据待解码图像的参考帧的α图像的重建帧和第二α图像的重建帧得到第三α图像的重建帧,并将第三α图像的重建帧输入到补偿模型中进行边缘滤波处理,以得到目标α图像的重建帧;其中,补偿模型是基于神经网络实现的。
可选地,上述神经网路可以为卷积神经网络、循环神经网络、全连接神经功能网络或者其他神经网络。
在一个可行的实施例中,码流还包括音频码流,解码单元1002还用于:
对音频码流进行解码,以得到待解码图像对应的音频信号。
在一个可行的实施例中,在重建单元1003用于根据目标α图像的重建帧对第三重建帧进行图像分割和叠加,以得到待解码图像的重建帧之前,解码单元1002还用于:
从码流解码出目标α图像的重建帧的时间戳、第三重建帧的时间戳和待解码图像对应的音频信号的时间戳;
在根据目标α图像的重建帧对第三重建帧进行图像分割和叠加,以得到待解码图像的重建帧的方面,重建单元1003具体用于:
当目标α图像的重建帧的时间戳、第三重建帧的时间戳和待解码图像对应的音频信号的时间戳一致时,根据目标α图像的重建帧对第三重建帧进行图像分割和叠加,以得到待解码图像的重建帧。
需要说明的是,上述各单元(获取单元1001、解码单元1002和重建单元1003)用于执行上述方法的步骤S601-S604的相关内容。其中,获取单元1001用于执行S601的相关内容,解码单元1002用于执行S602的相关内容,重建单元1003用于执行S604的相关内容。
在本实施例中,视频解码设备1000是以单元的形式来呈现。这里的“单元”可以指特定应用集成电路(application-specific integrated circuit,ASIC),执行一个或多个软件或固件程序的处理器和存储器,集成逻辑电路,和/或其他可以提供上述功能的器件。此外,以上获取单元1001、解码单元1002和重建单元1003可通过图12所示的解码设备的处理器1201来实现。
如图11所示视频编码设备1100可以以图11中的结构来实现,该视频编码设备1100包括至少一个处理器1101,至少一个存储器1102以及至少一个通信接口1103。所述处理器1101、所述存储器1102和所述通信接口1103通过所述通信总线连接并完成相互间的通信。
处理器1101可以是通用中央处理器(CPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制以上方案程序执行的集成电路。
通信接口1103,用于与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(Wireless Local Area Networks,WLAN)等。
存储器1102可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
其中,所述存储器1102用于存储执行以上方案的应用程序代码,并由处理器1101来控制执行。所述处理器1101用于执行所述存储器1102中存储的应用程序代码。
存储器1102存储的代码可执行以上提供的任一种视频编码方法,比如执行如下步骤:
获取待编码图像的第一栅格图像,第一栅格图像是根据待编码图像的α图像得到的,待编码图像为待传输视频中的任一帧;对第一栅格图像进行四叉树栅格编码操作,以得到第一码流;对第二栅格图像进行类链式编码操作,以得到第二码流,第二栅格图像为第一栅格图像的掩膜图像;根据待编码图像的YUV图像得到第三码流,将第一码流、第二码流和第三码流合并输出。
在一个可行的实施例中,在执行对第一栅格图像进行四叉树栅格编码操作,以得到第一码流的步骤时,处理器1101具体执行如下步骤:
对第一栅格地图进行精细边缘AR编码,得到多个子区域中每个子区域的尺寸和该子区域的第一像素值,多个子区域是根据第一栅格图像得到的;对多个子区域中每个子区域的尺寸和该子区域的第一像素值进行熵编码,以得到第一码流。
在一个可行的实施例中,在执行对第一栅格地图进行精细边缘增强现实AR编码,得到多个子区域中每个子区域的尺寸和该子区域的第一像素值的步骤时,处理器1101具体执行如下步骤:
对第一栅格图像进行四叉树栅格编码,得到多个子区域,多个子区域中的每个子区域内每个网格单元的像素值均相同;对多个子区域中的每个子区域进行DCT,以得到每个子区域的共性像素值及该子区域的尺寸,每个子区域的共性像素值为该子区域内任一网格单元的像素值;对多个子区域的共性像素值进行矢量量化,得到每个子区域的共性像素值的量化结果,每个子区域的共性像素值的量化结果为每个子区域的第一像素值。
在一个可行的实施例中,在执行对第一栅格图像进行类链式编码操作,以得到第二码流的步骤时,处理器1101具体执行如下步骤:
对第一栅格图像进行降维处理,以得到第二栅格图像,第二栅格图像为二值图;对第二栅格图像进行列值化处理,以得到第二栅格图像的第一向量;第二栅格图像的第一向量中的元素包括第二栅格图像中网格单元的像素值;根据第一向量中每个第一网格单元在第二栅格图像中与其相邻的第一网格单元的位置关系,对第二向量中的每个第一网格单元进行类链式编码,得到第二栅格图像的第二向量,第二向量中的每个元素用于指示在第二栅格图像中该元素对应的第一网格单元与前一个元素对应的第一网格单元的位置关系;第一向量中的第一网格单元为像素值为预设值的网格单元;对第二栅格图像的第二向量和第二栅格图像的尺寸进行熵编码,以得到第二码流。
在一个可行的实施例中,当待编码图像为I帧时,第一栅格图像为待编码图像的α图像。
在一个可行的实施例中,当待编码图像为I帧时,在执行根据待编码图像的YUV图像得到第三码流的步骤时,处理器1101具体用于执行如下步骤:
对待编码图像的YUV图像进行熵编码,以得到第三码流。
在一个可行的实施例中,当待编码图像为P帧时,第一栅格图像是根据待编码图像的α图像得到的,包括:
第一栅格图像为待编码图像的α图像相对于待编码图像的参考帧的α图像的残差图像;
在执行根据待编码图像的YUV图像得到第三码流的步骤时,处理器1101具体用于执行如下步骤:
根据待编码图像的参考帧的YUV图像和待编码图像的YUV图像得到待编码图像的YUV图像的残差图像;对待编码图像的YUV图像的残差图像进行熵编码,以得到第三码流。
在一个可行的实施例中,在执行将第一码流、第二码流和第三码流合并输出的步骤时,处理器1101具体用于执行如下步骤:按照串联方式依次输出第一码流、第二码流和第三码流。
在一个可行的实施例中,处理器1101还具体用于执行如下步骤:
对待编码图像对应的音频信号进行编码,以得到音频码流。
如图12所示视频解码设备1200可以以图12中的结构来实现,该视频解码设备1200包括至少一个处理器1201,至少一个存储器1202以及至少一个通信接口1203。所述处理器1201、所述存储器1202和所述通信接口1203通过所述通信总线连接并完成相互间的通信。
处理器1201可以是通用中央处理器(CPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制以上方案程序执行的集成电路。
通信接口1203,用于与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(Wireless Local Area Networks,WLAN)等。
存储器1202可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
其中,所述存储器1202用于存储执行以上方案的应用程序代码,并由处理器1201来控制执行。所述处理器1201用于执行所述存储器1202中存储的应用程序代码。
存储器1202存储的代码可执行以上提供的任一种视频解码方法,比如执行如下步骤:
获取视频的码流,视频的码流包括第一码流、第二码流和第三码流;对第一码流进行解码操作,以得到第一重建帧,第一重建帧与待解码图像的α图像的重建帧相关;待解码图像为视频中的任一帧;对第二码流进行解码操作,以得到第二重建帧;第二重建帧与待解码图像的α图像的掩膜图像的重建帧相关;根据第三码流得到第三重建帧,该第三重建帧为待解码图像的YUV图像的重建帧;根据第一重建帧和第二重建帧得到目标α图像的重建帧,根据目标α图像的重建帧对第三重建帧进行图像分割和叠加,以得到待解码图像的重建帧,待解码图像的重建帧为背景透明的第三重建帧。
在一个可行的实施例中,在执行对第一码流进行解码操作,以得到第一重建帧的步骤时,处理器1201具体用于执行如下步骤:
对第一码流进行熵解码,得到第一重建帧的多个子区域的每个子区域的第一像素值及每个子区域的尺寸;对第一重建帧的多个子区域的每个子区域的第一像素值及每个子区域的尺寸进行精细边缘AR解码,得到第一重建帧。
在一个可行的实施例中,在执行对第一重建帧的多个子区域的每个子区域的第一像素值及每个子区域的尺寸进行精细边缘AR解码,得到第一重建帧的步骤时,处理器1201具体用于执行如下步骤:
对多个子区域的第一像素值进行逆矢量量化,以得到多个子区域中每个子区域的共性像素值;根据多个子区域中每个子区域的共性像素值及尺寸进行逆DCT,以得到多个子区域,每个子区域内的每个像素值均为共性像素值;对多个子区域进行四叉树栅格解码,以得到第一重建帧。
在一个可行的实施例中,在执行对第二码流进行解码操作,以得到第二重建帧的步骤时,处理器1201具体用于执行如下步骤:
对第二码流进行熵解码,以得到第二重建帧的第二向量和第二重建帧的尺寸;第二向量中的每个元素用于表征在第二重建帧中与该元素对应的网格单元与前一个元素对应的网格单元的位置关系;对第二向量进行类链式解码,以得到第二重建帧的第一向量,第一向量中的元素包括第二重建帧中所有网格单元的像素值;根据第二重建帧的尺寸对第一向量进行行列变换,以得到第二重建帧。
在一个可行的实施例中,当待解码图像为I帧时,第一重建帧为待解码图像的α图像的重建帧;第二重建帧为待解码图像的α图像的掩膜图像的重建帧;
在执行根据第三码流得到第三重建帧的步骤时,处理器1201具体用于执行如下步骤:
对第三码流进行熵解码得到第三重建帧。
在一个可行的实施例中,当待解码图像为P帧时,第一重建帧为待解码图像的α图像相对于待解码图像的参考帧的α图像的残差图像的重建帧,第二重建帧为待解码图像的α图像相对于待解码图像的参考帧的α图像的残差图像的掩膜图像的重建帧;
在执行根据第三码流得到第三重建帧的步骤时,处理器1201具体用于执行如下步骤:
对第三码流进行解码,以得到待解码图像的YUV图像的残差图像的重建帧;根据待解码图像的YUV图像的残差图像的重建帧和待解码图像的参考帧的YUV图像的重建帧得到第三重建帧。
在一个可行的实施例中,在执行根据第一重建帧和第二重建帧得到目标α图像的重建帧的步骤时,处理器1201具体用于执行如下步骤:
对第一重建帧和第二重建帧进行与操作,以得到目标α图像的重建帧,
或者;
对第一重建帧和第二重建帧进行与操作,以得到第一α图像的重建帧,并将第一α图像的重建帧输入到补偿模型中进行边缘滤波处理,以得到目标α图像的重建帧;其中,补偿模型是基于神经网络实现的。
在一个可行的实施例中,在执行根据第一重建帧和第二重建帧得到目标α图像的重建帧的步骤时,处理器1201具体用于执行如下步骤:
对第一重建帧和第二重建帧进行与操作,以得到第二α图像的重建帧;根据待解码图像的参考帧的α图像的重建帧和第二α图像的重建帧得到目标α图像的重建帧;
或者;
对第一重建帧和第二重建帧进行与操作,以得到第二α图像的重建帧;根据待解码图像的参考帧的α图像的重建帧和第二α图像的重建帧得到第三α图像的重建帧,并将第三α图像的重建帧输入到补偿模型中进行边缘滤波处理,以得到目标α图像的重建帧;其中,补偿模型是基于神经网络实现的。
在一个可行的实施例中,码流还包括音频码流,处理器1201还具体用于执行如下步骤:
对音频码流进行解码,以得到待解码图像对应的音频信号。
在一个可行的实施例中,在执行根据目标α图像的重建帧对第三重建帧进行图像分割和叠加,以得到待解码图像的重建帧的步骤之前,处理器1201还具体用于执行如下步骤:
从码流解码出目标α图像的重建帧的时间戳、第三重建帧的时间戳和待解码图像对应的音频信号的时间戳;
在执行根据目标α图像的重建帧对第三重建帧进行图像分割和叠加,以得到待解码图像的重建帧的步骤时,处理器1201还具体用于执行如下步骤:
当目标α图像的重建帧的时间戳、第三重建帧的时间戳和待解码图像对应的音频信号的时间戳一致时,根据目标α图像的重建帧对第三重建帧进行图像分割和叠加,以得到待解码图像的重建帧。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时包括上述方法实施例中记载的任何一种视频编解码方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (25)
1.一种视频编码方法,其特征在于,包括:
获取待编码图像的第一栅格图像,所述第一栅格图像是根据所述待编码图像的α图像得到的,所述待编码图像为待传输视频中的任一帧;
对第一栅格图像进行四叉树栅格编码操作,以得到第一码流;对所述第二栅格图像进行类链式编码操作,以得到第二码流,第二栅格图像为所述第一栅格图像的掩膜图像;
根据所述待编码图像的YUV图像得到第三码流;
将所述第一码流、所述第二码流和第三码流合并输出。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一栅格图像进行四叉树栅格编码操作,以得到第一码流,包括:
对所述第一栅格地图进行精细边缘增强现实AR编码,得到多个子区域中每个子区域的尺寸和该子区域的第一像素值,所述多个子区域是根据所述第一栅格图像得到的;
对所述多个子区域中每个子区域的尺寸和该子区域的第一像素值进行熵编码,以得到所述第一码流。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一栅格地图进行精细边缘增强现实AR编码,得到多个子区域中每个子区域的尺寸和该子区域的第一像素值,包括:
对所述第一栅格图像进行四叉树栅格编码,得到所述多个子区域,所述多个子区域中的每个子区域内每个网格单元的像素值均相同;
对所述多个子区域中的每个子区域进行离散余弦变换DCT,以得到所述每个子区域的共性像素值及该子区域的尺寸,所述每个子区域的共性像素值为该子区域内任一网格单元的像素值;
对所述多个子区域的共性像素值进行矢量量化,得到每个子区域的共性像素值的量化结果,所述每个子区域的共性像素值的量化结果为所述每个子区域的第一像素值。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述对所述第二栅格图像进行类链式编码操作,以得到第二码流,包括:
对所述第二栅格图像进行列值化处理,以得到所述第二栅格图像的第一向量;所述第二栅格图像的第一向量中的元素包括所述第二栅格图像中网格单元的像素值;
根据所述第一向量中每个第一网格单元在所述第二栅格图像中与其相邻的第一网格单元的位置关系,对所述第二向量中的每个第一网格单元进行类链式编码,得到所述第二栅格图像的第二向量,所述第二向量中的每个元素用于指示在所述第二栅格图像中该元素对应的第一网格单元与前一个元素对应的第一网格单元的位置关系;所述第一向量中的第一网格单元为像素值为预设值的网格单元;
对所述第二栅格图像的第二向量和所述第二栅格图像的尺寸进行熵编码,以得到所述第二码流。
5.根据权利要求1-4任一项所述的方法,其特征在于,当所述待编码图像为I帧时,所述第一栅格图像为所述待编码图像的α图像。
6.根据权利要求1-4任一项所述的方法,其特征在于,当所述待编码图像为I帧时,所述根据所述待编码图像的YUV图像得到第三码流,包括:
对所述待编码图像的YUV图像进行熵编码,以得到所述第三码流。
7.根据权利要求1-4任一项所述的方法,其特征在于,当所述待编码图像为P帧时,所述第一栅格图像是根据所述待编码图像的α图像得到的,包括:
所述第一栅格图像为所述待编码图像的α图像相对于所述待编码图像的参考帧的α图像的残差图像;
所述根据待编码图像的YUV图像得到第三码流,包括:
根据所述待编码图像的参考帧的YUV图像和所述待编码图像的YUV图像得到所述待编码图像的YUV图像的残差图像;
对所述待编码图像的YUV图像的残差图像进行熵编码,以得到所述第三码流。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述将所述第一码流、所述第二码流和第三码流合并输出,包括:
按照串联方式依次输出所述第一码流、所述第二码流和所述第三码流。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述方法还包括:
对所述待编码图像对应的音频信号进行编码,以得到音频码流。
10.一种视频解码方法,其特征在于,包括:
获取所述视频的码流,所述视频的码流包括第一码流、第二码流和第三码流;
对所述第一码流进行解码操作,以得到第一重建帧,所述第一重建帧与待解码图像的α图像的重建帧相关;所述待解码图像为所述视频中的任一帧;
对所述第二码流进行解码操作,以得到第二重建帧;所述第二重建帧与所述待解码图像的α图像的掩膜图像的重建帧相关;
根据所述第三码流得到第三重建帧,所述第三重建帧为所述待解码图像的YUV图像的重建帧;
根据所述第一重建帧和所述第二重建帧得到目标α图像的重建帧,
根据目标α图像的重建帧对第三重建帧进行图像分割和叠加,以得到待解码图像的重建帧,所述待解码图像的重建帧为背景透明的第三重建帧。
11.根据权利要求10所述的方法,其特征在于,所述对所述第一码流进行解码操作,以得到第一重建帧,包括:
对所述第一码流进行熵解码,得到所述第一重建帧的多个子区域的每个子区域的第一像素值及所述每个子区域的尺寸;
对所述第一重建帧的多个子区域的每个子区域的第一像素值及所述每个子区域的尺寸进行精细边缘增强现实AR解码,得到所述第一重建帧。
12.根据权利要求11所述的方法,其特征在于,所述对所述第一重建帧的多个子区域的每个子区域的第一像素值及所述每个子区域的尺寸进行精细边缘增强现实AR解码,得到所述第一重建帧,包括:
对所述多个子区域的第一像素值进行逆矢量量化,以得到所述多个子区域中每个子区域的共性像素值;
根据所述多个子区域中每个子区域的共性像素值及尺寸进行逆离散余弦变换DCT,以得到多个子区域,所述每个子区域内的每个像素值均为所述共性像素值;
对所述多个子区域进行四叉树栅格解码,以得到所述第一重建帧。
13.根据权利要求10-12任一项所述的方法,其特征在于,所述对所述第二码流进行解码操作,以得到第二重建帧,包括:
对所述第二码流进行熵解码,以得到所述第二重建帧的第二向量和所述第二重建帧的尺寸;所述第二向量中的每个元素用于表征在所述第二重建帧中与该元素对应的网格单元与前一个元素对应的网格单元的位置关系;
对所述第二向量进行类链式解码,以得到所述第二重建帧的第一向量,所述第一向量中的元素包括所述第二重建帧中所有网格单元的像素值;
根据所述第二重建帧的尺寸对所述第一向量进行行列变换,以得到所述第二重建帧。
14.根据权利要求10-13任一项所述的方法,其特征在于,当所述待解码图像为I帧时,
所述第一重建帧为所述待解码图像的α图像的重建帧;所述第二重建帧为所述待解码图像的α图像的掩膜图像的重建帧;
所述根据所述第三码流得到第三重建帧,包括:
对所述第三码流进行熵解码得到所述第三重建帧。
15.根据权利要求10-13任一项所述的方法,其特征在于,当所述待解码图像为P帧时,所述第一重建帧为所述待解码图像的α图像相对于所述待解码图像的参考帧的α图像的残差图像的重建帧,
所述第二重建帧与所述待解码图像的α图像的掩膜图像的重建帧相关,包括:
所述第二重建帧为所述待解码图像的α图像相对于所述待解码图像的参考帧的α图像的残差图像的掩膜图像的重建帧;
所述根据所述第三码流得到第三重建帧,包括:
对所述第三码流进行解码,以得到所述待解码图像的YUV图像的残差图像的重建帧;
根据所述待解码图像的YUV图像的残差图像的重建帧和所述待解码图像的参考帧的YUV图像的重建帧得到所述第三重建帧。
16.根据权利要求14所述的方法,其特征在于,所述根据所述第一重建帧和第二重建帧得到目标α图像的重建帧,包括:
对所述第一重建帧和所述第二重建帧进行与操作,以得到所述目标α图像的重建帧,
或者;
对所述第一重建帧和所述第二重建帧进行与操作,以得到第一α图像的重建帧,并将所述第一α图像的重建帧输入到补偿模型中进行边缘滤波处理,以得到所述目标α图像的重建帧;其中,所述补偿模型是基于神经网络实现的。
17.根据权利要求15所述的方法,其特征在于,所述根据所述第一重建帧和第二重建帧得到目标α图像的重建帧,包括:
对所述第一重建帧和所述第二重建帧进行与操作,以得到所述第二α图像的重建帧;根据所述待解码图像的参考帧的α图像的重建帧和第二α图像的重建帧得到所述目标α图像的重建帧;
或者;
对所述第一重建帧和所述第二重建帧进行与操作,以得到所述第二α图像的重建帧;根据所述待解码图像的参考帧的α图像的重建帧和第二α图像的重建帧得到第三α图像的重建帧,并将所述第三α图像的重建帧输入到补偿模型中进行边缘滤波处理,以得到所述目标α图像的重建帧;其中,所述补偿模型是基于神经网络实现的。
18.根据权利要求10-17任一项所述的方法,其特征在于,所述码流还包括音频码流,所述方法还包括:
对所述音频码流进行解码,以得到所述待解码图像对应的音频信号。
19.根据权利要求18所述的方法,其特征在于,所述根据目标α图像的重建帧对第三重建帧进行图像分割和叠加,以得到待解码图像的重建帧之前,所述方法还包括:
从所述码流解码出所述目标α图像的重建帧的时间戳、所述第三重建帧的时间戳和待解码图像对应的音频信号的时间戳;
所述根据目标α图像的重建帧对第三重建帧进行图像分割和叠加,以得到待解码图像的重建帧,包括:
当所述目标α图像的重建帧的时间戳、所述第三重建帧的时间戳和所述待解码图像对应的音频信号的时间戳一致时,根据所述目标α图像的重建帧对所述第三重建帧进行图像分割和叠加,以得到所述待解码图像的重建帧。
20.一种视频编码设备,其特征在于,包括:
存储器,用于存储指令;以及
处理器,与所述存储器耦合;
其中,当所述处理器执行所述指令时,使得所述视频编码设备执行如权利要求1-9任一项所述的方法。
21.一种视频解码设备,其特征在于,包括:
存储器,用于存储指令;以及
处理器,与所述存储器耦合;
其中,当所述处理器执行所述指令时,使得所述视频解码设备执行如权利要求10-19任一项所述的方法。
22.一种视频设备,其特征在于,包括:
存储器,用于存储指令;以及
处理器,与所述存储器耦合;
其中,当所述处理器执行所述指令时,执行如权利要求1-19任一项所述的方法。
23.一种芯片系统,其特征在于,所述芯片系统应用于电子设备;所述芯片系统包括一个或多个接口电路,以及一个或多个处理器;所述接口电路和所述处理器通过线路互联;所述接口电路用于从所述电子设备的存储器接收信号,并向所述处理器发送所述信号,所述信号包括所述存储器中存储的计算机指令;当所述处理器执行所述计算机指令时,所述电子设备执行如权利要求1-19中任意一项所述方法。
24.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-19任一项所述的方法。
25.一种计算机程序产品,其特征在于,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1-19任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011226975.8A CN114449285A (zh) | 2020-11-05 | 2020-11-05 | 视频编解码方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011226975.8A CN114449285A (zh) | 2020-11-05 | 2020-11-05 | 视频编解码方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114449285A true CN114449285A (zh) | 2022-05-06 |
Family
ID=81362159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011226975.8A Pending CN114449285A (zh) | 2020-11-05 | 2020-11-05 | 视频编解码方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114449285A (zh) |
-
2020
- 2020-11-05 CN CN202011226975.8A patent/CN114449285A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112383781B (zh) | 参考块的位置决定其重构阶段的块匹配编解码方法和装置 | |
US10575007B2 (en) | Efficient decoding and rendering of blocks in a graphics pipeline | |
KR102453512B1 (ko) | 투영 기반 프레임을 프로세싱하기 위한 방법 | |
KR102071764B1 (ko) | 영상 부호화, 복호화 방법 및 장치 | |
KR102165147B1 (ko) | 계층형 신호 디코딩 및 신호 복원 | |
KR101868247B1 (ko) | 영상 부호화, 복호화 방법 및 장치 | |
KR101946598B1 (ko) | 이미지 코딩, 디코딩 방법 및 장치 | |
CN104581177B (zh) | 一种结合块匹配和串匹配的图像压缩方法和装置 | |
KR102669366B1 (ko) | 비디오 처리 시스템 | |
KR20190020083A (ko) | 인코딩 방법 및 장치 및 디코딩 방법 및 장치 | |
GB2561152A (en) | Data processing systems | |
US20200267385A1 (en) | Method for processing synchronised image, and apparatus therefor | |
CN116569217A (zh) | 用于对由编码器进行的网格压缩进行自适应采样的方法和装置 | |
CN110022481A (zh) | 视频码流的解码、生成方法及装置、存储介质、电子装置 | |
WO2024078066A1 (zh) | 视频解码方法、视频编码方法、装置、存储介质及设备 | |
CN114449285A (zh) | 视频编解码方法及相关设备 | |
JP2024517915A (ja) | データ処理方法、装置、コンピュータ機器及びコンピュータプログラム | |
CN107770543B (zh) | 多类匹配参数中按顺序递增截断值的数据压缩方法和装置 | |
CN108520492B (zh) | 全景视频映射方法及系统 | |
US20240153150A1 (en) | Mesh Compression Texture Coordinate Signaling and Decoding | |
CN104581186B (zh) | 一种图像压缩中对帧内移动矢量进行编码和解码的方法 | |
KR100522171B1 (ko) | 임의 형상 프레임 생성기 및 그를 이용한 임의 형상프레임 생성 방법 | |
JP2023552114A (ja) | メッシュ展開のための方法、装置及びプログラム | |
KR20230169317A (ko) | 제약된 기하구조 동적 범위를 갖는 메시 압축 | |
WO2023129985A1 (en) | Dynamic mesh coding with simplified topology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |