CN116668702B - 一种视频编码方法、装置、终端设备及存储介质 - Google Patents
一种视频编码方法、装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN116668702B CN116668702B CN202310945851.2A CN202310945851A CN116668702B CN 116668702 B CN116668702 B CN 116668702B CN 202310945851 A CN202310945851 A CN 202310945851A CN 116668702 B CN116668702 B CN 116668702B
- Authority
- CN
- China
- Prior art keywords
- image
- coded
- motion vector
- prediction residual
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 239000013598 vector Substances 0.000 claims abstract description 219
- 238000013139 quantization Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims description 84
- 238000001914 filtration Methods 0.000 claims description 63
- 230000006835 compression Effects 0.000 claims description 58
- 238000007906 compression Methods 0.000 claims description 58
- 238000012549 training Methods 0.000 claims description 54
- 230000006870 function Effects 0.000 claims description 40
- 238000001514 detection method Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 22
- 230000004927 fusion Effects 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 12
- 230000008685 targeting Effects 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000014759 maintenance of location Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000764238 Isis Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/137—Motion inside a coding unit, e.g. average field, frame or block difference
- H04N19/139—Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/117—Filters, e.g. for pre-processing or post-processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/13—Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/157—Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
- H04N19/159—Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开一种视频编码方法、装置、终端设备及存储介质,方法包括:当待编码图像属于帧内编码时,通过预先以机器智能任务为目标训练的视频编码模型进行图像编码、量化和熵编码,获得二进制码流;当待编码图像属于帧间编码时,通过视频编码模型,首先进行运动估计,然后进行运动矢量编码、量化和熵编码,对待编码运动矢量信号进行运动矢量解码和运动补偿,然后根据待编码图像获得预测残差;根据隐向量和运动矢量隐向量获取显著图像以对预测残差进行滤波,然后进行残差编码、量化和熵编码获得预测残差码流,结合运动矢量码流获得整合码流;根据各待编码图像的二进制码流/整合码流,获得目标压缩视频。本发明能够满足机器智能任务的视频编码需求。
Description
技术领域
本发明涉及视频处理技术领域,尤其是涉及一种视频编码方法、装置、终端设备及计算机可读存储介质。
背景技术
视频编码,也称视频压缩,其目的是消除视频信号间存在的冗余信息。在现有技术中,通常采用基于神经网络的视频编码模型以实现端到端的视频编码,然而其目的是为了人类视觉观赏,以像素保真作为视频编码的目标,当面临如图像分类、目标检测、目标分割等机器智能任务时,通过该视频编码方式所输出的压缩视频不具备面向机器智能任务的显著性信息,因此现有技术中的该视频编码方式无法有效地满足机器智能任务的视频编码需求。
发明内容
本发明提供一种视频编码方法、装置、终端设备及存储介质,通过预先以机器智能任务为目标训练的视频编码模型对待编码视频进行编码,并在编码过程中引入面向机器智能任务的显著图像,能够有效分配待编码视频中不同区域的信息保持程度,减少了对机器智能任务不敏感的信息的编码和传输,从而有效地满足机器智能任务的视频编码需求。
为了解决上述技术问题,本发明实施例第一方面提供一种视频编码方法,包括如下步骤:
基于待编码视频中的若干视频帧,获取若干待编码图像;
当当前的待编码图像的编码方式为帧内编码方式时,将所述待编码图像输入至预设的视频编码模型,依次对所述待编码图像进行图像编码处理、量化处理和熵编码处理,获得所述待编码图像的二进制码流;
当当前的待编码图像的编码方式为帧间编码方式时,将所述待编码图像输入至所述视频编码模型,利用预设的参考图像对所述待编码图像进行运动估计,获得运动矢量;依次对所述运动矢量进行运动矢量编码处理、量化处理和熵编码处理,分别获得运动矢量隐向量、待编码运动矢量信号和运动矢量码流;基于所述参考图像,依次对所述待编码运动矢量信号进行运动矢量解码处理和运动补偿,获得预测图像,并根据所述待编码图像和所述预测图像,获得预测残差;对所述待编码图像进行图像编码处理,获得隐向量,并根据所述隐向量和所述运动矢量隐向量,通过预设的显著图生成模块获取显著图像;根据所述显著图像,对所述预测残差进行滤波,并依次对滤波后的预测残差进行残差编码处理、量化处理和熵编码处理,获得预测残差码流;根据所述运动矢量码流和所述预测残差码流,获得所述待编码图像的整合码流;
根据各待编码图像的所述二进制码流/所述整合码流,获得目标压缩视频;
其中,所述视频编码模型包括图像压缩子模型、视频压缩子模型和所述显著图生成模块;所述图像压缩子模型至少包括图像编码器、量化器和熵编码器;所述视频压缩子模型至少包括运动估计网络、运动矢量编码器、若干量化器、若干熵编码器、运动矢量解码器、运动补偿网络、滤波器和残差编码器;所述显著图生成模块包括若干卷积层和反卷积层;所述图像编码器和所述显著图生成模块均预先以预设机器智能任务为目标进行训练。
作为优选方案,所述依次对所述待编码图像进行图像编码处理、量化处理和熵编码处理,获得所述待编码图像的二进制码流,具体包括如下步骤:
基于所述图像压缩子模型,对所述待编码图像进行图像编码处理,获得包含所述预设机器智能任务所对应的显著性信息的隐向量;
对所述隐向量进行量化处理,获得待编码信号;
对所述待编码信号进行熵编码处理,获得所述待编码图像的二进制码流。
作为优选方案,所述利用预设的参考图像对所述待编码图像进行运动估计,获得运动矢量,具体包括如下步骤:
基于所述视频压缩子模型,将所述待编码图像和所述参考图像输入至所述运动估计网络,通过所述运动估计网络对所述编码图像进行运动估计,获得所述运动矢量;
其中,所述参考图像为前一个待编码图像经过编码处理与解码处理后所获得的重建图像。
作为优选方案,所述基于所述参考图像,依次对所述待编码运动矢量信号进行运动矢量解码处理和运动补偿,获得预测图像,具体包括如下步骤:
基于所述视频压缩子模型,对所述待编码运动矢量信号进行运动矢量解码处理,获得重建运动矢量;
将所述重建运动矢量和所述参考图像输入至所述运动补偿网络,通过所述运动补偿网络对所述重建运动矢量进行运动补偿,获得所述预测图像。
作为优选方案,所述根据所述隐向量和所述运动矢量隐向量,通过预设的显著图生成模块获取显著图像,具体包括如下步骤:
将所述隐向量和所述运动矢量隐向量沿着通道维度堆叠后进行特征融合,获得融合特征;
将所述融合特征输入至所述显著图生成模块,通过所述显著图生成模块对所述融合特征进行若干次卷积操作和反卷积操作,获得所述显著图像。
作为优选方案,所述根据所述显著图像,对所述预测残差进行滤波,具体包括如下步骤:
根据所述显著图像,通过如下表达式对所述预测残差进行滤波:
其中,表示滤波后的预测残差;/>表示所述预测残差;/>表示所述显著图像;/>表示预设滤波强度。
作为优选方案,所述根据所述显著图像,对所述预测残差进行滤波,具体还包括如下步骤:
根据所述显著图像,通过如下表达式对所述预测残差进行滤波:
其中,表示滤波后的预测残差;/>表示所述预测残差;/>表示取最大值函数;/>表示所述显著图像;/>表示预设滤波强度。
作为优选方案,所述根据所述显著图像,对所述预测残差进行滤波,具体还包括如下步骤:
根据所述显著图像,通过如下表达式对所述预测残差进行滤波:
其中,表示滤波后的预测残差;/>表示所述预测残差;/>表示所述显著图像;/>表示预设滤波强度。
作为优选方案,所述根据所述显著图像,对所述预测残差进行滤波,具体还包括如下步骤:
根据所述显著图像,通过如下表达式对所述预测残差进行滤波:
其中,表示滤波后的预测残差;/>表示所述预测残差;/>表示所述显著图像;/>表示预设滤波强度。
作为优选方案,所述根据所述显著图像,对所述预测残差进行滤波,具体还包括如下步骤:
根据所述显著图像,通过如下表达式对所述预测残差进行滤波:
其中,表示滤波后的预测残差;/>表示所述预测残差;/>表示所述显著图像;/>表示预设滤波强度。
作为优选方案,所述依次对滤波后的预测残差进行残差编码处理、量化处理和熵编码处理,获得预测残差码流,具体包括如下步骤:
基于所述视频压缩子模型,对滤波后的预测残差进行残差编码处理,获得预测残差隐向量;
对所述预测残差隐向量进行量化处理,获得待编码预测残差信号;
对所述待编码预测残差信号进行熵编码处理,获得所述预测残差码流。
作为优选方案,所述图像压缩子模型还包括熵解码器和图像解码器;
所述方法还包括如下步骤:
依次对所述待编码图像的二进制码流进行熵解码处理和图像解码处理,获得所述待编码图像所对应的重建图像,并将所述重建图像存储于预设的解码图像缓存,以使所述重建图像作为后一个待编码图像的参考图像。
作为优选方案,所述视频压缩子模型还包括熵解码器和残差解码器;
所述方法还包括如下步骤:
依次对所述预测残差码流进行熵解码处理和残差解码处理,获得所述待编码图像所对应的重建图像,并将所述重建图像存储于预设的解码图像缓存,以使所述重建图像作为后一个待编码图像的参考图像。
作为优选方案,所述方法具体通过如下步骤以所述预设机器智能任务为目标对未训练的图像编码器进行训练:
基于在未训练的图像编码器的后端接入的加载有预训练模型的对象分割网络,根据未训练的图像编码器的码流大小、训练图像与所述训练图像所对应的重建图像的像素均方误差、所述训练图像所对应的重建图像经过所述对象分割网络所获得的检测精度,按照预设的权重值进行融合,获得损失函数;
基于所述损失函数,利用反向传递方法对未训练的图像编码器进行训练,获得训练后的图像编码器。
作为优选方案,所述方法具体通过如下步骤以所述预设机器智能任务为目标对未训练的显著图生成模块进行训练:
将训练图像输入至未训练的显著图生成模块,生成所述训练图像所对应的显著图像;
以所述训练图像所对应的显著图像与所述训练图像的预设机器智能任务检测结果基准信息的点乘之和作为损失函数,对未训练的显著图生成模块进行训练,获得训练后的显著图生成模块。
作为优选方案,所述方法具体通过如下步骤识别当前的待编码图像的编码方式:
基于预设的随机访问间隔,确定若干所述待编码图像中的若干随机访问图像和非随机访问图像;
当当前的待编码图像属于所述随机访问图像时,判定当前的待编码图像的编码方式为帧内编码方式;
当当前的待编码图像属于所述非随机访问图像时,判定当前的待编码图像的编码方式为帧间编码方式。
作为优选方案,所述方法具体还通过如下步骤识别当前的待编码图像的编码方式:
对当前的待编码图像进行场景切换检测;
当当前的待编码图像属于场景切换图像时,判定当前的待编码图像的编码方式为帧内编码方式;
当当前的待编码图像属于非场景切换图像时,判定当前的待编码图像的编码方式为帧间编码方式。
作为优选方案,所述显著图生成模块包括依次连接的第一卷积层、第一反卷积层、第二卷积层、第二反卷积层、第三卷积层、第三反卷积层、第四卷积层、第四反卷积层和第五卷积层;
所述第一卷积层、所述第一反卷积层、所述第二卷积层、所述第二反卷积层、所述第三卷积层、所述第三反卷积层、所述第四卷积层和所述第四反卷积层的激活函数均为ReLU激活函数,所述第五卷积层的激活函数为Sigmoid函数。
本发明实施例第二方面提供一种视频编码装置,包括:
待编码图像获取模块,用于基于待编码视频中的若干视频帧,获取若干待编码图像;
第一编码模块,用于当当前的待编码图像的编码方式为帧内编码方式时,将所述待编码图像输入至预设的视频编码模型,依次对所述待编码图像进行图像编码处理、量化处理和熵编码处理,获得所述待编码图像的二进制码流;
第二编码模块,用于当当前的待编码图像的编码方式为帧间编码方式时,将所述待编码图像输入至所述视频编码模型,利用预设的参考图像对所述待编码图像进行运动估计,获得运动矢量;依次对所述运动矢量进行运动矢量编码处理、量化处理和熵编码处理,分别获得运动矢量隐向量、待编码运动矢量信号和运动矢量码流;基于所述参考图像,依次对所述待编码运动矢量信号进行运动矢量解码处理和运动补偿,获得预测图像,并根据所述待编码图像和所述预测图像,获得预测残差;对所述待编码图像进行图像编码处理,获得隐向量,并根据所述隐向量和所述运动矢量隐向量,通过预设的显著图生成模块获取显著图像;根据所述显著图像,对所述预测残差进行滤波,并依次对滤波后的预测残差进行残差编码处理、量化处理和熵编码处理,获得预测残差码流;根据所述运动矢量码流和所述预测残差码流,获得所述待编码图像的整合码流;
目标压缩视频获取模块,用于根据各待编码图像的所述二进制码流/所述整合码流,获得目标压缩视频;
其中,所述视频编码模型包括图像压缩子模型、视频压缩子模型和所述显著图生成模块;所述图像压缩子模型至少包括图像编码器、量化器和熵编码器;所述视频压缩子模型至少包括运动估计网络、运动矢量编码器、若干量化器、若干熵编码器、运动矢量解码器、运动补偿网络、滤波器和残差编码器;所述显著图生成模块包括若干卷积层和反卷积层;所述图像编码器和所述显著图生成模块均预先以预设机器智能任务为目标进行训练。
本发明实施例第三方面提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的视频编码方法。
本发明实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面任一项所述的视频编码方法。
相比于现有技术,本发明实施例的有益效果在于,通过预先以机器智能任务为目标训练的视频编码模型对待编码视频进行编码,并在编码过程中引入面向机器智能任务的显著图像,能够有效分配待编码视频中不同区域的信息保持程度,减少了对机器智能任务不敏感的信息的编码和传输,从而有效地满足机器智能任务的视频编码需求。
附图说明
图1是本发明实施例中的视频编码方法的流程示意图;
图2是本发明实施例中的视频编码模型的架构示意图;
图3是本发明实施例中的显著图生成模块的架构示意图;
图4是本发明实施例中的视频编码装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,本发明实施例第一方面提供一种视频编码方法,包括如下步骤S1至步骤S4:
步骤S1,基于待编码视频中的若干视频帧,获取若干待编码图像;
步骤S2,当当前的待编码图像的编码方式为帧内编码方式时,将所述待编码图像输入至预设的视频编码模型,依次对所述待编码图像进行图像编码处理、量化处理和熵编码处理,获得所述待编码图像的二进制码流;
步骤S3,当当前的待编码图像的编码方式为帧间编码方式时,将所述待编码图像输入至所述视频编码模型,利用预设的参考图像对所述待编码图像进行运动估计,获得运动矢量;依次对所述运动矢量进行运动矢量编码处理、量化处理和熵编码处理,分别获得运动矢量隐向量、待编码运动矢量信号和运动矢量码流;基于所述参考图像,依次对所述待编码运动矢量信号进行运动矢量解码处理和运动补偿,获得预测图像,并根据所述待编码图像和所述预测图像,获得预测残差;对所述待编码图像进行图像编码处理,获得隐向量,并根据所述隐向量和所述运动矢量隐向量,通过预设的显著图生成模块获取显著图像;根据所述显著图像,对所述预测残差进行滤波,并依次对滤波后的预测残差进行残差编码处理、量化处理和熵编码处理,获得预测残差码流;根据所述运动矢量码流和所述预测残差码流,获得所述待编码图像的整合码流;
步骤S4,根据各待编码图像的所述二进制码流/所述整合码流,获得目标压缩视频;
其中,所述视频编码模型包括图像压缩子模型、视频压缩子模型和所述显著图生成模块;所述图像压缩子模型至少包括图像编码器、量化器和熵编码器;所述视频压缩子模型至少包括运动估计网络、运动矢量编码器、若干量化器、若干熵编码器、运动矢量解码器、运动补偿网络、滤波器和残差编码器;所述显著图生成模块包括若干卷积层和反卷积层;所述图像编码器和所述显著图生成模块均预先以预设机器智能任务为目标进行训练。
具体地,由于视频是连续的图像序列,由连续的帧构成,一个视频帧即为一幅图像,因此在步骤S1中,本实施例基于待编码视频中的若干视频帧,能够确定待编码视频所对应的若干待编码图像。
进一步地,本实施例能够基于不同的待编码图像采用不同的编码方式,包括帧内编码方式和帧间编码方式,当判定当前的待编码图像的编码方式为帧内编码方式时,则采用如上述步骤S2的编码过程进行当前的待编码图像的编码,当判定当前的待编码图像的编码方式为帧间编码方式时,则采用如上述步骤S3的编码过程进行当前的待编码图像的编码。
进一步地,如图2所示,为视频编码模型的架构示意图,本实施例中的视频编码模型包括图像压缩子模型、视频压缩子模型和所述显著图生成模块。其中,图像压缩子模型按照现有技术中基于神经网络的采用自编码器结构的图像编码模型进行构建,其至少包括图像编码器、量化器和熵编码器;视频压缩子模型按照现有技术中基于神经网络的视频编码模型进行构建,其至少包括运动估计网络、运动矢量编码器、若干量化器、若干熵编码器、运动矢量解码器、运动补偿网络、滤波器和残差编码器;为了在编码过程中引入面向机器智能任务的显著图像,本实施例还设计一种显著图生成模块,如图3所示,其包括若干卷积层和反卷积层。
本发明实施例提供的一种视频编码方法,通过预先以机器智能任务为目标训练的视频编码模型对待编码视频进行编码,并在编码过程中引入面向机器智能任务的显著图像,能够有效分配待编码视频中不同区域的信息保持程度,减少了对机器智能任务不敏感的信息的编码和传输,从而有效地满足机器智能任务的视频编码需求。
作为优选方案,所述依次对所述待编码图像进行图像编码处理、量化处理和熵编码处理,获得所述待编码图像的二进制码流,具体包括如下步骤:
基于所述图像压缩子模型,对所述待编码图像进行图像编码处理,获得包含所述预设机器智能任务所对应的显著性信息的隐向量;
对所述隐向量进行量化处理,获得待编码信号;
对所述待编码信号进行熵编码处理,获得所述待编码图像的二进制码流。
具体地,基于所述图像压缩子模型,将所述待编码图像输入至图像编码器进行图像编码处理,获得隐向量/>,即/>,/>表示图像编码器,值得说明的是,由于图像编码器预先以预设机器智能任务为目标进行训练,因此获得的隐向量/>包含所述预设机器智能任务所对应的显著性信息,其中,预设机器智能任务可以为图像分类、目标检测、目标分割等,也可以是其他使用机器对图像的语义信息进行分析的智能任务;预设机器智能任务所对应的显著性信息表示机器智能任务对图像中感兴趣的区域或语义信息,例如,图像分类任务对图像中如人、车、物体等的前景对象更感兴趣,这些前景对象即为图像分类任务的显著性信息,又例如,目标分割任务对图像中不同对象的边界信息更感兴趣,通过检测边界可以将不同的目标区分检测出来,这些边界信息即为目标检测的显著性信息。
进一步地,将隐向量输入至量化器进行量化处理,获得待编码信号/>,即,/>表示量化器。优选地,本实施例中的量化器采用间隔为1的均匀量化器,而需要说明的是,本实施例并不对量化器作具体限定,除了采用间隔为1的均匀量化器,还可以采用其他间隔的均匀量化器或其他非均匀量化器。
进一步地,将待编码信号输入至熵编码器进行熵编码处理,获得所述待编码图像的二进制码流/>,即/>,/>表示熵编码器。
本实施例的总体编码过程即为:。
作为优选方案,所述利用预设的参考图像对所述待编码图像进行运动估计,获得运动矢量,具体包括如下步骤:
基于所述视频压缩子模型,将所述待编码图像和所述参考图像输入至所述运动估计网络,通过所述运动估计网络对所述编码图像进行运动估计,获得所述运动矢量;
其中,所述参考图像为前一个待编码图像经过编码处理与解码处理后所获得的重建图像。
具体地,由于本实施例的编码方式为帧间编码方式,因此在对待编码图像进行运动估计时,采用前一个待编码图像经过编码处理与解码处理后所获得的重建图像作为参考图像,即将待编码图像和参考图像/>输入至运动估计网络进行运动估计,获得运动矢量/>,即/>,/>表示运动估计网络。
进一步地,所述依次对所述运动矢量进行运动矢量编码处理、量化处理和熵编码处理,分别获得运动矢量隐向量、待编码运动矢量信号和运动矢量码流,具体如下:
基于视频压缩子模型,将运动矢量输入至运动矢量编码器进行运动矢量编码处理,获得运动矢量隐向量/>;将运动矢量隐向量/>输入至量化器进行量化处理,获得待编码运动矢量信号/>;将待编码运动矢量信号/>输入至熵编码器进行熵编码处理,获得运动矢量码流/>,即/>,/>,其中,/>和/>分别表示熵编码器和量化器,/>表示运动矢量编码器。
作为优选方案,所述基于所述参考图像,依次对所述待编码运动矢量信号进行运动矢量解码处理和运动补偿,获得预测图像,具体包括如下步骤:
基于所述视频压缩子模型,对所述待编码运动矢量信号进行运动矢量解码处理,获得重建运动矢量;
将所述重建运动矢量和所述参考图像输入至所述运动补偿网络,通过所述运动补偿网络对所述重建运动矢量进行运动补偿,获得所述预测图像。
具体地,基于视频压缩子模型,将待编码运动矢量信号输入至运动矢量解码器进行运动矢量解码处理,获得重建运动矢量/>;将重建运动矢量/>和参考图像/>输入至运动补偿网络进行运动补偿,获得预测图像/>,即/>,/>,/>表示运动补偿网络,/>表示运动矢量解码器。
进一步地,所述根据所述待编码图像和所述预测图像,获得预测残差,具体如下:
将当前的待编码图像与预测图像作差,获得所述预测残差,即/>。
作为优选方案,所述根据所述隐向量和所述运动矢量隐向量,通过预设的显著图生成模块获取显著图像,具体包括如下步骤:
将所述隐向量和所述运动矢量隐向量沿着通道维度堆叠后进行特征融合,获得融合特征;
将所述融合特征输入至所述显著图生成模块,通过所述显著图生成模块对所述融合特征进行若干次卷积操作和反卷积操作,获得所述显著图像。
在本实施例中,将隐向量和运动矢量隐向量/>作为图像特征和运动矢量特征,分别表征空间信息和时域信息,将/>和/>沿着通道维度堆叠后进行特征融合,得到融合特征/>,具体地,隐向量/>形状为/>,运动矢量隐向量/>形状为/>,其中/>为批大小,/>和/>分别为待编码图像的高和宽,/>和/>分别为对应的通道数,/>为卷积层下采样倍率,由具体的网络结构决定,在本实施例中,下采样倍率/>为8,则/>形状为;常见的特征提取方法是用若干连续的卷积层作为特征提取器来提取图像(运动矢量)特征,此处,针对视频编码,直接提取相应的中间信号(运动矢量)作为图像特征,后续的显著图生成模块共享了视频编码模型中的浅层卷积层,节约了额外构建特征提取的卷积层所需的资源以及计算时耗费的计算量。
进一步地,将融合特征输入至显著图生成模块进行若干次卷积操作和反卷积操作,获得显著图像/>,即/>,/>表示堆叠操作,/>表示显著图生成模块。
进一步地,在获得显著图像后,本实施例根据该显著图像,对预测残差进行滤波,目的是调整编码预测残差的比特分配,滤波处理方式包括但不仅限于如下方式:
作为优选方案,所述根据所述显著图像,对所述预测残差进行滤波,具体包括如下步骤:
根据所述显著图像,通过如下表达式对所述预测残差进行滤波:
其中,表示滤波后的预测残差;/>表示所述预测残差;/>表示所述显著图像;/>表示预设滤波强度。优选地,/>,但本实施例对预设滤波强度的数值不作具体限定,可根据使用场景而进行设置和调整。
作为优选方案,针对未归一化的显著图像,所述根据所述显著图像,对所述预测残差进行滤波,具体还包括如下步骤:
根据所述显著图像,通过如下表达式对所述预测残差进行滤波:
其中,表示滤波后的预测残差;/>表示所述预测残差;/>表示取最大值函数;/>表示所述显著图像;/>表示预设滤波强度。
作为优选方案,所述根据所述显著图像,对所述预测残差进行滤波,具体还包括如下步骤:
根据所述显著图像,通过如下表达式对所述预测残差进行滤波:
其中,表示滤波后的预测残差;/>表示所述预测残差;/>表示所述显著图像;/>表示预设滤波强度。
作为优选方案,所述根据所述显著图像,对所述预测残差进行滤波,具体还包括如下步骤:
根据所述显著图像,通过如下表达式对所述预测残差进行滤波:
其中,表示滤波后的预测残差;/>表示所述预测残差;/>表示所述显著图像;/>表示预设滤波强度。
作为优选方案,所述根据所述显著图像,对所述预测残差进行滤波,具体还包括如下步骤:
根据所述显著图像,通过如下表达式对所述预测残差进行滤波:
其中,表示滤波后的预测残差;/>表示所述预测残差;/>表示所述显著图像;/>表示预设滤波强度。
作为优选方案,所述依次对滤波后的预测残差进行残差编码处理、量化处理和熵编码处理,获得预测残差码流,具体包括如下步骤:
基于所述视频压缩子模型,对滤波后的预测残差进行残差编码处理,获得预测残差隐向量;
对所述预测残差隐向量进行量化处理,获得待编码预测残差信号;
对所述待编码预测残差信号进行熵编码处理,获得所述预测残差码流。
具体地,基于视频压缩子模型,将滤波后的预测残差输入至残差编码器进行残差编码处理,获得预测残差隐向量/>;将预测残差隐向量/>输入至量化器进行量化处理,获得待编码预测残差信号/>;将待编码预测残差信号/>输入至熵编码器进行熵编码处理,获得预测残差码流/>,即/>,/>表示熵编码器,/>表示残差编码器,/>表示量化器。进一步地,将运动矢量码流/>和预测残差码流/>进行整合,获得当前的待编码图像的整合码流。
作为优选方案,所述图像压缩子模型还包括熵解码器和图像解码器;
所述方法还包括如下步骤:
依次对所述待编码图像的二进制码流进行熵解码处理和图像解码处理,获得所述待编码图像所对应的重建图像,并将所述重建图像存储于预设的解码图像缓存,以使所述重建图像作为后一个待编码图像的参考图像。
值得说明的是,本实施例在获取待编码图像的二进制码流后,继续依次进行熵解码处理和图像解码处理,从而获得对应的重建图像,将该重建图像存储于预设的解码图像缓存中,从而当后一个待编码图像的编码方式为帧间编码方式时,能够从解码图像缓存中获取该重建图像以作为参考图像。
作为优选方案,所述视频压缩子模型还包括熵解码器和残差解码器;
所述方法还包括如下步骤:
依次对所述预测残差码流进行熵解码处理和残差解码处理,获得所述待编码图像所对应的重建图像,并将所述重建图像存储于预设的解码图像缓存,以使所述重建图像作为后一个待编码图像的参考图像。
值得说明的是,本实施例在获取待编码图像的预测残差码流后,继续依次进行熵解码处理和残差解码处理,从而获得对应的重建图像,将该重建图像存储于预设的解码图像缓存中,从而当后一个待编码图像的编码方式为帧间编码方式时,能够从解码图像缓存中获取该重建图像以作为参考图像。
作为优选方案,所述方法具体通过如下步骤以所述预设机器智能任务为目标对未训练的图像编码器进行训练:
基于在未训练的图像编码器的后端接入的加载有预训练模型的对象分割网络,根据未训练的图像编码器的码流大小、训练图像与所述训练图像所对应的重建图像的像素均方误差、所述训练图像所对应的重建图像经过所述对象分割网络所获得的检测精度,按照预设的权重值进行融合,获得损失函数;
基于所述损失函数,利用反向传递方法对未训练的图像编码器进行训练,获得训练后的图像编码器。
值得说明的是,训练图像所对应的重建图像即为训练图像经过编码处理与解码处理后所获得的重建图像,在保持对象分割网络不变的情况下,基于上述损失函数,利用反向传递方法对未训练的图像编码器进行训练至收敛,从而获得训练后的图像编码器。
作为优选方案,所述方法具体通过如下步骤以所述预设机器智能任务为目标对未训练的显著图生成模块进行训练:
将训练图像输入至未训练的显著图生成模块,生成所述训练图像所对应的显著图像;
以所述训练图像所对应的显著图像与所述训练图像的预设机器智能任务检测结果基准信息的点乘之和作为损失函数,对未训练的显著图生成模块进行训练,获得训练后的显著图生成模块。
值得说明的是,显著图生成模块为待编码图像所生成的显著图像应当尽可能地符合该图像的机器智能任务检测结果,因此本实施例以训练图像所对应的显著图像与训练图像的预设机器智能任务检测结果基准信息的点乘之和作为损失函数,例如,以目标分割任务为例,第i副图像的检测结果基准信息是重点对象的分割框,设重点对象分割框内的区域权重为1,分割框外的区域权重为0,另外,第i副图像的显著图像对显著区域的权重也为1,对不显著区域的权重为小于1的值。此时,点乘之和能够反映显著图像和基准信息之间的一致程度,点乘之和越大,两者越一致,反之,则差别越大,这样做的好处是能够有效度量取值连续的显著图像和取值阶跃的基准信息之间的差别,反映出显著图像中面向机器智能任务的有效程度,以此为损失函数,对未训练的显著图生成模块进行训练至收敛,获得训练后的显著图生成模块。
作为优选方案,所述方法具体通过如下步骤识别当前的待编码图像的编码方式:
基于预设的随机访问间隔,确定若干所述待编码图像中的若干随机访问图像和非随机访问图像;
当当前的待编码图像属于所述随机访问图像时,判定当前的待编码图像的编码方式为帧内编码方式;
当当前的待编码图像属于所述非随机访问图像时,判定当前的待编码图像的编码方式为帧间编码方式。
具体地,本实施例根据编码配置判断当前的待编码图像的编码方式,当编码配置设置了随机访问间隔时,在每个随机访问间隔数量的图像之后的下一幅图像被判定为随机访问点图像,对其使用帧内编码方式,而对非随机访问点图像使用帧间编码方式。
作为优选方案,所述方法具体还通过如下步骤识别当前的待编码图像的编码方式:
对当前的待编码图像进行场景切换检测;
当当前的待编码图像属于场景切换图像时,判定当前的待编码图像的编码方式为帧内编码方式;
当当前的待编码图像属于非场景切换图像时,判定当前的待编码图像的编码方式为帧间编码方式。
具体地,在视频编码过程中,对当前的待编码图像进行场景切换检测,当当前的待编码图像属于场景切换图像时,此时场景切换图像和其时序之前的图像的内容并不相似,使用帧间编码并不能带来很高的压缩效率,因此对于场景切换图像,使用帧内编码方式,而对于非场景切换图像,则使用帧间编码方式。
作为优选方案,所述显著图生成模块包括依次连接的第一卷积层、第一反卷积层、第二卷积层、第二反卷积层、第三卷积层、第三反卷积层、第四卷积层、第四反卷积层和第五卷积层;
所述第一卷积层、所述第一反卷积层、所述第二卷积层、所述第二反卷积层、所述第三卷积层、所述第三反卷积层、所述第四卷积层和所述第四反卷积层的激活函数均为ReLU激活函数,所述第五卷积层的激活函数为Sigmoid函数。
具体地,如图3所示,本实施例中的显著图生成模块包括依次连接的第一卷积层、第一反卷积层、第二卷积层、第二反卷积层、第三卷积层、第三反卷积层、第四卷积层、第四反卷积层和第五卷积层。优选地,第一卷积层的卷积核大小为1×1,卷积核个数为64,步长为1;第一反卷积层的卷积核大小为3×3,卷积核个数为64,步长为2;第二卷积层的卷积核大小为3×3,卷积核个数为64,步长为1;第二反卷积层的卷积核大小为3×3,卷积核个数为64,步长为2;第三卷积层的卷积核大小为3×3,卷积核个数为64,步长为1;第三反卷积层的卷积核大小为3×3,卷积核个数为64,步长为2;第四卷积层的卷积核大小为3×3,卷积核个数为64,步长为1;第四反卷积层的卷积核大小为3×3,卷积核个数为3,步长为2;第五卷积层的卷积核大小为1×1,卷积核个数为1,步长为1。
参见图4,本发明实施例第二方面提供一种视频编码装置,包括:
待编码图像获取模块401,用于基于待编码视频中的若干视频帧,获取若干待编码图像;
第一编码模块402,用于当当前的待编码图像的编码方式为帧内编码方式时,将所述待编码图像输入至预设的视频编码模型,依次对所述待编码图像进行图像编码处理、量化处理和熵编码处理,获得所述待编码图像的二进制码流;
第二编码模块403,用于当当前的待编码图像的编码方式为帧间编码方式时,将所述待编码图像输入至所述视频编码模型,利用预设的参考图像对所述待编码图像进行运动估计,获得运动矢量;依次对所述运动矢量进行运动矢量编码处理、量化处理和熵编码处理,分别获得运动矢量隐向量、待编码运动矢量信号和运动矢量码流;基于所述参考图像,依次对所述待编码运动矢量信号进行运动矢量解码处理和运动补偿,获得预测图像,并根据所述待编码图像和所述预测图像,获得预测残差;对所述待编码图像进行图像编码处理,获得隐向量,并根据所述隐向量和所述运动矢量隐向量,通过预设的显著图生成模块获取显著图像;根据所述显著图像,对所述预测残差进行滤波,并依次对滤波后的预测残差进行残差编码处理、量化处理和熵编码处理,获得预测残差码流;根据所述运动矢量码流和所述预测残差码流,获得所述待编码图像的整合码流;
目标压缩视频获取模块404,用于根据各待编码图像的所述二进制码流/所述整合码流,获得目标压缩视频;
其中,所述视频编码模型包括图像压缩子模型、视频压缩子模型和所述显著图生成模块;所述图像压缩子模型至少包括图像编码器、量化器和熵编码器;所述视频压缩子模型至少包括运动估计网络、运动矢量编码器、若干量化器、若干熵编码器、运动矢量解码器、运动补偿网络、滤波器和残差编码器;所述显著图生成模块包括若干卷积层和反卷积层;所述图像编码器和所述显著图生成模块均预先以预设机器智能任务为目标进行训练。
作为优选方案,所述第一编码模块402用于依次对所述待编码图像进行图像编码处理、量化处理和熵编码处理,获得所述待编码图像的二进制码流,具体包括:
基于所述图像压缩子模型,对所述待编码图像进行图像编码处理,获得包含所述预设机器智能任务所对应的显著性信息的隐向量;
对所述隐向量进行量化处理,获得待编码信号;
对所述待编码信号进行熵编码处理,获得所述待编码图像的二进制码流。
作为优选方案,所述第二编码模块403用于利用预设的参考图像对所述待编码图像进行运动估计,获得运动矢量,具体包括:
基于所述视频压缩子模型,将所述待编码图像和所述参考图像输入至所述运动估计网络,通过所述运动估计网络对所述编码图像进行运动估计,获得所述运动矢量;
其中,所述参考图像为前一个待编码图像经过编码处理与解码处理后所获得的重建图像。
作为优选方案,所述第二编码模块403用于基于所述参考图像,依次对所述待编码运动矢量信号进行运动矢量解码处理和运动补偿,获得预测图像,具体包括:
基于所述视频压缩子模型,对所述待编码运动矢量信号进行运动矢量解码处理,获得重建运动矢量;
将所述重建运动矢量和所述参考图像输入至所述运动补偿网络,通过所述运动补偿网络对所述重建运动矢量进行运动补偿,获得所述预测图像。
作为优选方案,所述第二编码模块403用于根据所述隐向量和所述运动矢量隐向量,通过预设的显著图生成模块获取显著图像,具体包括:
将所述隐向量和所述运动矢量隐向量沿着通道维度堆叠后进行特征融合,获得融合特征;
将所述融合特征输入至所述显著图生成模块,通过所述显著图生成模块对所述融合特征进行若干次卷积操作和反卷积操作,获得所述显著图像。
作为优选方案,所述第二编码模块403用于根据所述显著图像,对所述预测残差进行滤波,具体包括:
根据所述显著图像,通过如下表达式对所述预测残差进行滤波:
其中,表示滤波后的预测残差;/>表示所述预测残差;/>表示所述显著图像;/>表示预设滤波强度。
作为优选方案,所述第二编码模块403用于根据所述显著图像,对所述预测残差进行滤波,具体还包括:
根据所述显著图像,通过如下表达式对所述预测残差进行滤波:
其中,表示滤波后的预测残差;/>表示所述预测残差;/>表示取最大值函数;/>表示所述显著图像;/>表示预设滤波强度。
作为优选方案,所述第二编码模块403用于根据所述显著图像,对所述预测残差进行滤波,具体还包括:
根据所述显著图像,通过如下表达式对所述预测残差进行滤波:
其中,表示滤波后的预测残差;/>表示所述预测残差;/>表示所述显著图像;/>表示预设滤波强度。
作为优选方案,所述第二编码模块403用于根据所述显著图像,对所述预测残差进行滤波,具体还包括:
根据所述显著图像,通过如下表达式对所述预测残差进行滤波:
其中,表示滤波后的预测残差;/>表示所述预测残差;/>表示所述显著图像;/>表示预设滤波强度。
作为优选方案,所述第二编码模块403用于根据所述显著图像,对所述预测残差进行滤波,具体还包括:
根据所述显著图像,通过如下表达式对所述预测残差进行滤波:
其中,表示滤波后的预测残差;/>表示所述预测残差;/>表示所述显著图像;/>表示预设滤波强度。
作为优选方案,所述第二编码模块403用于依次对滤波后的预测残差进行残差编码处理、量化处理和熵编码处理,获得预测残差码流,具体包括:
基于所述视频压缩子模型,对滤波后的预测残差进行残差编码处理,获得预测残差隐向量;
对所述预测残差隐向量进行量化处理,获得待编码预测残差信号;
对所述待编码预测残差信号进行熵编码处理,获得所述预测残差码流。
作为优选方案,所述图像压缩子模型还包括熵解码器和图像解码器;
所述第一编码模块402还用于:
依次对所述待编码图像的二进制码流进行熵解码处理和图像解码处理,获得所述待编码图像所对应的重建图像,并将所述重建图像存储于预设的解码图像缓存,以使所述重建图像作为后一个待编码图像的参考图像。
作为优选方案,所述视频压缩子模型还包括熵解码器和残差解码器;
所述第二编码模块403还用于:
依次对所述预测残差码流进行熵解码处理和残差解码处理,获得所述待编码图像所对应的重建图像,并将所述重建图像存储于预设的解码图像缓存,以使所述重建图像作为后一个待编码图像的参考图像。
作为优选方案,所述装置还包括图像编码器训练模块,用于:
基于在未训练的图像编码器的后端接入的加载有预训练模型的对象分割网络,根据未训练的图像编码器的码流大小、训练图像与所述训练图像所对应的重建图像的像素均方误差、所述训练图像所对应的重建图像经过所述对象分割网络所获得的检测精度,按照预设的权重值进行融合,获得损失函数;
基于所述损失函数,利用反向传递方法对未训练的图像编码器进行训练,获得训练后的图像编码器。
作为优选方案,所述装置还包括显著图生成模块训练模块,用于:
将训练图像输入至未训练的显著图生成模块,生成所述训练图像所对应的显著图像;
以所述训练图像所对应的显著图像与所述训练图像的预设机器智能任务检测结果基准信息的点乘之和作为损失函数,对未训练的显著图生成模块进行训练,获得训练后的显著图生成模块。
作为优选方案,所述装置还包括编码方式识别模块,用于:
基于预设的随机访问间隔,确定若干所述待编码图像中的若干随机访问图像和非随机访问图像;
当当前的待编码图像属于所述随机访问图像时,判定当前的待编码图像的编码方式为帧内编码方式;
当当前的待编码图像属于所述非随机访问图像时,判定当前的待编码图像的编码方式为帧间编码方式。
作为优选方案,所述编码方式识别模块,还用于:
对当前的待编码图像进行场景切换检测;
当当前的待编码图像属于场景切换图像时,判定当前的待编码图像的编码方式为帧内编码方式;
当当前的待编码图像属于非场景切换图像时,判定当前的待编码图像的编码方式为帧间编码方式。
作为优选方案,所述显著图生成模块包括依次连接的第一卷积层、第一反卷积层、第二卷积层、第二反卷积层、第三卷积层、第三反卷积层、第四卷积层、第四反卷积层和第五卷积层;
所述第一卷积层、所述第一反卷积层、所述第二卷积层、所述第二反卷积层、所述第三卷积层、所述第三反卷积层、所述第四卷积层和所述第四反卷积层的激活函数均为ReLU激活函数,所述第五卷积层的激活函数为Sigmoid函数。
需要说明的是,本发明实施例所提供的一种视频编码装置,能够实现上述任一实施例所述的视频编码方法的所有流程,装置中的各个模块的作用以及实现的技术效果分别与上述实施例所述的视频编码方法的作用以及实现的技术效果对应相同,这里不再赘述。
本发明实施例第三方面提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一实施例所述的视频编码方法。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面任一实施例所述的视频编码方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (21)
1.一种视频编码方法,其特征在于,包括如下步骤:
基于待编码视频中的若干视频帧,获取若干待编码图像;
当当前的待编码图像的编码方式为帧内编码方式时,将所述待编码图像输入至预设的视频编码模型,依次对所述待编码图像进行图像编码处理、量化处理和熵编码处理,获得所述待编码图像的二进制码流;
当当前的待编码图像的编码方式为帧间编码方式时,将所述待编码图像输入至所述视频编码模型,利用预设的参考图像对所述待编码图像进行运动估计,获得运动矢量;依次对所述运动矢量进行运动矢量编码处理、量化处理和熵编码处理,分别获得运动矢量隐向量、待编码运动矢量信号和运动矢量码流;基于所述参考图像,依次对所述待编码运动矢量信号进行运动矢量解码处理和运动补偿,获得预测图像,并根据所述待编码图像和所述预测图像,获得预测残差;对所述待编码图像进行图像编码处理,获得隐向量,并根据所述隐向量和所述运动矢量隐向量,通过预设的显著图生成模块获取显著图像;根据所述显著图像,对所述预测残差进行滤波,并依次对滤波后的预测残差进行残差编码处理、量化处理和熵编码处理,获得预测残差码流;根据所述运动矢量码流和所述预测残差码流,获得所述待编码图像的整合码流;
根据各待编码图像的所述二进制码流/所述整合码流,获得目标压缩视频;
其中,所述视频编码模型包括图像压缩子模型、视频压缩子模型和所述显著图生成模块;所述图像压缩子模型至少包括图像编码器、量化器和熵编码器;所述视频压缩子模型至少包括运动估计网络、运动矢量编码器、若干量化器、若干熵编码器、运动矢量解码器、运动补偿网络、滤波器和残差编码器;所述显著图生成模块包括若干卷积层和反卷积层;所述图像编码器和所述显著图生成模块均预先以预设机器智能任务为目标进行训练;所述预设机器智能任务为使用机器对图像的语义信息进行分析的任务,其至少包括图像分类任务、目标检测任务和目标分割任务;
所述图像编码器和所述显著图生成模块均预先以预设机器智能任务为目标进行训练,具体为:
所述图像编码器预先以编码码流大小、训练图像所对应的重建图像的像素均方误差和预设机器智能任务的检测精度的加权结果为目标进行训练;所述显著图生成模块预先以训练图像所对应的显著图像和预设机器智能任务检测结果基准信息的点乘结果为目标进行训练。
2.如权利要求1所述的视频编码方法,其特征在于,所述依次对所述待编码图像进行图像编码处理、量化处理和熵编码处理,获得所述待编码图像的二进制码流,具体包括如下步骤:
基于所述图像压缩子模型,对所述待编码图像进行图像编码处理,获得包含所述预设机器智能任务所对应的显著性信息的隐向量;
对所述隐向量进行量化处理,获得待编码信号;
对所述待编码信号进行熵编码处理,获得所述待编码图像的二进制码流。
3.如权利要求1所述的视频编码方法,其特征在于,所述利用预设的参考图像对所述待编码图像进行运动估计,获得运动矢量,具体包括如下步骤:
基于所述视频压缩子模型,将所述待编码图像和所述参考图像输入至所述运动估计网络,通过所述运动估计网络对所述编码图像进行运动估计,获得所述运动矢量;
其中,所述参考图像为前一个待编码图像经过编码处理与解码处理后所获得的重建图像。
4.如权利要求1所述的视频编码方法,其特征在于,所述基于所述参考图像,依次对所述待编码运动矢量信号进行运动矢量解码处理和运动补偿,获得预测图像,具体包括如下步骤:
基于所述视频压缩子模型,对所述待编码运动矢量信号进行运动矢量解码处理,获得重建运动矢量;
将所述重建运动矢量和所述参考图像输入至所述运动补偿网络,通过所述运动补偿网络对所述重建运动矢量进行运动补偿,获得所述预测图像。
5.如权利要求1所述的视频编码方法,其特征在于,所述根据所述隐向量和所述运动矢量隐向量,通过预设的显著图生成模块获取显著图像,具体包括如下步骤:
将所述隐向量和所述运动矢量隐向量沿着通道维度堆叠后进行特征融合,获得融合特征;
将所述融合特征输入至所述显著图生成模块,通过所述显著图生成模块对所述融合特征进行若干次卷积操作和反卷积操作,获得所述显著图像。
6.如权利要求1所述的视频编码方法,其特征在于,所述根据所述显著图像,对所述预测残差进行滤波,具体包括如下步骤:
根据所述显著图像,通过如下表达式对所述预测残差进行滤波:
其中,表示滤波后的预测残差;/>表示所述预测残差;/>表示所述显著图像;/>表示预设滤波强度。
7.如权利要求1所述的视频编码方法,其特征在于,所述根据所述显著图像,对所述预测残差进行滤波,具体还包括如下步骤:
根据所述显著图像,通过如下表达式对所述预测残差进行滤波:
其中,表示滤波后的预测残差;/>表示所述预测残差;/>表示取最大值函数;/>表示所述显著图像;/>表示预设滤波强度。
8.如权利要求1所述的视频编码方法,其特征在于,所述根据所述显著图像,对所述预测残差进行滤波,具体还包括如下步骤:
根据所述显著图像,通过如下表达式对所述预测残差进行滤波:
其中,表示滤波后的预测残差;/>表示所述预测残差;/>表示所述显著图像;/>表示预设滤波强度。
9.如权利要求1所述的视频编码方法,其特征在于,所述根据所述显著图像,对所述预测残差进行滤波,具体还包括如下步骤:
根据所述显著图像,通过如下表达式对所述预测残差进行滤波:
其中,表示滤波后的预测残差;/>表示所述预测残差;/>表示所述显著图像;/>表示预设滤波强度。
10.如权利要求1所述的视频编码方法,其特征在于,所述根据所述显著图像,对所述预测残差进行滤波,具体还包括如下步骤:
根据所述显著图像,通过如下表达式对所述预测残差进行滤波:
其中,表示滤波后的预测残差;/>表示所述预测残差;/>表示所述显著图像;/>表示预设滤波强度。
11.如权利要求1所述的视频编码方法,其特征在于,所述依次对滤波后的预测残差进行残差编码处理、量化处理和熵编码处理,获得预测残差码流,具体包括如下步骤:
基于所述视频压缩子模型,对滤波后的预测残差进行残差编码处理,获得预测残差隐向量;
对所述预测残差隐向量进行量化处理,获得待编码预测残差信号;
对所述待编码预测残差信号进行熵编码处理,获得所述预测残差码流。
12.如权利要求3所述的视频编码方法,其特征在于,所述图像压缩子模型还包括熵解码器和图像解码器;
所述方法还包括如下步骤:
依次对所述待编码图像的二进制码流进行熵解码处理和图像解码处理,获得所述待编码图像所对应的重建图像,并将所述重建图像存储于预设的解码图像缓存,以使所述重建图像作为后一个待编码图像的参考图像。
13.如权利要求3所述的视频编码方法,其特征在于,所述视频压缩子模型还包括熵解码器和残差解码器;
所述方法还包括如下步骤:
依次对所述预测残差码流进行熵解码处理和残差解码处理,获得所述待编码图像所对应的重建图像,并将所述重建图像存储于预设的解码图像缓存,以使所述重建图像作为后一个待编码图像的参考图像。
14.如权利要求12所述的视频编码方法,其特征在于,所述方法具体通过如下步骤以所述预设机器智能任务为目标对未训练的图像编码器进行训练:
基于在未训练的图像编码器的后端接入的加载有预训练模型的对象分割网络,根据未训练的图像编码器的码流大小、训练图像与所述训练图像所对应的重建图像的像素均方误差、所述训练图像所对应的重建图像经过所述对象分割网络所获得的检测精度,按照预设的权重值进行融合,获得损失函数;
基于所述损失函数,利用反向传递方法对未训练的图像编码器进行训练,获得训练后的图像编码器。
15.如权利要求5所述的视频编码方法,其特征在于,所述方法具体通过如下步骤以所述预设机器智能任务为目标对未训练的显著图生成模块进行训练:
将训练图像输入至未训练的显著图生成模块,生成所述训练图像所对应的显著图像;
以所述训练图像所对应的显著图像与所述训练图像的预设机器智能任务检测结果基准信息的点乘之和作为损失函数,对未训练的显著图生成模块进行训练,获得训练后的显著图生成模块。
16.如权利要求1所述的视频编码方法,其特征在于,所述方法具体通过如下步骤识别当前的待编码图像的编码方式:
基于预设的随机访问间隔,确定若干所述待编码图像中的若干随机访问图像和非随机访问图像;
当当前的待编码图像属于所述随机访问图像时,判定当前的待编码图像的编码方式为帧内编码方式;
当当前的待编码图像属于所述非随机访问图像时,判定当前的待编码图像的编码方式为帧间编码方式。
17.如权利要求1所述的视频编码方法,其特征在于,所述方法具体还通过如下步骤识别当前的待编码图像的编码方式:
对当前的待编码图像进行场景切换检测;
当当前的待编码图像属于场景切换图像时,判定当前的待编码图像的编码方式为帧内编码方式;
当当前的待编码图像属于非场景切换图像时,判定当前的待编码图像的编码方式为帧间编码方式。
18.如权利要求15所述的视频编码方法,其特征在于,所述显著图生成模块包括依次连接的第一卷积层、第一反卷积层、第二卷积层、第二反卷积层、第三卷积层、第三反卷积层、第四卷积层、第四反卷积层和第五卷积层;
所述第一卷积层、所述第一反卷积层、所述第二卷积层、所述第二反卷积层、所述第三卷积层、所述第三反卷积层、所述第四卷积层和所述第四反卷积层的激活函数均为ReLU激活函数,所述第五卷积层的激活函数为Sigmoid函数。
19.一种视频编码装置,其特征在于,包括:
待编码图像获取模块,用于基于待编码视频中的若干视频帧,获取若干待编码图像;
第一编码模块,用于当当前的待编码图像的编码方式为帧内编码方式时,将所述待编码图像输入至预设的视频编码模型,依次对所述待编码图像进行图像编码处理、量化处理和熵编码处理,获得所述待编码图像的二进制码流;
第二编码模块,用于当当前的待编码图像的编码方式为帧间编码方式时,将所述待编码图像输入至所述视频编码模型,利用预设的参考图像对所述待编码图像进行运动估计,获得运动矢量;依次对所述运动矢量进行运动矢量编码处理、量化处理和熵编码处理,分别获得运动矢量隐向量、待编码运动矢量信号和运动矢量码流;基于所述参考图像,依次对所述待编码运动矢量信号进行运动矢量解码处理和运动补偿,获得预测图像,并根据所述待编码图像和所述预测图像,获得预测残差;对所述待编码图像进行图像编码处理,获得隐向量,并根据所述隐向量和所述运动矢量隐向量,通过预设的显著图生成模块获取显著图像;根据所述显著图像,对所述预测残差进行滤波,并依次对滤波后的预测残差进行残差编码处理、量化处理和熵编码处理,获得预测残差码流;根据所述运动矢量码流和所述预测残差码流,获得所述待编码图像的整合码流;
目标压缩视频获取模块,用于根据各待编码图像的所述二进制码流/所述整合码流,获得目标压缩视频;
其中,所述视频编码模型包括图像压缩子模型、视频压缩子模型和所述显著图生成模块;所述图像压缩子模型至少包括图像编码器、量化器和熵编码器;所述视频压缩子模型至少包括运动估计网络、运动矢量编码器、若干量化器、若干熵编码器、运动矢量解码器、运动补偿网络、滤波器和残差编码器;所述显著图生成模块包括若干卷积层和反卷积层;所述图像编码器和所述显著图生成模块均预先以预设机器智能任务为目标进行训练;所述预设机器智能任务为使用机器对图像的语义信息进行分析的任务,其至少包括图像分类任务、目标检测任务和目标分割任务;
所述图像编码器和所述显著图生成模块均预先以预设机器智能任务为目标进行训练,具体为:
所述图像编码器预先以编码码流大小、训练图像所对应的重建图像的像素均方误差和预设机器智能任务的检测精度的加权结果为目标进行训练;所述显著图生成模块预先以训练图像所对应的显著图像和预设机器智能任务检测结果基准信息的点乘结果为目标进行训练。
20.一种终端设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至18任一项所述的视频编码方法。
21.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至18任一项所述的视频编码方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310945851.2A CN116668702B (zh) | 2023-07-31 | 2023-07-31 | 一种视频编码方法、装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310945851.2A CN116668702B (zh) | 2023-07-31 | 2023-07-31 | 一种视频编码方法、装置、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116668702A CN116668702A (zh) | 2023-08-29 |
CN116668702B true CN116668702B (zh) | 2023-10-24 |
Family
ID=87722816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310945851.2A Active CN116668702B (zh) | 2023-07-31 | 2023-07-31 | 一种视频编码方法、装置、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116668702B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102017626A (zh) * | 2008-04-25 | 2011-04-13 | 汤姆森许可贸易公司 | 编码和解码方法、编码器和解码器 |
CN105139385A (zh) * | 2015-08-12 | 2015-12-09 | 西安电子科技大学 | 基于深层自动编码器重构的图像视觉显著性区域检测方法 |
CN107169498A (zh) * | 2017-05-17 | 2017-09-15 | 河海大学 | 一种融合局部和全局稀疏的图像显著性检测方法 |
CN108664981A (zh) * | 2017-03-30 | 2018-10-16 | 北京航空航天大学 | 显著图像提取方法及装置 |
WO2020091872A1 (en) * | 2018-10-29 | 2020-05-07 | University Of Washington | Saliency-based video compression systems and methods |
CN113422950A (zh) * | 2021-05-31 | 2021-09-21 | 北京达佳互联信息技术有限公司 | 图像数据处理模型的训练方法和训练装置 |
WO2022155974A1 (zh) * | 2021-01-25 | 2022-07-28 | Oppo广东移动通信有限公司 | 视频编解码以及模型训练方法与装置 |
CN114915783A (zh) * | 2021-02-07 | 2022-08-16 | 华为技术有限公司 | 编码方法和装置 |
-
2023
- 2023-07-31 CN CN202310945851.2A patent/CN116668702B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102017626A (zh) * | 2008-04-25 | 2011-04-13 | 汤姆森许可贸易公司 | 编码和解码方法、编码器和解码器 |
CN105139385A (zh) * | 2015-08-12 | 2015-12-09 | 西安电子科技大学 | 基于深层自动编码器重构的图像视觉显著性区域检测方法 |
CN108664981A (zh) * | 2017-03-30 | 2018-10-16 | 北京航空航天大学 | 显著图像提取方法及装置 |
CN107169498A (zh) * | 2017-05-17 | 2017-09-15 | 河海大学 | 一种融合局部和全局稀疏的图像显著性检测方法 |
WO2020091872A1 (en) * | 2018-10-29 | 2020-05-07 | University Of Washington | Saliency-based video compression systems and methods |
WO2022155974A1 (zh) * | 2021-01-25 | 2022-07-28 | Oppo广东移动通信有限公司 | 视频编解码以及模型训练方法与装置 |
CN114915783A (zh) * | 2021-02-07 | 2022-08-16 | 华为技术有限公司 | 编码方法和装置 |
CN113422950A (zh) * | 2021-05-31 | 2021-09-21 | 北京达佳互联信息技术有限公司 | 图像数据处理模型的训练方法和训练装置 |
Non-Patent Citations (2)
Title |
---|
Tianruo Zhang, Chen Liu, Minghui Wang, Satoshi Goto.Region-of-interest based H.264 encoder for videophone with a hardware macroblock level face detector.《2009 IEEE International Workshop on Multimedia Signal Processing,》.2009,全文. * |
基于深度学习的显著性检测方法模型――SCS;张洪涛;路红英;刘腾飞;张玲玉;张晓明;;计算机与现代化(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116668702A (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cai et al. | End-to-end optimized ROI image compression | |
US11272188B2 (en) | Compression for deep neural network | |
Shi et al. | Image compressed sensing using convolutional neural network | |
Wu et al. | Learned block-based hybrid image compression | |
CN111263161B (zh) | 视频压缩处理方法、装置、存储介质和电子设备 | |
CN112102212B (zh) | 一种视频修复方法、装置、设备及存储介质 | |
Zhang et al. | Attention-guided image compression by deep reconstruction of compressive sensed saliency skeleton | |
CN116233445B (zh) | 视频的编解码处理方法、装置、计算机设备和存储介质 | |
Zebang et al. | Densely connected AutoEncoders for image compression | |
Löhdefink et al. | Focussing learned image compression to semantic classes for V2X applications | |
CN114501031B (zh) | 一种压缩编码、解压缩方法以及装置 | |
CN113658073B (zh) | 图像去噪处理方法、装置、存储介质与电子设备 | |
Li et al. | Deep image compression based on multi-scale deformable convolution | |
Ranjbar Alvar et al. | Joint image compression and denoising via latent-space scalability | |
CN113256744B (zh) | 一种图像编码、解码方法及系统 | |
CN116668702B (zh) | 一种视频编码方法、装置、终端设备及存储介质 | |
CN117616753A (zh) | 使用光流的视频压缩 | |
Lee et al. | Feature map compression for video coding for machines based on receptive block based principal component analysis | |
CN117459727B (zh) | 一种图像处理方法、装置、系统、电子设备及存储介质 | |
Kwak et al. | Feature-Guided Machine-Centric Image Coding for Downstream Tasks | |
Baluja et al. | Neural image decompression: Learning to render better image previews | |
Xiong et al. | Texture-guided Coding for Deep Features | |
CN112995665A (zh) | 一种用于摄像装置的视频编码方法及装置 | |
Li et al. | High Efficiency Image Compression for Large Visual-Language Models | |
TW202416712A (zh) | 使用神經網路進行圖像區域的並行處理-解碼、後濾波和rdoq |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |