CN113747151B - 视频编解码方法、装置、设备及计算机可读存储介质 - Google Patents
视频编解码方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113747151B CN113747151B CN202110878539.7A CN202110878539A CN113747151B CN 113747151 B CN113747151 B CN 113747151B CN 202110878539 A CN202110878539 A CN 202110878539A CN 113747151 B CN113747151 B CN 113747151B
- Authority
- CN
- China
- Prior art keywords
- interest
- frame
- roi
- video
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000011218 segmentation Effects 0.000 claims abstract description 176
- 239000011159 matrix material Substances 0.000 claims description 23
- 239000003550 marker Substances 0.000 claims description 17
- 230000000903 blocking effect Effects 0.000 claims description 12
- 238000013139 quantization Methods 0.000 claims description 11
- 230000002123 temporal effect Effects 0.000 claims description 10
- 238000005192 partition Methods 0.000 claims description 6
- 230000000153 supplemental effect Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 description 37
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 102100037812 Medium-wave-sensitive opsin 1 Human genes 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/114—Adapting the group of pictures [GOP] structure, e.g. number of B-frames between two anchor frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/182—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种视频编解码方法、装置、设备及计算机可读存储介质,所述视频编解码方法包括:获取待编码视频的图像帧,并基于语义分割模型对所述图像帧进行语义分割,得到像素级语义分割结果;基于兴趣预测模型、所述图像帧和所述像素级语义分割结果,对所述像素级语义分割结果中多个分割区域进行兴趣类别预测,得到兴趣类别预测结果;基于所述兴趣类别预测结果,对所述图像帧进行时域编码得到视频流。本发明降低了视频流的码率。
Description
技术领域
本发明涉及视频技术领域,尤其涉及一种视频编解码方法、装置、设备及计算机可读存储介质。
背景技术
随着科技的迅速发展,人们对视频的观感需求越来越高。而当高清视频流的码率超过网络带宽的承受能力时,将会引起视频的时延、卡顿、花屏等问题,进而影响用户观感体验。
目前,通过ROI(region of interest,感兴趣区域)编解码调整视频流的量化参数,从而降低视频流的编码码率。例如,在直播场景中,通过感兴趣区域识别模型,划分出主播面部区域、背景区域或服装区域,对于主播面部区域的图像,通过细化量化参数,保持图像编码的高质量高码率,而对于服装褶皱或远景背景等观众非重点关注区域,提高量化参数以降低编码码率,从而将整体的视频码率降低。然而,只通过调整量化参数降低视频流的码率仍无法达到窄带高清的需求,因此,如何降低视频流的码率是目前亟需解决的问题。
发明内容
本发明的主要目的在于提供一视频编解码方法、装置、设备及计算机可读存储介质,旨在降低视频流的码率。
为实现上述目的,本发明提供一种视频编解码方法,所述视频编解码方法包括以下步骤:
获取待编码视频的图像帧,并基于语义分割模型对所述图像帧进行语义分割,得到像素级语义分割结果;
基于兴趣预测模型、所述图像帧和所述像素级语义分割结果,对所述像素级语义分割结果中多个分割区域进行兴趣类别预测,得到兴趣类别预测结果;
基于所述兴趣类别预测结果,对所述图像帧进行时域编码得到视频流。
可选地,所述基于所述兴趣类别预测结果,对所述图像帧进行时域编码得到视频流的步骤包括:
对所述图像帧进行图像分块,得到多个分块图像;
对所述多个分块图像进行基于时域的分层编码,得到视频流;
基于所述兴趣类别预测结果,将所述多个分割区域与所述多个分块图像进行匹配,得到所述多个分块图像的兴趣类别;
基于所述兴趣类别,对所述视频流的图像组GOP结构进行修改。
可选地,所述对所述多个分块图像进行基于时域的分层编码,得到视频流的步骤包括:
基于所述兴趣类别预测结果,确定所述多个分割区域对应的多个量化参数QP值;
基于所述多个QP值,确定QP矩阵,所述QP矩阵包括所述多个分割区域中每一像素的QP值;
基于所述QP矩阵对所述多个分块图像进行基于时域的分层编码。
可选地,所述基于所述兴趣类别预测结果,将所述多个分割区域与所述多个分块图像进行匹配,得到所述多个分块图像的兴趣类别的步骤包括:
基于所述兴趣类别预测结果,将所述多个分割区域划分为不同兴趣级别的感兴趣区域ROI区域;
基于所述兴趣级别从高到低的顺序,将所述不同兴趣级别的ROI区域与所述多个分块图像进行交集匹配,得到每一兴趣级别对应的若干分块图像,以得到所述多个分块图像的兴趣类别。
可选地,每个所述GOP结构包括若干前向参考帧P帧,所述基于所述兴趣类别,对所述视频流的图像组GOP结构进行修改的步骤包括:
基于所述兴趣类别,确定所述若干P帧中的待删除P帧;
若所述待删除P帧的数量大于0,则删除所述视频流中的所述待删除P帧。
可选地,每个所述GOP结构还包括关键帧I帧,所述删除所述视频流中的所述待删除P帧的步骤之后,还包括:
基于所述兴趣类别,确定ROI标记信息;
在所述I帧的补充增强信息SEI中增加所述ROI标记信息,以供基于所述ROI标记信息对所述视频流进行解码。
可选地,所述视频编解码方法还包括:
获取所述视频流的ROI标记信息;
基于所述ROI标记信息,对所述视频流中已删除P帧的位置填充已解码的帧数据。
此外,为实现上述目的,本发明还提供一种视频编解码装置,所述视频编解码装置包括:
分割模块,用于获取待编码视频的图像帧,并基于语义分割模型对所述图像帧进行语义分割,得到像素级语义分割结果;
预测模块,用于基于兴趣预测模型、所述图像帧和所述像素级语义分割结果,对所述像素级语义分割结果中多个分割区域进行兴趣类别预测,得到兴趣类别预测结果;
编码模块,用于基于所述兴趣类别预测结果,对所述图像帧进行时域编码得到视频流。
此外,为实现上述目的,本发明还提供一种视频编解码设备,所述视频编解码设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频编解码程序,所述视频编解码程序被所述处理器执行时实现如上所述的视频编解码方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如上所述的视频编解码方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有视频编解码程序,所述视频编解码程序被处理器执行时实现如上所述的视频编解码方法的步骤。
本发明提供一种视频编解码方法、装置、设备及计算机可读存储介质,获取待编码视频的图像帧,并基于语义分割模型对图像帧进行语义分割,得到像素级语义分割结果;基于兴趣预测模型、图像帧和像素级语义分割结果,对像素级语义分割结果中多个分割区域进行兴趣类别预测,得到兴趣类别预测结果;基于兴趣类别预测结果,对图像帧进行时域编码得到视频流。通过上述方式,首先对图像帧进行语义分割,得到像素级语义分割结果,进而将该像素级语义分割结果输入至兴趣预测模型,以使兴趣预测模型可以基于更多的特征信息进行兴趣类别预测,从而提高兴趣类别预测的准确性,即该兴趣预测模型相比现有的感兴趣区域识别模型的预测准确性更高。之后,基于兴趣类别预测结果,对图像帧进行时域编码得到视频流,即将兴趣类别与时域编码相结合,以使不同兴趣类别的图像区域采用不同时域编码组合进行编码,即兴趣高的图像区域采用高帧数的编码组合进行编码,低兴趣的图像区域采用低帧数的编码组合进行编码,从而降低视频流的码率。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图;
图2为本发明视频编解码方法第一实施例的流程示意图;
图3为本发明视频编解码方法第二实施例的流程示意图;
图4为本发明实施例涉及的第一视频流示意图;
图5为本发明实施例涉及的第二视频流示意图;
图6为本发明实施例涉及的第三视频流示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例涉及的技术术语:
视频流,其由一系列的编码帧组成,其帧类型包括:I帧、P帧、B帧,其中I帧为关键帧,即一帧画面完整保留。P帧、B帧基于I帧压缩,只有前与后帧的画面差别数据。视频流一个图像组GOP包括一个I帧和若干个P帧,其中I帧,P帧的数据量可能相差数十倍,所以多路摄像头同时传输I帧即I帧碰撞会引起传输带宽需求叠加。
I帧,又称ICP(Intra Coded Pictures,内部编码帧),其为关键帧,是一种自带全部信息的独立帧,无需参考其他图像便可独立进行解码,可以简单理解为一张静态画面。视频序列中的第一个帧始终都是I帧,每个视频流图像组GOP(Group of Pictures)以I帧开头,到下一个I帧结束。
P帧,又称PCP(Predictive Coded Pictures,预测编码帧),是以最近的上一个I图或P图为基准进行运动补偿预测所产生的图像。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端为视频编解码设备,该视频编解码设备可以为PC(personalcomputer,个人计算机)、微型计算机、笔记本电脑、服务器等具有处理功能的终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU(Central Processing Unit,中央处理器),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及视频编解码程序。
在图1所示的终端中,处理器1001可以用于调用存储器1005中存储的视频编解码程序,并执行以下视频编解码方法的各个实施例。
基于上述硬件结构,提出本发明视频编解码方法的各个实施例。
本发明提供一种视频编解码方法。
参照图2,图2为本发明视频编解码方法第一实施例的流程示意图。
在本实施例中,该视频编解码方法包括:
步骤S10,获取待编码视频的图像帧,并基于语义分割模型对所述图像帧进行语义分割,得到像素级语义分割结果;
在本实施例中,该视频编解码方法可以应用于视频编解码设备,该视频编解码设备可以为摄像设备、视频播放设备、PC(personal computer,个人计算机)、微型计算机、笔记本电脑、服务器等具有处理功能的终端设备。该视频编解码设备可以为对视频进行编码的设备,以通过该设备传输视频流至其他设备;该视频编解码设备也可以为对视频流进行解码的设备,以接收其他设备传输的视频流,从而完成视频流的解码和视频播放。
在本实施例中,获取待编码视频的图像帧,并基于语义分割模型对图像帧进行语义分割,得到像素级语义分割结果。其中,待编码视频为需要进行编码的视频,也就是说需要进行传输的视频,因此,需要对该视频进行压缩编码。图像帧为待编码视频的一帧图像,可以理解,在视频编码过程中,对视频进行编码为对视频的每一帧图像进行编码。
需要说明的是,语义分割模型用于对图像帧进行语义分割,该语义分割模型的输入为该图像帧,该语义分割模型的输出为被分割标记的坐标索引,该坐标索引为一个矩阵数组,该矩阵数组中每个元素代表图像帧中的一个像素,每个元素的二维下标代表该像素所在位置的坐标,不同二维下标的元素的值代表该元素的分割结果类型,例如1代表背景,2代表人物,3代表动物等等。基于此,像素级语义分割结果表示分割结果以像素为单位进行分割,该像素级语义分割结果包括上述矩阵数组,进而根据分割结果类型,将图像帧分割成多个分割区域,该像素级语义分割结果包括多个分割区域,可以理解,一个分割区域对应一个分割结果类型,而一个分割结果类型可以对应一个或多个分割区域。
此外,还需要说明的是,图像帧的格式可以为YUV格式,也可以为RGB格式等。
在一实施例中,上述步骤S10包括:
获取待编码视频的YUV图像帧,并基于语义分割模型对所述YUV图像帧进行语义分割,得到像素级语义分割结果。
其中,语义分割模型可以为FCN(Fully Convolutional Networks,全卷积网络)模型、SegNet(用于图像分割的深度卷积编码器-解码器架构)、UNet(Unity Networking,语义分割模型)等。当然,该语义分割模型还可以为自主进行构建和训练得到的模型。
在一实施例中,所述基于语义分割模型对所述图像帧进行语义分割,得到像素级语义分割结果的步骤包括:
基于训练后的语义分割模型和所述图像帧,对所述图像帧进行语义分割,得到像素级语义分割结果。具体的,基于训练后的语义分割模型中的各个特征提取器,提取图像帧的特征信息,进而依据各个特征信息以及语义分割模型中的分类器,对各个特征信息进行像素级的分类预测,得到分类预测结果,并基于该分类预测结果,得到像素级语义分割结果。
需要说明的是,分类器的具体执行过程为获得分类概率向量,然后,确定该分类概率向量中最大的分类概率值对应的分类预测结果,该分类预测结果可以根据实际需要进行设定,例如,分类预测结果为1代表该像素为背景,分类预测结果为2代表该像素为人物,分类预测结果为3代表该像素为动物等。
其中,特征提取器包括若干卷积层,以通过卷积层对图像帧进行卷积处理,分类器包括若干卷积层,以通过卷积层进行反卷积操作。
步骤S20,基于兴趣预测模型、所述图像帧和所述像素级语义分割结果,对所述像素级语义分割结果中多个分割区域进行兴趣类别预测,得到兴趣类别预测结果;
在本实施例中,基于兴趣预测模型、图像帧和像素级语义分割结果,对像素级语义分割结果中多个分割区域进行兴趣类别预测,得到兴趣类别预测结果。其中,像素级语义分割结果包括多个分割区域,一个分割区域对应一个语义类型,而一个语义类型可以对应一个或多个分割区域。
具体的,基于训练后的兴趣预测模型中的第一特征提取器,提取该图像帧的图像特征信息,并基于训练后的兴趣预测模型中的第二特征提取器,提取该像素级语义分割结果中的分割区域特征信息,进而依据图像特征信息、分割区域特征信息以及兴趣预测模型中的分类器,对图像特征信息和分割区域特征信息进行分类预测,得到分类预测结果,并基于该分类预测结果,对像素级语义分割结果中多个分割区域分别设定兴趣类别,从而得到兴趣类别预测结果。
其中,分类器的具体执行过程为获得分类概率向量,然后,确定该分类概率向量中最大的分类概率值对应的兴趣类别结果,该兴趣类别结果可以包括多个分割区域的兴趣类别,例如,兴趣类别结果为{s1、s2、...、si、...、sn},si=1代表该第i个分割区域为非ROI、si=0代表该第i个分割区域为ROI。
需要说明的是,兴趣类别预测可以为二分类预测,即兴趣类别预测结果包括ROI区域和非ROI区域,也可以为多分类预测,即兴趣类别预测结果包括最感兴趣区域、中等感兴趣区域、低感兴趣区域、不感兴趣区域等。
在一实施例中,上述步骤S20包括:
基于兴趣预测模型、所述图像帧和所述像素级语义分割结果,对所述像素级语义分割结果中多个分割区域进行兴趣类别预测,得到若干ROI区域和若干非ROI区域。具体的,基于训练后的兴趣预测模型中的第一特征提取器,提取该图像帧的图像特征信息,并基于训练后的兴趣预测模型中的第二特征提取器,提取该像素级语义分割结果中的分割区域特征信息,进而依据图像特征信息、分割区域特征信息以及兴趣预测模型中的分类器,对图像特征信息和分割区域特征信息进行二分类预测,得到二分类预测结果,并基于该二分类预测结果,对像素级语义分割结果中多个分割区域分别设定兴趣类别,从而得到ROI区域和非ROI区域。例如,输入图像帧和语义分割模型输出的像素级语义分割结果至兴趣预测模型,兴趣预测模型输出ROI区域所匹配的语义分割区域类型值,对像素级语义分割结果中的图像语义参考数组的每个坐标位置的元素的值为2的设为0,即ROI区域;其余所有元素的值设为1,代表非ROI区域。
在另一实施例中,上述步骤S20包括:
基于兴趣预测模型、所述图像帧和所述像素级语义分割结果,对所述像素级语义分割结果中多个分割区域进行兴趣类别预测,得到若干高ROI区域、若干低ROI区域和若干非ROI区域。具体的,基于训练后的兴趣预测模型中的第一特征提取器,提取该图像帧的图像特征信息,并基于训练后的兴趣预测模型中的第二特征提取器,提取该像素级语义分割结果中的分割区域特征信息,进而依据图像特征信息、分割区域特征信息以及兴趣预测模型中的分类器,对图像特征信息和分割区域特征信息进行三分类预测,得到三分类预测结果,并基于该三分类预测结果,对像素级语义分割结果中多个分割区域分别设定兴趣类别,从而得到高ROI区域、低ROI区域和非ROI区域。例如,输入图像帧和语义分割模型输出的像素级语义分割结果至兴趣预测模型,兴趣预测模型输出高ROI区域所匹配的语义分割区域类型值,对像素级语义分割结果中的图像语义参考数组的每个坐标位置的元素的值为2的设为1,即高ROI区域;兴趣预测模型输出低ROI区域所匹配的语义分割区域类型值,对像素级语义分割结果中的图像语义参考数组的每个坐标位置的元素的值为3的设为2,即低ROI区域;兴趣预测模型输出非ROI区域所匹配的语义分割区域类型值,对像素级语义分割结果中的图像语义参考数组的每个坐标位置的元素的值为1的设为3,即非ROI区域。
在本实施例中,兴趣预测模型为深度学习模型,所述兴趣预测模型包括特征提取器和分类器,上述步骤S20包括:
基于所述特征提取器,提取该图像帧的图像特征信息,并提取该像素级语义分割结果中的分割区域特征信息,进而依据图像特征信息、分割区域特征信息以及所述分类器,对图像特征信息和分割区域特征信息进行分类预测,得到分类预测结果,并基于该分类预测结果,对像素级语义分割结果中多个分割区域分别设定兴趣类别,从而得到兴趣类别预测结果。
其中,特征提取器包括预设数量的隐含层,该预设数量可以根据实际需要进行设定,例如3。分类器包括全连接层,且该分类器可以由Softmax函数进行设定。
需要说明的是,深度学习模型可以为卷积神经网络模型、循环神经网络模型、编码器解码器模型等,此处不作限定。
在一实施例中,兴趣预测模型为卷积神经网络模型,所述兴趣预测模型包括特征提取器和分类器,所述特征提取器由预设数量的卷积层和舍弃层交替排列构成,上述步骤S20包括:
基于所述特征提取器,对所述图像帧和所述像素级语义分割结果进行特征提取,获得特征信息;依据所述特征信息和所述分类器,预测所述像素级语义分割结果中多个分割区域的兴趣类别,获得兴趣类别预测结果。
其中,该卷积层用于进行卷积操作,该舍弃层用于进行舍弃操作。该分类器由全连接层组成,用于将特征信息映射为一维向量。该舍弃层的dropout(舍弃概率)可以根据实际需要进行设定,例如0.7。
可以理解,每一个卷积层后均紧接一个舍弃层,以有效避免过拟合,舍弃层是指以概率p舍弃神经元并让其它神经元以概率q=1-p保留,本实施例中可设置舍弃概率为0.7,即随机忽略70%的神经元,使其失效。
为训练兴趣预测模型,在上述步骤S20之前,该视频编解码方法还包括:
获取图像帧训练数据和像素级语义分割结果训练数据,并对所述图像帧训练数据和所述像素级语义分割结果训练数据进行针对于兴趣类别的标签标注,得到兴趣类别数据;获取待训练模型,在所述图像帧训练数据、所述像素级语义分割结果训练数据和所述兴趣类别数据中选取训练样本数据;基于所述训练样本数据,对所述待训练模型进行迭代训练,得到所述兴趣预测模型。
具体的,在训练样本数据中选取训练样本,并将训练样本对应的用户标签集和信息内容输入待训练模型,执行模型预测,获得模型输出标签,进而计算模型输出标签与训练样本对应的用户标签组合之间的差值,获得模型损失,进而基于模型损失,更新待训练模型,直至待训练模型的迭代次数达到预设迭代次数。
其中,训练样本数据至少包括一训练样本,一训练样本包括一来自于图像帧训练数据中的图像帧、一来自于像素级语义分割结果训练数据中的像素级语义分割结果和一来自于兴趣类别数据中的兴趣类别预测结果。
进一步地,将训练样本数据划分为训练集和测试集,例如,将训练样本数据的90%划为训练集,训练样本数据的10%划为测试集。其中,训练集用于训练模型,测试集用于测试模型。
在一实施例中,获取各个场景对应的图像集,然后,将图像集作为图像帧训练数据。在其他实施方式中,图像帧训练数据可以人工设定,或者通过其他方式进行设定。该图像帧训练数据至少包括一图像。
在一实施例中,获取图像帧训练数据对应的像素级语义分割结果集,该像素级语义分割结果集由上述语义分割模型得到,然后,将像素级语义分割结果集作为像素级语义分割结果训练数据。在其他实施方式中,像素级语义分割结果训练数据可以人工设定,或者通过其他方式进行设定。该像素级语义分割结果训练数据至少包括一像素级语义分割结果。
需要说明的是,可以将预设迭代次数设置为1500(epochs=1500),然后通过梯度下降,可以找到使目标函数最小的最优权重值,并通过训练会自主学习到权重值。用训练集进行训练,使得目标函数越小越好,并在每轮训练后用测试集来评价验证模型,直至模型收敛后导出该模型的权重,进而得到兴趣预测模型。
其中,目标函数(误差函数)可以选择交叉熵函数,激活函数可以选择ReLU。
步骤S30,基于所述兴趣类别预测结果,对所述图像帧进行时域编码得到视频流。
在本实施例中,基于兴趣类别预测结果,对图像帧进行时域编码得到视频流。其中,基于上述分析,兴趣类别预测结果包括多个分割区域的兴趣类别,进而多个分割区域为多个ROI相关区域,以使ROI与时域编码结合进行处理得到视频流。
需要说明的是,对图像帧进行时域编码,可将图像帧编码成不同类型的视频帧,该视频帧可以包括:关键帧I帧、前向参考帧P帧、双向参考帧B帧。也就是说,对图像帧进行时域编码包括帧内压缩编码和帧间压缩编码。
在一实施例中,上述步骤S30包括:
基于所述兴趣类别预测结果,对所述图像帧进行时域编码得到包括I帧和P帧的视频流。其中,视频流中一个GOP(Group of Pictures,图像组)中包括一个I帧和若干P帧,具体的该GOP结构可以根据实际需要进行设定。
此外,还需要说明的是,时域编码可以采用硬编码或软编码进行,相应的,时域解码也可以采用硬解码或软解码,因此,时域编码可以采用各种时域编码方法进行,例如,Intel(英特尔)开源的SVT-HEVC(Scalable Video Technology for HEVC)编码的LowDelay(低延迟)模式,此处不作具体赘述。
在一实施例中,在对图像帧进行时域编码时,可以对GOP的I帧和P帧进行结构设定,该GOP从下往上可以分为预设数量的层数,该预设数量可以根据兴趣类别预测结果类别数量进行设定,例如兴趣类别预测结果包括高ROI区域、低ROI区域、非ROI区域,则预设数量为3层,基于此,第一层为I帧,I帧数量可以包括3个,第二层为P帧,P帧数量可以包括2个,第三层为P帧,P帧数量可以包括4个。而由于P帧都是前向参考帧,丢弃该P帧对前向的图像解码没有任何影响,因此可以根据图像编码的重要性,将码流分为三种组合,组合1:仅含第一层,三个I帧,包括I、I、I;组合2:含第一层和第二层,包括I、P、I、P、I,共5帧;组合3:含整个三层:I、P、P、P、I、P、P、P、I共9帧。需要说明的是,不同的组合都可以独立工作,例如,当位于最边缘或大型VR视频人眼没有覆盖的非ROI区域,就可使用组合1的码流播放;对于观看范围内区域或人眼关注并不高的低ROI区域可采用组合2的方式播放;对于高ROI区域,采用组合3全帧数的码流播放。当然,GOP的结构还可以为,第一层为I帧,I帧数量可以包括3个,第二层为P帧,P帧数量可以包括2个,第三层为P帧,P帧数量可以包括2个,码流的三种组合也可以为,组合1:仅含第一层,三个I帧,包括I、I、I;组合2:含第一层和第二层,包括I、P、I、P、I,共5帧;组合3:含整个三层:I、P、P、I、P、P、I共7帧。
在一些实施例中,上述步骤S30包括:
基于所述兴趣类别预测结果,确定所述多个分割区域对应的多个量化参数QP值;基于所述多个QP值,确定QP矩阵,所述QP矩阵包括所述多个分割区域中每一像素的QP值;基于所述QP矩阵对所述图像帧进行时域编码得到视频流。可以理解,一次编码实现多维码率分级,既支持QP码率分级,也支持GOP级别的码率分级,可进一步降低视频流的码率。
本发明实施例提供一种视频编解码方法,获取待编码视频的图像帧,并基于语义分割模型对图像帧进行语义分割,得到像素级语义分割结果;基于兴趣预测模型、图像帧和像素级语义分割结果,对像素级语义分割结果中多个分割区域进行兴趣类别预测,得到兴趣类别预测结果;基于兴趣类别预测结果,对图像帧进行时域编码得到视频流。通过上述方式,首先对图像帧进行语义分割,得到像素级语义分割结果,进而将该像素级语义分割结果输入至兴趣预测模型,以使兴趣预测模型可以基于更多的特征信息进行兴趣类别预测,从而提高兴趣类别预测的准确性,即该兴趣预测模型相比现有的感兴趣区域识别模型的预测准确性更高。之后,基于兴趣类别预测结果,对图像帧进行时域编码得到视频流,即将兴趣类别与时域编码相结合,以使不同兴趣类别的图像区域采用不同时域编码组合进行编码,即兴趣高的图像区域采用高帧数的编码组合进行编码,低兴趣的图像区域采用低帧数的编码组合进行编码,从而降低视频流的码率。
进一步地,基于上述第一实施例,提出本发明视频编解码方法的第二实施例。
参照图3,图3为本发明视频编解码方法第二实施例的流程示意图。
在本实施例中,上述步骤S30包括:
步骤S31,对所述图像帧进行图像分块,得到多个分块图像;
在本实施例中,由于时域编码是针对GOP级别,不区分图像内子域的编码,即对图像的参考、预测和编码是针对整个图像的,仅对整个图像的一部分区域做多种时域组合是无法做到的,因此,为将ROI与时域编码进行结合得到视频流,需要对图像帧进行图像分块,得到多个分块图像,再进一步进行时域编码。
在一实施例中,上述步骤S31包括:
通过tile视频编码技术,对所述图像帧进行图像分块,得到多个tile分块图像。其中,tile技术为从水平和垂直方向将图像分割为若干个矩形区域,把这些矩形区域称为tile分块图像。划分的tile并不要求均匀分布,例如,整幅图像被划分为3x3,即9个tile,每个tile都是矩形。
需要说明的是,基于tile的视频编码技术将图像分为多个块,每个块的图像编码是独立的,对参考帧的引用不会超过tile区域的边界。有了Tile分块,使ROI与时域编码的结合更加准确。
在另一实施例中,图像分块还可以采用其他方法进行,此处不作限定。
步骤S32,对所述多个分块图像进行基于时域的分层编码,得到视频流;
在本实施例中,对多个分块图像进行基于时域的分层编码,得到视频流。具体的,对每个分块图像进行时域编码,再将每个分块图像的时域编码结果进行结合得到完整的视频流。其中,多个分块图像可以为4个分块图像、9个分块图像、16个分块图像等。
在一实施例中,所述多个分块图像包括4个分块图像,上述步骤S32包括:
分别对所述4个分块图像进行时域编码,得到视频流。进一步地,分别对所述4个分块图像进行时域编码得到包括I帧和P帧的视频流。其中,视频流中一个GOP中包括一个I帧和若干P帧,具体的该GOP结构可以根据实际需要进行设定。
为便于理解,举例进行说明。若干P帧包括2个P帧,该第二个P帧依赖于第一个P帧。假设每个GOP的第一帧是I帧,属于时域的第一层;第二帧是P帧,属于时域的第二层;第三帧也是P帧,属于时域的第三层;由于P帧的前向依赖特点,丢弃P帧不会影响前序的视频帧,也不会影响后序不依赖于自己的P帧,即第三层P帧依赖第二层的P帧。具体的,可以参照图4,图4为本发明实施例涉及的第一视频流示意图,该图4包括2个GOP,T1、T2、T3、T4表示图像帧分为四个分块图像。I1表示第一个GOP的第一个I帧,P1表示第一个GOP的第一个P帧,P2表示第一个GOP的第二个P帧,I2表示第二个GOP的第一个I帧,P3表示第二个GOP的第一个P帧,P4表示第二个GOP的第二个P帧,其中,P2依赖P1,P4依赖P3。基于此,可得到三种时域编码组合,组合1:将I1、I2提取出来,不影响所有P帧;组合2:将I1、P1、I3、P3提取出来,不影响所有P2、P4,因为P2、P4在第三层;组合3:将所有帧保留,为最高级ROI相关的组合。
在另一实施例中,上述步骤S32包括:
步骤A321,基于所述兴趣类别预测结果,确定所述多个分割区域对应的多个量化参数QP值;
在本实施例中,基于兴趣类别预测结果,确定多个分割区域对应的多个量化参数QP值。其中,兴趣类别预测结果包括多个分割区域的兴趣类别,一个分割区域对应一种兴趣类别,一种兴趣类别对应若干分割区域,即可以将多个分割区域分为ROI相关区域,例如,该ROI相关区域可以包括高ROI区域、低ROI区域、非ROI区域,或者,该ROI相关区域可以包括高ROI区域、中ROI区域、低ROI区域、非ROI区域。具体的,对高级别的ROI区域使用QP值小、质量高、码率大的方式编码;对低级别的ROI区域使用QP值高、质量低、码率小的方式编码。
步骤A322,基于所述多个QP值,确定QP矩阵,所述QP矩阵包括所述多个分割区域中每一像素的QP值;
在本实施例中,由于语义分割结果为像素级语义分割结果,该像素级语义分割结果中的多个分割区域也为像素级的分割区域,基于此,基于多个QP值,确定QP矩阵,其中,QP矩阵包括多个分割区域中每一像素的QP值,以便后续基于像素级的QP矩阵对多个分块图像进行基于时域的分层编码。
步骤A323,基于所述QP矩阵对所述多个分块图像进行基于时域的分层编码。
在本实施例中,基于QP矩阵对多个分块图像进行基于时域的分层编码。可以理解,本实施例一次编码实现多维码率分级,既支持QP码率分级,也支持GOP级别的码率分级,可进一步降低视频流的码率。
步骤S33,基于所述兴趣类别预测结果,将所述多个分割区域与所述多个分块图像进行匹配,得到所述多个分块图像的兴趣类别;
在本实施例中,基于兴趣类别预测结果,将多个分割区域与多个分块图像进行匹配,得到多个分块图像的兴趣类别。其中,兴趣类别预测结果包括多个分割区域的兴趣类别,一个分割区域对应一种兴趣类别,一种兴趣类别对应若干分割区域,即可以将多个分割区域分为ROI相关区域,例如,该ROI相关区域可以包括高ROI区域、低ROI区域、非ROI区域,或者,该ROI相关区域可以包括高ROI区域、中ROI区域、低ROI区域、非ROI区域。基于此,可以将ROI相关区域与多个分块图像进行交集匹配,从而得到多个分块图像的兴趣类别。具体的,找出与ROI相关区域有相交的分块图像,得到足够分块图像能够包含ROI相关区域。
需要说明的是,可以按照ROI相关区域的兴趣级别顺序,依次找出与ROI相关区域有相交的分块图像。该兴趣级别顺序可以为从高到低的顺序,也可以为从低到高的顺序。
在一实施例中,上述步骤S33包括:
步骤A331,基于所述兴趣类别预测结果,将所述多个分割区域划分为不同兴趣级别的感兴趣区域ROI区域;
在本实施例中,基于兴趣类别预测结果,将多个分割区域划分为不同兴趣级别的ROI区域。其中,兴趣类别预测结果包括多个分割区域的兴趣级别,一个分割区域对应一种兴趣级别,一种兴趣级别对应若干分割区域,因此,可以将多个分割区域划分为不同兴趣级别的ROI区域。例如,该不同兴趣级别的ROI区域可以包括高ROI区域、低ROI区域、非ROI区域,或者,该不同兴趣级别的ROI区域可以包括高ROI区域、中ROI区域、低ROI区域、非ROI区域。
步骤A332,基于所述兴趣级别从高到低的顺序,将所述不同兴趣级别的ROI区域与所述多个分块图像进行交集匹配,得到每一兴趣级别对应的若干分块图像,以得到所述多个分块图像的兴趣类别。
在本实施例中,基于兴趣级别从高到低的顺序,将不同兴趣级别的ROI区域与多个分块图像进行交集匹配,得到每一兴趣级别对应的若干分块图像,以得到多个分块图像的兴趣类别。具体的,基于兴趣级别从高到低的顺序,先将高兴趣级别的ROI区域与多个分块图像进行交集匹配,得到该兴趣级别对应的若干分块图像,并基于该兴趣级别确定该若干分块图像的兴趣类别,之后,再将下一兴趣级别的ROI区域与剩下的分块图像进行交集匹配,得到该兴趣级别对应的若干分块图像,并基于该兴趣级别确定该若干分块图像的兴趣类别,直至所有不同兴趣级别的ROI区域均与多个分块图像进行交集匹配。
在一实施例中,所述不同兴趣级别的ROI区域包括高ROI区域、低ROI区域、非ROI区域,上述步骤A332包括:
将所述高ROI区域与所述多个分块图像进行交集匹配,得到所述高ROI区域对应的第一若干分块图像;将所述低ROI区域与去除所述第一若干分块图像的多个分块图像进行交集匹配,得到所述低ROI区域对应的第二若干分块图像;将所述非ROI区域与去除所述第一若干分块图像和所述第二若干分块图像的多个分块图像进行交集匹配,得到所述非ROI区域对应的第三若干分块图像;基于所述第一若干分块图像、所述第二若干分块图像和所述第三若干分块图像,得到所述多个分块图像的兴趣类别。
步骤S34,基于所述兴趣类别,对所述视频流的图像组GOP结构进行修改。
在本实施例中,基于兴趣类别,对上述时域编码得到的视频流的GOP结构进行修改,以得到最终的视频流,以供传输的视频流为进行GOP修改的视频流。其中,兴趣类别包括多个分块图像的兴趣级别,一个分块图像对应一种兴趣级别,一种兴趣级别对应若干分块图像,因此,可以将多个分块图像划分为不同兴趣级别的ROI区域。例如,该不同兴趣级别的ROI区域可以包括高ROI区域、低ROI区域、非ROI区域,或者,该不同兴趣级别的ROI区域可以包括高ROI区域、中ROI区域、低ROI区域、非ROI区域。GOP结构可以包括I帧和若干P帧。
具体的,对于中ROI区域、低ROI区域或非ROI区域的分块图像,可以丢弃相应的P帧二进制字节流,而对于高ROI区域的分块图像,不删除任何P帧码流,即维持原码流。
在一实施例中,每个所述GOP结构包括若干前向参考帧P帧,上述步骤S34包括:
步骤A341,基于所述兴趣类别,确定所述若干P帧中的待删除P帧;
步骤A342,若所述待删除P帧的数量大于0,则删除所述视频流中的所述待删除P帧。
在本实施例中,基于多个分块图像的兴趣类别,确定若干P帧中的待删除P帧;若待删除P帧的数量大于0,则删除视频流中的待删除P帧;若待删除P帧的数量等于0,则不对所述视频流进行修改。其中,待删除P帧包括1个P帧或多个P帧,若待删除P帧为1个,则该待删除P帧为GOP中的最后一个P帧;若待删除P帧为多个,则该待删除P帧为GOP中的最后几个P帧,以确保前序的P帧和I帧保留。
在一实施例中,所述多个分块图像包括4个分块图像,所述若干P帧包括2个P帧。为便于理解,举例进行说明。该第二个P帧依赖于第一个P帧。假设每个GOP的第一帧是I帧,属于时域的第一层;第二帧是P帧,属于时域的第二层;第三帧也是P帧,属于时域的第三层;由于P帧的前向依赖特点,丢弃P帧不会影响前序的视频帧,也不会影响后序不依赖于自己的P帧,即第三层P帧依赖第二层的P帧。具体的,可以参照图5,图5为本发明实施例涉及的第二视频流示意图,该图5包括2个GOP,T1、T2、T3、T4表示图像帧分为四个分块图像。I1表示第一个GOP的第一个I帧,P1表示第一个GOP的第一个P帧,P2表示第一个GOP的第二个P帧,I2表示第二个GOP的第一个I帧,P3表示第二个GOP的第一个P帧,P4表示第二个GOP的第二个P帧,其中,P2依赖P1,P4依赖P3,空白部分为被舍弃的P帧部分。基于此,假设高ROI区域只存在于T1中,低ROI区域在T2中,非ROI区域在T3和T4中,则根据兴趣类别,将人眼看不到或不关心的分块图像丢弃掉相关的P帧,具体的,T1分块图像是高ROI区域,GOP的全部视频帧均保留;T2分块图像是低ROI区域,丢掉第三层P帧,保留第二层的P帧;T3分块图像和T4分块图像是非ROI区域,丢掉所有第二层和第三层的P帧。
进一步地,每个所述GOP结构还包括关键帧I帧,在上述步骤A342之后还包括:
步骤A343,基于所述兴趣类别,确定ROI标记信息;
在本实施例中,基于兴趣类别,确定ROI标记信息。其中,兴趣类别包括多个分块图像的兴趣级别,一个分块图像对应一种兴趣级别,一种兴趣级别对应若干分块图像,因此,可以将多个分块图像划分为不同兴趣级别的ROI区域。例如,该不同兴趣级别的ROI区域可以包括高ROI区域、低ROI区域、非ROI区域,或者,该不同兴趣级别的ROI区域可以包括高ROI区域、中ROI区域、低ROI区域、非ROI区域,或者,该不同兴趣级别的ROI区域可以包括ROI区域、非ROI区域。
在一实施例中,ROI区域的ROI标记信息为1,非ROI区域的ROI标记信息为0。在其他实施方式中,高ROI区域的ROI标记信息为3,低ROI区域的ROI标记信息为2,非ROI区域的ROI标记信息为1,或者,高ROI区域的ROI标记信息为4,中ROI区域的ROI标记信息为3,低ROI区域的ROI标记信息为2,非ROI区域的ROI标记信息为1。
步骤A344,在所述I帧的补充增强信息SEI中增加所述ROI标记信息,以供基于所述ROI标记信息对所述视频流进行解码。
在本实施例中,在I帧的SEI(Supplemental Enhancement Information,补充增强信息)中增加ROI标记信息,以供后续解码时,基于ROI标记信息对传输的视频流进行解码。具体的,修改每个GOP的I帧的SEI内容,增加ROI标记信息,以供后续对每帧图像的每一分块图像的SEI数据进行读取,获取该分块图像的ROI标记信息,使得在播放过程中可以无需解码,直接从解码缓存中重用相应的已解码数据作为替代来恢复图像和播放。
本实施例中,对图像帧进行图像分块,得到多个分块图像,再进一步基于分块图像将时域编码与兴趣类别进行结合,从而实现基于时域的分层编码,进而进一步降低视频流的码率。
进一步地,基于上述第一实施例和/或第二实施例,提出本发明视频编解码方法的第三实施例。
在本实施例中,该视频编解码方法还包括:
步骤A40,获取所述视频流的ROI标记信息;
在本实施例中,获取所述视频流的ROI标记信息。其中,ROI标记信息用于指示视频流中已删除P帧的位置,即用于指示视频流中各层的兴趣类别,以便后续解码时恢复已删除P帧的位置的帧数据。
需要说明的是,ROI标记信息可以存储于GOP中I帧的SEI中,也可以存储于其他位置,此处不作限定。
在一实施例中,所述ROI标记信息存储于GOP中I帧的SEI中,上述步骤A40包括:
对每帧图像中每个分块图像的所述SEI数据进行读取,得到ROI标记信息。
步骤A50,基于所述ROI标记信息,对所述视频流中已删除P帧的位置填充已解码的帧数据。
在本实施例中,基于ROI标记信息,对视频流中已删除P帧的位置填充已解码的帧数据。其中,已解码的帧数据可以为已解码的I帧或者已解码的P帧。
在一实施例中,所述多个分块图像包括4个分块图像,所述若干P帧包括2个P帧。为便于理解,举例进行说明。该第二个P帧依赖于第一个P帧。假设每个GOP的第一帧是I帧,属于时域的第一层;第二帧是P帧,属于时域的第二层;第三帧也是P帧,属于时域的第三层;由于P帧的前向依赖特点,丢弃P帧不会影响前序的视频帧,也不会影响后序不依赖于自己的P帧,即第三层P帧依赖第二层的P帧。具体的,可以参照图6,图6为本发明实施例涉及的第三视频流示意图,该图6包括2个GOP,T1、T2、T3、T4表示图像帧分为四个分块图像。I1表示第一个GOP的第一个I帧,P1表示第一个GOP的第一个P帧,P2表示第一个GOP的第二个P帧,I2表示第二个GOP的第一个I帧,P3表示第二个GOP的第一个P帧,P4表示第二个GOP的第二个P帧,其中,P2依赖P1,P4依赖P3,空白部分为被舍弃的P帧部分。基于此,在上一步码流中被丢弃的第二、三层的P帧数据,被已解码并存储在缓存数据中的I帧数填充(粉红色部分),由于属于非ROI区域,用户关注程度低,且一个GOP的长度间隔较短,所以上述内容替换渲染观众不易发觉。
本实施例中,减少了传输码率,也减少了解码运算量,因为部分已解码的图像数据可以直接从解码缓存中获取,不需要对整个图像再进行一次整体解码,只需要对小块的部分Tile进行解码,降低了CPU并发运算量,同时也减少了客户端的解码缓存空间,更利于在低功耗处理能力的环境下如移动端设备上使用。
本发明还提供一种视频编解码装置。
在本实施例中,所述视频编解码装置包括:
分割模块,用于获取待编码视频的图像帧,并基于语义分割模型对所述图像帧进行语义分割,得到像素级语义分割结果;
预测模块,用于基于兴趣预测模型、所述图像帧和所述像素级语义分割结果,对所述像素级语义分割结果中多个分割区域进行兴趣类别预测,得到兴趣类别预测结果;
编码模块,用于基于所述兴趣类别预测结果,对所述图像帧进行时域编码得到视频流。
进一步地,所述编码模块包括:
图像分块单元,用于对所述图像帧进行图像分块,得到多个分块图像;
时域编码单元,用于对所述多个分块图像进行基于时域的分层编码,得到视频流;
图像匹配单元,用于基于所述兴趣类别预测结果,将所述多个分割区域与所述多个分块图像进行匹配,得到所述多个分块图像的兴趣类别;
视频流修改单元,用于基于所述兴趣类别,对所述视频流的图像组GOP结构进行修改。
进一步地,所述时域编码单元包括:
参数确定子单元,用于基于所述兴趣类别预测结果,确定所述多个分割区域对应的多个量化参数QP值;
矩阵确定子单元,用于基于所述多个QP值,确定QP矩阵,所述QP矩阵包括所述多个分割区域中每一像素的QP值;
时域编码子单元,用于基于所述QP矩阵对所述多个分块图像进行基于时域的分层编码。
进一步地,所述图像匹配单元包括:
区域划分子单元,用于基于所述兴趣类别预测结果,将所述多个分割区域划分为不同兴趣级别的感兴趣区域ROI区域;
图像匹配子单元,用于基于所述兴趣级别从高到低的顺序,将所述不同兴趣级别的ROI区域与所述多个分块图像进行交集匹配,得到每一兴趣级别对应的若干分块图像,以得到所述多个分块图像的兴趣类别。
进一步地,每个所述GOP结构包括若干前向参考帧P帧,所述视频流修改单元包括:
P帧确定子单元,用于基于所述兴趣类别,确定所述若干P帧中的待删除P帧;
P帧删除子单元,用于若所述待删除P帧的数量大于0,则删除所述视频流中的所述待删除P帧。
进一步地,每个所述GOP结构还包括关键帧I帧,所述视频流修改单元还包括:
信息确定子单元,用于基于所述兴趣类别,确定ROI标记信息;
信息增加子单元,用于在所述I帧的补充增强信息SEI中增加所述ROI标记信息,以供基于所述ROI标记信息对所述视频流进行解码。
进一步地,所述视频编解码装置还包括:
信息获取模块,用于获取所述视频流的ROI标记信息;
帧数据填充模块,用于基于所述ROI标记信息,对所述视频流中已删除P帧的位置填充已解码的帧数据。
其中,上述视频编解码装置中各个模块的功能实现与上述视频编解码方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有视频编解码程序,所述视频编解码程序被处理器执行时实现如以上任一项实施例所述的视频编解码方法的步骤。
本发明计算机可读存储介质的具体实施例与上述视频编解码方法各实施例基本相同,在此不作赘述。
本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序产品被处理器执行时实现如以上任一项实施例所述的视频编解码方法的步骤。
本发明计算机程序产品的具体实施例与上述视频编解码方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种视频编解码方法,其特征在于,所述视频编解码方法包括以下步骤:
获取待编码视频的图像帧,并基于语义分割模型对所述图像帧进行语义分割,得到像素级语义分割结果;
基于兴趣预测模型、所述图像帧和所述像素级语义分割结果,对所述像素级语义分割结果中多个分割区域进行兴趣类别预测,得到兴趣类别预测结果;
基于所述兴趣类别预测结果,对所述图像帧进行时域编码得到视频流,具体包括:
对所述图像帧进行图像分块,得到多个分块图像;
对所述多个分块图像进行基于时域的分层编码,得到视频流;
基于所述兴趣类别预测结果,将所述多个分割区域与所述多个分块图像进行匹配,得到所述多个分块图像的兴趣类别;
基于所述兴趣类别,对所述视频流的图像组GOP结构进行修改;
其中,每个所述GOP结构包括若干前向参考帧P帧,所述基于所述兴趣类别,对所述视频流的图像组GOP结构进行修改的步骤包括:
基于所述兴趣类别,确定所述若干前向参考帧P帧中的待删除的P帧码流;
其中,每一P帧包括多个分块图像,将所述多个分块图像划分为不同兴趣级别的感兴趣区域ROI区域;该不同兴趣级别的感兴趣区域ROI区域包括高ROI区域、中ROI区域、低ROI区域、非ROI区域;其中,对于中ROI区域、低ROI区域或非ROI区域的分块图像,删除相应的P帧码流,对于高ROI区域的分块图像,不删除任何P帧码流。
2.如权利要求1所述的视频编解码方法,其特征在于,所述对所述多个分块图像进行基于时域的分层编码,得到视频流的步骤包括:
基于所述兴趣类别预测结果,确定所述多个分割区域对应的多个量化参数QP值;
基于所述多个量化参数QP值,确定QP矩阵,所述QP矩阵包括所述多个分割区域中每一像素的QP值;
基于所述QP矩阵对所述多个分块图像进行基于时域的分层编码。
3.如权利要求1所述的视频编解码方法,其特征在于,所述基于所述兴趣类别预测结果,将所述多个分割区域与所述多个分块图像进行匹配,得到所述多个分块图像的兴趣类别的步骤包括:
基于所述兴趣类别预测结果,将所述多个分割区域划分为不同兴趣级别的感兴趣区域ROI区域;
基于所述兴趣级别从高到低的顺序,将所述不同兴趣级别的ROI区域与所述多个分块图像进行交集匹配,得到每一兴趣级别对应的若干分块图像,以得到所述多个分块图像的兴趣类别。
4.如权利要求1所述的视频编解码方法,其特征在于,每个所述GOP结构还包括关键帧I帧,所述删除所述视频流中的所述待删除的P帧码流的步骤之后,还包括:
基于所述兴趣类别,确定ROI标记信息;
在所述关键帧I帧的补充增强信息SEI中增加所述ROI标记信息,以供基于所述ROI标记信息对所述视频流进行解码。
5.如权利要求1至4中任一项所述的视频编解码方法,其特征在于,所述视频编解码方法还包括:
获取所述视频流的ROI标记信息;
基于所述ROI标记信息,对所述视频流中已删除P帧的位置填充已解码的帧数据。
6.一种视频编解码装置,其特征在于,所述视频编解码装置包括:
分割模块,用于获取待编码视频的图像帧,并基于语义分割模型对所述图像帧进行语义分割,得到像素级语义分割结果;
预测模块,用于基于兴趣预测模型、所述图像帧和所述像素级语义分割结果,对所述像素级语义分割结果中多个分割区域进行兴趣类别预测,得到兴趣类别预测结果;
编码模块,用于基于所述兴趣类别预测结果,对所述图像帧进行时域编码得到视频流;
所述编码模块还用于对所述图像帧进行图像分块,得到多个分块图像;对所述多个分块图像进行基于时域的分层编码,得到视频流;基于所述兴趣类别预测结果,将所述多个分割区域与所述多个分块图像进行匹配,得到所述多个分块图像的兴趣类别;基于所述兴趣类别,对所述视频流的图像组GOP结构进行修改;
其中,每个所述GOP结构包括若干前向参考帧P帧,所述编码模块还用于基于所述兴趣类别,确定所述若干前向参考帧P帧中的待删除的P帧码流;
其中,每一P帧包括多个分块图像,将所述多个分块图像划分为不同兴趣级别的感兴趣区域ROI区域;该不同兴趣级别的感兴趣区域ROI区域包括高ROI区域、中ROI区域、低ROI区域、非ROI区域;其中,对于中ROI区域、低ROI区域或非ROI区域的分块图像,删除相应的P帧码流,对于高ROI区域的分块图像,不删除任何P帧码流。
7.一种视频编解码设备,其特征在于,所述视频编解码设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频编解码程序,所述视频编解码程序被所述处理器执行时实现如权利要求1至5中任一项所述的视频编解码方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有视频编解码程序,所述视频编解码程序被处理器执行时实现如权利要求1至5中任一项所述的视频编解码方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110878539.7A CN113747151B (zh) | 2021-07-30 | 2021-07-30 | 视频编解码方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110878539.7A CN113747151B (zh) | 2021-07-30 | 2021-07-30 | 视频编解码方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113747151A CN113747151A (zh) | 2021-12-03 |
CN113747151B true CN113747151B (zh) | 2024-04-12 |
Family
ID=78729761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110878539.7A Active CN113747151B (zh) | 2021-07-30 | 2021-07-30 | 视频编解码方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113747151B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101690228A (zh) * | 2007-06-29 | 2010-03-31 | 汤姆森许可贸易公司 | 视频编索引方法和视频编索引设备 |
CN101827267A (zh) * | 2010-04-20 | 2010-09-08 | 上海大学 | 基于视频图像分割技术的码率控制方法 |
CN101841704A (zh) * | 2009-01-14 | 2010-09-22 | 北京中星微电子有限公司 | 视频码流压缩及解压缩的方法和装置 |
CN103179405A (zh) * | 2013-03-26 | 2013-06-26 | 天津大学 | 一种基于多级感兴趣区域的多视点视频编码方法 |
CN109862356A (zh) * | 2019-01-17 | 2019-06-07 | 中国科学院计算技术研究所 | 一种基于感兴趣区域的视频编码方法及系统 |
CN110602506A (zh) * | 2019-09-25 | 2019-12-20 | 咪咕视讯科技有限公司 | 视频处理方法、网络设备及计算机可读存储介质 |
WO2020101448A1 (en) * | 2018-08-28 | 2020-05-22 | Samsung Electronics Co., Ltd. | Method and apparatus for image segmentation |
WO2020103384A1 (zh) * | 2018-11-19 | 2020-05-28 | 浙江宇视科技有限公司 | 视频编码方法、装置、电子设备及计算机可读存储介质 |
CN111447449A (zh) * | 2020-04-01 | 2020-07-24 | 北京奥维视讯科技有限责任公司 | 基于roi的视频编码方法和系统以及视频传输和编码系统 |
CN112004085A (zh) * | 2020-08-14 | 2020-11-27 | 北京航空航天大学 | 一种场景语义分割结果指导下的视频编码方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008077119A2 (en) * | 2006-12-19 | 2008-06-26 | Ortiva Wireless | Intelligent video signal encoding utilizing regions of interest information |
US9584814B2 (en) * | 2014-05-15 | 2017-02-28 | Intel Corporation | Content adaptive background foreground segmentation for video coding |
WO2018072675A1 (en) * | 2016-10-18 | 2018-04-26 | Zhejiang Dahua Technology Co., Ltd. | Methods and systems for video processing |
-
2021
- 2021-07-30 CN CN202110878539.7A patent/CN113747151B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101690228A (zh) * | 2007-06-29 | 2010-03-31 | 汤姆森许可贸易公司 | 视频编索引方法和视频编索引设备 |
CN101841704A (zh) * | 2009-01-14 | 2010-09-22 | 北京中星微电子有限公司 | 视频码流压缩及解压缩的方法和装置 |
CN101827267A (zh) * | 2010-04-20 | 2010-09-08 | 上海大学 | 基于视频图像分割技术的码率控制方法 |
CN103179405A (zh) * | 2013-03-26 | 2013-06-26 | 天津大学 | 一种基于多级感兴趣区域的多视点视频编码方法 |
WO2020101448A1 (en) * | 2018-08-28 | 2020-05-22 | Samsung Electronics Co., Ltd. | Method and apparatus for image segmentation |
WO2020103384A1 (zh) * | 2018-11-19 | 2020-05-28 | 浙江宇视科技有限公司 | 视频编码方法、装置、电子设备及计算机可读存储介质 |
CN109862356A (zh) * | 2019-01-17 | 2019-06-07 | 中国科学院计算技术研究所 | 一种基于感兴趣区域的视频编码方法及系统 |
CN110602506A (zh) * | 2019-09-25 | 2019-12-20 | 咪咕视讯科技有限公司 | 视频处理方法、网络设备及计算机可读存储介质 |
CN111447449A (zh) * | 2020-04-01 | 2020-07-24 | 北京奥维视讯科技有限责任公司 | 基于roi的视频编码方法和系统以及视频传输和编码系统 |
CN112004085A (zh) * | 2020-08-14 | 2020-11-27 | 北京航空航天大学 | 一种场景语义分割结果指导下的视频编码方法 |
Non-Patent Citations (2)
Title |
---|
感兴趣区域分割的非平衡多描述视频编码;余海瑞;倪林;;计算机工程与应用;20090201(04);全文 * |
相同编码参数HEVC视频重压缩检测;潘鹏飞;姚晔;王慧;;中国图象图形学报;20200516(05);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113747151A (zh) | 2021-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111868751B (zh) | 在视频代码化的机器学习模型中使用应用于量化参数的非线性函数 | |
US20200329233A1 (en) | Hyperdata Compression: Accelerating Encoding for Improved Communication, Distribution & Delivery of Personalized Content | |
CN111656401A (zh) | 通过使用基于学习的运动分段的运动翘曲的视频压缩 | |
CN106385592B (zh) | 图像压缩方法和装置 | |
IL268214B (en) | A method for image processing and video compression | |
Testolin et al. | A machine learning approach to QoE-based video admission control and resource allocation in wireless systems | |
Ahmadi et al. | A game attention model for efficient bit rate allocation in cloud gaming | |
CN113767400A (zh) | 使用率失真成本作为深度学习的损失函数 | |
CN112102212B (zh) | 一种视频修复方法、装置、设备及存储介质 | |
CN111837140B (zh) | 视频代码化的感受野一致卷积模型 | |
CN116803079A (zh) | 视频和相关特征的可分级译码 | |
CN113516666A (zh) | 图像裁剪方法、装置、计算机设备及存储介质 | |
CN112218159A (zh) | 多媒体信息播放方法、装置、存储介质及电子装置 | |
KR102602690B1 (ko) | 화질에 기반한 적응적 부호화 및 복호화를 위한 방법 및 장치 | |
Zhu et al. | Video saliency aware intelligent HD video compression with the improvement of visual quality and the reduction of coding complexity | |
CN113747151B (zh) | 视频编解码方法、装置、设备及计算机可读存储介质 | |
CN100546390C (zh) | 在图象编码过程中实现自适应扫描的方法 | |
CN113014920A (zh) | 图像编码、解码方法及装置 | |
Topiwala et al. | Deep learning techniques in video coding and quality analysis | |
CN111767428A (zh) | 视频推荐方法、装置、电子设备及存储介质 | |
CN116708934A (zh) | 一种视频编码处理方法及装置 | |
Du et al. | Generative Video Compression with a Transformer-Based Discriminator | |
CN116524387A (zh) | 一种基于深度学习网络的超高清视频压缩损伤等级评估方法 | |
Tian et al. | Motion activity based wireless video quality perceptual metric | |
Mittal et al. | Visually lossless H. 264 compression of natural videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |