CN118042142A - 一种视频编码方法、装置、计算机设备及介质 - Google Patents
一种视频编码方法、装置、计算机设备及介质 Download PDFInfo
- Publication number
- CN118042142A CN118042142A CN202410369251.0A CN202410369251A CN118042142A CN 118042142 A CN118042142 A CN 118042142A CN 202410369251 A CN202410369251 A CN 202410369251A CN 118042142 A CN118042142 A CN 118042142A
- Authority
- CN
- China
- Prior art keywords
- video
- slice
- coding
- region
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000012545 processing Methods 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 17
- 238000010586 diagram Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000013441 quality evaluation Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/167—Position within a video image, e.g. region of interest [ROI]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请实施例公开了一种视频编码方法、装置、计算机设备及介质,其中方法包括:对目标视频进行切片,得到针对目标视频的多个切片视频;任一切片视频包括目标视频中连续的多个视频帧;获取每个切片视频中感兴趣区域,利用每个切片视频的感兴趣区域对相应切片视频进行编码处理,得到每个切片视频的编码数据;对每个切片视频的编码数据进行组合处理,生成目标视频的编码数据;可提高视频的编码效果。
Description
技术领域
本申请涉及视频处理技术领域,尤其涉及一种视频编码方法、装置、计算机设备及介质。
背景技术
随着计算机技术、数字多媒体技术以及编码解码技术的不断发展,视频及图像在各个领域以及人们的日常生活中也变得越来越普及。在视频编码时,是需要设置视频编码所需的编码参数的,目前,在视频的编码过程中,通常是利用同样的编码参数对整个视频进行编码,而由于视频的不同视频帧中通常存在不同的画面内容,那么对所需的编码参数的需求可能不同,在利用同一编码参数进行编码时,可能会导致视频的编码效果较差。因此,如何提高编码效果成为了当前研究热点。
发明内容
本申请实施例提供了一种视频编码方法、装置、计算机设备及介质,可以有效提高视频的编码效果。
本申请实施例第一方面公开了一种视频编码方法,所述方法包括:
对目标视频进行切片,得到针对所述目标视频的多个切片视频;任一切片视频包括所述目标视频中连续的多个视频帧;
获取每个切片视频中感兴趣区域,利用每个切片视频的感兴趣区域对相应切片视频进行编码处理,得到所述每个切片视频的编码数据;
对所述每个切片视频的编码数据进行组合处理,生成所述目标视频的编码数据。
本申请实施例第二方面公开了一种视频编码装置,所述装置包括:
切片单元,用于对目标视频进行切片,得到针对所述目标视频的多个切片视频;任一切片视频包括所述目标视频中连续的多个视频帧;
编码单元,用于获取每个切片视频中感兴趣区域,利用每个切片视频的感兴趣区域对相应切片视频进行编码处理,得到所述每个切片视频的编码数据;
组合单元,用于对所述每个切片视频的编码数据进行组合处理,生成所述目标视频的编码数据。
本申请实施例第三方面公开了一种计算机设备,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
本申请实施例第四方面公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
本申请实施例第五方面公开了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括程序指令,所述程序指令被处理器执行时实现上述第一方面的方法。
在本申请实施例中,可以对目标视频进行切片,得到针对目标视频的多个切片视频,还可以获取每个切片视频中感兴趣区域,并可以利用每个切片视频的感兴趣区域对相应切片视频进行编码处理,得到每个切片视频的编码数据;进而可以对每个切片视频的编码数据进行组合处理,生成目标视频的编码数据。通过实施上述方式,在视频编码时,可以将一个视频划分为多个切片视频,以便于后续可以对各个切片视频进行编码处理,相比于对整个视频进行编码处理而言,本申请实施例可以提供更加细粒度的编码处理,进而提高编码效果;在对每个切片视频进行编码的基础上,还可以进一步结合每个切片视频中的感兴趣区域对相应切片视频进行编码,以有效利用每个切片视频中的实际特征(即感兴趣区域)进行编码,保证编码可靠性,进而提高编码效果。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种视频编码系统的框架示意图;
图2a是本申请实施例提供的一种视频编码方法的流程示意图;
图2b是本申请实施例提供的另一种视频编码方法的流程示意图;
图3是本申请实施例提供的又一种视频编码方法的流程示意图;
图4是本申请实施例提供的又一种视频编码方法的流程示意图;
图5是本申请实施例提供的一种视频编码装置的结构示意图;
图6是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本申请实施例提出了一种视频编码方案,该视频编码方案原理如下:可以对目标视频进行切片,以得到针对目标视频的多个切片视频,进而分别对每个切片视频进行编码处理,得到相应切片视频的编码数据。在一个实施例中,可以获取每个切片视频中感兴趣区域(Reigion of Interest,ROI),以利用每个切片视频的感兴趣区域对相应切片视频进行编码处理,得到每个切片视频的编码数据。在得到每个切片视频的编码数据之后,即可以对每个切片视频的编码数据进行组合处理,以生成目标视频的编码数据。其中,感兴趣区域通常可以理解为切片视频的视频帧在展示的情况下,该视频帧中被人眼关注的区域;简单来说,感兴趣区域即为用户比较感兴趣的区域。例如,对于一个包含人物的视频帧,用户在观看到这个视频帧时,关注的重点是这个视频帧中的人物。
通过实施上述方式,在视频编码时,可以将一个视频划分为多个切片视频,以便于后续可以对各个切片视频进行编码处理,相比于对整个视频进行编码处理而言,本申请实施例可以提供更加细粒度的编码处理,进而提高编码效果;在对每个切片视频进行编码的基础上,还可以进一步结合每个切片视频中的感兴趣区域对相应切片视频进行编码,以有效利用每个切片视频中的实际特征(即感兴趣区域)进行编码,保证编码可靠性,进而提高编码效果。
在具体实现中,上述所提及的视频编码方案的执行主体可以是计算机设备,该计算机设备可以是终端或者服务器。此处所提及的终端可以是智能手机、平板电脑、笔记本电脑、台式电脑等设备;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,等等。
需要说明的是,当计算机设备为服务器时,本申请实施例提供了一种视频编码系统,如图1所示,该视频编码系统包括至少一个终端和至少一个服务器;终端可以获取目标视频,并将获取到的目标视频上传至服务器(即计算机设备),以使计算机设备可以基于视频编码方案对该目标视频进行编码处理,得到目标视频对应的编码数据。
基于上述所提供的视频编码方案,本申请实施例提供了一种视频编码方法,该视频编码方法可由上述所提及的计算机设备执行。请参阅图2a,该视频编码方法包括但不限于以下步骤:
S101,对目标视频进行切片,得到针对目标视频的多个切片视频。
其中,目标视频可以是指待编码的视频,该目标视频可以任意类型或任意时长的视频,对此不作限定。任一切片视频可以包括目标视频中连续的多个视频帧。
可以理解的是,同一个视频中不同的视频帧通常是具有多个不同的场景,例如,一个关于校园的视频中可以包含操场、教室、食堂等场景,又如,一个关于旅游的视频中,可以包括大海、城市等场景;不同的场景对视频帧的特征和复杂度等信息也有着不同的影响,基于这种因素,本申请实施例考虑为不同场景的视频帧适配不同的编码参数,以有效提高视频的编码效果。
基于此可知,步骤S101的具体实现可以是:计算机设备可以获取目标视频中视频帧的场景类型。在一个实施例中,此处可以获取目标视频中每个视频帧的场景类型,以便于后续可以基于每个视频帧的场景类型对目标视频进行切片;另一个实施例中,考虑到一个视频中视频帧的数量较多,在获取每个视频帧的场景类型时,可能需要消耗大量的时间以及计算开销,进而导致编码效率较低,则此处可以仅获取目标视频中部分视频帧的场景类型,以在保证利用场景类型进行切片的可靠性的同时,尽可能花费较少的时间以及计算开销来处理此处的获取操作。在一种可行的实现方式中,可以以目标抽帧方式从目标视频中确定出目标视频帧,并获取目标视频帧的场景类型;此处的目标视频帧即为目标视频中的部分视频帧。其中,目标抽帧方式可以是以时间间隔为基准的抽帧方式,或以帧间隔为基准的抽帧方式等等;该时间间隔可以是1秒、3秒等数值,其具体数值不作限定;例如,以时间间隔为1秒来说,即是1秒的时间间隔从目标视频中获取视频帧,所获取到的视频帧即为目标视频帧。帧间隔可以是1帧、2帧等数值,其具体数值不作限定;例如,以帧间隔为2帧来说,即是2帧的帧间隔从目标视频中获取视频帧,所获取到的视频帧即为目标视频帧。
其中,视频帧的场景类型可以是调用具有场景类型识别功能的神经网络模型来获取得到的;在一个实施例中,计算机设备可以将目标视频输入至该神经网络模型,以调用该神经网络模型对目标视频中视频帧进行场景类型的识别,得到目标视频中视频帧的场景类型。
在得到目标视频中视频帧的场景类型之后,计算机设备可以基于目标视频中视频帧的场景类型对目标视频进行切片,以得到目标视频的切片视频。另外,需要理解的是,在视频编码中,通常可以将视频的视频帧序列划分为若干个GOP(Group Of Pictures,图像组),并以GOP为单位对每个GOP中的每一个视频帧进行编码处理,从而实现对视频的编码处理。其中,一个GOP是视频帧序列中的一个图片集,一个GOP就是一组连续的视频帧。基于此可知,目标视频可以包含一个或多个编码图像组(图像组),任一编码图像组可以包含目标视频中连续的多个视频帧;则此处在对目标视频进行切片时,也可以是分别对目标视频包括的每个编码图像组进行切片。下述以目标视频中的任一编码图像组为例对切片处理进行具体阐述。
在一种实现方式中,针对目标视频中的任一编码图像组,计算机设备可以按照将连续且为同一场景类型的视频帧划分为一个切片视频的划分规则,对任一编码图像组进行切片,以得到任一编码图像组的切片视频。换言之,计算机设备可以将连续且为同一场景类型的视频帧划分为一个切片视频,即同一场景类型的连续视频帧可以作为一个切片视频。
例如,编码图像组中视频帧的情况形如:AAAABBBBBBBBCCCCCCCC(A、B、C分别表示对应视频帧的场景类型),基于上述的划分规则,可知,该编码图像组可以划分为:由AAAA组成的切片视频、由BBBBBBBB组成的切片视频、由CCCCCCCC作组成的切片视频。
在一个实施例中,为了避免目标视频中被划分过多的切片视频,进而导致计算量加大,编码效率降低,本申请实施例还可以考虑设定一些切分规则,以降低目标视频中切片视频的数量,尽可能保证编码效率。例如,该切分规则的原理可以是在连续的视频帧中出现视频帧闪烁的情况可不进行切片、某一场景类型的视频帧的数量过少可不进行切片等中的有一种或多种。
在切分规则的原理为在连续的视频帧中出现视频帧闪烁可不进行切片的情况下的切片处理的具体实现可以是:在按照将连续且为同一场景类型的视频帧划分为一个切片视频的划分规则,对任一编码图像组进行切片的情况下,如果任一编码图像组中视频帧包括第一场景类型的视频帧以及第二场景类型的视频帧,且第二场景类型的视频帧处于多个连续的第一场景类型的视频帧中,第二场景类型的视频帧的数量与第一场景类型的视频帧的数量满足第一预设条件,则可以将该任一编码图像组作为一个切片视频。
其中,该第一预设条件可以是:第一场景类型的视频帧的数量大于第一数量,第二场景类型的视频帧小于第二数量,第一数量大于或等于第二数量;或者,第二场景类型的视频帧的数量小于第一场景类型的视频帧的数量。在第一场景类型的视频帧的数量以及第二场景类型的视频帧的数量满足上述第一预设条件时,可以理解为在第一场景类型的视频帧中出现第二场景类型的视频帧的闪烁,即在任一编码图像组中存在视频帧的闪烁,此处可以不对编码图像组中的第一场景类型以及第二场景类型的视频帧进行切分,直接将第一场景类型以及第二场景类型的视频帧划分为一个切片视频。
例如,上述所描述的编码图像组中视频帧的情况形如:AAAABBAAAA;其中,A可以理解为第一场景类型的视频帧,B可以理解为第二场景类型的视频帧,此处在编码图像组中B帧出现数量小于A帧的数量,则可以判断为编码图像组中的视频帧是闪烁的情况,此时可以不对A与B之间位置设置为场景检测,即可以将AAAABBAAAA划分为一个切片视频。
在切分规则的原理为某一场景类型的视频帧的数量过少可不进行切片的情况下的切片处理的具体实现可以是:在按照将连续且为同一场景类型的视频帧划分为一个切片视频的划分规则,对任一编码图像组进行切片的情况下,如果任一编码图像组中视频帧包括多个场景类型的视频帧,且目标场景类型的视频帧的数量与其他场景类型的视频帧的数量满足第二预设条件,则可以将任一编码图像组中目标场景类型的视频帧以及其他场景类型的视频分别划分为不同的切片视频。
其中,目标场景类型为多个场景类型中的任一个。该第二预设条件可以是目标场景类型的视频帧的数量大于其他场景类型中任一个场景类型的视频帧的数量;或者,目标场景类型的视频帧的数量大于第三数量,其他场景类型的视频帧的数量均小于第四数量,第三数量大于或等于第四数量;或者,也可以是其他条件,对此不作限定,仅需保证过少的,且为同一场景类型的视频帧不能直接划分为一个切片视频。
例如,上述所描述的编码图像组中视频帧的情况形如:AAABBCCDDEEFFFF,此处编码图像组中A帧、B帧、C帧、D帧以及E帧的数量均小于F帧的数量,在进行切分时,可以将AAABBCCDDEE划分为一个切片视频,将FFFF划分为一个切片视频;也就是说,在对编码图像组进行切分时,将不在A与B,B与C、C与D,D与E之间位置设置场景分割点,而是在E与F之间位置设置场景检测点,以将编码图像组划分为由AAABBCCDDEE组成的切分视频以及由FFFF组成的切分视频。
S102,获取每个切片视频中感兴趣区域,利用每个切片视频的感兴趣区域对相应切片视频进行编码处理,得到每个切片视频的编码数据。
其中,感兴趣区域(Reigion of Interest,ROI)通常可以理解为人眼关注区域,即用户比较感兴趣的区域。其中,感兴趣区域在图像或视频的编码处理中可以涉及到感兴趣区域的区域编码参数(或称之为是ROI编码参数),针对人眼关注区域优化是面向用户感知编码优化中的一个方面。通常,考虑到对于人眼关注度更高的视频片段,可以倾向于使用更大的ROI编码参数对这些视频片段进行编码,以提高感兴趣区域的清晰度,加强人眼感知到的画面质量,提高视频质量;而对于人眼关注区域更少的视频片段,为避免编码资源的浪费,可以使用更小的ROI编码参数对这些视频片段进行处理。基于此可知,在实际编码中,如果采用过大的ROI编码参数对非关注区域进行编码,容易对非关注区域造成过大损失,使得这些区域失真被直接感知;而如果采用较小的ROI编码参数对关注区域进行编码,使得关注区域的清晰度较差,从而导致编码效果较差。
基于上述考虑,本申请实施例考虑基于切片视频中所包括的感兴趣区域,调整对切片视频在进行编码时所需的编码参数(如ROI编码参数),进而利用调整后的编码参数对相应切片视频进行编码处理,并得到对应的编码数据。
在一种实现方式中,可以先获取每个切片视频中感兴趣区域,以便于后续可以分别利用每个切片视频的感兴趣区域对每个切片视频进行编码处理。考虑到获取每个切片视频的感兴趣区域的原理是类似的,则下述以任一切片视频为例对感兴趣区域的获取进行具体阐述。具体实现中,针对任一切片视频而言,可以先确定该切片视频中每个视频帧中的感兴趣区域;例如,可以调用具有感兴趣区域识别的神经网络模型对每个视频帧进行感兴趣区域的识别,以得到每个视频帧的感兴趣区域;或者,也可以利用其他方式确定每个视频帧的感兴趣区域,对此不作具体限定。在得到每个视频帧的感兴趣区域后,即可以进一步基于每个视频帧的感兴趣区域,确定针对该切片视频的感兴趣区域;例如,可以将各个视频帧的感兴趣区域之间的和值,作为针对该切片视频的感兴趣区域。
在一种实现方式中,考虑到对每一个切片视频进行编码处理的原理是类似的,则此处以多个切片视频中的任一切片视频为例对编码处理进行具体阐述。则在获取到任一切片视频中感兴趣区域后,步骤S102中编码处理的具体实现可以是:获取任一切片视频中的感兴趣区域占比,以便于后续可以利用任一切片视频的感兴趣区域占比对任一切片视频进行编码处理,得到任一切片视频的编码数据。
其中,该感兴趣区域占比可以是:任一切片视频中的感兴趣区域占目标视频的整体区域的感兴趣区域占比;或者,也可以是:任一切片视频中的感兴趣区域占该切片视频的整体区域的感兴趣区域占比;对此不作具体限定。两种确定感兴趣区域占比的原理是类似的,此处以前者的感兴趣区域占比为例进行相关阐述。在一个实施例中,确定该感兴趣区域占比的具体实现可以是:将任一切片视频的感兴趣区域的区域面积与目标视频的整体区域的区域面积之间的比值,作为该任一切片视频中的感兴趣区域占目标视频的整体区域的感兴趣区域占比。
在一个实施例中,利用任一切片视频的感兴趣区域占比对切片视频进行编码处理,得到任一切片视频的编码数据的具体实现可以是:基于任一切片视频的感兴趣区域占比调整任一切片视频的感兴趣区域的区域编码参数(ROI编码参数),进而利用调整后的感兴趣区域的区域编码参数对任一切片视频进行编码处理,以得到任一切片视频的编码数据。
在一个可行的实现方式中,上述调整操作的具体实现可以是:基于感兴趣区域占比所在的范围,以不同的调整幅度调整切片视频的感兴趣区域的区域编码参数。其具体实现可参见下述描述:
如果任一切片视频的感兴趣区域占比处于第四范围,则可以以第四调整幅度调整任一切片视频的感兴趣区域的区域编码参数。如果任一切片视频的感兴趣区域占比处于第五范围,则可以以第五调整幅度调整任一切片视频的感兴趣区域的区域编码参数。如果任一切片视频的感兴趣区域占比处于第六范围,则可以以第六调整幅度调整任一切片视频的感兴趣区域的区域编码参数。
其中,第四范围中的感兴趣区域占比高于第五范围中的感兴趣区域占比,第五范围中的感兴趣区域占比高于第六范围中的感兴趣区域占比,第四调整幅度高于第五调整幅度,第五调整幅度高于第六调整幅度。此处对第四范围、第五范围、第六范围、第四调整幅度、第五调整幅度以及第六调整幅度分别对应的数值不作具体限定,仅需保证满足上述的关系即可。例如,第四范围可以是[60%,100%],第五范围可以是[40%,60%],第三范围可以是[30%,40%],或者也可以是其他范围,对此不作具体限定。
如前所述,当切片视频中的感兴趣区域占比越大,为了实现更好的编码效果,需要加大感兴趣区域的区域编码参数,且感兴趣区域的区域编码参数的调整幅度也可以越大。当感兴趣区域占比较小时,可以保持原有的区域编码参数不变。
基于此可知,如果任一切片视频的感兴趣区域占比处于第四范围,则可以以第四调整幅度调大感兴趣区域的区域编码参数。如果任一切片视频的感兴趣区域占比处于第五范围,则可以以第五调整幅度调大感兴趣区域的区域编码参数。如果任一切片视频的感兴趣区域占比处于第六范围,则可以以第六调整幅度调大感兴趣区域的区域编码参数。
在一种实现方式中,针对任一切片视频而言,在得到针对该任一切片视频的调整后的区域编码参数后,即可以利用该任一切片视频的调整后的区域编码参数对该任一切片视频进行编码处理,进而得到该任一切片视频的编码数据。其中,此处对切片视频进行编码处理可以是利用第一编码器所实现的,即可以调用第一编码器并利用调整后的区域编码参数对该任一切片视频进行编码处理。
针对上述描述可知,本申请实施例在引入智能切片后,还可以进一步基于切片视频中感兴趣区域占比,对针对感兴趣区域的区域编码参数进行调整,以使得各个切片视频可以得到更为适配的编码参数(如针对感兴趣区域的区域编码参数),相比于针对一整个视频使用完全相同的针对感兴趣区域的区域编码参数,在引入了智能切片方法,本申请实施例可以提供更加细粒度的编码参数的分配,使得视频在编码时达到在编码码率更节省的同时,视频的编码质量更高。
S103,对每个切片视频的编码数据进行组合处理,生成目标视频的编码数据。
在一种实现方式中,在得到目标视频中每个切片视频的编码数据后,可以进一步基于这些切片的编码数据得到目标视频的编码数据。具体实现中,可以对每个切片视频的编码数据进行组合处理,以生成目标视频的编码数据;此处的组合处理可以是指将每个切片视频的编码数据按照每个切片视频在目标视频中的时间顺序进行拼接。
在具体应用场景中,在生成目标视频的编码数据之后,还可以对该目标视频的编码数据解码,以便于可以对解码得到的目标视频进行视频播放。基于此可知,在一种实现方式中,可以将目标视频的编码数据发送至视频客户端,使视频客户端对目标视频的编码数据进行解码处理,得到目标视频;而在得到该目标视频之后,该视频客户端还可以播放该目标视频。
在本申请实施例中,可以对目标视频进行切片,得到针对目标视频的多个切片视频;还可以获取每个切片视频中感兴趣区域,以利用每个切片视频的感兴趣区域对相应切片视频进行编码处理,得到每个切片视频的编码数据,进而可以对每个切片视频的编码数据进行组合处理,生成目标视频的编码数据。通过上述方式,在视频编码时,可以将一个视频划分为多个切片视频,以便于后续可以对各个切片视频进行编码处理,相比于对整个视频进行编码处理而言,本申请实施例可以提供更加细粒度的编码处理,进而提高编码效果;在对每个切片视频进行编码的基础上,还可以进一步结合每个切片视频中的感兴趣区域对相应切片视频进行编码,以有效利用每个切片视频中的实际特征(即感兴趣区域)进行编码,保证编码可靠性,进而提高编码效果。
请参阅图2b,图2b是本申请实施例提供的另一种视频编码方法的流程示意图,本实施例所描述的视频编码方法可应用于上述的计算机设备,如图2b所示,该方法包括但不限于以下步骤:
S201,对目标视频进行切片,得到针对目标视频的多个切片视频。
其中,该步骤的具体实施方式可以参考上述步骤S101中的描述,此处不再赘述。
S202,获取每个切片视频的编码特征,分别基于每个切片视频的编码特征预测相应切片视频的编码控制参数。
在一种实现方式中,获取每个切片视频的编码特征的具体实现可以是:计算机设备可以对每个切片视频进行编码,以得到每个切片视频的编码特征。在一个实施例中,考虑到对一个视频的处理量比较大,则为降低后续处理过程中的数据计算量,进而提高编码效率,在对各个切片视频进行编码之前,还可以先对切片视频进行降采样,以降低数据量;基于此可知,在得到目标视频所包括的切片视频之后,计算机设备可以先分别对每个切片视频进行降采样,得到每个切片视频对应的降采样视频,进一步可以分别对每个降采样视频进行编码,以得到每个降采样视频的编码特征,并可以将每个降采样视频的编码特征作为相应切片视频的编码特征。
其中,每个切片视频的编码特征可以包括块划分的频率信息、不同帧类型的PSNR(Peak Signal-to-Noise Ratio,峰值信噪比)值、不同划分块变换系数、编码使用的编码模式信息等等,对此不作具体限定。
其中,此处对降采样视频进行编码处理可以是利用第二编码器所实现的,即可以利用第二编码器分别对每个降采样视频进行编码,以得到每个降采样视频的编码特征。其中,该第二编码器可以是指利用一个固定的编码控制参数对视频进行编码的编码器,如该第二编码器可以是基于H.264标准的编码器,或其他编码器,对此不作限定。可以理解的是,对目标视频进行编码,也就是对目标视频进行压缩处理,则此处所得到的编码特征也可以称之为是压缩域特征。
需要理解的是,在视频编码过程中,计算机设备可以调用编码器对视频的码率控制进行相应的设置,码率控制的方式一般可以包括CBR(Constant Bit Rate,固定比特率)、VBR(Variable Bit Rate,可变比特率)、CQP(Constant Quantization Parameter,固定QP)、CRF(Constant Rate Factor,固定码率因子)。例如,在短视频和直播领域中,通常利用的码率控制方式为CRF,这种方式下的视频编码是针对一整个视频使用完全相同的CRF值,即保持视频的质量为恒定质量,但编码码率可变;通常编码码率可以随着视频中视频帧内容的不同而改变,即在使用CRF方式对视频进行编码时,视频中各个视频帧的编码质量一定,各个视频帧的编码码率不同。可见,在这种方式下,在对视频进行编码时,始终是保持一个固定的CRF值,这种方式虽然可以保证一定的编码质量,但是也可能消耗过多的编码码率,导致部分编码资源的浪费。
如前所述,同一个视频中不同的视频帧通常是具有多个不同的场景,例如,一个关于校园的视频中可以包含操场、教室、食堂等场景,不同的场景对视频帧的特征和复杂度等信息也有着不同的影响,则在视频编码时,为了节省更多的编码码率,对于视频中复杂的、人眼关注度较高的场景的视频帧,可以倾向于使用更多的编码码率进行编码,以保证视频有更高的编码质量,而对于视频中平坦的、人眼关注度较少的场景的视频帧,可以倾向于使用更少的编码码率对进行编码,在保证编码质量的同时,尽可能占用较少的传输带宽。
基于上述考虑,本申请实施例提出对视频中不同场景下的视频帧适配不同的编码控制参数(如CRF),以利用更加适配的编码控制参数控制相应不同场景下视频帧的编码码率,使得视频在编码处理中达到在编码码率更节省的同时,视频的编码质量更高。具体地,本申请实施例引入智能切片方法,并基于视频帧的场景将视频切分为多个切片视频后,可以针对不同的切片视频预测不同的编码控制参数,进而利用不同的编码控制参数对视频中的切片视频进行编码处理。
其中,切片视频的编码控制参数可以包括CBR、VBR、CQP、CRF等中的任一种,本申请实施例以编码控制参数为CRF(固定码率因子)为例进行相关阐述,即在本申请实施例中是需要预测不同场景类型下的切片视频的CRF,以利用不同的CRF对不同的切片视频进行编码处理,相比于传统的在整个视频编码中利用同一CRF进行编码处理,可以在节省码率的同时使得视频的质量更高。
在一种实现方式中,每个切片视频的编码控制参数可以是调用参数预测模型对切片视频的编码特征进行预测得到的;其中,切片视频的编码控制参数可以从N个参考编码控制参数中选择得到的,该N个参考编码控制参数是指第一编码器所适用的编码控制参数(如CRF);该第一编码器可以是指对切片视频进行编码所利用到的编码器,且不同于上述的第二编码器,对此不作具体限定。例如,该第一编码器可以是基于AV1标准的编码器,此处N个参考编码控制参数可以包括45-60中的正整数。
考虑到确定目标视频中每个切片视频的编码控制参数的原理是类似的,则下述以目标视频中任一切片视频为例对该切片视频的编码控制参数的确定进行具体阐述。
在一个实施例中,针对目标视频中的任一切片视频,可以调用参数预测模型分别基于N个参考编码控制参数以及该任一切片视频的编码特征进行编码标志位的预测,以得到该任一切片视频在每个参考编码控制参数下的编码质量标志位;例如,可以分别将第一编码器对应的N个参考编码控制参数以及任一切片视频的编码特征输入参数预测模型,以得到任一切片视频在每个参考编码控制参数下的编码质量标志位。为保证在确定任一切片视频在每个参考编码控制参数下的编码质量标志位时,保证编码质量标志位的有序性,可以按照第一编码器对应的N个参考编码控制参数从小到大的排序顺序,依次将参考编码控制参数以及任一切片视频的编码特征输入参数预测模型。例如,假设N个参考编码控制参数包括45-60中的正整数,则可以按照参考编码控制参数对应的数值从小到大的顺序依次将(45,编码特征)、(46,编码特征)(47,编码特征)…输入参数预测模型,以得到切片视频分别在45、46、47…下的编码质量标志位。在得到这些编码质量标志位后,进而可以基于任一切片视频在每个参考编码控制参数下的编码质量标志位,从N个参考编码控制参数中确定出该任一切片视频的编码控制参数。
其中,切片视频在一个参考编码控制参数下的编码质量标志位可以用于表示切片视频在该参考编码控制参数下参考编码质量与目标编码质量之间的质量大小关系。其中,参考编码质量可以是指利用第一编码器并利用参考编码控制参数对切片视频进行编码所得到的编码质量,目标编码质量可以是指利用第二编码器对切片视频进行编码所得到的编码质量。该编码质量标志位可以包括第一标志位以及第二标志位,第一标志位可以用于表示参考编码质量大于目标编码质量,第二标志位可以用于表示参考编码质量小于或等于目标编码质量。在数学表征上,第一标志位可用1来表征,第二标志位可用0来表征。
其中,基于任一切片视频在每个参考编码控制参数下的编码质量标志位,从N个参考编码控制参数中确定出该任一切片视频的编码控制参数的具体实现可以是:基于任一切片视频在每个参考编码控制参数下的编码质量标志位,从N个参考编码控制参数中确定出候选编码控制参数,并基于候选编码控制参数确定出该任一切片视频的编码控制参数。具体实现中,基于任一切片视频在每个参考编码控制参数下的编码质量标志位,从N个参考编码控制参数中确定出候选编码控制参数的实现可以是:
按照N个参考编码控制参数从小到大的排序顺序,对N个参考编码控制参数下的编码质量标志位进行排序,以得到针对编码质量标志位的排序结果;
如果排序结果中第一个编码质量标志位至第M个编码质量标志位均为第二标志位(0),且第M+1个编码质量标志位为第一标志位(1),则可以将第M个编码质量标志位对应的参考编码控制参数和第M+1个编码质量标志位对应的参考编码控制参数作为候选编码控制参数。综上,本申请实施例可以基于第M个编码质量标志位对应的参考编码控制参数和第M+1个编码质量标志位对应的参考编码控制参数,确定任一切片视频的编码控制参数。其中,M为大于或等于1,且小于N的正整数。
如前所述,在第M编码质量标志位以及第M个编码质量标志位之前的编码质量标志位均为第二标志位(0),在第M+1个编码质量标志位以及第M+1个编码质量标志位之后的编码质量标志位均为第一标志位(1),则第M个编码质量标志位对应的参考编码控制参数和第M+1个编码质量标志位对应的参考编码控制参数,可以理解为针对编码质量标志位0和1的分界参数。
例如,假设参考编码控制参数CRF,且N个CRF包括45-60中的正整数,通过上述方式确定出一个切片视频在CRF为45、46、47、48、49、50、51下的编码质量标志位分别为0、0、0、0、0、1、1,则可以确定在CRF小于或等于49时,切片视频在第一编码器的编码质量小于目标编码质量,在CRF大于或等于50时,切片视频在第一编码器的编码质量大于目标编码质量,此处的49可以理解为上述的第M个编码质量标志位对应的参考编码控制参数,50可以理解为上述的第M+1个编码质量标志位对应的参考编码控制参数,或者说49以及50可以作为分界参数,即可以从49和50中随机选择一个数值作为切片视频最终所需的CRF。
在一个实施例中,基于第M个编码质量标志位对应的参考编码控制参数和第M+1个编码质量标志位对应的参考编码控制参数,确定任一切片视频的编码控制参数的具体实现可以是:从第M个编码质量标志位对应的参考编码控制参数和第M+1个编码质量标志位对应的参考编码控制参数中,随机选择一个参考编码控制参数作为任一切片视频的编码控制参数。
例如,参考上述举例,假设第M个编码质量标志位对应的参考编码控制参数和第M+1个编码质量标志位对应的参考编码控制参数分别为49和50,则可以从49和50中随机选择一个数值作为切片视频最终所需的CRF。为方便描述,可以将第M个编码质量标志位对应的参考编码控制参数和第M+1个编码质量标志位对应的参考编码控制参数,分别称之为是第M个参考编码控制参数和第M+1个参考编码控制参数。
另一个实施例中,需要理解的是,CRF值越小,编码器对视频进行编码所需的编码码率越大,且编码器对视频进行编码的编码质量越高。基于这种原理,在基于第M个参考编码控制参数和第M+1个参考编码控制参数,确定任一切片视频的编码控制参数时,可以基于预设编码需求从第M个参考编码控制参数和第M+1个参考编码控制参数中选择出任一切片视频的编码控制参数。其中,该预设编码需求可以是针对第一编码器在进行编码时的编码需求,该预设编码需求可以包括第一编码需求以及第二编码需求;第一编码需求可以是指质量需求高于码率需求,即在利用第一编码器进行编码时,重点关注提高编码质量;第二编码需求可以是指码率需求高于质量需求,即在利用第一编码器进行编码时,重点关注减少编码码率的消耗。
其中,如前所述,参考编码控制参数可以是指CRF,且第M个参考编码控制参数对应的数值小于第M+1个参考编码控制参数对应的数值。
基于此可知,如果针对第一编码器在进行编码的预设编码需求为第一编码需求,即为尽可能提高编码质量,则可以选择较小的参考编码控制参数作为最终所需的编码控制参数,也就是说,可以将第M个参考编码控制参数作为切片视频最终所需的编码控制参数。如果针对第一编码器在进行编码是的预设编码需求为第二编码需求,即为尽可能减少编码码率的消耗,则可以选择较大的参考编码控制参数作为最终所需的编码控制参数,也就是说,可以将第M+1个参考编码控制参数作为切片视频最终所需的编码控制参数。
例如,参考上述举例,假设第M个参考编码控制参数和第M+1个参考编码控制参数分别为49和50。如果第一编码器的预设编码需求为第一编码需求,则可以将49作为切片视频最终所需的CRF;如果第一编码器的预设编码需求为第二编码需求,则可以将50作为切片视频最终所需的CRF。综上可以看出,本申请实施例可以基于编码器所需的编码需求从第M个参考编码控制参数和第M+1个参考编码控制参数中确定出最终所需的编码控制参数,以使得编码控制参数能够满足相应的应用需求。
综上可知,本申请实施例提出一种基于压缩域特征的视频智能切片码率参数预测方法。具体地,可先对视频进行切片处理,如可以是使用基于编码器预分析的切片方法,对视频进行降采样后逐帧进行分析,确定当前帧是否需要进行切片处理,还可以采用第二编码器对降采样的切片视频进行编码,以得到切片视频在压缩域的特征(即编码特征)。然后,可以利用参数预测模型来预测切片视频的CRF值,具体实现中,可以将可选的CRF范围内的各个CRF值和编码特征输入参数预测模型中,以得到在利用CRF值进行编码时所对应的编码质量标志位,该编码质量标志位可以为1或0。其中,在编码质量标位为1时,表示实际的编码质量(即上述的参考编码质量)大于目标编码质量,在编码质量标位为0时,表示实际的编码质量小于或等于目标编码质量时。而在得到CRF范围内的各个编码质量标志位后,可以对这些编码质量标志位采用二分法,以找到第一编码器在对应CRF和CRF+1下的编码质量标志位为0/1的分界线,或者说找出分界参数,进而基于分界参数确定出切片视频最终所需的编码控制参数。
针对上述描述可知,本申请实施例可以基于视频中不同的场景对视频进行切片,且可以针对不同的场景进行预分析以进行不同的编码码率的分配,实现更加细粒度的编码码率的分配,在编码码率下降的同时也可以提升编码质量。
S203,获取每个切片视频中的感兴趣区域,分别利用每个切片视频的编码控制参数以及感兴趣区域对每个切片视频进行编码处理,得到每个切片视频的编码数据。
如前所述,针对人眼关注区域优化是面向用户感知编码优化中的一个方面。通常,考虑到对于人眼关注度更高的视频片段,可以倾向于使用更多的编码码率、并同时使用更强的ROI编码参数对这些视频片段进行编码,而对于人眼关注区域更少的视频片段,可以倾向于使用更少的编码码率、并同时使用更小的ROI编码参数对这些视频片段进行处理。基于此可知,在实际编码中,如果采用过大的参数(编码码率以及ROI编码参数)对非关注区域进行编码,容易对非关注区域造成过大损失,使得这些区域失真被直接感知;而如果采用较小的参数(编码码率以及ROI编码参数)对关注区域进行编码,对关注区域分配的码率可能又不够,从而导致编码效果较差。
基于上述考虑,本申请实施例考虑基于切片视频中所包括的感兴趣区域,调整对切片视频在进行编码时所需的编码参数(如编码控制参数、ROI编码参数等),进而利用这些调整后的编码参数对相应切片视频进行编码处理,并得到对应的编码数据。
在一种实现方式中,可以先获取每个切片视频中感兴趣区域,以便于后续可以分别利用每个切片视频的编码控制参数以及感兴趣区域对每个切片视频进行编码处理。其中,获取每个切片视频中的感兴趣区域的具体实现可以参考上述相关描述,此处不再赘述。
考虑到对每一个切片视频进行编码处理的原理是类似的,则此处以多个切片视频中的任一切片视频为例对编码处理进行具体阐述。则在获取到任一切片视频中感兴趣区域后,步骤S203中编码处理的具体实现可以是:获取任一切片视频中的感兴趣区域占比,以便于后续可以利用任一切片视频的编码控制参数以及感兴趣区域占比对任一切片视频进行编码处理,得到任一切片视频的编码数据。其中,该感兴趣区域占比的理解可以参考上述相关描述,此处不再赘述。
在一个实施例中,利用任一切片视频的编码控制参数以及感兴趣区域占比对切片视频进行编码处理,得到任一切片视频的编码数据的具体实现可以是:基于任一切片视频的感兴趣区域占比调整任一切片视频的编码控制参数以及针对感兴趣区域的区域编码参数,进而利用调整后的编码控制参数以及区域编码参数对任一切片视频进行编码处理,以得到任一切片视频的编码数据。
其中,上述的编码控制参数可以是固定码率因子(CRF),在一个可行的实现方式中,上述调整操作的具体实现可以是:基于感兴趣区域占比所在的范围,以不同的调整幅度调整切片视频的固定码率因子以及区域编码参数。其具体实现可参见下述描述:
如果任一切片视频的感兴趣区域占比处于第一范围,则可以以第一调整幅度调整任一切片视频的固定码率因子以及区域编码参数。如果任一切片视频的感兴趣区域占比处于第二范围,则可以以第二调整幅度调整任一切片视频的固定码率因子以及区域编码参数。如果任一切片视频的感兴趣区域占比处于第三范围,则可以以第三调整幅度调整任一切片视频的固定码率因子。
其中,第一范围中的感兴趣区域占比高于第二范围中的感兴趣区域占比,第二范围中的感兴趣区域占比高于第三范围中的感兴趣区域占比,第一调整幅度高于第二调整幅度,第二调整幅度高于第三调整幅度。此处对第一范围、第二范围、第三范围、第一调整幅度、第二调整幅度以及第三调整幅度分别对应的数值不作具体限定,仅需保证满足上述的关系即可。例如,第一范围可以是[70%,100%],第二范围可以是[50%,70%],第三范围可以是[30%,50%],或者也可以是其他范围,对此不作具体限定。
如前所述,当切片视频中的感兴趣区域占比越大,为了实现更好的编码效果,需要分配更多的编码码率以及加大感兴趣区域的区域编码参数,且CRF值越小,编码器对视频进行编码所需的编码码率越大,即如果切片视频中的感兴趣区域占比越大,则CRF值应该越小;则此处在基于感兴趣区域占比来调整固定码率因子以及区域编码参数时,如果感兴趣区域占比对应的数值越大,则针对固定码率因子以及区域编码参数的调整幅度也可以越大,且感兴趣区域的区域编码参数的调整方向可以是朝数值调大的方向,固定码率因子的调整方向可以是朝数值调小的方向。
基于此可知,如果任一切片视频的感兴趣区域占比处于第一范围,则可以以第一调整幅度调小任一切片视频的固定码率因子且调大感兴趣区域的区域编码参数。如果任一切片视频的感兴趣区域占比处于第二范围,则可以以第二调整幅度调小任一切片视频的固定码率因子且调大感兴趣区域的区域编码参数。如果任一切片视频的感兴趣区域占比处于第三范围,则可以以第三调整幅度调小任一切片视频的固定码率因子。
综上可知,在确定切片视频的CRF值后,本申请实施例还可以进一步的根据ROI的感兴趣区域占比,进行更进一步的参数设置。例如,对于切片视频的ROI超过目标视频的整体区域的70%时,可以为该切片视频分配更多的编码码率同时加大ROI编码参数,达到编码码率与ROI的联合优化。对于切片视频的ROI超过目标视频的整体区域的50%时,可以为该切片视频分配更多的编码码率同时加大ROI编码参数。对于切片视频的ROI超过目标视频的整体区域的30%时,可以为该切片视频分配更多的编码码率。
在一种实现方式中,针对任一切片视频而言,在得到针对该任一切片视频的调整后的编码控制参数以及区域编码参数后,即可以利用该任一切片视频的调整后的恒定码率因子控制该任一切片视频的编码码率,进而利用该任一切片视频的编码码率以及调整后的感兴趣区域的区域编码参数对该任一切片视频进行编码处理,进而得到该任一切片视频的编码数据。其中,此处对切片视频进行编码处理可以是利用第一编码器所实现的,即可以调用第一编码器并利用调整后的编码控制参数以及区域编码参数对该任一切片视频进行编码处理。
针对上述描述可知,本申请实施例在引入智能切片后,可以针对不用的切片视频预测不同的编码控制参数,在得到编码控制参数后,还可以进一步基于切片视频中感兴趣区域占比,对编码控制参数以及区域编码参数进行调整,以使得各个切片视频可以得到更为适配的编码参数,相比于针对一整个视频使用完全相同的编码控制参数以及区域编码参数,在引入了智能切片方法,本申请实施例可以提供更加细粒度的编码参数的分配,使得视频在编码时达到在编码码率更节省的同时,视频的编码质量更高。
S204,对每个切片视频的编码数据进行组合处理,生成目标视频的编码数据。
其中,该步骤的具体实施方式可以参考上述步骤S203中的实施方式,此处不再赘述。
为更加理解本申请所提出的视频编码方法,下述结合图3进一步说明,参见图3所示,该视频编码方法可以包括如下步骤:
S1,视频切片:对于目标视频而言,可以对该目标视频进行切片,以得到该目标视频的多个切片视频。
S2,切片视频的编码特征的获取:可以分别对每个切片视频进行降采样,得到每个切片视频对应的降采样视频;进而可以利用第二编码器对每个降采样视频进行编码,以从第二编码器中获取每个切片视频在压缩域的特征,即得到每个切片视频的编码特征。
S3,切片视频的编码控制参数的预测:针对任一切片视频而言,将可选的CRF范围内的各个CRF值和该切片视频的编码特征输入参数预测模型中,以得到在利用CRF值进行编码时所对应的编码质量标志位,该编码质量标志位可以为1或0。而在得到CRF范围内的各个编码质量标志位后,可以对这些编码质量标志位采用二分法,以找到第一编码器在对应CRF和CRF+1下的编码质量标志位为0/1的分界线,或者说找出分界参数,进而基于分界参数确定出切片视频最终所需的编码控制参数(CRF)。
S4,编码控制参数以及区域编码参数的调整(修正):针对任一切片视频而言,可以检测该任一切片视频中的感兴趣区域,并确定该任一切片视频中感兴趣区域占比,如该感兴趣区域占比可以是指针对目标视频的整体区域的占比,或者是针对该任一切片视频的整体区域的占比。在确定该感兴趣区域占比之后,即可以基于该感兴趣区域占比对该任一切片视频的编码控制参数以及区域编码参数进行调整,以得到调整后的编码控制参数以及区域编码参数。
S5,切片视频的编码:基于调整后的各个切片视频的编码控制参数以及区域编码参数对相应切片视频进行编码,以得到各个切片视频的编码数据。
S6,检查是否为最后一个切片视频:此处对每个切片视频的处理可以是以串行方式进行的,即针对每个切片视频而言,可以依次执行步骤S2-S5,以完成对每个切片视频的编码。那么,为完成对目标视频的编码,需要保证已完成每个切片视频的编码,即在完成对一个切片视频的编码后,可以进一步检测该切片视频是否为最后一个切片视频。如果是最后一个切片视频,则可以继续执行下述步骤S7;如果不是最后一个切片视频,则可以重新执行步骤S2-S5,直到目标视频中的每个切片视频已完成编码,则可以继续执行步骤S7。
S7,切片视频的拼接:将各个切片视频的编码数据重新拼接到一起,以生成针对目标视频的编码数据,进而将针对目标视频的编码数据返回至视频客户端,以使视频客户端可以对目标视频的编码数据进行解码处理,得到目标视频,并播放该目标视频。
在本申请实施例中,可以对目标视频进行预处理,得到针对目标视频的多个切片视频以及每个切片视频的编码特征,还可以分别基于每个切片视频的编码特征预测每个切片视频的编码控制参数,并可以获取每个切片视频中感兴趣区域,以分别利用每个切片视频的编码控制参数以及感兴趣区域对每个切片视频进行编码处理,得到每个切片视频的编码数据,进而可以对每个切片视频的编码数据进行组合处理,生成目标视频的编码数据。通过上述方式,在视频编码时,可以将一个视频划分为多个切片视频,并为每个切片视频适配不同的编码控制参数,在预测出的编码控制参数的基础上,进一步还可以结合每个切片视频的感兴趣区域对相应切片视频进行编码,以结合多个维度的参数来对切片视频进行编码,以有效提高视频的编码效果,经实践表明,在这种实施方式下,相比于在整个视频的编码过程中,使用同一编码控制参数而言,可以使得视频在编码时达到在编码码率更节省的同时,视频的编码质量更高。
请参阅图4,图4是本申请实施例提供的又一种视频编码方法的流程示意图,本实施例所描述的视频编码方法可应用于上述的计算机设备,且该实施例主要描述对初始预测模型进行训练得到参数预测模型的训练过程,如图4所示,该方法包括但不限于以下步骤:
S401,获取样本视频,对样本视频进行预处理,得到针对样本视频的多个样本切片视频以及每个样本切片视频的样本编码特征。
需要说明的是,训练初始预测模型所使用的样本视频的数量可以为一个为多个,考虑到在训练时,对每个样本视频的处理的类似的,则本申请实施例以一个样本视频为例对初始预测模型的训练进行具体阐述。其中,样本视频可以是任一视频,其理解可以参考上述目标视频的理解,此处不再赘述。
在一种实现方式中,在获取到样本视频后,还可以对该样本视频进行预处理,以得到该样本视频所包括的切片视频以及每个切片视频的编码特征,为方便描述,可以将此处的切片视频以及编码特征分别称之为是样本切片视频以及样本编码特征。在一个实施例中,对样本视频进行预处理,得到对应的样本切片视频以及对应的样本编码特征的具体实现可以是:计算机设备可以对样本视频进行切片,得到样本视频的多个样本切片视频;并可以分别对每个样本切片视频进行降采样,得到每个样本切片视频对应的样本降采样视频;进而可以分别对每个样本降采样视频进行编码,得到每个样本降采样视频的编码特征,并将每个样本降采样视频的编码特征作为相应样本切片视频的样本编码特征。其中,此处各个步骤的具体实现可以参考上述步骤S201中的相关描述,此处不再赘述。
S402,针对多个样本切片视频中的任一样本切片视频,调用第一编码器并分别基于N个参考编码控制参数对任一样本切片视频进行编码,得到任一样本切片视频在每个参考编码控制参数下的参考编码质量。
需要说明的是,考虑到在训练初始预测模型时,该初始预测模型对样本视频中每个样本切片视频的处理原理是类似的,则此处以多个样本切片视频中的任一样本切片视频为例对初始预测模型的训练进行相关阐述。
其中,N为大于1的正整数,即此处的参考编码控制参数为多个。此处的N个参考编码控制参数可以是指第一编码器所适用的编码控制参数,如前所述,本申请实施例中的编码控制参数可以是指CRF,此处N个参考编码控制参数可以是指第一编码器所适用的CRF。例如,该第一编码器可以为基于AV1标准的编码器,此时N个参考编码控制参数可以包括45-60中的正整数。
在一种实现方式中,针对多个样本切片视频中的任一样本切片视频,计算机设备可以调用第一编码器并分别利用N个参考编码控制参数对任一样本切片视频进行编码,以得到该任一样本切片视频在每个参考编码控制参数下的编码结果;在得到在每个参考编码控制参数下的编码结果之后,可以分别基于任一样本切片视频在每个参考编码控制参数下的编码结果确定在相应参考编码控制参数下的编码质量,如可以将此处的编码质量称之为是参考编码质量。
其中,此处基于一个参考编码控制参数下的编码结果确定在该参考编码控制参数下的参考编码质量的原理是类似的,则此处以一个参考编码控制参数为例对基于编码结果确定参考编码质量的具体实现进行相关阐述。在一个实施例中,其具体实现可以是:利用编码质量评估方式对编码结果进行质量评估,以得到对应的参考编码质量。
其中,该编码质量评估方式可以是PSNR(Peak Signal-to-Noise Ratio,峰值信噪比)、SSIM(Structural Similarity,结构相似性)、MS-SSIM(Multi-scale StructuralSimilarity,多尺度结构相似性)等方式中的任意一种,对此不作限定。其中,PSNR是一种基于像素值的客观评价方法,具体是一种通过比较原始的视频或图像与处理后的视频或图像的像素值之差来确定编码质量的方式。SSIM是一种通过比较原始的视频或图像与处理后的视频或图像之间的相关性来确定编码质量的方式;该相关性可以从亮度、对比度和结构三个方面来描述。MS-SSIM是在SSIM的基础上引入多个尺度比较原始的视频或图像与处理后的视频或图像之间的相关性来确定编码质量的方式。
S403,调用第二编码器对任一切片视频进行编码,得到目标编码质量,并基于任一样本切片视频在每个参考编码控制参数下的参考编码质量以及目标编码质量,确定任一样本切片视频在每个参考编码控制参数下的样本编码质量标志位。
其中,第二编码器与第一编码器不同,例如,该第二编码器可以是指基于H.264标准的编码器。任一样本切片视频在一个参考编码控制参数下的样本编码质量标志位可以用于表示:任一样本切片视频在该参考编码控制参数下参考编码质量与目标编码质量之间的质量大小关系。该样本编码质量标志位可以包括第一标志位以及第二标志位,第一标志位用于表示参考编码质量大于目标编码质量,第二标志位用于表示参考编码质量小于或等于目标编码质量。在数学表征上,第一标志位可用1来表征,第二标志位可用0来表征。
基于此可知,确定任一样本切片视频在参考编码控制参数下的样本编码质量标志位的具体实现可以为如下描述。考虑到确定N个参考编码控制参数中任一参考编码控制参数下的样本编码质量标志位的原理是类似的,则此处以任一参考编码控制参数为例对样本编码质量标志位的确定进行阐述。具体实现中,针对N个参考编码控制参数中的任一参考编码控制参数,可以将任一样本切片视频在任一参考编码控制参数下的参考编码质量与目标编码质量进行比较。
如果参考编码质量大于目标编码质量,则可以将任一样本切片视频在任一参考编码控制参数下的样本编码质量标志位确定为第一标志位(1)。如果参考编码质量小于或等于目标编码质量,则可以将任一样本切片视频在任一参考编码控制参数下的样本编码质量标志位确定为第二标志位(0)。
例如,假设参考编码控制参数CRF=46,且一个样本切片视频在CRF=46时的目标编码质量为36;如果参考编码质量为34,则该样本切片视频在CRF=46下的样本编码质量标志位为第二标志位(0);而如果参考编码质量为37,则该样本切片视频在CRF=46下的样本编码质量标志位为第一标志位(1)。
又如,假设参考编码控制参数CRF=47,且一个样本切片视频在CRF=47时的目标编码质量为28;如果参考编码质量为31,则该样本切片视频在CRF=47下的样本编码质量标志位为第一标志位(1);而如果参考编码质量为27,则该样本切片视频在CRF=47下的样本编码质量标志位为第二标志位(0)。
S404,基于样本视频中每个样本切片视频的样本编码特征、N个参考编码控制参数以及每个样本切片视频在N个参考编码控制参数下的样本编码质量标志位,对初始预测模型进行训练,得到参数预测模型。
在一种实现方式中,基于上述步骤,可以确定出每个样本切片视频在N个参考编码控制参数下的样本编码质量标志位,在得到这些数据之后,即可以基于样本视频中每个样本切片视频的样本编码特征、N个参考编码控制参数以及每个样本切片视频在N个参考编码控制参数下的样本编码质量标志位,对初始预测模型进行训练,得到参数预测模型。具体实现中,可以基于每个样本切片视频的样本编码特征、N个参考编码控制参数以及每个样本切片视频在N个参考编码控制参数下的样本编码质量标志位,构建针对初始预测模型的多个样本数据,每个样本数据可以包括一个训练样本以及对应的标签数据。其中,一个样本切片视频的样本编码特征,一个参考编码控制参数可以构建为一个训练样本,该训练样本对应的标签数据可以是指该样本切片视频在该参考编码控制参数下的样本编码质量标志位。基于此可知,针对一个样本切片视频而言,可以构建关于该样本切片视频的N个样本数据;假设样本视频所包括的样本切片视频的数量为K,则可以构建关于该样本视频的N×K个样本数据。
基于此可知,针对任一样本数据(一个样本切片视频的样本编码特征以及一个参考编码控制参数)而言,可以将该样本数据输入初始预测模型,以使该初始预测模型基于样本数据对样本切片视频在参考编码控制参数下的编码质量标志位进行预测,得到样本切片视频在参考编码控制参数下的预测编码质量标志位。在得到样本切片视频在参考编码控制参数下的预测编码质量标志位之后,即可以样本切片视频在参考编码控制参数下的预测编码质量标志位以及样本编码质量标志位(即标签数据)对初始预测模型进行训练,以得到训练后的初始预测模型,该训练后的初始预测模型即为参数预测模型。
在一个实施例中,基于样本切片视频在参考编码控制参数下的预测编码质量标志位以及样本编码质量标志位对初始预测模型进行训练,得到参数预测模型的具体实现可以是:调用模型损失函数基于样本切片视频在参考编码控制参数下的预测编码质量标志位以及样本编码质量标志位计算模型损失值,按照减小模型损失值的方向训练初始预测模型,以得到参数预测模型。
综上可知,本申请实施例提出一种基于压缩域特征的视频智能切片码率参数预测方法,具体地,可以基于视频的质量评价指标,辅以编码器自身特征域信息进行预分析和决策切片,并针对视频切片,在不同质量评价指标下使用同样的深度学习训练方法,建立输入参数(如样本切片视频的样本编码特征以及参考编码控制参数)与编码质量标志位的映射(即构建参数预测模型),进而在实际应用中可以利用该映射确定出切片视频的编码质量标志位,进而可以基于编码质量标志位获取到切片视频的最优的编码码率。在初始预测模型的训练中,可对样本视频进行切片处理,如可以是使用基于编码器预分析的切片方法,对样本视频进行降采样后逐帧进行分析,确定当前帧是否需要进行切片处理,还可以采用第二编码器对降采样的样本切片视频进行编码,以得到样本切片视频在压缩域的特征(即样本编码特征)。
其次,针对样本视频中的每一个样本切片视频,还可以获取第一编码器利用浮动范围内的编码控制参数CRF值(如CRF在45-60范围内)对样本切片视频进行编码所得到的参考编码质量。然后,还可以根据样本切片视频在多个CRF值下的参考编码质量,和指定的目标编码质量相比,以确定出样本切片视频在各个CRF值下的编码质量标志位。最后,可以将CRF值和样本切片视频的样本编码特征一起输入初始预测模型中,得到利用CRF值进行编码时所对应的预测编码质量标志位,进而可以基于样本切片视频在CRF值下的编码质量标志位以及预测编码质量标志位对初始预测模型进行训练,以得到参数预测模型。
在本申请实施例中,可以通过使用神经网络模型(即初始预测模型)以及相关的数据,训练得到一个可构建编码特征与第一编码器对应的编码质量标志位之间的映射关系的参数预测模型,以便于后续在需要确定某一切片视频的编码质量标志位时,可以直接调用参数预测模型并基于切片视频的编码特征来预测该切片视频的编码质量标志位,以有效提高确定编码质量标志位的智能化以及自动化。
请参阅图5,图5是本申请实施例提供的一种视频编码装置的结构示意图。本实施例中所描述的视频编码装置,包括:
切片单元501,用于对目标视频进行切片,得到针对所述目标视频的多个切片视频;任一切片视频包括所述目标视频中连续的多个视频帧;
编码单元502,用于获取每个切片视频中感兴趣区域,利用每个切片视频的感兴趣区域对相应切片视频进行编码处理,得到所述每个切片视频的编码数据;
组合单元503,用于对所述每个切片视频的编码数据进行组合处理,生成所述目标视频的编码数据。
在一种实现方式中,所述编码单元502,具体用于:
获取所述每个切片视频的编码特征,分别基于所述每个切片视频的编码特征预测所述每个切片视频的编码控制参数;
利用所述每个切片视频的编码控制参数以及感兴趣区域,对所述每个切片视频进行编码处理,得到所述每个切片视频的编码数据。
在一种实现方式中,所述编码单元502,具体用于:
针对所述多个切片视频中任一切片视频,获取所述任一切片视频中的感兴趣区域占目标视频的整体区域的感兴趣区域占比;
基于所述任一切片视频的感兴趣区域占比调整所述任一切片视频的编码控制参数以及针对感兴趣区域的区域编码参数;
利用调整后的编码控制参数以及区域编码参数对所述任一切片视频进行编码处理,得到所述任一切片视频的编码数据。
在一种实现方式中,所述编码控制参数包括固定码率因子CRF;所述编码单元502,具体用于:
若所述任一切片视频的感兴趣区域占比处于第一范围,则以第一调整幅度调整所述任一切片视频的固定码率因子以及区域编码参数;
若所述任一切片视频的感兴趣区域占比处于第二范围,则以第二调整幅度调整所述任一切片视频的固定码率因子以及区域编码参数;
若所述任一切片视频的感兴趣区域占比处于第三范围,则以第三调整幅度调整所述任一切片视频的固定码率因子;
其中,所述第一范围中的感兴趣区域占比高于第二范围中的感兴趣区域占比,第二范围中的感兴趣区域占比高于第三范围中的感兴趣区域占比,第一调整幅度高于第二调整幅度,第二调整幅度高于第三调整幅度。
在一种实现方式中,所述编码单元502,具体用于:
分别对每个切片视频进行降采样,得到所述每个切片视频对应的降采样视频;
分别对每个降采样视频进行编码,得到所述每个降采样视频的编码特征,并将所述每个降采样视频的编码特征作为相应切片视频的编码特征。
在一种实现方式中,所述编码单元502,具体用于:
获取所述目标视频中每个视频帧的场景类型;
基于所述目标视频中每个视频帧的场景类型对所述目标视频进行切片,得到所述目标视频的切片视频。
在一种实现方式中,所述目标视频包含一个或多个编码图像组,任一编码图像组包含所述目标视频中连续的多个视频帧;所述编码单元502,具体用于:
针对所述目标视频中的任一编码图像组,按照将连续且为同一场景类型的视频帧划分为一个切片视频的划分规则,对所述任一编码图像组进行切片,得到所述任一编码图像组的切片视频。
在一种实现方式中,所述每个切片视频的编码控制参数是调用参数预测模型对相应切片视频的编码特征进行预测得到的;所述编码单元502,具体用于:
获取样本视频,对所述样本视频进行预处理,得到针对所述样本视频的多个样本切片视频以及每个样本切片视频的样本编码特征;
针对所述多个样本切片视频中的任一样本切片视频,调用第一编码器并分别基于N个参考编码控制参数对所述任一样本切片视频进行编码,得到所述任一样本切片视频在每个参考编码控制参数下的参考编码质量;所述N为大于1的正整数;
调用第二编码器对所述任一切片视频进行编码,得到目标编码质量,并基于所述任一样本切片视频在所述每个参考编码控制参数下的参考编码质量以及所述目标编码质量,确定所述任一样本切片视频在所述每个参考编码控制参数下的样本编码质量标志位;任一样本切片视频在一个参考编码控制参数下的样本编码质量标志位用于表示:任一样本切片视频在该参考编码控制参数下参考编码质量与目标编码质量之间的质量大小关系;
基于所述样本视频中每个样本切片视频的样本编码特征、N个参考编码控制参数以及每个样本切片视频在N个参考编码控制参数下的样本编码质量标志位,对初始预测模型进行训练,得到参数预测模型。
在一种实现方式中,所述每个切片视频的编码控制参数是调用参数预测模型对相应切片视频的编码特征进行预测得到的;所述编码单元502,具体用于:
针对所述目标视频中的任一切片视频,调用参数预测模型分别基于N个参考编码控制参数中的每个参考编码控制参数以及所述任一切片视频的编码特征进行编码质量标志位的预测,得到所述任一切片视频在每个参考编码控制参数下的编码质量标志位;
按照N个参考编码控制参数从小到大的排序顺序,对N个参考编码控制参数下的编码质量标志位进行排序,得到针对编码质量标志位的排序结果;
若所述排序结果中第一个编码质量标志位至第M个编码质量标志位均为第二标志位,且第M+1个编码质量标志位为第一标志位,则基于第M个编码质量标志位对应的参考编码控制参数和第M+1个编码质量标志位对应的参考编码控制参数,确定所述任一切片视频的编码控制参数;所述M为大于或等于1,且小于N的正整数。
可以理解,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。本申请实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
请参阅图6,图6是本申请实施例提供的一种计算机设备的结构示意图。计算机设备包括:处理器601、存储器602。可选的,该计算机设备还可包括网络接口603。上述处理器601、存储器602以及网络接口603之间可以交互数据。
上述处理器601可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
上述存储器602可以包括只读存储器和随机存取存储器,并向处理器601提供程序指令和数据。存储器602的一部分还可以包括非易失性随机存取存储器。其中,所述处理器601调用所述程序指令时用于执行:
对目标视频进行切片,得到针对所述目标视频的多个切片视频;任一切片视频包括所述目标视频中连续的多个视频帧;
获取每个切片视频中感兴趣区域,利用每个切片视频的感兴趣区域对相应切片视频进行编码处理,得到所述每个切片视频的编码数据;
对所述每个切片视频的编码数据进行组合处理,生成所述目标视频的编码数据。
在一种实现方式中,所述处理器601,具体用于:
获取所述每个切片视频的编码特征,分别基于所述每个切片视频的编码特征预测所述每个切片视频的编码控制参数;
利用所述每个切片视频的编码控制参数以及感兴趣区域,对所述每个切片视频进行编码处理,得到所述每个切片视频的编码数据。
在一种实现方式中,所述处理器601,具体用于:
针对所述多个切片视频中任一切片视频,获取所述任一切片视频中的感兴趣区域占目标视频的整体区域的感兴趣区域占比;
基于所述任一切片视频的感兴趣区域占比调整所述任一切片视频的编码控制参数以及针对感兴趣区域的区域编码参数;
利用调整后的编码控制参数以及区域编码参数对所述任一切片视频进行编码处理,得到所述任一切片视频的编码数据。
在一种实现方式中,所述编码控制参数包括固定码率因子CRF;所述处理器601,具体用于:
若所述任一切片视频的感兴趣区域占比处于第一范围,则以第一调整幅度调整所述任一切片视频的固定码率因子以及区域编码参数;
若所述任一切片视频的感兴趣区域占比处于第二范围,则以第二调整幅度调整所述任一切片视频的固定码率因子以及区域编码参数;
若所述任一切片视频的感兴趣区域占比处于第三范围,则以第三调整幅度调整所述任一切片视频的固定码率因子;
其中,所述第一范围中的感兴趣区域占比高于第二范围中的感兴趣区域占比,第二范围中的感兴趣区域占比高于第三范围中的感兴趣区域占比,第一调整幅度高于第二调整幅度,第二调整幅度高于第三调整幅度。
在一种实现方式中,所述处理器601,具体用于:
分别对每个切片视频进行降采样,得到所述每个切片视频对应的降采样视频;
分别对每个降采样视频进行编码,得到所述每个降采样视频的编码特征,并将所述每个降采样视频的编码特征作为相应切片视频的编码特征。
在一种实现方式中,所述处理器601,具体用于:
获取所述目标视频中每个视频帧的场景类型;
基于所述目标视频中每个视频帧的场景类型对所述目标视频进行切片,得到所述目标视频的切片视频。
在一种实现方式中,所述目标视频包含一个或多个编码图像组,任一编码图像组包含所述目标视频中连续的多个视频帧;所述处理器601,具体用于:
针对所述目标视频中的任一编码图像组,按照将连续且为同一场景类型的视频帧划分为一个切片视频的划分规则,对所述任一编码图像组进行切片,得到所述任一编码图像组的切片视频。
在一种实现方式中,所述每个切片视频的编码控制参数是调用参数预测模型对相应切片视频的编码特征进行预测得到的;所述处理器601,具体用于:
获取样本视频,对所述样本视频进行预处理,得到针对所述样本视频的多个样本切片视频以及每个样本切片视频的样本编码特征;
针对所述多个样本切片视频中的任一样本切片视频,调用第一编码器并分别基于N个参考编码控制参数对所述任一样本切片视频进行编码,得到所述任一样本切片视频在每个参考编码控制参数下的参考编码质量;所述N为大于1的正整数;
调用第二编码器对所述任一切片视频进行编码,得到目标编码质量,并基于所述任一样本切片视频在所述每个参考编码控制参数下的参考编码质量以及所述目标编码质量,确定所述任一样本切片视频在所述每个参考编码控制参数下的样本编码质量标志位;任一样本切片视频在一个参考编码控制参数下的样本编码质量标志位用于表示:任一样本切片视频在该参考编码控制参数下参考编码质量与目标编码质量之间的质量大小关系;
基于所述样本视频中每个样本切片视频的样本编码特征、N个参考编码控制参数以及每个样本切片视频在N个参考编码控制参数下的样本编码质量标志位,对初始预测模型进行训练,得到参数预测模型。
在一种实现方式中,所述每个切片视频的编码控制参数是调用参数预测模型对相应切片视频的编码特征进行预测得到的;所述处理器601,具体用于:
针对所述目标视频中的任一切片视频,调用参数预测模型分别基于N个参考编码控制参数中的每个参考编码控制参数以及所述任一切片视频的编码特征进行编码质量标志位的预测,得到所述任一切片视频在每个参考编码控制参数下的编码质量标志位;
按照N个参考编码控制参数从小到大的排序顺序,对N个参考编码控制参数下的编码质量标志位进行排序,得到针对编码质量标志位的排序结果;
若所述排序结果中第一个编码质量标志位至第M个编码质量标志位均为第二标志位,且第M+1个编码质量标志位为第一标志位,则基于第M个编码质量标志位对应的参考编码控制参数和第M+1个编码质量标志位对应的参考编码控制参数,确定所述任一切片视频的编码控制参数;所述M为大于或等于1,且小于N的正整数。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有程序指令,所述程序执行时可包括如图2a或者图2b或者图4对应实施例中的视频编码方法的部分或全部步骤。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括程序指令,程序指令被处理器执行时可实现上述方法中的部分或全部步骤。例如,该程序指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该程序指令,处理器执行该程序指令,使得该计算机设备执行上述各方法的实施例中所执行的步骤。
以上对本申请实施例所提供的一种视频编码方法、装置、计算机设备及介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种视频编码方法,其特征在于,所述方法包括:
对目标视频进行切片,得到针对所述目标视频的多个切片视频;任一切片视频包括所述目标视频中连续的多个视频帧;
获取每个切片视频中感兴趣区域,利用每个切片视频的感兴趣区域对相应切片视频进行编码处理,得到所述每个切片视频的编码数据;
对所述每个切片视频的编码数据进行组合处理,生成所述目标视频的编码数据。
2.根据权利要求1所述的方法,其特征在于,所述利用每个切片视频的感兴趣区域对相应切片视频进行编码处理,得到所述每个切片视频的编码数据,包括:
获取所述每个切片视频的编码特征,分别基于所述每个切片视频的编码特征预测所述每个切片视频的编码控制参数;
利用所述每个切片视频的编码控制参数以及感兴趣区域,对所述每个切片视频进行编码处理,得到所述每个切片视频的编码数据。
3.根据权利要求2所述的方法,其特征在于,所述利用所述每个切片视频的编码控制参数以及感兴趣区域,对所述每个切片视频进行编码处理,得到所述每个切片视频的编码数据,包括:
针对所述多个切片视频中任一切片视频,获取所述任一切片视频中的感兴趣区域占目标视频的整体区域的感兴趣区域占比;
基于所述任一切片视频的感兴趣区域占比调整所述任一切片视频的编码控制参数以及针对感兴趣区域的区域编码参数;
利用调整后的编码控制参数以及区域编码参数对所述任一切片视频进行编码处理,得到所述任一切片视频的编码数据。
4.根据权利要求3所述的方法,其特征在于,所述编码控制参数包括固定码率因子CRF;所述基于所述任一切片视频的感兴趣区域占比调整所述任一切片视频的编码控制参数以及针对感兴趣区域的区域编码参数,包括:
若所述任一切片视频的感兴趣区域占比处于第一范围,则以第一调整幅度调整所述任一切片视频的固定码率因子以及区域编码参数;
若所述任一切片视频的感兴趣区域占比处于第二范围,则以第二调整幅度调整所述任一切片视频的固定码率因子以及区域编码参数;
若所述任一切片视频的感兴趣区域占比处于第三范围,则以第三调整幅度调整所述任一切片视频的固定码率因子;
其中,所述第一范围中的感兴趣区域占比高于第二范围中的感兴趣区域占比,第二范围中的感兴趣区域占比高于第三范围中的感兴趣区域占比,第一调整幅度高于第二调整幅度,第二调整幅度高于第三调整幅度。
5.根据权利要求2所述的方法,其特征在于,所述获取所述每个切片视频的编码特征,包括:
分别对每个切片视频进行降采样,得到所述每个切片视频对应的降采样视频;
分别对每个降采样视频进行编码,得到所述每个降采样视频的编码特征,并将所述每个降采样视频的编码特征作为相应切片视频的编码特征。
6.根据权利要求5所述的方法,其特征在于,所述对目标视频进行切片,得到所述目标视频的多个切片视频,包括:
获取所述目标视频中每个视频帧的场景类型;
基于所述目标视频中每个视频帧的场景类型对所述目标视频进行切片,得到所述目标视频的切片视频。
7.根据权利要求5所述的方法,其特征在于,所述目标视频包含一个或多个编码图像组,任一编码图像组包含所述目标视频中连续的多个视频帧;所述基于所述目标视频中视频帧的场景类型对所述目标视频中进行切片,得到所述目标视频的切片视频,包括:
针对所述目标视频中的任一编码图像组,按照将连续且为同一场景类型的视频帧划分为一个切片视频的划分规则,对所述任一编码图像组进行切片,得到所述任一编码图像组的切片视频。
8.根据权利要求2所述的方法,其特征在于,所述每个切片视频的编码控制参数是调用参数预测模型对相应切片视频的编码特征进行预测得到的;所述参数预测模型的训练过程包括:
获取样本视频,对所述样本视频进行预处理,得到针对所述样本视频的多个样本切片视频以及每个样本切片视频的样本编码特征;
针对所述多个样本切片视频中的任一样本切片视频,调用第一编码器并分别基于N个参考编码控制参数对所述任一样本切片视频进行编码,得到所述任一样本切片视频在每个参考编码控制参数下的参考编码质量;所述N为大于1的正整数;
调用第二编码器对所述任一切片视频进行编码,得到目标编码质量,并基于所述任一样本切片视频在所述每个参考编码控制参数下的参考编码质量以及所述目标编码质量,确定所述任一样本切片视频在所述每个参考编码控制参数下的样本编码质量标志位;任一样本切片视频在一个参考编码控制参数下的样本编码质量标志位用于表示:任一样本切片视频在该参考编码控制参数下参考编码质量与目标编码质量之间的质量大小关系;
基于所述样本视频中每个样本切片视频的样本编码特征、N个参考编码控制参数以及每个样本切片视频在N个参考编码控制参数下的样本编码质量标志位,对初始预测模型进行训练,得到参数预测模型。
9.根据权利要求2所述的方法,其特征在于,所述分别基于所述每个切片视频的编码特征预测所述每个切片视频的编码控制参数,包括:
针对所述目标视频中的任一切片视频,调用参数预测模型分别基于N个参考编码控制参数中的每个参考编码控制参数以及所述任一切片视频的编码特征进行编码质量标志位的预测,得到所述任一切片视频在每个参考编码控制参数下的编码质量标志位;
按照N个参考编码控制参数从小到大的排序顺序,对N个参考编码控制参数下的编码质量标志位进行排序,得到针对编码质量标志位的排序结果;
若所述排序结果中第一个编码质量标志位至第M个编码质量标志位均为第二标志位,且第M+1个编码质量标志位为第一标志位,则基于第M个编码质量标志位对应的参考编码控制参数和第M+1个编码质量标志位对应的参考编码控制参数,确定所述任一切片视频的编码控制参数;所述M为大于或等于1,且小于N的正整数。
10.一种视频编码装置,其特征在于,包括:
切片单元,用于对目标视频进行切片,得到针对所述目标视频的多个切片视频;任一切片视频包括所述目标视频中连续的多个视频帧;
编码单元,用于获取每个切片视频中感兴趣区域,利用每个切片视频的感兴趣区域对相应切片视频进行编码处理,得到所述每个切片视频的编码数据;
组合单元,用于对所述每个切片视频的编码数据进行组合处理,生成所述目标视频的编码数据。
11.一种计算机设备,其特征在于,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-9任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410369251.0A CN118042142A (zh) | 2024-03-28 | 2024-03-28 | 一种视频编码方法、装置、计算机设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410369251.0A CN118042142A (zh) | 2024-03-28 | 2024-03-28 | 一种视频编码方法、装置、计算机设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118042142A true CN118042142A (zh) | 2024-05-14 |
Family
ID=90984248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410369251.0A Pending CN118042142A (zh) | 2024-03-28 | 2024-03-28 | 一种视频编码方法、装置、计算机设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118042142A (zh) |
-
2024
- 2024-03-28 CN CN202410369251.0A patent/CN118042142A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11412229B2 (en) | Method and apparatus for video encoding and decoding | |
US9749645B2 (en) | Coded-block-flag coding and derivation | |
US9049420B1 (en) | Relative quality score for video transcoding | |
US20060188014A1 (en) | Video coding and adaptation by semantics-driven resolution control for transport and storage | |
CN112102212B (zh) | 一种视频修复方法、装置、设备及存储介质 | |
CN108810545B (zh) | 用于视频编码的方法、装置、计算机可读介质及电子设备 | |
CN114554211A (zh) | 内容自适应视频编码方法、装置、设备和存储介质 | |
CN111182303A (zh) | 共享屏幕的编码方法、装置、计算机可读介质及电子设备 | |
CN108141599B (zh) | 在视频编解码器中保留纹理/噪声一致性 | |
WO2022000298A1 (en) | Reinforcement learning based rate control | |
CN110708570B (zh) | 视频的编码码率确定方法、装置、设备及存储介质 | |
Menon et al. | JND-aware Two-pass Per-title Encoding Scheme for Adaptive Live Streaming | |
CN117459733B (zh) | 视频编码方法、装置、设备、可读存储介质及程序产品 | |
Micó-Enguídanos et al. | Per-title and per-segment CRF estimation using DNNs for quality-based video coding | |
Zhao et al. | Fast CU partition decision strategy based on human visual system perceptual quality | |
US20070019874A1 (en) | Method and apparatus for scalable signal processing | |
Lin et al. | Deep quality assessment of compressed videos: A subjective and objective study | |
CN116980604A (zh) | 视频编码方法、视频解码方法及相关设备 | |
CN118042142A (zh) | 一种视频编码方法、装置、计算机设备及介质 | |
CN118138767A (zh) | 一种视频编码方法、装置、计算机设备及介质 | |
CN118055240A (zh) | 一种视频编码方法、装置、计算机设备及介质 | |
Qin et al. | Content adaptive downsampling for low bitrate video coding | |
CN116074528A (zh) | 视频编码方法及装置、编码信息调度方法及装置 | |
Nami et al. | Lightweight Multitask Learning for Robust JND Prediction using Latent Space and Reconstructed Frames | |
CN117956157B (zh) | 视频编码方法、装置、电子设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |