CN117544770A - 图片组长度确定方法、装置、计算机设备及可读介质 - Google Patents

图片组长度确定方法、装置、计算机设备及可读介质 Download PDF

Info

Publication number
CN117544770A
CN117544770A CN202210919825.8A CN202210919825A CN117544770A CN 117544770 A CN117544770 A CN 117544770A CN 202210919825 A CN202210919825 A CN 202210919825A CN 117544770 A CN117544770 A CN 117544770A
Authority
CN
China
Prior art keywords
scene
length
image
determining
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210919825.8A
Other languages
English (en)
Inventor
杨维
徐科
孔德辉
曹洲
陈杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanechips Technology Co Ltd
Original Assignee
Sanechips Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanechips Technology Co Ltd filed Critical Sanechips Technology Co Ltd
Priority to CN202210919825.8A priority Critical patent/CN117544770A/zh
Priority to PCT/CN2023/110200 priority patent/WO2024027639A1/zh
Publication of CN117544770A publication Critical patent/CN117544770A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本公开提供一种图片组长度确定方法,分别获取视频流的编码信息、光流运动向量和特征参数;利用预设的神经网络模型,根据编码信息、运动向量和特征参数,确定视频流中各帧图像的各像素所属的场景,场景包括至少两个预设场景;在当前判断场景下,针对各帧图像,根据图像中属于当前判断场景的像素数量和图像的像素总数,确定图片组的长度,在无法确定出图片组的长度的情况下,在下一个判断场景下确定图片组的长度,直到全部预设场景均遍历完成;本公开实施例图片组的长度能随着视频内容变化而改变,提高编码质量和码率,降低压缩码流的大小。本公开还提供一种图片组长度确定装置、计算机设备和可读介质。

Description

图片组长度确定方法、装置、计算机设备及可读介质
技术领域
本公开涉及视频编解码技术领域,具体涉及一种图片组长度确定方法、装置、计算机设备及可读介质。
背景技术
随着信息时代的来临,视频、音频、文件等等信息的载体数量越来越多,特别是对于视频而言,现在的采集设备甚至已经支持到8K分辨率,在这样的分辨率下,一个原始视频文件的大小如果要传输或者保存原始大小对存储和传输的要求甚高,因此对视频编解码技术的要求也越来越高。传统的视频编解码已经发展了三十多年,从最开始的H260、MPEG1到现在最新的H266、MPEG(Moving Picture Experts Group,动态图像专家组)5、AV1、AVS3等,它们都是基于混合框架的编解码协议,将视频拆分为多个GOP(Group Of Picture,图片组),每个GOP由多帧组成,每帧再向下划分为S l ice、Ti le、宏块、预测模块和变换模块,使用预测(Pred ict ion)、变换(Transform)、量化(Quant izat ion)、滤波(Fi lter)和熵编码(Entropy Cod ing)等技术将视频压缩,其编码流程如图1所示,其中预测是将空间和时间维度上的冗余去除,让同一帧其他地方的相似重建块或者其他帧的相似重建块减去原始块的像素得到残差块,将残差块输入到变换得到非零值集中在一定区域的变换系数并送入量化模块得到仅有的几个量化值联合其他信息比如运动矢量、帧内预测模式等给到熵编码模块进行编码得到压缩率低的码流。随着技术的更替,能在更低的压缩率下达到更高质量。
然而,现有的视频编码器多数都设置了固定GOP长度,导致码率和编码质量参数较差,如峰值信噪比、VMAF(Video Mu lt imethod Assessment Fus ion,视频多方法评估融合)较低。
发明内容
本公开提供一种图片组长度确定方法、装置、计算机设备和可读介质。
第一方面,本公开实施例提供一种图片组长度确定方法,所述方法包括:
分别获取视频流的编码信息、光流运动向量和特征参数;
利用预设的神经网络模型,根据所述编码信息、所述运动向量和所述特征参数,确定所述视频流中各帧图像的各像素所属的场景,所述场景包括至少两个预设场景;
在当前判断场景下,针对各帧图像,根据所述图像中属于所述当前判断场景的像素数量和所述图像的像素总数,确定图片组的长度,在无法确定出图片组的长度的情况下,在下一个判断场景下确定图片组的长度,直到全部所述预设场景均遍历完成;其中,所述当前判断场景为所述预设场景中的一个,根据预设的场景判断顺序确定。
又一方面,本公开实施例还提供一种图片组长度确定装置,包括处理模块、场景确定模块和图片组长度确定模块,所述处理模块用于,分别获取视频流的编码信息、光流运动向量和特征参数;
所述场景确定模块用于,利用预设的神经网络模型,根据所述编码信息、所述运动向量和所述特征参数,确定所述视频流中各帧图像的各像素所属的场景,所述场景包括至少两个预设场景;
所述图片组长度确定模块用于,在当前判断场景下,针对各帧图像,根据所述图像中属于所述当前判断场景的像素数量和所述图像的像素总数,确定图片组的长度,在无法确定出图片组的长度的情况下,在下一个判断场景下确定图片组的长度,直到全部所述预设场景均遍历完成;其中,所述当前判断场景为所述预设场景中的一个,根据预设的场景判断顺序确定。
又一方面,本公开实施例还提供一种计算机设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前所述的图片组长度确定方法。
又一方面,本公开实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,所述程序被执行时实现如前所述的图片组长度确定方法。
本公开实施例提供的图片组长度确定方法,分别获取视频流的编码信息、光流运动向量和特征参数;利用预设的神经网络模型,根据编码信息、运动向量和特征参数,确定视频流中各帧图像的各像素所属的场景,场景包括至少两个预设场景;在当前判断场景下,针对各帧图像,根据图像中属于当前判断场景的像素数量和图像的像素总数,确定图片组的长度,在无法确定出图片组的长度的情况下,在下一个判断场景下确定图片组的长度,直到全部预设场景均遍历完成;其中,当前判断场景为预设场景中的一个,根据预设的场景判断顺序确定。本公开实施例将对视频内容信息自适应编码与神经网络相结合,对视频的内容进行场景分类确定图片组长度,图片组的长度能随着视频内容变化而改变,提高编码质量和码率,降低压缩码流的大小。
附图说明
图1为相关技术中H266混合编码框架的示意图;
图2为本公开实施例提供的图片组长度确定方法的流程示意图;
图3为本公开实施例提供的确定视频流中各帧图像各像素所属的场景的流程示意图;
图4为本公开实施例提供的确定图片组的长度的流程示意图一;
图5为本公开实施例提供的确定图片组的长度的流程示意图二;
图6为本公开实施例提供的确定视频流中各帧图像的各像素所属的场景流程示意图;
图7为本公开实施例提供的具体实例的图片组长度确定流程示意图;
图8为本公开实施例提供的图片组长度确定装置的结构示意图。
具体实施方式
在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本公开透彻和完整,并将使本领域技术人员充分理解本公开的范围。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。
本文所述实施例可借助本公开的理想示意图而参考平面图和/或截面图进行描述。因此,可根据制造技术和/或容限来修改示例图示。因此,实施例不限于附图中所示的实施例,而是包括基于制造工艺而形成的配置的修改。因此,附图中例示的区具有示意性属性,并且图中所示区的形状例示了元件的区的具体形状,但并不旨在是限制性的。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
现有的视频编码器多数都设置了固定的图片组长度,各个编码器根据经验对不同场景下的视频源的图片组长度采用经验值,在一个视频里对于不同情景图片组的长度都一样,这种图片组固定长度的设置使得编码器不能充分考虑视频的信息,导致码率和编码质量参数较差。
相关技术中可以根据场景切换重置I帧,但是由于场景检测方法不够可靠,最终的效果也差强人意。对于没有实时要求的应用,由于编解码领域的二次或者多次编码能提供前次或者前几次的编码信息给后续编码使用,因此对于二次或者多次编码的研究也有了一定的进展。如果能将神经网络和二次编码结合对视频的内容进行场景分类最后确定图片组长度是一个不错的方向。
本公开实施例提供一种图片组长度确定方法,如图2所示,所述方法包括以下步骤:
步骤S11,分别获取视频流的编码信息、光流运动向量和特征参数。
在本步骤中,对视频流中的各帧图像进行至少一次编码,获取5个通道的编码信息。编码信息包括:预测方式、预测块划分、帧内预测模式、帧间预测的运动向量(Mot ionVector,MV)。编码的图片组采用固定长度,对第一次编码的过程保留编码过程中内容,如编码采用的帧内预测方式还是帧间预测方式,分别用0和1表示,组成一个通道;预测块的划分,使用1表示预测块边界,0表示非边界,组成一个通道;帧内预测的预测模式组成一个通道;帧间预测的运动向量组成两个通道。需要说明的是,也可以通过多次编码获取编码信息。需要说明的是,由编码获得的编码信息不一定仅仅包含上述5个通道对应的内容,只要是编码器能得到的编码信息都可以采用。
在本步骤中,对视频流中各帧视频图像提取光流运动向量,得到水平方向和垂直方向的光流运动向量,每个方向的光流运动向量分别形成一个通道。具体的,可以将视频的光流通过传统算法或者神经网络算法得到光流运动向量,形成两个通道(包含水平和垂直方向的运动向量)。
在本步骤中,利用特征提取网络(如分类网络的VGG16的特征部分网络等),对视频流中各帧视频图像进行特征提取,得到预设数量(C个)通道的特征参数。
步骤S12,利用预设的神经网络模型,根据编码信息、运动向量和特征参数,确定视频流中各帧图像的各像素所属的场景,场景包括至少两个预设场景。
图像的像素级分类也即图像的语义分割,在本步骤中,需要确定每个像素的分类情况(即像素所述的场景)。
图3为本公开实施例提取图像的像素级分类的过程,如图3所示,将步骤S11中得到的(C+7)个通道数据(即编码信息、光流运动向量和特征参数)输入一个语义分割模型,该语义分割模型为神经网络模型,得到和视频流中图像大小完全相同的4个通道组成的概率特征图,每个通道分别代表该像素为某个预设场景下的概率,概率最大的场景为该像素所属的场景。需要说明的是每一帧的每一个像素都有对应的所属场景类型,每一帧不仅仅只有一个场景,可能四个场景都存在。
在进行语义分割模型训练时需要确定训练时的标签,该语义分割任务的标签可以人为标定,即采集多个视频,对视频中的每个像素都预先指导其所处的场景的类别。需要说明的是,模型训练中的标签也可以不由人为标定,而是将通过较为优秀的算法得到的结果作为标签。该语义分割模型在训练时的损失函数可以是交叉熵,也可以是交叉熵的改进方法。
步骤S13,在当前判断场景下,针对各帧图像,根据图像中属于当前判断场景的像素数量和图像的像素总数,确定图片组的长度,在无法确定出图片组的长度的情况下,在下一个判断场景下确定图片组的长度,直到全部预设场景均遍历完成;其中,当前判断场景为预设场景中的一个,根据预设的场景判断顺序确定。
在本步骤中,基于判断场景确定图片组的长度,若当前判断场景无法确定出图片组的长度,则在下一个判断场景下确定图片组的长度,在一个判断场景下,基于图像逐帧进行判断,根据图像的当前判断场景的像素比例和预设阈值确定图片组的长度,其中,图像的当前判断场景的像素比例为图像中属于当前判断场景的像素数量和图像的像素总数的比值。
本公开实施例提供的图片组长度确定方法,分别获取视频流的编码信息、光流运动向量和特征参数;利用预设的神经网络模型,根据编码信息、运动向量和特征参数,确定视频流中各帧图像的各像素所属的场景,场景包括至少两个预设场景;在当前判断场景下,针对各帧图像,根据图像中属于当前判断场景的像素数量和图像的像素总数,确定图片组的长度,在无法确定出图片组的长度的情况下,在下一个判断场景下确定图片组的长度,直到全部预设场景均遍历完成;其中,当前判断场景为预设场景中的一个,根据预设的场景判断顺序确定。本公开实施例将对视频内容信息自适应编码与神经网络相结合,对视频的内容进行场景分类确定图片组长度,图片组的长度能随着视频内容变化而改变,提高编码质量和码率,降低压缩码流的大小。
在一些实施例中,如图4所示,每个判断场景分别对应一个预设阈值。所述针对各帧图像,根据图像中属于当前判断场景的像素数量和图像的像素总数,确定图片组的长度(即步骤S13),包括以下步骤:
步骤S131,在从第K帧到第(K+Gmax)帧的图像范围内,针对各帧图像,计算各帧图像中属于当前判断场景的像素数量和图像的像素总数的比值,得到图像的当前判断场景的像素比例;其中,第K帧图像为前一个图片组中最后一帧图像的下一帧图像,Gmax为预设长度,Gmax大于或等于预设场景的数量。
在本步骤中,针对每个判断场景,在预设长度Gmax的图像范围内确定图片组的长度,该帧图像范围为从第K帧图像开始,到第(K+Gmax)帧图像结束,第K帧图像是前一个图片组中最后一帧图像的下一帧图像,也是当前图片组的第一帧图像。预设长度Gmax是图片组的最大长度,Gmax最小值为预设场景的数量,Gmax最大值可以无限大,在一些实施例中,可以设置为64。
针对每帧图像,根据以下公式(1)计算图像的当前判断场景的像素比例:
p=Pi/P (1)
其中,p为图像的当前判断场景i的像素比例,Pi为图像中属于当前判断场景i的像素数量,P为图像的像素总数。
步骤S132,根据像素比例和当前判断场景的预设阈值,确定当前图片组的长度。
在一些实施例中,如图5所示,所述根据像素比例和当前判断场景的预设阈值,确定当前图片组的长度(即步骤S132),包括以下步骤:
步骤S1321,在从第K帧到第(K+Gmax)帧的图像范围内,按照视频流中各帧图像的顺序,将当前帧图像的当前判断场景的像素比例与当前判断场景的预设阈值相比较,在像素比例小于或等于预设阈值的情况下,将下一帧图像的当前判断场景的像素比例与预设阈值相比较,直到像素比例大于预设阈值时停止比较。
步骤S1322,在当前判断场景的像素比例大于预设阈值的情况下,根据当前判断场景的像素比例和预设阈值的比较结果确定当前图片组的长度。
也就是说,在从第K帧图像开始,到第(K+Gmax)帧图像结束的图像范围内,逐帧执行以下操作:将当前帧图像的当前判断场景的像素比例与当前判断场景的预设阈值相比较,若前者小于或等于后者,则针对下一帧图像执行上述比较操作,以此类推,直到像素比例大于预设阈值时停止比较,此时,可以根据当前判断场景的像素比例和预设阈值的比较结果确定出当前图片组的长度,即在当前判断场景下确定出当前图片组的长度,无需再在下一个判断场景下执行上述处理步骤。
在一些实施例中,所述根据当前判断场景的像素比例和预设阈值的比较结果确定当前图片组的长度(即步骤S1322),包括以下步骤:确定小于预设阈值的当前判断场景的像素比例的数量,当前图片组的长度为所述数量。也就是说,将大于预设阈值之前的当前判断场景的像素比例的数量,作为当前图片组的长度为所述数量。
在一些实施例中,如图5所示,所述在无法确定出图片组的长度的情况下,在下一个判断场景下确定图片组的长度(即步骤S132),包括以下步骤:
步骤1323,在全部帧图像的当前判断场景的像素比例均小于预设阈值的情况下,根据预设的场景判断顺序确定下一个判断场景,在下一个判断场景下,针对各帧图像,根据图像中属于下一个判断场景的像素数量和图像的像素总数,确定图片组的长度。
在从第K帧图像开始,到第(K+Gmax)帧图像结束的图像范围内,若全部帧图像的当前判断场景的像素比例均小于预设阈值,说明在当前判断场景下无法确定出图片组的长度,则在下一个判断场景下,根据上述步骤S131、S1321-S1322,在下一个判断场景下确定图片组的长度。
在一些实施例中,在确定视频流中各帧图像的各像素所属的场景(即步骤S12)之后,S所述图片组长度确定方法还包括以下步骤:在遍历全部预设场景均无法确定出图片组的长度的情况下,确定图片组的长度为预设长度(Gmax)。也就是说,若按照步骤S1323将全部预设场景均遍历完成之后,发现在每个场景下,全部帧图像的该场景的像素比例均小于相应的阈值,在这种情况下,将当前的图片组的长度设置为预设长度(Gmax)。
在一些实施例中,如图6所示,所述利用预设的神经网络模型,根据编码信息、运动向量和特征参数,确定视频流中各帧图像的各像素所属的场景(即步骤S12),包括以下步骤:
步骤S121,将编码信息、光流运动向量和特征参数输入神经网络模型,得到视频流中各帧图像的各像素在所述预设场景下的概率。
步骤122,根据概率确定各像素所属的场景。
针对每个像素,确定该像素在各个预设场景下的概率的最大值,该最大值对应的预设场景即为该像素所属的场景。
在一些实施例中,预设场景包括以下场景中的至少两个:静止场景、切换场景、混合场景、高方差场景。
在公开实施例中,场景分为四类:静止场景、切换场景、混合场景、高方差场景。其中,静止场景表示帧与帧之间基本没有变化或者变化的很小;切换场景是指内容突然发生变化;混合场景是指两个场景的混合,其中一个场景亮度越来越暗,另外一个场景越来越亮;高方差场景是指场景不稳定,帧之间变化很大也很复杂,但是除了切换场景和静止场景之外的一种变化场景,其方差很大。
在一些实施例中,在预设场景包括静止场景、切换场景、混合场景和高方差场景的情况下,预设的场景判断顺序为:切换场景、静止场景、高方差场景、混合场景。按照上述场景判断顺序确定图片组的长度,可以快速、高效确定出图片组的长度,提高处理效率。
为清楚说明本公开实施例的方案,以下结合图7,通过一具体实例对本公开实施例的磁盘重定向过程进行详细说明。在本具体实例中,切换场景对应的阈值为λ1,静止场景对应的阈值为λ2,高方差场景对应的阈值为λ3,混合场景对应的阈值为λ4。
如图7所示,首先确定一个图片组长度的最大值Gmax。在切换场景下,从第K帧图像开始,到第(K+Gmax)帧图像结束的范围内,若第K帧图像到第(K+A-1)帧图像的切换场景的像素比例均小于λ1,且第(K+A)帧图像的切换场景的像素比例大于λ1,则当前图片组的长度G=A;从第K帧图像开始,到第(K+Gmax)帧图像结束的范围内,若全部的Gmax帧图像的切换场景的像素比例均小于λ1,说明在切换场景下无法确定出当前图片组的长度,则在静止场景下确定当前图片组的长度。
在静止场景下,从第K帧图像开始,到第(K+Gmax)帧图像结束的范围内,若第K帧图像到第(K+B-1)帧图像的静止场景的像素比例均小于λ2,且第(K+B)帧图像的静止场景的像素比例大于λ2,则当前图片组的长度G=B;从第K帧图像开始,到第(K+Gmax)帧图像结束的范围内,若全部的Gmax帧图像的静止场景的像素比例均小于λ2,说明在静止场景下无法确定出当前图片组的长度,则在高方差场景下确定当前图片组的长度。
在高方差场景下,从第K帧图像开始,到第(K+Gmax)帧图像结束的范围内,若第K帧图像到第(K+C-1)帧图像的高方差场景的像素比例均小于λ3,且第(K+C)帧图像的高方差场景的像素比例大于λ3,则当前图片组的长度G=C;从第K帧图像开始,到第(K+Gmax)帧图像结束的范围内,若全部的Gmax帧图像的高方差场景的像素比例均小于λ3,说明在高方差场景下无法确定出当前图片组的长度,则在混合场景下确定当前图片组的长度。
在混合场景下,从第K帧图像开始,到第(K+Gmax)帧图像结束的范围内,若第K帧图像到第(K+D-1)帧图像的混合场景的像素比例均小于λ4,且第(K+D)帧图像的混合场景的像素比例大于λ4,则当前图片组的长度G=D;从第K帧图像开始,到第(K+Gmax)帧图像结束的范围内,若全部的Gmax帧图像的混合场景的像素比例均小于λ4,说明在混合场景下无法确定出当前图片组的长度,则当前图片组的长度G=Gmax。
最后,设定当前图片组的长度为G,并令K=K+G,确定下一图片组的长度,下一图片组的图像的范围为(第(K+G)帧图像,第(K+G+Gmax)帧图像)。
本公开实施例在通过多次编码获取视频流的编码信息的情况下,多次编码的结果作为后续最终编码的输入,因此对实时性要求高的编码应用不能采用,对于本地存储或者不限时传输的压缩传输如点播等可以运用。
本公开实施例所应用的编码器必须以图片组为单位编码,且环境中也需要支持和神经网络相关的操作,比如卷积、全连接等。
本公开实施例首先对原始视频进行编码,获取每帧宏块的预测方式(包括帧内预测方式或帧间预测方式)、编码的预测模块划分、帧内预测模式、帧间预测的运动向量。然后将原始视频流分别放入光流网络、特征提取网络得到光流特征(即光流运动向量)和其他特征参数。将上述的编码信息、光流特征与其他特征参数级联后放入神经网络的语义分割模型中得到一个和原始视频分辨率相同的特征图,通道数为4,该特征图的值表示为分类为静止场景、切换场景、混合场景和高方差场景的概率,也即做到像素分类的语义分割。将上述概率最大的值对应的场景类别作为该像素所属的场景,然后统计每个场景在所在帧图像中所占的比例。设置一个图片组的最大值Gmax,从第K帧到第(K+Gmax)帧内若有第(K+A)帧切换场景的像素比例大于该场景对应的阈值,则图片组的长度即为A,否则,如果在静止场景下,直到第K+B帧,相应场景在所在帧图像中的像素比例大于相应的阈值,则图片组的长度即为B。高方差场景和混合场景以此类推。
基于相同的技术构思,本公开实施例还提供一种图片组长度确定装置,如图8所示,所述图片组长度确定装置包括处理模块101、场景确定模块102和图片组长度确定模块103,处理模块101用于,分别获取视频流的编码信息、光流运动向量和特征参数。
场景确定模块102用于,利用预设的神经网络模型,根据所述编码信息、所述运动向量和所述特征参数,确定所述视频流中各帧图像的各像素所属的场景,所述场景包括至少两个预设场景。
图片组长度确定模块103用于,在当前判断场景下,针对各帧图像,根据所述图像中属于所述当前判断场景的像素数量和所述图像的像素总数,确定图片组的长度,在无法确定出图片组的长度的情况下,在下一个判断场景下确定图片组的长度,直到全部所述预设场景均遍历完成;其中,所述当前判断场景为所述预设场景中的一个,根据预设的场景判断顺序确定。
在一些实施例中,图片组长度确定模块103用于,在从第K帧到第(K+Gmax)帧的图像范围内,针对各帧图像,计算所述图像中属于所述当前判断场景的像素数量和所述图像的像素总数的比值,得到所述图像的所述当前判断场景的像素比例;其中,第K帧图像为前一个图片组中最后一帧图像的下一帧图像,所述Gmax为预设长度,且所述Gmax大于或等于所述预设场景的数量;根据所述像素比例和所述当前判断场景的预设阈值,确定当前图片组的长度。
在一些实施例中,图片组长度确定模块103用于,在从第K帧到第(K+Gmax)帧的图像范围内,按照所述视频流中各帧图像的顺序,将当前帧图像的所述当前判断场景的像素比例与所述当前判断场景的预设阈值相比较,在所述像素比例小于或等于所述预设阈值的情况下,将下一帧图像的所述当前判断场景的像素比例与所述预设阈值相比较,直到所述像素比例大于所述预设阈值时停止比较;在所述当前判断场景的像素比例大于所述预设阈值的情况下,根据所述当前判断场景的像素比例和所述预设阈值的比较结果确定当前图片组的长度。
在一些实施例中,图片组长度确定模块103用于,确定小于所述预设阈值的所述当前判断场景的像素比例的数量,所述当前图片组的长度为所述数量。
在一些实施例中,图片组长度确定模块103用于,在全部帧图像的所述当前判断场景的像素比例均小于所述预设阈值的情况下,根据所述预设的场景判断顺序确定下一个判断场景,在所述下一个判断场景下,针对各帧图像,根据所述图像中属于所述下一个判断场景的像素数量和所述图像的像素总数,确定图片组的长度。
在一些实施例中,图片组长度确定模块103还用于,在遍历全部所述预设场景均无法确定出图片组的长度的情况下,确定图片组的长度为所述预设长度。
在一些实施例中,场景确定模块102用于,将所述编码信息、所述光流运动向量和所述特征参数输入所述神经网络模型,得到所述视频流中各帧图像的各像素在所述预设场景下的概率;根据所述概率确定所述各像素所属的场景。
在一些实施例中,所述预设场景包括以下场景中的至少两个:静止场景、切换场景、混合场景、高方差场景。
在一些实施例中,在所述预设场景包括静止场景、切换场景、混合场景和高方差场景的情况下,所述预设的场景判断顺序为:切换场景、静止场景、高方差场景、混合场景。
本公开实施例还提供了一种计算机设备,该计算机设备包括:一个或多个处理器以及存储装置;其中,存储装置上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如前述各实施例所提供的图片组长度确定方法。
本公开实施例还提供了一种计算机可读介质,其上存储有计算机程序,其中,该计算机程序被执行时实现如前述各实施例所提供的图片组长度确定方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本发明的范围的情况下,可进行各种形式和细节上的改变。

Claims (12)

1.一种图片组长度确定方法,所述方法包括:
分别获取视频流的编码信息、光流运动向量和特征参数;
利用预设的神经网络模型,根据所述编码信息、所述运动向量和所述特征参数,确定所述视频流中各帧图像的各像素所属的场景,所述场景包括至少两个预设场景;
在当前判断场景下,针对各帧图像,根据所述图像中属于所述当前判断场景的像素数量和所述图像的像素总数,确定图片组的长度,在无法确定出图片组的长度的情况下,在下一个判断场景下确定图片组的长度,直到全部所述预设场景均遍历完成;其中,所述当前判断场景为所述预设场景中的一个,根据预设的场景判断顺序确定。
2.如权利要求1所述的方法,其特征在于,每个所述判断场景分别对应一个预设阈值,所述针对各帧图像,根据所述图像中属于所述当前判断场景的像素数量和所述图像的像素总数,确定图片组的长度,包括:
在从第K帧到第(K+Gmax)帧的图像范围内,针对各帧图像,计算所述图像中属于所述当前判断场景的像素数量和所述图像的像素总数的比值,得到所述图像的所述当前判断场景的像素比例;其中,第K帧图像为前一个图片组中最后一帧图像的下一帧图像,所述Gmax为预设长度,且所述Gmax大于或等于所述预设场景的数量;
根据所述像素比例和所述当前判断场景的预设阈值,确定当前图片组的长度。
3.如权利要求2所述的方法,其特征在于,所述根据所述像素比例和所述当前判断场景的预设阈值,确定当前图片组的长度,包括:
在从第K帧到第(K+Gmax)帧的图像范围内,按照所述视频流中各帧图像的顺序,将当前帧图像的所述当前判断场景的像素比例与所述当前判断场景的预设阈值相比较,在所述像素比例小于或等于所述预设阈值的情况下,将下一帧图像的所述当前判断场景的像素比例与所述预设阈值相比较,直到所述像素比例大于所述预设阈值时停止比较;
在所述当前判断场景的像素比例大于所述预设阈值的情况下,根据所述当前判断场景的像素比例和所述预设阈值的比较结果确定当前图片组的长度。
4.如权利要求3所述的方法,其特征在于,所述根据所述当前判断场景的像素比例和所述预设阈值的比较结果确定当前图片组的长度,包括:
确定小于所述预设阈值的所述当前判断场景的像素比例的数量,所述当前图片组的长度为所述数量。
5.如权利要求3所述的方法,其特征在于,所述在无法确定出图片组的长度的情况下,在下一个判断场景下确定图片组的长度,包括:
在全部帧图像的所述当前判断场景的像素比例均小于所述预设阈值的情况下,根据所述预设的场景判断顺序确定下一个判断场景,在所述下一个判断场景下,针对各帧图像,根据所述图像中属于所述下一个判断场景的像素数量和所述图像的像素总数,确定图片组的长度。
6.如权利要求2所述的方法,其特征在于,在确定所述视频流中各帧图像的各像素所属的场景之后,还包括:
在遍历全部所述预设场景均无法确定出图片组的长度的情况下,确定图片组的长度为所述预设长度。
7.如权利要求1所述的方法,其特征在于,所述利用预设的神经网络模型,根据所述编码信息、所述运动向量和所述特征参数,确定所述视频流中各帧图像的各像素所属的场景,包括:
将所述编码信息、所述光流运动向量和所述特征参数输入所述神经网络模型,得到所述视频流中各帧图像的各像素在所述预设场景下的概率;
根据所述概率确定所述各像素所属的场景。
8.如权利要求1-7任一项所述的方法,其特征在于,所述预设场景包括以下场景中的至少两个:静止场景、切换场景、混合场景、高方差场景。
9.如权利要求8所述的方法,其特征在于,在所述预设场景包括静止场景、切换场景、混合场景和高方差场景的情况下,所述预设的场景判断顺序为:切换场景、静止场景、高方差场景、混合场景。
10.一种图片组长度确定装置,包括处理模块、场景确定模块和图片组长度确定模块,所述处理模块用于,分别获取视频流的编码信息、光流运动向量和特征参数;
所述场景确定模块用于,利用预设的神经网络模型,根据所述编码信息、所述运动向量和所述特征参数,确定所述视频流中各帧图像的各像素所属的场景,所述场景包括至少两个预设场景;
所述图片组长度确定模块用于,在当前判断场景下,针对各帧图像,根据所述图像中属于所述当前判断场景的像素数量和所述图像的像素总数,确定图片组的长度,在无法确定出图片组的长度的情况下,在下一个判断场景下确定图片组的长度,直到全部所述预设场景均遍历完成;其中,所述当前判断场景为所述预设场景中的一个,根据预设的场景判断顺序确定。
11.一种计算机设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-9任一项所述的图片组长度确定方法。
12.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被执行时实现如权利要求1-9任一项所述的图片组长度确定方法。
CN202210919825.8A 2022-08-01 2022-08-01 图片组长度确定方法、装置、计算机设备及可读介质 Pending CN117544770A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210919825.8A CN117544770A (zh) 2022-08-01 2022-08-01 图片组长度确定方法、装置、计算机设备及可读介质
PCT/CN2023/110200 WO2024027639A1 (zh) 2022-08-01 2023-07-31 图片组长度确定方法、装置、计算机设备及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210919825.8A CN117544770A (zh) 2022-08-01 2022-08-01 图片组长度确定方法、装置、计算机设备及可读介质

Publications (1)

Publication Number Publication Date
CN117544770A true CN117544770A (zh) 2024-02-09

Family

ID=89790538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210919825.8A Pending CN117544770A (zh) 2022-08-01 2022-08-01 图片组长度确定方法、装置、计算机设备及可读介质

Country Status (2)

Country Link
CN (1) CN117544770A (zh)
WO (1) WO2024027639A1 (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10165274B2 (en) * 2011-01-28 2018-12-25 Eye IO, LLC Encoding of video stream based on scene type
EP3376766B1 (en) * 2017-03-14 2019-01-30 Axis AB Method and encoder system for determining gop length for encoding video
CN112019850B (zh) * 2020-08-27 2022-08-23 广州市百果园信息技术有限公司 基于场景切换的图像组划分方法、视频编码方法及装置
CN112347996A (zh) * 2020-11-30 2021-02-09 上海眼控科技股份有限公司 一种场景状态判断方法、装置、设备及存储介质
CN113496208B (zh) * 2021-05-20 2022-03-04 华院计算技术(上海)股份有限公司 视频的场景分类方法及装置、存储介质、终端

Also Published As

Publication number Publication date
WO2024027639A1 (zh) 2024-02-08

Similar Documents

Publication Publication Date Title
AU2012211249B2 (en) Encoding of video stream based on scene type
EP3158751B1 (en) Encoder decisions based on results of hash-based block matching
US6618507B1 (en) Methods of feature extraction of video sequences
US9143776B2 (en) No-reference video/image quality measurement with compressed domain features
US20080170615A1 (en) Moving image decoding device and moving image decoding method
US20150312575A1 (en) Advanced video coding method, system, apparatus, and storage medium
US11743475B2 (en) Advanced video coding method, system, apparatus, and storage medium
US20130182776A1 (en) Video Encoding Using Block-Based Mixed-Resolution Data Pruning
US10165274B2 (en) Encoding of video stream based on scene type
US20220147567A1 (en) Method and system for characteristic-based video processing
Westland et al. Decision trees for complexity reduction in video compression
Peixoto et al. Fast H. 264/AVC to HEVC transcoding based on machine learning
US20130251033A1 (en) Method of compressing video frame using dual object extraction and object trajectory information in video encoding and decoding process
CN114157870A (zh) 编码方法、介质及电子设备
US8687710B2 (en) Input filtering in a video encoder
Benjak et al. Neural network-based error concealment for vvc
CN117544770A (zh) 图片组长度确定方法、装置、计算机设备及可读介质
US20150304686A1 (en) Systems and methods for improving quality of color video streams
Chubach et al. Motion-distribution based dynamic texture synthesis for video coding
Lou et al. Statistical analysis based H. 264 high profile deblocking speedup
CN106878753B (zh) 一种使用纹理平滑信息的3d视频残差编码模式选择方法
KR20120129629A (ko) 루프 내 전처리 필터링을 이용한 움직임 추정 및 보상 방법
Park et al. Image compression based on MR-CNN (modified region convolutional neural network)
WO2016193949A1 (en) Advanced video coding method, system, apparatus and storage medium
Benjak et al. 4K Video Coding Efficiency in UAV Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication