CN116156175A - 视频编码方法及装置 - Google Patents

视频编码方法及装置 Download PDF

Info

Publication number
CN116156175A
CN116156175A CN202111363998.8A CN202111363998A CN116156175A CN 116156175 A CN116156175 A CN 116156175A CN 202111363998 A CN202111363998 A CN 202111363998A CN 116156175 A CN116156175 A CN 116156175A
Authority
CN
China
Prior art keywords
complexity
image
frame
encoded
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111363998.8A
Other languages
English (en)
Inventor
黄剑飞
燕雨祥
都龙山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ape Power Future Technology Co Ltd
Original Assignee
Beijing Ape Power Future Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ape Power Future Technology Co Ltd filed Critical Beijing Ape Power Future Technology Co Ltd
Priority to CN202111363998.8A priority Critical patent/CN116156175A/zh
Publication of CN116156175A publication Critical patent/CN116156175A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本说明书提供视频编码方法及装置,其中视频编码方法包括:将待编码视频帧输入图像复杂度分析模型,获得待编码视频帧的内容特征复杂度,其中,内容特征复杂度包括至少一个特征对应的复杂度,至少一个特征为表征待编码视频帧的帧复杂度的特征;根据内容特征复杂度,确定待编码视频帧的帧复杂度;根据待编码视频帧的帧复杂度,对待编码视频帧进行编码。如此,能够在不依赖先验知识和前后帧的情况下,独立确定待编码视频帧的帧复杂度,对简单场景和复杂场景均有较强的的区分能力,从而可以为码率控制提供更准确有效的复杂度信息,提升了编码帧复杂度判断的精确度,在同等视频质量的情况下可以节省视频编码的码率。

Description

视频编码方法及装置
技术领域
本说明书涉及视频处理技术领域,特别涉及一种视频编码方法。本说明书同时涉及一种视频编码装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
随着计算机技术、通信技术和网络技术的快速发展,各种各样的视频层出不穷,观看视频已成为人们休闲娱乐的重要方式。由于视频的数据量非常大,所以需要使用视频编码技术对视频进行压缩,方便其传输和存储。视频编码是一个有损压缩的过程,解码之后的视频和原始视频并不一致,所以如何均衡视频质量和压缩损失是视频编码的研究重点。其中,码率控制是一种合理分配、充分利用比特的技术,在视频编码过程中,根据当前需要编码的编码帧的特征,编码器可以分配一定的比特,在码率控制方法中,通常需要分析和判断当前帧的复杂度,进而指导视频编码的码率分配,降低整体码率,提高主观质量。
现有技术中,可以在对视频序列中各帧采用帧内预测编码模式进行编码的情况下,计算得到当前帧的复杂度,根据当前帧复杂度与之前预设数量帧的平均复杂度间的数学关系,判断是否出现场景切换情况,进而判断当前帧的复杂度。然而,该方法中复杂度计算非常依赖于前面帧的编码复杂度结果,不能独立的进行推理,判断当前帧复杂度的精确度较差。
发明内容
有鉴于此,本说明书实施例提供了一种视频编码方法。本说明书同时涉及一种视频编码装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种视频编码方法,包括:
将待编码视频帧输入图像复杂度分析模型,获得待编码视频帧的内容特征复杂度,其中,内容特征复杂度包括至少一个特征对应的复杂度,至少一个特征为表征待编码视频帧的帧复杂度的特征;
根据内容特征复杂度,确定待编码视频帧的帧复杂度;
根据待编码视频帧的帧复杂度,对待编码视频帧进行编码。
可选地,根据内容特征复杂度,确定待编码视频帧的帧复杂度,包括:
确定内容特征复杂度中各个特征对应的复杂度的平均值;
将平均值作为待编码视频帧的帧复杂度。
可选地,根据待编码视频帧的帧复杂度,对待编码视频帧进行编码,包括:
根据预设帧复杂度和编码参数信息之间的对应关系,确定待编码视频帧的帧复杂度对应的目标编码参数信息;
根据目标编码参数信息对待编码视频帧进行编码。
可选地,图像复杂度分析模型通过如下方法训练得到:
获取样本图像集,样本图像集中包括至少一个样本图像,每个样本图像携带图像复杂度标签;
基于样本图像集包括的各个样本图像,对初始的图像复杂度分析模型和分类模型进行训练,并返回执行获取样本图像集的操作步骤,直至达到训练停止条件,获得训练完成的图像复杂度分析模型。
可选地,基于样本图像集包括的各个样本图像,对初始的图像复杂度分析模型和分类模型进行训练,包括:
将样本图像集包括的各个样本图像输入初始的图像复杂度分析模型,获得各个样本图像对应的预测特征复杂度;
将各个样本图像对应的预测特征复杂度输入初始的分类模型,获得各个样本图像对应的预测图像复杂度;
根据各个样本图像对应的预测图像复杂度和图像复杂度标签,计算损失值,基于损失值调整初始的图像复杂度分析模型和分类模型中的模型参数。
可选地,基于损失值调整初始的图像复杂度分析模型和分类模型中的模型参数之后,还包括:
获取验证图像集,验证图像集中包括至少一个验证图像,每个验证图像携带图像复杂度标签;
将验证图像集包括的各个验证图像输入图像复杂度分析模型,获得各个验证图像对应的预测特征复杂度;
将各个验证图像对应的预测特征复杂度输入分类模型,获得各个验证图像对应的预测图像复杂度;
根据各个验证图像对应的预测图像复杂度和图像复杂度标签,确定预测准确度,在预测准确度大于准确度阈值的情况下,确定达到训练停止条件。
可选地,达到训练停止条件包括:
判断损失值是否小于预设损失阈值,若是,则确定达到训练停止条件;或者,
判断迭代次数是否超过预设次数阈值,若是,则确定达到训练停止条件。
根据本说明书实施例的第二方面,提供了一种视频编码装置,包括:
输入模块,被配置为将待编码视频帧输入图像复杂度分析模型,获得待编码视频帧的内容特征复杂度,其中,内容特征复杂度包括至少一个特征对应的复杂度,至少一个特征为表征待编码视频帧的帧复杂度的特征;
确定模块,被配置为根据内容特征复杂度,确定待编码视频帧的帧复杂度;
编码模块,被配置为根据待编码视频帧的帧复杂度,对待编码视频帧进行编码。
可选地,确定模块进一步被配置为:
确定内容特征复杂度中各个特征对应的复杂度的平均值;
将平均值作为待编码视频帧的帧复杂度。
可选地,编码模块进一步被配置为:
根据预设帧复杂度和编码参数信息之间的对应关系,确定待编码视频帧的帧复杂度对应的目标编码参数信息;
根据目标编码参数信息对待编码视频帧进行编码。
可选地,该装置还包括训练模块,被配置为:
获取样本图像集,样本图像集中包括至少一个样本图像,每个样本图像携带图像复杂度标签;
基于样本图像集包括的各个样本图像,对初始的图像复杂度分析模型和分类模型进行训练,并返回执行获取样本图像集的操作步骤,直至达到训练停止条件,获得训练完成的图像复杂度分析模型。
可选地,训练模块进一步被配置为:
将样本图像集包括的各个样本图像输入初始的图像复杂度分析模型,获得各个样本图像对应的预测特征复杂度;
将各个样本图像对应的预测特征复杂度输入初始的分类模型,获得各个样本图像对应的预测图像复杂度;
根据各个样本图像对应的预测图像复杂度和图像复杂度标签,计算损失值,基于损失值调整初始的图像复杂度分析模型和分类模型中的模型参数。
可选地,训练模块进一步被配置为:
获取验证图像集,验证图像集中包括至少一个验证图像,每个验证图像携带图像复杂度标签;
将验证图像集包括的各个验证图像输入图像复杂度分析模型,获得各个验证图像对应的预测特征复杂度;
将各个验证图像对应的预测特征复杂度输入分类模型,获得各个验证图像对应的预测图像复杂度;
根据各个验证图像对应的预测图像复杂度和图像复杂度标签,确定预测准确度,在预测准确度大于准确度阈值的情况下,确定达到训练停止条件。
可选地,训练模块进一步被配置为:
判断损失值是否小于预设损失阈值,若是,则确定达到训练停止条件;或者,
判断迭代次数是否超过预设次数阈值,若是,则确定达到训练停止条件。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
存储器用于存储计算机可执行指令,处理器用于执行计算机可执行指令,以实现下述方法:
将待编码视频帧输入图像复杂度分析模型,获得待编码视频帧的内容特征复杂度,其中,内容特征复杂度包括至少一个特征对应的复杂度,至少一个特征为表征待编码视频帧的帧复杂度的特征;
根据内容特征复杂度,确定待编码视频帧的帧复杂度;
根据待编码视频帧的帧复杂度,对待编码视频帧进行编码。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现视频编码方法的步骤。
本说明书提供的视频编码方法,可以将待编码视频帧输入图像复杂度分析模型,获得待编码视频帧的内容特征复杂度,其中,内容特征复杂度包括至少一个特征对应的复杂度,至少一个特征为表征待编码视频帧的帧复杂度的特征;然后,可以根据内容特征复杂度,确定待编码视频帧的帧复杂度,之后可以根据待编码视频帧的帧复杂度,对待编码视频帧进行编码。这种情况下,可以基于预先训练好的图像复杂度分析模型,分析获得待编码视频帧的内容特征复杂度,该内容特征复杂度可以为能够表征待编码视频帧的帧复杂度的各个特征的复杂度,后续基于该内容特征复杂度,即可确定待编码视频帧的帧复杂度,并对视频进行编码。如此,能够在不依赖先验知识和前后帧的情况下,独立确定待编码视频帧的帧复杂度,对于不同的任务又有较好的普适性,对简单场景和复杂场景均有较强的的区分能力,从而可以为码率控制提供更准确有效的复杂度信息,提升了编码帧复杂度判断的精确度,在同等视频质量的情况下可以节省视频编码的码率,在码率控制领域有较好的普适性。
附图说明
图1是本说明书一实施例提供的一种视频编码方法的流程图;
图2是本说明书一实施例提供的另一种视频编码方法的流程图;
图3是本说明书一实施例提供的一种图像复杂度分析模型的训练方法的流程图;
图4是本说明书一实施例提供的一种视频编码装置的结构示意图;
图5是本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
残差网络:残差网络(Resnet)是一种基于深度学习的卷积神经网络模型。
视频编码:在视频传输的过程中,如果不对视频进行压缩,现有的带宽是无法满足视频传输需求的。因此需要对视频进行压缩,而视频压缩的过程,就是视频编码。更具体的说,编码就是按指定的方法,将信息从一种形式(格式),转换成另一种形式(格式)的技术。视频编码是指运用数据压缩技术将数字视频信号中的冗余信息去除,将原始视频格式的文件转换成另一种视频格式文件,以降低表示原始视频所需的码率,方便视频数据的传输与存储的一种技术。
码率:视频文件在单位时间内使用的数据流量,简称为码率,是视频编码中画面质量控制最重要的部分。一般来说,在同样的分辨率下,视频的码率越大,压缩比和失真程度就越小,画面质量就越高。
码率控制:视频编码是一个有损编码的过程,其目的是在尽量保持视频质量的的同时尽可能多的节省比特(码率)。码率控制就是平衡码率和质量的重要工具。根据不同的应用场景,需要选择不同的码率控制算法,包括“1-pass”、“2-pass”、“CBR”、“VB”、“R”、“VBVEncoding”、“CRF”。
恒定码率:固定码率(ConstantBit Rate,CBR),一定时间范围内比特率基本保持的恒定,属于码率优先模型。具有码率稳定,但是质量不稳定,带宽有效利用率不高,但是输出视频码率基本稳定,便于计算视频体积大小的特点。但是特别当该值设置不合理,在复杂运动场景下,画面非常模糊,非常影响观看体验。
可变码率:可变码率(Variable Bit Rate,VBR),简单场景分配比较大的QP,压缩率小,质量高。复杂场景分配较小QP。得到基本稳定的视觉质量,因为人眼本来就对复杂场景不敏感,缺点在于输出码率大小不可控。
平均比特率(Average Bit Rate,ABR):简单场景分配较低比特,复杂场景分配足够比特,使得有限的比特位数能够在不同场景下合理分配,这类似VBR。同时一定时间内,平均码率又接近设置的目标码率,这样可以控制输出文件的大小,这又类似CBR。可以认为是CBR和VBR的折中方案,这是大多人的选择。特别在对质量和视频带宽都有要求的情况下,可以优先选择该模式,一般速度是VBR的两倍到三倍,相同体积的视频文件质量却比CBR好很多。具有视频质量整体可控,同时兼顾了视频码率和速度的优点,是一个折中方案,在直播和低延时系统中用的比较多。在使用过程一般要配合最低码率、最高码率和平均码率综合使用。
SIM:图像结构相似性(Structural Similarity)是一种计算两张图像之间结构相似性的方法,在视频编码中主要用于评估视频编码中每一张图像压缩之后的质量。
PSNR:峰值信噪比(Peak Signal to Noise Ratio)即峰值信号的能量与噪声之间的平均能量之比,是视频编码中用于评估每一张图像编码质量的常用的客观指标。
感知机:是一个基于神经网络的判别模型,主要用于二分类任务。
Hadamard变换:阿达马变换(Hadamard transform),是一种广义傅立叶变换,作为变换编码的一种在视频编码常被用于计算SATD值。
SATD值:SATD(Sum of Absolute Transformed Difference)即Hadamard变换后再取绝对值求和。
需要说明的是,在码率控制方法中,通常需要分析和判断当前帧的复杂度,进而指导视频编码的码率分配,降低整体码率,提高主观质量。现有技术中,可以在对视频序列中各帧采用帧内预测编码模式进行编码的情况下,计算得到当前帧的复杂度,根据当前帧复杂度与之前预设数量帧的平均复杂度间的数学关系,判断是否出现场景切换情况,进而判断当前帧的复杂度,然而该方法中复杂度计算非常依赖于前面帧的编码复杂度结果,不能独立的进行推理;或者,还可以通过计算编码帧的所有宏块的SATD值,对所有块的SATD值求和,从而确定一帧图像的复杂度,然而该方法的帧复杂度判断是在原始帧图像1/4分辨率下进行的,无法基于原始图像进行复杂度判断;或者,还可以利用梯度作为每一帧自身空域复杂度的度量方式,再利用时域复杂度对当前帧的空间复杂度进行预测,进而指导目标帧的比特分配,该方法是采用图像的梯度信息作为复杂度的判断,这种方法只对复杂突变的纹理有效,对无纹理或弱纹理区域没有较好的普适性。
因而,本说明书实施例提供了一种视频编码方法,训练了一个基于深度学习的残差网络模型,依据该模型,能够在不依赖先验知识和前后帧的情况下,独立的完成视频帧内容复杂度的计算,同时对于不同的任务又有较好的普适性,对简单场景和复杂场景有较强的的区分能力。如此,优化了码率控制过程中的编码帧复杂度计算方法,通过残差网络对编码帧的复杂度进行预测,提升了编码帧复杂度判断的精确度,为码率控制提供更有效的信息,在同等SSIM和PSNR下能够节省视频编码的码率,同时在码率控制领域有较好的普适性。
在本说明书中,提供了一种视频编码方法,本说明书同时涉及一种视频编码装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本说明书一实施例提供的一种视频编码方法的流程图,具体包括以下步骤:
步骤102:将待编码视频帧输入图像复杂度分析模型,获得待编码视频帧的内容特征复杂度,其中,内容特征复杂度包括至少一个特征对应的复杂度,至少一个特征为表征待编码视频帧的帧复杂度的特征。
具体的,待编码视频帧可以是指某视频流中等待进行编码的视频帧。图像复杂度分析模型可以是指预先训练好的、能够识别输入的视频帧中能够表征视频帧的帧复杂度的至少一个特征对应的复杂度的模型,如图像复杂度分析模型可以为预先训练好的残差网络,当然还可以为其他神经网络,如Transformer等,本说明书对此不进行限制。
需要说明的是,图像复杂度分析模型可以对输入的待编码视频帧进行分析,识别出待编码视频帧中能够表征视频帧的帧复杂度的至少一个特征对应的复杂度,即识别输入视频帧的纹理复杂度。也就是说,图像复杂度分析模型输出的内容特征复杂度是一组特征值,该组特征值包括的特征个数是能够表征视频帧的帧复杂度的特征的个数,而每个特征的数值则表示该特征的复杂度,数值越大,表示该特征越复杂,数值越小,表示该特征越简单。
示例的,将待编码视频帧输入图像复杂度分析模型中,图像复杂度分析模型输出该待编码视频帧的内容特征复杂度IC(X0,X1,X2,X3,X4,X5,X6,X7,X8,X9),此时说明待编码视频帧中能够表征待编码视频帧的帧复杂度的特征为10个,各个特征的复杂度依次为X0、X1、X2、X3、X4、X5、X6、X7、X8、X9。
本说明书实施例中可以基于预先训练好的图像复杂度分析模型,分析获得待编码视频帧的内容特征复杂度,该内容特征复杂度可以为能够表征待编码视频帧的帧复杂度的各个特征的复杂度,后续基于该内容特征复杂度,即可确定待编码视频帧的帧复杂度,并对视频进行编码。如此,提供了丰富且准确的数据基础,使得后续可以确定准确待编码视频帧的帧复杂度,从而为码率控制提供准确有效的数据。
本实施例一个可选的实施方式中,为了基于图像复杂度分析模型对待编码视频帧进行分析识别,还可以预先训练得到图像复杂度分析模型,也即该图像复杂度分析模型通过如下方法训练得到:
获取样本图像集,样本图像集中包括至少一个样本图像,每个样本图像携带图像复杂度标签;
基于样本图像集包括的各个样本图像,对初始的图像复杂度分析模型和分类模型进行训练,并返回执行获取样本图像集的操作步骤,直至达到训练停止条件,获得训练完成的图像复杂度分析模型。
其中,图像复杂度分析模型可以基于输入的样本图像,输出对应的预测特征复杂度,将该预测特征复杂度输入分类模型,可以获得输出的预测图像复杂度,即分类模型可以确定输入的预测特征复杂度属于哪一类型的复杂度,如分类模型可以为感知机,即二分类模型,也可以为多分类模型,分类模型可以识别的类别数目与样本图像携带的预测特征复杂度的类别相同。
具体的,样本图像集可以是指预先获取到的包括大量样本图像的集合,该样本图像集中包括的样本图像中包含复杂度不同的多个样本图像,从而可以基于样本图像集训练图像复杂度分析模型对不同复杂度的图像的分析识别能力。另外,样本图像集中包括的各个样本图像均携带图像复杂度标签,该图像复杂度标签可以用于表示样本图像的复杂度,如简单、中等、复杂等,该图像复杂度标签为人工确定。
需要说明的是,图像复杂度分析模型只能对输入图像的图像特征进行分析,输出能够表征图像的图像复杂度的至少一个特征对应的特征值,即输出一组特征值,如果要单独对图像复杂度分析模型进行训练,则需要针对样本图像集中的每个样本图像设置能够表征样本图像的图像复杂度的一组特征值作为标签,该标签的确定过程极难实现,而图像是简单还是复杂的确定过程却较为简单即可实现,因而本说明书实施例中采用图像复杂度标签作为样本标签,在图像复杂度分析模型后面加入分类模型共同训练。
实际应用中,获取到的样本图像集中包括的各个样本图像均携带对应的样本标签(即图像复杂度标签),因而将样本图像集包括的各个样本图像输入至图像复杂度分析模型和分类模型中,分类模型即可输出预测的复杂度,从而对图像复杂度分析模型和分类模型整体进行训练,训练得到的图像复杂度分析模型即可准确识别输入图像中能够表征图像的图像复杂度的至少一个特征对应的复杂度。
本说明书实施例中,可以结合图像复杂度分析模型和分类模型共同进行训练,使得样本图像的样本标签确定过程简单易行,从而提高图像复杂度分析模型的训练效率和准确性。
本实施例一个可选的实施方式中,可以基于样本图像的真实值与预测值之间的差距,对图像复杂度分析模型和分类模型进行训练,也即基于样本图像集包括的各个样本图像,对初始的图像复杂度分析模型和分类模型进行训练,具体实现过程可以如下:
将样本图像集包括的各个样本图像输入初始的图像复杂度分析模型,获得各个样本图像对应的预测特征复杂度;
将各个样本图像对应的预测特征复杂度输入初始的分类模型,获得各个样本图像对应的预测图像复杂度;
根据各个样本图像对应的预测图像复杂度和图像复杂度标签,计算损失值,基于损失值调整初始的图像复杂度分析模型和分类模型中的模型参数。
其中,图像复杂度标签是指基于图像复杂度分析模型和分类模型想要得到的复杂度,即真实值;预测图像复杂度是指输入样本图像后,初始的图像复杂度分析模型和分类模型输出的复杂度,即预测值。
需要说明的是,针对样本图像集中包括的每个样本图像,将该样本图像输入初始的图像复杂度分析模型,可以获得该样本图像对应的预测特征复杂度,将该预测特征复杂度输入初始的分类模型,可以获得该样本图像对应的预测图像复杂度,基于该样本图像对应的预测图像复杂度和图像复杂度标签,可以计算真实值和预测值之间的损失值,基于该损失值可以调整初始的图像复杂度分析模型和分类模型中的模型参数。
实际应用中,计算真实值和预测值之间的损失值的方法有很多,常用的如交叉熵损失函数。具体的,可以基于预测图像复杂度和图像复杂度标签计算交叉熵损失函数,生成损失值,在损失值足够小时,说明预测结果和真实结果之间的差值足够小时,预测结果足够接近真实结果,此时图像复杂度分析模型和分类模型训练完成。
本说明书实施例中通过计算损失值可以直观的示出初始的图像复杂度分析模型和分类模型的预测结果(预测图像复杂度)与真实结果(图像复杂度标签)之间的差异,再对初始的图像复杂度分析模型和分类模型进行针对性训练,调整参数,可以有效提高模型训练的速率及模型训练的效果。
本实施例一个可选的实施方式中,可以基于预设阈值和预设迭代次数,来确定是否达到训练停止条件,也即达到训练停止条件可以包括:
判断损失值是否小于预设损失阈值,若是,则确定达到训练停止条件;或者,
判断迭代次数是否超过预设次数阈值,若是,则确定达到训练停止条件。
需要说明的是,预设损失阈值为损失值的临界值,在损失值大于或等于预设损失阈值的情况下,说明初始的图像复杂度分析模型和分类模型的预测结果与真实结果之间仍存在一定偏差,仍需调整初始的图像复杂度分析模型和分类模型的参数,并继续获取样本图像集继续进行训练;在损失值小于预设损失阈值的情况下,说明初始的图像复杂度分析模型和分类模型的预测结果与真实结果的接近程度已经足够,可以停止训练。其中,预设损失阈值的数值可以根据实际情况确定,本说明书对此不做限制。
另外,预设次数阈值为预先设置的、模型可能收敛的迭代次数,在迭代次数小于预设次数阈值的情况下,说明训练迭代的次数还未达标,初始的图像复杂度分析模型和分类模型未收敛,还未能准确预测输入的样本图像的图像复杂度,仍需继续获取样本图像集继续进行迭代训练;在迭代次数达到预设次数阈值的情况下,说明初始的图像复杂度分析模型和分类模型已经收敛,可以停止训练。其中,预设次数阈值的数值可以根据实际情况确定,本说明书对此不做限制。
实际应用中,为了提高模型训练的准确度,也可以同时结合损失阈值和次数阈值,确定是否达到训练停止条件。具体的,可以先确定损失值是否小于预设损失阈值,若小于,则确定达到训练停止条件;若大于,则确定迭代次数是否达到预设次数阈值,若达到,则确定达到训练停止条件,若未达到,则确定未达到训练停止条件,继续进行训练。
本说明书实施例中,可以根据损失值或者迭代次数,判断初始的图像复杂度分析模型和分类模型的具体训练情况,并在训练未合格的情况下根据损失值反向调整初始的图像复杂度分析模型和分类模型的参数,以提高初始的图像复杂度分析模型和分类模型的分析能力,训练速率高,且训练效果好。
本实施例一个可选的实施方式中,还可以基于验证图像集验证模型是否训练完成,即通过验证图像集确定是否达到训练停止条件,也即达到训练停止条件还可以包括:
获取验证图像集,验证图像集中包括至少一个验证图像,每个验证图像携带图像复杂度标签;
将验证图像集包括的各个验证图像输入图像复杂度分析模型,获得各个验证图像对应的预测特征复杂度;
将各个验证图像对应的预测特征复杂度输入分类模型,获得各个验证图像对应的预测图像复杂度;
根据各个验证图像对应的预测图像复杂度和图像复杂度标签,确定预测准确度,在预测准确度大于准确度阈值的情况下,确定达到训练停止条件。
其中,验证图像集用于验证模型的准确率。图像复杂度标签是指基于图像复杂度分析模型和分类模型想要得到的复杂度,即真实值;预测图像复杂度是指输入验证图像后,初始的图像复杂度分析模型和分类模型输出的复杂度,即预测值。准确度阈值可以是指预先设置的、用于判断初始的图像复杂度分析模型和分类模型对于输入验证图像的识别准确度的数值,如95%、99%等。
需要说明的是,一个样本图像集中可以包括多张样本图像,在将该样本图像集中的部分或全部输入至初始的图像复杂度分析模型和分类模型中进行训练后,还可以获取验证图像集,将验证图像集包括的各个验证图像输入图像复杂度分析模型,获得各个验证图像对应的预测特征复杂度,之后再将各个验证图像对应的预测特征复杂度输入分类模型,即可获得各个验证图像对应的预测图像复杂度。根据各个验证图像对应的预测图像复杂度和图像复杂度标签,可以确定预测准确度,在预测准确度大于准确度阈值的情况下,说明初始的图像复杂度分析模型和分类模型已经可以准确识别输入图像的复杂度,此时确定达到训练停止条件,训练完成。
实际应用中,根据各个验证图像对应的预测图像复杂度和图像复杂度标签,确定预测准确度时,可以确定各个验证图像中预测图像复杂度和图像复杂度标签相同的验证正确图像个数,将该验证正确图像个数除以验证图像集中的图像总个数,可以获得预测准确度。
本说明书实施例中可以基于验证图像集,计算初始的图像复杂度分析模型和分类模型对于输入图像的预测准确度,在该预测准确度大于准确度阈值的情况下,说明初始的图像复杂度分析模型和分类模型的识别准确度已经达标,确定达到训练停止条件,获得训练完成的图像复杂度分析模型,结合验证图像集验证模型的训练结果,以进一步保证训练完成的图像复杂度分析模型和分类模型可以准确识别输入图像的复杂度。
实际应用中,也可以同时结合损失阈值、迭代次数和验证图像集,确定是否达到训练停止条件,从而多重保证训练得到的模型的识别准确度。具体的,可以先确定各个样本图像对应的预测图像复杂度和图像复杂度标签之间的损失值是否小于预设损失阈值,若小于,则确定达到初始训练停止条件;若大于,则确定迭代次数是否达到预设次数阈值,若达到,则确定达到初始训练停止条件,若未达到,则确定未达到初始训练停止条件,继续进行训练。
在确定达到初始训练停止条件后,获取验证图像集,将验证图像集包括的各个验证图像输入图像复杂度分析模型,获得各个验证图像对应的预测特征复杂度,然后将各个验证图像对应的预测特征复杂度输入分类模型,获得各个验证图像对应的预测图像复杂度;之后,根据各个验证图像对应的预测图像复杂度和图像复杂度标签,确定预测准确度,在预测准确度不大于准确度阈值的情况下,确定未达到最终训练停止条件,继续获取样本图像集进行训练;在预测准确度大于准确度阈值的情况下,确定达到最终训练停止条件,训练完成。
一种可能的实现方式中,可以预先获取一批图像数据,将该图像数据的第一比例作为样本图像,第二比例作为验证图像,其中第一比例和第二比例可以预先设置、第一比例设置的大于第二比例,且第一比例和第二比例和为1,如第一比例为80%,第二比例为20%。
另外,为了提高模型识别输入图像的准确性,获取该一批图像之后,还可以对该批图像中包括的各个图像先进行尺寸处理,将各个图像处理为目标尺寸的图像,其中,该目标尺寸可以是指图像复杂度分析模型可以接收、识别的图像大小。之后,再将目标尺寸的各个图像划分为样本图像集和验证图像集,对初始的图像复杂度分析模型和分类模型进行训练。
再者,由于在训练初始的图像复杂度分析模型和分类模型时,对输入图像的尺寸进行了处理,那么在获取待编码视频帧,将待编码视频帧输入图像复杂度分析模型之前,也可以对待编码视频帧进行尺寸处理,将待编码视频帧处理为目标尺寸的视频帧,再输入至图像复杂度分析模型中进行分析处理。
步骤104:根据内容特征复杂度,确定待编码视频帧的帧复杂度。
具体的,将待编码视频帧输入图像复杂度分析模型,获得待编码视频帧的内容特征复杂度的基础上,进一步地,可以根据内容特征复杂度,确定待编码视频帧的帧复杂度。
需要说明的是,图像复杂度分析模型输出的内容特征复杂度是一组特征值,该组特征值中包括的各个特征可以表征待编码视频帧的帧复杂度,每个特征的特征值代表该特征的复杂度,因而基于内容特征复杂度的一组特征值,可以确定待编码视频帧的帧复杂度。
本实施例一个可选的实施方式中,根据内容特征复杂度,确定待编码视频帧的帧复杂度,具体实现过程可以如下:
确定内容特征复杂度中各个特征对应的复杂度的平均值;
将平均值作为待编码视频帧的帧复杂度。
需要说明的是,内容特征复杂度是一组特征值,可以对该组特征值求平均值,将该平均值作为待编码视频帧的帧复杂度。
沿用上例,内容特征复杂度IC(X0,X1,X2,X3,X4,X5,X6,X7,X8,X9),此时待编码视频帧的帧复杂度为(X0+X1+X2+X3+X4+X5+X6+X7+X8+X9)/10。
本说明书实施例中可以通过训练完成的图像复杂度分析模型,获得待编码视频帧中能够表征其帧复杂度的至少一个特征对应的复杂度,然后基于至少一个特征对应的复杂度确定出待编码视频帧的平均复杂度,避免了确定待编码视频帧的复杂度时对于其他帧以及先验知识的依赖,提升了编码帧复杂度判断的精确度,为后续码率控制提供更有效的信息,在同等SSIM和PSNR下能够节省视频编码的码率,同时在码率控制领域有较好的普适性。
进一步地,还可以通过Adam优化算法进行图像复杂度分析模型和分类模型的优化,迭代训练图像复杂度分析模型和分类模型,直到准确率准确率阈值。其中,Adam优化算法可以替代随机梯度下降法,更有效的更新网络权重,Adam优化算法可以使用动量和自适应学习率来加快模型收敛速度。
步骤106:根据待编码视频帧的帧复杂度,对待编码视频帧进行编码。
具体的,根据内容特征复杂度,确定待编码视频帧的帧复杂度的基础上,进一步地,可以根据待编码视频帧的帧复杂度,对待编码视频帧进行编码。
需要说明的是,在码率控制方法中,通常需要分析和判断当前帧的复杂度,进而指导视频编码的码率分配,降低整体码率,提高主观质量,因而在确定出待编码视频帧的帧复杂度后,便可以为码率分配提供参考依据,即可以基于待编码视频帧的帧复杂度,对待编码视频帧进行编码。
本实施例一个可选的实施方式中,根据待编码视频帧的帧复杂度,对待编码视频帧进行编码,具体实现过程可以如下:
根据预设帧复杂度和编码参数信息之间的对应关系,确定待编码视频帧的帧复杂度对应的目标编码参数信息;
根据目标编码参数信息对待编码视频帧进行编码。
需要说明的是,可以预先针对不同的复杂度设置对应的编码参数信息,使得不同的复杂度可以对应有不同的编码参数信息。在确定出待编码视频帧的帧复杂度后,可以基于该对应关系确定出对应的目标编码参数信息,基于该对应的目标编码参数信息对待编码视频帧进行编码。其中,编码参数信息可以为对视频帧进行编码时使用的采用,如码率分配信息等。
本说明书提供的视频编码方法,可以基于预先训练好的图像复杂度分析模型,分析获得待编码视频帧的内容特征复杂度,该内容特征复杂度可以为能够表征待编码视频帧的帧复杂度的各个特征的复杂度,后续基于该内容特征复杂度,即可确定待编码视频帧的帧复杂度,并对视频进行编码。如此,能够在不依赖先验知识和前后帧的情况下,独立确定待编码视频帧的帧复杂度,对于不同的任务又有较好的普适性,对简单场景和复杂场景均有较强的的区分能力,从而可以为码率控制提供更准确有效的复杂度信息,提升了编码帧复杂度判断的精确度,在同等视频质量的情况下可以节省视频编码的码率,在码率控制领域有较好的普适性。
图2示出了本说明书一实施例提供的另一种视频编码方法的流程图,具体包括以下步骤:
步骤202:准备训练集。
其中,该训练集包括样本图像集和验证图像集,样本图像集用于对残差网络和感知机进行训练,验证图像集用于验证残差网络和感知机的识别准确度。
步骤204:搭建并训练残差网络。
需要说明的是,在训练残差网络时,结合感知机共同训练。
步骤206:将待编码视频帧输入训练好的残差网络中,获得待编码视频帧的内容特征复杂度,基于内容特征复杂度,确定待编码视频帧的帧复杂度。
步骤208:根据待编码视频帧的帧复杂度,对待编码视频帧进行编码。
本说明书提供的视频编码方法,可以基于预先训练好的残差网络,分析获得待编码视频帧的内容特征复杂度,该内容特征复杂度可以为能够表征待编码视频帧的帧复杂度的各个特征的复杂度,后续基于该内容特征复杂度,即可确定待编码视频帧的帧复杂度,并对视频进行编码。如此,能够在不依赖先验知识和前后帧的情况下,独立确定待编码视频帧的帧复杂度,对于不同的任务又有较好的普适性,对简单场景和复杂场景均有较强的的区分能力,从而可以为码率控制提供更准确有效的复杂度信息,提升了编码帧复杂度判断的精确度,在同等视频质量的情况下可以节省视频编码的码率,在码率控制领域有较好的普适性。
图3示出了本说明书一实施例提供的一种图像复杂度分析模型的训练方法的流程图,具体包括以下步骤:
步骤302:获取一批图片数据,将获取到的图片依据内容复杂度进行人工区分,分为简单和复杂两类,作为样本标签。
步骤304:将所有图像的尺寸处理到224*224*3的大小。
步骤306:随机抽取获取到的图片中的80%作为训练集,20%作为验证集,用于后续训练和验证。
步骤308:将训练集中的各个样本图像输入残差网络,获得各个样本图像对应的预测特征复杂度,将各个样本图像的预测特征复杂度输入感知机中进行分类,获得各个样本图像对应的预测图像复杂度,基于各个样本图像对应的预测图像复杂度和样本标签,对残差网络和感知机进行训练。
步骤310:将验证集中的各个验证图像输入残差网络,获得各个验证图像对应的预测特征复杂度,将各个验证图像的预测特征复杂度输入感知机中进行分类,获得各个验证图像对应的预测图像复杂度,基于各个验证图像对应的预测图像复杂度和样本标签,确定残差网络和感知机的分类准确度。
步骤312:判断分类准确度是否超过99%。
若是,则执行步骤314,若否,则返回执行302,继续获取图像进行训练。
步骤314:结束训练。
本说明书实施例中可以基于训练集对残差网络和感知机进行训练,基于验证集,计算残差网络和感知机对于输入图像的预测准确度,在该预测准确度大于99%的情况下,说明残差网络和感知机的识别准确度已经达标,确定达到训练结束,获得训练完成的残差网络,结合训练集和验证集,保证了训练完成的残差网络和感知机可以准确识别输入图像的复杂度。
与上述方法实施例相对应,本说明书还提供了视频编码装置实施例,图4示出了本说明书一实施例提供的一种视频编码装置的结构示意图。如图4所示,该装置包括:
输入模块402,被配置为将待编码视频帧输入图像复杂度分析模型,获得待编码视频帧的内容特征复杂度,其中,内容特征复杂度包括至少一个特征对应的复杂度,至少一个特征为表征待编码视频帧的帧复杂度的特征;
确定模块404,被配置为根据内容特征复杂度,确定待编码视频帧的帧复杂度;
编码模块406,被配置为根据待编码视频帧的帧复杂度,对待编码视频帧进行编码。
可选地,确定模块404进一步被配置为:
确定内容特征复杂度中各个特征对应的复杂度的平均值;
将平均值作为待编码视频帧的帧复杂度。
可选地,编码模块406进一步被配置为:
根据预设帧复杂度和编码参数信息之间的对应关系,确定待编码视频帧的帧复杂度对应的目标编码参数信息;
根据目标编码参数信息对待编码视频帧进行编码。
可选地,该装置还包括训练模块,被配置为:
获取样本图像集,样本图像集中包括至少一个样本图像,每个样本图像携带图像复杂度标签;
基于样本图像集包括的各个样本图像,对初始的图像复杂度分析模型和分类模型进行训练,并返回执行获取样本图像集的操作步骤,直至达到训练停止条件,获得训练完成的图像复杂度分析模型。
可选地,训练模块进一步被配置为:
将样本图像集包括的各个样本图像输入初始的图像复杂度分析模型,获得各个样本图像对应的预测特征复杂度;
将各个样本图像对应的预测特征复杂度输入初始的分类模型,获得各个样本图像对应的预测图像复杂度;
根据各个样本图像对应的预测图像复杂度和图像复杂度标签,计算损失值,基于损失值调整初始的图像复杂度分析模型和分类模型中的模型参数。
可选地,训练模块进一步被配置为:
获取验证图像集,验证图像集中包括至少一个验证图像,每个验证图像携带图像复杂度标签;
将验证图像集包括的各个验证图像输入图像复杂度分析模型,获得各个验证图像对应的预测特征复杂度;
将各个验证图像对应的预测特征复杂度输入分类模型,获得各个验证图像对应的预测图像复杂度;
根据各个验证图像对应的预测图像复杂度和图像复杂度标签,确定预测准确度,在预测准确度大于准确度阈值的情况下,确定达到训练停止条件。
可选地,训练模块进一步被配置为:
判断损失值是否小于预设损失阈值,若是,则确定达到训练停止条件;或者,
判断迭代次数是否超过预设次数阈值,若是,则确定达到训练停止条件。
本说明书提供的视频编码装置,可以基于预先训练好的图像复杂度分析模型,分析获得待编码视频帧的内容特征复杂度,该内容特征复杂度可以为能够表征待编码视频帧的帧复杂度的各个特征的复杂度,后续基于该内容特征复杂度,即可确定待编码视频帧的帧复杂度,并对视频进行编码。如此,能够在不依赖先验知识和前后帧的情况下,独立确定待编码视频帧的帧复杂度,对于不同的任务又有较好的普适性,对简单场景和复杂场景均有较强的的区分能力,从而可以为码率控制提供更准确有效的复杂度信息,提升了编码帧复杂度判断的精确度,在同等视频质量的情况下可以节省视频编码的码率,在码率控制领域有较好的普适性。
上述为本实施例的一种视频编码装置的示意性方案。需要说明的是,该视频编码装置的技术方案与上述的视频编码方法的技术方案属于同一构思,视频编码装置的技术方案未详细描述的细节内容,均可以参见上述视频编码方法的技术方案的描述。
图5示出了根据本说明书一实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接,数据库550用于保存数据。
计算设备500还包括接入设备540,接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图5所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备500可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。
其中,处理器520用于执行如下计算机可执行指令,以实现下述方法:
将待编码视频帧输入图像复杂度分析模型,获得待编码视频帧的内容特征复杂度,其中,内容特征复杂度包括至少一个特征对应的复杂度,至少一个特征为表征待编码视频帧的帧复杂度的特征;
根据内容特征复杂度,确定待编码视频帧的帧复杂度;
根据待编码视频帧的帧复杂度,对待编码视频帧进行编码。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的视频编码方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述视频编码方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于实现视频编码方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的视频编码方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述视频编码方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
计算机指令包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (10)

1.一种视频编码方法,其特征在于,所述方法包括:
将待编码视频帧输入图像复杂度分析模型,获得所述待编码视频帧的内容特征复杂度,其中,所述内容特征复杂度包括至少一个特征对应的复杂度,所述至少一个特征为表征所述待编码视频帧的帧复杂度的特征;
根据所述内容特征复杂度,确定所述待编码视频帧的帧复杂度;
根据所述待编码视频帧的帧复杂度,对所述待编码视频帧进行编码。
2.根据权利要求1所述的视频编码方法,其特征在于,所述根据所述内容特征复杂度,确定所述待编码视频帧的帧复杂度,包括:
确定所述内容特征复杂度中各个特征对应的复杂度的平均值;
将所述平均值作为所述待编码视频帧的帧复杂度。
3.根据权利要求1所述的视频编码方法,其特征在于,所述根据所述待编码视频帧的帧复杂度,对所述待编码视频帧进行编码,包括:
根据预设帧复杂度和编码参数信息之间的对应关系,确定所述待编码视频帧的帧复杂度对应的目标编码参数信息;
根据所述目标编码参数信息对所述待编码视频帧进行编码。
4.根据权利要求1-3任一项所述的视频编码方法,其特征在于,所述图像复杂度分析模型通过如下方法训练得到:
获取样本图像集,所述样本图像集中包括至少一个样本图像,每个所述样本图像携带图像复杂度标签;
基于所述样本图像集包括的各个样本图像,对初始的图像复杂度分析模型和分类模型进行训练,并返回执行所述获取样本图像集的操作步骤,直至达到训练停止条件,获得训练完成的图像复杂度分析模型。
5.根据权利要求4所述的视频编码方法,其特征在于,所述基于所述样本图像集包括的各个样本图像,对初始的图像复杂度分析模型和分类模型进行训练,包括:
将所述样本图像集包括的各个样本图像输入初始的图像复杂度分析模型,获得所述各个样本图像对应的预测特征复杂度;
将所述各个样本图像对应的预测特征复杂度输入初始的分类模型,获得所述各个样本图像对应的预测图像复杂度;
根据所述各个样本图像对应的预测图像复杂度和所述图像复杂度标签,计算损失值,基于所述损失值调整所述初始的图像复杂度分析模型和分类模型中的模型参数。
6.根据权利要求4所述的视频编码方法,其特征在于,所述达到训练停止条件,包括:
获取验证图像集,所述验证图像集中包括至少一个验证图像,每个所述验证图像携带图像复杂度标签;
将所述验证图像集包括的各个验证图像输入所述图像复杂度分析模型,获得所述各个验证图像对应的预测特征复杂度;
将所述各个验证图像对应的预测特征复杂度输入所述分类模型,获得所述各个验证图像对应的预测图像复杂度;
根据所述各个验证图像对应的预测图像复杂度和所述图像复杂度标签,确定预测准确度,在所述预测准确度大于准确度阈值的情况下,确定达到训练停止条件。
7.根据权利要求5所述的视频编码方法,其特征在于,所述达到训练停止条件包括:
判断所述损失值是否小于预设损失阈值,若是,则确定达到训练停止条件;或者,
判断迭代次数是否超过预设次数阈值,若是,则确定达到训练停止条件。
8.一种视频编码装置,其特征在于,所述装置包括:
输入模块,被配置为将待编码视频帧输入图像复杂度分析模型,获得所述待编码视频帧的内容特征复杂度,其中,所述内容特征复杂度包括至少一个特征对应的复杂度,所述至少一个特征为表征所述待编码视频帧的帧复杂度的特征;
确定模块,被配置为根据所述内容特征复杂度,确定所述待编码视频帧的帧复杂度;
编码模块,被配置为根据所述待编码视频帧的帧复杂度,对所述待编码视频帧进行编码。
9.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现下述方法:
将待编码视频帧输入图像复杂度分析模型,获得所述待编码视频帧的内容特征复杂度,其中,所述内容特征复杂度包括至少一个特征对应的复杂度,所述至少一个特征为表征所述待编码视频帧的帧复杂度的特征;
根据所述内容特征复杂度,确定所述待编码视频帧的帧复杂度;
根据所述待编码视频帧的帧复杂度,对所述待编码视频帧进行编码。
10.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求1至7任意一项所述视频编码方法的步骤。
CN202111363998.8A 2021-11-17 2021-11-17 视频编码方法及装置 Pending CN116156175A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111363998.8A CN116156175A (zh) 2021-11-17 2021-11-17 视频编码方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111363998.8A CN116156175A (zh) 2021-11-17 2021-11-17 视频编码方法及装置

Publications (1)

Publication Number Publication Date
CN116156175A true CN116156175A (zh) 2023-05-23

Family

ID=86354799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111363998.8A Pending CN116156175A (zh) 2021-11-17 2021-11-17 视频编码方法及装置

Country Status (1)

Country Link
CN (1) CN116156175A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118264798A (zh) * 2024-05-31 2024-06-28 摩尔线程智能科技(北京)有限责任公司 一种视频编码方法及装置、电子设备和存储介质
CN118264798B (zh) * 2024-05-31 2024-09-06 摩尔线程智能科技(北京)有限责任公司 一种视频编码方法及装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118264798A (zh) * 2024-05-31 2024-06-28 摩尔线程智能科技(北京)有限责任公司 一种视频编码方法及装置、电子设备和存储介质
CN118264798B (zh) * 2024-05-31 2024-09-06 摩尔线程智能科技(北京)有限责任公司 一种视频编码方法及装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN111868751B (zh) 在视频代码化的机器学习模型中使用应用于量化参数的非线性函数
US10812813B2 (en) Multi-level machine learning-based early termination in partition search for video coding
US20210051322A1 (en) Receptive-field-conforming convolutional models for video coding
CN110139109B (zh) 图像的编码方法及相应终端
KR101528895B1 (ko) 관심 특성 색 모델 변수의 적응성 추정을 위한 방법 및 장치
EP3942475B1 (en) Using rate distortion cost as a loss function for deep learning
CN110198444B (zh) 视频帧编码方法、视频帧编码设备及具有存储功能的装置
WO2023207205A1 (zh) 视频编码方法及装置
CN111970509B (zh) 一种视频图像的处理方法、装置与系统
EP3849180A1 (en) Encoding or decoding data for dynamic task switching
WO2009124489A1 (zh) 视频编码处理方法、系统及装置
CN110996101A (zh) 一种视频编码的方法和装置
CN113301340A (zh) 一种编码参数确定方法、视频传送方法和装置
CN113660488B (zh) 对多媒体数据进行流控及流控模型训练方法、以及装置
Chen et al. CNN-optimized image compression with uncertainty based resource allocation
CN115546236B (zh) 基于小波变换的图像分割方法及装置
CN116156175A (zh) 视频编码方法及装置
CN115228081A (zh) 虚拟场景切换方法及装置
CN114004974A (zh) 对弱光环境下拍摄的图像的优化方法及装置
CN110062237B (zh) 视频编码的帧内编码模式选择方法和装置
Xu et al. Rank learning on training set selection and image quality assessment
Chao Feature-preserving image and video compression.
CN117459732B (zh) 视频编码方法、装置、设备、可读存储介质及程序产品
CN117831125A (zh) 识别结果的确定方法及装置、存储介质及电子装置
CN114071164A (zh) 图像压缩模型的训练方法及装置、图像压缩方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination