CN112399177A - 一种视频编码方法、装置、计算机设备及存储介质 - Google Patents

一种视频编码方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112399177A
CN112399177A CN202011289058.4A CN202011289058A CN112399177A CN 112399177 A CN112399177 A CN 112399177A CN 202011289058 A CN202011289058 A CN 202011289058A CN 112399177 A CN112399177 A CN 112399177A
Authority
CN
China
Prior art keywords
video
model
coded
rate
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011289058.4A
Other languages
English (en)
Other versions
CN112399177B (zh
Inventor
王妙辉
张家麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202011289058.4A priority Critical patent/CN112399177B/zh
Publication of CN112399177A publication Critical patent/CN112399177A/zh
Application granted granted Critical
Publication of CN112399177B publication Critical patent/CN112399177B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明实施例公开了一种视频编码方法、装置、计算机设备及存储介质。该方法包括:获取待编码视频帧以及对应的信息特征,信息特征包括分辨率、帧率、预算码率以及色彩信息;利用预设滤波核对待编码视频帧的内容特征进行提取,内容特征包括能量特征、强度特征、形状特征以及平滑性特征;将由信息特征和内容特征定义的输入特征输入训练好的学习模型中,以对预设率失真关系模型的模型参数进行预测;根据配置了预测产生的模型参数的预设率失真关系模型对待编码视频帧进行编码。本发明实施例所提供的技术方案,避免了大量资源的消耗以及对硬件和网络的负担,优化了视频编码中的率失真性能,从而提升了视频编码的效率。

Description

一种视频编码方法、装置、计算机设备及存储介质
技术领域
本发明实施例涉及视频编码技术领域,尤其涉及一种视频编码方法、装置、计算机设备及存储介质。
背景技术
视频编码的性能通常由编码所使用的码率和编码后的失真两者作为衡量指标。编码所使用的码率和失真是一组相互制衡的组合,若降低使用码率往往就会增加视频的失真度,相反的,如果想要获得质量更好的视频,则需要增加编码视频的码率。这种失真和编码所用比特率之间的关系即为率失真关系。对于率失真关系的优化问题而言,就是在给定编码比特率的条件下,如何使编码视频的失真最小,或者说在保证编码比特率不超过最大比特率的条件下,如何使编码视频的失真最小。
在现有的视频编码标准技术中,通常视频在编码之后,根据所使用的码率以及编码后产生的失真来获得自身的率失真关系。而在编码过程中会使用到一些技术,如编码块分割、预测模式选择以及运动估计等等,再通过多次编码后计算消耗最小的率失真开销来决定视频编码所使用的策略。这一过程会消耗大量的时间以及计算资源,给硬件与网络增加了负担。
发明内容
本发明实施例提供一种视频编码方法、装置、计算机设备及存储介质,以优化视频编码中的率失真性能,从而提升视频编码的效率,同时减少所需消耗的资源,降低设备负担。
第一方面,本发明实施例提供了一种视频编码方法,该方法包括:
获取待编码视频帧以及对应的信息特征,所述信息特征包括分辨率、帧率、预算码率以及色彩信息;
利用预设滤波核对所述待编码视频帧的内容特征进行提取,所述内容特征包括能量特征、强度特征、形状特征以及平滑性特征;
将由所述信息特征和所述内容特征定义的输入特征输入训练好的学习模型中,以对预设率失真关系模型的模型参数进行预测;
根据配置了预测产生的所述模型参数的所述预设率失真关系模型对所述待编码视频帧进行编码。
第二方面,本发明实施例还提供了一种视频编码装置,该装置包括:
信息特征获取模块,用于获取待编码视频帧以及对应的信息特征,所述信息特征包括分辨率、帧率、预算码率以及色彩信息;
内容特征提取模块,用于利用预设滤波核对所述待编码视频帧的内容特征进行提取,所述内容特征包括能量特征、强度特征、形状特征以及平滑性特征;
模型参数预测模块,用于将由所述信息特征和所述内容特征定义的输入特征输入训练好的学习模型中,以对预设率失真关系模型的模型参数进行预测;
编码模块,用于根据配置了预测产生的所述模型参数的所述预设率失真关系模型对所述待编码视频帧进行编码。
第三方面,本发明实施例还提供了一种计算机设备,该计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的视频编码方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所提供的视频编码方法。
本发明实施例提供了一种视频编码方法,首先获取待编码视频帧及其对应的信息特征,如分辨率、帧率、预算码率以及色彩信息等等,再利用预设滤波核对待编码视频帧的能量特征、强度特征、形状特征以及平滑性特征等内容特征进行提取,然后将由信息特征和内容特征定义的输入特征输入训练好的学习模型中,并预测得到预设率失真关系模型的模型参数,最后即可根据配置了预测产生的模型参数的预设率失真关系模型对待编码视频帧进行编码。本发明实施例所提供的技术方案,通过使用学习模型对率失真关系进行预测,避免了通过实际编码后计算的方式来确定率失真关系的过程,从而避免了大量资源的消耗以及对硬件和网络的负担,同时通过分析视频的内容特征,再结合视频自身的其他特征来完成率失真关系模型的模型参数的预测,优化了视频编码中的率失真性能,从而提升了视频编码的效率。
附图说明
图1为本发明实施例一提供的视频编码方法的流程图;
图2为本发明实施例二提供的视频编码方法的流程图;
图3为本发明实施例三提供的视频编码装置的结构示意图;
图4为本发明实施例四提供的计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一提供的视频编码方法的流程图。本实施例可适用于对各个场景的视频进行优化编码的情况,该方法可以由本发明实施例提供的视频编码装置来执行,该装置可以由硬件和/或软件的方式来实现,一般可集成于计算机设备中。如图1所示,具体包括如下步骤:
S11、获取待编码视频帧以及对应的信息特征,信息特征包括分辨率、帧率、预算码率以及色彩信息。
具体的,在进行视频编码的过程中,可以逐个的对视频中的每个视频帧进行编码,当一个视频帧输入进行编码时,该视频帧即为待编码视频帧。在获取到待编码视频帧的同时,还可以获取待编码视频帧视频自身的信息特征,其中的信息特征可以包括分辨率、帧率、预算码率以及色彩信息等等。
S12、利用预设滤波核对待编码视频帧的内容特征进行提取,内容特征包括能量特征、强度特征、形状特征以及平滑性特征。
具体的,当开始对待编码视频帧进行编码时,首先可以对待编码视频帧的内容特征进行提取,以便通过分析待编码视频帧的内容特性来实现对率失真关系的预测。具体可以先根据预设滤波核对待编码视频帧进行卷积操作,以获得可以表示图像轮廓特征的特征矩阵,再根据特征矩阵来确定待编码视频帧的内容特征。
可选的,预设滤波核包括对应三种尺度以及三种角度的九个滤波核,三种尺度的尺度因子设置为1、2和4,三种角度设置为0度、45度和90度。具体的,利用不同尺度以及不同角度的九个滤波核可以提取待编码视频帧在不同尺度以及不同角度下对应的多个轮廓特征,以对待编码视频帧内容特性进行更加准确且全面的分析,具体可以通过将该九个滤波核分别对待编码视频帧进行卷积操作来实现。其中,可选的,九个滤波核的尺寸均可以是5×5,卷积操作过程可以如下所示:
Figure BDA0002783316700000051
其中,Fm(k,θ)表示卷积操作后得到的在θ方向上尺度为k的特征矩阵,I表示输入的待编码视频帧,
Figure BDA0002783316700000052
表示待编码视频帧的亮度平均值,f(k,θ)表示在θ方向上尺度为k的滤波核,k的取值即可以包括1、2和4,θ的取值即可以包括0度、45度和90度,ω6表示第六调节系数,具体可以设置为2.20,据此即可以得到对应的九个特征矩阵。
进一步可选的,利用预设滤波核对待编码视频帧的内容特征进行提取,内容特征包括能量特征、强度特征、形状特征以及平滑性特征,包括:将九个滤波核分别与待编码视频帧进行卷积操作,得到不同尺度以及不同方向的九个特征矩阵;根据九个特征矩阵以及第一公式确定能量特征,第一公式为:
Figure BDA0002783316700000061
其中,F1表示能量特征,Fm(i,j,k,θ)表示尺度因子为k且在θ方向上的特征矩阵中位置为(i,j)的灰度值,S表示尺度因子k的值域,即S=[1,2,4],X表示方向θ的值域,即X=[0°,45°,90°],N表示所述待编码视频帧的像素数量,ω1表示第一调节系数,具体可以设置为1.27,ω2表示第二调节系数,具体可以设置为10,ω3表示第三调节系数,具体可以设置为1.03;
根据九个特征矩阵以及第二公式确定强度特征,第二公式为:
Figure BDA0002783316700000062
其中,F2表示强度特征,k1、k2和k3分别表示尺度因子的三种取值,ω4表示第四调节系数,具体可以设置为0.027;
根据九个特征矩阵以及第三公式确定形状特征,第三公式为:
Figure BDA0002783316700000063
其中,F3表示形状特征,θ1、θ2和θ3表示角度的三种取值,C1表示第一稳定系数,具体可以设置为439.9;
根据九个特征矩阵、第四公式以及第五公式确定平滑性特征,第四公式和第五公式分别为:
Figure BDA0002783316700000071
Figure BDA0002783316700000072
其中,Fv(k,θ)表示待编码视频帧对应的尺度因子为k且在θ方向上的平滑性特征,
Figure BDA0002783316700000073
表示尺度因子为k且在θ方向上的特征矩阵的平均值,ω5表示第五调节系数,具体可以设置为0.73,α1表示第一正比例因子,具体可以设置为2,F4表示待编码视频帧在三种尺度以及三种角度上的平滑性特征。
具体的,在得到九个不同尺度以及不同方向的九个特征矩阵之后,即可根据这九个特征矩阵来确定待编码视频帧的各个内容特征的值。其中,能量特征可以反映待编码视频帧多尺度多方向的能量信息,强度特征可以反映待编码视频帧多尺度多方向的强度信息,形状特征可以反映待编码视频帧多尺度多方向的形状信息,平滑性特征可以反映待编码视频帧多尺度多方向的平滑程度。
S13、将由信息特征和内容特征定义的输入特征输入训练好的学习模型中,以对预设率失真关系模型的模型参数进行预测。
其中,率失真关系即失真与编码码率之间的关系,通过优化率失真关系,可以在给定编码码率的条件下使得失真最小,从而使编码过程更优。可选的,预设率失真关系模型为:
D(R)=(a×e-(b×R)+c)×log(d)
其中,D表示编码失真,R表示编码码率,a、b、c和d表示模型参数。具体的,首先建立预设率失真关系模型,可以选用如上述公式所示的一种双曲线关系对视频的率失真关系进行建模,其中的模型参数的值可以由视频内容来决定,不同的视频可以拥有不一样的模型参数,根据这一性质,可以通过一些能够表达视频内容特性的特征结合机器学习的方法来预测当前视频的率失真关系,具体即是预测模型参数a、b、c和d。
可选的,学习模型为多元随机森林回归模型;相应的,将由信息特征和内容特征定义的输入特征输入训练好的学习模型中,以对预设率失真关系模型的模型参数进行预测,包括:分别将输入特征输入训练好的学习模型中,以分别对模型参数a、b、c和d进行预测。具体的,由于对学习模型的训练要考虑到需要较低的计算复杂度和较高的预测精确度,因此可以选择多元随机森林回归模型(Multivariate Random Forest Regression)来完成预测操作,由于多元随机森林回归模型可以包括多个输出,所以可通过将输入特征输入到训练完成的多元随机森林回归模型分别完成对模型参数a、b、c和d的预测。将获取的信息特征和内容特征共同定义为输入特征输入到训练好的多元随机森林回归模型中,即可预测得到预设率失真关系模型的模型参数a、b、c和d。
在使用学习模型进行预测之前,首先对该学习模型进行训练和测试,训练和测试所用的数据库由HEVC的标准测试序列组成,其中,HEVC的标准测试序列有24个,按照分辨率或者内容特性可以分为6个种类。在本实施例中,可以从6个种类中分别选取1-2个序列,共12个序列作为训练数据,将剩余的序列作为测试序列,在这些序列中,可以选取前200视频帧作为训练数据集和测试数据集。然后针对训练数据集中的视频帧,分别选取对应的输入特征以及输出标签对学习模型进行训练。其中,输出标签即可以是上述的模型参数a、b、c和d,具体可以通过多量化参数编码视频的实验来获取不同量化参数值下编码视频消耗的编码码率和视频失真之间的关系,然后利用预设率失真关系模型对编码码率和视频失真之间的关系进行拟合,即可得到训练数据集中每个视频帧对应的输出标签。当选用多元随机森林回归模型时,基于训练数据集,选定好模型参数,即可训练得到准确的模型,可以通过这个方法设定输出标签来训练得到模型参数a、b、c和d。在完成训练后,还可以相同的模式使用测试数据集对学习模型进行测试,以对学习模型的参数进行校验和调整。
S14、根据配置了预测产生的模型参数的预设率失真关系模型对待编码视频帧进行编码。
具体的,在预测得到预设率失真关系模型的模型参数之后,将该模型参数配置到预设率失真关系模型中,即可根据该预设率失真关系模型对待编码视频帧进行编码。可选的,可以仅对当前编码的视频中至少一个视频帧执行模型参数的预测过程,并每执行一次便更新一次预设率失真关系模型,并在编码视频的过程中,保持使用当前最新的预设率失真关系模型进行编码。具体可以是仅对视频中第一个视频帧执行,也可以按照一定的周期来对当前输入的视频帧执行。优选的,由于视频中每个视频帧的特征不尽相同,可以对当前编码的视频中每个视频帧执行模型参数的预测过程,并针对每个视频帧均使用对应的预设率失真关系模型进行编码,从而可以更好的适应画面场景的切换。
本发明实施例所提供的技术方案,首先获取待编码视频帧及其对应的信息特征,如分辨率、帧率、预算码率以及色彩信息等等,再利用预设滤波核对待编码视频帧的能量特征、强度特征、形状特征以及平滑性特征等内容特征进行提取,然后将由信息特征和内容特征定义的输入特征输入训练好的学习模型中,并预测得到预设率失真关系模型的模型参数,最后即可根据配置了预测产生的模型参数的预设率失真关系模型对待编码视频帧进行编码。通过使用学习模型对率失真关系进行预测,避免了通过实际编码后计算的方式来确定率失真关系的过程,从而避免了大量资源的消耗以及对硬件和网络的负担,同时通过分析视频的内容特征,再结合视频自身的其他特征来完成率失真关系模型的模型参数的预测,优化了视频编码中的率失真性能,从而提升了视频编码的效率。
实施例二
图2为本发明实施例二提供的视频编码方法的流程图。本实施例的技术方案在上述技术方案的基础上进一步细化,可选的,可以通过对待编码视频帧按照场景类型进行分类,并将分类后确定的场景类型对应的场景信息也作为学习模型的输入特征来对模型参数进行预测,以进一步提高预测过程的准确率。具体的,本实施例中,在将由信息特征和内容特征定义的输入特征输入训练好的学习模型中,以对预设率失真关系模型的模型参数进行预测之前,还包括:将待编码视频帧输入训练好的卷积神经网络模型中,以对待编码视频帧所属的场景类型进行预测;根据场景类型确定对应的场景信息;相应的,输入特征还包括场景信息。相应的,如图2所示,具体可以包括如下步骤:
S21、获取待编码视频帧以及对应的信息特征,信息特征包括分辨率、帧率、预算码率以及色彩信息。
S22、利用预设滤波核对待编码视频帧的内容特征进行提取,内容特征包括能量特征、强度特征、形状特征以及平滑性特征。
S23、将待编码视频帧输入训练好的卷积神经网络模型中,以对待编码视频帧所属的场景类型进行预测。
具体的,当待编码视频帧输入进行编码时,可以将待编码视频帧输入训练好的卷积神经网络模型中,以预测待编码视频帧的场景类型。其中,从视频内容的角度可以将视频帧的场景类型划分为屏幕内容视频、用户生成内容视频、会议通讯视频以及自然场景视频等。通过场景类型的划分,可以在模型参数的预测过程中将其他场景下的特征筛选掉,从而仅针对待编码视频帧对应的场景类型对模型参数进行预测,提高了预测结果的准确性。
S24、根据场景类型确定对应的场景信息。
具体的,在确定了待编码视频帧的场景类型之后,可以根据场景类型与场景信息的对应关系确定待编码视频帧对应的场景信息,以便于将该场景信息也作为学习模型的输入特征来对模型参数进行预测。
可选的,场景信息包括场景类型对应的平均模型参数;相应的,在根据场景类型确定对应的场景信息之前,还包括:构建每个场景类型的视频数据库;对每个场景类型的视频数据进行编码,以确定每个视频数据的率失真关系;对每个场景类型下的所有率失真关系中的模型参数取平均值,以确定每个场景类型对应的平均模型参数。具体的,可以选取大量各个场景类型的视频素材构建各个场景类型的视频数据库,然后通过编码器对各个场景类型下的所有视频数据进行实际的编码过程,以获得每个视频数据实际的率失真关系,从而确定了对应的模型参数(具体即可以是上述实施例中的模型参数a、b、c和d),然后针对每个场景类型,对同一种模型参数分别取平均值,即可获得每个场景类型对应的平均模型参数,再将平均模型参数作为场景信息,从而也就获得了场景类型与场景信息的对应关系。
S25、将由信息特征、内容特征和场景信息定义的输入特征输入训练好的学习模型中,以对预设率失真关系模型的模型参数进行预测。
S26、根据配置了预测产生的模型参数的预设率失真关系模型对待编码视频帧进行编码。
本发明实施例所提供的技术方案,通过首先确定待编码视频帧的场景类型,并根据场景类型确定对应的场景信息,再将确定的场景信息一同作为学习模型的输入特征对预设率失真关系模型的模型参数进行预测,从而筛选掉了其他场景下的无用特征,并仅针对待编码视频帧对应的场景类型对模型参数进行预测,进一步提高了预测结果的准确性。
实施例三
图3为本发明实施例三提供的视频编码装置的结构示意图,该装置可以由硬件和/或软件的方式来实现,一般可集成于计算机设备中。如图3所示,该装置包括:
信息特征获取模块31,用于获取待编码视频帧以及对应的信息特征,信息特征包括分辨率、帧率、预算码率以及色彩信息;
内容特征提取模块32,用于利用预设滤波核对待编码视频帧的内容特征进行提取,内容特征包括能量特征、强度特征、形状特征以及平滑性特征;
模型参数预测模块33,用于将由信息特征和内容特征定义的输入特征输入训练好的学习模型中,以对预设率失真关系模型的模型参数进行预测;
编码模块34,用于根据配置了预测产生的模型参数的预设率失真关系模型对待编码视频帧进行编码。
本发明实施例所提供的技术方案,首先获取待编码视频帧及其对应的信息特征,如分辨率、帧率、预算码率以及色彩信息等等,再利用预设滤波核对待编码视频帧的能量特征、强度特征、形状特征以及平滑性特征等内容特征进行提取,然后将由信息特征和内容特征定义的输入特征输入训练好的学习模型中,并预测得到预设率失真关系模型的模型参数,最后即可根据配置了预测产生的模型参数的预设率失真关系模型对待编码视频帧进行编码。通过使用学习模型对率失真关系进行预测,避免了通过实际编码后计算的方式来确定率失真关系的过程,从而避免了大量资源的消耗以及对硬件和网络的负担,同时通过分析视频的内容特征,再结合视频自身的其他特征来完成率失真关系模型的模型参数的预测,优化了视频编码中的率失真性能,从而提升了视频编码的效率。
在上述技术方案的基础上,可选的,该视频编码装置,还包括:
场景类型预测模块,用于在将由信息特征和内容特征定义的输入特征输入训练好的学习模型中,以对预设率失真关系模型的模型参数进行预测之前,将待编码视频帧输入训练好的卷积神经网络模型中,以对待编码视频帧所属的场景类型进行预测;
场景信息确定模块,用于根据场景类型确定对应的场景信息;
相应的,输入特征还包括场景信息。
在上述技术方案的基础上,可选的,场景信息包括场景类型对应的平均模型参数;
相应的,该视频编码装置,还包括:
数据库构建模块,用于在根据场景类型确定对应的场景信息之前,构建每个场景类型的视频数据库;
率失真关系确定模块,用于对每个场景类型的视频数据进行编码,以确定每个视频数据的率失真关系;
平均模型参数确定模块,用于对每个场景类型下的所有率失真关系中的模型参数取平均值,以确定每个场景类型对应的平均模型参数。
在上述技术方案的基础上,可选的,预设滤波核包括对应三种尺度以及三种角度的九个滤波核,三种尺度的尺度因子设置为1、2和4,三种角度设置为0度、45度和90度。
在上述技术方案的基础上,可选的,内容特征提取模块32,包括:
特征矩阵获取单元,用于将九个滤波核分别与待编码视频帧进行卷积操作,得到不同尺度以及不同方向的九个特征矩阵;
能量特征确定单元,用于根据九个特征矩阵以及第一公式确定能量特征,第一公式为:
Figure BDA0002783316700000141
其中,F1表示能量特征,Fm(i,j,k,θ)表示尺度因子为k且在θ方向上的特征矩阵中位置为(i,j)的灰度值,S表示尺度因子k的值域,X表示方向θ的值域,N表示待编码视频帧的像素数量,ω1表示第一调节系数,ω2表示第二调节系数,ω3表示第三调节系数;
强度特征确定单元,用于根据九个特征矩阵以及第二公式确定强度特征,第二公式为:
Figure BDA0002783316700000142
其中,F2表示强度特征,k1、k2和k3分别表示尺度因子的三种取值,ω4表示第四调节系数;
形状特征确定单元,用于根据九个特征矩阵以及第三公式确定形状特征,第三公式为:
Figure BDA0002783316700000151
其中,F3表示形状特征,θ1、θ2和θ3表示角度的三种取值,C1表示第一稳定系数;
平滑性特征确定单元,用于根据九个特征矩阵、第四公式以及第五公式确定平滑性特征,第四公式和第五公式分别为:
Figure BDA0002783316700000152
Figure BDA0002783316700000153
其中,Fv(k,θ)表示待编码视频帧对应的尺度因子为k且在θ方向上的平滑性特征,
Figure BDA0002783316700000154
表示尺度因子为k且在θ方向上的特征矩阵的平均值,ω5表示第五调节系数,α1表示第一正比例因子,F4表示待编码视频帧在三种尺度以及三种角度上的平滑性特征。
在上述技术方案的基础上,可选的,预设率失真关系模型为:
D(R)=(aXe-(b×R)+c)×log(d)
其中,D表示编码失真,R表示编码码率,a、b、c和d表示模型参数。
在上述技术方案的基础上,可选的,学习模型为多元随机森林回归模型;
相应的,模型参数预测模块33具体用于:
分别将输入特征输入训练好的学习模型中,以分别对模型参数a、b、c和d进行预测。
本发明实施例所提供的视频编码装置可执行本发明任意实施例所提供的视频编码方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,在上述视频编码装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例四
图4为本发明实施例四提供的计算机设备的结构示意图,示出了适于用来实现本发明实施方式的示例性计算机设备的框图。图4显示的计算机设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图4所示,该计算机设备包括处理器41、存储器42、输入装置43及输出装置44;计算机设备中处理器41的数量可以是一个或多个,图4中以一个处理器41为例,计算机设备中的处理器41、存储器42、输入装置43及输出装置44可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器42作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的视频编码方法对应的程序指令/模块(例如,视频编码装置中的信息特征获取模块31、内容特征提取模块32、模型参数预测模块33及编码模块34)。处理器41通过运行存储在存储器42中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的视频编码方法。
存储器42可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器42可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器42可进一步包括相对于处理器41远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置43可用于接收输入的待编码视频帧,以及产生与计算机设备的用户设置和功能控制有关的键信号输入等。输出装置可用于向视频接收端发送编码完成的视频数据等。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,该计算机可执行指令在由计算机处理器执行时用于执行一种视频编码方法,该方法包括:
获取待编码视频帧以及对应的信息特征,信息特征包括分辨率、帧率、预算码率以及色彩信息;
利用预设滤波核对待编码视频帧的内容特征进行提取,内容特征包括能量特征、强度特征、形状特征以及平滑性特征;
将由信息特征和内容特征定义的输入特征输入训练好的学习模型中,以对预设率失真关系模型的模型参数进行预测;
根据配置了预测产生的模型参数的预设率失真关系模型对待编码视频帧进行编码。
存储介质可以是任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到计算机系统。第二计算机系统可以提供程序指令给计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的视频编码方法中的相关操作。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种视频编码方法,其特征在于,包括:
获取待编码视频帧以及对应的信息特征,所述信息特征包括分辨率、帧率、预算码率以及色彩信息;
利用预设滤波核对所述待编码视频帧的内容特征进行提取,所述内容特征包括能量特征、强度特征、形状特征以及平滑性特征;
将由所述信息特征和所述内容特征定义的输入特征输入训练好的学习模型中,以对预设率失真关系模型的模型参数进行预测;
根据配置了预测产生的所述模型参数的所述预设率失真关系模型对所述待编码视频帧进行编码。
2.根据权利要求1所述的视频编码方法,其特征在于,在所述将由所述信息特征和所述内容特征定义的输入特征输入训练好的学习模型中,以对预设率失真关系模型的模型参数进行预测之前,还包括:
将所述待编码视频帧输入训练好的卷积神经网络模型中,以对所述待编码视频帧所属的场景类型进行预测;
根据所述场景类型确定对应的场景信息;
相应的,所述输入特征还包括所述场景信息。
3.根据权利要求2所述的视频编码方法,其特征在于,所述场景信息包括所述场景类型对应的平均模型参数;
相应的,在所述根据所述场景类型确定对应的场景信息之前,还包括:
构建每个所述场景类型的视频数据库;
对每个所述场景类型的视频数据进行编码,以确定每个所述视频数据的率失真关系;
对每个所述场景类型下的所有所述率失真关系中的模型参数取平均值,以确定每个所述场景类型对应的所述平均模型参数。
4.根据权利要求1所述的视频编码方法,其特征在于,所述预设滤波核包括对应三种尺度以及三种角度的九个滤波核,所述三种尺度的尺度因子设置为1、2和4,所述三种角度设置为0度、45度和90度。
5.根据权利要求4所述的视频编码方法,其特征在于,所述利用预设滤波核对所述待编码视频帧的内容特征进行提取,所述内容特征包括能量特征、强度特征、形状特征以及平滑性特征,包括:
将所述九个滤波核分别与所述待编码视频帧进行卷积操作,得到不同尺度以及不同方向的九个特征矩阵;
根据所述九个特征矩阵以及第一公式确定所述能量特征,所述第一公式为:
Figure FDA0002783316690000021
其中,F1表示所述能量特征,Fm(i,j,k,θ)表示尺度因子为k且在θ方向上的特征矩阵中位置为(i,j)的灰度值,S表示尺度因子k的值域,X表示方向θ的值域,N表示所述待编码视频帧的像素数量,ω1表示第一调节系数,ω2表示第二调节系数,ω3表示第三调节系数;
根据所述九个特征矩阵以及第二公式确定所述强度特征,所述第二公式为:
Figure FDA0002783316690000022
其中,F2表示所述强度特征,k1、k2和k3分别表示尺度因子的三种取值,ω4表示第四调节系数;
根据所述九个特征矩阵以及第三公式确定所述形状特征,所述第三公式为:
Figure FDA0002783316690000031
其中,F3表示所述形状特征,θ1、θ2和θ3表示角度的三种取值,C1表示第一稳定系数;
根据所述九个特征矩阵、第四公式以及第五公式确定所述平滑性特征,所述第四公式和所述第五公式分别为:
Figure FDA0002783316690000032
Figure FDA0002783316690000033
其中,Fv(k,θ)表示所述待编码视频帧对应的尺度因子为k且在θ方向上的平滑性特征,
Figure FDA0002783316690000034
表示尺度因子为k且在θ方向上的特征矩阵的平均值,ω5表示第五调节系数,α1表示第一正比例因子,F4表示所述待编码视频帧在三种尺度以及三种角度上的平滑性特征。
6.根据权利要求1所述的视频编码方法,其特征在于,所述预设率失真关系模型为:
D(R)=(a×e-(b×R)+c)×log(d)
其中,D表示编码失真,R表示编码码率,a、b、c和d表示所述模型参数。
7.根据权利要求6所述的视频编码方法,其特征在于,所述学习模型为多元随机森林回归模型;
相应的,所述将由所述信息特征和所述内容特征定义的输入特征输入训练好的学习模型中,以对预设率失真关系模型的模型参数进行预测,包括:
分别将所述输入特征输入训练好的所述学习模型中,以分别对所述模型参数a、b、c和d进行预测。
8.一种视频编码装置,其特征在于,包括:
信息特征获取模块,用于获取待编码视频帧以及对应的信息特征,所述信息特征包括分辨率、帧率、预算码率以及色彩信息;
内容特征提取模块,用于利用预设滤波核对所述待编码视频帧的内容特征进行提取,所述内容特征包括能量特征、强度特征、形状特征以及平滑性特征;
模型参数预测模块,用于将由所述信息特征和所述内容特征定义的输入特征输入训练好的学习模型中,以对预设率失真关系模型的模型参数进行预测;
编码模块,用于根据配置了预测产生的所述模型参数的所述预设率失真关系模型对所述待编码视频帧进行编码。
9.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的视频编码方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的视频编码方法。
CN202011289058.4A 2020-11-17 2020-11-17 一种视频编码方法、装置、计算机设备及存储介质 Active CN112399177B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011289058.4A CN112399177B (zh) 2020-11-17 2020-11-17 一种视频编码方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011289058.4A CN112399177B (zh) 2020-11-17 2020-11-17 一种视频编码方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112399177A true CN112399177A (zh) 2021-02-23
CN112399177B CN112399177B (zh) 2022-10-28

Family

ID=74606193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011289058.4A Active CN112399177B (zh) 2020-11-17 2020-11-17 一种视频编码方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112399177B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114241350A (zh) * 2021-11-09 2022-03-25 北京百度网讯科技有限公司 视频编码测试序列确定方法、相关装置及计算机程序产品
CN115174919A (zh) * 2022-09-05 2022-10-11 腾讯科技(深圳)有限公司 一种视频处理方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130215958A1 (en) * 2010-08-26 2013-08-22 Sk Telecom Co., Ltd. Encoding and decoding device and method using intra prediction
CN103888765A (zh) * 2014-03-27 2014-06-25 天格科技(杭州)有限公司 一种改进型R-λ模型H.265码率控制方法
CN104683804A (zh) * 2015-02-14 2015-06-03 北京航空航天大学 基于视频内容特征的参数自适应多维码率控制方法
CN110913221A (zh) * 2018-09-18 2020-03-24 华为技术有限公司 一种视频码率预测方法及装置
CN111726633A (zh) * 2020-05-11 2020-09-29 河南大学 基于深度学习和显著性感知的压缩视频流再编码方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130215958A1 (en) * 2010-08-26 2013-08-22 Sk Telecom Co., Ltd. Encoding and decoding device and method using intra prediction
CN103888765A (zh) * 2014-03-27 2014-06-25 天格科技(杭州)有限公司 一种改进型R-λ模型H.265码率控制方法
CN104683804A (zh) * 2015-02-14 2015-06-03 北京航空航天大学 基于视频内容特征的参数自适应多维码率控制方法
CN110913221A (zh) * 2018-09-18 2020-03-24 华为技术有限公司 一种视频码率预测方法及装置
CN111726633A (zh) * 2020-05-11 2020-09-29 河南大学 基于深度学习和显著性感知的压缩视频流再编码方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114241350A (zh) * 2021-11-09 2022-03-25 北京百度网讯科技有限公司 视频编码测试序列确定方法、相关装置及计算机程序产品
CN114241350B (zh) * 2021-11-09 2023-09-19 北京百度网讯科技有限公司 视频编码测试序列确定方法、相关装置及计算机程序产品
CN115174919A (zh) * 2022-09-05 2022-10-11 腾讯科技(深圳)有限公司 一种视频处理方法、装置、设备及介质

Also Published As

Publication number Publication date
CN112399177B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN110347873B (zh) 视频分类方法、装置、电子设备及存储介质
CN108012156B (zh) 一种视频处理方法及控制平台
CN112399177B (zh) 一种视频编码方法、装置、计算机设备及存储介质
KR20200145827A (ko) 얼굴 특징 추출 모델 학습 방법, 얼굴 특징 추출 방법, 장치, 디바이스 및 저장 매체
CN109344893B (zh) 一种基于移动终端的图像分类方法
CN111182303A (zh) 共享屏幕的编码方法、装置、计算机可读介质及电子设备
CN113128478B (zh) 模型训练方法、行人分析方法、装置、设备及存储介质
CN112399176B (zh) 一种视频编码方法、装置、计算机设备及存储介质
CN112101543A (zh) 神经网络模型确定方法、装置、电子设备及可读存储介质
CN113238989A (zh) 将数据进行量化的设备、方法及计算机可读存储介质
CN110503135B (zh) 用于电力设备边缘侧识别的深度学习模型压缩方法及系统
CN113724132B (zh) 图像风格迁移处理方法、装置、电子设备及存储介质
CN116600119B (zh) 视频编码、解码方法、装置、计算机设备和存储介质
CN117354467A (zh) 图像数据智能优化传输系统
CN112906883A (zh) 用于深度神经网络的混合精度量化策略确定方法和系统
CN111369477A (zh) 一种针对视频恢复任务的预分析和工具自适应的方法
CN115052154B (zh) 一种模型训练和视频编码方法、装置、设备及存储介质
CN116644783A (zh) 模型训练方法、对象处理方法及装置、电子设备、介质
CN112200275B (zh) 人工神经网络的量化方法及装置
CN114501031B (zh) 一种压缩编码、解压缩方法以及装置
US11792408B2 (en) Transcoder target bitrate prediction techniques
CN112070211B (zh) 基于计算卸载机制的图像识别方法
CN114065913A (zh) 模型量化方法、装置及终端设备
CN112422965B (zh) 一种视频码率控制方法、装置、计算机设备及存储介质
CN113627556B (zh) 一种图像分类的实现方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant