CN117478886A - 多媒体数据编码方法、装置、电子设备及存储介质 - Google Patents

多媒体数据编码方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117478886A
CN117478886A CN202311436750.9A CN202311436750A CN117478886A CN 117478886 A CN117478886 A CN 117478886A CN 202311436750 A CN202311436750 A CN 202311436750A CN 117478886 A CN117478886 A CN 117478886A
Authority
CN
China
Prior art keywords
video
code rate
multimedia data
true value
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311436750.9A
Other languages
English (en)
Inventor
刘立洲
陈秋伯
陈靖
高文轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaohongshu Technology Co ltd
Original Assignee
Xiaohongshu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaohongshu Technology Co ltd filed Critical Xiaohongshu Technology Co ltd
Priority to CN202311436750.9A priority Critical patent/CN117478886A/zh
Publication of CN117478886A publication Critical patent/CN117478886A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请涉及数据处理技术领域,公开了一种多媒体数据编码方法、装置、电子设备及存储介质,该方法包括:对待编码多媒体数据进行特征提取,得到第一视频特征;根据第一视频特征及其对应的第一预设码率参数,预测待编码多媒体数据的视频码率真值和视频质量评估真值;根据视频码率真值和视频质量评估真值,确定待编码多媒体数据的目标码率参数;基于目标码率参数对待编码多媒体数据进行编码。本申请通过待编码多媒体数据的视频特征及其对应的预设码率参数预测出目标码率参数,再通过目标码率参数对待编码多媒体数据进行编码,替代了线上固定的CRF参数编码,从而针对每个待编码多媒体数据都能够找到最佳的目标码率参数,解决了编码码率冗余的问题。

Description

多媒体数据编码方法、装置、电子设备及存储介质
技术领域
本申请涉及数据处理技术领域,具体涉及一种多媒体数据编码方法、装置、电子设备及存储介质。
背景技术
随着深度学习技术的发展,用户生产的原视频在经过编码之前,往往需要经过增强前处理,增强处理后会导致码率大幅上涨。当前线上使用的主要是固定CRF编码方法,随着增强前处理算法研发增多,编码参数的变动只能通过手动设置以平衡码率和质量,然而线上UGC视频内容复杂并且多样,固定CRF编码具有比较大的局限性,过大的CRF会导致部分视频质量显著下降,过小的CRF会导致部分视频码率显著上涨。因此,固定CRF编码在不同场景下无法获得最佳的编码效果,导致经过前处理增强后码率存在比较大的冗余。
发明内容
本申请旨在至少解决相关技术中存在的技术问题之一。为此,本申请实施例提供一种多媒体数据编码方法、装置、电子设备及存储介质,可以解决编码码率冗余的问题。
第一方面,本申请实施例提供一种多媒体数据编码方法,包括:
对待编码多媒体数据进行特征提取,得到第一视频特征;
根据所述第一视频特征及其对应的第一预设码率参数,预测所述待编码多媒体数据的视频码率真值和视频质量评估真值;
根据所述视频码率真值和所述视频质量评估真值,确定所述待编码多媒体数据的目标码率参数;
基于所述目标码率参数对所述待编码多媒体数据进行编码。
第二方面,本申请实施例提供一种多媒体数据编码装置,包括:
特征提取模块,用于对待编码多媒体数据进行特征提取,得到第一视频特征;
数据预测模块,用于根据所述第一视频特征及其对应的第一预设码率参数,预测所述待编码多媒体数据的视频码率真值和视频质量评估真值;
确定模块,用于根据所述视频码率真值和所述视频质量评估真值,确定所述待编码多媒体数据的目标码率参数;
数据编码模块,用于基于所述目标码率参数对所述待编码多媒体数据进行编码。
第三方面,本申请实施例还提供一种电子设备,包括存储器存储有多条指令;处理器从存储器中加载指令,以执行本申请实施例所提供的第一方面的任一种多媒体数据编码方法。
第四方面,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有多条指令,指令适于处理器进行加载,以执行本申请实施例所提供的第一方面的任一种多媒体数据编码方法。
第五方面,本申请实施例还提供一种计算机程序产品,包括计算机程序或指令,计算机程序或指令被处理器执行时实现本申请实施例所提供的第一方面的任一种多媒体数据编码方法。
本申请实施例通过待编码多媒体数据的视频特征及其对应的预设码率参数预测出视频码率真值和视频质量评估真值,再根据视频码率真值和视频质量评估真值确定目标码率参数,从而通过目标码率参数对待编码多媒体数据进行编码,替代了线上固定的CRF参数编码,从而针对每个待编码多媒体数据都能够找到最佳的目标码率参数,解决了编码码率冗余的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中提供的多媒体数据编码方法的流程示意图;
图2是本申请实施例中提供的参数预测曲线的示意图;
图3是本申请实施例中提供的预测关系图的示意图;
图4是本申请实施例中提供的多媒体数据编码模型训练的流程示意图;
图5是本申请实施例中提供的整体方案的流程示意图;
图6是本申请实施例中提供的多媒体数据编码装置的结构示意图;
图7是本申请实施例中提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。同时,在本申请实施例的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更特征。在本申请实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
本申请实施例提供一种多媒体数据编码方法、装置、电子设备及存储介质。具体地,本申请实施例将从多媒体数据编码装置的角度进行描述,多媒体数据编码装置具体可以集成在电子设备中,即本申请实施例多媒体数据编码方法可以由电子设备执行。可选的,该电子设备包括终端设备。终端设备可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、游戏机、或者个人电脑(Personal Computer,PC)等设备。可选的,该电子设备包括服务器,该服务器可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,其包括但不限于计算机、网络主机、单个网络服务器、网络服务器集或服务器构成的云服务器。其中,云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。
需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于附图所示的顺序执行所示出或描述的步骤。
名词解释:
1、CRF(Conditional Random Field条件随机场)编码:是一种用于序列标注任务的统计机器学习方法,CRF编码在自然语言处理领域广泛应用于词性标注、命名实体识别、分块等序列标注任务中。
2、线上UGC(User Generated Content)视频:是指在线上平台上用户生成的内容。UGC包括用户通过社交媒体、视频网站、论坛等平台上传、分享和发布的各种形式的内容,如文字、图片、音频和视频等。
3、时空复杂度特征:时空复杂度特征体现了视频的复杂度,从时域和空域上对视频整体进行特征提取,包括但不限于时域复杂度、空域复杂度和视频YUV通道熵值。
4、GLCM(Gray Level Co-occurrence Matrix,灰度共生矩阵)特征:GLCM特征体现了视频细节的纹理特征,体现视频局部的复杂度,可以得到视频纹理的不同特征,如对比度、相关性、能量、均匀性等,GLCM特征中的对比度特征描述了视频纹理的变化程度,即物体表面亮度的差异,对应矩阵中各项的权重关系,特征值越大,代表视频的纹理变化越明显。
5、码流特征:码流特征保证了视频转码后码率估计的准确性,主要包括原视频的帧率、码率和运动向量相关信息。
6、质量特征:质量特征表征了源视频本身的质量,质量更好的原视频转码后VQA指标相对较高,本特征从原视频的噪声、块效应和模糊角度评价原视频质量。
7、场景类别:场景类别通过场景识别模型识别每一个视频场景,模型可识别365种场景,比如美妆、游戏、动画、建筑、模版、特效等
本申请实施例以多媒体数据编码装置为执行主体举例说明,以下结合附图分别进行详细说明。参考图1,图1是本申请实施例中提供的多媒体数据编码方法的流程示意图。本申请实施例提供的多媒体数据编码方法的具体流程可以如下步骤10至步骤40,包括:
步骤10,对待编码多媒体数据进行特征提取,得到第一视频特征。
需要说明的是,多媒体数据编码装置从线上UGC视频中筛选出视频数据集作为待编码多媒体数据集,待编码多媒体数据集中的每一个视频即为待编码多媒体数据。
可选的,多媒体数据编码装置从不同特征维度对待编码多媒体数据进行特征提取,其中,不同特征维度可以包括时空复杂度特征维度、码流特征维度、GLCM特征维度、质量特征维度,场景类别特征维度。。
因此,多媒体数据编码装置得到待编码多媒体数据的第一视频特征中包括空复杂度特征、码流特征、GLCM特征、质量特征和场景类别特征。
步骤20,根据所述第一视频特征及其对应的第一预设码率参数,预测所述待编码多媒体数据的视频码率真值和视频质量评估真值。
可选的,多媒体数据编码装置获取预先训练好的多媒体数据编码模型,其中,多媒体数据编码模型是以待训练视频的第二视频特征及其对应的第二预设码率参数为模型输入,以待训练视频增强并转码后得到的视频码率真值和视频质量评估真值为模型输出训练得到,具体的训练过程如步骤50至步骤80描述。
进一步地,多媒体数据编码装置将第一视频特征及其对应的第一预设码率参数输入至多媒体数据编码模型中,得到多媒体数据编码模型输出待编码多媒体数据的视频码率真值和视频质量评估真值,具体如步骤201至步骤203描述。
步骤30,根据所述视频码率真值和所述视频质量评估真值,确定所述待编码多媒体数据的目标码率参数。
可选的,多媒体数据编码装置将视频码率真值和视频质量评估真值进行关联,得到每一个数据输入对的数据输出对。进一步地,多媒体数据编码装置根据所有的数据输出对进行曲线拟合,得到参数预测曲线,再通过参数预测曲线预测待编码多媒体数据的目标码率参数,具体如步骤301至步骤303。
步骤40,基于所述目标码率参数对所述待编码多媒体数据进行编码。
可选的,多媒体数据编码装置通过目标码率参数对待编码多媒体数据进行编码,得到编码后的多媒体数据。
本申请实施例通过待编码多媒体数据的视频特征及其对应的预设码率参数预测出视频码率真值和视频质量评估真值,再根据视频码率真值和视频质量评估真值确定目标码率参数,从而通过目标码率参数对待编码多媒体数据进行编码,替代了线上固定的CRF参数编码,从而针对每个待编码多媒体数据都能够找到最佳的目标码率参数,解决了编码码率冗余的问题。
在一个可选的示例中,步骤201至步骤203的描述如下:
步骤201,将所述第一视频特征及其对应的第一预设码率参数输入至多媒体数据编码模型;
步骤202,基于所述数据融合网络将所述第一视频特征及其对应的第一预设码率参数进行数据关联,得到第一数据输入对;
步骤203,基于所述数据预测网络根据所述第一数据输入对进行数据预测,得到多媒体数据编码模型输出的所述视频码率真值和所述视频质量评估真值。
可选的,多媒体数据编码装置将第一视频特征及其对应的第一预设码率参数输入至多媒体数据编码模型,其中,多媒体数据编码模型包括数据融合网络和数据预测网络,数据融合网络可以用于将数据进行关联绑定,数据预测网络可以用于对数据进行预测。
因此,数据融合网络将第一视频特征及其对应的第一预设码率参数进行数据关联,构建第一视频特征的第一数据输入对。在一实施例中,构建第一数据输入对的具体过程为:获取预设码率参数编码区间和码率参数编码间隔,预设码率参数编码区间如范围[30,36],码率参数编码间隔如0.2。按照码率参数编码间隔对预设码率参数编码区间进行划分,得到多个第一预设码率参数。因此,第一预设码率参数为30,30.2,30.4,30.6,...,35.6,35.8,36。因此,第一数据输入对为{[第一视频特征,30],[第一视频特征,30.2],[第一视频特征,30.4],[第一视频特征,30.6],...,[第一视频特征,35.6],[第一视频特征,35.8],[第一视频特征,36]}。
进一步地,数据预测网络根据第一数据输入对进行数据预测,得到多媒体数据编码模型输出的视频码率真值和视频质量评估真值。继上述实施例,第一数据输入对[第一视频特征,30]的数据输出对为(a1,b1),[第一视频特征,30.2]的数据输出对为(a2,b2),[第一视频特征,30.4]的数据输出对为(a3,b3),[第一视频特征,30.6]的数据输出对为(a4,b4),...,[[第一视频特征,36]的数据输出对为(an,bn),因此,多媒体数据编码模型输出的数据输出对为{(a1,b1),(a2,b2),(a3,b3),(a4,b4),...,(an,bn)},其中,a1至an为视频码率真值,b1至bn为视频质量评估真值。
本申请实施例通过待训练视频的第二视频特征及其对应的第二预设码率参数,以及待训练视频增强并转码后得到的视频码率真值和视频质量评估真值训练出的多媒体数据编码模型,替代了线上固定的CRF参数编码,针对每个待编码多媒体数据都能够找到最佳的目标码率参数,解决了编码码率冗余的问题。
在一个可选的示例中,步骤301至步骤303的描述如下:
步骤301,以所述视频码率真值和所述视频质量评估真值为数据输出对构建参数预测曲线;
步骤302,按照所述参数预测曲线的第一个数据点依次到最后一个数据点进行斜率计算,得到所述参数预测曲线的所有斜率值;
步骤303,基于所述参数预测曲线的所有斜率值预测所述目标码率参数。
可选的,多媒体数据编码装置以视频码率真值和视频质量评估真值为一个数据输出对。因此,多媒体数据编码装置根据每一个数据输出对中的视频码率真值和视频质量评估真值进行曲线拟合,构建参数预测曲线。在一实施例中,拟合方程为y=ax2+bx+c的二次曲线,因此,以视频码率真值(bitrate)为横坐标,以视频质量评估真值(VQA)为纵坐标程绘制bitrate-VQA散点图,计算出参数a和参数b,再通过参数a和参数b结合拟合方程进行二次曲线拟合,得到参数预测曲线,参数预测曲线即为bitrate-VQA曲线,其中,二次曲线拟合过程中可以直接使用numpy的多项式拟合函数polyfit。参照图2,图2是本申请实施例中提供的参数预测曲线的示意图。
可选的,多媒体数据编码装置根据参数预测曲线计算knee point拐点,即根据拟合的bitrate-VQA曲线,计算bitrate-VQA曲线中的knee point拐点,knee point拐点为斜率变缓慢的拐点,也即肘部点,通常用于确定曲线的阶段或变化点。确定knee point拐点的一种方法是使用肘部法则(Elbow Method),通常用于确定K-Means聚类中的最佳簇数,具体为:按照参数预测曲线的第一个数据点依次到最后一个数据点进行斜率计算,得到参数预测曲线的所有斜率值,其中,一个数据点为一个数据输出对,每一个数据点的斜率值都可以通过计算相邻数据点之间的差异来实现。
可选的,多媒体数据编码装置根据参数预测曲线的所有斜率值预测目标码率参数,具体如步骤3031至步骤3033。
本申请实施例通过参数预测曲线结合斜率值,针对每个待编码多媒体数据都能够准确地预测出最佳的目标码率参数,解决了编码码率冗余的问题。
在一个可选的示例中,步骤3031至步骤3033的描述如下:
步骤3031,根据所述参数预测曲线中第一个数据点的斜率值,依次到所述参数预测曲线中最后一个数据点的斜率值,构建预测关系图;
步骤3032,基于所述预测关系图确定目标数据点;
步骤3033,将目标数据点对应的视频码率真值,确定为所述目标码率参数。
可选的,多媒体数据编码装置根据参数预测曲线中第一个数据点的斜率值,依次到参数预测曲线中最后一个数据点的斜率值,绘制斜率值与数据点的关系图,构建预测关系图。可选的,参照图3,图3是本申请实施例中提供的预测关系图的示意图。
可选的,多媒体数据编码装置在预测关系图中确定出目标数据点,目标数据点后的斜率变得显著降低,目标数据点即是肘部点,目标数据点对应于曲线上的阶段或变化的开始,通常被认为是拐点,也就是说,目标数据点的斜率值大于或者等于其前一个相邻数据点的斜率值,且目标数据点的斜率值大于其后一个相邻数据点的斜率值,且目标数据点的斜率值与其后一个相邻数据点的斜率值的差值大于预设值,其中,预设值根据实际设定。在一实施例中,预设值为0.02,因此,根据图3可知,数据点5为目标数据点。
可选的,参照图2,图2是本申请实施例中提供的参数预测曲线的示意图,拐点为曲线斜率值由增加到减小的点,拐点之后相较于拐点之前需要更多码率才能得到相同的质量收益,求得拐点可以得到最大码率收益点。
可选的,多媒体数据编码装置将目标数据点对应的视频码率真值,确定为目标码率参数针对每个待编码多媒体数据都能够找到最佳的目标码率参数,解决了编码码率冗余的问题。
本申请实施例通过参数预测曲线结合斜率值,针对每个待编码多媒体数据都能够准确地预测出最佳的目标码率参数,解决了编码码率冗余的问题。
可选的,参考图4,图4是本申请实施例中提供的多媒体数据编码模型训练的流程示意图。本申请实施例提供的多媒体数据编码模型训练的具体流程可以如下步骤50至步骤80,包括:
步骤50,对待训练视频进行特征提取,得到第二视频特征。
可选的,多媒体数据编码装置从线上UGC视频中筛选出视频数据集作为训练视频集,训练视频集中的每一个视频即为待训练视频。
可选的,多媒体数据编码装置从不同特征维度对待编码多媒体数据进行特征提取,其中,不同特征维度可以包括时空复杂度特征维度、码流特征维度、GLCM特征维度、质量特征维度,场景类别特征维度,上述特征维度在步骤10的实施例中已经详细说明,在此不再赘述,因此,多媒体数据编码装置得到待训练视频的第二视频特征中包括空复杂度特征、码流特征、GLCM特征、质量特征和场景类别特征,具体如步骤501至步骤505描述。
步骤60,基于第二视频特征和第二预设码率参数构建第二数据输入对。
可选的,多媒体数据编码装置将第二视频特征及其对应的第二预设码率参数进行关联,构建第二视频特征的第二数据输入对。在一实施例中,构建第二数据输入对的具体过程为:获取预设码率参数编码区间和码率参数编码间隔,预设码率参数编码区间如范围[30,36],码率参数编码间隔如0.2。按照码率参数编码间隔对预设码率参数编码区间进行划分,得到多个第二预设码率参数。因此,第二预设码率参数为30,30.2,30.4,30.6,...,35.6,35.8,36。因此,第二数据输入对为{[第二视频特征,30],[第二视频特征,30.2],[第二视频特征,30.4],[第二视频特征,30.6],...,[第二视频特征,35.6],[第二视频特征,35.8],[第二视频特征,36]}。
步骤70,基于所述第二预设码率参数和所述待训练视频,计算目标视频码率真值和目标视频质量评估真值。
可选的,多媒体数据编码装置根据第二预设码率参数和待训练视频,计算目标视频码率真值和目标视频质量评估真值,具体如步骤701至步骤703描述。
步骤80,以所述第二数据输入对为模型输入,以所述目标视频码率真值和所述目标视频质量评估真值为模型输出进行模型训练,得到所述多媒体数据编码模型。
可选的,多媒体数据编码装置以第二数据输入对即[第二视频特征,第二预设码率参数]为模型输入,以目标视频码率真值和目标视频质量评估真值为模型输出进行模型训练,得到多媒体数据编码模型。在一实施例中,GBDT(Gradient Boosting Decision Tree,基于决策树的集成学习方法)机器学习模型可以处理源视频和增强后的视频之间的差异,因此,多媒体数据编码装置以第二数据输入对即[第二视频特征,第二预设码率参数]为GBDT机器学习模型的模型输入,以目标视频码率真值和目标视频质量评估真值为GBDT机器学习模型的模型输出进行模型训练,得到多媒体数据编码模型。
本申请实施例通过以待训练视频的第二视频特征及其对应的第二预设码率参数为模型输入,以视频码率真值和视频质量评估真值为模型输出训练得到多媒体数据编码模型,使得多媒体数据编码模型针对每个待编码多媒体数据都能够找到最佳的目标码率参数,解决了编码码率冗余的问题。
在一个可选的示例中,步骤501至步骤505的描述如下:
步骤501,对所述待训练视频进行时域空域特征提取,得到时域复杂度特征、空域复杂度特征和视频通道熵特征;
步骤502,对所述待训练视频进行纹理特征提取,得到纹理特征;
步骤503,对所述训练视频进行码流特征提取,得到视频帧率特征、视频码率特征和运动向量特征;
步骤504,对所述训练视频进行码流特征提取,得到场景特征;
步骤505,将所述时域复杂度特征、所述空域复杂度特征、所述视频通道熵特征、所述纹理特征、所述视频帧率特征、所述视频码率特征、所述运动向量特征和所述场景特征,确定为所述第二视频特征。
可选的,多媒体数据编码装置对待训练视频进行时域空域特征提取,得到时域复杂度特征、空域复杂度特征和视频通道熵特征。可选的,多媒体数据编码装置对待训练视频进行纹理特征提取,得到纹理特征。可选的,多媒体数据编码装置对训练视频进行码流特征提取,得到视频帧率特征、视频码率特征和运动向量特征。可选的,多媒体数据编码装置对训练视频进行码流特征提取,得到场景特征。可选的,多媒体数据编码装置将时域复杂度特征、空域复杂度特征、视频通道熵特征、纹理特征、视频帧率特征、视频码率特征、运动向量特征和场景特征,确定为第二视频特征。
本申请实施例从时空复杂度特征、码流特征、GLCM特征、质量特征、场景类别多个维度提取第二视频特征,从而通过第二视频特征训练出的多媒体数据编码模型的具有高鲁棒性和预测准确性,从而通过多媒体数据编码模型针对每个待编码多媒体数据都能够找到最佳的目标码率参数,解决了编码码率冗余的问题。
在一个可选的示例中,步骤701至步骤703的描述如下:
步骤701,对所述待训练视频进行视频增强处理,得到增强后训练视频;
步骤702,基于所述第二预设码率参数对所述增强后训练视频进行转码处理,得到转码后训练视频;
步骤703,基于所述转码后训练视频计算所述目标视频码率真值和所述目标视频质量评估真值。
可选的,多媒体数据编码装置对待训练视频进行视频增强处理,得到增强后训练视频,其中,视频增强处理可以包括帧间差分、颜色空间转换和降低分辨率的预处理操作,可以包括对比度调整、亮度增强和直方图均衡化增强处理,可以包括去噪声和去抖动处理,可以包括超分辨率重建和色彩校正处理,具体如步骤7011至步骤7014描述。
可选的,多媒体数据编码装置根据第二预设码率参数对增强后训练视频进行转码处理,得到转码后训练视频,具体如步骤7021至步骤7023描述。
可选的,多媒体数据编码装置根据转码后训练视频计算目标视频码率真值和目标视频质量评估真值。
在一实施例中,计算目标视频码率真值的过程具体为:使用转码后的训练视频的视频文件大小除以视频时长,即可得到转码后训练视频的平均码率,其中,视频文件大小和视频时长可以通过视频数据的采样率、采样位数和通道数等参数,结合视频帧率、分辨率和编码方式等信息计算得到。如视频文件大小为S(单位为比特),视频时长为T(单位为秒),则转码后训练视频的平均码率R(单位为比特/秒)可以通过以下公式计算:R=S/T。
需要说明的是,转码后训练视频的目标视频码率真值是平均码率真值,而非实时码率真值。如果需要计算实时码率真值,可以每隔一段时间计算一次码率,然后取平均值,即可得到实时码率真值。
在一实施例中,计算目标视频质量评估真值的过程具体为:使用多种客观评估指标,如PSNR(峰值信噪比)、SSIM(结构相似性指数)、VMAF(视频多方法融合评估)等,通过比较原始视频和转码后训练视频的图像特征、结构相似性或视觉质量评估视频的质量损失程度。例如,VMAF是考虑了图像质量、运动感知和视觉系统特性,可以使用开源的VMAF工具计算原始视频和转码后训练视频的VMAF分数评估视频质量的变化,得到目标视频质量评估真值。
本申请实施例对待训练视频进行视频增强处理和转码处理,从而能够计算出更加准确的目标视频码率真值和目标视频质量评估真值,提高了多媒体数据编码模型的高鲁棒性和预测准确性,从而通过多媒体数据编码模型针对每个待编码多媒体数据都能够找到最佳的目标码率参数,解决了编码码率冗余的问题。
在一个可选的示例中,步骤7011至步骤7014的描述如下:
步骤7011,对所述待训练视频进行帧间差分、颜色空间转换和降低分辨率的预处理操作,得到第一预处理视频;
步骤7012,对所述第一预处理视频进行对比度调整、亮度增强和直方图均衡化增强处理,得到第二预处理视频;
步骤7013,对所述第二预处理视频进行去噪声和去抖动处理,得到第三预处理视频;
步骤7014,对所述第三预处理视频进行超分辨率重建和色彩校正处理,得到所述增强后训练视频。
可选的,多媒体数据编码装置对待训练视频进行帧间差分、颜色空间转换和降低分辨率的预处理操作,降低待训练视频的计算复杂度以及消除待训练视频冗余信息,得到第一预处理视频。可选的,多媒体数据编码装置对第一预处理视频进行对比度调整、亮度增强和直方图均衡化增强处理,增强图像的视觉效果,提高视频质量,得到第二预处理视频。可选的,多媒体数据编码装置对第二预处理视频进行去噪声处理,如去除高光噪声和低光噪声,降低图像噪声并保留细节信息,再进行去抖动处理,提高图像更加稳定性,得到第三预处理视频。
可选的,多媒体数据编码装置对第三预处理视频进行超分辨率重建处理,以对低分辨率视频进行重建,提升细节表现和清晰度,再进行色彩校正处理,调整视频的色彩,使视频更加真实,得到增强后训练视频。
需要说明的是,本申请实施例的视频增强是内嵌在转码链路中的。
本申请实施例对待训练视频进行视频增强处理,从而能够计算出更加准确的目标视频码率真值和目标视频质量评估真值,提高了多媒体数据编码模型的高鲁棒性和预测准确性,从而通过多媒体数据编码模型针对每个待编码多媒体数据都能够找到最佳的目标码率参数,解决了编码码率冗余的问题。
在一个可选的示例中,步骤7021至步骤7023的描述如下:
步骤7021,获取预设码率参数编码区间和码率参数编码间隔;
步骤7022,根据所述预设码率参数编码间隔对所述码率参数编码区间进行划分,得到多个所述第二预设码率参数;
步骤7023,基于多个所述第二预设码率参数对所述增强后训练视频进行转码处理,得到所述转码后训练视频。
可选的,多媒体数据编码装置获取预设码率参数编码区间和码率参数编码间隔,在一实施例中,预设码率参数编码区间[30,36],码率参数编码间隔为0.2。
可选的,多媒体数据编码装置根据预设码率参数编码间隔对码率参数编码区间进行划分,得到多个第二预设码率参数。继上述实施例,以码率参数编码间隔0.2对预设码率参数编码区间[30,36]进行划分,得到多个第二预设码率参数为30,30.2,30.4,30.6,...,35.6,35.8,36。
可选的,多媒体数据编码装置根据多个第二预设码率参数对增强后训练视频进行转码处理,得到转码后训练视频。继上述实施例,通过多个第二预设码率参数为30,30.2,30.4,...,35.8,36对增强后训练视频进行转码处理,得到第二预设码率参数为30的转码后训练视频,第二预设码率参数为30.2的转码后训练视频,第二预设码率参数为30.4的转码后训练视频,第二预设码率参数为35.8的转码后训练视频,第二预设码率参数为36的转码后训练视频.
本申请实施例,对待训练视频进行转码处理,从而能够计算出更加准确的目标视频码率真值和目标视频质量评估真值,提高了多媒体数据编码模型的高鲁棒性和预测准确性,从而通过多媒体数据编码模型针对每个待编码多媒体数据都能够找到最佳的目标码率参数,解决了编码码率冗余的问题。
可选的,参照图5,图5是本申请实施例中提供的整体方案的流程示意图。因此可以理解为:申请实施例的整体方案包括模型训练部分和参数预测部分。
对于模型训练部分:
第一步:从时空复杂度特征维度、码流特征维度、GLCM特征维度、质量特征维度,场景类别特征维度提取待训练视频的第一视频特征。
第二步:对待训练视频进行增强处理并固定CRF参数编码,收集不同的CRF参数编码对应的转码视频的增强视频码率真值和增强视频VQA真值。因此,第二步的过程可理解为:待训练视频->增强处理->CRF参数转码->输出转码后视频->计算转码后视频的增强视频码率真值和增强视频VQA真值。
第三步:将第一视频特征和CRF参数编码作为GBDT机器学习模型的输入,将转码后视频的增强视频码率真值和增强视频VQA真值作为GBDT机器学习模型的输出进行模型训练,得到多媒体数据编码模型。
对于参数预测部分:
第一步:从时空复杂度特征维度、码流特征维度、GLCM特征维度、质量特征维度,场景类别特征维度提取待编码多媒体数据的第二视频特征。
第二步:将第二视频特征和不同的CRF参数编码构建的数据输入对输入至多媒体数据编码模型中,得到多媒体数据编码模型输出的每一个数据输入对的视频码率真值和视频质量评估真值。
第三步:根据每一个数据输入对的视频码率真值和视频质量评估真值进行码率-VQA曲线拟合,得到码率-VQA曲线。
第四步:计算码率-VQA曲线中的拐点,并将拐点确定为最大码率收益点,并将拐点对应的视频码率真值,确定为最大收益CRF。
在一实施例中,以直播场景对本申请实施例的多媒体数据编码进行说明:
在直播场景的应用场景中,先在线上UGC视频库中获取历史的直播场景的视频集合,从时空复杂度特征维度、码流特征维度、GLCM特征维度、质量特征维度,场景类别特征维度提取视频集合中每一个视频的视频特征。进一步地,对视频集合中每一个视频进行增强处理并固定CRF参数编码,收集不同的CRF参数编码对应的转码视频的增强视频码率真值和增强视频VQA真值。进一步地,将频集合中每一个视频的视频特征和CRF参数编码作为GBDT机器学习模型的输入,将转码后视频的增强视频码率真值和增强视频VQA真值作为GBDT机器学习模型的输出进行模型训练,得到多媒体数据编码模型。
在主播或者创作者上传视频时,获取上传的待处理视频,从时空复杂度特征维度、码流特征维度、GLCM特征维度、质量特征维度,场景类别特征维度提取待处理视频的视频特征。然后根据提取出的特征结合多媒体数据编码模型结合本申请实施例提供的多媒体数据编码过程如步骤10至步骤40,得到编码后的视频。进一步地,将编码后的视频发送到服务器端,服务器端再将编码后的视频返回至用户终端,以供用户终端进行解码观看视频内容。
下面对本申请实施例提供的多媒体数据编码装置进行描述,下文描述的多媒体数据编码装置与上文描述的多媒体数据编码方法可相互对应参照。参照图6所示,图6是本申请实施例中提供的多媒体数据编码装置的结构示意图,该多媒体数据编码装置可以包括:
特征提取模块601,用于对待编码多媒体数据进行特征提取,得到第一视频特征;
数据预测模块602,用于根据所述第一视频特征及其对应的第一预设码率参数,预测所述待编码多媒体数据的视频码率真值和视频质量评估真值;
确定模块603,用于根据所述视频码率真值和所述视频质量评估真值,确定所述待编码多媒体数据的目标码率参数;
数据编码模块604,用于基于所述目标码率参数对所述待编码多媒体数据进行编码。
本申请实施例通过待编码多媒体数据的视频特征及其对应的预设码率参数预测出视频码率真值和视频质量评估真值,再根据视频码率真值和视频质量评估真值确定目标码率参数,从而通过目标码率参数对待编码多媒体数据进行编码,替代了线上固定的CRF参数编码,从而针对每个待编码多媒体数据都能够找到最佳的目标码率参数,解决了编码码率冗余的问题。
在一个可选的示例中,数据预测模块602还用于:
将所述第一视频特征及其对应的第一预设码率参数输入至多媒体数据编码模型;所述多媒体数据编码模型包括数据融合网络和数据预测网络;
基于所述数据融合网络将所述第一视频特征及其对应的第一预设码率参数进行数据关联,得到第一数据输入对;
基于所述数据预测网络根据所述第一数据输入对进行数据预测,得到所述多媒体数据编码模型输出的所述视频码率真值和所述视频质量评估真值。
在一个可选的示例中,确定模块603还用于:
以所述视频码率真值和所述视频质量评估真值为数据输出对构建参数预测曲线;
按照所述参数预测曲线的第一个数据点依次到最后一个数据点进行斜率计算,得到所述参数预测曲线的所有斜率值;一个数据点为一个数据输出对;
基于所述参数预测曲线的所有斜率值预测所述目标码率参数。
在一个可选的示例中,确定模块603还用于:
根据所述参数预测曲线中第一个数据点的斜率值,依次到所述参数预测曲线中最后一个数据点的斜率值,构建预测关系图;
基于所述预测关系图确定目标数据点;所述目标数据点的斜率值大于或者等于其前一个相邻数据点的斜率值,且所述目标数据点的斜率值大于其后一个相邻数据点的斜率值,且所述目标数据点的斜率值与其后一个相邻数据点的斜率值的差值大于预设值;
将所述目标数据点对应的视频码率真值,确定为所述目标码率参数。
本申请提供的多媒体数据编码装置的具体实施例与多媒体数据编码方法各实施例基本相同,在此不作赘述。
在一个可选的示例中,多媒体数据编码装置还包括模型训练模块,用于:
对待训练视频进行特征提取,得到第二视频特征;
基于所述第二视频特征和第二预设码率参数构建第二数据输入对;
基于所述第二预设码率参数和所述待训练视频,计算目标视频码率真值和目标视频质量评估真值;
以所述第二数据输入对为模型输入,以所述目标视频码率真值和所述目标视频质量评估真值为模型输出进行模型训练,得到所述多媒体数据编码模型。
在一个可选的示例中,模型训练模块还用于:
对所述待训练视频进行视频增强处理,得到增强后训练视频;
基于所述第二预设码率参数对所述增强后训练视频进行转码处理,得到转码后训练视频;
基于所述转码后训练视频计算所述目标视频码率真值和所述目标视频质量评估真值。
在一个可选的示例中,模型训练模块还用于:
获取预设码率参数编码区间和码率参数编码间隔;
根据所述预设码率参数编码间隔对所述码率参数编码区间进行划分,得到多个所述第二预设码率参数;
基于多个所述第二预设码率参数对所述增强后训练视频进行转码处理,得到所述转码后训练视频。
在一个可选的示例中,模型训练模块还用于:
对所述待训练视频进行帧间差分、颜色空间转换和降低分辨率的预处理操作,得到第一预处理视频;
对所述第一预处理视频进行对比度调整、亮度增强和直方图均衡化增强处理,得到第二预处理视频;
对所述第二预处理视频进行去噪声和去抖动处理,得到第三预处理视频;
对所述第三预处理视频进行超分辨率重建和色彩校正处理,得到所述增强后训练视频。
在一个可选的示例中,模型训练模块还用于:
对所述待训练视频进行时域空域特征提取,得到时域复杂度特征、空域复杂度特征和视频通道熵特征;
对所述待训练视频进行纹理特征提取,得到纹理特征;
对所述训练视频进行码流特征提取,得到视频帧率特征、视频码率特征和运动向量特征;
对所述训练视频进行码流特征提取,得到场景特征;
将所述时域复杂度特征、所述空域复杂度特征、所述视频通道熵特征、所述纹理特征、所述视频帧率特征、所述视频码率特征、所述运动向量特征和所述场景特征,确定为所述第二视频特征。
本申请提供的多媒体数据编码装置的具体实施例与多媒体数据编码方法各实施例基本相同,在此不作赘述。
可选的,如图7所示,图7为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括:处理器(processor)710、通信接口(Communication Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的计算机程序,以执行多媒体数据编码方法的步骤,例如包括:
对待编码多媒体数据进行特征提取,得到第一视频特征;
根据所述第一视频特征及其对应的第一预设码率参数,预测所述待编码多媒体数据的视频码率真值和视频质量评估真值;
根据所述视频码率真值和所述视频质量评估真值,确定所述待编码多媒体数据的目标码率参数;
基于所述目标码率参数对所述待编码多媒体数据进行编码。
在一可选实施例中,根据所述视频码率真值和所述视频质量评估真值,确定所述待编码多媒体数据的目标码率参数,包括:
以所述视频码率真值和所述视频质量评估真值为数据输出对构建参数预测曲线;
按照所述参数预测曲线的第一个数据点依次到最后一个数据点进行斜率计算,得到所述参数预测曲线的所有斜率值;一个数据点为一个数据输出对;
基于所述参数预测曲线的所有斜率值预测所述目标码率参数。
在一可选实施例中,基于所述参数预测曲线的所有斜率值预测所述目标码率参数,包括:
根据所述参数预测曲线中第一个数据点的斜率值,依次到所述参数预测曲线中最后一个数据点的斜率值,构建预测关系图;
基于所述预测关系图确定目标数据点;所述目标数据点的斜率值大于或者等于其前一个相邻数据点的斜率值,且所述目标数据点的斜率值大于其后一个相邻数据点的斜率值,且所述目标数据点的斜率值与其后一个相邻数据点的斜率值的差值大于预设值;
将所述目标数据点对应的视频码率真值,确定为所述目标码率参数。
在一可选实施例中,根据所述第一视频特征及其对应的第一预设码率参数,预测所述待编码多媒体数据的视频码率真值和视频质量评估真值,包括:
将所述第一视频特征及其对应的第一预设码率参数输入至多媒体数据编码模型;所述多媒体数据编码模型包括数据融合网络和数据预测网络;
基于所述数据融合网络将所述第一视频特征及其对应的第一预设码率参数进行数据关联,得到第一数据输入对;
基于所述数据预测网络根据所述第一数据输入对进行数据预测,得到所述多媒体数据编码模型输出的所述视频码率真值和所述视频质量评估真值。
在一可选实施例中,训练所述多媒体数据编码模型的具体步骤包括:
对待训练视频进行特征提取,得到第二视频特征;
基于所述第二视频特征和第二预设码率参数构建第二数据输入对;
基于所述第二预设码率参数和所述待训练视频,计算目标视频码率真值和目标视频质量评估真值;
以所述第二数据输入对为模型输入,以所述目标视频码率真值和所述目标视频质量评估真值为模型输出进行模型训练,得到所述多媒体数据编码模型。
在一可选实施例中,基于所述第二预设码率参数和所述待训练视频,计算目标视频码率真值和目标视频质量评估真值,包括:
对所述待训练视频进行视频增强处理,得到增强后训练视频;
基于所述第二预设码率参数对所述增强后训练视频进行转码处理,得到转码后训练视频;
基于所述转码后训练视频计算所述目标视频码率真值和所述目标视频质量评估真值。
在一可选实施例中,基于所述第二预设码率参数对所述增强后训练视频进行转码处理,得到转码后训练视频,包括:
获取预设码率参数编码区间和码率参数编码间隔;
根据所述预设码率参数编码间隔对所述码率参数编码区间进行划分,得到多个所述第二预设码率参数;
基于多个所述第二预设码率参数对所述增强后训练视频进行转码处理,得到所述转码后训练视频。
在一可选实施例中,对所述待训练视频进行视频增强处理,得到增强后训练视频,包括:
对所述待训练视频进行帧间差分、颜色空间转换和降低分辨率的预处理操作,得到第一预处理视频;
对所述第一预处理视频进行对比度调整、亮度增强和直方图均衡化增强处理,得到第二预处理视频;
对所述第二预处理视频进行去噪声和去抖动处理,得到第三预处理视频;
对所述第三预处理视频进行超分辨率重建和色彩校正处理,得到所述增强后训练视频。
在一可选实施例中,对待训练视频进行特征提取,得到第二视频特征,包括:
对所述待训练视频进行时域空域特征提取,得到时域复杂度特征、空域复杂度特征和视频通道熵特征;
对所述待训练视频进行纹理特征提取,得到纹理特征;
对所述训练视频进行码流特征提取,得到视频帧率特征、视频码率特征和运动向量特征;
对所述训练视频进行码流特征提取,得到场景特征;
将所述时域复杂度特征、所述空域复杂度特征、所述视频通道熵特征、所述纹理特征、所述视频帧率特征、所述视频码率特征、所述运动向量特征和所述场景特征,确定为所述第二视频特征。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本申请实施例还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质包括计算机程序,所述计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各实施例所提供的多媒体数据编码方法的步骤,例如包括:
对待编码多媒体数据进行特征提取,得到第一视频特征;
根据所述第一视频特征及其对应的第一预设码率参数,预测所述待编码多媒体数据的视频码率真值和视频质量评估真值;
根据所述视频码率真值和所述视频质量评估真值,确定所述待编码多媒体数据的目标码率参数;
基于所述目标码率参数对所述待编码多媒体数据进行编码。
在一可选实施例中,根据所述视频码率真值和所述视频质量评估真值,确定所述待编码多媒体数据的目标码率参数,包括:
以所述视频码率真值和所述视频质量评估真值为数据输出对构建参数预测曲线;
按照所述参数预测曲线的第一个数据点依次到最后一个数据点进行斜率计算,得到所述参数预测曲线的所有斜率值;一个数据点为一个数据输出对;
基于所述参数预测曲线的所有斜率值预测所述目标码率参数。
在一可选实施例中,基于所述参数预测曲线的所有斜率值预测所述目标码率参数,包括:
根据所述参数预测曲线中第一个数据点的斜率值,依次到所述参数预测曲线中最后一个数据点的斜率值,构建预测关系图;
基于所述预测关系图确定目标数据点;所述目标数据点的斜率值大于或者等于其前一个相邻数据点的斜率值,且所述目标数据点的斜率值大于其后一个相邻数据点的斜率值,且所述目标数据点的斜率值与其后一个相邻数据点的斜率值的差值大于预设值;
将所述目标数据点对应的视频码率真值,确定为所述目标码率参数。
在一可选实施例中,根据所述第一视频特征及其对应的第一预设码率参数,预测所述待编码多媒体数据的视频码率真值和视频质量评估真值,包括:
将所述第一视频特征及其对应的第一预设码率参数输入至多媒体数据编码模型;所述多媒体数据编码模型包括数据融合网络和数据预测网络;
基于所述数据融合网络将所述第一视频特征及其对应的第一预设码率参数进行数据关联,得到第一数据输入对;
基于所述数据预测网络根据所述第一数据输入对进行数据预测,得到所述多媒体数据编码模型输出的所述视频码率真值和所述视频质量评估真值。
在一可选实施例中,训练所述多媒体数据编码模型的具体步骤包括:
对待训练视频进行特征提取,得到第二视频特征;
基于所述第二视频特征和第二预设码率参数构建第二数据输入对;
基于所述第二预设码率参数和所述待训练视频,计算目标视频码率真值和目标视频质量评估真值;
以所述第二数据输入对为模型输入,以所述目标视频码率真值和所述目标视频质量评估真值为模型输出进行模型训练,得到所述多媒体数据编码模型。
在一可选实施例中,基于所述第二预设码率参数和所述待训练视频,计算目标视频码率真值和目标视频质量评估真值,包括:
对所述待训练视频进行视频增强处理,得到增强后训练视频;
基于所述第二预设码率参数对所述增强后训练视频进行转码处理,得到转码后训练视频;
基于所述转码后训练视频计算所述目标视频码率真值和所述目标视频质量评估真值。
在一可选实施例中,基于所述第二预设码率参数对所述增强后训练视频进行转码处理,得到转码后训练视频,包括:
获取预设码率参数编码区间和码率参数编码间隔;
根据所述预设码率参数编码间隔对所述码率参数编码区间进行划分,得到多个所述第二预设码率参数;
基于多个所述第二预设码率参数对所述增强后训练视频进行转码处理,得到所述转码后训练视频。
在一可选实施例中,对所述待训练视频进行视频增强处理,得到增强后训练视频,包括:
对所述待训练视频进行帧间差分、颜色空间转换和降低分辨率的预处理操作,得到第一预处理视频;
对所述第一预处理视频进行对比度调整、亮度增强和直方图均衡化增强处理,得到第二预处理视频;
对所述第二预处理视频进行去噪声和去抖动处理,得到第三预处理视频;
对所述第三预处理视频进行超分辨率重建和色彩校正处理,得到所述增强后训练视频。
在一可选实施例中,对待训练视频进行特征提取,得到第二视频特征,包括:
对所述待训练视频进行时域空域特征提取,得到时域复杂度特征、空域复杂度特征和视频通道熵特征;
对所述待训练视频进行纹理特征提取,得到纹理特征;
对所述训练视频进行码流特征提取,得到视频帧率特征、视频码率特征和运动向量特征;
对所述训练视频进行码流特征提取,得到场景特征;
将所述时域复杂度特征、所述空域复杂度特征、所述视频通道熵特征、所述纹理特征、所述视频帧率特征、所述视频码率特征、所述运动向量特征和所述场景特征,确定为所述第二视频特征。
又一方面,本申请实施例还提供一种计算机产品,计算机产品包括计算机程序,计算机程序可存储在计算机产品上,所述计算机程序被处理器执行时,计算机能够执行上述各实施例所提供的多媒体数据编码方法的步骤,例如包括:
对待编码多媒体数据进行特征提取,得到第一视频特征;
根据所述第一视频特征及其对应的第一预设码率参数,预测所述待编码多媒体数据的视频码率真值和视频质量评估真值;
根据所述视频码率真值和所述视频质量评估真值,确定所述待编码多媒体数据的目标码率参数;
基于所述目标码率参数对所述待编码多媒体数据进行编码。
在一可选实施例中,根据所述视频码率真值和所述视频质量评估真值,确定所述待编码多媒体数据的目标码率参数,包括:
以所述视频码率真值和所述视频质量评估真值为数据输出对构建参数预测曲线;
按照所述参数预测曲线的第一个数据点依次到最后一个数据点进行斜率计算,得到所述参数预测曲线的所有斜率值;一个数据点为一个数据输出对;
基于所述参数预测曲线的所有斜率值预测所述目标码率参数。
在一可选实施例中,基于所述参数预测曲线的所有斜率值预测所述目标码率参数,包括:
根据所述参数预测曲线中第一个数据点的斜率值,依次到所述参数预测曲线中最后一个数据点的斜率值,构建预测关系图;
基于所述预测关系图确定目标数据点;所述目标数据点的斜率值大于或者等于其前一个相邻数据点的斜率值,且所述目标数据点的斜率值大于其后一个相邻数据点的斜率值,且所述目标数据点的斜率值与其后一个相邻数据点的斜率值的差值大于预设值;
将所述目标数据点对应的视频码率真值,确定为所述目标码率参数。
在一可选实施例中,根据所述第一视频特征及其对应的第一预设码率参数,预测所述待编码多媒体数据的视频码率真值和视频质量评估真值,包括:
将所述第一视频特征及其对应的第一预设码率参数输入至多媒体数据编码模型;所述多媒体数据编码模型包括数据融合网络和数据预测网络;
基于所述数据融合网络将所述第一视频特征及其对应的第一预设码率参数进行数据关联,得到第一数据输入对;
基于所述数据预测网络根据所述第一数据输入对进行数据预测,得到所述多媒体数据编码模型输出的所述视频码率真值和所述视频质量评估真值。
在一可选实施例中,训练所述多媒体数据编码模型的具体步骤包括:
对待训练视频进行特征提取,得到第二视频特征;
基于所述第二视频特征和第二预设码率参数构建第二数据输入对;
基于所述第二预设码率参数和所述待训练视频,计算目标视频码率真值和目标视频质量评估真值;
以所述第二数据输入对为模型输入,以所述目标视频码率真值和所述目标视频质量评估真值为模型输出进行模型训练,得到所述多媒体数据编码模型。
在一可选实施例中,基于所述第二预设码率参数和所述待训练视频,计算目标视频码率真值和目标视频质量评估真值,包括:
对所述待训练视频进行视频增强处理,得到增强后训练视频;
基于所述第二预设码率参数对所述增强后训练视频进行转码处理,得到转码后训练视频;
基于所述转码后训练视频计算所述目标视频码率真值和所述目标视频质量评估真值。
在一可选实施例中,基于所述第二预设码率参数对所述增强后训练视频进行转码处理,得到转码后训练视频,包括:
获取预设码率参数编码区间和码率参数编码间隔;
根据所述预设码率参数编码间隔对所述码率参数编码区间进行划分,得到多个所述第二预设码率参数;
基于多个所述第二预设码率参数对所述增强后训练视频进行转码处理,得到所述转码后训练视频。
在一可选实施例中,对所述待训练视频进行视频增强处理,得到增强后训练视频,包括:
对所述待训练视频进行帧间差分、颜色空间转换和降低分辨率的预处理操作,得到第一预处理视频;
对所述第一预处理视频进行对比度调整、亮度增强和直方图均衡化增强处理,得到第二预处理视频;
对所述第二预处理视频进行去噪声和去抖动处理,得到第三预处理视频;
对所述第三预处理视频进行超分辨率重建和色彩校正处理,得到所述增强后训练视频。
在一可选实施例中,对待训练视频进行特征提取,得到第二视频特征,包括:
对所述待训练视频进行时域空域特征提取,得到时域复杂度特征、空域复杂度特征和视频通道熵特征;
对所述待训练视频进行纹理特征提取,得到纹理特征;
对所述训练视频进行码流特征提取,得到视频帧率特征、视频码率特征和运动向量特征;
对所述训练视频进行码流特征提取,得到场景特征;
将所述时域复杂度特征、所述空域复杂度特征、所述视频通道熵特征、所述纹理特征、所述视频帧率特征、所述视频码率特征、所述运动向量特征和所述场景特征,确定为所述第二视频特征。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (12)

1.一种多媒体数据编码方法,其特征在于,包括:
对待编码多媒体数据进行特征提取,得到第一视频特征;
根据所述第一视频特征及其对应的第一预设码率参数,预测所述待编码多媒体数据的视频码率真值和视频质量评估真值;
根据所述视频码率真值和所述视频质量评估真值,确定所述待编码多媒体数据的目标码率参数;
基于所述目标码率参数对所述待编码多媒体数据进行编码。
2.根据权利要求1所述多媒体数据编码方法,其特征在于,所述根据所述视频码率真值和所述视频质量评估真值,确定所述待编码多媒体数据的目标码率参数,包括:
以所述视频码率真值和所述视频质量评估真值为数据输出对构建参数预测曲线;
按照所述参数预测曲线的第一个数据点依次到最后一个数据点进行斜率计算,得到所述参数预测曲线的所有斜率值;一个数据点为一个数据输出对;
基于所述参数预测曲线的所有斜率值预测所述目标码率参数。
3.根据权利要求2所述多媒体数据编码方法,其特征在于,所述基于所述参数预测曲线的所有斜率值预测所述目标码率参数,包括:
根据所述参数预测曲线中第一个数据点的斜率值,依次到所述参数预测曲线中最后一个数据点的斜率值,构建预测关系图;
基于所述预测关系图确定目标数据点;所述目标数据点的斜率值大于或者等于其前一个相邻数据点的斜率值,且所述目标数据点的斜率值大于其后一个相邻数据点的斜率值,且所述目标数据点的斜率值与其后一个相邻数据点的斜率值的差值大于预设值;
将所述目标数据点对应的视频码率真值,确定为所述目标码率参数。
4.根据权利要求1所述多媒体数据编码方法,其特征在于,所述根据所述第一视频特征及其对应的第一预设码率参数,预测所述待编码多媒体数据的视频码率真值和视频质量评估真值,包括:
将所述第一视频特征及其对应的第一预设码率参数输入至多媒体数据编码模型;所述多媒体数据编码模型包括数据融合网络和数据预测网络;
基于所述数据融合网络将所述第一视频特征及其对应的第一预设码率参数进行数据关联,得到第一数据输入对;
基于所述数据预测网络根据所述第一数据输入对进行数据预测,得到所述多媒体数据编码模型输出的所述视频码率真值和所述视频质量评估真值
5.根据权利要求4所述多媒体数据编码方法,其特征在于,训练所述多媒体数据编码模型的具体步骤包括:
对待训练视频进行特征提取,得到第二视频特征;
基于所述第二视频特征和第二预设码率参数构建第二数据输入对;
基于所述第二预设码率参数和所述待训练视频,计算目标视频码率真值和目标视频质量评估真值;
以所述第二数据输入对为模型输入,以所述目标视频码率真值和所述目标视频质量评估真值为模型输出进行模型训练,得到所述多媒体数据编码模型。
6.根据权利要求5所述多媒体数据编码方法,其特征在于,所述基于所述第二预设码率参数和所述待训练视频,计算目标视频码率真值和目标视频质量评估真值,包括:
对所述待训练视频进行视频增强处理,得到增强后训练视频;
基于所述第二预设码率参数对所述增强后训练视频进行转码处理,得到转码后训练视频;
基于所述转码后训练视频计算所述目标视频码率真值和所述目标视频质量评估真值。
7.根据权利要求6所述多媒体数据编码方法,其特征在于,所述基于所述第二预设码率参数对所述增强后训练视频进行转码处理,得到转码后训练视频,包括:
获取预设码率参数编码区间和码率参数编码间隔;
根据所述预设码率参数编码间隔对所述码率参数编码区间进行划分,得到多个所述第二预设码率参数;
基于多个所述第二预设码率参数对所述增强后训练视频进行转码处理,得到所述转码后训练视频。
8.根据权利要求6所述多媒体数据编码方法,其特征在于,所述对所述待训练视频进行视频增强处理,得到增强后训练视频,包括:
对所述待训练视频进行帧间差分、颜色空间转换和降低分辨率的预处理操作,得到第一预处理视频;
对所述第一预处理视频进行对比度调整、亮度增强和直方图均衡化增强处理,得到第二预处理视频;
对所述第二预处理视频进行去噪声和去抖动处理,得到第三预处理视频;
对所述第三预处理视频进行超分辨率重建和色彩校正处理,得到所述增强后训练视频。
9.根据权利要求5至8任一项所述多媒体数据编码方法,其特征在于,所述对待训练视频进行特征提取,得到第二视频特征,包括:
对所述待训练视频进行时域空域特征提取,得到时域复杂度特征、空域复杂度特征和视频通道熵特征;
对所述待训练视频进行纹理特征提取,得到纹理特征;
对所述训练视频进行码流特征提取,得到视频帧率特征、视频码率特征和运动向量特征;
对所述训练视频进行码流特征提取,得到场景特征;
将所述时域复杂度特征、所述空域复杂度特征、所述视频通道熵特征、所述纹理特征、所述视频帧率特征、所述视频码率特征、所述运动向量特征和所述场景特征,确定为所述第二视频特征。
10.一种多媒体数据编码装置,其特征在于,包括:
特征提取模块,用于对待编码多媒体数据进行特征提取,得到第一视频特征;
数据预测模块,用于根据所述第一视频特征及其对应的第一预设码率参数,预测所述待编码多媒体数据的视频码率真值和视频质量评估真值;
确定模块,用于根据所述视频码率真值和所述视频质量评估真值,确定所述待编码多媒体数据的目标码率参数;
数据编码模块,用于基于所述目标码率参数对所述待编码多媒体数据进行编码。
11.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行如权利要求1至9任一项所述的多媒体数据编码方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行如权利要求1至9任一项所述的多媒体数据编码方法。
CN202311436750.9A 2023-10-31 2023-10-31 多媒体数据编码方法、装置、电子设备及存储介质 Pending CN117478886A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311436750.9A CN117478886A (zh) 2023-10-31 2023-10-31 多媒体数据编码方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311436750.9A CN117478886A (zh) 2023-10-31 2023-10-31 多媒体数据编码方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117478886A true CN117478886A (zh) 2024-01-30

Family

ID=89627006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311436750.9A Pending CN117478886A (zh) 2023-10-31 2023-10-31 多媒体数据编码方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117478886A (zh)

Similar Documents

Publication Publication Date Title
JP6928041B2 (ja) 動画を処理するための方法および装置
US11310509B2 (en) Method and apparatus for applying deep learning techniques in video coding, restoration and video quality analysis (VQA)
Liu et al. Deep learning-based picture-wise just noticeable distortion prediction model for image compression
Mittal et al. Sync-draw: Automatic video generation using deep recurrent attentive architectures
Gu et al. Automatic contrast enhancement technology with saliency preservation
CN111382555B (zh) 数据处理方法、介质、装置和计算设备
CN113658051A (zh) 一种基于循环生成对抗网络的图像去雾方法及系统
CN110807757B (zh) 基于人工智能的图像质量评估方法、装置及计算机设备
CN110944200B (zh) 一种评估沉浸式视频转码方案的方法
CN110674673A (zh) 一种关键视频帧抽取方法、装置和存储介质
CN107454412A (zh) 一种视频图像的处理方法、装置及系统
CN116939320B (zh) 一种生成式多模态互利增强视频语义通信方法
CN114723760A (zh) 人像分割模型的训练方法、装置及人像分割方法、装置
CN116205820A (zh) 图像增强方法、目标识别方法、设备及介质
CN116233445A (zh) 视频的编解码处理方法、装置、计算机设备和存储介质
JP2024511103A (ja) 近似値に基づいて画像又はビデオの品質を評価する方法及び装置、第1のモデルの訓練方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
Athar et al. Degraded reference image quality assessment
CN114268792A (zh) 视频转码方案的确定方法及装置和视频转码方法及装置
CN113012073A (zh) 视频质量提升模型的训练方法和装置
CN109219960B (zh) 视频编码质量平滑度的优化方法、装置、设备及存储介质
Vishwakarma et al. No-reference video quality assessment using local structural and quality-aware deep features
CN117478886A (zh) 多媒体数据编码方法、装置、电子设备及存储介质
CN113949880B (zh) 一种极低码率人机协同图像编码训练方法及编解码方法
CN113542780B (zh) 一种网络直播视频的压缩伪影去除方法及装置
Gao et al. Rate-distortion optimization for cross modal compression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination