CN115379229A - 内容自适应视频编码方法及装置 - Google Patents
内容自适应视频编码方法及装置 Download PDFInfo
- Publication number
- CN115379229A CN115379229A CN202210855085.6A CN202210855085A CN115379229A CN 115379229 A CN115379229 A CN 115379229A CN 202210855085 A CN202210855085 A CN 202210855085A CN 115379229 A CN115379229 A CN 115379229A
- Authority
- CN
- China
- Prior art keywords
- video
- sample
- coding
- machine learning
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000003044 adaptive effect Effects 0.000 title claims description 34
- 238000010801 machine learning Methods 0.000 claims abstract description 63
- 238000004458 analytical method Methods 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 102100037812 Medium-wave-sensitive opsin 1 Human genes 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/149—Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/154—Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/59—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请实施例公开了一种内容自适应视频编码方法及装置,该方法包括:获取待编码视频的特征信息,所述特征信息包括所述待编码视频的预分析信息和视频固有特征信息;提取所述特征信息中记录的视频特征,将所述视频特征以及设置的目标分数值输入至预先训练的机器学习模型中输出视频编码参数;基于所述视频编码参数对所述待编码视频进行编码。本方案,在无需对视频进行编码的情况下,实现了基于视频内容的高效的自适应编码,同时满足实时性要求,能够更好的适应不同的视频场景以及视频内容频繁变化的情况。
Description
技术领域
本申请实施例涉及视频编码技术领域,尤其涉及一种内容自适应视频编码方法及装置。
背景技术
随着互联网与视频编码技术的不断发展,越来越多的用户选择在各种终端设备上在线观看短视频与直播。大部分的视频转码系统使用常见的码率控制模式(如恒定码率编码模式),以求得码率和视频质量的均衡,但是这种方式并没有充分考虑观众对于视频的主观感受。用户对于视频的主观感受存在很大差别,相对于视频运动剧烈的部分,人眼对于运动缓慢部分的失真更为敏感,因此基于恒定质量因子进行视频编码的方式被逐渐应用。
在传统的编码技术框架中,一般会根据通用编码配置表对每个源视频产生多个分辨率和对应编码参数(如码率,恒定质量因子值等)组合的版本,用户可以根据个人喜好、网络状况等自身实际情况选择合适的版本来满足个人的观看需求。然而该种方式,往往只考虑了网络带宽、分辨率等因素,无法根据视频本身的特性做出相应的调整。同时,由于不同类别的视频,内容复杂度往往差异巨大,提前设置好的参数对于体育竞技类的复杂运动视频,可能因为编码后的码率过低导致丢失细节较多,而对于类似幻灯片的简单视频,又可能因为编码后的码率过高造成浪费。
发明内容
本申请实施例提供了一种内容自适应视频编码方法及装置,在无需对视频进行编码的情况下,实现了基于视频内容的高效的自适应编码,同时满足实时性要求,能够更好的适应不同的视频场景以及视频内容频繁变化的情况。
第一方面,本申请实施例提供了一种内容自适应视频编码方法,该方法包括:
获取待编码视频的特征信息,所述特征信息包括所述待编码视频的预分析信息和视频固有特征信息;
提取所述特征信息中记录的视频特征,将所述视频特征以及设置的目标分数值输入至预先训练的机器学习模型中输出视频编码参数;
基于所述视频编码参数对所述待编码视频进行编码。
第二方面,本申请实施例还提供了一种内容自适应视频编码装置,包括:
特征信息获取模块,配置为获取待编码视频的特征信息,所述特征信息包括所述待编码视频的预分析信息和视频固有特征信息;
编码参数确定模块,配置为提取所述特征信息中记录的视频特征,将所述视频特征以及设置的目标分数值输入至预先训练的机器学习模型中输出视频编码参数;
视频编码模块,配置为基于所述视频编码参数对所述待编码视频进行编码。
第三方面,本申请实施例还提供了一种内容自适应视频编码设备,该设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本申请实施例所述的内容自适应视频编码方法。
第四方面,本申请实施例还提供了一种存储计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本申请实施例所述的内容自适应视频编码方法。
第五方面,本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中,设备的至少一个处理器从计算机可读存储介质读取并执行计算机程序,使得设备执行本申请实施例所述的内容自适应视频编码方法。
本申请实施例中,通过获取待编码视频的特征信息,该特征信息包括待编码视频的预分析信息和视频固有特征信息,提取特征信息中记录的视频特征,将视频特征以及设置的目标分数值输入至预先训练的机器学习模型中输出视频编码参数,再基于视频编码参数对所述待编码视频进行编码。本方案,在无需对视频进行编码的情况下,实现了基于视频内容的高效的自适应编码,同时满足实时性要求,能够更好的适应不同的视频场景以及视频内容频繁变化的情况。
附图说明
图1为本申请实施例提供的一种内容自适应视频编码方法的流程图;
图2为本申请实施例提供的一种基于特征信息确定视频编码参数的方法的流程图;
图3为本申请实施例提供的一种确定预分析信息的方法的流程图;
图4为本申请实施例提供的一种基于机器学习模型输出视频编码参数的方法的流程图;
图5为本申请实施例提供的一种进行机器学习模型训练的方法的流程图;
图6为本申请实施例提供的一种内容自适应视频编码装置的结构框图;
图7为本申请实施例提供的一种内容自适应视频编码设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请实施例,而非对本申请实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请实施例相关的部分而非全部结构。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本申请实施例提供的一种内容自适应视频编码方法的流程图,可用于对视频进行编码控制处理,该方法可以由计算设备如服务器、智能终端、笔记本、平板电脑等来执行,具体包括如下步骤:
步骤S101、获取待编码视频的特征信息,所述特征信息包括所述待编码视频的预分析信息和视频固有特征信息。
其中,该待编码视频为需要进行编码以进行存储、传输等处理的视频。示例性的,可以是终端设备生成的直播视频。
在一个实施例中,进行待编码视频的转码时,首先获取该待编码视频的特征信息。其中,该特征信息可以是待编码视频的预分析信息和视频固有特征信息。该特征信息用于表征待编码视频的特征,通常不同的待编码视频对应不同的特征信息。其中,该预分析信息和视频固有特征信息均为待编码视频在编码前可以获取到的信息。可选的,该预分析信息可以是在对待编码视频进行预处理时获取的特征,该视频固有特征信息可以是待编码视频自身的特征,如分辨率。
步骤S102、提取所述特征信息中记录的视频特征,将所述视频特征以及设置的目标分数值输入至预先训练的机器学习模型中输出视频编码参数。
在一个实施例中,在获取到特征信息后,提取该特征信息中记录的视频特征,并将该视频特征以及设置的目标分数值输入至预先训练的机器学习模型中输出视频编码参数。其中,该目标分数值表征视频质量,可选的,目标分数值越高视频质量越高,目标分数值越低,视频质量越低。
可选的,在将视频特征以及设置的目标分数值输入至预先训练的机器学习模型中输出视频编码参数之前,还包括:对待编码视频的目标分数值进行设置,其中,不同的目标分数值对应不同的视频质量。在一个实施例中,该目标分数值示例性的可以是VMAF(VideoMultimethod Assessment Fusion,视频多方法评估融合)分数值。在进行视频编码时,可预先输入该目标分数值,该目标分数值可根据用户或工作人员的设置或修改而更改。
在一个实施例中,该预先训练的机器学习模型在前期通过训练完成,以视频特征以及设置的目标分数值为输入,输出对应的视频编码参数。该视频编码参数表征视频编码过程对视频编码进行控制的参量,示例性的,x264和x265编码器为例,该视频编码参数可以是CRF(Constant Rate Factor,恒定质量因子)值,在视频编码过程中基于该CRF值进行码率控制,以实现不同码率下的视频编码。
步骤S103、基于所述视频编码参数对所述待编码视频进行编码。
在一个实施例中,在确定出视频编码参数后,基于该视频编码参数进行待编码视频的编码,以最终完成视频编码过程。
由上述方案可知,通过获取待编码视频的特征信息,该特征信息包括待编码视频的预分析信息和视频固有特征信息,提取特征信息中记录的视频特征,将视频特征以及设置的目标分数值输入至预先训练的机器学习模型中输出视频编码参数,再基于视频编码参数对所述待编码视频进行编码。本方案,在无需对视频进行编码的情况下,实现了基于视频内容的高效的自适应编码,同时满足实时性要求,能够更好的适应不同的视频场景以及视频内容频繁变化的情况。
图2为本申请实施例提供的一种基于特征信息确定视频编码参数的方法的流程图,如图2所示,具体包括:
步骤S201、获取待编码视频的特征信息,所述特征信息包括所述待编码视频的预分析信息和视频固有特征信息。
步骤S202、提取所述预分析信息中记录的第一视频特征,以及所述视频固有特征信息中记录的第二视频特征,将所述第一视频特征、所述第二视频特征以及设置的目标分数值输入至预先训练的机器学习模型中输出视频编码参数。
在一个实施例中,以特征信息为待编码视频的预分析信息和视频固有特征信息为例。提取预分析信息中记录的第一视频特征,以及视频固有特征信息中记录的第二视频特征,将该第一视频特征和第二视频特征以及设置的目标分数值输入至预先训练的机器学习模型中输出视频编码参数。
其中,该预分析信息可以是对待编码视频进行预处理时得到的信息,如对其中任意一张或多张图像帧进行识别得到的信息。该视频固有特征信息示例性的可以是转码分辨率、源视频分辨率等。
在一个实施例中,可以是在对待编码视频进行预处理时相应的进行预分析信息的记录,以及在获取到待编码视频时,进行其转码分辨率、源视频分辨率的记录。进行第一视频特征和第二视频特征的确定时,从该预分析信息和视频固有特征信息的记录中进行相应字段内容的提取得到第一视频特征和第二视频特征。
步骤S203、基于所述视频编码参数对所述待编码视频进行编码。
由上述可知,在对待编码视频进行编码时,依据该待编码视频的预分析信息和视频固有特征信息得到第一视频特征和第二视频特征,在基于该第一视频特征和第二视频特征作为输入以最终输出视频编码参数,无需对视频进行编码的情况下,实现了基于视频内容的高效的自适应编码,能够更好的适应不同的视频场景以及视频内容频繁变化的情况。
图3为本申请实施例提供的一种确定预分析信息的方法的流程图,如图3所示,具体包括:
步骤S301、获取待编码视频中的预设长度的连续帧图像,基于所述连续帧图像进行预分析和探测处理得到所述视频编码预分析信息。
在一个实施例中,对该待编码视频的预分析信息进行了进一步限定。可选的,可以是获取待编码视频中的预设长度的连续帧图像,基于连续帧图像进行预分析和探测处理得到视频编码预分析信息。其中,该预设长度示例性的可以是4。
在一个实施例中,该预分析信息可以是对连续帧图像进行预分析和探测处理得到的视频编码预分析信息。如针对一个GOP(Group Of Pictures,一组连续帧图像)进行Lookahead探测得到相关信息。其中,在Lookahead阶段,其主要作用为决定输入帧的类型以及计算MB-tree。可选的,以x264编码器为例,当一帧图像被传入x264编码器中预设的x264_encoder_encoode函数后,该帧图像会被加入到h->lookahead->next中,并且该帧图像的类型会被标记为自动类型,此时Lookahead线程开始异步计算,最终针对一组输入的连续帧图像输出一串BBBPBPP的帧序列,并最终得到如帧类型、cutree参数(用于根据当前块被参考的程度调整量化偏移的参数)、编码代价等信息的记录作为特征。
步骤S302、获取该视频编码预分析信息,以及视频固有特征信息。
步骤S303、提取所述特征信息中记录的视频特征,将所述视频特征以及设置的目标分数值输入至预先训练的机器学习模型中输出视频编码参数。
步骤S304、基于所述视频编码参数对所述待编码视频进行编码。
在一个实施例中,针对待编码视频而言,针对每组GOP分别获取其Lookahead信息作为预分析信息,在确定出最终的视频编码参数,基于该视频编码参数进行该组GOP图像的编码,依次类推直到待编码视频的所有图像编码完毕为止。
由上述可知,在进行视频编码过程中,通过获取待编码视频中的预设长度的连续帧图像,基于连续帧图像进行预分析和探测处理得到视频编码预分析信息,可以是在不进行视频编码的情况下,快速的进行待编码视频的信息预测,并进而用于后续视频编码参数的确定,保证了视频编码的实时性,可以适用于直播等实时性要求高的场景。
图4为本申请实施例提供的一种基于机器学习模型输出视频编码参数的方法的流程图,如图4所示,具体包括:
步骤S401、获取待编码视频的特征信息,所述特征信息包括所述待编码视频的预分析信息和视频固有特征信息;
步骤S402、提取所述特征信息中记录的视频特征,将所述视频特征以及设置的目标分数值分别输入第一机器学习模型和第二机器学习模型,得到第一视频编码参数和第二视频编码参数。
其中,第一机器学习模型和第二机器学习模型为不同的机器学习模型。可选的,该第一机器学习模型可以是LightGBM模型,该第二机器学习模型可以是XGBoost模型。相应的,通过该第一机器学习模型输出的第一视频编码参数可以记为CRFLGB,通过该第二机器学习模型输出的第二视频编码参数可以记为CRFXGB。
步骤S403、对所述第一视频编码参数和所述第二视频编码参数进行加权平均得到视频编码参数,基于所述视频编码参数对所述待编码视频进行编码。
在一个实施例中,在获取到第一视频编码参数CRFLGB和第二视频编码参数CRFXGB后,对第一视频编码参数和第二视频编码参数进行加权平均得到视频编码参数。示例性的,具体计算复方式可以是:
λ1*CRFLGB+λ2*CRFXGB
其中,λ1+λ2=1,λi∈[0,1](i=1,2)。
进一步的确定出加权平均得到的视频编码参数后,基于该视频编码参数对待编码视频进行编码。
由上述可知,通过设置两个机器学习模型分别进行视频编码参数的输出,在加权平均得到最终使用的视频编码参数,使得最终确定的视频编码参数更加精确、合理,进一步优化了视频编码过程。
图5为本申请实施例提供的一种进行机器学习模型训练的方法的流程图,如图5所示,具体包括:
步骤S501、获取样本视频数据,确定所述样本视频数据的样本分辨率、样本编码参数以及样本特征,将所述样本分辨率和所述样本编码参数进行组合得到多个样本编码信息。
在一个实施例中,进行机器学习模型训练时,首先进行样本视频数据的收集。其中,为了使机器学习模型更好的适应于直播的生产环境,选取视频作为训练数据时视频尽可能涵盖直播中可能出现的各种场景(如室内唱跳、户外、游戏、静止等等)。以此训练出具有良好泛化性的机器学习模型,在预测时对视频做出较为准确的判断。反之,当预测的视频各种特征与训练视频差异大时,机器学习模型往往会失效并输出误差较大的预测结果。
在得到样本视频数据确定样本视频数据的样本分辨率、样本编码参数以及样本特征,其中,样本特征包括样本数据的特征信息,如预分析信息和视频固有特征信息。
在确定样本分辨率和样本编码参数时,可以是:以样本视频数据的分辨率为最大分辨率,确定包含最大分辨率的多种不同分辨率为样本分辨率;在预设的样本编码参数取值范围内选取多个样本编码参数值作为样本编码参数。如当前一个样本视频数据的分辨率为720*1280,则可以使设置720*1280、540*960、480*854、360*640四种分辨率作为样本分辨率。其中,样本编码参数值可以是CRF值,其取值范围设置为[20,35],取值时可以每间隔0.5进行一个取值,即得到31种不同的CRF取值作为样本编码参数。
在得到样本分辨率和样本编码参数后,对其进行组合,如将四种样本分辨率与31种样本编码参数取值进行两两组合得到124个数据作为样本编码信息。
步骤S502、计算通过每个所述样本编码信息进行所述样本视频数据的编码时得到的编码分数值,基于所述样本特征和所述编码分数值进行机器学习模型的训练。
在一个实施例中,生成样本编码信息后,计算通过每个样本编码信息进行样本视频数据的编码时得到的编码分数值,基于前述确定的样本特征和该编码分数值进行机器学习模型的训练。
具体的,以样本特征和编码分数值作为机器学习模型的训练特征,样本编码参数取值范围的值作为训练标签进行训练,通过训练以得到以待编码视频的特征信息和目标分数值为输入,以视频编码参数为输出的机器学习模型。
步骤S503、获取待编码视频的特征信息,所述特征信息包括所述待编码视频的预分析信息和视频固有特征信息。
步骤S504、提取所述特征信息中记录的视频特征,将所述视频特征以及设置的目标分数值输入至预先训练的机器学习模型中输出视频编码参数。
步骤S505、基于所述视频编码参数对所述待编码视频进行编码。
由上述可知,通过设置多组不同分辨率和编码参数的样本,进行模型训练,其中,样本选取时涉及不同场景画面,使得训练完毕的机器学习模型具有良好泛化性的机器学习模型,在预测时对视频做出较为准确的判断。
图6为本申请实施例提供的一种内容自适应视频编码装置的结构框图,该装置用于执行上述实施例提供的内容自适应视频编码方法,具备执行方法相应的功能模块和有益效果。如图6所示,该装置具体包括:特征信息获取模块101、编码参数确定模块102和视频编码模块103,其中,
特征信息获取模块101,配置为获取待编码视频的特征信息,所述特征信息包括所述待编码视频的预分析信息和视频固有特征信息;
编码参数确定模块102,配置为提取所述特征信息中记录的视频特征,将所述视频特征以及设置的目标分数值输入至预先训练的机器学习模型中输出视频编码参数;
视频编码模块103,配置为基于所述视频编码参数对所述待编码视频进行编码。
由上述方案可知,通过获取待编码视频的特征信息,所述特征信息包括所述待编码视频的预分析信息和视频固有特征信息;提取所述特征信息中记录的视频特征,将所述视频特征以及设置的目标分数值输入至预先训练的机器学习模型中输出视频编码参数;基于所述视频编码参数对所述待编码视频进行编码。本方案,在无需对视频进行编码的情况下,实现了基于视频内容的高效的自适应编码,同时满足实时性要求,能够更好的适应不同的视频场景以及视频内容频繁变化的情况。
在一个可能的实施例中,所述编码参数确定模块102,配置为:
提取所述预分析信息中记录的第一视频特征,以及所述视频固有特征信息中记录的第二视频特征;
将所述第一视频特征、所述第二视频特征以及设置的目标分数值输入至预先训练的机器学习模型中输出视频编码参数。
在一个可能的实施例中,所述预分析信息包括视频编码预分析信息,该装置还包括特征信息生成模块,配置为:
在所述获取待编码视频的特征信息之前,获取待编码视频中的预设长度的连续帧图像;
基于所述连续帧图像进行预分析和探测处理得到所述视频编码预分析信息。
在一个可能的实施例中,该装置还包括分数设置模块,配置为:
在所述将所述视频特征以及设置的目标分数值输入至预先训练的机器学习模型中输出视频编码参数之前,对所述待编码视频的目标分数值进行设置,其中,不同的目标分数值对应不同的视频质量。
在一个可能的实施例中,所述编码参数确定模块102,配置为:
将所述视频特征以及设置的目标分数值分别输入第一机器学习模型和第二机器学习模型,得到第一视频编码参数和第二视频编码参数,其中,所述第一机器学习模型和所述第二机器学习模型为不同的机器学习模型;
对所述第一视频编码参数和所述第二视频编码参数进行加权平均得到视频编码参数。
在一个可能的实施例中,该装置还包括模型训练模块,配置为:
在所述获取待编码视频的特征信息之前,获取样本视频数据,确定所述样本视频数据的样本分辨率、样本编码参数以及样本特征;
将所述样本分辨率和所述样本编码参数进行组合得到多个样本编码信息;
计算通过每个所述样本编码信息进行所述样本视频数据的编码时得到的编码分数值;
基于所述样本特征和所述编码分数值进行机器学习模型的训练。
在一个可能的实施例中,所述模型训练模块,配置为:
以所述样本视频数据的分辨率为最大分辨率,确定包含所述最大分辨率的多种不同分辨率为样本分辨率;
在预设的样本编码参数取值范围内选取多个样本编码参数值作为样本编码参数。
在一个可能的实施例中,所述模型训练模块,配置为:
以所述样本特征和所述编码分数值作为机器学习模型的训练特征,所述样本编码参数取值范围的值作为训练标签进行训练。
图7为本申请实施例提供的一种内容自适应视频编码设备的结构示意图,如图7所示,该设备包括处理器201、存储器202、输入装置203和输出装置204;设备中处理器201的数量可以是一个或多个,图7中以一个处理器201为例;设备中的处理器201、存储器202、输入装置203和输出装置204可以通过总线或其他方式连接,图7中以通过总线连接为例。存储器202作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请实施例中的内容自适应视频编码方法对应的程序指令/模块。处理器201通过运行存储在存储器202中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的内容自适应视频编码方法。输入装置203可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置204可包括显示屏等显示设备。
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种上述实施例描述的内容自适应视频编码方法,其中,包括:
获取待编码视频的特征信息,所述特征信息包括所述待编码视频的预分析信息和视频固有特征信息;
提取所述特征信息中记录的视频特征,将所述视频特征以及设置的目标分数值输入至预先训练的机器学习模型中输出视频编码参数;
基于所述视频编码参数对所述待编码视频进行编码。
值得注意的是,上述内容自适应视频编码装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请实施例的保护范围。
在一些可能的实施方式中,本申请提供的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤,例如,所述计算机设备可以执行本申请实施例所记载的内容自适应视频编码方法。所述程序产品可以采用一个或多个可读介质的任意组合实现。
Claims (12)
1.内容自适应视频编码方法,其特征在于,包括:
获取待编码视频的特征信息,所述特征信息包括所述待编码视频的预分析信息和视频固有特征信息;
提取所述特征信息中记录的视频特征,将所述视频特征以及设置的目标分数值输入至预先训练的机器学习模型中输出视频编码参数;
基于所述视频编码参数对所述待编码视频进行编码。
2.根据权利要求1所述的内容自适应视频编码方法,其特征在于,所述提取所述特征信息中记录的视频特征,将所述视频特征以及设置的目标分数值输入至预先训练的机器学习模型中输出视频编码参数,包括:
提取所述预分析信息中记录的第一视频特征,以及所述视频固有特征信息中记录的第二视频特征;
将所述第一视频特征、所述第二视频特征以及设置的目标分数值输入至预先训练的机器学习模型中输出视频编码参数。
3.根据权利要求1所述的内容自适应视频编码方法,其特征在于,所述预分析信息包括视频编码预分析信息,在所述获取待编码视频的特征信息之前,所述内容自适应视频编码方法还包括:
获取待编码视频中的预设长度的连续帧图像;
基于所述连续帧图像进行预分析和探测处理得到所述视频编码预分析信息。
4.根据权利要求1-3中任一项所述的内容自适应视频编码方法,其特征在于,在所述将所述视频特征以及设置的目标分数值输入至预先训练的机器学习模型中输出视频编码参数之前,所述内容自适应视频编码方法还包括:
对所述待编码视频的目标分数值进行设置,其中,不同的目标分数值对应不同的视频质量。
5.根据权利要求1-3中任一项所述的内容自适应视频编码方法,其特征在于,所述将所述视频特征以及设置的目标分数值输入至预先训练的机器学习模型中输出视频编码参数,包括:
将所述视频特征以及设置的目标分数值分别输入第一机器学习模型和第二机器学习模型,得到第一视频编码参数和第二视频编码参数,其中,所述第一机器学习模型和所述第二机器学习模型为不同的机器学习模型;
对所述第一视频编码参数和所述第二视频编码参数进行加权平均得到视频编码参数。
6.根据权利要求1-3中任一项所述的内容自适应视频编码方法,其特征在于,在所述获取待编码视频的特征信息之前,所述内容自适应视频编码方法还包括:
获取样本视频数据,确定所述样本视频数据的样本分辨率、样本编码参数以及样本特征;
将所述样本分辨率和所述样本编码参数进行组合得到多个样本编码信息;
计算通过每个所述样本编码信息进行所述样本视频数据的编码时得到的编码分数值;
基于所述样本特征和所述编码分数值进行机器学习模型的训练。
7.根据权利要求6所述的内容自适应视频编码方法,其特征在于,所述确定所述样本视频数据的样本分辨率、样本编码参数,包括:
以所述样本视频数据的分辨率为最大分辨率,确定包含所述最大分辨率的多种不同分辨率为样本分辨率;
在预设的样本编码参数取值范围内选取多个样本编码参数值作为样本编码参数。
8.根据权利要求6所述的内容自适应视频编码方法,其特征在于,所述基于所述样本特征和所述编码分数值进行机器学习模型的训练,包括:
以所述样本特征和所述编码分数值作为机器学习模型的训练特征,所述样本编码参数取值范围的值作为训练标签进行训练。
9.内容自适应视频编码装置,其特征在于,包括:
特征信息获取模块,配置为获取待编码视频的特征信息,所述特征信息包括所述待编码视频的预分析信息和视频固有特征信息;
编码参数确定模块,配置为提取所述特征信息中记录的视频特征,将所述视频特征以及设置的目标分数值输入至预先训练的机器学习模型中输出视频编码参数;
视频编码模块,配置为基于所述视频编码参数对所述待编码视频进行编码。
10.一种内容自适应视频编码设备,所述设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现权利要求1-8中任一项所述的内容自适应视频编码方法。
11.一种存储计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行权利要求1-8中任一项所述的内容自适应视频编码方法。
12.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的内容自适应视频编码方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210855085.6A CN115379229A (zh) | 2022-07-19 | 2022-07-19 | 内容自适应视频编码方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210855085.6A CN115379229A (zh) | 2022-07-19 | 2022-07-19 | 内容自适应视频编码方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115379229A true CN115379229A (zh) | 2022-11-22 |
Family
ID=84061776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210855085.6A Pending CN115379229A (zh) | 2022-07-19 | 2022-07-19 | 内容自适应视频编码方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115379229A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117676156A (zh) * | 2023-11-21 | 2024-03-08 | 书行科技(北京)有限公司 | 一种视频编码数据预测方法、视频编码方法及相关设备 |
CN117729335A (zh) * | 2023-03-14 | 2024-03-19 | 书行科技(北京)有限公司 | 一种视频数据处理方法、装置、计算机设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109286825A (zh) * | 2018-12-14 | 2019-01-29 | 北京百度网讯科技有限公司 | 用于处理视频的方法和装置 |
CN111083473A (zh) * | 2019-12-28 | 2020-04-28 | 杭州当虹科技股份有限公司 | 一种基于机器学习的内容自适应视频编码方法 |
CN111246209A (zh) * | 2020-01-20 | 2020-06-05 | 北京字节跳动网络技术有限公司 | 自适应编码方法、装置、电子设备及计算机存储介质 |
WO2021072694A1 (en) * | 2019-10-17 | 2021-04-22 | Alibaba Group Holding Limited | Adaptive resolution coding based on machine learning model |
CN113014922A (zh) * | 2021-02-23 | 2021-06-22 | 北京百度网讯科技有限公司 | 模型训练、视频编码方法,装置,设备以及存储介质 |
CN113301340A (zh) * | 2020-09-29 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 一种编码参数确定方法、视频传送方法和装置 |
CN114554211A (zh) * | 2022-01-14 | 2022-05-27 | 百果园技术(新加坡)有限公司 | 内容自适应视频编码方法、装置、设备和存储介质 |
-
2022
- 2022-07-19 CN CN202210855085.6A patent/CN115379229A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109286825A (zh) * | 2018-12-14 | 2019-01-29 | 北京百度网讯科技有限公司 | 用于处理视频的方法和装置 |
WO2021072694A1 (en) * | 2019-10-17 | 2021-04-22 | Alibaba Group Holding Limited | Adaptive resolution coding based on machine learning model |
CN111083473A (zh) * | 2019-12-28 | 2020-04-28 | 杭州当虹科技股份有限公司 | 一种基于机器学习的内容自适应视频编码方法 |
CN111246209A (zh) * | 2020-01-20 | 2020-06-05 | 北京字节跳动网络技术有限公司 | 自适应编码方法、装置、电子设备及计算机存储介质 |
CN113301340A (zh) * | 2020-09-29 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 一种编码参数确定方法、视频传送方法和装置 |
CN113014922A (zh) * | 2021-02-23 | 2021-06-22 | 北京百度网讯科技有限公司 | 模型训练、视频编码方法,装置,设备以及存储介质 |
CN114554211A (zh) * | 2022-01-14 | 2022-05-27 | 百果园技术(新加坡)有限公司 | 内容自适应视频编码方法、装置、设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
张新峰;: "基于深度学习的视频编码发展现状与未来展望", 信息通信技术, no. 02, 15 April 2020 (2020-04-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117729335A (zh) * | 2023-03-14 | 2024-03-19 | 书行科技(北京)有限公司 | 一种视频数据处理方法、装置、计算机设备及存储介质 |
CN117676156A (zh) * | 2023-11-21 | 2024-03-08 | 书行科技(北京)有限公司 | 一种视频编码数据预测方法、视频编码方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023134523A1 (zh) | 内容自适应视频编码方法、装置、设备和存储介质 | |
TWI826321B (zh) | 提高影像品質的方法 | |
CN113015021B (zh) | 云游戏的实现方法、装置、介质及电子设备 | |
CN115379229A (zh) | 内容自适应视频编码方法及装置 | |
KR102004637B1 (ko) | 비디오 프로그램의 세그먼트 검출 | |
CN102326391B (zh) | 多视点图像编码装置及方法、多视点图像译码装置及方法 | |
CN109862388A (zh) | 直播视频集锦的生成方法、装置、服务器及存储介质 | |
CN111709896B (zh) | 一种将ldr视频映射为hdr视频的方法和设备 | |
CN110620924B (zh) | 编码数据的处理方法、装置、计算机设备及存储介质 | |
CN106961603A (zh) | 帧内编码帧码率分配方法和装置 | |
CN114245209B (zh) | 视频分辨率确定、模型训练、视频编码方法及装置 | |
CN112437301B (zh) | 一种面向视觉分析的码率控制方法、装置、存储介质及终端 | |
WO2023207801A1 (zh) | 视频流帧率调整方法及其装置、设备、介质、产品 | |
CN111182300B (zh) | 编码参数的确定方法、装置、设备及存储介质 | |
CN113225585B (zh) | 一种视频清晰度的切换方法、装置、电子设备以及存储介质 | |
CN111954034B (zh) | 一种基于终端设备参数的视频编码方法及系统 | |
Li et al. | Perceptual quality assessment of face video compression: A benchmark and an effective method | |
WO2023193524A1 (zh) | 直播视频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
US10764578B2 (en) | Bit rate optimization system and method | |
CN111767428A (zh) | 视频推荐方法、装置、电子设备及存储介质 | |
KR102130077B1 (ko) | 격자 생성 패턴 정보를 바탕으로 해상도를 개선하는 시스템 | |
WO2020233536A1 (zh) | Vr视频质量评估方法及装置 | |
WO2024109138A1 (zh) | 视频编码方法、装置及存储介质 | |
CN114007133B (zh) | 基于视频播放的视频起播封面自动生成方法及装置 | |
CN116760988B (zh) | 基于人类视觉系统的视频编码方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |