CN116827921A - 一种流媒体的音视频处理方法、装置及设备 - Google Patents
一种流媒体的音视频处理方法、装置及设备 Download PDFInfo
- Publication number
- CN116827921A CN116827921A CN202210277623.8A CN202210277623A CN116827921A CN 116827921 A CN116827921 A CN 116827921A CN 202210277623 A CN202210277623 A CN 202210277623A CN 116827921 A CN116827921 A CN 116827921A
- Authority
- CN
- China
- Prior art keywords
- audio
- target
- data
- value
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000011156 evaluation Methods 0.000 claims abstract description 91
- 238000000034 method Methods 0.000 claims abstract description 78
- 238000007637 random forest analysis Methods 0.000 claims abstract description 69
- 230000000694 effects Effects 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 44
- 238000013441 quality evaluation Methods 0.000 claims abstract description 24
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims description 45
- 238000013139 quantization Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 11
- 230000001965 increasing effect Effects 0.000 claims description 8
- 238000000638 solvent extraction Methods 0.000 claims description 6
- 238000003066 decision tree Methods 0.000 claims description 5
- 238000005192 partition Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims 3
- 238000012544 monitoring process Methods 0.000 description 22
- 230000005540 biological transmission Effects 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 12
- 238000007906 compression Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 9
- 230000006835 compression Effects 0.000 description 9
- 238000001303 quality assessment method Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000005284 excitation Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000012854 evaluation process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002035 prolonged effect Effects 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000013209 evaluation strategy Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请公开了一种流媒体的音视频处理方法、装置及设备,属于计算机技术领域。该方法主要包括获取流媒体的音视频数据中的待处理数据帧以及编码模块的目标数据;基于目标数据,构建与目标数据对应的随机森林预测模型,随机森林预测模型用于确定待处理数据帧的结构相似性预测评估值;基于结构相似性预测评估值,通过隐蔽效应的图像质量评估算法,确定音视频数据的目标结构相似性预测评估值;在目标结构相似性预测评估值满足预设条件的情况下,调整随机森林预测模型,得到目标编码模块,以通过目标编码模块对待处理数据帧进行编码,能够解决音视频数据处理效率低、稳定性差的问题。
Description
技术领域
本申请属于计算机技术领域,具体涉及一种流媒体的音视频处理方法、装置及设备。
背景技术
随着无线通信网络采用了正交频分多址接入(Orthogonal Frequency DivisionMultiple Access,OFDMA)技术,第四代通讯技术(the 4Generation mobilecommunication technology,4G)/第五代移动通信技术(5th Generation MobileCommunication Technology,5G)网络承载带宽明显增强,扩充了音频、视频、电影动画等多媒体增值业务的传输容量和服务范围。为了满足人们日常工作与生活的需求,音视频业务展现形式多样化发展,短视频、线上会议、远程培训、视频监控等形式在各个应用领域发挥着重要作用。
但是,在相关技术中,音视频流模块所成图像的大小或尺寸大小不一,传输带宽、时延与实时网络条件均存在差异,影响用户服务体验感知,尤其在传输需求大、网络拥塞大等情况下,音视频出现卡顿和拥塞的现象频繁,降低音视频流处理效率。
发明内容
本申请实施例的目的是提供一种流媒体的音视频处理方法、装置及设备,能够解决音视频数据处理效率低、稳定性差的问题。
第一方面,本申请实施例提供了一种流媒体的音视频处理方法,其特征在于,包括:
获取流媒体的音视频数据中的待处理数据帧以及编码模块的目标数据,编码模块为对音视频数据进行编码的模块,目标数据为编码模块中编码历史数据帧所需的数据,历史数据帧为音视频数据中已编码的数据帧;
基于目标数据,构建与目标数据对应的随机森林预测模型,随机森林预测模型用于确定待处理数据帧的结构相似性预测评估值;
基于结构相似性预测评估值,通过隐蔽效应的图像质量评估算法,确定音视频数据的目标结构相似性预测评估值;
在目标结构相似性预测评估值满足预设条件的情况下,调整随机森林预测模型,得到目标编码模块,以通过目标编码模块对待处理数据帧进行编码。
第二方面,本申请实施例提供了一种流媒体的音视频处理装置,其特征在于,包括:
获取模块,用于获取流媒体的音视频数据中的待处理数据帧以及编码模块的目标数据,编码模块为对音视频数据进行编码的模块,目标数据为编码模块中编码历史数据帧所需的数据,历史数据帧为音视频数据中已编码的数据帧;
构建模块,用于基于目标数据,构建与目标数据对应的随机森林预测模型,随机森林预测模型用于确定待处理数据帧的结构相似性预测评估值;
确定模块,用于基于结构相似性预测评估值,通过隐蔽效应的图像质量评估算法,确定音视频数据的目标结构相似性预测评估值;
调整模块,用于在目标结构相似性预测评估值满足预设条件的情况下,调整随机森林预测模型,得到目标编码模块,以通过目标编码模块对待处理数据帧进行编码。
第三方面,本申请实施例提供了一种计算机设备,该计算机设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面所示的流媒体的音视频处理方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,可读存储介质上存储程序或指令,程序或指令被处理器执行时实现如第一方面所示的流媒体的音视频处理方法的步骤。
第五方面,本申请实施例提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面所示的流媒体的音视频处理方法的步骤。
在本申请实施例中,通过获取流媒体的音视频数据中的待处理数据帧以及编码模块的目标数据,编码模块为对音视频数据进行编码的模块,目标数据为编码模块中编码历史数据帧所需的数据,历史数据帧为音视频数据中已编码的数据帧;基于目标数据,构建与目标数据对应的随机森林预测模型,随机森林预测模型用于确定待处理数据帧的结构相似性预测评估值;基于结构相似性预测评估值,通过隐蔽效应的图像质量评估算法,确定音视频数据的目标结构相似性预测评估值;在目标结构相似性预测评估值满足预设条件的情况下,调整随机森林预测模型,得到目标编码模块,以通过目标编码模块对待处理数据帧进行编码。由此,可以提取影响音视频质量的关键参数如码率、四叉树划分深度、帧数据编码块、量化参数和率失真值,建立随机森林预测模型,并能自适应网络实际情况,调整随机森林预测模型中的权重值,以实现相似性结构 (SSIM)的质量评估过程,并且自动判断与真实图像间的结构差异,如存在较大失真性,则重新调整对音视频数据进行编码的目标编码模块,然后再通过目标编码模块对待处理数据帧进行编码,以实现在编码音视频数据之前,可以提前预测到音视频质量的变化趋势,并在音视频数据失真,需要及时调整关键参数时,调整编码模块使其质量恢复,这样,在提升音视频编码质量的同时,相同帧率和分辨率下的流媒体所占带宽大幅减少,以解决音视频数据处理效率低、稳定性差的问题。
附图说明
图1为本申请实施例提供的一种流媒体的音视频处理架构示意图;
图2为本申请实施例提供的一种目标数据与音视频编码结果的关系示意图;
图3为本申请实施例提供的一种监控音视频数据流编码的示意图;
图4为本申请实施例提供的一种流媒体的音视频处理方法的流程图;
图5为本申请实施例提供的一种基于隐蔽效应的四叉树划分示意图;
图6为本申请实施例提供的一种流媒体的音视频处理装置的结构示意图;
图7为本申请实施例提供的一种流媒体的音视频处理设备的结构示意图;
图8为本申请实施例提供的一种流媒体的音视频处理设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
在相关技术中,为了解决音视频数据处理效率低、稳定性差的问题,可考虑高效的音视频数据流编码压缩(以下简称编码)方式,即在不改变画面清晰度的情况下,将原码字流压缩到最小码流。这里,音视频数据流编码主要方式是改变了码字间的紧密程度,将空间和时间维度的冗余信息最大程度压缩,并把相关错误、干扰噪声数据清除,提升数据质量,变向将数据流带宽和码速率降低。但在音视频数据流编码选择过程中,要考虑失真情况,一味的删除数据冗余,虽然码速提升,但速率太快,容易丢失有效数据,也会影响数据流的完整性。
另外,本申请实施例为了提高音视频数据处理效率和稳定性,考虑到通过监测音视频数据流量编码质量,以调整音视频数据流编码方式。目前可以通过如下两种方式判断音视频数据流编码质量。
其一,是通过主观手段判断音视频数据流编码质量的方式。该方式是通过人为主观的对接收端展示的音视频数据图像或声音进行判断,判断标准由个人主观臆断定夺,因此由于缺乏统一的标准,每个人感官性能不同,最终评估结论会存在一定的差异性,主观判断与实际发生的结果也会存在差异。另外,人为主观判断过程需要较长时间,当质量评估需求量大的情况下,该方式并不适用。
其二,是通过客观手段判断音视频数据流编码质量的方式。该方式可以划分为三种类型,全参考、半参考和无参考。全参考和半参考是指在编码、解码端如电子设备或者服务端通过接收全部原音视频或者部分原音视频关键数据作为依据,与解码出的音视频进行质量比对,当图像失真度超过标准阈值时,判断音视频数据流流编码失效。无参考是通过对音视频数据流编码过程中影响视频质量的关键参数进行监控与分析,当某些关键参数存在异常时,则表明编码效率偏低,表示图片质量较差。但是,全参考、半参考的判断方式需要占用传输网络资源以对原始音视频数据流进行重传,若针对较大的音视频数据流带宽,则会引起传输资源的浪费,以及由于需要等待原视频的传输,会增加质量评估时长。一般来说,无参考的判断方式无需原视频数据流作为参考,不占据空间资源,但是,无参考的判断方式一方面,可以对压缩编码后的图像数据进行分类、训练和评价,将图像中存在的模糊地带识别并提取出来,给出定性的分析结论,但是,若采取像素值概率分布拟合或峰值信噪比的最大似然估计等方法对图像质量综合判断,则需要将所有编码解码后才能进行比较分析,时间成本较高,并且测试结果与实际人眼感官结果差别较大,因此,该方式不具备普适性;另一方面,可以基于码流压缩的编码质量评估对关键参数进行预测与评估,但不同压缩编码方式预测结果存在较大偏差,评估策略往往仅适用某一种压缩方法,普适性较差,因此也会导致最终的评价结果与实际不符。
为了有效解决上述方式出现的问题,本申请实施例提供了一种流媒体的音视频处理方法,该方法可以提供自动式的高效视频编码协议(High Efficiency Video Coding,HEVC)的音视频编码过程的监控链路,监控链路可以结合获取到的关键参数如包括码率、量化参数(quantization parameter,QP)、率失真值、四叉树划分深度作为训练监控链路中随机森林模型的权重的训练样本并基于训练样本构建回归树,以通过回归树计算每个叶子节点的结构相似性预测评估值即为预测值,对结构相似性预测评估值在隐蔽效应的介入下进行加权调整,最终得到音视频数据的目标结构相似性预测评估值即最终压缩音视频流图像的结构相似性(SSIM),以实现SSIM的质量评估过程,并且自动判断与真实图像间的结构差异,如存在较大失真性,则重新调整对音视频数据进行编码的目标编码模块,然后再通过目标编码模块对待处理数据帧进行编码,以实现在编码音视频数据之前,可以提前预测到音视频质量的变化趋势,并在音视频数据失真,需要及时调整关键参数时,调整编码模块使其质量恢复,这样,在提升音视频编码质量的同时,相同帧率和分辨率下的流媒体所占带宽大幅减少,以解决音视频数据处理效率低、稳定性差的问题。
另外,通过在传输效率和视频图像质量等方面均能达到服务标准要求,同时增加监控音视频数据流编码及确定编码效果评价的步骤,保障编码质量达到最优化。这里,利用监控音视频数据流编码的步骤,可以有效提升音视频流数据处理效率,也可以根据实时业务传输需求,在出现大并发数据流传输时修改编码方式或参数,提高编码速率,最大化利用无线信道资源,降低了传输成本,也保障了音视频数据的展示不间断、不卡顿效果。同时,通过监控音视频数据流编码质量也能对音视频流传输故障精准定位,对空闲传输资源进行合理规划和优化,为用户提供高品质的视频业务服务。由于采取了音视频数据流编码的流程,提升了音视频流编码效率,对于编码处理等相关设备的功耗会降低,延长了设备续航能力,也增强了服务用户持续的时长,提升服务质量。基于此,本申请实施例提供的流媒体的音视频处理方法可以应用于5G网络规模化部署的应用环境下,能够解决在该场景下的音视频数据应用与服务质量差、稳定性差等问题。
基于此,下面结合附图1-图2,通过具体的实施例及其应用场景对本申请实施例提供的流媒体的音视频处理方法进行详细地说明。
本申请实施例提出一种流媒体的音视频处理架构,如图1所示,该流媒体的音视频处理架构可以包括计算机设备10。在一个示例中,计算机设备10可以包括划分模块、预测模块、变换模块、量化模块和熵编码模块。
下面结合图1,本申请实施例结合对流媒体的音视频处理方法进行详细说明,具体如下所示。这里,本申请实施例中提供的流媒体的音视频处理方法包括音视频数据流编码流程和监控音视频数据流编码的流程。
首先,结合图1对音视频数据流编码流程进行说明。
如图1所示,针对音视频数据编码流程,本申请实施例采用新的高效率视频压缩标准即HEVC,替代原H.264/AVC编码标准,将原音视频数据中的数据帧经过音视频数据编码流程处理过程后,压缩到匹配传输信道的目标码流安全状态,充分节约了信道资源传输最大饱和量的音视频数据,实现最佳效率传输,基于此,具体音视频数据流编码流程如下所示。
划分模块获取音视频数据中的数据帧1(如音频帧、图像帧),并通过四叉树划分,即通过HEVC将数据帧1划分为大小相等的树型单元CTU。接着,以持续划分的方式将CTU转换为编码单元CU和预测单元PU。需要说明的是,四叉树的树型结构划分深度直接会影响到整个音视频数据编码过程的精准度和效率。
这里,本申请实施例基于率失真值和数据编码复杂度的质量评估方式,即基于HEVC并利用SSIM评估方式对不同像素间的降质因子进行分析,融入视觉隐蔽效应区分法提升音视频服务质量,并提取了目标数据,构建与目标数据对应的随机森林预测模型,利用随机决策树的算法能够得到较准确的质量评估方式,提高评估音视频数据流编码质量的准确性。需要说明的是,本申请实施例中的SSIM评估方式相比峰值信噪比(PSNR)评估方式,可以提升准确性, PSNR评估方式容易受到外界环境干扰。而本申请实施例中的SSIM规避了由PSNR评估方式产生的评估结论与实际主观判断存在差异的问题,使得该方式不受外界亮度、对比度等影响,计算两帧图像相识度,计算评估结论与实际主观判断基本保持一致,提升自动质量评估效果,提高准确性和实用性。
预测模块,用于对划分模块输出的每个子单元即编码单元CU和/或预测单元PU的划分结果如四叉树的树型结构划分深度进行预测。进一步地,预测是依托上个数据帧如数据帧0的熵编码的编码输出值作为参考帧,通过当前帧如数据帧1与参考帧如数据帧0的运动残差预测音视频数据质量的损失值,这个损失值作为划分结果调整当前帧的编码预测过程。进一步地,预测分为帧间预测和帧内预测,帧间预测是指计算当前帧的四叉树的树型结构划分深度与编码过的历史帧的四叉树的树型结构划分深度进行残差计算;帧内预测是指计算当前帧的四叉树的树型结构划分深度内的所有预测子单元与参考帧的四叉树的树型结构划分深度内的所有预设子单元的残差计算。需要说明的是,子单元在四叉树的树型结构划分深度越深、划分的单元越小,音视频质量越高,因此这个步骤直接影响了编码后的音视频清晰度。
变换模块,用于获取划分模块输出的每个子单元即编码单元CU和/或预测单元PU的划分结果,以及预测模块输出的每个子单元即编码单元CU和/或预测单元PU的预测结果,并对划分结果和预测结果进行离散余弦变换(DCT for Discrete Cosine Transform,DCT)变换或者离散正弦变换(DST)。这里,变换的主要目的是将数据流进行傅里叶变换,使得音视频数据流的数据格式符合后期量化及熵编码的网络格式需求,使音视频数据流从空间域转换到图像变换域上,可以减少数据的空间冗余,提升编码效率和质量。
量化模块(和/或重排序模块),用于将连续的傅里叶变换值转变成离散值,将例如噪声等高频信号的量化系数设置为零,增强压缩编码效果,在本申请实施例中量化过程参照公式(1):
其中,xi为量化模块输出的量化值,ai为傅里叶变换系数,为量化参量,QP为量化参数,αi为变化模块的输出值,ε为高斯参数这里取整数,floor() 表示取整函数。需要说明的是,由公式(1)可知,QP越大,量化参量越小,去噪水平效果越差,最终音视频数据质量也越差,可见QP直接影响着压缩视频质量,QP越小,量化失真质量越好。
熵编码模块,用于在不丢失数据的前提下,描述该音视频数据内容所需的最小比特数限制编码压缩的过程,数据压缩中根据信源消息的概率模型使消息的熵最小化,利用最小熵实现音视频数据的数据还原。需要说明的是,编码过程与音视频数据的四叉树的树型结构划分深度及大小有关。
由此,如图2所示,影响音视频编码效率和质量的因素可以包括码率、QP 值、率失真参量、结构相似性预测评估值即SSIM评估值、四叉树的树型结构如四叉树的树型结构划分深度等数据,下面以图2中的目标数据为例对影响音视频失真降质进行分析,以便对本申请实施例中的监控音视频数据流编码的流程进行详细说明。
(1)码率数据的影响,码率控制参数是根据实际的信道传输质量来控制编码的速率,以比特为基础单位,对编码比特数进行分配和限制,信道速率值直接决定比特分配的平均数,信道速率越大,实时分配的比特块越大,码率自动提升。
(2)QP值数据的影响,QP值的影响前面已经描述过,QP越大,视频质量越差。
(3)率失真参量的影响即率失真优化,这里,在HEVC编码过程中,有时会因为出现过度的压缩而导致视频质量失真,引入率失真优化模型对其进行压缩控制,具体可基于公式(2)所示:
J=D+βW·2(QP-12)/3 (2)
其中,J为编码代价,D为视频失真,β和W是码率权重系数的计算模型参数如初始随机森林预测模型的参数,由编码器决定,QP值越大,编码代价越大,失真率越高,视频编码质量越差。
(4)四叉树的树型结构,即四叉树的树型结构相似度评估指标的影响,根据上述内容,本申请实施例通过SSIM质量评估方式,以通过图像像素间关于结构、亮度和对比度指标的相似性来评估音视频数据编码质量。这里,SSIM 评估值取值范围在0至1之间,值越大说明损失越少,当没有失真时,像素完全复原,SSIM评估值为1。需要说明的是,SSIM质量评估方式与人类视觉系统具有极其相似的能力,因此通过SSIM质量评估方式既能反映出主观的感官信息,也能通过计算准确描述客观的结构相似性。
基于上述内容均会对音视频数据流编码过程产生影响,并且彼此间也有很深的关联性,仍参照图2所示。SSIM评估值与码率和QP量化值有着直接的关系,码率越大,数据量越大,反映音视频图像的质量会越好,在一定码率的范围内,是可以与SSIM评估值成正比例关系,不同的音视频流复杂度不同,反映出的曲线关系也不完全一致,QP量化参数与SSIM评估值成反比关系,量化参数越大,视频失真越严重,结构相似性越低。
基于此,本申请实施例针对影响视频质量提供监控音视频数据流编码流程,以提前预测到音视频质量的变化趋势,当SSIM评估值低于某一指定阈值时,说明音视频数据已失真,需要及时调整关键参数,使其质量恢复。具体监控音视频数据流编码流程可以结合图3进行详细说明。另外,需要说明的是,执行监控音视频数据流编码流程的模块可以设置在划分模块和/或预测模块中,也可以设置在码率影响和划分模块之间。
基于此,如图3所示,获取音视频数据,以及结合图2所示的影响视频编码质量的目标数据,该目标数据可以包括码率、四叉树划分深度、帧数据编码块、量化参数、率失真值,将目标数据用于构建与目标数据对应的随机森林预测模型,并能自适应根据网络实际情况,调整随机森林预测模型中的权重,共同完成SSIM质量评估过程,自动判断与真实图像间的结构差异,如存在较大失真性,则需重新调整如图1所示的监控链路中各模块中的编码系数如调整随机森林预测模型中的权重,避免持续失真。
由此,本申请实施例提供了自动式的HEVC协议的音视频编码过程的监控流程,结合提取的目标数据并将其作为随机森林预测模型训练的权重计算参考值,构建回归树,计算每个叶子节点的结构相似性预测评估值,对结构相似性预测评估值在隐蔽效应的介入下进行加权调整,然后确定音视频数据的目标结构相似性预测评估值为最终压缩音视频流图像的SSIM。另外,为了提升SSIM 质量评估质量,融合视频隐蔽效应方法到帧内和帧间预测流程中,可以将每个 CTU单元中的CU的划分深度做到最大化,利用不同帧CU块的数量决定数据复杂度,优化SSIM评估过程评估参数,有效提升帧内和帧间预测效果。具体监控过程可以结合图4和图6,对本申请实施例中的监控音视频数据流编码内容进行详细说明。
需要说明的是,监控音视频数据流编码的目标模块可以设置在划分模块和 /或预测模块中,执行下述图4所示的流媒体的音视频处理方法,本申请实施例结合图4-图6对本申请实施例提供的流媒体的音视频处理方法的进行详细说明。
图4为本申请实施例提供的一种流媒体的音视频处理方法的流程图。
如图4所示,该流媒体的音视频处理方法可以应用于上述如图1所示的流媒体的音视频处理架构,基于此,具体可以包括如下步骤:
步骤410,获取流媒体的音视频数据中的待处理数据帧以及编码模块的目标数据,编码模块为对音视频数据进行编码的模块,目标数据为编码模块中编码历史数据帧所需的数据,历史数据帧为音视频数据中已编码的数据帧。步骤 420,基于目标数据,构建与目标数据对应的随机森林预测模型,随机森林预测模型用于确定待处理数据帧的结构相似性预测评估值。步骤430,基于结构相似性预测评估值,通过隐蔽效应的图像质量评估算法,确定音视频数据的目标结构相似性预测评估值。步骤440,在目标结构相似性预测评估值满足预设条件的情况下,调整随机森林预测模型,得到目标编码模块,以通过目标编码模块对待处理数据帧进行编码。
由此,可以提取影响音视频质量的关键参数如码率、四叉树划分深度、帧数据编码块、量化参数和率失真值,建立随机森林预测模型,并能自适应网络实际情况,调整随机森林预测模型中的权重值,以实现相似性结构的质量评估过程,并且自动判断与真实图像间的结构差异,如存在较大失真性,则重新调整对音视频数据进行编码的目标编码模块,然后再通过目标编码模块对待处理数据帧进行编码,以实现在编码音视频数据之前,可以提前预测到音视频质量的变化趋势,并在音视频数据失真,需要及时调整关键参数时,调整编码模块使其质量恢复,由此,在提升音视频编码质量的同时,相同帧率和分辨率下的流媒体所占带宽大幅减少,以解决音视频数据处理效率低、稳定性差的问题。
下面对上述步骤进行详细说明,具体如下所示:
涉及步骤410,在一种可能的实施例中,本申请实施例中的目标数据包括下述中的至少一种:码率、四叉树划分深度、帧数据编码块、量化参数、率失真值。
这里,本申请实施例提供的码率、QP值、率失真值、SSIM评估值,用于描述音视频评估质量结构化相关参数进行描述,利用数据彼此间的变化及耦合关系,指导HEVC协议编码过程质量评估流程。
涉及步骤420,在一种可能的实施例中,该步骤420具体可以包括:
步骤4201,在随机森林预测模型包括预测回归树,预测回归树中的叶子节点用于确定待处理数据帧的结构相似性预测评估值的情况下,将训练样本输入初始随机森林预测模型,通过编码器在音视频数据集中随机选择待训练样本集,训练样本包括音视频数据和目标数据;
步骤4202,基于待训练样本集,计算与待训练样本集对应的关键特征集合;
步骤3203,基于关键特征集合,构建回归树,并按照预设特征优先级信息对关键特征集合中的关键特征进行优先排序,得到排序结果;
步骤4204,基于排序结果,通过最小均方差的决策树特征划分回归树,得到预测回归树。
示例性地,原始音视频数据对应的CU块作为输入,编码器随机选择数据块集合,并从图像数据中提取关键特征集合,以构建回归树,并对关键特征如图像亮度、对比度等进行优先级排序,基于最小均方差的决策树特征完成回归树的划分。
由此,将提取的目标数据作为随机森林模型训练的权重计算参考值,构建回归树,以便计算每个叶子节点特征的预测值。
进一步地,步骤4203具体可以包括:
在初始随机森林预测模型包括四叉树划分模块,四叉树划分模块中的四叉树包括处于等同位置的四个子编码单元以及四个子编码单元对应的父编码单元;关键特征集合包括子编码单元的率失真值的情况下,将四个子编码单元中每个子编码单元的第二率失真值的和值,确定为四个子编码单元的第三率失真值;
对比第三率失真值与父编码单元的第四率失真值,得到第二对比结果;
在第二对比结果表征第三率失真值小于或者等于第四率失真值的情况下,增加四叉树划分模块中四叉树的四叉树划分深度,得到回归树。
这里,为了更好的提升监控评估质量,本申请实施例引入了隐蔽效应到监控音视频数据流编码的流程中,这里,本申请实施例中的隐蔽效应是指当有多个核心激励同时作用到人眼时,人眼对多个激励的损失效果会有屏蔽,失真率降低,可以将该原理融合到质量评估过程中,提升时间和空间复杂度的识别与度量的效果。
需要说明的是,如图5所示,步骤4203可以为隐蔽效应融入帧内预测,即每个CTU在四叉树的划分过程中根据空间深度持续向下四分裂,划分为相同大小的CU,传统设置CU划分深度的方法是对每个父CU进行遍历式率失真值计算,通过主客观经验阈值的比较判断是否继续向下分类子CU,一般CU 划分深度越细,音视频编码质量越高。由于4个子CU属于等同位置,引入隐蔽效应,分别计算4个子CU的率失真值,再将其相加,并与父CU的率失真进行比较,当小于父CU的率失真值时,说明当前画面质量满足用户需求,可以继续划分CU;反之当大于CU的率失真值时,则需要停止划分,避免引起失真。然后,可以对4个子CU的失真率值进行计算,相当于同等激励作用于人眼,联合计算失真率值过程中,会将质量低的点进行部分屏蔽,这样可以将 CU的划分深度做到最大化,有利于提升帧内失真的预测效果,同时对码率进行了实时调整,即适应了带宽,也最大化提高图像质量。
由此,本申请实施例提供的方法可以包括将隐蔽效应融入帧内预测,即对于每个编码单元CTU在四分树的方法下划分为4个同等位置的CU单元,引入隐蔽效应,分别计算4个子CU的率失真值,再将其相加,并与父CU的率失真进行比较,当小于父CU的率失真值时,继续划分CU;反之当大于CU 的率失真值时,则需要停止划分,避免引起失真。
涉及步骤430之前,在一种可能的实施例中,本申请实施例中的流媒体的音视频处理方法还可以包括:
基于预测回归树中的每个叶子节点,轮询计算与每个叶子节点对应的结构相似性预测评估值。
示例性地,轮询计算每个叶子节点的结构相似性预测评估值,最终计算子节点的结构相似性预测评估值的平均值,得到随机森林预测模型的输出,输出的结果为音视频数据的目标结构相似性预测评估值,以便当评估出的各特征指标超过失真阈值时,则说明权值需要进一步调整,完成重编码流程。
涉及步骤430,在一种可能的实施例中,该步骤430具体可以包括:
步骤4301,对与每个叶子节点对应的结构相似性预测评估值,在隐蔽效应的介入下采用高斯加权,计算轮询过程中每一次的目标值,目标值包括均值、方差值和协方差值;
步骤4302,将多个目标值的平均值确定为音视频数据的目标结构相似性预测评估值。
进一步地,该步骤4301具体可以包括:
在随机森林预测模型包括四叉树,四叉树包括在时间轴上前后相邻的至少两个子编码单元的情况下,分别计算前后相邻的至少两个子编码单元中每个子编码单元的第一率失真值,并基于每个子编码单元的第一率失真值,计算前后相邻的至少两个子编码单元的率失真平均值;
对比率失真平均值与预设率失真值,得到第一对比结果;
在第一对比结果表征率失真平均值小于或者等于预设率失真值的情况下,增加在时间轴上前后相邻的子编码单元的数量;
通过增加子编码单元的四叉树,计算轮询过程中每一次的目标值。
示例性地,仍参照图5,隐蔽效应融入帧间预测,即音视频数据可以划分为流动的图像集合,图像中每个相邻编码单元CU也是以时间为轴的变化状态,因此帧间预测的数据容量可以理解为时间域里的复杂度,要使率失真值代价最小,需要计算失真率和编码速率的平衡点。引入隐蔽效应,时间轴上几个前后相邻的CU间几乎是在恒等码率下运动,计算其失真率并取平均值,将其与最优失真率比较;如果小于最优失真率,则说明还能增加相邻CU块的计算数量,如果大于则保留原CU块数量。
需要说明的是,CU块的数量类似于一个动态的滑动窗口,可以确定音视频编码帧间预测的时间复杂度,在SSIM评估过程中可以根据复杂度值来适当调整目标值(均值、方差和协方差),并对实时码率进行调整。
由此,以上帧内和帧间预测的隐蔽效应算法可以应用在建模、权重调整和 SSIM质量评估过程中,能够增强编码处理的效率和质量。结合上述涉及的目标数据作为随机森林预测模型训练的权重计算参考值,构建回归树,计算每个叶子节点特征的结构相似性预测评估值,对预测出的S结构相似性预测评估值在隐蔽效应的介入下采用高斯加权计算每一次的均值、方差和协方差,最终将目标结构相似性预测评估值作为音视频的SSIM,也就是平均结构相似性,完成输出。
涉及步骤440,在一种可能的实施例中,该步骤440具体可以包括:
在目标结构相似性预测评估值大于或者等于预设阈值的情况下,调整初始随机森林模型的权重值,得到目标随机森林模型;
基于目标随机森林模型,生成目标编码模块。
这里,SSIM通过对图像结构、亮度和对比度指标的相似性来评估音视频数据的编码质量效果,使得计算结构与实际结论基本保持一致,使得被评估的音视频流数据输入模型,结合影响视频质量的关键参数,提取目标数据,建立随机森林预测模型,并能自适应根据网络实际情况,调整权重,共同完成SSIM 质量评估过程,并且自动判断与真实图像间的结构差异,如存在较大失真性,则重新调整系统编码系数,避免持续失真。
综上,本申请实施例中提供的方法,具有更优质的自动质量评估效果,准确性和实用性更加高。具体地,执行监控音视频数据流编码流程的模块可以提前预测到音视频质量的变化趋势,当S目标结构相似性预测评估值低于某一指定阈值时,说明音视频数据已失真,需要及时调整关键参数,使其质量恢复。另外,本申请实施例为了提升SSIM评估质量,融合音视频隐蔽效应算法到帧内和帧间预测流程中,可以将每个CTU中的CU的划分深度做到最大化,利用不同帧CU的数量决定数据复杂度,优化SSIM评估过程,有效提升帧内和帧间预测效果,使得在音视频编码质量提升的同时,相同帧率和分辨率下的媒体流所占带宽大幅减少。
需要说明的是,本申请实施例提供的流媒体的音视频处理方法,执行主体可以为流媒体的音视频处理装置,或者该流媒体的音视频处理装置中的用于执行流媒体的音视频处理的方法的控制模块。本申请实施例中以流媒体的音视频处理装置执行流媒体的音视频处理方法为例,说明本申请实施例提供的流媒体的音视频处理的装置。
基于相同的发明构思,本申请还提供了一种流媒体的音视频处理装置。具体结合图6进行详细说明。
图6为本申请实施例提供的一种流媒体的音视频处理装置的结构示意图。
如图6所示,该流媒体的音视频处理装置60应用于流媒体的音视频处理设备,具体可以包括:
获取模块601,用于获取流媒体的音视频数据中的待处理数据帧以及编码模块的目标数据,编码模块为对音视频数据进行编码的模块,目标数据为编码模块中编码历史数据帧所需的数据,历史数据帧为音视频数据中已编码的数据帧;
构建模块602,用于基于目标数据,构建与目标数据对应的随机森林预测模型,随机森林预测模型用于确定待处理数据帧的结构相似性预测评估值;
确定模块603,用于基于结构相似性预测评估值,通过隐蔽效应的图像质量评估算法,确定音视频数据的目标结构相似性预测评估值;
调整模块604,用于在目标结构相似性预测评估值满足预设条件的情况下,调整随机森林预测模型,得到目标编码模块,以通过目标编码模块对待处理数据帧进行编码。
由此,可以提取影响音视频质量的关键参数如码率、四叉树划分深度、帧数据编码块、量化参数和率失真值,建立随机森林预测模型,并能自适应网络实际情况,调整随机森林预测模型中的权重值,以实现相似性结构(SSIM) 的质量评估过程,并且自动判断与真实图像间的结构差异,如存在较大失真性,则重新调整对音视频数据进行编码的目标编码模块,然后再通过目标编码模块对待处理数据帧进行编码,以实现在编码音视频数据之前,可以提前预测到音视频质量的变化趋势,并在音视频数据失真,需要及时调整关键参数时,调整编码模块使其质量恢复,这样,在提升音视频编码质量的同时,相同帧率和分辨率下的流媒体所占带宽大幅减少,以解决音视频数据处理效率低、稳定性差的问题。
下面对该流媒体的音视频处理装置60进行详细说明,具体如下所示:
在一个或者多个可能的实施例中,构建模块602具体可以用于,在随机森林预测模型包括预测回归树,预测回归树中的叶子节点用于确定待处理数据帧的结构相似性预测评估值的情况下,将训练样本输入初始随机森林预测模型,通过编码器在音视频数据集中随机选择待训练样本集,训练样本包括音视频数据和目标数据;
基于待训练样本集,计算与待训练样本集对应的关键特征集合;
基于关键特征集合,构建回归树,并按照预设特征优先级信息对关键特征集合中的关键特征进行优先排序,得到排序结果;
基于排序结果,通过最小均方差的决策树特征划分回归树,得到预测回归树。
在另一个或者多个可能的实施例中,流媒体的音视频处理装置60还可以包括计算模块,用于基于预测回归树中的每个叶子节点,轮询计算与每个叶子节点对应的结构相似性预测评估值。
在又一个或者多个可能的实施例中,确定模块603具体可以用于,对与每个叶子节点对应的结构相似性预测评估值,在隐蔽效应的介入下采用高斯加权,计算轮询过程中每一次的目标值,目标值包括均值、方差值和协方差值;
将多个目标值的平均值确定为音视频数据的目标结构相似性预测评估值。
在再一个或者多个可能的实施例中,确定模块603具体可以用于,在随机森林预测模型包括四叉树,四叉树包括在时间轴上前后相邻的至少两个子编码单元的情况下,分别计算前后相邻的至少两个子编码单元中每个子编码单元的第一率失真值,并基于每个子编码单元的第一率失真值,计算前后相邻的至少两个子编码单元的率失真平均值;
对比率失真平均值与预设率失真值,得到第一对比结果;
在第一对比结果表征率失真平均值小于或者等于预设率失真值的情况下,增加在时间轴上前后相邻的子编码单元的数量;
通过增加子编码单元的四叉树,计算轮询过程中每一次的目标值。
在再一个或者多个可能的实施例中,构建模块602具体可以用于,在初始随机森林预测模型包括四叉树划分模块,四叉树划分模块中的四叉树包括处于等同位置的四个子编码单元以及四个子编码单元对应的父编码单元,关键特征集合包括子编码单元的率失真值的情况下,将四个子编码单元中每个子编码单元的第二率失真值的和值,确定为四个子编码单元的第三率失真值;
对比第三率失真值与父编码单元的第四率失真值,得到第二对比结果;
在第二对比结果表征第三率失真值小于或者等于第四率失真值的情况下,增加四叉树划分模块中四叉树的四叉树划分深度,得到回归树。
在再一个或者多个可能的实施例中,调整模块604具体可以用于,在目标结构相似性预测评估值大于或者等于预设阈值的情况下,调整初始随机森林模型的权重值,得到目标随机森林模型;
基于目标随机森林模型,生成目标编码模块。
在再一个或者多个可能的实施例中,目标数据包括下述中的至少一种:码率、四叉树划分深度、帧数据编码块、量化参数、率失真值。
本申请实施例中的流媒体的音视频处理装置可以是装置,也可以是电子设备中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant, PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television, TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的流媒体的音视频处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的流媒体的音视频处理装置能够实现图1至图6的方法实施例实现的各个过程,为避免重复,这里不再赘述。
在本申请实施例中,通过获取流媒体的音视频数据中的待处理数据帧以及编码模块的目标数据,编码模块为对音视频数据进行编码的模块,目标数据为编码模块中编码历史数据帧所需的数据,历史数据帧为音视频数据中已编码的数据帧;基于目标数据,构建与目标数据对应的随机森林预测模型,随机森林预测模型用于确定待处理数据帧的结构相似性预测评估值;基于结构相似性预测评估值,通过隐蔽效应的图像质量评估算法,确定音视频数据的目标结构相似性预测评估值;在目标结构相似性预测评估值满足预设条件的情况下,调整随机森林预测模型,得到目标编码模块,以通过目标编码模块对待处理数据帧进行编码。由此,可以提取影响音视频质量的关键参数如码率、四叉树划分深度、帧数据编码块、量化参数和率失真值,建立随机森林预测模型,并能自适应网络实际情况,调整随机森林预测模型中的权重值,以实现相似性结构 (SSIM)的质量评估过程,并且自动判断与真实图像间的结构差异,如存在较大失真性,则重新调整对音视频数据进行编码的目标编码模块,然后再通过目标编码模块对待处理数据帧进行编码,以实现在编码音视频数据之前,可以提前预测到音视频质量的变化趋势,并在音视频数据失真,需要及时调整关键参数时,调整编码模块使其质量恢复,这样,在提升音视频编码质量的同时,相同帧率和分辨率下的流媒体所占带宽大幅减少,以解决音视频数据处理效率低、稳定性差的问题。
可选的,如图7所示,本申请实施例还提供一种流媒体的音视频处理设备 70,包括处理器701,存储器702,存储在存储器702上并可在处理器701上运行的程序或指令,该程序或指令被处理器701执行时实现上述流媒体的音视频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
图8为本申请实施例提供的一种流媒体的音视频处理设备的硬件结构示意图。
该流媒体的音视频处理设备800包括但不限于:射频单元801、网络模块 802、音频输出单元803、输入单元804、传感器805、显示单元806、用户输入单元807、接口单元808、存储器809、处理器810以及收音器88等部件。
本领域技术人员可以理解,流媒体的音视频处理设备800还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器810逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图8中示出的流媒体的音视频处理设备结构并不构成对流媒体的音视频处理设备的限定,流媒体的音视频处理设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
应理解的是,输入单元804可以包括图形处理器(Graphics Processing Unit,GPU)8041和麦克风8042,图形处理器8041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图像或视频的图像数据进行处理。显示单元806可包括显示面板8061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板8061。用户输入单元807包括触控面板8071以及其他输入设备8072。触控面板8071,也称为触摸屏。触控面板8071可包括触摸检测装置和触摸控制器两个部分。其他输入设备8072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器809可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器810可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器810中。
本申请实施例还提供一种可读存储介质,可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述流媒体的音视频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,处理器为上述实施例中的流媒体的音视频处理设备中的处理器。其中,可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
另外,本申请实施例另提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述流媒体的音视频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘) 中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (10)
1.一种流媒体的音视频处理方法,其特征在于,包括:
获取流媒体的音视频数据中的待处理数据帧以及编码模块的目标数据,所述编码模块为对所述音视频数据进行编码的模块,所述目标数据为所述编码模块中编码历史数据帧所需的数据,所述历史数据帧为所述音视频数据中已编码的数据帧;
基于所述目标数据,构建与所述目标数据对应的随机森林预测模型,所述随机森林预测模型用于确定所述待处理数据帧的结构相似性预测评估值;
基于所述结构相似性预测评估值,通过隐蔽效应的图像质量评估算法,确定所述音视频数据的目标结构相似性预测评估值;
在所述目标结构相似性预测评估值满足预设条件的情况下,调整所述随机森林预测模型,得到目标编码模块,以通过所述目标编码模块对所述待处理数据帧进行编码。
2.根据权利要求1所述的方法,其特征在于,所述随机森林预测模型包括预测回归树,所述预测回归树中的叶子节点用于确定所述待处理数据帧的结构相似性预测评估值;所述基于所述目标数据,构建与所述目标数据对应的随机森林预测模型,包括:
将训练样本输入初始随机森林预测模型,通过编码器在所述音视频数据集中随机选择待训练样本集,所述训练样本包括所述音视频数据和所述目标数据;
基于所述待训练样本集,计算与所述待训练样本集对应的关键特征集合;
基于所述关键特征集合,构建回归树,并按照预设特征优先级信息对所述关键特征集合中的关键特征进行优先排序,得到排序结果;
基于所述排序结果,通过最小均方差的决策树特征划分所述回归树,得到所述预测回归树。
3.根据权利要求2所述的方法,其特征在于,在所述基于所述结构相似性预测评估值,通过隐蔽效应的图像质量评估算法,确定所述音视频数据的目标结构相似性预测评估值之前,所述方法还包括:
基于所述预测回归树中的每个叶子节点,轮询计算与所述每个叶子节点对应的结构相似性预测评估值。
4.根据权利要求3所述的方法,其特征在于,所述基于所述结构相似性预测评估值,通过隐蔽效应的图像质量评估算法,确定所述音视频数据的目标结构相似性预测评估值,包括:
对与所述每个叶子节点对应的结构相似性预测评估值,在隐蔽效应的介入下采用高斯加权,计算轮询过程中每一次的目标值,所述目标值包括均值、方差值和协方差值;
将多个目标值的平均值确定为所述音视频数据的目标结构相似性预测评估值。
5.根据权利要求4所述的方法,其特征在于,所述随机森林预测模型包括四叉树,所述四叉树包括在时间轴上前后相邻的至少两个子编码单元;
所述对与所述每个叶子节点对应的结构相似性预测评估值,在隐蔽效应的介入下采用高斯加权,计算轮询过程中每一次的目标值,包括:
分别计算所述前后相邻的至少两个子编码单元中每个子编码单元的第一率失真值,并基于所述每个子编码单元的第一率失真值,计算所述前后相邻的至少两个子编码单元的率失真平均值;
对比所述率失真平均值与预设率失真值,得到第一对比结果;
在所述第一对比结果表征所述率失真平均值小于或者等于所述预设率失真值的情况下,增加在时间轴上前后相邻的子编码单元的数量;
通过增加子编码单元的四叉树,计算轮询过程中每一次的目标值。
6.根据权利要求2所述的方法,其特征在于,所述初始随机森林预测模型包括四叉树划分模块,所述四叉树划分模块中的四叉树包括处于等同位置的四个子编码单元以及所述四个子编码单元对应的父编码单元;所述关键特征集合包括子编码单元的率失真值;
所述基于所述关键特征集合,构建回归树,包括:
将所述四个子编码单元中每个子编码单元的第二率失真值的和值,确定为所述四个子编码单元的第三率失真值;
对比所述第三率失真值与所述父编码单元的第四率失真值,得到第二对比结果;
在所述第二对比结果表征所述第三率失真值小于或者等于所述第四率失真值的情况下,增加所述四叉树划分模块中四叉树的四叉树划分深度,得到回归树。
7.根据权利要求1所述的方法,其特征在于,所述在所述目标结构相似性预测评估值满足预设条件的情况下,调整所述随机森林预测模型,得到目标编码模块,包括:
在所述目标结构相似性预测评估值大于或者等于预设阈值的情况下,调整所述初始随机森林模型的权重值,得到目标随机森林模型;
基于所述目标随机森林模型,生成目标编码模块。
8.根据权利要求1所述的方法,其特征在于,所述目标数据包括下述中的至少一种:
码率、四叉树划分深度、帧数据编码块、量化参数、率失真值。
9.一种流媒体的音视频处理装置,其特征在于,包括:
获取模块,用于获取流媒体的音视频数据中的待处理数据帧以及编码模块的目标数据,所述编码模块为对所述音视频数据进行编码的模块,所述目标数据为所述编码模块中编码历史数据帧所需的数据,所述历史数据帧为所述音视频数据中已编码的数据帧;
构建模块,用于基于所述目标数据,构建与所述目标数据对应的随机森林预测模型,所述随机森林预测模型用于确定所述待处理数据帧的结构相似性预测评估值;
确定模块,用于基于所述结构相似性预测评估值,通过隐蔽效应的图像质量评估算法,确定所述音视频数据的目标结构相似性预测评估值;
调整模块,用于在所述目标结构相似性预测评估值满足预设条件的情况下,调整所述随机森林预测模型,得到目标编码模块,以通过所述目标编码模块对所述待处理数据帧进行编码。
10.一种计算机设备,其特征在于,包括:存储器和处理器,
所述存储器,用于存储有计算机程序;
所述处理器,用于执行所述存储器中存储的计算机程序,所述计算机程序运行时使得所述处理器执行权利要求1至8中任意一项所述的流媒体的音视频处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210277623.8A CN116827921A (zh) | 2022-03-21 | 2022-03-21 | 一种流媒体的音视频处理方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210277623.8A CN116827921A (zh) | 2022-03-21 | 2022-03-21 | 一种流媒体的音视频处理方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116827921A true CN116827921A (zh) | 2023-09-29 |
Family
ID=88115394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210277623.8A Pending CN116827921A (zh) | 2022-03-21 | 2022-03-21 | 一种流媒体的音视频处理方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116827921A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117097909A (zh) * | 2023-10-20 | 2023-11-21 | 深圳市星易美科技有限公司 | 一种分布式家用音视频处理方法及系统 |
-
2022
- 2022-03-21 CN CN202210277623.8A patent/CN116827921A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117097909A (zh) * | 2023-10-20 | 2023-11-21 | 深圳市星易美科技有限公司 | 一种分布式家用音视频处理方法及系统 |
CN117097909B (zh) * | 2023-10-20 | 2024-02-02 | 深圳市星易美科技有限公司 | 一种分布式家用音视频处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Barman et al. | No-reference video quality estimation based on machine learning for passive gaming video streaming applications | |
CN110139109B (zh) | 图像的编码方法及相应终端 | |
CN114071189B (zh) | 视频处理装置及视频串流的处理方法 | |
CN102724498B (zh) | 基于内容信息的可缩放性技术的编码方法和设备 | |
CN113766226A (zh) | 图像编码方法、装置、设备及存储介质 | |
CN114554211A (zh) | 内容自适应视频编码方法、装置、设备和存储介质 | |
Zhang et al. | Low complexity HEVC INTRA coding for high-quality mobile video communication | |
Sun et al. | Region-based rate control and bit allocation for wireless video transmission | |
CN103124347A (zh) | 利用视觉感知特性指导多视点视频编码量化过程的方法 | |
US20190104315A1 (en) | Scene Based Rate Control for Video Compression and Video Streaming | |
WO2021129007A1 (zh) | 视频码率的确定方法、装置、计算机设备及存储介质 | |
CN107580217A (zh) | 编码方法及其装置 | |
Rossi et al. | A poisson hidden markov model for multiview video traffic | |
Xu et al. | Consistent visual quality control in video coding | |
CA3182110A1 (en) | Reinforcement learning based rate control | |
Fu et al. | Efficient depth intra frame coding in 3D-HEVC by corner points | |
CN117176955A (zh) | 视频编码方法、视频解码方法、计算机设备及存储介质 | |
CN106664404A (zh) | 视频编码中的块分割方式处理方法和相关装置 | |
Ciaramello et al. | A computational intelligibility model for assessment and compression of American sign language video | |
US20240187618A1 (en) | Multivariate rate control for transcoding video content | |
CN111385577A (zh) | 视频转码方法、装置、计算机设备和计算机可读存储介质 | |
CN116827921A (zh) | 一种流媒体的音视频处理方法、装置及设备 | |
Chi et al. | Region-of-interest video coding based on rate and distortion variations for H. 263+ | |
Kumar et al. | Effcient video compression and improving quality of video in communication for computer endcoding applications | |
Martínez-Rach et al. | Quality assessment metrics vs. PSNR under packet lossscenarios in manet wireless networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |