CN115695902A

CN115695902A - 盲人无障碍电影音频处理方法、装置及存储介质

Info

Publication number: CN115695902A
Application number: CN202211385507.4A
Authority: CN
Inventors: 沈德荣; 佘奕龙; 潘磊; 邱志飞; 魏祯
Original assignee: Bestv Network Television Technology Development Co ltd
Current assignee: Bestv Network Television Technology Development Co ltd
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-02-03
Anticipated expiration: 2042-11-07
Also published as: CN115695902B

Abstract

本发明涉及一种盲人无障碍电影音频处理方法、装置及存储介质，其中方法包括：分离得到正片视频帧队列Q_videoES、正片音频帧队列Q_audioES和AD轨音频帧队列Q_audioES，并完成时间轴同步；提取正片处理段PCM数据帧序列和AD轨处理段PCM数据帧序列；对AD轨处理段PCM数据帧序列进行语音活动检测，得到每一帧的语音活动状态；对正片处理段PCM数据帧序列的每一帧计算音量，并对该正片音量序列种的元素逐个计算移动平均值；对AD轨处理段PCM数据帧序列中语音活动状态为不活动的帧修改为静音值，并对剩余帧逐个计算移动平均值；基于语音活动检测结果逐帧调节正片平均音量序列和AD轨平均音量序列。与现有技术相比，本发明具有使讲解内容能穿插在高动态范围的电影原声中进行播放等优点。

Description

盲人无障碍电影音频处理方法、装置及存储介质

技术领域

本发明涉及音频处理领域，尤其是涉及一种盲人无障碍电影音频处理方法、装置及存储介质。

背景技术

无障碍电影是专门为了方便残障人士观看的经过加工的电影节目，分为盲人与聋人两种版本。对于盲人观众，在保留电影原声和对白的同时，会适时地插入一些对电影画面内容的解说描述。

最早这些工作是在电影放映现场人工进行的，志愿者们要拿着话筒一遍遍重复劳动；随着越来越多的社会力量加入，专业制作的无障碍版本电影诞生，这些电影大多以光盘形式传播，不仅减少了志愿者的重复工作，也能让盲人在家就能轻松享受电影的乐趣。

随着互联网视频的普及，可以线上欣赏的无障碍电影也越来越多，由此诞生了一种新的形式：即在普通的电影版本上，外挂一路解说音轨来实现盲人无障碍电影，该音轨称为AD音轨(Audio Description Track)，简称AD轨，其时长与电影正片保持一致。这种形式免去了电影介质的再生产，降低了制作成本。

采用AD轨的无障碍电影播放过程中，会有两路音轨同时播放，即一路电影音轨与一路解说音轨；在前期录制和制作解说音轨时，解说朗读的段落原则上会避开电影中人物的对白段落，选择较为安静的段落穿插解说，但电影中除了人物对白外，为了烘托气氛往往还有背景音乐、环境声响，在时间轴上不可避免地会与解说朗读的内容重叠，引起听觉掩蔽的现象，导致观众无法很好听清解说内容，影响观赏体验。

对此，一般播放器会支持AD轨的音量和电影音量独立控制，方便陪同观看的用户进行手动调节；对于原声动态范围较窄的影片，比如纪录片、文艺片，通过适当调大AD轨的音量，或调小原声轨的音量，基本可以让观众听清解说内容，也不影响电影本身的播放效果；但对于绝大部分影片，原声的动态范围是非常宽的，其时间轴波形呈现起伏的“山脉状”；而AD轨是纯语音，动态范围一般较窄，时间轴波形呈现平坦的“腊肠状”；此时再通过手动调节来获得全程舒适的听觉体验就相当困难了：由于两个轨道动态范围不匹配，如果调大AD轨音量，无法保证全程听清解说内容，甚至损害听力，但如果调小电影原声音量，那么原声的宽动态效果又会大打折扣。

综上可知，现有技术在播放带有AD音轨的盲人无障碍电影时，仍存在播放体验不佳的问题，所以有必要进行改进。

发明内容

本发明的目的就是为了提供一种基于外挂AD音轨的盲人无障碍电影音频处理方法、装置及存储介质，基于现有的盲人无障碍电影播放功能，结合语音活动检测(VAD)和音量自适应调节技术，克服了电影原声音轨对于AD音轨的听觉掩蔽效应，使讲解内容能穿插在高动态范围的电影原声中进行播放，弥补了外挂AD音轨这种盲人无障碍电影播放形式的短板，提升了盲人无障碍电影的观影体验。

本发明的目的可以通过以下技术方案来实现：

一种基于外挂AD音轨的盲人无障碍电影音频处理方法，包括：

获取正片的媒体数据流和外挂AD音轨的媒体数据流；

基于正片的媒体数据流解析分离得到正片视频帧队列Q_videoES、正片音频帧队列Q_audioES，并基于外挂AD音轨的媒体数据流解析分离得到AD轨音频帧队列Q_audioES，并完成正片视频帧队列Q_videoES、正片音频帧队列Q_audioES和AD轨音频帧队列Q_audioES的时间轴同步；

基于正片音频帧队列Q_audioES提取正片处理段PCM数据帧序列，并基于AD轨音频帧队列Q_audioES提取AD轨处理段PCM数据帧序列；

对AD轨处理段PCM数据帧序列进行语音活动检测，得到每一帧的语音活动状态，其中，所述语音活动状态为活动或不活动；

对正片处理段PCM数据帧序列的每一帧计算音量，得到正片音量序列，并对该正片音量序列种的元素逐个计算移动平均值，得到正片平均音量序列；

对AD轨处理段PCM数据帧序列中语音活动状态为不活动的帧修改为静音值，并对剩余帧逐个计算移动平均值，得到AD轨平均音量序列；

基于语音活动检测结果逐帧调节正片平均音量序列和AD轨平均音量序列；

基于处理得到的正片平均音量序列和AD轨平均音量序列生成待播放的音频。

所述基于语音活动检测结果逐帧调节正片平均音量序列和AD轨平均音量序列，具体包括：

初始调节值生成步骤：逐帧确定正片平均音量序列和AD轨平均音量序列中每帧音量的相对调节幅度，得到正片相对调节值序列和AD轨相对调节值序列；

音量调节步骤：根据正片相对调节值序列和AD轨相对调节值序列调节正片平均音量序列和AD轨平均音量序列。

所述正片相对调节值序列和AD轨相对调节值序列中任一帧的调节值的确定过程如下：

当该帧的语音活动状态为不活动时，正片相对调节值和AD轨相对调节值均为0；

当该帧的语音活动状态为活动时，则计算该帧的正片平均音量和AD轨平均音量的差值：

若该帧的正片平均音量和AD轨平均音量的差值小于-10，则正片相对调节值和AD轨相对调节值均为0；

若该帧的正片平均音量和AD轨平均音量的差值小于在-10到0之间，AD轨相对调节值为0，正片相对调节值为D_movie＝L_AD'(t)-L_movie'(t)-10，其中，D_movie为正片相对调节值，L_AD'(t)为AD轨平均音量，L_movie'(t)为正片平均音量；

若该帧的正片平均音量和AD轨平均音量的差值小于在0到10之间，则正片相对调节值为-10，AD轨相对调节值为D_AD(t)＝L_movie'(t)-L_AD'(t)-10；

若该帧的正片平均音量和AD轨平均音量的差值大于10，则正片相对调节值为-10，AD轨相对调节值为10。

所述基于语音活动检测结果逐帧调节正片平均音量序列和AD轨平均音量序列，还包括：

调节值优化步骤：对由初始调节值生成步骤得到的正片相对调节值序列和AD轨相对调节值序列进行平滑处理；

所述音量调节步骤中具体为使用调节值优化步骤得到的结果进行音量调节。

所述平滑处理处理的过程具体为：

其中：D_movie为平滑处理前的正片相对调节值，D_movie’为平滑处理后的正片相对调节值，D_AD为平滑处理前的AD轨相对调节值，D_AD’为平滑处理后的AD轨相对调节值，n为步长，i为正片相对调节值的序号。

所述步长由淡入淡出窗口长度确定。

所述正片处理段PCM数据帧序列和AD轨处理段PCM数据帧序列共提取有多个。

所有PCM数据帧序列和AD轨处理段PCM数据帧序列的长度相等。

一种基于外挂AD音轨的盲人无障碍电影音频处理装置，包括存储器、处理器，以及存储于所述存储器中的程序，所述处理器执行所述程序时实现如上述的方法。

一种存储介质，其上存储有程序，所述程序被执行时实现如上述的方法。

与现有技术相比，本发明具有以下有益效果：基于现有的盲人无障碍电影播放功能，结合语音活动检测(VAD)和音量自适应调节技术，克服了电影原声音轨对于AD音轨的听觉掩蔽效应，使讲解内容能穿插在高动态范围的电影原声中进行播放，弥补了外挂AD音轨这种盲人无障碍电影播放形式的短板，提升了盲人无障碍电影的观影体验。

附图说明

图1是本发明实施例提供的一种基于外挂AD音轨的盲人无障碍电影播放方法的流程示意图；

图2是本发明图1中步骤S5的子流程图；

图3是本发明实施例提供的语音活动检测(VAD)算法的流程图；

图4是本发明步骤S504中当VAD(t)＝1时正片和AD轨两个音轨的调节值与相对音量关系图；

图5是本发明实施例提供的一种基于外挂AD音轨的盲人无障碍电影播放系统架构图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本发明供的基于外挂AD音轨的基于外挂AD音轨的盲人无障碍电影音频处理方法，可以用于播放盲人无障碍电影，包括以下步骤：

步骤S1，获取节目正片的媒体数据流，同时获取外挂AD音轨的媒体数据流，解析两种数据流的封装格式与编码类型；本发明所支持的媒体数据流类型包括但不限于HLS、DASH、MP4、RTSP、RTMP；

步骤S2，从节目正片的媒体数据流中分离出视频帧和音频帧，将所述视频帧加入到正片视频帧队列Q_videoES，将所述音频帧加入到正片音频帧队列Q_audioES，直至所述音视频帧队列时长超过预缓冲设定值prebuff_duration，同时从外挂AD音轨的媒体数据流中提取音频帧，并将所述音频帧加入AD轨音频帧队列Q_ADEs，直至所述AD轨音频帧队列时长超过预缓冲设定值prebuff_duration；

步骤S3，启动播放时钟并循环更新，所述时钟启动初始值为队列Q_audioES中首个数据帧的时间戳；

步骤S4，在时钟处理循环内，从上述队列Q_audioES中逐个取出音频帧进行解码，解码后的正片二进制PCM数据加入正片PCM数据队列Q_pcm1，同时从上述队列Q_ADEs中逐个取出音频帧进行解码，解码后的AD音轨二进制PCM数据加入AD音轨PCM数据队列Q_pcm2，直至队列Q_pcm1和队列Q_pcm2内的数据均达到音频处理区间长度W_pcm后，进入音频处理步骤S5；

步骤S5，从上述正片PCM数据队列Q_pcm1和AD音轨PCM数据队列Q_pcm2中分别取出长度为W_pcm的音频数据进行处理，使AD轨讲解段内的正片相对音量不超过-10dB；

如图2所示，步骤S5进一步包含以下步骤：

步骤S501，对PCM数据并进行分帧，帧长为Wl，帧个数n＝W_pcm/W_l，具体地，对Q_pcm1进行分帧得到正片处理段PCM数据帧序列F_pcm1(t₀,t₁,...t_n-1)，对Q_pcm2分帧得到AD轨处理段PCM数据帧序列F_pcm2(t₀,t₁,...t_n-1)；

步骤S502，通过语音活动检测(VAD)算法检测上述F_pcm2的每一帧的语音活动状态，得到AD音轨语音活动状态序列VAD(t₀,t₁,...t_n-1)；

在本实施例中，采用过零率与平均幅度这两个波形特征作为检测语音活动的参考指标，所述过零率指的是PCM数据采样点每秒钟穿过横轴(零电平)的次数，所述平均幅度指的是PCM数据样本幅值的平均值；

具体地，本实施例中语音活动检测算法可以按以下步骤进行：

(a)过零率及平均幅度计算步骤，逐帧计算过零率ZCR(t)以及平均幅度A_avg(t)；

(b)语音状态判别步骤，如图3所示，根据过零率阈值ZCR_voice、语音幅度阈值A_voice、静音幅度阈值A_mute，逐帧判别每一帧的语音状态VAD(t_i)，具体判断方法如下：

如果A_avg(t)大于A_voice，并且ZCR(t)低于ZCR_voice，当前状态为语音状态，VAD(t)＝1，即F_pcm2(t)为语音帧；

如果A_avg(t)低于A_mute，或者ZCR(t)高于ZCR_voice，当前状态为静音状态，VAD(t)＝0，即F_pcm2(t)为静音帧；

其它情况下，VAD(t)维持前一帧的语音状态；

步骤S503，对上述F_pcm1的每一帧进行音量计算，得到当前正片处理段的音量值序列L_movie(t0,t1,...tn-1)，并对该序列的元素逐个计算移动平均值，得到当前正片处理段的音量值平均后的序列L_movie'(t₀,t₁,...t_n-1)，同时对上述F_pcm2(t)中VAD(t)＝1的语音帧进行音量计算，其余VAD(t)＝0的帧音量记为静音值-90dB，得到当前AD轨处理段的音量值序列L_AD(t₀,t₁,...t_n-1)，并对上述音量值序列L_AD中的非静音元素逐个计算移动平均值，得到当前AD轨处理段的音量值平均后的序列L_AD'(t₀,t₁,...t_n-1)；

上述每一帧PCM数据音量L(t)的计算公式:

L(t)＝20*log(Sample_max/32767)；

其中Sample_max为当前帧数据中最大样本幅值，所述幅值指PCM样本值的绝对值，当样本为多声道采样时，样本幅值为各个声道绝对值的平均值；

在本发明中以移动平均值作为实际衡量音频帧音量大小的指标，目的是避免音量的短时陡增和陡降对调节结果产生干扰，同时可以通过增加移动平均算法的窗口大小，控制音量自动调节的灵敏度；

具体地，本实施例采用采用指数加权移动平均EWMA算法来计算移动平均值，计算公式为：

v(t)＝β*v(t-1)+(1-β)*θ(t)

其中θ(t)为t时刻实际音量值，系数β为加权下降的速率，v(t)为t时刻音量的移动平均值；

本实施例中分帧长度W_pcm＝80ms，加权下降速率β可取0.9，所计算出的EWMA值约等于近10帧的加权移动平均值，即滑动窗口大小约800毫秒，且离当前计算帧越接近，加权系数越大；

步骤S504，根据L_movie'(t₀,t₁,...t_n-1)与L_AD'(t₀,t₁,...t_n-1)的音量值，以及VAD(t₀,t₁,...t_n-1)的状态，对PCM数据帧序列F_pcm1(t₀,t₁,...t_n-1)和F_pcm2(t₀,t₁,...t_n-1)中的音频帧进行音量修正，目标是让AD轨正在讲解时，正片的相对音量不超过-10dB，刚好接近不同音源间产生听觉掩蔽效应的阈值，从而达到AD轨讲解内容能被清晰理解，同时又不过度削弱正片音量的目的；

具体地，音量修正包括以下步骤：

(a)逐帧确定PCM数据帧序列F_pcm1和F_pcm2中每帧音量的相对调节幅度，得到相对调节值序列D_movie(t₀,t₁,...t_n-1)与D_AD(t₀,t₁,...t_n-1)，相对调节值确定规则如下：

当VAD(t)＝0时，D_movie(t)＝0，D_AD(t)＝0；

当VAD(t)＝1时，根据L_movie'(t)-L_AD'(t)的值d：

若d<＝-10，则D_movie(t)＝0，D_AD(t)＝0；

若-10<d<＝0，则D_movie＝L_AD'(t)-L_movie'(t)-10，D_AD(t)＝0；

若0<d<＝10，则D_movie＝-10，D_AD(t)＝L_movie'(t)-L_AD'(t)-10；

若d>10，则D_movie＝-10，D_AD(t)＝10；

表1给出了本实施例中5对音频帧音量数据在调整前和调整后的变化情况；

图4直观地展示了步骤S504中VAD(t)＝1时正片音轨与AD轨的调节值与上述相对音量Ddb的关系，由图可见，本发明中对正片音轨最大音量相对调节值限制在-10dB以上，这是为了防止正片音量下降过多而破坏电影气氛和背景音乐的连贯性；另一方面，本发明中对及AD音轨的相对调节值限制在10dB以下，是为了避免音量过响对给听力造成损害，同时避免AD音轨在增益计算时发生溢出；通过对实际播放场景的收集和分析，本发明所限定的±10dB的调节限度可以满足在绝大多数高动态范围电影外挂无障碍AD音轨的需求；

(b)对调节值序列进行窗口平滑处理，目的是为了避免音量陡增和陡降，实现淡入淡出的调节效果，设定淡入淡出窗口长度W_f，则窗口内包含的帧数n＝W_f/W_l，最终的音调节值计算方法为：

(c)根据每帧的最终调节值，对PCM数据帧序列F_pcm1(t₀,t₁,...t_n-1)和F_pcm2(t₀,t₁,...t_n-1)中的音频数据帧进行音量修正，具体地，每个PCM采样点的计算方法如下:

sample'＝sample*10^(D'^/20)

其中sample'为调节后的样本值，sample为原样本值，D’为当前帧的最终音量调节值；

步骤S6，将正片处理段PCM数据帧序列Fpcm1、AD轨处理段PCM数据帧序列F_pcm2中的二进制数据写入两个音轨各自的设备缓冲区，交由声卡播放，并更新上述正片PCM数据队列Q_pcm1和AD音轨PCM数据队列Q_pcm2的起始时间戳T₀＝T₀+W_pcm，等待进入下个时钟处理循环；

步骤S7，在时钟处理循环内，从Q_videoES中逐个取出视频帧进行解码，解码后的待渲染视频帧加入视频渲染队列Q_frames，直至队列Q_frames长度超过视频帧同步冗余长度T_sync；

步骤S8，根据视频渲染队列Q_frames中第一帧的时间戳T、当前播放时钟t、系统硬件音频延迟T_latency，判断是否要对渲染队列Q_frames的当前帧数据进行渲染：

当T>t+T_latency，取出并渲染当前帧；

当T<＝t+T_latency，等待进入下个时钟处理循环；

图5是本发明实施例提供的一种基于外挂AD音轨的盲人无障碍电影播放系统架构图，如图5所示，包括：

媒体解析装置10，用于输入节目正片与外挂AD音轨的媒体数据流路径，解析并输出两种数据流的封装格式与编码类型；

数据缓冲装置20，连接于所述媒体解析装置，用于从节目正片的媒体数据流中分离出视频帧和音频帧，从外挂AD音轨的媒体数据流中提取音频帧，并控制正片视频帧队列Q_videoES、正片音频帧队列Q_audioES、AD轨音频帧队列Q_audioES这三个帧队列的长度；

播放时钟控制装置30，连接于所述数据缓冲装置，用于启动和管理播放时钟，设定播放时钟启动的初始值为队列Q_audioES中首个数据帧的时间戳，并定期发出时钟更新消息；

音频解码装置40，连接于所述播放时钟控制装置与数据缓冲装置，用于在接收到时钟更新消息后对AD轨音频帧队列Q_audioES、AD轨音频帧队列Q_audioES中的数据进行解码，直至解码后的PCM数据长度大于音频处理段的长度W_pcm；

音频处理装置50，连接于音频解码装置，用于对解码后的正片音频数据及AD音轨音频数据进行分帧、语音活动检测、音量检测及修正等处理，使得AD轨中有讲解内容段时，正片音量相对AD轨尽量不超过-10dB；

进一步地，上述音频处理装置包含以下子装置：

音频分帧装置501，用于对PCM数据并进行分帧，以得到正片处理段PCM数据帧序列F_pcm1(t₀,t₁,...t_n-1)及AD轨处理段PCM数据帧序列F_pcm2(t₀,t₁,...t_n-1)；

AD音轨语音活动检测(VAD)装置502，连接于上述音频分帧装置，用于检测上述Fpcm2的每一帧的语音活动状态，得到AD音轨语音活动状态序列VAD(t₀,t₁,...t_n-1)；

音量检测装置503，连接于上述音频分帧装置，用于对F_pcm1的每一帧进行音量检测，并逐个计算移动平均值，得到当前正片处理段的音量值平均值序列L_movie'(t0,t1,...tn-1)，同时对上述F_pcm2(t)中VAD(t)＝1的语音帧进行音量检测，其余VAD(t)＝0的帧音量记为静音值-90dB，得到当前AD轨处理段的音量值序列L_AD(t₀,t₁,...t_n-1)，并对上述音量值序列LAD中的非静音元素逐个计算移动平均值，得到当前AD轨处理段的音量值平均后的序列L_AD'(t₀,t₁,...t_n-1)；

上述正片音量检测装置中，每一帧PCM数据音量L(t)的计算公式:

L(t)＝20*log(Sample_max/32767)；

音量修正装置504，连接于上述AD音轨语音音量检测装置，用于根据L_movie'(t0,t1,...tn-1)与L_AD'(t0,t1,...tn-1)的音量值，以及VAD(t₀,t₁,...t_n-1)的状态，对PCM数据帧序列F_pcm1(t₀,t₁,...t_n-1)和F_pcm2(t₀,t₁,...t_n-1)中的音频帧进行音量修正，目标是让AD轨正在讲解时，正片的相对音量不超过-10dB，刚好接近不同音源间产生听觉掩蔽效应的阈值，从而达到AD轨讲解内容能被清晰理解，同时又不过度削弱正片音量的目的；

具体地，音量修正装置还包括以下子装置：

(a)相对调节值计算装置，用于逐帧确定PCM数据帧序列F_pcm1和F_pcm2中每帧音量的相对调节幅度，得到相对调节值序列D_movie(t₀,t₁,...t_n-1)与D_AD(t0,t1,...t_n-1)，相对调节值计算规则如下：

当VAD(t)＝0时，D_movie(t)＝0，D_AD(t)＝0；

当VAD(t)＝1时，根据L_movie'(t)-L_AD'(t)的值d：

若d<＝-10，则D_movie(t)＝0，D_AD(t)＝0；

若-10<d<＝0，则D_movie＝L_AD'(t)-L_movie'(t)-10，D_AD(t)＝0；

若0<d<＝10，则D_movie＝-10，D_AD(t)＝L_movie'(t)-L_AD'(t)-10；

若d>10，则D_movie＝-10，D_AD(t)＝10；

(b)调节值平滑处理装置，连接于相对调节值计算装置，用于对调节值序列进行平滑处理，避免音量陡增和陡降，实现淡入淡出的调节效果，设定淡入淡出窗口长度W_f，则窗口内包含的帧数n＝W_f/W_l，最终的音调节值计算规则为：

(c)最终修正值计算装置，连接于调节值平滑处理装置，用于对PCM数据帧序列F_pcm1(t₀,t₁,...t_n-1)和F_pcm2(t₀,t₁,...t_n-1)中的音频数据帧进行音量修正，具体地，每个PCM采样点的计算规则如下:

sample'＝sample*10^(D'^/20)

音频播放装置60，连接于音频处理装置，用于将处理后的正片处理段PCM数据帧序列F_pcm1、AD轨处理段PCM数据帧序列F_pcm2中的二进制数据写入两个音轨各自的设备缓冲区，交由声卡播放；

视频解码装置70，连接于所述数据缓冲装置，用于从Q_videoES中逐个取出视频帧进行解码，并将解码后的待渲染视频帧加入视频渲染队列Q_frames；

视频渲染装置80，连接于视频解码装置与播放时钟控制装置，用于实现音视频同步播放，根据视频渲染队列Q_frames中第一帧的时间戳T、当前播放时钟t、系统硬件音频延迟T_latency，判断是否要对渲染队列Q_frames的当前帧数据进行渲染：

当T>t+T_latency，取出并渲染当前帧；

当T<＝t+T_latency，等待播放时钟控制装置发出下个时钟更新消息。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种基于外挂AD音轨的盲人无障碍电影音频处理方法，其特征在于，包括：

获取正片的媒体数据流和外挂AD音轨的媒体数据流；

2.根据权利要求1所述的一种基于外挂AD音轨的盲人无障碍电影音频处理方法，其特征在于，所述基于语音活动检测结果逐帧调节正片平均音量序列和AD轨平均音量序列，具体包括：

3.根据权利要求2所述的一种基于外挂AD音轨的盲人无障碍电影音频处理方法，其特征在于，所述正片相对调节值序列和AD轨相对调节值序列中任一帧的调节值的确定过程如下：

4.根据权利要求2所述的一种基于外挂AD音轨的盲人无障碍电影音频处理方法，其特征在于，所述基于语音活动检测结果逐帧调节正片平均音量序列和AD轨平均音量序列，还包括：

5.根据权利要求4所述的一种基于外挂AD音轨的盲人无障碍电影音频处理方法，其特征在于，所述平滑处理处理的过程具体为：

6.根据权利要求4所述的一种基于外挂AD音轨的盲人无障碍电影音频处理方法，其特征在于，所述步长由淡入淡出窗口长度确定。

7.根据权利要求1所述的一种基于外挂AD音轨的盲人无障碍电影音频处理方法，其特征在于，所述正片处理段PCM数据帧序列和AD轨处理段PCM数据帧序列共提取有多个。

8.根据权利要求7所述的一种基于外挂AD音轨的盲人无障碍电影音频处理方法，其特征在于，所有PCM数据帧序列和AD轨处理段PCM数据帧序列的长度相等。

9.一种基于外挂AD音轨的盲人无障碍电影音频处理装置，包括存储器、处理器，以及存储于所述存储器中的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8中任一所述的方法。

10.一种存储介质，其上存储有程序，其特征在于，所述程序被执行时实现如权利要求1-8中任一所述的方法。