CN115695902A - 盲人无障碍电影音频处理方法、装置及存储介质 - Google Patents

盲人无障碍电影音频处理方法、装置及存储介质 Download PDF

Info

Publication number
CN115695902A
CN115695902A CN202211385507.4A CN202211385507A CN115695902A CN 115695902 A CN115695902 A CN 115695902A CN 202211385507 A CN202211385507 A CN 202211385507A CN 115695902 A CN115695902 A CN 115695902A
Authority
CN
China
Prior art keywords
track
frame
sequence
positive
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211385507.4A
Other languages
English (en)
Inventor
沈德荣
佘奕龙
潘磊
邱志飞
魏祯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bestv Network Television Technology Development Co ltd
Original Assignee
Bestv Network Television Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bestv Network Television Technology Development Co ltd filed Critical Bestv Network Television Technology Development Co ltd
Priority to CN202211385507.4A priority Critical patent/CN115695902A/zh
Publication of CN115695902A publication Critical patent/CN115695902A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本发明涉及一种盲人无障碍电影音频处理方法、装置及存储介质,其中方法包括:分离得到正片视频帧队列QvideoES、正片音频帧队列QaudioES和AD轨音频帧队列QaudioES,并完成时间轴同步;提取正片处理段PCM数据帧序列和AD轨处理段PCM数据帧序列;对AD轨处理段PCM数据帧序列进行语音活动检测,得到每一帧的语音活动状态;对正片处理段PCM数据帧序列的每一帧计算音量,并对该正片音量序列种的元素逐个计算移动平均值;对AD轨处理段PCM数据帧序列中语音活动状态为不活动的帧修改为静音值,并对剩余帧逐个计算移动平均值;基于语音活动检测结果逐帧调节正片平均音量序列和AD轨平均音量序列。与现有技术相比,本发明具有使讲解内容能穿插在高动态范围的电影原声中进行播放等优点。

Description

盲人无障碍电影音频处理方法、装置及存储介质
技术领域
本发明涉及音频处理领域,尤其是涉及一种盲人无障碍电影音频处理方法、装置及存储介质。
背景技术
无障碍电影是专门为了方便残障人士观看的经过加工的电影节目,分为盲人与聋人两种版本。对于盲人观众,在保留电影原声和对白的同时,会适时地插入一些对电影画面内容的解说描述。
最早这些工作是在电影放映现场人工进行的,志愿者们要拿着话筒一遍遍重复劳动;随着越来越多的社会力量加入,专业制作的无障碍版本电影诞生,这些电影大多以光盘形式传播,不仅减少了志愿者的重复工作,也能让盲人在家就能轻松享受电影的乐趣。
随着互联网视频的普及,可以线上欣赏的无障碍电影也越来越多,由此诞生了一种新的形式:即在普通的电影版本上,外挂一路解说音轨来实现盲人无障碍电影,该音轨称为AD音轨(Audio Description Track),简称AD轨,其时长与电影正片保持一致。这种形式免去了电影介质的再生产,降低了制作成本。
采用AD轨的无障碍电影播放过程中,会有两路音轨同时播放,即一路电影音轨与一路解说音轨;在前期录制和制作解说音轨时,解说朗读的段落原则上会避开电影中人物的对白段落,选择较为安静的段落穿插解说,但电影中除了人物对白外,为了烘托气氛往往还有背景音乐、环境声响,在时间轴上不可避免地会与解说朗读的内容重叠,引起听觉掩蔽的现象,导致观众无法很好听清解说内容,影响观赏体验。
对此,一般播放器会支持AD轨的音量和电影音量独立控制,方便陪同观看的用户进行手动调节;对于原声动态范围较窄的影片,比如纪录片、文艺片,通过适当调大AD轨的音量,或调小原声轨的音量,基本可以让观众听清解说内容,也不影响电影本身的播放效果;但对于绝大部分影片,原声的动态范围是非常宽的,其时间轴波形呈现起伏的“山脉状”;而AD轨是纯语音,动态范围一般较窄,时间轴波形呈现平坦的“腊肠状”;此时再通过手动调节来获得全程舒适的听觉体验就相当困难了:由于两个轨道动态范围不匹配,如果调大AD轨音量,无法保证全程听清解说内容,甚至损害听力,但如果调小电影原声音量,那么原声的宽动态效果又会大打折扣。
综上可知,现有技术在播放带有AD音轨的盲人无障碍电影时,仍存在播放体验不佳的问题,所以有必要进行改进。
发明内容
本发明的目的就是为了提供一种基于外挂AD音轨的盲人无障碍电影音频处理方法、装置及存储介质,基于现有的盲人无障碍电影播放功能,结合语音活动检测(VAD)和音量自适应调节技术,克服了电影原声音轨对于AD音轨的听觉掩蔽效应,使讲解内容能穿插在高动态范围的电影原声中进行播放,弥补了外挂AD音轨这种盲人无障碍电影播放形式的短板,提升了盲人无障碍电影的观影体验。
本发明的目的可以通过以下技术方案来实现:
一种基于外挂AD音轨的盲人无障碍电影音频处理方法,包括:
获取正片的媒体数据流和外挂AD音轨的媒体数据流;
基于正片的媒体数据流解析分离得到正片视频帧队列QvideoES、正片音频帧队列QaudioES,并基于外挂AD音轨的媒体数据流解析分离得到AD轨音频帧队列QaudioES,并完成正片视频帧队列QvideoES、正片音频帧队列QaudioES和AD轨音频帧队列QaudioES的时间轴同步;
基于正片音频帧队列QaudioES提取正片处理段PCM数据帧序列,并基于AD轨音频帧队列QaudioES提取AD轨处理段PCM数据帧序列;
对AD轨处理段PCM数据帧序列进行语音活动检测,得到每一帧的语音活动状态,其中,所述语音活动状态为活动或不活动;
对正片处理段PCM数据帧序列的每一帧计算音量,得到正片音量序列,并对该正片音量序列种的元素逐个计算移动平均值,得到正片平均音量序列;
对AD轨处理段PCM数据帧序列中语音活动状态为不活动的帧修改为静音值,并对剩余帧逐个计算移动平均值,得到AD轨平均音量序列;
基于语音活动检测结果逐帧调节正片平均音量序列和AD轨平均音量序列;
基于处理得到的正片平均音量序列和AD轨平均音量序列生成待播放的音频。
所述基于语音活动检测结果逐帧调节正片平均音量序列和AD轨平均音量序列,具体包括:
初始调节值生成步骤:逐帧确定正片平均音量序列和AD轨平均音量序列中每帧音量的相对调节幅度,得到正片相对调节值序列和AD轨相对调节值序列;
音量调节步骤:根据正片相对调节值序列和AD轨相对调节值序列调节正片平均音量序列和AD轨平均音量序列。
所述正片相对调节值序列和AD轨相对调节值序列中任一帧的调节值的确定过程如下:
当该帧的语音活动状态为不活动时,正片相对调节值和AD轨相对调节值均为0;
当该帧的语音活动状态为活动时,则计算该帧的正片平均音量和AD轨平均音量的差值:
若该帧的正片平均音量和AD轨平均音量的差值小于-10,则正片相对调节值和AD轨相对调节值均为0;
若该帧的正片平均音量和AD轨平均音量的差值小于在-10到0之间,AD轨相对调节值为0,正片相对调节值为Dmovie=LAD'(t)-Lmovie'(t)-10,其中,Dmovie为正片相对调节值,LAD'(t)为AD轨平均音量,Lmovie'(t)为正片平均音量;
若该帧的正片平均音量和AD轨平均音量的差值小于在0到10之间,则正片相对调节值为-10,AD轨相对调节值为DAD(t)=Lmovie'(t)-LAD'(t)-10;
若该帧的正片平均音量和AD轨平均音量的差值大于10,则正片相对调节值为-10,AD轨相对调节值为10。
所述基于语音活动检测结果逐帧调节正片平均音量序列和AD轨平均音量序列,还包括:
调节值优化步骤:对由初始调节值生成步骤得到的正片相对调节值序列和AD轨相对调节值序列进行平滑处理;
所述音量调节步骤中具体为使用调节值优化步骤得到的结果进行音量调节。
所述平滑处理处理的过程具体为:
Figure BDA0003929556380000041
Figure BDA0003929556380000042
其中:Dmovie为平滑处理前的正片相对调节值,Dmovie’为平滑处理后的正片相对调节值,DAD为平滑处理前的AD轨相对调节值,DAD’为平滑处理后的AD轨相对调节值,n为步长,i为正片相对调节值的序号。
所述步长由淡入淡出窗口长度确定。
所述正片处理段PCM数据帧序列和AD轨处理段PCM数据帧序列共提取有多个。
所有PCM数据帧序列和AD轨处理段PCM数据帧序列的长度相等。
一种基于外挂AD音轨的盲人无障碍电影音频处理装置,包括存储器、处理器,以及存储于所述存储器中的程序,所述处理器执行所述程序时实现如上述的方法。
一种存储介质,其上存储有程序,所述程序被执行时实现如上述的方法。
与现有技术相比,本发明具有以下有益效果:基于现有的盲人无障碍电影播放功能,结合语音活动检测(VAD)和音量自适应调节技术,克服了电影原声音轨对于AD音轨的听觉掩蔽效应,使讲解内容能穿插在高动态范围的电影原声中进行播放,弥补了外挂AD音轨这种盲人无障碍电影播放形式的短板,提升了盲人无障碍电影的观影体验。
附图说明
图1是本发明实施例提供的一种基于外挂AD音轨的盲人无障碍电影播放方法的流程示意图;
图2是本发明图1中步骤S5的子流程图;
图3是本发明实施例提供的语音活动检测(VAD)算法的流程图;
图4是本发明步骤S504中当VAD(t)=1时正片和AD轨两个音轨的调节值与相对音量关系图;
图5是本发明实施例提供的一种基于外挂AD音轨的盲人无障碍电影播放系统架构图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,本发明供的基于外挂AD音轨的基于外挂AD音轨的盲人无障碍电影音频处理方法,可以用于播放盲人无障碍电影,包括以下步骤:
步骤S1,获取节目正片的媒体数据流,同时获取外挂AD音轨的媒体数据流,解析两种数据流的封装格式与编码类型;本发明所支持的媒体数据流类型包括但不限于HLS、DASH、MP4、RTSP、RTMP;
步骤S2,从节目正片的媒体数据流中分离出视频帧和音频帧,将所述视频帧加入到正片视频帧队列QvideoES,将所述音频帧加入到正片音频帧队列QaudioES,直至所述音视频帧队列时长超过预缓冲设定值prebuff_duration,同时从外挂AD音轨的媒体数据流中提取音频帧,并将所述音频帧加入AD轨音频帧队列QADEs,直至所述AD轨音频帧队列时长超过预缓冲设定值prebuff_duration;
步骤S3,启动播放时钟并循环更新,所述时钟启动初始值为队列QaudioES中首个数据帧的时间戳;
步骤S4,在时钟处理循环内,从上述队列QaudioES中逐个取出音频帧进行解码,解码后的正片二进制PCM数据加入正片PCM数据队列Qpcm1,同时从上述队列QADEs中逐个取出音频帧进行解码,解码后的AD音轨二进制PCM数据加入AD音轨PCM数据队列Qpcm2,直至队列Qpcm1和队列Qpcm2内的数据均达到音频处理区间长度Wpcm后,进入音频处理步骤S5;
步骤S5,从上述正片PCM数据队列Qpcm1和AD音轨PCM数据队列Qpcm2中分别取出长度为Wpcm的音频数据进行处理,使AD轨讲解段内的正片相对音量不超过-10dB;
如图2所示,步骤S5进一步包含以下步骤:
步骤S501,对PCM数据并进行分帧,帧长为Wl,帧个数n=Wpcm/Wl,具体地,对Qpcm1进行分帧得到正片处理段PCM数据帧序列Fpcm1(t0,t1,...tn-1),对Qpcm2分帧得到AD轨处理段PCM数据帧序列Fpcm2(t0,t1,...tn-1);
步骤S502,通过语音活动检测(VAD)算法检测上述Fpcm2的每一帧的语音活动状态,得到AD音轨语音活动状态序列VAD(t0,t1,...tn-1);
在本实施例中,采用过零率与平均幅度这两个波形特征作为检测语音活动的参考指标,所述过零率指的是PCM数据采样点每秒钟穿过横轴(零电平)的次数,所述平均幅度指的是PCM数据样本幅值的平均值;
具体地,本实施例中语音活动检测算法可以按以下步骤进行:
(a)过零率及平均幅度计算步骤,逐帧计算过零率ZCR(t)以及平均幅度Aavg(t);
(b)语音状态判别步骤,如图3所示,根据过零率阈值ZCRvoice、语音幅度阈值Avoice、静音幅度阈值Amute,逐帧判别每一帧的语音状态VAD(ti),具体判断方法如下:
如果Aavg(t)大于Avoice,并且ZCR(t)低于ZCRvoice,当前状态为语音状态,VAD(t)=1,即Fpcm2(t)为语音帧;
如果Aavg(t)低于Amute,或者ZCR(t)高于ZCRvoice,当前状态为静音状态,VAD(t)=0,即Fpcm2(t)为静音帧;
其它情况下,VAD(t)维持前一帧的语音状态;
步骤S503,对上述Fpcm1的每一帧进行音量计算,得到当前正片处理段的音量值序列Lmovie(t0,t1,...tn-1),并对该序列的元素逐个计算移动平均值,得到当前正片处理段的音量值平均后的序列Lmovie'(t0,t1,...tn-1),同时对上述Fpcm2(t)中VAD(t)=1的语音帧进行音量计算,其余VAD(t)=0的帧音量记为静音值-90dB,得到当前AD轨处理段的音量值序列LAD(t0,t1,...tn-1),并对上述音量值序列LAD中的非静音元素逐个计算移动平均值,得到当前AD轨处理段的音量值平均后的序列LAD'(t0,t1,...tn-1);
上述每一帧PCM数据音量L(t)的计算公式:
L(t)=20*log(Samplemax/32767);
其中Samplemax为当前帧数据中最大样本幅值,所述幅值指PCM样本值的绝对值,当样本为多声道采样时,样本幅值为各个声道绝对值的平均值;
在本发明中以移动平均值作为实际衡量音频帧音量大小的指标,目的是避免音量的短时陡增和陡降对调节结果产生干扰,同时可以通过增加移动平均算法的窗口大小,控制音量自动调节的灵敏度;
具体地,本实施例采用采用指数加权移动平均EWMA算法来计算移动平均值,计算公式为:
v(t)=β*v(t-1)+(1-β)*θ(t)
其中θ(t)为t时刻实际音量值,系数β为加权下降的速率,v(t)为t时刻音量的移动平均值;
本实施例中分帧长度Wpcm=80ms,加权下降速率β可取0.9,所计算出的EWMA值约等于近10帧的加权移动平均值,即滑动窗口大小约800毫秒,且离当前计算帧越接近,加权系数越大;
步骤S504,根据Lmovie'(t0,t1,...tn-1)与LAD'(t0,t1,...tn-1)的音量值,以及VAD(t0,t1,...tn-1)的状态,对PCM数据帧序列Fpcm1(t0,t1,...tn-1)和Fpcm2(t0,t1,...tn-1)中的音频帧进行音量修正,目标是让AD轨正在讲解时,正片的相对音量不超过-10dB,刚好接近不同音源间产生听觉掩蔽效应的阈值,从而达到AD轨讲解内容能被清晰理解,同时又不过度削弱正片音量的目的;
具体地,音量修正包括以下步骤:
(a)逐帧确定PCM数据帧序列Fpcm1和Fpcm2中每帧音量的相对调节幅度,得到相对调节值序列Dmovie(t0,t1,...tn-1)与DAD(t0,t1,...tn-1),相对调节值确定规则如下:
当VAD(t)=0时,Dmovie(t)=0,DAD(t)=0;
当VAD(t)=1时,根据Lmovie'(t)-LAD'(t)的值d:
若d<=-10,则Dmovie(t)=0,DAD(t)=0;
若-10<d<=0,则Dmovie=LAD'(t)-Lmovie'(t)-10,DAD(t)=0;
若0<d<=10,则Dmovie=-10,DAD(t)=Lmovie'(t)-LAD'(t)-10;
若d>10,则Dmovie=-10,DAD(t)=10;
Figure BDA0003929556380000071
Figure BDA0003929556380000081
表1给出了本实施例中5对音频帧音量数据在调整前和调整后的变化情况;
图4直观地展示了步骤S504中VAD(t)=1时正片音轨与AD轨的调节值与上述相对音量Ddb的关系,由图可见,本发明中对正片音轨最大音量相对调节值限制在-10dB以上,这是为了防止正片音量下降过多而破坏电影气氛和背景音乐的连贯性;另一方面,本发明中对及AD音轨的相对调节值限制在10dB以下,是为了避免音量过响对给听力造成损害,同时避免AD音轨在增益计算时发生溢出;通过对实际播放场景的收集和分析,本发明所限定的±10dB的调节限度可以满足在绝大多数高动态范围电影外挂无障碍AD音轨的需求;
(b)对调节值序列进行窗口平滑处理,目的是为了避免音量陡增和陡降,实现淡入淡出的调节效果,设定淡入淡出窗口长度Wf,则窗口内包含的帧数n=Wf/Wl,最终的音调节值计算方法为:
Figure BDA0003929556380000082
Figure BDA0003929556380000083
(c)根据每帧的最终调节值,对PCM数据帧序列Fpcm1(t0,t1,...tn-1)和Fpcm2(t0,t1,...tn-1)中的音频数据帧进行音量修正,具体地,每个PCM采样点的计算方法如下:
sample'=sample*10(D'/20)
其中sample'为调节后的样本值,sample为原样本值,D’为当前帧的最终音量调节值;
步骤S6,将正片处理段PCM数据帧序列Fpcm1、AD轨处理段PCM数据帧序列Fpcm2中的二进制数据写入两个音轨各自的设备缓冲区,交由声卡播放,并更新上述正片PCM数据队列Qpcm1和AD音轨PCM数据队列Qpcm2的起始时间戳T0=T0+Wpcm,等待进入下个时钟处理循环;
步骤S7,在时钟处理循环内,从QvideoES中逐个取出视频帧进行解码,解码后的待渲染视频帧加入视频渲染队列Qframes,直至队列Qframes长度超过视频帧同步冗余长度Tsync
步骤S8,根据视频渲染队列Qframes中第一帧的时间戳T、当前播放时钟t、系统硬件音频延迟Tlatency,判断是否要对渲染队列Qframes的当前帧数据进行渲染:
当T>t+Tlatency,取出并渲染当前帧;
当T<=t+Tlatency,等待进入下个时钟处理循环;
图5是本发明实施例提供的一种基于外挂AD音轨的盲人无障碍电影播放系统架构图,如图5所示,包括:
媒体解析装置10,用于输入节目正片与外挂AD音轨的媒体数据流路径,解析并输出两种数据流的封装格式与编码类型;
数据缓冲装置20,连接于所述媒体解析装置,用于从节目正片的媒体数据流中分离出视频帧和音频帧,从外挂AD音轨的媒体数据流中提取音频帧,并控制正片视频帧队列QvideoES、正片音频帧队列QaudioES、AD轨音频帧队列QaudioES这三个帧队列的长度;
播放时钟控制装置30,连接于所述数据缓冲装置,用于启动和管理播放时钟,设定播放时钟启动的初始值为队列QaudioES中首个数据帧的时间戳,并定期发出时钟更新消息;
音频解码装置40,连接于所述播放时钟控制装置与数据缓冲装置,用于在接收到时钟更新消息后对AD轨音频帧队列QaudioES、AD轨音频帧队列QaudioES中的数据进行解码,直至解码后的PCM数据长度大于音频处理段的长度Wpcm
音频处理装置50,连接于音频解码装置,用于对解码后的正片音频数据及AD音轨音频数据进行分帧、语音活动检测、音量检测及修正等处理,使得AD轨中有讲解内容段时,正片音量相对AD轨尽量不超过-10dB;
进一步地,上述音频处理装置包含以下子装置:
音频分帧装置501,用于对PCM数据并进行分帧,以得到正片处理段PCM数据帧序列Fpcm1(t0,t1,...tn-1)及AD轨处理段PCM数据帧序列Fpcm2(t0,t1,...tn-1);
AD音轨语音活动检测(VAD)装置502,连接于上述音频分帧装置,用于检测上述Fpcm2的每一帧的语音活动状态,得到AD音轨语音活动状态序列VAD(t0,t1,...tn-1);
音量检测装置503,连接于上述音频分帧装置,用于对Fpcm1的每一帧进行音量检测,并逐个计算移动平均值,得到当前正片处理段的音量值平均值序列Lmovie'(t0,t1,...tn-1),同时对上述Fpcm2(t)中VAD(t)=1的语音帧进行音量检测,其余VAD(t)=0的帧音量记为静音值-90dB,得到当前AD轨处理段的音量值序列LAD(t0,t1,...tn-1),并对上述音量值序列LAD中的非静音元素逐个计算移动平均值,得到当前AD轨处理段的音量值平均后的序列LAD'(t0,t1,...tn-1);
上述正片音量检测装置中,每一帧PCM数据音量L(t)的计算公式:
L(t)=20*log(Samplemax/32767);
其中Samplemax为当前帧数据中最大样本幅值,所述幅值指PCM样本值的绝对值,当样本为多声道采样时,样本幅值为各个声道绝对值的平均值;
音量修正装置504,连接于上述AD音轨语音音量检测装置,用于根据Lmovie'(t0,t1,...tn-1)与LAD'(t0,t1,...tn-1)的音量值,以及VAD(t0,t1,...tn-1)的状态,对PCM数据帧序列Fpcm1(t0,t1,...tn-1)和Fpcm2(t0,t1,...tn-1)中的音频帧进行音量修正,目标是让AD轨正在讲解时,正片的相对音量不超过-10dB,刚好接近不同音源间产生听觉掩蔽效应的阈值,从而达到AD轨讲解内容能被清晰理解,同时又不过度削弱正片音量的目的;
具体地,音量修正装置还包括以下子装置:
(a)相对调节值计算装置,用于逐帧确定PCM数据帧序列Fpcm1和Fpcm2中每帧音量的相对调节幅度,得到相对调节值序列Dmovie(t0,t1,...tn-1)与DAD(t0,t1,...tn-1),相对调节值计算规则如下:
当VAD(t)=0时,Dmovie(t)=0,DAD(t)=0;
当VAD(t)=1时,根据Lmovie'(t)-LAD'(t)的值d:
若d<=-10,则Dmovie(t)=0,DAD(t)=0;
若-10<d<=0,则Dmovie=LAD'(t)-Lmovie'(t)-10,DAD(t)=0;
若0<d<=10,则Dmovie=-10,DAD(t)=Lmovie'(t)-LAD'(t)-10;
若d>10,则Dmovie=-10,DAD(t)=10;
(b)调节值平滑处理装置,连接于相对调节值计算装置,用于对调节值序列进行平滑处理,避免音量陡增和陡降,实现淡入淡出的调节效果,设定淡入淡出窗口长度Wf,则窗口内包含的帧数n=Wf/Wl,最终的音调节值计算规则为:
Figure BDA0003929556380000101
Figure BDA0003929556380000102
(c)最终修正值计算装置,连接于调节值平滑处理装置,用于对PCM数据帧序列Fpcm1(t0,t1,...tn-1)和Fpcm2(t0,t1,...tn-1)中的音频数据帧进行音量修正,具体地,每个PCM采样点的计算规则如下:
sample'=sample*10(D'/20)
其中sample'为调节后的样本值,sample为原样本值,D’为当前帧的最终音量调节值;
音频播放装置60,连接于音频处理装置,用于将处理后的正片处理段PCM数据帧序列Fpcm1、AD轨处理段PCM数据帧序列Fpcm2中的二进制数据写入两个音轨各自的设备缓冲区,交由声卡播放;
视频解码装置70,连接于所述数据缓冲装置,用于从QvideoES中逐个取出视频帧进行解码,并将解码后的待渲染视频帧加入视频渲染队列Qframes
视频渲染装置80,连接于视频解码装置与播放时钟控制装置,用于实现音视频同步播放,根据视频渲染队列Qframes中第一帧的时间戳T、当前播放时钟t、系统硬件音频延迟Tlatency,判断是否要对渲染队列Qframes的当前帧数据进行渲染:
当T>t+Tlatency,取出并渲染当前帧;
当T<=t+Tlatency,等待播放时钟控制装置发出下个时钟更新消息。
上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种基于外挂AD音轨的盲人无障碍电影音频处理方法,其特征在于,包括:
获取正片的媒体数据流和外挂AD音轨的媒体数据流;
基于正片的媒体数据流解析分离得到正片视频帧队列QvideoES、正片音频帧队列QaudioES,并基于外挂AD音轨的媒体数据流解析分离得到AD轨音频帧队列QaudioES,并完成正片视频帧队列QvideoES、正片音频帧队列QaudioES和AD轨音频帧队列QaudioES的时间轴同步;
基于正片音频帧队列QaudioES提取正片处理段PCM数据帧序列,并基于AD轨音频帧队列QaudioES提取AD轨处理段PCM数据帧序列;
对AD轨处理段PCM数据帧序列进行语音活动检测,得到每一帧的语音活动状态,其中,所述语音活动状态为活动或不活动;
对正片处理段PCM数据帧序列的每一帧计算音量,得到正片音量序列,并对该正片音量序列种的元素逐个计算移动平均值,得到正片平均音量序列;
对AD轨处理段PCM数据帧序列中语音活动状态为不活动的帧修改为静音值,并对剩余帧逐个计算移动平均值,得到AD轨平均音量序列;
基于语音活动检测结果逐帧调节正片平均音量序列和AD轨平均音量序列;
基于处理得到的正片平均音量序列和AD轨平均音量序列生成待播放的音频。
2.根据权利要求1所述的一种基于外挂AD音轨的盲人无障碍电影音频处理方法,其特征在于,所述基于语音活动检测结果逐帧调节正片平均音量序列和AD轨平均音量序列,具体包括:
初始调节值生成步骤:逐帧确定正片平均音量序列和AD轨平均音量序列中每帧音量的相对调节幅度,得到正片相对调节值序列和AD轨相对调节值序列;
音量调节步骤:根据正片相对调节值序列和AD轨相对调节值序列调节正片平均音量序列和AD轨平均音量序列。
3.根据权利要求2所述的一种基于外挂AD音轨的盲人无障碍电影音频处理方法,其特征在于,所述正片相对调节值序列和AD轨相对调节值序列中任一帧的调节值的确定过程如下:
当该帧的语音活动状态为不活动时,正片相对调节值和AD轨相对调节值均为0;
当该帧的语音活动状态为活动时,则计算该帧的正片平均音量和AD轨平均音量的差值:
若该帧的正片平均音量和AD轨平均音量的差值小于-10,则正片相对调节值和AD轨相对调节值均为0;
若该帧的正片平均音量和AD轨平均音量的差值小于在-10到0之间,AD轨相对调节值为0,正片相对调节值为Dmovie=LAD'(t)-Lmovie'(t)-10,其中,Dmovie为正片相对调节值,LAD'(t)为AD轨平均音量,Lmovie'(t)为正片平均音量;
若该帧的正片平均音量和AD轨平均音量的差值小于在0到10之间,则正片相对调节值为-10,AD轨相对调节值为DAD(t)=Lmovie'(t)-LAD'(t)-10;
若该帧的正片平均音量和AD轨平均音量的差值大于10,则正片相对调节值为-10,AD轨相对调节值为10。
4.根据权利要求2所述的一种基于外挂AD音轨的盲人无障碍电影音频处理方法,其特征在于,所述基于语音活动检测结果逐帧调节正片平均音量序列和AD轨平均音量序列,还包括:
调节值优化步骤:对由初始调节值生成步骤得到的正片相对调节值序列和AD轨相对调节值序列进行平滑处理;
所述音量调节步骤中具体为使用调节值优化步骤得到的结果进行音量调节。
5.根据权利要求4所述的一种基于外挂AD音轨的盲人无障碍电影音频处理方法,其特征在于,所述平滑处理处理的过程具体为:
Figure FDA0003929556370000021
Figure FDA0003929556370000022
其中:Dmovie为平滑处理前的正片相对调节值,Dmovie’为平滑处理后的正片相对调节值,DAD为平滑处理前的AD轨相对调节值,DAD’为平滑处理后的AD轨相对调节值,n为步长,i为正片相对调节值的序号。
6.根据权利要求4所述的一种基于外挂AD音轨的盲人无障碍电影音频处理方法,其特征在于,所述步长由淡入淡出窗口长度确定。
7.根据权利要求1所述的一种基于外挂AD音轨的盲人无障碍电影音频处理方法,其特征在于,所述正片处理段PCM数据帧序列和AD轨处理段PCM数据帧序列共提取有多个。
8.根据权利要求7所述的一种基于外挂AD音轨的盲人无障碍电影音频处理方法,其特征在于,所有PCM数据帧序列和AD轨处理段PCM数据帧序列的长度相等。
9.一种基于外挂AD音轨的盲人无障碍电影音频处理装置,包括存储器、处理器,以及存储于所述存储器中的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的方法。
10.一种存储介质,其上存储有程序,其特征在于,所述程序被执行时实现如权利要求1-8中任一所述的方法。
CN202211385507.4A 2022-11-07 2022-11-07 盲人无障碍电影音频处理方法、装置及存储介质 Pending CN115695902A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211385507.4A CN115695902A (zh) 2022-11-07 2022-11-07 盲人无障碍电影音频处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211385507.4A CN115695902A (zh) 2022-11-07 2022-11-07 盲人无障碍电影音频处理方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN115695902A true CN115695902A (zh) 2023-02-03

Family

ID=85049331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211385507.4A Pending CN115695902A (zh) 2022-11-07 2022-11-07 盲人无障碍电影音频处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115695902A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7415120B1 (en) * 1998-04-14 2008-08-19 Akiba Electronics Institute Llc User adjustable volume control that accommodates hearing
CN101458951A (zh) * 2008-12-30 2009-06-17 胡礼斌 具有多功能的影音节目信号处理系统
CN102932670A (zh) * 2012-11-29 2013-02-13 百视通网络电视技术发展有限责任公司 一种流媒体切片方法及系统
US20210151082A1 (en) * 2019-11-19 2021-05-20 Netflix, Inc. Systems and methods for mixing synthetic voice with original audio tracks
US20210281927A1 (en) * 2020-03-09 2021-09-09 Roy F. Samuelson Apparatus and Method for Providing Audio Description Content
CN113783645A (zh) * 2021-09-30 2021-12-10 上海电影技术厂有限公司 一种服务于视障人士的无障碍放映设备
CN114915874A (zh) * 2021-02-10 2022-08-16 北京全景声信息科技有限公司 音频处理方法、装置、设备、介质及程序产品

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7415120B1 (en) * 1998-04-14 2008-08-19 Akiba Electronics Institute Llc User adjustable volume control that accommodates hearing
CN101458951A (zh) * 2008-12-30 2009-06-17 胡礼斌 具有多功能的影音节目信号处理系统
CN102932670A (zh) * 2012-11-29 2013-02-13 百视通网络电视技术发展有限责任公司 一种流媒体切片方法及系统
US20210151082A1 (en) * 2019-11-19 2021-05-20 Netflix, Inc. Systems and methods for mixing synthetic voice with original audio tracks
US20210281927A1 (en) * 2020-03-09 2021-09-09 Roy F. Samuelson Apparatus and Method for Providing Audio Description Content
CN114915874A (zh) * 2021-02-10 2022-08-16 北京全景声信息科技有限公司 音频处理方法、装置、设备、介质及程序产品
CN113783645A (zh) * 2021-09-30 2021-12-10 上海电影技术厂有限公司 一种服务于视障人士的无障碍放映设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JOSEFINA BARNACHEA JANIER 等: "Use of narration to develop an audio video describer for the sight impaired", 《2012 IEEE INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE AND AUTOMATION ENGINEERING (CSAE)》, 20 August 2012 (2012-08-20) *
李肋: "一个嵌入式的盲人辅助系统音频模块的设计与实现", 《电脑知识与技术》, 21 June 2010 (2010-06-21) *
王莉: "中国无障碍电影发展特点与瓶颈探析", 《新闻研究导刊》, 25 November 2021 (2021-11-25) *

Similar Documents

Publication Publication Date Title
US10950270B2 (en) Audio modification for adjustable playback rate
JP3629253B2 (ja) 音声再生装置および同装置で用いられる音声再生制御方法
KR100188483B1 (ko) 디지털 비디오/오디오 데이터 스트림의 동기 유지 장치 및 방법, 디지털 비디오/오디오 재생 시스템 및 재생 서브시스템과 비디오/오디오 데이터의 동기화된 디스플레이 제공 시스템
US11430485B2 (en) Systems and methods for mixing synthetic voice with original audio tracks
JP4895418B2 (ja) 音声再生方法および音声再生装置
TWI224468B (en) Gated silence removal during video trick modes
CN106658135A (zh) 一种音视频播放方法及装置
JPH0973299A (ja) Mpegオーディオ再生装置およびmpeg再生装置
KR100490403B1 (ko) 오디오 스트림의 버퍼링 제어 방법 및 그 장치
JP2010164859A (ja) オーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラム
CN108540855B (zh) 一种适用于网络直播场景下的自适应低延时流媒体播放方法
US20230066854A1 (en) Computer implemented method, device and computer program product for setting a playback speed of media content comprising audio
KR20070104131A (ko) 오디오/비디오 동기 보정 방법 및 장치
CN115695902A (zh) 盲人无障碍电影音频处理方法、装置及存储介质
JP2013005423A (ja) 映像再生装置、映像再生方法およびプログラム
JP2006317768A (ja) 話速変換装置、及びこの話速変換装置を制御する話速変換プログラム
US20070192089A1 (en) Apparatus and method for reproducing audio data
CN102110459B (zh) 一种播放终端及其多媒体文件的播放方法和装置
EP2261900A1 (en) Method and apparatus for modifying the playback rate of audio-video signals
JP4310745B2 (ja) 番組要約装置および番組要約処理プログラム
US20070248170A1 (en) Transmitting Apparatus, Receiving Apparatus, and Reproducing Apparatus
JP2002084505A (ja) 映像閲覧時間短縮装置及び方法
US10262690B2 (en) Signal processing device, signal processing system, signal processing method, and program
JP2002297200A (ja) 話速変換装置
US20240029755A1 (en) Intelligent speech or dialogue enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination