CN108279860A - 一种提升虚拟现实临场音效体验的方法及系统 - Google Patents

一种提升虚拟现实临场音效体验的方法及系统 Download PDF

Info

Publication number
CN108279860A
CN108279860A CN201710448890.6A CN201710448890A CN108279860A CN 108279860 A CN108279860 A CN 108279860A CN 201710448890 A CN201710448890 A CN 201710448890A CN 108279860 A CN108279860 A CN 108279860A
Authority
CN
China
Prior art keywords
audio
channel
audio signal
time
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710448890.6A
Other languages
English (en)
Other versions
CN108279860B (zh
Inventor
甄国文
陈鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Advanced Video Info-Tech Co Ltd
Original Assignee
Shenzhen Advanced Video Info-Tech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Advanced Video Info-Tech Co Ltd filed Critical Shenzhen Advanced Video Info-Tech Co Ltd
Priority to CN201710448890.6A priority Critical patent/CN108279860B/zh
Publication of CN108279860A publication Critical patent/CN108279860A/zh
Application granted granted Critical
Publication of CN108279860B publication Critical patent/CN108279860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Stereophonic System (AREA)

Abstract

本发明提出一种提升虚拟现实临场音效体验的方法,包括以下步骤:S1:获取声源的原始左右声道音频信号并解码;S2:对所述解码后的原始左右声道音频信号进行预处理;S3:实时检测用户的人头在水平方向上的偏移角度信息;S4:根据所述偏移角度信息,对所述预处理后的和原始的左右声道音频信号进行实时抽值/插值处理,得到两组时间偏移后的左右声道音频信号;S5:将所述两组时间偏移后的左右声道音频信号分别进行融合后输出。本发明的提升虚拟现实临场音效体验方法及系统,能够随着用户的头部转动,实时调整左声道和右声道的时间偏移和音量大小情况,极大地提升了用户观看虚拟现实视频的临场音效体验。

Description

一种提升虚拟现实临场音效体验的方法及系统
技术领域
本发明涉及信号处理领域,特别涉及一种提升虚拟现实临场音效体验的方法及系统。
背景技术
虚拟现实技术是一种可以创建和体验虚拟世界的计算机仿真系统,它利用计算机生成一种模拟环境,是一种多源信息融合的、交互式的三维动态视景和实体行为的系统仿真使用户沉浸到该环境中。
虚拟现实技术涉及音视频输出。在视频方面,视频画面视角会跟随着视角指令的控制而变化。目前主流的虚拟现实音视频播放器——手机和虚拟现实一体机,都是通过陀螺仪传感器获取方向信息,从而实时控制视频画面视角的输出。这两个播放器均需要通过佩戴虚拟现实眼镜使用。
虚拟现实领域的技术人员和虚拟现实技术使用者将会理解,佩戴虚拟现实眼镜观看到的场景是固定的,不会随着观看者转动头部、移动观看视角而变化。例如,虚拟现实场景中北边的一棵树,会一直在北边;当观看者面向北边时,这棵树就出现在观看者的前方;当观看者转动头部、将视角经过东边移向南边时,这棵树就逐渐消失在视野中,而东边和南边的场景则慢慢出现在视野中。
而目前的虚拟现实播放器,普遍采用左右声道,即双声道的音频设备采集音频信息,双声道的位置是固定的,在视角转动过程中均保持原来的输出,不做处理。例如,观看者佩戴虚拟现实眼镜、戴上左右耳机观看一个场景时,观看者面向主视角(默认视角)时,场景中观看者的左边有人在说话,此时左耳机输出说话人的声音,右耳机不输出或以小音量输出说话人的声音;当观看者慢慢将头转向左边,再转向后边观看后面场景过程中,观看者的左耳机始终在输出说话人的声音,右耳机始终不输出说话人的声音;特别是当观看者将头转向后面时,场景中说话人此时在观看者的右边,观看者右耳机应该输出说话人的声音,左耳机应该不输出或以小音量输出说话人的声音,而实际上,观看者的左耳机输出说话人的声音,右耳机不输出说话人的声音;这时听觉感受到的声源方向与视觉看到的声源方向相违背。这样使观看者观看虚拟现实视频的临场体验大打折扣。
发明内容
本发明的目的是为了解决现有技术中的虚拟现实播放器临场音效体验差的问题,提出一种提升虚拟现实临场音效体验的方法及系统。
本发明的提升虚拟现实临场音效体验的方法,包括以下步骤:S1:获取声源的原始左右声道音频信号,并对所述原始左右声道音频信号进行解码;S2:对所述解码后的原始左右声道音频信号进行预处理;S3:实时检测用户的人头在水平方向上的偏移角度信息;S4:根据所述偏移角度信息,对所述预处理后的左右声道音频信号和所述解码后的原始左右声道音频信号分别进行实时抽值/插值处理,得到两组时间偏移后的左右声道音频信号;S5:将所述两组时间偏移后的左右声道音频信号分别进行融合,形成新的左右声道音频信号并输出。
优选地,所述步骤S2中对所述解码后的原始左右声道音频信号进行预处理,是指分别对到达左耳声道的原始右声道音频和到达右耳声道的原始左声道音频进行插值预处理。所述插值预处理的插值数量No为:
No=INT[fs·W/v]
其中,W为两耳距离,fs为原音频的采样频率,v为声音在空气中的传播速度。所述步骤S3中的所述偏移角度信息,是指用户的人头转动时相对于初始位置的水平偏移角度。
优选地,所述步骤S4中的对所述预处理后的左右声道音频信号和所述解码后的原始左右声道音频信号进行分别实时抽值/插值处理,包括两个方面,分别是:对于左耳声道,对所述预处理后的右声道音频和原始左声道音频分别进行实时抽/插值处理;对于右耳声道,对预处理后的左声道音频和原始右声道音频分别进行实时抽/插值处理,总抽值/插值数量N(θ)为:
N(θ)=INT[fs·W(1-cosθ)/2v]
其中,W为两耳距离,fs为原音频的采样频率,v为声音在空气中的传播速度。
优选地,所述步骤S5中将所述两组时间偏移后的左右声道音频信号分别进行融合,是指对所述音频信号的音量值进行融合:
L″n=L′ln·A(θn)+R′ln·B(θn)
R″n=R′rn·A(θn)+L′rn·B(θn)
其中,L″n为融合后左耳音频的音量值,R″n为融合后右耳音频的音量值,L′ln和R′ln分别是对应于左耳声道的时间偏移后的左声道音频的音量值和右声道音频的音量值,R′rn和L′rn分别是对应于右耳声道的时间偏移后的右声道音频的音量值和左声道音频的音量值,参数θn为所述偏移角度信息,A(θn)和B(θn)均为关于参数θn的函数,并且存在依赖关系A(θn)+B(θn)=1。优选地,所述A(θn)和B(θn)分别为:
本发明还提出一种提升虚拟现实临场音效体验的系统,包括:左右声道音频采集器,获取声源的原始左右声道音频信号并完成音频编码;解码器,对所述原始左右声道音频信号进行解码;运动传感器,实时检测用户的人头在水平方向上的偏移角度信息;时间偏移处理器,对所述解码后的原始左右声道音频信号进行预处理,和根据所述偏移角度信息,对所述预处理后的左右声道音频信号和所述解码后的原始左右声道音频信号分别进行实时抽值/插值处理,得到两组时间偏移后的左右声道音频信号;音频融合器,将所述两组时间偏移后的左右声道音频信号分别进行融合,形成新的左右声道音频信号并输出。
优选地,所述运动传感器包括加速度计、陀螺仪和/或者磁力传感器。
与现有技术相比,本发明的有益效果有:
本发明的提升虚拟现实临场音效体验的方法及系统,通过在播放器的音频解码输出路径上插入时间偏移处理器和音频融合器,能够随着观看者或者收听者的头部转动,实时调整左声道和右声道的时间偏移和音量大小情况,极大地提升了观看者观看虚拟现实视频的临场音效体验。
附图说明
图1是本发明提升虚拟现实临场音效体验的方法流程图。
图2是本发明一个实施例的应用场景示意图。
具体实施方式
下面结合具体实施方式并对照附图对本发明做进一步详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
观看者仅通过两个耳朵就能正确判断声源的方向,是因为声源到观看者两个耳朵之间的距离有差异,导致耳朵接收到同一声源发出声音的音量有差别,接收到同一声音的时间(相位)也有差别。也就是说,观看者两个耳朵接收到同一声源的声音是不一样的,不仅存在音量大小的区别,还存在时间先后的区别。因此,虚拟现实中需要对虚拟现实的音频从音量大小和时间偏移两个方面来进行处理,才能更好的提升观看者观看虚拟现实视频的临场体验。
本发明的提升虚拟现实临场音效体验的系统,包括:左右声道音频采集器,获取声源的原始左右声道音频信号并完成音频编码;解码器,对所述原始左右声道音频信号进行解码;运动传感器,实时检测用户的人头在水平方向上的偏移角度信息;时间偏移处理器,对所述解码后的原始左右声道音频信号进行预处理,并且根据所述偏移角度信息,对所述预处理后的左右声道音频信号和所述解码后的原始左右声道音频信号进行实时抽值/插值处理;音频融合器,对将所述时间偏移后的左右声道音频信号进行融合,形成新的左右声道音频信号并输出。
可以理解的是,在录制音虚拟现实音视频资料时,左右声道音频采集器采集的是声源的原始左右声道音频信号,并且其位置是固定的,不会随着观看者或收听者人头的转动而变换位置,当观看者佩戴虚拟现实眼镜、戴上左右耳机时,左右耳机输出的音频信息分别是左耳声道音频信息和右耳声道音频信息,其是通过本发明对原始左右声道音频信号处理后的音频信息,其能够随着观看者或者收听者的头部转动,实时调整左声道和右声道音频信息的时间偏移和音量大小情况,极大地提升了观看者观看虚拟现实视频的临场音效体验。
本发明通过在播放器的音频解码输出路径上插入时间偏移处理器和音频融合器,具体的音频处理流程如图1所示,首先将原始左右声道音频解码,得到解码后的原始左声道音频L和原始右声道音频R。时间偏移处理器将解码后的左右声道音频各取一个分支,该分支分别是到达左耳声道的原始右声道音频R、和到达右耳声道的原始左声道音频L,时间偏移处理器首先对这两个分支音频进行固有插值预处理。预处理的原因是,即使观察者或收听者的人头没有转动,但是原始右声道音频需要经过一个人头宽度才能到达左耳,原始左声道音频要需要经过一个人头宽度才能到达右耳,因此,需要首先对到达左耳声道的原始右声道音频R、以及到达右耳声道的原始左声道音频L进行固有插值预处理,分别得到预处理后的右声道音频R’和预处理后的左声道音频L’。
然后时间偏移处理器实时获取陀螺仪的水平角度偏移信息(此处的水平角度偏移信息是指观看者或者收听者的人头转动时相对于初始位置的水平偏移角度θ,简称人头转动角度θ),并根据水平角度偏移信息,实时调整声源到达左右耳朵的时间变化,具体的,对于左耳声道而言,时间偏移处理器根据实时获取的人头转动角度θ,对预处理后的右声道音频R’和原始左声道音频L分别进行实时抽/插值处理,得到时间偏移后的右声道音频Rl’(θ)和时间偏移后的左声道音频Ll’(θ);对于右耳声道而言,时间偏移处理器根据实时获取的人头转动角度θ,对预处理后的左声道音频L’和原始右声道音频R分别进行实时抽/插值处理,得到时间偏移后的右声道音频Rr’(θ)和时间偏移后的左声道音频Lr’(θ)。
然后对于左耳声道而言,音频融合器将时间偏移后的右声道音频Rl’(θ)和时间偏移后的左声道音频Ll’(θ)融合,形成融合后的左耳声道音频L”;对于右耳声道而言,音频融合器再将时间偏移后的右声道音频Rr’(θ)和时间偏移后的左声道音频Lr’(θ)融合,形成融合后的右耳声道音频R”,最后通过数模转换输出或者进入其他处理流程,以达到提高观看者临场体验的效果。
时间偏移处理器的工作过程及工作原理详细描述如下:
解码器将音频解码,输出左右声道的音频值。输出的左右声道音频值分别按一定的排列顺序被缓存成两个音频序列。在这两个音频序列中,排在前面的音频值首先被输出。
假设声源的初始位置在收听者人头的左边或右边,收听者听到声音后,将头转向声源的方向,在转向的过程中,左耳或右耳逐渐远离声源,右耳或左耳逐渐靠近声源,时间偏移处理器将在人头转向过程中对预处理后的和原始的左右声道音频序列进行插值或抽值处理。
以下对将要用到的变量做如下定义:W为两耳距离,优选值0.16m;v为声音在空气中的传播速度,优选值340m/s;fs为原音频的采样频率,由左右声道音频采集器的采样率决定,记录在音频文件中,可直接读取;θ为观看者或者收听者的人头水平转动时相对于初始位置的水平偏移角度,简称人头转动角度θ,该角度由陀螺仪提供,被时间偏移处理器和音频融合器实时获取。在此需要说明的是,实时获取人头转动角度θ可以有多种方法,可以采用单一的传感器,即采用单一的加速度计、陀螺仪或者磁力传感器,也可以采用上述传感器的组合。在本实施例中,通过陀螺仪实时获取人头转动角度θ,在其他实施例中,可以采用多种传感器的组合,形成运动传感器套件,更加精确地采集观看者或者收听者的人头转动角度θ。
假设声源的初始位置在收听者人头的左边或右边,当在初始位置(θ=0°)时,原右声道音频需要经过两耳距离W才能到达左耳,原左声道音频需要经过两耳距离W才能到达右耳。因此,当在初始位置(θ=0°)时,需要首先对送至左耳的原始右声道音频和送至右耳的原始左声道音频进行插值预处理,插值数量No为:
No=INT[fs·W/v] 公式(1)
根据公式(1)可获得经过预处理后的右声道音频R’和预处理后的左声道音频L’。
当人头转动角度为θ时,左耳或右耳在原左右方向上与声源的距离变化量为
Δd=W(1-cosθ)/2 公式(2)
声音因人头转动导致到达左耳或右耳的时间变化量为
Δt=W(1-cosθ)/2v 公式(3)
则左耳或右耳的总抽值/插值数量
N(θ)=INT[fs·W(1-cosθ)/2v] 公式(4)
其中N为整数。
时间偏移处理器实时获取陀螺仪的水平偏移角度θ,并通过公式(2)、(3)和(4)计算总抽值/插值数量N(θ)。总抽值/插值数量N(θ)随人头转动角度θ的变化而变化,并且当人头转动角度θ变化一定大小时,总抽值/插值数量N(θ)才会有整数变化。
例如,当两耳距离W为0.16m,采样频率fs为0.1MHz,声音在空气中的传播速度v为340m/s时,插值预处理的插值数量No为47次。当水平偏移角度θ小于16.8°时,则通过公式(3)计算得出总抽值/插值数量N小于1次,即当收听者的人头转动角度θ小于16.76°时,总抽值/插值数量N(θ)为0次;当水平偏移角度θ大于16.8°而小于23.8°时,则通过公式(3)计算得出总抽值/插值数量N大于1次而小于2次,即当收听者的人头转动角度θ大于16.8°而小于23.8°时,总抽值/插值数量N(θ)为1次;当水平偏移角度θ为30°时,则通过公式(3)计算得出总抽值/插值数量N为3次,即当收听者的人头转动角度θ为30°时,总抽值/插值数量N(θ)为3次;当收听者的人头转动角度θ为45°时,通过公式(3)计算得出总抽值/插值数量N为6次;当收听者的人头转动角度θ为60°时,通过公式(3)计算得出总抽值/插值数量N(θ)为11次;当收听者的人头转动角度θ为90°时,通过公式(3)计算得出总抽值/插值数量N(θ)为23次。
当算出的总抽值/插值数量N(θ)有变化时,则进行抽值/插值操作,抽出或插入的音频值的个数为N(θ)的变化量ΔN。当计算出的总抽值/插值数量N(θ)无变化(ΔN=0)时,则不进行抽值/插值操作。抽值和插值操作是在音频序列中从第1个音频值开始,每隔m个音频值抽出一个或者插入一个音频值。
假设声源的初始位置在收听者人头的左边,收听者听到声音后,将头转向声源的方向,在转向的过程中,在人头转动角度0°<θ<180°的范围内,总抽值/插值数量N(θ)值变大,变大量为ΔN,左耳逐渐远离声源,右耳逐渐靠近声源。对于左耳声道而言,时间偏移处理器根据实时获取的人头转动角度θ,对预处理后的右声道音频R’进行实时抽值处理,对原始左声道音频L进行实时插值处理;对于右耳声道而言,时间偏移处理器根据实时获取的人头转动角度θ,对预处理后的左声道音频L’进行实时抽值处理,对原始右声道音频R进行实时插值处理;同理,若总抽值/插值数量N(θ)变小,变小量为ΔN,时间偏移处理器根据实时获取的人头转动角度θ,需要对左声道或右声道的音频进行相反操作。抽值操作后将会缩短音频序列的输出时间,将听到声音的时间提前,插值操作后将会延迟音频序列的输出时间,将听到声音的时间延后。下面先详细描述时间偏移处理器对左声道或右声道的音频序列进行抽值操作的几种情况:
如果当前左声道或右声道的音频序列为原音频序列(即无插入过任何额外值和无抽取过任何值),则将音频序列的第m个值(从音频序列的第1个值开始数)抽出来,然后再将音频序列的第2m个值抽出来,以此类推,直到将音频序列的第ΔN个值抽出来为止。
如果检测到当前左声道或右声道的音频序列已抽取过数值时,则在当前已抽值的序列后继续间隔抽出数值。假设当前序列中最后被抽出的数值是第K个,则继续将第(K+m)、(K+2m)......(K+ΔN·m)个值抽出。
如果检测到当前左声道或右声道的音频序列已插入过数值时,则按数量要求将被插入的数值从最后插入的数值开始,依次将插入的数值抽出。当插入数值全部被抽出,但仍需继续进行抽值的话,则从第1个值开始,依次将第m、2m、3m……个数值抽去,一直达到需要抽出的数值数量为止。
然后再详细描述时间偏移处理器对右声道或左声道的音频序列进行插值操作的几种情况:
如果当前右声道或左声道的音频序列为原音频序列(即无插入过任何额外值和无抽取过任何值),则在音频序列的第m和(m+1)个值之间插入一个音频值,然后再在第2m和(2m+1)个值之间插入一个音频值,以此类推,直到在音频序列的第(ΔN·m)和(ΔN·m+1)个值之间插入最后一个音频值为止。
如果检测到当前右声道或左声道的音频序列已插入过数值时,则在当前已插值的序列后继续间隔插入数值。假设当前序列中最后被插入的数值是第k、(k+1)个数值之间,则继续在第(k+m)和(k+m+1)之间、(k+2m)和(k+2m+1)之间……(K+ΔN·m)和(k+ΔN·m+1)之间插入ΔN个数值。
如果检测到当前右声道或左声道的音频序列已抽出过数值时,则按数量要求将被抽出的数值从最后抽出的数值开始,依次将抽出的数值插回原位。当抽出的数值全部被插回原位,但仍需要继续进行插值的话,则依次在第m和(m+1)个值之间、第2m和(2m+1)个值之间……插入数值,一直达到需要插入的数值数量为止。
m的优选值可根据音频采样率fs、播放器的主时钟频率和结合实际调试效果来确定。在这里需要说明的是,目前的音频采样率一般为22.05KHz、44.1KHz、48KHz,即使采用采样率较高的SACD,其采样率为2.822MHz,相对于当前音视频播放器所基于的CPU上万DMIPS的处理性能而言,速率相对较慢。音视频播放器在均匀播出两个相邻音频值时,时间偏移处理器有足够的时间完成水平偏移角度的获取、抽/插值运算及相应的抽/插值操作。因此,虽然音频序列是随时间动态变化的,但在时间偏移处理模块进行抽/插值运算及相应的抽/插值操作期间,可认为当前需要处理的音频序列是静止的。
在一个实施例中,如图2所示,图中1号箭头指示的是观看者佩戴虚拟眼睛观看到的虚拟现实场景,2号箭头指示的是虚拟现实场景中的声源位置。初始位置时,收听者的人头朝向正北方,声源处于收听者的正左方,根据公式(1),假设两耳距离W为0.16m,采样频率fs为0.1MHz,声音在空气中的传播速度v为340m/s时,则在初始位置时插值预处理的插值数量No为47次。若左耳和右耳的音频信号被解码后含有的音频值数量为500个,m取值为3,对于左耳声道而言,需要对到达左耳声道的原始右声道音频R插入47个值,依次在第3个与第4个、第6个与第7个、……、第141个与第142个音频值之间插入音频值,得到预处理后的右声道音频R’;对于右耳声道而言,需要对到达右耳声道的原始左声道音频L插入47个值,依次在第3个与第4个、第6个与第7个、……、第141个与第142个音频值之间插入音频值,得到预处理后的左声道音频L’。
当人头转动角度θ为0°,根据公式(4)得出总抽值/插值数量N1(θ)为0次;当收听者的人头朝向声源的方向转动,转动角度θ为30°时,总抽值/插值数量N2(θ)为3次,在转动过程中,左耳逐渐远离声源,右耳逐渐靠近声源,总抽值/插值数量N(θ)变大了,ΔN=N2(θ)-N1(θ)=3次,对于左耳声道而言,时间偏移处理器根据实时获取的人头转动角度θ,对预处理后的右声道音频R’抽取3个值,即从最后插入的值开始依次将插入的3个值抽出,对原始左声道音频L进行实时插值处理,依次在第3个与第4个、第6个与第7个、第9个与第10个音频值之间共插入3个音频值;对于右耳声道而言,时间偏移处理器根据实时获取的人头转动角度θ,对预处理后的左声道音频L’抽取3个值,即从最后插入的值开始依次将插入的3个值抽出,对原始右声道音频R进行实时插值处理,依次在第3个与第4个、第6个与第7个、第9个与第10个音频值之间共插入3个音频值。
在另一个实施例中,声源的初始位置在收听者人头的右边,收听者听到声音后,将头转向声源的方向,在转向的过程中,右耳逐渐远离声源,左耳逐渐靠近声源,时间偏移处理器将在人头转向过程中,对预处理后的左右声道音频序列和原始左右声道音频序列进行插值或抽值处理。在转向的过程中,在人头转动角度0°<θ<180°的范围内,总抽值/插值数量N(θ)值变大,变大量为ΔN,右耳逐渐远离声源,左耳逐渐靠近声源,对于左耳声道而言,时间偏移处理器根据实时获取的人头转动角度θ,对预处理后的右声道音频R’进行实时抽值处理,对原始左声道音频L进行实时插值处理;对于右耳声道而言,时间偏移处理器根据实时获取的人头转动角度θ,对预处理后的左声道音频L’进行实时抽值处理,对原始右声道音频R进行实时插值处理;同理,若总抽值/插值数量N(θ)变小,变小量为ΔN,时间偏移处理器根据实时获取的人头转动角度θ,需要对左声道或右声道的音频进行相反操作。
经过时间偏移处理器处理后的左右声道音频序列,一同送至音频融合器进行融合处理。
音频融合器详细描述如下:
音频融合器,对将上述时间偏移后的左右声道音频信号的音量值进行融合,形成新的左右声道音频信号并输出。在(t0,t1,t2......tn-1,tn,tn+1......)时刻,获取的人头转动角度分别为(θ0,θ1,θ2......θn-1,θn,θn+1......),此时对于左耳声道而言,对应时间偏移处理器输出的左、右声道音频的音量值分别为(L′l0,L′l1,L′l2......L′l(n-1),L′ln,L′l(n+1)......)和(R′l0,R′l1,R′l2......R′l(n-1),R′ln,R′l(n+1)......);对于右耳声道而言,对应时间偏移处理器输出的左、右声道音频的音量值分别为(L′r0,L′r1,L′r2......L′r(n-1),L′rn,L′r(n+1)......)和(R′r0,R′r1,R′r2......R′r(n-1),R′rn,R′r(n+1)......)。经过融合模块融合运算后输出的左、右耳声道音频的音量值分别为(L″0,L″1,L″2......L″n-1,L″n,L″n+1......)、(R″0,R″1,R″2......R″n-1,R″n,R″n+1......)。跟原始左、右声道音频的音量值(L0,L1,L2......Ln-1,Ln,Ln+1......)、(R0,R1,R2......Rn-1,Rn,Rn+1......)一起,(Ln,Rn,L′ln,R′ln,L′rn,R′rn,L″n,R″n)为同一时刻的音量值,左、右耳声道音频的音量值(L″n,R″n)将与视频画面同步输出。
对于左耳声道而言,将经时间偏移处理器时间偏移后的左声道音频的音频值L′ln和时间偏移后的右声道音频的音量值R′ln经过以下公式(5)的融合运算,得到融合后的左耳声道音频的音量值L″n;对于右耳声道而言,将经时间偏移处理器时间偏移后的左声道音频的音频值L′rn和时间偏移后的右声道音频的音量值R′rn经过以下公式(6)的融合运算,得到融合后的右耳声道音频的音量值R″n;:
L″n=L′ln·A(θn)+R′ln·B(θn) 公式(5)
R″n=R′rn·A(θn)+L′rn·B(θn) 公式(6)
其中,A(θn)和B(θn)均为关于参数θn的函数,并且存在依赖关系A(θn)+B(θn)=1。
优选的,A(θn)和B(θn)为以下函数
此时,θn取0°、30°、90°、180°四个值为例,来说明L″n和R″n是如何随水平偏移角θn变化的。
当人头转动角度θn=0°(视频画面正视主视角)时,cosθn=1,
L″n=L′ln=Ln
R″n=R′rn=Rn
此时,左耳声道输出的是经时间偏移处理器处理后的左声道音频的音量值L′rn,右耳声道输出的是经时间偏移处理器处理后的右声道音频的音量值R′rn。由于此时人头转动角度θn=0°,人头并没有转动,则根据公式(4)计算出的总抽值/插值数量N(θ)无变化(ΔN=0)时,不进行抽值/插值操作,即此时,左耳声道输出的是原始左声道音频的音量值Ln,右耳声道输出的是原始右声道音频的音量值Rn
当视频水平视角转动θn=30°时,cosθn=0.866,
L″n=0.933L′ln+0.067R′ln
R″n=0.933R′rn+0.067L′rn
此时,左耳声道输出的是大部分经时间偏移处理器处理后的左声道音频的音量值L′ln和小部分经时间偏移处理器处理后的右声道音频的音量值R′ln混合后的音频音量值,右耳声道输出的是大部分经时间偏移处理器处理后的右声道音频的音量值R′rn和小部分经时间偏移处理器处理后的左声道音频的音量值L′rn混合后的音频音量值。
当视频水平视角转动θn=90°(视频画面转到主视角正左方或正右方)时,coaθn=0,
L″n=0.5L′ln+0.5R′ln
R″n=0.5R′rn+0.5L′rn
此时,左耳声道输出的是一半经时间偏移处理器处理后的左声道音频的音量值L′ln和一半经时间偏移处理器处理后的右声道音频的音量值R′ln混合后的音频音量值,右耳声道输出的是一半经时间偏移处理器处理后的右声道音频的音量值R′rn和一半经时间偏移处理器处理后的左声道音频的音量值L′rn混合后的音频音量值。
当视频水平视角转动θn=180°(视频画面背对主视角)时,cosθn=-1,
L″n=R′ln=Rn
R″n=L′rn=Ln
此时,左耳声道输出的是经时间偏移处理器处理后的右声道音频的音量值R′ln,右耳声道输出的是经时间偏移处理器处理后的左声道音频的音量值L′rn,由于此时人头转动角度θn=180°,由公式(4)和公式(1)得出N(θ)=No,对于左耳声道而言,时间偏移处理器根据实时获取的人头转动角度θ,对预处理后的右声道音频Rl’进行实时抽值处理,抽取的音频值数量等于预处理时插入的音频值数量,因此,左耳声道输出的是原始右声道的音频的音量值Rn;同理,右耳声道输出的是原始左声道的音频的音量值Ln,即左右声道的音频反过来输出。
由此可见,我们佩戴虚拟现实眼镜观看虚拟现实视频,当我们从主视角慢慢向左边转时,左耳声道输出的融合音频中,经时间偏移处理器处理后的左声道的音量会逐渐减小、经时间偏移处理器处理后的右声道的音量会逐渐增大;右耳声道输出的融合音频中,经时间偏移处理器处理后的右声道的音量会逐渐减小、经时间偏移处理器处理后的左声道的音量会逐渐增大。当我们转180°面向背后时,左耳声道输出原始右声道的音频,右耳声道输出原始左声道的音频。如此,左耳和右耳声道输出的音频信息,能够随着观看者或者收听者的头部转动,实时调整时间偏移和音量大小,极大地提升了观看者观看虚拟现实视频的临场音效体验。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。

Claims (10)

1.一种提升虚拟现实临场音效体验的方法,其特征在于,包括以下步骤:
S1:获取声源的原始左右声道音频信号,并对所述原始左右声道音频信号进行解码;
S2:对所述解码后的原始左右声道音频信号进行预处理;
S3:实时检测用户的人头在水平方向上的偏移角度信息;
S4:根据所述偏移角度信息,对所述预处理后的左右声道音频信号和所述解码后的原始左右声道音频信号分别进行实时抽值/插值处理,得到两组时间偏移后的左右声道音频信号;
S5:将所述两组时间偏移后的左右声道音频信号分别进行融合,形成新的左右声道音频信号并输出。
2.根据权利要求1所述的提升虚拟现实临场音效体验的方法,其特征在于,所述步骤S2中对所述解码后的原始左右声道音频信号进行预处理,是指分别对到达左耳声道的原始右声道音频和到达右耳声道的原始左声道音频进行插值预处理。
3.根据权利要求2所述的提升虚拟现实临场音效体验的方法,其特征在于,所述插值预处理的插值数量No为:
No=INT[fs·W/v]
其中,W为两耳距离,fs为原音频的采样频率,v为声音在空气中的传播速度。
4.根据权利要求1所述的提升虚拟现实临场音效体验的方法,其特征在于,所述步骤S3中的所述偏移角度信息,是指用户的人头转动时相对于初始位置的水平偏移角度。
5.根据权利要求1所述的提升虚拟现实临场音效体验的方法,其特征在于,所述步骤S4中的对所述预处理后的左右声道音频信号和所述解码后的原始左右声道音频信号分别进行实时抽值/插值处理,包括两个方面,分别是:对于左耳声道,对所述预处理后的右声道音频和原始左声道音频分别进行实时抽/插值处理;对于右耳声道,对预处理后的左声道音频和原始右声道音频分别进行实时抽/插值处理。
6.根据权利要求1所述的提升虚拟现实临场音效体验的方法,其特征在于,所述步骤S4中的对所述预处理后的左右声道音频信号和所述解码后的原始左右声道音频信号分别进行实时抽值/插值处理,总抽值/插值数量N(θ)为:
N(θ)=INT[fs·W(1-cosθ)/2v]
其中,W为两耳距离,fs为原音频的采样频率,v为声音在空气中的传播速度。
7.根据权利要求1所述的提升虚拟现实临场音效体验的方法,其特征在于,所述步骤S5中将所述两组时间偏移后的左右声道音频信号分别进行融合,是指对所述音频信号的音量值进行融合:
L″n=L′ln·A(θn)+R′ln·B(θn)
R″n=R′rn·A(θn)+L′rn·B(θn)
其中,L″n为融合后左耳音频的音量值,R″n为融合后右耳音频的音量值,L′ln和R′ln分别是对应于左耳声道的时间偏移后的左声道音频的音量值和右声道音频的音量值,R′rn和L′rn分别是对应于右耳声道的时间偏移后的右声道音频的音量值和左声道音频的音量值,参数θn为所述偏移角度信息,A(θn)和B(θn)均为关于参数θn的函数,并且存在依赖关系A(θn)+B(θn)=1。
8.根据权利要求7所述的提升虚拟现实临场音效体验的方法,其特征在于,所述A(θn)和B(θn)分别为:
9.一种提升虚拟现实临场音效体验的系统,其特征在于,包括:
左右声道音频采集器,获取声源的原始左右声道音频信号并完成音频编码;
解码器,对所述原始左右声道音频信号进行解码;
运动传感器,实时检测用户的人头在水平方向上的偏移角度信息;
时间偏移处理器,对所述解码后的原始左右声道音频信号进行预处理,并且根据所述偏移角度信息,对所述预处理后的左右声道音频信号和所述解码后的原始左右声道音频信号分别进行实时抽值/插值处理,得到两组时间偏移后的左右声道音频信号;
音频融合器,将所述两组时间偏移后的左右声道音频信号分别进行融合,形成新的左右声道音频信号并输出。
10.根据权利要求9所述的提升虚拟现实临场音效体验的系统,所述运动传感器包括加速度计、陀螺仪和/或磁力传感器。
CN201710448890.6A 2017-06-14 2017-06-14 一种提升虚拟现实临场音效体验的方法及系统 Active CN108279860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710448890.6A CN108279860B (zh) 2017-06-14 2017-06-14 一种提升虚拟现实临场音效体验的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710448890.6A CN108279860B (zh) 2017-06-14 2017-06-14 一种提升虚拟现实临场音效体验的方法及系统

Publications (2)

Publication Number Publication Date
CN108279860A true CN108279860A (zh) 2018-07-13
CN108279860B CN108279860B (zh) 2021-05-14

Family

ID=62801185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710448890.6A Active CN108279860B (zh) 2017-06-14 2017-06-14 一种提升虚拟现实临场音效体验的方法及系统

Country Status (1)

Country Link
CN (1) CN108279860B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109819314A (zh) * 2019-03-05 2019-05-28 广州酷狗计算机科技有限公司 音视频处理方法、装置、终端及存储介质
CN110881157A (zh) * 2018-09-06 2020-03-13 宏碁股份有限公司 正交基底修正的音效控制方法及音效输出装置
CN111093142A (zh) * 2019-12-24 2020-05-01 杭州当虹科技股份有限公司 一种基于vr多方向音源合成的实现方法
CN112612444A (zh) * 2020-12-28 2021-04-06 南京紫牛软件科技有限公司 声源位置定位方法、装置、电子设备和存储介质
CN112752190A (zh) * 2019-10-29 2021-05-04 骅讯电子企业股份有限公司 音频调整方法以及音频调整装置
CN114020235A (zh) * 2021-09-29 2022-02-08 北京城市网邻信息技术有限公司 实景空间中的音频处理方法、电子终端及存储介质
CN115174959A (zh) * 2022-06-21 2022-10-11 咪咕文化科技有限公司 视频3d音效设置方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102064781A (zh) * 2010-10-29 2011-05-18 华为终端有限公司 一种终端音频的调整方法、装置和终端
CN104038880A (zh) * 2014-06-26 2014-09-10 南京工程学院 一种双耳助听器语音增强方法
CN105183421A (zh) * 2015-08-11 2015-12-23 中山大学 一种虚拟现实三维音效的实现方法及系统
CN105487657A (zh) * 2015-11-24 2016-04-13 小米科技有限责任公司 声音响度的确定方法及装置
CN105872940A (zh) * 2016-06-08 2016-08-17 北京时代拓灵科技有限公司 一种虚拟现实声场生成方法及系统
CN105959877A (zh) * 2016-07-08 2016-09-21 北京时代拓灵科技有限公司 一种虚拟现实设备中声场的处理方法及装置
CN106131745A (zh) * 2015-05-08 2016-11-16 宏达国际电子股份有限公司 虚拟现实音频系统及其播放器及虚拟现实音频的产生方法
CN106454684A (zh) * 2016-10-18 2017-02-22 北京小米移动软件有限公司 多媒体播放控制方法及装置
US9648438B1 (en) * 2015-12-16 2017-05-09 Oculus Vr, Llc Head-related transfer function recording using positional tracking
CN106648528A (zh) * 2016-11-11 2017-05-10 宇龙计算机通信科技(深圳)有限公司 虚拟现实设备的声音调整方法、装置及虚拟现实设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102064781A (zh) * 2010-10-29 2011-05-18 华为终端有限公司 一种终端音频的调整方法、装置和终端
CN104038880A (zh) * 2014-06-26 2014-09-10 南京工程学院 一种双耳助听器语音增强方法
CN106131745A (zh) * 2015-05-08 2016-11-16 宏达国际电子股份有限公司 虚拟现实音频系统及其播放器及虚拟现实音频的产生方法
CN105183421A (zh) * 2015-08-11 2015-12-23 中山大学 一种虚拟现实三维音效的实现方法及系统
CN105487657A (zh) * 2015-11-24 2016-04-13 小米科技有限责任公司 声音响度的确定方法及装置
US9648438B1 (en) * 2015-12-16 2017-05-09 Oculus Vr, Llc Head-related transfer function recording using positional tracking
CN105872940A (zh) * 2016-06-08 2016-08-17 北京时代拓灵科技有限公司 一种虚拟现实声场生成方法及系统
CN105959877A (zh) * 2016-07-08 2016-09-21 北京时代拓灵科技有限公司 一种虚拟现实设备中声场的处理方法及装置
CN106454684A (zh) * 2016-10-18 2017-02-22 北京小米移动软件有限公司 多媒体播放控制方法及装置
CN106648528A (zh) * 2016-11-11 2017-05-10 宇龙计算机通信科技(深圳)有限公司 虚拟现实设备的声音调整方法、装置及虚拟现实设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MAMORU IWAKI,YOSHIKI CHIGIRA: "Compensation of Sound Source Direction Perceived Through Consumer-grade Bone-conduction Headphones by Modifying ILD and ITD", 《2016 IEEE 5TH GLOBAL CONFERENCE ON CONSUMER ELECTRONICS》 *
李薯光: "3D虚拟声算法研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110881157A (zh) * 2018-09-06 2020-03-13 宏碁股份有限公司 正交基底修正的音效控制方法及音效输出装置
CN110881157B (zh) * 2018-09-06 2021-08-10 宏碁股份有限公司 正交基底修正的音效控制方法及音效输出装置
CN109819314A (zh) * 2019-03-05 2019-05-28 广州酷狗计算机科技有限公司 音视频处理方法、装置、终端及存储介质
CN109819314B (zh) * 2019-03-05 2022-07-12 广州酷狗计算机科技有限公司 音视频处理方法、装置、终端及存储介质
CN112752190A (zh) * 2019-10-29 2021-05-04 骅讯电子企业股份有限公司 音频调整方法以及音频调整装置
CN111093142A (zh) * 2019-12-24 2020-05-01 杭州当虹科技股份有限公司 一种基于vr多方向音源合成的实现方法
CN112612444A (zh) * 2020-12-28 2021-04-06 南京紫牛软件科技有限公司 声源位置定位方法、装置、电子设备和存储介质
CN114020235A (zh) * 2021-09-29 2022-02-08 北京城市网邻信息技术有限公司 实景空间中的音频处理方法、电子终端及存储介质
CN114020235B (zh) * 2021-09-29 2022-06-17 北京城市网邻信息技术有限公司 实景空间中的音频处理方法、电子终端及存储介质
CN115174959A (zh) * 2022-06-21 2022-10-11 咪咕文化科技有限公司 视频3d音效设置方法及装置
CN115174959B (zh) * 2022-06-21 2024-01-30 咪咕文化科技有限公司 视频3d音效设置方法及装置

Also Published As

Publication number Publication date
CN108279860B (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN108279860A (zh) 一种提升虚拟现实临场音效体验的方法及系统
AU2021250896B2 (en) Mixed reality system with spatialized audio
US10966026B2 (en) Method and apparatus for processing audio data in sound field
CN109691141B (zh) 空间化音频系统以及渲染空间化音频的方法
CN108701371A (zh) 用于虚拟现实和增强现实的电影掌控
CN108107578B (zh) 虚拟现实的视角调节方法、装置、计算设备及存储介质
CN112602053B (zh) 音频装置和音频处理的方法
CN106165402A (zh) 信息再现装置、信息再现方法、信息记录装置和信息记录方法
KR100954385B1 (ko) 개인화된 머리전달함수를 이용한 3차원 오디오 신호 처리장치 및 그 방법과, 그를 이용한 고현장감 멀티미디어 재생시스템
US20170364143A1 (en) System and method for automatically localizing haptic effects on a body
WO2023029849A1 (zh) 一种ar眼镜
CN105594227A (zh) 利用恒定功率成对平移的矩阵解码器
CN106534968A (zh) 一种3d视频在vr设备中的播放方法及系统
US9973853B2 (en) Fixed apparatus and audio collection apparatus
US10419870B1 (en) Applying audio technologies for the interactive gaming environment
CN100480849C (zh) 一种立体图像拍摄、信号处理及播放观看方法
WO2021095330A1 (ja) 情報処理装置、情報処理方法およびプログラム
CN107293315A (zh) 一种录音设备及固定装置
VORLÄNDER OF ENVIRONMENTAL NOISE

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant