CN117676002A - 音频处理方法及电子设备 - Google Patents
音频处理方法及电子设备 Download PDFInfo
- Publication number
- CN117676002A CN117676002A CN202211065962.6A CN202211065962A CN117676002A CN 117676002 A CN117676002 A CN 117676002A CN 202211065962 A CN202211065962 A CN 202211065962A CN 117676002 A CN117676002 A CN 117676002A
- Authority
- CN
- China
- Prior art keywords
- hrtf
- head
- electronic device
- tracking data
- brir
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 28
- 230000005236 sound signal Effects 0.000 claims abstract description 176
- 238000000034 method Methods 0.000 claims abstract description 54
- 230000004886 head movement Effects 0.000 claims abstract description 51
- 230000015654 memory Effects 0.000 claims abstract description 42
- 230000008569 process Effects 0.000 claims description 28
- 238000005070 sampling Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 19
- 210000005069 ears Anatomy 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 74
- 238000009877 rendering Methods 0.000 abstract description 71
- 238000004364 calculation method Methods 0.000 abstract description 22
- 230000004044 response Effects 0.000 abstract description 15
- 230000002829 reductive effect Effects 0.000 abstract description 14
- 238000004891 communication Methods 0.000 description 48
- 238000012545 processing Methods 0.000 description 30
- 230000006870 function Effects 0.000 description 28
- 238000010586 diagram Methods 0.000 description 22
- 238000005516 engineering process Methods 0.000 description 12
- 230000033001 locomotion Effects 0.000 description 12
- 238000007726 management method Methods 0.000 description 12
- 230000004807 localization Effects 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 238000007654 immersion Methods 0.000 description 5
- 238000010295 mobile communication Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 230000001934 delay Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000010521 absorption reaction Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 239000000835 fiber Substances 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Abstract
本申请实施例提供一种音频处理方法及电子设备,应用于电子技术领域。该方法在根据第一头动跟踪数据获得第一HRTF,以及根据第二头动跟踪数据获得第二HRTF之后,根据第一HRTF和第二HRTF生成第三HRTF,然后将第三HRTF与第一BRIR进行拼接得到第二BRIR,最后采用第二BRIR对待渲染音频信号进行渲染,得到目标音频信号。这种基于头动跟踪数据的空间音频渲染方式,仅需要一次卷积运算就可生成目标音频信号,从而降低了计算复杂度以及计算所占用的内存,提高了电子设备实时渲染得到目标音频信号的速度,从而提升了耳机设备在进行音频播放时的实时响应效果。
Description
技术领域
本申请涉及电子技术领域,尤其涉及一种音频处理方法及电子设备。
背景技术
随着电子设备的飞速发展,用户对音频体验也提出了越来越高的要求。例如,在电子设备与耳机设备建立通信连接,且用户佩戴耳机设备收听音频的情况下,为了提高用户收听到的声音的真实感和临场感,可以对待渲染音频信号进行空间音频渲染,并采用耳机设备播放空间音频渲染后的音频信号。
目前,电子设备可借助头相关传递函数(head related transfer function,HRTF)或者双耳房间脉冲响应(binaural room impulse response,BRIR),对待渲染音频信号进行空间音频渲染,使得渲染后的音频信号在通过耳机设备播放时,可以产生比较好的空间效果。
但是,在用户佩戴耳机设备收听音频时,若用户的头部位置或朝向发生变化,目前的空间音频渲染方式在依据头动跟踪数据对音频信号进行实时渲染的过程中,其计算复杂度较高,使得电子设备对音频信号的实时渲染速度变慢,从而导致耳机设备在进行音频播放时的实时响应效果较差。
发明内容
本申请实施例提供一种音频处理方法及电子设备,在依据头动跟踪数据对音频信号进行实时渲染的过程中,降低计算复杂度,提高电子设备对音频信号的实时渲染速度,以提高耳机设备在进行音频播放时的实时响应效果。
第一方面,本申请实施例提出一种音频处理方法,电子设备获取第一头动跟踪数据和第二头动跟踪数据,第二头动跟踪数据为第一头动跟踪数据的前一次获取到的头动跟踪数据;电子设备根据第一头动跟踪数据获得第一HRTF,以及根据第二头动跟踪数据获得第二HRTF;在第一头动跟踪数据与第二头动跟踪数据不同的情况下,电子设备根据第一HRTF和第二HRTF,生成第三HRTF;电子设备将第三HRTF与第一BRIR进行拼接,得到第二BRIR;电子设备采用第二BRIR对待渲染音频信号进行渲染,得到目标音频信号。
这样,通过一次卷积运算就可生成目标音频信号,从而降低了计算复杂度以及计算所占用的内存,提高了电子设备实时渲染得到目标音频信号的速度,从而降低了电子设备与耳机设备之间发送目标音频信号的链路时延。这样,使得耳机设备在进行头动跟踪时,其播放的目标音频信号可根据第一头动跟踪数据和第二头动跟踪数据进行快速切换,从而提升了耳机设备在进行头动跟踪时的音频播放的实时响应效果。
在一种可能的实现方式中,电子设备根据第一HRTF和第二HRTF,生成第三HRTF,包括:电子设备将第一HRTF中的第一双耳时间差去除得到第四HRTF,以及将第二HRTF中的第一双耳时间差去除得到第五HRTF;电子设备根据第四HRTF和第五HRTF,生成第六HRTF;电子设备获取目标用户的第二双耳时间差,第二双耳时间差与目标用户的头部参数相关;电子设备在第六HRTF中添加第二双耳时间差,得到第三HRTF。这样,由于生成的第三HRTF包括目标用户的第二双耳时间差,则后续再对待渲染音频信号渲染时采用的第二BRIR也包括目标用户的第二双耳时间差,而第二双耳时间差与目标用户实际的头部参数相关,因此,在采用第二BRIR对待渲染音频信号渲染以生成的目标音频信号,可以满足目标用户的个性化需求,提高耳机设备播放该目标音频信号时的目标用户的沉浸感,提升声像定位的准确度,以及控制声像的外化程度更符合目标用户实际需求的外化程度。并且,通过先根据第四HRTF和第五HRTF进行参数切换,再添加目标用户的第二双耳时间差,可提高最终渲染得到的目标音频信号的空间定位准确度。
在一种可能的实现方式中,在电子设备根据第一头动跟踪数据获得第一HRTF,以及根据第二头动跟踪数据获得第二HRTF之后,还包括:在第一头动跟踪数据与第二头动跟踪数据相同的情况下,电子设备将第一目标HRTF中的第一双耳时间差去除,得到第二目标HRTF;电子设备获取目标用户的第二双耳时间差,第二双耳时间差与目标用户的头部参数相关;电子设备在第二目标HRTF中添加第二双耳时间差,得到第三HRTF。其中,第一目标HRTF为第一HRTF,第二目标HRTF为第四HRTF;或者,第一目标HRTF为第二HRTF,第二目标HRTF为第五HRTF。这样,使得本申请也适用于头动跟踪数据未发生变化时的音频处理场景,丰富本申请的音频处理方法的适用场景。
在一种可能的实现方式中,电子设备获取目标用户的第二双耳时间差,包括:电子设备获取目标用户的头部参数;电子设备根据头部参数和第一头动跟踪数据中的水平方位角,获取目标用户的第二双耳时间差。这样,本申请可根据头部参数和第一头动跟踪数据中的水平方位角生成第二双耳时间差,简化第二双耳时间差的计算复杂度。
在一种可能的实现方式中,电子设备获取目标用户的头部参数,包括:电子设备显示第一界面,第一界面包括头部参数输入框;电子设备接收输入至头部参数输入框内的头部参数。其中,第一界面可以为图11所示的界面,头部参数输入框可以为图11所示的头部参数输入框111。这样,本申请可灵活调节目标用户的头部参数,以提升声像定位的准确度,以及控制声像的外化程度更符合目标用户实际需求的外化程度。
在一种可能的实现方式中,头部参数为头部半径;电子设备根据头部参数和第一头动跟踪数据中的水平方位角,获取目标用户的第二双耳时间差,包括:在电子设备处于远场模式下,电子设备通过如下公式计算目标用户的第二双耳时间差:ITD_new=2×a×sinθ1/c;在电子设备处于近场模式下,电子设备通过如下公式计算目标用户的第二双耳时间差:ITD_new=a×(sinθ1+θ1)/c;其中,ITD_new为第二双耳时间差,a为头部半径,θ1为第一头动跟踪数据中的水平方位角,c为声速。这样,在电子设备处于远场模式和近场模式下采用不同的计算公式,计算目标用户的第二双耳时间差,使得计算得到的第二双耳时间差更加准确。
在一种可能的实现方式中,第六HRTF通过如下公式获得:HRTF_new=b/N×HRTF4+(1-b/N)×HRTF5;其中,HRTF4为第四HRTF,HRTF5为第五HRTF,b为采样点的序列数,N为采样点的总数,HRTF_new为第六HRTF。其中,N可以为256,b可以依次取1,2,…,256。这样,采用淡入淡出的参数切换方式计算第六HRTF,使得计算得到的各个第六HRTF之间的变化更加平滑;并且,由于HRTF的采样点较少,因此,在采用HRTF进行参数切换时,其计算复杂度较低,从而降低生成目标音频信号的计算复杂度,提升了耳机设备在进行头动跟踪时的音频播放的实时响应效果。
在一种可能的实现方式中,电子设备根据第一头动跟踪数据获得第一HRTF,以及根据第二头动跟踪数据获得第二HRTF,包括:电子设备从HRTF数据库中获取第一头动跟踪数据对应的第七HRTF,以及第二头动跟踪数据对应的第八HRTF;电子设备采用第一增益对第七HRTF进行调节得到第一HRTF,以及采用第一增益对第八HRTF进行调节得到第二HRTF。这样,通过第一增益对第七HRTF和第八HRTF进行调节,可实现对后续生成的第二BRIR中的直达声部分的幅值的调节,从而控制目标音频信号在通过耳机设备播放时所达到的外化效果。
在一种可能的实现方式中,在电子设备将第三HRTF与第一BRIR进行拼接,得到第二BRIR之前,还包括:电子设备提取原始BRIR中的混响部分,得到第三BRIR;电子设备根据第三BRIR,确定第一BRIR。这样,由于第一BRIR中包括混响部分,使得后续生成的第二BRIR也包括混响部分,因此,在采用包括混响部分的第二BRIR对待渲染音频信号进行渲染,且采用耳机设备播放渲染得到的目标音频信号时,佩戴耳机设备的目标用户可以感知到声音的外化效果。
在一种可能的实现方式中,电子设备根据第三BRIR,确定第一BRIR,包括:电子设备采用混响参数对第三BRIR进行处理,得到第一BRIR;混响参数包括混响时间和/或第二增益。这样,可以采用混响时间和/或第二增益,使得耳机设备播放的目标音频信号可以达到不同的外化效果。
在一种可能的实现方式中,电子设备将第三HRTF与第一BRIR进行拼接,得到第二BRIR,包括:电子设备将第一BRIR拼接到第三HRTF之后,得到第二BRIR。这样,由于用户在收听声音时,通常直达声会比混响先到达用户的耳朵,因此,将第一BRIR拼接到第三HRTF之后,采用拼接得到的第二BRIR对待渲染音频信号渲染,使得最终渲染得到的目标音频信号在通过耳机设备播放时,其播放时的听觉体验与用户实际需求的听觉体验相符合。
在一种可能的实现方式中,电子设备与耳机设备通信连接;电子设备获取第一头动跟踪数据和第二头动跟踪数据,包括:电子设备接收耳机设备发送的第一头动跟踪数据和第二头动跟踪数据;在电子设备采用第二BRIR对待渲染音频信号进行渲染,得到目标音频信号之后,还包括:电子设备向耳机设备发送目标音频信号。这样,提供了一种电子设备和耳机设备的相互配合,实现空间音频渲染的实现方式。
第二方面,本申请实施例提出一种电子设备,包括存储器和处理器,存储器用于存储计算机程序,处理器用于调用计算机程序,以执行上述的音频处理方法。
第三方面,本申请实施例提出一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序或指令,当计算机程序或指令被运行时,实现上述的音频处理方法。
第四方面,本申请实施例提出一种计算机程序产品,包括计算机程序,当计算机程序被运行时,使得计算机执行上述的音频处理方法。
第二方面至第四方面各可能的实现方式,效果与第一方面以及第一方面的可能的设计中的效果类似,在此不再赘述。
附图说明
图1为本申请实施例提供的音频处理方法的应用场景示意图;
图2为一种相关技术提供的音频处理方法的应用场景示意图;
图3为另一种相关技术提供的音频处理方法的应用场景示意图;
图4为本申请实施例提供的电子设备的硬件系统结构示意图;
图5为本申请实施例提供的耳机设备的硬件系统结构示意图;
图6为本申请实施例提供的电子设备的软件系统结构示意图;
图7为本申请实施例提供的一种音频处理方法的流程示意图;
图8为本申请实施例提供的头动跟踪数据在三维坐标系中的示意图;
图9为本申请实施例提供的一种生成目标音频信号的处理流程图;
图10为本申请实施例提供的不同人头半径对应的ITD的曲线示意图;
图11为本申请实施例提供的一种获取头部半径的界面示意图;
图12为本申请实施例提供的另一种获取头部半径的界面示意图;
图13为本申请实施例提供的水平方位角为0°时,双耳接收到的脉冲信号的幅值曲线示意图;
图14为本申请实施例提供的水平方位角为90°时,双耳接收到的脉冲信号的幅值曲线示意图;
图15为本申请实施例提供的远场场景和近场场景计算ITD的原理示意图;
图16为本申请实施例提供的开启空间音频渲染功能和头动跟踪渲染功能的界面示意图;
图17为本申请实施例提供的不同耳朵轮廓的界面示意图;
图18为本申请实施例提供的更换佩戴耳机设备的用户后的界面示意图;
图19为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如,第一芯片和第二芯片仅仅是为了区分不同的芯片,并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
本申请实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
示例性的,图1为本申请实施例提供的一种场景示意图。在图1对应的实施例中,以电子设备为手机为例进行示例说明,该示例并不构成对本申请实施例的限定。
如图1所示,该场景中可以包括电子设备100以及用户佩戴的耳机设备200。其中,该耳机设备200可以为如图1所示的头戴式耳机,或者该耳机设备200也可以是真无线立体声(true wireless stereo,TWS)或者有线耳机等,本申请实施例中对耳机设备200的具体类型不做限定。
示例性的,在电子设备100与耳机设备200建立通信连接的情况下,电子设备100可以对待渲染音频信号进行空间音频渲染,得到目标音频信号,并将该目标音频信号发送给耳机设备200,通过耳机设备200播放该目标音频信号,以实现虚拟3D音效重放。
基于耳机设备的虚拟3D重放技术是通过模拟空间某点声源在双耳产生的声场,使得佩戴耳机设备的用户感觉到虚拟声源是从空间对应位置发出。这种技术主要采用HRTF对音频信号进行方位渲染来模拟空间某点声源,以产生定向的渲染效果。
HRTF是一种声音定位的处理技术,在自由场条件下声源到双耳之间的声学传递函数,其包括头部、耳廓、肩膀以及部分躯干等对声音传输的影响。空间音频渲染功能可以理解为:模拟在不同空间中收听音频的效果,对待渲染音频信号进行音频处理,使得处理后的音频信号具有空间感以及立体感。
由于采用HRTF对音频信号处理时的声像外化作用有限,因此,电子设备可引入混响控制,对音频信号添加混响效果来增加音频信号的外化感。
声波在室内传播时,要被墙壁、天花板、地板等障碍物反射,每反射一次都要被障碍物吸收一些,这样,当声源停止发声后,声波在室内要经过多次反射和吸收才会消失,因此,用户可以感觉到声源停止发声后声音还继续一段时间,将这种现象叫做混响。
混响效果的添加可通过BRIR实现。BRIR考虑环境反射声对声源的影响进行重放,BRIR可以看作声源、室内环境、双耳(包括头部、躯干、耳廓)所组成的系统的脉冲响应,其由直达声、早期反射、后期混响组成。
在一种相关技术中,如图2所示,电子设备可采用如下方式对待渲染音频信号进行空间音频渲染:电子设备在获取到耳机设备发送的第一头动跟踪数据和第二头动跟踪数据之后,电子设备从HRTF数据库中获取第一头动跟踪数据对应的第一HRTF,以及从HRTF数据库中获取第二头动跟踪数据对应的第二HRTF;电子设备待渲染音频信号与第一HRTF进行卷积得到第一渲染信号,以及将待渲染音频信号与第二HRTF进行卷积得到第二渲染信号;然后,电子设备采用crossfading(淡入淡出)的方式,根据第一渲染信号和第二待渲染信号生成第三渲染信号;最后,电子设备可以继续将第三渲染信号与第一BRIR进行卷积得到目标音频信号。从而使得耳机设备在进行音效回放时,可实现声像的定位效果和外化效果。
其中,在用户佩戴耳机设备的情况下,第一头动跟踪数据为耳机设备采集的用户当前的头部与声源之间的相对位置或朝向,第二头动跟踪数据为耳机设备上一次采集的用户头部与声源之间的相对位置或朝向。第一BRIR指的原始BRIR中的混响部分。
这种空间音频渲染方式,在用户的头部位置或朝向发生变化时,需要经过三次卷积运算才可生成目标音频信号,并且由于每次卷积运算时的信号的采样点较多,使得目标音频信号的计算复杂度较高且增加了计算所占用的内存,则电子设备实时渲染得到目标音频信号的速度变慢,进而使得电子设备与耳机设备之间发送目标音频信号的链路时延也增大,导致耳机设备在进行音频播放时的实时响应效果较差。例如,耳机设备在进行音频播放时,由于实时响应速度较慢,可能出现类似杂音的pop音(该类声音表现为“噗噗”声)。
示例性的,音频信号在传输时是以帧为单位进行传输的,一帧待渲染音频信号在传输时所需的时长可以为10ms,以待渲染音频信号的采样率为48KHz为例,1ms可以采样48个采样点,则一帧待渲染音频信号的采样点的数量为480个,从而导致待渲染音频信号与第一HRTF的卷积计算,以及待渲染音频信号与第二HRTF的卷积计算的复杂度较高;另外,第一BRIR的采样点的数量也比较大,从而导致第三渲染信号与第一BRIR的卷积计算的复杂度也较高。
在另一种相关技术中,如图3所示,电子设备可采用如下方式对待渲染音频信号进行空间音频渲染:电子设备在获取到耳机设备发送的第一头动跟踪数据和第二头动跟踪数据之后,电子设备从BRIR数据库中获取第一头动跟踪数据对应的第四BRIR,以及从BRIR数据库中获取第二头动跟踪数据对应的第五BRIR;电子设备待渲染音频信号与第四BRIR进行卷积得到第四渲染信号,以及将待渲染音频信号与第五BRIR进行卷积得到第五渲染信号;然后,电子设备采用crossfading的方式,根据第四渲染信号和第五渲染信号生成目标音频信号。
这种空间音频渲染方式,在用户的头部位置或朝向发生变化时,需要经过两次卷积运算才可生成目标音频信号,并且由于每次卷积运算时的信号的采样点较多,使得目标音频信号的计算复杂度较高且增加了计算所占用的内存,则电子设备实时渲染得到目标音频信号的速度变慢,进而使得电子设备与耳机设备之间发送目标音频信号的链路时延也增大,导致耳机设备在进行音频播放时的实时响应效果较差。
基于此,本申请实施例提供了一种音频处理方法,其在根据第一头动跟踪数据获得第一HRTF,以及根据第二头动跟踪数据获得第二HRTF之后,根据第一HRTF和第二HRTF生成第三HRTF,然后将第三HRTF与第一BRIR进行拼接得到第二BRIR,最后采用第二BRIR对待渲染音频信号进行渲染,得到目标音频信号。这种基于头动跟踪数据的空间音频渲染方式,在用户的头部位置或朝向发生变化时,仅需要一次卷积运算就可生成目标音频信号,从而降低了计算复杂度以及计算所占用的内存,提高了电子设备实时渲染得到目标音频信号的速度,从而降低了电子设备与耳机设备之间发送目标音频信号的链路时延,提升了耳机设备在进行音频播放时的实时响应效果。
并且,本申请实施例基于头动跟踪数据的空间音频渲染方式,在采用耳机设备播放渲染得到目标音频信号时,一方面可以达到声音的3D环绕效果,另一方面可模拟真实场景的声像定位的准确性。
声像定位的准确性指的是目标用户从佩戴的耳机设备中听到的声像位置,与真实物理空间中的声像位置一致。目标用户可以指的是佩戴耳机设备的用户。
例如,目标用户佩戴耳机设备后,若电子设备位于目标用户面部的正前方,在电子设备的位置保持不变的情况下,当目标用户的头部向左偏转90°时,目标用户的左耳和右耳基于耳机设备听到的目标音频信号发生变化,使得目标用户基于耳机设备听到的声音是从右耳侧传输过来的,使得目标用户从佩戴的耳机设备中听到的声像位置,与真实物理空间中的声像位置一致。
本申请实施例中基于头动跟踪数据的空间音频渲染方式,可应用到虚拟现实(virtual reality,VR)以及增强现实(augmented reality,AR)等影音技术中,以提升VR/AR的沉浸感和空间感。并且,音频处理过程中的待渲染音频信号,可以是视频场景、游戏场景、通话场景以及音乐播放场景等场景中的音频信号。
可以理解的是,上述的虚拟3D重放技术中的3D可以指的是三个自由度(degree offreedom,DOF),3DOF数据可以包括头部的三个旋转角度,如水平方位角、倾斜角和俯仰角。
当然,本申请实施例的音频处理方法也可应用到虚拟4D重放技术、虚拟5D重放技术,以及虚拟6D重放技术等场景中。6D指的是6DOF,6DOF数据除了包括三个旋转角度外,还包括用户因身体挪动产生的前后方向、左右方向以及上下方向的平移距离;4D指的是4DOF,4DOF数据除了包括三个旋转角度外,还包括前后方向、左右方向以及上下方向中任一方向上的平移距离;5D指的是5DOF,5DOF数据除了包括三个旋转角度外,还包括前后方向、左右方向以及上下方向中的任意两个方向上的平移距离。
本申请实施例提供的电子设备可以为智能手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、个人数字助理(personal digitalassistant,PDA)、电视(也可称为智能电视、智慧屏或大屏设备)、可穿戴设备(如智能手表或手环)、车载设备、VR设备以及AR设备等。本申请的实施例对电子设备所采用的具体技术和具体设备形态不做限定。
为了能够更好地理解本申请实施例,下面对本申请实施例的电子设备的结构进行介绍。
图4示出了电子设备100的结构示意图。电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriberidentification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,接近光传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,骨传导传感器等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从存储器中调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电,也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备,例如AR设备等。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备100中的天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像、显示视频和接收滑动操作等。显示屏194包括显示面板。在一些实施例中,电子设备100可以包括1个或多个显示屏194。
电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光组件上,光信号转换为电信号,摄像头感光组件将电信号传递给ISP处理,转化为肉眼可见的图像。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光组件。感光组件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备100可以包括1个或多个摄像头193。
视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器121的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备100的各种功能应用以及数据处理。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中,电子设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
按键190包括开机键,音量键等。马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和电子设备100的接触和分离。
示例性的,图5为本申请实施例提供的一种耳机设备的硬件结构示意图。
如图5所示,耳机设备200包括一个或者多个处理器210、一个或多个存储器220、通信接口230、音频采集电路和音频播放电路。其中音频采集电路进一步可包括至少一个麦克风240和模数转换器(analog-to-digital converter,ADC)250。音频播放电路进一步可包括扬声器260和数模转换器(digital-to-analog converter,DAC)270。
其中,耳机还可以包括一个或多个传感器280,例如:惯性测量单元(inertialmeasurement unit,IMU)、接近传感器、运动传感器(motion sensor)等。上述这些硬件部件可在一个或多个通信总线上通信。
本申请实施例中,该IMU可以用于测量耳机设备200的运动姿态,例如该IMU可以用于确定用户佩戴耳机设备200时的头动跟踪数据。其中,该IMU中可以设置有陀螺仪传感器以及加速度传感器等。
处理器210是耳机设备200的控制中心,处理器210还可能被称为控制单元、控制器、微控制器或其他某个合适的术语。处理器210利用各种接口和线路连接耳机的各个部件,在可能实施例中,处理器210还可包括一个或多个处理核心。在可能的实施例中,处理器210中可集成有主控制单元和信号处理模块。主控制单元(MCU)用于接收传感器280采集的数据或来自信号处理模块的监测信号或来自终端(例如手机APP)的控制信号,通过综合判断、决策,最后对耳机设备200进行控制。
存储器220可以与处理器210耦合,或者与处理器210通过总线连接,用于存储各种软件程序和/或多组指令以及数据。存储器220还可以存储通信程序,该通信程序可用于与终端进行通信。在一种示例中,存储器220还可以存储数据/程序指令,处理器210可用于调用和执行存储器220中的数据/程序指令。可选的,该存储器220可以为MCU外部的存储器,也可以为MCU自带的存储单元。
通信接口230用于与终端进行通信,该通信方式可以是有线方式,也可以是无线方式。当通信方式是有线通信时,通信接口230可通过线缆接入到终端。当通信方式是无线通信时,通信接口230用于接收和发送射频信号,其所支持的无线通信方式例如可以是蓝牙(Bluetooth)通信、无线保真(wireless-fidelity,Wifi)通信、红外通信、或蜂窝2/3/4/5代(2/3/4/5generation,2G/3G/4G/5G)通信等通信方式中的至少一种。
麦克风240可用于采集声音信号(或称音频信号,该音频信号是模拟信号),模数转换器250用于将麦克风240采集到的模拟信号转换成为数字信号,并将该数字信号送到处理器210进行处理,具体实施例中,可送到信号处理模块进行处理。信号处理模块可将处理后的信号(例如混音音频信号)传输至数模转换器270,数模转换器270可将接收到的信号转换为模拟信号,进而传输到扬声器260,扬声器260用于根据该模拟信号进行播放,从而使用户能够听到声音。
本申请实施例中,通信接口230可以用于将IMU检测到的头动跟踪数据发送至电子设备100,使得电子设备100根据头动跟踪数据从HRTF数据库中获取对应的HRTF。并且,该通信接口230还可以用于接收电子设备100发送的目标音频信号。
可以理解的是,上述耳机设备200也可能被称为耳塞、耳麦、随身听、音讯播放器、媒体播放器、头戴式受话器、听筒设备或其他某个合适的术语,本申请的实施例对此不做限定。
电子设备100的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构,等。本申请实施例以分层架构的Android系统为例,示例性说明电子设备100的软件结构。
图6是本申请实施例的电子设备100的软件结构框图。分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用层,应用程序框架层,安卓运行时(Androidruntime)和系统库,以及内核层。
应用层可以包括一系列应用程序包。如图6所示,应用程序包可以包括与音乐应用、视频应用、游戏应用以及耳机设置应用等。其中,耳机设置应用可以用于实现利用耳机设备200播放音频时对于音频播放效果的设置。
应用程序框架层为应用层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图6所示,应用程序框架层可以包括活动管理器、通知管理器、资源管理器、电话管理器、视图系统和音频处理模块等。
活动管理器用于管理各个应用程序的生命周期以及导航回退功能。负责Android的主线程创建,各个应用程序的生命周期的维护。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
电话管理器用于管理移动设备功能,包括:手机通话状态、获取电话信息(设备、sim卡、网络信息),监听电话状态以及调用电话拨号器拨打电话。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
在一些实施例中,音频处理模块用于根据第一头动跟踪数据获得第一HRTF,以及根据第二头动跟踪数据获得第二HRTF;在第一头动跟踪数据与第二头动跟踪数据不同的情况下,根据第一HRTF和第二HRTF生成第三HRTF;并将第三HRTF与第一BRIR进行拼接,得到第二BRIR;采用第二BRIR对待渲染音频信号进行渲染,得到目标音频信号。也就是说,音频处理模块可用于实现本申请实施例中生成目标音频信号的执行过程。
Android runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用层和应用程序框架层运行在虚拟机中。虚拟机将应用层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),二维图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG2,H.262,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染、合成和图层处理等。二维图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层包括显示驱动、蓝牙驱动和音频驱动等。
需要说明的是,本申请实施例虽然以Android系统进行说明,但是音频处理方法的原理同样适用于iOS或windows等操作系统的电子设备。
下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以独立实现,也可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
示例性的,图7为本申请实施例提供的一种音频处理方法的流程示意图,其可以应用于图1对应的应用场景中。参照图7所示,该音频处理方法具体可以包括如下步骤:
S701,电子设备与耳机设备建立通信连接。
在一些实施例中,电子设备与耳机设备可以通过有线方式建立通信连接;或者,电子设备与耳机设备也可以通过无线方式建立通信连接。例如,电子设备与耳机设备可以通过蓝牙、WIFI、或连接到同一云端账号等无线方式建立通信连接,本申请实施例中对电子设备与耳机设备建立通信连接的方式不做限定。
S702,电子设备接收耳机设备发送的第一头动跟踪数据和第二头动跟踪数据。
在电子设备与耳机设备建立通信连接之后,电子设备可以向耳机设备发送获取头动跟踪数据的指示信息,耳机设备根据该指示信息采集佩戴该耳机设备的目标用户的头动跟踪数据。
示例性的,耳机设备可实时或者周期性(如0.5ms或1ms等)地采集目标用户的头动跟踪数据,并通过建立的通信链路将采集到的头动跟踪数据发送至电子设备,使得电子设备获取到头动跟踪数据。
当本申请实施例的音频处理方法支持头动跟踪渲染时,在目标用户佩戴耳机设备后,当用户头部的位置和朝向相对于声源发生变化时,上述采集到的头动跟踪数据也会发生变化。因此,可以将耳机设备当前采集到的头动跟踪数据称为第一头动跟踪数据,并将耳机设备前一次采集到的头动跟踪数据称为第二头动跟踪数据,即第二头动跟踪数据为第一头动跟踪数据的前一次获取到的头动跟踪数据。
需要说明的是,第一头动跟踪数据和第二头动跟踪数据采集的时间点不同,耳机设备每检测到一个头动跟踪数据,就将其发送至电子设备,因此,在实际场景中,耳机是分两次发送的第一头动跟踪数据和第二头动跟踪数据,即先发送第二头动跟踪数据再发送第一头动跟踪数据。
示例性的,头动跟踪数据可以包括水平方位角和俯仰角。当然,在一些实际使用场景中,头动跟踪数据除了包括水平方位角和俯仰角之外,还可以包括倾斜角、以及用户因身体挪动产生的前后方向、左右方向以及上下方向的平移距离等。
其中,第一头动跟踪数据可以包括第一水平方位角和第一俯仰角,第二头动跟踪数据可以包括第二水平方位角和第二俯仰角。
如图8所示,以用户的头部参考点为原点,头部参考点可以为双耳之间的中点,以用户面部的正前方所在的方向作为X轴方向,以用户的左耳方向作为Y轴方向,以用户的头部正上方所在的方向作为Z轴方向。
因此,水平方位角θ指的是声源到头部参考点的直线在水平面(即X轴与Y轴形成的平面)上的投影与X轴之间的夹角。水平方位角θ的取值范围为[0°,360°],用户面部正前方对应的方位角为0°,用户面部正右方对应的方位角为90°,用户面部正后方对应的方位角为180°,用户面部正左方对应的方位角为270°。
俯仰角β指的是声源到头部参考点的直线与水平面之间的夹角。俯仰角β的取值单位为[-90°,90°],水平面对应的俯仰角β为0°,用户的头部正上方对应的俯仰角β为90°,用户的头部正下方对应的俯仰角β为-90°。
S703,电子设备根据第一头动跟踪数据获得第一HRTF,以及根据第二头动跟踪数据获得第二HRTF。
在一些实施例中,电子设备在获取到第二头动跟踪数据之后,可根据第二头动跟踪数据获得对应的第二HRTF;相应的,电子设备在获取到第一头动跟踪数据,可根据第一头动跟踪数据获得对应的第一HRTF。
不同的头动跟踪数据对应的HRTF不同。因此,当第一头动跟踪数据与第二头动跟踪数据不同时,第一HRTF和第二HRTF也不同。
S704,在第一头动跟踪数据与第二头动跟踪数据不同的情况下,电子设备根据第一HRTF和第二HRTF,生成第三HRTF。
在本申请实施例中,电子设备在获取到第一HRTF和第二HRTF后,电子设备不是直接将待渲染音频信号分别与第一HRTF和第二HRTF进行卷积的,而是根据第一HRTF和第二HRTF进行参数切换,如采用crossfading(淡入淡出)的方式进行参数切换,以生成第三HRTF。
由于HRFT的采样点的数量为256个,其小于一帧音频信号的采样点的数量(如音频信号的采样率为48KHz,音频信号的采样点的数量为480个),因此,在根据第一HRTF和第二HRTF进行参数切换时的计算量较小。
S705,电子设备将第三HRTF与第一BRIR进行拼接,得到第二BRIR。
S706,电子设备采用第二BRIR对待渲染音频信号进行渲染,得到目标音频信号。
在空间音频渲染达到一定的外化作用时,除了声像定位外还需添加一定混响,而采用HRTF对音频信号处理时的声像外化作用有限,且HRTF一般包括直达声部分以及明显的早期反射声部分,因此,电子设备需要在第三HRTF的基础上添加一定时间的晚期混响部分。即电子设备可将第三HRTF与第一BRIR进行拼接得到第二BRIR,并采用第二BRIR对待渲染音频信号进行渲染得到目标音频信号,以对目标音频信号添加混响效果来增加目标音频信号的外化感。
其中,第一BRIR指的是采用混响参数对原始BRIR中的混响部分进行调节后得到的BRIR,或者,第一BRIR也可以指的是对原始BRIR中的混响部分。
一种可实现的方式,电子设备将第一BRIR拼接到第三HRTF之后,以实现第三HRTF与第一BRIR的拼接,从而得到第二BRIR。
并且,电子设备可将第二BRIR与待渲染音频信号进行卷积,以实现采用第二BRIR对待渲染音频信号的渲染,从而得到目标音频信号。
需要说明的是,第一HRTF、第二HRTF和第三HRTF可以指的是以时域表示的参数;或者,第一HRTF、第二HRTF和第三HRTF可以指的是以频域表示的参数,电子设备可以将以时域表示的第三HRTF从频域转换为时域,再将以时域表示的第三HRTF与第一BRIR进行拼接,得到第二BRIR。
S707,电子设备向耳机设备发送目标音频信号。
S708,耳机设备通过扬声器播放目标音频信号。
在一些实施例中,电子设备在渲染得到目标音频信号之后,电子设备可通过建立的通信链路将目标音频信号发送至耳机设备。耳机设备在接收到电子设备发送的目标音频信号,通过扬声器播放该目标音频信号。
需要说明的是,该目标音频信号中可以包括左声道对应的目标音频信号以及右声道对应的目标音频信号,使得耳机设备可以通过左扬声器播放左声道对应的目标音频信号,以及通过右扬声器播放右声道对应的目标音频信号。
综上,本申请实施例中的音频处理方法,由于仅需要一次卷积运算就可生成目标音频信号,从而降低了计算复杂度以及计算所占用的内存,提高了电子设备实时渲染得到目标音频信号的速度,从而降低了电子设备与耳机设备之间发送目标音频信号的链路时延。这样,使得耳机设备在进行头动跟踪时,其播放的目标音频信号可根据第一头动跟踪数据和第二头动跟踪数据进行快速切换,从而提升了耳机设备在进行头动跟踪时的音频播放的实时响应效果。
并且,由于本申请实施例还采用了HRTF和BRIR对待渲染音频信号进行渲染,从而使得耳机设备在播放渲染得到的目标音频信号时,佩戴耳机设备的目标用户可以感知到虚拟声源在立体空间中的声音定位效果,以及感知到声音的外化效果。
在一些场景中,目前的HRFT数据库中的HRTF在录制时,是通过人工头或者特定的少量的受试者,对实际用户的头部、耳廓、肩膀以及部分躯干进行简化模拟来录制一系列HRTF,人工头或少量的受试者的头部并不能真实地体现佩戴耳机设备的目标用户的头部,导致录制得到的HRFT的通用性较差。
若佩戴耳机设备的目标用户的头部参数与录制时的人头的头部参数匹配时,则采用录制得到的HRFT对待渲染音频进行渲染时,可以感受到比较好的空间渲染效果。但是当佩戴耳机设备的目标用户的头部参数与录制时的人头的头部参数存在较大的差异时,则采用录制得到的HRFT对待渲染音频进行渲染时,导致耳机设备回放渲染后的目标音频信号时的目标用户的沉浸感不强,且容易混淆声源的定位方向,以及声像的外化程度与目标用户实际需求的外化程度存在差异。
因此,本申请实施例中的电子设备,还可以进一步根据目标用户实际的头部参数,对HRTF数据库中的HRTF包括的第一双耳时间差进行修改,使得电子设备最终用于对待渲染音频进行渲染的HRFT,包括的是与目标用户的头部参数相关的第二双耳时间差,从而提高耳机设备播放渲染后的目标音频信号时的目标用户的沉浸感,且可以控制声像的外化程度以及提升声像定位的准确度。
在图7对应的实施例的基础上,电子设备还可以根据目标用户实际的头部参数,来控制生成的目标音频信号。为了进一步说明电子设备生成目标音频信号的具体实现过程,可以参见图9对应的实施例。
示例性的,图9为本申请实施例提供的一种生成目标音频信号的处理流程图。参照图9所示,生成目标音频信号的方法具体可以包括如下步骤:
S901,电子设备从HRTF数据库中获取第一头动跟踪数据对应的第七HRTF,以及第二头动跟踪数据对应的第八HRTF。
本申请实施例生成目标音频信号的过程中,可以用到通用的HRTF数据库,HRTF数据库中包括不同方位对应的HRTF。本申请实施例对采用的HRTF数据库不作限定,其可以是CIPIC(center for image processing and integrated computing)数据库、SADIE数据库等。
因此,电子设备在获取到第二头动跟踪数据之后,可以从HRTF数据库中获取第二头动跟踪数据对应的第八HRTF;相应的,电子设备在获取到第一头动跟踪数据,可以从HRTF数据库中获取第一头动跟踪数据对应的第七HRTF。
S902,电子设备采用第一增益对第七HRTF进行调节得到第一HRTF,以及采用第一增益对第八HRTF进行调节得到第二HRTF。
在一些实施例中,电子设备可以采用直混比控制参数中的第一增益,对第七HRTF的幅值进行调节得到第一HRTF,以及采用第一增益对第八HRTF的幅值进行调节得到第二HRTF。
具体的,是对第七HRTF的幅值乘以该第一增益,得到第一HRTF;相应的,是对第八HRTF的幅值乘以该第一增益,得到第二HRTF。
在另一实现方式中,电子设备也可以不采用第一增益对第七HRTF和第八HRTF进行调节,则此时的第一HRTF也就是第七HRTF,此时的第二HRTF也就是第八HRTF。
S903,电子设备判断第一头动跟踪数据与第二头动跟踪数据是否不同。
为了更准确地控制头动跟踪渲染效果,电子设备可判断第一头动跟踪数据与第二头动跟踪数据是否不同。
其中,第一头动跟踪数据可以包括第一水平方位角和第一俯仰角,第二头动跟踪数据可以包括第二水平方位角和第二俯仰角。这种情况下,电子设备是判断第一水平方位角与第二水平方位角是否不同,以及第一俯仰角与第二俯仰角是否不同。
当第一水平方位角与第二水平方位角不同,和/或第一俯仰角与第二俯仰角不同时,电子设备确定第一头动跟踪数据与第二头动跟踪数据不同,此时,电子设备执行下面的S904。而当第一水平方位角与第二水平方位角相同,且第一俯仰角与第二俯仰角相同时,电子设备确定第一头动跟踪数据与第二头动跟踪数据相同,此时,电子设备执行下面的S909。
需要说明的是,电子设备可以在执行S902之后,再判断第一头动跟踪数据与第二头动跟踪数据是否不同。或者,电子设备在获取到耳机设备发送的第一头动跟踪数据与第二头动跟踪数据之后,也可以先判断第一头动跟踪数据与第二头动跟踪数据是否不同,当第一头动跟踪数据与第二头动跟踪数据不同时,执行S901、S902、S904及之后的步骤;而当第一头动跟踪数据与第二头动跟踪数据相同时,电子设备可直接从HRTF数据库中获取第一头动跟踪数据或第二头动跟踪数据对应的HRTF,并对获取到的HRTF采用第一增益进行调节,然后执行S909及之后的步骤。本申请实施例对第一头动跟踪数据与第二头动跟踪数据的判断步骤的具体执行顺序不作限定。
S904,在第一头动跟踪数据与第二头动跟踪数据不同的情况下,电子设备将第一HRTF中的第一双耳时间差去除得到第四HRTF,以及将第二HRTF中的第一双耳时间差去除得到第五HRTF。
在一些实施例中,HRTF与声源位置、频率等参数相关,其包含了双耳声压差(interaural level difference,ILD)、双耳时间差(interaural time difference,ITD)和以及耳间相干性(inter-aural coherence,IC)等。双耳时间差指的是音频信号到达用户的左耳和右耳的时间间隔,其与用户的头部参数相关。
由于HRTF数据库中的HRTF是基于人工头或者少量受试者的头部录制得到的,因此,电子设备从HRTF数据库中获取到的第七HRTF和第八HRTF中的第一双耳时间差,与佩戴耳机设备的目标用户实际的第二双耳时间差之间存在差异,相应的,采用第一增益调节后得到的第一HRTF和第二HRTF中的第一双耳时间差,也与佩戴耳机设备的目标用户实际的第二双耳时间差之间存在差异。
为了后续可以精确控制声像的外化程度以及提升声像定位的准确度,电子设备可以将第一HRTF中的第一双耳时间差去除得到第四HRTF,以及将第二HRTF中的第一双耳时间差去除得到第五HRTF。即第四HRTF相对于第一HRTF缺少了第一双耳时间差,且第五HRTF相对于第二HRTF也缺少了第一双耳时间差。
S905,电子设备根据第四HRTF和第五HRTF,生成第六HRTF。
电子设备在得到第四HRTF和第五HRTF,根据第四HRTF和第五HRTF进行参数切换,生成第六HRTF。
在一些可选的实现方式中,电子设备可按照crossfading(淡入淡出)的方式进行参数切换,这种情况下,第六HRTF通过如下公式获得:
HRTF_new=b/N×HRTF4+(1-b/N)×HRTF5;
其中,HRTF4为第四HRTF,HRTF5为第五HRTF,b为采样点的序列数,N为采样点的总数,HRTF_new为第六HRTF。通常,HRTF的采样点的数量为256个,则N可以取256,b可以依次取1,2,…,256。
由于HRTF的采样点较少,因此,在采用HRTF进行参数切换时,其计算复杂度较低,从而降低生成目标音频信号的计算复杂度,提升了耳机设备在进行头动跟踪时的音频播放的实时响应效果,降低了耳机设备产生pop音的可能性。
S906,电子设备获取目标用户的头部参数。
由于上述过程中,电子设备已去除第一HRTF中的第一双耳时间差得到第四HRTF,以及去除第二HRTF中的第一双耳时间差得到第五HRTF,并根据第四HRTF和第五HRTF生成第六HRTF,则第六HRTF中也缺少双耳时间差。
为了后续可以精确控制声像的外化程度以及提升声像定位的准确度,电子设备可以获取目标用户的第二双耳时间差,并将其添加到第六HRTF中,以便后续在采用包括第二双耳时间差的第二BRIR对待渲染音频信号进行渲染,能够精确控制声像的外化程度以及提升声像定位的准确度。
第二双耳时间差与目标用户实际的头部参数相关,在水平方位角相同的情况下,当目标用户实际的头部参数不同时,计算得到的第二双耳时间差也不同,因此,电子设备首先需要获取目标用户的头部参数。其中,目标用户的头部参数可以指的是目标用户的头部半径或头部直径等参数,头部半径也可称为人头半径,头部直径也可称为人头直径。
示例性的,图10为本申请实施例提供的不同人头半径对应的ITD的曲线示意图,其示出了三种不同的人头半径对应的ITD样点延迟。其是在采样率为48KHz的情况下获得的ITD样点延迟曲线,横坐标为入射角,该入射角可以理解为水平方位角,纵坐标表示ITD样点延迟。
可以看出,在水平方位角为0°至90°的范围内,不同人头半径对应的ITD样点延迟是不一样的。例如,在水平方位角为90°时,人头半径为0.1075m对应42个ITD样点延迟,而人头半径为0.0875对应34个ITD样点延迟。
电子设备获取目标用户的头部参数的方式有多种,以下给出两种可实现的方式来获取目标用户的头部参数。
一种方式,电子设备显示第一界面,第一界面包括头部参数输入框;电子设备接收输入至头部参数输入框内的头部参数。
如图11所示,在第一界面上显示有头部参数输入框111,该头部参数输入框111可以为人头半径输入框。
如图11中的(a)所示,头部参数输入框111内默认输入的是人工头的人头半径,如a=0.0875m。目标用户可以对图11中的(a)所示的头部参数输入框111进行触控操作,如点击操作等,在头部参数输入框111内输入目标用户实际的人头半径,如目标用户在头部参数输入框111内输入的目标用户实际的人头半径a=0.1075m,使得电子设备显示图11中的(b)所示的界面。
并且,在图11中的(a)和(b)所示的界面中还显示有人头效果示意图像。图11中的(a)所示的界面示出的是第一人头效果示意图像112a,其用于表示人头半径a=0.0875m时的效果示意图;图11中的(b)所示的界面示出的是第一人头效果示意图像112a和第二人头效果示意图像112b,第二人头效果示意图像112b可用于表示修改后的人头半径a=0.1075m时的效果示意图。
通过在头部参数输入框111内修改人头半径之后,在图11中的(b)所示的界面中示出,修改前的人头半径对应的第一人头效果示意图像112a,以及修改后的人头半径对应的第二人头效果示意图像112b,以便提示用户观察人头半径的修改效果。
另一种方式,电子设备显示第二界面,第二界面包括头部参数调节控件;电子设备接收用户对头部参数调节控件的触控操作,以调节目标用户的头部参数。
如图12所示,在第二界面上显示有头部参数调节控件1211,该头部参数调节控件1211可以为人头半径调节控件。人头半径调节控件用于指示当前设置的人头半径的具体大小,允许设置的最小人头半径以及允许设置的最大人头半径等,如图12中的人头半径调节控件允许设置的最小人头半径为5cm,允许设置的最大人头半径为15cm。
如图12中的(a)所示,头部参数调节控件1211当前指示的人头半径为默认的人头半径a=8.75cm。目标用户可以对图12中的(a)所示的头部参数调节控件1211进行触控操作,如滑动操作等。当滑动操作的滑动方向为向右滑动时,可以将人头半径调大,当滑动操作的滑动方向为向左滑动时,可以将人头半径调小。
当目标用户对图12中的(a)所示的头部参数调节控件1211向右滑动后,电子设备可显示图12中的(b)所示的界面,此时的头部参数调节控件1211指示的人头半径为调节后的人头半径,如调节后的人头半径为12cm。
并且,在图12中的(a)和(b)所示的界面中还显示有人头效果示意图像。图12中的(a)所示的界面示出的第三人头效果示意图像122a,其用于表示人头半径为8.75cm时的效果示意图;图12中的(b)所示的界面示出的是第四人头效果示意图像122b,第四人头效果示意图像122b可用于表示修改后的人头半径为12cm时的效果示意图。
可以理解的是,电子设备除了上述两种方式获取目标用户的头部参数之外,还可以采用其他方式获取目标用户的头部参数。例如,可通过耳机设备中的传感器等自动采集目标用户的头部参数,并将采集到的头部参数发送至电子设备。
此外,电子设备在接收到耳机设备发送的头部参数后,在电子设备上显示该头部参数,电子设备还可以采用类似于图12所示的界面中的头部参数调节控件1211,进一步调节目标用户的头部参数。调节后的头部参数可以大于或小于目标用户实际的头部参数,使得电子设备最终渲染得到的目标音频信号,可以实现不同的空间音频渲染效果。
S907,电子设备根据头部参数和第一头动跟踪数据中的水平方位角,获取目标用户的第二双耳时间差。
在一些实施例中,在计算目标用户的第二双耳时间差时,第二双耳时间差除了与目标用户的头部参数相关以外,还与水平方位角有关。
如图13和图14所示,图13示出了水平方位角为0°时双耳接收到的脉冲信号的幅值曲线示意图,图14示出了水平方位角为90°时双耳接收到的脉冲信号的幅值曲线示意图。其横坐标为采样点,纵坐标为双耳接收到的音频信号的幅值,实线和虚线表示的曲线分别代表左耳和右耳接收到脉冲信号的幅值。
对比图13和图14可以看出,在第200个采样点附近,水平方位角为0°时双耳接收到的脉冲信号的幅值相差很小,而水平方位角为90°时双耳接收到的脉冲信号的幅值相差很大。
因此,电子设备可根据目标用户的头部参数和第一头动跟踪数据中的水平方位角,获取目标用户的第二双耳时间差。
在实际计算第二双耳时间差的过程中,需要先根据声源与人耳之间的距离选择电子设备是处于远场模式还是处于近场模式。例如,当声源与人耳之间的距离大于或等于1m时,可设置电子设备处于远场模式,当声源与人耳之间的距离小于1m时,可设置电子设备处于近场模式。
如图15中的(a)所示,当电子设备处于远场模式时,可忽略人头对双耳时间差的影响,入射波可以近似为平行波,双耳时间差仅与人头半径相关。入射波可以指的是声源传递到人耳过程中的传递信号。
因此,在电子设备处于远场模式下,电子设备通过如下公式计算目标用户的第二双耳时间差:ITD_new=2×a×sinθ1/c;其中,ITD_new为第二双耳时间差,a为目标用户的头部半径(即人头半径),θ1为第一头动跟踪数据中的水平方位角(即第一水平方位角),c为声速。
如图15中的(b)所示,当电子设备处于近场模式时,需要考虑人头对双耳时间差的影响,即考虑头部弯曲表面对双耳时间差的影响。
因此,在电子设备处于近场模式下,电子设备通过如下公式计算目标用户的第二双耳时间差:ITD_new=a×(sinθ1+θ1)/c,θ1可以为大于或等于0,且小于π/2的弧度。
需要说明的是,电子设备可以在界面上显示远场模式选择控件和近场模式选择控件,用户根据声源与人耳之间的距离,按照需求对远场模式选择控件或近场模式选择控件进行触控操作,以设置电子设备是处于远场模式还是处于近场模式。
S908,电子设备在第六HRTF中添加第二双耳时间差,得到第三HRTF。
电子设备在得到第六HRTF和目标用户的第二双耳时间差之后,可以将第二双耳时间差添加至第六HRTF中,得到第三HRTF。
由于相关技术是先将待渲染音频信号(其包括第一双耳时间差)分别与第一HRTF和第二HRTF进行卷积,再将卷积后的信息进行参数切换,这种方式会模糊掉一些ITD信息,从而导致最终渲染得到的目标音频信号的空间定位准确度变低。而本申请实施例是先进行参数切换再添加目标用户的第二双耳时间差,可提高最终渲染得到的目标音频信号的空间定位准确度。
S909,在第一头动跟踪数据与第二头动跟踪数据相同的情况下,电子设备将第一目标HRTF中的第一双耳时间差去除,得到第二目标HRTF。
在实际应用中,电子设备获取到的第一头动跟踪数据与第二头动跟踪数据也可能相等,因此,在第一头动跟踪数据与第二头动跟踪数据相同的情况下,电子设备可以将第一HRTF中的第一双耳时间差去除,得到第四HRTF,或者,电子设备可以将第二HRTF中的第一双耳时间差去除,得到第五HRTF。
其中,第一目标HRTF为第一HRTF,第二目标HRTF为第四HRTF;或者,第一目标HRTF为第二HRTF,第二目标HRTF为第五HRTF。
S910,电子设备在第二目标HRTF中添加第二双耳时间差,得到第三HRTF。
电子设备在得到目标用户的第二双耳时间差以及第二目标HRTF(第四HRTF或第五HRTF)之后,将第二双耳时间差添加至第二目标HRTF中,得到第三HRTF。
S911,电子设备提取原始BRIR中的混响部分,得到第三BRIR。
电子设备在生成第三HRTF之后,为了使得最终渲染得到的目标音频信号在通过耳机设备播放时具有外化效果,可以获取第一BRIR,并将第三HRTF与第一BRIR进行拼接,采用拼接到的第二BRIR对待渲染音频信号进行渲染,来得到目标音频信号。
电子设备在生成第一BRIR时,可以先提取原始BRIR中的混响部分,以得到第三BRIR。
原始BRIR可以包括直达声部分、早期反射声部分和混响部分,混响部分为佩戴耳机设备的目标用户提供房间相关的信息。电子设备是将原始BRIR中的直达声部分和早期反射部分去除,将剩余的混响部分作为第三BRIR。
电子设备在去除原始BRIR中的直达声部分和早期反射部分时,去除的时长可根据第三HRTF的采样点的数量确定,例如,第三HRTF的采样点的数量为256个,则电子设备可以将原始BRIR中的开始阶段之后的256个采样点去除,得到第三BRIR。
S912,电子设备采用混响参数对第三BRIR进行处理,得到第一BRIR;混响参数包括混响时间和/或第二增益。
在一些实施例中,电子设备可采用混响时间和/或第二增益,对第三BRIR进行调节以得到第一BRIR,使得在采用第三HRTF与第一BRIR拼接后的第二BRIR,对待渲染音频信号进行渲染后,以模拟不同房间的混响效果。
一种方式,电子设备可采用混响时间对第三BRIR进行调节,来控制目标音频信号在通过耳机设备播放时所达到的外化效果。其中,混响时间指的是声源停止发声后,声压级减少60dB所需要时间。
房间的混响时间的长短取决于房间的体积大小与吸声量,如果房间体积大且吸声量小,则使得混响时间长,如果房间体积小且吸声量强,则使得混响时间就短。混响时间在1s以内会增加声音的清晰度且声音圆润动听,如果混响时间过短,声音会发干且不自然,如果混响时间过长,会导致声音变得不清晰。
也就是说,当选择的混响时间不同时,耳机设备最终播放的目标音频信号所模拟的房间大小的声音效果也就不一样,使得模拟出的声音的外化程度也不一样。因此,电子设备可通过控制不同的混响时间对第三BRIR进行处理,来模拟不同房间的声音效果,以调节目标音频信号不同的外化效果。当选取的混响时间越长时,其可以用于模拟空间较大的房间的声音效果,当选取的混响时间越短时,其可以用于模拟空间较小的房间的声音效果。
在录制待渲染音频信号时,录制时房间反射导致的混音时长可称为原始混响时间。电子设备可选取预设的混响时间对第三BRIR进行处理,该混响时间小于原始混响时间。例如,原始混响时间为200ms,则该混响时间可以选取50ms。
需要说明的是,用于调节第三BRIR的混响时间可以为预设的固定数值,如混响时间可以选取50ms。或者,用于调节第三BRIR的混响时间也可以由用户自行设定,例如,在电子设备的界面上显示有混响时间调节控件,用户对混响时间调节控件进行触控操作,以调节混响时间,后续在进行空间音频渲染时,电子设备可采用调节后的混响时间来对第三BRIR进行处理以生成第一BRIR。
另一种方式,电子设备可采用第二增益对第三BRIR进行处理,来控制目标音频信号在通过耳机设备播放时所达到的外化效果。其中,第一增益与第二增益的比值称为直混比控制参数,即直混比控制参数K=g1/g2,g1为第一增益,g2为第二增益。例如,第一增益可以为0.8,第二增益可以为0.9,则直混比控制参数为8/9;或者,第一增益可以为0.6,第二增益可以为0.9,则直混比控制参数为2/3。
具体的,电子设备在采用第二增益对第三BRIR进行处理时,是对第三BRIR的幅值乘以该第二增益,得到第一BRIR。
可以理解的是,第一增益用于调节后续生成的第二BRIR中的直达声部分的幅值,第二增益用于调节后续生成的第二BRIR中的混响部分的幅值。
在本申请实施例中,电子设备可以通过第一增益对第七HRTF和第八HRTF进行调节,以控制目标音频信号在通过耳机设备播放时所达到的外化效果;电子设备也可以通过第二增益对第三BRIR进行调节,以控制目标音频信号在通过耳机设备播放时所达到的外化效果;电子设备还可以同时通过第一增益和第二增益的调节,来控制目标音频信号在通过耳机设备播放时所达到的外化效果。
通常,若将第二增益设置得较小,则后续生成的第二BRIR中的混响部分的幅值衰减,相应的,也就是使得后续生成的第二BRIR中的直达声部分的幅值相对较大,使得直混比控制参数较大,从而使得最终生成的目标音频信号在通过耳机设备播放时,模拟出的是声源比较近的声音效果,没有太多的外化感。
若将第二增益设置得较大,后续生成的第二BRIR中的混响部分的幅值增加,相应的,也就是使得后续生成的第二BRIR中的直达声部分的幅值相对较小,使得直混比控制参数较小,从而使得最终生成的目标音频信号在通过耳机设备播放时,模拟出的是声源比较远的声音效果,从而模拟出较为明显的外化效果。
因此,电子设备可通过控制直混比控制参数,来控制目标音频信号在通过耳机设备播放时的外化效果的明显程度。
需要说明的是,上述的直混比控制参数可以为预设的固定数值,如直混比控制参数可以选取8/9。或者,上述的直混比控制参数也可以由用户自行设定,例如,在电子设备的界面上显示有直混比控制参数调节控件,用户对直混比控制参数调节控件进行触控操作,以调节直混比控制参数,后续在进行空间音频渲染时,电子设备可采用调节后的直混比控制参数来对第三BRIR进行处理以生成第一BRIR。
可以理解的是,电子设备也可以不采用混响参数对第三BRIR进行处理,而是直接将第三BRIR作为第一BRIR。
需要说明的是,上述过程中生成的第七HRTF、第八HRTF、第一HRTF、第二HRTF、第四HRTF、第五HRTF、第六HRTF和第三HRTF可以指的是以时域表示的参数;或者,上述过程中生成的第七HRTF、第八HRTF、第一HRTF、第二HRTF、第四HRTF、第五HRTF、第六HRTF和第三HRTF也可以指的是以频域表示的参数,电子设备可以将以时域表示的第三HRTF从频域转换为时域,再将以时域表示的第三HRTF与第一BRIR进行拼接,得到第二BRIR。
S913,电子设备将第三HRTF与第一BRIR进行拼接,得到第二BRIR。
S914,电子设备采用第二BRIR对待渲染音频信号进行渲染,得到目标音频信号。
综上,本申请实施例中的音频处理方法,由于仅需要一次卷积运算就可生成目标音频信号,从而降低了计算复杂度以及计算所占用的内存,提高了电子设备实时渲染得到目标音频信号的速度,从而降低了电子设备与耳机设备之间发送目标音频信号的链路时延。这样,使得耳机设备在进行头动跟踪时,其播放的目标音频信号可根据第一头动跟踪数据和第二头动跟踪数据进行快速切换,从而提升了耳机设备在进行头动跟踪时的音频播放的实时响应效果。
并且,由于生成的第三HRTF包括目标用户的第二双耳时间差,则对待渲染音频信号渲染时采用的第二BRIR也包括目标用户的第二双耳时间差,而第二双耳时间差与目标用户实际的头部参数相关。因此,在采用第二BRIR对待渲染音频信号渲染所生成的目标音频信号,可以满足目标用户的个性化需求,提高耳机设备播放该目标音频信号时的目标用户的沉浸感,提升声像定位的准确度,以及控制声像的外化程度更符合目标用户实际需求的外化程度。
此外,通过先根据第四HRTF和第五HRTF进行参数切换,再添加目标用户的第二双耳时间差,可提高最终渲染得到的目标音频信号的空间定位准确度。
在一些可实现的方式中,如图16所示,电子设备的第三界面上设置有空间音频渲染控件161以及头动跟踪控件162。空间音频渲染控件161用于控制是否开启空间音频渲染功能,头动跟踪控件162用于控制是否根据耳机设备采集的头动跟踪数据进行音频渲染。空间音频渲染控件161以及头动跟踪控件162所对应的功能可以是耳机设置应用中的功能。
当电子设备接收到用户针对空间音频渲染控件161和头动跟踪控件162的开启操作时,电子设备可执行图7或图9对应的实施方式。当电子设备接收到用户针对空间音频渲染控件161的开启操作,以及头动跟踪控件162的关闭操作时,耳机设备不再实时或周期性地采集头动跟踪数据,电子设备也不会根据耳机设备采集的头动跟踪数据,来对待渲染音频信号执行空间音频渲染,此时,电子设备可以根据默认的头动跟踪数据来进行空间音频渲染,示例性的,电子设备可以将默认的头动跟踪数据对应的HRTF中的第一双耳时间差去除,并依次执行上述S910及之后的步骤。而当电子设备接收到用户针对空间音频渲染控件161和头动跟踪控件162的关闭操作时,电子设备不执行本申请实施例的音频处理方法。
此外,如图16所示,在电子设备的第三界面上还显示有人头半径设置控件163和人耳轮廓设置控件164。
当电子设备接收到用户针对人头半径设置控件163的触控操作时,电子设备可跳转到如图11中的(a)所示的第一界面,或者,电子设备可跳转到如图12中的(a)所示的第二界面。
在一些实施例中,影响声像定位的因素除了人头半径以外,人耳轮廓也会影响声像的定位准确性。
当声波达到耳廓时,一部分声波直接进入耳道,另一部分经过耳廓反射后才进入耳道,经过耳廓折向耳道的各个反射波之间会出现同相相加以及反相相减的现象,从而形成频谱上的峰谷。因此,不同的耳廓形状对应的声波反射不同,从而导致高频信号上的峰谷值不同。耳廓形状对声源的垂直定位起到重要的作用。
当电子设备接收到用户针对人耳轮廓设置控件164的触控操作时,电子设备可跳转到如图17所示的第四界面,第四界面显示多个不同耳廓特征对应的控件,如耳廓特征701、耳廓特征702和耳廓特征703等。
当电子设备接收到用户针对任一耳廓特征的触控操作时,若第一头动跟踪数据中的俯仰角不等于0,在采用图7或图9对应的实施方式生成目标音频信号时,可采用均衡器(equaliser,EQ)对目标音频信号进行处理,将目标音频信号中的特定频点的信号进行一定程度的滤波。例如,将目标音频信号中的预设频点的信号的谷值降低预设幅值。最后,将滤波后的目标音频信号发送至耳机设备进行播放。
当用户触控的耳廓特征不同时,上述的预设频点和预设幅值不同。例如,当用户触控的耳廓特征为耳廓特征701时,其对应的预设频点为4.2KHz,预设幅值为11.8dB;当用户触控的耳廓特征为耳廓特征702时,其对应的预设频点为9.6KHz,预设幅值为4.8dB。
此外,图17所示的第四界面中还可以包括提示信息,例如,该提示信息为:若您未选择任一耳廓特征,为您配置默认的耳廓特征,默认的耳廓特征可以是耳廓特征701、耳廓特征702以及耳廓特征703中的任一者。
在一些场景中,目标用户1在佩戴耳机设备一段时间后,可将耳机设备交给目标用户2,目标用户2佩戴该耳机设备继续收听音频信号。因此,在这种场景下,当目标用户2佩戴耳机设备一定时长(如30s)后,或者,目标用户2佩戴耳机设备后其头部朝着一定方向转动一个角度,耳机设备可向电子设备发送用于触发重新计算第二双耳时间差的指示信息,以指示电子设备重新计算目标用户2的第二双耳时间差。
一种可能的实现方式,电子设备在接收到耳机设备发送的用于触发重新计算第二双耳时间差的指示信息之后,电子设备可显示如图18所示的第五界面。在第五界面显示有提示信息,例如,该提示信息为:检测到佩戴耳机的用户发生变化,请确认是否采用当前佩戴耳机的用户的人头半径来进行音频音频渲染。
此外,第五界面还显示有确认控件181和取消控件182。当电子设备接收到针对确认控件181的触控操作时,重新根据当前佩戴耳机设备的用户(如目标用户2)的人头半径,计算第二双耳时间差以进行空间音频渲染;而当电子设备接收到针对取消控件182的触控操作时,依旧根据目标用户1的人头半径对应的第二双耳时间差来进行空间音频渲染。
在一些实施例中,可以将上述S901、S902、S906和S907所执行的过程,可通过定制化HRTF模块实现;将上述S903、S904、S905、S908、S909和S910所执行的过程,可通过参数切换模块实现;将上述S911、S912、S913和S914所执行的过程,可通过混响控制模块实现。
上述的定制化HRTF模块、参数切换模块和混响控制模块可以均集成在电子设备中;上述的定制化HRTF模块、参数切换模块和混响控制模块也可以均集成在耳机设备中,即S901至S914所示的步骤可以在耳机设备中执行;上述的定制化HRTF模块、参数切换模块和混响控制模块中的一部分可以集成在电子设备中,而另一部分集成在耳机设备中,即S901至S914所示的步骤中的一部分可以在电子设备中执行,另一部分在耳机设备中执行。本申请实施例中对此不做限定。
图19为本申请实施例提供的一种电子设备的结构示意图。电子设备100包括:存储器1901、处理器110和通信接口1902,其中,存储器1901、处理器110、通信接口1902可以通信;示例性的,存储器1901、处理器110和通信接口1902可以通过通信总线通信。
存储器1901可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM)。存储器1901可以存储计算机程序,由处理器110来控制执行,并由通信接口1902来执行通信,从而实现本申请上述实施例提供的音频处理方法。
芯片中的通信接口1902可以为输入/输出接口、管脚或电路等。
本实施例的电子设备100对应地可用于执行上述方法实施例中执行的步骤,其实现原理和技术效果类似,此处不再赘述。
本申请实施例还提供了一种计算机可读存储介质。上述实施例中描述的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。如果在软件中实现,则功能可以作为一个或多个指令或代码存储在计算机可读介质上或者在计算机可读介质上传输。计算机可读介质可以包括计算机存储介质和通信介质,还可以包括任何可以将计算机程序从一个地方传送到另一个地方的介质。存储介质可以是可由计算机访问的任何目标介质。
一种可能的实现方式中,计算机可读介质可以包括RAM,ROM,只读光盘(compactdisc read-only memory,CD-ROM)或其它光盘存储器,磁盘存储器或其它磁存储设备,或目标于承载的任何其它介质或以指令或数据结构的形式存储所需的程序代码,并且可由计算机访问。而且,任何连接被适当地称为计算机可读介质。例如,如果使用同轴电缆,光纤电缆,双绞线,数字用户线(digital subscriber line,DSL)或无线技术(如红外,无线电和微波)从网站,服务器或其它远程源传输软件,则同轴电缆,光纤电缆,双绞线,DSL或诸如红外,无线电和微波之类的无线技术包括在介质的定义中。如本文所使用的磁盘和光盘包括光盘,激光盘,光盘,数字通用光盘(digital versatile disc,DVD),软盘和蓝光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光光学地再现数据。上述的组合也应包括在计算机可读介质的范围内。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理单元以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
以上的具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本申请的具体实施方式而已,并不用于限定本申请的保护范围,凡在本申请的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本申请的保护范围之内。
Claims (15)
1.一种音频处理方法,其特征在于,包括:
电子设备获取第一头动跟踪数据和第二头动跟踪数据;所述第二头动跟踪数据为所述第一头动跟踪数据的前一次获取到的头动跟踪数据;
所述电子设备根据所述第一头动跟踪数据获得第一HRTF,以及根据所述第二头动跟踪数据获得第二HRTF;
在所述第一头动跟踪数据与所述第二头动跟踪数据不同的情况下,所述电子设备根据所述第一HRTF和所述第二HRTF,生成第三HRTF;
所述电子设备将所述第三HRTF与第一BRIR进行拼接,得到第二BRIR;
所述电子设备采用所述第二BRIR对待渲染音频信号进行渲染,得到目标音频信号。
2.根据权利要求1所述的方法,其特征在于,所述电子设备根据所述第一HRTF和所述第二HRTF,生成第三HRTF,包括:
所述电子设备将所述第一HRTF中的第一双耳时间差去除得到第四HRTF,以及将所述第二HRTF中的第一双耳时间差去除得到第五HRTF;
所述电子设备根据所述第四HRTF和所述第五HRTF,生成第六HRTF;
所述电子设备获取目标用户的第二双耳时间差;所述第二双耳时间差与所述目标用户的头部参数相关;
所述电子设备在所述第六HRTF中添加所述第二双耳时间差,得到所述第三HRTF。
3.根据权利要求1所述的方法,其特征在于,在所述电子设备根据所述第一头动跟踪数据获得第一HRTF,以及根据所述第二头动跟踪数据获得第二HRTF之后,还包括:
在所述第一头动跟踪数据与所述第二头动跟踪数据相同的情况下,所述电子设备将第一目标HRTF中的第一双耳时间差去除,得到第二目标HRTF;
所述电子设备获取目标用户的第二双耳时间差;所述第二双耳时间差与所述目标用户的头部参数相关;
所述电子设备在所述第二目标HRTF中添加所述第二双耳时间差,得到所述第三HRTF;
其中,所述第一目标HRTF为所述第一HRTF,所述第二目标HRTF为第四HRTF;或者,所述第一目标HRTF为所述第二HRTF,所述第二目标HRTF为第五HRTF。
4.根据权利要求2或3所述的方法,其特征在于,所述电子设备获取目标用户的第二双耳时间差,包括:
所述电子设备获取所述目标用户的头部参数;
所述电子设备根据所述头部参数和所述第一头动跟踪数据中的水平方位角,获取所述目标用户的第二双耳时间差。
5.根据权利要求4所述的方法,其特征在于,所述电子设备获取所述目标用户的头部参数,包括:
所述电子设备显示第一界面;所述第一界面包括头部参数输入框;
所述电子设备接收输入至所述头部参数输入框内的头部参数。
6.根据权利要求4所述的方法,其特征在于,所述头部参数为头部半径;所述电子设备根据所述头部参数和所述第一头动跟踪数据中的水平方位角,获取所述目标用户的第二双耳时间差,包括:
在所述电子设备处于远场模式下,所述电子设备通过如下公式计算所述目标用户的第二双耳时间差:ITD_new=2×a×sinθ1/c;
在所述电子设备处于近场模式下,所述电子设备通过如下公式计算所述目标用户的第二双耳时间差:ITD_new=a×(sinθ1+θ1)/c;
其中,ITD_new为所述第二双耳时间差,a为所述头部半径,θ1为所述第一头动跟踪数据中的水平方位角,c为声速。
7.根据权利要求2所述的方法,其特征在于,所述第六HRTF通过如下公式获得:
HRTF_new=b/N×HRTF4+(1-b/N)×HRTF5;
其中,HRTF4为所述第四HRTF,HRTF5为所述第五HRTF,b为采样点的序列数,N为采样点的总数,HRTF_new为所述第六HRTF。
8.根据权利要求1所述的方法,其特征在于,所述电子设备根据所述第一头动跟踪数据获得第一HRTF,以及根据所述第二头动跟踪数据获得第二HRTF,包括:
所述电子设备从HRTF数据库中获取所述第一头动跟踪数据对应的第七HRTF,以及所述第二头动跟踪数据对应的第八HRTF;
所述电子设备采用第一增益对所述第七HRTF进行调节得到所述第一HRTF,以及采用所述第一增益对所述第八HRTF进行调节得到所述第二HRTF。
9.根据权利要求1所述的方法,其特征在于,在所述电子设备将所述第三HRTF与第一BRIR进行拼接,得到第二BRIR之前,还包括:
所述电子设备提取原始BRIR中的混响部分,得到第三BRIR;
所述电子设备根据所述第三BRIR,确定所述第一BRIR。
10.根据权利要求9所述的方法,其特征在于,所述电子设备根据所述第三BRIR,确定所述第一BRIR,包括:
所述电子设备采用混响参数对所述第三BRIR进行处理,得到所述第一BRIR;所述混响参数包括混响时间和/或第二增益。
11.根据权利要求1所述的方法,其特征在于,所述电子设备将所述第三HRTF与第一BRIR进行拼接,得到第二BRIR,包括:
所述电子设备将所述第一BRIR拼接到所述第三HRTF之后,得到所述第二BRIR。
12.根据权利要求1所述的方法,其特征在于,所述电子设备与耳机设备通信连接;所述电子设备获取第一头动跟踪数据和第二头动跟踪数据,包括:
所述电子设备接收所述耳机设备发送的所述第一头动跟踪数据和所述第二头动跟踪数据;
在所述电子设备采用所述第二BRIR对待渲染音频信号进行渲染,得到目标音频信号之后,还包括:
所述电子设备向所述耳机设备发送所述目标音频信号。
13.一种电子设备,其特征在于,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如权利要求1至12中任一项所述的音频处理方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序或指令,当所述计算机程序或指令被运行时,实现如权利要求1至12任一项所述的音频处理方法。
15.一种计算机程序产品,其特征在于,包括计算机程序,当所述计算机程序被运行时,使得计算机执行如权利要求1至12中任一项所述的音频处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211065962.6A CN117676002A (zh) | 2022-09-01 | 2022-09-01 | 音频处理方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211065962.6A CN117676002A (zh) | 2022-09-01 | 2022-09-01 | 音频处理方法及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117676002A true CN117676002A (zh) | 2024-03-08 |
Family
ID=90066910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211065962.6A Pending CN117676002A (zh) | 2022-09-01 | 2022-09-01 | 音频处理方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117676002A (zh) |
-
2022
- 2022-09-01 CN CN202211065962.6A patent/CN117676002A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108156561B (zh) | 音频信号的处理方法、装置及终端 | |
KR101614790B1 (ko) | 카메라 구동 오디오 공간화 | |
US11039261B2 (en) | Audio signal processing method, terminal and storage medium thereof | |
EP4121957A1 (en) | Encoding reverberator parameters from virtual or physical scene geometry and desired reverberation characteristics and rendering using these | |
US11902772B1 (en) | Own voice reinforcement using extra-aural speakers | |
CN114727212B (zh) | 音频的处理方法及电子设备 | |
US11429340B2 (en) | Audio capture and rendering for extended reality experiences | |
EP3550860A1 (en) | Rendering of spatial audio content | |
CN112312297B (zh) | 音频带宽减小 | |
CN111696513A (zh) | 音频信号处理方法及装置、电子设备、存储介质 | |
CN114051736A (zh) | 用于音频流送和渲染的基于定时器的访问 | |
US11937065B2 (en) | Adjustment of parameter settings for extended reality experiences | |
EP4203447A1 (en) | Sound processing method and apparatus thereof | |
CN111385728B (zh) | 一种音频信号处理方法及装置 | |
CN108924705B (zh) | 3d音效处理方法及相关产品 | |
CN109121069B (zh) | 3d音效处理方法及相关产品 | |
CN116095595B (zh) | 音频处理方法和装置 | |
CN114339582B (zh) | 双通道音频处理、方向感滤波器生成方法、装置以及介质 | |
CN116709159A (zh) | 音频处理方法及终端设备 | |
CN113115175A (zh) | 3d音效处理方法及相关产品 | |
CN117676002A (zh) | 音频处理方法及电子设备 | |
WO2024046182A1 (zh) | 一种音频播放方法、系统及相关装置 | |
CN114630240B (zh) | 方向滤波器的生成方法、音频处理方法、装置及存储介质 | |
CN116347320A (zh) | 音频播放方法及电子设备 | |
CN117692845A (zh) | 声场校准方法、电子设备及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |