CN116095595B - 音频处理方法和装置 - Google Patents
音频处理方法和装置 Download PDFInfo
- Publication number
- CN116095595B CN116095595B CN202211001656.6A CN202211001656A CN116095595B CN 116095595 B CN116095595 B CN 116095595B CN 202211001656 A CN202211001656 A CN 202211001656A CN 116095595 B CN116095595 B CN 116095595B
- Authority
- CN
- China
- Prior art keywords
- target
- parameter
- brir
- terminal equipment
- terminal device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 230000005236 sound signal Effects 0.000 claims abstract description 136
- 238000012545 processing Methods 0.000 claims abstract description 110
- 238000000034 method Methods 0.000 claims abstract description 79
- 230000008569 process Effects 0.000 claims abstract description 37
- 238000003062 neural network model Methods 0.000 claims description 56
- 238000004891 communication Methods 0.000 claims description 54
- 238000009877 rendering Methods 0.000 claims description 54
- 230000006870 function Effects 0.000 claims description 37
- 230000015654 memory Effects 0.000 claims description 37
- 238000001228 spectrum Methods 0.000 claims description 18
- 230000004044 response Effects 0.000 claims description 15
- 230000003595 spectral effect Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 230000033001 locomotion Effects 0.000 description 6
- 238000007726 management method Methods 0.000 description 5
- 238000010295 mobile communication Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 210000005069 ears Anatomy 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 239000000835 fiber Substances 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000004886 head movement Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/72409—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories
- H04M1/72412—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories using two-way short-range wireless interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/033—Headphones for stereophonic communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Networks & Wireless Communication (AREA)
- Human Computer Interaction (AREA)
- Headphones And Earphones (AREA)
- Telephone Function (AREA)
- Stereophonic System (AREA)
Abstract
本申请实施例提供一种音频处理方法和装置,涉及终端技术领域,方法包括:终端设备显示第一界面;终端设备接收针对多个控件中的第一控件的第一操作;响应于第一操作,终端设备获取第一控件对应的第一目标参数;其中,第一目标参数中包括下述一种或多种:耳间时间差、耳间声压级、或耳间相干性;终端设备获取第一音频信号;终端设备利用第一目标参数处理第一音频信号,得到第二音频信号;终端设备向耳机发送第二音频信号。这样,得终端设备可以根据用户选择头部特征,匹配合适的目标参数,使得经过目标参数输出的音频信号可以适配用户的头部特征,实现音频信号的个性化处理,使得用户获得较好的音频收听体验。
Description
技术领域
本申请涉及终端技术领域,尤其涉及一种音频处理方法和装置。
背景技术
随着终端设备的普及和发展,通过耳机收听音频的用户急剧增加,当终端设备连接耳机播放音频信号时,原始立体声素材或多声道音频下混后以传统的方式通过耳机呈现时会有明显的“头中感”,该头中感可以理解为发出的声音被感知为从头中的位置发出到耳朵的左右两侧。
通常情况下,终端设备可以通过合适的双耳房间脉冲响应(binaural roomimpulse response,BRIR)参数对原始音频信号进行处理,使得处理后的音频信号在通过耳机播放时可以产生较好的空间效果。其中,该BRIR描述了从声源到声源接收位置(如用户双耳)处的声音传输过程。
然而,上述音频处理方法无法使得用户达到较好的音频收听体验。
发明内容
本申请实施例提供一种音频处理方法和装置,使得终端设备可以根据用户选择头部特征,匹配合适的目标参数,使得经过目标参数输出的音频信号可以适配用户的头部特征,实现音频信号的个性化处理,使得用户获得较好的音频收听体验。
第一方面,本申请实施例提供一种音频处理方法,应用于终端设备,终端设备与耳机建立通信连接,方法包括:终端设备显示第一界面;第一界面中包括用于选择头部特征的多个控件;终端设备接收针对多个控件中的第一控件的第一操作;响应于第一操作,终端设备获取第一控件对应的第一目标参数;其中,第一目标参数中包括下述一种或多种:耳间时间差、耳间声压级、或耳间相干性;终端设备获取第一音频信号;终端设备利用第一目标参数处理第一音频信号,得到第二音频信号;终端设备向耳机发送第二音频信号。这样,得终端设备可以根据用户选择头部特征,匹配合适的目标参数,使得经过目标参数输出的音频信号可以适配用户的头部特征,实现音频信号的个性化处理,使得用户获得较好的音频收听体验。
其中,该第一界面可以为图6中的b所示的界面,第一控件可以为图6中的b所示的界面中的任一头部特征对应的控件。
在一种可能的实现方式中,第一界面中还包括:用于选择空间渲染类型的第二控件,方法还包括:终端设备接收针对第二控件的第二操作;响应于第二操作,终端设备获取第二控件对应的第二目标参数;其中,第二目标参数包括下述一种或多种:BRIR直混比调节参数、回声密度、目标谱峰谱谷、房间大小、或混响时间;终端设备利用第一目标参数处理第一音频信号,包括:终端设备利用第一目标参数以及第二目标参数处理第一音频信号,得到第二音频信号。这样,终端设备可以根据用户对于空间渲染类型的选择,获取该空间渲染类型对应的第二目标参数,终端设备根据该第二目标参数,对原始初始音频信号进行处理,使得处理后的音频信号可以模拟在不同空间中播放时的效果,便于用户获得较好的音频收听体验。
其中,用于选择空间渲染类型的第二控件可以为图7中的a(或图7中的b)所示的界面中的任一渲染类型对应的控件。
在一种可能的实现方式中,响应于第二操作,终端设备获取第二控件对应的第二目标参数,包括:响应于第二操作,终端设备显示第二控件对应的进度条;进度条用于调节耳机播放第二音频信号时第二音频信号与终端设备之间的距离;终端设备接收针对进度条的第三操作;响应于第三操作,终端设备获取进度条的目标位置处对应的第二目标参数。这样,使得用户不仅模拟在不同空间中收听音频,还可以灵活调节音频与用户之间的距离,进一步提高用户收听音频时的听觉体验。
其中,第二控件对应的进度条可以为图8中的b所示的进度条802。
在一种可能的实现方式中,方法还包括:终端设备显示第二界面;第二界面中包括用于对第一音频信号进行空间渲染的第三控件;终端设备接收针对第三控件的第四操作;终端设备显示第一界面,包括:响应于第四操作,终端设备显示第一界面。这样,终端设备可以基于用户针对第三控件的触发,对音频信号进行空间渲染,提高用户收听音频时的听觉体验。
其中,第二界面可以为图6中的a所示的界面,第三控件可以为图6中的a所示的开启控件。
在一种可能的实现方式中,方法还包括:终端设备将第一双耳房间脉冲响应BRIR参数以及第一目标参数输入到第一目标神经网络模型中,输出第二BRIR参数;其中,第一BRIR参数的阶数为N1,第二BRIR参数的阶数为N2,N1大于N2;第一目标神经网络模型的损失函数与第一目标参数中的一种或多种参数相关;终端设备利用第一目标参数处理第一音频信号,包括:终端设备利用第二BRIR参数处理第一音频信号。这样,终端设备可以利用第一目标神经网络模型降低第一BRIR参数的阶数,进而简化音频处理的复杂度。
其中,第一BRIR参数可以为本申请实施例中描述的N1阶BRIR参数;第二BRIR参数可以为本申请实施例中描述的N2阶BRIR参数;第一音频信号可以为本申请实施例中描述的初始音频信号;第二音频信号可以为本申请实施例中描述的目标音频信号。
在一种可能的实现方式中,终端设备将第一BRIR参数以及第一目标参数输入到第一目标神经网络模型中,输出第二BRIR参数,包括:终端设备将第一BRIR参数、第一目标参数、以及第二目标参数输入到第一目标神经网络模型中,输出第二BRIR参数;其中,损失函数与目标参数中的一种或多种参数相关;目标参数包括第一目标参数以及第二目标参数。这样,终端设备可以利用第一目标参数以及第二目标参数对第一目标神经网络模型中的BRIR参数进行调整,使得经过第一目标神经网络模型输出的第二BRIR参数符合用户对于音频信号的多种需求。
在一种可能的实现方式中,目标参数还包括:主观响度、或bark谱对应的数值。
在一种可能的实现方式中,方法还包括:终端设备将第一BRIR参数输入到第二目标神经网络模型中,输出第三BRIR参数;第一BRIR参数的阶数为N1,第三BRIR参数的阶数为N2,N1大于N2;终端设备利用第一目标参数中的一种或多种参数对第三BRIR参数进行调整,得到第二BRIR参数;第二BRIR参数的阶数为N2;终端设备利用第一目标参数处理第一音频信号,包括:终端设备利用第二BRIR参数处理第一音频信号。这样,终端设备可以利用第二目标神经网络模型降低第一BRIR参数的阶数,进而简化音频处理的复杂度。
在一种可能的实现方式中,终端设备利用第一目标参数中的一种或多种参数对第三BRIR参数进行调整,得到第二BRIR参数,包括:终端设备利用第一目标参数中的一种或多种参数对第三BRIR参数进行调整,得到第四BRIR参数;第四BRIR参数的阶数为N2;终端设备利用第二目标参数中的一种或多种参数对第四BRIR参数进行调整,得到第二BRIR参数。
在一种可能的实现方式中,终端设备利用第二BRIR参数处理第一音频信号,包括:终端设备获取来自耳机的目标转动角度;其中,目标转动角度为佩戴耳机时耳机检测到的转动角度;终端设备从第二BRIR参数中,获取目标转动角度对应的目标BRIR参数;目标BRIR参数的阶数为N2;终端设备利用目标BRIR参数处理第一音频信号。这样,终端设备可以在播放音频信号时,根据目标转动角度对音频信号进行实时处理,提高用户收听音频时的空间感。
在一种可能的实现方式中,第二界面中还包括:用于在播放第二音频信号时使得第二音频信号跟随耳机转动进行调整的第四控件,方法还包括:终端设备接收针对第四控件的第五操作;响应于第五操作,终端设备向耳机发送用于获取目标转动角度的指示信息;终端设备获取来自耳机的目标转动角度,包括:终端设备根据指示信息获取来自耳机的目标转动角度。这样,使得用户可以根据对于音频播放的需求,确定是否开启音频跟随耳机转动,进而提高用户收听音频时的使用体验。
其中,第四控件可以为图6中的a所示的界面中的跟随头动控件。
第二方面,本申请实施例提供一种音频处理装置,终端设备与耳机建立通信连接,方法包括:显示单元,用于显示第一界面;第一界面中包括用于选择头部特征的多个控件;处理单元,用于接收针对多个控件中的第一控件的第一操作;响应于第一操作,处理单元,还用于获取第一控件对应的第一目标参数;其中,第一目标参数中包括下述一种或多种:耳间时间差、耳间声压级、或耳间相干性;处理单元,还用于获取第一音频信号;处理单元,还用于利用第一目标参数处理第一音频信号,得到第二音频信号;通信单元,用于向耳机发送第二音频信号。
在一种可能的实现方式中,第一界面中还包括:用于选择空间渲染类型的第二控件,处理单元,还用于接收针对第二控件的第二操作;响应于第二操作,处理单元,还用于获取第二控件对应的第二目标参数;其中,第二目标参数包括下述一种或多种:BRIR直混比调节参数、回声密度、目标谱峰谱谷、房间大小、或混响时间;处理单元,还用于利用第一目标参数以及第二目标参数处理第一音频信号,得到第二音频信号。
在一种可能的实现方式中,响应于第二操作,显示单元,用于显示第二控件对应的进度条;进度条用于调节耳机播放第二音频信号时第二音频信号与终端设备之间的距离;处理单元,还用于接收针对进度条的第三操作;响应于第三操作,处理单元,还用于获取进度条的目标位置处对应的第二目标参数。
在一种可能的实现方式中,显示单元,还用于显示第二界面;第二界面中包括用于对第一音频信号进行空间渲染的第三控件;处理单元,还用于接收针对第三控件的第四操作;响应于第四操作,显示单元,还用于显示第一界面。
在一种可能的实现方式中,处理单元,还用于将第一双耳房间脉冲响应BRIR参数以及第一目标参数输入到第一目标神经网络模型中,输出第二BRIR参数;其中,第一BRIR参数的阶数为N1,第二BRIR参数的阶数为N2,N1大于N2;第一目标神经网络模型的损失函数与第一目标参数中的一种或多种参数相关;处理单元,还用于利用第一目标参数处理第一音频信号,包括:终端设备利用第二BRIR参数处理第一音频信号。
在一种可能的实现方式中,处理单元,还用于将第一BRIR参数、第一目标参数、以及第二目标参数输入到第一目标神经网络模型中,输出第二BRIR参数;其中,损失函数与目标参数中的一种或多种参数相关;目标参数包括第一目标参数以及第二目标参数。
在一种可能的实现方式中,目标参数还包括:主观响度、或bark谱对应的数值。
在一种可能的实现方式中,处理单元,还用于将第一BRIR参数输入到第二目标神经网络模型中,输出第三BRIR参数;第一BRIR参数的阶数为N1,第三BRIR参数的阶数为N2,N1大于N2;处理单元,还用于利用第一目标参数中的一种或多种参数对第三BRIR参数进行调整,得到第二BRIR参数;第二BRIR参数的阶数为N2;处理单元,还用于利用第二BRIR参数处理第一音频信号。
在一种可能的实现方式中,处理单元,还用于利用第一目标参数中的一种或多种参数对第三BRIR参数进行调整,得到第四BRIR参数;第四BRIR参数的阶数为N2;处理单元,还用于利用第二目标参数中的一种或多种参数对第四BRIR参数进行调整,得到第二BRIR参数。
在一种可能的实现方式中,通信单元,还用于获取来自耳机的目标转动角度;其中,目标转动角度为佩戴耳机时耳机检测到的转动角度;处理单元,还用于从第二BRIR参数中,获取目标转动角度对应的目标BRIR参数;目标BRIR参数的阶数为N2;处理单元,还用于利用目标BRIR参数处理第一音频信号。
在一种可能的实现方式中,第二界面中还包括:用于在播放第二音频信号时使得第二音频信号跟随耳机转动进行调整的第四控件,处理单元,还用于接收针对第四控件的第五操作;响应于第五操作,通信单元,还用于向耳机发送用于获取目标转动角度的指示信息;通信单元,还用于根据指示信息获取来自耳机的目标转动角度。
第三方面,本申请实施例提供一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时,使得终端设备执行如第一方面或第一方面的任一种实现方式中描述的音频处理方法。
第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质存储有指令,当指令被执行时,使得计算机执行如第一方面或第一方面的任一种实现方式中描述的音频处理方法。
第五方面,一种计算机程序产品,包括计算机程序,当计算机程序被运行时,使得计算机执行如第一方面或第一方面的任一种实现方式中描述的音频处理方法。
应当理解的是,本申请的第二方面至第五方面与本申请的第一方面的技术方案相对应,各方面及对应的可行实施方式所取得的有益效果相似,不再赘述。
附图说明
图1为本申请实施例提供的一种场景示意图;
图2为本申请实施例提供的一种终端设备的硬件结构示意图;
图3为本申请实施例提供的一种耳机的硬件结构示意图;
图4为本申请实施例提供的一种系统架构的软件结构示意图;
图5为本申请实施例提供的一种音频处理方法的流程示意图;
图6为本申请实施例提供的一种开启空间音频渲染的界面示意图;
图7为本申请实施例提供的另一种开启空间音频渲染的界面示意图;
图8为本申请实施例提供的再一种开启空间音频渲染的界面示意图;
图9为本申请实施例提供的又一种开启空间音频渲染的界面示意图;
图10为本申请实施例提供的一种生成BRIR参数的流程示意图;
图11为本申请实施例提供的一种神经网络模型的结构示意图;
图12为本申请实施例提供的另一种神经网络模型的结构示意图;
图13为本申请实施例提供的另一种生成BRIR参数的流程示意图;
图14为本申请实施例提供的一种音频处理装置的结构示意图;
图15为本申请实施例提供的另一种终端设备的硬件结构示意图。
具体实施方式
为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如,第一值和第二值仅仅是为了区分不同的值,并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
需要说明的是,本申请中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a和b,a和c,b和c,或a、b和c,其中a,b,c可以是单个,也可以是多个。
示例性的,图1为本申请实施例提供的一种场景示意图。在图1对应的实施例中,以终端设备为手机为例进行示例说明,该示例并不构成对本申请实施例的限定。
如图1所示,该场景中可以包括终端设备101以及用户佩戴的耳机102。其中,该耳机102可以为如图1所示的头戴式耳机,或者该耳机102也可以是真无线立体声(truewireless stereo,TWS)、或者有线耳机等,本申请实施例中对该耳机102的类型不做限定。
示例性的,在终端设备101与耳机102建立通信连接的情况下,用户可以利用终端设备101对初始音频信号进行处理,并通过耳机102播放处理后的目标音频信号。例如,终端设备可以通过BRIR参数对初始音频信号进行处理,使得处理后的目标音频信号在通过耳机播放时可以产生较好的空间效果。
然而,由于每个人在实际生活中,是通过自己的身体、头部、耳廓来聆听环境中的声音,因此个性化的头传输函数对自己的空间定位也很重要。但是专业的头传输函数测量方法非常复杂费时耗力。并且,由于不同用户的头部特征不同,例如不同用户的双耳之间距离不同、不同用户的耳朵尺寸不同、耳朵位置不同、以及不同用户的头部的尺寸不同等,该不同用户的头部特征均可以对用户收听到的音频信号产生影响,进而无法使得各用户均达到较好的音频收听体验。
有鉴于此,本申请实施例提供一种音频处理方法,终端设备显示第一界面;第一界面中包括用于选择头部特征的多个控件;当终端设备接收针对多个控件中的目标控件的第一操作时,终端设备可以为该目标控件匹配合适的目标参数;使得经过目标参数输出的第一音频信号可以适配用户的头部特征,实现音频信号的个性化处理,使得用户获得较好的音频收听体验。其中,目标参数中包括下述一种或多种:耳间时间差、耳间声压级、或耳间相干性。
可以理解的是,上述终端设备也可以称为终端,(terminal)、用户设备(userequipment,UE)、移动台(mobile station,MS)、移动终端(mobile terminal,MT)等。终端设备可以为手机(mobile phone)、智能电视、穿戴式设备、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(virtual reality,VR)终端设备、增强现实(augmented reality,AR)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self-driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等。其中,该可穿戴设备可以包括:智能手表、智能手环、智能腰带等设备。本申请的实施例对终端设备以及可穿戴设备所采用的具体技术和具体设备形态不做限定。
因此,为了能够更好地理解本申请实施例,下面对本申请实施例的终端设备的结构进行介绍。示例性的,图2为本申请实施例提供的一种终端设备的结构示意图。
终端设备可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,指示器192,摄像头193,以及显示屏194等。
可以理解的是,本申请实施例示意的结构并不构成对终端设备的具体限定。在本申请另一些实施例中,终端设备可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。处理器110中还可以设置存储器,用于存储指令和数据。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为终端设备充电,也可以用于终端设备与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他终端设备,例如AR设备等。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。电源管理模块141用于连接充电管理模块140与处理器110。
终端设备的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。终端设备中的天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。
移动通信模块150可以提供应用在终端设备上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。
无线通信模块160可以提供应用在终端设备上的包括无线局域网(wirelesslocalarea networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequencymodulation,FM)等无线通信的解决方案。
终端设备通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。在一些实施例中,终端设备可以包括1个或N个显示屏194,N为大于1的正整数。
终端设备可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
摄像头193用于捕获静态图像或视频。在一些实施例中,终端设备可以包括1个或N个摄像头193,N为大于1的正整数。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展终端设备的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。
终端设备可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音频播放或录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号,终端设备中包括至少一个扬声器170A。终端设备可以通过扬声器170A收听音乐,或收听免提通话。受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当终端设备接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
本申请实施例中,终端设备可以设置多个播放器件,该播放器件可以包括:扬声器170A和/或受话器170B。在终端设备播放视频的场景中,至少一个扬声器170A和/或至少一个受话器170B同时播放音频信号。
耳机接口170D用于连接有线耳机。麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。本申请实施例中,终端设备可以基于麦克风170C接收用于唤醒终端设备的声音信号,并将声音信号转换为可以进行后续处理的电信号,如本申请实施例中描述的声纹数据,该终端设备可以拥有至少一个麦克风170C。
传感器模块180可以包括下述一种或多种传感器,例如:压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,接近光传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,或骨传导传感器等(图2中未示出)。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。终端设备可以接收按键输入,产生与终端设备的用户设置以及功能控制有关的键信号输入。指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
终端设备的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构等,在此不再赘述。
示例性的,图3为本申请实施例提供的一种耳机的硬件结构示意图。
如图3所示,耳机包括一个或者多个处理器310、一个或多个存储器320、通信接口330、音频采集电路和音频播放电路。其中音频采集电路进一步可包括至少一个麦克风340和模拟数字转换器(analog-to-digital converter,ADC)350。音频播放电路进一步可包括扬声器360和数字模拟转换器(digital-to-analog converter,DAC)。
其中,耳机还可以包括一个或多个传感器380,例如:惯性测量单元(inertialmeasurement unit,IMU)、接近传感器、运动传感器(motion sensor)等。上述这些硬件部件可在一个或多个通信总线上通信。
本申请实施例中,该IMU可以用于测量耳机的运动姿态,例如该IMU可以用于确定用户佩戴耳机时的头部转动角度。其中,该IMU中可以设置有陀螺仪传感器以及加速度传感器等。
处理器310是耳机的控制中心,处理器还可能被称为控制单元、控制器、微控制器或其他某个合适的术语。处理器310利用各种接口和线路连接耳机的各个部件,在可能实施例中,处理器310还可包括一个或多个处理核心。在可能的实施例中,处理器310中可集成有主控制单元和信号处理模块。主控制单元(MCU)用于接收传感器380采集的数据或来自信号处理模块的监测信号或来自终端(例如手机APP)的控制信号,通过综合判断、决策,最后对耳机进行控制。
存储器320可以与处理器310耦合,或者与处理器310通过总线连接,用于存储各种软件程序和/或多组指令以及数据。存储器320还可以存储通信程序,该通信程序可用于与终端进行通信。在一种示例中,存储器320还可以存储数据/程序指令,处理器310可用于调用和执行存储器320中的数据/程序指令。示例性的,存储器320中可以存储多组降噪参数。可选的,该存储器320可以为MCU外部的存储器,也可以为MCU自带的存储单元。
通信接口330用于与终端进行通信,该通信方式可以是有线方式,也可以是无线方式。当通信方式是有线通信时,通信接口330可通过线缆接入到终端。当通信方式是无线通信时,通信接口330用于接收和发送射频信号,其所支持的无线通信方式例如可以是蓝牙(Bluetooth)通信、无线保真(wireless-fidelity,Wifi)通信、红外通信、或蜂窝2/3/4/5代(2/3/4/5generation,2G/3G/4G/5G)通信等通信方式中的至少一种。
麦克风340可用于采集声音信号(或称音频信号,该音频信号是模拟信号),模拟数字转换器350用于将麦克风340采集到的模拟信号转换成为数字信号,并将该数字信号送到处理器310进行处理,具体实施例中,可送到信号处理模块进行处理。信号处理模块可将处理后的信号(例如混音音频信号)传输至数字模拟转换器370,数字模拟转换器370可将接收到的信号转换为模拟信号,进而传输到扬声器360,扬声器用于根据该模拟信号进行播放,从而使用户能够听到声音。
本申请实施例中,通信接口330可以用于将IMU检测到的头部转动角度发送至终端设备,使得终端设备可以利用该头部转动角度匹配合适的BRIR参数。并且,该通信接口330还可以可用接收终端设备发送的音频信号。
可以理解的是,上述耳机也可能被称为耳塞、耳麦、随身听、音讯播放器、媒体播放器、头戴式受话器、听筒设备或其他某个合适的术语,本申请的实施例对此不做限定。
本申请实施例以分层架构的安卓(Android)系统为例,示例性说明终端设备的软件结构。示例性的,图4为本申请实施例提供的一种系统架构的软件结构示意图。
如图4所示,该系统架构中可以包括终端设备、以及耳机。其中,该终端设备中可以显示分层架构,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统从上至下分别为应用程序层、应用程序框架(framework)层,以及硬件抽象层(hardware abstraction layer,HAL)等。可以理解的是,该分层架构可以根据实际场景包括其他层,本申请实施例中对此不再赘述。
其中,应用程序层可以包括一系列应用程序。例如该应用程序层中可以包括:音乐应用、以及耳机设置应用等。该音乐应用可以用于控制音频信号的播放以及暂停等;该耳机设置应用可以用于实现利用耳机播放音频时对于音频播放效果的设置。其中,该音乐应用以及耳机设置应用均可以为终端设备中的系统应用,或也可以为第三方提供的应用,本申请实施例中对此不做限定。
可以理解的是,应用程序层中还可以包括:相机,日历,电话,地图,电话,音乐,邮箱,视频,社交等应用程序(图4中未示出),本申请实施例中对此不做限定。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
应用程序框架层中可以包括:音频播放模块、以及头部跟随算法模块等。其中,音频播放模块用于根据音乐应用发送的指示信息,指示音频播放HAL调用硬件接口进行音频播放;音频播放模块还可以用于对接收到的音频信号进行处理和转发。头部跟随算法模块可以用于根据头部转动角度确定用户头部与终端设备之间的相对角度;或者,该头部跟随算法模块还可以用于根据耳机设置应用发送的指示,将获取到的头部转动角度发送至空间音频算法模块。
可能的实现方式中,该应用程序框架层中还可以包括:窗口管理器,内容提供器,资源管理器,视图系统,以及通知管理器等(图4中未示出)。
例如,窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,触摸屏幕,拖拽屏幕,截取屏幕等。内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,终端设备振动,指示灯闪烁等。
HAL层的目的在于将硬件抽象化,可以为上层的应用提供一个统一的查询硬件设备的接口,或也可以为上层应用提供数据存储服务,或者为上层应用提供数据处理服务。本申请实施例中HAL层中可以包括:音频播放HAL以及空间音频算法模块。
其中,音频播放HAL用于实现对于音频信号转发,例如音频播放HAL用于将从音频播放模块发送的音频信号通过硬件进行播放。
空间音频算法模块用于实现利用目标参数以及NI阶BRIR参数确定N2阶BRIR参数,并且利用N2阶BRIR参数对音频信号进行空间渲染;或者空间音频算法还可以用于将空间渲染后的音频信号发送至音频播放模块进行处理。其中,目标参数可以包括本申请实施例中描述的第一目标参数、第二目标参数、主观响度以及bark谱对应的数值等。
如图4所示,耳机中可以包括:蓝牙模块、头部姿态算法模块、音频播放模块以及IMU等。其中,该蓝牙模块可以用于实现对于终端设备发送的音频信号的接收,并且该蓝牙模块也可以用于实现对于头部姿态算法模块计算得到的头部转动角度的转发;该音频播放模块可以用于实现对于蓝牙模块接收到的音频信号的播放;该头部姿态模块用于根据IMU采集到的运动数据,进行头部转动角度的计算;该IMU用于采集用户佩戴耳机时头部的运动数据。其中,该运动数据可以包括:陀螺仪数据、以及加速度数据等。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以独立实现,也可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
示例性的,图5为本申请实施例提供的一种音频处理方法的流程示意图。在图5对应的实施例中,该音频处理方法可以涉及终端设备以及耳机。
如图5所示,该音频处理方法可以包括如下步骤:
S501、终端设备与耳机建立通信连接。
示例性的,终端设备与耳机可以通过有线方式建立通信连接;或者,终端设备与耳机也可以通过无线方式建立通信连接。例如,终端设备与耳机可以通过蓝牙、WIFI、或连接到同一云端账号等无线方式建立通信连接,本申请实施例中对终端设备与耳机建立通信连接的方式不做限定。
S502、当终端设备接收到用户在耳机设置界面中开启空间音频渲染开关的操作时,终端设备显示多个用于在空间音频渲染功能中选择目标头部特征的控件。
其中,空间音频渲染功能可以理解为,模拟在不同空间中收听音频的效果,对初始音频信号进行处理,使得处理后的音频信号具有空间感以及立体感。
示例性的,图6为本申请实施例提供的一种开启空间音频渲染的界面示意图。在图6对应的实施例中,以终端设备为手机为例进行实例说明,该示例并不构成对本申请实施例的限定。
当终端设备接收到用户针对用于对耳机进行设置的功能的触发操作时,终端设备可以显示如图6中的a所示的界面,该界面可以为耳机设置界面。如图6中的a所示的界面,该界面中可以包括:用于开启空间音频渲染的控件601(或称为开启控件601)、用于关闭空间音频渲染的控件602(或称为关闭控件602)、用于指示在空间音频渲染过程中音频可以跟随头动的控件603(或称为跟随头动控件603)、用于指示在空间音频渲染过程中音频可以不跟随头动的控件604(或称为不跟随头动控件604)。其中,该用于对耳机进行设置的功能可以为耳机设置应用中的功能。
可能的实现方式中,该图6中的a所示的界面中还可以包括:用于退出耳机设置的控件、用于开启耳机的更多功能的控件、用于显示耳机的连接状态以及左、右耳耳机、耳机盒电量的标识、用于降噪的控件、用于关闭降噪的控件、用于透传的控件、以及用于设置双设备连接的控件等,本申请实施例中对该图6中的a所示的界面中显示的内容不做具体限定。
在如图6中的a所示的界面中,当终端设备接收到用户针对开启控件601的触发操作时,终端设备可以显示如图6中的b所示的界面。如图6中的b所示的界面,该界面中可以显示空间音频渲染对应的子功能,例如头部特征选择功能,该头部特征选择功能所在的界面中可以显示多个头部特征:如头部特征605、头部特征606、头部特征607、头部特征608、头部特征609、头部特征610、头部特征611、头部特征612,本申请实施例中对终端设备中设置的头部特征个数以及头部特征样式不做限定。其中,该图6中的b所示的界面中还可以包括提示信息,例如该提示信息可以显示为:若您未选择任一头部特征,将为您配置默认的头部特征。
可以理解的是,不同用户的头部特征不同,例如用户头部的宽高、用户的双耳之间的距离、双耳尺寸、双耳位置等头部特征均可以不同。如图6中的b所示的多个头部特征,头部特征606的耳朵宽度小于头部特征605的耳朵宽度;头部特征607的耳朵尺寸小于头部特征605的耳朵尺寸以及小于头部特征606的耳朵尺寸;头部特征608的耳朵位置较低;头部特征609的头部特征长度小于头部特征605的头部特征长度,且头部特征609的耳朵尺寸大于头部特征605的耳朵尺寸;头部特征610的头部特征长度小于头部特征605的头部特征长度,且头部特征610的耳朵尺寸小于头部特征605的耳朵尺寸;头部特征611的头部特征长度长于头部特征605的头部特征长度,且头部特征611的耳朵尺寸小于头部特征605的耳朵尺寸;头部特征612的头部特征长度长于头部特征605的头部特征长度,且头部特征612的耳朵尺寸大于头部特征605的耳朵尺寸。
这样,终端设备可以预先配置多个头部特征,用户可以从预先配置的多个头部特征中选择与自身最为相近的头部特征。
S503、当终端设备接收到针对目标头部特征对应的控件的操作时,终端设备获取第一目标参数。
其中,该目标头部特征对应的控件可以为图6中的b所示的界面中的任一头部特征对应的控件;第一目标参数可以为与目标头部特征相关的参数,例如该第一目标参数可以包括下述一种或多种:耳间时间差(interaural time difference,ITD)、耳间声压级((interaural level difference,ILD)、或者耳间相干性(Inter-aural coherence,IC)。
可能的实现方式中,该第一目标参数中还可以包括其他与头部特征相关的参数,本申请实施例中对此不做限定。
示例性的,如图6中的b所示的界面,当终端设备接收到用户针对任一头部特征的触发操作,例如终端设备接收到用户针对头部特征605的触发操作时,终端设备可以获取该头部特征605对应的第一目标参数。
S504、当终端设备接收到针对用于开启播放音频跟随头动的控件时,终端设备向耳机发送用于获取头部转动角度的指示信息。
其中,该用于获取头部转动角度的指示信息可以基于蓝牙发送至耳机。示例性的,如图6中的a所示的界面,当终端设备接收到用户针对跟随头动控件603的触发操作时,终端设备可以基于蓝牙向耳机发送用于获取头部转动角度的指示信息。
S505、耳机向终端设备发送头部转动角度。
示例性的,耳机中的IMU可以获取用户佩戴耳机时耳机的运动姿态,并基于耳机中的头部姿态算法模块确定头部转动角度;进一步的,耳机可以基于蓝牙将该头部转动角度发送至终端设备。
可能的实现方式中,在耳机与终端设备基于S501所示的步骤中建立通信连接的情况下,终端设备也可以默认在播放音频信号时设置音频跟随头动,这样可以避免用户的多次触发。其中,在终端设备以默认在播放音频信号时设置音频跟随头动的场景中,耳机也可以将头部转动角度周期性的发送至终端设备。
S506、终端设备基于N1阶BRIR参数以及第一目标参数得到N2阶BRIR参数。
其中,该N1阶BRIR参数可以为预设设置在终端设备或者云服务器中的。
一种实现中,终端设备可以将N1阶BRIR参数以及第一目标参数输入到神经网络模型中,输出N2阶BRIR参数。
本申请实施例中,该神经网络模型可以设置在云服务器中,使得终端设备可以将N1阶BRIR参数以及第一目标参数输入到云服务器中的神经网络模型中,并在云服务器中生成N2阶BRIR参数。或者,该神经网络模型也可以设置在终端设备中,使得终端设备可以将N1阶BRIR参数以及第一目标参数输入到本机的神经网络模型中,生成N2阶BRIR参数。其中,该N1阶BRIR参数可以设置在终端设备中或也可以设置在云服务器中,本申请实施例中对此不做限定。
其中,该一种实现中描述的神经网络模型用于降低BRIR参数的阶数,以及根据第一目标参数对神经网络模型进行调节;N1大于N2。
另一种实现中,终端设备可以将N1阶BRIR参数输入到神经网络模型中,输出N2阶BRIR中间参数;并利用第一目标参数中的至少一个参数对该N2阶BRIR中间参数进行至少一次调节,得到最终的N2阶BRIR参数。其中,该另一种实现中描述的神经网络模型用于降低BRIR参数的阶数。
可以理解的是,由于利用高阶BRIR参数对音频信号进行处理时的复杂度较高,且占用较多的内存空间,因此终端设备可以利用神经网络模型降低BRIR参数的阶数,简化音频处理的复杂度。
S507、终端设备利用N2阶BRIR参数以及头部转动角度,对初始音频信号进行处理,得到目标音频信号。
其中,头部转动角度可以包括:水平角、倾斜角、以及俯仰角等。其中,水平角的范围可以为[0°-360°)、俯仰角的范围可以为[-90°-90°]、倾斜角的范围可以为[-90°-90°]。其中,水平角可以理解为用户的头部在水平方向上的转动角度;俯仰角可以理解为用户的头部在垂直方向上的转动角度,例如用户仰头时对应的角度或用户低头时对应的角度等;倾斜角度可以为用户倾斜头部时,该头部的倾斜位置于水平位置之间的夹角。
初始音频信号(或称为第一音频信号)中可以包括:初始左声道音频信号以及初始右声道音频信号;该N2阶BRIR参数中也可以包括左声道对应的N2阶BRIR参数以及右声道对应的N2阶BRIR参数。
可以理解的是,头部转动角度与N2阶BRIR参数之间存在对应关系,例如终端设备中可以获取任一头部转动角度对应的N2阶目标BRIR参数,并利用该N2阶目标BRIR参数中的左声道N2阶目标BRIR参数对初始左声道音频信号进行卷积处理,以及利用该N2阶目标BRIR参数中的右声道N2阶目标BRIR参数对初始右声道音频信号进行卷积处理,得到目标音频信号(或称为第二音频信号)。
其中,当该头部转动角度包括:水平角、倾斜角、以及俯仰角时,终端设备中可以存储该水平角、倾斜角、以及俯仰角中的一种或多种角度与N2阶BRIR参数之间的对应关系;进而在利用N2阶BRIR参数对初始音频信号进行处理时,获取与该水平角、倾斜角、以及俯仰角中的一个或多个角度对应的N2阶BRIR参数,并利用该与角度对应的N2阶BRIR参数进行音频信号的处理。
S508、终端设备向耳机发送目标音频信号。
S509、耳机通过扬声器播放目标音频信号。
可以理解的是,该目标音频信号中可以包括左声道对应的目标音频信号以及右声道对应的目标音频信号,使得耳机可以通过左扬声器播放该左声道对应的目标音频信号,以及通过右扬声器播放该右声道对应的目标音频信号。
基于此,终端设备不仅可以利用神经网络模型降低BRIR参数的阶数,进而降低音频处理过程中的复杂度;并且,终端设备还可以基于用户对于目标头部特征的选择,匹配合适的第一目标参数,使得终端设备可以通过该与第一目标参数相关的N2阶BRIR参数对初始音频信号的处理,实现音频信号的个性化处理,使得用户获得较好的音频收听体验。
可以理解的是,图5对应的实施例中的S506-S507所示的步骤可以在终端设备中执行、或者在耳机的处理器中执行、或者也可以在云服务器中执行,本申请实施例中对此不做限定。
在图5对应的实施例的基础上,终端设备也可以根据用户针对空间音频渲染功能任一择渲染类型的选择,获取第二目标参数。进一步的,终端设备也可以将该第二目标参数输入到S506所示的步骤中的神经网络模型中,输出N2阶BRIR参数。
在此场景中,S506所示的步骤可以为:终端设备将N1阶BRIR参数、第一目标参数以及第二目标参数输入到神经网络模型中,输出N2阶BRIR参数。
其中,该第二目标参数可以包括下述一种或多种,例如:BRIR直混比调节参数、回声密度、特定的谱峰谱谷、房间大小、或混响时间等。
可以理解的是,该第二目标参数也可以用于对神经网络进行调整。
示例性的,图7为本申请实施例提供的另一种开启空间音频渲染的界面示意图。
当终端设备接收到用户在图6中的b所示的界面中向上滑动屏幕的操作时,终端设备可以显示图7中的a所示的界面。如图7中的a所示的界面,该界面中可以包括:空间音频渲染功能对应的多个空间渲染类型,例如:音乐厅渲染类型对应的控件701、室外渲染类型对应的控件702(或称为室外控件702)、室内渲染类型对应的控件703(或称为室内控件703)、以及其他渲染类型对应的控件等。该图7中的a所示的界面中还可以包括提示信息,例如该提示信息可以显示为:若您未选择空间渲染类型,将为您配置默认的空闲渲染类型。
可能的实现方式中,当终端设备接收到用户针对音乐厅渲染类型对应的控件701的触发操作时,终端设备可以获取该音乐厅渲染类型对应的控件701对应的第二目标参数,使得该第二目标参数可以用于对神经网络模型中的N1阶BRIR参数进行调整。
一种实现中,在如图7中的a所示的界面中,当终端设备接收到用户针对室外控件702的触发操作时,终端设备显示如图7中的b所示的界面。如图7中的b所示的界面中,该界面中可以包括室外渲染类型对应的:大海渲染类型、森林渲染类型以及高山渲染类型等,本申请实施例中对室外渲染类型包括的具体内容不做限定。其中,该任一室外渲染类型可以对应于一组第二目标参数。
另一种实现中,在如图7中的a所示的界面中,当终端设备接收到用户针对室内控件703的触发操作时,终端设备显示如图7中的c所示的界面。如图7中的c所示的界面中,该界面中可以包括室内渲染类型对应的:教堂渲染类型、体育场渲染类型以及卧室渲染类型等,本申请实施例中对室内渲染类型包括的具体内容不做限定。其中,该任一室内渲染类型可以对应于一组第二目标参数。
这样,终端设备可以根据用户对于空间渲染类型的选择,获取该空间渲染类型对应的第二目标参数,终端设备根据该第二目标参数,对原始初始音频信号进行处理,使得处理后的音频信号可以模拟在不同空间中播放时的效果,便于用户获得较好的音频收听体验。
可能的实现方式中,终端设备也可以在任一空间渲染类型中,支持声源与用户(该用户也可以理解为声源收听位置,例如用户双耳)之间的距离的调节。其中,该声源与用户之间的距离与第二目标参数中的BRIR直混比调节参数(和/或回声密度)等存在对应关系。
本申请实施例中,终端设备也可以支持两种调节声源与用户之间的距离的方式。例如,终端设备可以支持通过进度条的方式,调整声源与用户之间的距离(参见图8对应的实施例);或者,终端设备可以支持通过文本框输入声源与用户之间的距离数值的方式,调整声源与用户之间的距离(参见图9对应的实施例)。
一种实现中,终端设备可以支持通过进度条的方式,调整声源与用户之间的距离。
示例性的,图8为本申请实施例提供的再一种开启空间音频渲染的界面示意图。
终端设备显示如图8中的a所示的界面,该界面中显示的内容可以与图7中的b所示的界面类似,在此不再赘述。如图8中的a所示的界面,当终端设备接收到用户针对音乐厅渲染类型对应的控件801的触发操作时,终端设备可以显示如图8中的b所示的界面。如图8中的b所示的界面,该界面中可以包括:用于调节声源以及用户之间的距离的进度条802,该进度条802可以处于默认位置处,如该默认位置处可以显示为0,该界面中显示的其他内容可以与图8中的a所示的界面类似,再次在此不再赘述。其中,该默认位置处可以理解为声源与用户之间的最短距离,如该最短距离可以为0.2米,声源与用户之间距离的范围取值可以为0.2米-20米等范围。
在如图8中的b所示的界面中,当终端设备接收到用户滑动该进度条,使得调整后的声源与用户之间的距离增加10米时,终端设备可以获取该声源与用户之间的距离增加10米时对应的BRIR直混比调节参数(和/或回声密度),并显示如图8中的c所示的界面,使得终端设备可以将该用户之间的距离增加10米时对应的BRIR直混比调节参数(和/或回声密度)输入到S506所示的步骤中描述的神经网络模型中,对该神经网络模型进行调整。如图8中的c所示的界面,该界面中可以包括:进度条803,该进度条803指示声源与用户之间的距离增加10米,该进度条803周围可以显示为10。
可以理解的是,该进度条可以设置多个固定位置,任一固定位置处可以对应于声源与用户之间的距离变化情况,例如进度条中可以设置0、5、10、15、以及20等。
可能的实现方式中,当终端设备接收到用户针对图7中的b所示的界面中的任一渲染类型的触发操作时,终端设备可以显示该任一渲染类型对应的进度条,该进度条的作用于图8中的b所示的界面中的进度条802的作用相同,再次不再赘述。
可能的实现方式中,该声源与用户之间的距离也可以与第二目标参数中的BRIR直混比调节参数回声密度、目标谱峰谱谷、房间大小、和/或混响时间等存在对应关系。根据声源与用户之间的距离,确定第二目标参数的过程在此不再赘述。
另一种实现中,终端设备可以支持通过文本框输入声源与用户之间的距离数值的方式,调整声源与用户之间的距离。
示例性的,图9为本申请实施例提供的又一种开启空间音频渲染的界面示意图。
终端设备显示如图9中的a所示的界面,该界面中显示的内容可以与图7中的b所示的界面类似,在此不再赘述。如图9中的a所示的界面,当终端设备接收到用户针对音乐厅渲染类型对应的控件901的触发操作时,终端设备可以显示如图9中的b所示的界面。如图9中的b所示的界面,该界面中可以包括:用于输入声源与用户之间的距离的文本框902,该文本框902中可以默认显示0,该界面中显示的其他内容可以与图9中的a所示的界面类似,在此不再赘述。
如图9中的b所示的界面,当终端设备接收到用户向该文本框902中输入数值,例如输入数值10的操作时,终端设备可以显示如图9中的c所示的界面,并且终端设备获取该输入的数值10对应的BRIR直混比调节参数(和/或回声密度)等。如图9中的c所示的界面,该界面中可以包括:文本框903,该文本框903中可以显示为10。
可能的实现方式中,该文本框903中可以输入的距离范围可以为0-20,该图9中的c所示的界面中也可以显示用于指示文本框中可以输入的距离范围的指示信息,本申请实施例中对此不做限定。
基于图8对应的实施例以及图9对应的实施例,使得用户不仅模拟在不同空间中收听音频,还可以灵活调节音频与用户之间的距离,进一步提高用户收听音频时的听觉体验。
在图5对应的实施例的基础上,可能的实现方式中,S506所示的步骤中终端设备利用神经网络模型输出N2阶BRIR参数的方法可以参见图10以及图11对应的实施例。
示例性的,图10为本申请实施例提供的一种生成BRIR参数的流程示意图。如图10所示,该生成BRIR参数的方法可以包括如下步骤:
S1001、终端设备将N1阶BRIR参数、第一目标参数、BRIR混响长度以及第二目标参数输入到神经网络模型中,输出N2阶BRIR参数。
其中,该BRIR混响长度可以指示BRIR参数的阶数,例如该BRIR混响长度可以为预设的数值,例如该BRIR混响长度可以为N2。
本申请实施例中,该第一目标参数、BRIR混响长度以及第二目标参数可以用于在神经网络模型中对N1阶BRIR参数进行调整,该第一目标参数的获取方式可以参见图6对应的实施例,第二目标参数的获取方式可以参见图7-图9对应的实施例。
其中,该神经网络模型可以为:卷积循环神经网络(convolutional recurrentneural network,CRNN)模型、深度卷积循环神经网络(deep convolutional recurrentneural network,DCNRR)模型、Transformer模型、等序列到序列生成模型等,本申请实施例中对此不做限定。
示例性的,图11为本申请实施例提供的一种神经网络模型的结构示意图。
如图11所示,终端设备可以对N1阶BRIR参数进行分区,例如终端设备可以基于空间大小和/或混响时间,将该N1阶BRIR参数分为直接响应区、早期反射区、以及晚期混响区;将各区对应的N1阶BRIR参数分别进行短时傅里叶变换(short-time fourier transform,STFT)处理,得到各区对应的STFT处理后的N1阶BRIR参数。
终端设备将将各区对应的N1阶BRIR参数输入到神经网络模型中,得到各区对应的N2阶BRIR参数;将该各区对应的N2阶BRIR参数进行STFT处理,得到各区对应的STFT处理后的N2阶BRIR参数。
进一步的,终端设备利用各区对应的STFT处理后的N1阶BRIR参数、以及各区对应的STFT处理后的N2阶BRIR参数计算损失函数,并在损失函数收敛时,输出最终的N2阶BRIR参数。
可能的实现方式中,该神经网络模型的输入也可以为:N1阶BRIR参数、空白的N2阶BRIR参数、第一目标参数、BRIR混响长度以及第二目标参数。其中,在终端设备将N1阶BRIR参数、空白的N2阶BRIR参数输入到神经网络模型的场景中,该神经网络模型库也可以为:生成对抗网络(generative adversarial network,GAN)模型、或变分自编码(variationalauto-encoder,VAE)模型等,本申请实施例中对此不做限定。
示例性的,图12为本申请实施例提供的另一种神经网络模型的结构示意图。
如图12所示,终端设备可以对空白的N2阶BRIR参数以及N1阶BRIR参数分别进行分区处理,并将分区处理后的两个参数进行STFT处理,进而输入至神经网络模型中,得到空白的N2阶BRIR参数对应的输出结果、以及N1阶BRIR参数对应的输出结果。
终端设备将空白的N2阶BRIR参数对应的输出结果输入到N1-N2阶全连接神经网络中,得到N1-N2神经网络输出结果。其中,该N1-N2阶全连接神经网络用于将空白的N2阶BRIR参数进行降阶,例如将该空白的N2阶BRIR参数对应的输出结果的阶数由N1降为N2。
进一步的,终端设备可以利用该N1-N2全连接神经网络输出结果以及该N1阶BRIR参数对应的输出结果计算损失函数,并在损失函数收敛时,对N1-N2全连接神经网络输出结果进行短时逆傅里叶变换(inverse short-time fourier transform,ISTFT),进而得到最终的N2阶BRIR参数。
S1002、终端设备利用插值方法将分辨率为M1的N2阶BRIR参数处理为,分辨率为M2的N2阶BRIR参数。
本申请实施例中,M1大于M2,该BRIR参数的分辨率可以用于指示不同角度对应的BRIR参数。
例如,当BRIR参数的分辨率为5°时,每5°可以设置一个N2阶BRIR参数,则360°可以对应于72个N2阶BRIR参数,如终端设备可以在0°、5°、10°、15°、以及20°等处分别设置N2阶BRIR参数。
或者,当BRIR参数的分辨率为1°时,则每1°可以设置一个N2阶BRIR参数,则360°可以对应于360个N2阶BRIR参数。
示例性的,该插值方法可以包括:三角插值、或者线性插值等方法,本申请实施例中对此不做限定。
可以理解的是,终端设备可以通过对BRIR参数的插值,增加BRIR参数的个数,使得终端设备可以为用户处于不同转动角度时匹配合适的BRIR参数,进而提高音频处理的准确性。
进一步的,终端设备可以根据头部转动角度,匹配该头部转动角度对应的N2阶BRIR参数,使得音频信号可以根据用户转动角度的变化随时调整,使得用户获得较好的音频收听体验。
示例性的,图13为本申请实施例提供的另一种生成BRIR参数的流程示意图。如图13所示,该生成BRIR参数的方法可以包括如下步骤:
S1301、终端设备将N1阶BRIR参数输入到神经网络模型中,输出N2阶BRIR参数。
可能的实现方式中,终端设备也可以将N1阶BRIR参数、以及空白的N2阶BRIR参数输入到神经网络模型中,输出N2阶BRIR参数。
S1302、终端设备利用ITD和/或ILD对N2阶BRIR参数进行调节,得到ITD和/ILD调节后的N2阶BRIR参数。
其中,该ITD以及ILD可以为终端设备预设的,或者该ITD以及ILD也可以为终端设备基于图6对应的实施例中得到的,本申请实施例中对此不做限定。
可能的实现方式中,终端设备也可以利用ITD、ILD和/或IC对N2阶BRIR参数进行调节,得到ITD和/ILD调节后的N2阶BRIR参数。
S1303、终端设备利用插值方法将分辨率为M1的、且ITD和/ILD调节后的N2阶BRIR参数处理为,分辨率为M2的N2阶BRIR参数。
S1304、终端设备基于预设的BRIR混响长度,对分辨率为M2的N2阶BRIR参数进行调节,得到N3阶BRIR参数。
其中,该预设的BRIR混响长度可以为N3,N3小于N2。
S1305、终端设备利用BRIR直混比调节参数和/或回声密度对N3阶BRIR参数进行调节,得到最终的N3阶BRIR参数。
可能的实现方式中,终端设备也可以利用BRIR直混比调节参数、回声密度、目标谱峰谱谷、房间大小和/或混响时间,对N3阶BRIR参数进行调节,得到最终的N3阶BRIR参数。
基于图13对应的实施例中的描述,也可以理解为终端设备利用第一目标参数以及第二目标参数中的一种或多种参数,对神经网络模型输出的N2阶BRIR参数进行调整,得到最终的BRIR参数。该最终的BRIR参数的阶数可以为N2或也可以为N3,本申请实施例中对此不做限定。
其中,该BRIR直混比调节参数、回声密度、目标谱峰谱谷、房间大小和/或混响时间可以为终端设备预设的,或者也可以为终端设备基于图7-图9对应的实施例中得到的,本申请实施例中对此不做限定。
基于此,终端设备不仅可以基于图10对应的实施例,在神经网络模型中生成与用户需求相关的BRIR参数;也可以基于图13对应的实施例,通过对神经网络模型输出的BRIR参数的多次调节,生成与用户需求相关的BRIR参数,本申请实施例中对生成BRIR参数的方式不做具体限定。
在图10对应的实施例的基础上,图10对应的实施例中描述的神经网络模块的损失函数可以与下述一种或多种参数相关,例如:ITD、ILD、IC、BRIR直混比参数、回声密度、特定的谱峰谱谷、主观响度、以及bark谱对应的数值等。
示例性的,可以获取STFT处理后的预测BRIR参数以及STFT处理后的真实BRIR参数,分对应的ITD、ILD、以及IC。
F1=|(E1left-E1right)-(E2left-E2right)|
其中,E1left-E1right可以为STFT处理后的真实BRIR参数对应的ILD,E2left-E2right可以为STFT处理后的预测BRIR参数对应的ILD。
F2=|(T1left-T1right)-(T2left-T2right)|
其中,T1left-T1right可以为STFT处理后的真实BRIR参数对应的ITD,T2left-T2right可以为STFT处理后的预测BRIR参数对应的ITD。
F3=|Γ1-Γ2|
其中,Γ1可以为STFT处理后的真实BRIR参数对应的IC,Γ2可以为STFT处理后的预测BRIR参数对应的IC。
在λ为帧数、μ为频点的情况下,IC的定义可以为:
其中,PXIXI(λ,μ)可以为XI(λ,μ)的自功率谱,PXRXR(λ,μ)可以为XR(λ,μ)的自功率谱,PXIXR(λ,μ)可以为XI(λ,μ)与XR(λ,μ)之间的互功率谱。
PXIXI(λ,μ)=γPXIXI(λ,μ)+(1-γ)|XI(λ,μ)|2
PXIXR(λ,μ)=γPXIXR(λ,μ)+(1-γ)XI(λ,μ)XR*(λ,μ)
其中,*表示共轭计算,γ可以为相邻帧之间的平滑因子。
进一步的,确定损失函数可以为:
Loss1=α1×F1+α2×F2+α3×F3
其中,α1、α2、以及α3可以为预设的参数。
可能的实现方式中,该F1、F2、F3中的一个或多个也可以独立作为神经网络模型的损失函数,本申请实施例中对此不做限定。
示例性的,可以获取分区后不同区域的STFT处理后的预测BRIR参数,以及不同区域的STFT处理后的真实BRIR参数。进一步的,计算直混比之间的差值F4(其中,直混比可以为(晚期混与早期反射的能量的和)/直接响应的能量),回声密度之间的差值F5(其中,回声密度可以为晚期混响的能量占整个能量的比值),特定的谱峰谱谷之间的差值F6(其中,该特定的谱峰谱谷可以为预设频带中的谱锋谱谷)。
F4=|(Eearly-rev1+Elate-rev1)/Edir1-(Eearly-rev2+Elate-rev2)/Edir1|
其中,(arly-rev1+Elate-rev1)/Edir1可以为不同区域的STFT处理后的真实BRIR参数对应的直混比,(Eearly-rev2+Elate-rev2)/Edir2可以为不同区域的STFT处理后的预测BRIR参数对应的直混比。
F5=|Elate-rev1/Edir1-Elate-rev2/Edir2|
其中,Elate-rev1/Edir1可以为不同区域的STFT处理后的真实BRIR参数对应的回声密度,Elate-rev2/Edir2为不同区域的STFT处理后的预测BRIR参数对应的回声密度。
F6=|(E1top-E1bottom)-(E2top-E2bottom)|
其中,E1top-E1bottom可以为不同区域的STFT处理后的真实BRIR参数对应的谱峰谱谷之间的差值,E2top-E2bottom可以为不同区域的STFT处理后的预测IR参数对应的谱峰谱谷之间的差值。
Loss2=α4×F4+α5×F5+α6×F6
其中,α4、α5、以及α6可以为预设的参数。
可能的实现方式中,该F4、F5、F6中的一个或多个也可以独立作为神经网络模型的损失函数,本申请实施例中对此不做限定。
示例性的,可以获取分区后不同区域的STFT处理后的预测BRIR参数,以及不同区域的STFT处理后的真实BRIR参数,分别对应的主观响度。
Loss3=|LK1-LK2|
其中,LK1可以为不同区域的STFT处理后的真实BRIR参数对应主观响度;LK2可以为不同区域的STFT处理后的预测BRIR参数对应主观响度。
具体的,任一信号的主观响度LK可以为:
LK=-0.0691+10log10(L+R)
其中,该L可以为左声道音频信号分别经过多个滤波器处理后的结果平方求和后计算得到的平均值,该R可以理解为右声道音频信号经过多个滤波器处理后的结果平方求和后计算得到的平均值。
示例性的,可以获取分区后不同区域的STFT处理后的预测BRIR参数,以及不同区域的STFT处理后的真实BRIR参数,分别对应的bark谱数值。
Loss4=|(E1B_dir+E1B_early_rev+E1B_late_rev)-(E2B_dir+E2B_early_rev+E2B_late_rev)|
其中,E1B_dir+E1B_early_rev+E1B_late_rev可以为不同区域的STFT处理后的真实BRIR参数对应的bark谱数值,E2B_dir+E2B_early_rev+E2B_late_rev可以为不同区域的STFT处理后的预测BRIR参数对应的bark谱数值。
其中,任一bark谱数值B可以为:
其中,该f可以理解为信号的频率。
进一步的,终端设备也可以确定神经网络模型的损失函数Losstotal可以为:
Losstotal=β1×Loss1+β2×Loss2+β3×Loss3+β4×Loss4
其中,β1、β2、β3、以及β4均可以为预设的参数。
可以理解的是,神经网络模型中的损失函数也可以与其他参数相关,本申请实施例中对此不做限定。
可以理解的是,本申请实施例中描述的界面仅作为一种示例,并不能构成对本申请实施例的限定。
上面结合图5-图13,对本申请实施例提供的方法进行了说明,下面对本申请实施例提供的执行上述方法的装置进行描述。如图14所示,图14为本申请实施例提供的一种音频处理装置的结构示意图,该音频处理装置可以是本申请实施例中的终端设备,也可以是终端设备内的芯片或芯片系统。
如图14所示,音频处理装置1400可以用于通信设备、电路、硬件组件或者芯片中,该音频处理装置包括:显示单元1401、处理单元1402、通信单元1403其中,显示单元1401用于支持音频处理装置1400执行的显示的步骤;处理单元1402用于支持音频处理装置1400执行信息处理的步骤;通信单元1403用于指示音频处理装置1400执行数据的发送和接收等步骤。其中,该通信单元1403可以是输入或者输出接口、管脚或者电路等。
具体的,本申请实施例提供一种音频处理装置1400,终端设备与耳机建立通信连接,方法包括:显示单元1401,用于显示第一界面;第一界面中包括用于选择头部特征的多个控件;处理单元1402,用于接收针对多个控件中的第一控件的第一操作;响应于第一操作,处理单元1402,还用于获取第一控件对应的第一目标参数;其中,第一目标参数中包括下述一种或多种:耳间时间差、耳间声压级、或耳间相干性;处理单元1402,还用于获取第一音频信号;处理单元1402,还用于利用第一目标参数处理第一音频信号,得到第二音频信号;通信单元1403,用于向耳机发送第二音频信号。
可能的实施例中,音频处理装置还可以包括:存储单元1404。处理单元1402、存储单元1404通过线路相连。存储单元1404可以包括一个或者多个存储器,存储器可以是一个或者多个设备、电路中用于存储程序或者数据的器件。存储单元1404可以独立存在,通过通信线路与音频处理装置具有的处理单元1402相连。存储单元1404也可以和处理单元1402集成在一起。
存储单元1404可以存储终端设备中的方法的计算机执行指令,以使处理单元1402执行上述实施例中的方法。存储单元1404可以是寄存器、缓存或者RAM等,存储单元1404可以和处理单元1402集成在一起。存储单元1404可以是只读存储器(read-only memory,ROM)或者可存储静态信息和指令的其他类型的静态存储设备,存储单元1404可以与处理单元1402相独立。
图15为本申请实施例提供的另一种终端设备的硬件结构示意图,如图15所示,该终端设备包括处理器1501,通信线路1504以及至少一个通信接口(图15中示例性的以通信接口1503为例进行说明)。
处理器1501可以是一个通用中央处理器(central processing unit,CPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本申请方案程序执行的集成电路。
通信线路1504可包括在上述组件之间传送信息的电路。
通信接口1503,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线局域网(wireless local area networks,WLAN)等。
可能的,该终端设备还可以包括存储器1502。
存储器1502可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、只读光盘(compactdisc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过通信线路1504与处理器相连接。存储器也可以和处理器集成在一起。
其中,存储器1502用于存储执行本申请方案的计算机执行指令,并由处理器1501来控制执行。处理器1501用于执行存储器1502中存储的计算机执行指令,从而实现本申请实施例所提供的方法。
可能的,本申请实施例中的计算机执行指令也可以称之为应用程序代码,本申请实施例对此不作具体限定。
在具体实现中,作为一种实施例,处理器1501可以包括一个或多个CPU,例如图15中的CPU0和CPU1。
在具体实现中,作为一种实施例,终端设备可以包括多个处理器,例如图15中的处理器1501和处理器1505。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。例如,可用介质可以包括磁性介质(例如,软盘、硬盘或磁带)、光介质(例如,数字通用光盘(digital versatile disc,DVD))、或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。
本申请实施例还提供了一种计算机可读存储介质。上述实施例中描述的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。计算机可读介质可以包括计算机存储介质和通信介质,还可以包括任何可以将计算机程序从一个地方传送到另一个地方的介质。存储介质可以是可由计算机访问的任何目标介质。
作为一种可能的设计,计算机可读介质可以包括紧凑型光盘只读储存器(compactdisc read-only memory,CD-ROM)、RAM、ROM、EEPROM或其它光盘存储器;计算机可读介质可以包括磁盘存储器或其它磁盘存储设备。而且,任何连接线也可以被适当地称为计算机可读介质。例如,如果使用同轴电缆,光纤电缆,双绞线,DSL或无线技术(如红外,无线电和微波)从网站,服务器或其它远程源传输软件,则同轴电缆,光纤电缆,双绞线,DSL或诸如红外,无线电和微波之类的无线技术包括在介质的定义中。如本文所使用的磁盘和光盘包括光盘(CD),激光盘,光盘,数字通用光盘(digital versatile disc,DVD),软盘和蓝光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光光学地再现数据。
上述的组合也应包括在计算机可读介质的范围内。以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (12)
1.一种音频处理方法,其特征在于,应用于终端设备,所述终端设备与耳机建立通信连接,所述方法包括:
所述终端设备显示第一界面;所述第一界面中包括用于选择头部特征的多个控件;
所述终端设备接收针对所述多个控件中的第一控件的第一操作;
响应于所述第一操作,所述终端设备获取所述第一控件对应的第一目标参数;其中,所述第一目标参数中包括下述一种或多种:耳间时间差、耳间声压级、或耳间相干性;
所述终端设备将第一双耳房间脉冲响应BRIR参数以及所述第一目标参数输入到第一目标神经网络模型中,输出第二BRIR参数;其中,所述第一BRIR参数的阶数为N1,所述第二BRIR参数的阶数为N2,所述N1大于所述N2;所述第一目标神经网络模型的损失函数与所述第一目标参数中的一种或多种参数相关;
所述终端设备获取第一音频信号;
所述终端设备利用所述第一目标参数处理所述第一音频信号,得到第二音频信号;
所述终端设备向所述耳机发送所述第二音频信号;
其中,所述终端设备利用所述第一目标参数处理所述第一音频信号,包括:所述终端设备利用所述第二BRIR参数处理所述第一音频信号。
2.根据权利要求1所述的方法,其特征在于,所述第一界面中还包括:用于选择空间渲染类型的第二控件,所述方法还包括:
所述终端设备接收针对所述第二控件的第二操作;
响应于所述第二操作,所述终端设备获取所述第二控件对应的第二目标参数;其中,所述第二目标参数包括下述一种或多种:BRIR直混比调节参数、回声密度、目标谱峰谱谷、房间大小、或混响时间;
所述终端设备利用所述第一目标参数处理所述第一音频信号,包括:所述终端设备利用所述第一目标参数以及所述第二目标参数处理所述第一音频信号,得到第二音频信号。
3.根据权利要求2所述的方法,其特征在于,所述响应于所述第二操作,所述终端设备获取所述第二控件对应的第二目标参数,包括:
响应于所述第二操作,所述终端设备显示所述第二控件对应的进度条;所述进度条用于调节所述耳机播放所述第二音频信号时所述第二音频信号与所述终端设备之间的距离;
所述终端设备接收针对所述进度条的第三操作;
响应于所述第三操作,所述终端设备获取所述进度条的目标位置处对应的所述第二目标参数。
4.根据权利要求2或3任一项所述的方法,其特征在于,所述方法还包括:
所述终端设备显示第二界面;所述第二界面中包括用于对所述第一音频信号进行空间渲染的第三控件;
所述终端设备接收针对所述第三控件的第四操作;
所述终端设备显示第一界面,包括:响应于所述第四操作,所述终端设备显示所述第一界面。
5.根据权利要求4所述的方法,其特征在于,所述终端设备将第一BRIR参数以及所述第一目标参数输入到第一目标神经网络模型中,输出第二BRIR参数,包括:
所述终端设备将所述第一BRIR参数、所述第一目标参数、以及所述第二目标参数输入到所述第一目标神经网络模型中,输出所述第二BRIR参数;其中,所述损失函数与所述目标参数中的一种或多种参数相关;所述目标参数包括所述第一目标参数以及所述第二目标参数。
6.根据权利要求5所述的方法,其特征在于,所述目标参数还包括:主观响度、或bark谱对应的数值。
7.根据权利要求4所述的方法,其特征在于,所述方法还包括:
所述终端设备将第一BRIR参数输入到第二目标神经网络模型中,输出第三BRIR参数;所述第一BRIR参数的阶数为N1,所述第三BRIR参数的阶数为N2,所述N1大于所述N2;
所述终端设备利用所述第一目标参数中的一种或多种参数对所述第三BRIR参数进行调整,得到第二BRIR参数;所述第二BRIR参数的阶数为所述N2;
所述终端设备利用所述第一目标参数处理所述第一音频信号,包括:所述终端设备利用所述第二BRIR参数处理所述第一音频信号。
8.根据权利要求7所述的方法,其特征在于,所述终端设备利用所述第一目标参数中的一种或多种参数对所述第三BRIR参数进行调整,得到第二BRIR参数,包括:
所述终端设备利用所述第一目标参数中的一种或多种参数对所述第三BRIR参数进行调整,得到第四BRIR参数;所述第四BRIR参数的阶数为所述N2;
所述终端设备利用所述第二目标参数中的一种或多种参数对所述第四BRIR参数进行调整,得到所述第二BRIR参数。
9.根据权利要求1或7所述的方法,其特征在于,所述终端设备利用所述第二BRIR参数处理所述第一音频信号,包括:
所述终端设备获取来自所述耳机的目标转动角度;其中,所述目标转动角度为佩戴所述耳机时所述耳机检测到的转动角度;
所述终端设备从所述第二BRIR参数中,获取所述目标转动角度对应的目标BRIR参数;所述目标BRIR参数的阶数为所述N2;
所述终端设备利用所述目标BRIR参数处理所述第一音频信号。
10.根据权利要求9所述的方法,其特征在于,第二界面中还包括:用于在播放所述第二音频信号时使得所述第二音频信号跟随耳机转动进行调整的第四控件,所述方法还包括:
所述终端设备接收针对所述第四控件的第五操作;
响应于所述第五操作,所述终端设备向所述耳机发送用于获取所述目标转动角度的指示信息;
所述终端设备获取来自所述耳机的目标转动角度,包括:所述终端设备根据所述指示信息获取来自所述耳机的所述目标转动角度。
11.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,使得所述终端设备执行如权利要求1至10任一项所述的方法。
12.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得计算机执行如权利要求1至10任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211001656.6A CN116095595B (zh) | 2022-08-19 | 2022-08-19 | 音频处理方法和装置 |
PCT/CN2023/102794 WO2024037190A1 (zh) | 2022-08-19 | 2023-06-27 | 音频处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211001656.6A CN116095595B (zh) | 2022-08-19 | 2022-08-19 | 音频处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116095595A CN116095595A (zh) | 2023-05-09 |
CN116095595B true CN116095595B (zh) | 2023-11-21 |
Family
ID=86206932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211001656.6A Active CN116095595B (zh) | 2022-08-19 | 2022-08-19 | 音频处理方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116095595B (zh) |
WO (1) | WO2024037190A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116095595B (zh) * | 2022-08-19 | 2023-11-21 | 荣耀终端有限公司 | 音频处理方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105027580A (zh) * | 2012-11-22 | 2015-11-04 | 雷蛇(亚太)私人有限公司 | 用于输出修改的音频信号的方法以及通过应用程序产生的图形用户界面 |
CN109644314A (zh) * | 2016-09-23 | 2019-04-16 | 苹果公司 | 在数字音频信号处理双耳渲染环境中产生头戴式耳机驱动信号 |
US11112389B1 (en) * | 2019-01-30 | 2021-09-07 | Facebook Technologies, Llc | Room acoustic characterization using sensors |
WO2022108494A1 (en) * | 2020-11-17 | 2022-05-27 | Dirac Research Ab | Improved modeling and/or determination of binaural room impulse responses for audio applications |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8270616B2 (en) * | 2007-02-02 | 2012-09-18 | Logitech Europe S.A. | Virtual surround for headphones and earbuds headphone externalization system |
EP2389016B1 (en) * | 2010-05-18 | 2013-07-10 | Harman Becker Automotive Systems GmbH | Individualization of sound signals |
KR101815082B1 (ko) * | 2013-09-17 | 2018-01-04 | 주식회사 윌러스표준기술연구소 | 멀티미디어 신호 처리 방법 및 장치 |
WO2015103024A1 (en) * | 2014-01-03 | 2015-07-09 | Dolby Laboratories Licensing Corporation | Methods and systems for designing and applying numerically optimized binaural room impulse responses |
US10805757B2 (en) * | 2015-12-31 | 2020-10-13 | Creative Technology Ltd | Method for generating a customized/personalized head related transfer function |
CN112492445B (zh) * | 2020-12-08 | 2023-03-21 | 北京声加科技有限公司 | 利用罩耳式耳机实现信号均衡的方法及处理器 |
CN116095595B (zh) * | 2022-08-19 | 2023-11-21 | 荣耀终端有限公司 | 音频处理方法和装置 |
-
2022
- 2022-08-19 CN CN202211001656.6A patent/CN116095595B/zh active Active
-
2023
- 2023-06-27 WO PCT/CN2023/102794 patent/WO2024037190A1/zh unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105027580A (zh) * | 2012-11-22 | 2015-11-04 | 雷蛇(亚太)私人有限公司 | 用于输出修改的音频信号的方法以及通过应用程序产生的图形用户界面 |
CN109644314A (zh) * | 2016-09-23 | 2019-04-16 | 苹果公司 | 在数字音频信号处理双耳渲染环境中产生头戴式耳机驱动信号 |
US11112389B1 (en) * | 2019-01-30 | 2021-09-07 | Facebook Technologies, Llc | Room acoustic characterization using sensors |
WO2022108494A1 (en) * | 2020-11-17 | 2022-05-27 | Dirac Research Ab | Improved modeling and/or determination of binaural room impulse responses for audio applications |
Also Published As
Publication number | Publication date |
---|---|
CN116095595A (zh) | 2023-05-09 |
WO2024037190A1 (zh) | 2024-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11496824B2 (en) | Acoustic output apparatus with drivers in multiple frequency ranges and bluetooth low energy receiver | |
CN110764730B (zh) | 播放音频数据的方法和装置 | |
EP3624463A1 (en) | Audio signal processing method and device, terminal and storage medium | |
CN103581791B (zh) | 移动设备及其控制方法 | |
CN110996305B (zh) | 连接蓝牙设备的方法、装置、电子设备及介质 | |
US20220164159A1 (en) | Method for playing audio, terminal and computer-readable storage medium | |
CN110618805B (zh) | 调整设备电量的方法、装置、电子设备及介质 | |
JP2022505283A (ja) | オーディオの再生及び収集方法、装置、機器並びにコンピュータプログラム | |
CN109524016B (zh) | 音频处理方法、装置、电子设备及存储介质 | |
US11272304B2 (en) | Method and terminal for playing audio data, and storage medium thereof | |
CN110401898B (zh) | 输出音频数据的方法、装置、设备和存储介质 | |
JP2023539774A (ja) | サウンドボックス位置調整方法、オーディオレンダリング方法、および装置 | |
CN109684278A (zh) | 文件获取方法、装置、终端及存储介质 | |
WO2024037190A1 (zh) | 音频处理方法和装置 | |
CN112133332A (zh) | 播放音频的方法、装置及设备 | |
EP4203447A1 (en) | Sound processing method and apparatus thereof | |
CN110808021B (zh) | 音频播放的方法、装置、终端及存储介质 | |
CN109448676B (zh) | 音频处理方法、装置及存储介质 | |
CN109360582B (zh) | 音频处理方法、装置及存储介质 | |
CN109360577B (zh) | 对音频进行处理的方法、装置存储介质 | |
CN108196813B (zh) | 添加音效的方法和装置 | |
CN113099373A (zh) | 声场宽度扩展的方法、装置、终端及存储介质 | |
CN112133267B (zh) | 音频效果处理的方法、设备及存储介质 | |
CN108965990A (zh) | 控制音高线移动的方法和装置 | |
CN116744215B (zh) | 音频处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |