CN113079452A - 音频处理方法、音频方位信息生成方法、电子设备及介质 - Google Patents

音频处理方法、音频方位信息生成方法、电子设备及介质 Download PDF

Info

Publication number
CN113079452A
CN113079452A CN202110342722.5A CN202110342722A CN113079452A CN 113079452 A CN113079452 A CN 113079452A CN 202110342722 A CN202110342722 A CN 202110342722A CN 113079452 A CN113079452 A CN 113079452A
Authority
CN
China
Prior art keywords
binaural
frequency domain
response function
domain response
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110342722.5A
Other languages
English (en)
Other versions
CN113079452B (zh
Inventor
闫震海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202110342722.5A priority Critical patent/CN113079452B/zh
Publication of CN113079452A publication Critical patent/CN113079452A/zh
Application granted granted Critical
Publication of CN113079452B publication Critical patent/CN113079452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本申请公开了一种音频处理方法、音频方位信息的生成方法、电子设备及存储介质,该音频处理方法包括:接收音频方位信息;其中,所述音频方位信息包括双耳幅度差和双耳时间差,所述音频方位信息根据源双耳频域响应函数确定,所述源双耳频域响应函数通过对头相关传递函数对应的双耳时域响应函数进行变换得到;根据所述双耳幅度差和所述双耳时间差生成双耳频域响应函数;利用所述双耳频域响应函数对音频数据进行处理。本申请能够去除头相关传递函数中的冗余信息,提高音频处理质量。

Description

音频处理方法、音频方位信息生成方法、电子设备及介质
技术领域
本申请涉及音频调制技术领域,特别涉及一种音频处理方法、音频方位信息的生成方法、电子设备及存储介质。
背景技术
头相关传递函数,又称头相关传输函数,用于描述空间中任意一个点声源传播到双耳鼓膜处的响应系统,人耳可以根据经头相关传递函数调制的音频确定声源位置。
但是,在音频方位信息的存储过程中,申请人发现相关技术至少存在如下问题:服务器中音频方位信息以头相关传递函数的时域响应函数的形式进行存储,时域响应函数中存在较多的冗余信息,利用时域响应函数处理后的音频质量较差。
发明内容
本申请的目的是提供一种音频处理方法、音频方位信息的生成方法、电子设备及存储介质,能够去除头相关传递函数中的冗余信息,提高音频处理质量。
为实现上述目的,本申请第一方面提供了一种音频处理方法,包括:
接收音频方位信息;其中,所述音频方位信息包括双耳幅度差和双耳时间差,所述音频方位信息根据源双耳频域响应函数确定,所述源双耳频域响应函数通过对头相关传递函数对应的双耳时域响应函数进行变换得到;
根据所述双耳幅度差和所述双耳时间差生成双耳频域响应函数;
利用所述双耳频域响应函数对音频数据进行处理。
为实现上述目的,本申请第二方面提供了一种音频方位信息的生成方法,包括:
获取头相关传递函数对应的双耳时域响应函数,并将所述双耳时域响应函数变换为源双耳频域响应函数;
根据所述源双耳频域响应函数确定双耳幅度差和双耳时间差;
将所述双耳幅度差和所述双耳时间差作为音频方位信息发送至目标设备,以便所述目标设备根据所述双耳幅度差和所述双耳时间差生成双耳频域响应函数并利用所述双耳频域响应函数对音频数据进行处理。
为实现上述目的,本申请第三方面提供了一种电子设备,包括存储器和处理器;其中,所述处理器用于执行所述存储器中存储的程序;所述存储器用于存储程序,所述程序至少能够实现上述音频处理方法或音频方位信息的生成方法的步骤。
为实现上述目的,本申请第四方面提供了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上述音频处理方法或音频方位信息的生成方法的步骤。
本申请提供了一种音频处理方法,包括:接收音频方位信息;其中,所述音频方位信息包括双耳幅度差和双耳时间差,所述音频方位信息根据源双耳频域响应函数确定,所述源双耳频域响应函数通过对头相关传递函数对应的双耳时域响应函数进行变换得到;根据所述双耳幅度差和所述双耳时间差生成双耳频域响应函数;利用所述双耳频域响应函数对音频数据进行处理。
本申请获取的音频方位信息中包括双耳幅度差和双耳时间差,该双耳幅度差和双耳时间差通过对双耳时域响应函数变换得到的源双耳频域响应函数确定。本申请可以仅利用双耳幅度差和双耳时间差对头相关传递函数进行恢复得到双耳频域响应函数,进而剔除了双耳时域响应函数中的相位干扰,利用双耳频域响应函数对音频数据进行处理能够提高音频处理质量。
本申请还公开了一种音频方位信息的生成方法、一种电子设备及一种存储介质,同样能实现上述技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种音频处理方法的流程图;
图2为本申请实施例所提供的一种基于线性相位恢复原则处理音频数据的方法的流程图;
图3为本申请实施例所提供的一种基于最小相位恢复原则处理音频数据的方法的流程图;
图4为本申请实施例提供的一种音频方位信息的生成系统的架构图;
图5为本申请实施例所提供的一种音频方位信息的生成方法的流程图;
图6为本申请实施例所提供的一种电子设备的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参见图1,图1为本申请实施例所提供的一种音频处理方法的流程图,本实施例的音频处理方法包括以下步骤:
S101:接收音频方位信息;
其中,本实施例可以应用于具有音乐播放功能的终端设备,终端设备根据服务器发送的音频方位信息对音频数据进行调制使播放的音频具有方位感。上述服务器发送的音频方位信息可以包括双耳幅度差和双耳时间差,双耳幅度差和双耳时间差的生成过程包括:获取头相关传递函数对应的双耳时域响应函数,对双耳时域响应函数进行快速傅里叶变换得到源双耳频域响应函数,根据源双耳频域响应函数提取双耳幅度差和双耳时间差。
S102:根据所述双耳幅度差和所述双耳时间差生成双耳频域响应函数;
本实施例可以按照线性相位恢复原则或最小相位恢复原则生成双耳频域响应函数。按照线性相位恢复原则生成双耳频域响应函数的过程包括:根据所述双耳幅度差恢复所述双耳幅度响应,并根据所述双耳时间差恢复所述双耳相位响应;将所述双耳幅度响应和所述双耳相位响应逐点相乘得到所述双耳频域响应函数。按照最小相位恢复原则生成双耳频域响应函数的过程包括:根据所述双耳幅度差恢复所述双耳幅度响应,并根据所述双耳幅度响应计算双耳对数倒谱响应;根据所述双耳对数倒谱响应和所述双耳时间差计算所述双耳频域响应函数。
S103:利用所述双耳频域响应函数对音频数据进行处理。
终端设备可以根据双耳幅度差和所述双耳时间差生成双耳频域响应函数,进而通过将频域响应函数与音频数据逐点相乘调制音频数据,使播放的音频具有方位感。头相关传递函数在空间方位调制可以应用于虚拟现实(VR)等应用场景。这种方位调制效果往往需要在线实时计算,对处理器的运算效率和存储器的存储空间要求比较严格。在将音频数据调制到目标方位的过程中,头相关传递函数往往利用频域相乘来代替时域卷积的操作,本实施例的方位调制方案可以得到频域响应函数并直接利用频域响应函数调制音频数据,相对于相关技术中需要先将时域数据转换为频域数据再进行调制的方案,本实施例减少了傅立叶变换的流程,降低了音源方位调制过程的计算量。
本实施例获取的音频方位信息中包括双耳幅度差和双耳时间差,该双耳幅度差和双耳时间差通过对双耳时域响应函数变换得到的源双耳频域响应函数确定。本实施例可以仅利用双耳幅度差和双耳时间差对头相关传递函数进行恢复得到双耳频域响应函数,进而剔除了双耳时域响应函数中的相位干扰,利用双耳频域响应函数对音频数据进行处理能够提高音频处理质量。
请参见图2,图2为本申请实施例所提供的一种基于线性相位恢复原则处理音频数据的方法的流程图,本实施例可以包括以下步骤:
S201:根据双耳幅度差恢复双耳幅度响应,并根据双耳时间差恢复双耳相位响应;
本实施例可以通过将双耳幅度差按照第一预设比例分配至双耳幅度响应中恢复双耳幅度响应。本实施例还可以通过将双耳时间差按照第二预设比例分配至双耳幅度响应中恢复双耳幅度响应。本实施例不限定第一预设比例和第二预设比例的值,可以根据调制音频数据时的系统需求设置该比例。
S202:将双耳幅度响应和双耳相位响应逐点相乘得到双耳频域响应函数。
S203:通过将双耳频域响应函数与音频数据逐点相乘以便处理音频数据。
下面通过实际应用中的例子说明上述基于线性相位恢复原则调制音频数据的过程:
本实施例可以将双耳幅度差ILD_lr平均分配至双耳的幅度响应中,则左耳幅度响应leftIR_abs可以表示为:leftIR_abs=10ILD_lr/2/20
右耳幅度响应rightIR_abs可以表示为rightIR_abs=10-ILD_lr/2/20
当然本实施例也可以不局限于双耳幅度差只按照平均分配的原则进行恢复,还可以采用其他比例恢复双耳幅度响应,如leftIR_abs=10ILD_lr/20,rightIR_abs=100/20;或者leftIR_abs=100/20,rightIR_abs=10-ILD_lr/20。本实施例不限定双耳幅度差非分配比例只要可以保持最后的双耳幅度差ILD_lr不变即可。
双耳相位响应可以由双耳时间差ITD_lr恢复;具体的,可以根据双耳时间差的不同采用不同的分配策略:
当ITD_lr≤0时,左耳相位响应为leftIR_phase=exp(jw*ITD_lr),右耳相位响应为right_phase=exp(jw*0);
当ITD_lr>0时,左耳相位响应为leftIR_phase=exp(jw*0),右耳相位响应为right_phase=exp(-jw*ITD_lr)。
其中,函数exp表示以自然常数e为底的指数函数,j2=-1。
在得到双耳幅度响应和双耳相位响应的基础上,本实施例可以将幅度响应和相位响应组合在一起,便可构成完整的双耳频域响应函数。
左耳频率响应leftIR_F的计算方式为:leftIR_F=leftIR_abs.*leftIR_phase;右耳频率响应rightIR_F的计算方式为:rightIR_F=rightIR_abs.*rightIR_phase。
其中,符号.*表示向量逐点相乘。本实施例得到的双耳频域响应函数具有线性相位特征,很好地剔除了原时域脉冲信号的相位干扰。如果系统要求头相关传递函数具备线性相位特征,则此时的双耳频域响应函数便可以和经过傅里叶变换的音频数据做逐点相乘,从而实现音频数据的方位调制。
请参见图3,图3为本申请实施例所提供的一种基于最小相位恢复原则处理音频数据的方法的流程图,本实施例可以包括以下步骤:
S301:根据双耳幅度差恢复双耳幅度响应,并根据双耳幅度响应计算双耳对数倒谱响应。
S302:根据双耳对数倒谱响应和所述双耳时间差计算双耳频域响应函数。
S303:通过将双耳频域响应函数与所述音频数据逐点相乘调制音频数据。
其中,上述实施例可以应用于系统要求头相关传递函数具备最小相位特征的应用场景,通过S301~S303的相关操作可以将频率响应按照最小相位的设计方法进行恢复。
下面通过实际应用中的例子说明上述基于最小相位恢复原则调制音频数据的过程:
设定权重因子weight=[1;2*ones(N/2-1,1);1;zeros(N/2-1,1)];其中,函数ones(m,n)表示生成m行n列的由元素1构成的矩阵,函数zeros(m,n)表示生成m行n列的由元素0构成的矩阵。
双耳对数倒谱响应中左耳对数倒谱响应leftIR_p为:
leftIR_p=real(ifft([log10(leftIR_abs),clip(log10(leftIR_abs’))]));
双耳对数倒谱响应中右耳对数倒谱响应rightIR_p为:
rightIR_p=real(ifft([log10(rightIR_abs),clip(log10(rightIR_abs’))]));其中,函数real表示取实数,函数clip表示向量的倒序,向量右上角的’表示该向量去除首尾两个元素,ifft为逆快速傅里叶变换。
当ITD_lr≤0时,左耳频率响应leftIR_F可以表示为:
leftIR_F=abs(10fft(leftIR_p.*weight)).*exp(j*phase(10fft(rightIR_p.*weight))).*exp(jw*ITD_lr);
当ITD_lr≤0时,右耳频率响应rightIR_F可以表示为:
rightIR_F=10fft(rightIR_p.*weight)
当ITD_lr>0时,左耳频率响应为leftIR_F可以表示为:
leftIR_F=10fft(leftIR_p.*weight)
当ITD_lr>0时,右耳频率响应为rightIR_F可以表示为:
rightIR_F=abs(10fft(rightIR_p.*weight)).*exp(j*phase(10fft(leftIR_p.*weight))).*exp(-jw*ITD_lr)。
在基于线性相位恢复原则或最小相位恢复原则从双耳幅度差和时间差中恢复出双耳频域响应函数的基础上,本实施例可以按照频域共轭对称性,对双耳频域响应函数做逆傅里叶变换,得到抑制公模干扰的修正后的脉冲响应数据。但是由于头相关传递函数通常利用频域相乘来代替时域卷积的操作。因此,可以将时域形式的音频数据变换到频域形式的音频数据,再将频域形式的音频数据与双耳频域响应函数逐点相乘即可实现对音频数据的方位调制。通过上述操作可以避免头相关传递函数在频域和时域之间的多余转换,从而提高运算效率。本实施例中利用双耳幅度差和时间差恢复出来的双耳频域响应函数已经剔除了原时域脉冲信号中冗余的成分,只包含双耳响应的差异性,可以实现最大程度上抑制公模头相关传递函数对音频数据的影响。
为了便于理解本申请提供的音频方位信息的生成方法,下面对其使用的系统进行介绍。参见图4,其示出了本申请实施例提供的一种音频方位信息的生成系统的架构图,如图4所示该音频方位信息的存储系统包括公模数据库401、服务器402和终端设备403,公模数据库401中存储有来自于声学实验室实地测量的头相关传递函数(HRTF,Head RelatedTransfer Function)。服务器402可以从公模数据库401中读取头相关传递函数对应的时域响应函数,通过对时域响应函数进行快速傅里叶变换和特征提取得到双耳幅度差和所述双耳时间差,并将双耳幅度差和双耳时间差作为音频方位信息进行存储,无需存储头相关传递函数对应的双耳时域响应函数。在接收到终端设备403发送的请求信息后,服务器402可以将双耳幅度差和双耳时间差传输至终端设备403。终端设备403根据双耳幅度差和双耳时间差处理音频数据,以使播放的音频数据具有方位感。
本申请实施例公开了一种音频方位信息的生成方法,可以减小音频方位信息所占用的存储空间,提高存储利用率。
下面请参见图5,图5为本申请实施例所提供的一种音频方位信息的生成方法的流程图。
具体步骤可以包括:
S501:获取头相关传递函数对应的双耳时域响应函数,并将所述双耳时域响应函数变换为源双耳频域响应函数;
其中,本实施例可以应用于提供音乐播放服务的服务器,服务器中可以存储有音频方位信息,服务器可以将音频方位信息传输至目标设备(如手机、平板电脑或个人计算机等),以便目标设备根据音频方位信息对音频数据进行处理,输出具有方位感的音频。
本步骤可以从公模数据库中读取头相关传递函数(即公模头相关传递函数)对应的双耳时域响应函数,公模数据库中存储有头相关传递函数,由于公模数据库中的头相关传递函数为声学实验室实地测量的数据,因此公模数据库中的头相关传递函数均以双耳时域响应函数的形式存在。本实施例可以在获取双耳时域响应函数后,通过快速傅立叶变换得到头相关传递函数对应的源双耳频域响应函数。
S502:根据所述源双耳频域响应函数确定双耳幅度差和双耳时间差;
其中,在确定源双耳频域响应函数之后,本申请可以对源双耳频域响应函数提取相应的特征,如双耳幅度差和双耳时间差。具体的,本实施例可以通过以下方式确定双耳幅度差:确定所述源双耳频域响应函数对应的双耳幅度响应,并根据所述双耳幅度响应计算所述双耳幅度差。双耳幅度响应包括左耳幅度响应和右耳幅度响应,本实施例可以将左耳幅度响应和右耳幅度响应之差作为双耳幅度差。
作为一种可行的实施方式,本实施例可以通过以下方式确定双耳时间差:确定所述源双耳频域响应函数的双耳相位响应,并根据所述双耳相位响应计算所述双耳时间差。双耳相位响应包括左耳相位响应和右耳相位响应,本实施例可以将左耳相位响应与右耳相位响应的差作为双耳时间差。作为另一种可行的实施方式,本实施例可以在左耳相位响应对应的曲线中拟合得到过原点的第一直线,并将所述第一直线的斜率作为所述左耳相位响应的群延迟的值;在右耳相位响应对应的曲线中拟合得到过原点的第二直线,并将所述第二直线的斜率作为所述右耳相位响应的群延迟的值;根据所述左耳相位响应的群延迟和所述右耳相位响应的群延迟计算所述双耳时间差。具体的,可以将左耳相位响应的群延迟与所述右耳相位响应的群延迟的差作为双耳时间差。
本实施例中双耳幅度差和双耳时间差为用于描述双耳在幅度和时间上的相差程度,因此本实施例中双耳幅度差可以为左耳相对于右耳的幅度差,双耳时间差还可以为左耳相对于右耳的时间差。此外本实施例中的双耳幅度差还可以为右耳相对于左耳的幅度差,双耳时间差还可以为右耳相对于左耳的时间差。
S503:将所述双耳幅度差和所述双耳时间差作为音频方位信息发送至目标设备,以便所述目标设备根据所述双耳幅度差和所述双耳时间差生成双耳频域响应函数并利用所述双耳频域响应函数对音频数据进行处理。
其中,由于根据双耳幅度差和双耳时间差即可实现音频数据的调制,因此本实施例可以将双耳幅度差和双耳时间差作为音频方位信息进行存储,无需保存双耳时域响应函数。在存储了双耳幅度差和双耳时间差之后,若接收到目标设备发送的音频方位信息的请求信息后,可以直接将双耳幅度差和双耳时间差作为音频方位信息传输至目标设备。相对于将全部的头相关传递函数对应的双耳时域响应函数的方案,本实施例传输的包括双耳幅度差和双耳时间差的方案能够减少数据传输量。相对于相关技术中需要分别存储左右两个通道的时域响应函数的方案,本实施例只需要存储一个通道的数据(即双耳幅度差)和一个浮点值(即双耳时间差)即可实现音频方位信息的存储,降低了音频方位信息对于存储空间的占用,提高了存储利用率。
公模数据库中头相关传递函数的录制,往往会额外包含当时录制现场的一些空间信息。而影响人耳对声源空间位置判断的因素主要是双耳幅度差和时间差。这些空间信息对双耳空间定位不仅没有正面作用,还会明显改变音源的频谱成分。本实施例将双耳幅度差和双耳时间差作为音频方位信息进行存储,在保证空间定位准确性的同时去除了双耳时域响应函数中的冗余信息,达到抑制公模头相关传递函数对音源的频谱成分的负面影响,最大程度上减小了头相关传递函数所带来的失真,通过双耳幅度差和双耳时间差调制的音频数据具有良好的音质。
本实施例在获取头相关传递函数对应的双耳时域响应函数之后,将双耳时域响应函数变换为源双耳频域响应函数,根据源双耳频域响应函数确定双耳幅度差和双耳时间差。由于在音频调制过程中可以根据双耳幅度差和双耳时间差将音频调制到目标方位上,因此本实施例将双耳幅度差和双耳时间差作为音频方位信息进行存储,无需存储头相关传递函数对应的双耳时域响应函数,可见本实施例可以减小音频方位信息所占用的存储空间,提高存储利用率。源双耳频域响应函数指根据双耳时域时间函数直接转化得到的包括冗余信息的频域形式的头相关传递函数,双耳频域响应函数指根据双耳幅度差和双耳时间差生成的不包括冗余信息的频域形式的头相关传递函数。
作为对于图5对应实施例的进一步介绍,S502中可以通过以下方式确定双耳幅度差和双耳时间差:根据所述源双耳频域响应函数的共轭对称性去除所述源双耳频域响应函数中的重复数据;根据去除重复数据后的源双耳频域响应函数确定所述双耳幅度差和所述双耳时间差。其中,由于实数信号在频域具有共轭对称的性质,因此只需要保留一半的频域数据便可恢复原来的时域响应函数。通过上述去除重复数据后的源双耳频域响应函数确定的双耳幅度差和双耳时间差,能够进一步减小双耳幅度差和双耳时间差对于存储空间的占用,提高存储利用率。
下面通过实际应用中的例子说明上述实施例描述的音频方位信息的存储方案:
从公模数据库中读取头相关传递函数对应的双耳时域响应函数(即双耳时域脉冲响应),双耳时域响应函数中包括左耳时域脉冲响应leftIR和右耳时域脉冲响应rightIR。分别对左耳时域脉冲响应leftIR和右耳时域脉冲响应rightIR进行快速傅里叶变换得到源双耳频域响应函数,其中左耳频域响应函数为fft(leftIR),右耳频域响应函数为fft(rightIR)。
由于实数信号在频域中具有共轭对称性质,因此只需要保留一半的源双耳频域响应函数便可恢复原来的时域响应函数。假定数据长度为N,则需要保留的左耳频域响应函数为leftIR_F(1:N/2+1),需要保留的右耳频域响应函数为rightIR_F(1:N/2+1)。
双耳幅度差是指源双耳频域响应函数的各个频点幅度上的差异。根据人耳听觉特性可知,双耳感受到的幅度差异往往是分贝值的差别。因此,本实施例可以将频域响应函数转化分贝值表示,因此双耳幅度差ILD_lr可表示为:
ILD_lr=20*log10(abs(leftIR_F))–20*log10(abs(rightIR_F))。
在频域上,双耳时间差用于描述各个频率的整体群延迟,可以根据源双耳频域响应函数计算双耳相位响应,其中左耳相位响应为phase(leftIR_F),右耳相位响应为rightIR_F。本实施例可以在左、右耳相位响应的曲线上线性拟合出一条经过原点的直线,而直线的斜率即群延迟,左耳相位响应对应的群延迟为leftIR_delay,右耳相位响应对应的群延迟为right_delay,故双耳时间差ITD_lr可表示为:ITD_lr=leftIR_delay–right_delay。
在从头相关传递函数对应的双耳时域响应函数中提取了双耳幅度差和时间差后,便可以利用双耳幅度差和时间差将音频数据调制到目标方位上。因此,可以将双耳幅度差和双耳时间差作为音频方位信息进行存储,无需再保存头相关传递函数对应的双耳时域响应函数。相对于相关技术中需要分别存储左右两个通道的时域响应函数的方案,本实施例只需要存储一个通道的数据(即双耳幅度差)和一个浮点值(即双耳时间差)即可实现音频方位信息的存储,降低了音频方位信息对于存储空间的占用,提高了存储利用率。
作为对于图5对应实施例的进一步介绍,在根据所述源双耳频域响应函数确定双耳幅度差和双耳时间差之后,还可以将所述双耳幅度差和所述双耳时间差发送至目标设备,目标设备可以根据双耳幅度差和所述双耳时间差生成双耳频域响应函数,进而通过将所述源双耳频域响应函数与所述音频数据逐点相乘调制所述音频数据,使播放的音频具有方位感。在将音频数据调制到目标方位的过程中,头相关传递函数往往利用频域相乘来代替时域卷积的操作,上述方位调制方案可以得到频域响应函数并直接利用频域响应函数调制音频数据,相对于相关技术中需要先将时域数据转换为频域数据再进行调制的方案,本实施例减少了傅立叶变换的流程,降低了音源方位调制过程的计算量。
本申请实施例还提供了一种音频处理装置,包括:
信息接收模块接收音频方位信息;其中,所述音频方位信息包括双耳幅度差和双耳时间差,所述音频方位信息根据源双耳频域响应函数确定,所述源双耳频域响应函数通过对头相关传递函数对应的双耳时域响应函数进行变换得到;
函数恢复模块,用于根据所述双耳幅度差和所述双耳时间差生成双耳频域响应函数;
音频处理模块,用于利用所述双耳频域响应函数对音频数据进行处理。
本实施例获取的音频方位信息中包括双耳幅度差和双耳时间差,该双耳幅度差和双耳时间差通过对双耳时域响应函数变换得到的源双耳频域响应函数确定。本实施例可以仅利用双耳幅度差和双耳时间差对头相关传递函数进行恢复得到双耳频域响应函数,进而剔除了双耳时域响应函数中的相位干扰,利用双耳频域响应函数对音频数据进行处理能够提高音频处理质量。
进一步的,函数恢复模块包括:
第一恢复单元,用于根据所述双耳幅度差恢复所述双耳幅度响应,并根据所述双耳时间差恢复所述双耳相位响应;用于将所述双耳幅度响应和所述双耳相位响应逐点相乘得到所述双耳频域响应函数。
或,第二恢复单元,用于根据所述双耳幅度差恢复所述双耳幅度响应,并根据所述双耳幅度响应计算双耳对数倒谱响应;用于根据所述双耳对数倒谱响应和所述双耳时间差计算所述双耳频域响应函数。
本申请实施例还提供的一种音频方位信息的生成装置,该装置可以包括:
频域转换模块,用于获取头相关传递函数对应的双耳时域响应函数,并将所述双耳时域响应函数变换为源双耳频域响应函数;
频域分析模块,用于根据所述源双耳频域响应函数确定双耳幅度差和双耳时间差;
存储模块,用于将所述双耳幅度差和所述双耳时间差作为音频方位信息发送至目标设备,以便所述目标设备根据所述双耳幅度差和所述双耳时间差生成双耳频域响应函数并利用所述双耳频域响应函数对音频数据进行处理。
本实施例在获取头相关传递函数对应的双耳时域响应函数之后,将双耳时域响应函数变换为源双耳频域响应函数,根据源双耳频域响应函数确定双耳幅度差和双耳时间差。由于在音频调制过程中可以根据双耳幅度差和双耳时间差将音频调制到目标方位上,因此本实施例将双耳幅度差和双耳时间差作为音频方位信息进行存储,无需存储头相关传递函数对应的双耳时域响应函数,减小音频方位信息所占用的存储空间。相对于相关技术中需要分别存储左右两个通道的时域响应函数的方案,本实施例只需要存储一个通道的数据(即双耳幅度差)和一个浮点值(即双耳时间差)即可实现音频方位信息的存储,降低了音频方位信息对于存储空间的占用,提高了存储利用率。
进一步的,频域分析模块包括:
幅度差确定单元,用于确定所述源双耳频域响应函数对应的双耳幅度响应,并根据所述双耳幅度响应计算所述双耳幅度差。
时间差确定单元,用于确定所述源双耳频域响应函数的双耳相位响应,并根据所述双耳相位响应计算所述双耳时间差。
进一步的,时间差确定单元包括:
第一群延迟确定子单元,用于在左耳相位响应对应的曲线中拟合得到过原点的第一直线,并将所述第一直线的斜率作为所述左耳相位响应的群延迟的值;
第二群延迟确定子单元,用于在右耳相位响应对应的曲线中拟合得到过原点的第二直线,并将所述第二直线的斜率作为所述右耳相位响应的群延迟的值;
双耳时间差计算子单元,用于根据所述左耳相位响应的群延迟和所述右耳相位响应的群延迟计算所述双耳时间差。
进一步的,频域分析模块,用于根据所述源双耳频域响应函数的共轭对称性去除所述源双耳频域响应函数中的重复数据;还用于根据去除重复数据后的源双耳频域响应函数确定所述双耳幅度差和所述双耳时间差。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本申请还提供了一种电子设备,参见图6,本申请实施例提供的一种电子设备的结构图,如图6所示,可以包括处理器610和存储器620。
其中,处理器610可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器610可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器610也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器610可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器610还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器620可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器620还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器620至少用于存储以下计算机程序621,其中,该计算机程序被处理器610加载并执行之后,能够实现前述任一实施例公开的由终端设备侧执行的音频处理方法中的相关步骤,以及服务器侧执行的音频方位信息的生成方法中的相关步骤。另外,存储器620所存储的资源还可以包括操作系统622和数据623等,存储方式可以是短暂存储或者永久存储。其中,操作系统622可以包括Windows、Linux等。
在一些实施例中,电子设备还可包括有显示屏630、输入输出接口640、通信接口650、传感器660、电源670以及通信总线680。
当然,图6所示的电子设备的结构并不构成对本申请实施例中电子设备的限定,在实际应用中电子设备可以包括比图6所示的更多或更少的部件,或者组合某些部件。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述任一实施例音频处理方法或音频方位信息的生成方法的步骤。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种音频处理方法,其特征在于,包括:
接收音频方位信息;其中,所述音频方位信息包括双耳幅度差和双耳时间差,所述音频方位信息根据源双耳频域响应函数确定,所述源双耳频域响应函数通过对头相关传递函数对应的双耳时域响应函数进行变换得到;
根据所述双耳幅度差和所述双耳时间差生成双耳频域响应函数;
利用所述双耳频域响应函数对音频数据进行处理。
2.根据权利要求1所述音频处理方法,其特征在于,根据所述双耳幅度差和所述双耳时间差生成所述双耳频域响应函数,包括:
根据所述双耳幅度差恢复所述双耳幅度响应,并根据所述双耳时间差恢复所述双耳相位响应;
将所述双耳幅度响应和所述双耳相位响应逐点相乘得到所述双耳频域响应函数。
3.根据权利要求1所述音频处理方法,其特征在于,根据所述双耳幅度差和所述双耳时间差生成所述双耳频域响应函数,包括:
根据所述双耳幅度差恢复所述双耳幅度响应,并根据所述双耳幅度响应计算双耳对数倒谱响应;
根据所述双耳对数倒谱响应和所述双耳时间差计算所述双耳频域响应函数。
4.一种音频方位信息的生成方法,其特征在于,包括:
获取头相关传递函数对应的双耳时域响应函数,并将所述双耳时域响应函数变换为源双耳频域响应函数;
根据所述源双耳频域响应函数确定双耳幅度差和双耳时间差;
将所述双耳幅度差和所述双耳时间差作为音频方位信息发送至目标设备,以便所述目标设备根据所述双耳幅度差和所述双耳时间差生成双耳频域响应函数并利用所述双耳频域响应函数对音频数据进行处理。
5.根据权利要求4所述音频方位信息的生成方法,其特征在于,根据所述源双耳频域响应函数确定双耳幅度差,包括:
确定所述源双耳频域响应函数对应的双耳幅度响应,并根据所述双耳幅度响应计算所述双耳幅度差。
6.根据权利要求4所述音频方位信息的生成方法,其特征在于,根据所述源双耳频域响应函数确定双耳时间差,包括:
确定所述源双耳频域响应函数的双耳相位响应,并根据所述双耳相位响应计算所述双耳时间差。
7.根据权利要求6所述音频方位信息的生成方法,其特征在于,根据所述双耳相位响应确定所述双耳时间差,包括:
在左耳相位响应对应的曲线中拟合得到过原点的第一直线,并将所述第一直线的斜率作为所述左耳相位响应的群延迟的值;
在右耳相位响应对应的曲线中拟合得到过原点的第二直线,并将所述第二直线的斜率作为所述右耳相位响应的群延迟的值;
根据所述左耳相位响应的群延迟和所述右耳相位响应的群延迟计算所述双耳时间差。
8.根据权利要求4至7任一项所述音频方位信息的生成方法,其特征在于,根据所述源双耳频域响应函数确定双耳幅度差和双耳时间差,包括:
根据所述源双耳频域响应函数的共轭对称性去除所述源双耳频域响应函数中的重复数据;
根据去除重复数据后的源双耳频域响应函数确定所述双耳幅度差和所述双耳时间差。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1至8任一项所述方法的步骤。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上权利要求1至8任一项所述方法的步骤。
CN202110342722.5A 2021-03-30 2021-03-30 音频处理方法、音频方位信息生成方法、电子设备及介质 Active CN113079452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110342722.5A CN113079452B (zh) 2021-03-30 2021-03-30 音频处理方法、音频方位信息生成方法、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110342722.5A CN113079452B (zh) 2021-03-30 2021-03-30 音频处理方法、音频方位信息生成方法、电子设备及介质

Publications (2)

Publication Number Publication Date
CN113079452A true CN113079452A (zh) 2021-07-06
CN113079452B CN113079452B (zh) 2022-11-15

Family

ID=76611859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110342722.5A Active CN113079452B (zh) 2021-03-30 2021-03-30 音频处理方法、音频方位信息生成方法、电子设备及介质

Country Status (1)

Country Link
CN (1) CN113079452B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030202665A1 (en) * 2002-04-24 2003-10-30 Bo-Ting Lin Implementation method of 3D audio
CN106373589A (zh) * 2016-09-14 2017-02-01 东南大学 一种基于迭代结构的双耳混合语音分离方法
CN109005496A (zh) * 2018-07-26 2018-12-14 西北工业大学 一种hrtf中垂面方位增强方法
CN110021306A (zh) * 2018-01-07 2019-07-16 创新科技有限公司 用于利用头部跟踪生成自定义空间音频的方法
CN110035376A (zh) * 2017-12-21 2019-07-19 高迪音频实验室公司 使用相位响应特征来双耳渲染的音频信号处理方法和装置
CN110225432A (zh) * 2019-05-10 2019-09-10 中国船舶重工集团公司第七一五研究所 一种声纳目标立体收听方法
CN110728989A (zh) * 2019-09-29 2020-01-24 东南大学 一种基于长短时记忆网络lstm的双耳语音分离方法
CN111654806A (zh) * 2020-05-29 2020-09-11 Oppo广东移动通信有限公司 音频播放方法、装置、存储介质及电子设备
CN111933161A (zh) * 2020-07-16 2020-11-13 腾讯音乐娱乐科技(深圳)有限公司 均衡器滤波参数的生成方法、音频信号滤波方法及均衡器
CN111935624A (zh) * 2020-09-27 2020-11-13 广州汽车集团股份有限公司 车内音响空间感的客观评价方法、系统、设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030202665A1 (en) * 2002-04-24 2003-10-30 Bo-Ting Lin Implementation method of 3D audio
CN106373589A (zh) * 2016-09-14 2017-02-01 东南大学 一种基于迭代结构的双耳混合语音分离方法
CN110035376A (zh) * 2017-12-21 2019-07-19 高迪音频实验室公司 使用相位响应特征来双耳渲染的音频信号处理方法和装置
CN110021306A (zh) * 2018-01-07 2019-07-16 创新科技有限公司 用于利用头部跟踪生成自定义空间音频的方法
CN109005496A (zh) * 2018-07-26 2018-12-14 西北工业大学 一种hrtf中垂面方位增强方法
CN110225432A (zh) * 2019-05-10 2019-09-10 中国船舶重工集团公司第七一五研究所 一种声纳目标立体收听方法
CN110728989A (zh) * 2019-09-29 2020-01-24 东南大学 一种基于长短时记忆网络lstm的双耳语音分离方法
CN111654806A (zh) * 2020-05-29 2020-09-11 Oppo广东移动通信有限公司 音频播放方法、装置、存储介质及电子设备
CN111933161A (zh) * 2020-07-16 2020-11-13 腾讯音乐娱乐科技(深圳)有限公司 均衡器滤波参数的生成方法、音频信号滤波方法及均衡器
CN111935624A (zh) * 2020-09-27 2020-11-13 广州汽车集团股份有限公司 车内音响空间感的客观评价方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN113079452B (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
CN107481731B (zh) 一种语音数据增强方法及系统
WO2018008395A1 (ja) 音場形成装置および方法、並びにプログラム
US7116788B1 (en) Efficient head related transfer function filter generation
Goodwin et al. Binaural 3-D audio rendering based on spatial audio scene coding
US10595148B2 (en) Sound processing apparatus and method, and program
CN110267163B (zh) 一种定向声音虚拟低频增强方法、系统、介质和设备
WO2017119320A1 (ja) 音声処理装置および方法、並びにプログラム
KR101944758B1 (ko) 스테레오 신호의 스테레오 이미지를 수정하기 위한 오디오 신호 처리 장치 및 방법
CN113079452B (zh) 音频处理方法、音频方位信息生成方法、电子设备及介质
JP7447798B2 (ja) 信号処理装置および方法、並びにプログラム
CN111615045A (zh) 音频处理方法、装置、设备及存储介质
US20220150624A1 (en) Method, Apparatus and Computer Program for Processing Audio Signals
CN112309418B (zh) 一种抑制风噪声的方法及装置
CN111147655B (zh) 模型生成方法和装置
CN110832884B (zh) 信号处理装置和方法以及计算机可读存储介质
CN111107481B (zh) 一种音频渲染方法及装置
US11611839B2 (en) Optimization of convolution reverberation
CN111724808A (zh) 音频信号处理方法、装置、终端及存储介质
CN111145776B (zh) 音频处理方法和装置
JP6994221B2 (ja) 抽出発生音補正装置、抽出発生音補正方法、プログラム
CN113449255B (zh) 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质
CN111145792B (zh) 音频处理方法和装置
WO2019235193A1 (ja) 音場信号推定装置、音場信号推定方法、プログラム
Zhou et al. A Binaural Signal Synthesis Approach for Fast Rendering of Moving Sound
CN117896666A (zh) 用于回放音频数据的方法、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant