CN112566008A

CN112566008A - 音频上混方法、装置、电子设备和存储介质

Info

Publication number: CN112566008A
Application number: CN202011580000.5A
Authority: CN
Inventors: 胡明清; 卫慧慧; 马桂林; 陆恒良
Original assignee: Iflytek Suzhou Technology Co Ltd
Current assignee: Iflytek Suzhou Technology Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-03-26

Abstract

本发明提供一种音频上混方法、装置、电子设备和存储介质，其中方法包括：确定待上混的原始音频信号；对所述原始音频信号的待平移频段进行针对各个上混通道的幅值随机化处理，得到各个上混通道对应的上混频域信号；将每一上混通道对应的上混频域信号转换到时域，得到每一上混通道对应的上混音频信号。本发明提供的音频上混方法、装置、电子设备和存储介质，将原始音频信号上混为多个通道对应的上混音频信号，能给听音者带来更具空间包围感和沉浸感的听音感受，优化了音频上混的效果。

Description

音频上混方法、装置、电子设备和存储介质

技术领域

本发明涉及信号处理技术领域，尤其涉及一种音频上混方法、装置、电子设备和存储介质。

背景技术

实际的音频信号多为单通道信号或者双通道立体声信号，利用信号去相关技术将单通道信号或者双通道信号上混成更多通道的立体声，能够合成环境声学信息的听觉感知，产生环绕感和空间包围感。

然而，现有的音频上混方法信号去相关效果有限，声场中的空间感和沉浸感不足，还可能导致信号失真，上混效果欠佳。

发明内容

本发明提供一种音频上混方法、装置、电子设备和存储介质，用以解决现有技术中上混效果欠佳的缺陷。

本发明提供一种音频上混方法，包括：

确定待上混的原始音频信号；

对所述原始音频信号的待平移频段进行针对各个上混通道的幅值随机化处理，得到各个上混通道对应的上混频域信号；

将每一上混通道对应的上混频域信号转换到时域，得到每一上混通道对应的上混音频信号。

根据本发明提供的一种音频上混方法，所述对所述原始音频信号的待平移频段进行针对各个上混通道的幅值随机化处理，具体包括：

分别基于各个上混通道对应的去相关滤波器对所述原始音频信号进行频域滤波；

所述去相关滤波器用于对所述待平移频段中的每一平移频点进行幅值随机化处理，使得各个上混通道对应的上混频域信号之间去相关。

根据本发明提供的一种音频上混方法，所述原始音频信号包括若干个原始通道的原始通道信号，每一原始通道信号对应若干个上混通道；

所述分别基于各个上混通道对应的去相关滤波器对所述原始音频信号进行频域滤波，具体包括：

基于对应上混通道的去相关滤波器对各个原始通道信号进行幅值随机化处理。

根据本发明提供的一种音频上混方法，所述原始音频信号中任一频点对应的各个上混通道的滤波器系数之和为1，或平方和为1。

根据本发明提供的一种音频上混方法，任一上混通道的滤波器系数包括对应平移频点的随机化系数；

任一上混通道对应平移频点的随机化系数是基于如下步骤确定的：

确定对应原始通道信号的待平移频段内每一平移频点的随机幅值和相位；

基于每一平移频点的随机幅值和相位，以及对应每一平移频点的调整系数，确定所述任一上混通道对应每一平移频点的随机化系数；所述调整系数使得平移频点对应的各个上混通道的随机化系数之和为1，或平方和为1。

根据本发明提供的一种音频上混方法，每一平移频点的随机幅值满足高斯分布，所述高斯分布的方差用于调整声场的宽度。

根据本发明提供的一种音频上混方法，所述基于每一平移频点的随机幅值和相位，以及对应每一平移频点的调整系数，确定所述任一上混通道对应每一平移频点的随机化系数，之后还包括：

基于预设群延迟频段和预设压制频段，计算系统最小群延迟和所述预设压制频段对应的最大延迟；

若所述预设压制频段对应的最大延迟不小于所述群延迟，则重新确定对应原始通道信号的每一平移频点的随机幅值和相位，并确定所述任一上混通道对应每一平移频点的随机化系数。

根据本发明提供的一种音频上混方法，所述分别基于各个上混通道对应的去相关滤波器对所述原始音频信号进行频域滤波，具体包括：

分别基于多组滤波器系数不同的去相关滤波器对所述原始音频信号的不同帧进行频域滤波，得到每一上混通道对应的上混频域信号；其中，任一组去相关滤波器包含对应每一上混通道的去相关滤波器。

本发明还提供一种音频上混装置，包括：

信号确定单元，用于确定待上混的原始音频信号；

音频上混单元，用于对所述原始音频信号的待平移频段进行针对各个上混通道的幅值随机化处理，得到各个上混通道对应的上混频域信号；

时域变换单元，用于将每一上混通道对应的上混频域信号转换到时域，得到每一上混通道对应的上混音频信号。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述音频上混方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述音频上混方法的步骤。

本发明提供的音频上混方法、装置、电子设备和存储介质，通过对原始音频信号的待平移频段进行针对各个上混通道的幅值随机化处理，得到各个上混通道对应的上混频域信号，并将每一上混通道对应的上混频域信号转换到时域，得到每一上混通道对应的上混音频信号，将原始音频信号上混为多个通道对应的上混音频信号，能给听音者带来更具空间包围感和沉浸感的听音感受，优化了音频上混的效果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的音频上混方法的流程示意图；

图2为本发明提供的滤波器生成方法的流程示意图；

图3为本发明提供的滤波器优化方法的流程示意图；

图4为本发明提供的音频上混装置的结构示意图；

图5为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

立体声技术是环绕声等系统的重要技术之一，能够给听者带来空间感和包围感，为听者提供一个有宽度的声场。然而，实际的音频信号多为单通道信号或者双通道信号，若将上述音频信号直接用于扬声器或者耳机重放，听感较单一，且可能会产生“头中效应”，甚至产生梳状滤波现象，无法满足更高的听音需求。为了提升声场的环绕感和空间包围感，可以利用信号去相关技术将将单通道信号或双通道信号上混成更多通道的信号，从而得以合成环境声学的听觉感知，产生类似于室内反射产生的空间感知或者非反射环境声下的包围感和环绕感。

现有的音频上混方法包括信号延迟法、子带延迟、和基于互易最大长度序列设计的全通滤波器等。其中，信号延迟法是将输入信号延迟多个采样点，使得延迟信号和原始输入信号形成一对去相关信号；子带延迟法是将信号分成不同的子带，对每个子带进行不同程度的延迟，如，中低频延迟长，高频延迟短，最后将延迟后的信号混合；而基于互易最大长度序列设计的全通滤波器中，互易最大长度序列由MLS(Maximum length sequence，最大长度序列)及其时逆序列所组成，类似一对随机相位滤波器。

然而，信号延迟法中，若延迟时间超过信号本身的自相关时间，可能会产生回声，因而最大延迟不能超过40ms。但若延迟时间过短，去相关效果有限，还可能产生梳状滤波器效益和低频潜在的相位变化。子带延迟法也同样存在上述缺点。而基于互易最大长度序列设计的全通滤波器，则可能产生信号失真，上混效果也欠佳。

对此，本发明实施例提供了一种音频上混方法。图1为本发明实施例提供的音频上混方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待上混的原始音频信号；

步骤120，对原始音频信号的待平移频段进行针对各个上混通道的幅值随机化处理，得到各个上混通道对应的上混频域信号；

步骤130，将每一上混通道对应的上混频域信号转换到时域，得到每一上混通道对应的上混音频信号。

具体地，确定需要进行音频上混的原始音频信号。此处，原始音频信号可以为音乐信号，或者语音信号等，本发明实施例对此不作具体限定。然后，对原始音频信号进行频域转换，得到原始音频信号的频谱。其中，可以对原始音频信号进行分帧加窗处理，然后通过离散傅里叶变换(Discrete Fourier Transform，DFT)将原始音频信号从时域转换到频域。

为了将原始音频信号转换成更多通道上对应的音频信号，可以对原始音频信号的待平移频段进行针对各个上混通道的幅值随机化处理。此处，原始音频信号的待平移频段是预先确定的频段，在进行音频上混时，会对该频段内的频点进行幅值随机化处理，使得每一频点的幅值变为随机值。待平移频段可以在实际应用场景中根据听音感受进行调整，以达到更好的上混效果。基于原始音频信号的频谱，对原始音频信号的待平移频段进行一次幅值随机化处理，即可得到一个上混通道对应的上混频域信号，若需要将原始音频信号上混成M个上混通道，则可以对原始音频信号的待平移频段进行M次幅值随机化处理，得到M个上混通道对应的上混频域信号，其中M大于原始音频信号的通道数量。

利用逆傅里叶变换将每一上混通道对应的上混频域信号从频域转换回时域，即可得到每一上混通道对应的上混音频信号，以供对应的扬声器进行播放。此处，扬声器与上混通道一一对应，且各个扬声器与听音者之间的相对位置不同。例如，若上混通道为2个，则可以在听音者的左前方和右前方对称设置2个扬声器，2个扬声器与听音者之间的连线夹角可以为60°至150°；若上混通道为4个或以上，则可以以听音者为中心，将4个扬声器摆放为均匀排列的环形结构，本发明实施例对此不作具体限定。

本发明实施例对原始音频信号的待平移频段进行针对各个上混通道的幅值随机化处理，得到每一上混通道对应的上混频域信号之后，随机化处理使得每一上混频域信号中对应相同频点的幅值各不相同，还使得同一上混频域信号中对应不同频点的幅值也会随机变化，使得各个上混频域信号之间不再具备相关性，相应地，各个上混音频信号之间也实现了去相关。

若利用各扬声器同时播放对应的上混音频信号，对于听音者而言，在某一时刻，多个扬声器同时播放的信号中部分扬声器播放的信号声压较强，而部分扬声器播放的信号声压较弱，在听音者的主观感受上，会认为声源更偏向信号声压较强的扬声器方向。到了下一时刻，信号声压较强的扬声器发生了变化，因此听音者又会认为声源方向发生了平移，偏向了当前信号声压较强的扬声器方向。即，听音者在主观上会觉得声源方向在不停地发生变化，这种主观上的信号方向平移现象使得听音者无法清晰辨认声源方向，因此能给听音者带来更具空间包围感和沉浸感的听音感受，优化了音频上混的效果。

本发明实施例提供的方法，通过对原始音频信号的待平移频段进行针对各个上混通道的幅值随机化处理，得到各个上混通道对应的上混频域信号，并将每一上混通道对应的上混频域信号转换到时域，得到每一上混通道对应的上混音频信号，将原始音频信号上混为多个通道对应的上混音频信号，能给听音者带来更具空间包围感和沉浸感的听音感受，优化了音频上混的效果。

基于上述实施例，步骤120包括：

分别基于各个上混通道对应的去相关滤波器对原始音频信号进行频域滤波；

去相关滤波器用于对待平移频段中的每一平移频点进行幅值随机化处理，使得各个上混通道对应的上混频域信号之间去相关。

具体地，可以为各个上混通道分别生成对应的去相关滤波器，利用各个上混通道对应的去相关滤波器对原始音频信号进行频域滤波，实现幅值随机化处理。其中，各个上混通道对应的去相关滤波器的滤波器系数不相同。利用任一去相关滤波器对原始音频信号进行频域滤波时，该去相关滤波器可以基于原始音频信号的频谱，将待平移频段中每一平移频点的幅值进行随机化处理，使得滤波后的上混频域信号中每一平移频点的幅值变为随机值。

基于各个上混通道对应的去相关滤波器对原始音频信号进行频域滤波后，可以得到各个上混通道对应的上混音频信号。虽然各个上混通道对应的上混音频信号均是由原始音频信号转换而来，但由于去相关滤波器使得滤波后的上混频域信号中每一平移频点的幅值变为随机值，且随机化处理使得各个上混频域信号中对应相同平移频点的幅值也大概率不同，因此各个上混通道对应的上混频域信号之间可以实现去相关化。

本发明实施例提供的方法，分别基于各个上混通道对应的去相关滤波器对原始音频信号进行频域滤波，实现了各个上混通道对应的上混频域信号之间的去相关化。

基于上述任一实施例，原始音频信号包括若干个原始通道的原始通道信号，每一原始通道信号对应若干个上混通道；

分别基于各个上混通道对应的去相关滤波器对原始音频信号进行频域滤波，具体包括：

基于对应上混通道的去相关滤波器对各个原始通道信号的待平移频段进行幅值随机化处理。

具体地，原始音频信号可以包括若干个原始通道的原始通道信号，例如，原始音频信号可以为单通道信号，也可以为双通道或者更高通道的信号。本发明实施例提供的音频上混方法可以将单通道信号上混为双通道以及双通道以上的信号，也可以将多通道信号转换为更多通道的信号。考虑到上混通道的数量大于原始音频信号包含的原始通道数量，可以设置每一原始通道信号对应若干个上混通道。其中，任一原始通道信号可以对应一个或多个上混通道，不同原始通道信号对应的上混通道个数可以不同，本发明实施例对此不作具体限定。

在进行音频上混时，可以对各个原始通道信号的待平移频段进行对应上混通道的幅值随机化处理。即，可以对任一原始通道信号的待平移频段中的每一平移频点进行若干次幅值随机化处理，得到该原始通道信号对应的各个上混通道的上混频域信号。例如，若原始音频信号为单通道信号，则直接对该原始音频信号进行分帧加窗以及频域转换等处理后，利用各个上混通道的去相关滤波器对该原始音频信号的待平移频段进行幅值随机化处理，得到各个上混通道的上混频域信号；若原始音频信号为双通道信号，则分别对两个原始通道信号进行分帧加窗以及频域转换等处理，然后基于对应上混通道的去相关滤波器对其中一个原始通道信号的待平移频段进行幅值随机化处理，同时基于对应上混通道的去相关滤波器对另一个原始通道信号的待平移频段进行幅值随机化处理，得到两个原始通道信号分别对应的上混频域信号；以此类推，若原始音频信号包含三个以上原始通道信号，则可以基于对应上混通道的去相关滤波器对各个原始通道信号的待平移频段进行幅值随机化处理，得到对应的上混频域信号。

基于上述任一实施例，原始音频信号中任一频点对应的各个上混通道的滤波器系数之和为1，或平方和为1。

具体地，为了保证音频上混后，各个上混通道的上混音频信号叠加后音色不发生明显变化，在生成各个上混通道对应的去相关滤波器时，可以使原始音频信号中任一频点对应的各个上混通道的滤波器系数之和为1。即，可以使任一频点对应的各个上混通道的滤波器系数满足以下条件：

其中，M为上混通道数量，i为任一频点，

为该频点对应的任一上混通道的滤波器系数。

此时，基于对应上混通道的去相关滤波器对任一原始通道信号进行频域滤波时，对于任一频点而言，各个去相关滤波器会在该频点的原始幅值基础上乘以相应的滤波器系数。当各个上混音频信号叠加后，该频点的幅值会累加为原始幅值与该频点对应的各个上混通道的滤波器系数之和的乘积。由于任一频点对应的各个上混通道的滤波器系数之和为1，因此信号叠加后该频点的幅值不变，保证了信号叠加后信号响应的平坦性，从而确保了音频上混后音色不会发生明显变化。

此外，为了进一步提升音频上混后的音质，并提升混响感，还可以在生成各个上混通道对应的去相关滤波器时，使原始音频信号中任一频点对应的各个上混通道的滤波器系数的平方和为1。即，可以使任一频点对应的各个上混通道的滤波器系数满足以下条件：

此时，基于对应上混通道的去相关滤波器对任一原始通道信号进行频域滤波时，对于任一频点而言，各个去相关滤波器会在该频点的原始能量响应基础上乘以相应的滤波器系数的平方值。当各个上混音频信号叠加后，该频点的能量响应会累加为原始能量响应与该频点对应的各个上混通道的滤波器系数平方和的乘积。由于任一频点对应的各个上混通道的滤波器系数的平方和为1，因此信号叠加后该频点的能量响应不变，保证了信号叠加后能量响应的平坦性，从而在确保音色不发生明显变化的基础上，使得音频上混后信号更均衡、混响感更强。

本发明实施例提供的方法，通过在生成各个上混通道对应的去相关滤波器时，使原始音频信号中任一频点对应的各个上混通道的滤波器系数之和为1，可以确保音频上混后音色不会发生明显变化，或使原始音频信号中任一频点对应的各个上混通道的滤波器系数平方和为1，可以在确保音色不发生明显变化的基础上，带来更多混响感。

基于上述任一实施例，任一上混通道的滤波器系数包括对应平移频点的随机化系数；

图2为本发明实施例提供的滤波器生成方法的流程示意图，如图2所示，任一上混通道对应平移频点的随机化系数是基于如下步骤确定的：

步骤210，确定对应原始通道信号的待平移频段内每一平移频点的随机幅值和相位；

步骤220，基于每一平移频点的随机幅值和相位，以及对应每一平移频点的调整系数，确定该上混通道对应每一平移频点的随机化系数；调整系数使得平移频点对应的各个上混通道的随机化系数之和为1，或平方和为1。

具体地，任一上混通道的滤波器系数包括对应平移频点的随机化系数以及对应非平移频点的固定系数。其中，非平移频点即待平移频段以外的频点。由于非平移频点无需进行幅值随机化处理，因此可以将滤波器系数中对应非平移频点的部分设置为固定系数，以便于控制非平移频点对应的各个上混通道的随机化系数之和为1，或平方和为1。例如，可以将各个上混通道对应非平移频点的固定系数均设置为1/CH或

其中CH为上混通道的数量，即可简便地确保非平移频点对应的各个上混通道的随机化系数之和为1，或平方和为1。

任一上混通道对应平移频点的随机化系数为随机值，可以用于对该平移频点的幅值进行随机化处理。任一上混通道对应平移频点的随机化系数具体可以通过确定对应原始通道信号的待平移频段内每一平移频点的随机幅值和相位，并基于每一平移频点的随机幅值和相位，以及对应每一平移频点的调整系数确定得到。此处，可以首先通过随机数种子，针对每一平移频点生成其对应的随机幅值。另外，还可以根据每一平移频点，确定对应的相位。具体可以根据声波传播的传递函数，例如声波自由场传播的传递函数，计算每一平移频点的相位。例如，可以采用下列公式计算任一平移频点的相位：

其中，

为任一平移频点的相位，j为虚数，f为该平移频点的频率，fftSize为对原始通道信号进行离散傅里叶变换时得到的离散频率数量，d为可调整的参数，通过在实际应用场景中根据听音效果对d进行调整，可以使得音频上混后的声音更悦耳。此处，由于声波自由场传播的传递函数更符合声音的物理传播特性，因此根据上式确定相位，可以使去相关滤波器对对应的原始通道信号进行频域滤波后，上混音频信号的音色更加自然。

基于每一平移频点的随机幅值和相位，以及对应每一平移频点的调整系数，可以确定任一上混通道对应每一平移频点的随机化系数。其中，任一平移频点的随机幅值，一方面可以提供随机性，使得确定得到的随机化系数具备随机性，另一方面还可以用于将相位控制在一个π周期内，以避免产生的随机相位过大，带来明显的回声感。具体而言，可以利用反正切函数的特性，对任一平移频点的随机幅值进行限缩后再与该平移频点的相位相乘，以将相位控制在一个π周期内。

在此基础上，还可以引入调整系数，用于控制该平移频点对应的各个上混通道的随机化系数之和为1，或平方和为1。为了便于控制各上混通道的随机化系数，可以将随机化系数划分为两部分：固定值部分和随机数部分。其中，可以保持任一平移频点对应的各个上混通道的固定值部分之和为1，或平方和为1。例如，可以将固定值部分均设置为1/CH或

然后，利用调整系数使得任一平移频点对应的各个上混通道的随机数部分能够相互抵消，即任一平移频点对应的各个上混通道的随机数部分之和为0，或平方和为0。

例如，可以采用如下公式确定任一上混通道的滤波器系数H：

其中，

为随机化系数；a为该上混通道对应任一平移频点的调整系数，用于控制该平移频点对应的各个上混通道的随机化系数之和为1；

为该平移频点的相位；N为该平移频点的随机幅值；p为可调整的参数，可以用于调整声场宽度，其值越大，对应的声场宽度越宽；

可以将相位控制在一个π周期内；

为固定系数。

或者，还可以采用如下公式确定任一上混通道的滤波器系数H：

其中，调整系数a用于控制该平移频点对应的各个上混通道的随机化系数的平方和为1。

基于上述任一实施例，每一平移频点的随机幅值满足高斯分布，高斯分布的方差用于调整声场的宽度。

具体地，为了使生成的平移频点的随机幅值更符合音频信号的物理特性，可以针对每一平移频点生成满足高斯分布的随机幅值，使得每一平移频点的随机幅值符合音频信号的高斯概率模型。此外，随机幅值所满足的高斯分布的方差可以根据实际应用场景进行调整，以用于调整音频上混后的声场宽度。其中，高斯分布的方差越大，高斯分布的钟形曲线越宽，使得幅值较大的频率范围更宽，因此声场的主瓣宽度也越宽。通过调整该高斯分布的方差，可以拓宽音频上混所带来的声场，使得各个上混音频信号叠加后的声音更具备空间感和沉浸感。

本发明实施例提供的方法，通过生成满足高斯分布的每一平移频点的随机幅值，并利用高斯分布的方差调整声场的宽度，可以拓宽音频上混所带来的声场，使得各个上混音频信号叠加后的声音更具备空间感和沉浸感，进一步提升了音频上混的效果。

基于上述任一实施例，图3为本发明实施例提供的滤波器优化方法的流程示意图，如图3所示，步骤220之后还包括：

步骤231，基于预设群延迟频段和预设压制频段，计算系统最小群延迟和预设压制频段对应的最大延迟；

步骤232，若预设压制频段对应的最大延迟不小于群延迟，则重新确定对应原始通道信号的每一平移频点的随机幅值和相位，并确定任一上混通道对应每一平移频点的随机化系数。

具体地，为了提高上混音频信号的语音可懂度，可以利用去相关滤波器的频域滤波操作，压制低频噪声。因此，可以预先设定群延迟频段和预设压制频段。其中，群延迟频段用于计算系统最小群延迟时间，而预设压制频段处于低频范围，用于计算低频信号的延迟时间。此处，预设压制频段可以根据实际应用场景中需要压制的频段具体设定，本发明实施例对此不作具体限定。

在生成任一上混通道的去相关滤波器的所有滤波器系数之后，可以基于预设群延迟频段和预设压制频段，计算群延迟和预设压制频段对应的最大延迟。若此时预设压制频段对应的最大延迟小于群延迟，表明该上混通道的去相关滤波器可以压制预设压制频段内的噪声信号，可以用于实际的音频上混处理。否则，表明该上混通道的去相关滤波器无法压制预设压制频段内的噪声信号，预设压制频段对应的最大延迟过大，会带来明显的回声，从而影响语音可懂度。因此，在预设压制频段对应的最大延迟不小于群延迟时，可以重新确定对应原始通道信号的每一平移频点的随机幅值和相位，并利用上述实施例提供的滤波器生成方法，重新生成该上混通道对应每一平移频点的随机化系数，在此不再赘述。

本发明实施例提供的方法，基于预设群延迟频段和预设压制频段，计算群延迟和预设压制频段对应的最大延迟，在预设压制频段对应的最大延迟不小于群延迟时，重新生成该上混通道对应每一平移频点的随机化系数，避免过大延迟带来明显回声，可以提高上混音频信号的语音可懂度。

基于上述任一实施例，分别基于各个上混通道对应的去相关滤波器对所述原始音频信号进行频域滤波，具体包括：

分别基于多组滤波器系数不同的去相关滤波器对原始音频信号的不同帧进行频域滤波，得到每一上混通道对应的上混频域信号；其中，任一组去相关滤波器包含对应每一上混通道的去相关滤波器。

具体地，为了使得上混音频信号更具备音乐感和动态性，可以生成多组滤波器系数去相关滤波器对原始音频信号的不同帧进行频域滤波，以生成更具多样性、更丰富的上混频域信号。其中，任一组去相关滤波器包括对应每一上混通道的去相关滤波器，且任意两组去相关滤波器的滤波器系数不同。例如，可以生成N组去相关滤波器

其中M为上混通道的数量。

此处，为了提高音频上混的实时性，可以预先离线生成上述多组去相关滤波器，任一组去相关滤波器中各个去相关滤波器可以采用如上述实施例提供的滤波器生成方法生成，在此不再赘述。由于上述实施例提供的滤波器生成方法中，滤波器系数中的随机化系数为各个去相关滤波器带来了随机性，因此可以多次执行上述滤波器生成方法，以生成多组滤波器系数不同的去相关滤波器。

基于生成的多组去相关滤波器，可以对原始音频信号的不同帧进行频域滤波，即原始音频信号的不同帧对应不同组去相关滤波器，以提高音频上混的动态性和音乐感。例如，可以用其中一组去相关滤波器对原始音频信号的当前帧进行频域滤波，得到当前帧对应的多个上混频域信号后，切换另一组去相关滤波器对原始音频信号的下一帧进行频域滤波，从而得到下一帧对应的多个上混频域信号。

本发明实施例提供的方法，通过分别基于多组滤波器系数不同的去相关滤波器对原始音频信号的不同帧进行频域滤波，提高了音频上混的动态性和音乐感，进一步优化了音频上混的效果。

基于上述任一实施例，本发明实施例提供了一种音频上混方法，以单通道信号上混为双通道信号为例，该方法包括：

对输入的单通道的原始音频信号进行分帧加窗处理，并通过离散傅里叶变换将原始音频信号从时域转换到频域。

然后进行参数初始化操作。此处，需要进行初始化的参数包括原始音频信号的待平移频段、预设群延迟频段和平移频点随机幅值所满足的高斯分布的方差q。其中，待平移频段可以在实际环境中根据主观听音感受调整，以提升上混音频信号的音质；方差q可用于控制声场的听音宽度，方差q越大，能够感受到的声场越宽，因此可以根据实际应用场景的需求对方差q进行调节。

初始化完毕后，可以开始生成各个上混通道对应的去相关滤波器。通过随机数种子，针对待平移频段内不同的平移频点生成方差为q的高斯随机数N，作为各平移频点的随机幅值。然后，根据声波自由场的传递函数确定各个平移频点的相位，使得生成的去相关滤波器对原始音频信号进行滤波后，产生的上混音频信号的音色更自然。然后，为各个平移频点和非平移频点生成各个上混通道对应的滤波器系数。此处，任一频点对应的各个上混通道的滤波器系数之和为1，或平方和为1。由于只需将单通道信号上混为双通道信号，即上混通道数量为2，因此可以利用上述实施例所述的滤波器生成方法首先生成对应任一频点的其中一个上混通道的滤波器系数，然后根据该频点对应的各个上混通道的滤波器系数满足和为1或平方和为1的条件，计算对应该频点的另一个上混通道的滤波器系数，以简化运算。

为了使得上混的音频更加具有音乐感和动态性，可以以上述方式离线生成多组滤波器系数不同的去相关滤波器，对原始音频信号的不同帧使用不同组去相关滤波器进行频域滤波，也可以只生成一组去相关滤波器对原始音频信号进行频域滤波，本发明实施例对此不作具体限定。

生成任一上混通道的去相关滤波器后，可以通过设置的预设群延迟频段计算系统最小群延迟，以压制低频噪声，保证低频信号的最大延迟小于系统最小群延迟，例如0.001s，若低频信号的最大延迟不满足该条件，则重新生成该上混通道的去相关滤波器。

利用上述生成的各个上混通道的去相关滤波器对原始音频信号进行频域滤波，然后通过逆傅里叶变换转换为时域信号进行播放。

下面对本发明提供的音频上混装置进行描述，下文描述的音频上混装置与上文描述的音频上混方法可相互对应参照。

基于上述任一实施例，图4为本发明实施例提供的音频上混装置的结构示意图，如图4所示，该装置包括：信号确定单元410、音频上混单元420和时域变换单元430。

其中，信号确定单元410用于确定待上混的原始音频信号；

音频上混单元420用于对原始音频信号的待平移频段进行针对各个上混通道的幅值随机化处理，得到各个上混通道对应的上混频域信号；

时域变换单元430用于将每一上混通道对应的上混频域信号转换到时域，得到每一上混通道对应的上混音频信号。

本发明实施例提供的装置，通过对原始音频信号的待平移频段进行针对各个上混通道的幅值随机化处理，得到各个上混通道对应的上混频域信号，并将每一上混通道对应的上混频域信号转换到时域，得到每一上混通道对应的上混音频信号，将原始音频信号上混为多个通道对应的上混音频信号，能给听音者带来更具空间包围感和沉浸感的听音感受，优化了音频上混的效果。

基于上述任一实施例，音频上混单元420具体用于：

本发明实施例提供的装置，分别基于各个上混通道对应的去相关滤波器对原始音频信号进行频域滤波，实现了各个上混通道对应的上混频域信号之间的去相关化。

本发明实施例提供的装置，通过在生成各个上混通道对应的去相关滤波器时，使原始音频信号中任一频点对应的各个上混通道的滤波器系数之和为1，可以确保音频上混后音色不会发生明显变化，或使原始音频信号中任一频点对应的各个上混通道的滤波器系数平方和为1，可以在确保音色不发生明显变化的基础上，带来更多混响感。

该装置还包括随机化系数确定单元，用于：

基于每一平移频点的随机幅值和相位，以及对应每一平移频点的调整系数，确定该上混通道对应每一平移频点的随机化系数；调整系数使得平移频点对应的各个上混通道的随机化系数之和为1，或平方和为1。

本发明实施例提供的装置，通过生成满足高斯分布的每一平移频点的随机幅值，并利用高斯分布的方差调整声场的宽度，可以拓宽音频上混所带来的声场，使得各个上混音频信号叠加后的声音更具备空间感和沉浸感，进一步提升了音频上混的效果。

基于上述任一实施例，该装置还包括滤波器优化单元，用于：

基于预设群延迟频段和预设压制频段，计算系统最小群延迟和预设压制频段对应的最大延迟；

若预设压制频段对应的最大延迟不小于群延迟，则重新确定对应原始通道信号的每一平移频点的随机幅值和相位，并确定任一上混通道对应每一平移频点的随机化系数。

本发明实施例提供的装置，基于预设群延迟频段和预设压制频段，计算群延迟和预设压制频段对应的最大延迟，在预设压制频段对应的最大延迟不小于群延迟时，重新生成该上混通道对应每一平移频点的随机化系数，避免过大延迟带来明显回声，可以提高上混音频信号的语音可懂度。

本发明实施例提供的装置，通过分别基于多组滤波器系数不同的去相关滤波器对原始音频信号的不同帧进行频域滤波，提高了音频上混的动态性和音乐感，进一步优化了音频上混的效果。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行音频上混方法，该方法包括：确定待上混的原始音频信号；对所述原始音频信号的待平移频段进行针对各个上混通道的幅值随机化处理，得到各个上混通道对应的上混频域信号；将每一上混通道对应的上混频域信号转换到时域，得到每一上混通道对应的上混音频信号。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的音频上混方法，该方法包括：确定待上混的原始音频信号；对所述原始音频信号的待平移频段进行针对各个上混通道的幅值随机化处理，得到各个上混通道对应的上混频域信号；将每一上混通道对应的上混频域信号转换到时域，得到每一上混通道对应的上混音频信号。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的音频上混方法，该方法包括：确定待上混的原始音频信号；对所述原始音频信号的待平移频段进行针对各个上混通道的幅值随机化处理，得到各个上混通道对应的上混频域信号；将每一上混通道对应的上混频域信号转换到时域，得到每一上混通道对应的上混音频信号。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种音频上混方法，其特征在于，包括：

确定待上混的原始音频信号；

2.根据权利要求1所述的音频上混方法，其特征在于，所述对所述原始音频信号的待平移频段进行针对各个上混通道的幅值随机化处理，具体包括：

3.根据权利要求2所述的音频上混方法，其特征在于，所述原始音频信号包括若干个原始通道的原始通道信号，每一原始通道信号对应若干个上混通道；

4.根据权利要求3所述的音频上混方法，其特征在于，所述原始音频信号中任一频点对应的各个上混通道的滤波器系数之和为1，或平方和为1。

5.根据权利要求4所述的音频上混方法，其特征在于，任一上混通道的滤波器系数包括对应平移频点的随机化系数；

6.根据权利要求5所述的音频上混方法，其特征在于，每一平移频点的随机幅值满足高斯分布，所述高斯分布的方差用于调整声场的宽度。

7.根据权利要求5所述的音频上混方法，其特征在于，所述基于每一平移频点的随机幅值和相位，以及对应每一平移频点的调整系数，确定所述任一上混通道对应每一平移频点的随机化系数，之后还包括：

8.根据权利要求2至7任一项所述的音频上混方法，其特征在于，所述分别基于各个上混通道对应的去相关滤波器对所述原始音频信号进行频域滤波，具体包括：

9.一种音频上混装置，其特征在于，包括：

信号确定单元，用于确定待上混的原始音频信号；

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述音频上混方法的步骤。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述音频上混方法的步骤。