CN113347552B

CN113347552B - 一种音频信号处理方法、装置及计算机可读存储介质

Info

Publication number: CN113347552B
Application number: CN202110484828.9A
Authority: CN
Inventors: 刘长滔; 刘阳
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2022-12-20
Anticipated expiration: 2041-04-30
Also published as: CN113347552A

Abstract

本发明提供了一种音频信号处理方法、装置及计算机可读存储介质，属于音视频增强领域。该方法通过对立体声音频信号进行分离处理，得到所述立体声音频信号对应的左对白信号、左音乐信号、右对白信号和右音乐信号；对所述左对白信号、所述左音乐信号、所述右对白信号和所述右音乐信号进行合成处理，生成中置通路信号；基于同侧的对白信号与音乐信号，分别生成第一通路信号与第二通路信号；对所述左音乐信号和所述右音乐信号进行低音提取处理，生成低频效果通路信号；对所述中置通路信号、所述第一通路信号、所述第二通路信号和所述低频效果通路信号进行合成处理，生成目标音频信号，提高了立体声音频信号的分离度，增强了模拟的环绕声的音效。

Description

一种音频信号处理方法、装置及计算机可读存储介质

技术领域

本发明属于音视频增强领域，特别是涉及一种音频信号处理方法、装置及计算机可读存储介质。

背景技术

双声道立体声作为音频信号的采集和重放方式，能够较好地体现前方声场的位置信息，但是双声道立体声只能再现一个二维平面的立体感，即双声道立体声的整个声场是平平地摆在听音者面前，并不能使听音者有置身其中的现场感。相比之下，多声道环绕声的整体声场可以呈现一个全方位的空间感，能够给听音者一种置身其中的现场感。

目前多通路环绕声已经被广泛应用，其中，5.1通路环绕声是ITU(国际电信联盟)推荐的环绕声标准。与双声道立体声相比，5.1通路环绕声拥有更好的声像分离度和空间感，不仅可以满足5.1音频设备的需求，还可以为音频处理提供优质的输入信号。因此，为了提高音频信号的空间感和信号质量，往往需要根据双声道立体声音频信号模拟5.1声道音频信号。

然而，现有技术中，主要是基于最小均方、信号去相关等处理将双声道立体声音频信号模拟为5.1声道音频信号，无论哪种模拟方法，都是直接对双声道立体声音频信号本身的左声道信号和右声道信号进行处理，得到5.1声道音频信号的中置通路信号、左环绕效果通路信号、右环绕效果通路信号以及低频效果通路信号。由于双声道立体声音频信号中左声道信号和右声道信号本身的差异并不大，基于左声道信号和右声道信号模拟得到的5.1声道音频信号的各个通路信号的差异也不够明显，导致模拟的5.1声道音频信号的空间感较差。并且在采用最小均方、信号去相关处理的过程中通常会导致音色变化，这就造成实际的模拟效果和5.1声道音频信号的环绕效果相差较大。

发明内容

本发明提供一种音频信号处理方法、装置及计算机可读存储介质，以便在一定程度上解决现有技术中通过立体声模拟环绕声时模拟的环绕效果差的问题。

依据本发明的第一方面，提供了一种音频信号处理方法，所述方法包括：

对立体声音频信号进行分离处理，得到所述立体声音频信号对应的左对白信号、左音乐信号、右对白信号和右音乐信号；

对所述左对白信号、所述左音乐信号、所述右对白信号和所述右音乐信号进行合成处理，生成中置通路信号；

基于同侧的对白信号与音乐信号，分别生成第一通路信号与第二通路信号，所述第一通路信号为左通路信号或右通路信号，所述第二通路信号为所述第一通路信号对侧的单通路信号；

对所述左音乐信号和所述右音乐信号进行低音提取处理，生成低频效果通路信号；

对所述中置通路信号、所述第一通路信号、所述第二通路信号和所述低频效果通路信号进行合成处理，生成目标音频信号。

依据本发明的第二方面，提供了一种音频信号处理装置，所述装置包括：

信号分离模块，用于对立体声音频信号进行分离处理，得到所述立体声音频信号对应的左对白信号、左音乐信号、右对白信号和右音乐信号；

中置通路信号生成模块，用于对所述左对白信号、所述左音乐信号、所述右对白信号和所述右音乐信号进行合成处理，生成中置通路信号；

单通路信号生成模块，用于基于同侧的对白信号与音乐信号，分别生成第一通路信号与第二通路信号，所述第一通路信号为左通路信号或右通路信号，所述第二通路信号为所述第一通路信号对侧的单通路信号；

低频效果通路信号生成模块，用于对所述左音乐信号和所述右音乐信号进行低音提取处理，生成低频效果通路信号；

目标音频信号生成模块，用于对所述中置通路信号、所述第一通路信号、所述第二通路信号和所述低频效果通路信号进行合成处理，生成目标音频信号。

依据本发明的第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面中所述的音频信号处理方法。

依据本发明的第四方面，提供了一种电子设备，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的数据处理程序，以实现如第一方面中任一所述的音频信号处理方法。

针对在先技术，本发明具备如下优点：

本发明通过对立体声音频信号进行分离处理，得到所述立体声音频信号对应的左对白信号、左音乐信号、右对白信号和右音乐信号，然后对所述左对白信号、所述左音乐信号、所述右对白信号和所述右音乐信号进行合成处理，生成中置通路信号；基于同侧的对白信号与音乐信号，分别生成第一通路信号与第二通路信号，所述第一通路信号为左通路信号或右通路信号，所述第二通路信号为所述第一通路信号对侧的单通路信号；对所述左音乐信号和所述右音乐信号进行低音提取处理，生成低频效果通路信号；对所述中置通路信号、所述第一通路信号、所述第二通路信号和所述低频效果通路信号进行合成处理，生成目标音频信号。

相比于现有技术中直接对双声道立体声音频信号的左声道信号和右声道信号进行最小均方、信号去相关等处理，将双声道立体声音频信号模拟为5.1声道音频信号的方法，本发明在模拟环绕声信号的过程中先将立体声音频信号的左声道信号和右声道信号中的对白信号和音乐信号提取出来，得到左对白信号、左音乐信号、右对白信号、右音乐信号，提高了立体声音频信号的分离度，然后基于待生成的目标音频信号中各个通路信号的不同信号特性，对分离得到的对白信号和音乐信号分别进行不同的信号处理，得到满足不同通路信号特征的通路信号，如此，增强了各个通路信号之间的差异，提高了模拟的环绕声的空间感；并且信号分离并不会导致音频信号的音色变化，增强了模拟的环绕声的音效。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种音频信号处理方法的步骤流程图；

图2是本发明实施例提供的一种立体声音频信号的处理流程图；

图3是本发明实施例提供的另一种立体声音频信号的处理流程图；

图4是本发明实施例提供的一种音频信号处理装置的框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

与环绕声相比，立体声只能再现一个二维平面的立体感，并不能呈现全方位的空间感，无法给听音者置身其中的现场感，因此，为了获得身临其境的空间感，可以将立体声音频信号模拟生成环绕声信号之后再输出。现有技术中，通常采用基于最小均方、信号去相关等处理将立体声音频信号模拟生成环绕声音频信号，然而去相关处理会导致音色变化和分离度不足，影响模拟音效。

为了提高立体声音频信号模拟环绕声信号的模拟音效，本发明提供了一种音频信号处理方法，通过将立体声音频信号中的对白信号和音乐信号分离出来，对得到的对白信号和音乐信号进行处理得到环绕声信号。

图1是本发明实施例提供的一种音频信号处理方法的步骤流程图，如图1所示，该方法可以包括：

步骤101、对立体声音频信号进行分离处理，得到所述立体声音频信号对应的左对白信号、左音乐信号、右对白信号和右音乐信号。

步骤102、对所述左对白信号、所述左音乐信号、所述右对白信号和所述右音乐信号进行合成处理，生成中置通路信号。

步骤103、基于同侧的对白信号与音乐信号，分别生成第一通路信号与第二通路信号，所述第一通路信号为左通路信号或右通路信号，所述第二通路信号为所述第一通路信号对侧的单通路信号。

步骤104、对所述左音乐信号和所述右音乐信号进行低音提取处理，生成低频效果通路信号。

步骤105、对所述中置通路信号、所述第一通路信号、所述第二通路信号和所述低频效果通路信号进行合成处理，生成目标音频信号。

需要说明的是，本发明实施例中的立体声音频信号可以为双声道立体声音频信号，一般包含左声道和右声道，因此对立体声音频信号进行分类处理，可以得到左对白信号、左音乐信号、右音乐信号和右音乐信号。

在本发明实施例中，所述对白信号也可以理解为立体声音频信号中的人声信号，所述音乐信号也可以理解为立体声音频信号中的背景信号，立体声音频信号可以理解为对白信号和音乐信号的混合音频信号。其中，该立体声音频信号可以是电影、电视剧的音频信号，也可以是歌曲的音频信号。以电影的音频信号为例，对白信号就是电影角色说话时产生的人声信号，音乐信号就是电影的背景信号。

需要说明的是，本发明中生成的目标音频信号，为具有环绕音效的环绕声信号。本发明实施例提供的音频信号处理方法，可以通过立体声音频信号模拟环绕声信号，可应用于任意音频播放设备。其中，所述音频播放设备包括但不限于耳机、音箱、音响等、智能家居设备(包括智能音箱、电视、语音助手等)，智能终端(包括：智能手机、可视电话、平板电脑、会议桌面智能终端等)，以及影厅音频播放设备、车载设备、计算机等。

并且，当通过本发明实施例提供的方法生成目标音频信号时，可以在播放音频的过程中根据输入的立体声音频信号实时生成目标音频信号并输出，也可以先根据立体声音频信号生成目标音频信号并存储，在接收到音频播放指令的情况下，播放目标音频信号。

其中，目标音频信号至少包括四个通路信号，也即对应四道声源，分别为中置通路信号、第一通路信号、第二通路信号、和低频效果通路信号。若所述第一通信信号为左通路信号，则所述第二通路信号为右通路信号；若所述第一通路信号为右通路信号，则所述第二通路信号为左通路信号。

在环绕声信号的各个通路信号中，左通路信号和右通路信号提供立体声场，用来提供左侧和右侧的背景音乐，让人感觉置身于声场的中央，因此左通路信号和右通路信号中音乐信号的比例大于对白信号；中置通路信号包含大量的前方声场信息，作为左通路信号和右通路信号的补偿，提供更宽的声场和稳定的声像，中置通路信号主要用于提高环绕声中整体对白的语音清晰度，因此中置通路信号中对白信号的比例大于音乐信号；低频效果通路信号专门为音频信号中的120Hz以下的频段设计，用于加强听觉上的冲击力，提供逼真的低音感受，像马达声、轰炸机的声音，或者鼓声等震人心弦的重低音，主要就是由低频效果通路提供的。

基于环绕声信号的各个通路信号的特点，对分离出的对白信号和音乐信号进行相应的处理，就可以得到待模拟的环绕声信号的各个通路信号，再对得到的各个通路信号进行合成处理，就可以得到目标音频信号，也即环绕声信号。

参照图2，示出了本发明实施例中立体声音频信号的处理流程图。下面将结合图2说明本发明实施例中针对立体声音频信号的具体处理过程。

首先，对立体声音频信号中的对白信号和音乐信号进行分离。由于立体声音频信号本身包含左声道和右声道，因此，在对立体声音频信号进行对白信号和音乐信号的分离时，可以分别对立体声音频信号的左声道信号和右声道信号进行分离处理，得到左对白信号、左音乐信号、右对白信号和右音乐信号。如图2所示，L_in为立体声音频信号的左声道信号，R_in为立体声音频信号的右声道信号信号，对立体声信号信号的左声道信号L_in和右声道信号R_in进行信号分离处理，得到左对白信号L_v、左音乐信号L_m、右对白信号R_v和右音乐信号R_m。

在进行信号分离处理时，可以基于计算听觉场景分析对立体声音频信号中的对白信号和音乐信号进行分离。具体的，通过设计算法模拟人对声音的处理过程，让计算机具备从混合声音中分离声源的能力。还可以预先训练分离模型，并基于训练好的分离模型对立体声音频信号中的对白信号和音乐信号进行分离。具体的，将对白分离问题转换为监督学习问题，通过构建一个从混合信号映射到分离目标的特征函数实现对白分离。关于利用信号分离模型实现信号分离的详细处理过程在后文详述，本发明实施例在此不做进一步赘述。

然后，对分离出来的左对白信号L_v、左音乐信号L_m、右对白信号R_v和右音乐信号R_m进行合成处理，生成中置通路信号。由于中置通路信号主要用于提高环绕声中整体对白的语音清晰度，需要包含大量的前方声场信息，作为左通路信号和右通路信号的补偿，以便提供更宽的声场和稳定的声像，因此生成中置通路信号时可以不用区分对白信号和音乐信号的左右，对分离出来的左对白信号、左音乐信号、右对白信号和右音乐信号都进行合成处理。并且，中置通路信号中对白信号的比例大于音乐信号。其中，在对分离出来的对白信号和音乐信号进行合成时，对侧的对白信号或音乐信号，通常设置相同的比例，例如，左对白信号和右对白信号的比例都为40％，左音乐信号和右音乐信号的比例都为10％，这样，合成的中置通路信号中，对白信号的占比为80％，音乐信号的占比为20％。当然，对于对侧的对白信号或音乐信号，也可以设置不同的比例，但为了提高整体对白的语音清晰度，左对白信号和右对白信号的比例差异不应太大，避免因一侧的对白信号占比过小，影响用户收听语音内容。

此外，在实际实现场景中，左侧对白信号与右侧对白信号中的语音内容，可以相同，也可以不同；以及，左侧对白信号与右侧对白信号的发声对象也可以相同或不同。例如，左侧对白信号是角色A的台词AA，右侧对白信号是角色B的台词BB，台词AA与台词BB的角色A与角色B的对话内容。又例如，这种场景还可能为多位(一般为2位)歌手共同演唱同一首歌的情况，左侧对白信号为歌手A的演唱内容，右侧对白信号为歌手B的演唱内容，两侧的演唱内容可以同步，也可以异步。不作穷举。

基于同侧的对白信号与音乐信号，分别生成第一通路信号与第二通路信号。具体的，如果第一通路信号为左通路信号，则对左对白信号L_v和左音乐信号L_m进行合成处理，得到第一通路信号。第二通路信号为第一通路信号对侧的单通路信号，因此对右对白信号R_v和右音乐信号R_m进行合成处理，就可以得到第二通路信号。反之，如果第一通路信号为右通路信号，则对右对白信号R_v和右音乐信号R_m进行合成处理，得到第一通路信号，并对左对白信号L_v和左音乐信号L_m进行合成处理，得到第二通路信号。

在本发明实施例中，生成第二通路信号时，既可以根据同侧的对白信号和音乐信号生成第二通路信号，还可以对生成的第一通路信号进行去相关处理，得到第二通路信号。通过去相关处理，增大第一通路信号和第二通路信号的差异。例如，对第一通路信号进行频域相位处理，和/或，对第一通路信号进行时域延时处理。后文在步骤S12中，详述了去相关处理的具体实现过程，此处不展开详述。

基于去相关处理得到的第二通路信号，与第一通路信号相比，除了相位、信号时序存在差异之外，幅度、频率均相似，这就导致得到的第一通路信号和第二通路信号的信号差异不够明显，影响最终生成的目标音频信号的立体感。由于本发明实施例中，已经预先将立体声音频信号中的左对白信号、左音乐信号、右对白信号和右音乐信号分离出来了，直接对同侧的对白信号和音乐信号进行合成处理后，得到的第二通路信号与第一通路信号中包含的信号不同，两个通路信号的差异更大，更有利于提高目标音频信号的立体感。因此，在本发明实施例中，通常对同侧的对白信号和音乐信号进行合成处理，生成第二通路信号。

并且，由于在目标音频信号的各个通路信号中，左通路信号和右通路信号提供立体声场，用来负责左侧和右侧的背景音乐，让人感觉置身于声场的中央，因此左通路信号和右通路信号中音乐信号的比例大于对白信号。相比于立体声音频信号中原本的左声道信号和右声道信号，本发明实施例中得到的左通路信号和右通路信号均只包含同侧的对白信号和音乐信号，剔除了原本的左声道信号和右声道信号中的噪声信号，从而保证了生成的目标音频信号的清晰度。

低频效果通路信号的信号频率在120Hz以下，而人声的基音频率区域为500Hz至1000Hz，人声的主要音区频率是300Hz至500Hz，当信号频率处于120Hz以下时，对白信号的成分已经变得非常少。因此，在本发明实施例中可以直接对分离出来的左音乐信号L_m和右音乐信号R_m进行低音提取处理，得到低频效果通路信号。具体的，可以采用滤波频率为120Hz的低通滤波器对音乐信号进行滤波处理，提取音乐信号中的低音成分，得到低频效果通路信号。

现有技术中直接对立体声音频信号中的左声道信号和右声道信号进行低音提取处理得到低频效果通路信号，得到的低频效果通路信号中不仅包含音乐信号，还包含少量的对白信号，这部分对白信号会对中置通路中的对白信号造成干扰，降低最终生成的目标音频信号中的对白信号的清晰度。

而本发明实施例中生成的低频效果通路信号仅包含音乐信号中的低音部分，不存在对中置信号造成干扰的对白信号，从而提高了目标音频信号的对白清晰度。

最后，对生成的中置通路信号、第一通路信号、第二通路信号和低频效果通路信号进行合成处理，就可以生成目标音频信号。在对各个通路信号进行合成处理时，可以根据实际需求设置各个通路信号的合成比例，按照合成比例对各个通路信号进行合成处理，得到目标音频信号。

需要说明的是，在本发明实施例中，步骤102至步骤104之间不存在逻辑上的先后顺序，步骤102至步骤104只要在步骤101之后，以及步骤105之前执行即可。实际场景中，步骤102至步骤104可以按照自定义的次序顺序执行，也可以并行执行，本发明实施例对此并无特别限制。

可选地，步骤103所述基于同侧的对白信号与音乐信号，分别生成第一通路信号与第二通路信号，至少包括步骤S11或步骤S12。

步骤S11、按照第一合成比例分别对同侧的对白信号与音乐信号进行合成处理，得到所述第一通路信号与所述第二通路信号；

或者，

步骤S12、按照第一合成比例对同侧的对白信号与音乐信号进行合成处理，得到所述第一通路信号；对所述第一通路信号进行去相关处理，得到所述第二通路信号；

其中，所述第一合成比例中对白信号的占比小于音乐信号的占比。

在本发明实施例中，生成第二通路信号时，既可以根据同侧的对白信号和音乐信号生成第二通路信号，还可以对生成的第一通路信号进行去相关处理，得到第二通路信号。对此，本发明实施例不做具体限定。由于在目标音频信号的各个通路信号中，左通路信号和右通路信号提供立体声场，用来提供左侧和右侧的背景音乐，让人感觉置身于声场的中央，因此左通路信号和右通路信号中音乐信号的比例大于对白信号。例如，左通路信号L和右通路信号R可以分别表示为：

L＝(s1×v_L+s2×m_L)/(s1+s2) (1)

R＝(s1×v_R+s2×m_R)/(s1+s2) (2)

其中，s2大于s1，且s1+s2＝1。

在本发明实施例中，左通路信号和右通路信号中包含的对白信号和音乐信号的第一合成比例可以相同，也可以不同，只要保证第一合成比例中对白信号的比例小于音乐信号即可。

实际场景中，s2与s1之间可以尽可能差距较大，形成s2远大于s1的效果，更有利于形成有空间感的声音效果。例如，s1取值为95％，s2取值为5％。

按照第一合成比例对同侧的对白信号和音乐信号进行合成处理，生成第一通路信号之后，还可以继续对第一通路信号进行去相关处理，得到第二通路信号。具体的，可以对第一通路信号进行频域相位处理，和/或，对第一通路信号进行时域延时处理，生成第二通路信号。

其中，对第一通路信号进行时域延时处理，可以将第一通路信号输入到延时处理器中，为第一通路信号增加延时因子，得到第二通路信号。

对第一通路信号进行频域相位处理，得到第二通路信号，可以先对第一通路信号进行傅里叶变换，得到第一通路信号的第一频域信号，然后获取该第一频域信号的初始相位和频段信息，根据初始相位和预设相位差，对第一频域信号进行频谱搬移，得到第二频域信号，对第二频域信号进行傅里叶逆变换，就可以得到第二通路信号。

为了使得生成的目标音频信号的音效更符合人耳的敏感度，产生更真实的立体音效，本发明实施例在对第一通路信号进行去相关处理时，可以针对不同的第一频域信号的频段设置不同的预设相位差。具体的，人耳越敏感的频段，预设相位差越小，人耳越不敏感的频段，预设相位差越大。例如，对人耳比较敏感的2kHz至4kHz频段设置最小的相位差，对其他频段设置较大的相位差，然后按照确定的预设相位差，在初始相位的基础上对第一通路信号的每个频段进行频谱搬移，得到第二通路信号对应的第二频域信号。具体的，假设第一通路信号的第一频域信号，初始相位为w1，预设相位差为w2，那么进行频谱搬移后得到的第二通路信号对应的第二频域信号的初始相位为w1+w2，或w1-w2。这样不仅可以增加第一通路信号与第二通路信号之间的差异，提高生成的目标音频信号的立体感，也不会使收听目标音频信号的用户产生额外的不适感。

需要说明的是，当同时对第一通路信号进行频域相位处理和时域延时处理时，没有先后顺序限定。可以先对第一通路信号进行频域相位处理，再进行时域延时处理；也可以先对第一通路信号进行时域延时处理，再对延时后的第一通路信号进行频域相位处理。

可选地，步骤102所述对所述左对白信号、所述左音乐信号、所述右对白信号和所述右音乐信号进行合成处理，生成中置通路信号，包括：按照第三合成比例对所述左对白信号、所述左音乐信号、所述右对白信号和所述右音乐信号进行合成处理，得到中置通路信号，所述第三合成比例中对白信号的占比大于音乐信号的占比。

假设对立体声音频信号的左右声道信号分别进行分离后，得到左对白信号v_L、左音乐信号m_L、右对白信号v_R、右音乐信号m_R，且待生成的中置通路信号中对白信号和音乐信号的第三合成比例为n1:n2，则中置通路信号C可以表示为：

C＝[n1×(v_L+v_R)+n2×(m_L+m_R)]/2(n1+n2) (3)

其中，n1大于n2，且n1+n2＝1。

由于中置通路信号主要用于提高环绕声中整体对白的语音清晰度，需要包含大量的前方声场信息，作为左通路信号和右通路信号的补偿，以便提供更宽的声场和稳定的声像，因此中置通路信号中对白信号的比例大于音乐信号。

实际场景中，n1与n2之间可以尽可能差距较大，形成n1远大于n2的效果。例如，n1取值为95％，n2取值为5％。

在本发明实施例中，通过先对立体声音频信号进行分离处理，得到左对白信号、左音乐信号、右对白信号、右音乐信号，提高了立体声音频信号的分离度，然后基于待生成的目标音频信号中各个通路信号的不同信号特性，可以按照不同的信号合成比例，对分离得到的对白信号和音乐信号分别进行不同的信号处理，得到满足不同通路信号特征的通路信号，增强了各个通路信号之间的差异，提高了生成的目标音频信号的空间感。

本发明实施例生成的目标音频信号包含的各个通路信号，除了中置通路信号、左通路信号、右通路信号和低频效果通路信号，还可以包括环绕效果通路信号，为目标音频信号提供更丰富的声场信息。例如，目前应用比较广泛的环绕声信号：5.1声道音频信号，就包含中置通路信号、左通路信号、右通路信号、低频效果通路信号、左环绕效果通路信号和右环绕效果通路信号。

因此，在本发明前述任意一种实施例的基础上，所述方法还可以包括：

步骤S21、对所述第一通路信号进行环境声信号提取处理，生成第三通路信号，所述第三通路信号为所述第一通路信号同侧的环绕效果通路信号。

需要说明的是，所述环境声为所述第一通路信号中听者无法感受到声源确定方向的部分。并且，环境声信号与音乐信号并不相同。以歌手演唱会对应的立体声音频信号为例，对白信号为歌手的人声，音乐信号为歌曲的配乐，环境声为观众的欢呼声、掌声等。

参照图3，示出了本发明实施例中的另一种立体声音频信号的处理流程图。其中，左环绕效果通路信号和右环绕效果通路信号主要包含听音区域的环境声信息，提供有包围感的环绕声场和更丰富的声场信息。如图3所示，可以通过提取左通路信号中的环境声信号得到左环绕效果通路信号，提取右通路信号中的环境声信号得到右环绕效果通路信号。

相比于中置通路信号、左通路信号、右通路信号和低频效果通路信号，环绕效果通路信号可以增强目标音频信号的环绕声场，提高目标音频信号的空间感，增强目标音频信号的环绕声音效。

其中，如果第一通路信号为左通路信号，则第三通路信号为左环绕效果通路信号；如果第一通路信号为右通路信号，则第三通路信号为右环绕效果通路信号。

在本发明实施例中，除了可以通过对第二通路信号进行环境声提取处理，得到第四通路信号，第四通路信号为第二通路信号同侧的环绕效果通路信号。也就是，采取与S21同样的方式来得到第四通路信号。

除此之外，步骤S21所述对所述第一通路信号进行环境声信号提取处理，生成第三通路信号之后，所述方法还包括：

步骤S22、对所述第三通路信号进行去相关处理，生成第四通路信号，所述第四通路信号为所述第三通路信号对侧的环绕效果通路信号。

去相关处理的具体实现过程，可以参照步骤S12中对第一通路信号进行去相关处理，得到第二通路信号的具体处理过程。

基于去相关处理得到的第四通路信号，与第一通路信号相比，除了相位、信号时序存在差异之外，幅度、频率均相似，这就导致得到的第三通路信号和第四通路信号的信号差异较小，有可能会影响最终生成的目标音频信号的立体感。由于本发明实施例中，已经预先将立体声音频信号中的左对白信号、左音乐信号、右对白信号和右音乐信号分离出来了，直接对同侧的对白信号和音乐信号进行合成处理后，得到第一通路信号和第二通路信号。第二通路信号与第一通路信号中包含的信号不同，两个通路信号的差异更大。因此，在本发明实施例中，为了提高目标音频信号的立体感，直接对第一通路信号和第二通路信号分别进行环境声提取处理，生成第三通路信号和第四通路信号，更有利于提升信号的空间感，得到更具空间效果的声音体验。

可选地，步骤S21所述对所述第一通路信号进行环境声信号提取处理，生成第三通路信号，包括：

子步骤S211、提取所述第一通路信号中的环境声部分，得到环境声信号；

子步骤S212、对所述环境声信号进行延时处理，得到所述第三通路信号。

在本发明实施例中，为了进一步增强生成的目标音频信号的空间感，可以在提取第一通路信号中的环境声部分，得到环境声信号之后，对环境声信号进行延时处理，得到第三通路信号，也即第一通路信号同侧的环绕效果通路信号，从而增大第三通路信号与第一通路信号之间的差异，提高了基于各个通路信号合成得到的目标音频信号的空间感，增强了目标音频信号的环绕声音效。需要说明的是，对环境声信号进行延时处理时，可以在保证生成的目标音频信号可以正常播放的情况下，根据实际需求确定具体的延长时间。

可选地，子步骤S211所述提取所述第一通路信号中的环境声部分，得到环境声信号，包括：

A11、对所述第一通路信号的时域信号进行傅里叶变换，得到第一频域信号；

A12、对所述第一频域信号进行参数分析，确定所述第一频域信号中相干声的频域信号特征；

A13、根据所述第一频域信号中相干声的频域信号特征，对所述第一频域信号进行滤波处理，得到所述第一通路信号对应的环境声信号。

第一通路信号可以看作是相干声信号和环境声信号的叠加。相干声信号为左通路信号与右通路信号之间的相关信号，听者可以依据音频信号中的相干声感受到声源的方向。例如，歌曲中的人声就是相干声。环境声信号为左通路信号与右通路信号之间不相关的信号，听者无法从环境声信号中感受到声源的确定方向。例如，综艺节目的音频信号中观众的鼓掌声、欢呼声就是环境声信号。因此，在本发明实施例中，可以对第一通路信号进行频域分析，根据第一通路信号的频域特征，提取第一通路信号中的环境声信号。需要说明的是，所述环境声信号与本发明实施例中的音乐信号并不相同。以歌手演唱会对应的立体声音频信号为例，对白信号为歌手的人声，音乐信号为歌曲的配乐，环境声为观众的欢呼声、掌声等。

具体的，可以先对第一通路信号的时域信号进行傅里叶变换，得到第一频域信号。然后对第一频域信号进行参数分析，确定第一频域信号中相干声的频域信号特征。由于第一通路信号中的相干声为左通路信号与右通路信号之间的相关信号，因此，可以通过对左通路信号的频域信号和右通路信号的频域信号进行比对，确定第一频域信号中相干声的频域信号特征。基于相干声的频域信号特征，对第一频域信号进行滤波处理，也即滤除第一频域信号中符合相干声的频域信号特征的信号，就可以得到第一通路信号中的环境声信号。

根据提取出来的环境声信号生成第三通路信号，可以使得第三通路信号最大限度的包含听音区域的环境声信息，为生成的目标音频信号提供有包围感的环绕声场和更丰富的声场信息；并且生成的第三通路信号与第一通路信号的差异明显，使得基于各个通路信号合成得到的目标音频信号的立体感更强。

可选地，A12所述对所述第一频域信号进行参数分析，确定所述第一频域信号中相干声的频域信号特征，包括：

A121、确定所述第一频域信号对应的第一向量；

A122、对所述第一向量进行矩阵分析，得到所述第一向量对应的单位向量；

A123、确定所述第一向量投影到所述单位向量上的第一幅度；

A124、根据所述第一幅度和所述单位向量，确定所述第一频域信号的第一相干声向量；

A125、根据所述第一相干声向量，确定所述第一频域信号中相干声的频域信号特征。

其中，第一向量为第一频域信号对应的向量，可以通过将第一通路信号变换至短时傅里叶变换域内，并用向量表示第一通路信号的短时傅里叶信号，也即第一频域信号，得到第一向量。

对第一向量进行矩阵分析，就可以得到第一向量的单位向量。将第一向量映射到单位向量上，就可以得到第一通路信号中，相干声信号的信号幅度，也即第一幅度。根据第一幅度和单位向量，就可以确定第一频域信号中相干声的第一相干声向量；根据第一相干声向量，就可以确定第一频域信号中相干声的频域信号特征，以便根据相干声的频域信号特征，得到第一通路信号中的环境声信号。

下面，将结合信号表达式说明本发明实施例步骤S21所述对所述第一通路信号进行环境声信号提取处理，生成第三通路信号的具体处理过程。示例性的，同时也提供对所述第二通路信号进行环境声信号提取处理，生成第四通路信号的方式，二者一起说明。

具体的，首先，将第一通路信号和第二通路信号的时域信号，也即左通路信号和右通路信号，表示为相干声信号和环境声信号的叠加。时域左通路信号和时域右通路信号分别表示为：

x_L(n)＝p_L(n)+a_L(n) (4)

x_R(n)＝p_R(n)+a_R(n) (5)

其中，n为信号变量，x_L(n)表示左通路信号，p_L(n)表示左通路信号的相干声信号，a_L(n)表示左通路信号的环境声信号；x_R(n)表示右通路信号，p_R(n)表示右通路信号的相干声信号，a_R(n)表示右通路信号的环境声信号。

由于左通路信号中的相干声信号和右通路信号中的相干声信号是相关的，也即公式(4)和公式(5)中的p_L(n)和p_R(n)是相关的，因此p_R(n)可以由p_L(n)线性表示。记p_L(n)＝s(n)，则p_R(n)＝β(n)s(n)，其中s(n)表示相干声成分，β(n)表示左右通路信号中相干声成分的幅度差异因子。此时，公式(4)可以表示为如下公式(6)，公式(5)可以表示为如下公式(7)：

x_L(n)＝s(n)+a_L(n) (6)

x_R(n)＝β(n)s(n)+a_R(n) (7)

经过对第一通路信号的时域信号的上述分析，对第一通路的时域信号执行步骤A11，对第一通路的时域信号进行傅里叶变换。

将上述公式(6)和公式(7)表示的左通路信号和右通路信号的时域信号进行傅里叶变换，得到左右通路信号的频域信号，分别表示为：

X_L(i，k)＝S(i，k)+A_L(i，k) (8)

X_R(i，k)＝B(i，k)S(i，k)+A_R(i，k) (9)

其中，i表示时间帧索引，k表示频点索引。

紧接着，对左右通路的频域信号执行步骤A12，对上述频域信号进行参数分析，确定第一频域信号中相干声的频域信号特征。

在已知左通路信号X_L(i，k)和右通路信号X_R(i，k)的情况下，估计参数S(i，k)、B(i，k)、A_L(i，k)和A_R(i，k)确定上述频域信号中相干声的频域信号特征，就可以根据第一频域信号中相干声的频域信号特征，就可以完成左右通路信号中相干声信号和环境声信号的提取。具体的，可以采用但不限于：最小二乘法、最小二乘法、主要成分分析法、非负矩阵法、参数维纳滤波法等中的任意一种或多种方法对左通路信号和右通路信号进行参数分析。需要说明的是，本发明实施例列举的计算方法只是举例说明，并不构成对本发明实施例中相干声信号与环境声信号提取方法的限定。本发明实施例在此以主要成分分析法为例进行说明，不对其他方法进行进一步展开。

具体的，首先，对第一通路信号的第一频域信号执行步骤A121，确定所述第一频域信号对应的第一向量：将左通路信号和右通路信号变换至短时傅里叶变换域内，并用向量表示为：

X_L(f，k)＝[X_L(i，k)，X_L(i-1，k)，…]^T (10)

X_R(i，k)＝[X_R(i，k)，X_R(i-1，k)，…]^T (11)

以同样的方式对公式(5)和公式(6)中的其他参数进行向量表示，且假设相干声向量对应的单位向量为V，即第一频域信号的第一向量可以表示为：

X_L＝ρ_LV+A_L (12)

X_R＝ρ_RV+A_R (13)

其中，ρ_L表示左通路信号的相干声向量投影到单位向量V上的幅度，ρ_R表示右通路信号的相干声向量投影到单位向量V上的第一幅度。

然后，执行步骤A122，对第一向量进行矩阵分析，得到第一向量对应的单位向量。

输入信号，也即左通路信号和右通路信号，可以用矩阵X表示，即：

X＝[X_L，X_R]^H (14)

通过矩阵分析，输入信号的协方差矩阵XX^H的最大特征值对应的特征矢量即为所要求的单位向量V。可以通过输入信号(左通路信号和右通路信号)的自相关和互相关计算该最大特征值。输入信号的自相关和互相关定义为：

输入信号的协方差矩阵的最大特征值可以表示为：

因此，单位向量V可以表示为：

V＝r_LRX_L+(λ-r_LL)X_R (19)

进一步的，执行步骤A123，确定所述第一向量投影到所述单位向量上的第一幅度。当求出单位向量V，将左通路信号和右通路信号分别映射到单位向量V上就可以求出左右通路信号的相干声向量投影到单位向量V上的第一幅度ρ_L和ρ_R。

最后，执行步骤A124至步骤A125，根据所述第一幅度和所述单位向量，确定所述第一频域信号的第一相干声向量，并根据所述第一相干声向量，确定所述第一频域信号中相干声的频域信号特征。由单位向量V和第一幅度ρ_L、ρ_R便可以得到左通路信号对应的相干声信号和右通路信号对应的相干声信号，再依据公式(4)和公式(5)就可以得到左通路信号对应的环境声信号和右通路信号对应的环境声信号。

根据左通信号对应的环境声信号就可以生成左环绕效果通路信号，同理，根据右通路信号对应的环境声信号就可以生成右环绕效果通路信号。为了提高最终生成的目标音频信号的空间感，还可以对左环绕效果通路信号或右通路信号进行适当的延时处理，以便于听者区分左环绕效果通路信号或右环绕效果通路信号，得到身临其境的感觉。其中，延时处理具体延长多少时间，根据实际需求确定。

前述各实施例分别阐述了如何对各个通路信号进行生成，现对步骤105中合成步骤的实现方式进行说明。

在对各通路信号进行合成处理时，如果得到的各个通路信号中不包含环绕效果通路信号，也即不包含本发明实施例中的第三通路信号和第四通路信号，则确定中置通路信号、第一通路信号、第二通路信号和低频效果通路信号的第二合成比例，并根据第二合成比例对前述各通路信号进行合成处理，得到目标音频信号。

如果得到的各个通路信号中包含环绕效果通路信号，也即包含本发明实施例中的第三通路信号和第四通路信号，则确定中置通路信号、第一通路信号、第二通路信号、第三通路信号、第四通路信号和低频效果通路信号的第二合成比例，并根据第二合成比例对前述各通路信号进行合成处理，得到目标音频信号。

其中，第二合成比例可以根据想到达到的环绕声音效确定。例如，如果想要得到的目标音频信号的环绕音效明显，则可以为提供环绕声场的第三通路信号和第四通路信号在第二合成比例中的适当设置较大的占比。

示例性的一种实施例中，可以根据立体声音频信号的音频内容确定待生成的目标音频信号中各通路信号的信号能量增益，然后根据信号能量增益确定第二合成比例。

其中，各通路信号的信号能量增益用于表征信号强度，信号能量增益越大，该通路信号的信号强度越大。不同类型的音频内容目标音频信号中，各通路信号的信号能量增益不同。例如，在综艺类节目的音频信号中，对白信号的信号强度大，因而中置通路信号的信号能量增益比较大，根据信号能量增益，可以在第二合成比例中，为中置通路信号设置较大的比例；而在电视剧的音频信号中，音乐信号的信号强度较大，因而第一通路信号、第二通路信号的信号能量增益比较大，可以在第二合成比例中，为第一通路信号、第二通路信号设置较大的比例。

本发明实施例可以根据实际需求设置各个通路信号的信号合成比例，进而按照合成比例对各个通路信号进行合成处理，得到目标音频信号，提高了生成目标音频信号时，参数设置的灵活性，可以满足多种环绕声音效的模拟需求，提高了音频信号生成方法的适用性。

可选地，所述对所述中置通路信号、所述第一通路信号、所述第二通路信号和所述低频效果通路信号进行合成处理，生成目标音频信号，包括：

步骤S31、确定所述目标音频信号中各通路信号的第二合成比例；

步骤S32、根据所述第二合成比例，对各通路信号进行合成处理，生成目标音频信号。

在本发明实施例中，除了可以在生成中置通路信号和第一通路信号时，设置对白信号和音乐信号的合成比例，还可以在对各个通路信号进行合成处理，生成目标音频信号时，设置各个通路信号的第二合成比例，然后根据第二合成比例对各个通路信号进行合成处理，得到目标音频信号。

可选地，步骤S32所述根据所述第二合成比例，对各通路信号进行合成处理，生成目标音频信号，包括：

子步骤S321、根据所述立体声音频信号的音频内容确定待生成的目标音频信号中各通路信号的信号能量增益；

子步骤S322、根据所述信号能量增益调整所述第二合成比例；

子步骤S322、根据调整后的第二合成比例，对各通路信号进行合成处理，生成目标音频信号。

在本发明实施例中，在生成目标音频信号时，还可以进一步根据立体声音频信号的音频内容，对各个通路信号的第二合成进行调整，使得生成的目标音频信号更加符合实际音效需求。例如，当立体声音频信号的音频内容为综艺节目音频时，由于综艺节目的音频信号中，对白信号的比例本身比较高，为了避免生成的目标音频信号中对白信号的比例过高，影响目标音频信号的空间感，可以适当减小第二合成比例中，中置通路信号的占比，增大左右通路信号和左右环绕效果通路信号的占比。当立体声音频信号的音频内容为电影或电视剧的音频时，由于相比其他音频，电影或电视剧的音频信号中，音乐信号的比例较大，如果音乐信号过强，就会影响对白信号的清晰度，因此，可以适当增大中置通路信号的在第二合成比例中的占比。在实际应用中，可以根据立体声音频信号的音频内容确定第二合成比例的具体调整方式，对此本发明实施例不做具体限定。

本发明实施例可以根据立体声音频信号的音频内容调整各个通路信号的第二合成比例，然后根据调整后的第二合成比例对各个通路信号进行合成处理，得到目标音频信号，在保证目标音频信号的空间感的同时，使得目标音信号的音效更符合实际需求，能够满足多种立体声音频信号的处理需求，提高了立体声音频信号模拟环绕声信号的灵活性。

可选地，步骤101所述对立体声音频信号进行分离处理，得到所述立体声音频信号对应的左对白信号、左音乐信号、右对白信号和右音乐信号，包括：

将立体声音频信号的左声道信号和右声道信号输入到预先训练好的信号分离模型中，得到所述立体声音频信号对应的左对白信号、左音乐信号、右对白信号和右音乐信号。

在本发明实施例中，可以预先建立并训练信号分离模型，通过将立体声音频信号的左声道信号和右声道信号输入到预先训练好的信号分离模型中，就可以得到立体声音频信号对应的左对白信号、左音乐信号、右对白信号和右音乐信号。具体处理过程如下：

首先，建立信号分离模型，并对该信号分离模型进行训练。具体的，预先基于深度学习的对白分离算法构建信号分离模型，然后获取样本信号集，基于获取的样本信号集对构建的信号分离模型进行训练。

在本发明实施例中，可以基于全连接神经网络的算法、基于SonyNet的算法、基于卷积降噪自编码器的算法、基于PritishNet的算法、基于循环神经网络的算法、基于wav-U-Net的算法等等，构建信号分离模型。对于构建信号分离模型的具体算法，本发明实施例不做具体限定。下面将以基于wav-U-Net的算法构建信号分离模型为例，说明本发明实施例中，针对立体声音频信号中的对白信号和音乐信号的分离处理过程。

由于系统的计算量直接与信号的采样率成正比，因此，为了减少系统的处理时间，提高分离效率，通常会先对输入信号进行降采样处理，也就是下采样处理，通过降低输入信号的采样率，也即减少输入信号的采样点，将输入信号的采样率转换为预设采样率。降采样之后的输入信号需要仍然满足奈奎斯特采样定理。其中，由于声音信号分布在高频的能量很小，因此，本发明实施例中，设置的预设采样率通常处于中低频段，例如16kHz，这样即使对输入信号进行降采样也不会给人带来很大的感官影响。

进行降采样处理的输入信号可以是立体声音频信号，也可以是立体声音频信号的左声道信号或者右声道信号。此外，为了进一步提高分离效率，还可以对输入信号进行分割处理，将输入信号分割为多个音频信号段，分别对每一个音频信号段进行分离处理，得到各个音频信号段对应的对白信号段和音乐信号段，再对各个音频信号段对应的对白信号段和音乐信号段进行拼接处理，就可以得到输入信号对应的对白信号和音乐信号。

将降采样之后的输入信号输入到wav-U-Net网络中，得到输出的对白信号和音乐信号，再对输出的对白信号和音乐信号进行上采样，增加输出的对白信号和音乐信号的采样率，也即增加输出的对白信号和音乐信号的采样点，将对白信号和音乐信号的采样率恢复为输入信号的采样率，得到最终的对白信号和音乐信号。

需要说明的是，在本发明实施例中，也可以在将立体声音频信号输入到信号分离模型之前，先对立体声音频信号进行降采样、分割处理等预处理过程，然后将预处理之后的立体声音频信号作为输入信号，输入到信号分离模型中，由信号分离模型直接对预处理之后的立体声音频信号进行分离处理，得到立体声音频信号对应的对白信号和音乐信号。

在本发明实施例中，通过wav-U-Net网络对输入信号进行信号分离处理时，可以通过对输入信号预测掩膜实现对白分离，也可以通过对输入信号预测幅度实现对白分离。根据预测内容不同，wav-U-Net网络对输入信号的分离过程也不同。其中，预测掩膜是指通过将输入信号的时频图的幅度输入到wav-U-Net网络中预测时频掩膜，时频掩膜用于指示输入信号中对白信号和音乐信号的时频位置。预测幅度是指基于wav-U-Net网络直接预测输入信号的幅度时频图。

假设输入的立体声音频信号分别为对自信号和音乐信号的混合信号，则输入信号可以表示为：

y(t)＝v(t)+m(t) (20)

其中，y(t)表示输入信号的时域信号，v(t)表示对自信号的离散时间序列，m(t)表示音乐信号的离散时间序列。

以预测掩膜为例，基于wav-U-Net网络构建信号分离模型，将立体声音频信号输入到该信号分离模型中，将依次经过以下模块的处理：

1、降采样模块：对输入信号进行降采样处理，使得降采样后的输入信号的采样率满足预设采样率。

2、短时傅里叶变换模块：通过短时傅里叶变换将降采样后的时域信号y(t)转换为频域信号Y(t，f)。

3、预测掩膜模块：将频域信号的幅度|Y(t，f)|输入到wav-U-Net网络预测时频掩膜W(t，f)。

4、时频掩膜处理模块：将预测的时频掩膜W(t，f)与输入信号的频域信号Y(t，f)相乘得到对自信号的频域信号和音乐信号的频域信号：

V(t，f)＝Y(t，f)W(t，f) (21)

M(t，f)＝Y(t，f)(1-M(t，f)) (22)

5、短时傅里叶逆变换模块：通过短时傅里叶逆变换将对自信号和音乐信号的频域信号转换时域信号。

6、上采样模块：对得到的对自信号的时域信号和音乐信号的时域信号进行上采样并输出，就得到了从输入的立体声音频信号中分离出来的对自信号和音乐信号。

构建信号分离模型之后，还需要对构建的模型进行进一步训练，以保证模型的准确性和处理效率。具体的，将所述立体音频样本信号输入到预先构建的信号分离模型中，得到对白输出信号和音乐输出信号；根据所述对白样本信号和所述对白输出信号，以及所述音乐样本信号和所述音乐输出信号确定损失值；若所述损失值不满足预设条件，则调整所述信号分离模型的训练参数，直至所述损失值满足预设条件；根据所述损失值满足预设条件时对应的训练参数确定训练好的信号分离模型。

在训练信号分离模型时，首先需要构建训练所需的样本信号集，样本信号集包括输入数据立体声音频样本信号，以及立体声音频信号样本对应的对白样本信号和音乐样本信号。其中，本发明实施例在获取样本信号集时，可以分别获取独立的对白信号和音乐信号，然后将对白信号和音乐信号进行混合，得到立体声音频信号，将得到的立体声音频信号作为立体声音频样本信号，将混合该立体声音频信号时所用到的对白信号和音乐信号作为该立体声音频样本信号对应的对白样本信号和音乐样本信号。

训练时，将立体声音频信号输入到预先构建的信号分离模型中，得到输出信号：对白输出信号和音乐输出信号，根据对白样本信号和对白输出信号，以及音乐样本信号和音乐输出信号计算损失函数，得到损失值，以确定对白样本信号和对白输出信号，以及音乐样本信号和音乐输出信号之间的差异。损失值越小，对白输出信号越接近对白样本信号，音乐输出信号越接近音乐样本信号，说明分离结果越准确。因此，可以根据想到达到的准确度，预先确定损失值所需要满足的预设条件。当损失值满足预设条件时，说明信号分离模型的当前准确度已经符合预期，可以停止训练；当损失值不满足预设条件时，说明信号分离模型的当前准确度还未达到预取，可以通过调整信号分离模型的训练参数，如输入通道数、输出通道数、卷积核大小、卷积核移动步长等，或者调整信号分离模型的学习率，然后继续进行模型训练，直至损失值满足预设条件，就可以得到训练好的信号分离模型。将立体声音频信号直接输入到训练好的信号分离模型中，就可以得到立体声音频信号对应的对白信号和音乐信号，简化了信号分离的处理流程，提高了信号分离效率。

综上所述，本发明实施例提供的音频信号处理方法，在模拟环绕声信号的过程中，先将立体声音频信号的左声道信号和右声道信号中的对白信号和音乐信号提取出来，得到左对白信号、左音乐信号、右对白信号、右音乐信号，提高了立体声音频信号的分离度，然后基于待生成的目标音频信号中各个通路信号的不同信号特性，对分离得到的对白信号和音乐信号分别进行不同的信号处理，得到满足不同通路信号特征的通路信号，如此，增强了各个通路信号之间的差异，提高了模拟的环绕声的空间感；并且信号分离并不会导致音频信号的音色变化，增强了模拟的环绕声的音效。

图4是本发明实施例提供的一种音频信号处理装置的框图，如图4所示，该装置20可以包括：

信号分离模块201，用于对立体声音频信号进行分离处理，得到所述立体声音频信号对应的左对白信号、左音乐信号、右对白信号和右音乐信号；

中置通路信号生成模块202，用于对所述左对白信号、所述左音乐信号、所述右对白信号和所述右音乐信号进行合成处理，生成中置通路信号；

单通路信号生成模块203，用于基于同侧的对白信号与音乐信号，分别生成第一通路信号与第二通路信号，所述第一通路信号为左通路信号或右通路信号，所述第二通路信号为所述第一通路信号对侧的单通路信号；

低频效果通路信号生成模块204，用于对所述左音乐信号和所述右音乐信号进行低音提取处理，生成低频效果通路信号；

目标音频信号生成模块205，用于对所述中置通路信号、所述第一通路信号、所述第二通路信号和所述低频效果通路信号进行合成处理，生成目标音频信号。

可选地，所述装置20还包括：

环绕效果通路信号生成模块，用于对所述第一通路信号进行环境声信号提取处理，生成第三通路信号，所述第三通路信号为所述第一通路信号同侧的环绕效果通路信号。

可选地，所述环绕效果通路信号生成模块，包括：

环境声信号提取子模块，用于提取所述第一通路信号中的环境声部分，得到环境声信号；

第三通路信号生成子模块，用于对所述环境声信号进行延时处理，得到所述第三通路信号。

可选地，所述装置还包括：

第四通路信号生成模块，用于对所述第三通路信号进行去相关处理，生成第四通路信号，所述第四通路信号为所述第三通路信号对侧的环绕效果通路信号。

可选地，所述环境声信号提取子模块，包括：

第一频域信号生成单元，用于对所述第一通路信号的时域信号进行傅里叶变换，得到第一频域信号；

频域信号特征确定单元，用于对所述第一频域信号进行参数分析，确定所述第一频域信号中相干声的频域信号特征；

环境声信号生成单元，用于根据所述第一频域信号中相干声的频域信号特征，对所述第一频域信号进行滤波处理，得到所述第一通路信号对应的环境声信号。

可选地，所述频域信号特征确定单元，包括：

第一向量确定子单元，用于确定所述第一频域信号对应的第一向量；

单位向量确定子单元，用于对所述第一向量进行矩阵分析，得到所述第一向量对应的单位向量；

第一幅度确定子单元，用于确定所述第一向量投影到所述单位向量上的第一幅度；

第一相干声向量确定子单元，用于根据所述第一幅度和所述单位向量，确定所述第一频域信号的第一相干声向量；

频域信号特征确定子单元，用于根据所述第一相干声向量，确定所述第一频域信号中相干声的频域信号特征。

可选地，所述单通路信号生成模块203，包括：

第一单通路信号生成子模块，用于按照第一合成比例分别对同侧的对白信号与音乐信号进行合成处理，得到所述第一通路信号与所述第二通路信号；

或者，

第二单通路信号生成子模块，用于按照第一合成比例对同侧的对白信号与音乐信号进行合成处理，得到所述第一通路信号；对所述第一通路信号进行去相关处理，得到所述第二通路信号；

可选地，所述目标音频信号生成模块205，包括：

第二合成比例确定子模块，用于确定所述目标音频信号中各通路信号的第二合成比例；

目标音频信号生成子模块，用于根据所述第二合成比例，对各通路信号进行合成处理，生成目标音频信号。

可选地，所述第二合成比例确定子模块，包括：

信号能量增益确定单元，用于根据所述立体声音频信号的音频内容确定待生成的目标音频信号中各通路信号的信号能量增益；

第二合成比例确定单元，用于根据所述信号能量增益调整所述第二合成比例；

目标音频信号合成单元，用于根据调整后的第二合成比例，对各通路信号进行合成处理，生成目标音频信号。

可选地，所述中置通路信号生成模块202，包括：

中置通路信号生成子模块，用于按照第三合成比例对所述左对白信号、所述左音乐信号、所述右对白信号和所述右音乐信号进行合成处理，得到中置通路信号，所述第三合成比例中对白信号的占比大于音乐信号的占比。

可选地，所述信号分离模块201，包括：

信号分离子模块，用于将立体声音频信号的左声道信号和右声道信号输入到预先训练好的信号分离模型中，得到所述立体声音频信号对应的左对白信号、左音乐信号、右对白信号和右音乐信号。

综上所述，本发明实施例提供的音频信号处理装置，通过先将立体声音频信号的左声道信号和右声道信号中的对白信号和音乐信号提取出来，得到左对白信号、左音乐信号、右对白信号、右音乐信号，提高了立体声音频信号的分离度，然后基于待生成的目标音频信号中各个通路信号的不同信号特性，对分离得到的对白信号和音乐信号分别进行不同的信号处理，得到满足不同通路信号特征的通路信号，如此，增强了各个通路信号之间的差异，提高了模拟的环绕声的空间感；并且信号分离并不会导致音频信号的音色变化，增强了模拟的环绕声的音效。

对于上述装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

另外，本发明实施例还提供一种电子设备，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述音频信号处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述音频信号处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此提供的音频信号处理方法不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造具有本发明方案的系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的操作执行方法中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种音频信号处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述第一通路信号进行环境声信号提取处理，生成第三通路信号，所述第三通路信号为所述第一通路信号同侧的环绕效果通路信号。

3.根据权利要求2所述的方法，其特征在于，所述对所述第一通路信号进行环境声信号提取处理，生成第三通路信号，包括：

提取所述第一通路信号中的环境声部分，得到环境声信号；

对所述环境声信号进行延时处理，得到所述第三通路信号。

4.根据权利要求2所述的方法，其特征在于，所述对所述第一通路信号进行环境声信号提取处理，生成第三通路信号之后，所述方法还包括：

对所述第二通路信号进行环境声提取处理，得到第四通路信号；

或者，对所述第三通路信号进行去相关处理，生成第四通路信号，所述第四通路信号为所述第三通路信号对侧的环绕效果通路信号。

5.根据权利要求3所述的方法，其特征在于，所述提取所述第一通路信号中的环境声部分，得到环境声信号，包括：

对所述第一通路信号的时域信号进行傅里叶变换，得到第一频域信号；

对所述第一频域信号进行参数分析，确定所述第一频域信号中相干声的频域信号特征；

根据所述第一频域信号中相干声的频域信号特征，对所述第一频域信号进行滤波处理，得到所述第一通路信号对应的环境声信号。

6.根据权利要求5所述的方法，其特征在于，所述对所述第一频域信号进行参数分析，确定所述第一频域信号中相干声的频域信号特征，包括：

确定所述第一频域信号对应的第一向量；

对所述第一向量进行矩阵分析，得到所述第一向量对应的单位向量；

确定所述第一向量投影到所述单位向量上的第一幅度；

根据所述第一幅度和所述单位向量，确定所述第一频域信号的第一相干声向量；

根据所述第一相干声向量，确定所述第一频域信号中相干声的频域信号特征。

7.根据权利要求1所述的方法，其特征在于，所述基于同侧的对白信号与音乐信号，分别生成第一通路信号与第二通路信号，包括：

按照第一合成比例分别对同侧的对白信号与音乐信号进行合成处理，得到所述第一通路信号与所述第二通路信号；

或者，

按照第一合成比例，对同侧的对白信号与音乐信号进行合成处理，得到所述第一通路信号；对所述第一通路信号进行去相关处理，得到所述第二通路信号；

8.根据权利要求1至7任一所述的方法，其特征在于，所述对所述中置通路信号、所述第一通路信号、所述第二通路信号和所述低频效果通路信号进行合成处理，生成目标音频信号，包括：

确定所述目标音频信号中各通路信号的第二合成比例；

根据所述第二合成比例，对各通路信号进行合成处理，生成目标音频信号。

9.根据权利要求8所述的方法，其特征在于，所述根据所述第二合成比例，对各通路信号进行合成处理，生成目标音频信号，包括：

根据所述立体声音频信号的音频内容确定待生成的目标音频信号中各通路信号的信号能量增益；

根据所述信号能量增益调整所述第二合成比例；

根据调整后的第二合成比例，对各通路信号进行合成处理，生成目标音频信号。

10.根据权利要求1所述的方法，其特征在于，所述对所述左对白信号、所述左音乐信号、所述右对白信号和所述右音乐信号进行合成处理，生成中置通路信号，包括：

按照第三合成比例，对所述左对白信号、所述左音乐信号、所述右对白信号和所述右音乐信号进行合成处理，得到中置通路信号，所述第三合成比例中对白信号的占比大于音乐信号的占比。

11.根据权利要求1所述的方法，其特征在于，所述对立体声音频信号进行分离处理，得到所述立体声音频信号对应的左对白信号、左音乐信号、右对白信号和右音乐信号，包括：

12.一种音频信号处理装置，其特征在于，所述装置包括：

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至11中任一所述的音频信号处理方法。

14.一种电子设备，其特征在于，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的数据处理程序，以实现权利要求1-11任一所述的方法。