CN108966110B

CN108966110B - 声音信号处理方法、装置及系统、终端及存储介质

Info

Publication number: CN108966110B
Application number: CN201710358516.7A
Authority: CN
Inventors: 陈日林; 李贤胜; 赵翔宇
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-05-19
Filing date: 2017-05-19
Publication date: 2020-02-14
Anticipated expiration: 2037-05-19
Also published as: CN108966110A

Abstract

本申请公开了一种声音信号处理方法、装置及系统、终端及存储介质，属于声音信号处理领域。所述方法包括：获取两组声音输入信号；对所述两组声音输入信号进行相干估计得到每组声音输入信号的相干信号；将每组声音输入信号与对应的相干信号之差确定为每组声音输入信号的离散信号；基于头相关传递函数HRTF对所述每组声音输入信号的相干信号进行声像扩展处理，以得到每组声音输入信号的对应的声像扩展后的相干信号；对于每组声音输入信号，将声像扩展后的相干信号与所述离散信号之和确定为对应的声音输出信号。本申请扩展声音信号时不会将不必要的信息引入输出的信号中，不会导致输出的信号失真。本申请用于声音信号处理。

Description

声音信号处理方法、装置及系统、终端及存储介质

技术领域

本申请涉及声音信号处理领域，特别涉及一种声音信号处理方法、装置及系统、终端及存储介质。

背景技术

为了获得更好的听觉体验，越来越多的人选择使用耳机播放立体声信号。但是，若直接在耳机上播放输入的立体声信号，播放出的声音会出现声像过窄的现象，使听音者听到的声音的立体感较弱，导致听音者的听觉体验不佳，其中，声像是指在听音者听感中展现的各声部的空间位置所形成的声画面。因此，如何对输入的立体声信号进行声像扩展并输出是重要的技术热点。

相关技术中，使用双耳房间冲击响应(BRIR，Binaural Room Impulse Response)对输入的立体声信号进行处理，以得到扩展声像后的输出信号，其中，BRIR描述了声音在房间中从声源到声音接收位置处的传输过程。具体地，该信号处理过程为：分别将输入的立体声信号包括的多组信号中的每组信号与左耳BRIR序列做卷积运算，然后将得到的多个卷积运算结果之和作为左耳输出信号，同时，分别将输入的立体声信号包括的多组信号中的每组信号与右耳BRIR序列做卷积运算，然后将得到的多个卷积运算结果之和作为右耳输出信号。

但是，由于BRIR描述的是房间中的声音传输过程，其中包含了房间的虚拟空间信息，因此，使用BRIR对输入的立体声信号进行处理时，会将该房间的虚拟空间信息引入到输出的信号中，使得输出的信号中包含不必要的信息，导致输出的信号失真。

发明内容

为了解决相关技术中使用BRIR对输入的立体声信号进行处理时，会将该房间的虚拟空间信息引入到输出的信号中，使得输出的信号中包含不必要的信息，导致输出的信号失真的问题，本本申请示例性实施例提供了一种声音信号处理方法、装置及系统、终端及存储介质。所述技术方案如下：

第一方面，本申请示例性实施例提供了一种声音信号处理方法，所述方法包括：

获取两组声音输入信号；

对所述两组声音输入信号进行相干估计得到每组声音输入信号的相干信号；

将每组声音输入信号与对应的相干信号之差确定为每组声音输入信号的离散信号；

基于头相关传递函数HRTF对所述每组声音输入信号的相干信号进行声像扩展处理，以得到每组声音输入信号的对应的声像扩展后的相干信号；

对于每组声音输入信号，将声像扩展后的相干信号与所述离散信号之和确定为对应的声音输出信号。

本申请示例性实施例提供的声音信号处理方法，通过对两组声音输入信号进行相干估计得到每组声音输入信号的相干信号，将每组声音输入信号与对应的相干信号之差确定为每组声音输入信号的离散信号，基于头相关传递函数对每组声音输入信号的相干信号进行声像扩展处理，以得到每组声音输入信号的对应的声像扩展后的相干信号，对于每组声音输入信号，将声像扩展后的相干信号与离散信号之和确定为对应的声音输出信号，由于头相关传递函数是在消音室中测量得到的，其中不包含房间的虚拟空间信息，基于头相关传递函数扩展得到的信号中不包含房间的虚拟空间信息，不会将不必要的信息引入输出的信号中，不会导致输出的信号失真，有效地提高了听音者的听觉体验。

可选地，所述基于头相关传递函数HRTF对所述每组声音输入信号的相干信号进行声像扩展处理，以得到每组声音输入信号的对应的声像扩展后的相干信号，包括：

确定所述每组声音输入信号对应的相干信号的功率谱密度；

根据每个相干信号对应的功率谱密度计算所述两组声音输入信号对应的相干信号功率谱增益；

根据所述两组声音输入信号对应的相干信号功率谱增益确定所述两组声音输入信号对应的初始定位角；

根据所述初始定位角和所述头相关传递函数，按照信号处理公式对所述两组声音输入信号进行处理，以得到每组声音输入信号的对应的声像扩展后的相干信号，所述信号处理公式为：

其中，所述两组声音输入信号包括第一声音输入信号和第二声音输入信号，所述X_i6为所述两组声音输入信号中任一组声音输入信号对应的声像扩展后的相干信号，所述X_i2为所述两组声音输入信号中任一组声音输入信号对应的相干信号，所述α为所述初始定位角，所述c为预设的声像扩展比例，所述cα为将所述初始定位角待扩展到的目标角度，所述

为在所述目标角度所对应的头相关传递函数的相位差，所述A_i(cα)为所述两组声音输入信号中任一组声音输入信号在所述目标角度所对应的头相关传递函数的幅度，所述P_L2为所述第一声音输入信号对应的相干信号的功率谱密度，所述P_R2为所述第二声音输入信号对应的相干信号的功率谱密度。

需要说明的是，由于该头相关传递函数是在消音室中测量得到的，其不包含房间的虚拟空间信息，因此，使用该头相关传递函数对声音输入信号进行扩展时，不会将房间的虚拟空间信息带入到扩展后的信号中，进而不会导致输出的信号失真。并且，由于其不会将房间的虚拟空间信息带入到处理后的声音信号中，其还能够保证声音信号的声波不会因为相互干涉造成信号的振幅失真，进而保证了声音信号的音质。

可选地，所述对所述两组声音输入信号进行相干估计得到每组声音输入信号的相干信号，包括：

确定所述两组声音输入信号对应的离散成分功率谱；

根据所述离散成分功率谱确定每组声音输入信号对应的相干信号增益；

根据所述每组声音输入信号对应的相干信号增益确定每组声音输入信号的相干信号。

需要说明的是，通过计算两组声音输入信号的离散成分功率谱，然后根据离散成分的功率谱确定每组声音输入信号对应的相干信号增益，再根据其确定每组声音输入信号的相干信号，是对两组声音输入信号进行相干估计得到每组声音输入信号的相干信号的具体实现方式。

可选地，所述两组声音输入信号包括第一声音输入信号和第二声音输入信号，所述确定所述两组声音输入信号对应的离散成分功率谱，包括：

确定所述第一声音输入信号和所述第二声音输入信号的相关系数；

确定每组声音输入信号对应的功率谱密度；

根据所述相关系数和所述每组声音输入信号对应的功率谱密度，按照离散成分功率谱计算公式确定所述离散成分功率谱，所述离散成分功率谱计算公式为：

P_diff＝min(P_L1，P_R1)max(ρ，threshold)；

其中，所述P_diff为所述离散成分功率谱，所述P_L1为所述第一声音输入信号对应的功率谱密度，所述P_R1为所述第二声音输入信号对应的功率谱密度，所述ρ为所述相关系数，所述threshold为预设的相关系数的阈值，所述min为取最小值函数，所述max为取最大值函数。

需要说明的是，在根据声音输入信号确定每组声音输入信号的相干信号时，为了保证听音者的听觉感受，需要保证确定的相干信号中包括有一定成分的离散信号，因此，在确定离散成分功率谱时，需要为信号的相关系数设置阈值。

可选地，在所述基于头相关传递函数HRTF对所述每组声音输入信号的相干信号进行声像扩展处理之前，所述方法还包括：

将每组声音输入信号的离散信号与预设比例值的乘积作为每组声音输入信号的待插入离散信号；

将所述每组声音输入信号的相干信号与对应的待插入离散信号之和，确定为更新后的每组声音输入信号的相干信号。

需要说的是，为了保证听音者的听觉感受，可以使确定的相干信号中包括有一定成分的离散信号，因此，在为相关系数设置阈值的基础上，还可以通过向该相干信号中插入一定成分的离散信号，以实现对相干信号的进一步调整。

可选地，在所述确定所述第一声音输入信号和所述第二声音输入信号的相关系数之前，所述方法还包括：

对所述第一声音输入信号和所述第二声音输入信号进行傅里叶变换，以得到频域上的第一声音输入信号和第二声音输入信号。

需要说明是，由于对声音输入信号的信号处理过程是在频域上进行的，因此，在对声音信号进行信号处理之前，需要先将获取的时域上的声音输入信号变换到频域上。对声音输入信号进行傅里叶变换，是将声音输入信号变换到频域上的一种可实现方式。

可选地，所述获取两组声音输入信号，包括：

获取左通道声音输入信号和右通道声音输入信号，作为所述两组声音输入信号；

或者，获取至少三组初始声音输入信号；

将所述至少三组初始声音输入信号进行下混处理，得到所述两组声音输入信号。

可选地，所述至少三组初始声音输入信号为五通道信号。

需要说明的是，针对输入的初始声音信号为两通道的声音信号或至少三组初始声音输入信号的情况，获取两组声音输入信号的两种可实现方式。

第二方面，本申请示例性实施例提供了一种声音信号处理装置，所述装置包括：

获取模块，用于获取两组声音输入信号；

分解模块，用于对所述两组声音输入信号进行相干估计得到每组声音输入信号的相干信号；

第一确定模块，用于将每组声音输入信号与对应的相干信号之差确定为每组声音输入信号的离散信号；

处理模块，用于基于头相关传递函数HRTF对所述每组声音输入信号的相干信号进行声像扩展处理，以得到每组声音输入信号的对应的声像扩展后的相干信号；

第二确定模块，用于对于每组声音输入信号，将声像扩展后的相干信号与所述离散信号之和确定为对应的声音输出信号。

本申请示例性实施例提供的声音信号处理装置，通过分解模块对两组声音输入信号进行相干估计得到每组声音输入信号的相干信号，第一确定模块将每组声音输入信号与对应的相干信号之差确定为每组声音输入信号的离散信号，处理模块基于头相关传递函数对每组声音输入信号的相干信号进行声像扩展处理，以得到每组声音输入信号的对应的声像扩展后的相干信号，对于每组声音输入信号，第二确定模块将声像扩展后的相干信号与离散信号之和确定为对应的声音输出信号，由于头相关传递函数是在消音室中测量得到的，其中不包含房间的虚拟空间信息，基于头相关传递函数扩展得到的信号中不包含房间的虚拟空间信息，不会将不必要的信息引入输出的信号中，不会导致输出的信号失真，有效地提高了听音者的听觉体验。

可选地，所述处理模块，具体用于：

确定所述每组声音输入信号对应的相干信号的功率谱密度；

其中，所述两组声音输入信号包括第一声音输入信号和第二声音输入信号，所述X_i6为所述两组声音输入信号中任一组声音输入信号对应的声像扩展后的相干信号，所述X_i2为所述两组声音输入信号中任一组声音输入信号对应的相干信号，所述ɑ为所述初始定位角，所述c为预设的声像扩展比例，所述cα为将所述初始定位角待扩展到的目标角度，所述

可选地，所述分解模块，包括：

第一确定子模块，用于确定所述两组声音输入信号对应的离散成分功率谱；

第二确定子模块，用于根据所述离散成分功率谱确定每组声音输入信号对应的相干信号增益；

第三确定子模块，用于根据所述每组声音输入信号对应的相干信号增益确定每组声音输入信号的相干信号。

可选地，所述两组声音输入信号包括第一声音输入信号和第二声音输入信号，所述第一确定子模块，包括：

相关系数确定子模块，用于确定所述第一声音输入信号和所述第二声音输入信号的相关系数；

功率谱密度确定子模块，用于确定每组声音输入信号对应的功率谱密度；

离散成分功率谱确定子模块，用于根据所述相关系数和所述每组声音输入信号对应的功率谱密度，按照离散成分功率谱计算公式确定所述离散成分功率谱，所述离散成分功率谱计算公式为：

P_diff＝min(P_L1，P_R1)max(ρ，threshold)；

可选地，所述装置还包括：

第三确定模块，用于将每组声音输入信号的离散信号与预设比例值的乘积作为每组声音输入信号的待插入离散信号；

第四确定模块，用于将所述每组声音输入信号的相干信号与对应的待插入离散信号之和，确定为更新后的每组声音输入信号的相干信号。

可选地，所述第一确定子模块，还包括：

变换子模块，用于对所述第一声音输入信号和所述第二声音输入信号进行傅里叶变换，以得到频域上的第一声音输入信号和第二声音输入信号。

可选地，所述获取模块，具体用于：

或者，获取至少三组初始声音输入信号；

可选地，所述至少三组初始声音输入信号为五通道信号。

第三方面，本申请示例性实施例提供了一种声音信号处理系统，所述声音信号处理系统包括：第二方面任一所述的声音信号处理装置。

可选地，所述声音信号处理系统还包括：声音信号输入装置和耳机，所述耳机包括：左耳耳机和右耳耳机，所述声音信号处理装置分别与所述声音信号输入装置和所述耳机连接。

本申请示例性实施例提供的声音信号处理系统，通过对从声音信号输入装置获取的两组声音输入信号进行相干估计得到每组声音输入信号的相干信号，将每组声音输入信号与对应的相干信号之差确定为每组声音输入信号的离散信号，基于头相关传递函数对每组声音输入信号的相干信号进行声像扩展处理，以得到每组声音输入信号的对应的声像扩展后的相干信号，对于每组声音输入信号，将声像扩展后的相干信号与离散信号之和确定为对应的声音输出信号，并对应输出到左耳耳机和右耳耳机，由于头相关传递函数是在消音室中测量得到的，其中不包含房间的虚拟空间信息，基于头相关传递函数扩展得到的信号中不包含房间的虚拟空间信息，不会将不必要的信息引入输出的信号中，不会导致输出的信号失真，有效地提高了听音者的听觉体验。

第四方面，本申请示例性实施例提供了一种终端，包括存储器，处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现第一方面任一所述的声音信号处理方法。

第五方面，本申请示例性实施例提供了一种存储介质，当所述存储介质中的指令由终端的处理器执行时，使得所述终端能够执行一种声音信号处理方法，所述方法为第一方面任一所述的声音信号处理方法。

本发明实施例提供的技术方案带来的有益效果是：

本申请示例性实施例提供的声音信号处理方法、装置及系统、终端及存储介质，通过对两组声音输入信号进行相干估计得到每组声音输入信号的相干信号，将每组声音输入信号与对应的相干信号之差确定为每组声音输入信号的离散信号，基于头相关传递函数对每组声音输入信号的相干信号进行声像扩展处理，以得到每组声音输入信号的对应的声像扩展后的相干信号，对于每组声音输入信号，将声像扩展后的相干信号与离散信号之和确定为对应的声音输出信号，由于头相关传递函数是在消音室中测量得到的，其中不包含房间的虚拟空间信息，基于头相关传递函数扩展得到的信号中不包含房间的虚拟空间信息，不会将不必要的信息引入输出的信号中，不会导致输出的信号失真，有效地提高了听音者的听觉体验。

附图说明

图1是本申请示例性实施例提供的一种声音信号处理方法的流程图；

图2是本申请示例性实施例提供的一种听音空间存在两个虚拟扬声器的示意图；

图3是本申请示例性实施例提供的一种听音空间存在五个虚拟扬声器的示意图；

图4是本申请示例性实施例提供的一种对两组声音输入信号进行相干估计得到每组声音输入信号的相干信号的方法流程图；

图5是本申请示例性实施例提供的一种确定两组声音输入信号对应的离散成分功率谱的方法流程图；

图6-1是本申请示例性实施例提供的一种第一声音输入信号X_L的时域波形图；

图6-2是本申请示例性实施例提供的一种经过傅里叶变换后的声音输入信号X_L1的频谱图；

图6-3是本申请示例性实施例提供的一种第二声音输入信号X_R的时域波形图；

图6-4是本申请示例性实施例提供的一种经过傅里叶变换后的声音输入信号X_R1的频谱图；

图7-1是本申请示例性实施例提供的一种基于头相关传递函数对每组声音输入信号的相干信号进行声像扩展处理的方法流程图；

图7-2是本申请示例性实施例提供的一种声音信号处理方法中声音信号传输方向的示意图；

图8-1是本申请示例性实施例提供的一种声音信号处理装置的结构示意图；

图8-2是本申请示例性实施例提供的一种分解模块的结构示意图；

图8-3是本申请示例性实施例提供的一种第一确定子模块的结构示意图；

图8-4是本申请示例性实施例提供的另一种声音信号处理装置的结构示意图；

图8-5是本申请示例性实施例提供的另一种第一确定子模块的结构示意图；

图9是本申请示例性实施例提供的一种声音信号处理装置的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请示例性实施例提供了一种声音信号处理方法，如图1所示，该方法可以包括：

步骤101、获取两组声音输入信号。

由于本申请示例性实施例提供的声音信号处理方法在处理过程中，主要针对获取的两组声音输入信号进行处理，例如：对两组声音输入信号进行相干估计，该两组声音输入信号可以基于初始声音信号转化而来，该初始声音信号可以为两通道的声音信号或至少三组初始声音输入信号。例如，如图2所示，当听音空间存在两个虚拟扬声器时，输入的初始声音信号为两通道的声音信号，该两通道的声音信号可以包括：左通道声音输入信号和右通道声音输入信号，如图3所示，当听音空间存在五个虚拟扬声器时，输入的初始声音信号为五通道信号(5.0通道信号)，该5.0通道信号可以包括：左通道声音输入信号、右通道声音输入信号、中置通道声音输入信号、左环绕声音输入信号和右环绕声音输入信号，其中，听音空间为听音者所在的空间，虚拟扬声器是指用扬声器系统虚拟出空间中某位置上的声源或扬声器系统，在图2和图3中，假设L为听音者的左耳，R为听音者的右耳。因此，获取两组声音输入信号，至少有以下两种可实现方式：

第一种可实现方式，获取左通道声音输入信号和右通道声音输入信号，作为两组声音输入信号。

在进行声音信号处理时，当输入的初始声音信号为左通道声音输入信号和右通道声音输入信号时，可以直接将该输入的初始声音信号作为两组声音输入信号，然后执行步骤102。

第二种可实现方式，获取至少三组初始声音输入信号，将至少三组初始声音输入信号进行下混处理，得到两组声音输入信号。

在进行声音信号处理时，当输入的初始声音信号为至少三组初始声音输入信号时，需要将至少三组初始声音输入信号转换为两组声音输入信号，例如：对至少三组初始声音输入信号进行下混处理，以得到得到两组声音输入信号，然后执行步骤102。

可选地，当至少三组初始声音输入信号为5.0通道信号时，可以按照预设的转换公式对该5.0通道信号进行下混处理，以得到下混后的两组声音输入信号，然后执行步骤102。其中，该转换公式为：X_L＝L+0.707C+0.707LS，X_R＝R+0.707C+0.707RS，在该转换公式中，X_L为下混后的左通道声音输入信号，X_R为下混后的右通道声音输入信号，L为左通道声音输入信号，R为右通道声音输入信号，C为中置通道声音输入信号，LS为左环绕声音输入信号，RS为右环绕声音输入信号。

步骤102、对两组声音输入信号进行相干估计得到每组声音输入信号的相干信号。

可选地，如图4所示，对两组声音输入信号进行相干估计得到每组声音输入信号的相干信号的过程，可以包括：

步骤1021、确定两组声音输入信号对应的离散成分功率谱。

可选地，两组声音输入信号包括第一声音输入信号和第二声音输入信号，示例地，第一声音输入信号可以为步骤101中获取的左通道声音输入信号，第二声音输入信号可以为步骤101中获取的右通道声音输入信号。确定两组声音输入信号对应的离散成分功率谱的过程，如图5所示，可以包括：

步骤1021a、对第一声音输入信号和第二声音输入信号进行傅里叶变换，以得到频域上的第一声音输入信号和第二声音输入信号。

对声音输入信号的信号处理过程，需要在频域上进行，因此，在对声音信号进行信号处理之前，需要先将获取的时域上的声音输入信号变换到频域上。可选地，可以对第一声音输入信号X_L和第二声音输入信号X_R进行傅里叶变换，以得到频域上的第一声音输入信号X_L1和第二声音输入信号X_R1，其傅里叶变换公式为：

其中，f₁(t)为第一声音输入信号X_L的表达式，f₂(t)为第二声音输入信号X_R的表达式，F₁(ω)为变换后的第一声音输入信号X_L1的表达式，F₂(ω)为变换后的第二声音输入信号X_R1的表达式。

示例地，假设获取的第一声音输入信号X_L的时域波形图如图6-1所示，经过傅里叶变换后的第一声音输入信号X_L1的频谱图如图6-2所示，第二声音输入信号X_R的时域波形图如图6-3所示，经过傅里叶变换后的第二声音输入信号X_R1的频谱图如图6-4所示。

步骤1021b、确定第一声音输入信号和第二声音输入信号的相关系数。

第一声音输入信号和第二声音输入信号的相关系数描述了两信号之间的相关度，其计算公式为：

其中，cov(X_L1,X_R1)是频域上的第一声音输入信号X_L1和第二声音输入信号X_R1的协方差，D(X_L1)是第一声音输入信号X_L1方差，D(X_R1)是第二声音输入信号X_R1方差。

步骤1021c、确定每组声音输入信号对应的功率谱密度。

功率谱密度(简称：功率谱)定义了单位频带内的信号功率，表示信号功率随着频率的变化情况，即信号功率在频域上的分布状况，其计算公式为：

其中，T_L为第一声音输入信号X_L1的周期，T_R为第二声音输入信号X_R1的周期，P_L1(ω)为第一声音输入信号X_L1的功率谱密度，P_R1(ω)为第二声音输入信号X_R1的功率谱密度，lim为求极限运算。

步骤1021d、根据相关系数和每组声音输入信号对应的功率谱密度，按照离散成分功率谱计算公式确定离散成分功率谱。

其中，离散成分功率谱计算公式为：

P_diff＝min(P_L1，P_R1)max(ρ，threshold)；

其中，P_diff为离散成分功率谱，P_L1为第一声音输入信号对应的功率谱密度，P_R1为第二声音输入信号对应的功率谱密度，ρ为相关系数，min为取最小值函数，max为取最大值函数，threshold为预设的相关系数的阈值，其取值范围为0～1，当threshold取值为0时，表示第一声音输入信号和第二声音输入信号不相关，当threshold取值为1时，表示第一声音输入信号和第二声音输入信号线性相关，实际应用中，该取值可以根据实际需要进行调整。

需要说明的是，对声音输入信号来说，当相关系数小于预设的相关系数的阈值时，可以认为该声音输入信号中的成分主要为相干信号，也即是，该声音输入信号中包括的离散信号的量接近于0。由于离散信号是第一声音输入信号和第二声音输入信号中相同或相近的成分，相干信号是第一声音输入信号和第二声音输入信号中差异较大的成分，若声音输入信号中包括的离散信号的量接近于0，当将信号处理后的第一声音输入信号作为左耳输出信号输出，将信号处理后的第二声音输入信号作为右耳输出信号输出时，听音者的两个耳朵听到的声音会出现很大的差异性，使得听音者的听觉感受较差。反之，若第一声音输入信号和第二声音输入信号中包括的相干信号的量接近于0时，听音者的两个耳朵听到的声音几乎相同，听音者就无法感受到输出的声音信号的立体声效果。因此，在根据声音输入信号确定每组声音输入信号的相干信号时，需要保证确定的相干信号中包括有一定成分的离散信号，以保证听音者的听觉感受，所以，需要为信号的相关系数设置合适的阈值，示例地，该阈值可以为0.25。

步骤1022、根据离散成分功率谱确定每组声音输入信号对应的相干信号增益。

可选地，相干信号增益的计算公式为：

其中，G_Lb为第一声音输入信号X_L1对应的相干信号增益，G_Rb为第二声音输入信号X_R1对应的相干信号增益。

根据相干信号增益的计算公式可以看出，对相干信号增益的计算是根据第一声音输入信号和第二声音输入信号对应的功率谱密度之和进行的，根据其计算相干信号增益并根据该计算得到的相干信号增益确定相干信号时，能够降低相干信号之间的相干性，使得根据相干信号扩展后的声音信号具有较好的扩展效果。

步骤1023、根据每组声音输入信号对应的相干信号增益确定每组声音输入信号的相干信号。

可选地，根据第一声音输入信号X_L1和第二声音输入信号X_R1对应的相干信号增益确定对应的相干信号的公式为：

X_L2＝X_L1*G_Lb；

X_R2＝X_R1*G_Rb；

其中，X_L2为第一声音输入信号X_L1的相干信号，X_R2为第二声音输入信号X_R1的相干信号。

步骤103、将每组声音输入信号与对应的相干信号之差确定为每组声音输入信号的离散信号。

第一声音输入信号为X_L1，其对应的相干信号为X_L2，第二声音输入信号为X_R1，其对应的相干信号为X_R2，则第一声音输入信号对应的离散信号X_L3＝X_L1-X_L2，第二声音输入信号对应的离散信号X_R3＝X_R1-X_R2。

步骤104、将每组声音输入信号的离散信号与预设比例值的乘积作为每组声音输入信号的待插入离散信号。

如步骤1021d所述，在根据声音输入信号确定每组声音输入信号的相干信号时，为了保证听音者的听觉感受，可以使确定的相干信号中包括有一定成分的离散信号，因此，在步骤103确定的相干成分的基础上，还可以向该相干信号中插入一定成分的离散信号，以实现对相干信号的进一步调整。

可选地，可以将每组声音输入信号的离散信号与预设比例值的乘积作为每组声音输入信号的待插入离散信号，也即是，第一声音输入信号为X_L1的待插入离散信号X_L4＝β*X_L3，第二声音输入信号为X_R1的待插入离散信号X_R4＝β*X_R3，其中，β的取值范围为0～1，其具体取值可以根据实际需要确定，例如：β＝0.01或0.1，本申请实施例对其不做具体限定。

需要说明的是，通过控制增加的离散信号的多少，也能够在一定程度上调整声像的宽度，例如：当增加的离散信号较多时，声像会相应变窄，当增加的离散信号较少时，声像会相应变宽。

步骤105、将每组声音输入信号的相干信号与对应的待插入离散信号之和，确定为更新后的每组声音输入信号的相干信号。

第一声音输入信号X_L1的待插入离散信号X_L4与对应的相干信号X_L2的和为更新后的相干信号，即X_L5＝X_L2+X_L4＝X_L2+β*X_L3，第二声音输入信号X_R1的待插入离散信号X_R4与对应的相干信号X_R2的和为更新后的相干信号，即X_R5＝X_R2+X_R4＝X_R2+β*X_R3。

在实际应用中，在步骤1021d中向相干信号中增加了离散信号后，若根据步骤1023确定的相干信号能够保证听音者的听觉感受，就无需再向相干信号中增加离散信号，也即是，在步骤103后无需执行步骤104和步骤105，可直接执行步骤106。

步骤106、基于头相关传递函数对每组声音输入信号的相干信号进行声像扩展处理，以得到每组声音输入信号的对应的声像扩展后的相干信号。

可选地，如图7-1所示，基于头相关传递函数(Head Related Transfer Function，HRTF)对每组声音输入信号的相干信号进行声像扩展处理，以得到每组声音输入信号的对应的声像扩展后的相干信号的过程，可以包括：

步骤1061、确定每组声音输入信号对应的相干信号的功率谱密度。

可选地，确定每组声音输入信号对应的相干信号的功率谱密度时，根据相干信号确定对应的功率谱密度的计算公式可以参考步骤1021c中根据每组声音输入信号计算对应的功率谱密度的计算公式，此处不再赘述。

步骤1062、根据每个相干信号对应的功率谱密度计算两组声音输入信号对应的相干信号功率谱增益。

可选地，根据功率谱密度计算两组声音输入信号对应的相干信号功率谱增益的计算公式可以为：G＝P_L2/P_R2，其中，G为两组声音输入信号对应的相干信号功率谱增益，P_L2为第一声音输入信号X_L1对应的相干信号的功率谱密度，P_R2为第二声音输入信号X_R1对应的相干信号的功率谱密度。

步骤1063、根据两组声音输入信号对应的相干信号功率谱增益确定两组声音输入信号对应的初始定位角。

可选地，可以根据幅度平移正弦定律，确定两组声音输入信号对应的相干信号功率谱增益对应的初始定位角，其计算公式为：

其中，α为两组声音输入信号对应的相干信号功率谱增益对应的初始定位角，G为两组声音输入信号对应的相干信号功率谱增益，θ₀表示立体声系统两个扬声器之间夹角的一半，θ₀的取值范围从0度～90度，此角度的取值可以根据实际需要进行确定，例如，当立体声系统为图2所示的立体声系统时，该θ₀可以确定为30度。

步骤1064、根据初始定位角和头相关传递函数，按照信号处理公式对两组声音输入信号进行处理，以得到每组声音输入信号的对应的声像扩展后的相干信号。

其中，信号处理公式为：

其中，两组声音输入信号包括第一声音输入信号和第二声音输入信号，X_L6为第一声音输入信号对应的声像扩展后的相干信号，X_R6为第二声音输入信号对应的声像扩展后的相干信号，X_L2为第一声音输入信号对应的相干信号，X_R2为第二声音输入信号对应的相干信号，ɑ为初始定位角，c为预设的声像扩展比例，即cα为将初始定位角待扩展到的目标角度，

为在目标角度所对应的头相关传递函数的相位差，A_i(cα)为两组声音输入信号中任一组声音输入信号在目标角度所对应的头相关传递函数的幅度，P_L2为第一声音输入信号对应的相干信号的功率谱密度，P_R2为第二声音输入信号对应的相干信号的功率谱密度。

可选地，可以根据初始定位角在MIT HRTF数据库中查找和A_i(cα)的取值，该MITHRTF数据库(出处：GardnerW G,Martin K D.HRTF measurements of a KEMAR[J].TheJournal of the Acoustical Society of America,1995,97(6):3907-3908.)中记录的头相关传递函数是麻省理工学院(Massachusetts institute of technology，MIT)媒体实验室在消音室中测量得到的，其反映了头部、耳廓和躯干等生理结构对声波的综合滤波作用，并且，由于该头相关传递函数是在消音室中测量得到的，其不包含房间的虚拟空间信息，因此，使用该头相关传递函数对声音输入信号进行扩展时，不会将房间的虚拟空间信息带入到扩展后的信号中，进而不会导致输出的信号失真。

需要说明的是，在信号处理公式中，当执行了步骤104和步骤105后，信号处理公式中的相干信号为更新后的相干信号(式中X_i2应为X_L5或X_R5)，当未执行步骤104和步骤105时，信号处理公式中的相干信号为步骤1023中确定的相干信号(式中X_i2为X_L2或X_R2)。

步骤107、对于每组声音输入信号，将声像扩展后的相干信号与离散信号之和确定为对应的声音输出信号。

由于相干信号是第一声音输入信号和第二声音输入信号中差异较大的成分，其中包含有较多的定位信息，离散信号是第一声音输入信号和第二声音输入信号中相同或相近的成分，其对定位的作用不大，因此，先将声音输入信号分解为相干信号和离散信号，然后对相干信号进行声像扩展，再将扩展后的相干信号与未扩展的离散信号进行合成，不仅能够得到具有较宽声像的声音输出信号，还能够在扩展声像的过程中简化运算。

可选地，将扩展后的相干信号与未扩展的离散信号进行合成的实现方式可以为：对于每组声音输入信号，将声像扩展后的相干信号与离散信号之和确定为对应的声音输出信号，也即是，第一声音输入信号对应的声音输出信号X_L7＝X_L6+X_L3，第二声音输入信号对应的声音输出信号X_R7＝X_R6+X_R3。

相关技术中，当听音空间存在两个虚拟扬声器时，听音者位于皇帝位(sweetspot)，两个扬声器分别位于听音者向左30度和向右30度的位置上，通过幅度平移(Amplitude Panning)合成声像后，再使用BRIR对合成的声像进行处理，虽然可以达到扩展声像的目的，并且，采用不同的BRIR对信号进行处理可以获得不同的信号合成效果(例如：使合成的声像具有不同的混响时间等)，但是，其扩展后的声像依然会受到30度的范围限制，其声像依旧很窄，且BRIR会将房间的虚拟空间信息引入到信号中，同时，BRIR中引起的房间反射还会导致的梳妆滤波器效应，使得信号的声波之间相互干涉造成的信号的振幅失真。当听音空间存在五个虚拟扬声器时，5.0通道信号在使用BRIR扩展声像时，虽然其声像可以扩大到±90度，但是，BRIR同样会将房间的虚拟空间信息引入到信号中。本申请示例性实施例提供的声音信号处理方法，该处理过程中声音信号的传输方向请参考图7-2，通过对输入的两组声音输入信号(图中L和R)进行相干估计，得到对应的相干信号和离散信号，然后对相干信号进行信号定位，再根据定位得到的初始定位角，基于头相关传递函数对对应的相干信号进行声像扩展，然后将扩展后的相干信号与离散信号合成，得到对应的声音输出信号(图中L’和R’)。相对于相关技术，本申请示例性实施例提供的声音信号处理方法不仅能够扩展声像，并且，由于其不会将房间的虚拟空间信息带入到处理后的声音信号中，其还能够保证声音信号的声波不会因为相互干涉造成信号的振幅失真，进而保证了声音信号的音质。

综上所述，本申请示例性实施例提供的声音信号处理方法，通过对两组声音输入信号进行相干估计得到每组声音输入信号的相干信号，将每组声音输入信号与对应的相干信号之差确定为每组声音输入信号的离散信号，基于头相关传递函数对每组声音输入信号的相干信号进行声像扩展处理，以得到每组声音输入信号的对应的声像扩展后的相干信号，对于每组声音输入信号，将声像扩展后的相干信号与离散信号之和确定为对应的声音输出信号，由于头相关传递函数是在消音室中测量得到的，其中不包含房间的虚拟空间信息，基于头相关传递函数扩展得到的信号中不包含房间的虚拟空间信息，不会将不必要的信息引入输出的信号中，不会导致输出的信号失真，有效地提高了听音者的听觉体验。

需要说明的是，本申请示例性实施例提供的声音信号处理方法步骤的先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减，例如：可以根据实际情况删减步骤104和步骤105，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本申请的保护范围之内，因此不再赘述。

本申请示例性实施例提供了一种声音信号处理装置，如图8-1所示，装置800可以包括：

获取模块801，用于获取两组声音输入信号。

分解模块802，用于对两组声音输入信号进行相干估计得到每组声音输入信号的相干信号。

第一确定模块803，用于将每组声音输入信号与对应的相干信号之差确定为每组声音输入信号的离散信号。

处理模块804，用于基于头相关传递函数对每组声音输入信号的相干信号进行声像扩展处理，以得到每组声音输入信号的对应的声像扩展后的相干信号。

第二确定模块805，用于对于每组声音输入信号，将声像扩展后的相干信号与离散信号之和确定为对应的声音输出信号。

综上所述，本申请示例性实施例提供的声音信号处理装置，通过分解模块对两组声音输入信号进行相干估计得到每组声音输入信号的相干信号，第一确定模块将每组声音输入信号与对应的相干信号之差确定为每组声音输入信号的离散信号，处理模块基于头相关传递函数对每组声音输入信号的相干信号进行声像扩展处理，以得到每组声音输入信号的对应的声像扩展后的相干信号，对于每组声音输入信号，第二确定模块将声像扩展后的相干信号与离散信号之和确定为对应的声音输出信号，由于头相关传递函数是在消音室中测量得到的，其中不包含房间的虚拟空间信息，基于头相关传递函数扩展得到的信号中不包含房间的虚拟空间信息，不会将不必要的信息引入输出的信号中，不会导致输出的信号失真，有效地提高了听音者的听觉体验。

可选地，处理模块804，具体可以用于：

确定每组声音输入信号对应的相干信号的功率谱密度。

根据每个相干信号对应的功率谱密度计算两组声音输入信号对应的相干信号功率谱增益。

根据两组声音输入信号对应的相干信号功率谱增益确定两组声音输入信号对应的初始定位角。

根据初始定位角和头相关传递函数，按照信号处理公式对两组声音输入信号进行处理，以得到每组声音输入信号的对应的声像扩展后的相干信号，信号处理公式为：

其中，两组声音输入信号包括第一声音输入信号和第二声音输入信号，X_i6为两组声音输入信号中任一组声音输入信号对应的声像扩展后的相干信号，X_i2为两组声音输入信号中任一组声音输入信号对应的相干信号，ɑ为初始定位角，c为预设的声像扩展比例，cα为将初始定位角待扩展到的目标角度，为在目标角度所对应的头相关传递函数的相位差，A_i(cα)为两组声音输入信号中任一组声音输入信号在目标角度所对应的头相关传递函数的幅度，P_L2为第一声音输入信号对应的相干信号的功率谱密度，P_R2为第二声音输入信号对应的相干信号的功率谱密度。

可选地，如图8-2所示，分解模块802，可以包括：

第一确定子模块8021，用于确定两组声音输入信号对应的离散成分功率谱。

第二确定子模块8022，用于根据离散成分功率谱确定每组声音输入信号对应的相干信号增益。

第三确定子模块8023，用于根据每组声音输入信号对应的相干信号增益确定每组声音输入信号的相干信号。

可选地，两组声音输入信号包括第一声音输入信号和第二声音输入信号，如图8-3所示，第一确定子模块8021，可以包括：

相关系数确定子模块8021a，用于确定第一声音输入信号和第二声音输入信号的相关系数。

功率谱密度确定子模块8021b，用于确定每组声音输入信号对应的功率谱密度。

离散成分功率谱确定子模块8021c，用于根据相关系数和每组声音输入信号对应的功率谱密度，按照离散成分功率谱计算公式确定离散成分功率谱，离散成分功率谱计算公式为：

P_diff＝min(P_L1，P_R1)max(ρ，threshold)。

其中，P_diff为离散成分功率谱，P_L1为第一声音输入信号对应的功率谱密度，P_R1为第二声音输入信号对应的功率谱密度，ρ为相关系数，threshold为预设的相关系数的阈值，min为取最小值函数，max为取最大值函数。

可选地，如图8-4所示，装置800还可以包括：

第三确定模块806，用于将每组声音输入信号的离散信号与预设比例值的乘积作为每组声音输入信号的待插入离散信号。

第四确定模块807，用于将每组声音输入信号的相干信号与对应的待插入离散信号之和，确定为更新后的每组声音输入信号的相干信号。

可选地，如图8-5所示，第一确定子模块8021，还可以包括：

变换子模块8021d，用于对第一声音输入信号和第二声音输入信号进行傅里叶变换，以得到频域上的第一声音输入信号和第二声音输入信号。

可选地，获取模块801，具体可以用于：

获取左通道声音输入信号和右通道声音输入信号，作为两组声音输入信号。

或者，获取至少三组初始声音输入信号。

将至少三组初始声音输入信号进行下混处理，得到两组声音输入信号。

可选地，至少三组初始声音输入信号为五通道信号。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置、模块和子模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请示例性实施例提供了一种声音信号处理系统，该声音信号处理系统包括：图8-1或图8-4所示的声音信号处理装置。

可选地，该声音信号处理系统还可以包括：声音信号输入装置和耳机，其中，耳机包括：左耳耳机和右耳耳机，声音信号处理装置分别与声音信号输入装置和耳机连接。

综上所述，本申请示例性实施例提供的声音信号处理系统，通过对从声音信号输入装置获取的两组声音输入信号进行相干估计得到每组声音输入信号的相干信号，将每组声音输入信号与对应的相干信号之差确定为每组声音输入信号的离散信号，基于头相关传递函数对每组声音输入信号的相干信号进行声像扩展处理，以得到每组声音输入信号的对应的声像扩展后的相干信号，对于每组声音输入信号，将声像扩展后的相干信号与离散信号之和确定为对应的声音输出信号，并对应输出到左耳耳机和右耳耳机，由于头相关传递函数是在消音室中测量得到的，其中不包含房间的虚拟空间信息，基于头相关传递函数扩展得到的信号中不包含房间的虚拟空间信息，不会将不必要的信息引入输出的信号中，不会导致输出的信号失真，有效地提高了听音者的听觉体验。

本申请示例性实施例提供了一种存储介质，当存储介质中的指令由终端的处理器执行时，使得终端能够执行本申请上述实施例提供的声音信号处理方法，例如，该方法可以包括：

获取两组声音输入信号；

本发明实施例提供一种终端，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现本申请上述实施例提供的任一的声音信号处理方法。

具体地，该终端可以为如图9所示的声音信号处理装置20，请参考图9，其示出了本申请示例性实施例涉及的一种声音信号处理装置20的结构示意图，该声音信号处理装置20可以包括：处理器22和信号接口24。

处理器22包括一个或者一个以上处理核心。处理器22通过运行软件程序以及模块，从而执行各种功能应用以及数据处理。

信号接口24可以为多个，该信号接口24用于与其它装置或模块建立连接，例如：可以通过该信号接口24与扬声器或耳机进行连接。

可选的，声音信号处理装置20还包括存储器26、总线28等部件。其中，存储器26与信号接口24分别通过总线28与处理器22相连。

存储器26可用于存储软件程序以及模块。具体的，存储器26可存储至少一个功能所需的应用程序模块262。

其中，该应用程序模块262可以包括：

获取模块2621，具有与获取模块801相同或相似的功能。

分解模块2622，具有与分解模块802相同或相似的功能。

第一确定模块2623，具有与第一确定模块803相同或相似的功能。

处理模块2624，具有与处理模块804相同或相似的功能。

第二确定模块2625，具有与第二确定模块805相同或相似的功能。

需要说明的是：上述实施例提供的声音信号处理装置在处理声音信号时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的声音信号处理装置与声音信号处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种声音信号处理方法，其特征在于，所述方法包括：

获取两组声音输入信号；

2.根据权利要求1所述的方法，其特征在于，所述基于头相关传递函数HRTF对所述每组声音输入信号的相干信号进行声像扩展处理，以得到每组声音输入信号的对应的声像扩展后的相干信号，包括：

确定所述每组声音输入信号对应的相干信号的功率谱密度；

为在所述目标角度所对应的头相关传递函数的相位差，所述A_i(cα)为所述两组声音输入信号中任一组声音输入信号在所述目标角度所对应的头相关传递函数的幅度，所述P_L2为所述第一声音输入信号对应的相干信号的功率谱密度，所述P_R2为所述第二声音输入信号对应的相干信号的功率谱密度，所述P_i2为所述两组声音输入信号中任一组声音输入信号对应的相干信号的功率谱密度。

3.根据权利要求1或2所述的方法，其特征在于，所述对所述两组声音输入信号进行相干估计得到每组声音输入信号的相干信号，包括：

确定所述两组声音输入信号对应的离散成分功率谱；

4.根据权利要求3所述的方法，其特征在于，所述两组声音输入信号包括第一声音输入信号和第二声音输入信号，所述确定所述两组声音输入信号对应的离散成分功率谱，包括：

确定每组声音输入信号对应的功率谱密度；

P_diff＝min(P_L1，P_R1)max(ρ，threshold)；

5.根据权利要求1所述的方法，其特征在于，在所述基于头相关传递函数HRTF对所述每组声音输入信号的相干信号进行声像扩展处理之前，所述方法还包括：

6.根据权利要求4所述的方法，其特征在于，在所述确定所述第一声音输入信号和所述第二声音输入信号的相关系数之前，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述获取两组声音输入信号，包括：

或者，获取至少三组初始声音输入信号；

8.根据权利要求7所述的方法，其特征在于，所述至少三组初始声音输入信号为五通道信号。

9.一种声音信号处理装置，其特征在于，所述装置包括：

获取模块，用于获取两组声音输入信号；

10.根据权利要求9所述的装置，其特征在于，所述处理模块，具体用于：

确定所述每组声音输入信号对应的相干信号的功率谱密度；

11.根据权利要求9或10所述的装置，其特征在于，所述分解模块，包括：

12.根据权利要求11所述的装置，其特征在于，所述两组声音输入信号包括第一声音输入信号和第二声音输入信号，所述第一确定子模块，包括：

P_diff＝min(P_L1，P_R1)max(ρ，threshold)；

13.根据权利要求9所述的装置，其特征在于，所述装置还包括：

14.根据权利要求12所述的装置，其特征在于，所述第一确定子模块，还包括：

15.根据权利要求9所述的装置，其特征在于，所述获取模块，具体用于：

或者，获取至少三组初始声音输入信号；

16.根据权利要求15所述的装置，其特征在于，所述至少三组初始声音输入信号为五通道信号。

17.一种声音信号处理系统，其特征在于，所述声音信号处理系统包括：权利要求9至16任一所述的声音信号处理装置。

18.根据权利要求17所述的声音信号处理系统，其特征在于，所述声音信号处理系统还包括：声音信号输入装置和耳机，所述耳机包括：左耳耳机和右耳耳机，所述声音信号处理装置分别与所述声音信号输入装置和所述耳机连接。

19.一种用于声音信号处理的终端，其特征在于，包括存储器，处理器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现权利要求1至8任一所述的声音信号处理方法。

20.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由终端的处理器执行时，使得所述终端能够执行一种声音信号处理方法，所述方法为权利要求1至8任一所述的声音信号处理方法。