CN111105811B

CN111105811B - 声音信号的处理方法、相关设备及可读存储介质

Info

Publication number: CN111105811B
Application number: CN201911418247.4A
Authority: CN
Inventors: 张健; 赵湘; 高素云; 付中华; 王海坤
Original assignee: Xi'an Xunfei Super Brain Information Technology Co ltd
Current assignee: Xi'an Xunfei Super Brain Information Technology Co ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-04-07
Anticipated expiration: 2039-12-31
Also published as: CN111105811A

Abstract

本申请公开了一种声音信号的处理方法、相关设备及可读存储介质，通过根据所述当前帧的前一帧在所述第二拾音区域的第一输出波束信号，从所述第二波束信号集合中确定至少一个第一参考波束信号；基于所述参考波束信号，滤除所述第一波束信号中包含的第二拾音区域内的信息，得到处理后的第一波束信号集合；可以实现对于参考波束信号的实时更新，因此，采用本申请的声音信号的处理方法进行语音分离，可以提高分离后的声音信号的清晰度。

Description

声音信号的处理方法、相关设备及可读存储介质

技术领域

本申请涉及信号处理技术领域，更具体的说，是涉及一种声音信号的处理方法、相关设备及可读存储介质。

背景技术

随着语音识别技术的发展，越来越多的场景下需要进行语音录制，以方便用户回听。但是，有些场景下，语音是由多种用户角色产生的，这种情况下，就需要对语音按照不同用户角色进行分离。比如，检查机关在审讯过程中，审讯全程的语音，会涉及审讯人和被审讯人两种用户角色，这种情况下，就需要对审讯全程的语音按照审讯人和被审讯人两种用户角色进行分离。

但是，现有技术中，对于语音进行分离的方法，分离后得到的语音效果并不理想。

因此，对现有技术中的语音分离方法进行优化显得尤为必要。

发明内容

鉴于上述问题，提出了本申请以便提供一种声音信号的处理方法、相关设备及可读存储介质。具体方案如下：

一种声音信号的处理方法，包括：

获取当前帧的第一波束信号集合和第二波束信号集合；所述第一波束信号集合包括多个第一波束信号，所述第一波束信号的波束朝向分布于麦克风阵列的第一拾音区域；所述第二波束信号集合包括多个第二波束信号，所述第二波束信号的波束朝向分布于所述麦克风阵列的第二拾音区域；

根据所述当前帧的前一帧在所述第二拾音区域的第一输出波束信号，从所述第二波束信号集合中确定至少一个第一参考波束信号；

基于所述参考波束信号，滤除所述第一波束信号中包含的第二拾音区域内的信息，得到处理后的第一波束信号集合；

基于所述处理后的第一波束信号集合，确定所述当前帧在所述第一拾音区域的第二输出波束信号。

可选地，所述从所述第二波束信号集合中确定至少一个第一参考波束信号，具体包括：

获取所述第一输出波束信号的波束标识；所述波束标识用于标识所述第二拾音区域的波束信号；

将所述波束标识对应的波束信号确定为所述第一参考波束信号。

可选地，所述确定所述当前帧在所述第一拾音区域的第二输出波束信号，具体包括：

确定与所述当前帧对应的多个时间窗；

确定每个时间窗内所述第一拾音区域中的最大能量波束，得到最大能量波束集合；

基于所述最大能量波束集合，确定所述当前帧在所述第一拾音区域的第二输出波束信号。

可选地，所述基于所述最大能量波束集合，确定所述当前帧在所述第一拾音区域的第二输出波束信号，具体包括：

确定所述最大能量波束集合中各个最大能量波束的权重；

根据所述权重，对所述处理后的第一波束信号集合中的各个波束信号进行加权，得到所述第二输出波束信号。

可选地，所述确定每个时间窗内所述第一拾音区域中的最大能量波束之后，还包括：

记录所述最大能量波束集合中的每个最大能量波束对应的波束标识，以便后续从所述当前帧的后一帧的第一波束信号集合中确定参考波束信号。

可选地，所述方法还包括：

当所述当前帧为所述麦克风阵列采集的声音信号的第一帧时，从所述第二波束信号集合中随机选取至少一个波束信号作为参考波束信号。

可选地，所述第一拾音区域为第一方说话人对应的拾音区域，或，第二方说话人对应的拾音区域。

一种声音信号的处理装置，包括：

获取单元，用于获取当前帧的第一波束信号集合和第二波束信号集合；所述第一波束信号集合包括多个第一波束信号，所述第一波束信号的波束朝向分布于麦克风阵列的第一拾音区域；所述第二波束信号集合包括多个第二波束信号，所述第二波束信号的波束朝向分布于所述麦克风阵列的第二拾音区域；

参考波束信号第一确定单元，用于根据所述当前帧的前一帧在所述第二拾音区域的第一输出波束信号，从所述第二波束信号集合中确定至少一个第一参考波束信号；

滤除单元，用于基于所述参考波束信号，滤除所述第一波束信号中包含的第二拾音区域内的信息，得到处理后的第一波束信号集合；

确定单元，用于基于所述处理后的第一波束信号集合，确定所述当前帧在所述第一拾音区域的第二输出波束信号。

可选地，所述参考波束信号第一确定单元，具体用于：

获取所述第一输出波束信号的波束标识；所述波束标识用于标识所述第二拾音区域的波束信号；将所述波束标识对应的波束信号确定为所述第一参考波束信号。

可选地，所述确定单元，具体包括：

时间窗确定单元，用于确定与所述当前帧对应的多个时间窗；

最大能量波束集合确定单元，用于确定每个时间窗内所述第一拾音区域中的最大能量波束，得到最大能量波束集合；

确定子单元，用于基于所述最大能量波束集合，确定所述当前帧在所述第一拾音区域的第二输出波束信号。

可选地，所述确定子单元，具体用于：

确定所述最大能量波束集合中各个最大能量波束的权重；根据所述权重，对所述处理后的第一波束信号集合中的各个波束信号进行加权，得到所述第二输出波束信号。

可选地，所述装置还包括：

记录单元，用于在确定每个时间窗内所述第一拾音区域中的最大能量波束之后，记录所述最大能量波束集合中的每个最大能量波束对应的波束标识，以便后续从所述当前帧的后一帧的第一波束信号集合中确定参考波束信号。

可选地，所述装置还包括：

参考波束信号第二确定单元，用于当所述当前帧为所述麦克风阵列采集的声音信号的第一帧时，从所述第二波束信号集合中随机选取至少一个波束信号作为参考波束信号。

一种声音信号的处理设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的声音信号的处理方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如上所述的声音信号的处理方法的各个步骤。

借由上述技术方案，本申请公开了一种声音信号的处理方法、相关设备及可读存储介质，通过根据所述当前帧的前一帧在所述第二拾音区域的第一输出波束信号，从所述第二波束信号集合中确定至少一个第一参考波束信号；基于所述参考波束信号，滤除所述第一波束信号中包含的第二拾音区域内的信息，得到处理后的第一波束信号集合；可以实现对于参考波束信号的实时更新，因此，采用本申请的声音信号的处理方法进行语音分离，可以提高分离后的声音信号的清晰度。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例公开的声音信号的处理方法的流程示意图；

图2为本申请实施例公开的一种拾音区域划分示意图；

图3为本申请实施例公开的一种时间窗示意图；

图4为本申请实施例公开的一种声音信号的处理装置结构示意图；

图5为本申请实施例公开的声音信号的处理设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，面试、审讯、会议等场景中，往往需要对相关人员的交流过程进行记录，这种情况下，一般会在场景中布置麦克风阵列，由麦克风阵列对上述场景中的语音进行拾取，产生声音信号，并将声音信号发送至语音分离装置，由语音分离装置对声音信号进行处理，确定出不同人员的声音信号，实现语音分离。

目前，多在场景中布置多个麦克风或麦克风阵列，分别对不同人员的语音进行拾取，实现语音分离。比如，对于审讯场景，在场景中布置一个枪型阵列对被审讯人的语音进行拾取，另外布置一个圆形阵列对审讯人员的语音进行拾取，但是，这种布置方式往往很繁琐，且成本较高。

因此，本申请的发明人想到在场景中布置一个麦克风阵列，实现对不同人员的语音进行拾取，为了实现这种情况下的语音分离，本申请发明人提出了本申请的声音信号处理方法，本申请公开的声音信号的处理方法可以应用于由一个麦克风阵列采集的多人交谈的语音进行的语音分离的装置或设备。

接下来，通过下述实施例对本申请提供的声音信号的处理方法进行介绍。

请参阅图1，图1为本申请实施例公开的声音信号的处理方法的流程示意图，该方法可以包括：

S101：获取当前帧的第一波束信号集合和第二波束信号集合；所述第一波束信号集合包括多个第一波束信号，所述第一波束信号的波束朝向分布于麦克风阵列的第一拾音区域；所述第二波束信号集合包括多个第二波束信号，所述第二波束信号的波束朝向分布于所述麦克风阵列的第二拾音区域。

在本申请中，可以先将麦克风阵列的拾音区间等分为多个区域，每个区域作为一个拾音子区域，并预先将多个区域划分为第一拾音区域和第二拾音区域，第一拾音区域和第二拾音区域分别用于采集第一方说话人的语音和第二方说话人的语音。第一拾音区域和第二拾音区域中可包括至少一个拾音子区域。

需要说明的是，在本申请中，第一拾音区域为第一方说话人对应的拾音区域，或，第二方说话人对应的拾音区域，当第一拾音区域为第一方说话人对应的拾音区域时，第二拾音区域为第二方说话人对应的拾音区域，当第一拾音区域为第二方说话人对应的拾音区域时，第二拾音区域为第一方说话人对应的拾音区域。

在本申请中，麦克风阵列可以为各种类型的麦克风阵列，比如圆形麦克风阵列，环形麦克风阵列等，麦克风阵列中包含的麦克风数目也可以根据场景确定，本申请不进行任何限定。

在本申请中，在获得麦克风阵列的采集的语音信号之后，可以基于固定波束形成算法得到语音信号每个帧中的多个波束信号，多个波束信号中包括第一波束信号集和第二波束信号集。

为便于理解，请参阅附图2，图2为本申请实施例公开的一种拾音区域划分示意图，首先对图2的场景进行如下介绍。图2中，有一个答话人和两个问话人，答话人和问话人之间设置的麦克风阵列为由8个麦克风(即图中所示的m1、m2、m3、m4、m5、m6、m7、m8)组成的均匀圆型麦克风阵列，答话人位置固定且距离该麦克风阵列较远，问话人在答话人的对面，距离该麦克风阵列相对较近，圆型麦克风阵列的拾音区间为360度。

图2中，将该圆型麦克风阵列的拾音区间划分为8个拾音子区域，每个拾音子区域的夹角为θ。每个拾音子区域设计一个指向d_i的波束(图中带箭头虚线)，i＝1,2,…,8。由于答话人的位置是固定于m1之前，图2中指向d₁、d₂、d₈的波束所在的拾音子区域划分为答话人拾音区域，剩余指向的波束所在的拾音子区域划分为问话人拾音区域。答话人拾音区域中包括3个拾音子区域，问话人拾音区域中包括5个拾音子区域。

本申请中，基于图2所示的拾音区域划分方式，固定波束形成采用线性约束最小方差算法，对波束朝向分布于不同拾音子区域的波束信号的获取方式进行如下说明：

首先，将麦克风阵列采集的语音信号进行分帧、加窗处理，再做傅里叶变换，将语音信号转换为频域信号，其中，每个麦克风采集的每一帧语音信号对应的频域信号即为记为X_m(f，l)，其中，m表示麦克风序号，f表示频点，l表示语音信号的帧序号。

所有麦克风采集的每一帧语音信号对应的频域信号为X(f，l)＝[X₁(f，l)，X₂(f，l)，…，X₈(f，l)]，将该频域信号采用线性约束最小方差算法进行固定波束形成处理，得到每一帧语音信号对应的频域信号的8个波束信号，其中，每一帧语音信号对应的频域信号的第i个波束信号为Y_i(f，l)＝sum(W_i(f).*X(f，l))，其中，

其表示麦克风阵列的第i个波束信号在频点f的系数向量。

得到的8个波束信号中，第1、2、8个波束信号为答话人的波束信号集，其余波束信号为问话人的波束信号集。

S102：根据所述当前帧的前一帧在所述第二拾音区域的第一输出波束信号，从所述第二波束信号集合中确定至少一个第一参考波束信号。

在本申请中，当前帧的第一波束信号集合和第二波束信号集合分别对应不同拾音区域，不同拾音区域负责对不同说话人的语音进行拾取，为更清晰地得到不同说话人的语音，本申请中，可从第一波束信号集合中滤除第二拾音区域内的信息，从第二波束信号集合中滤除第一拾音区域内的信息。

在本申请中，可以应用GSC(Generalized Sidelobe Canceler,广义旁瓣对消)算法，实现从第一波束信号集合中滤除第二拾音区域内的信息，从第二波束信号集合中滤除第一拾音区域内的信息。

应用GSC算法，实现从第一波束信号集合中滤除第二拾音区域内的信息，从第二波束信号集合中滤除第一拾音区域内的信息，需要将每一个待滤除的波束信号作为目标波束信号，并为其选择参考波束信号。

目前传统的为目标波束信号选择参考波束信号的方式是，为每一个目标波束信号预设固定的参考波束信号。但是，由于说话人的移动，或者，多个说话人在不同位置说话时，往往会出现某个波束信号中不存在实际的语音信号，这种情况下，如果将该波束信号选择为参考波束信号，对目标波束滤除另一方说话人的语音无法提供有效参考。

为解决上述问题，在本申请中，只在当前帧为所述麦克风阵列采集的声音信号的第一帧的时候为目标波束信号随机确定参考波束信号，非第一帧时，当前帧的前一帧在第二拾音区域的第一输出波束信号已经确定出来，可根据所述当前帧的前一帧在所述第二拾音区域的第一输出波束信号，从所述第二波束信号集合中确定至少一个第一参考波束信号。这样实现参考波束信号动态选择，从而提供有效参考。

在本申请中，作为一种可实施方式，可获取当前帧的前一帧在所述第二拾音区域的第一输出波束信号的标识，所述标识用于标识所述第二拾音区域的波束信号，将第二波束信号集合中与所述波束标识对应的波束信号确定为第一参考波束信号。

为便于理解，基于图2所示的场景，当前帧在答话人拾音区域的波束信号集合中包括指向d₁、d₂、d₈的波束信号，假设当前帧的前一帧在问话人拾音区域的输出波束信号集合中包括指向d₄、d₆的波束信号，则指向d₁、d₂、d₈的波束信号的参考波束信号为当前帧在问话人拾音区域的波束信号集合中指向d₄、d₆的波束信号。

需要说明的是，当前帧的前一帧在第二拾音区域的第一输出波束信号也是采用本申请提供的声音信号处理方法确定出来的。

S103：基于所述参考波束信号，滤除所述第一波束信号中包含的第二拾音区域内的信息，得到处理后的第一波束信号集合。

在本申请中，在确定参考波束信号之后，将参考波束信号和目标波束信号输入GSC模型，由GSC模型滤除第一波束信号中包含的第二拾音区域内的信息，得到处理后的第一波束信号，当第一波束信号集合中的每个波束信号处理完毕之后，即可得到处理后的第一波束信号集合。

由于GSC算法为成熟算法，因此，GSC模型滤除第一波束信号中包含的第二拾音区域内的信息的具体方式，本申请不再赘述。

S104：基于所述处理后的第一波束信号集合，确定所述当前帧在所述第一拾音区域的第二输出波束信号。

在本申请中，可以将处理后的第一波束信号集合中的全部波束信号直接确定为当前帧在所述第一拾音区域的第二输出波束信号。

本实施例公开了一种声音信号的处理方法，通过根据所述当前帧的前一帧在所述第二拾音区域的第一输出波束信号，从所述第二波束信号集合中确定至少一个第一参考波束信号；基于所述参考波束信号，滤除所述第一波束信号中包含的第二拾音区域内的信息，得到处理后的第一波束信号集合；可以实现对于参考波束信号的实时更新，因此，采用本申请的声音信号的处理方法进行语音分离，可以提高分离后的声音信号的清晰度。

在本申请中，还公开了一种确定当前帧在所述第一拾音区域的第二输出波束信号的具体实现方式，该方式可以包括如下步骤：

S201：确定与所述当前帧对应的多个时间窗。

在本申请中，当前帧对应的多个时间窗，可以处于当前帧左侧和右侧不同时间区域内，每个时间窗的长度可以相同也可以不同，每个时间窗中可包含一个帧，也可包含多个连续帧。

为便于理解，请参阅图3，图3为本申请实施例公开的一种时间窗示意图。该图中，包括5个时间窗，即图中所示的Win_LL、Win_LS、Win_M、Win_RS、Win_RL。

需要说明的是，语音存在间歇期，比如，人在持续说话过程中，会有停顿，可能在多个波束中只有一个波束能量最大，而多人说话时，可能会抢话，这种情况下，多个人的间歇不完全相同，通过设置多个时间窗，不同时间窗内能量最大的波束可能对应不同人说的话，这样，就能找出所有说话者的波束，避免了多人抢话时，某一方的话无法被清晰分离。

S202：确定每个时间窗内所述第一拾音区域中的最大能量波束，得到最大能量波束集合。

在本申请中，可以统计每个时间窗内每个波束的能量，从中确定第一拾音区域中的波束中能量最大的波束作为该时间窗内第一拾音区域中的最大能量波束，各个时间窗内第一拾音区域中的最大能量波束组合得到最大能量波束集合。其中，每个时间窗内每个波束的能量可以为该时间窗内各个帧中该波束的能量之和，每个帧中该波束的能量之和为该帧内所有频点处该波束的能量之和。最大能量波束集合中最少为一个波束，最多为第一拾音区域中的全部波束。

为便于理解，基于图2的场景，假设要确定问话人当前帧的波束输出结果，当前帧对应的时间窗为图3所示，分别确定5个时间窗内指向d₃、d₄、d₅、d₆、d₇的波束中能量最大的波束，假设Win_LL内指向d₃的波束能量最大、Win_LS指向d₃的波束能量最大、Win_M内指向d₆的波束能量最大、Win_RS内指向d₄的波束能量最大、Win_RL内指向d₄的波束能量最大，则最大能量波束集合为(d₃、d₆、d₄)。

需要说明的是，确定每个时间窗内所述第一拾音区域中的最大能量波束之后，还可以记录所述最大能量波束集合中的每个最大能量波束对应的波束标识，以便后续从所述当前帧的后一帧的第一波束信号集合中确定参考波束信号。

S203：基于所述最大能量波束集合，确定所述当前帧在所述第一拾音区域的第二输出波束信号。

在本申请中，确定所述最大能量波束集合中各个最大能量波束的权重，根据所述权重，对所述处理后的第一波束信号集合中的各个波束信号进行加权，得到所述第二输出波束信号。具体可以依据各个波束在各个时间窗内作为最大能量波束的次数，以及时间窗的个数，确定各个最大能量波束的权重，作为一种可实施方式，可以计算各个波束在各个时间窗内作为最大能量波束的次数与时间窗的个数的比值为各个波束的权重。

为便于理解，假设最大能量波束集合为(d₃、d₆、d₄)，其中d₃在各个时间窗内作为最大能量波束的次数为2次，d₆在各个时间窗内作为最大能量波束的次数为1次，d₄在各个时间窗内作为最大能量波束的次数为2次。则d₃的权重为2/(2+1+2)，d₆权重为1/(2+1+2)，d₄权重为2/(2+1+2)。

下面对本申请实施例公开的声音信号的处理装置进行描述，下文描述的声音信号的处理装置与上文描述的声音信号的处理方法可相互对应参照。

参照图4，图4为本申请实施例公开的一种声音信号的处理装置结构示意图。如图4所示，该声音信号的处理装置可以包括：

获取单元11，用于获取当前帧的第一波束信号集合和第二波束信号集合；所述第一波束信号集合包括多个第一波束信号，所述第一波束信号的波束朝向分布于麦克风阵列的第一拾音区域；所述第二波束信号集合包括多个第二波束信号，所述第二波束信号的波束朝向分布于所述麦克风阵列的第二拾音区域；

参考波束信号第一确定单元12，用于根据所述当前帧的前一帧在所述第二拾音区域的第一输出波束信号，从所述第二波束信号集合中确定至少一个第一参考波束信号；

滤除单元13，用于基于所述参考波束信号，滤除所述第一波束信号中包含的第二拾音区域内的信息，得到处理后的第一波束信号集合；

确定单元14，用于基于所述处理后的第一波束信号集合，确定所述当前帧在所述第一拾音区域的第二输出波束信号。

可选地，所述参考波束信号第一确定单元，具体用于：

可选地，所述确定单元，具体包括：

可选地，所述确定子单元，具体用于：

可选地，所述装置还包括：

需要说明的是，上述各个单元的具体功能实现已在方法实施例中详细说明，本实施例不再赘述。

图5为本申请实施例公开的声音信号的处理设备的硬件结构框图，参照图5，声音信号的处理设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种声音信号的处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述从所述第二波束信号集合中确定至少一个第一参考波束信号，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述确定所述当前帧在所述第一拾音区域的第二输出波束信号，具体包括：

确定与所述当前帧对应的多个时间窗；

4.根据权利要求3所述的方法，其特征在于，所述基于所述最大能量波束集合，确定所述当前帧在所述第一拾音区域的第二输出波束信号，具体包括：

确定所述最大能量波束集合中各个最大能量波束的权重；

5.根据权利要求3所述的方法，其特征在于，所述确定每个时间窗内所述第一拾音区域中的最大能量波束之后，还包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1至6中任意一项所述的方法，其特征在于，所述第一拾音区域为第一方说话人对应的拾音区域，或，第二方说话人对应的拾音区域。

8.一种声音信号的处理装置，其特征在于，包括：

9.一种声音信号的处理设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1至7中任一项所述的声音信号的处理方法的各个步骤。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的声音信号的处理方法的各个步骤。