CN109410978B

CN109410978B - 一种语音信号分离方法、装置、电子设备及存储介质

Info

Publication number: CN109410978B
Application number: CN201811311483.1A
Authority: CN
Inventors: 杨亮; 雷宇
Original assignee: Beijing Rubu Technology Co ltd
Current assignee: Beijing Rubu Technology Co.,Ltd.
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2021-11-09
Anticipated expiration: 2038-11-06
Also published as: CN109410978A

Abstract

本发明实施例公开了一种语音信号分离方法、装置、电子设备及存储介质，该方法包括：采用语音采集系统采集语音信号，其中，所述语音采集系统包括至少一对由两个麦克风组成的双麦单元，每对双麦单元的位置依据对应的发声点的位置确定；采用波束成形算法对采集的语音信号进行分离，得到目标声源信号。通过本发明实施例提供的技术方案，能够准确的从语音信号中分离出目标声源信号。

Description

一种语音信号分离方法、装置、电子设备及存储介质

技术领域

本发明涉及信号分离技术领域，尤其涉及一种语音信号分离方法、装置、电子设备及存储介质。

背景技术

目前，语音识别技术在汽车驾舱中的应用越来越广泛。语音交互能够让驾驶员和车内乘客能够更自然，更快速的访问车内服务，同时也避免了由于驾驶员视线离开路面可能产生的危险和事故。

但是由于车内人员聊天对语音指令的干扰，现有的语音识别技术不能准确的确定语音来源的位置，例如当用户正在说出语音指令的时候，如果旁边有其他人在闲聊或者发出声音，两段语音会混合到一起，无法准确从混合语音中确定用户的语音信号。

发明内容

本发明提供一种语音信号分离方法、装置、电子设备及存储介质，能够准确的从语音信号中分离出目标声源信号。

第一方面，本发明实施例提供了一种语音信号分离方法，该方法包括：

采用语音采集系统采集语音信号，其中，所述语音采集系统包括至少一对由两个麦克风组成的双麦单元，每对双麦单元的位置依据对应的发声点的位置确定；

采用波束成形算法对采集的语音信号进行分离，得到目标声源信号。

第二方面，本发明实施例还提供了一种语音信号分离装置，包括：

语音信号采集模块，用于采用语音采集系统采集语音信号，其中，所述语音采集系统包括至少一对由两个麦克风组成的双麦单元，每对双麦单元的位置依据对应的发声点的位置确定；

分离模块，用于采用波束成形算法对采集的语音信号进行分离，得到目标声源信号。

第三方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所述的一种语音信号分离方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如本发明任意实施例所述的一种语音信号分离方法。

本发明实施例提供的一种语音信号分离方法、装置、电子设备及存储介质，通过采用波束成形算法对预先构建的语音采集系统采集的语音信号进行分离处理，可准确的从采集的语音信号中分离出目标声源信号。该方案能够在存在多路语音信号及外部环境干扰的情况下，比如车辆等特定场景中，准确的从语音信号中分离出目标声源信号。

附图说明

图1A是本发明实施例一中提供的一种语音信号分离方法的流程图；

图1B是本发明实施例所适用的一种语音采集系统的示意图；

图2是本发明实施例二中提供的一种语音信号分离方法的流程图；

图3是本发明实施例三中提供的一种语音信号分离装置的结构示意图；

图4是本发明实施例四中提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1A为本发明实施例一中提供的一种语音信号分离方法的流程图，本实施例可适用于如何从采集的语音信号中准确分离出用户的语音信号的情况，尤其适用于解决座位固定的车辆环境下，如何在车内存在多个语音等外部干扰的情况下从混合语音中确定用户的语音信号，该方法可以由语音信号分离装置来执行，该装置可采用软件和/或硬件的方式实现。参见图1A，该方法具体包括：

S110，采用语音采集系统采集语音信号，其中，语音采集系统包括至少一对由两个麦克风组成的双麦单元，每对双麦单元的位置依据对应的发声点的位置确定。

其中，语音采集系统是预先构建的，用于对语音信号进行采集；可选的，语音采集系统可以由多个麦克风或麦克风阵列组成。

对于车辆座位固定的环境下，为了能够在车内语音等干扰即存在多路语音信号的情况下，准确识别出用户的语音信号，例如识别驾驶员或副驾驶员的语音信号。可依据车辆内的座位构造构建语音采集系统，可选的，语音采集系统包括至少一对由两个麦克风组成的双麦单元，每对双麦单元的位置依据对应的发声点的位置确定。

其中，两个麦克风视为一对双麦单元，发声点即为车内人员的嘴巴，发声点位置正对两个麦克风连线的中垂线，也就是说，每对双麦单元的两个麦克风之间连线的中垂面上包括发声点，每个发声点对应一对双麦单元。

示例性的，每对双麦单元的位置可以由用户或位置确定模型执行如下操作确定，其中，位置确定模型是预先训练的可用于确定每对双麦单元位置的模型，将发声点的位置、预设的安装平面及中心点位置输入位置确定模型，模型就会结合自身的参数，输出该对双麦的安装位置。

A、依据发声点的位置和预设的安装平面确定该发声点在安装平面上的投影点。

其中，预设的安装平面是指预先设置的用于安装麦克风的平面，如中控台。需要说明的是，由于车内座位的构造，不同的发声点可对应不同的安装平面，也可以对应相同的安装平面。且，由于人身高的不同，将导致发声点的位置变化，从而导致麦克风的位置不固定，因此为了便于固定麦克风，在可控范围内如3-5度，采用标准身高或平均身高来设定发声点的位置。

例如，参见图1B所示，由于驾驶员和副驾驶员均位于车内前排，因此可在同一安装平面内为每个人员设置与其对应的双麦单元。具体的，两个发声点位置分别为正驾驶员的嘴巴所在位置S₁和副驾驶员的嘴巴所在位置S₂；安装平面为M1。在垂直平面内，经过发声点位置向安装平面做垂线，该垂线与安装平面的交点即为发声点在安装平面上的投影点。例如，参见图1B所示，过点S₁向安装平面M1做垂线，与安装平面M1的交点即为投影点S₁ ^/；过点S₂向安装平面M1做垂线，与安装平面M1的交点即为投影点S₂ ^/。

B、依据投影点的位置和中心点位置之间的第一距离，以及第一距离与第二距离之间的线性关系，确定发声点对应的双麦单元的安装位置。

其中，中心点位置依据发声点预先设置，每个发声点对应一个中心点，具体的，中心点位置是指车内人员如驾驶员正对的安装平面区域的位置。例如，图1B中S₁对应的中心点位置即S₁正对的安装平面的位置O₁和S₂对应的中心点位置即S₂正对的安装平面的位置O₂；以及三个麦克风MIC1、MIC0和MIC2。

针对每个麦克风，该麦克风的位置和中心点位置之间的距离即为第二距离，例如图1B中的MIC1与O₁之间的距离。投影点的位置和中心点位置之间的距即为第一距离，例如图1B中的S₁ ^/与O₁之间的距离。可选的，投影点的位置和中心点位置之间的第一距离是麦克风的位置和中心点位置之间的第二距离的50倍，例如图1B中的S₁ ^/与O₁之间的距离S₁ ^/O₁是MIC1与O₁之间的距离的50倍。

具体的，在确定发声点对应的投影点以及依据发声点预先确定中心点位置之后，依据投影点的位置和中心点位置之间的第一距离，与麦克风的位置和发声中心点位置之间的第二距离的线性关系，可唯一确定每对双麦单元中每个麦克风的位置。

需要说明的是，通常情况下一个发声点对应一对双麦单元，若两个发声点对应的两对双麦单元的安装位置存在重叠，可采用共用麦克风的形式构建语音采集系统，如图1B所示，由三个麦克风组成的两对双麦单元，即驾驶员对应的双麦单元MIC1和MIC0，副驾驶员对应的双麦单元MIC2和MIC0。

示例性的，可根据车辆内座位的构造，设置与位置个数相同的双麦对。例如，对应具有五个位置的车辆，可在车控台上设置两对双麦分别对应驾驶员和副驾驶员，在前排座位后面相应的设置三对双麦分别对应后排的三个人员。

需要说明的是，采用该种构建方式设置的语音采集系统，一对双麦单元采集的语音信号为一个语音信号，即将一对双麦对应的两个麦克风所采集的语音合成为一个语音信号。若采用普通的语音采集系统，一个麦克风所采集的语音为一个语音信号。

S120，采用波束成形算法对采集的语音信号进行分离，得到目标声源信号。

其中，目标声源信号是指去除干扰信号之外的语音信号，即发声点位置处对应的目标发声者发出的信号。例如，在车辆中，驾驶员的嘴巴为发声点，则驾驶员可以是为目标发声者，驾驶员发出的声音信号便可以是目标声源信号。波束成形算法是一种信号降维或获取特定范围信号的方法，也是一种分离信号的方法，本实施例采用波束成形算法可以保留每对双麦对应的中垂线附近特定角度范围内如10度内的语音，抑制其他范围内的语音。

具体的，针对每对双麦采集的语音信号，采用波束成形算法即可从中分离出目标声源信号。若语音采集系统为图1B所示的构建方式，则采用波束成形算法将得到包含驾驶员或副驾驶员的语音信号，即采用波束成形算法可以明确知道语音来源的位置。

本发明实施例提供的技术方案，通过采用波束成形算法对预先构建的语音采集系统采集的语音信号进行分离处理，可准确的从采集的语音信号中分离出目标声源信号。该方案能够在存在多路语音信号及外部环境干扰的情况下，比如车辆等特定场景中，准确的从语音信号中分离出目标声源信号。

实施例二

图2为本发明实施例二中提供的一种语音信号分离方法的流程图，本实施例在上述实施例的基础上，进一步的对采用波束成形算法对采集的语音信号进行分离，得到目标声源信号进行解释说明。参见图2，该方法具体包括：

S210，采用语音采集系统采集语音信号，其中，语音采集系统包括至少一对由两个麦克风组成的双麦单元，每对双麦单元的位置依据对应的发声点的位置确定的。

S220，根据采集的语音信息确定辅助函数，其中，辅助函数的参数包括预设方向范围内和/或范围外语音信号的能量。

其中，预设方向范围是预先设定的用于表示从语音信号中分离的是哪个方向范围内的信号，可选的，预设方向范围可以是每对双麦对应的中垂线附近特定角度范围如10度内。对应的，预设方向范围内可以是指目标声源信号所在的方向范围内，而预设范围外可以是指目标声源信号所在的方向范围外。

辅助函数可以是根据采集的语音信号构建的用于求解分离函数的函数；分离函数可以用于从采集的语音信号中分离出预设方向范围内的函数。可选的，构建的辅助函数要可以确保分离函数的单调递减性，这样在求解分离函数时，由于其单调递减性，可以快速的得到稳定的解。即可以无需考虑调节合适的步长实现系统的鲁棒性和收敛速度的折衷。由于本实施例中要通过分离出预设方向范围内的信号确定出目标声源的信号，因此可以通过将预设方向范围内和/或范围外的语音信号的能量作为参数应用在辅助函数中。

可选的，根据采集的语音信息确定辅助函数确定辅助函数可以包括：

通过以下公式构建与第t帧语音信号对应的辅助函数V_k：

其中，比较函数G(r_k)＝r_k ^2/3，r_k是在所述预设方向范围内或范围外的第t帧语音信号的能量值，k＝1，2…m，m为麦克风的数量；xx^h为所述至少两个麦克风采集到的第t帧语音信号构成的协方差矩阵；第t帧语音信号为x(ω)＝{x₁(ω),…,x_m(ω)}^T，其中，x₁(ω),…,x_m(ω)分别为第一个、第二个……第m个麦克风采集到的与频点ω相关的信号，m≥2。

S230，根据辅助函数计算分离函数。

具体的，可以利用矩阵之间的转置、共轭转置和矩阵的逆等运算，利用构建的辅助函数表示出分离函数。

由于麦克风采集的到的语音信号一般是时域信号，时域信号是以时间轴为坐标表示动态信号；而频域信号是把信号变为以频率轴为坐标表示出来。在本实施例中，可以通过傅里叶变换将采集的时域信号转换为频域信号。示例性的，可以将预设时间内采集的时域信号转变为频域信号，作为一帧的语音信号。比如将10ms采集的语音信号作为一帧的信号，并且转换为相应频域下对应不同频点的语音信号。

可选的，根据所述辅助函数计算分离函数之前，该方法还可以包括：计算在预设方向范围内和/或范围外的语音信号的能量，具体包括：计算语音采集系统采集到的语音信号在对应频点之间的相位差；根据相位差与预设相位差阈值的大小确定预设方向范围内和/或范围外语音信号的能量。

其中，预设相位差阈值可以是根据预设方向范围设定的阈值，用于作为判断不同频点对应的信号是否处于预设方向范围内的依据。具体的，在将麦克风采集到的时域信号转换为频域信号之后，每一帧的频域信号是与频点有关的，在不同频点处对应的相应的信号，得到的语音信号中包括对应频点的信号幅值和相位等参量。可以通过比较麦克风采集的语音信号之间的相位差与预设相位差阈值确定该频点对应的信号是否属于该预设方向范围内。

如果语音采集系统只有一对双麦单元即两个麦克风，两个麦克风中的对应同一个频点的信号的相位进行相减可以得到相位差，如果计算的相位差小于所述预设相位差阈值，则可以认为该频点对应的信号属于该预设方向范围内；如果大于所述预设相位差阈值，则可以认为该频点对应的信号不属于该预设方向范围内，即属于预设方向范围外。如果是三个麦克风如图1B所示，则可以计算三个麦克风之间的两两麦克风之间对应频点的相位差，这种情况下可以预先设定在某个频点下需要得到一组相位差、两组相位差或三组相位差小于预设相位差阈值时，便可以视为该频点对应的信号属于该预设方向范围内。相应的，可以将属于预设方向范围内和范围外的信号的能量分别进行累加，分别得到预设方向范围内和范围外的语音信号的能量，用于计算辅助函数。

可选的，根据辅助函数计算分离函数，具体可以包括：

根据辅助函数计算与第t帧语音信号对应的分离函数W(ω,t)；

W(ω,t)＝[w₁(ω,t)w₂(ω,t)…w_k(ω,t) (2)

w_k(ω,t)＝(W(ω,t-1)V_k(ω,t))^-1e_k (3)

其中，W(ω,t-1)表示第t帧的前一帧语音信号对应的分离函数，ω＝1,2,3…n，n为第t帧语音信号的频点数量；第一帧语音信号对应的分离函数为预设的初始矩阵W(ω,0)，e_k表示单位矩阵中对应的第k列列向量，k＝1,2,3…m，m为麦克风的数量，m≥2。

在计算第一帧信号对应的分离函数时，可以通过预先设定的初始矩阵W(ω,0)，利用公式(3)进行计算，对初始矩阵的设置不做限制，比如可以是一个与麦克风数量对应的单位矩阵，例如，如果有两个麦克风，相应的，初始矩阵可以是一个二阶的单位矩阵。在计算下一帧信号对应的分离函数时，便可以利用公式(3)根据辅助函数和上一帧语音信号中计算得到的分离函数w_k(ω,t)。由于语音信号具有连续性，因此每帧信号之间有一定的相关性，利用上一帧信号得到的分离函数计算得到的下一帧信号的分离函数更合理和准确。具体的，如果有两个麦克风，则w_k(ω,t)可以有两个，包括：w₁(ω,t)和w₂(ω,t)。最终的分离函数可以写为W(ω,t)＝[w₁(ω,t)w₂(ω,t)]。

为了提高计算下一帧信号对应的分离函数的收敛速度，可选的，根据辅助函数计算与第t帧语音信号对应的分离函数W(ω,t)之后，还包括：对分离函数进行归一化。具体可以通过公式

对w_k(ω,t)进行归一化。

S240，利用分离函数从语音信息中分离出目标声源信号。

示例性的，在频域下，信号采集和信号的分离的基本模型如下：

x(ω)＝H(ω)s(ω) (4)

y(ω)＝W(ω)x(ω) (5)

其中，x(ω)＝{x₁(ω),…,x_m(ω)}^T为麦克风采集到的信号，x₁(ω),…,x_m(ω)分别为第一个、第二个……第m个麦克风采集到的与频点ω相关的信号，m≥2。s(ω)＝{s₁(ω),…,s_n(ω)}^T为目标声源信号，即要分离出的语音信号，H(ω)为声源到传声器(比如麦克风)的传递函数，可以称为混合矩阵(Mixing matrix)；W(ω)解混矩阵(demixingmatrix)，W(ω)＝{w₁(ω),…，w_n(ω)}^h，即为本发明实施例中的分离函数。

在分离函数确定以后，可以利用公式(5)将y(ω)解出来，得到预设方向范围内的信号y(ω)，即分离出的该预设方向的信号便可以视为是目标声源信号。因此y(ω)可以视为s(ω)目标声源信号的近似，即本实施例中可以在目标声源位置确定以后，可以利用分离出预设方向内的信号作为目标声源的信号。

本发明实施例的技术方案，通过采用波束成形算法对预先构建的语音采集系统采集的语音信号进行分离处理，可准确的从采集的语音信号中分离出目标声源信号。该方案能够在存在多路语音信号及外部环境干扰的情况下，比如车辆等特定场景中，准确的从语音信号中分离出目标声源信号，同时以方向范围分离信号得到的分离结果更加接近目标声源信号。

实施例三

图3为本发明实施例三中提供的一种语音信号分离装置的结构示意图，该装置可执行本发明任意实施例所提供的语音信号分离方法，具备执行方法相应的功能模块和有益效果。如图3所示，该装置可以包括：

语音信号采集模块310，用于采用语音采集系统采集语音信号，其中，语音采集系统包括至少一对由两个麦克风组成的双麦单元，每对双麦单元的位置依据对应的发声点的位置确定；

分离模块320，用于采用波束成形算法对采集的语音信号进行分离，得到目标声源信号。

示例性的，每对双麦单元的两个麦克风之间连线的中垂面上包括发声点。

示例性的，每对双麦单元的位置由如下操作确定：

依据发声点的位置和预设的安装平面确定该发声点在安装平面上的投影点；

依据投影点的位置和中心点位置之间的第一距离，以及第一距离与第二距离之间的线性关系，确定发声点对应的双麦单元的安装位置，其中，第二距离为麦克风的位置和中心点位置之间的距离，中心点位置依据发声点预先设置。

示例性的，分离模块320可以包括：

辅助函数确定单元，用于根据采集的语音信息确定辅助函数，其中，辅助函数的参数包括预设方向范围内和/或范围外语音信号的能量；

分离函数确定单元，用于根据辅助函数计算分离函数；

目标信号分离单元，用于利用分离函数从语音信息中分离出目标声源信号。

示例性的，辅助函数确定单元，具体用于通过以下公式构建与第t帧语音信号对应的辅助函数V_k：

其中，比较函数G(r_k)＝r_k ^2/3，r_k是在预设方向范围内或范围外的第t帧语音信号的能量值，k＝1，2…m，m为麦克风的数量；xx^h为至少两个麦克风采集到的第t帧语音信号构成的协方差矩阵；第t帧语音信号为x(ω)＝{x₁(ω),…,x_m(ω)}^T，其中，x₁(ω),…,x_m(ω)分别为第一个、第二个……第m个麦克风采集到的与频点ω相关的信号，m≥2。

示例性的，分离函数确定单元，具体用于根据辅助函数计算与第t帧语音信号对应的分离函数W(ω，t)；

W(ω，t)＝[w₁(ω，t)w₂(ω，t)…w_k(ω，t)]；

w_k(ω，t)＝(W(ω，t-1)V_k(ω，t))^-1e_k；

其中，W(ω，t-1)表示第t帧的前一帧语音信号对应的分离函数，ω＝1，2，3…n，n为第t帧语音信号的频点数量；第一帧语音信号对应的分离函数为预设的初始矩阵W(ω，0)，e_k表示单位矩阵中对应的第k列列向量，k＝1,2,3…m，m为麦克风的数量m≥2。

实施例四

参见图4，本发明实施例四中提供的一种电子设备的结构示意图，其包括：一个或多个处理器420；存储装置410，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器420执行，使得所述一个或多个处理器420实现本发明实施例所提供的一种语音信号分离方法，包括：

采用语音采集系统采集语音信号，其中，语音采集系统包括至少一对由两个麦克风组成的双麦单元，每对双麦单元的位置依据对应的发声点的位置确定；

当然，本领域技术人员可以理解，处理器420还可以实现本发明任意实施例所提供的一种语音信号分离方法的技术方案。

图4显示的电子设备400仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，电子设备400以通用计算设备的形式表现。电子设备400的组件可以包括但不限于：一个或者多个处理器420，存储装置410，连接不同系统组件(包括存储装置410和处理器420)的总线450。

总线450表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备400典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备400访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储装置410可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)411和/或高速缓存存储器412。电子设备400可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统413可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线450相连。存储装置410可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块415的程序/实用工具414，可以存储在例如存储装置410中，这样的程序模块415包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块415通常执行本发明所描述的任意实施例中的功能和/或方法。

电子设备400也可以与一个或多个外部设备460(例如键盘、指向设备、显示器470等)通信，还可与一个或者多个使得用户能与该电子设备400交互的设备通信，和/或与使得该电子设备400能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口430进行。并且，电子设备400还可以通过网络适配器440与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图4所示，网络适配器440通过总线450与电子设备400的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器420通过运行存储在存储装置410中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种语音信号分离方法。

实施例五

本发明实施例五提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种语音信号分离方法，该方法包括：

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的一种信号分离方法中的相关操作。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音信号分离方法，其特征在于，包括：

采用波束成形算法对采集的语音信号进行分离，得到目标声源信号；

所述采用波束成形算法对采集的语音信号进行分离，得到目标声源信号，包括：

根据采集的语音信息确定辅助函数，其中，所述辅助函数的参数包括预设方向范围内和/或范围外语音信号的能量；

根据辅助函数计算分离函数；

利用分离函数从所述语音信息中分离出目标声源信号；

所述根据采集的语音信息确定辅助函数，包括：

通过以下公式构建与第t帧语音信号对应的辅助函数V_k：

其中，比较函数G(r_k)＝r_k ^2/3，r_k是在所述预设方向范围内或范围外的第t帧语音信号的能量值，k＝1，2...m，m为麦克风的数量；xx^h为所述至少两个麦克风采集到的第t帧语音信号构成的协方差矩阵；第t帧语音信号为x(ω)＝{x₁(ω)，...，x_m(ω)}^T，其中，x₁(ω)，...，x_m(ω)分别为第一个、第二个......第m个麦克风采集到的与频点ω相关的信号，m≥2；

所述根据所述辅助函数计算分离函数，包括：

根据所述辅助函数计算与第t帧语音信号对应的分离函数W(ω，t)；

w_k(ω，t)＝(W(ω，t-1)Vk(ω，t))^-1e_k；

W(ω，t)＝[w₁(ω，t)w₂(ω，t)...w_k(ω，t)]；

其中，W(ω，t-1)表示第t帧的前一帧语音信号对应的分离函数，ω＝1，2，3...n，n为第t帧语音信号的频点数量；第一帧语音信号对应的分离函数为预设的初始矩阵W(ω，0)，e_k表示单位矩阵中对应的第k列列向量，k＝1，2，3...m，m为麦克风的数量，m≥2。

2.根据权利要求1所述的方法，其特征在于，每对双麦单元的两个麦克风之间连线的中垂面上包括所述发声点。

3.根据权利要求2所述的方法，其特征在于，所述每对双麦单元的位置由如下操作确定：

依据所述投影点的位置和中心点位置之间的第一距离，以及所述第一距离与第二距离之间的线性关系，确定所述发声点对应的双麦单元的安装位置，其中，所述第二距离为麦克风的位置和中心点位置之间的距离，所述中心点位置依据所述发声点预先设置。

4.一种语音信号分离装置，其特征在于，包括：

分离模块，用于采用波束成形算法对采集的语音信号进行分离，得到目标声源信号；

所述分离模块包括：

分离函数确定单元，用于根据辅助函数计算分离函数；

目标信号分离单元，用于利用分离函数从语音信息中分离出目标声源信号；

所述辅助函数确定单元，具体用于通过以下公式构建与第t帧语音信号对应的辅助函数V_k：

其中，比较函数G(r_k)＝r_k ^2/3，rk是在预设方向范围内或范围外的第t帧语音信号的能量值，k＝1，2...m，m为麦克风的数量；xx^h为至少两个麦克风采集到的第t帧语音信号构成的协方差矩阵；第t帧语音信号为x(ω)＝{x₁(ω)，...，x_m(ω)}^T，其中，x₁(ω)，...，xm(ω)分别为第一个、第二个......第m个麦克风采集到的与频点ω相关的信号，m≥2；

所述分离函数确定单元，具体用于根据辅助函数计算与第t帧语音信号对应的分离函数W(ω，t)；

W(ω，t)＝[w₁(ω，t)w₂(ω，t)...w_k(ω，t)]；

w_k(ω，t)＝(W(ω，t-1)V_k(ω，t))^-1e_k；

其中，W(ω，t-1)表示第t帧的前一帧语音信号对应的分离函数，ω＝1，2，3...n，n为第t帧语音信号的频点数量；第一帧语音信号对应的分离函数为预设的初始矩阵W(ω，0)，e_k表示单位矩阵中对应的第k列列向量，k＝1，2，3...m，m为麦克风的数量m≥2。

5.根据权利要求4所述的装置，其特征在于，两个麦克风之间连线的中垂面上包括所述发声点。

6.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-3中任一所述的一种语音信号分离方法。

7.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-3中任一所述的一种语音信号分离方法。