CN111445920A

CN111445920A - 一种多声源的语音信号实时分离方法、装置和拾音器

Info

Publication number: CN111445920A
Application number: CN202010252292.3A
Authority: CN
Inventors: 陈龙; 隆弢; 黄海; 刘佳
Original assignee: Xi'an Shenglian Technology Co ltd
Current assignee: Xi'an Shenglian Technology Co ltd
Priority date: 2020-03-19
Filing date: 2020-04-01
Publication date: 2020-07-24
Anticipated expiration: 2040-04-01
Also published as: CN111445920B

Abstract

本发明实施例提供了一种多声源的语音信号实时分离方法、装置和拾音器，对从圆环形麦克风阵列中的任一第一麦克风阵元采集的第一语音信号，将所述第一语音信号划分为预设帧长的语音帧，并确定需进行语音信号分离的有效语音帧，对每一有效语音帧，通过SRP‑PHAT声源定位算法确定所述有效语音帧的估计传播方向，确定与估计传播方向匹配的目标角度范围，通过与目标角度范围对应的输出通道输出该有效语音帧。通过SRP‑PHAT声源定位算法和预先设定的角度范围实现了对不同声源语音信号的分离，SRP‑PHAT声源定位算法运算量小、实时跟踪能力强，尤其是对室内混响有着很强的鲁邦性，能够准确估计语音的方位信息，实现对语音信号的分离。

Description

一种多声源的语音信号实时分离方法、装置和拾音器

技术领域

本发明涉及语音处理技术领域，尤其是涉及一种多声源的语音信号实时分离方法、装置和拾音器。

背景技术

近年来，随着语音识别技术的飞速发展，多路语音识别场景中对实时声源分离技术提出迫切的技术需求。比如，在某些重要会议场景中，实时会议记录，以及记录质量都有着举足轻重的作用。但就目前实际市场而言，会议记录或是依靠人工现场进行记录和整理；或是先期视频录制再后期回放进行整理。而这两种方式，都是一项非常耗时和繁琐的人力工作。可以通过录音的方式记录语音信号，但是当需要回放某一内容时，需要回放整段录音，耗时较长。

现有技术中也存在对声源定向的技术，但是这些技术普遍存在定位准确度低、实时跟踪性差的问题，此外，声源分离存在切换不及时、语音分离存在误判等问题。

由此，在实际应用过程中，声源分离技术定位准确性低、声源分离存在切换不及时、语音分离存在误判。

发明内容

本发明实施例提供一种语音信号分离方法和拾音器，用以解决现有技术中的声源分离技术定位准确性低、声源分离存在切换不及时、语音分离存在误判的问题。

针对以上技术问题，第一方面，本发明实施例提供一种多声源的语音信号实时分离方法，包括：

从圆环形麦克风阵列采集的语音信号中，获取由所述圆环形麦克风阵列中的任一第一麦克风阵元采集的第一语音信号；

将所述第一语音信号划分为预设帧长的语音帧，通过语音活性检测从划分的各语音帧中确定需进行语音信号分离的有效语音帧；

对每一有效语音帧，通过SRP-PHAT声源定位算法确定所述有效语音帧的估计传播方向，确定与所述有效语音帧的估计传播方向匹配的角度范围，作为目标角度范围，通过与所述目标角度范围对应的输出通道输出所述有效语音帧。

第二方面，本发明实施例提供一种拾音器，包括：包括圆环形麦克风阵列和处理单元；

所述圆环形麦克风阵列用于采集语音信号，并将采集的语音信号发送到处理单元；

所述处理单元用于执行以上任一项所述的种多声源的语音信号实时分离方法。

第三方面，本发明实施例提供一种多声源的语音信号实时分离装置，包括：

获取模块，用于从圆环形麦克风阵列采集的语音信号中，获取由所述圆环形麦克风阵列中的任一第一麦克风阵元采集的第一语音信号；

确定模块，用于将所述第一语音信号划分为预设帧长的语音帧，通过语音活性检测从划分的各语音帧中确定需进行语音信号分离的有效语音帧；

分离模块，用于对每一有效语音帧，通过SRP-PHAT声源定位算法确定所述有效语音帧的估计传播方向，确定与所述有效语音帧的估计传播方向匹配的角度范围，作为目标角度范围，通过与所述目标角度范围对应的输出通道输出所述有效语音帧。

本发明的实施例提供了一种多声源的语音信号实时分离方法、装置和拾音器，对从圆环形麦克风阵列中的任一第一麦克风阵元采集的第一语音信号，将所述第一语音信号划分为预设帧长的语音帧，并确定需进行语音信号分离的有效语音帧，对每一有效语音帧，通过SRP-PHAT声源定位算法确定所述有效语音帧的估计传播方向，确定与估计传播方向匹配的目标角度范围，通过与目标角度范围对应的输出通道输出该有效语音帧。通过SRP-PHAT声源定位算法和预先设定的角度范围实现了对不同声源语音信号的分离，SRP-PHAT声源定位算法运算量小、实时跟踪能力强，尤其是对室内混响有着很强的鲁邦性，能够准确估计语音的方位信息，实现对语音信号的分离。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种多声源的语音信号实时分离方法的流程示意图；

图2是本发明另一个实施例提供的多声源的语音信号实时分离方法的具体过程示意图；

图3是本发明另一个实施例提供的圆环形麦克风阵列的结构示意图；

图4是本发明另一个实施例提供的n个阵元组成的圆环麦克风阵列对语音信号进行采集的示意图；

图5是本发明另一个实施例提供的由n个同规格参数的全向性麦克风组成的圆环形阵列对m组声波进行采集的示意图；

图6是本发明另一个实施例提供的VAD检测过程示意图；

图7是本发明另一个实施例提供的由6个规格的全向性麦克风组成的麦克风阵列示意图；

图8是本发明另一个实施例提供的对四个话语者进行语音分离后的声波图像；

图9是本发明另一个实施例提供的多声源的语音信号实时分离装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本实施例提供的多声源的语音信号实时分离方法的流程示意图，参见图1，该方法包括：

步骤101：从圆环形麦克风阵列采集的语音信号中，获取由所述圆环形麦克风阵列中的任一第一麦克风阵元采集的第一语音信号；

步骤102：将所述第一语音信号划分为预设帧长的语音帧，通过语音活性检测从划分的各语音帧中确定需进行语音信号分离的有效语音帧；

步骤101：对每一有效语音帧，通过SRP-PHAT声源定位算法确定所述有效语音帧的估计传播方向，确定与所述有效语音帧的估计传播方向匹配的角度范围，作为目标角度范围，通过与所述目标角度范围对应的输出通道输出所述有效语音帧。

本实施例提供的方法由计算机、服务器、对语音信号进行处理的设备(例如，拾音器)执行。预设帧长的变化范围通常为几毫秒到几十毫秒之间，例如，本实施例选取预设帧长为4ms。相邻的语音帧之间存在重叠时间，例如，重叠率为75％。

本实施例提供了一种多声源的语音信号实时分离方法，对从圆环形麦克风阵列中的任一第一麦克风阵元采集的第一语音信号，将所述第一语音信号划分为预设帧长的语音帧，并确定需进行语音信号分离的有效语音帧，对每一有效语音帧，通过SRP-PHAT声源定位算法确定所述有效语音帧的估计传播方向，确定与估计传播方向匹配的目标角度范围，通过与目标角度范围对应的输出通道输出该有效语音帧。通过SRP-PHAT声源定位算法和预先设定的角度范围实现了对不同声源语音信号的分离，SRP-PHAT声源定位算法运算量小、实时跟踪能力强，尤其是对室内混响有着很强的鲁邦性，能够准确估计语音的方位信息，实现对语音信号的分离。

具体来说，图2为本实施例提供的多声源的语音信号实时分离方法的具体过程示意图，参见图2，该过程首先通过麦克风阵列对其接收范围内的信号进行空时空采样；接着通过计算每一帧语音信号的能量，进行VAD检测；然后基于相位变换加权可控响应功率的声源定位算法(SRP-PHAT)，在指定方向上寻找SRP-PHAT值最大的点，SRP-PHAT值最大的点即就是需要被分离的声源；最后利用得到的方位信息分离出指定方向上的语音信号。

具体的步骤包括：

(1)麦克风阵列时空采样；

(2)进行语音检测(VAD)；

(3)通过SRP-PHAT搜索特定时空范围内声源方位；

(4)利用声源方位信息分离出指定方向上的语音信号。

图3为本实施例提供的圆环形麦克风阵列的结构示意图，麦克风阵列的分布情况与语音信号的采集有着密切的关系，最为常见的麦克风阵列是将阵元等间隔排列。本发明所涉及到的麦克风阵列为等间隔分布的圆环形阵列。参见图3，该圆环形阵列由n,(n为正整数)个规格参数相同全向麦克风组成，n个阵元在圆环上呈等间隔分布，其中r为圆环形阵列的半径，d为相邻两个阵元间的间距。为了防止空间混叠，阵元之间的间距d需要满足一定的条件，在空气中声速c，最高频率为f_max，则阵元的间隔需要满足d≤c/f_max。例如空气中声速为c＝340m/s，f_max＝4kHz，，该情况下d≤4.25cm。

进一步地，在上述实施例的基础上，所述对每一有效语音帧，通过SRP-PHAT声源定位算法确定所述有效语音帧的估计传播方向，包括：

对每一有效语音帧，构建当所述第一麦克风阵元接收所述有效语音帧时，所述圆环形麦克风阵列接收语音帧的接收能量随语音帧的传播方向变化的谱函数：

其中，P(f,θ_d)表示语音帧的传播方向与平面直角坐标系X轴之间的夹角为θ_d时，所述圆环形麦克风阵列接收语音帧的接收能量；n表示所述圆环形麦克风阵列中包含的麦克风阵元的总数量，w(f,θ_d)表示进行相位补偿的向量，

当构建的谱函数确定P(f,θ_d)取最大值时，根据公式

确定θ的值，将与平面直角坐标系X轴之间的夹角为所确定的θ时，对应的方向作为所述有效语音帧的估计传播方向；

其中，

w(f,θ_d)根据d(f,θ)确定，

其中，X₁(f)表示所述第一麦克风阵元接收到的所述有效语音帧，X_j(f)表示任一第j个第二麦克风阵元接收的语音帧，θ₁为所述第一麦克风阵元与平面直角坐标系X轴之间的夹角，θ_j为第j个第二麦克风阵元与平面直角坐标系X轴之间的夹角，r为所述圆环形麦克风阵列的半径，a_j为幅度因子，θ表示需要进行估计的所述有效语音帧的传播方向。

关于声源定位函数的确定过程，即上述(3)中的SRP-PHAT声源定位算法。

需要说明的是，延时累加可控响应功率(SRP)方法只需较短的时间段，并对周围环境条件不敏感，但不能达到在强混响环境下应用的程度。处理多径信道畸变的一种基本方法是通过合理选择频域相关函数的权值，使系统对混响的影响更鲁棒。相位变换(PHAT)法就是一种典型的变换方法。在低度乃至中度混响的条件下，PHAT加权能提供较强的鲁棒性。SRP-PHAT方法有效地将声源定位中SRP法固有的鲁棒性和短时分析特性，与PHAT加权对其周围环境不敏感性相结合。

图4为本实施例提供的n个阵元组成的圆环麦克风阵列对语音信号进行采集的示意图，参见图4，使用SRP-PHAT方法对其DOA进行估计。圆环阵与水平面平行放置，及平面正交坐标系X、Y轴平面水平放置。图中θ为待估计的声波方向，r为圆环形阵列的半径，在本发明中把麦克风1阵元所接收到的语音信号作为参考信号，则所有麦克风阵元所接收到的信号可以表示为：

其中，X_j(f)表示第j个麦克风阵元所接收到信号，X₁(f)表示第一个麦克风所接收到的语音信号即参考信号，a_j为幅度因子，θ₁为第一个麦克风与平面直角坐标系X轴之间的夹角，θ_j为第j个麦克风与平面直角坐标系X轴之间的夹角。SRP-PATH算法只需要利用相位信息，因此可以使用相变换方法(PATH)，可以得到：

将其写成向量形式可得：

其中：

对每一组进行相位补偿，可得：

对每一组数据求平均后计算能量可得：

其中，w(f)＝[w₁(f),…,w_j(f),…,w_n(f)]^H，且w^H(f)w(f)＝1。由上可以得知，当且仅当w(f)＝d(f,θ)时，P(f)取得最大值。假设DOA的方向角度为θ_d，根据公式

构建相位补偿能量，可得：

根据公式

可构建出谱函数P(f,θ_d)，如下：

在特定的方位角范围内进行搜索，如θ_d∈[0,360°)，搜索所得到的最大值为该方位角范围内的声源方位为θ，表示如下：

本实施例通过SRP-PHAT声源定位算法实现了对语音信号来源的估计传播方向的确定，便于后续根据估计传播方向确定用于输出该语音帧的通道，从而实现语音信号的分离。

进一步地，在上述各实施例的基础上，所述确定与所述有效语音帧的估计传播方向匹配的角度范围，作为目标角度范围，通过与所述目标角度范围对应的输出通道输出所述有效语音帧，包括：

获取预先根据公式

确定的角度范围，其中，

判断确定的估计传播方向θ在

中所属的角度范围，作为目标角度范围，通过与所述目标角度范围对应的输出通道输出所述有效语音帧。

具体来说，图5为本实施例提供的由n个同规格参数的全向性麦克风组成的圆环形阵列对m组声波进行采集的示意图，假设声波的入射方向与圆环形麦克风阵列所在的水平面直角坐标系的X轴的夹角为θ，则可以表示为：

θ＝[θ₁,θ₂,θ₃,…,θ_m]

其中θ_m为声波m与X轴的夹角。

圆环形麦克风阵列所使用的麦克风为全向性麦克风，因此可以实现360°全向拾音，为了实现m个声源声波的分离，因此需要把360°方向进行均分，即360°/m，也就是说每一个声波所取值的范围为

表示如下：

为了便于观察和比较，将上式进行整理，可得：

其中，

据此根据SRP-PHAT方法在特定方位范围

内估计出DOA的角度，分别为θ₁，θ₂，…，θ_m，其中θ₁为声源1的入射方向，θ₂为声源2的入射方向，θ_m为声源m的入射方向，到此已识别出m个声源的入射方向，结合波束形成算法即可分离出这m个声源。

本实施例通过预先划分的角度范围，实现对各语音帧对应的声源的分离。

在上述语音信号分离的过程中，由于实际录音过程中存在没有语音信号或者录入杂音的情况，若能对这种情况进行识别，并不进行上述算法则能够大大节省运算资源，基于此，进一步地，在上述各实施例的基础上，

所述将所述第一语音信号划分为预设帧长的语音帧，通过语音活性检测从划分的各语音帧中确定需进行语音信号分离的有效语音帧，包括：

将所述第一语音信号划分为预设帧长的语音帧，根据公式

计算所述各语音帧对应的能量值，其中，E为语音帧的能量值，M为语音帧的帧长，|x(m)|为语音幅度；

根据语音帧的能量值，确定每一语音帧是否处于语音状态，将处于所述语音状态的各语音帧作为需进行语音信号分离的有效语音帧；

其中，语音状态为由连续的能量值大于预设阈值的语音帧形成的状态。

进一步地，在上述各实施例的基础上，所述根据语音帧的能量值，确定每一语音帧是否处于语音状态，将处于所述语音状态的各语音帧作为需进行语音信号分离的有效语音帧，包括：

若当前的语音帧的能量值大于所述预设阈值，则获取与当前的语音帧连续的，且帧数等于预设帧数的语音帧，作为上下关联语音帧；

判断各上下关联语音帧的能量值是否均大于所述预设阈值，若是，则当前的语音帧为语音状态，否则，当前的语音帧为静音状态。

具体来说，语音活动检测(VAD)的目的是从包含语音信号的一段信号中找出语音信号的起始点及结束点，从而只存储和处理有效语音信号。有效的端点检测不仅可以减少数据的存储量及处理时间，而且能排除无声的噪声干扰。端点检测的困难在于无声段或者语音段前后人为呼吸等产生的杂音，语音开始处的弱摩擦音或弱爆破音以及终点处的鼻音，这些使得语音的端点比较模糊，需要综合利用语音的各种信号特征，从而确保定位的精确性，避免包含噪音信号和丢失语音信号。短时能量是一种最为常见的语音活动检测方法，在本发明中运用短时能量方法进行语音检测，其公式如下：

其中，E为一帧内信号的能量值，M为帧长，|x(m)|为语音幅度。

短时语音活动检测分为四个状态来实现：静音状态、语音可能开始状态、语音状态、语音可能结束状态。图6为本实施例提供的VAD检测过程示意图，参见图6，该过程具体包括：

首先计算一帧语音能量，和所设置的门限进行比较，如果小于门限，则认为是开始静音状态，当大于该门限时，语音处于可能开始状态；当处于语音可能开始状态时，计算一帧语音能量，如果仍然大于门限，计数器加一，当连续三次大于该门限时，认为进入语音状态，计数器清零；如果小于门限值，返回到静音状态。当处于语音状态时，对语音进行存储，同时对能量进行判断处理，如果语音能量小于门限，转到语音可能结束状态。当处于语音可能结束状态，语音能量大于门限时，转到语音状态，小于门限时，另一个计数器加一，如果连续十次小于能量门限，则状态转到静音状态。

本实施例通过VAD检测使得不对语音状态之外的状态所采集的数据进行处理，第一语音信号仅为语音状态时所采集的信号，避免了对无关信号的处理，节省了运算资源。

此外，本申请提供了一种拾音器，包括如图3所示的圆环形麦克风阵列和处理单元；

进一步地，在上述实施例的基础上，在所述麦克风阵列中，各麦克风阵元等间隔地分布在圆环上。

进一步地，在上述各实施例的基础上，相邻的两个麦克风阵元之间的距离小与或等于空气中声速与人耳能分辨的最高频率的比值。

本实施例提供的拾音器适用于上述各实施例提供的多声源的语音信号实时分离方法，在此不再赘述。

本实施例提供了一种拾音器，对从圆环形麦克风阵列中的任一第一麦克风阵元采集的第一语音信号，将所述第一语音信号划分为预设帧长的语音帧，并确定需进行语音信号分离的有效语音帧，对每一有效语音帧，通过SRP-PHAT声源定位算法确定所述有效语音帧的估计传播方向，确定与估计传播方向匹配的目标角度范围，通过与目标角度范围对应的输出通道输出该有效语音帧。通过SRP-PHAT声源定位算法和预先设定的角度范围实现了对不同声源语音信号的分离，SRP-PHAT声源定位算法运算量小、实时跟踪能力强，尤其是对室内混响有着很强的鲁邦性，能够准确估计语音的方位信息，实现对语音信号的分离。

为了能够更清楚的理解和实现本发明的内容，特做如下示例进行补充说明。图7是本实施例提供的由6个规格的全向性麦克风组成的麦克风阵列示意图，图7中的所示的麦克风阵列可以放置于圆形会议桌上，通过本申请提供的方法对会议的讲话内容实现分离。如图7所示，声波1即为声源1(A号说话者)，声波2即为声源2(B号说话者)，声波3即为声源3(C号说话者)，声波4即为声源4(D号说话者)，四个说话人分别在圆环形阵列的四个方位上，对应的方位信息分别为：

在本示例中说话人A、B、C、D依次各读了一段文章，选取麦克风1所采集到的语音信号作为要被分离的语音信号。经过上述算法处理，即依次经历如下过程：分帧求能量、语音活动性检测(VAD)、声源定位算法处理、波束形成算法分离处理，便可实现对四个话语者的语音信号进行分离功能。图8为本实施例提供的对四个话语者进行语音分离后的声波图像，如图8所示，通过本申请提供的方法实现了对会议过程中话语者的语音分离。

此外，图9为本实施例提供的多声源的语音信号实时分离装置的结构框图，参见图9，该装置包括获取模块901、确定模块902和分离模块903，其中，

获取模块901，用于从圆环形麦克风阵列采集的语音信号中，获取由所述圆环形麦克风阵列中的任一第一麦克风阵元采集的第一语音信号；

确定模块902，用于将所述第一语音信号划分为预设帧长的语音帧，通过语音活性检测从划分的各语音帧中确定需进行语音信号分离的有效语音帧；

分离模块903，用于对每一有效语音帧，通过SRP-PHAT声源定位算法确定所述有效语音帧的估计传播方向，确定与所述有效语音帧的估计传播方向匹配的角度范围，作为目标角度范围，通过与所述目标角度范围对应的输出通道输出所述有效语音帧。

本实施例提供的多声源的语音信号实时分离装置适用于上述各实施例提供的多声源的语音信号实时分离方法，在此不再赘述。

本实施例提供了一种多声源的语音信号实时分离装置，对从圆环形麦克风阵列中的任一第一麦克风阵元采集的第一语音信号，将所述第一语音信号划分为预设帧长的语音帧，并确定需进行语音信号分离的有效语音帧，对每一有效语音帧，通过SRP-PHAT声源定位算法确定所述有效语音帧的估计传播方向，确定与估计传播方向匹配的目标角度范围，通过与目标角度范围对应的输出通道输出该有效语音帧。通过SRP-PHAT声源定位算法和预先设定的角度范围实现了对不同声源语音信号的分离，SRP-PHAT声源定位算法运算量小、实时跟踪能力强，尤其是对室内混响有着很强的鲁邦性，能够准确估计语音的方位信息，实现对语音信号的分离。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims

1.一种多声源的语音信号实时分离方法，其特征在于，包括：

2.根据权利要求1所述的多声源的语音信号实时分离方法，其特征在于，所述对每一有效语音帧，通过SRP-PHAT声源定位算法确定所述有效语音帧的估计传播方向，包括：

其中，P(f，θ_d)表示语音帧的传播方向与平面直角坐标系X轴之间的夹角为θ_d时，所述圆环形麦克风阵列接收语音帧的接收能量；n表示所述圆环形麦克风阵列中包含的麦克风阵元的总数量，w(f，θ_d)表示进行相位补偿的向量，

当构建的谱函数确定P(f，θ_d)取最大值时，根据公式

其中，

w(f，θ_d)根据d(f，θ)确定，

3.根据权利要求2所述的多声源的语音信号实时分离方法，其特征在于，所述确定与所述有效语音帧的估计传播方向匹配的角度范围，作为目标角度范围，通过与所述目标角度范围对应的输出通道输出所述有效语音帧，包括：

获取预先根据公式

确定的角度范围，其中，

判断确定的估计传播方向θ在

4.根据权利要求1所述的多声源的语音信号实时分离方法，其特征在于，所述将所述第一语音信号划分为预设帧长的语音帧，通过语音活性检测从划分的各语音帧中确定需进行语音信号分离的有效语音帧，包括：

将所述第一语音信号划分为预设帧长的语音帧，根据公式

5.根据权利要求4所述的多声源的语音信号实时分离方法，其特征在于，所述根据语音帧的能量值，确定每一语音帧是否处于语音状态，将处于所述语音状态的各语音帧作为需进行语音信号分离的有效语音帧，包括：

6.一种拾音器，其特征在于，包括圆环形麦克风阵列和处理单元；

所述处理单元用于执行权利要求1-5中任一项所述的种多声源的语音信号实时分离方法。

7.根据权利要求6所述的拾音器，其特征在于，在所述麦克风阵列中，各麦克风阵元等间隔地分布在圆环上。

8.根据权利要求7所述的拾音器，其特征在于，相邻的两个麦克风阵元之间的距离小于或等于空气中声速与人耳能分辨的最高频率的比值。

9.一种多声源的语音信号实时分离装置，其特征在于，包括：