CN113936687B

CN113936687B - 一种实时语音分离语音转写的方法

Info

Publication number: CN113936687B
Application number: CN202111548064.1A
Authority: CN
Inventors: 赵建平; 荆榆; 程栋梁; 沈忱; 石松涛; 高博; 许乾坤; 张宇韬
Original assignee: Beijing Ruikelun Intelligent Technology Co ltd
Current assignee: Beijing Ruikelun Intelligent Technology Co ltd
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-03-15
Anticipated expiration: 2041-12-17
Also published as: CN113936687A

Abstract

本发明是一种实时语音分离语音转写的方法，包括：硬件采集模块，语音分离模块，语音转写模块，其中，硬件采集模块用来采集语音数字信号；语音分离模块用来对硬件采集模块的采集的不同方向语音数字信号分离；语音转写模块对所述语音分离模块分离出来的各路语音数字信号转写为文字，硬件采集模块的麦克风拾音模组采集语音信号，仅需配置角度参数；语音分离模块可实时、有效的将多人对话按说话人分离，进行实时语音转写；同时，语音分离模块可有效降低环境噪声的干扰，对固定方向的声源进行转写，从而可有效的分离重叠的对话语音，进行有效的语音转写。

Description

一种实时语音分离语音转写的方法

技术领域

本发明涉及计算机领域，具体涉及一种实时语音分离语音转写的方法。

背景技术

在类似保险、银行柜台具有固定位置的服务对话场景中，需要在略微吵杂的环境中，对双方的对话进行有效的记录；

现有的桌面指向拾音产品，只能对其使用者，即使用人进行近场拾音，无法同时获得对话中对人的语音，若场景中存在多人说话，需布局多个近场的拾音设备，且离说话人非常近，通常在20公分以内。本方法可以通过放在桌面端的麦克风阵列拾音器，实时判断分离不同方向的多个人声，并实时按多个不同角色，输出为对应的文本信息，该方法可有效的应用于多人讲话、同时讲话、移动讲话的多种不同场景。

远场使用场景中，复杂的噪声环境严重影响了语音转写的正确率，本发明可有效抑制使用环境中的噪音影响，包含环境噪音和其他非目标说话人的声音。

远场多人对话场景中，受复杂的噪声的影响，且对话场景中抢话，插话导致连续语音中多人的话术，本发明可实时有效的分离对话场景的多说话人语音，进行有效转写。

发明内容

本发明提供一种实时语音分离语音转写的方法，通过硬件采集模块，得到多路麦克风的数字信号，经过语音分离模块对多说话人进行声源定位后对固定方向的声源成形，形成说话方向的滤波后的语音信号，进一步消除非目标方向的语音和干扰信号，然后语音转写模块把固定方向的语音信号转化为文字内容。

为了达到上述目的，本发明提供如下技术方案：一种实时语音分离语音转写的方法，包括：通过硬件采集模块对多人说话的声音采集，并得到多路麦克风的数字信号；

通过语音分离模块将所述数字信号分离出多个单人的语音信号；

将各个所述语音信号分别接入语音转写模块，转写成对应每个说话人的文字内容。

优选的，所述采集模块包含多个麦克风拾音模组；各个所述麦克风拾音模组的采样率为16kHz的数字信号。

优选的，所述语音分离模块由DOA声源定位、Fixed Beamformer固定方向波束成形，Post Filter后处理滤波器及Post Separator后处理时域分离器构成。

优选的，所述DOA声源定位采用GWS-SRP-PHAT方法：

第一步、先计算SRP-PHAT得到每一帧的原始DOA输出记为DOA_PEAK_RAW，同时对不同频率进行加权，用以平衡不同频率的空间谱分辨率和麦克风间距，提高DOA精度,按5度为间隔，扫描0-360度SRPout最大值为目前DOA_PEAK_energy和DOA_PEAK；

第二步、对DOA_PEAK进行中值滤波器平滑滤波得到DOA_SMOOTH，结合语音学和经验值设定，中值滤波器长度为H，当前时刻T，DOA_SMOOTH为中值滤波器的输出，即窗口H内排序后的中值DOA_SMOOTH；

第三步、为按指定的目标方向角DOA_TARGET和波束范围DOA_BEAM，得到FixedBeamformer的输入导向矢量DOA_TARGET_BF，同时输出平滑DOA_SMOOTH。

优选的，所述Fixed Beamformer固定方向波束成形通过采用Modified TF-GSC结构分别输出目标说话方向空间滤波后的语音信号。

优选的，所述TF-GSC由Fixed Beamformer固定波束成形、Blocking Matrix矩塞矩阵、Multichannel Adaptive Interference Canceller构成；所述Blocking Matrix矩塞矩阵采用自适应滤波器Adaptive Blocking Matrix，自适应滤波器Adaptive BlockingMatrix和Multichannel Adaptive Interference Canceller 滤波器更新策略，本方法使用Adaptive Interference Canceller -Adaptive Blocking Matrix controller跟踪各自输入输出的后验信噪比变化，来判定目标方向和非目标方向是否包含语音，来控制两组滤波器是否更新。

优选的，所述Post Filter采用MAP-Based后处理滤波器。

优选的，所述Post Filter后处理滤波器采用

为后验信噪比作为随机变量，定义

，复合高斯分布定义先验信噪比

， As为Modified TF-GSC输出，An为Modified TF-GSC ABM模块的输出

，

，

为经验超参，

，

为高斯分布均值和方差，估计后处理滤波器的系数

，进一步形成目标方向固定波束，消除残余方向的干扰信号。

优选的，所述Post Separator包含：相似度，Pitch filter，DOA_GUIDE,窗口能量；预定义的输出的说话人数量为N_SPK

所述相似度为N_SPK路分离信号的窗口的Coherence，即谱相似度；

所述Pitch filter用于分别估计N_SPK路语音信号的Pitch差是否在预定义的delta-Pitch内，即N_SPK的基频是否相似；

所述DOA_GUIDE用于同步判断窗口内当前帧属于N_SPK路说话人的比例，予以加权。

本发明有益效果为：通过上述设置，本发明中硬件采集模块的麦克风拾音模组可方便、便捷的部署在柜台或桌面的任意位置采集语音信号，仅需配置角度参数；本发明语音分离模块可实时、有效的将多人对话按说话人分离，进行实时语音转写；同时，本发明中语音分离模块可有效降低环境噪声的干扰，包含环境噪音和其他非目标说话人的声音，对固定方向的声源进行转写，从而可有效的分离重叠的对话语音，进行有效的语音转写。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明应用方式示意图；

图2为本发明局部工作示意图；

图3为本发明Modified TF_GSC结构示意图。

具体实施方式

下面将结合本发明的附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据图1、图2中的流程步骤所示，一种实时语音分离语音转写的方法，包括：通过硬件采集模块对多人说话的声音采集，并得到多路麦克风的数字信号；通过语音分离模块将所述数字信号分离出多个单人的语音信号；将各个所述语音信号分别接入语音转写模块，转写成对应每个说话人的文字内容；所述采集模块包含多个麦克风拾音模组；各个所述麦克风拾音模组的采样率为16kHz的数字信号。

在这里所述的硬件采集模块中的麦克风拾音模组以固定的角度进行排列，通过对环境中的说话人的语音进行采集，得到N_MIC路（麦克风数量）麦克风模拟电信号，所述的麦克风拾音模组可以在会议桌或者银行柜台前进行摆放，对说话人位置进行预估，配置角度参数进行摆放，可有效对各个角度的说话人的语音进行有效采集，采集语音之后进过模拟数字转化，转化为N_MIC路采样率为16kHz的数字语音信号，为之后的数字信号域算法做出准备。

所述语音分离模块由DOA声源定位、Fixed Beamformer固定方向波束成形，PostFilter后处理滤波器及Post Separator后处理时域分离器构成。

所述DOA声源定位采用GWS-SRP-PHAT方法：

利用Guided-Weighted-Smoothed-SRP-PHAT方法，先计算SPR-PHAT得到每一帧(8ms)的原始DOA输出记为DOA_PEAK_RAW，之后对不同频率进行加权，用以平衡不同频率的空间谱分辨率和麦克风间距，提高DOA精度，按5度为间隔，扫描0-360度SPRout最大值为目前DOA_PEAK_energy和DOA_PEAK。

首先计算SRP-PHAT，得到每一帧（8ms）的原始DOA输出记为DOA_PEAK1，记麦克风为p，q，则

为

SRP是所有麦克风两两组合的GCC之和，

令：SRP值在t时刻和波达方向

相关，

对不同频率进行加权，用以平衡不同频率的空间分辨率和麦克风间距，提高DOA精度；

按每5度为间隔，扫描0-360度SRPout最大值为目前DOA_PEAK_energy和DOA_PEAK。

对DOA_PEAK进行中值滤波，平滑滤波得到DOA_SMOOTH，结合语音学和经验值设定中值滤波长度为H，当前时刻T，DOA_SMOOTH为中值滤波的输出，即窗口H内排序后的中值，得到DOA_SMOOTH=MEDIAN_FILTER(即DOA_PEAK)。

按指定的目标方向角DOA_TARGET和波束范围DOA_BEAM，得到Fixed Beamformer的输入导向矢量DOA_TARGET_BF;同时输出平滑DOA_SMOOTH，通过

If abs(DOA_SMOOTH –DOA_TARGET)<DOA_BEAM or 360–abs(DOA_SMOOTH-DOA_TARGET)>180:

DOA_TARGET_BF=DOA_SMOOTH

Else:

DOA_TARGET_BF=DOA_TARGET

DOA_SMOOTH=DOA_SMOOTH用于估计DOA是不是在预设的范围内，其中abs为取绝对值运算符。

对输出的平滑DOA_SMOOTH使用固定方向波束成形，分别输出目标方向空间滤波后的语音数字信号。

所述Fixed Beamformer固定方向波束成形通过采用Modified TF-GSC结构分别输出目标说话方向空间滤波后的语音信号。所述TF-GSC由Fixed Beamformer固定波束成形、Blocking Matrix矩塞矩阵、Multichannel Adaptive Interference Canceller构成；所述Blocking Matrix矩塞矩阵采用自适应滤波器Adaptive Blocking Matrix，自适应滤波器Adaptive Blocking Matrix和Multichannel Adaptive Interference Canceller 滤波器更新策略，本方法使用Adaptive Interference Canceller-Adaptive Blocking Matrixcontroller跟踪各自输入输出的后验信噪比变化，来判定目标方向和非目标方向是否包含语音，来控制两组滤波器是否更新。固定波束采用Modified TF_GSC结构。如图3所示：

TF_GSC由Fixed Beamformer固定波束成形（简称FB）、Blocking Matrix矩塞矩阵（简称BM矩塞矩阵）、Multichannel Adaptive Interference Canceller构成（简称Multichannel AIC,多通道自适应相消器）BM采用自适应滤波器 Adaptive BM（简称ABM），同时使用AIC-ABM controller跟踪后验信噪比变化，来控制两组滤波器是否更新，分别输出目标说话方向空间滤波后的语音数字信号。

所述Post Filter采用MAP-Based后处理滤波器，MAP即Maximum a posteriori estimation 最大后验估计；所述Post Filter后处理滤波器采用

为后验信噪比作为随机变量，定义

，复合高斯分布定义先验信噪比

，As为Modified TF-GSC输出，An为Modified TF_GSC ABM模块的输出

，

，

为经验超参，

，

为高斯分布均值和方差，估计后处理滤波器的系数

所述Post Separator包含：相似度，Pitch filter，DOA_GUIDE,窗口能量；预定义的输出的说话人数量为N_SPK

所述Pitch filter用于分别估计N_SPK路语音信号的Pitch（基频）差是否在预定义的delta-Pitch内，即N_SPK的基频是否相似；

Post Separator的增益表示为：

if SPK1能量>SPK2能量+delta_energy;

Mask_SPK2=true

else if:SPK1能量<SPK2 能量+delta_energy

Mask_SPK1=true

Else:

if Coherence>Coherence_thresnhold and pitch差<delta-pitch:

if DOA_GUIDE=SPK2:

Mask_SPK1 =true

Else if DOA_GUIDE=SPK1:

Mask_SPK2=true

利用Post Separator的增益估计N_SPK(输出说话人数量)路分离信号的相似度，利用Mask计算时域信号上生成遮掩滤波器，进一步消除残留干扰。

最后利用语音转写模块对消除残留干扰后的N_SPK路分离语音数字信号分别进行转写，所述语音转写模块可以为每一路的数字语音信号分别转写为文字内容，不会对各路语音信号的干扰内容进行转写或者不区分进行转写，能够在多人会议的时候有效对每一位发言者进行单独的转写

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种实时语音分离语音转写的方法，其特征在于,包括：

通过硬件采集模块对多人说话的声音采集，并得到多路麦克风的数字信号；

将各个所述语音信号分别接入语音转写模块，转写成对应每个说话人的文字内容；

所述语音分离模块由DOA声源定位、Fixed Beamformer固定方向波束成形，PostFilter后处理滤波器及Post Separator后处理时域分离器构成；

所述DOA声源定位采用GWS-SRP-PHAT方法：

第一步、先计算SRP-PHAT得到每一帧的原始DOA输出记为DOA_PEAK_RAW，同时对不同频率进行加权，用以平衡不同频率的空间谱分辨率和麦克风间距，提高DOA精度,按5度为间隔，扫描0-360度，SRPout最大值为目前DOA_PEAK_energy和DOA_PEAK；

第三步、按指定的目标方向角DOA_TARGET和波束范围DOA_BEAM，得到FixedBeamformer的输入导向矢量DOA_TARGET_BF，同时输出平滑DOA_SMOOTH。

2.根据权利要求1所述的一种实时语音分离语音转写的方法，其特征在于：所述采集模块包含多个麦克风拾音模组；各个所述麦克风拾音模组的采样率为16kHz。

3.根据权利要求1所述的一种实时语音分离语音转写的方法，其特征在于：所述FixedBeamformer固定方向波束成形通过采用Modified TF-GSC结构分别输出目标说话方向空间滤波后的语音信号。

4.根据权利要求3所述的一种实时语音分离语音转写的方法，其特征在于：所述TF-GSC由Fixed Beamformer固定波束成形、Blocking Matrix矩塞矩阵、Multichannel AdaptiveInterference Canceller构成；所述Blocking Matrix矩塞矩阵采用自适应滤波器Adaptive Blocking Matrix，自适应滤波器Adaptive Blocking Matrix和MultichannelAdaptive Interference Cancel ler滤波器更新策略，本方法使用AdaptiveInterference Canceller-Adaptive Blocking Matrix controller跟踪各自输入输出的后验信噪比变化，来判定目标方向和非目标方向是否包含语音，来控制两组滤波器是否更新。

5.根据权利要求1所述的一种实时语音分离语音转写的方法，其特征在于：所述PostFilter后处理滤波器采用MAP-Based后处理滤波器。

6.根据权利要求3所述的一种实时语音分离语音转写的方法，其特征在于：所述PostFilter后处理滤波器采用γ(e^jΩμ，k)为后验信噪比作为随机变量，定义Γ(e^jΩμ，k)＝10log₁₀γ(e^jΩμ，k)，复合高斯分布定义先验信噪比

As为Modified TF-GSC输出，An为Modified TF-GSC ABM模块的输出，

μ_r(ξ)＝10log₁₀(ξ+1)，

λ_Φ为经验超参，μ_r，λ_r为高斯分布均值和方差，估计后处理滤波器的系数

进一步形成目标方向固定波束，消除残余方向的干扰信号。

7.根据权利要求1所述的一种实时语音分离语音转写的方法，其特征在于，所述PostSeparator包含：相似度，Pitch filter，DOA_GUIDE,窗口能量；预定义的输出的说话人数量为N_SPK，