CN117711418A

CN117711418A - 一种定向拾音方法、系统、设备及存储介质

Info

Publication number: CN117711418A
Application number: CN202311650271.7A
Authority: CN
Inventors: 郭鑫; 邵雅婷
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2023-12-05
Filing date: 2023-12-05
Publication date: 2024-03-15

Abstract

本发明属于智能语音技术领域，尤其涉及一种定向拾音方法、系统、设备及存储介质，所述方法包括：获取麦克风采集到的原始语音，对所述原始信号进行处理得到第一语音和第二语音；所述第一语音为麦克风阵列采集的目标拾音方向及对侧的语音信号，所述第二语音为定向麦克风采集的语音信号，其中，所述麦克风阵列由若干个全向麦克风组成；对所述第一语音和所述第二语音进行盲源分离处理，得到所述目标拾音方向的目标语音。采用本发明的方法，能够解决现有技术中三维空间的定向拾音中由于某一维度无法布置麦克风阵列而导致无法实现该方向的定向拾音的问题，可以在某维度不设置麦克风阵列，实现该维度上的噪声抑制，提升目标定向拾音性能。

Description

一种定向拾音方法、系统、设备及存储介质

技术领域

本发明属于智能语音技术领域，尤其涉及一种定向拾音方法、系统、设备及存储介质。

背景技术

三维麦克风阵列波束的形成，需要将多个麦克风置于三维空间，三维空间中不同方位与距离的声源到各麦克风的相位和幅值表现不同，通过对阵列麦克风信号施加特定滤波器，可实现三维方向的定向拾音与噪声抑制。

对于三维空间的定向拾音，要求麦克风阵列在三维方向均有布置，每个麦克风在各维度上有一定距离。然而某些设备在某一空间维度无法布置多颗麦克风，如平板设备，由于厚度薄，在厚度方向上无法布置多颗麦克风，导致缺失这一维度方向相位信息的缺失，波束形成无法实现该维度上方向的抑制，也就无法实现该方向的定向拾音。

发明内容

本发明的目的在于提供一种麦克风定向拾音方法、系统、设备及存储介质，为解决三维空间的定向拾音中由于某一维度无法布置麦克风阵列而导致无法实现该方向的定向拾音的问题。

为达到上述目的，本发明提供如下技术方案：

第一方面，本发明实施例提供一种定向拾音方法，所述方法包括：

获取麦克风采集到的原始语音，对所述原始信号进行处理得到第一语音和第二语音；所述第一语音为麦克风阵列输出的语音信号，包含目标拾音方向及其对侧的语音信号，所述第二语音为定向麦克风采集的语音信号，其中，所述麦克风阵列由若干个全向麦克风组成；

对所述第一语音和所述第二语音进行盲源分离处理，得到所述目标拾音方向的目标语音。

进一步地，所述对所述第一语音和所述第二语音进行盲源分离处理，包括：

基于所述第一语音和所述第二语音计算对应的控制因子；

基于所述控制因子，对目标拾音方向与对侧的语音信号进行初步分离；

将所述控制因子映射为掩膜值，对所述语音信号进一步分离，得到目标拾音方向的目标语音。

进一步地，所述基于所述第一语音和所述第二语音计算对应的控制因子，包括：

获取包括所述第一语音x₁、所述第二语音x₂、任一全向麦克风采集的原始信号x₃的三路语音信号；

分别对所述三路语音信号作短时傅里叶变换后，计算三路频域信号的能量；

根据以下公式计算能量比值系数r：

其中，E₁为所述第一语音x₁对应的频域信号的能量，E₂为所述第二语音x₂对应的频域信号的能量，E₃为所述全向麦克风采集的原始信号x₃对应的频域信号的能量；

根据所述能量比值系数r分别计算所述第一语音的控制因子β₁和所述第二语音的控制因子β₂，计算公式可表示为：

β₂＝1-β₁

其中，c为0到1之间的任意值；

进一步地，所述将所述控制因子映射为掩膜值，还包括：

计算l帧三路频域信号频率为f的能量比值：

其中，E₁(f)为所述第一语音x₁对应的频率f的信号能量，E₂(f)为所述第二语音x₂对应的频率f的信号能量，E₃(f)为所述全向麦克风采集的第一路原始信号x₃对应的频率f的信号能量；

结合所述控制因子计算掩膜值M(f,l)：

其中，l为各语音信号对应的频域信号的帧数，f为所述语音信号的频率，β₁为所述第一语音的控制因子，r(f,l)为所述语音信号的帧数为l、频率为f时的能量比值系数，α为0到1之间的任意常数。

进一步地，所述对所述原始信号处理得到第一语音包括：

利用波束形成算法对麦克风阵列采集的语音信号进行处理，得到所述目标拾音方向及其对侧混合的第一信号。

第二方面，本发明实施例还提供一种定向拾音系统，采用如上述任一所述的定向拾音方法，所述系统包括：

拾音设备，用于采集语音信号；所述拾音设备包含麦克风阵列和定向麦克风；所述麦克风阵列包括若干个全向麦克风；

阵列处理模块，用于对麦克风阵列采集的语音信号进行处理，得到目标拾音方向及其对侧混合的语音信号；

盲源分离模块，用于对所述麦克风阵列输出的语音信号和所述定向麦克风采集的语音信号进行盲源分离，得到所述目标拾音方向的目标语音。

进一步地，所述全向麦克风放置于垂直于所述目标拾音方向的平面内；

所述定向麦克风开口方向被配置为与目标拾音方向相反。

进一步地，所述系统还包括盲源分离控制参数模块，用于计算麦克风阵列采集的语音信号和定向麦克风采集的语音信号对应的控制因子。

第三方面，本发明实施例还提供一种电子设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得一个或多个处理器实现如上述任一所述的方法。

第四方面，本发明实施例还提供一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如上述任一所述的方法。

本发明的有益效果在于：本发明实施例提供的一种定向拾音方法，通过结合全向麦克风阵列及定向麦克风，能够解决现有技术中三维空间的定向拾音中由于某一维度无法布置麦克风阵列而导致无法实现该方向的定向拾音的问题，可以在某维度不设置麦克风阵列，实现该维度上的噪声抑制，提高在目标拾音方向所在的维度上的噪声抑制能力，提升定向拾音性能。同时，将了麦克风阵列采集的语音信号和定向麦克风采集的语音信号共同进行盲源分离，并配合相关的控制参数，有效提升盲源分离区分度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1为本发明实施例提供的一种定向拾音系统的结构示意图；

图2为本发明实施例提供的拾音设备上麦克风布置的一种情况；

图3为本发明实施例提供的一种定向拾音方法的流程示意图；

图4为本发明实施例提供的麦克风阵列波束形成基础原理示意图；

图5为本发明实施例目标角度为0°时形成的波束；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述地实施例是本发明一部分实施例，而不是全部地实施例。基于本发明中地实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1为本发明实施例提供的一种定向拾音系统的结构示意图，如图1所示，定向拾音系统包括：

拾音设备101，用于采集语音信号。

拾音设备可以为手机、平板等能够采集声源发出的语音信号的设备。

其中，拾音设备包含麦克风阵列和定向麦克风。麦克风阵列放置于垂直于目标拾音方向的平面内，包括若干个全向麦克风。定向麦克风开口方向与目标拾音方向相反。如图2所示，本实施例以声源位于设备前方为例进行说明，拾音设备需要采集声源发出的声音，且厚度方向无法布置多颗麦克风，将麦克风阵列放置于拾音设备平面内，麦克风阵列包括两个全向麦克风，定向麦克风位于目标拾音区域对侧区域，且开孔背对声源。其中，全向麦克风能够采集目标拾音区域及其对侧的语音信号，定向麦克风开孔背对声源，可明显减少对目标拾音方向声音的拾取，保证其信号中几乎全为声源对侧干扰噪声，使麦克风阵列信号与定向麦克风信号语音成分及能量有明显差异，有助于提升盲源分离的效果。

阵列处理模块102，用于对麦克风阵列采集的语音信号进行处理，得到目标拾音方向及对侧混合的语音信号。

盲源分离模块103，用于对麦克风阵列输出的语音信号和定向麦克风采集的语音信号进行盲源分离，得到目标拾音方向的目标语音。

其中，上述系统还包括盲源分离控制参数模块104，用于计算麦克风阵列采集的目标拾音方向的语音信号和定向麦克风采集的语音信号对应的控制因子。盲源分离模块根据各路信号对应的控制因子，将定向麦克风采集的干扰噪声分离至指定干扰通道，从而得到目标拾音方向的目标语音。

本申请实施例还提供一种定向拾音方法，如图3所示为定向拾音方法的流程示意图，该方法可以包括如下步骤：

步骤S301，获取麦克风采集到的原始语音，对原始信号进行处理得到第一语音和第二语音。

其中，第一语音为麦克风阵列输出的语音信号，包括目标拾音方向及对侧混合的语音信号，第二语音为定向麦克风采集的语音信号。

对原始信号进行处理得到第一语音包括：利用波束形成算法对麦克风阵列采集的语音信号进行处理，得到目标拾音方向及对侧混合的第一信号。

波束形成用于对多路麦克风信号进行合并处理，输出的一路信号中目标空间方向的声音被增强，非目标空间方向的声音则被抑制，其主要利用多个麦克风信号的相位差与声源方位有关这一性质来实现。常见的波束形成方法包括DS(延迟求和)、MVDR(最小方差畸变响应)、LCMV(线性约束最小方差)以及GSC(广义旁瓣相消器)等。本发明实施例以延迟求和波束形成器为例解释波束形成。

远场声源发声后，波阵面以近似平面波的形式传播，麦克风阵列元之间的幅值接近，但到达时间有一定差异。如图4所示的阵列，阵列元数为m，平面波与阵列之间的夹角为θ。

以距离最近的麦克风作为参考信号x₁(n)＝x(n)(n表示采样时间点)，则与其距离为d的麦克风信号则为x(n-τ)，其中，在频域上表示，则所有麦克风信号为：

延迟求和波束形成器会对得到的所有麦克风信号进行时间上的平移，平移的值与目标声源方向有关。假设目标声源方向为此时各麦克风平移时间为：

如在频域处理，则为：

最终输出Y(w)为实际声源入射角θ和角频率ω的函数：

其中，H(ω)为阵列响应，即为波束模式函数。

图5为当目标角度时形成的波束示意图，如图5所示，0°方向传来的声音最大，其余角度传来的声音被抑制，从而达到目标方向声音增强的目的。

上述延迟求和波束形成技术只是最简单的形式，可以使用LCMV或MVDR、GSC方法结合自适应滤波实现更窄的波束宽度及更大的波束增益效果。

步骤S302，对第一语音和第二语音进行盲源分离处理，得到目标拾音方向的目标语音。

本步骤中，通过盲源分离处理，将目标拾音方向语音与其对侧语音分离开来，包括：

1)基于第一语音和第二语音计算对应的控制因子；

具体地，基于第一语音和第二语音计算对应的控制因子，包括：

步骤1，获取包括第一语音x₁、第二语音x₂、任一全向麦克风采集的原始信号x₃的三路语音信号。

步骤2，对三路语音信号分别作短时傅里叶变换后，计算得到三路频域信号能量。

其中，对三路语音信号分别作短时傅里叶变换，得到三路频域信号X_i(f)，i＝1,2,3后，计算三路频域信号的能量：

步骤3，根据以下公式计算能量比值系数r：

其中，为第一语音对应的频域信号的能量，为第二语音对应的频域信号的能量，为全向麦克风采集的原始信号对应的频域信号的能量；

步骤4，根据能量比值系数分别计算第一语音的控制因子β₁和第二语音的控制因子β₂，计算公式可表示为：

β₂＝1-β₁

其中，c为0到1之间的任意值；

2)基于控制因子，对目标拾音方向与对侧的语音信号进行初步分离；

以麦克风阵列位于设备前方、定向麦克风位于设备后方为例：

当声源位于设备后方时，r≈1，控制因子β₁小、β₂大，输入盲源分离模块后，更倾向抑制麦克风阵列输出的指向信号中的声音；

当声源位于设备前方时，r＞＞1，控制因子β₁大、β₂小，输入盲源分离模块后，更倾向保留麦克风阵列输出的指向信号中的声音；

当声源位于设备左侧时，r＜＜1，控制因子β₁小、β₂大，输入盲源分离模块后，更倾向抑制麦克风阵列输出的指向信号中的声音；

3)将控制因子映射为掩膜值，对语音信号进一步分离，得到目标拾音方向的目标语音。

将控制因子映射为掩膜值，可以对初步分离效果进一步微调，改善分离收敛性，掩膜值映射再不要包括平滑、偏移、限值等操作。具体地，将控制因子映射为掩膜值，包括：

1)计算l帧三路频域信号频率为f的能量比值：

其中，E₁(f)为第一语音x₁对应的频率f的信号能量，E₂(f)为第二语音x₂对应的频率f的信号能量，E₃(f)为全向麦克风采集的第一路原始信号x₃对应的频率f的信号能量；

2)结合控制因子计算掩膜值M(f,l)：

其中，l为各语音信号对应的频域信号的帧数，f为语音信号的频率，β₁为第一语音的控制因子，r(f,l)为语音信号的帧数为l、频率为f时的能量比值系数，α为0到1之间的任意常数。

本发明实施例提供的一种定向拾音方法，通过结合全向麦克风阵列及定向麦克风，能够解决现有技术中三维空间的定向拾音中由于某一维度无法布置麦克风阵列而导致无法实现该方向的定向拾音的问题，可以在某维度不设置麦克风阵列，实现该维度上的噪声抑制，提高在目标拾音方向所在的维度上的噪声抑制能力，提升定向拾音性能。同时，将了麦克风阵列采集的语音信号和定向麦克风采集的语音信号共同进行盲源分离，并配合相关的控制参数，有效提升盲源分离区分度。

本申请另一实施例提供的一种电子设备，如图6所示，电子设备包括：存储器20，用于存储计算机程序；处理器21，用于执行计算机程序时实现如上述实施例所提到的方法的步骤。

本实施例提供的电子设备可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用数字信号处理器(Digital Signal Processor，简称DSP)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)、可编程逻辑阵列(ProgrammableLogic Array，简称PLA)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(Central Processing Unit，简称CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以集成有图像处理器(GraphicsProcessing Unit，简称GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括人工智能(Artificial Intelligence，简称AI)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器20可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器20至少用于存储以下计算机程序，其中，该计算机程序被处理器21加载并执行之后，能够实现前述任一实施例公开的方法的相关步骤。另外，存储器20所存储的资源还可以包括操作系统和数据等，存储方式可以是短暂存储或者永久存储。其中，操作系统可以包括Windows、Unix、Linux等。数据可以包括但不限于上述方法中所涉及的相关数据等。

本领域技术人员可以理解，图6中示出的结构并不构成对该电子设备的限定，可以包括比图示更多或更少的组件。

本申请实施例提供的电子设备，包括存储器和处理器，处理器在执行存储器存储的程序时，能够实现上述实施例提到的方法。

最后，本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。

可以理解的是，如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本申请进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的设备而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种定向拾音方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述第一语音和所述第二语音进行盲源分离处理，包括：

基于所述第一语音和所述第二语音计算对应的控制因子；

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一语音和所述第二语音计算对应的控制因子，包括：

根据以下公式计算能量比值系数r：

β₂＝1-β₁

其中，c为0到1之间的任意值。

4.根据权利要求2所述的方法，其特征在于，所述将所述控制因子映射为掩膜值，还包括：

计算l帧三路频域信号频率为f的能量比值：

结合所述控制因子计算掩膜值M(f，l)：

其中，l为各语音信号对应的频域信号的帧数，f为所述语音信号的频率，β₁为所述第一语音的控制因子，r(f，l)为所述语音信号的帧数为l、频率为f时的能量比值系数，α为0到1之间的任意常数。

5.根据权利要求1所述的方法，所述对所述原始信号处理得到第一语音包括：

6.一种定向拾音系统，采用如权利要求1至5所述的定向拾音方法，其特征在于，所述系统包括：

7.根据权利要求6所述的系统，其特征在于，所述全向麦克风放置于垂直于所述目标拾音方向的平面内；

所述定向麦克风开口方向被配置为与目标拾音方向相反。

8.根据权利要求6所述的系统，其特征在于，所述系统还包括盲源分离控制参数模块，用于计算麦克风阵列采集的语音信号和定向麦克风采集的语音信号对应的控制因子。

9.一种电子设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得一个或多个处理器实现如权利要求1至5中任一所述的方法。

10.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1至5中任一所述的方法。