CN108962272A

CN108962272A - 拾音方法和系统

Info

Publication number: CN108962272A
Application number: CN201810644009.4A
Authority: CN
Inventors: 杨云波; 胡长风
Original assignee: Hunan Youlang Voice Technology Co Ltd
Current assignee: Hunan Youlang Voice Technology Co Ltd
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2018-12-07

Abstract

本发明实施例提供拾音方法和系统。其中，方法包括：根据麦克风阵列采集的语音信号，获取声源的位置和方向；根据声源的位置对声源进行识别，并根据识别结果确定语音信号的输出通道；根据麦克风阵列采集的语音信号获取待输出信号，根据声源的方向对待输出信号进行增强，并将增强后的待输出信号通过输出通道进行输出。本发明实施例提供的拾音方法和系统，通过获取的声源的位置确定语音信号的输出通道，并根据声源的方向对语音信号进行增强，将增强后的语音信号通过相应的输出通道进行输出，能通过一个拾音器有效分离声源，更简单、方便地实现多声源的分离拾音和输出，并提高拾音效率、拾音效果和语音质量。

Description

拾音方法和系统

技术领域

本发明实施例涉及音频信号处理技术领域，尤其涉及拾音方法和系统。

背景技术

声信号(尤其是语音信号)的获取和增强是包括智能家居、车载导航、监控、电话会议、远程协作等行业的重要技术基础。声学前端处理设备需要通过对信号算法和阵列结构的优化，在软件和硬件层面实现如下功能：远讲(hands-free)技术；高保真语音信号的获取、编码、传输和播放；对噪声、混响、回声以及干扰的处理；对声源的定位以及分离等。

在采访、审问、圆桌会议等拾音环境中，现有技术通过一个拾音器或多近场麦克风进行拾音。使用一个拾音器进行拾音时，通常会采集全部声源的语音信号并输出。此时不能分别获得每个声源的输出。例如，当一个人在进行会议发言时，其他人的小声说话、环境外的汽车声也会被采集；通常的降噪智能去掉环境外的汽车声等噪声，当干扰噪声为其他人的声音时，会将发言者和其他人的声音都当作信号，而不能对发言者之外的其他人的声音信号进行抑制，从而影响拾音效果。使用多近场麦克风时，每一声源的语音信号通过一个近场麦克风进行采集并输出，布置较为复杂、效率较低。

发明内容

针对现有技术存在的多声源的分离拾音较为复杂的问题，本发明实施例提供拾音方法和系统。

根据本发明的第一方面，本发明实施例提供一种拾音方法，包括：

根据麦克风阵列采集的语音信号，获取声源的位置和方向；

根据声源的位置对声源进行分类，并根据分类结果确定语音信号的输出通道；

根据麦克风阵列采集的语音信号获取待输出信号，根据声源的方向对所述待输出信号进行增强，并将增强后的待输出信号通过所述输出通道进行输出。

根据本发明的第二方面，本发明实施例提供一种拾音系统，包括：

声源定位模块，用于根据麦克风阵列采集的语音信号，获取声源的位置和方向；

声源分离模块，用于根据声源的位置对声源进行分类，并根据分类结果确定语音信号的输出通道；

语音增强模块，用于根据麦克风阵列采集的语音信号获取待输出信号，根据声源的方向对所述待输出信号进行增强，并将增强后的待输出信号通过所述输出通道进行输出。

根据本发明的第三方面，本发明实施例提供一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行本发明实施例拾音方法及其所有可选实施例的方法。

根据本发明的第四方面，本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行本发明实施例拾音方法及其所有可选实施例的方法。

本发明实施例提供的拾音方法和系统，通过获取的声源的位置确定语音信号的输出通道，并根据声源的方向对语音信号进行增强，将增强后的语音信号通过相应的输出通道进行输出，能通过一个拾音器有效分离声源，更简单、方便地实现多声源的分离拾音和输出，并提高拾音效率、拾音效果和语音质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例拾音方法的流程图；

图2为本发明实施例拾音系统的功能框图；

图3为本发明实施例电子设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明各实施例提供的拾音方法，适用于拾音环境中可能存在多个位置固定的声源时进行拾音，将不同声源的语音信号通过不同的通道输出。同一声源的语音信号通过同一通道进行输出。

可以理解的是，不同声源的语音信号通过不同的通道输出后，可以通过扬声装置分别播出或进行分别存储。

拾音环境中可能存在多个声源的情况包括多种。例如：两个人位于相对方向进行的采访、问询、审讯等；三个以上的人位于不同方向进行的庭审、会议等。

图1为本发明实施例拾音方法的流程图。如图1所示，一种拾音方法包括：步骤S101、根据麦克风阵列采集的语音信号，获取声源的位置和方向。

需要说明的是，为了更好地分离出声源，拾音时，可以将麦克风阵列放置于多个声源构成的多边形的内部。优选地，将麦克风阵列放置于多个声源构成的多边形的中心。将麦克风阵列放置于多个声源构成的多边形的内部，可以使每一声源具有一个相对于麦克风阵列的方向，从而能通过方向区别不同的声源。

当无法将麦克风阵列放置于多个声源构成的多边形的内部时，也可以将麦克风阵列放置于其他位置，通过声源的方向或声源的位置区别不同的声源。

声源的空间信息包括声源的位置和方向。以麦克风阵列的中心为原点建立空间坐标系，将声源作为空间坐标系中的一个点，该点的坐标表示声源的位置；该点与原点连线的方向为声源的方向。

麦克风阵列中的麦克风阵列包括多个阵元。麦克风阵列通过各阵元采集语音信号。

步骤S101即对声源进行定位，确定声源的位置信息。

声源定位问题可描述为，在给定麦克风阵列的拓扑结构情况下，利用不同麦克风阵元拾取到的信号空间信息和麦克风阵列的位置信息来共同确定声源的方位以及距离。

步骤S102、根据声源的位置对声源进行分类，并根据分类结果确定语音信号的输出通道。

可以理解的是，在拾音环境中，各声源的发声是交替的，即同一声源会在不同时间发声。由于本发明实施例将不同声源的语音信号通过不同的通道输出，因此，在每次获取声源的位置后，根据声源的位置，确定输出用于声源的语音信号的输出通道，使得同一声源不同时间的语音信号通过同一通道进行输出。

步骤S102即声源分类，确定步骤S101定位的声源是哪一个声源。通过声源识别可以对声源进行分类，实现声源分离，达到声源分离的目的。基于位置的声源分离问题可描述为，通过声源定位技术获取到的语音信号DOA(波达方向，Direction Of Arrival)以及VAD(语音活性检测Voice activity detection)信息，并根据所估计出的DOA和VAD信息对声源进行分类处理，达到分离不同声源信号的目的。

根据语音信号所来自的声源的分类结果，为来自不同的声源的语音信号分配不同的输出通道，使得来自同一的声源的语音信号通过相同的输出通道输出。

步骤S103、根据麦克风阵列采集的语音信号获取待输出信号，根据声源的方向对待输出信号进行增强，并将增强后的待输出信号通过输出通道进行输出。

麦克风阵列的各阵元采集语音信号构成麦克风阵列采集的语音信号，对麦克风阵列采集的语音信号进行处理，生成一路信号作为待输出信号。

由于麦克风阵列采集的语音信号，会包括声源的语音信号，也会包括噪声和其他声源的语音信号。为了获得更好的拾音效果，提高语音质量，根据声源的方向，对待输出信号进行增强，突出来自声源的方向的语音信号，抑制待输出信号中的其他信号。

根据声源的方向对待输出信号进行增强，能有效地对噪声进行抑制，获得更好的拾音效果和语音质量，增加了可定制的降噪能力，能提高语音质量和拾音效果。

本发明实施例通过获取的声源的位置确定语音信号的输出通道，并根据声源的方向对语音信号进行增强，将增强后的语音信号通过相应的输出通道进行输出，能通过一个拾音器有效分离声源，更简单、方便地实现多声源的分离拾音和输出，并提高拾音效率、拾音效果和语音质量。进一步地，能对目标说话人进行跟踪，并快速地自动切换不同声源方向的语音信号的输出。

基于上述实施例，根据麦克风阵列采集的语音信号之前还包括：根据预设的时间周期，检测麦克风阵列采集的信号是否为语音信号；相应地，当检测到麦克风阵列采集的信号均为语音信号时，则执行根据麦克风阵列采集的语音信号，获取声源的位置和方向。

具体地，步骤S101之前，根据预设的时间周期，检测麦克风阵列采集的信号是否为语音信号。

根据VAD方法，检测麦克风阵列采集的信号是否为语音信号的方法。本发明实施例对VAD的具体方法不作限定。

优选地，预设的时间周期为毫秒级。例如，预设的时间周期为4ms，即每隔4ms检测麦克风阵列采集的信号是否为语音信号，并在检测到语音信号时，对声源进行分类。

本发明实施通过检测麦克风阵列采集的信号是否为语音信号，能减少不必要的资源消耗。

基于上述实施例，根据麦克风阵列采集的语音信号，获取声源的位置和方向的具体步骤包括：根据麦克风阵列中各阵元拾取语音信号的时间和麦克风阵列的拓扑结构，获取语音信号的空间信息；根据语音信号的空间信息和麦克风阵列的位置信息，确定声源的位置和方向。

由于阵元的位置不同，声源与各阵元之间的位置不同，声源发出的声音达到各阵元的时间不同。由于麦克风阵列的拓扑结构是确定的，各阵元之间的位置差是确定的，根据各阵元采集语音信号的时间差和各阵元之间的位置差，可以确定声源与各阵元之间的距离，从而可以确定声源到麦克风阵列的距离和声源的方向。由于麦克风阵列的位置是确定的，从而可以根据声源到麦克风阵列的距离和声源的方向，确定声源的位置。其中，声源到麦克风阵列的距离，为声源到麦克风阵列中麦克风阵列的中心的距离。

基于上述实施例，根据麦克风阵列采集的语音信号获取待输出信号的具体步骤包括：将麦克风阵列中每一阵元采集的语音信号作为参考信号，并根据波束形成算法将各参考信号合成为待输出信号。

具体地，由于麦克风阵列中每一阵元都采集信号，采用波束形成算法(Beamforming algorithm)中基于参考信号的方法，将麦克风阵列中每一阵元采集的语音信号作为一路参考信号，将各路参考信号合成为一路信号作为待输出信号。

波束形成是指将一定几何形状(直线、圆柱、弧形等)排列的多元基阵各阵元的输出经过处理(例如加权、时延、求和等)形成空间指向性的方法。

基于上述实施例，根据声源的方向对待输出信号进行增强的具体步骤包括：对待输出信号中来自声源的方向的信号进行增强，并对待输出信号中的噪声进行抑制。

对输出信号中来自声源的方向的语音信号进行增强，解决的是信号的分离和增强问题。在一个复杂的声学环境中，利用麦克风来拾取来自某个声源的信号，该信号几乎无例外地会被污染。根据污染产生的机理，语音信号处理中的噪声分为4类：环境噪声、回声、混响和来自其他声源的干扰。为了将声源和噪声分开，针对每一类噪声用特定的方法进行处理，抑制噪声并增强来自声源的方向的语音信号。

对于待输出信号，都待输出信号中来自声源的方向的语音信号进行增强，并对噪声进行抑制。

环境噪声(Noise)：环境噪声无法避免而且无处不在，它的存在会严重影响语音信号的话音质量、可懂度和人耳对空间信息的感知。环境噪声通常都是相对平稳的，也就是说当前时间点噪声的统计特性可以用历史时间里的噪声统计特性来代替。根据带噪信号的统计特性和噪声的统计特性，可以设计滤波器对观测信号进行滤波，进而增强语音信号，抑制背景噪声，这种技术称为降噪技术。降噪技术可以利用基于单通道降噪技术的单通道拾音系统，也可以利用基于多通道降噪技术的多通道拾音系统。单通道降噪技术在获得噪声抑制的同时会导致语音畸变，相比而言，多通道降噪技术在获得相同输出信噪比的同时会减小语音畸变。

回声(Echo)：声学回声是由麦克风和扬声器之间的声耦合产生的。回声的存在会严重影响多方双工交互。回声最大的特点是声源信号是已知的，只要能够估计出从扬声器到麦克风之间的声传播信道，就能估计出麦克风拾取的观测信号中的回声成分，将此成分的估计从拾取到的信号中减去，就可以实现回声消除，这种技术称为回声对消技术。

混响(Reverberation)：混响是由于房间环境中的界面反射(多径效应)造成的。反射分为早期反射和晚期反射。早期反射(通常40ms以内)一般会携带有用信息，如通过分析早期反射的结构，可以估计房间的大小。另外，早期反射还会增强音乐的谐波成分，提高听感。但是晚期反射会引起频谱畸变，进而导致话音质量、可懂度的下降，而且会模糊声源的位置信息。在语音通信系统中，晚期反射造成混响，从而严重影响语音通信的质量，所以需要去混响技术。一种去混响技术是首先对信道进行盲估计，然后再利用均衡技术实现去混响；另一种抑制混响的技术是超指向阵列波束形成技术，其基本原理是提取期望方向的声源信号的同时，抑制来自其他方向的信号。混响是来自四面八方的，因此超指向阵列可以一定程度地抑制混响。

来自其他声源的干扰(Interference)信号：噪声由点源噪声引起，是空间中来自某个方向的噪声。语音通信中，周围往往有很多人，而且存在其他声源，因此在每个通信端，多个声源的情况是不可避免的，来自不同声源的信号之间会互相干扰。干扰包括：该路语音信号中所来自的方向与声源的方向不同的语音信号、人流声、汽车声、冲击噪声等。

基于上述实施例，根据分类结果确定输出通道的具体步骤包括：根据声源的分类结果，将声源对应的输出通道确定为语音信号的输出通道。

在进行声源分类时，若待分类的声源与之前已经分类过的任一声源的位置相同，则将二者确定为同一声源，将已经分类过的该声源对应的输出通道确定为语音信号的输出通道；若待分类的声源与之前已经分类过的每一声源的位置均不相同，则将待分类的声源确定为新的声源，并将一路新的输出通道确定为待分类的声源对应的输出通道，将上述新的输出通道确定为语音信号的输出通道。

例如：之前已经分类过的声源包括声源1和声源2，声源1对应的输出通道为通道1，声源2对应的输出通道为通道2；当待分类的声源的位置与声源1的位置相同时，说明声源与声源1相同，待分类的声源对应的输出通道为通道1，将语音信号的输出通道确定为通道1；当待分类的声源的位置与声源1的位置、声源2的位置都不相同时，说明待分类的声源与声源1、声源2都不相同，分配新的输出通道通道3作为待分类的声源对应的输出通道，并将语音信号的输出通道确定为通道3.

基于上述实施例，麦克风阵列包括多个线性排列的咪头；每一咪头构成麦克风阵列中的一个阵元。

优选地，麦克风阵列为线性麦克风阵列。

线性线性麦克风阵列，指阵列的各个阵元排列在一条直线上。相邻两个阵元之间的距离可以设置为完全相同、不完全相同或完全不同。

麦克风阵列包括排列在同一条直线上的多个咪头。每一咪头构成麦克风阵列中的一个阵元，从而多个线性排列的咪头构成麦克风阵列。咪头为全向性的驻极体咪头。优选地，麦克风阵列包括8个线性排列的咪头，声源的角度分离精度可以达到7°。

图2为本发明实施例拾音系统的功能框图。基于上述实施例，如图2所示，一种拾音系统包括：声源定位模块201，用于根据麦克风阵列采集的语音信号，获取声源的位置和方向；声源分离模块202，用于根据声源的位置对声源进行分类，并根据分类结果确定语音信号的输出通道；语音增强模块203，用于根据麦克风阵列采集的语音信号获取待输出信号，根据声源的方向对待输出信号进行增强，并将增强后的待输出信号通过输出通道进行输出。

本发明提供的拾音系统用于执行本发明提供的拾音方法，拾音系统包括的各模块实现相应功能的具体方法和流程详见上述拾音方法的实施例，此处不再赘述。

图3为本发明实施例电子设备的结构框图。基于上述实施例，如图3所示，一种电子设备包括：处理器(processor)301、存储器(memory)302和总线303；其中，处理器301和存储器302通过总线303完成相互间的通信；处理器301用于调用存储器302中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：拾音方法；获取声源的位置和方向的方法；声源定位方法；对声源进行分类的方法；声源分离方法；确定语音信号的输出通道的方法；对语音信号进行增强的方法；获得拾音的输出结果的方法等。

本发明另一实施例公开一种计算机程序产品，计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：拾音方法；获取声源的位置和方向的方法；声源定位方法；对声源进行分类的方法；声源分离方法；确定语音信号的输出通道的方法；对语音信号进行增强的方法；获得拾音的输出结果的方法等。

本发明另一实施例提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述各方法实施例所提供的方法，例如包括：拾音方法；获取声源的位置和方向的方法；声源定位方法；对声源进行分类的方法；声源分离方法；确定语音信号的输出通道的方法；对语音信号进行增强的方法；获得拾音的输出结果的方法等。

以上所描述的系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行上述各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种拾音方法，其特征在于，包括：

根据麦克风阵列采集的语音信号，获取声源的位置和方向；

2.根据权利要求1所述的拾音方法，其特征在于，所述根据麦克风阵列采集的语音信号之前还包括：

根据预设的时间周期，检测麦克风阵列采集的信号是否为语音信号；

相应地，当检测到麦克风阵列采集的信号均为语音信号时，则执行所述根据麦克风阵列采集的语音信号，获取声源的位置和方向。

3.根据权利要求1所述的拾音方法，其特征在于，所述根据麦克风阵列采集的语音信号，获取声源的位置和方向的具体步骤包括：

根据麦克风阵列中各阵元拾取语音信号的时间和麦克风阵列的拓扑结构，获取语音信号的空间信息；

根据语音信号的空间信息和麦克风阵列的位置信息，确定声源的位置和方向。

4.根据权利要求1所述的拾音方法，其特征在于，所述根据麦克风阵列采集的语音信号获取待输出信号的具体步骤包括：

将麦克风阵列中每一阵元采集的语音信号作为参考信号，并根据波束形成算法将各参考信号合成为所述待输出信号。

5.根据权利要求4所述的拾音方法，其特征在于，所述根据声源的方向对所述待输出信号进行增强的具体步骤包括：

对所述待输出信号中来自所述声源的方向的信号进行增强，并对所述待输出信号中的噪声进行抑制。

6.根据权利要求1所述的拾音方法，其特征在于，所述根据分类结果确定输出通道的具体步骤包括：

根据声源的分类结果，将声源对应的输出通道确定为所述语音信号的输出通道。

7.根据权利要求1至6任一所述的拾音方法，其特征在于，所述麦克风阵列包括多个线性排列的咪头；每一咪头构成麦克风阵列中的一个阵元。

8.一种拾音系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。