CN112151036B

CN112151036B - 基于多拾音场景的防串音方法、装置以及设备

Info

Publication number: CN112151036B
Application number: CN202010975920.0A
Authority: CN
Inventors: 何超; 马桂林; 卫慧慧; 付建忠; 胡葵铭; 李凤霞
Original assignee: Iflytek Suzhou Technology Co Ltd
Current assignee: Iflytek Suzhou Technology Co Ltd
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2021-07-30
Anticipated expiration: 2040-09-16
Also published as: CN112151036A

Abstract

本发明公开了一种基于多拾音场景的防串音方法、装置以及设备。本发明的构思在于充分考虑到计算复杂度与工程实现的平衡关系，选取多个相互具有关联的拾音器件所采集音频的声学信息进行特征分析，并判断出串音是否混入目标声源语音，从而可以在前端抑制串入的干扰语音。本发明能够有效解决特定场景下的拾音器件串音问题，进而可以显著提升后端的语音识别效果。

Description

基于多拾音场景的防串音方法、装置以及设备

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于多拾音场景的防串音方法、装置以及设备。

背景技术

语音识别的前提，是由前端的拾音系统采集声源发出的语音信号，再经由后端的语音识别算法对给定的语音信号进行识别、转写。因此，提升语音识别准确率的途径至少包括两个层面，前端拾音环节以及后端处理环节，本发明的设计初衷是基于特定场景对前端拾音环节的技术缺陷进行分析、尝试纠正以及具体改进。

关于所述特定场景，随着语音识别技术的发展，语音识别的应用环境也变得更为广泛。诸如各种大小会议、访谈、问询等应用环境中，需要由多个拾音器件记录多个发言人的语音内容，而在真实场景中，各个拾音器件均处于采集状态，导致拾音系统不但接收了相应于某拾音器件的目标声源，而且还串入了其他拾音器件采集的干扰声源，即，使得拾音系统中正在处理的语音信号中包含了大量的干扰语音，在拾音系统将这种语音信号输出至后端后，便会直接影响语音识别处理的准确度。

发明内容

鉴于上述，本发明旨在提供一种基于多拾音场景的防串音方法、装置以及设备，并相应地提出一种计算机可读存储介质以及计算机程序产品，通过融合、分析多路相互关联的拾音通道的声学信息，判断出目标通道中是否串入干扰语音，并对相应干扰语音进行抑制，极大程度上降低了干扰语音串入通道进而丢失目标语音的问题，因此可以有效提升该特定场景下的语音识别效果。

本发明采用的技术方案如下：

第一方面，本发明提供了一种基于多拾音场景的防串音方法，包括：

从目标拾音器件及与其相关的其他拾音器件所采集的语音信号中，分别提取对应于各拾音器件的声学信息；

根据所述声学信息，以及预设的特征挖掘、分析及预测策略，确定所述目标拾音器件采集的语音信号中所包含的目标声源语音信号；

将所述目标拾音器件采集的语音信号中除所述目标声源语音信号之外的其他语音信号进行抑制。

在其中至少一种可能的实现方式中，所述其他拾音器件包括与所述目标拾音器件相邻的至少一个拾音器件。

在其中至少一种可能的实现方式中，所述声学信息包括：梅尔频率倒谱系数、梅尔频率倒谱系数一阶差分信息、梅尔频率倒谱系数二阶差分信息，以及所述目标拾音器件与所述其他拾音器件的相位差信息。

在其中至少一种可能的实现方式中，所述预设的特征挖掘、分析及预测策略包括：

对所述声学信息提取有效特征；

对所述有效特征进行分析，得到表征不同声源及声源与拾音器件空间关系的若干特征值；

根据所述特征值，预测出相应于目标拾音器件的目标声源的语音信号。

在其中至少一种可能的实现方式中，所述预设的特征挖掘、分析及预测策略具体包括：

预先训练的多网络联合模型，所述多网络联合模型包括用于提取有效特征的第一网络、用于进行特征分析的第二网络、以及用于预测目标声源语音信号的第三网络。

在其中至少一种可能的实现方式中，

所述第一网络包括卷积神经网络；

所述第二网络包括若干前馈序列记忆网络；

所述第三网络包括深度神经网络。

在其中至少一种可能的实现方式中，在所述多网络联合模型的训练阶段，获取训练样本的方式包括：

基于多拾音场景，建立各拾音器件与各声源的对应关系；

确定各拾音器件的位置，并设定相应于各拾音器件的声源的活动范围；

在所述活动范围内随机生成声源位置；

利用拾音器件与声源的位置信息，生成声源到麦克风的冲激响应并确定出声源传播到拾音器件的若干路径；

基于所述路径以及与预先搜集的各声源的语音素材，生成训练样本。

第二方面，本发明提供了一种基于多拾音场景的防串音装置，包括：

声学信息提取模块，用于从目标拾音器件及与其相关的其他拾音器件所采集的语音信号中，分别提取对应于各拾音器件的声学信息；

目标声源语音辨识模块，用于根据所述声学信息，以及预设的特征挖掘、分析及预测策略，确定所述目标拾音器件采集的语音信号中所包含的目标声源语音信号；

串音抑制模块，用于将所述目标拾音器件采集的语音信号中除所述目标声源语音信号之外的其他语音信号进行抑制。

在其中至少一种可能的实现方式中，所述目标声源语音辨识模块包括：

有效特征提取组件，用于对所述声学信息提取有效特征；

特征学习组件，用于对所述有效特征进行分析，得到表征不同声源及声源与拾音器件空间关系的若干特征值；

目标声源语音预测组件，用于根据所述特征值，预测出相应于目标拾音器件的目标声源的语音信号。

在其中至少一种可能的实现方式中，所述目标声源语音辨识模块具体包括：

在其中至少一种可能的实现方式中，

所述第一网络包括卷积神经网络；

所述第二网络包括若干前馈序列记忆网络；

所述第三网络包括深度神经网络。

在其中至少一种可能的实现方式中，所述装置还包括所述多网络联合模型的训练样本获得模块，所述训练样本获得模块具体包括：

拾音目标映射单元，用于基于多拾音场景，建立各拾音器件与各声源的对应关系；

位置信息设置单元，用于确定各拾音器件的位置，并设定相应于各拾音器件的声源的活动范围；

声源随机定位单元，用于在所述活动范围内随机生成声源位置；

传播路径设定单元，用于利用拾音器件与声源的位置信息，生成声源到麦克风的冲激响应并确定出声源传播到拾音器件的若干路径；

训练样本生成单元，用于基于所述路径以及与预先搜集的各声源的语音素材，生成训练样本。

第三方面，本发明提供了一种防串音设备，包括：

一个或多个处理器、存储器以及一个或多个计算机程序，所述存储器可以采用非易失性存储介质，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行如第一方面或者第一方面的任一可能实现方式中的所述方法。

在其中至少一种可能的实现方式中，所述防串音设备包括用于前端拾音处理的服务器，或者基于前端拾音的本地的音频处理设备。

第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如第一方面或者第一方面的任一可能实现方式中的所述方法。

第五方面，本发明还提供了一种计算机程序产品，当所述计算机程序产品被计算机执行时，用于执行第一方面或者第一方面的任一可能实现方式中的所述方法。

在第五方面的一种可能的设计中，该产品涉及到的相关程序可以全部或者部分存储在与处理器封装在一起的存储器上，也可以部分或者全部存储在不与处理器封装在一起的存储介质上。

本发明的构思在于充分考虑到计算复杂度与工程实现的平衡关系，选取多个相互具有关联的拾音器件所采集音频的声学信息进行特征分析，并判断出串音是否混入目标声源语音，从而可以在前端抑制串入的干扰语音。本发明能够有效解决特定场景下的拾音器件串音问题，进而可以显著提升后端的语音识别效果。

进一步地，在一些实施例中采用相邻拾音器件作为串音判定参考，从而可以更为降低运算量。

进一步地，在一些实施例中考虑到特定场景所需，充分选取到相关声学信息，以用于指导后续特征值的学习及最终的预测操作。

进一步地，在一些实施例中采用多网络联合的模型架构，并基于此设计了与深度学习相关的多类神经网络的拼接组合。

进一步地，在一些实施例中还为前述多网络联合模型配置了训练样本的特定获得方式，从而由经过设计的样本获取方式及相关声学信息的遴选，即可以凭借上述架构的深度学习模型的泛化能力，更为有效、准确地在拾音器件所采集语音中辨识出目标声源语音和干扰语音。

附图说明

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步描述，其中：

图1为本发明提供的基于多拾音场景的防串音方法的实施例的流程图；

图2为本发明提供的获取训练样本方法的实施例的流程图；

图3为本发明提供的基于多拾音场景的防串音装置的实施例的方框图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

在对本发明所提出的方案进行具体介绍之前，首先对本发明所针对的场景以及创造过程进行如下说明：

本发明所面对的串音问题，是指场景中存在多个拾音器件，且每个拾音器件对应一个目标声源，但当目标声源讲话时，有可能其他声源也会发声(例如插话、群体讨论等多人集中表达的情况)，这样，拾音器件所采集的语音信号中除了目标声源还会串入其他声源，从而形成混合语音，此即所谓“串音”。尤其针对该多拾音场景，拾音器件中串入的其他干扰语音较难清晰分辨，因而才会生产本发明的需求，即设计防串音的方式以克服该特定场景中的特定问题。

为了解决防串音的问题，发明人初步尝试的方式是判断拾音器件在当前时间所录入的是否是目标声源的语音信号，具体可以先获取每一个拾音器件在当前时间的语音能量，通过对比能量之间大小关系从而判断出目标声源可能对应的一个或多个拾音器件，接着基于相关性判断不同的拾音器件采集的语音信号是否属于同一个说话人的语音，最后确定当前时间应该将哪个拾音器件录入的哪一部分语音信号输出至后端的转写引擎。

此初步方案，所用防串音方式是单纯地考虑当前时间的信号能量及相关性，经测试方式，在此初步方案实施时，难以避免仍会出现未输出对应的语音信号或者输出非对应语音信号的情况，防串音效果并未明显改进，实际呈现出的最终识别结果仍会存在如下情况：用户在发言的时侯，屏幕上仍会出现非目标发言人对应的转写文本，尤其多个发言人一同讲话的时候，输出的文本内容相对更为混乱，不仅转写结果显示出混合多人发言的文本且显示的文本有时候还会出现缺字的现象。

在分析并发现前述防串音方式的缺陷后，发明人进行了重新设计，摒弃了前述信号处理的防串音思路，提供了以下至少一种基于多拾音场景的防串音方法的实施例，如图1所示，该实施例可以包括如下步骤：

步骤S1、从目标拾音器件及与其相关的其他拾音器件所采集的语音信号中，分别提取对应于各拾音器件的声学信息。

对此步骤需要从两方面具体说明：

其一、单个拾音器件录入的语音信号实际上是无法提供充分的信息告知出究竟此刻是否存在串音，这是因为在前文提及的本发明关注的特定场景中，如采用传统声源分离技术，仅能够从拾音器件录入的混合语音中分离出不同的声源，但是无法判断确定出哪个声源是串入的、哪个声源是与目标拾音器件对应的，这是因为单个拾音器件采集的语音信号的空间信息只能估计距离远近无法判断出声源方位，因此如果仅仅使用一个拾音器件采集的语音信号，是无法证明出该语音信号中究竟哪一个声源是对应目标拾音器件的声源。

此外，为了充分判断语音信号中的各声源与目标拾音器件的关系，同时也是考虑到在硬件实现、工程设计角度的处理，参与串音预测的拾音器件数量不能过多，因此本实施例提出选择目标拾音器件以及与其相关的其他拾音器件，这里的相关可以是指预先按照某些规则设定的目标拾音器件及若干参考拾音器件，更为具体地，可以是指所述目标拾音器件以及与其相邻的至少一个拾音器件。也即是说，每处理一个目标拾音器件时，只需利用与此拾音器件相邻的一个、两个、三个等其他拾音器件所采集的语音信号作为参考。而相邻的拾音器件的数量，取决于实际应用环境中，拾音器件的排布方式，例如直线排布则可以连同目标拾音器件，一共选取两路或三路拾音通道所采信号，例如环形排布则可以连同目标拾音器件，一共选取三路拾音通道所采信号，例如多行多列排布，则可以连同目标拾音器件，一共选取三路、四路或五路拾音通道所采信号。当然，本领域技术人员可以理解，以上仅为示意性举例，经本发明测试实践，从防串音效果以及运算实现角度，优选连同目标拾音器件，采用三路拾音器件的语音信号进行后续串音判定，即便在直线布局的拾音器件中，处于起始位置的拾音器件，同样可以考虑“左右相邻”，即其一侧可以默认为声源未输出语音信号。

其二、声学信息的选取与后续预测结果结果好坏直接相关，因而在实际操作中可以选取传统发音特征、听觉特征等与前述多个相关的拾音器件所采信号的相位差作为该声学信息。

例如为了实现区分混合音频中各声源的目的，就需要知道不同声源的特征信息，而梅尔频率倒谱系数(MFCC)因为充分考虑了人的听觉特性，拥有区别不同声源的能力且具有良好的识别性能和抗噪性能。当然，本发明经分析认为，仅依靠MFCC这类静态特征信息可能效果欠佳，因而优选地还可以利用了MFCC的一阶和二阶差分，由于差分能够体现语音信号的帧与帧之间的动态关系，因此能够更好地体现出语音信号帧与帧的关联性。当然，本领域技术人员可以理解的是，除了MFCC，也可以选择诸如PLP、NB、CFCC等声学特征，对此本发明不做限定。

接着，还可以利用两个拾音器件所采集语音信号之间的相位差信息来估计延时，然后基于延时的正负来判断某声源距离待处理的目标拾音器件的远近，以及距离其他相关拾音器件的远近。在真实的场景环境下，往往会有很多声源一起讲话，他们的相位信息混合在一起，因此仅凭借前文提及的信号处理的防串音方式是难以将混合相位信息区分开的。

具体的前述各声学信息的计算方法是，这里做如下介绍。关于MFCC系数的计算步骤可分为：1、预加重；2、信号分帧及加窗；3、傅里叶变换及梅尔滤波；4、离散余弦变换。

1、预加重

语音信号在录入麦克风之前，因为经过了空间衰减，高频损失严重。因此通过预加重弥补了高频的损失，突出了高频的共振峰。计算公式为：

x(n)＝x(n)-0.9*x(n-1) (1)

2、信号分帧与加窗

为了保证信号短时平稳，往往需要取20ms-30ms的数据作为一帧，进行处理。同时为了保证频谱不泄露，需要将每一帧信号乘以一个汉明窗。

3、傅里叶变换及梅尔滤波

通过傅里叶变换将时域信号转换到频域上来，再根据人耳特性，计算出一个mel滤波器组并将其运用到频域信号上来。首先频率f对应的梅尔频率m的关系公式为：

则将信号所有频率刻画到32个梅尔区间里面，其相应的计算公式为：

上式中m代表了第几个滤波器，k为实际频域的离散值。最后进行滤波，获得32个梅尔能量特征。其公式为：

4、离散余弦变换

作为反傅里叶变换的代替，离散余旋变换降低了计算量且只获得实数值降低了复杂度便于作为输入特征。

以上公式可以获得MFCC特征系数，但这只是静态特征，不能反映帧与帧之间的关系，为此还可以进一步计算一阶MFCC特征和二阶MFCC特征，它们的公式为：

Y(k)＝X(k+1)-X(k) (5)

Z(k)＝Y(k+1)-Y(k) (6)

紧接着需要提取信号相位差信息，相邻麦克风的信号相位之差衡量了声源距离哪一个麦克风更近。我们利用这个特征来判断混合的声源里面哪个声源是正对着麦克风的。相位差求解公式为：

首先分别将两个信号做离散傅里叶变换(fft)

然后求出fft之后的每个频点的相位差

X3(k)＝X1(k)-X2(k) (8)

最后求相位差的角度。求相位差的公式最终为：

phase＝angle(X3(k)) (9)

上述计算方式本身属于现有技术，对本领域技术人员而言无需赘述细节，这里仅结合本发明而言，进一步举例，当帧长为512点时，则通过上述方式可以获得的声学信息如32维MFCC系数、16维MFCC一阶系数、16维MFCC二阶系数以及512维相位差。

步骤S2、根据所述声学信息，以及预设的特征挖掘、分析及预测策略，确定所述目标拾音器件采集的语音信号中所包含的目标声源语音信号。

由所述预设的特征挖掘、分析及预测策略，可知此处理过程至少包括上述三个环节，具体而言可以是指

(1)对所述声学信息提取有效特征；

(2)对所述有效特征进行分析，得到表征不同声源及声源与拾音器件空间关系的若干特征值；

(3)根据所述特征值，预测出相应于目标拾音器件的目标声源的语音信号。

在实际操作中可由多种算法、模型实现上述三个环节，这里本发明提供一些优选实施方式以供参考：

具体地，可以利用深度学习技术，采用预先训练的多网络联合模型实现上述环节，由于具备三个处理过程，因而所述多网络联合模型也可以包括用于提取有效特征的第一网络、用于进行特征分析的第二网络、以及用于预测目标声源语音信号的第三网络。

其中，第一网络是指在将声学信息交给第二网络处理前，还可以进一步对声学信息进行有效特征的提取，即挖掘出深层的隐藏信息，由于输入的声学信息的特征向量里面通常会含有不同物理信息的特征值，如果不对输入特征进行处理，直接采用第二网络处理，会增加第二网络的学习难度，即较难捕获并利用到更为有效的声源和位置信息，由此可以将前述声学信息的特征向量中的有效信息通过但不限于进一步提取、融合的方式进行统一，并输入至第二网络。在具体操作时，可以选择擅长特征提取的工具，例如但不限于第一网络可以包括卷积神经网络(CNN)。

其中，第三网络是指综合第二网络学习到特征值对最终结果进行预测，因此可以将其看做是回归任务，进而可以选择擅长处理回归任务的工具，例如但不限于深度神经网络(DNN)，也即是由原始的声学信息经CNN提取到深层的有效特征，再经由第二网络处理之后，最后将处理结果送入DNN进行回归预测，即预测出混合语音中的声源数量以及各声源相对目标拾音器件的位置距离，从而确定混合语音中目标声源的成分。

由前文可知，在三个环节中，第二网络起到承上启下、至关重要的作用，以下对本发明所选用第二网路的设计脉络进行具体介绍：

考虑到语音信号往往存在着长时联系，因而本发明认为所选用的网络需要具有记忆功能，首先考虑到本领域常规技术手段中大多会使用的长短时记忆网络(LSTM)，但是本发明经分析认为，长短时记忆网络的计算量相对较大，不便工程实施，因而摒弃了常规方式，而是将第二网络的结构确定为前馈序列记忆网络(FSMN)。前馈序列记忆网络与常见的前馈网络相比，其附带有记忆模块，该记忆模块使得模型在节省运算消耗前提下，也具备了类似于长短时记忆网络的长时记忆能力。该前馈序列记忆网络的特点是通过延时存储过去的信息并与现在的信息相加传入下一层，此种结构类似于FIR滤波，即将特征向量的数据与FIR滤波系数点乘相加得到结果。因为不再需要依赖上一时刻的输出，因而可以显著减少计算量，同时也使得该网络的训练时间大大减少。而针对梯度弥散的问题，前馈序列记忆网络使用了一个残差网络结构，该结构的好处是虽然记忆模块经过多个隐藏层使得梯度变得很小，但是加了一条直达下一层的捷径通路使得梯度重新恢复，这也就是能够使前馈序列记忆网络可以往深度发展的原因。由此，结合本发明场景，由于单个前馈序列记忆网络可能不具有充足的非线性的能力以区分防串音的复杂场景，为此在一些较佳实施例中，本发明可以加深第二网络的深度，例如第二网络可以使用但限于3个前馈序列记忆网络模块，以此获得更好的特征学习效果。

除此之外，在前述策略采用上述深度学习模型的实施例中，还可以进一步补充的是，为了充分发挥模型的处理性能，一方面在先要对特征的选取进行充分考量和设计；另一方面，训练样本也起到了较为重要的作用，尤其是针对本发明关注的特定场景(多声源，且各声源配置各自相应的拾音器件)，声源位置通常是随机的、不固定的，例如发言人的头部相对固定的拾音器件(麦克风)可能会发生前后左右活动，因此基于场景特点构建上述模型的训练集则变得尤为重要。对此，本发明在一些实施例中给出如下参考，结合图2所示，获取训练样本的方式可以包括：

步骤S100、基于多拾音场景，建立各拾音器件与各声源的对应关系；

步骤S200、确定各拾音器件的位置，并设定相应于各拾音器件的声源的活动范围；

步骤S300、在所述活动范围内随机生成声源位置；

步骤S400、利用拾音器件与声源的位置信息，生成声源到麦克风的冲激响应并确定出声源传播到拾音器件的若干路径；

步骤S500、基于所述路径以及与预先搜集的各声源的语音素材，生成训练样本。

这里提及的活动范围可以基于针对该场景的实际经验，为单个声源划定一个框型范围，而拾音器件则可以考虑设定在该框型的边上，声源在位于该框型内，当然，该框型采用矩形、圆形、椭圆、角形等皆可因需而定，其目的皆是明确出声源可活动的有效位置范围。这样，可以利用仿真工具在框型内随机生成一个声源，即可获得该随机生成的声源的坐标，然后通过拾音器件的已知坐标，便可利用声学原理得到声源所输出信号的传播路径，再将传播路径与某声源的语音素材进行卷积便可生成用于训练前述深度学习模型的训练样本，这其中不同声源的语音素材可通过录制等多种方式获得，对于此点本领域技术人员皆可基于常规方式实现，本发明不做赘述。

接续前文，回到步骤S3、将所述目标拾音器件采集的语音信号中除所述目标声源语音信号之外的其他语音信号进行抑制。

在辨识出某拾音器件的语音信息中包含旁路语音后，便可以对这些串音进行抑制处理，抑制手段属于常规方式，例如滤波等，对此本发明不做限定，但可以进一步说明的是，在本发明其他实施例中接着还可以对目标声源发出的语音信号进行增强净化等处理，这些音频处理手段本身同样也可以借鉴现有实现方法。

总之，在设计了前述各实施例及其优选方案后，还对该方案的处理效果进行了横向比对验证，这里做简要介绍：

实验验证对比的防串音方式有基于信号处理的传统算法、基于信号处理的改进算法以及前述本发明提供的防串音方法。对比的指标为前述特定场景下正确文字的识别率。所用实验数据为实际录制的语音，且由12个全指向鹅颈麦克风呈矩形放置在一个桌子上，为了进一步模拟现实中的复杂场景，麦克风底座之间分别设定了30cm、40cm、50cm三种间距，同时兼顾了麦克风偏移和正对麦克风的情况，目的是提供较为苛刻的防串音处理环境。经由前述三种实验策略的处理，识别率的对比结果均是本发明提供的防串音方法高于信号处理的改进算法、且远远高于信号处理的传统算法。尤其，当拾音器件的间距达到50cm(间距越大，防串音处理难度越高)时，经由本发明提供的前端防串音算法在后端的识别表现，依然有近70％的识别率，相对基于信号处理的改进算法高约10％，而相比基于信号处理的传统方法甚至高出50％，可见，本发明提供的前述方案相对利用信号处理技术进行防串音的方案，效果提升十分明显。

综上所述，本发明的构思在于充分考虑到计算复杂度与工程实现的平衡关系，选取多个相互具有关联的拾音器件所采集音频的声学信息进行特征分析，并判断出串音是否混入目标声源语音，从而可以在前端抑制串入的干扰语音。本发明能够有效解决特定场景下的拾音器件串音问题，进而可以显著提升后端的语音识别效果。

相应于上述各实施例及优选方案，本发明还提供了一种基于多拾音场景的防串音装置的实施例，如图3所示，具体可以包括如下部件：

声学信息提取模块1，用于从目标拾音器件及与其相关的其他拾音器件所采集的语音信号中，分别提取对应于各拾音器件的声学信息；

目标声源语音辨识模块2，用于根据所述声学信息，以及预设的特征挖掘、分析及预测策略，确定所述目标拾音器件采集的语音信号中所包含的目标声源语音信号；

串音抑制模块3，用于将所述目标拾音器件采集的语音信号中除所述目标声源语音信号之外的其他语音信号进行抑制。

有效特征提取组件，用于对所述声学信息提取有效特征；

在其中至少一种可能的实现方式中，

所述第一网络包括卷积神经网络；

所述第二网络包括若干前馈序列记忆网络；

所述第三网络包括深度神经网络。

应理解以上图3所示的基于多拾音场景的防串音装置可中各个部件的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些部件可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分部件以软件通过处理元件调用的形式实现，部分部件通过硬件的形式实现。例如，某个上述模块可以为单独设立的处理元件，也可以集成在电子设备的某一个芯片中实现。其它部件的实现与之类似。此外这些部件全部或部分可以集成在一起，也可以独立实现。在实现过程中，上述方法的各步骤或以上各个部件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些部件可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit；以下简称：ASIC)，或，一个或多个微处理器(Digital Singnal Processor；以下简称：DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array；以下简称：FPGA)等。再如，这些部件可以集成在一起，以片上系统(System-On-a-Chip；以下简称：SOC)的形式实现。

综合上述各实施例及其优选方案，本领域技术人员可以理解的是，在实际操作中，本发明适用于多种实施方式，本发明以下述载体作为示意性说明：

(1)一种防串音设备，其可以包括：

一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行前述实施例或等效实施方式的步骤/功能。

所述防串音设备可以是电子设备也可以是内置于上述电子设备的电路设备。上述电子设备可以为PC、服务器、智能终端等。

在其中至少一种可能的实现方式中，所述防串音设备包括用于前端拾音处理的服务器，或者基于前端拾音的本地的音频处理设备，该服务器用于接收拾音器件发送的语音信号，并进行前文提及的防串音处理；而音频处理设备则可以是指布设于会场内的音频处理器械，例如将多个麦克风与该音频处理器通过专用电缆插接，该音频处理器对采集到的各路语音进行防串音处理。

(2)一种可读存储介质，在可读存储介质上存储有计算机程序或上述装置，当计算机程序或上述装置被执行时，使得计算机执行前述实施例或等效实施方式的步骤/功能。

在本发明所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的某些技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形式体现出来。

(3)一种计算机程序产品(该产品可以包括上述装置)，该计算机程序产品在终端设备上运行时，使终端设备执行前述实施例或等效实施方式的基于多拾音场景的防串音方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述计算机程序产品可以包括但不限于是指APP；接续前文，上述设备/终端可以是一台计算机设备(例如手机、PC终端、云平台、服务器、服务器集群或者诸如媒体网关等网络通信设备等)。并且，该计算机设备的硬件结构还可以具体包括：至少一个处理器，至少一个通信接口，至少一个存储器和至少一个通信总线；处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中，处理器可能是一个中央处理器CPU、DSP、微控制器或数字信号处理器，还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units；以下简称：NPU)和图像信号处理器(Image Signal Processing；以下简称：ISP)，该处理器还可包括特定集成电路ASIC，或者是被配置成实施本发明实施例的一个或多个集成电路等，此外，处理器可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储器等存储介质中；而前述的存储器/存储介质可以包括：非易失性存储器(non-volatile memory)，例如非可移动磁盘、U盘、移动硬盘、光盘等，以及只读存储器(Read-Only Memory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)等。

本发明实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本领域技术人员可以意识到，本说明书中公开的实施例中描述的各模块、单元及方法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以及，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可。尤其，对于装置、设备等实施例而言，由于其基本相似于方法实施例，所以相关之处可参见方法实施例的部分说明即可。以上所描述的装置、设备等实施例仅仅是示意性的，其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个地方，例如系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，但以上仅为本发明的较佳实施例，需要言明的是，上述实施例及其优选方式所涉及的技术特征，本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下，合理地组合搭配成多种等效方案；因此，本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种基于多拾音场景的防串音方法，其特征在于，包括：

根据所述声学信息，以及预设的特征挖掘、分析及预测策略，确定所述目标拾音器件采集的语音信号中所包含的目标声源语音信号；其中，所述预设的特征挖掘、分析及预测策略包括：利用从声学信息的有效特征中获得的表征不同声源及声源与拾音器件空间关系的特征值预测所述目标声源语音信号；

2.根据权利要求1所述的基于多拾音场景的防串音方法，其特征在于，所述其他拾音器件包括与所述目标拾音器件相邻的至少一个拾音器件。

3.根据权利要求1所述的基于多拾音场景的防串音方法，其特征在于，所述声学信息包括：梅尔频率倒谱系数、梅尔频率倒谱系数一阶差分信息、梅尔频率倒谱系数二阶差分信息，以及所述目标拾音器件与所述其他拾音器件的相位差信息。

4.根据权利要求1所述的基于多拾音场景的防串音方法，其特征在于，所述预设的特征挖掘、分析及预测策略具体包括：

5.根据权利要求4所述的基于多拾音场景的防串音方法，其特征在于：

所述第一网络包括卷积神经网络；

所述第二网络包括若干前馈序列记忆网络；

所述第三网络包括深度神经网络。

6.根据权利要求4所述的基于多拾音场景的防串音方法，其特征在于，在所述多网络联合模型的训练阶段，获取训练样本的方式包括：

基于多拾音场景，建立各拾音器件与各声源的对应关系；

在所述活动范围内随机生成声源位置；

7.一种基于多拾音场景的防串音装置，其特征在于，包括：

目标声源语音辨识模块，用于根据所述声学信息，以及预设的特征挖掘、分析及预测策略，确定所述目标拾音器件采集的语音信号中所包含的目标声源语音信号；其中，所述预设的特征挖掘、分析及预测策略包括：利用从声学信息的有效特征中获得的表征不同声源及声源与拾音器件空间关系的特征值预测所述目标声源语音信号；

8.根据权利要求7所述的基于多拾音场景的防串音装置，其特征在于，所述目标声源语音辨识模块包括：

有效特征提取组件，用于对所述声学信息提取有效特征；

9.一种防串音设备，其特征在于，包括：

一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行如权利要求1～6任一项所述的基于多拾音场景的防串音方法。

10.根据权利要求9所述的防串音设备，其特征在于，所述防串音设备包括用于前端拾音处理的服务器，或者本地的音频处理器。