CN110992977A

CN110992977A - 一种目标声源的提取方法及装置

Info

Publication number: CN110992977A
Application number: CN201911219825.1A
Authority: CN
Inventors: 陈孝良; 钱思冲; 冯大航; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2020-04-10
Anticipated expiration: 2039-12-03
Also published as: CN110992977B

Abstract

本发明公开了一种目标声源的提取方法，包括：获取第一数量的声音采集设备采集的音频数据；确定所述音频数据中声源的第二数量；将所述第一数量与所述第二数量进行对比，依据对比结果选取对应的目标盲源分离方法对所述音频数据进行盲源分离，得到各个声源；选取所述各个声源中存在预设激活词的声源作为目标声源。上述的提取方法中，在接收到音频数据时，首先确定音频数据的声源的第二数量，实现了声源的准确定位，之后才进行目标声源的提取，避免了现有技术中，在噪声和混响场景下或者间隔短的不同声源，定位结果有较大误差，无法做到准确定位的问题。

Description

一种目标声源的提取方法及装置

技术领域

本发明涉及语音提取技术领域，尤其涉及一种目标声源的提取方法及装置。

背景技术

嘈杂环境中提取感兴趣的目标声源被称为“鸡尾酒会问题”，在实际环境中，声音的传播经过反射、多径传播、叠加，到达传声器的时候与源声源有很大差异了，想从传声器提取感兴趣声音变得格外困难。

现有技术中利用声音采集设备采集声源数据，然后使用SRP和粒子滤波对声源数据进行定位和跟踪，盲语音分离根据声源方位信息对麦克风信号进行分离并进行后置滤波，得到独立声源。上述的方法中，在噪声和混响场景下或者间隔短的不同声源，定位结果有较大误差，无法做到准确定位。

发明内容

有鉴于此，本发明提供了一种目标声源的提取方法及装置，用以解决在噪声和混响场景下或者间隔短的不同声源，定位结果有较大误差，无法做到准确定位的问题。具体方案如下：

一种目标声源的提取方法，包括：

获取第一数量的声音采集设备采集的音频数据；

确定所述音频数据中声源的第二数量；

将所述第一数量与所述第二数量进行对比，依据对比结果选取对应的目标盲源分离方法对所述音频数据进行盲源分离，得到各个声源；

选取所述各个声源中存在预设激活词的声源作为目标声源。

上述的方法，可选的，确定所述音频数据中声源的第二数量，包括：

对所述音频数据进行傅里叶变换，得到频域音频数据；

计算所述音频数据的协方差矩阵，对所述协方差矩阵进行变换；

依据盖氏圆法确定所述音频中声源的第二数量。

上述的方法，可选的，依据对比结果选取对应的目标盲源分离方法对所述音频数据进行盲源分离，得到各个声源，包括：

若所述第一数量等于所述第二数量，采用频域独立分量分析方法或独立向量分析方法对所述音频数据进行盲源分离，得到各个声源。

若所述第一数量大于所述第二数量，采用主成分分析法将所述音频数据降将至第二数量维度，得到目标音频数据；

采用频域独立分量分析方法或独立向量分析方法对所述目标音频数据进行盲源分离，得到各个声源。

上述的方法，可选的，还包括：

对所述各个声源进行语音增强处理。

上述的方法，可选的，还包括：

在所述第一数量为1的情况下，采用非负矩阵分解方法对所述目标音频数据进行盲源分离，得到各个声源。

一种目标声源的提取装置，包括：

获取模块，用于获取第一数量的声音采集设备采集的音频数据；

确定模块，用于确定所述音频数据中声源的第二数量；

对比分离模块，用于将所述第一数量与所述第二数量进行对比，依据对比结果选取对应的目标盲源分离方法对所述音频数据进行盲源分离，得到各个声源；

选取模块，用于选取所述各个声源中存在预设激活词的声源作为目标声源。

上述的装置，可选的，所述确定模块包括：

变换单元，用于对所述音频数据进行傅里叶变换，得到频域音频数据；

计算单元，用于计算所述音频数据的协方差矩阵，对所述协方差矩阵进行变换；

确定单元，用于依据盖氏圆法确定所述音频中声源的第二数量。

一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述的一种目标声源的提取方法。

一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行上述的一种目标声源的提取方法。

与现有技术相比，本发明包括以下优点：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种目标声源的提取方法流程图；

图2为本申请实施例公开的一种目标声源的提取方法处理过程示意图；

图3为本申请实施例公开的一种目标声源的提取方法结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

本发明公开了一种目标声源的提取方法及装置，应用在嘈杂环境中对感兴趣的目标声源的提取过程中，在实际环境中，声音的传播经过反射、多径传播、叠加，到达传声器的时候与源声源有很大差异了，想从传声器提取感兴趣的目标声源变得格外困难。本发明提供了一种目标声源的提取方法，所述提起方法的执行流程如图1所示，包括步骤：

S101、获取第一数量的声音采集设备采集的音频数据；

本发明实施例中，所述第一数量是预先给定的，所述声音采集设备为可以用于声音采集的设备，优选的，所述声音采集设备为麦克风，所述第一数量的麦克风组成麦克风阵列，获取所述麦克风阵列采集的音频数据，其中，所述音频数据为宽带信号。

S102、确定所述音频数据中声源的第二数量；

本发明实施例中，由于所述音频数据为宽带信号，需要采用宽带信号源数目估计方法，优选的，本发明实施例中采用基于盖氏圆半径的数目估计方法。

其中，盖氏圆盘定理：设有一个M*M维矩阵R，其第i行第j列的元素为r_ij，令第i行元素(除第i列元素)绝对值之和为r_i，定义第i个圆盘O_i上的点在复平面上的集合用下式表示：

|Z-r_ij|<r_i

这个圆盘称为盖氏圆，矩阵R的特征值包含在圆盘O_i的并区间，圆盘中心位于r_ij，半径为r_i

基于盖氏圆的声源源数目估计算法不是利用协方差矩阵的特征值，而是利用它的盖氏圆半径来估计，其估计方式是首先将协方差矩阵进行变换，使得变换后的协方差矩阵的噪声盖氏圆半径接近零，信号盖氏圆的半径明显大于噪声盖氏圆的半径，根据这种差异可以估计出声源的第二数量。

S103、将所述第一数量与所述第二数量进行对比，依据对比结果选取对应的目标盲源分离方法对所述音频数据进行盲源分离，得到各个声源；

本发明实施例中，针对所述第一数量和所述第二数量对所述音频数据进行盲源分离，其中，所述第一数量和所述第二数量的对比结果存在如下几种可能情况：

若所述第一数量等于所述第二数量，采用频域独立分量分析方法FDICA(Frequency-DomainIndependentComponentAnalysis)或独立向量分析方法IVA(IndependentVectorAnalysis)对所述音频数据进行盲源分离，得到各个声源；

若所述第一数量大于所述第二数量，采用主成分分析法PCA(PrincipalComponentAnalysis)将所述音频数据降将至第二数量维度，得到目标音频数据，采用频域独立分量分析方法FDICA或独立向量分析方法IVA对所述目标音频数据进行盲源分离，得到各个声源。

在所述第一数量为1的情况下，采用非负矩阵分解方法NMF(Non-negativematrixfactorization)对所述目标音频数据进行盲源分离，得到各个声源。

S104、选取所述各个声源中存在预设激活词的声源作为目标声源。

本发明实施例中，在各个声源中选取目标声源的过程如下:针对每一个声源，判断其中是否存在预设的激活词，其中，所述预设的激活词用于唤醒机器，所述预设的激活词可以是“小爱同学”或者其它的激活词，当检测到当前声源中存在预设的唤醒词时，将所述当前声源作为目标声源，其中，所述目标声源至少为一个。

本发明实施例中，在从各个声源中选取目标声源之前，可以对每一个声源进行维纳滤波或者基于统计模型的语音增强算法，用于提高所述各个声源的信噪比。

本发明实施例中，针对上述方法的执行流程示意图如图2所示，当获取到M个麦克风的音频数据时，采用盖氏圆半径数目估计短发确定声源的数目N，确定过程如下：

(1)将所述声源数据作短时傅里叶变换STFT(short-timeFouriertransform)，得到频域音频数据X(i,j)(i＝1,2,…,I；j＝1,2,…,J)

(2)分别求各频率点下的协方差矩阵：

m-频点个数

(3)对协方差矩阵

进行变换得到矩阵Q_i：

其中，Y为

的特征矩阵，D′_i、ρⁱ、(ρⁱ)′和

是Q_i的分块矩阵

(4)为了提高算法估计性能，对各个频率点下的ρⁱ做平均

得到r_i＝|ρ_i|(i＝1,2,…,M)

(5)最后，盖氏圆法：

式中，k的取值为[1,M-1]。当k从小到大时，假设GDE(k)第一次出现负数时的数为k0，则信源个数的估计值为所述第二数量P’N＝k0-1。D(k)为调整因子，取值在0和1之间。

盲源分离过程中：M麦克风个数，N声源个数

在当麦克风个数与声源个数相等(M＝N)时，独立成分分析法及其变种是常用的盲源分离方法，例如：频域独立分量分析方法FDICA或者独立向量分析方法。

音频数据为宽带非平稳信号，对其处理一般都是在频域，即频域ICA(FDICA)但是，实际场景一般都是有混响的环境，麦克风采集信号为语音的卷积混合，时域关系为(为简单起见，这里忽略噪声)：

x_m为第m个麦克风的音频数据，s_n为第n个声源，h_mn为声源m与麦克风n之间的冲击响应函数，t为时间,τ为时延。对等式两边都作短时傅里叶变换(STFT)，时域卷积转换为频域相乘：

X_m(i,j)为x_m的STFT，H_mn(i)为h_mn(τ)的STFT变换，S_n(i,j)为s_n(t-τ)的STFT变换，i为频率，j为帧数。现在只有音频数据是已知的，源信号和冲击响应都是未知。

依据公式(7)

使得Y_n(i,j)为S_n(i,j)的准确估计。

事实上，因为声源相互独立且最多只能有一个高斯分布，因此，利用最大似然函数法估计解混矩阵，其对数似然函数为(为简单起见，省略频率下标)：

其中W表示解混矩阵(由各个声源组成)，p(y_n(j)表示估计信号的概率分布，语音属于典型的超高斯分布，通常使用Laplace分布来表示：

p(Y_n)∝exp(-|Y_n|) (9)

W最优解采用自然梯度方法：

W←W-η*(E{g(Y_n)*X′}-(W′)^-1) (10)

这样多次迭代，就能得到W的最优解。

或者基于IVA原理:

由于ICA容易发生频率置换的问题，针对该问题提出了IVA的方法，不同之处在对源信号的分布的假设上，ICA假定了每个频点上服从Laplace分布，IVA则是对所有频点进行假设，是多维超高斯分布，其代价函数为：

概率分布函数：

p(Y_j，n)∝exp(-||Y_j，n||₂) (12)

W最优解采用自然梯度方法：

W←W-η*(I-E{g(Y_j，n)*X′})*W (13)

或者，超定(M>N)：超定情况下，可以对M路音频数据做PCA(主成分分析法)处理，降至N维向量，然后可以用所有正定情况下的盲源分离方法，比如主成分分析法PCA+频域独立分量分析方法FDICA或者主成分分析法PCA+独立向量分析方法IVA

在麦克风个数大于声源数目的情况下，可以对麦克风阵列信号降维，使得其维数与声源数目相同，然后再利用上面提到的频域独立分量分析方法FDICA或者独立向量分析方法IVA。通常实用PCA(主成分分析法)来进行降维，步骤为：

(1)去中心化：X←X-E{X}

(2)对X的协方差矩阵C_X＝E{XX′}进行特征值分解，得到特征值和对应的特征向量。

(3)对特征值进行排序d₁≥d₂≥d₃…≥d_M，其对应的特征向量为e₁,e₂,…,e_M，那么X的第m个主成分为

为了从M维降至N维，这里只需取前N个主成分即可。

经过PCA处理后，采用上述M＝N的处理过程进行处理。

或者，针对单通道(M＝1)：对于单通道情况，采用非负矩阵分解方法NMF对所述音频数据进行盲源分离

非负矩阵分解即对给定的非负矩阵

(时频域的幅值构成的矩阵，横轴为时间，纵轴为频率)，能够寻找到一个非负矩阵

和非负矩阵

使得X≈T*V，其中T矩阵称为基矩阵，V矩阵称为系数矩阵。

NMF求解应用最广泛的就是Itakura-Saito散度:

最终得到迭代解：

可以看出这是乘性迭代规则，每一步保证了结果为正数，一直迭代下去就会收敛。分离的声源数目为指定的K个。

将得到的声源传递给激活词检测模块，得到目标声源，依据所述目标声源进行语音识别。

本发明实施例中，对声音采集设备的布局没有严格限制，适用于所有多声音采集设备的使用场景，极大提高语音交互的应用范围，具有极强扩展性，而且不受限于声源方位估计的分辨率，可以有效分离空间位置相距不远的多个声源，进一步的结合唤醒，可以做到对感兴趣目标声源的精准提取。

基于上述的一种目标声源的提取方法，本发明实施例中，还提供了一种目标声源的提取装置，所述提取装置的结构框图如图3所示，包括：

获取模块201、确定模块202、对比分离模块203和选取模块204。

其中，

所述获取模块201，用于获取第一数量的声音采集设备采集的音频数据；

所述确定模块202，用于确定所述音频数据中声源的第二数量；

所述对比分离模块203，用于将所述第一数量与所述第二数量进行对比，依据对比结果选取对应的目标盲源分离方法对所述音频数据进行盲源分离，得到各个声源；

所述选取模块204，用于选取所述各个声源中存在预设激活词的声源作为目标声源。

本发明公开了一种目标声源的提取装置，包括：获取第一数量的声音采集设备采集的音频数据；确定所述音频数据中声源的第二数量；将所述第一数量与所述第二数量进行对比，依据对比结果选取对应的目标盲源分离方法对所述音频数据进行盲源分离，得到各个声源；选取所述各个声源中存在预设激活词的声源作为目标声源。上述的提取装置中，在接收到音频数据时，首先确定音频数据的声源的第二数量，实现了声源的准确定位，之后才进行目标声源的提取，避免了现有技术中，在噪声和混响场景下或者间隔短的不同声源，定位结果有较大误差，无法做到准确定位的问题。

本发明实施例中，所述确定模块202包括：

变换单元205、计算单元206和确定单元207。

其中，

所述变换单元205，用于对所述音频数据进行傅里叶变换，得到频域音频数据；

所述计算单元206，用于计算所述音频数据的协方差矩阵，对所述协方差矩阵进行变换；

所述确定单元207，用于依据盖氏圆法确定所述音频中声源的第二数量。

所述提取装置包括处理器和存储器，上述预测获取模块、确定模块、对比分离模块和选取模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，在接收到音频数据时，首先确定音频数据的声源的第二数量，实现了声源的准确定位，之后才进行目标声源的提取，避免了现有技术中，在噪声和混响场景下或者间隔短的不同声源，定位结果有较大误差，无法做到准确定位的问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述目标声源的提取方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述目标声源的提取方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

获取第一数量的声音采集设备采集的音频数据；

确定所述音频数据中声源的第二数量；

选取所述各个声源中存在预设激活词的声源作为目标声源。

对所述音频数据进行傅里叶变换，得到频域音频数据；

依据盖氏圆法确定所述音频中声源的第二数量。

若所述第一数量等于所述第二数量，采用频域独立分量分析方法或独立向量分析方法对所述音频数据进行盲源分离，得到各个声源；

上述的方法，可选的，还包括：

对所述各个声源进行语音增强处理。

上述的方法，可选的，还包括：

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行有如下方法步骤的程序：

获取第一数量的声音采集设备采集的音频数据；

确定所述音频数据中声源的第二数量；

选取所述各个声源中存在预设激活词的声源作为目标声源。

对所述音频数据进行傅里叶变换，得到频域音频数据；

依据盖氏圆法确定所述音频中声源的第二数量。

上述的方法，可选的，还包括：

对所述各个声源进行语音增强处理。

上述的方法，可选的，还包括：

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种目标声源的提取方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种目标声源的提取方法，其特征在于，包括：

获取第一数量的声音采集设备采集的音频数据；

确定所述音频数据中声源的第二数量；

选取所述各个声源中存在预设激活词的声源作为目标声源。

2.根据权利要求1所述的方法，其特征在于，确定所述音频数据中声源的第二数量，包括：

对所述音频数据进行傅里叶变换，得到频域音频数据；

依据盖氏圆法确定所述音频中声源的第二数量。

3.根据权利要求1所述的方法，其特征在于，依据对比结果选取对应的目标盲源分离方法对所述音频数据进行盲源分离，得到各个声源，包括：

4.根据权利要求1所述的方法，其特征在于，依据对比结果选取对应的目标盲源分离方法对所述音频数据进行盲源分离，得到各个声源，包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

对所述各个声源进行语音增强处理。

6.根据权利要求1所述的方法，其特征在于，还包括：

7.一种目标声源的提取装置，其特征在于，包括：

确定模块，用于确定所述音频数据中声源的第二数量；

8.根据权利要求7所述的装置，其特征在于，所述确定模块包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至6中任意一项所述的一种目标声源的提取方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至6中任意一项所述的一种目标声源的提取方法。