CN113345421B

CN113345421B - 一种基于角度谱特征的多通道远场的目标语音识别方法

Info

Publication number: CN113345421B
Application number: CN202010098250.9A
Authority: CN
Inventors: 张鹏远; 李文洁; 颜永红
Original assignee: Zhongkexinli Guangzhou Technology Co ltd; Institute of Acoustics CAS
Current assignee: Zhongkexinli Guangzhou Technology Co ltd; Institute of Acoustics CAS
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2022-08-02
Anticipated expiration: 2040-02-18
Also published as: CN113345421A

Abstract

本发明公开了一种基于角度谱特征的多通道远场的目标语音识别方法，包括：获取包含目标人语音的M个通道的混合语音；将两个通道组成通道对，得到H个不重复的通道对。提取M个通道的混合语音的MFCC特征，并串接，得到第一特征；计算H个通道对的SRP‑PHAT，根据SRP‑PHAT生成包含目标人的位置信息的角度谱特征作为第二特征；提取出预存的目标人特征作为第三特征；根据第一特征、第二特征和第三特征对混合语音中的目标人进行语音识别。同时说话人的位置信息的引入也能增强模型对于多通道远场信号的处理能力，从而进一步提升模型对于目标说话人语音的识别性能。

Description

一种基于角度谱特征的多通道远场的目标语音识别方法

技术领域

本发明涉及智能识别领域，特别涉及一种基于角度谱特征的多通道远场的目标语音识别方法。

背景技术

人工智能的迅速发展，逐渐渗透到生活的各个方面，语音是人机交互的重要方式，促进了语音识别技术在各领域广泛运用。现在高信噪比情况下的语音识别准确率已经达到了很多实际应用的需求标准，但是鸡尾酒会问题仍然是语音识别领域的一个亟待解决的问题。它的主要难点在于，目标说话人的语音中存在人声干扰，非平稳噪声干扰，远场混响等因素的影响。

解决这一问题的常用方法是先对多说话人的语音分离之后再分别进行识别。人耳通常可以很好在嘈杂的环境中将注意力集中在感兴趣的目标语音上，在这个过程中说话人的位置信息起到了重要的作用。在此基础上我们构建了目标说话人语音识别框架，这个框架中我们将目标人的说话人特征和包含位置信息的角度谱特征作为识别模型的辅助特征，来引导模型将注意力集中到目标说话人，从而提升针对目标语音的识别性能。

发明内容

本发明的目的在于，为了从多说话人混叠或者带噪声的多通道语音中提取出感兴趣的目标说话人的语音，该方法提出一种基于角度谱的目标语音识别框架，该框架通过目标人位置信息的辅助，引导模型去增强对目标方向的语音进行识别，同时尽量排除其他方向上的声音的干扰。具体地，该方法主要是从多通道混合语音中提取出角度谱特征，然后将多说话人的混合语音的特征，目标人的说话人特征和目标人的角度谱特征一起作为输入，来训练目标说话人识别网络。

为了达到上述目的，本发明实施例记载了一种基于角度谱特征的多通道远场的目标语音识别方法，通过下列步骤实现对目标语音的识别：

获取包含目标人语音的M个通道的混合语音；将两个通道组成通道对，得到H个不重复的通道对；其中，H＝M*(M-1)/2，M为大于等于2的正整数；提取M个通道的混合语音的梅尔倒谱系数MFCC特征，将M个MFCC特征串接，得到第一特征；计算H个通道对的相位变换可控响应功率SRP-PHAT，根据SRP-PHAT生成包含目标人的位置信息的角度谱特征作为第二特征；从目标人预先注册的语音中，提取出目标人特征作为第三特征；根据第一特征、第二特征和第三特征对混合语音中的目标人进行语音识别。

一个实例中，通过对各通道的混合语音进行分帧加窗，傅立叶变换，梅尔滤波，离散余弦变换，得到M个N维的MFCC特征；串接M个MFCC特征，生成M*N维的第一特征；其中，N为正整数。

一个实例中，根据预设的采样间隔得到L个采样点对应的SRP-PHAT值，将L个SRP-PHAT值合成为1个L维的第二特征；其中，L为正整数。

其中，第二特征中的峰值个数，对应于混合语音中的说话人数量，说话人数量为目标人数量与非目标人数量之和；其中，目标人数量大于等于1，非目标人数量大于等于0；第二特征中的每个峰值，对应于混合语音中的每个说话人的位置信号。

当第二特征中具备至少两个峰值，即混合语音中包含至少两个说话人时，采用滑窗算法计算并分离第二特征中的至少两个峰值，得到至少两个单峰值第二特征；单峰值第二特征中具有一个对应于说话人的位置信息的峰值。

一个实例中，将第一特征和第二特征拼接后输入时延神经网络的第一层；将第一个隐层的输出和第三特征进行拼接后输入之后的时延神经网络进行目标人的目标语音识别。

其中，时延神经网络使用第一特征、第二特征和第三特征进行训练，以提高识别目标语音的能力。

本发明实施例的优点在于：在远场多通道场景下，为了减少干扰说话人对于目标说话人语音的影响，本发明的方法将目标说话人的位置信息编码成一个特征向量，可以实现对目标说话人定向的识别；同时说话人的位置信息的引入也能增强模型对于多通道远场信号的处理能力，从而进一步提升模型对于目标说话人语音的识别性能。

附图说明

图1为本发明实施例的一种基于角度谱特征的多通道远场的目标语音识别方法流程图框图；

图2为本发明实施例的目标语音识别模型示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了从多说话人混叠或者带噪声的多通道语音中提取出感兴趣的目标说话人的语音，该方法提出一种基于角度谱的目标语音识别框架，该框架通过目标人位置信息的辅助，引导模型去增强对目标方向的语音进行识别，同时尽量排除其他方向上的声音的干扰。具体地，该方法主要是从多通道混合语音中提取出角度谱特征，然后将多说话人的混合语音的特征，目标人的说话人特征和目标人的角度谱特征一起作为输入，来训练目标说话人识别网络。

图1为本发明实施例的一种基于角度谱特征的多通道远场的目标语音识别方法流程图框图，如图1所示。一种基于角度谱特征的多通道远场的目标语音识别方法，其特征在于，包括下列步骤：

步骤S110：获取包含目标人语音的M个通道的混合语音；将两个通道组成通道对，得到H个不重复的通道对；其中，通道个数M为大于等于2的正整数，通道个数M与通道对个数H存在H＝M*(M-1)/2的关系。

步骤S120：提取各混合语音中对应的梅尔倒谱系数MFCC(Mel-scaleFrequencyCepstral Coefficients)特征，得到M个MFCC特征。将这些MFCC特征进行串接，得到第一特征。

一个实例中，分别对各通道的混合语音进行分帧加窗，傅立叶变换，梅尔滤波，离散余弦变换，得到M个N维的MFCC特征；其中，N为正整数。将这M个MFCC特征依次串接，构成一个M*N维的第一特征。

需要指出，这里所说的依次串接可以是，对M个通道进行编号并根据对应的编号顺序对提取的MFCC特征进行串接。

例如，获取一个包含8个通道的麦克风阵列的混合语音，并分别提取8个通道所对应的MFCC特征。在对混合语音进行分帧加窗，傅立叶变换，梅尔滤波，离散余弦变换的过程中，通过设置使得到的MFCC特征为40维。将这8个40维的MFCC特征按照预先设置的1～8的通道编号顺序进行串接，得到一个320维的第一特征。

步骤S130：计算H个通道对的相位变换可控响应功率SRP-PHAT(Steered ResponsePower with Phase Transform)，根据SRP-PHAT生成包含目标人的位置信息的角度谱特征，并将其作为第二特征。

由于目标人语音到达不同通道的距离不同，各通道间收集到的各混合语音之间存在到达时延。这个到达时延可以提供目标人语音的方向信息，这里的方向信息可以通过波达方向DOA表示。所以我们考虑将目标人语音所对应的方向信息编码成特征向量，即第二特征。作为识别过程和模型训练过程中的样本。

利用每个通道对的傅里叶变换系数计算各通道对的互相关函数的值，将各互相关函数的值求和相加，得到混合语音的SRP-PHAT，可以成功对多通道声源进行定位。具体地，SRP-PHAT的计算公式如下：

其中，M表示通道数量，k，l分别表示第几个通道，X代表傅立叶变换系数，X^*表示傅里叶变换的共轭，ω代表角频率，d表示两个麦克风之间的距离，c是声音的速度，θ指的是不同的到达方向的角度，即波达角，t是每一个时刻的每一个角度。

基于SRP声源定位的基本原理是计算不同方向上的SRP-PHAT值。其中，最大的SRP-PHAT值出现的位置就是声源方向。并且，以此方法得到的定位结果对混响具有较强的抵抗能力。

一个实例中，对H个通道对进行L次采样。每次采样对应不同的波达角θ，得到每个通道对的L个互相关函数的值。将相同的波达角θ下计算得到的H个通道的互相关函数的值进行合成，得到L次采样的互相关函数的值，即L个SRP-PHAT值。将L个SRP-PHAT值进行合成，得到1个L维的特征向量，即第二特征。

例如，获取一个包含8个通道的麦克风阵列的混合语音。8个通道可以构成28个不重复的通道对。假设波达角θ∈[0，π]，对每个通道对的波达角θ进行181次采样，即采样间隔为π/180，得到每个通道对的181个互相关函数的值。将相同的波达角θ下计算得到的28个通道的互相关函数的值进行合成，得到181个SRP-PHAT值。将181个SRP-PHAT值进行合成为1个181维的特征向量，即第二特征。

因为第二特征中包含波达角信息，我们把它称为角度谱特征向量。

由于，角度谱特征向量会在声源方向的角度上出现峰值。所以第二特征中包含着目标人语音的位置信息，这一信息的引入将会提升模型对于多通道输入的混合语音信号的增强和处理能力。

但是，当需要识别的混合语音中存在多个说话人时。混合语音中包括至少一个目标人，以及可能存在也可能不存在的至少一个非目标人。则第二特征中将包含对应于多个说话人的多个峰值。此时，采用滑窗算法将第二特征中的多个峰值进行分离，得到多个单峰值的第二特征，即每个分离得到的第二特征中只包含一个对应于某一说话人语音的峰值。在后续的步骤中，将多个单峰值第二特征分别通过网络模型进行识别。

步骤S140：从目标人预先注册的语音中，提取目标人的语音特征，作为第三特征。

步骤S150：根据第一特征、第二特征和第三特征，对多通道的混合语音中的目标人进行语音识别。

将第一特征、第二特征和第三特征输入到目标语音识别网络中，得到识别结果。目标语音识别网络可以采用延时神经网络TDNN(Time-Delay Neural Network)结构，也可以采用其他的网络模型结构。

通过大量实验证实，在训练目标语音识别网络以及使用目标语音识别网络进行目标人语音识别的过程中。将第一特征和第二特征输入到目标语音识别网络的第一层，再将第一个隐层的输出和第三特征相结合输入到之后的网络中的训练和识别方法，可以更为有效的提高目标语音识别网络的训练效果以及识别能力，如图2所示。

将本发明实施例的方法应用于远场条件下对目标人语音进行识别，并与现有技术中的其他两种方法进行对比。通过语音识别的识别词错误率WER(word error rate)体现语音识别的准确率。选择10小时混合语音作为待测试数据，待测试数据中的目标人语音并未在网络模型训练过程中作为样本使用过。通过以两个现有方法作为对比例，以本发明实施例的方法作为实施例一，得到对应的WER数值，如下表所示：

	识别方法	WER(％)
			对比例一	单通道特征识别法	26.14
对比例二	多通道特征串接识别法	25.04
			实施例一	本发明实施例的目标语音识别方法	23.33

表1

其中，对比例一采用了单通道特征识别法。具体地，在进行语音识别时，以本发明实施例中的步骤S120中的第一个通道MFCC特征和第三特征作为网络模型的样本，进行目标人语音识别。

对比例二采用了多通道特征串接识别法。具体地，在进行语音识别时，以本发明实施例中的步骤S120中的各通道MFCC特征串接得到的第一特征和第三特征作为网络模型的样本，进行目标人语音识别。

实施例一采用本发明实施例中的方法。通过步骤S110获得多通道的混合语音，通过步骤S120获得第一特征，通过步骤S130获得第二特征，通过步骤S140获得第三特征，将第一特征、第二特征和第三特征作为网络模型的样本，进行目标人语音识别。

通过对比例一、对比例二和实施例一进行对比可知，在网络模型识别过程中，加入含有包含着目标人语音的位置信息的角度谱特征向量作为特征，可以有效地提高识别率，降低识别词错误率。

本发明实施例在远场多通道场景下，为了减少干扰说话人对于目标说话人语音的影响，本发明的方法将目标说话人的位置信息编码成一个特征向量，可以实现对目标说话人定向的识别；同时说话人的位置信息的引入也能增强模型对于多通道远场信号的处理能力，从而进一步提升模型对于目标说话人语音的识别性能。。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于角度谱特征的多通道远场的目标语音识别方法，其特征在于，包括下列步骤：

获取包含目标人语音的M个通道的混合语音；将两个通道组成通道对，得到H个不重复的通道对；其中，H＝M*(M-1)/2，M为大于等于2的正整数；

提取M个通道的混合语音的梅尔倒谱系数MFCC特征，将M个MFCC特征串接，得到第一特征；

计算H个通道对的相位变换可控响应功率SRP-PHAT，根据SRP-PHAT生成包含目标人的位置信息的角度谱特征作为第二特征；

从目标人预先注册的语音中，提取出目标人特征作为第三特征；

根据所述第一特征、第二特征和第三特征对混合语音中的目标人进行语音识别。

2.根据权利要求1所述的方法，其特征在于，所述提取M个通道的混合语音的梅尔倒谱系数MFCC特征，将M个MFCC特征串接，得到第一特征；具体包括：

分别对各通道的混合语音进行分帧加窗，傅立叶变换，梅尔滤波，离散余弦变换，得到M个N维的MFCC特征；串接M个MFCC特征，生成M*N维的第一特征；其中，N为正整数。

3.根据权利要求1所述的方法，其特征在于，所述根据SRP-PHAT生成包含目标人的位置信息的第二特征，具体包括：

根据预设的采样间隔得到L个采样点对应的SRP-PHAT值，将L个SRP-PHAT值合成为1个L维的第二特征；其中，L为正整数。

4.根据权利要求3所述的方法，其特征在于，所述第二特征中的峰值个数，对应于所述混合语音中的说话人数量，所述说话人数量为目标人数量与非目标人数量之和；其中，目标人数量大于等于1，非目标人数量大于等于0；

所述第二特征中的每个峰值，对应于所述混合语音中的每个说话人的位置信号。

5.根据权利要求4所述的方法，其特征在于，当所述第二特征中具备至少两个峰值，即所述混合语音中包含至少两个说话人时，采用滑窗算法计算并分离所述第二特征中的至少两个峰值，得到至少两个单峰值第二特征；所述单峰值第二特征中具有一个对应于说话人的位置信息的峰值。

6.根据权利要求1所述的方法，其特征在于，根据所述第一特征、第二特征和第三特征对目标人的目标语音进行识别，具体包括：

将所述第一特征和第二特征拼接后输入时延神经网络的第一层；

将第一个隐层的输出和所述第三特征进行拼接后输入之后的时延神经网络进行目标人的目标语音识别。

7.根据权利要求6所述的方法，其特征在于，所述时延神经网络使用第一特征、第二特征和第三特征进行训练，以提高识别目标语音的能力。