CN106847301A

CN106847301A - 一种基于压缩感知和空间方位信息的双耳语音分离方法

Info

Publication number: CN106847301A
Application number: CN201710002543.0A
Authority: CN
Inventors: 周琳; 朱竑谕; 王茜茜; 李枭雄
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2017-01-03
Filing date: 2017-01-03
Publication date: 2017-06-13

Abstract

本发明公开了一种基于压缩感知和空间方位信息的双耳语音分离方法，本方法在训练阶段首先建立每个说话人声信号的频域字典。测试中，由双耳声源定位阶段确定说话人方位信息，得到基于方位信息的混合矩阵，将多个说话人声信号频域字典组成的大字典与混合矩阵相乘，建立恢复模型，利用正交匹配追踪算法迭代求取多说话人声信号的稀疏系数，最后将多说话人声信号的频域数据大字典与稀疏系数相乘，得到各个说话人的频谱信号，并通过傅立叶逆变换重构每个说话人的时域信号，实现多说话人语音信号的分离。本发明分离的语音信号，分离指标如信干比和信噪比上得到有效提升。

Description

一种基于压缩感知和空间方位信息的双耳语音分离方法

技术领域

本发明涉及语音分离技术，具体涉及一种基于压缩感知和空间方位信息的双耳语音分离方法。

背景技术

经过几十年的探索，研究人员已经提出很多混合语音分离算法。特别地，根据采集混合声音信号的麦克风的数量，可将这些方法大致归为单通道和多通道的语音分离方法。很多语音分离方法都是基于单通道语音的相关特性来研究，然而，听觉研究表明，双耳听觉的辨别功能比单耳好，特别是在噪杂环境中选择性地注意感兴趣的声音并准确地定位等复杂声信息处理时更是如此。将人耳的这种听觉特性应用到语音分离上，势必能提高系统的性能。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于压缩感知和空间方位信息的双耳语音分离方法，利用空间信息建立观测方程，基于压缩感知理论，利用OMP算法估计说话人声信号的稀疏系数，从而实现多说话人的语音分离。

技术方案：一种基于压缩感知和空间方位信息的双耳语音分离方法，其特征在于，首先建立每个说话人声信号的频域字典，由双耳声源定位阶段确定不同说话人的方位信息，得到基于声源方位信息的混合矩阵，将多个不同方位说话人声信号的频域字典组成的大字典与混合矩阵相乘，建立恢复模型，利用正交匹配追踪算法迭代求取说话人声信号的稀疏系数，将多个说话人声信号的频域数据大字典与稀疏系数相乘，得到各个说话人声信号的频域信号，并通过傅里叶逆变换重构得到每个说话人的时域信号，实现基于压缩感知和方位的混合语音分离；该方法包括以下步骤：1)字典训练；2)混合语音分离；3)信号重构。

进一步的，步骤1)具体包括：

1.1)选择语音库中不同说话人的语音作为训练语音；

1.2)对训练语音中的每个说话人数据进行预处理；所述预处理包括幅度归一化、分帧和加窗；

1.3)对步骤1.2)分帧处理所得的单帧信号进行短时傅立叶变换，获得信号帧的频域信号；

1.4)对步骤1.3)获得的每个说话人语音的频域信号进行归一化处理，并进行字典训练，获得每个说话人的频域信号字典，将多个说话人的独立字典组成正交匹配追踪算法OMP所用的大字典。

进一步的，步骤2)具体包括：

2.1)测试过程中，对包含不同说话人的混合双耳语音信号进行预处理，所述预处理包括幅度归一化、分帧和加窗；

2.2)对步骤2.1)预处理之后的信号进行短时傅立叶变换，获得双耳频域的分帧信号X_L(τ,k)、X_R(τ,k)；

2.3)对步骤2.1)分帧后的双耳声信号求取每帧信号的耳间时间差ITD，计算定位线索；

2.4)根据耳间时间差ITD数据进行定位处理，得到混合语音对应的说话人方位信息，根据方位信息选择对应方位的与头相关传递函数HRTF数据构建测量矩阵Λ；

2.5)初始化正交匹配追踪算法OMP，R₀为初始化残差，i为迭代次数，e为相似度阈值，V为指标集，初始化为空集；

2.6)利用正交匹配追踪算法OMP估计混合双耳频谱信号的稀疏系数，其步骤为：设Φ为步骤1.4)获得的大字典与步骤2.4)获得的测量矩阵Λ的乘积；定义步骤2.2)的双耳频域信号、指标集V和稀疏系数估计值乘积之间的差值为残差信号；取Φ中的一列，使其与残差信号的相关性最大，并将Φ中列数据添加至指标集V中；

2.7)利用最小二乘法进行信号逼近；基于步骤2.2)得到的分帧双耳频域信号，通过求解指标集V与稀疏系数估计值对应的最小二乘问题，获取稀疏系数的估计值；

2.8)根据步骤2.7)获取的稀疏系数估计值，更新残差；

2.9)若步骤2.7)获得的残差满足相似度阈值，停止正交匹配追踪算法OMP迭代过程；否则，迭代步骤2.6)至步骤2.8)；迭代终止后，获得稀疏系数的最终估计值。

进一步的，步骤3)具体包括：

3.1)将步骤1.4)获取的大字典与步骤2.9)获取的稀疏系数的最终估计值相乘，恢复源信号的频域信号；

3.2)将步骤3.1)获取的频域信号，根据说话人的个数进行分段，得到各个说话人对应的频域信号；

3.3)将步骤3.3)获取的各个说话人的频域信号进行短时傅里叶逆变换，得到各个说话人的时域分帧信号；

3.5)将步骤3.4)获取的各个说话人的时域分帧信号进行去加窗处理，最终合成每个说话人的语音，实现混合语音的分离。

有益效果：本发明与现有技术相比，由于本发明基于压缩感知进行双耳语音分离，将声源的数据字典与稀疏系数相乘，经过傅里叶逆变换重构原信号，在多个说话人分离方面，其分离性能参数SIR、SNR得到有效提高。

附图说明

图1为本发明声源定位和语音分离的平面空间示意图

图2为本发明语音分离算法框图

具体实施方式

下面结合附图对本发明作更进一步的说明。

本发明首先建立每个说话人声信号的频域字典，由双耳声源定位阶段确定不同说话人的方位信息，得到基于声源方位信息的混合矩阵，将多个不同方位说话人频域字典组成的大字典与混合矩阵相乘，建立恢复模型，利用正交匹配追踪算法迭代求取说话人声信号的稀疏系数，将声源的频域字典与稀疏系数相乘，得到各个说话人声信号的频域表示，通过傅里叶逆变换重构得到每个说话人的时域信号，实现基于压缩感知和方位的混合语音分离。

图1为本发明语音分离的平面空间示意图，以3个声源为例。在本发明中，说话人方位角θ定义为方向矢量在水平面的投影与中垂面的夹角，其范围为-90°≤θ≤90°。水平面上，θ＝0°表示正前方，沿顺时针方向θ＝90°、-90°分别表示头部的正右方、正左方。图1以3个声源为例，其方向角分别为-30°、5°、40°。

图2为本发明的系统框图，本发明方法包括字典训练、基于OMP算法的说话人频域信号稀疏系数估计和信号重构三个部分，下面结合附图对本发明技术方案的具体实施方式进行详细说明：

步骤1)字典训练：

1.1)根据图2给出的整体系统框图，在训练数据阶段，采用Grid Corpus语音库，Grid Corpus语音库中每个说话人对应1000句英文句子组成，其中每个句子有6个单词，分别为动作命令、颜色、位置、字母、数字和副词。该语音库的采样率为16kHz，我们从在语音库中随机选择每个说话人的500句作为训练数据。训练和分离采用的语音库一致，可以选择任意的语音库。

1.2)对应图2中字典训练的预处理模块，对每个说话人的语音信号进行预处理，预处理包括幅度归一化、分帧和加窗。幅度归一化方法为：

x＝x/max(|x|)

其中x表示语音信号；max表示最大值计算。

本发明采取的分帧长度为32ms，帧移为10ms。

本发明使用汉明窗对分帧后的语音信号进行加窗，分帧加窗后的第τ帧信号可以表示为：

x(τ,n)＝w_H(n)x(τN+n) 0≤n＜N

其中，汉明窗表达为：

其中N为帧长。本发明中语音信号采样率为16kHz，帧长为32ms，则N＝512。

1.3)对应图2中字典训练的STFT模块，对每帧信号做短时傅立叶变换，获得信号帧的频域表示：

N同样也为STFT变换的点数。

1.4)对应图2中字典训练的归一化模块。由于OMP原子是归一化的，故首先对频域信号进行归一化处理，即将其除以幅度的最大值：

X(τ,k)＝X(τ,k)/max(|X(τ,k)|)

本发明对每个说话人频谱，即对X(τ,k)建立字典。本发明对字典的训练方法不作强制要求。

以上只是单个说话人频谱字典，对于基于压缩感知的语音分离，需要将多个说话人的独立频谱字典组成OMP算法所用的大字典。假设每个说话人的字典为D_m，m＝1,2,…,M，M为语音库中说话人的个数，组成的大字典为D：

步骤2)基于方位信息和OMP算法的双耳语音分离阶段：

2.1)对应图2中的混合语音预处理模块，本方法的预处理包括：幅度归一化、分帧和加窗。采用上述1.2)所述相同的方法对混合语音信号进行预处理，区别在于，此时的混合语音为双耳声信号，分别对每个声道的信号进行预处理，得到左、右两个声道的时域分帧信号x_L(τ,n)、x_R(τ,n)。

2.2)对应图2的STFT模块，预处理之后的双耳时域信号进行短时傅立叶变换，转换到频域，获得双耳频域的分帧信号X_L(τ,k)、X_R(τ,k)：

将单帧的双耳频谱写成一维向量的形式，记为X(τ)∈R^2N×1：

2.3)对预处理后的信号计算每帧双耳声信号的耳间时间差ITD，得到定位线索。

x_L(τ,n)、x_R(τ,n)为经过预处理(包括幅度归一化、分帧和加窗)后的单帧双耳声信号，该帧信号的互相关函数定义为：

R_XLXR(l)表示双耳声信号的互相关函数，第τ帧的ITD_τ定义为互相关函数R_XLXR(l)最大值对应的延迟：

2.4)对应图2的定位HRTF模块，对计算的每一帧ITD_τ值进行直方图统计，在直方图中选择最大的M个峰值对应的ITD作为候选定位参数，根据ITD值得到各个说话人方位信息，M为说话人的个数。

每个方位对应一组HRTF数据，将每个方位对应的HRTF数据组成测量矩阵Λ：

其中，表示第m个说话人方位角对应的左声道或右声道的HRTF数据。

这样，Λ∈R^2N×MN为HRTF数据构成的测量矩阵，M为声源个数。

2.5)初始化OMP算法。

基于方位信息和双耳声信号的单帧压缩感知CS(Compressive Sensing)模型为：

X(τ)＝ΛΨα

其中Λ是由说话人方位对应的HRTF数据构成的测量矩阵，α表示M个说话人频谱信号构成的一维向量S∈R^MN×1在基Ψ下的稀疏表示。

对于Ψα，可以采用字典训练的方式获取每个说话人频谱的信号帧过完备字典D，由该字典与稀疏系数来表示和恢复源信号，即：

X(τ)＝ΛDα

记Φ＝ΛD，则：

X(τ)＝Φα

因此可以采用压缩感知的方法重构每个说话人的语音信号，本发明中采用OMP算法估计稀疏系数，从而重构源说话人声信号。

首先初始化OMP参数，对于第τ帧频谱X(τ)，初始化残差E₀＝X(τ)∈R^2N×1，i为迭代次数，相似度阈值e设置为0.15，指标集V₀初始为空集。

2.6)Φ为步骤1.4)获得的大字典与步骤2.4)获得的测量矩阵Λ的乘积，寻找Φ中某列，使其与第i次迭代时的残差E_i相关性最大：

其中j为Φ中的列序号，λ_i+1为与残差E_i相关性最大的Φ列序号。

此时增加指标集V的列空间：

2.7)利用最小二乘法进行信号逼近：通过求解最小二乘问题保证残差最小，获取每次稀疏系数的估计值：

其中为V_i+1的伪逆。

2.8)更新残差：

2.9)如果残差满足下式：

其中||E_i+1||₂代表残差E_i+1的二范数，||X(τ)||₂代表第τ帧频谱信号X(τ)的二范数；

则停止迭代过程，OMP算法完成，获取稀疏系数估计否则，迭代步骤2.6)至2.8)。

步骤3)信号重构：

3.1)对应图2中的频域源信号估计模块，步骤2.9)利用OMP估计了说话人语音信号频域的稀疏系数，将数据字典与稀疏系数相乘，可以恢复第τ帧说话人语音信号的频域信号

3.2)根据说话人个数M，将平均分成M段N维向量，即得到第τ帧、每个说话人对应的频域信号。分段的过程具体是：如果在定位阶段估计出有3个说话人，那么估计得到的频域信号的长度和说话人的个数相关，只要把每一帧的频域数据平均分成3段，那么每一段的频域数据对应一个说话人。即：

其中下标表示说话人的序号。

3.3)对应图2中的ISTFT模块，根据步骤3.2)得到的每个说话人语音的频域信号，进行傅里叶逆变换ISTFT，得到每个说话人语音的每一帧时域信号：

其中表示第m个说话人第τ帧的时域信号。

3.4)以上均为对单帧信号的重构，将所有帧信号都完成重构后，进行去加窗处理，得到第m个说话人第τ帧信号表示为：

其中w_H(n)为汉明窗。

将去加窗后的各帧语音组合为最终每个说话人对应的语音信号。至此，完成基于方位信息和压缩感知的双耳语音分离。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于压缩感知和空间方位信息的双耳语音分离方法，其特征在于，首先建立每个说话人声信号的频域字典，由双耳声源定位阶段确定不同说话人的方位信息，得到基于声源方位信息的混合矩阵，将多个不同方位说话人声信号的频域字典组成的大字典与混合矩阵相乘，建立恢复模型，利用正交匹配追踪算法迭代求取说话人声信号的稀疏系数，将多个说话人声信号的频域数据大字典与稀疏系数相乘，得到各个说话人声信号的频域信号，并通过傅里叶逆变换重构得到每个说话人的时域信号，实现基于压缩感知和方位的混合语音分离；该方法包括以下步骤：1)字典训练；2)混合语音分离；3)信号重构。

2.如权利要求1所述的一种基于压缩感知和空间方位信息的双耳语音分离方法，其特征在于，步骤1)具体包括：

1.1)选择语音库中不同说话人的语音作为训练语音；

3.如权利要求1所述的一种基于压缩感知和空间方位信息的双耳语音分离方法，其特征在于，步骤2)具体包括：

2.8)根据步骤2.7)获取的稀疏系数估计值，更新残差；

4.如权利要求2所述的一种基于压缩感知和空间方位信息的双耳语音分离方法，其特征在于，步骤3)具体包括：