CN110310658B

CN110310658B - 一种基于语音信号处理的语音分离办法

Info

Publication number: CN110310658B
Application number: CN201910542125.XA
Authority: CN
Inventors: 廖旭; 黄沁鹏; 冯振邦
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2021-11-30
Anticipated expiration: 2039-06-21
Also published as: CN110310658A

Abstract

本发明涉及一种基于语音信号处理的语音分离办法，解决的是分离度低的技术问题，通过采用步骤一，定义混合语音信号，步骤二，将混合语音信号通过多通道的伽马通滤波器组，使用自回归与移动平均模型来平滑特征的时间轨迹，步骤三，建立深度神经网络，特征与该特征相邻帧的特征组合为一个标定组，输出标定组预测结果；步骤四，计算语音分离结果的质量评价因子，根据质量评价因子判定当前语音分离结果是否存在模糊效应，如果存在则转入步骤五，否则退出去模糊进程，语音分离结果为最终纯净语音；步骤五，依据能量最小化准则计算模糊核函数，据能量最小化准则计算最优纯净语音，迭代的技术方案，较好的解决了该问题，可用于语音分离中。

Description

一种基于语音信号处理的语音分离办法

技术领域

本发明涉及领域，具体涉及一种基于语音信号处理的语音分离办法。

背景技术

语音分离的目标是把目标语音从背景干扰中分离出来。在信号处理中，语音分离属于很基本的任务类型，应用范围很广泛，包括听力假体、移动通信、鲁棒的自动语音以及说话人识别。人类听觉系统能轻易地将一个人的声音和另一个人的分离开来。即使在鸡尾酒会那样的声音环境中，我们似乎也能毫不费力地在其他人的说话声和环境噪声的包围中听到一个人的说话内容。

现有的语音分离办法存在分离度低的问题，本发明提供一种基于语音信号处理的语音分离办法，解决以上技术问题。

发明内容

本发明所要解决的技术问题是现有技术中存在的分离度低的技术问题。提供一种新的基于语音信号处理的语音分离办法，该基于语音信号处理的语音分离办法具有分离度高的特点。

为解决上述技术问题，采用的技术方案如下：

一种基于语音信号处理的语音分离办法，所述基于语音信号处理的语音分离办法包括：

步骤一，定义混合语音信号为

y(t)＝x(t)+n(t)

x(t)＝y(t)*ρ(t)：

其中，x(t)为纯净语音，n(t)为噪音语音，ρ(t)为模糊函数；

步骤二，将混合语音信号通过多通道的伽马通滤波器组，对伽马通滤波器组的每个通道的输出进行分帧处理后得到时频单元矩阵，对得到的时频单元矩阵进行特征提取得到特征组，所述特征组包括振幅调制谱、感知线性预测，梅尔频率倒谱系数，伽马通频率，使用自回归与移动平均模型来平滑特征的时间轨迹：

其中，C(t)是第t帧的特征向量，

是滤波后的特征向量，m是伽马通滤波器组中伽马通滤波器的阶数；

步骤三，建立深度神经网络，将某一特征的时间轨迹上的某一时间点轨迹与该时间点相邻的轨迹组合为一个标定组，使用深度神经网络预测前述标定组，输出标定组预测结果作为语音分离结果g(x，y)；

步骤四，计算步骤三语音分离结果的质量评价因子，根据前述质量评价因子判定当前语音分离结果是否存在模糊效应，如果存在模糊效应，则转入步骤五，否则，退出去模糊进程，定义语音分离结果为最终纯净语音；

步骤五，根据g(x，y)＝y(t)*k(x，y)，依据能量最小化准则计算模糊核函数为

步骤六，定义当前模糊核函数k(x，y)为已知，依据能量最小化准则计算最优纯净语音

步骤七，将最优纯净语音

定义为y(t)，转到步骤一。

本发明的工作原理：本发明提出一种自适应的语音分离方法，分离出混合语音信号的中噪音信号与纯净信号。基于最小能量准则交互估计核函数和最优纯净语音，构建纯净语音质量评价因子判决条件作为迭代终止条件，实现自适应的语音分离处理。通过融合锐化指数和自然纯净语音质量评价指标构造质量评价因子，用于区分纯净语音和含噪语音，仅对含噪语音进行去模糊处理，并用于控制交互估计的迭代进程。本发明考虑到纯净语音和噪声之间的相关性，，在理论上能够取得最小均方误差意义下的最大信噪比增益。实验结果表明，本发明的方法分离效果好，分离度高。

上述方案中，进一步地，所述质量评价因子Q包括平滑特征的时间轨迹的锐化指数SI，以及待评价语音信号的平滑特征的时间轨迹与自然语音信号的特征的时间轨迹多元高斯模型之间的距离NIQE；

进一步地，步骤四中判定当前语音分离结果是否存在模糊效应为：

定义统计模糊语音数据集中的质量评价因子下限Q_min，比较当前质量评价因子Q与质量评价因子下限Q_min的大小，当Q≤HQ_min时判定为不模糊，Q＞HQ_min时判定为模糊，其中H为容差参数。

进一步地，在依据能量最小化准则计算模糊核函数为

中，进行迭代得到最优的模糊核函数

迭代终止条件为Q＞HQ_min，迭代公式为

其中，n为迭代次数。

进一步地，步骤六中依据能量最小化准则计算最优纯净语名

为对

进行迭代，

其中，

为迭代次数。

进一步地，所述深度神经网络包括三个隐层，每层1024个节点，激活函数为线性纠正函数。

本发明的有益效果：本发明提出一种自适应的语音分离方法，分离出混合语音信号的中噪音信号与纯净信号。基于最小能量准则交互估计核函数和最优纯净语音，构建纯净语音质量评价因子判决条件作为迭代终止条件，实现自适应的语音分离处理。通过融合锐化指数和自然纯净语音质量评价指标构造质量评价因子，用于区分纯净语音和含噪语音，仅对含噪语音进行去模糊处理，并用于控制交互估计的迭代进程。本发明考虑到纯净语音和噪声之间的相关性，，在理论上能够取得最小均方误差意义下的最大信噪比增益。实验结果表明，本发明的方法分离效果好，分离度高。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1，实施例1中的基于语音信号处理的语音分离办法示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

本实施例提供一种基于语音信号处理的语音分离办法，如图1，所述基于语音信号处理的语音分离办法包括：

步骤一，定义混合语音信号为

y(t)＝x(t)+n(t)

x(t)＝y(t)*ρ(t)；

其中，x(t)为纯净语音，n(t)为噪音语音，ρ(t)为模糊函数；

其中，C(t)是第t帧的特征向量，

步骤七，将最优纯净语音

定义为y(t)，转到步骤一。

具体地，所述质量评价因子Q包括平滑特征的时间轨迹的锐化指数SI，以及待评价语音信号的平滑特征的时间轨迹与自然语音信号的特征的时间轨迹多元高斯模型之间的距离NIQE；

具体地，步骤四中判定当前语音分离结果是否存在模糊效应为：

进一步地，在依据能量最小化准则计算模糊核函数为

中，进行迭代得到最优的模糊核函数

迭代终止条件为Q＞HQ_min，迭代公式为

其中，n为迭代次数。

具体地，步骤六中依据能量最小化准则计算最优纯净语音

为对

进行迭代，

其中，

为迭代次数。

具体地，所述深度神经网络包括三个隐层，每层1024个节点,激活函数为线性纠正函数。

本实施例提出一种自适应的语音分离方法，分离出混合语音信号的中噪音信号与纯净信号。基于最小能量准则交互估计核函数和最优纯净语音，构建纯净语音质量评价因子判决条件作为迭代终止条件，实现自适应的语音分离处理。通过融合锐化指数和自然纯净语音质量评价指标构造质量评价因子，用于区分纯净语音和含噪语音，仅对含噪语音进行去模糊处理，并用于控制交互估计的迭代进程。本发明考虑到纯净语音和噪声之间的相关性，,在理论上能够取得最小均方误差意义下的最大信噪比增益。实验结果表明，本实施例的方法分离效果好，分离度高。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员能够理解本发明，但是本发明不仅限于具体实施方式的范围，对本技术领域的普通技术人员而言，只要各种变化只要在所附的权利要求限定和确定的本发明精神和范围内，一切利用本发明构思的发明创造均在保护之列。