CN111899757B - 针对目标说话人提取的单通道语音分离方法及系统 - Google Patents
针对目标说话人提取的单通道语音分离方法及系统 Download PDFInfo
- Publication number
- CN111899757B CN111899757B CN202011057722.2A CN202011057722A CN111899757B CN 111899757 B CN111899757 B CN 111899757B CN 202011057722 A CN202011057722 A CN 202011057722A CN 111899757 B CN111899757 B CN 111899757B
- Authority
- CN
- China
- Prior art keywords
- target speaker
- neural network
- network model
- deep neural
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 62
- 238000000605 extraction Methods 0.000 title description 23
- 238000003062 neural network model Methods 0.000 claims abstract description 147
- 238000012549 training Methods 0.000 claims abstract description 37
- 230000000873 masking effect Effects 0.000 claims abstract description 20
- 238000001228 spectrum Methods 0.000 claims description 47
- 238000005070 sampling Methods 0.000 claims description 32
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 238000000034 method Methods 0.000 claims description 22
- 238000011478 gradient descent method Methods 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 13
- 210000002569 neuron Anatomy 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000012952 Resampling Methods 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 6
- 230000001902 propagating effect Effects 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 4
- 238000013138 pruning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000013137 model compression technique Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供了针对目标说话人提取的单通道语音分离方法,包括:获取目标说话人混合语音样本。根据初始化后的初始深度神经网络模型参数,训练初始深度神经网络模型获取第一深度神经网络模型。生成第二深度神经网络模型。初始化第二深度神经网络模型。获取当前深度神经网络模型。根据估计掩蔽及目标说话人混合语音样本的音频获取目标说话人语音样本。本发明中的针对目标说话人提取的单通道语音分离方法比现有的目标说话人提取单通道语音分离方法能在提高分离准确度、说话可懂度的同时,缩小算法的网络模型尺寸,减少计算内存,增强算法落地实现的有效性。同时,本发明还提供了针对目标说话人提取的单通道语音分离系统。
Description
技术领域
本发明语音信号处理领域。本发明具体涉及针对目标说话人提取的单通道语音分离方法及系统。
背景技术
随着人工智能技术的发展,神经网络算法由于其高预测精度称为目前最先进的技术。近些年高端智能移动设备得到快速发展,其中涉及的语音分离和语音识别等技术中,神经网络和深度学习算法成为主流。在众多的神经网络结构中,递归神经网络(RNN)由于读取输入时可在循环内跨神经元携带信息而被广泛使用在语音信号处理任务中,具有代表性的长短时记忆神经网络(LSTM)作为最受欢迎的RNN类型在语音分离任务中取得巨大的成功。
多种人工智能任务的发展带来的结果是,语音分离算法的精度要求越来越高,因为在智能音箱、助听器、会议记录等应用设备中,麦克风接收到的语音信号常常伴随着背景噪音或者其他说话人声的干扰,若是不能准确将其中的目标语音分离出来,将会严重影响到后端的应用,出现目标语音不清晰、语义识别不准或记录不准确的问题。然而,随着精度的要求越来越高,研发出的网络模型也而越来越大,这就导致网络计算的复杂度和计算机内存需求大规模增加。神经网络模型的压缩是一种减少计算量和内存的有效方法。最近研发人员已经研究出了多种模型压缩技术,比如权重剪枝就是一种显著的缩小模型的方式。
目前的语音分离算法大多数将重点放在语音分离后的准确程度上,而对如何在提高分离精确度的同时,减小模型尺寸,提高算法的速度,增加实时性方面研究较少。此问题关系到研究出的语音分离算法能否成功在应用设备上取得良好的效果,增加用户的体验舒适度,对技术的产品落地起决定性作用。
发明内容
本发明的目的是提供一种针对目标说话人提取的单通道语音分离方法,其比现有的目标说话人提取单通道语音分离方法能在提高分离准确度、说话可懂度的同时,缩小算法的网络模型尺寸,减少计算内存,增强算法落地实现的有效性。
本发明中的一种针对目标说话人提取的单通道语音分离系统。其实现的网络模型尺寸小、计算内存少,算法落地实现的有效性强。
本发明一方面提供了针对目标说话人提取的单通道语音分离方法,针对目标说话人提取的单通道语音分离方法实现时涉及多个目标说话人混合语音样本及一个初始深度神经网络模型。针对目标说话人提取的单通道语音分离方法包括:
步骤S101,通过一个设定采样频率预处理训练目标说话人语音样本获取目标说话人混合语音样本。
步骤S102,随机初始化初始深度神经网络模型的初始深度神经网络模型参数。
步骤S103,根据初始化后的初始深度神经网络模型参数,利用损失函数结果及梯度下降法反向传播更新权重和偏置,训练初始深度神经网络模型获取第一深度神经网络模型。
步骤S104,在第一深度神经网络模型的输出层前,插入ADMM模块,生成第二深度神经网络模型。
步骤S105,将第一深度神经网络模型的网络模型参数作为第二深度神经网络模型的初始参数,初始化第二深度神经网络模型。对ADMM模块的参数初始化。
步骤S106,根据初始化后的第二深度神经网络模型参数及初始化后的ADMM模块参数,通过损失函数及梯度下降法来反向传播更新权重和偏置,训练第二深度神经网络模型获取当前深度神经网络模型。
步骤S107,将待测试语音样本输入到当前深度神经网络模型中,获取与目标说话人语音样本对应的估计掩蔽。根据估计掩蔽及目标说话人混合语音样本的音频获取目标说话人语音样本。
在本发明方法的另一种实施方式中,步骤S101包括:
步骤S201,通过设定采样频率重采样目标说话人语音样本。目标说话人混合语音样本为目标说话人取样语音信号样本、目标说话人语音在设定信噪比范围随机混合环境噪声和其他说话人音频的样本。
目标说话人取样语音信号样本、目标说话人混合语音样本的样本长度为4s。
步骤S202,短时傅里叶变换目标说话人取样语音信号样本、目标说话人混合语音样本,获取目标说话人取样语音信号样本、目标说话人混合语音样本的幅度谱、相位谱及幅度最大值。
步骤S203,归一化目标说话人取样语音信号样本、目标说话人混合语音样本的幅度谱。获取理想幅值掩蔽值。
步骤S204,将归一化后的目标说话人取样语音信号样本、目标说话人混合语音样本的幅度谱、相位谱输入到初始深度神经网络模型中。
在本发明方法的另一种实施方式中,设定采样频率为8kHz。设定信噪比范围为-2.5dB 到2.5dB之间。
在本发明方法的另一种实施方式中,步骤S103中还包括:
步骤S1031,初始化初始深度神经网络模型中网络神经元节点之间的权重和偏置值,且前向传播优化初始深度神经网络模型。在初始深度神经网络模型前向传播过程中,通过激活函数生成输入与输出结果间的非线性映射。
在本发明方法的另一种实施方式中,步骤S104中还包括:
步骤S1041,增加并获取训练阶段的验证指标:SDR信号失真比、SIR信号干扰比。
在本发明方法的另一种实施方式中,步骤S106中还包括:
步骤S1061,初始化第二深度神经网络模型中网络神经元节点之间的权重和偏置值,且前向传播优化第二深度神经网络模型。在第二深度神经网络模型前向传播过程中,通过激活函数生成输入与输出结果间的非线性映射。
在本发明方法的另一种实施方式中,步骤S107中包括:
步骤S1071,将待测试语音样本输入到当前深度神经网络模型中,获取与目标说话人语音样本对应的估计掩蔽。
步骤S1072,根据估计掩蔽及目标说话人混合语音样本的幅度谱,结合目标说话人混合语音样本的相位谱,通过短时傅里叶逆变换,根据重叠帧获取目标说话人语音样本。
本发明方法的另一方面还提供了针对目标说话人提取的单通道语音分离系统,针对目标说话人提取的单通道语音分离系统实现时涉及多个目标说话人混合语音样本及一个初始深度神经网络模型。针对目标说话人提取的单通道语音分离系统包括:
一个样本预处理单元,其配置为通过一个设定采样频率预处理训练目标说话人语音样本获取目标说话人混合语音样本。
一个深度神经网络初始化单元,其配置为随机初始化初始深度神经网络模型的初始深度神经网络模型参数。
一个第一深度神经网络模型获取单元,其配置为根据初始化后的初始深度神经网络模型参数,利用损失函数结果及梯度下降法反向传播更新权重和偏置,训练初始深度神经网络模型获取第一深度神经网络模型。
一个第二深度神经网络模型获取单元,其配置在第一深度神经网络模型的输出层前,插入ADMM模块,生成第二深度神经网络模型。
一个参数初始化单元,其配置为将第一深度神经网络模型的网络模型参数作为第二深度神经网络模型的初始参数,初始化第二深度神经网络模型。对ADMM模块的参数初始化。
一个当前深度神经网络模型获取单元,其配置为根据初始化后的第二深度神经网络模型参数及初始化后的ADMM模块参数,通过损失函数及梯度下降法来反向传播更新权重和偏置,训练第二深度神经网络模型获取当前深度神经网络模型。
一个分离语音单元,其配置为将待测试语音样本输入到当前深度神经网络模型中,获取与目标说话人语音样本对应的估计掩蔽。根据估计掩蔽及目标说话人混合语音样本的音频获取目标说话人语音样本。
在本发明系统的另一种实施方式中,样本预处理单元还配置为:
通过设定采样频率重采样目标说话人语音样本。目标说话人混合语音样本包括,通过设定采样频率重采样目标说话人语音样本。目标说话人混合语音样本为目标说话人取样语音信号样本、目标说话人语音在设定信噪比范围随机混合环境噪声和其他说话人音频的样本。
目标说话人取样语音信号样本、目标说话人混合语音样本的样本长度为4s。
短时傅里叶变换目标说话人取样语音信号样本、目标说话人混合语音样本,获取目标说话人取样语音信号样本、目标说话人混合语音样本的幅度谱、相位谱及幅度最大值。
归一化目标说话人取样语音信号样本、目标说话人混合语音样本的幅度谱。获取理想幅值掩蔽值。
将归一化后的目标说话人取样语音信号样本、目标说话人混合语音样本的幅度谱、相位谱输入到初始深度神经网络模型中。
在本发明系统的再一种实施方式中,设定采样频率为8kHz。设定信噪比范围为-2.5dB 到2.5dB之间。
下文将以明确易懂的方式,结合附图对针对目标说话人提取的单通道语音分离方法及系统的特性、技术特征、优点及其实现方式予以进一步说明。
附图说明
图1是用于说明在本发明一种实施方式中,针对目标说话人提取的单通道语音分离方法的流程示意图。
图2是用于说明在本发明一种实施方式中,针对目标说话人提取的单通道语音分离方法部分步骤的流程示意图。
图3是用于说明在本发明另一种实施方式中,针对目标说话人提取的单通道语音分离方法部分步骤的流程示意图。
图4是用于说明在本发明又一种实施方式中,针对目标说话人提取的单通道语音分离方法的流程示意图。
图5是用于说明在本发明又一种实施方式中,针对目标说话人提取的单通道语音分离系统的组成示意图。
图6是用于说明在本发明再一种实施方式中,针对目标说话人提取的单通道语音分离方法的控制流程示意图。
图7是用于说明在本发明一种实施方式中,针对目标说话人提取的单通道语音分离方法中预训练模型结构图。
图8是用于说明在本发明一种实施方式中,针对目标说话人提取的单通道语音分离方法中相位/振幅特征编码器中隐藏层的结构示意图。
图9是用于说明在本发明一种实施方式中,针对目标说话人提取的单通道语音分离方法中解码器隐藏层的结构示意图。
图10是用于说明在本发明一种实施方式中,针对目标说话人提取的单通道语音分离方法中语音分离测试阶段结构示意图。
具体实施方式
为了对发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式,在各图中相同的标号表示结构相同或结构相似但功能相同的部件。
在本文中,“示意性”表示“充当实例、例子或说明”,不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁,各图中只示意性地表示出了与本示例性实施例相关的部分,它们并不代表其作为产品的实际结构及真实比例。
本发明一方面提供了针对目标说话人提取的单通道语音分离方法,针对目标说话人提取的单通道语音分离方法实现时涉及多个目标说话人混合语音样本及一个初始深度神经网络模型。
如图1所示,针对目标说话人提取的单通道语音分离方法包括:
步骤S101,预处理目标说话人混合语音样本。
本步骤中,通过一个设定采样频率预处理训练目标说话人语音样本获取目标说话人混合语音样本。
步骤S102,初始深度神经网络模型参数。
本步骤中,随机初始化初始深度神经网络模型的初始深度神经网络模型参数。
步骤S103,获取第一深度神经网络模型。
本步骤中,根据初始化后的初始深度神经网络模型参数,利用损失函数结果及梯度下降法反向传播更新权重和偏置,训练初始深度神经网络模型获取第一深度神经网络模型。
步骤S104,生成第二深度神经网络模型。
本步骤中,在第一深度神经网络模型的输出层前,插入ADMM模块,生成第二深度神经网络模型。上述ADMM模块为稀疏非负矩阵分解语音增强算法模块。
步骤S105,初始化第二深度神经网络模型。
本步骤中,将第一深度神经网络模型的网络模型参数作为第二深度神经网络模型的初始参数,初始化第二深度神经网络模型。对ADMM模块的参数初始化。
步骤S106,获取当前深度神经网络模型。
本步骤中,根据初始化后的第二深度神经网络模型参数及初始化后的ADMM模块参数,通过损失函数及梯度下降法来反向传播更新权重和偏置,训练第二深度神经网络模型获取当前深度神经网络模型。
步骤S107,分离语音数据。
本步骤中,将待测试语音样本输入到当前深度神经网络模型中,获取与目标说话人语音样本对应的估计掩蔽。根据估计掩蔽及目标说话人混合语音样本的音频获取目标说话人语音样本。
在本发明方法的另一种实施方式中,如图2所示,步骤S101包括:
步骤S201,重采样语音样本。
本步骤中,通过设定采样频率重采样目标说话人语音样本。目标说话人混合语音样本为目标说话人取样语音信号样本、目标说话人语音在设定信噪比范围随机混合环境噪声和其他说话人音频的样本。
目标说话人取样语音信号样本、目标说话人混合语音样本的样本长度为4s。
步骤S202,获取样本的幅度谱、相位谱及幅度最大值。
本步骤中,短时傅里叶变换目标说话人取样语音信号样本、目标说话人混合语音样本,获取目标说话人取样语音信号样本、目标说话人混合语音样本的幅度谱、相位谱及幅度最大值。
步骤S203,获取理想幅值掩蔽值。
本步骤中,归一化目标说话人取样语音信号样本、目标说话人混合语音样本的幅度谱。获取理想幅值掩蔽值。
步骤S204,输入到初始深度神经网络。
本步骤中,将归一化后的目标说话人取样语音信号样本、目标说话人混合语音样本的幅度谱、相位谱输入到初始深度神经网络模型中。
在本发明方法的另一种实施方式中,设定采样频率为8kHz。设定信噪比范围为-2.5dB 到2.5dB之间。
在本发明方法的又一种实施方式中,如图3所示,步骤S103中还包括:
步骤S1031,初始化初始深度神经网络模型参数。
本步骤中,初始化初始深度神经网络模型中网络神经元节点之间的权重和偏置值,且前向传播优化初始深度神经网络模型。在初始深度神经网络模型前向传播过程中,通过激活函数生成输入与输出结果间的非线性映射。
在本发明方法的又一种实施方式中,如图3所示,步骤S104中还包括:
步骤S1041,增加验证指标。
增加并获取训练阶段的验证指标:SDR信号失真比、SIR信号干扰比。
在本发明方法的再一种实施方式中,如图4所示,步骤S106中还包括:
步骤S1061,初始化第二深度神经网络模型参数。
本步骤中,初始化第二深度神经网络模型中网络神经元节点之间的权重和偏置值,且前向传播优化第二深度神经网络模型。在第二深度神经网络模型前向传播过程中,通过激活函数生成输入与输出结果间的非线性映射。
在本发明方法的再一种实施方式中,如图4所示,步骤S107中包括:
步骤S1071,获取与目标说话人语音样本对应的估计掩蔽。
本步骤中,将待测试语音样本输入到当前深度神经网络模型中,获取与目标说话人语音样本对应的估计掩蔽。
步骤S1072,获取说话人的分离语音数据。
本步骤中,根据估计掩蔽及目标说话人混合语音样本的幅度谱,结合目标说话人混合语音样本的相位谱,通过短时傅里叶逆变换,根据重叠帧获取目标说话人语音样本。
本发明方法的另一方面还提供了针对目标说话人提取的单通道语音分离系统,针对目标说话人提取的单通道语音分离系统实现时涉及多个目标说话人混合语音样本及一个初始深度神经网络模型。
如图5所示,针对目标说话人提取的单通道语音分离系统包括:一个样本预处理单元 101、一个深度神经网络初始化单元102、一个第一深度神经网络模型获取单元103、一个第二深度神经网络模型获取单元104、一个参数初始化单元105、一个当前深度神经网络模型获取单元106和一个分离语音单元107。
样本预处理单元101配置为通过一个设定采样频率预处理训练目标说话人语音样本获取目标说话人混合语音样本。
深度神经网络初始化单元102配置为随机初始化初始深度神经网络模型的初始深度神经网络模型参数。
第一深度神经网络模型获取单元10配置为根据初始化后的初始深度神经网络模型参数,利用损失函数结果及梯度下降法反向传播更新权重和偏置,训练初始深度神经网络模型获取第一深度神经网络模型。
第二深度神经网络模型获取单元104配置在第一深度神经网络模型的输出层前,插入 ADMM模块,生成第二深度神经网络模型。
参数初始化单元105配置为将第一深度神经网络模型的网络模型参数作为第二深度神经网络模型的初始参数,初始化第二深度神经网络模型。对ADMM模块的参数初始化。
当前深度神经网络模型获取单元106配置为根据初始化后的第二深度神经网络模型参数及初始化后的ADMM模块参数,通过损失函数及梯度下降法来反向传播更新权重和偏置,训练第二深度神经网络模型获取当前深度神经网络模型。
分离语音单元107配置为将待测试语音样本输入到当前深度神经网络模型中,获取与目标说话人语音样本对应的估计掩蔽。根据估计掩蔽及目标说话人混合语音样本的音频获取目标说话人语音样本。
在本发明系统的另一种实施方式中,样本预处理单元101还配置为:
通过设定采样频率重采样目标说话人语音样本。目标说话人混合语音样本包括,通过设定采样频率重采样目标说话人语音样本。目标说话人混合语音样本为目标说话人取样语音信号样本、目标说话人语音在设定信噪比范围随机混合环境噪声和其他说话人音频的样本。
目标说话人取样语音信号样本、目标说话人混合语音样本的样本长度为4s。
短时傅里叶变换目标说话人取样语音信号样本、目标说话人混合语音样本,获取目标说话人取样语音信号样本、目标说话人混合语音样本的幅度谱、相位谱及幅度最大值。
归一化目标说话人取样语音信号样本、目标说话人混合语音样本的幅度谱。获取理想幅值掩蔽值。
将归一化后的目标说话人取样语音信号样本、目标说话人混合语音样本的幅度谱、相位谱输入到初始深度神经网络模型。
在本发明系统的再一种实施方式中,设定采样频率为8kHz。设定信噪比范围为-2.5dB 到2.5dB之间。
在本发明针对目标说话人提取的单通道语音分离方法,还提出了一种实施方式。
如图6所示,本发明提供了一种针对目标说话人提取的基于注意力机制(attention) 和ADMM的语音分离稀疏算法,包括预训练阶段和基于ADMM再训练阶段。预训练阶段的模型由编码器、解码器和注意力机制构成(如图7所示),基于ADMM再训练阶段由预训练模型和ADMM模块构成。主要包括以下内容:
第一部分:数据处理阶段:对训练语音样本进行预处理,并提取其特征信息;
第二部分:预训练阶段:使用损失函数对深度神经网络进行预训练,以获得深度神经网络模型的参数待稀疏化;
第三部分:重训练阶段:在预训练好的模型上,加入ADMM模块,重新输入样本特征对模型做重训练,并对网络参数剪枝。
第四部分:测试阶段:将待测试语音样本进行预处理,提取其特征信息,并通过训练后的深度神经网络模型进行语音分离,再通过语音重构得到分离结果。
以下将对每个部分做详细说明。
一、第一部分具体包括:
1.1、对数据库样本信号在8kHz下重采样,并对目标说话人与噪声及其他说话人的数据在信噪比-2.5dB到2.5dB之间做随机的音频混合,同时保存每个混合音频对应的目标说话人干净音频。每个样本的长度为4s。
1.2、对混合信号y(t)及对应目标说话人信号x(t)进行短时傅里叶变换(汉宁窗,长度20ms),得到混合语音信号、干净目标语音信号的幅度谱Y(t,f)、X(t,f)、相位谱及幅度最大值;
1.3、对混合语音信号和干净语音信号的幅度谱进行归一化,并计算理想幅值掩蔽,将归一化后的混合语音信号的幅度谱和相位谱分别输入到预训练模型中,理想幅值掩蔽作为预训练模型的训练目标。
二、第二部分具体包括:
2.1、对深度神经网络参数进行随机初始化,包括每一层的权重和bias值;
2.2、根据2.1初始化后的参数,对深度神经网络进行有监督的训练,即使用损失函数通过梯度下降法来反向传播更新权重和偏置,以获得深度神经网络模型。
上述2.2中包括前向传播阶段和反向传播阶段。
前向传播阶段包括:对网络神经元节点之间的权重和偏置进行初始化;深度神经网络进行前向传播。
神经网络在前向传播过程中,可使用激活函数来增加网络之间的非线性关系,最后能够生成输入与输出结果间的非线性映射。
反向传播阶段包括:
<1>计算深度神经网络的损失函数;
<2>通过梯度下降法更新深度神经网络的参数。
整个网络的损失函数为公式1:
其中,starget是目标;enoise是估计噪音,由估计的语音和混合语音的差值求得。
网络将使用梯度下降法对其中的参数进行交替更新:
a、构建预训练语音提取网络。它是一个单输出的网络,由编码器、注意力机制和解码器三个模块组成。编码器由相位编码器和振幅编码器构成,它们通过注意力机制模块连接到解码器。如图8、9所示,整个网络除了输入层、输出层外,相位编码器和振幅编码器分别含有两个隐藏层,解码器含有4个隐藏层。注意力机制含有一个隐藏层。
b、计算网络输出层损失函数的梯度;
c、计算网络层数l=L-1,L-2,…,2时每一层所对应的梯度;
d、更新整个网络的权重和偏置。
三、第三部分具体包括:
3.1、在原有训练模型的输出层前,插入ADMM网络模块,组成新的训练网络,并增加SNR、SIR等训练阶段的验证指标。
3.2、将预训练模型中的网络参数取出,并赋给新网络中除去ADMM模块的网络部分作为初始参数。
3.3、对ADMM模块的网络部分做初始化。
3.4、根据3.2和3.3初始化后的参数,对重组后的深度神经网络进行有监督的训练,即使用新的损失函数通过梯度下降法来反向传播更新权重和偏置,以获得更新后的深度神经网络模型。
上述3.4中仍然包括前向传播阶段和反向传播阶段。
前向传播阶段包括:对网络神经元节点之间的权重和偏置进行初始化;深度神经网络进行前向传播。
神经网络在前向传播过程中,可使用激活函数来增加网络之间的非线性关系,最后能够生成输入与输出结果间的非线性映射。
其中,反向传播阶段包括:
<1>计算更新后深度神经网络新的损失函数;
<2>通过梯度下降法更新深度神经网络的参数。
新的网络损失函数为:
其中,i=1,…,N,N为预训练模型中参数总数;Wi,bi为预训练模型的参数,ρi为惩罚项,Zi为剪枝掩蔽,Ui为Wi和Zi的双重变量。
网络将使用如下步骤对预训练中的参数进行稀疏化和更新:
a、重训练网络是一个单输出的网络,由预训练模型和ADMM模块组成。
b、对每个权重参数Wi计算L2范数;
c、针对目标稀疏程度找出特定的阈值,若是L2范数小于此阈值,则应被剪枝;
d、在每一次迭代过程中,若是参数Wi的L2范数小于阈值,则对应的Zi为0。
ADMM模块中,参数Wi和Zi迭代更新的规则如下:
其中,k为迭代的次数。
第四部分测试阶段的具体操作为:将待测试语音样本的幅度谱和相位谱输入到稀疏训练后的网络模型中,经计算可得到目标语音对应的估计掩蔽,然后将估计掩蔽与最初待测混合语音的幅度谱相乘,再与相位谱结合经短时傅里叶逆变换和重叠帧的恢复后得到对应的每一个说话人的语音分离结果,并计算出SDR、SIR、SAR、STOI和PESQ等,如图10所示。
应当理解,虽然本说明书是按照各个实施方式中描述的,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
Claims (10)
1.针对目标说话人提取的单通道语音分离方法,其特征在于,所述针对目标说话人提取的单通道语音分离方法实现时涉及多个目标说话人混合语音样本及一个初始深度神经网络模型;所述针对目标说话人提取的单通道语音分离方法包括:
步骤S101,通过一个设定采样频率预处理训练目标说话人语音样本获取目标说话人混合语音样本;
步骤S102,随机初始化所述初始深度神经网络模型的初始深度神经网络模型参数;
步骤S103,根据初始化后的初始深度神经网络模型参数,利用损失函数结果及梯度下降法反向传播更新权重和偏置,训练所述初始深度神经网络模型获取第一深度神经网络模型;
步骤S104,在所述第一深度神经网络模型的输出层前,插入ADMM模块,生成第二深度神经网络模型;
步骤S105,将所述第一深度神经网络模型的网络模型参数作为所述第二深度神经网络模型的初始参数,初始化所述第二深度神经网络模型;对ADMM模块的参数初始化;
步骤S106,根据初始化后的所述第二深度神经网络模型参数及初始化后的ADMM模块参数,通过损失函数及梯度下降法来反向传播更新权重和偏置,训练所述第二深度神经网络模型获取当前深度神经网络模型;
步骤S107,将待测试语音样本输入到所述当前深度神经网络模型中,获取与所述目标说话人语音样本对应的估计掩蔽;根据所述估计掩蔽及所述目标说话人混合语音样本的音频获取目标说话人语音样本。
2.根据权利要求1所述的单通道语音分离方法,其特征在于,所述步骤S101包括:
步骤S201,通过所述设定采样频率重采样所述目标说话人语音样本;所述目标说话人混合语音样本为目标说话人取样语音信号样本、目标说话人语音在设定信噪比范围随机混合环境噪声和其他说话人音频的样本;
所述目标说话人取样语音信号样本、所述目标说话人混合语音样本的样本长度为4s;
步骤S202,短时傅里叶变换所述目标说话人取样语音信号样本、目标说话人混合语音样本,获取所述目标说话人取样语音信号样本、所述目标说话人混合语音样本的幅度谱、相位谱及幅度最大值;
步骤S203,归一化所述目标说话人取样语音信号样本、所述目标说话人混合语音样本的幅度谱;获取理想幅值掩蔽值;
步骤S204,将归一化后的所述目标说话人取样语音信号样本、所述目标说话人混合语音样本的幅度谱、相位谱输入到所述初始深度神经网络模型中。
3.根据权利要求2所述的单通道语音分离方法,其特征在于,所述设定采样频率为8kHz;所述设定信噪比范围为-2.5dB到2.5dB之间。
4.根据权利要求1所述的单通道语音分离方法,其特征在于,所述步骤S103中还包括:
步骤S1031,初始化所述初始深度神经网络模型中网络神经元节点之间的权重和偏置值,且前向传播优化所述初始深度神经网络模型;在所述初始深度神经网络模型前向传播过程中,通过激活函数生成输入与输出结果间的非线性映射。
5.根据权利要求1所述的单通道语音分离方法,其特征在于,所述步骤S104中还包括:
步骤S1041,增加并获取训练阶段的验证指标:SDR信号失真比、SIR信号干扰比。
6.根据权利要求1所述的单通道语音分离方法,其特征在于,所述步骤S106中还包括:
步骤S1061,初始化所述第二深度神经网络模型中网络神经元节点之间的权重和偏置值,且前向传播优化所述第二深度神经网络模型;在所述第二深度神经网络模型前向传播过程中,通过激活函数生成输入与输出结果间的非线性映射。
7.根据权利要求2所述的单通道语音分离方法,其特征在于,所述步骤S107中包括:
步骤S1071,将所述待测试语音样本输入到所述当前深度神经网络模型中,获取与所述目标说话人语音样本对应的估计掩蔽;
步骤S1072,根据所述估计掩蔽及所述目标说话人混合语音样本的幅度谱,结合所述目标说话人混合语音样本的相位谱,通过短时傅里叶逆变换,根据重叠帧获取目标说话人语音样本。
8.针对目标说话人提取的单通道语音分离系统,其特征在于,所述针对目标说话人提取的单通道语音分离系统实现时涉及多个目标说话人混合语音样本及一个初始深度神经网络模型;所述针对目标说话人提取的单通道语音分离系统包括:
一个样本预处理单元,其配置为通过一个设定采样频率预处理训练目标说话人语音样本获取目标说话人混合语音样本;
一个深度神经网络初始化单元,其配置为随机初始化所述初始深度神经网络模型的初始深度神经网络模型参数;
一个第一深度神经网络模型获取单元,其配置为根据初始化后的初始深度神经网络模型参数,利用损失函数结果及梯度下降法反向传播更新权重和偏置,训练所述初始深度神经网络模型获取第一深度神经网络模型;
一个第二深度神经网络模型获取单元,其配置在所述第一深度神经网络模型的输出层前,插入ADMM模块,生成第二深度神经网络模型;
一个参数初始化单元,其配置为将所述第一深度神经网络模型的网络模型参数作为所述第二深度神经网络模型的初始参数,初始化所述第二深度神经网络模型;对ADMM模块的参数初始化;
一个当前深度神经网络模型获取单元,其配置为根据初始化后的所述第二深度神经网络模型参数及初始化后的ADMM模块参数,通过损失函数及梯度下降法来反向传播更新权重和偏置,训练所述第二深度神经网络模型获取当前深度神经网络模型;
一个分离语音单元,其配置为将待测试语音样本输入到所述当前深度神经网络模型中,获取与所述目标说话人语音样本对应的估计掩蔽;根据所述估计掩蔽及所述目标说话人混合语音样本的音频获取目标说话人语音样本。
9.根据权利要求8所述的单通道语音分离系统,其特征在于,所述样本预处理单元还配置为:
通过所述设定采样频率重采样所述目标说话人语音样本;所述目标说话人混合语音样本包括,通过所述设定采样频率重采样所述目标说话人语音样本;所述目标说话人混合语音样本为目标说话人取样语音信号样本、目标说话人语音在设定信噪比范围随机混合环境噪声和其他说话人音频的样本;
所述目标说话人取样语音信号样本、所述目标说话人混合语音样本的样本长度为4s;
短时傅里叶变换所述目标说话人取样语音信号样本、所述目标说话人混合语音样本,获取所述目标说话人取样语音信号样本、所述目标说话人混合语音样本的幅度谱、相位谱及幅度最大值;
归一化所述目标说话人取样语音信号样本、所述目标说话人混合语音样本的幅度谱;获取理想幅值掩蔽值;
将归一化后的所述目标说话人取样语音信号样本、所述目标说话人混合语音样本的幅度谱、相位谱输入到所述初始深度神经网络模型中。
10.根据权利要求9所述的单通道语音分离系统,其特征在于,所述设定采样频率为8kHz;所述设定信噪比范围为-2.5dB到2.5dB之间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011057722.2A CN111899757B (zh) | 2020-09-29 | 2020-09-29 | 针对目标说话人提取的单通道语音分离方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011057722.2A CN111899757B (zh) | 2020-09-29 | 2020-09-29 | 针对目标说话人提取的单通道语音分离方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111899757A CN111899757A (zh) | 2020-11-06 |
CN111899757B true CN111899757B (zh) | 2021-01-12 |
Family
ID=73224094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011057722.2A Active CN111899757B (zh) | 2020-09-29 | 2020-09-29 | 针对目标说话人提取的单通道语音分离方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111899757B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112509593B (zh) * | 2020-11-17 | 2024-03-08 | 北京清微智能科技有限公司 | 一种语音增强网络模型、单通道的语音增强方法及系统 |
CN112992172B (zh) * | 2021-01-28 | 2023-09-15 | 广州大学 | 一种基于注意力机制的单通道时域鸟鸣声分离方法 |
CN113053407B (zh) * | 2021-02-06 | 2024-06-14 | 南京蕴智科技有限公司 | 一种针对多说话人的单通道语音分离方法及系统 |
CN113673694B (zh) * | 2021-05-26 | 2024-08-27 | 阿里巴巴创新公司 | 数据处理方法及装置、电子设备和计算机可读存储介质 |
CN113763936A (zh) * | 2021-09-03 | 2021-12-07 | 清华大学 | 一种基于语音提取的模型训练方法、装置及设备 |
CN113782006B (zh) * | 2021-09-03 | 2024-08-20 | 清华大学 | 一种语音提取方法、装置及设备 |
CN113744719B (zh) * | 2021-09-03 | 2024-08-06 | 清华大学 | 一种语音提取方法、装置及设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106847302A (zh) * | 2017-02-17 | 2017-06-13 | 大连理工大学 | 基于卷积神经网络的单通道混合语音时域分离方法 |
CN108986834A (zh) * | 2018-08-22 | 2018-12-11 | 中国人民解放军陆军工程大学 | 基于编解码器架构与递归神经网络的骨导语音盲增强方法 |
CN109036454A (zh) * | 2018-06-06 | 2018-12-18 | 安徽继远软件有限公司 | 基于dnn的说话人无关单通道录音分离的方法和系统 |
WO2020024646A1 (en) * | 2018-07-31 | 2020-02-06 | Tencent Technology (Shenzhen) Company Limited | Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks |
EP3614696A1 (en) * | 2017-04-20 | 2020-02-26 | Starkey Laboratories, Inc. | Beam former, beam forming method and hearing aid system |
CN111192598A (zh) * | 2020-01-07 | 2020-05-22 | 哈尔滨理工大学 | 一种跳变连接深度神经网络的语音增强方法 |
CN111292762A (zh) * | 2018-12-08 | 2020-06-16 | 南京工业大学 | 一种基于深度学习的单通道语音分离方法 |
CN111354338A (zh) * | 2020-02-26 | 2020-06-30 | 重庆大学 | 基于pso卷积核优化稀疏迁移学习的帕金森语音识别系统 |
CN111429938A (zh) * | 2020-03-06 | 2020-07-17 | 江苏大学 | 一种单通道语音分离方法、装置及电子设备 |
CN111583954A (zh) * | 2020-05-12 | 2020-08-25 | 中国人民解放军国防科技大学 | 一种说话人无关单通道语音分离方法 |
CN111724806A (zh) * | 2020-06-05 | 2020-09-29 | 太原理工大学 | 一种基于深度神经网络的双视角单通道语音分离方法 |
-
2020
- 2020-09-29 CN CN202011057722.2A patent/CN111899757B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106847302A (zh) * | 2017-02-17 | 2017-06-13 | 大连理工大学 | 基于卷积神经网络的单通道混合语音时域分离方法 |
EP3614696A1 (en) * | 2017-04-20 | 2020-02-26 | Starkey Laboratories, Inc. | Beam former, beam forming method and hearing aid system |
CN109036454A (zh) * | 2018-06-06 | 2018-12-18 | 安徽继远软件有限公司 | 基于dnn的说话人无关单通道录音分离的方法和系统 |
WO2020024646A1 (en) * | 2018-07-31 | 2020-02-06 | Tencent Technology (Shenzhen) Company Limited | Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks |
CN108986834A (zh) * | 2018-08-22 | 2018-12-11 | 中国人民解放军陆军工程大学 | 基于编解码器架构与递归神经网络的骨导语音盲增强方法 |
CN111292762A (zh) * | 2018-12-08 | 2020-06-16 | 南京工业大学 | 一种基于深度学习的单通道语音分离方法 |
CN111192598A (zh) * | 2020-01-07 | 2020-05-22 | 哈尔滨理工大学 | 一种跳变连接深度神经网络的语音增强方法 |
CN111354338A (zh) * | 2020-02-26 | 2020-06-30 | 重庆大学 | 基于pso卷积核优化稀疏迁移学习的帕金森语音识别系统 |
CN111429938A (zh) * | 2020-03-06 | 2020-07-17 | 江苏大学 | 一种单通道语音分离方法、装置及电子设备 |
CN111583954A (zh) * | 2020-05-12 | 2020-08-25 | 中国人民解放军国防科技大学 | 一种说话人无关单通道语音分离方法 |
CN111724806A (zh) * | 2020-06-05 | 2020-09-29 | 太原理工大学 | 一种基于深度神经网络的双视角单通道语音分离方法 |
Non-Patent Citations (4)
Title |
---|
ADMM稀疏非负矩阵分解语音增强算法;胡永刚 等;《计算机工程与应用》;20160201;第52卷(第3期);第108-112页 * |
PAGAN: A PHASE-ADAPTED GENERATIVE ADVERSARIAL NETWORKS FOR SPEECH ENHANCEMENT;Peishuo Li et al.,;《ICASSP 2020》;20200514;第6234-6238页 * |
基于深度学习语音分离技术的研究现状与进展;刘文举 等;《自动化学报》;20160630;第42卷(第6期);第829-833页 * |
稀疏卷积非负矩阵分解的语音增强算法;张立伟 等;《数据采集与处理》;20140331;第29卷(第2期);第259-264页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111899757A (zh) | 2020-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN111243620B (zh) | 语音分离模型训练方法、装置、存储介质和计算机设备 | |
CN108172238B (zh) | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 | |
KR100908121B1 (ko) | 음성 특징 벡터 변환 방법 및 장치 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN105206270B (zh) | 一种组合pca和rbm的孤立数字语音识别分类系统及方法 | |
CN108922513B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN106782511A (zh) | 修正线性深度自编码网络语音识别方法 | |
CN111292762A (zh) | 一种基于深度学习的单通道语音分离方法 | |
Bhattacharjee | A comparative study of LPCC and MFCC features for the recognition of Assamese phonemes | |
CN109147774B (zh) | 一种改进的延时神经网络声学模型 | |
CN111128229A (zh) | 语音分类方法、装置及计算机存储介质 | |
CN114550703A (zh) | 语音识别系统的训练方法和装置、语音识别方法和装置 | |
Bavu et al. | TimeScaleNet: A multiresolution approach for raw audio recognition using learnable biquadratic IIR filters and residual networks of depthwise-separable one-dimensional atrous convolutions | |
Cheng et al. | DNN-based speech enhancement with self-attention on feature dimension | |
JPH09507921A (ja) | ニューラルネットワークを使用した音声認識システムおよびその使用方法 | |
CN113571095A (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
Chauhan et al. | Speech recognition and separation system using deep learning | |
CN115472168B (zh) | 耦合bgcc和pwpe特征的短时语音声纹识别方法、系统及设备 | |
CN108573698B (zh) | 一种基于性别融合信息的语音降噪方法 | |
CN116013339A (zh) | 一种基于改进crn的单通道语音增强方法 | |
Eltanashi et al. | Proposed speaker recognition model using optimized feed forward neural network and hybrid time-mel speech feature | |
CN115267672A (zh) | 声源检测和定位的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221207 Address after: Room 3068, Floor 3, Building 2, No. 602, Tongpu Road, Putuo District, Shanghai, 200062 Patentee after: Shanghai Qingwei Intelligent Technology Co.,Ltd. Address before: 211100 4th floor, building 8, artificial intelligence Industrial Park, 266 Chuangyan Road, Qilin science and Technology Innovation Park, Jiangning District, Nanjing City, Jiangsu Province Patentee before: Nanjing Yunzhi Technology Co.,Ltd. |