CN106847302A - 基于卷积神经网络的单通道混合语音时域分离方法 - Google Patents

基于卷积神经网络的单通道混合语音时域分离方法 Download PDF

Info

Publication number
CN106847302A
CN106847302A CN201710084957.2A CN201710084957A CN106847302A CN 106847302 A CN106847302 A CN 106847302A CN 201710084957 A CN201710084957 A CN 201710084957A CN 106847302 A CN106847302 A CN 106847302A
Authority
CN
China
Prior art keywords
output
data
frame
layer
neutral net
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710084957.2A
Other languages
English (en)
Other versions
CN106847302B (zh
Inventor
张鹏
马晓红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201710084957.2A priority Critical patent/CN106847302B/zh
Publication of CN106847302A publication Critical patent/CN106847302A/zh
Application granted granted Critical
Publication of CN106847302B publication Critical patent/CN106847302B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明涉及一种单通道混合语音的时域分离方法,一种基于卷积神经网络的单通道混合语音的时域分离方法,包括以下步骤:(1)建立用于训练的语音数据组,(2)对语音数据进行预处理,(3)获得混合的语音数据,(4)构造神经网络结构,(5)利用整理好的数据,对神经网络进行监督式训练,(6)利用训练好的神经网络进行分离测试。本发明是以时域语音信号作为卷积神经网络的输入和输出,将单通道的混合语音分离开来,从而得到两路源信号的估计。该方法不需要处理相位恢复的问题,提高了单通道语音的分离质量。

Description

基于卷积神经网络的单通道混合语音时域分离方法
技术领域
本发明涉及一种单通道混合语音的时域分离方法,更具体地说,涉及一种基于卷积神经网络的单通道混合语音时域分离方法。
背景技术
单通道盲源分离(Monaural Blind Source Separation,MBSS)是语音处理领域中一项重要技术,它能在只获得单通道混合语音信号的情况下得到两路源信号的估计。单通道语音分离技术在在语音识别、语音增强、语音鉴定等领域具有重要的应用价值。
典型的单通道语音分离包括基于非负矩阵分解(Non-negative MatrixFactorization,NMF)和基于神经网络(Neural Network)的方法。由于单通道混合语音中所包含的信息较少,因此基于非负矩阵分解的方法很难取得令人满意的分离效果。而神经网络具有较强的特征表达能力,因此基于神经网络的方法可以取得比NMF方法更好的分离效果。但是,目前基于神经网络的方法一般采用全连接网络(Full Connected NeuralNetwork,FCNN)或循环神经网络(Recurrent Neural Network,RNN),并且通常需要提取语音信号的幅度谱特征,这样并没有很好地利用到卷积神经网络本身强大的特征表达能力;同时由于使用了幅度谱特征,使得在恢复源信号的时候面临着很难处理的相位恢复问题。因此,传统的基于神经网络的分离方法在分离出的两路源信号估计之间存在互扰,分离质量有待提高。
发明内容
为了克服现有技术中存在的不足,本发明的目的是提供一种基于卷积神经网络的单通道混合语音时域分离方法。该方法是以时域语音信号作为卷积神经网络的输入和输出,其作用是将单通道的混合语音分离开来,从而得到两路源信号的估计。该方法不需要处理相位恢复的问题,提高了单通道语音分离的质量。
为了实现上述发明目的,解决已有技术中存在的问题,本发明采用的技术方案是:基于卷积神经网络的单通道混合语音时域分离方法,包括以下步骤:
步骤1、建立用于训练的语音数据组,从一个标准数据库,例如,TSP语音数据库中随机选取大量语音数据,并分为两组,其中80%语音数据作为训练数据,余下20%作为测试数据;
步骤2、对语音数据进行预处理,首先利用公式(1)将原始的语音数据归一化到[-1,1]的范围内,
其中,si表示第i路源信号,max(·)表示取最大值,abs(si)表示对si中的每一个元素取绝对值,yi表示归一化后的第i路源信号。然后将时域语音信号利用公式(2)进行分帧处理,帧长为N=1024,帧间重叠为H,这里H=N/2,
zi={y(1+(N-H)*(i-1)),...,y((N-H)*(i-1)+N)} (2)
其中zi表示第i帧数据,y表示归一化后的数据;
步骤3,获得混合的语音数据,这里利用公式(3)所描述的循环移位混合的方法来扩大混合语音数据的数量,
其中,x表示循环移位后的输出,表示将W个向量串连起来,W等于L/τ,L表示原始语音信号s的长度,τ表示循环移位的点数长度,Ψ表示循环移位算子,利用公式(4)进行描述,
式中,y表示输入,β表示循环移位的点数,L为y的长度;
步骤4、构造神经网络结构,构建一个适于分离的卷积神经网络(ConvolutionalNeural Network,CNN),这里所使用的卷积层(Convolutional Layer)是一维卷积层,其卷积核是一维的,该卷积神经网络包括数据载入层、卷积层1、2、3,最大池化层1、2、3,全连接层1、2及线性整流单元(Rectified Linear Unit),ReLU层1、2、3,每一层的具体参数以及连接顺序依次为:数据载入层用于读取批量帧语音混合数据和对应的源数据,并提供给后面的层输入;卷积层1,卷积核的长度为75,卷积核的个数为96个;线性整流单元层1;最大池化Max pooling层1,池化的核长度为2,池化步长为2;卷积层2,卷积核的长度为55,卷积核的个数为128个;线性整流单元层2;最大池化层2,池化的核长度为2,池化步长为2;卷积层3,卷积核的长度为27,卷积核的个数为128个;线性整流单元层3;最大池化层3,池化的核长度为2,池化步长为2;全连接层1,节点数为2048,激活函数为反正切函数tanh;全连接层2,节点数为2048,没有激活函数即为线性输出,该层为输出层;误差层,利用欧式距离计算网络输出信号output与目标信号target之间的误差;
步骤5、利用训练整理好的数据,即单路混合语音和源语音的对应数据对,对神经网络进行监督式训练,采用批量随机梯度下降法(Stochastic Gradient Descent,SGD)对神经网络进行优化训练。首先对卷积层的神经网络参数采用均值为0,方差为0.1的高斯分布进行随机初始化,设置迭代的最大次数为MaxIter=40000、优化的学习率为α=0.01、学习动量为μ=0.95,然后依次迭代执行前向传播子步骤(a)和后向传播子步骤(b);
(a)、数据载入层读取批量数据,这里每一批为256帧的混合语音数据和对应的源语音数据对,分别记为mix和target,其中mix通过整个神经网络后得到输出记为output,神经网络中的卷积层神经元的输出利用公式(5)进行计算,
式中,x表示神经元的输出,m表示滤波器核,z表示卷积层的输入,b表示神经元偏置,M表示滤波器核的长度,a(·)表示激活函数,即线性整流单元,其计算通过公式(6)进行描述,
式中,r表示线性整流单元的输入,
最后经过全连接层之后得到神经网络的输出output,是一个长度为2048的向量,其中前1024点代表源信号1的估计后1024点代表源信号2的估计通过计算output和target之间的欧式距离作为神经网络该次计算的误差,与前一次迭代计算的误差进行比较,当相邻两次误差的差值小于一个较小的阈值(如0.1)时,可判断为收敛,若收敛或者已达到预先设置的最大迭代次数,则停止迭代,网络已经训练好,可用于测试,若未收敛,则执行后向传播子步骤(b);
(b)、经过子步骤(a)的前向传播后,得到了神经网络的输出output,可以计算output与target之间的误差,并通过公式(7)进行描述,
式中,W代表神经网络的权值参数矩阵,b代表神经网络的偏置参数矩阵,J(W,b)表示网络输出output与target之间的误差,是神经网络对两路源信号的估计,s=[s1,s2]是两路源信号的真实值,得到神经网络该次迭代的误差后,利用链式法则逐层计算误差相对于神经网络参数W,b的梯度
计算梯度的更新值,
式中,分别表示第i次和第i-1次迭代时权值参数矩阵W的更新值,分别代表第i次和第i-1次迭代时偏置矩阵b的更新值,μ代表优化的学习动量,α代表优化的学习率,然后对神经网络的参数W和b利用公式(12)和(13)进行更新,
其中Wi和Wi-1分别表示第i次和第i-1次迭代时权值参数矩阵,bi和bi-1分别代表第i次和第i-1次迭代时偏置矩阵。神经网络参数更新后,在新的参数下执行前向传播子步骤(a);
步骤6、在经过步骤5对神经网络训练完成后,将神经网络的参数保存起来,即可利用训练好的神经网络对单通道混合语言信号进行分离测试。将待分离的单通道混合语音输入到神经网络中,在神经网络的输出端即可得到对源信号的估计,具体包括以下子步骤:
(a)、将待分离的单通道混合信号分帧,帧长与训练时的帧长相同,即为1024点,同时每一帧的帧移为128点,即相邻两帧之间的帧间重叠为896(7/8);然后,在每一帧上加汉明窗(Hamming window);再将预处理后的待分离混合信号的一帧送到神经网络的输入端,神经网络的输出端得到该帧单路混合数据的分离结果,重复本步骤,直至所有帧的混合信号都分离完毕,然后进行子步骤(b);
(b)、由子步骤(a)的每帧混合数据的两路分离结果得到两路源信号的估计,因为相邻两帧之间包含一定的重叠,所以要对重叠的部分按公式(14)进行取均值处理,
式中,代表输出中第j帧包含t点的帧,T代表包含时域点t的帧的个数,代表最终得到的估计值,当每个点的重叠都处理完后,将相邻帧依次首尾相接,从而获得了源信号的估计至此,分离完成。
本发明有益效果是:一种基于卷积神经网络的单通道混合语音时域分离方法,包括以下步骤:(1)建立用于训练的语音数据组,(2)对语音数据进行预处理,(3)获得混合的语音数据,(4)构造神经网络结构,(5)利用整理好的数据,对神经网络进行监督式训练,(6)利用训练好的神经网络进行分离测试。与已有技术相比,本发明是以时域语音信号作为卷积神经网络的输入和输出,将单通道的混合语音分离开来,从而得到两路源信号估计。该方法不需要处理相位恢复的问题,提高了单通道语音的分离质量。
附图说明
图1是本发明方法步骤流程图。
图2是本发明中的卷积神经网络结构示意图。
图3是本发明基于卷积神经网络的单通道混合语音时域分离系统框图。
图4是本发明对单通道混合语音分离结果指标示意图(FA vs MC,FA vs FB,MC vsMD分别表示男女声,女女声,男男声混合的情况)。
图5是本发明对单通道混合语音分离结果的时域波形示意图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,基于卷积神经网络的单通道混合语音时域分离方法,包括以下步骤:
步骤1、建立用于训练的语音数据组,从一个标准数据库,例如,TSP语音数据库中随机选取大量语音数据,并分为两组,其中80%语音数据作为训练数据,余下20%作为测试数据;
步骤2、对语音数据进行预处理,首先将原始的语音数据利用公式(1)归一化到[-1,1]的范围内,
其中,si表示第i路源信号,max(·)表示取最大值,abs(si)表示对si中的每一个元素取绝对值,yi表示归一化后的第i路源信号,然后利用公式(2)将时域语音信号进行分帧处理,帧长为N=1024,帧间的重叠为H,这里H=N/2,
zi={y(1+(N-H)*(i-1)),...,y((N-H)*(i-1)+N)} (2)
其中,zi表示第i帧数据,y表示归一化后的数据;
步骤3,获得混合的语音数据,这里利用公式(3)所描述的循环移位混合的方法来扩大混合语音数据的数量,
其中,x表示循环移位后的输出,表示将W个向量串连起来,W等于L/τ,L表示原始语音信号s的长度,τ表示循环移位的点数长度,Ψ表示循环移位算子,利用公式(4)进行描述,
式中,y表示输入,β表示循环移位的点数,L为y的长度。
步骤4、构造神经网络结构,构建一个适用于分离的卷积神经网络ConvolutionalNeural Network,CNN,这里所使用的卷积层Convolutional Layer是一维卷积层,其卷积核是一维的,该卷积神经网络包括数据载入层、卷积层1、2、3,最大池化层1、2、3,全连接层1、2及线性整流单元Rectified Linear Unit,ReLU层1、2、3。每一层的具体参数以及连接顺序依次为:数据载入层用于读取批量帧语音混合数据和对应的源数据,并提供给后面的层输入;卷积层1,卷积核的长度为75,卷积核的个数为96个;线性整流单元层1,最大池化Maxpooling层1,池化的核长度为2,池化步长为2;卷积层2,卷积核的长度为55,卷积核的个数为128个;线性整流单元层2;最大池化层2,池化的核长度为2,池化步长为2;卷积层3,卷积核的长度为27,卷积核的个数为128个;线性整流单元层3;最大池化层3,池化的核长度为2,池化步长为2;全连接层1,节点数为2048,激活函数为反正切函数tanh;全连接层2,节点数为2048,没有激活函数即为线性输出,该层为输出层;误差层,利用欧式距离计算网络输出信号output与目标target之间的误差;卷积神经网络结构示意图,如图2所示。
步骤5、利用整理好的数据,即单路混合语音和源语音的对应数据对,对神经网络进行监督式训练,采用批量随机梯度下降法Stochastic Gradient Descent,SGD对神经网络进行优化训练。首先对卷积层的神经网络参数采用均值为0,方差为0.1的高斯分布进行随机初始化,设置迭代的最大次数为MaxIter=40000、优化的学习率为α=0.01、学习动量为μ=0.95,然后依次迭代执行前向传播子步骤(a)和后向传播子步骤(b);
(a)、数据载入层读取批量数据,这里每一批为256帧的混合语音数据和对应的源语音数据对,分别记为mix和target,其中mix通过整个神经网络后得到输出记为output,神经网络中的卷积层的输出利用公式(5)进行计算,
式中,x表示神经元的输出,m表示滤波器核,z表示卷积层的输入,b表示神经元偏置,M表示滤波器核的长度,a(·)表示激活函数,即线性整流单元,其计算通过公式(6)进行描述,
式中,r表示线性整流单元的输入。
最后经过全连接层之后得到神经网络的输出output,是一个长度为2048的向量,其中前1024点代表源信号1的估计后1024点代表源信号2的估计通过计算output和target之间的欧式距离作为神经网络该次计算的误差,与前一次迭代计算的误差进行比较,当相邻两次的误差的差值小于一个较小的阈值(如0.1)时,可判断为收敛,若收敛或者已达到预先设置的最大迭代次数,则停止迭代,网络已经训练好,可用于测试,若未收敛,则执行后向传播子步骤(b);
(b)、经过子步骤(a)的前向传播后,得到了神经网络的输出output,可以计算output与target之间的误差,并通过公式(7)进行描述,
式中,W代表神经网络的权值参数矩阵,b代表神经网络的偏置参数矩阵,J(W,b)表示网络输出output与target之间的误差,是神经网络对两路源信号的估计,即output,s=[s1,s2]是两路源信号的真实值,即target。得到神经网络该次迭代的误差后,利用链式法则逐层计算误差相对于神经网络参数W,b的梯度
计算梯度的更新值,
式中,分别表示第i次迭代和第i-1次迭代时权值参数矩阵W的更新值,分别表示第i次和第i-1次迭代时偏置矩阵b的更新值,μ代表优化的学习动量,α代表优化的学习率,然后对神经网络的参数W和b利用公式(12)和(13)进行更新,
其中Wi和Wi-1分别表示第i次和第i-1次迭代时权值参数矩阵,bi分别代表第i次和第i-1次迭代时偏置矩阵。神经网络参数更新后,在新的参数下执行前向传播子步骤(a);
步骤6、在经过步骤5对神经网络训练完成后,将神经网络的参数保存起来,即可利用训练好的神经网络对单通道混合语音信号进行分离测试。将待分离的单通道混合语音送入神经网络中,在神经网络的输出端即可得到对源信号的估计,具体包括以下子步骤:
(a)、将待分离的单通道混合信号分帧,帧长与训练时的帧长相同,即为1024点,同时每一帧的帧移为128点,即相邻两帧之间的帧间重叠为896(7/8);然后,在每一帧上加汉明窗(Hamming window);再将预处理后的待分离混合信号的一帧送到神经网络的输入端,神经网络的输出端得到该帧单路混合数据的分离结果,重复本步骤,直至所有帧的混合信号都分离完毕,然后进行子步骤(b);
(b)、由子步骤(a)的每帧混合数据的两路分离结果得到两路源信号的估计,因为相邻两帧之间包含一定的重叠,所以要对重叠的部分按公式(14)进行取均值处理,
式中,代表输出中第j帧包含t点的帧,T代表包含时域点t的帧的个数,代表最终得到的估计值,当每个点的重叠都处理完后,将相邻帧依次首尾相接,从而获得了源信号的估计至此,分离完成。

Claims (1)

1.基于卷积神经网络的单通道混合语音时域分离方法,其特征在于包括以下步骤:
步骤1、建立用于训练的语音数据组,从一个标准数据库,例如,TSP语音数据库中随机选取大量语音数据,并分为两组,其中80%语音数据作为训练数据,余下20%作为测试数据;
步骤2、对语音数据进行预处理,首先利用公式(1)将原始的语音数据归一化到[-1,1]的范围内,
y i = s i m a x ( a b s ( s i ) ) , i = 1 , 2 - - - ( 1 )
其中,si表示第i路源信号,abs(si)表示对si中的每一个元素取绝对值,max(·)表示取最大值,yi表示归一化后的第i路源信号,然后利用公式(2)将时域语音信号进行分帧处理,帧长为N=1024,帧间的重叠为H,这里H=N/2,
zi={y(1+(N-H)*(i-1)),...,y((N-H)*(i-1)+N)} (2)
其中,zi表示第i帧数据,y表示归一化后的数据;
步骤3,获得混合的语音数据,这里通过循环移位混合的方法扩大混合语音数据的数量,
x = Φ k = 0 W - 1 ( Ψ ( y 1 , k · τ ) + y 2 ) - - - ( 3 )
其中,x表示循环移位后的输出,表示将W个向量串连起来,W等于L/τ,L表示原始语音信号s的长度,τ表示循环移位的点数长度,Ψ表示循环移位算子,通过公式(4)进行描述,
&Psi; ( y , &beta; ) i = y ( i + &beta; ) 1 &le; i &le; L - &beta; y ( L - &beta; + i ) L - &beta; < i &le; L - - - ( 4 )
式中,y表示输入,β表示循环移位的点数,L为y的长度;
步骤4、构造神经网络结构,构建一个适用于分离的卷积神经网络ConvolutionalNeural Network,CNN,这里所使用的卷积层Convolutional Layer是一维卷积层,其卷积核是一维的,该卷积神经网络包括数据载入层、卷积层1、2、3,最大池化层1、2、3,全连接层1、2及线性整流单元Rectified Linear Unit,ReLU层1、2、3。每一层的具体参数以及连接顺序依次为:数据载入层用于读取批量帧语音混合数据和对应的源数据,并提供给后面的层输入;卷积层1,卷积核的长度为75,卷积核的个数为96个;线性整流单元层1;最大池化Maxpooling层1,池化的核长度为2,池化步长为2;卷积层2,卷积核的长度为55,卷积核的个数为128个;线性整流单元层2;最大池化层2,池化的核长度为2,池化步长为2;卷积层3,卷积核的长度为27,卷积核的个数为128个;线性整流单元层3;最大池化层3,池化的核长度为2,池化步长为2;全连接层1,节点数为2048,激活函数为反正切函数tanh;全连接层2,节点数为2048,没有激活函数即为线性的输出,该层为输出层;误差层,利用欧式距离计算网络输出信号output与目标target之间的误差;
步骤5、利用整理好的数据,即单路混合语音和源语音的对应数据,对神经网络进行监督式训练,采用批量随机梯度下降法Stochastic Gradient Descent,SGD对神经网络进行优化训练,首先对卷积层的神经网络参数采用均值为0,方差为0.1的高斯分布进行随机初始化,设置迭代的最大次数为MaxIter=40000、优化的学习率为α=0.01、学习动量为μ=0.95,然后依次迭代执行前向传播子步骤(a)和后向传播子步骤(b);
(a)、数据载入层读取批量数据,这里每一批为256帧的混合语音数据和对应的源语音数据对,分别记为mix和target,其中mix通过整个神经网络后得到输出记为output,神经网络中的卷积层的输出利用公式(5)进行计算,
x = a ( &Sigma; i = 0 M - 1 z ( i ) * m ( i ) + b ) - - - ( 5 )
式中,x表示神经元的输出,m表示滤波器核,z表示卷积层的输入,b表示神经元偏置,M表示滤波器核的长度,a(·)表示激活函数,即线性整流单元,其计算通过公式(6)进行描述,
a ( r ) = 0 r < 0 r r &GreaterEqual; 0 - - - ( 6 )
式中,r表示线性整流单元的输入,
最后经过全连接层之后得到神经网络的输出output,是一个长度为2048的向量,其中前1024点代表源信号1的估计后1024点代表源信号2的估计通过计算output和target之间的欧式距离作为神经网络该次计算的误差,与前一次迭代计算的误差进行比较,当相邻两次的误差的差值小于一个较小的阈值(如0.1)时可判断为收敛,若收敛或者已达到预先设置的最大迭代次数,则停止迭代,网络已经训练好,可用于测试,若未收敛,则执行后向传播子步骤(b);
(b)、经过子步骤(a)的前向传播后,得到了神经网络的输出output,可以计算output与target之间的误差,并通过公式(7)进行描述,
J ( W , b ) = 1 2 ( s ^ - s ) 2 - - - ( 7 )
式中,W代表神经网络的权值参数矩阵,b代表神经网络的偏置参数矩阵,J(W,b)表示网络输出output与target之间的误差,是神经网络对两路源信号的估计,即output,s=[s1,s2]是两路源信号的真实值,即target,得到神经网络该次迭代的误差后,利用链式法则逐层计算误差相对于神经网络参数W,b的梯度
&dtri; W = &part; J ( W , b ) &part; W - - - ( 8 )
&dtri; b = &part; J ( W , b ) &part; b - - - ( 9 )
计算梯度的更新值,
D W i = &mu; &CenterDot; D W i - 1 + &alpha; &CenterDot; &dtri; W - - - ( 10 )
D b i = &mu; &CenterDot; D b i - 1 + &alpha; &CenterDot; &dtri; b - - - ( 11 )
式中,分别表示第i次和第i-1次迭代时权值参数矩阵W的更新值,分别代表第i次和第i-1次迭代时偏置矩阵b的更新值,μ代表优化的学习动量,α代表优化的学习率,然后对神经网络的参数W和b利用公式(12)和(13)进行更新,
W i = W i - 1 - D W i - - - ( 12 )
b i = b i - 1 - D b i - - - ( 13 )
其中Wi和Wi-1分别表示第i次和第i-1次迭代时权值参数矩阵,bi和bi-1分别代表第i次和第i-1次迭代时偏置矩阵。神经网络参数更新后,在新的参数下执行前向传播子步骤(a);
步骤6、在经过步骤5对神经网络训练完成后,将神经网络的参数保存起来,即可利用训练好的神经网络对单通道混合语音信号进行分离测试,将待分离的单通道混合语音输入到神经网络中,在神经网络的输出端即可得到对源信号的估计,具体包括以下子步骤:
(a)、将待分离的单通道混合信号分帧,帧长与训练时的帧长相同,即为1024点,同时每一帧的帧移为128点,即相邻两帧之间的帧间重叠为896(7/8);然后,在每一帧上加汉明窗Hamming window;再将预处理后的待分离混合信号的一帧送到神经网络的输入端,神经网络的输出端得到该帧单路混合数据的分离结果,重复本步骤,直至所有帧的混合信号都分离完毕,然后进行子步骤(b);
(b)、由子步骤(a)得到的待分离的混合信号每一帧对应的两路源信号进行估计,因为相邻两帧之间包含一定的重叠,所以要对重叠的部分按公式(14)进行取均值处理,
s ^ i ( t ) = 1 T &Sigma; j = 0 T s ^ i ( t , j ) - - - ( 14 )
式中,代表输出中第j帧包含t点的帧,T代表包含时域点t的帧的个数,代表最终得到的估计值,当每个点的重叠都处理完后,将相邻帧依次首尾相接,从而获得了源信号的估计至此,分离完成。
CN201710084957.2A 2017-02-17 2017-02-17 基于卷积神经网络的单通道混合语音时域分离方法 Expired - Fee Related CN106847302B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710084957.2A CN106847302B (zh) 2017-02-17 2017-02-17 基于卷积神经网络的单通道混合语音时域分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710084957.2A CN106847302B (zh) 2017-02-17 2017-02-17 基于卷积神经网络的单通道混合语音时域分离方法

Publications (2)

Publication Number Publication Date
CN106847302A true CN106847302A (zh) 2017-06-13
CN106847302B CN106847302B (zh) 2020-04-14

Family

ID=59127645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710084957.2A Expired - Fee Related CN106847302B (zh) 2017-02-17 2017-02-17 基于卷积神经网络的单通道混合语音时域分离方法

Country Status (1)

Country Link
CN (1) CN106847302B (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680611A (zh) * 2017-09-13 2018-02-09 电子科技大学 基于卷积神经网络的单通道声音分离方法
CN107993071A (zh) * 2017-11-21 2018-05-04 平安科技(深圳)有限公司 电子装置、基于声纹的身份验证方法及存储介质
CN108520753A (zh) * 2018-02-26 2018-09-11 南京工程学院 基于卷积双向长短时记忆网络的语音测谎方法
CN108630226A (zh) * 2018-05-08 2018-10-09 上海极歌企业管理咨询中心(有限合伙) 无人停车库运维安全的人工智能检测方法及装置
CN108647635A (zh) * 2018-05-09 2018-10-12 黑龙江大学 基于均分循环补足接收模型的单通道图像盲提取方法
CN108847244A (zh) * 2018-08-22 2018-11-20 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于mfcc和改进bp神经网络的声纹识别方法及系统
CN109036459A (zh) * 2018-08-22 2018-12-18 百度在线网络技术(北京)有限公司 语音端点检测方法、装置、计算机设备、计算机存储介质
CN109036454A (zh) * 2018-06-06 2018-12-18 安徽继远软件有限公司 基于dnn的说话人无关单通道录音分离的方法和系统
CN109086686A (zh) * 2018-07-12 2018-12-25 西安电子科技大学 基于自适应动量因子的时变信道下的盲源分离方法
CN109326299A (zh) * 2018-11-14 2019-02-12 平安科技(深圳)有限公司 基于全卷积神经网络的语音增强方法、装置及存储介质
CN109960755A (zh) * 2019-02-20 2019-07-02 浙江工业大学 一种基于动态迭代快速梯度的用户隐私保护方法
CN110010144A (zh) * 2019-04-24 2019-07-12 厦门亿联网络技术股份有限公司 语音信号增强方法及装置
CN110070887A (zh) * 2018-01-23 2019-07-30 中国科学院声学研究所 一种语音特征重建方法及装置
CN110598677A (zh) * 2019-10-08 2019-12-20 电子科技大学 一种用于自动调制识别的时空多通道深度学习系统
CN110763685A (zh) * 2019-10-22 2020-02-07 陕西源杰半导体技术有限公司 Dfb半导体激光器芯片表面缺陷的人工智能检测方法及其装置
WO2020042707A1 (zh) * 2018-08-31 2020-03-05 大象声科(深圳)科技有限公司 一种基于卷积递归神经网络的单通道实时降噪方法
CN111128230A (zh) * 2019-12-31 2020-05-08 广州市百果园信息技术有限公司 语音信号重建方法、装置、设备和存储介质
CN111326168A (zh) * 2020-03-25 2020-06-23 合肥讯飞数码科技有限公司 语音分离方法、装置、电子设备和存储介质
CN111583948A (zh) * 2020-05-09 2020-08-25 南京工程学院 一种改进的多通道语音增强系统和方法
CN111863014A (zh) * 2019-04-26 2020-10-30 北京嘀嘀无限科技发展有限公司 一种音频处理方法、装置、电子设备和可读存储介质
CN111899757A (zh) * 2020-09-29 2020-11-06 南京蕴智科技有限公司 针对目标说话人提取的单通道语音分离方法及系统
CN112259120A (zh) * 2020-10-19 2021-01-22 成都明杰科技有限公司 基于卷积循环神经网络的单通道人声与背景声分离方法
CN112509593A (zh) * 2020-11-17 2021-03-16 北京清微智能科技有限公司 一种语音增强网络模型、单通道的语音增强方法及系统
CN113116363A (zh) * 2021-04-15 2021-07-16 西北工业大学 一种基于表面肌电信号判断手部疲劳度方法
CN113259283A (zh) * 2021-05-13 2021-08-13 侯小琪 一种基于循环神经网络的单通道时频混叠信号盲分离方法
CN113271272A (zh) * 2021-05-13 2021-08-17 侯小琪 一种基于残差神经网络的单通道时频混叠信号盲分离方法
WO2022213825A1 (zh) * 2021-04-06 2022-10-13 京东科技控股股份有限公司 基于神经网络的端到端语音增强方法、装置
CN117649860A (zh) * 2024-01-30 2024-03-05 中密控股股份有限公司 一种往复压缩机关键部位摩擦磨损状态识别方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101366078A (zh) * 2005-10-06 2009-02-11 Dts公司 从单音音频信号分离音频信源的神经网络分类器
CN103456312A (zh) * 2013-08-29 2013-12-18 太原理工大学 一种基于计算听觉场景分析的单通道语音盲分离方法
CN104464727A (zh) * 2014-12-11 2015-03-25 福州大学 一种基于深度信念网络的单通道音乐的歌声分离方法
CN105070301A (zh) * 2015-07-14 2015-11-18 福州大学 单通道音乐人声分离中的多种特定乐器强化分离方法
CN105489227A (zh) * 2014-10-06 2016-04-13 奥迪康有限公司 包括低延时声源分离单元的听力装置
US20160284346A1 (en) * 2015-03-27 2016-09-29 Qualcomm Incorporated Deep neural net based filter prediction for audio event classification and extraction

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101366078A (zh) * 2005-10-06 2009-02-11 Dts公司 从单音音频信号分离音频信源的神经网络分类器
CN103456312A (zh) * 2013-08-29 2013-12-18 太原理工大学 一种基于计算听觉场景分析的单通道语音盲分离方法
CN105489227A (zh) * 2014-10-06 2016-04-13 奥迪康有限公司 包括低延时声源分离单元的听力装置
CN104464727A (zh) * 2014-12-11 2015-03-25 福州大学 一种基于深度信念网络的单通道音乐的歌声分离方法
US20160284346A1 (en) * 2015-03-27 2016-09-29 Qualcomm Incorporated Deep neural net based filter prediction for audio event classification and extraction
CN105070301A (zh) * 2015-07-14 2015-11-18 福州大学 单通道音乐人声分离中的多种特定乐器强化分离方法

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680611A (zh) * 2017-09-13 2018-02-09 电子科技大学 基于卷积神经网络的单通道声音分离方法
CN107680611B (zh) * 2017-09-13 2020-06-16 电子科技大学 基于卷积神经网络的单通道声音分离方法
CN107993071A (zh) * 2017-11-21 2018-05-04 平安科技(深圳)有限公司 电子装置、基于声纹的身份验证方法及存储介质
CN110070887A (zh) * 2018-01-23 2019-07-30 中国科学院声学研究所 一种语音特征重建方法及装置
CN110070887B (zh) * 2018-01-23 2021-04-09 中国科学院声学研究所 一种语音特征重建方法及装置
CN108520753B (zh) * 2018-02-26 2020-07-24 南京工程学院 基于卷积双向长短时记忆网络的语音测谎方法
CN108520753A (zh) * 2018-02-26 2018-09-11 南京工程学院 基于卷积双向长短时记忆网络的语音测谎方法
CN108630226A (zh) * 2018-05-08 2018-10-09 上海极歌企业管理咨询中心(有限合伙) 无人停车库运维安全的人工智能检测方法及装置
CN108647635A (zh) * 2018-05-09 2018-10-12 黑龙江大学 基于均分循环补足接收模型的单通道图像盲提取方法
CN109036454A (zh) * 2018-06-06 2018-12-18 安徽继远软件有限公司 基于dnn的说话人无关单通道录音分离的方法和系统
CN109086686A (zh) * 2018-07-12 2018-12-25 西安电子科技大学 基于自适应动量因子的时变信道下的盲源分离方法
CN109086686B (zh) * 2018-07-12 2022-09-30 西安电子科技大学 基于自适应动量因子的时变信道下的盲源分离方法
CN108847244A (zh) * 2018-08-22 2018-11-20 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于mfcc和改进bp神经网络的声纹识别方法及系统
CN109036459A (zh) * 2018-08-22 2018-12-18 百度在线网络技术(北京)有限公司 语音端点检测方法、装置、计算机设备、计算机存储介质
WO2020042707A1 (zh) * 2018-08-31 2020-03-05 大象声科(深圳)科技有限公司 一种基于卷积递归神经网络的单通道实时降噪方法
CN109326299B (zh) * 2018-11-14 2023-04-25 平安科技(深圳)有限公司 基于全卷积神经网络的语音增强方法、装置及存储介质
WO2020098256A1 (zh) * 2018-11-14 2020-05-22 平安科技(深圳)有限公司 基于全卷积神经网络的语音增强方法、装置及存储介质
CN109326299A (zh) * 2018-11-14 2019-02-12 平安科技(深圳)有限公司 基于全卷积神经网络的语音增强方法、装置及存储介质
CN109960755A (zh) * 2019-02-20 2019-07-02 浙江工业大学 一种基于动态迭代快速梯度的用户隐私保护方法
CN109960755B (zh) * 2019-02-20 2021-03-05 浙江工业大学 一种基于动态迭代快速梯度的用户隐私保护方法
CN110010144A (zh) * 2019-04-24 2019-07-12 厦门亿联网络技术股份有限公司 语音信号增强方法及装置
CN111863014A (zh) * 2019-04-26 2020-10-30 北京嘀嘀无限科技发展有限公司 一种音频处理方法、装置、电子设备和可读存储介质
CN110598677A (zh) * 2019-10-08 2019-12-20 电子科技大学 一种用于自动调制识别的时空多通道深度学习系统
CN110598677B (zh) * 2019-10-08 2021-01-26 电子科技大学 一种用于自动调制识别的时空多通道深度学习系统
CN110763685B (zh) * 2019-10-22 2020-12-08 陕西源杰半导体技术有限公司 Dfb半导体激光器芯片表面缺陷的人工智能检测方法及其装置
CN110763685A (zh) * 2019-10-22 2020-02-07 陕西源杰半导体技术有限公司 Dfb半导体激光器芯片表面缺陷的人工智能检测方法及其装置
CN111128230A (zh) * 2019-12-31 2020-05-08 广州市百果园信息技术有限公司 语音信号重建方法、装置、设备和存储介质
CN111128230B (zh) * 2019-12-31 2022-03-04 广州市百果园信息技术有限公司 语音信号重建方法、装置、设备和存储介质
CN111326168A (zh) * 2020-03-25 2020-06-23 合肥讯飞数码科技有限公司 语音分离方法、装置、电子设备和存储介质
CN111326168B (zh) * 2020-03-25 2023-08-22 合肥讯飞数码科技有限公司 语音分离方法、装置、电子设备和存储介质
CN111583948B (zh) * 2020-05-09 2022-09-27 南京工程学院 一种改进的多通道语音增强系统和方法
CN111583948A (zh) * 2020-05-09 2020-08-25 南京工程学院 一种改进的多通道语音增强系统和方法
CN111899757A (zh) * 2020-09-29 2020-11-06 南京蕴智科技有限公司 针对目标说话人提取的单通道语音分离方法及系统
CN111899757B (zh) * 2020-09-29 2021-01-12 南京蕴智科技有限公司 针对目标说话人提取的单通道语音分离方法及系统
CN112259120A (zh) * 2020-10-19 2021-01-22 成都明杰科技有限公司 基于卷积循环神经网络的单通道人声与背景声分离方法
CN112259120B (zh) * 2020-10-19 2021-06-29 南京硅基智能科技有限公司 基于卷积循环神经网络的单通道人声与背景声分离方法
CN112509593A (zh) * 2020-11-17 2021-03-16 北京清微智能科技有限公司 一种语音增强网络模型、单通道的语音增强方法及系统
CN112509593B (zh) * 2020-11-17 2024-03-08 北京清微智能科技有限公司 一种语音增强网络模型、单通道的语音增强方法及系统
WO2022213825A1 (zh) * 2021-04-06 2022-10-13 京东科技控股股份有限公司 基于神经网络的端到端语音增强方法、装置
CN113116363A (zh) * 2021-04-15 2021-07-16 西北工业大学 一种基于表面肌电信号判断手部疲劳度方法
CN113271272A (zh) * 2021-05-13 2021-08-17 侯小琪 一种基于残差神经网络的单通道时频混叠信号盲分离方法
CN113259283A (zh) * 2021-05-13 2021-08-13 侯小琪 一种基于循环神经网络的单通道时频混叠信号盲分离方法
CN117649860A (zh) * 2024-01-30 2024-03-05 中密控股股份有限公司 一种往复压缩机关键部位摩擦磨损状态识别方法及装置

Also Published As

Publication number Publication date
CN106847302B (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
CN106847302A (zh) 基于卷积神经网络的单通道混合语音时域分离方法
CN110390952B (zh) 基于双特征2-DenseNet并联的城市声音事件分类方法
CN108960419A (zh) 用于使用知识桥的学生-教师迁移学习网络的装置和方法
CN107943967A (zh) 基于多角度卷积神经网络与循环神经网络的文本分类算法
CN106898350A (zh) 一种基于深度学习的智能工业机器人语音交互与控制方法
CN107679462A (zh) 一种基于小波的深度多特征融合分类方法
CN106022380A (zh) 基于深度学习的个体身份识别方法
CN102819744B (zh) 一种双通道信息融合的情感识别方法
CN106127684A (zh) 基于双向递归卷积神经网络的图像超分辨率增强方法
CN110728989B (zh) 一种基于长短时记忆网络lstm的双耳语音分离方法
CN106328122A (zh) 一种利用长短期记忆模型递归神经网络的语音识别方法
CN107169409A (zh) 一种情感识别方法及装置
CN102930297B (zh) 基于增强耦合hmm的语音-视觉融合的情感识别方法
CN106570464A (zh) 一种快速处理人脸遮挡的人脸识别方法及装置
CN107798385A (zh) 基于块张量分解的循环神经网络稀疏连接方法
CN111291647B (zh) 基于多尺度卷积核和超事件模块的单阶段动作定位方法
CN106776545A (zh) 一种通过深度卷积神经网络进行短文本间相似度计算的方法
CN107818174A (zh) 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法
CN106053988A (zh) 基于智能分析的逆变器故障诊断系统及方法
CN106503616A (zh) 一种基于分层超限学习机的运动想象脑电信号分类方法
CN110321810A (zh) 单通道信号双路分离方法、装置、存储介质及处理器
CN104182771A (zh) 基于带丢包自动编码技术的时间序列数据图形化分析方法
Li et al. Sams-net: A sliced attention-based neural network for music source separation
CN105550712A (zh) 基于优化卷积自动编码网络的极光图像分类方法
CN111524530A (zh) 一种基于膨胀因果卷积的语音降噪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200414

Termination date: 20210217