CN110914899A - 掩模计算装置、簇权重学习装置、掩模计算神经网络学习装置、掩模计算方法、簇权重学习方法和掩模计算神经网络学习方法 - Google Patents
掩模计算装置、簇权重学习装置、掩模计算神经网络学习装置、掩模计算方法、簇权重学习方法和掩模计算神经网络学习方法 Download PDFInfo
- Publication number
- CN110914899A CN110914899A CN201880047142.XA CN201880047142A CN110914899A CN 110914899 A CN110914899 A CN 110914899A CN 201880047142 A CN201880047142 A CN 201880047142A CN 110914899 A CN110914899 A CN 110914899A
- Authority
- CN
- China
- Prior art keywords
- mask
- neural network
- speech
- cluster weight
- calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 400
- 238000013528 artificial neural network Methods 0.000 title claims description 110
- 238000000034 method Methods 0.000 title claims description 32
- 238000000605 extraction Methods 0.000 claims description 93
- 239000000284 extract Substances 0.000 claims description 32
- 230000003044 adaptive effect Effects 0.000 claims description 18
- 230000006978 adaptation Effects 0.000 claims description 13
- 239000013598 vector Substances 0.000 description 31
- 238000012545 processing Methods 0.000 description 30
- 230000006870 function Effects 0.000 description 21
- 239000011159 matrix material Substances 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 230000001419 dependent effect Effects 0.000 description 11
- 230000009466 transformation Effects 0.000 description 7
- 230000004913 activation Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004387 environmental modeling Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
簇权重计算部(322)根据特定讲话者的语音的信号,使用簇权重计算NN来计算至少任意一个层被分解为多个簇的掩模计算NN的与多个簇各自对应的权重。掩模计算部(302)根据1个以上的讲话者的语音的观测信号的特征量,使用通过由簇权重计算部(322)计算出的权重进行加权后的掩模计算NN来计算从1个以上的讲话者的语音的观测信号的特征量中提取特定讲话者的语音的特征量的掩模。
Description
技术领域
本发明涉及掩模计算装置、簇权重学习装置、掩模计算神经网络学习装置、掩模计算方法、簇权重学习方法和掩模计算神经网络学习方法。
背景技术
有时在录制讲话者的语音时,会与讲话者的语音同时录制周围的噪声。在这样的情况下,难以从所录制的语音中仅听取讲话者的语音。与此相对,以往,已知有从包含噪声的语音的语音数据中取出目标的讲话者的语音的技术(例如,参照非专利文献1或非专利文献2)。
例如,在非专利文献1中记载了如下技术:计算用于从观测信号中提取增强地表示目标讲话者的语音的信号的时间频率点中的信号的掩模。此外,例如,非专利文献2中记载了使用神经网络进行掩模的计算的技术。
现有技术文献
非专利文献
非专利文献1:Y Wang,A Narayanan,DL Wang,“On training targets forsupervised speech separation”,IEEE/ACM Transactions on Audio,Speech andLanguage processing,2014
非专利文献2:J Heymann,L Drude,R Haeb-Umbach,“Neural network basedspectral mask estimation for acoustic beamforming”,Acoustics,Speech andSignal Processing(ICASSP),2016
发明内容
发明所要解决的课题
但是,在现有的技术中存在如下问题:在所观测的语音中包含多个讲话者的语音的情况下,难以取出目标的讲话者的语音。例如,在现有的技术中,假设将除了目标的讲话者的语音以外的语音视作噪声,在讲话者的语音和噪声中,特征不同。另一方面,在所观测的语音中包含多个讲话者的语音的情况下,各讲话者的语音的特征相似,因此,在现有的技术中,由于无法识别除了目标的讲话者以外的讲话者的语音,所以难以仅取出目标的讲话者的语音。
用于解决问题的手段
本发明的掩模计算装置的特征在于,具有:特征量提取部,其从语音的观测信号中提取特征量,该语音包含至少1个以上的讲话者的语音,该1个以上的讲话者包含目标讲话者;掩模计算部,其根据所述观测信号的特征量和适应用目标讲话者信号,计算从所述观测信号中提取目标讲话者的语音的掩模,该适应用目标讲话者信号是所述目标讲话者的语音的信号;以及目标信号计算部,其基于所述掩模,根据所述观测信号计算所述目标讲话者的语音的信号。
本发明的簇权重学习装置的特征在于,具有:簇权重计算部,其根据特定讲话者的语音的信号,使用第2神经网络来计算至少任意一个层被分解为多个簇的第1神经网络的与所述多个簇各自对应的权重;掩模计算部,其根据所述1个以上的讲话者的语音的观测信号的特征量,使用通过所述簇权重计算部所计算出的权重进行加权后的所述第1神经网络来计算掩模,该掩模从包含所述特定讲话者的1个以上的讲话者的语音的观测信号的特征量中提取所述特定讲话者的语音的特征量;簇权重微分值计算部,其通过将所述第1神经网络和所述第2神经网络视作结合的神经网络,对该结合的神经网络进行误差反向传播,计算所述权重的微分值;以及簇权重更新部,其根据由所述簇权重微分值计算部计算出的所述簇权重的微分值,对所述簇权重进行更新。
本发明的掩模计算神经网络学习装置的特征在于,具有:簇权重计算部,其根据特定讲话者的语音的信号,使用第2神经网络来计算至少任意一个层被分解为多个簇的第1神经网络的与所述多个簇各自对应的权重;掩模计算部,其根据包含所述特定讲话者的1个以上的讲话者的语音的观测信号的特征量,使用通过所述簇权重计算部所计算出的权重进行加权后的所述第1神经网络来计算掩模,该掩模从所述1个以上的讲话者的语音的观测信号的特征量中提取所述特定讲话者的语音的特征量;第1参数微分值计算部,其通过将所述第1神经网络和所述第2神经网络视作结合的神经网络,对该结合的神经网络进行误差反向传播,计算所述第1神经网络的参数的微分值;第1参数更新部,其根据由所述第1参数微分值计算部计算出的参数的微分值,对所述第1神经网络的参数进行更新;第2参数微分值计算部,其通过对所述结合的神经网络进行误差反向传播,计算所述第2神经网络的参数的微分值;以及第2参数更新部,其根据由所述第2参数微分值计算部计算出的所述第2参数的微分值,对所述第2神经网络的参数进行更新。
发明效果
根据本发明,即使在所观测的语音中包含多个讲话者的语音的情况下,也能够取出目标的讲话者的语音。
附图说明
图1是示出现有的目标讲话者提取装置的结构的一例的图。
图2是示出现有的目标讲话者提取装置的处理的流程的流程图。
图3是示出第1实施方式的掩模计算装置的结构的一例的图。
图4是示出第1实施方式的掩模计算装置的处理的流程的流程图。
图5是示出第1实施方式的掩模计算神经网络学习装置的结构的一例的图。
图6是示出第1实施方式的掩模计算神经网络学习装置的处理的流程的流程图。
图7是示出第2实施方式的掩模计算装置的结构的一例的图。
图8是示出第2实施方式的掩模计算装置的处理的流程的流程图。
图9是示出第3实施方式的簇权重学习装置的结构的一例的图。
图10是示出第3实施方式的簇权重学习装置的处理的流程的流程图。
图11是示出执行程序的计算机的一例的图。
具体实施方式
以下,根据附图,详细地说明本申请的掩模计算装置、簇权重学习装置、掩模计算神经网络学习装置、掩模计算方法、簇权重学习方法和掩模计算神经网络学习方法的实施方式。另外,本发明不受以下说明的实施方式限定。
另外,以下,例如在A为向量的情况下,记述为“向量A”,例如在A为矩阵的情况下,记述为“矩阵A”,例如在A为标量的情况下,简记作“A”。此外,例如在A为集合的情况下,记述为“集合A”。此外,例如,向量A的函数f记述为f(向量A)。此外,针对作为向量、矩阵或标量的A,在记作“^A”的情况下,等同于“在‘A’的正上方记述有‘^’的标号”。此外,针对作为向量、矩阵或标量的A,在记作“-A”的情况下,等同于“在‘A’的正上方记述有‘-’的标号”。此外,针对作为向量、矩阵或标量的A,在记作“~A”的情况下,等同于“在‘A’的正上方记述有‘~’的标号”。此外,针对作为向量或矩阵的A,AT表示A的倒置。
<现有的目标语音提取装置>
首先,使用图1,对现有的目标讲话者提取装置的结构进行说明。图1是示出现有的目标讲话者提取装置的结构的一例的图。如图1所示,目标讲话者提取装置10a具有特征量提取部101a、掩模计算部102a、目标信号计算部103a和存储部140a。
存储部140a存储用于计算掩模的计算模型的已学习的参数。例如,在根据神经网络(以下,NN)进行掩模的计算的情况下,存储部140a存储各NN的参数。NN的参数是与各隐藏层相关的权重矩阵、偏差向量、激活函数的参数等。例如,NN的各隐藏层的处理如以下的式(1)那样进行定义。
【式1】
其中,t为时间帧的索引。此外,l为隐藏层的索引。xt (l-1)和xt (l)分别是隐藏层的输入和输出。σ(l)(·)是激活函数。激活函数例如是sigmoid函数和Relu函数等。F(l)(·;θ(l))是变换函数。变换函数例如是线性变换和卷积等。θ(l)是变换函数的参数。例如,在现有的NN中,F(l)(·;θ(l))如式(2)所示。
【式2】
F(l)(x;θ(l))=W(l)x+b(l) (2)
其中,W(l)和b(l)分别是线性变换的矩阵和偏差向量。在式(2)的情况下,θ(l)={W(l),b(l)}。此外,设NN整体的参数为θ={θ(1),……,θ(L)}。该情况下,NN整体的隐藏层的总数为L-1。此外,NN的参数在卷积层、LSTM/BLSTM等循环层中也同样进行定义。
特征量提取部101a根据输入信号的波形,计算STFT(Short Time FourierTransform:短时傅立叶变换)。在STFT区域中,观测信号用式(3)表示。
【式3】
Yi(t,f)=Si(t,f)+Ni(t,f) (3)
其中,i=1,……,I为麦克风的索引。此外,t=1,……,T为时间的索引。此外,f=1,……,F为频率的索引。Yi(t,f)、Si(t,f)、Ni(t,f)分别为观测信号、目标语音、噪声的STFT信号。特征量向量为y(i,t)=[|Yi(t,1)|,……,|Yi(t,F)|]。另外,|·|为振幅。并且,时间序列的特征量向量即特征量向量序列Yi用式(4)表示。
【式4】
Yi={yi,1,…,yi,T|yi,t∈RF} (4)
即,Yi是用从第1帧到第T帧的F维特征量向量表现的数据。例如,分析帧宽度为30ms左右、分析帧移位宽度为10ms左右,执行分析。
掩模计算部102a计算时间频率掩模。时间频率掩模是表示相对于各时间频率点(t,f),是目标信号处于优势、还是噪声处于优势的掩模。目标信号计算部103a通过使用时间频率掩模,能够如式(5)那样提取目标语音。以下,有时将时间频率掩模简称作掩模。
【式5】
其中,Mi(t,f)为用于提取目标信号的掩模。
此外,掩模计算部102a能够如式(6-1)那样使用NN来计算掩模。
【式6】
Mi(t)=g(yi,t,θ) (6-1)
Mi(t)=[Mi(t,1),…,Mi(t,F)] (6-2)
其中,式(6-2)为掩模的值相对于各频率的向量。此外,g(·,θ)表示NN。此外,NN的输入是由特征量提取部101a提取出的特征量yi,t。另外,掩模计算NN参数Θ存储到存储部140a中。
未图示的学习装置进行在掩模计算部102a中使用的NN的参数Θ的学习的情况下,需要语音和噪声的数据。另外,学习装置也可以使用目标讲话者提取装置10a的各功能。学习装置根据语音和噪声的数据,生成NN的学习所需的标签。例如,学习装置根据语音和噪声的数据,计算正确的掩模。学习装置通过将正确的掩模作为标签使用,通过Cross Entropy基准使NN优化。学习装置通过误差反向传播(Error backpropagation)进行优化。学习装置能够如式(7-1)那样计算正确的掩模。
【式7】
其中,式(7-2)为正确的掩模。此外,式(7-3)为信噪比(SN比)。此外,ε为SN比的阈值。
目标信号计算部103a根据由掩模计算部102a计算出的掩模和由特征量提取部101a计算出的观测信号的STFT,计算目标语音。在麦克风为1个(I=1)的情况下,目标信号计算部103a如式(8)那样计算目标语音的信号。
【式8】
在麦克风为多个(I>1)的情况下,目标信号计算部103a根据各麦克风的信号估计掩模,如式(9)那样计算所合并的掩模(合并掩模)。
【式9】
M(t,f)=median([M1(t,f),…,MI(t,f)]) (9)
其中,M(t,f)为合并的掩模。此外,median(·)为用于计算中值的函数。目标信号计算部103a能够使用合并掩模,如式(10)那样计算目标语音的空间相关矩阵。
【式10】
其中,Φss(f)为目标语音的空间相关矩阵。此外,Y(t,f)=[Y1(t,f),……,YI(t,f)]为各麦克风的信号的集合向量。此外,·H为厄米特倒置(Hermitian transpose)。同样,目标信号计算部103a能够使用合并掩模,如式(11)那样计算噪声的空间相关矩阵。
【式11】
其中,ΦNN(f)为噪声信号的空间相关矩阵。此外,MN(t,f)为用于提取噪声信号的掩模。另外,可以将1-M(t,f)作为MN(t,f)使用,也可以将掩模计算部102a的NN构成为将观测信号的特征量向量序列作为输入,除了输出用于提取目标信号的掩模Mi(t,f)以外还输出用于提取噪声信号的掩模Mi N(t,f),还可以将对作为NN的输出而获得的Mi N(t,f)进行合并后的掩模作为MN(t,f)。
目标信号计算部103a能够根据各空间相关矩阵,计算波束形成器。例如,目标信号计算部103a能够根据空间相关矩阵,计算多被作为波束形成器使用的MVDR波束形成器、MaxSNR波束形成器等。
例如,目标信号计算部103a如式(12-1)那样计算MaxSNR波束形成器的滤波器。此外,计算出的滤波器如式(12-2)所示。另外,如式(12-3)所示,ΦYY(f)是观测信号的空间相关矩阵。
【式12】
W(f)=P(ΦNN(f)-1ΦYY(f)) (12-1)
W(f)=[W1(f),…,WI(f)] (12-2)
目标信号计算部103a使用波束形成器的滤波器,如式(13)那样计算目标语音的信号。
【式13】
另外,即使在麦克风为1个的情况和麦克风为多个的情况中的任意一个情况下,目标信号计算部103a也能够通过例如逆FFT和Overlapp Add方法计算STFT区域的信号,以计算目标语音的波形信号。
图2是示出现有的目标讲话者提取装置的处理的流程的流程图。如图2所示,首先,特征量提取部101a读入观测信号(步骤S101a)。这时,掩模计算部102a预先从存储部140a读入掩模计算NN参数(步骤S102a)。接着,特征量提取部101a从观测信号中提取特征量(步骤S103a)。
这里,掩模计算部102a根据特征量和掩模计算NN参数,计算掩模(步骤S104a)。而且,目标信号计算部103a使用掩模,根据观测信号计算目标语音的信号(步骤S105a)。然后,目标信号计算部103a输出计算出的目标语音的信号(步骤S106a)。
<在本发明的实施方式中使用的NN的构造>
这里,在本发明的实施方式中对用于掩模的计算的NN进行说明。在本实施方式中,如用式(14)表示的至少任意一个层被分解为多个簇的NN被用于计算掩模(参考文献:M.Delcroix,K.Kinoshita,C.Yu,A.Ogawa,T.Yoshioka,T.Nakatani,“Context adaptivedeep neural networks for fast acoustic model adaptation in noisy conditions”,in Proc.IEEE International Conference on Acoustics,Speech and SignalProcessing(ICASSP),2016.)。
【式14】
其中,k=1,……,K是簇的索引。此外,K是簇的数量。此外,Fk (l)(·;θk (l))是第k个讲话者簇的变换函数。αk是第k个簇的权重。此外,簇的权重是向量α=[α1,……,αK]。在这样的至少任意一个层被分解为多个簇的神经网络中包含讲话者依赖NN、使用讲话者依赖层的NN、使用讲话者适应型层的NN。
(讲话者依赖NN)
讲话者依赖NN是全部层被分解为多个簇的NN。在讲话者依赖NN中,K与学习数据的讲话者的数相同。此外,在讲话者依赖NN中,向量α是表示讲话者ID的1hot向量。另外,1hot向量是如1个元素的值为1并且其他元素的值为0的向量。此外,在讲话者依赖NN中,可以说按照每个讲话者准备了NN。此外,在讲话者依赖NN的学习时和使用该讲话者依赖NN的目标语音的提取时,使用相同的讲话者的语音。换言之,前提在于,在讲话者依赖NN中,根据针对包含要提取的目标语音的讲话者的至少1个以上的讲话者而准备用于学习的语音信号,学习了NN的参数。
(使用讲话者依赖层的NN)
使用讲话者依赖层的NN是至少1个层被分解为多个簇的NN。在使用讲话者依赖层的NN中,K与学习数据的讲话者的数相同。此外,在使用讲话者依赖层的NN中,向量α是表示讲话者ID的1hot向量。此外,可以说在使用讲话者依赖层的NN中,按照每个讲话者准备隐藏层的簇。此外,在使用讲话者依赖层的NN的学习时和使用了使用该讲话者依赖层的NN的目标语音的提取时,使用相同的讲话者的语音。换言之,前提在于,在使用讲话者依赖层的NN中,根据针对包含要提取的目标语音的讲话者的至少1个以上的讲话者而准备以用于学习的语音信号,学习了NN的参数。
(使用讲话者适应型层的NN)
使用讲话者适应型层的NN是至少1个层被分解为多个簇的NN。在使用讲话者适应型层的NN中,K为学习数据的讲话者的数量以下的数量即可。此外,在使用讲话者适应型层的NN中,向量α也可以不为1hot向量。此外,也可以不在使用讲话者适应型层的NN的学习时和使用了使用该讲话者适应型层的NN的目标语音的提取时,使用相同的讲话者的语音。因此,使用讲话者适应型层的NN的通用性较高。
<第1实施方式>
这里,对第1实施方式的掩模计算装置和掩模计算神经网络学习装置进行说明。掩模计算装置和掩模计算神经网络学习装置可以分别通过不同的计算机来实现,也可以作为1个计算机的功能来实现。
<第1实施方式的掩模计算装置>
首先,使用图3,对第1实施方式的掩模计算装置的结构进行说明。图3是示出第1实施方式的掩模计算装置的结构的一例的图。如图3所示,掩模计算装置10具有特征量提取部101、掩模计算部102、目标信号计算部103、目标讲话者特征量提取部121、簇权重计算部122和存储部140。
存储部140存储在目标讲话者特征量提取部121中使用的规定的计算模型的参数即讲话者特征量提取模型参数、在簇权重计算部122中使用的NN的参数即簇权重计算NN参数和在掩模计算部102中使用的NN的参数即掩模计算NN参数。另外,将在簇权重计算部122中使用的NN称作簇权重计算NN。此外,将在掩模计算部102中使用的NN称作掩模计算NN。此外,设讲话者特征量提取模型参数和掩模计算NN参数的集合为Θ、簇权重计算参数的集合为λ。
特征量提取部101进行与现有的目标讲话者提取装置10a的特征量提取部101a相同的处理。即,特征量提取部101从观测信号中提取从第1帧到第T帧的F维特征量向量。换言之,特征量提取部101按照每个帧,从观测信号中提取规定次数(F维)的特征量向量。特征量提取部101从包含至少1个以上的讲话者的语音的语音的观测信号中提取观测信号的特征量,该1个以上的讲话者包含目标讲话者。另外,前提在于,在观测信号所包含的语音的讲话者为1个的情况下,包含除了噪声等语音以外的声音。在观测信号所包含的语音的讲话者为2个以上的情况下,可以包含噪声,也可以不包含噪声。
目标讲话者特征量提取部121从目标讲话者的语音的信号即适应用目标讲话者信号中提取目标讲话者特征量。目标讲话者特征量提取部121以适应用目标讲话者信号为输入,使用通过用于提取存储部140所存储的目标讲话者特征量的讲话者特征量提取模型参数θ(l)确定的规定的计算模型来输出目标讲话者特征量a(s)。
这里,作为通过目标讲话者特征量提取部121使用的计算模型,存在使用ivector(参考文献:N.Dehak,P.Kenny,R.Dehak,P.Dumouchel,and P.Ouellet,“Front-end factoranalysis for speaker verification”,IEEE Trans.Audio,Speech,Language Process.,vol.19,no.4,pp.788-798,2011.)、Bottleneck特征量、讲话者的后验概率的计算模型。此外,在讲话者的ID为已知的情况、目标的讲话者为学习数据所包含的讲话者的情况下,目标讲话者特征量提取部121也可以将表示讲话者的ID的1hot向量用于计算。
簇权重计算部122根据适应用目标讲话者信号,使用簇权重计算NN(第2神经网络)来计算至少任意一个层被分解为多个簇的掩模计算NN(第1神经网络)的、与多个簇各自对应的权重。簇权重计算部122以目标讲话者特征量为输入,根据存储部140所存储的簇权重计算NN参数λ来输出簇权重。簇权重计算部122如式(15)那样计算簇权重的向量α。另外,h(·,λ)为表示用于根据语音的特征量计算簇权重的NN的函数。即,簇权重计算部122通过向设定有簇权重计算NN参数λ的NN(第2神经网络)输入目标讲话者特征量,获得簇权重的向量α并输出。
【式15】
α=h(a(s),λ) (15)
掩模计算部102根据观测信号的特征量和目标讲话者特征量,计算从观测信号中提取目标讲话者的语音的掩模。掩模计算部102根据观测信号的特征量,使用通过由簇权重计算部122计算出的权重进行加权后的掩模计算NN(第1神经网络)来计算掩模。掩模计算部102通过式(14)计算掩模。
另外,式(14)表示神经网络的第l目标层中的计算。Fk (l)是表示分解为多个簇的隐藏层中的、第k个隐藏层中的计算的函数。xt (l-1)是第(l-1)个层的输出,xt (0)是向神经网络的输入、即观测信号的特征量Y(t,f)。即,式(14)示出分解为多个簇的层的输出(中间状态)xt (l)根据通过由簇权重计算部122求出的与各簇对应的权重进行加权后的权重和,确定向所分解的各个隐藏层输入第(l-1)个层的输出而获得的各隐藏层的输出(中间状态)。
在第l个层的后段进一步存在未分解的隐藏层的情况下,在该未分解的隐藏层中进一步进行计算。例如,在第(l+1)个层中,将xt (l)只作为输入,进行与变换函数F(l+1)对应的变换,可计算x(l+1)。通过以掩模计算NN的层的数量反复该计算,最终输出掩模。如果设最后的层为L,x(L)成为掩模。
如上所述,掩模计算部102针对通过向掩模计算NN(第1神经网络)输入观测信号的特征量而获得的、NN内的多个簇的各个输出即中间状态,使用通过由簇权重计算部122计算出的与多个簇各自对应的权重进行加权后的中间状态来计算掩模。
目标信号计算部103进行与现有的目标讲话者提取装置10a的目标信号计算部103a相同的处理。即,目标信号计算部103基于掩模,根据观测信号计算目标讲话者的语音的信号。例如,目标信号计算部103根据由掩模计算部102计算出的掩模和由特征量提取部101计算出的观测信号的STFT,计算目标语音的信号。
图4是示出第1实施方式的掩模计算装置的处理的流程的流程图。如图4所示,首先,特征量提取部101读入观测信号(步骤S101)。此外,目标讲话者特征量提取部121读入适应用目标讲话者信号(步骤S102)。
这时,目标讲话者特征量提取部121预先从存储部140读入讲话者特征量提取模型参数(步骤S103)。此外,簇权重计算部122预先从存储部140读入簇权重计算NN参数(步骤S104)。此外,掩模计算部102预先从存储部140读入掩模计算NN参数(步骤S105)。
接着,特征量提取部101从观测信号中提取特征量(步骤S106)。此外,目标讲话者特征量提取部121从适应用目标讲话者信号中提取目标讲话者特征量(步骤S107)。
这里,簇权重计算部122根据簇权重计算NN参数和目标讲话者特征量,计算簇权重(步骤S108)。此外,掩模计算部102根据特征量和掩模计算NN参数,计算掩模(步骤S109)。而且,目标信号计算部103使用掩模,根据观测信号计算目标语音的信号(步骤S110)。然后,目标信号计算部103输出所计算出的目标语音的信号(步骤S111)。
<第1实施方式的掩模计算神经网络学习装置>
接着,使用图5,对第1实施方式的掩模计算神经网络学习装置的结构进行说明。图5是示出第1实施方式的掩模计算神经网络学习装置的结构的一例的图。如图5所示,掩模计算神经网络学习装置20具有特征量提取部201、掩模计算部202、误差计算部203、掩模计算NN参数微分值计算部204、掩模计算NN参数更新部205、收敛判定部206、目标讲话者特征量提取部221、簇权重计算部222、簇权重计算NN参数微分值计算部223、簇权重计算NN参数更新部224和存储部240。
特征量提取部201、掩模计算部202、目标讲话者特征量提取部221、簇权重计算部222分别进行与掩模计算装置10的特征量提取部101、掩模计算部102、目标讲话者特征量提取部121、簇权重计算部122相同的处理。
即,簇权重计算部222根据特定讲话者的语音的信号,使用簇权重计算NN来计算至少任意一个层被分解为多个簇的掩模计算NN的与多个簇各自对应的权重。另外,特定讲话者例如是目标讲话者。此外,掩模计算部202根据包含特定讲话者的1个以上的讲话者的语音的观测信号的特征量,使用通过由簇权重计算部222计算出的权重进行加权后的掩模计算NN来计算掩模,该掩模从1个以上的讲话者的语音的观测信号的特征量中提取特定讲话者的语音的特征量。另外,掩模计算NN为第1神经网络的一例。此外,簇权重计算NN为第2神经网络的一例。
存储部240存储在目标讲话者特征量提取部221中使用的讲话者特征量提取模型参数、在簇权重计算部222中使用的簇权重计算NN参数和在掩模计算部202中使用的掩模计算NN参数。其中,假设在学习开始时刻,对讲话者特征量提取模型参数、簇权重计算NN参数、掩模计算NN参数分别设定了适当的初始值(随机的初始值)。
掩模计算神经网络学习装置20例如进行在掩模计算装置10中使用的掩模计算NN参数和簇权重计算NN参数的学习。掩模计算神经网络学习装置20使用学习用观测信号和适应用目标信号和正确掩模来进行学习。
掩模计算神经网络学习装置20使用误差反向传播和SGD(Stochastic GradientDescent:随机梯度下降)来进行学习(参考文献:S.Haykin,Neural Networks,“AComprehensive Foundation,”Prentice Hall PTR,Upper Saddle River,NJ,USA,2ndedition,1999.)。首先,误差计算部203根据在掩模计算装置10中计算出的掩模M(t)和正确掩模^M(t),如式(16)那样计算误差δt。
【式16】
另外,掩模计算神经网络学习装置20也可以在不使用正确掩模的情况下,通过计算出的目标语音的失真和距离的最小化基准、语音识别的基准进行学习。此外,掩模计算神经网络学习装置20进行学习时的方法不限于SGD。掩模计算神经网络学习装置20也可以使用例如Adam和Adagrad等来进行学习。
掩模计算NN参数微分值计算部204通过将掩模计算NN和簇权重计算NN视作结合的NN,并对该结合的NN进行误差反向传播,计算掩模计算NN的参数的微分值。此外,掩模计算NN参数更新部205根据由掩模计算NN参数微分值计算部204计算出的参数的微分值,对掩模计算NN的参数进行更新。即,掩模计算NN参数更新部205将存储部240所存储的掩模计算NN的参数的值更新为更新后的值。
掩模计算NN参数更新部205如式(17)那样进行掩模计算NN参数^θ(l)的更新。
【式17】
其中,^θ(l)为更新后的掩模计算NN参数。此外,θ(l)为更新前的掩模计算NN参数。此外,η(δJ/δθ(l))(式(17)的右边的第2项)为由掩模计算NN参数微分值计算部204计算的掩模计算NN的参数的微分值。此外,J表示优化基准(例如Cross Entropy)。此外,η为学习率的参数,例如取0.1~0.0001左右的较小的值。
簇权重计算NN参数微分值计算部223通过对所结合的NN进行误差反向传播,计算簇权重计算NN的参数的微分值。此外,簇权重计算NN参数更新部224根据由簇权重计算NN参数微分值计算部223计算出的簇权重计算NN参数的微分值,对簇权重计算NN的参数进行更新。即,簇权重计算NN参数更新部224将存储部240所存储的簇权重计算NN的参数的值更新为更新后的值。
簇权重计算NN参数更新部224如式(18)那样进行簇权重计算NN参数^λ的更新。即,簇权重计算NN参数更新部224将存储部240所存储的簇权重计算NN参数的值更新为更新后的值。
【式18】
其中,^λ为更新后的簇权重计算NN参数。此外,λ为更新前的簇权重计算NN参数。此外,η′(δJ/δλ)(式(18)的右边的第2项)为由簇权重计算NN参数微分值计算部223计算的簇权重计算NN的参数的微分值。此外,J表示优化基准(例如Cross Entropy)。此外,η′为学习率的参数,例如取0.1~0.0001左右的较小的值。
收敛判定部206接收模型参数群,判定各模型参数的学习是否收敛。在判定为已收敛的情况下,收敛判定部206将收敛时的各模型参数作为掩模计算神经网络学习装置20的输出值输出。模型参数中包含掩模计算NN参数和簇权重计算NN参数。
另一方面,收敛判定部206在判定为未收敛的情况下,收敛判定部206向簇权重计算部222、掩模计算部202、误差计算部203、掩模计算NN参数微分值计算部204、掩模计算NN参数更新部205、簇权重计算NN参数微分值计算部223、簇权重计算NN参数更新部224输出控制信号,使得反复处理。
此外,例如,在更新前后的参数的差分为阈值以下的情况、反复次数为规定次数以上的情况、使用学习用语音的一部分对模型的性能进行评价时性能发生恶化的情况等下,收敛判定部206判定为已收敛。总之,收敛判定部206直到根据存储部240模型参数而在NN中计算出的掩模满足规定的基准为止,返回簇权重计算部222进行控制,使得反复掩模的估计和NN的参数的更新处理。如果满足规定的条件,则掩模计算神经网络学习装置20结束学习处理。这时,存储部240所存储的NN的参数的值为学习后的NN的参数。
图6是示出第1实施方式的掩模计算神经网络学习装置的处理的流程的流程图。如图6所示,首先,特征量提取部201读入观测信号(步骤S201)。此外,目标讲话者特征量提取部221读入适应用目标讲话者信号(步骤S202)。
这时,目标讲话者特征量提取部221预先从存储部240读入讲话者特征量提取模型参数(步骤S203)。此外,簇权重计算部222预先从存储部240读入簇权重计算NN参数(步骤S204)。此外,掩模计算部202预先从存储部240读入掩模计算NN参数(步骤S205)。
接着,特征量提取部201从观测信号中提取特征量(步骤S206)。此外,目标讲话者特征量提取部221从适应用目标讲话者信号中提取目标讲话者特征量(步骤S207)。
这里,簇权重计算部222根据簇权重计算NN参数和目标讲话者特征量,计算簇权重(步骤S208)。此外,掩模计算部202根据特征量和掩模计算NN参数,计算掩模(步骤S209)。误差计算部203根据由掩模计算部202计算出的掩模和正确掩模,计算误差(步骤S210)。
掩模计算NN参数微分值计算部204计算掩模计算NN参数的微分值(步骤S211)。然后,掩模计算NN参数更新部205对掩模计算NN参数进行更新(步骤S212)。
簇权重计算NN参数微分值计算部223计算簇权重NN参数的微分值(步骤S213)。而且,簇权重计算NN参数更新部224对簇权重NN参数进行更新(步骤S214)。
收敛判定部206判定模型参数是否收敛(步骤S215)。在判定为模型参数未收敛的情况下(步骤S215:否),收敛判定部206使各处理部进一步执行步骤S208~S214。另一方面,在判定为模型参数已收敛的情况下(步骤S215:是),收敛判定部206输出模型参数(步骤S216)。
[第1实施方式的效果]
特征量提取部101从包含至少1个以上的讲话者的语音的语音的观测信号中提取特征量,该1个以上的讲话者包含目标讲话者。此外,目标讲话者特征量提取部121从目标讲话者的语音的信号即适应用目标讲话者信号中提取目标讲话者特征量。此外,掩模计算部102根据观测信号的特征量和目标讲话者特征量,计算从观测信号中提取目标讲话者的语音的掩模。此外,目标信号计算部103基于掩模,根据观测信号计算目标讲话者的语音的信号。这样,在本实施方式中,使用根据目标讲话者特征量计算出的掩模。因此,即使在所观测的语音中包含多个讲话者的语音的情况下,能够取出目标的讲话者的语音。
目标讲话者特征量提取部121从特定讲话者的语音的信号中提取特定讲话者的语音的特征量。此外,簇权重计算部122将由目标讲话者特征量提取部121提取出的特征量输入到簇权重计算NN,计算至少任意一个层被分解为多个簇的掩模计算NN的与多个簇各自对应的权重。此外,掩模计算部102根据1个以上的讲话者的语音的观测信号的特征量,使用通过由簇权重计算部计算出的权重进行加权后的掩模计算NN来计算掩模,该掩模从包含特定讲话者的1个以上的讲话者的语音的观测信号的特征量中提取特定讲话者的语音的特征量。这样,在本实施方式中,对用于掩模计算的NN的层中的、被分解为多个簇的层的与目标讲话者的语音对应的簇进行加权,因此,即使在所观测的语音中包含多个讲话者的语音的情况下,也能够取出目标的讲话者的语音。
簇权重计算部222根据特定讲话者的语音的信号,使用簇权重计算NN来计算至少任意一个层被分解为多个簇的掩模计算NN的与多个簇各自对应的权重。此外,掩模计算部202根据包含特定讲话者的1个以上的讲话者的语音的观测信号的特征量,使用通过由簇权重计算部222计算出的权重进行加权后的掩模计算NN来计算掩模,该掩模从1个以上的讲话者的语音的观测信号的特征量中提取特定讲话者的语音的特征量。掩模计算NN参数微分值计算部204通过将掩模计算NN和簇权重计算NN视作结合的NN,对该结合的NN进行误差反向传播,计算掩模计算NN的参数的微分值。此外,掩模计算NN参数更新部205根据由掩模计算NN参数微分值计算部204计算出的参数的微分值,对掩模计算NN的参数进行更新。此外,簇权重计算NN参数微分值计算部223通过对结合的NN进行误差反向传播,计算簇权重计算NN的参数的微分值。此外,簇权重计算NN参数更新部224根据由簇权重计算NN参数微分值计算部223计算出的簇权重计算NN参数的微分值,对簇权重计算NN的参数进行更新。这样,通过对用于掩模计算的NN与用于簇权重计算的NN进行结合,能够进行参数的同时优化。
[第2实施方式]
这里,对第2实施方式的掩模计算装置进行说明。如图3所示,在第1实施方式中,簇权重根据从适应用目标讲话者信号中提取出的目标讲话者特征量来计算。另一方面,在第2实施方式中,簇权重根据适应用目标讲话者信号来直接计算。
<第2实施方式的掩模计算装置>
使用图7,对第2实施方式的掩模计算装置的结构进行说明。图7是示出第2实施方式的掩模计算装置的结构的一例的图。如图7所示,掩模计算装置30具有特征量提取部301、掩模计算部302、目标信号计算部303、簇权重计算部322和存储部340。
特征量提取部301、掩模计算部302和目标信号计算部303分别进行与掩模计算装置10的特征量提取部101、掩模计算部102和目标信号计算部103相同的处理。即,掩模计算部302根据1个以上的讲话者的语音的观测信号的特征量,使用通过由簇权重计算部322计算出的权重进行加权后的掩模计算NN来计算从包含特定讲话者的1个以上的讲话者的语音的观测信号的特征量中提取特定讲话者的语音的特征量的掩模。
这里,特征量提取部301能够提取MFCC(Mel Frequency Cepstral Coefficient:梅尔频率倒谱系数)、LMFC(log Mel Filterbank coefficients:对数梅尔滤波器组系数)、ΔMFCC(MFCC的1次微分)、ΔΔMFCC(MFCC的2次微分)、对数功率、Δ对数功率(对数功率的1次微分)等,作为特征量。此外,特征量提取部301也可以提取将多个特征量组合而成的特征量,作为特征量。
这里,掩模计算装置10的簇权重计算部122根据目标讲话者特征量来计算簇权重,与此相对,簇权重计算部322根据适应用目标讲话者信号来计算簇权重。即,簇权重计算部322根据特定讲话者的语音的信号,使用簇权重计算NN来计算至少任意一个层被分解为多个簇的掩模计算NN的与多个簇各自对应的权重。
簇权重计算部322设适应用目标讲话者信号St (s)为输入,通过设定有簇权重计算NN参数μ的NN计算簇权重并输出。簇权重计算部322如式(19)那样计算簇权重的向量α。另外,l(·,μ)是用于根据语音信号计算簇权重的NN。
【式19】
此外,适应用目标讲话者信号St (s)能够形成为仅记录有目标讲话者的语音的语音数据的语音特征量的集合。这里,簇权重计算部322设输出的时间平均值为簇的权重向量α。
此外,存储部340存储在簇权重计算部322中使用的簇权重计算NN参数和在掩模计算部302中使用的掩模计算NN参数。
图8是示出第2实施方式的掩模计算装置的处理的流程的流程图。如图8所示,首先,特征量提取部301读入观测信号(步骤S301)。此外,簇权重计算部322读入适应用目标讲话者信号(步骤S302)。
这时,簇权重计算部322预先从存储部340读入簇权重计算NN参数(步骤S303)。此外,掩模计算部302预先从存储部340读入掩模计算NN参数(步骤S304)。
接着,特征量提取部301从观测信号中提取特征量(步骤S305)。这里,簇权重计算部322根据簇权重计算NN参数和适应用目标讲话者信号,计算簇权重(步骤S306)。此外,掩模计算部302根据特征量和掩模计算NN参数,计算掩模(步骤S307)。而且,目标信号计算部303使用掩模,根据观测信号计算目标语音的信号(步骤S308)。然后,目标信号计算部303输出所计算出的目标语音的信号(步骤S309)。
[第2实施方式的效果]
簇权重计算部322根据特定讲话者的语音的信号,使用簇权重计算NN来计算至少任意一个层被分解为多个簇的掩模计算NN的与多个簇各自对应的权重。此外,掩模计算部302根据包含特定讲话者的1个以上的讲话者的语音的观测信号的特征量,使用通过由簇权重计算部322计算出的权重进行加权后的掩模计算NN来计算掩模,该掩模从1个以上的讲话者的语音的观测信号的特征量中提取特定讲话者的语音的特征量。在本实施方式中,无需准备用于提取目标讲话者特征量的参数,此外,无需进行用于提取目标讲话者特征量的计算,因此,能够容易地进行掩模计算。
(第3实施方式)
这里,对第3实施方式的簇权重学习装置进行说明。这里,第1实施方式的掩模计算神经网络学习装置20进行簇权重计算NN参数和掩模计算NN参数的学习。另一方面,第3实施方式的簇权重学习装置通过与掩模计算神经网络学习装置20的学习相同的方法进行簇权重的重新估计。
例如,在目标讲话者的特征与学习数据的讲话者的特征大幅度不同的情况下,有时通过由第1实施方式的簇权重计算部122计算的簇权重,无法计算可高精度地提取目标语音的掩模。在这样的情况下,通过使用第3实施方式的簇权重学习装置,能够重新估计簇权重,提高语音提取的精度。
<第3实施方式的簇权重学习装置>
使用图9,对第1实施方式的簇权重学习装置的结构进行说明。图9是示出第3实施方式的簇权重学习装置的结构的一例的图。如图9所示,簇权重学习装置40具有特征量提取部401、掩模计算部402、误差计算部403、簇权重微分值计算部404、簇权重更新部405、收敛判定部406、目标讲话者特征量提取部421、簇权重计算部422和存储部440。
特征量提取部401、掩模计算部402、误差计算部403、目标讲话者特征量提取部421、簇权重计算部422分别进行与掩模计算神经网络学习装置20的特征量提取部201、掩模计算部202、误差计算部203、目标讲话者特征量提取部221和簇权重计算部222相同的处理。
即,簇权重计算部422根据特定讲话者的语音的信号,使用簇权重计算NN来计算至少任意一个层被分解为多个簇的掩模计算NN的与多个簇各自对应的权重。
此外,掩模计算部402根据包含特定讲话者的1个以上的讲话者的语音的观测信号的特征量,使用通过由簇权重计算部422计算出的权重进行加权后的掩模计算NN来计算掩模,该掩模从1个以上的讲话者的语音的观测信号的特征量中提取特定讲话者的语音的特征量。
存储部440存储在目标讲话者特征量提取部421中使用的讲话者特征量提取模型参数、在簇权重计算部422中使用的簇权重计算NN参数和在掩模计算部402中使用的掩模计算NN参数。
簇权重学习装置40例如通过与学习掩模计算神经网络学习装置20中的掩模计算NN参数的方法相同的方法,进行簇权重的重新估计。这时,簇权重学习装置40能够设可从对目标讲话者的语音和其他讲话者的语音进行混合而生成的语音数据提取目标讲话者的语音的掩模为正确掩模。这里,将对目标讲话者的语音和其他讲话者的语音进行混合而生成的观测信号称作适应用观测信号。
簇权重微分值计算部404通过将掩模计算NN和簇权重计算NN视作所结合的NN,并对该结合的NN进行误差反向传播,计算权重的微分值。此外,簇权重更新部405根据由簇权重微分值计算部404计算出的簇权重的微分值,对簇权重进行更新。
收敛判定部406判定簇权重是否收敛。在判定为已收敛的情况下,收敛判定部406将收敛时的簇权重作为簇权重学习装置40的输出值输出。
另一方面,在判定为未收敛的情况下,收敛判定部406将更新后的簇权重输出到掩模计算部402。而且,收敛判定部406向掩模计算部402、误差计算部403、簇权重微分值计算部404和簇权重更新部405输出控制信号,使得反复处理。
图10是示出第3实施方式的簇权重学习装置的处理的流程的流程图。如图10所示,首先,特征量提取部401读入适应用观测信号(步骤S401)。此外,目标讲话者特征量提取部421读入适应用目标讲话者信号(步骤S402)。
这时,目标讲话者特征量提取部421预先从存储部440读入讲话者特征量提取模型参数(步骤S403)。此外,簇权重计算部422预先从存储部440读入簇权重计算NN参数(步骤S404)。此外,掩模计算部402预先从存储部440读入掩模计算NN参数(步骤S405)。
接着,特征量提取部401从观测信号中提取特征量(步骤S406)。此外,目标讲话者特征量提取部421从适应用目标讲话者信号中提取目标讲话者特征量(步骤S407)。
这里,簇权重计算部422根据簇权重计算NN参数和目标讲话者特征量,计算簇权重(步骤S408)。此外,掩模计算部402根据特征量和掩模计算NN参数,计算掩模(步骤S409)。误差计算部403根据由掩模计算部402计算出的掩模和正确掩模,计算误差(步骤S410)。
簇权重微分值计算部404计算簇权重的微分值(步骤S411)。然后,簇权重更新部405对簇权重进行更新(步骤S412)。
收敛判定部406判定簇权重是否收敛(步骤S413)。在判定为模型参数未收敛的情况下(步骤S413:否),收敛判定部406使各处理部进一步执行步骤S409~S412。另一方面,在判定为模型参数已收敛的情况下(步骤S413:是),收敛判定部406输出模型参数(步骤S414)。
[第3实施方式的效果]
簇权重计算部422根据特定讲话者的语音的信号,使用簇权重计算NN来计算至少任意一个层被分解为多个簇的掩模计算NN的与多个簇各自对应的权重。此外,掩模计算部402根据包含特定讲话者的1个以上的讲话者的语音的观测信号的特征量,使用通过由簇权重计算部422计算出的权重进行加权后的掩模计算NN来计算掩模,该掩模从1个以上的讲话者的语音的观测信号的特征量中提取特定讲话者的语音的特征量。此外,簇权重微分值计算部404通过将掩模计算NN和簇权重计算NN视作所结合的NN,对该结合的NN进行误差反向传播,计算权重的微分值。此外,簇权重更新部405根据由簇权重微分值计算部404计算出的簇权重的微分值,对簇权重进行更新。由此,即使通过1次的计算无法计算精度较高的掩模的情况下,也能够通过重新估计簇权重来提高掩模的精度。
[本发明与现有技术的比较]
表1示出使用本发明的各实施方式和现有技术语音进行提取的情况下的实验结果。表1的倒谱距离(dB)为提取出的目标语音的信号与实际的目标语音的信号的倒谱距离。此外,语音提取精度越高,倒谱距离越小。
【表1】
表1
倒谱距离(dB) | |
观测语音 | 5.23 |
基线(Baseline) | 5.86 |
本发明(ivector) | 3.91 |
本发明(讲话者的后验概率) | 4.11 |
本发明(适应) | 3.86 |
本发明(序列总结) | 3.67 |
本实验用于供2个讲话者从混合的观测信号中仅提取目标讲话者的语音。在本实验中,通过8个麦克风对语音进行观测,计算通过波束形成器输出的目标语音的信号。此外,在本实验中,掩模计算NN具有:BLSTM层、具有Relu函数作为激活函数的2个全结合层、具有sigmoid数作为激活函数的全结合层。
表1的“观测语音”是未进行语音提取的情况下的结果。如表1所示,未进行语音提取的情况下的倒谱距离为5.23。此外,表1的“基线(Baseline)”是使用现有的目标讲话者提取装置10a进行语音提取的情况下的结果。如表1所示,“Baseline”的倒谱距离为5.86。这样,在现有的现有的目标讲话者提取装置10a中,与观测信号相比未改善倒谱距离。
表1的“本发明(ivector)”是在本发明的第1实施方式中使用ivector进行目标讲话者特征量的提取并进行语音提取的情况下的结果。如表1所示,“本发明(ivector)”的倒谱距离为3.91。
表1的“本发明(讲话者的后验概率)”是在本发明的第1实施方式中使用讲话者的后验概率进行目标讲话者特征量的提取并进行语音提取的情况下的结果。如表1所示,“本发明(讲话者的后验概率)”的倒谱距离为4.11。
表1的“本发明(适应)”是在使用本发明的第1实施方式的掩模计算装置10计算簇权重并进一步使用本发明的第3实施方式的簇权重学习装置40进行簇权重的重新估计之后进行语音提取的情况下的结果。如表1所示,“本发明(适应)”的倒谱距离为3.86。
表1的“本发明(序列总结)”是使用本发明的第2实施方式的掩模计算装置30进行语音提取的情况下的结果。如表1所示,“本发明(序列总结)”的倒谱距离为3.67。
如表1所示,现有的目标讲话者提取装置10a与观测信号相比未改善倒谱距离,与此相对,在使用本实施方式的各方法的情况下,改善了倒谱距离。由此,可以说本发明的各实施方式在提高目标语音提取的精度的方面是有效的。
[系统结构等]
此外,图示的各装置的各结构要素是功能概念性的各结构要素,不一定需要如物理上所图示地构成。即,各装置的分散/合并的具体方式不限于图示,能够根据各种负荷和使用状况等,以任意的单位在功能或物理上分散/合并构成其全部或一部分。并且,在各装置中进行的各处理功能能够通过CPU和由该CPU分析执行的程序来实现其全部或一部分,或者作为基于有线逻辑的硬件来实现。
此外,还能够手动地进行在本实施方式中所说明的各处理中的、作为自动地进行的处理而说明的处理的全部或一部分,或者,还能够通过公知的方法自动地进行作为手动地进行的处理而说明的处理的全部或一部分。此外,除非另外指定,否则可以任意地变更上述文档中、附图中所示的处理过程、控制过程、具体名称、包含各种数据或参数的信息。
[程序]
作为一个实施方式,掩模计算装置10能够通过将执行上述的掩模的计算的掩模计算程序作为封装软件、在线软件安装在期望的的计算机中来安装。例如,通过使信息处理装置执行上述的掩模计算程序,能够使信息处理装置作为掩模计算装置10发挥功能。这里所说的信息处理装置中包含台式机或笔记本型个人计算机。此外,除此以外,在信息处理装置的范畴中还包含智能手机、移动电话机、PHS(Personal Handyphone System:个人手机系统)等移动体通信终端、以及PDA(Personal Digital Assistant:个人数字助理)等平板终端等。
此外,掩模计算装置10还能够作为设用户使用的终端装置为客户端并向该客户端提供与上述的掩模计算有关的服务的掩模计算服务器装置来安装。例如,掩模计算服务器装置被作为提供设观测信号和适应用目标讲话者信号为输入、用于提取目标语音的信号的掩模为输出的掩模计算服务的服务器装置来安装。该情况下,掩模计算服务器装置可以作为Web服务器来安装,也可以作为通过外包提供与上述的掩模计算相关的服务的云来安装。
图11是示出执行程序的计算机的一例的图。计算机1000例如具有存储器1010、CPU1020。此外,计算机1000具有硬盘驱动器接口1030、盘驱动器接口1040、串行端口接口1050、视频适配器1060、网络接口1070。这些各部件通过总线1080连接。
存储器1010包含ROM(Read Only Memory:随机存取存储器)1011和RAM 1012。ROM1011存储例如BIOS(Basic Input Output System:基本输入输出系统)等引导程序。硬盘驱动器接口1030与硬盘驱动器1090连接。盘驱动器接口1040与盘驱动器1100连接。例如,磁盘、光盘等可装卸的存储介质插入到盘驱动器1100中。串行端口接口1050例如与鼠标1110、键盘1120连接。视频适配器1060例如与显示器1130连接。
硬盘驱动器1090例如存储OS 1091、应用程序1092、程序模块1093和程序数据1094。即,规定掩模计算装置10的各处理的程序被作为记述有可由计算机执行的代码的程序模块1093来安装。程序模块1093例如存储到硬盘驱动器1090中。例如,用于执行与掩模计算装置10中的功能结构相同的处理的程序模块1093存储到硬盘驱动器1090中。另外,硬盘驱动器1090也可以通过SSD代替。
此外,在上述实施方式的处理中使用的设定数据作为程序数据1094存储到例如存储器1010、硬盘驱动器1090中。而且,CPU 1020根据需要将存储器1010、硬盘驱动器1090所存储的程序模块1093、程序数据1094读出到RAM 1012中并执行。
另外,程序模块1093、程序数据1094不限于存储到硬盘驱动器1090的情况,例如也可以存储到可装卸的存储介质中,经由盘驱动器1100等被CPU 1020读出。或者,程序模块1093和程序数据1094也可以存储到经由网络(LAN(Local Area Network)、WAN(Wide AreaNetwork)等)而连接的其它计算机中。而且,程序模块1093和程序数据1094也可以从其它计算机中经由网络接口1070被CPU 1020读出。
程序模块1093能够形成为规定掩模计算装置10、掩模计算神经网络学习装置20、掩模计算装置30或簇权重学习装置40中的至少1个各处理的程序。
标号说明
10、30:掩模计算装置;20:掩模计算神经网络学习装置;40:簇权重学习装置;101、201、301、401:特征量提取部;102、202、302、402:掩模计算部;103、303:目标信号计算部;121、221、421:目标讲话者特征量提取部;122、222、322、422:簇权重计算部;140、240、340、440:存储部;203、403:误差计算部;204:掩模计算NN参数微分值计算部;205:掩模计算NN参数更新部;206、406:收敛判定部;223:簇权重计算NN参数微分值计算部;224:簇权重计算NN参数更新部;404:簇权重微分值计算部;405:簇权重更新部。
Claims (8)
1.一种掩模计算装置,其特征在于,具有:
特征量提取部,其从语音的观测信号中提取特征量,该语音包含至少1个以上的讲话者的语音,该1个以上的讲话者包含目标讲话者;
掩模计算部,其根据所述观测信号的特征量和适应用目标讲话者信号,计算从所述观测信号中提取目标讲话者的语音的掩模,该适应用目标讲话者信号是所述目标讲话者的语音的信号;以及
目标信号计算部,其基于所述掩模,根据所述观测信号计算所述目标讲话者的语音的信号。
2.根据权利要求1所述的掩模计算装置,其特征在于,
该掩模计算装置还具有簇权重计算部,该簇权重计算部根据所述适应用目标讲话者信号,使用第2神经网络来计算至少任意一个层被分解为多个簇的第1神经网络的与所述多个簇各自对应的权重,
所述掩模计算部根据所述观测信号的特征量,使用通过所述簇权重计算部所计算出的权重进行加权后的所述第1神经网络来计算所述掩模。
3.根据权利要求2所述的掩模计算装置,其特征在于,
所述掩模计算部针对通过向所述第1神经网络输入所述观测信号的特征量而获得的作为所述多个簇各自的输出的中间状态,使用通过所述簇权重计算部所计算出的与所述多个簇各自对应的权重进行加权后的中间状态来计算所述掩模。
4.一种簇权重学习装置,其特征在于,具有:
簇权重计算部,其根据特定讲话者的语音的信号,使用第2神经网络来计算至少任意一个层被分解为多个簇的第1神经网络的与所述多个簇各自对应的权重;
掩模计算部,其根据包含所述特定讲话者的1个以上的讲话者的语音的观测信号的特征量,使用通过所述簇权重计算部所计算出的权重进行加权后的所述第1神经网络来计算掩模,该掩模从所述1个以上的讲话者的语音的观测信号的特征量中提取所述特定讲话者的语音的特征量;
簇权重微分值计算部,其通过将所述第1神经网络和所述第2神经网络视作结合的神经网络,对该结合的神经网络进行误差反向传播,计算所述权重的微分值;以及
簇权重更新部,其根据所述簇权重微分值计算部所计算出的所述簇权重的微分值,对所述簇权重进行更新。
5.一种掩模计算神经网络学习装置,其特征在于,具有:
簇权重计算部,其根据特定讲话者的语音的信号,使用第2神经网络来计算至少任意一个层被分解为多个簇的第1神经网络的与所述多个簇各自对应的权重;
掩模计算部,其根据包含所述特定讲话者的1个以上的讲话者的语音的观测信号的特征量,使用所述簇权重计算部所计算出的权重进行加权后的所述第1神经网络来计算掩模,该掩模从所述1个以上的讲话者的语音的观测信号的特征量中提取所述特定讲话者的语音的特征量;
第1参数微分值计算部,其通过将所述第1神经网络和所述第2神经网络视作结合的神经网络,对该结合的神经网络进行误差反向传播,计算所述第1神经网络的参数的微分值;
第1参数更新部,其根据所述第1参数微分值计算部所计算出的参数的微分值,对所述第1神经网络的参数进行更新;
第2参数微分值计算部,其通过对所述结合的神经网络进行误差反向传播,计算所述第2神经网络的参数的微分值;以及
第2参数更新部,其根据所述第2参数微分值计算部所计算出的所述第2参数的微分值,对所述第2神经网络的参数进行更新。
6.一种掩模计算方法,由计算机执行,该掩模计算方法的特征在于,包含以下步骤:
特征量提取步骤,从语音的观测信号中提取特征量,该语音包含至少1个以上的讲话者的语音,该1个以上的讲话者包含目标讲话者;
掩模计算步骤,根据所述观测信号的特征量和适应用目标讲话者信号,计算从所述观测信号中提取目标讲话者的语音的掩模,该适应用目标讲话者信号是所述目标讲话者的语音的信号;以及
目标信号计算步骤,基于所述掩模,根据所述观测信号,计算所述目标讲话者的语音的信号。
7.一种簇权重学习方法,由计算机执行,该簇权重学习方法的特征在于,包含以下步骤:
簇权重计算步骤,根据特定讲话者的语音的信号,使用第2神经网络来计算至少任意一个层被分解为多个簇的第1神经网络的与所述多个簇各自对应的权重;
掩模计算步骤,其根据包含所述特定讲话者的1个以上的讲话者的语音的观测信号的特征量,使用通过所述簇权重计算步骤所计算出的权重进行加权后的所述第1神经网络来计算掩模,该掩模从所述1个以上的讲话者的语音的观测信号的特征量中提取所述特定讲话者的语音的特征量;
簇权重微分值计算步骤,通过将所述第1神经网络和所述第2神经网络视作结合的神经网络,对该结合的神经网络进行误差反向传播,计算所述权重的微分值;以及
簇权重更新步骤,其根据所述簇权重微分值计算步骤所计算出的所述簇权重的微分值,对所述簇权重进行更新。
8.一种掩模计算神经网络学习方法,由计算机执行,该掩模计算神经网络学习方法的特征在于,包含以下步骤:
簇权重计算步骤,根据特定讲话者的语音的信号,使用第2神经网络来计算至少任意一个层被分解为多个簇的第1神经网络的与所述多个簇各自对应的权重;
掩模计算步骤,根据包含所述特定讲话者的1个以上的讲话者的语音的观测信号的特征量,使用通过所述簇权重计算步骤所计算出的权重进行加权后的所述第1神经网络来计算掩模,该掩模从所述1个以上的讲话者的语音的观测信号的特征量中提取所述特定讲话者的语音的特征量;
第1参数微分值计算步骤,通过将所述第1神经网络和所述第2神经网络视作结合的神经网络,对该结合的神经网络进行误差反向传播,计算所述第1神经网络的参数的微分值;
第1参数更新步骤,根据所述第1参数微分值计算步骤所计算出的参数的微分值,对所述第1神经网络的参数进行更新;
第2参数微分值计算步骤,通过对所述结合的神经网络进行误差反向传播,计算所述第2神经网络的参数的微分值;以及
第2参数更新步骤,根据所述第2参数微分值计算步骤所计算出的所述第2参数的微分值,对所述第2神经网络的参数进行更新。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017-140225 | 2017-07-19 | ||
JP2017140225 | 2017-07-19 | ||
PCT/JP2018/026960 WO2019017403A1 (ja) | 2017-07-19 | 2018-07-18 | マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110914899A true CN110914899A (zh) | 2020-03-24 |
CN110914899B CN110914899B (zh) | 2023-10-24 |
Family
ID=65015161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880047142.XA Active CN110914899B (zh) | 2017-07-19 | 2018-07-18 | 掩模计算装置、簇权重学习装置、掩模计算神经网络学习装置、掩模计算方法、簇权重学习方法和掩模计算神经网络学习方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11763834B2 (zh) |
JP (1) | JP6764028B2 (zh) |
CN (1) | CN110914899B (zh) |
WO (1) | WO2019017403A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115204352A (zh) * | 2021-04-12 | 2022-10-18 | 洼田望 | 信息处理装置、信息处理方法和存储介质 |
Families Citing this family (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) * | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
JP7112348B2 (ja) * | 2019-02-13 | 2022-08-03 | 日本電信電話株式会社 | 信号処理装置、信号処理方法及び信号処理プログラム |
JP7131424B2 (ja) * | 2019-02-18 | 2022-09-06 | 日本電信電話株式会社 | 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム |
JPWO2020183845A1 (ja) * | 2019-03-08 | 2021-11-25 | 日本電気株式会社 | 音響処理方法 |
JP7027365B2 (ja) * | 2019-03-13 | 2022-03-01 | 株式会社東芝 | 信号処理装置、信号処理方法およびプログラム |
CN111696572B (zh) * | 2019-03-13 | 2023-07-18 | 富士通株式会社 | 语音分离装置、方法及介质 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
KR20210150372A (ko) * | 2019-04-08 | 2021-12-10 | 소니그룹주식회사 | 신호 처리 장치, 신호 처리 방법 및 프로그램 |
WO2020207593A1 (en) * | 2019-04-11 | 2020-10-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
JP7176627B2 (ja) * | 2019-05-28 | 2022-11-22 | 日本電気株式会社 | 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN110164470A (zh) * | 2019-06-12 | 2019-08-23 | 成都嗨翻屋科技有限公司 | 人声分离方法、装置、用户终端及存储介质 |
CN110136737A (zh) * | 2019-06-18 | 2019-08-16 | 北京拙河科技有限公司 | 一种语音降噪方法及装置 |
WO2021033222A1 (ja) * | 2019-08-16 | 2021-02-25 | 日本電信電話株式会社 | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム |
US11158329B2 (en) * | 2019-09-11 | 2021-10-26 | Artificial Intelligence Foundation, Inc. | Identification of fake audio content |
KR20210032105A (ko) * | 2019-09-16 | 2021-03-24 | 한국전자통신연구원 | 랭킹 기반 네트워크 임베딩을 이용한 군집화 방법 및 장치 |
EP4120185A4 (en) * | 2020-03-12 | 2023-03-22 | NEC Corporation | IMAGE PROCESSING DEVICE, IMAGE RECOGNITION SYSTEM, IMAGE PROCESSING METHOD AND NON-TRANSITORY COMPUTER READABLE MEDIA |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
JP7376896B2 (ja) * | 2020-05-27 | 2023-11-09 | 日本電信電話株式会社 | 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム |
JP7376895B2 (ja) * | 2020-05-27 | 2023-11-09 | 日本電信電話株式会社 | 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム |
US20230245664A1 (en) * | 2020-06-11 | 2023-08-03 | Dolby Laboratories Licensing Corporation | Separation of panned sources from generalized stereo backgrounds using minimal training |
JP7428251B2 (ja) * | 2020-06-19 | 2024-02-06 | 日本電信電話株式会社 | 目的音信号生成装置、目的音信号生成方法、プログラム |
CN111817767B (zh) * | 2020-06-30 | 2022-07-26 | 山西省信息产业技术研究院有限公司 | 一种基于动态优化策略的mvdr波束成形方法 |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CA3193267A1 (en) * | 2020-09-14 | 2022-03-17 | Pindrop Security, Inc. | Speaker specific speech enhancement |
US20220293119A1 (en) * | 2021-03-11 | 2022-09-15 | Aondevices, Inc. | Multistage low power, low latency, and real-time deep learning single microphone noise suppression |
CN113921030B (zh) * | 2021-12-07 | 2022-06-07 | 江苏清微智能科技有限公司 | 一种基于加权语音损失的语音增强神经网络训练方法及装置 |
JPWO2023127057A1 (zh) * | 2021-12-27 | 2023-07-06 | ||
GB2617613A (en) | 2022-04-14 | 2023-10-18 | Toshiba Kk | An audio processing method and apparatus |
JP7511792B2 (ja) | 2022-05-20 | 2024-07-05 | 三菱電機株式会社 | 情報処理装置、プログラム及び情報処理方法 |
CN115273883A (zh) * | 2022-09-27 | 2022-11-01 | 成都启英泰伦科技有限公司 | 卷积循环神经网络、语音增强方法及装置 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1199488A (zh) * | 1995-08-24 | 1998-11-18 | 英国电讯公司 | 模式识别 |
JP2002189492A (ja) * | 2000-12-19 | 2002-07-05 | Sharp Corp | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体 |
CN1717721A (zh) * | 2003-09-02 | 2006-01-04 | 日本电信电话株式会社 | 信号分离方法、信号分离装置、信号分离程序以及记录媒体 |
CN1839427A (zh) * | 2003-08-22 | 2006-09-27 | 夏普株式会社 | 信号分析装置、信号处理装置、语音识别装置、信号分析程序、信号处理程序、语音识别程序、记录介质和电子设备 |
US20120232900A1 (en) * | 2009-11-12 | 2012-09-13 | Johan Nikolaas Langehoveen Brummer | Speaker recognition from telephone calls |
JP2013054258A (ja) * | 2011-09-06 | 2013-03-21 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離装置とその方法とプログラム |
CN104008751A (zh) * | 2014-06-18 | 2014-08-27 | 周婷婷 | 一种基于bp神经网络的说话人识别方法 |
US20150149165A1 (en) * | 2013-11-27 | 2015-05-28 | International Business Machines Corporation | Speaker Adaptation of Neural Network Acoustic Models Using I-Vectors |
US20160005394A1 (en) * | 2013-02-14 | 2016-01-07 | Sony Corporation | Voice recognition apparatus, voice recognition method and program |
US20160189730A1 (en) * | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
US9584946B1 (en) * | 2016-06-10 | 2017-02-28 | Philip Scott Lyren | Audio diarization system that segments audio input |
US20170178666A1 (en) * | 2015-12-21 | 2017-06-22 | Microsoft Technology Licensing, Llc | Multi-speaker speech separation |
CN106951512A (zh) * | 2017-03-17 | 2017-07-14 | 深圳市唯特视科技有限公司 | 一种基于混合编码网络的端到端对话控制方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5155801A (en) | 1990-10-09 | 1992-10-13 | Hughes Aircraft Company | Clustered neural networks |
JPH0566795A (ja) * | 1991-09-06 | 1993-03-19 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | 雑音抑圧装置とその調整装置 |
US20080010065A1 (en) * | 2006-06-05 | 2008-01-10 | Harry Bratt | Method and apparatus for speaker recognition |
JP2010066478A (ja) * | 2008-09-10 | 2010-03-25 | Toyota Motor Corp | 雑音抑制装置及び雑音抑制方法 |
WO2011029048A2 (en) * | 2009-09-04 | 2011-03-10 | Massachusetts Institute Of Technology | Method and apparatus for audio source separation |
JP2011203414A (ja) * | 2010-03-25 | 2011-10-13 | Toyota Motor Corp | 雑音及び残響抑圧装置及びその方法 |
US9746916B2 (en) * | 2012-05-11 | 2017-08-29 | Qualcomm Incorporated | Audio user interaction recognition and application interface |
US9401153B2 (en) * | 2012-10-15 | 2016-07-26 | Digimarc Corporation | Multi-mode audio recognition and auxiliary data encoding and decoding |
US9401148B2 (en) * | 2013-11-04 | 2016-07-26 | Google Inc. | Speaker verification using neural networks |
US10360901B2 (en) * | 2013-12-06 | 2019-07-23 | Nuance Communications, Inc. | Learning front-end speech recognition parameters within neural network training |
US9390712B2 (en) * | 2014-03-24 | 2016-07-12 | Microsoft Technology Licensing, Llc. | Mixed speech recognition |
US10468032B2 (en) * | 2017-04-10 | 2019-11-05 | Intel Corporation | Method and system of speaker recognition using context aware confidence modeling |
-
2018
- 2018-07-18 JP JP2019530576A patent/JP6764028B2/ja active Active
- 2018-07-18 US US16/630,856 patent/US11763834B2/en active Active
- 2018-07-18 WO PCT/JP2018/026960 patent/WO2019017403A1/ja active Application Filing
- 2018-07-18 CN CN201880047142.XA patent/CN110914899B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1199488A (zh) * | 1995-08-24 | 1998-11-18 | 英国电讯公司 | 模式识别 |
JP2002189492A (ja) * | 2000-12-19 | 2002-07-05 | Sharp Corp | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体 |
CN1839427A (zh) * | 2003-08-22 | 2006-09-27 | 夏普株式会社 | 信号分析装置、信号处理装置、语音识别装置、信号分析程序、信号处理程序、语音识别程序、记录介质和电子设备 |
CN1717721A (zh) * | 2003-09-02 | 2006-01-04 | 日本电信电话株式会社 | 信号分离方法、信号分离装置、信号分离程序以及记录媒体 |
US20120232900A1 (en) * | 2009-11-12 | 2012-09-13 | Johan Nikolaas Langehoveen Brummer | Speaker recognition from telephone calls |
JP2013054258A (ja) * | 2011-09-06 | 2013-03-21 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離装置とその方法とプログラム |
US20160005394A1 (en) * | 2013-02-14 | 2016-01-07 | Sony Corporation | Voice recognition apparatus, voice recognition method and program |
US20150149165A1 (en) * | 2013-11-27 | 2015-05-28 | International Business Machines Corporation | Speaker Adaptation of Neural Network Acoustic Models Using I-Vectors |
CN104008751A (zh) * | 2014-06-18 | 2014-08-27 | 周婷婷 | 一种基于bp神经网络的说话人识别方法 |
US20160189730A1 (en) * | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
US20170178666A1 (en) * | 2015-12-21 | 2017-06-22 | Microsoft Technology Licensing, Llc | Multi-speaker speech separation |
US9584946B1 (en) * | 2016-06-10 | 2017-02-28 | Philip Scott Lyren | Audio diarization system that segments audio input |
CN106951512A (zh) * | 2017-03-17 | 2017-07-14 | 深圳市唯特视科技有限公司 | 一种基于混合编码网络的端到端对话控制方法 |
Non-Patent Citations (2)
Title |
---|
NAJIM DEHAK ET AL.: ""Front-End Factor Analysis for Speaker Verification"" * |
YUXUAN WANG ET AL.: ""Towards Scaling Up Classification-Based Speech Separation"" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115204352A (zh) * | 2021-04-12 | 2022-10-18 | 洼田望 | 信息处理装置、信息处理方法和存储介质 |
CN115204352B (zh) * | 2021-04-12 | 2024-03-12 | 洼田望 | 信息处理装置、信息处理方法和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2019017403A1 (ja) | 2019-11-21 |
JP6764028B2 (ja) | 2020-09-30 |
CN110914899B (zh) | 2023-10-24 |
WO2019017403A1 (ja) | 2019-01-24 |
US20200143819A1 (en) | 2020-05-07 |
US11763834B2 (en) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110914899B (zh) | 掩模计算装置、簇权重学习装置、掩模计算神经网络学习装置、掩模计算方法、簇权重学习方法和掩模计算神经网络学习方法 | |
JP6637078B2 (ja) | 音響モデル学習装置、音響モデル学習方法及びプログラム | |
US9824683B2 (en) | Data augmentation method based on stochastic feature mapping for automatic speech recognition | |
EP2189976B1 (en) | Method for adapting a codebook for speech recognition | |
US10643633B2 (en) | Spatial correlation matrix estimation device, spatial correlation matrix estimation method, and spatial correlation matrix estimation program | |
WO2009133719A1 (ja) | 音響モデル学習装置および音声認識装置 | |
Delcroix et al. | Context adaptive deep neural networks for fast acoustic model adaptation in noisy conditions | |
JP6992709B2 (ja) | マスク推定装置、マスク推定方法及びマスク推定プログラム | |
JP2016188944A (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム | |
JP6538624B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP2018028618A (ja) | マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム | |
Mirsamadi et al. | A study on deep neural network acoustic model adaptation for robust far-field speech recognition. | |
Pardede et al. | Convolutional neural network and feature transformation for distant speech recognition | |
Sivasankaran et al. | Discriminative importance weighting of augmented training data for acoustic model training | |
JP5881454B2 (ja) | 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム | |
JP7112348B2 (ja) | 信号処理装置、信号処理方法及び信号処理プログラム | |
JP2018031812A (ja) | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム | |
JP2018128500A (ja) | 形成装置、形成方法および形成プログラム | |
JP2020034870A (ja) | 信号解析装置、方法、及びプログラム | |
JP7293162B2 (ja) | 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム | |
JP2018146610A (ja) | マスク推定装置、マスク推定方法およびマスク推定プログラム | |
Yu et al. | Unsupervised adaptation with discriminative mapping transforms | |
Tsao et al. | Incorporating local information of the acoustic environments to MAP-based feature compensation and acoustic model adaptation | |
Karafiát et al. | Training data augmentation and data selection | |
Yu et al. | Unsupervised discriminative adaptation using discriminative mapping transforms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |