CN114743561A - 语音分离装置及方法、存储介质、计算机设备 - Google Patents
语音分离装置及方法、存储介质、计算机设备 Download PDFInfo
- Publication number
- CN114743561A CN114743561A CN202210485440.5A CN202210485440A CN114743561A CN 114743561 A CN114743561 A CN 114743561A CN 202210485440 A CN202210485440 A CN 202210485440A CN 114743561 A CN114743561 A CN 114743561A
- Authority
- CN
- China
- Prior art keywords
- convolution
- complex
- input
- voice signal
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 21
- 230000002457 bidirectional effect Effects 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 230000005284 excitation Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 8
- 230000000306 recurrent effect Effects 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 16
- 230000005236 sound signal Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种语音分离装置及方法、存储介质、计算机设备,其中,所述语音分离装置包括:编码器,用于对输入语音信号进行编码操作,得到所述输入语音信号的复数特征,其中,所述复数特征包括幅度特征和相位特征,所述输入语音信号中包括一个或多个发音对象的语音信号;分离网络,用于执行复数运算,以从所述复数特征中分离出各个发音对象关联的目标特征;译码器,用于对各个发音对象关联的目标特征进行逆编码操作,以得到各个发音对象的语音信号。由此,能够提高语音分离方案的准确性。
Description
技术领域
本发明涉及语音信号处理领域,具体地涉及一种语音分离装置及方法、存储介质、计算机设备。
背景技术
在进行语音通信时,采集的音频信号中除了主说话人之外,还有其他人说话声的干扰和噪音干扰。当前语音识别技术已经可以以较高精度识别一个人所讲的话,但是当采集的音频信号中包含两个或两个以上的说话人、或者存在较大的噪音干扰时,语音识别率就会极大的降低,这一问题被称为鸡尾酒会问题(cocktail party problem)。通常我们会通过语音分离技术来解决鸡尾酒问题,语音分离的目标是把目标语音(比如来源于目标说话人的语音)从采集的音频信号中分离出来,以排除其他说话人或者噪音干扰的影响。
传统的语音分离方法例如通过独立成分分析(Independent ComponentAnalysis,简称ICA)、非负矩阵分解(Non-negative Matrix Factorization,简称NMF)等技术实现的语音分离方法都不能得到很好的性能。近年来,随着神经网络的流行,出现了利用神经网络进行语音分离的尝试,实验证明神经网络比其他替代方案具有更好的效果。
然而,发明人经过研究发现,现有的语音分离方案的准确性仍无法满足要求。
发明内容
本发明解决的技术问题是如何需要提高语音分离方案的准确性。
为解决上述技术问题,本发明实施例提供一种语音分离装置,包括:编码器,用于对输入语音信号进行编码操作,得到所述输入语音信号的复数特征,其中,所述复数特征包括幅度特征和相位特征,所述输入语音信号中包括一个或多个发音对象的语音信号;分离网络,用于执行复数运算,以从所述复数特征中分离出各个发音对象关联的目标特征;译码器,用于对各个发音对象关联的目标特征进行逆编码操作,以得到各个发音对象的语音信号。
可选的,所述分离网络包括:第一全连接层,用于对所述复数特征进行分类,得到第一中间特征;双向卷积网络,用于根据所述第一中间特征得到卷积结果,所述卷积结果包括第一关联特征和第二关联特征,所述第一关联特征表示第一时间的输入语音信号与所述第一时间之前的输入语音信号之间的关联特征,所述第二关联特征表示第一时间的输入语音信号与所述第一时间之后的输入语音信号之间的关联特征;循环网络,用于根据所述第一关联特征和第二关联特征得到循环结果,所述循环结果包括第二时间的输入语音信号与所述第二时间之前的输入语音信号的之间的关联特征,所述第二时间晚于第一时间;第二全连接层,用于对所述第三关联特征进行分类,得到所述各个发音对象的掩码;乘法器,用于计算所述复数特征与所述各个发音对象的掩码之间的乘积,得到所述各个发音对象关联的目标特征。
可选的,所述双向卷积网络包括多个基本模块,所述多个基本模块串联连接,每一基本模块包括:第三全连接层,用于对所述基本模块的输入信号进行分类,得到第二中间特征;多级卷积层,用于对所述第二中间特征进行多级卷积运算,得到目标卷积结果;第四全连接层,用于对所述目标卷积结果进行分类,得到所述基本模块的输出信号。
可选的,所述多级卷积层包括第一卷积层和多级第二卷积层:所述第一卷积层,用于对所述第二中间特征进行卷积运算,得到第一卷积结果;当前卷积层,用于对输入的当前输入特征执行降速卷积运算,得到中间卷积特征,对所述中间卷积特征执行升速处理,得到所述当前卷积层的输出特征;其中,所述当前卷积层为任一级所述第二卷积层,除第一级所述第二卷积层之外各个第二卷积层的输入特征包括所述当前卷积层的上一级卷积层的输出特征,第一级所述第二卷积层的输入特征为所述第一卷积结果。
可选的,通过升速卷积运算对所述中间卷积特征执行升速处理。
可选的,所述循环网络包括长短期记忆网络或门循环单元。
本发明实施例还提供一种语音分离方法,包括:对输入语音信号进行编码操作,得到所述输入语音信号的复数特征,其中,所述复数特征包括幅度特征和相位特征,所述输入语音信号中包括一个或多个发音对象的语音信号;执行复数运算,以所述复数特征中分离出各个发音对象关联的目标特征;对各个发音对象关联的目标特征进行逆编码操作,以得到各个发音对象的语音信号。
本发明实施例还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明实施例还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明实施例提供一种语音分离装置,包括:编码器,用于对输入语音信号进行编码操作,得到所述输入语音信号的复数特征,其中,所述复数特征包括幅度特征和相位特征,所述输入语音信号中包括一个或多个发音对象的语音信号;分离网络,用于执行复数运算,以从所述复数特征中分离出各个发音对象关联的目标特征;译码器,用于对各个发音对象关联的目标特征进行逆编码操作,以得到各个发音对象的语音信号。在本发明实施例的语音分离装置中,编码器提取输入语音信号的复数特征,该复数特征中包含输入语音信号中的幅度信息和相位信息,分离网络和译码器中都采用复数运算,能够在深度学习中保留更多的信息,由此提高了语音分离的准确性。如果将语音分离装置应用在语音通信系统中,能够有效提高语音通信系统的性能。
进一步,相较于现有的Conv-TasNet,本发明实施例提供的语音分离装置具有以下优势:优势1,因为分离网络同时采用CNN与RNN,且各个卷积层均采用复数卷积运算,在延迟较小的情况下可以得到满意的性能,能够支持实时的应用;优势2,同时采用CNN与RNN,且加入了多级降速处理,实现时要求的资源较小,可以适用于资源和功耗有限的应用场合。
附图说明
图1为本发明实施例的一种语音分离装置的结构示意图;
图2为图1中编码器的一种具体实施方式的示意图;
图3为图1中译码器的一种具体实施方式的示意图;
图4为图1中分离网络的一种具体实施方式的示意图;
图5为图4中双向卷积网络的一种具体实施方式的示意图;
图6为图5中单个基本模块的一种具体实施方式的示意图;
图7为本发明实施例的一种MrCNN的结构示意图;
图8为本发明实施例的一种复数卷积运算的示意图。
具体实施方式
如背景技术所言,需要提高语音分离方案的准确性。
具体地,现有技术中给出了一种全卷积时域音频分离网络Conv-TasNet,其为基于卷积神经网络(Convolutional Neural Networks,简称CNN)的深度学习语音分离架构。这一架构主要包括三个部分:编码器(Encoder)、分离网络或者称为分离单元(Separator)和译码器(Decoder)。
其中,编码器用于计算输入的混合语音信号的特征。编码器由单个一维降速卷积层(以1D-Conv表示)组成,此1D-Conv用于对输入的混合语音信号做降速卷积运算。
分离网络用于计算各个语音信号的特征值相对于混合语音信号的特征值的比例,也即掩膜(mask)值。分离网络包括多层的1D-Conv、非线性激励函数(以PReLU表示)和S型激活函数(也称Sigmoid激活函数)等。为了支持长延迟效应,这些1D-Conv都是空洞(Dilated)CNN,各层的1D-Conv的空洞值依顺序可以设置为1,2,…,2k,k的取值为正整数。
译码器与编码器对应,其用于执行编码器的逆运算,以根据分离出的各个语音信号的特征恢复出对应的语音信号的时域数据。译码器可以由一维升速1D-Conv组成,此1D-Conv用于对各个语音信号的特征执行升速卷积运算。
然而发明人经过研究发现Conv-TasNet尽管大大提高了语音分离的性能,但它依然存在以下3个缺点:
缺点1,不适于支持实时的应用。在实时通信的场景下,要求语音处理的延迟一般不超过0.1秒,然而为了得到可接受的语音分离性能,Conv-TasNet的卷积延迟需要达到0.3秒以上。
缺点2,处理资源较多,不利于应用于资源和功耗有限的应用场合,如手机等终端设备。尽管为了支持长延迟效应,Conv-TasNet使用了空洞CNN以降低使用的资源,然而在实际应用中,Conv-TasNet仍要求较大的计算资源。
缺点3,Conv-TasNet的语音分离性能仍待提高。通常而言,Conv-TasNet仅对入输入的混合语音信号的幅度信息进行研究,由此训练得到的Conv-TasNet的性能较差。为此,在一种新的Conv-TasNet中可以引入输入的混合语音信号的相位信息,然而由于Conv-TasNet依然是实值网络,其语音分离性能不能达到最优。
为解决上述问题,本发明实施例提供了一种语音分离装置,其可以包括:编码器,用于对输入语音信号进行编码操作,得到所述输入语音信号的复数特征,其中,所述复数特征包括幅度特征和相位特征,所述输入语音信号中包括一个或多个发音对象的语音信号;分离网络,用于执行复数运算,以从所述复数特征中分离出各个发音对象关联的目标特征;译码器,用于对各个发音对象关联的目标特征进行逆编码操作,以得到各个发音对象的语音信号。由此能够提高语音分离的准确性。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
请参见图1,图1为本发明实施例的一种语音分离装置10的结构示意图。语音分离装置10可以用于实现单通道语音分离,也即对单个语音采集设备(如麦克风等)采集的声音信号实现语音分离。所述语音分离装置10可以由集成电路((Integrated Circuit,简称IC)等硬件实现,所述语音分离装置10可以应用于电话、手机、电脑、助听器等需要进行音频信号处理的设备中。所述语音分离装置10包括编码器101、分离网络102和译码器103,以下进行详细说明。
编码器101用于对输入语音信号进行编码操作,得到所述输入语音信号的复数特征,其中,所述复数特征包括幅度特征和相位特征,所述输入语音信号中包括一个或多个发音对象的语音信号。
其中,输入语音信号为包含多个发音对象发出的声音的混合音频。例如,输入语音信号可以为声音采集设备采集到的声音信号。发音对象是指发出声音信号的对象。例如,当输入语音信号中包括一个或多个人的说话声时,发音对象是指该一个或多个人。发音对象还可以指动物、汽车喇叭等其他能够发出声音信号的生物或物体。
复数特征的实部表示输入语音信号的幅度特征,复数特征的虚部表示输入语音信号的相位特征。
在一个具体实施例中,请参见图2,图2为图1中编码器101的一种具体实施方式的示意图。编码器101可以包括两个并联的一维降速卷积层(图2中以“1D-Conv(↓N)”表示,N表示降速的倍数,N为正整数)1011、1012和两个激活函数(ReLU)1013、1014。1D-Conv1011的输出作为激励函数(ReLU)1013的输入,输入语音信号经过1D-Conv1011和激励函数1013之后,可以得到输入语音信号的幅度特征,也即复数特征的实部(即图2中的“复数特征(实部)”)。输入语音信号经过1D-Conv1012和激励函数1014之后,可以得到输入语音信号的相位特征,也即复数特征的虚部(即图2中的“复数特征(虚部)”)。
可选的,输入语音信号可以为一维信号,输入语音信号的数据速率记作fs(例如16Ksps)。编码器101输出的复数信号包含M个复数特征,包含M个复数特征的复数信号也可以称为M维的复数信号;复数特征的数据速率可以表示为fs/N,N表示降速的倍数。其中,M、N为正整数,M的取值通常为2,4,8…。
分离网络102用于执行复数运算,以从所述复数特征中分离出各个发音对象关联的目标特征。
其中,复数运算可以包括复数加法运算、复数乘法运算、复数卷积运算等等。复数特征中包含实部和虚部,在分离网络对复数特征进行各种运算时,应考虑按照复数运算法则执行各个计算步骤。
各个发音对象关联的目标特征是指各个发音对象发出的语音信号的特征,所述目标特征也为复数,也即目标特征包含实部和虚部。对应的,目标特征的实部表示各个发音对象发出的语音信号的幅度特征,目标特征的虚部表示各个发音对象发出的语音信号的相位特征。
译码器103用于对各个发音对象关联的目标特征进行逆编码操作,以得到各个发音对象的语音信号。译码器103用于执行编码器101的逆运算,根据分离出的各语音的特征恢复出语音的时域数据。可选的,译码器103可以输出n个发音对象的语音信号,n为自然数。
在一个具体实施例中,请参见图3,图3为图1中译码器103的一种具体实施方式的示意图,译码器103可以包括两个一维升速卷积层1031、1032(图中表示为“1D-Conv(↑N)”)和一个加法器1033,N表示升速的倍数,译码器103中卷积层的升速倍数等于编码器101的降速倍数。各个发音对象关联的目标特征的实部经过一维升速卷积层1031,各个发音对象关联的目标特征的虚部经过一维升速卷积层1032,将一维升速卷积层1031和一维升速卷积层1032输出信号经过加法器1033得到这一发音对象的语音信号。
可选的,在编码器101输出的复数特征为M维的复数信号时,各个发音对象关联的目标特征也为M维的复数信号,各个发音对象关联的目标特征的数据速率记作fs/N。输出的各个发音对象的语音信号为一维信号,数据速率记作fs,N表示升速的倍数。其中,M、N为正整数。
上述语音分离装置10中,编码器101提取输入语音信号的复数特征,该复数特征中包含输入语音信号中的幅度信息和相位信息,分离网络102和译码器103中都采用复数运算,能够在深度学习中保留更多的信息,由此提高了语音分离的准确性。如果将语音分离装置10应用在语音通信系统中,能够有效提高语音通信系统的性能。
在一个实施例中,请参见图4,图4为图1中分离网络102的一种具体实施方式的示意图。分离网络102可以包括:第一全连接层(Fully Connected layers,简称FC)1021、双向卷积网络(图中以CNN标示)1022、循环网络(图中以RNN标示)1023、第二全连接层(图中以FC标示)1024和乘法器1025。
其中,第一全连接层1021用于对所述复数特征进行分类,得到第一中间特征;双向卷积网络1022用于根据所述第一中间特征得到卷积结果,所述卷积结果包括第一关联特征和第二关联特征,所述第一关联特征表示第一时间的输入语音信号与所述第一时间之前的输入语音信号之间的关联特征,所述第二关联特征表示第一时间的输入语音信号与所述第一时间之后的输入语音信号之间的关联特征;循环网络1023用于根据所述卷积结果得到循环结果,所述循环结果包括第二时间的输入语音信号与所述第二时间之前的输入语音信号的之间的关联特征,所述第二时间晚于第一时间;第二全连接层1024用于对所述循环结果进行分类,得到所述各个发音对象的掩码(Mask);乘法器1025用于计算所述复数特征与各个发音对象的掩码之间的乘积,得到各个发音对象关联的目标特征。进一步而言,乘法器1025与发音对象对应,每一乘法器1025得到对应发音对象关联的目标特征。
以下对分离网络102的各个部分进行详细说明。
两个FC(包括FC1021和FC1024)可以用于改变输入分离网络102的数据的维数。FC1021将所述复数特征的数据维数从M变为K;FC1024将数据的维数从K变回M。通常K<M,也即,通过FC1021降低数据的维数,以减小双向卷积网络1022和循环网络1023的运算量。FC1021运算方程可以表示为y=Wx+b。其中,FC1021的输入数据x∈CM,权值参数W∈CK×M,b∈CK;FC1021的输出数据(也即第一中间特征)y∈CK,C表示复数特征,CM表示M维的复数特征,CK表示K维的复数特征。FC1024方程与FC1021运算方程对应,这里不再赘述。
双向卷积网络1022可以通过CNN实现,CNN可以包含多层卷积层。将输入语音信号的复数特征经过FC1021输入CNN中,经过多层卷积得到复数特征中各点的卷积结果。由于复数特征中包括输入语音信号中各点之间的关联关系,通过多层卷积层得到的卷积结果包括各点在时间上的双向关联关系。所述在时间上的双向关联关系包括当前时间的和过去之间的关联(记作第一关联特征)以及当前时间和未来之间的关联(记作第二关联特征)。
循环网络1023可以通过单向循环神经网络(Recurrent Neural Network,简称RNN)实现,或者,循环网络1023可以通过双向循环神经网络(Recurrent Neural Network,简称RNN)实现。可选的,所述循环网络1023可以包括长短期记忆网络(Long Short-TermMemory,简称LSTM)或门循环单元(gated recurrent unit,简称GRU),也可以包括其他常用的RNN,这里不再赘述。其中,单向RNN用于提取各点在时间上的单向关联,以第二时间的输入语音信号与所述第二时间之前的输入语音信号的之间的关联特征表示。
在一个具体的实施例中,对于各个乘法器1025,可以对复数特征和单个发音对象的掩码进行复数乘法计算,得到这一发音对象关联的目标特征。
在另一个具体的实施例中,对于各个乘法器1025,可以将复数特征的实部和单个发音对象的掩码的实部相乘得到第一结果,再将复数特征的虚部和这一发音对象的掩码的虚部相乘得到第二结果,最后计算第一结果和第二结果的和,得到这一乘法器1025的输出数据。
需要说明的是,如果仅依靠以上的卷积网络1022中的CNN,由于CNN要处理当前时间和未来之间的关联,双向卷积网络1022必须要采用延迟单元,导致语音分离方案存在较大的延迟,这也造成了前述Conv-TasNet的缺点1。并且单纯依靠CNN实现高效的语音分离效果,CNN中需要部署的卷积层的层级数量巨大,需要消耗大量资源。因此,本发明实施例在CNN之后增加了RNN(也即,循环网络1023)。较之双向RNN,单向RNN提取了各点在时间上的单向关联,因此单向RNN处理的数据量比CNN或双向RNN更少,延迟也更小。然而,较之双向RNN,单向RNN由于处理数据量更少,语音分离准确性可能会受影响。
可选的,所述第一全连接层(即FC1021)具有激励函数(图中以cPReLU标示)1026,所述激励函数1026用于执行以下公式(1)的计算:
其中,xr为所述复数特征的实部,xi为所述复数特征的虚部,wr为xr的权值,wi为xi的权值。wr和wi具有预设的初始值,并且在分离网络102的训练过程中不断迭代。
在一个实施例中,图4中所述分离网络102中的循环网络1023和双向卷积网络1022位置可以互换,也即将第一中间特征先输入循环网络1023中,以循环网络1023的输出作为双向卷积网络1022的输入。相较于图3中的分离网络102,本实施例的方案中,第一中间特征经单向或双向RNN之后先提取了各点在时间上的单向或双向关联。
在一个实施例中,请参见图5和图6,图5为图4中双向卷积网络1022的一种具体实施方式的示意图,图6为图5中单个基本模块的一种具体实施方式的示意图。所述双向卷积网络1022可以包括多个基本模块(Unit Block,简称UBlock),所述多个基本模块串联连接。每一基本模块可以包括:第三全连接层(图6中以“FC601”表示),用于对所述基本模块的输入信号进行分类,得到第二中间特征;多级卷积层602,用于对所述第二中间特征进行多级卷积运算,得到目标卷积结果;第四全连接层(图6中以“FC603”表示),用于对所述目标卷积结果进行分类,得到所述基本模块的输出信号。
FC601和FC603可以用于改变输入这一基本模块的数据的维数。FC601将数据维数从M变为K;FC603将数据的维数从K变回M。通常K<M,也即,通过FC603降低数据的维数,以减小多级卷积层602的运算量。关于FC601和FC603的其他描述可以参见图4中关于FC1021和FC1024的相关描述,这里不再赘述。
可选的,FC601具有激励函数cPReLU6011,FC603具有激励函数cPReLU6031。所述cPReLU6011和cPReLU6031可以用于执行复数运算,计算公式参见上述公式(1)。
多级卷积层602可以包括多率(Multi-Rate)CNN,简称MrCNN。所述多级卷积层包括第一卷积层和n级第二卷积层,n为正整数。第一卷积层,用于对所述第二中间特征进行卷积运算,得到第一卷积结果;每一级第二卷积层,用于对输入的当前输入特征执行降速卷积运算,得到中间卷积特征,对所述中间卷积特征执行升速处理,得到所述当前卷积层的输出特征;其中,所述当前卷积层为任一级所述第二卷积层,除第一级所述第二卷积层之外各个第二卷积层的输入特征包括所述当前卷积层的上一级卷积层的输出特征,第一级所述第二卷积层的输入特征为所述第一卷积结果。每一级第二卷积层降速的倍数和升速的倍数相同,例如先执行2倍降速,再执行2倍升速。
本实施例中,第一卷积层不做降速,能够保留更多的信息。各级第二卷积层都做降速,也即舍弃其中的部分数据,能够减少卷积时的运算量,减少运算量,并得到足够深的时间关联运算以解决延迟问题。
在一个具体实施例中,请参见图7,图7为本发明实施例的一种MrCNN的结构示意图。该MrCNN的输入为第二中间特征。第一卷积层可以包括一维卷积网络(1D-Conv)701,第一级第二卷积层可以包括一维降速卷积网络(图中以“1D-Conv(↓2)”表示)7021和升速卷积网络7031(图中以“1D-Conv(↑2)”标示),第二级第二卷积层可以包括一维降速卷积网络7022和升速卷积网络7032,…,第n级第二卷积层可以包括一维降速卷积网络702n和升速卷积网络703n。各个卷积层(包括第一卷积层和各级第二卷积层)输出的数据通过加法器704进行复数相加。可选的,各个卷积层输出的数据相加后通过一激励函数cPReLU705,得到目标卷积结果。图7中各个卷积网络都是一维的逐通道(depth-wise)卷积运算单元。其中,1D-Conv(↑2)和1D-Conv(↓2)中的“2”表示升速或降速的倍数为2倍,也可以改为其他倍数。
需要说明的是,也可以将各个升速卷积网络(7031、7032、…、703n)替换为仅执行升速处理的模块。如果直接执行升速处理,可能会由于信号干扰造成信号扭曲,而利用升速卷积网络进行升速可以有效解决这一问题。
针对本发明实施例中的各个卷积网络(或称为卷积层或卷积单元)可以进行复数卷积,请参见图8,图8为本发明实施例的一种复数卷积运算的示意图。分别获取输入的复数信号的实部和虚部,记作输入(实部)和输入(虚部)。在执行复数卷积时,将输入(实部)输入参数为实数的卷积层进行卷积运算得到第一结果,将输入(实部)输入参数为虚数的卷积层进行卷积运算得到第二结果,将输入(虚部)输入参数为实数的卷积层进行卷积运算得到第三结果,将输入(虚部)输入参数为虚数的卷积层进行卷积运算得到第四结果。计算第一结果和第四结果之和,作为输出的复数信号的实部,记作输出(实部)。计算第二结果和第三结果之和,作为输出的复数信号的虚部,记作输出(虚部)。图8中的各个卷积层可以包括1维的复数卷积网络(图中以1D-rconv)表示。相较于现有的Conv-TasNet,本发明实施例提供的语音分离装置具有以下优势:
优势1,支持实时的应用。因为分离网络同时采用了CNN与RNN,且各个卷积层均采用复数卷积运算,在延迟较小的情况下可以得到满意的性能。具体而言,这一语音分离装置的延迟不超过0.1秒,在总参数量为500K的情况下,可以得到如下性能:信号对变形量的比率(Source to Distortion ratio,简称SDR)可以达到11.7分贝(dB),感知评价语音质量(Perceptual Evaluation of Speech Quality,简称PESQ)大致为2.5。也即,这一语音分离装置的性能更佳。
优势2,同时采用CNN与RNN,且加入了多级降速处理,实现时要求的资源较小,可以适用于资源和功耗有限的应用场合。
本发明实施例还提供一种语音分离方法,包括:对输入语音信号进行编码操作,得到所述输入语音信号的复数特征,其中,所述复数特征包括幅度特征和相位特征,所述输入语音信号中包括一个或多个发音对象的语音信号;执行复数运算,以所述复数特征中分离出各个发音对象关联的目标特征;对各个发音对象关联的目标特征进行逆编码操作,以得到各个发音对象的语音信号。
关于本实施例所述语音分离方法中涉及名词的解释、工作原理、工作方式的更多内容,可以参照上述图1至图8所示实施例的相关描述,这里不再赘述。
进一步地,本发明实施例还公开一种存储介质,其上存储有计算机程序,计算机程序被处理器运行时执行上述语音分离方法的技术方案。所述存储介质可以为计算机可读存储介质。
进一步地,本发明实施例还公开一种计算机设备,包括存储器和处理器,存储器上存储有能够在处理器上运行的计算机程序,处理器运行计算机程序时执行上述语音分离方法的技术方案。
具体地,在本发明实施例中,所述处理器可以为中央处理单元(centralprocessing unit,简称CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,简称DSP)、专用集成电路(application specificintegrated circuit,简称ASIC)、现成可编程门阵列(field programmable gate array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本申请实施例中的存储介质及存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,简称ROM)、可编程只读存储器(programmable ROM,简称PROM)、可擦除可编程只读存储器(erasable PROM,简称EPROM)、电可擦除可编程只读存储器(electrically EPROM,简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(randomaccess memory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random access memory,简称RAM)可用,例如静态随机存取存储器(static RAM,简称SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(double datarate SDRAM,简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,简称ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,简称SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,简称DR RAM)。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,表示前后关联对象是一种“或”的关系。
本申请实施例中出现的“多个”是指两个或两个以上。
本申请实施例中出现的第一、第二等描述,仅作示意与区分描述对象之用,没有次序之分,也不表示本申请实施例中对设备个数的特别限定,不能构成对本申请实施例的任何限制。
本申请实施例中出现的“连接”是指直接连接或者间接连接等各种连接方式,以实现设备间的通信,本申请实施例对此不做任何限定。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (10)
1.一种语音分离装置,其特征在于,包括:
编码器,用于对输入语音信号进行编码操作,得到所述输入语音信号的复数特征,其中,所述复数特征包括幅度特征和相位特征,所述输入语音信号中包括一个或多个发音对象的语音信号;
分离网络,用于执行复数运算,以从所述复数特征中分离出各个发音对象关联的目标特征;
译码器,用于对各个发音对象关联的目标特征进行逆编码操作,以得到各个发音对象的语音信号。
2.根据权利要求1所述的语音分离装置,其特征在于,所述分离网络包括:
第一全连接层,用于对所述复数特征进行分类,得到第一中间特征;
双向卷积网络,用于根据所述第一中间特征得到卷积结果,所述卷积结果包括第一关联特征和第二关联特征,所述第一关联特征表示第一时间的输入语音信号与所述第一时间之前的输入语音信号之间的关联特征,所述第二关联特征表示第一时间的输入语音信号与所述第一时间之后的输入语音信号之间的关联特征;
循环网络,用于根据所述卷积结果得到循环结果,所述循环结果包括第二时间的输入语音信号与所述第二时间之前的输入语音信号的之间的关联特征,所述第二时间晚于第一时间;
第二全连接层,用于对所述循环结果进行分类,得到所述各个发音对象的掩码;
乘法器,用于计算所述复数特征与所述各个发音对象的掩码之间的乘积,得到所述各个发音对象关联的目标特征。
3.根据权利要求2所述的语音分离装置,其特征在于,所述双向卷积网络包括多个基本模块,所述多个基本模块串联连接,每一基本模块包括:
第三全连接层,用于对所述基本模块的输入信号进行分类,得到第二中间特征;
多级卷积层,用于对所述第二中间特征进行多级卷积运算,得到目标卷积结果;
第四全连接层,用于对所述目标卷积结果进行分类,得到所述基本模块的输出信号。
4.根据权利要求3所述的语音分离装置,其特征在于,所述多级卷积层包括第一卷积层和多级第二卷积层:
所述第一卷积层,用于对所述第二中间特征进行卷积运算,得到第一卷积结果;
当前卷积层,用于对输入的当前输入特征执行降速卷积运算,得到中间卷积特征,对所述中间卷积特征执行升速处理,得到所述当前卷积层的输出特征;
其中,所述当前卷积层为任一级所述第二卷积层,除第一级所述第二卷积层之外各个第二卷积层的输入特征包括所述当前卷积层的上一级卷积层的输出特征,第一级所述第二卷积层的输入特征为所述第一卷积结果。
5.根据权利要求4所述的语音分离装置,其特征在于,通过升速卷积运算对所述中间卷积特征执行升速处理。
6.根据权利要求2所述的语音分离装置,其特征在于,所述循环网络包括长短期记忆网络或门循环单元。
8.一种语音分离方法,其特征在于,包括:
对输入语音信号进行编码操作,得到所述输入语音信号的复数特征,其中,所述复数特征包括幅度特征和相位特征,所述输入语音信号中包括一个或多个发音对象的语音信号;
执行复数运算,以所述复数特征中分离出各个发音对象关联的目标特征;对各个发音对象关联的目标特征进行逆编码操作,以得到各个发音对象的语音信号。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求8所述方法的步骤。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求8所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210485440.5A CN114743561A (zh) | 2022-05-06 | 2022-05-06 | 语音分离装置及方法、存储介质、计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210485440.5A CN114743561A (zh) | 2022-05-06 | 2022-05-06 | 语音分离装置及方法、存储介质、计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114743561A true CN114743561A (zh) | 2022-07-12 |
Family
ID=82284931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210485440.5A Pending CN114743561A (zh) | 2022-05-06 | 2022-05-06 | 语音分离装置及方法、存储介质、计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114743561A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115691541A (zh) * | 2022-12-27 | 2023-02-03 | 深圳元象信息科技有限公司 | 语音分离方法、装置及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5274741A (en) * | 1989-04-28 | 1993-12-28 | Fujitsu Limited | Speech coding apparatus for separately processing divided signal vectors |
CN110459238A (zh) * | 2019-04-12 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 语音分离方法、语音识别方法及相关设备 |
WO2020029906A1 (zh) * | 2018-08-09 | 2020-02-13 | 腾讯科技(深圳)有限公司 | 一种多人语音的分离方法和装置 |
US20200135209A1 (en) * | 2018-10-26 | 2020-04-30 | Apple Inc. | Low-latency multi-speaker speech recognition |
WO2021081002A1 (en) * | 2019-10-21 | 2021-04-29 | Dolby Laboratories Licensing Corporation | Deep source separation architecture |
CN113035227A (zh) * | 2021-03-12 | 2021-06-25 | 山东大学 | 一种多模态语音分离方法及系统 |
US20210272573A1 (en) * | 2020-02-29 | 2021-09-02 | Robert Bosch Gmbh | System for end-to-end speech separation using squeeze and excitation dilated convolutional neural networks |
US20210312902A1 (en) * | 2018-12-20 | 2021-10-07 | Beijing Dajia Internet Information Technology Co., Ltd. | Method and electronic device for separating mixed sound signal |
CN114245280A (zh) * | 2021-12-20 | 2022-03-25 | 清华大学深圳国际研究生院 | 一种基于神经网络的场景自适应助听器音频增强系统 |
CN114333852A (zh) * | 2022-01-07 | 2022-04-12 | 厦门快商通科技股份有限公司 | 一种多说话人语音人声分离方法、终端设备及存储介质 |
US20220223144A1 (en) * | 2019-05-14 | 2022-07-14 | Dolby Laboratories Licensing Corporation | Method and apparatus for speech source separation based on a convolutional neural network |
US20230335148A1 (en) * | 2020-09-25 | 2023-10-19 | Huawei Technologies Co., Ltd. | Speech Separation Method, Electronic Device, Chip, and Computer-Readable Storage Medium |
-
2022
- 2022-05-06 CN CN202210485440.5A patent/CN114743561A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5274741A (en) * | 1989-04-28 | 1993-12-28 | Fujitsu Limited | Speech coding apparatus for separately processing divided signal vectors |
WO2020029906A1 (zh) * | 2018-08-09 | 2020-02-13 | 腾讯科技(深圳)有限公司 | 一种多人语音的分离方法和装置 |
US20200135209A1 (en) * | 2018-10-26 | 2020-04-30 | Apple Inc. | Low-latency multi-speaker speech recognition |
US20210312902A1 (en) * | 2018-12-20 | 2021-10-07 | Beijing Dajia Internet Information Technology Co., Ltd. | Method and electronic device for separating mixed sound signal |
CN110459238A (zh) * | 2019-04-12 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 语音分离方法、语音识别方法及相关设备 |
US20220223144A1 (en) * | 2019-05-14 | 2022-07-14 | Dolby Laboratories Licensing Corporation | Method and apparatus for speech source separation based on a convolutional neural network |
WO2021081002A1 (en) * | 2019-10-21 | 2021-04-29 | Dolby Laboratories Licensing Corporation | Deep source separation architecture |
US20210272573A1 (en) * | 2020-02-29 | 2021-09-02 | Robert Bosch Gmbh | System for end-to-end speech separation using squeeze and excitation dilated convolutional neural networks |
US20230335148A1 (en) * | 2020-09-25 | 2023-10-19 | Huawei Technologies Co., Ltd. | Speech Separation Method, Electronic Device, Chip, and Computer-Readable Storage Medium |
CN113035227A (zh) * | 2021-03-12 | 2021-06-25 | 山东大学 | 一种多模态语音分离方法及系统 |
CN114245280A (zh) * | 2021-12-20 | 2022-03-25 | 清华大学深圳国际研究生院 | 一种基于神经网络的场景自适应助听器音频增强系统 |
CN114333852A (zh) * | 2022-01-07 | 2022-04-12 | 厦门快商通科技股份有限公司 | 一种多说话人语音人声分离方法、终端设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
YANXIN HU: "DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement", 《ARXIV》, 23 September 2020 (2020-09-23) * |
YIHUI FU: ""DESNet: A Multi-Channel Network for Simultaneous Speech Dereverberation, Enhancement and Separation"", 《2021 IEEE SPOKEN LANGUAGE TECHNOLOGY WORKSHOP》, 25 March 2021 (2021-03-25), pages 857 - 864 * |
张雨晴: "车载环境下语音分离技术的研究", 《中国优秀硕士学位论文全文数据库(工程科技Ⅱ辑)》, 15 March 2022 (2022-03-15) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115691541A (zh) * | 2022-12-27 | 2023-02-03 | 深圳元象信息科技有限公司 | 语音分离方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110379412B (zh) | 语音处理的方法、装置、电子设备及计算机可读存储介质 | |
Zhao et al. | Monaural speech dereverberation using temporal convolutional networks with self attention | |
US20200051551A1 (en) | Convolutional neural networks | |
CN111081268A (zh) | 一种相位相关的共享深度卷积神经网络语音增强方法 | |
CN111508519B (zh) | 一种音频信号人声增强的方法及装置 | |
Hasannezhad et al. | PACDNN: A phase-aware composite deep neural network for speech enhancement | |
CN114267372A (zh) | 语音降噪方法、系统、电子设备和存储介质 | |
CN114141237A (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
Fan et al. | Utterance-level permutation invariant training with discriminative learning for single channel speech separation | |
CN116246644A (zh) | 一种基于噪声分类的轻量级语音增强系统 | |
CN114743561A (zh) | 语音分离装置及方法、存储介质、计算机设备 | |
WO2020135324A1 (en) | Audio signal processing | |
Raj et al. | Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients | |
Xiang et al. | Joint waveform and magnitude processing for monaural speech enhancement | |
CN115798453A (zh) | 语音重建方法、装置、计算机设备和存储介质 | |
Kaur et al. | Maximum likelihood based estimation with quasi oppositional chemical reaction optimization algorithm for speech signal enhancement | |
CN113299308A (zh) | 一种语音增强方法、装置、电子设备及存储介质 | |
CN113409775B (zh) | 关键词识别方法及装置、存储介质、计算机设备 | |
Zhou et al. | Sound Event Detection with Speech Interference Using Convolutional Recurrent Neural Networks | |
Yechuri et al. | A u-net with gated recurrent unit and efficient channel attention mechanism for real-time speech enhancement | |
Bai et al. | Applications of deep learning in supervised speech separation | |
Dahy et al. | Dilated Multi-Activation Autoencoder to Improve the Performance of Sound Separation Mechanisms | |
Guo et al. | A Chinese Speech Recognition System Based on Binary Neural Network and Pre-processing | |
Gehani et al. | A Study of Sample Size Requirement and Effectiveness of Mel-Scaled Features for Small-Footprint Keyword Spotting in a Limited Dataset Environment | |
CN117373474A (zh) | 语音处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |