CN111429938B - 一种单通道语音分离方法、装置及电子设备 - Google Patents

一种单通道语音分离方法、装置及电子设备 Download PDF

Info

Publication number
CN111429938B
CN111429938B CN202010388103.5A CN202010388103A CN111429938B CN 111429938 B CN111429938 B CN 111429938B CN 202010388103 A CN202010388103 A CN 202010388103A CN 111429938 B CN111429938 B CN 111429938B
Authority
CN
China
Prior art keywords
voice
module
voice signal
tensor
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010388103.5A
Other languages
English (en)
Other versions
CN111429938A (zh
Inventor
毛启容
陈静静
钱双庆
高利剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Publication of CN111429938A publication Critical patent/CN111429938A/zh
Application granted granted Critical
Publication of CN111429938B publication Critical patent/CN111429938B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种单通道语音分离方法、装置及电子设备,使用编码器提取混合语音信号特征,分割提取到的语音信号特征并将其重新拼接成3‑D的张量;利用融合了自注意力机制的双路循环神经网络对拼接好的3‑D张量进行建模,学习语音信号之间的长时间依赖关系;将建模后的3‑D张量进行交叠相加,还原为序列语音信号特征;使用解码器将序列语音信号特征重构为纯净语音信号,得到分离的语音信号。本发明以提升语音分离性能为目的对长时间的语音信号进行建模,充分挖掘了语音信号之间的长时间依赖关系,分离效果较好,有效地降低了语音的失真率,同时提高了分离语音的可懂性。

Description

一种单通道语音分离方法、装置及电子设备
技术领域
本发明涉及语音信号处理、模式识别等领域,特别涉及一种单通道语音分离方法、装置及电子设备。
背景技术
单通道语音分离是指从一个多人说话的混合语音中,分离出每一个人的纯净语音,是信号处理领域的一个重要分支。其在现实世界中有许多实际应用,例如:从混合噪声语音中分离出纯净语音信号来提升语音识别和说话人识别的准确性。在视频会议转录、听力辅助、移动通信等领域,单通道语音分离都有着广阔的应用前景和实际意义。
传统的单通道语音分离主要是采用非负矩阵分解法和听觉场景分析法。非负矩阵分解法通过非负词典将混合语音信号的频谱特征解耦为与说话人相关的特定表示,然后从这些特定表示中得到每一个人的纯净语音。听觉场景分析法则是先将频谱特征分解为时间-频率分块,再通过将分块归组的方式提取特定说话人的语音信号。然而,这些传统方法只能处理已知说话人的语音分离任务,无法泛化到未知说话人混合语音的分离上,应用场景大大受限。进入深度学习时代以后,基于频谱特征的神经网络解决了泛化问题,并且在一定程度上提升了分离性能。但是基于频谱特征的神经网络仍然使用频谱特征作为神经网络的输入,大多数情况下只对幅度特征进行了分离,并没有处理相位信息;导致神经网络分离出的语音中存在伪像,使得其存在性能上限,无法最大化地提升分离性能。为了克服这一问题,时域分离法通过卷积-反卷积的方式提取语音信号特征和恢复语音信号,从原理上避免了伪像的产生,大大提升了语音分离的性能。然而,时域分离系统通常需要对极长的输入序列进行建模,需要挖掘输入序列中帧与帧之间关系,这对于时域分离法来说是一个巨大的挑战。
发明内容
针对现有技术中存在不足,本发明提供了一种单通道语音分离方法、装置及电子设备,与现有方法相比,充分挖掘了语音信号之间的长时间依赖关系,分离效果更好,有效地降低了语音的失真率,同时提高了分离语音的可懂性。
本发明是通过以下技术手段实现上述技术目的的。
一种单通道语音分离方法,分割提取的语音信号特征并将其重新拼接成3-D张量,利用融合了自注意力机制的双路循环神经网络对拼接的3-D张量进行建模,学习语音信号之间的长时间依赖关系,将建模后的3-D张量还原为序列语音信号特征,将序列语音信号特征重构为纯净语音信号,得到分离的语音信号。
进一步,所述自注意力机制融合循环神经网络,把由多个查询query组成的Q、多个键值对(keys,values)组成的(K,V)映射到一个指定的输出。
更进一步,所述自注意力机制包括点乘注意力模块、多头注意力模块、残差归一化模块和循环神经网络模块。
更进一步,所述循环神经网络模块采用双向循环神经网络。
更进一步,所述融合循环神经网络的自注意力机制再融合到双路网络中。
更进一步,所述双路网络包括块内模块和块际模块。
更进一步,所述双路网络的计算方式为:
IntraD=LN([MultiHead(D[:,:,s],D[:,:,s],D[:,:,s]),s=1,...,H])
Intrablock(D)=[BiLSTM(IntraD[:,:,s]),s=1,...,H]
Figure BDA0002484834550000021
Figure BDA0002484834550000022
Figure BDA0002484834550000023
其中,IntraD指块内模块中经多头注意力模块、残差归一化模块处理后的输出,
Figure BDA0002484834550000024
指块际模块中经多头注意力模块、残差归一化模块处理后的输出,Intrablock(D)、
Figure BDA0002484834550000025
分别为块内模块、块际模块的输出,BiLSTM为双向长短期记忆单元,MultiHead为多头注意力模块,D为张量,P为单位对长度,H为语音信号特征的块数。
一种单通道分离语音分离装置,包括依次连接的语音采集模块、语音分离模块和语音播放模块;
所述语音采集模块采集单通道混合语音信号;
所述语音分离模块基于自注意力机制和双路循环神经网络对混合语音信号进行分离,得到分离的语音信号;
所述语音播放模块播放从语音分离模块得到的语音信号。
上述技术方案中,所述基于自注意力机制和双路循环神经网络对混合语音信号进行分离,具体为:
分割提取的语音信号特征并将其重新拼接成3-D张量,利用融合了自注意力机制的双路循环神经网络对拼接的3-D张量进行建模,学习语音信号之间的长时间依赖关系,将建模后的3-D张量还原为序列语音信号特征,将序列语音信号特征重构为纯净语音信号,得到分离的语音信号。
一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行:分割提取的语音信号特征并将其重新拼接成3-D张量,利用融合了自注意力机制的双路循环神经网络对拼接的3-D张量进行建模,学习语音信号之间的长时间依赖关系,将建模后的3-D张量还原为序列语音信号特征,将序列语音信号特征重构为纯净语音信号,得到分离的语音信号。
本发明具有有益效果为:本发明利用基于自注意力机制的双路循环神经网络对长时间的语音信号进行建模,充分挖掘了语音信号之间的长时间依赖关系,将建模后的3-D张量还原为序列语音信号特征,将序列语音信号特征重构为纯净语音信号,得到分离的语音信号;有效地降低了语音的失真率,同时提高了分离语音的可懂性。
附图说明
图1为本发明单通道语音分离方法流程图;
图2为本发明融合循环神经网络的自注意力机制说明示意图;
图3为本发明融合自注意力机制的双路循环神经网络说明示意图;
图4为本发明单通道分离语音分离装置的结构示意图;
图5为本发明电子设备结构示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都是本发明保护的范围。
参见图1,一种基于自注意力机制和双路循环神经网络的单通道语音分离方法,该方法包括如下步骤:
步骤一,编码器接收多人说话的混合语音信号,并提取混合语音信号特征:
使用一维卷积神经网络作为编码器,从多人说话的混合语音信号当中提取特征X∈RN×L,该特征是一个2-D的张量,其中,R表示实数集,L为提取到的语音信号特征的时间步数目,N为提取到的语音信号特征的维度。
步骤二,分割提取的语音信号特征并将其重新拼接成3-D的张量:
以P为单位对长度对L的语音信号特征进行分块,得到H个分块;其中块与块之间有重叠部分,即存在块内重叠;然后再将所有的块拼接在一起,形成一个3-D的张量D∈RN×P×H
步骤三,利用融合了自注意力机制的双路循环神经网络对拼接好的3-D张量进行建模,学习语音信号之间的长时间依赖关系:
如图2所示,自注意力机制融合循环神经网络,把由多个查询query组成的Q、多个键值对(keys,values)组成的(K,V)映射到一个指定的输出。
自注意力机制包括点乘注意力模块、多头注意力模块、残差归一化模块和循环神经网络模块。
点乘注意力模块首先通过Q和对应的K来计算权重,然后根据该权重对V进行加权求和,以此来得到输出。其计算公式如下:
Figure BDA0002484834550000041
其中,dmodel为输入序列的维度,在本发明中等于语音信号特征的维度N;KT表示矩阵K的转置,SoftMax为激活函数;在SoftMax之前设有归一化层。
多头注意力模块由多个点乘注意力模块组合而成。多头注意力模块首先对Q、K、V进行线性映射,然后再将映射之后的结果送入多个点乘注意力模块进行运算,最后将多个点乘注意力模块的运算结果进行拼接,得到多头注意力模块的输出。其计算公式如下:
Figure BDA0002484834550000042
MultiHead(Q,K,V)=Concat(head1,...,headh)WO (3)
其中,
Figure BDA0002484834550000043
都为全连接层的参数;h为并行的点乘注意力模块的个数;且h、dmodel、dk、dV之间存在如下关系:dk=dV=dmodel/h,dk
Figure BDA0002484834550000044
的维度,dV
Figure BDA0002484834550000045
的维度。多头注意力模块参数较少,且能够有效学习语音信号之间的长时间依赖关系,有利于提升最终的语音分离性能。
残差归一化模块则是将多头注意力模块的输出与起始的输入(Q、K、V)进行相加,然后再对其进行层归一化操作。设需要进行归一化的对象为U∈RN×P×H,则此处归一化的计算方式为:
Figure BDA0002484834550000046
Figure BDA0002484834550000047
Figure BDA0002484834550000051
其中:μ(U)、σ(U)分别为U的均值和方差;LN表示层归一化;z、r是归一化因子,ε是一个防止分母为0的极小正数。残差归一化有利于神经网络参数的收敛,防止神经网络在训练过程中出现梯度爆炸或梯度消失现象。
循环神经网络模块是一个双向长短期记忆单元BiLSTM。其计算方式如下:
Γu=σ(Wu[a<t-1>;x<t>]+bu) (7)
Γf=σ(Wf[a<t-1>;x<t>]+bf) (8)
Γo=σ(Wo[a<t-1>;x<t>]+bo) (9)
~c<t>=tanh(Wc[a<t-1>;x<t>]+bc) (10)
c<t>=Γu*~c<t>f*c<t-1> (11)
a<t>=Γo*tanh(c<t>) (12)
其中,Γu、Γf、Γo分别为更新门、遗忘门、输出门;Wu、bu为更新门的参数,Wf、bf为遗忘门的参数,Wo、bo为输出门的参数,Wc、bc为记忆单元的参数;x<t>为当前时刻的输入,a<t>为当前时刻的输出,c<t>和~c<t>为模块中的记忆单元。双向循环神经网络可以进一步学习语音信号中帧与帧之间的长时间依赖关系,促进最终语音分离性能的提升。此外,双向循环神经网络还可以为自注意力机制提供位置信息。
如图3所示,将融合循环神经网络的自注意力机制融合到一个双路网络中去。双路网络分为两个模块:块内模块和块际模块。双路网络需要处理的对象为3-D张量D∈RN×P×H,根据融合循环神经网络的自注意力机制过程,得到双路网络的计算方式为:
IntraD=LN([MultiHead(D[:,:,s],D[:,:,s],D[:,:,s]),s=1,...,H]) (13)
Intrablock(D)=[BiLSTM(IntraD[:,:,s]),s=1,...,H] (14)
Figure BDA0002484834550000052
Figure BDA0002484834550000053
Figure BDA0002484834550000054
其中,IntraD指块内模块中,经多头注意力模块、残差归一化模块处理后的输出;
Figure BDA0002484834550000061
指块际模块中,经多头注意力模块、残差归一化模块处理后的输出;Intrablock(D)、
Figure BDA0002484834550000062
分别为块内模块、块际模块的输出。
使用块内、块际两个模块可以指数倍地减少所需要处理的语音信号特征的时间步数目,解决了对极长的时间序列信号建模难的问题,使得神经网络可以充分挖掘语音信号之间的长时间依赖关系,极大地提升语音分离的性能。
此步骤用融合了自注意力机制的双路循环神经网络对步骤二中拼接好的3-D张量D∈RN×P×H进行建模,使用块内模块学习语音信号的局部信息、块际模块学习语音信号的全局信息,从而学习语音信号之间的长时间依赖关系;然后使用一个二维卷积神经网络将建模后的语音信号映射为多个人纯净语音的掩码D'∈R(S×N)×P×H,再将此掩码与原始的3-D张量D∈RN×P×H进行点乘,得到多个人的纯净语音信号特征D”∈R(S×N)×P×H;其中,S为混合语音中说话人的数目。
步骤四,将建模后的3-D张量进行交叠相加,还原为序列语音信号特征:
对多个人的纯净语音信号特征D”∈R(S×N)×P×H进行交叠相加操作,将其还原为多个人的纯净语音信号特征X'∈R(S×N)×L
步骤五,使用解码器将序列语音信号特征重构为纯净语音信号,得到分离的语音信号:
使用一维反卷积神经网络作为解码器,将每个人的纯净语音信号特征恢复为各自的纯净语音信号,得到分离结果。
如图4所示,一种单通道分离语音分离装置,包括依次连接的语音采集模块、语音分离模块和语音播放模块;语音采集模块采集单通道混合语音信号;语音分离模块基于自注意力机制和双路循环神经网络对混合语音信号进行分离,得到分离的语音信号;语音播放模块播放从语音分离模块得到的语音信号。
基于自注意力机制和双路循环神经网络对混合语音信号进行分离,具体为:分割提取的语音信号特征并将其重新拼接成3-D张量,利用融合了自注意力机制的双路循环神经网络对拼接的3-D张量进行建模,学习语音信号之间的长时间依赖关系,将建模后的3-D张量还原为序列语音信号特征,将序列语音信号特征重构为纯净语音信号,得到分离的语音信号。
如图5所示,一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行。
其中,存储器可以是高速随机存取存储器(Random-Access Memory,RAM)或者是非易失性存储器(non-vloatile memory),例如三星860EVO磁盘存储器等。存储器用于存放程序,包括本发明单通道语音分离方法的程序代码。存储器还包含内存,用来向处理器提供指令和数据。
处理器可为英特尔酷睿i5-4200U处理器。处理器从存储器中读取对应的程序代码到内存中运行,形成本发明的单通道语音分离方法。处理器执行存储器所存放的程序,并具体用于执行以下操作:分割提取的语音信号特征并将其重新拼接成3-D张量,利用融合了自注意力机制的双路循环神经网络对拼接的3-D张量进行建模,学习语音信号之间的长时间依赖关系,将建模后的3-D张量还原为序列语音信号特征,将序列语音信号特征重构为纯净语音信号,得到分离的语音信号。
存储器和处理器可以通过内部总线相互连接,该内部总线可以是ISA(IdustryStandard Architecture,工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等;图5中用双向箭头表示总线。
上述双路循环神经网络在训练过程中以归一化信噪比(SI-SNR)为损失函数进行训练,其公式为:
Figure BDA0002484834550000071
Figure BDA0002484834550000072
Figure BDA0002484834550000073
其中,
Figure BDA0002484834550000074
为步骤五得到的分离语音,x为原始纯净语音。
实施例选用广泛使用的单通道语音分离基准数据集TIMIT来进行实验评估。为比较实施例方法与其他方法的性能,在TIMIT数据集上,将实施例方法与当下最先进的几个方法(语音级置换不变方法uPIT、时序卷积网络Conv-Tasnet、双路循环神经网络DPRNN)进行对比,从而证明实施例所提方法的有效性和优越性。在所有实验当中,实施例采用信号失真比(SDR)作为评价指标,该指标数值越大,则代表语音的失真率越低。
TIMIT数据集总共包含了6300条语音,来自630个人,每个人10条语音。TIMIT数据集中的每一条语音都只源自一个说话人,因此需要将这些纯净语音进行混合来得到混合语音。从TIMIT数据集当中随机抽取两条纯净语音,然后以0dB~5dB之间的一个随机数作为信噪比将这两条语音进行混合,得到混合语音,并将此作为训练集中的一个样本;重复上述操作以得到整个训练集。验证集和测试集也按照上述操作获得,获取验证集和测试集的过程中保证所抽取的语音都为未知说话人的语音。最终,训练集、验证集、测试集各包含样本约10000、1000、1000个。实施例使用混合而成的训练集、验证集、测试集来评估提出的方法的性能。
表1不同方法在TIMIT数据集上的SDR指标
方法 SDR(dB)
uPIT 7.9
Conv-Tasnet 12.4
DPRNN 15.1
本发明方法 18.0
从表1的实验结果中,可以明显地看出,在单通道语音分离任务上,在TIMIT数据集上本发明SDR指标达到18.0,远高于其他现有方法,本发明基于自注意力机制和双路循环神经网络的单通道语音分离方法优于所有的现有先进方法。
由此,本发明基于自注意力机制和双路循环神经网络的单通道语音分离方法,可以充分挖掘语音信号之间的长时间依赖关系,提升语音分离性能,有效降低语音的失真率,同时提高分离语音的可懂性,在理论研究和实际应用领域都具有很好的借鉴意义。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (3)

1.一种单通道语音分离方法,其特征在于,包括以下步骤:编码器接收多人说话的混合语音信号,并提取混合语音信号特征;分割提取的混合语音信号特征,并将其重新拼接成3-D张量;利用融合了自注意力机制的双路循环神经网络对拼接的3-D张量进行建模,学习语音信号之间的长时间依赖关系;将建模后的3-D张量进行交替叠加还原为序列语音信号特征;使用编码器将序列语音信号特征重构为纯净语音信号,得到分离的语音信号;其中,所述自注意力机制包括点乘注意力模块、多头注意力模块、残差归一化模块和循环神经网络模块;且所述循环神经网络模块采用双向循环神经网络;
其中,所述利用融合了自注意力机制的双路循环神经网络,是指将采用双向循环网络的自制力机制融合到双路网络中;
所述双路网络包括块内模块和块际模块;
所述双路网络的计算方式为:
IntraD=LN([MultiHead(D[:,:,s],D[:,:,s],D[:,:,s]),s=1,...,H])
Intrablock(D)=[BiLSTM(IntraD[:,:,s]),s=1,...,H]
Figure FDA0003741294090000011
Figure FDA0003741294090000012
Figure FDA0003741294090000013
其中,IntraD指块内模块中经多头注意力模块、残差归一化模块处理后的输出,
Figure FDA0003741294090000014
指块际模块中经多头注意力模块、残差归一化模块处理后的输出,Intrablock(D)、
Figure FDA0003741294090000015
分别为块内模块、块际模块的输出,BiLSTM为双向长短期记忆单元,MultiHead为多头注意力模块,D为张量,P为单位对长度,H为语音信号特征的块数。
2.一种单通道语音分离装置,其特征在于,包括依次连接的语音采集模块、语音分离模块和语音播放模块;
所述语音采集模块采集单通道混合语音信号;
所述语音分离模块基于自注意力机制和双路网络对混合语音信号进行分离,得到分离的语音信号;所述基于自注意力机制和双路网络对混合语音信号进行分离,具体为:分割提取的语音信号特征,并将其重新拼接成3-D张量;利用融合了自注意力机制的双路循环神经网络对拼接的3-D张量进行建模,学习语音信号之间的长时间依赖关系;将建模后的3-D张量进行交替叠加还原为序列语音信号特征,将序列语音信号特征重构为纯净语音信号,得到分离的语音信号;
所述语音播放模块播放从语音分离模块得到的语音信号。
3.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行,使所述处理器执行如权利要求1所述的方法。
CN202010388103.5A 2020-03-06 2020-05-09 一种单通道语音分离方法、装置及电子设备 Active CN111429938B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2020101507926 2020-03-06
CN202010150792 2020-03-06

Publications (2)

Publication Number Publication Date
CN111429938A CN111429938A (zh) 2020-07-17
CN111429938B true CN111429938B (zh) 2022-09-13

Family

ID=71558683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010388103.5A Active CN111429938B (zh) 2020-03-06 2020-05-09 一种单通道语音分离方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111429938B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112071329B (zh) * 2020-09-16 2022-09-16 腾讯科技(深圳)有限公司 一种多人的语音分离方法、装置、电子设备和存储介质
CN111899757B (zh) * 2020-09-29 2021-01-12 南京蕴智科技有限公司 针对目标说话人提取的单通道语音分离方法及系统
CN112289338B (zh) * 2020-10-15 2024-03-12 腾讯科技(深圳)有限公司 信号处理方法及装置、计算机设备以及可读存储介质
CN112331182A (zh) * 2020-10-26 2021-02-05 平安科技(深圳)有限公司 语音数据生成方法、装置、计算机设备及存储介质
CN112992121B (zh) * 2021-03-01 2022-07-12 德鲁动力科技(成都)有限公司 基于注意力残差学习的语音增强方法
CN113380262B (zh) * 2021-05-13 2022-10-18 重庆邮电大学 一种基于注意力机制与扰动感知的声音分离方法
CN113345464A (zh) * 2021-05-31 2021-09-03 平安科技(深圳)有限公司 语音提取方法、系统、设备及存储介质
CN113744753B (zh) * 2021-08-11 2023-09-08 清华大学苏州汽车研究院(相城) 一种多人语音分离方法及语音分离模型的训练方法
CN113782045B (zh) * 2021-08-30 2024-01-05 江苏大学 一种多尺度时延采样的单通道语音分离方法
CN114783459B (zh) * 2022-03-28 2024-04-09 腾讯科技(深圳)有限公司 一种语音分离方法、装置、电子设备和存储介质
CN116564351B (zh) * 2023-04-03 2024-01-23 湖北经济学院 一种语音对话质量评价方法、系统与便携式电子设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104538028B (zh) * 2014-12-25 2017-10-17 清华大学 一种基于深度长短期记忆循环神经网络的连续语音识别方法
CN104700828B (zh) * 2015-03-19 2018-01-12 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
CN108109619B (zh) * 2017-11-15 2021-07-06 中国科学院自动化研究所 基于记忆和注意力模型的听觉选择方法和装置
US11145293B2 (en) * 2018-07-20 2021-10-12 Google Llc Speech recognition with sequence-to-sequence models
CN110085249B (zh) * 2019-05-09 2021-03-16 南京工程学院 基于注意力门控的循环神经网络的单通道语音增强方法
CN110634502B (zh) * 2019-09-06 2022-02-11 南京邮电大学 基于深度神经网络的单通道语音分离算法
CN110675860A (zh) * 2019-09-24 2020-01-10 山东大学 基于改进注意力机制并结合语义的语音信息识别方法及系统

Also Published As

Publication number Publication date
CN111429938A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN111429938B (zh) 一种单通道语音分离方法、装置及电子设备
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN110060690B (zh) 基于STARGAN和ResNet的多对多说话人转换方法
Lu et al. Ensemble modeling of denoising autoencoder for speech spectrum restoration.
CN110310647B (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
CN110459225B (zh) 一种基于cnn融合特征的说话人辨认系统
US20160189730A1 (en) Speech separation method and system
CN111627429B (zh) 一种基于CycleGAN的语音识别模型的防御方法及装置
CN108922559A (zh) 基于语音时频变换特征和整数线性规划的录音终端聚类方法
CN102664010B (zh) 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法
CN103065629A (zh) 一种仿人机器人的语音识别系统
CN108520753A (zh) 基于卷积双向长短时记忆网络的语音测谎方法
CN110060657B (zh) 基于sn的多对多说话人转换方法
CN111048097B (zh) 一种基于3d卷积的孪生网络声纹识别方法
CN109378014A (zh) 一种基于卷积神经网络的移动设备源识别方法及系统
CN111899757A (zh) 针对目标说话人提取的单通道语音分离方法及系统
CN113129897A (zh) 一种基于注意力机制循环神经网络的声纹识别方法
KR102026226B1 (ko) 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템
Wang et al. Residual-guided personalized speech synthesis based on face image
Wang et al. Robust speaker identification of iot based on stacked sparse denoising auto-encoders
Lei et al. Speaker recognition using wavelet cepstral coefficient, i-vector, and cosine distance scoring and its application for forensics
Zheng et al. MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios
CN111243621A (zh) 一种用于合成语音检测的gru-svm深度学习模型的构造方法
Meng et al. Noisy training for deep neural networks
CN115472168B (zh) 耦合bgcc和pwpe特征的短时语音声纹识别方法、系统及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant