CN109841220B - 语音信号处理模型训练方法、装置、电子设备及存储介质 - Google Patents

语音信号处理模型训练方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN109841220B
CN109841220B CN201711191604.9A CN201711191604A CN109841220B CN 109841220 B CN109841220 B CN 109841220B CN 201711191604 A CN201711191604 A CN 201711191604A CN 109841220 B CN109841220 B CN 109841220B
Authority
CN
China
Prior art keywords
task
signal processing
training
voice signal
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711191604.9A
Other languages
English (en)
Other versions
CN109841220A (zh
Inventor
陈联武
于蒙
罗敏
苏丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201910745812.1A priority Critical patent/CN110444214B/zh
Priority to CN201711191604.9A priority patent/CN109841220B/zh
Priority to EP18880575.8A priority patent/EP3611725B1/en
Priority to PCT/CN2018/115704 priority patent/WO2019100998A1/zh
Publication of CN109841220A publication Critical patent/CN109841220A/zh
Priority to US16/655,548 priority patent/US11158304B2/en
Application granted granted Critical
Publication of CN109841220B publication Critical patent/CN109841220B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明实施例提供一种语音信号处理模型训练方法、装置、电子设备及存储介质,该方法包括:获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征;根据各语音信号处理任务的训练损失函数,确定目标训练损失函数;将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络收敛,得到语音信号处理模型;其中,待训练的多任务神经网络包括:共享层,和各语音信号处理任务对应的任务层。本发明实施例可降低训练语音信号处理模型的计算复杂度,提高语音信号处理模型的训练效率。

Description

语音信号处理模型训练方法、装置、电子设备及存储介质
技术领域
本发明涉及语音处理技术领域,具体涉及一种语音信号处理模型训练方法、装置、电子设备及存储介质。
背景技术
随着语音识别技术的发展,为了在复杂环境下保持较好的语音识别率,语音前端的语音信号处理技术的性能尤为重要;目前一般的语音识别过程为,语音前端对输入的多通道语音进行语音信号处理,输出单通道语音,再将单通道语音送给语音后台进行语音识别。
语音前端传统的语音信号处理过程一般包括多个语音信号处理任务,通过该多个语音信号处理任务递进协同的对输入的多通道语音进行处理,完成单通道语音的输出。以智能音箱场景为例,图1示出了语音前端传统的语音信号处理过程,该过程由多个语音信号处理任务构成,这些多个语音信号处理任务可具体包括:回声消除任务、语音检测任务、语音方向检测任务、麦克风阵列增强任务、单通道降噪任务、混响消除任务等;输入的多通道语音经过上述多个语音信号处理任务的协同处理后,可输出单通道语音,完成语音前端的语音信号处理。
随着深度学习技术的发展,神经网络技术应用的领域越来越广,为提高语音前端的语音信号处理性能,目前也出现了利用神经网络优化语音前端的语音信号处理过程的技术。该技术通过使用神经网络训练语音信号处理模型,利用语音信号处理模型替代语音前端传统的语音信号处理过程,或者辅助语音前端传统的语音信号处理过程,来提高语音前端的语音信号处理性能;可见,基于神经网络进行语音信号处理模型的训练,具有提高语音信号处理性能等重要技术意义。
然而,本发明的发明人发现,由于语音信号处理过程涉及的语音信号处理任务的数量较多,目前使用神经网络训练语音信号处理模型所面临的难题是,训练所涉及的计算复杂度较高,导致语音信号处理模型的训练效率较低;因此,如何降低训练语音信号处理模型的计算复杂度,提高语音信号处理模型的训练效率,成为了本领域技术人员需要解决的问题。
发明内容
有鉴于此,本发明实施例提供一种语音信号处理模型训练方法、装置、电子设备及存储介质,以降低训练语音信号处理模型的计算复杂度,提高语音信号处理模型的训练效率。
为实现上述目的,本发明实施例提供如下技术方案:
一种语音信号处理模型训练方法,包括:
获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征;
根据各语音信号处理任务的训练损失函数,确定目标训练损失函数;
将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络收敛,得到语音信号处理模型;其中,所述待训练的多任务神经网络包括:共享层,和各语音信号处理任务对应的任务层。
本发明实施例还提供一种语音信号处理模型训练装置,包括:
任务输入特征确定模块,用于获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征;
目标损失函数确定模块,用于根据各语音信号处理任务的训练损失函数,确定目标训练损失函数;
模型训练模块,用于将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络收敛,得到语音信号处理模型;其中,所述待训练的多任务神经网络包括:共享层,和各语音信号处理任务对应的任务层。
本发明实施例还提供一种电子设备,包括:至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述存储器存储的程序,所述程序用于:
获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征;
根据各语音信号处理任务的训练损失函数,确定目标训练损失函数;
将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络收敛,得到语音信号处理模型;其中,所述待训练的多任务神经网络包括:共享层,和各语音信号处理任务对应的任务层。
本发明实施例还提供一种存储介质,所述存储介质存储有适用于处理器执行的程序,所述程序用于:
获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征;
根据各语音信号处理任务的训练损失函数,确定目标训练损失函数;
将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络收敛,得到语音信号处理模型;其中,所述待训练的多任务神经网络包括:共享层,和各语音信号处理任务对应的任务层。
基于上述技术方案,本发明实施例提供的语音信号处理模型训练方法包括:获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征;根据各语音信号处理任务的训练损失函数,确定目标训练损失函数;将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络收敛,得到语音信号处理模型;其中,所述待训练的多任务神经网络包括:共享层,和各语音信号处理任务对应的任务层。本发明实施例提供的语音信号处理模型训练方法,可基于包括共享层和各语音信号处理任务对应的任务层的多任务神经网络,训练得到语音信号处理模型,而不是相对于每一语音信号处理任务均单独进行神经网络的训练,有效的降低了训练语音信号处理模型的计算复杂度,提升了训练效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为传统的语音信号处理过程的示意图;
图2为传统的利用神经网络,训练得到语音信号处理模型的示意图;
图3为本发明实施例提供的多任务神经网络的结构示意图;
图4为本发明实施例提供的多任务神经网络的另一结构示意图;
图5为本发明实施例提供的语音信号处理模型训练方法的流程图;
图6为语音信号处理模型的训练示意图;
图7为本发明实施例提供的语音信号处理模型训练方法的另一流程图;
图8为语音信号处理模型的另一训练示意图;
图9为本发明实施例提供的语音信号处理模型训练方法的再一流程图;
图10为本发明实施例提供的语音信号处理模型训练方法的又一流程图;
图11为语音信号处理模型的应用场景示例图
图12为语音信号处理模型的输出结果的使用示例图;
图13为本发明实施例提供的语音信号处理模型训练装置的结构框图;
图14为本发明实施例提供的语音信号处理模型训练装置的另一结构框图;
图15为本发明实施例提供的语音信号处理模型训练装置的再一结构框图;
图16为电子设备的硬件结构框图。
具体实施方式
图2为传统的利用神经网络,训练得到语音信号处理模型的示意图,如图2所示,针对语音信号处理过程所涉及的各语音信号处理任务,分别的构建神经网络,分别的对各语音信号处理任务的神经网络进行训练,当某一神经网络达到对应的语音信号处理任务的训练收敛条件时,完成该神经网络的训练,在各神经网络训练完成后,将训练完成的各神经网络联合形成语音信号处理模型;这种语音信号处理模型的训练方式存在的问题是,需要分别针对各语音信号处理任务进行神经网络的训练,对于数量较多的语音信号处理任务而言,训练的计算复杂度较高;同时,每个神经网络相对独立,缺少语音信号处理任务之间的关联,导致训练得出的语音信号处理模型的性能具有一定的局限性。
基于此,本发明实施例考虑改进语音信号处理模型的神经网络结构,并基于改进后的神经网络结构进行语音信号处理模型的训练,降低训练语音信号处理模型的计算复杂度,提升训练效率;进一步在训练过程中体现语音信号处理任务之间的关联性,保障训练得出的语音信号处理模型具有可靠的性能。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例为达到降低训练语音信号处理模型的计算复杂度,并进一步保障语音信号处理模型的性能可靠的效果,改进了语音信号处理模型的神经网络结构,提出了一种新型的多任务神经网络;该多任务神经网络可如图3示,包括:共享层,和各语音信号处理任务对应的任务层;
可选的,在本发明实施例中,共享层的输入可导入各任务层,各任务层输出相应的语音信号处理任务的任务处理结果;其中,共享层可以体现具有共性的语音信号处理任务之间的关联性,各任务层可体现相应的语音信号处理任务的任务特性,使得各任务层的输出结果能够更好的反映相应的语音信号处理任务的任务需求。
可选的,在本发明实施例中,共享层可定义为LSTM(Long Short Term Memory,长短期记忆)网络,作为一种可选示例,共享层可以是两层的LSTM网络;任务层可定义为MLP(Multi layer Perceptron,多层感知器)全连接网络,即各任务层可以均是MLP全连接网络,作为一种可选示例,各任务层可以均是一层的MLP全连接网络。
以图1所示多个语音信号处理任务为例,本发明实施例提供的多任务神经网络可以如图4所示,包括:
共享层,回声消除任务层、语音检测任务层、…、单通道降噪任务层、混响消除任务层。
显然,在具体的语音信号处理过程中,多个语音信号处理任务并不限于图1所示,可能是在图1所示多个语音信号处理任务的基础上删减和/或增强了某些语音信号处理任务。
基于上述本发明实施例提供的多任务神经网络,本发明实施例可进行该多任务神经网络的训练,得到语音信号处理模型。
在一种训练语音信号处理模型的可选实现上,本发明实施例可同时基于所有的语音信号处理任务训练多任务神经网络,更新多任务神经网络的共享层和各任务层的参数;
可选的,图5示出了本发明实施例提供的语音信号处理模型训练方法的一种可选流程,该方法可应用于具有数据处理能力的电子设备,该电子设备可选用笔记本电脑、PC(个人计算机)等具有数据处理能力的终端设备实现,也可选用网络侧的服务器实现;参照图5,该方法流程可以包括:
步骤S100、获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征。
可选的,样本语音可以认为是训练语音信号处理模型所使用的样本,样本语音可以是多通道语音;本发明实施例所获取的样本语音的数量可以为多个,可以对每条样本语音,均确定出各语音信号处理任务的任务输入特征。
对于语音前端的语音信号处理过程所涉及的各语音信号处理任务,本发明实施例可对样本语音,分别获取各语音信号处理任务的任务输入特征;可选的,语音前端的语音信号处理过程所涉及的多个语音信号处理任务可以如图1所示,当然,也可以在图1所示多个语音信号处理任务的基础上,删减语音信号处理任务,和/或,增强其他形式的语音信号处理任务;
可选的,为便于理解,作为一种可选示例,以语音前端的语音信号处理过程所涉及的语音信号处理任务包括:回声消除任务(回声消除任务可用于进行单通道语音谱的估计)和语音检测任务(语音检测任务可用于进行语音存在概率的估计)为例;则本发明实施例可获取样本语音的回声消除任务的任务输入特征,具体如:样本语音的带噪单通道语音的频谱能量及标注为干净语音的频谱能量;获取样本语音的语音检测任务的任务输入特征,具体如:样本语音是否存在语音的标记值(可选的,标记值可以是0/1值,其中0表示不存在语音,1表示存在语音);
显然,上段描述的语音信号处理任务仅是作为示例,语音信号处理过程实际所涉及的语音信号处理任务可能更多,本发明实施例可对样本语音,分别获取不同语音信号处理任务相应的任务输入特征,而不同的语音信号处理任务所对应的任务输入特征可能不同。
步骤S110、根据各语音信号处理任务的训练损失函数,确定目标训练损失函数。
本发明实施例是通过训练所有的语音信号处理任务,来实现多任务神经网络的共享层和各任务层的参数更新,因此训练所使用的总训练损失函数(称为目标训练损失函数)需基于各语音信号处理任务的训练损失函数确定;
可选的,鉴于传统的分别针对各语音信号处理任务,单独进行神经网络训练的方案,本发明实施例可确定出各语音信号处理任务的训练损失函数;从而对于任一语音信号处理任务,本发明实施例可将该语音信号处理任务的训练损失函数,乘以该语音信号处理任务相应的权重,得到该语音信号处理任务相应的相乘结果,以此确定出各语音信号处理任务相应的相乘结果后,进而将各相乘结果相加,可得到目标训练损失函数;
示例的,设第i个语音信号处理任务的训练损失函数为Li,ai为第i个语音信号处理任务相应的权重,则可根据如下公式确定目标训练损失函数Lall
Figure BDA0001481160070000071
其中,ai的数值可以根据实际情况进行设置,也可统一设置为1;N为语音信号处理任务的总数。
步骤S120、将样本语音的各语音信号处理任务的任务输入特征,作为多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对多任务神经网络的共享层和各任务层的参数进行更新,直至多任务神经网络收敛,得到语音信号处理模型。
在确定样本语音的各语音信号处理任务的任务输入特征,及确定训练的目标训练损失函数后,本发明实施例可对多任务神经网络进行训练,以实现多任务神经网络的共享层和各任务层的参数更新;具体的,本发明实施例可将样本语音的各语音信号处理任务的任务输入特征,作为多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对多任务神经网络进行训练,实现多任务神经网络的共享层和各任务层的参数更新,直至多任务神经网络收敛(如训练的迭代次数达到最大次数,或者目标训练损失函数不再减小),从而得到语音信号处理模型;
可选的,在确定训练输入,训练目标后,本发明实施例可使用随机梯度下降(Stochastic Gradient Descent,SGD)和/或反向传播(Back Propagation,BP)方法,对多任务神经网络的共享层和各任务层的参数进行更新;
可选的,在以最小化目标训练损失函数为训练目标,对多任务神经网络的共享层和各任务层的参数进行更新时,共享层的参数更新可根据目标训练损失函数实现,如在每次训练时,可使用随机梯度下降方法,根据每次训练得出的目标训练损失函数进行共享层的参数更新;而一语音信号处理任务对应的任务层的参数更新,可根据该语音信号处理任务的损失函数实现,如在每次训练时,可使用随机梯度下降方法,根据每次训练得出的该语音信号处理任务的训练损失函数,进行该语音信号处理任务对应的任务层的参数更新;从而既可通过共享层体现具有共性的语音信号处理任务之间的关联性,又可通过各任务层体现相应的语音信号处理任务的任务特性,使得各任务层的输出结果能够更好的反映相应的语音信号处理任务的任务需求。
可选的,作为一种示例,共享层可以是LSTM网络,一任务层可以是MLP全连接网络;更新多任务神经网络的共享层的参数可以如,更新LSTM网络的参数,包括但不限于更新LSTM网络的输入层到隐含层的连接参数、隐含层到输出层的连接参数、以及隐含层到隐含层之间的连接参数等;更新多任务神经网络的一任务层的参数可以如,更新MLP全连接网络的参数,包括但不限于更新MLP全连接网络的输入层到隐含层的连接参数、隐含层到输出层的连接参数等。
可选的,为便于理解,作为一种可选示例,若统一设置各语音信号处理任务相应的权重为1,且以语音前端的语音信号处理过程所涉及的语音信号处理任务包括:回声消除任务和语音检测任务为例;则进行语音信号处理模型的训练示意可如图6所示,过程如下:
将样本语音的回声消除任务和语音检测任务的输入特征,作为多任务神经网络的训练输入;以最小化回声消除任务的训练损失函数与语音检测任务的训练损失函数的和,为训练目标;对多任务神经网络的共享层,回声消除任务层和语音检测任务层的参数进行更新,直至多任务神经网络的迭代次数达到最大次,或者,回声消除任务的训练损失函数与语音检测任务的训练损失函数的和不再减小,得到语音信号处理模型;
具体的,在每次训练时,可根据每次训练得出的回声消除任务与语音检测任务的训练损失函数的和,更新多任务神经网络的共享层的参数;可根据每次训练得出的回声消除任务的训练损失函数,更新回声消除任务层的参数;可根据每次训练得出的语音检测任务的训练损失函数,更新语音检测任务层的参数;
可选的,一般而言,回声消除任务的训练损失函数可以如:所估计的干净语音频谱能量与真实值的差异值;语音检测任务的训练损失函数可以是如:所估计的语音存在概率与真实值的差异值;相应的,若统一设置各语音信号处理任务相应的权重为1,则可确定目标训练损失函数为:回声消除任务的训练损失函数与语音检测任务的训练损失函数的和;从而在进行多任务神经网络的训练时,可以最小化回声消除任务的训练损失函数与语音检测任务的训练损失函数的和,为训练目标(即最小化所估计的干净语音频谱能量与真实值的差异值,及所估计的语音存在概率与真实值的差异值的相加结果)。
可见,图5所示的语音信号处理模型训练方法,可基于包括共享层和各语音信号处理任务对应的任务层的多任务神经网络,将样本语音的各语音信号处理任务的任务输入特征作为训练输入,进行多任务神经网络的共享层和各任务层的参数更新,训练得到语音信号处理模型。由于本发明实施例是基于具有共享层和各语音信号处理任务对应的任务层的多任务神经网络,根据样本语音的各语音信号处理任务的任务输入特征,同时的进行多任务神经网络的共享层和各任务层的参数更新训练,而不是相对于每一语音信号处理任务均单独进行神经网络的训练,因此训练语音信号处理模型所涉及的计算复杂度将极大的降低,有效的降低了训练语音信号处理模型的计算复杂度,提升了语音信号处理模型的训练效率。
上述同时基于所有的语音信号处理任务训练多任务神经网络,来更新多任务神经网络的共享层和各任务层的参数的方式,虽然相比于传统的分别针对各语音信号处理任务,单独训练神经网络的方式能够降低计算复杂度,但由于语音信号处理过程中各语音信号处理任务间的差异较大,同时基于所有的语音信号处理任务训练多任务神经网络,较难保障多任务神经网络的参数收敛性;基于此,本发明实施例根据语音信号处理过程中各语音信号处理任务的任务特性,还提供了一种分阶段进行多任务神经网络训练的方案。
可选的,图7示出了本发明实施例提供的语音信号处理模型训练方法的另一种可选流程,该方法可应用于具有数据处理能力的电子设备,参照图7,该方法流程可以包括:
步骤S200、获取样本语音。
步骤S210、从语音信号处理过程的多个语音信号处理任务中,确定至少一个第一类语音信号处理任务。
可选的,作为一种实现,第一类语音信号处理任务可以是,语音信号处理过程涉及的多个语音信号处理任务中的基本任务;可以理解的是,基本任务可以认为是语音信号处理过程的多个语音信号处理任务中,相对于其他的语音信号处理任务具有辅助效果的任务;
作为一种可选示例,以语音前端的语音信号处理过程所涉及的语音信号处理任务包括:回声消除任务和语音检测任务为例;由于回声消除任务能够实现单通道语音谱的估计,能极大提升语音概率估计的准确度,因此回声消除任务可以认为是基本语音信号处理任务。
可选的,作为另一种可选实现,第一类语音信号处理任务可以认为是,语音信号处理过程涉及的多个语音信号处理任务中训练复杂度较高的任务(可选的,如果语音信号处理任务的训练复杂度高于设定的复杂度阈值,可认为该语音信号处理任务为第一类语音信号处理任务);
作为一种可选示例,以语音前端的语音信号处理过程所涉及的语音信号处理任务包括:回声消除任务和语音检测任务为例;由于回声消除任务所进行的单通道语音谱的估计,需要得到所有M个频带的干净语音能量值,而语音检测任务所进行的语音存在概率估计,只需得到当前帧是否包含语音的单值估计,而M(如512)远大于1,从训练复杂度的角度看,回声消除任务的训练复杂度远高于语音检测任务,因此回声消除任务可视为是训练复杂度较高的第一类语音信号处理任务。
在本发明实施例中,第一类语音信号处理任务的数量可能是一个或多个。
步骤S220、确定样本语音的第一类语音信号处理任务的任务输入特征,及样本语音的各语音信号处理任务的任务输入特征。
在确定第一类语音信号处理任务后,针对样本语音,本发明实施例可确定样本语音的第一类语音信号处理任务的任务输入特征(如确定样本语音的回声消除任务的任务输入特征);同时,对于语音信号处理过程涉及的各语音信号处理任务,确定出样本语音的各语音信号处理任务的任务输入特征(如确定样本语音的回声消除任务的任务输入特征,和语音检测任务的任务输入特征等)。
步骤S230、根据第一类语音信号处理任务的训练损失函数,确定第一目标训练损失函数;及根据各语音信号处理任务的训练损失函数,确定目标训练损失函数。
可选的,对于第一类语音信号处理任务,本发明实施例可确定第一类语音信号处理任务的训练损失函数,在第一类语音信号处理任务的数量为至少一个的情况下,对于任一第一类语音信号处理任务,可将该第一类语音信号处理任务的训练损失函数,乘以该第一类语音信号处理任务相应的权重,得到该第一类语音信号处理任务的相乘结果,以确定出各第一类语音信号处理任务的相乘结果后,进而将各第一类语音信号处理任务的相乘结果相加,可得到第一目标训练损失函数;
可选的,设第i个第一类语音信号处理任务的训练损失函数为L1i,a1i为第i个第一类语音信号处理任务相应的权重,则第一目标训练损失函数L1all的确定可根据如下公式实现:
Figure BDA0001481160070000111
其中,N1为第一类语音信号处理任务的总数。
可选的,本发明实施例可以参照上文步骤S110部分所示,对各语音信号处理任务进行处理,得到目标训练损失函数。
步骤S240、将样本语音的第一类语音信号处理任务的任务输入特征,作为多任务神经网络的训练输入,以最小化第一目标训练损失函数为训练目标,对多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至多任务神经网络收敛,得到第一多任务神经网络。
可选的,本发明实施例可先基于第一类语音信号处理任务的任务输入特征,以最小化第一目标训练损失函数为训练目标,对初始的多任务神经网络进行训练;
在具体训练时,可对多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新;具体参数更新过程可以是:将样本语音的第一类语音信号处理任务的任务输入特征,作为多任务神经网络的训练输入,以最小化第一目标训练损失函数为训练目标,通过迭代的进行多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数更新,直至达到最大迭代次数,或者第一目标训练损失函数不再减小,从而得到第一多任务神经网络;
可选的,本发明实施例可根据每次训练得出的第一目标训练损失函数,更新共享层的参数;而对于每一第一类语音信号处理任务对应的任务层,可根据每次训练得出的该第一类语音信号处理任务的训练损失函数,更新该第一类语音信号处理任务对应的任务层的参数。
步骤S250、将样本语音的各语音信号处理任务的任务输入特征,作为第一多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对多任务神经网络的共享层和各语音信号处理任务对应的任务层的参数进行更新,直至第一多任务神经网络收敛,得到语音信号处理模型。
可选的,本发明实施例基于第一类语音信号处理任务的任务输入特征,以最小化第一目标训练损失函数为训练目标,对多任务神经网络进行训练,得到第一多任务神经网络后,可再基于各语音信号处理任务的任务输入特征,以最小化目标训练损失函数为训练目标,对第一多任务神经网络进行训练,得到语音信号处理模型;
在具体训练时,可对第一多任务神经网络的共享层和各语音信号处理任务对应的任务层的参数进行更新;具体参数更新过程可以是:将样本语音的各语音信号处理任务的任务输入特征,作为第一多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,通过迭代的进行第一多任务神经网络的共享层和各语音信号处理任务对应的任务层的参数更新,直至达到最大迭代次数,或者目标训练损失函数不再减小,从而得到语音信号处理模型;
可选的,本发明实施例可根据每次训练得出的目标训练损失函数,更新共享层的参数;而对于每一语音信号处理任务对应的任务层,可根据每次训练得出的该语音信号处理任务的训练损失函数,更新该语音信号处理任务对应的任务层的参数。
为便于理解步骤S240和步骤S250所示的先后训练过程,作为一种可选示例,若统一设置各语音信号处理任务相应的权重为1,且以语音前端的语音信号处理过程所涉及的语音信号处理任务包括:回声消除任务和语音检测任务为例;则本发明实施例进行语音信号处理模型的训练过程可以如图8所示,过程如下:
先将样本语音的回声消除任务的输入特征(如样本语音的带噪单通道语音的频谱能量及标注为干净语音的频谱能量),作为多任务神经网络的训练输入,以最小化回声消除任务的训练损失函数为训练目标(如训练目标为,最小化所估计的干净语音频谱能量与真实值的差异值),对多任务神经网络的共享层和回声消除任务对应的任务层的参数进行更新,直至多任务神经网络的迭代次数达到最大次,或者,回声消除任务的训练损失函数不再减小,得到第一多任务神经网络;
进而,将样本语音的回声消除任务和语音检测任务的输入特征,作为第一多任务神经网络的训练输入;以最小化回声消除任务的训练损失函数与语音检测任务的训练损失函数的和,为训练目标;对第一多任务神经网络的共享层,回声消除任务和语音检测任务层的参数进行更新,直至第一多任务神经网络的迭代次数达到最大次,或者,回声消除任务的训练损失函数与语音检测任务的训练损失函数的和不再减小,得到语音信号处理模型。
可见,基于图7所示语音信号处理模型训练方法,本发明实施例可从多个语音信号处理任务中确定出基本任务,或者训练复杂度较高的任务,得到至少一个第一类语音信号处理任务;进而先以第一类语音信号处理任务的任务输入特征,作为多任务神经网络的训练输入,进行多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数更新训练,得到第一多任务神经网络;然后再以各语音信号处理任务的任务输入特征,作为第一多任务神经网络的训练输入,进行第一多任务神经网络的共享层和各任务层的参数更新训练,训练得到语音信号处理模型。
这个过程中,由于不再相对于每一语音信号处理任务均单独进行神经网络的训练,因此训练语音信号处理模型所涉及的计算复杂度得到了降低;同时,先以第一类语音信号处理任务的输入特征进行多任务神经网络的训练,再接着以各语音信号处理任务的任务输入特征,作为训练输入进行多任务神经网络的训练,可使得训练过程可体现语音信号处理任务之间的关联性,保障多任务神经网络的参数能够有效收敛,保障了训练得出的语音信号处理模型的可靠性能。
图7所示方法进行语音信号处理模型训练的过程中,是先根据第一类语音信号处理任务的任务输入特征,进行多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,训练得到第一多任务神经网络;在训练得到第一多任务神经网络的过程中,由于第一类语音信号处理任务是语音信号处理过程中的基本任务或者训练复杂度较高的任务,因此第一类语音信号处理任务对应的任务层的参数的可靠收敛,对于后续训练得出的语音信号处理模型的性能尤为关键;
可选的,本发明实施例为进一步保障第一类语音信号处理任务对应的任务层的参数的有效收敛,可根据第一类语音信号处理任务的不同输入特征分多个阶段的,进行第一类语音信号处理任务对应的任务层的参数的收敛训练;可选的,图9示出了本发明实施例提供的语音信号处理模型训练方法的再一种可选流程,需要说明的是,图9所示流程仅是可选的,在进行第一多任务神经网络的训练时,也可直接基于所有第一类语音信号处理任务的任务输入特征,直接进行第一多任务神经网络的训练,而不需如图9所示分多个阶段的进行第一多任务神经网络的训练;
可选的,图9所示方法可应用于具有数据处理能力的电子设备,参照图9,该方法流程可以包括:
步骤S300、获取样本语音。
步骤S310、从语音信号处理过程的多个语音信号处理任务中,确定至少一个第一类语音信号处理任务。
可选的,步骤S310的描述可参照步骤S210部分描述。
步骤S320、确定样本语音的第一类语音信号处理任务的任务输入特征,及样本语音的各类语音信号处理任务的任务输入特征;所述第一类语音信号处理任务的任务输入特征包括:多份任务输入特征;一份任务输入特征所包含的特征数量为至少一个。
可选的,在本发明实施例中,对于一第一类语音信号处理任务而言,一第一类语音信号处理任务的任务输入特征为多份,一份任务输入特征所包含的特征数量为至少一个;
作为一种可选示例,以第一类语音信号处理任务包括回声消除任务为例,则对于回声消除任务,本发明实施例可设置多份任务输入特征,如设置回声消除任务的第一份任务输入特征为:带噪单通道语音的频谱能量,及标注为干净语音的频谱能量;设置回声消除任务的第二份任务输入特征为:多通道语音的频谱能量;设置回声消除任务的第三份任务输入特征为:多通道语音的频谱能量,及参考信号的频谱能量(如智能音箱播放的音乐)等。
步骤S330、根据第一类语音信号处理任务的训练损失函数,确定第一目标训练损失函数;及根据各语音信号处理任务的训练损失函数,确定目标训练损失函数。
可选的,步骤S330的介绍可参照步骤S230部分描述。
步骤S340、根据当前训练阶段,从样本语音的第一类语音信号处理任务的多份任务输入特征中,选取当前训练阶段相应的当前份任务输入特征;将该当前份任务输入特征,作为上一训练阶段训练完成的多任务神经网络的训练输入,以最小化第一目标训练损失函数为训练目标,对上一训练阶段训练完成的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至根据最后一份任务输入特征,训练的多任务神经网络达到收敛,得到第一多任务神经网络。
可选的,步骤S340可以认为是,根据样本语音的第一类语音信号处理任务的多份任务输入特征,分多个训练阶段递进的对多任务神经网络进行训练(即分多个训练阶段递进的对多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新),得到第一多任务神经网络的一种可选实现,其中,一个训练阶段使用一份任务输入特征作为训练输入,且以最小化第一目标训练损失函数为训练目标;除通过步骤S340实现外,本发明实施例并不排除其他的,利用样本语音的第一类语音信号处理任务的多份任务输入特征,分多个训练阶段递进的对多任务神经网络进行训练的其他方式。
可选的,在步骤S340中,本发明实施例可分多个训练阶段的进行第一多任务神经网络的训练,从而依训练阶段的将第一类语音信号处理任务的每份任务输入特征,分别作为训练输入,对多任务神经网络进行训练,以得到第一多任务神经网络;且,在当前训练阶段中,第一类语音信号处理任务当前选取的当前份任务输入特征,作为上一训练阶段训练完成的多任务神经网络的训练输入。
可选的,作为示例,以第一类语音信号处理任务的任务输入特征包括三份,分别为第一份任务输入特征,第二份任务输入特征,第三份任务输入特征为例;则本发明实施例可先以第一份任务输入特征作为多任务神经网络的训练输入(即对于第一训练阶段,所选取的当前训练阶段的任务输入特征为第一份任务输入特征),以最小化第一目标训练损失函数为训练目标,对多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至网络达到收敛,得到第一训练阶段训练完成的多任务神经网络;
然后,以第二份任务输入特征作为第一训练阶段训练完成的多任务神经网络的训练输入(即对于第二训练阶段,所选取的当前训练阶段的任务输入特征为第二份任务输入特征),以最小化第一目标训练损失函数为训练目标,对第一训练阶段训练完成的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至网络达到收敛,得到第二训练阶段训练完成的多任务神经网络;
再以第三份任务输入特征作为第二训练阶段训练完成的多任务神经网络的训练输入(即对于第三训练阶段,所选取的当前训练阶段的任务输入特征为第三份任务输入特征),以最小化第一目标训练损失函数为训练目标,对第二训练阶段训练完成的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至网络达到收敛,得到第一多任务神经网络,完成基于第一类语音信号处理任务的多份任务输入特征,分多个训练阶段的训练得到第一多任务神经网络的过程。
为便于理解,以第一类语音信号处理任务为回声消除任务为例,则回声消除任务的第一份任务输入特征为:带噪单通道语音的频谱能量,及标注为干净语音的频谱能量;回声消除任务的第二份任务输入特征为:多通道语音的频谱能量;回声消除任务的第三份任务输入特征为:多通道语音的频谱能量,及参考信号的频谱能量(如智能音箱播放的音乐)等;
相应的,本发明实施例可先以样本语音的带噪单通道语音的频谱能量,及标注为干净语音的频谱能量作为多任务神经网络的训练输入,以最小化所估计的干净语音频谱能量与真实值的差异值为训练目标,更新多任务神经网络的共享层和回声消除任务的任务层的参数,直至迭代次数达到最大次数或者训练目标不再减小;
然后,以样本语音的多通道语音的频谱能量作为上段训练完成的多任务神经网络的训练输入,以最小化所估计的干净语音频谱能量与真实值的差异值为训练目标,更新多任务神经网络的共享层和回声消除任务的任务层的参数,直至迭代次数达到最大次数或者训练目标不再减小,使得训练后的多任务神经网络具备多通道的空间滤波的能力;
在完成多通道训练之后,还可以样本语音的多通道语音的频谱能量,及参考信号的频谱能量作为上段训练完成的多任务神经网络的训练输入,以最小化所估计的干净语音频谱能量与真实值的差异值为训练目标,更新多任务神经网络的共享层和回声消除任务的任务层的参数,直至迭代次数达到最大次数或者训练目标不再减小,得到第一多任务神经网络,使得第一多任务神经网络能够较好地拟合多通道输入信号和参考信号。
可选的,上述的第一类语音信号处理任务的多份任务输入特征的示例仅是可选的,本发明实施例可根据具体情况,设置第一类语音信号处理任务的任务输入特征的份数,以及每份任务输入特征所包含的具体特征;如在上述的示例中,带噪单通道语音的频谱能量、标注为干净语音的频谱能量、和多通道语音的频谱能量的任务输入特征也可合并在一起训练。
步骤S350、将样本语音的各语音信号处理任务的任务输入特征,作为第一多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对第一多任务神经网络的共享层和各语音信号处理任务对应的任务层的参数进行更新,直至第一多任务神经网络收敛,得到语音信号处理模型。
可选的,步骤S350的介绍可参照步骤S250部分描述。
可选的,在得到第一多任务神经网络后,对于语音检测、方向检测和混响消除等语音信号处理任务而言,这些任务较为简单且互相之间相对独立,可以合并在一起训练,因此可在得到第一多任务神经网络后,结合样本语音的各语音信号处理任务的任务输入特征,进行第一多任务神经网络的训练,得到语音信号处理模型。
需要说明的是,上述无论采用何种训练方式进行,在进行共享层和某一任务层的参数更新时,共享层的参数更新,基于当前训练所使用的所有任务的训练损失函数之和进行;而一任务层的参数更新,基于该任务层对应的任务的训练损失函数进行,从而可使得训练的语音信号处理模型既可通过共享层体现具有共性的语音信号处理任务之间的关联性,又可通过各任务层体现相应的语音信号处理任务的任务特性。
对上述说明的语音信号处理模型的各种训练过程进行归纳、总结,则本发明实施例提供的语音信号处理模型训练方法的基本核心流程可以如图10所示,图10为本发明实施例提供的语音信号处理模型训练方法的又一种可选流程,参照图10,该方法流程可以包括:
步骤S400、获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征。
可选的,步骤S400的介绍可参照步骤S100部分描述。
步骤S410、根据各语音信号处理任务的训练损失函数,确定目标训练损失函数。
可选的,步骤S410的介绍可参照步骤S110部分描述。
步骤S420、将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络达到收敛,得到语音信号处理模型。
可选的,作为一种可选实现,在步骤S420中,待训练的多任务神经网络可以是初始的多任务神经网络(相应的过程可归结到由图5所示流程实现);
可选的,作为另一种可选实现,在步骤S420中,待训练的多任务神经网络也可以是第一多任务神经网络,本发明实施例可利用图7所示方法流程中训练得到第一多任务神经网络的流程,先训练得到第一多任务神经网络,将第一多任务神经网络作为待训练的多任务神经网络;然后以图10所示方法,将样本语音的各语音信号处理任务的任务输入特征,作为第一多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对第一多任务神经网络的共享层和各任务层的参数进行更新,直至第一多任务神经网络收敛,得到语音信号处理模型。
可选的,第一多任务神经网络的训练,可基于样本语音的第一类语音信号处理任务的任务输入特征实现;进一步,作为一种可选示例,第一类语音信号处理任务可以具有多份任务输入特征,本发明实施例可基于图9所示的第一多任务神经网络的训练流程,分多个训练阶段,训练得到第一多任务神经网络。
需要说明的是,上述的待训练的多任务神经网络无论是初始的多任务神经网络,还是第一多任务神经网络,待训练的多任务神经网络的结构必然是包括了共享层,和各语音信号处理任务对应的任务层;而对于所述共享层,是以最小化目标训练损失函数为训练目标,根据目标训练损失函数,对共享层的参数进行更新;对于任一语音信号处理任务对应的任务层,是以最小化目标训练损失函数为训练目标,根据该语音信号处理任务的训练损失函数,对该语音信号处理任务的任务层的参数进行更新。
本发明实施例提供的语音信号处理模型训练方法,可基于包括共享层和各语音信号处理任务对应的任务层的多任务神经网络,训练得到语音信号处理模型,而不是相对于每一语音信号处理任务均单独进行神经网络的训练,有效的降低了训练语音信号处理模型的计算复杂度,提升了训练效率。
进一步,可在语音信号处理模型的训练过程中,通过先基于样本语音的第一类语音信号处理任务的任务输入特征进行训练,然后基于各语音信号处理任务的任务输入特征进行训练,可挖掘出语音信号处理过程中多任务之间的关联性,提升语音信号处理性能,保障训练得到的语音信号处理模型的性能可靠。
在以上述方法流程训练得到语音信号处理模型后,可选的,本发明实施例可使用语音信号处理模型替代语音前端传统的语音信号处理过程,如具体可用语音信号处理模型的各任务层的输出结果,替代语音前端传统的相应的语音信号处理任务的任务处理结果;
而在另一种实现上,本发明实施例可使用语音信号处理模型,辅助语音前端传统的语音信号处理过程,如具体可用语音信号处理模型的各任务层的输出,辅助语音前端传统的相应的语音信号处理任务进行任务处理。
图11示出了语音信号处理模型的应用场景示例图,如图11所示,在训练得到语音信号处理模型,本发明实施例可使用语音信号处理模型对输入即时通讯客户端的待识别语音,进行前端的语音信号处理,然后输送到即时通讯应用的语音后台服务器进行语音识别;可选的,即时通讯客户端可将语音信号处理模型的各任务层对待识别语音的输出,分别作为相应的语音信号处理任务的辅助处理信号,从而辅助各语音信号处理任务的处理,实现各语音信号处理任务更为准确的结果输出;
参照图11,作为一种可选应用场景,在即时通讯客户端装载本发明实施例训练好的语音信号处理模型的基础上,具体应用过程可以包括:
S1、即时通讯客户端获取输入的待识别语音。
S2、即时通讯客户端根据预训练的语音信号处理模型,确定语音信号处理模型的各任务层对待识别语音的输出结果。
其中,语音信号处理模型以最小化目标训练损失函数为训练目标,训练多任务神经网络得到;其中,目标训练损失函数根据各语音信号处理任务的训练损失函数确定;多任务神经网络包括共享层,和各语音信号处理任务对应的任务层。
S3、即时通讯客户端将各任务层对待识别语音的输出结果,作为相应的语音信号处理任务的任务处理结果,或,使用各任务层对待识别语音的输出结果,辅助相应的语音信号处理任务进行任务处理,以得到前端的语音信号处理结果。
S4、即时通讯客户端将前端的语音信号处理结果,发送给语音后台服务器,以便语音后台服务器根据语音信号处理结果,对待识别语音进行语音识别。
可选的,图12示出了语音信号处理模型的输出结果的一种使用示例,参照图12,针对语音前端传统的回声消除任务,语音信号处理模型的回声消除任务层可输出待识别语音的语音谱估计结果,从而将该语音谱估计结果作为语音前端传统的回声消除任务的辅助处理信号,使得回声消除任务在处理时能够更好的区分参考信号和语音信号的比例,提升回声消除任务的输出结果的准确性;显然,在另一种实现上,本发明实施例也可直接将语音信号处理模型的回声消除任务层对待识别语音的输出结果,作为回声消除任务的输出结果;
针对语音检测任务,语音信号处理模型的语音检测任务层可输出待识别语音的输出结果,将该输出结果作为语音前端传统的语音检测任务的辅助处理信号(如将语音检测任务层的输出结果,与语音前端传统的语音检测任务的输出结果的加权平均值作为最后的语音检测任务的输出结果),使得语音检测任务的输出结果的准确性得以提升;显然,在另一种实现上,本发明实施例也可直接将语音信号处理模型的语音检测任务层对待识别语音的输出结果,作为语音检测任务的输出结果;
针对语音方向检测任务,语音信号处理模型的语音方向检测任务层可输出待识别语音的输出结果(如待识别语音的语音/噪声谱估计结果),从而用该输出结果辅助语音前端传统的语音方向检测任务,进行待识别语音的语音和噪声的估计,从而得到更为准确的语音方向估计结果;显然,在另一种实现上,本发明实施例也可直接将语音方向检测任务层输出的待识别语音的语音/噪声谱估计结果,作为语音方向检测任务的输出结果;
针对麦克风阵列增强任务,语音信号处理模型的麦克风阵列增强任务层可输出待识别语音的语音/噪声谱,以此辅助语音前端传统的麦克风阵列增强任务,从而更准确的估计出阵列算法的目标方向,以及阵列算法中所需要的噪声协方差矩阵等参数;显然,在另一种实现上,本发明实施例也可直接将麦克风阵列增强任务层的输出结果,作为麦克风阵列增强任务的输出结果;
针对单通道降噪任务,语音信号处理模型的单通道降噪任务层可输出待识别语音的语音/噪声谱,从而辅助语音前端传统的单通道降噪任务,实现单通道降噪任务中所需要的信噪比等关键参数的获取,提升单通道降噪任务的处理效果;显然,在另一种实现上,本发明实施例也可直接将单通道降噪任务层的输出结果,作为单通道降噪任务的输出结果;
针对混响消除任务,语音信号处理模型的混响消除任务层可输出房间混响估计,从而辅助语音前端传统的混响消除任务进行算法的参数调节,来控制混响消除的程度;显然,在另一种实现上,本发明实施例也可直接将混响消除任务层的输出结果,作为混响消除任务的输出结果。
可选的,上述描述的语音信号处理模型在待识别语音的语音信号处理过程中的应用仅是示例,可以理解为是在智能音箱场景下的语音信号处理过程的应用;显然,在不同的应用场景下,语音信号处理模型的应用方式可以根据实际情况适配调整,但不脱离使用语音信号处理模型替代语音前端传统的语音信号处理过程,或,使用语音信号处理模型,辅助语音前端传统的语音信号处理过程的思路。
下面对本发明实施例提供的语音信号处理模型训练装置进行介绍,下文描述的语音信号处理模型训练装置可以认为是,电子设备为实现本发明实施例提供的语音信号处理模型训练方法,所需设置的程序模块;下文描述的语音信号处理模型训练装置可与上文描述的语音信号处理模型训练方法相互对应参照。
图13为本发明实施例提供的语音信号处理模型训练装置的结构框图,该装置可应用于具有数据处理能力的电子设备,参照图13,该装置可以包括:
任务输入特征确定模块100,用于获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征;
目标损失函数确定模块200,用于根据各语音信号处理任务的训练损失函数,确定目标训练损失函数;
模型训练模块300,用于将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络收敛,得到语音信号处理模型;其中,所述待训练的多任务神经网络包括:共享层,和各语音信号处理任务对应的任务层。
可选的,模型训练模块300,用于以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,具体包括:
对于所述共享层,以最小化目标训练损失函数为训练目标,根据目标训练损失函数,对共享层的参数进行更新;及对于任一语音信号处理任务对应的任务层,以最小化目标训练损失函数为训练目标,根据该语音信号处理任务的训练损失函数,对该语音信号处理任务的任务层的参数进行更新。
可选的,所述待训练的多任务神经网络可以包括:第一多任务神经网络;相应的,图14示出了本发明实施例提供的语音信号处理模型训练装置的另一结构框图,结合图13和图14所示,该装置还可以包括:
第一网络训练模块400,用于从语音信号处理过程的多个语音信号处理任务中,确定至少一个第一类语音信号处理任务;确定样本语音的第一类语音信号处理任务的任务输入特征;根据第一类语音信号处理任务的训练损失函数,确定第一目标训练损失函数;将样本语音的第一类语音信号处理任务的任务输入特征,作为初始的多任务神经网络的训练输入,以最小化第一目标训练损失函数为训练目标,对初始的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至初始的多任务神经网络收敛,得到第一多任务神经网络。
可选的,第一网络训练模块400,用于从语音信号处理过程的多个语音信号处理任务中,确定至少一个第一类语音信号处理任务,具体包括:
确定所述多个语音信号处理任务中的基本任务,将所述基本任务确定为第一类语音信号处理任务,所述基本任务为所述多个语音信号处理任务中,相对于其他的语音信号处理任务具有辅助效果的任务;
或,将所述多个语音信号处理任务中,训练复杂度高于设定的复杂度阈值的语音信号处理任务,确定为第一类语音信号处理任务。
可选的,所述第一网络训练模块400,用于根据第一类语音信号处理任务的训练损失函数,确定第一目标训练损失函数,具体包括:
对于任一第一类语音信号处理任务,将该第一类语音信号处理任务的训练损失函数,乘以该第一类语音信号处理任务相应的权重,得到该第一类语音信号处理任务的相乘结果,以确定出各第一类语音信号处理任务的相乘结果;
将各第一类语音信号处理任务的相乘结果相加,得到第一目标训练损失函数。
可选的,所述样本语音的第一类语音信号处理任务的任务输入特征包括:多份任务输入特征;一份任务输入特征所包含的特征数量为至少一个;
相应的,第一网络训练模块400,用于将样本语音的第一类语音信号处理任务的任务输入特征,作为初始的多任务神经网络的训练输入,以最小化第一目标训练损失函数为训练目标,对初始的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至初始的多任务神经网络收敛,得到第一多任务神经网络,具体包括:
根据样本语音的第一类语音信号处理任务的多份任务输入特征,分多个训练阶段递进的对初始的多任务神经网络进行训练,得到第一多任务神经网络;其中,一个训练阶段使用样本语音的第一类语音信号处理任务的一份任务输入特征作为训练输入,且以最小化第一目标训练损失函数为训练目标。
可选的,第一网络训练模块400,用于根据样本语音的第一类语音信号处理任务的多份任务输入特征,分多个训练阶段递进的对初始的多任务神经网络进行训练,得到第一多任务神经网络,具体包括:
根据当前训练阶段,从样本语音的第一类语音信号处理任务的多份任务输入特征中,选取当前训练阶段相应的当前份任务输入特征;将该当前份任务输入特征,作为上一训练阶段训练完成的多任务神经网络的训练输入,以最小化第一目标训练损失函数为训练目标,对上一训练阶段训练完成的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至根据最后一份任务输入特征,训练的多任务神经网络达到收敛,得到第一多任务神经网络。
可选的,在另一种实现上,所述待训练的多任务神经网络可以包括:初始的多任务神经网络;所述目标损失函数确定模块200,用于根据各语音信号处理任务的训练损失函数,确定目标训练损失函数,具体包括:
对于任一语音信号处理任务,将该语音信号处理任务的训练损失函数,乘以该语音信号处理任务相应的权重,得到该语音信号处理任务相应的相乘结果,以确定出各语音信号处理任务相应的相乘结果;
将各语音信号处理任务相应的相乘结果相加,得到目标训练损失函数。
可选的,多任务神经网络中的共享层可以包括LSTM网络,各语音信号处理任务对应的任务层可以包括:各语音信号处理任务对应的MLP全连接网络;
可选的,模型训练模块300,用于对待训练的多任务神经网络的共享层和各任务层的参数进行更新,可以具体包括:
对待训练的多任务神经网络的LSTM网络的输入层到隐含层的连接参数、隐含层到输出层的连接参数、以及隐含层到隐含层之间的连接参数进行更新;及,对各语音信号处理任务对应的MLP全连接网络的输入层到隐含层的连接参数、隐含层到输出层的连接参数进行更新。
可选的,在训练得到语音信号处理模型后,可在语音前端的语音信号处理过程中进行应用;可选的,图15示出了本发明实施例提供的语音信号处理模型训练装置的再一结构框图,结合图14和图15所示,该装置还可以包括:
模型应用模块500,用于确定语音信号处理模型的各任务层对待识别语音的输出结果;将各任务层对待识别语音的输出结果,作为相应的语音信号处理任务的任务处理结果,或,使用各任务层对待识别语音的输出结果,辅助相应的语音信号处理任务进行任务处理。
可选的,模型应用模块500也可在图13所示装置中进行使用。
本发明实施例提供的语音信号处理模型训练装置可应用于电子设备中,可选的,该电子设备的硬件结构可以如图16所示,包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本发明实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;可选的,处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(Application Specific IntegratedCircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器;
其中,所述存储器存储有程序,所述处理器调用所述程序,所述程序用于:
获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征;根据各语音信号处理任务的训练损失函数,确定目标训练损失函数;将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络收敛,得到语音信号处理模型;其中,所述待训练的多任务神经网络包括:共享层,和各语音信号处理任务对应的任务层。
可选的,所述程序的细化功能和扩展功能可参照上文相应部分。
进一步,本发明实施例还提供一种存储介质,该存储介质可选如存储器,所述存储介质存储有适用于处理器执行的程序,所述程序用于:
获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征;根据各语音信号处理任务的训练损失函数,确定目标训练损失函数;将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络收敛,得到语音信号处理模型;其中,所述待训练的多任务神经网络包括:共享层,和各语音信号处理任务对应的任务层。
可选的,所述程序的细化功能和扩展功能可参照上文相应部分。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (14)

1.一种语音信号处理模型训练方法,其特征在于,包括:
获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征;
根据各语音信号处理任务的训练损失函数,确定目标训练损失函数;
将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络收敛,得到语音信号处理模型;其中,所述待训练的多任务神经网络包括:共享层,和各语音信号处理任务对应的任务层;
确定语音信号处理模型的各任务层对待识别语音的输出结果;
将各任务层对待识别语音的输出结果,作为相应的语音信号处理任务的任务处理结果,或,使用各任务层对待识别语音的输出结果,辅助相应的语音信号处理任务进行任务处理。
2.根据权利要求1所述的语音信号处理模型训练方法,其特征在于,所述以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新包括:
对于所述共享层,以最小化目标训练损失函数为训练目标,根据目标训练损失函数,对共享层的参数进行更新;及对于任一语音信号处理任务对应的任务层,以最小化目标训练损失函数为训练目标,根据该语音信号处理任务的训练损失函数,对该语音信号处理任务的任务层的参数进行更新。
3.根据权利要求1或2所述的语音信号处理模型训练方法,其特征在于,所述待训练的多任务神经网络包括:第一多任务神经网络;所述方法还包括:
从语音信号处理过程的多个语音信号处理任务中,确定至少一个第一类语音信号处理任务;
确定样本语音的第一类语音信号处理任务的任务输入特征;
根据第一类语音信号处理任务的训练损失函数,确定第一目标训练损失函数;
将样本语音的第一类语音信号处理任务的任务输入特征,作为初始的多任务神经网络的训练输入,以最小化第一目标训练损失函数为训练目标,对初始的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至初始的多任务神经网络收敛,得到第一多任务神经网络。
4.根据权利要求3所述的语音信号处理模型训练方法,其特征在于,所述根据第一类语音信号处理任务的训练损失函数,确定第一目标训练损失函数包括:
对于任一第一类语音信号处理任务,将该第一类语音信号处理任务的训练损失函数,乘以该第一类语音信号处理任务相应的权重,得到该第一类语音信号处理任务的相乘结果,以确定出各第一类语音信号处理任务的相乘结果;
将各第一类语音信号处理任务的相乘结果相加,得到第一目标训练损失函数。
5.根据权利要求4所述的语音信号处理模型训练方法,其特征在于,所述从语音信号处理过程的多个语音信号处理任务中,确定至少一个第一类语音信号处理任务包括:
确定所述多个语音信号处理任务中的基本任务,将所述基本任务确定为第一类语音信号处理任务,所述基本任务为所述多个语音信号处理任务中,相对于其他的语音信号处理任务具有辅助效果的任务;
或,将所述多个语音信号处理任务中,训练复杂度高于设定的复杂度阈值的语音信号处理任务,确定为第一类语音信号处理任务。
6.根据权利要求3所述的语音信号处理模型训练方法,其特征在于,所述样本语音的第一类语音信号处理任务的任务输入特征包括:多份任务输入特征;一份任务输入特征所包含的特征数量为至少一个;
所述将样本语音的第一类语音信号处理任务的任务输入特征,作为初始的多任务神经网络的训练输入,以最小化第一目标训练损失函数为训练目标,对初始的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至初始的多任务神经网络收敛,得到第一多任务神经网络包括:
根据样本语音的第一类语音信号处理任务的多份任务输入特征,分多个训练阶段递进的对初始的多任务神经网络进行训练,得到第一多任务神经网络;其中,一个训练阶段使用样本语音的第一类语音信号处理任务的一份任务输入特征作为训练输入,且以最小化第一目标训练损失函数为训练目标。
7.根据权利要求6所述的语音信号处理模型训练方法,其特征在于,所述根据样本语音的第一类语音信号处理任务的多份任务输入特征,分多个训练阶段递进的对初始的多任务神经网络进行训练,得到第一多任务神经网络包括:
根据当前训练阶段,从样本语音的第一类语音信号处理任务的多份任务输入特征中,选取当前训练阶段相应的当前份任务输入特征;将该当前份任务输入特征,作为上一训练阶段训练完成的多任务神经网络的训练输入,以最小化第一目标训练损失函数为训练目标,对上一训练阶段训练完成的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至根据最后一份任务输入特征,训练的多任务神经网络达到收敛,得到第一多任务神经网络。
8.根据权利要求1或2所述的语音信号处理模型训练方法,其特征在于,所述待训练的多任务神经网络包括:初始的多任务神经网络;所述根据各语音信号处理任务的训练损失函数,确定目标训练损失函数包括:
对于任一语音信号处理任务,将该语音信号处理任务的训练损失函数,乘以该语音信号处理任务相应的权重,得到该语音信号处理任务相应的相乘结果,以确定出各语音信号处理任务相应的相乘结果;
将各语音信号处理任务相应的相乘结果相加,得到目标训练损失函数。
9.根据权利要求1所述的语音信号处理模型训练方法,其特征在于,所述共享层包括长短期记忆LSTM网络,各语音信号处理任务对应的任务层包括:各语音信号处理任务对应的多层感知器MLP全连接网络;
所述对待训练的多任务神经网络的共享层和各任务层的参数进行更新包括:
对待训练的多任务神经网络的LSTM网络的输入层到隐含层的连接参数、隐含层到输出层的连接参数、以及隐含层到隐含层之间的连接参数进行更新;及,对各语音信号处理任务对应的MLP全连接网络的输入层到隐含层的连接参数、隐含层到输出层的连接参数进行更新。
10.一种语音信号处理模型训练装置,其特征在于,包括:
任务输入特征确定模块,用于获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征;
目标损失函数确定模块,用于根据各语音信号处理任务的训练损失函数,确定目标训练损失函数;
模型训练模块,用于将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络收敛,得到语音信号处理模型;其中,所述待训练的多任务神经网络包括:共享层,和各语音信号处理任务对应的任务层;
模型应用模块,用于确定语音信号处理模型的各任务层对待识别语音的输出结果;将各任务层对待识别语音的输出结果,作为相应的语音信号处理任务的任务处理结果,或,使用各任务层对待识别语音的输出结果,辅助相应的语音信号处理任务进行任务处理。
11.根据权利要求10所述的语音信号处理模型训练装置,其特征在于,所述模型训练模块,用于以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,具体包括:
对于所述共享层,以最小化目标训练损失函数为训练目标,根据目标训练损失函数,对共享层的参数进行更新;及对于任一语音信号处理任务对应的任务层,以最小化目标训练损失函数为训练目标,根据该语音信号处理任务的训练损失函数,对该语音信号处理任务的任务层的参数进行更新。
12.根据权利要求10或11所述的语音信号处理模型训练装置,其特征在于,所述待训练的多任务神经网络包括:第一多任务神经网络;所述装置还包括:
第一网络训练模块,用于从语音信号处理过程的多个语音信号处理任务中,确定至少一个第一类语音信号处理任务;确定样本语音的第一类语音信号处理任务的任务输入特征;根据第一类语音信号处理任务的训练损失函数,确定第一目标训练损失函数;将样本语音的第一类语音信号处理任务的任务输入特征,作为初始的多任务神经网络的训练输入,以最小化第一目标训练损失函数为训练目标,对初始的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至初始的多任务神经网络收敛,得到第一多任务神经网络。
13.一种电子设备,其特征在于,包括:至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述存储器存储的程序,所述程序用于:
获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征;
根据各语音信号处理任务的训练损失函数,确定目标训练损失函数;
将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络收敛,得到语音信号处理模型;其中,所述待训练的多任务神经网络包括:共享层,和各语音信号处理任务对应的任务层;
确定语音信号处理模型的各任务层对待识别语音的输出结果;
将各任务层对待识别语音的输出结果,作为相应的语音信号处理任务的任务处理结果,或,使用各任务层对待识别语音的输出结果,辅助相应的语音信号处理任务进行任务处理。
14.一种存储介质,其特征在于,所述存储介质存储有适用于处理器执行的程序,所述程序用于:
获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征;
根据各语音信号处理任务的训练损失函数,确定目标训练损失函数;
将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络收敛,得到语音信号处理模型;其中,所述待训练的多任务神经网络包括:共享层,和各语音信号处理任务对应的任务层;
确定语音信号处理模型的各任务层对待识别语音的输出结果;
将各任务层对待识别语音的输出结果,作为相应的语音信号处理任务的任务处理结果,或,使用各任务层对待识别语音的输出结果,辅助相应的语音信号处理任务进行任务处理。
CN201711191604.9A 2017-11-24 2017-11-24 语音信号处理模型训练方法、装置、电子设备及存储介质 Active CN109841220B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201910745812.1A CN110444214B (zh) 2017-11-24 2017-11-24 语音信号处理模型训练方法、装置、电子设备及存储介质
CN201711191604.9A CN109841220B (zh) 2017-11-24 2017-11-24 语音信号处理模型训练方法、装置、电子设备及存储介质
EP18880575.8A EP3611725B1 (en) 2017-11-24 2018-11-15 Voice signal processing model training method, electronic device, and storage medium
PCT/CN2018/115704 WO2019100998A1 (zh) 2017-11-24 2018-11-15 语音信号处理模型训练方法、电子设备及存储介质
US16/655,548 US11158304B2 (en) 2017-11-24 2019-10-17 Training method of speech signal processing model with shared layer, electronic device and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711191604.9A CN109841220B (zh) 2017-11-24 2017-11-24 语音信号处理模型训练方法、装置、电子设备及存储介质

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201910745812.1A Division CN110444214B (zh) 2017-11-24 2017-11-24 语音信号处理模型训练方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN109841220A CN109841220A (zh) 2019-06-04
CN109841220B true CN109841220B (zh) 2022-09-13

Family

ID=66630868

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910745812.1A Active CN110444214B (zh) 2017-11-24 2017-11-24 语音信号处理模型训练方法、装置、电子设备及存储介质
CN201711191604.9A Active CN109841220B (zh) 2017-11-24 2017-11-24 语音信号处理模型训练方法、装置、电子设备及存储介质

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910745812.1A Active CN110444214B (zh) 2017-11-24 2017-11-24 语音信号处理模型训练方法、装置、电子设备及存储介质

Country Status (4)

Country Link
US (1) US11158304B2 (zh)
EP (1) EP3611725B1 (zh)
CN (2) CN110444214B (zh)
WO (1) WO2019100998A1 (zh)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110444214B (zh) 2017-11-24 2021-08-17 深圳市腾讯计算机系统有限公司 语音信号处理模型训练方法、装置、电子设备及存储介质
EP3598777B1 (en) * 2018-07-18 2023-10-11 Oticon A/s A hearing device comprising a speech presence probability estimator
JP7051749B2 (ja) * 2019-06-03 2022-04-11 株式会社東芝 信号処理装置、信号処理システム、信号処理方法、およびプログラム
CN112116095B (zh) * 2019-06-19 2024-05-24 北京搜狗科技发展有限公司 一种多任务学习模型训练的方法及相关装置
CN110751941B (zh) * 2019-09-18 2023-05-26 平安科技(深圳)有限公司 语音合成模型的生成方法、装置、设备及存储介质
CN110681051B (zh) * 2019-10-21 2023-06-13 深圳大学 一种人工耳蜗信号处理方法、装置及计算机可读存储介质
WO2021077247A1 (zh) * 2019-10-21 2021-04-29 深圳大学 一种人工耳蜗信号处理方法、装置及计算机可读存储介质
CN110767212B (zh) * 2019-10-24 2022-04-26 百度在线网络技术(北京)有限公司 一种语音处理方法、装置和电子设备
CN110782883B (zh) * 2019-11-12 2020-10-20 百度在线网络技术(北京)有限公司 一种模型训练方法、装置、电子设备及存储介质
CN111191675B (zh) * 2019-12-03 2023-10-24 深圳市华尊科技股份有限公司 行人属性识别模型实现方法及相关装置
CN110930996B (zh) * 2019-12-11 2023-10-31 广州市百果园信息技术有限公司 模型训练方法、语音识别方法、装置、存储介质及设备
CN110996208B (zh) * 2019-12-13 2021-07-30 恒玄科技(上海)股份有限公司 一种无线耳机及其降噪方法
WO2021137754A1 (en) * 2019-12-31 2021-07-08 National University Of Singapore Feedback-controlled voice conversion
CN111261145B (zh) * 2020-01-15 2022-08-23 腾讯科技(深圳)有限公司 语音处理装置、设备及其训练方法
CN111368748B (zh) * 2020-03-06 2023-12-01 深圳市商汤科技有限公司 网络训练方法及装置、图像识别方法及装置
CN111341293B (zh) * 2020-03-09 2022-11-18 广州市百果园信息技术有限公司 一种文本语音的前端转换方法、装置、设备和存储介质
CN111402929B (zh) * 2020-03-16 2022-09-20 南京工程学院 基于域不变的小样本语音情感识别方法
CN111524521B (zh) * 2020-04-22 2023-08-08 北京小米松果电子有限公司 声纹提取模型训练方法和声纹识别方法、及其装置和介质
CN111654572A (zh) * 2020-05-27 2020-09-11 维沃移动通信有限公司 音频处理方法、装置、电子设备及存储介质
CN111653287A (zh) * 2020-06-04 2020-09-11 重庆邮电大学 基于dnn和频带内互相关系数的单通道语音增强算法
CN111667728B (zh) * 2020-06-18 2021-11-30 思必驰科技股份有限公司 语音后处理模块训练方法和装置
CN111816162B (zh) * 2020-07-09 2022-08-23 腾讯科技(深圳)有限公司 一种语音变化信息检测方法、模型训练方法以及相关装置
CN111883154B (zh) * 2020-07-17 2023-11-28 海尔优家智能科技(北京)有限公司 回声消除方法及装置、计算机可读的存储介质、电子装置
CN111599382B (zh) * 2020-07-27 2020-10-27 深圳市声扬科技有限公司 语音分析方法、装置、计算机设备和存储介质
CN111951780B (zh) * 2020-08-19 2023-06-13 广州华多网络科技有限公司 语音合成的多任务模型训练方法及相关设备
CN112163676B (zh) * 2020-10-13 2024-04-05 北京百度网讯科技有限公司 多任务服务预测模型训练方法、装置、设备以及存储介质
CN112380849B (zh) * 2020-11-20 2024-05-28 北京百度网讯科技有限公司 生成兴趣点提取模型和提取兴趣点的方法和装置
CN112712816B (zh) * 2020-12-23 2023-06-20 北京达佳互联信息技术有限公司 语音处理模型的训练方法和装置以及语音处理方法和装置
CN112541124B (zh) * 2020-12-24 2024-01-12 北京百度网讯科技有限公司 生成多任务模型的方法、装置、设备、介质及程序产品
CN112989108B (zh) * 2021-02-24 2022-11-04 腾讯科技(深圳)有限公司 基于人工智能的语种检测方法、装置及电子设备
CN113704388A (zh) * 2021-03-05 2021-11-26 腾讯科技(深圳)有限公司 多任务预训练模型的训练方法、装置、电子设备和介质
CN113241064B (zh) * 2021-06-28 2024-02-13 科大讯飞股份有限公司 语音识别、模型训练方法、装置、电子设备和存储介质
CN113314119B (zh) * 2021-07-27 2021-12-03 深圳百昱达科技有限公司 语音识别智能家居控制方法及装置
CN113610150B (zh) * 2021-08-05 2023-07-25 北京百度网讯科技有限公司 模型训练的方法、对象分类方法、装置及电子设备
CN113707134B (zh) * 2021-08-17 2024-05-17 北京搜狗科技发展有限公司 一种模型训练方法、装置和用于模型训练的装置
CN113593594B (zh) * 2021-09-01 2024-03-08 北京达佳互联信息技术有限公司 语音增强模型的训练方法和设备及语音增强方法和设备
CN113724723A (zh) * 2021-09-02 2021-11-30 西安讯飞超脑信息科技有限公司 混响与噪声抑制方法、装置、电子设备及存储介质
CN113782000B (zh) * 2021-09-29 2022-04-12 北京中科智加科技有限公司 一种基于多任务的语种识别方法
CN114612750B (zh) * 2022-05-09 2022-08-19 杭州海康威视数字技术股份有限公司 自适应学习率协同优化的目标识别方法、装置及电子设备
CN115116446A (zh) * 2022-06-21 2022-09-27 成都理工大学 一种噪声环境下说话人识别模型构建方法
CN114882884B (zh) * 2022-07-06 2022-09-23 深圳比特微电子科技有限公司 一种基于深度学习模型的多任务实现方法、装置
CN117275499B (zh) * 2023-11-17 2024-02-02 深圳波洛斯科技有限公司 自适应神经网络的降噪方法及相关装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228980A (zh) * 2016-07-21 2016-12-14 百度在线网络技术(北京)有限公司 数据处理方法和装置
CN106653056A (zh) * 2016-11-16 2017-05-10 中国科学院自动化研究所 基于lstm循环神经网络的基频提取模型及训练方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9460711B1 (en) * 2013-04-15 2016-10-04 Google Inc. Multilingual, acoustic deep neural networks
US9665823B2 (en) * 2013-12-06 2017-05-30 International Business Machines Corporation Method and system for joint training of hybrid neural networks for acoustic modeling in automatic speech recognition
CN104881678A (zh) * 2015-05-11 2015-09-02 中国科学技术大学 一种模型与特征联合学习的多任务学习方法
US10089576B2 (en) * 2015-07-28 2018-10-02 Microsoft Technology Licensing, Llc Representation learning using multi-task deep neural networks
US10339921B2 (en) * 2015-09-24 2019-07-02 Google Llc Multichannel raw-waveform neural networks
WO2017083399A2 (en) * 2015-11-09 2017-05-18 Google Inc. Training neural networks represented as computational graphs
WO2017161233A1 (en) * 2016-03-17 2017-09-21 Sri International Deep multi-task representation learning
US9886949B2 (en) * 2016-03-23 2018-02-06 Google Inc. Adaptive audio enhancement for multichannel speech recognition
US10657437B2 (en) * 2016-08-18 2020-05-19 International Business Machines Corporation Training of front-end and back-end neural networks
CN106355248A (zh) * 2016-08-26 2017-01-25 深圳先进技术研究院 一种深度卷积神经网络训练方法及装置
CN106529402B (zh) * 2016-09-27 2019-05-28 中国科学院自动化研究所 基于多任务学习的卷积神经网络的人脸属性分析方法
US11222253B2 (en) * 2016-11-03 2022-01-11 Salesforce.Com, Inc. Deep neural network model for processing data through multiple linguistic task hierarchies
CN110168578B (zh) * 2017-01-30 2024-02-06 渊慧科技有限公司 具有任务特定路径的多任务神经网络
CN107357838B (zh) * 2017-06-23 2020-09-01 上海交大知识产权管理有限公司 基于多任务学习的对话策略在线实现方法
CN110444214B (zh) 2017-11-24 2021-08-17 深圳市腾讯计算机系统有限公司 语音信号处理模型训练方法、装置、电子设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228980A (zh) * 2016-07-21 2016-12-14 百度在线网络技术(北京)有限公司 数据处理方法和装置
CN106653056A (zh) * 2016-11-16 2017-05-10 中国科学院自动化研究所 基于lstm循环神经网络的基频提取模型及训练方法

Also Published As

Publication number Publication date
CN109841220A (zh) 2019-06-04
US11158304B2 (en) 2021-10-26
US20200051549A1 (en) 2020-02-13
CN110444214B (zh) 2021-08-17
EP3611725A4 (en) 2020-12-23
CN110444214A (zh) 2019-11-12
EP3611725B1 (en) 2024-01-17
WO2019100998A1 (zh) 2019-05-31
EP3611725A1 (en) 2020-02-19

Similar Documents

Publication Publication Date Title
CN109841220B (zh) 语音信号处理模型训练方法、装置、电子设备及存储介质
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN109473118B (zh) 双通道语音增强方法及装置
CN108417224B (zh) 双向神经网络模型的训练和识别方法及系统
CN112863535B (zh) 一种残余回声及噪声消除方法及装置
CN113436643B (zh) 语音增强模型的训练及应用方法、装置、设备及存储介质
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
CN106157967A (zh) 脉冲噪声抑制
CN112562716A (zh) 基于神经网络的语音增强方法、装置、终端和介质
CN112602150A (zh) 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备
CN107360497B (zh) 估算混响分量的计算方法及装置
CN111722696A (zh) 用于低功耗设备的语音数据处理方法和装置
US8515096B2 (en) Incorporating prior knowledge into independent component analysis
CN111755010A (zh) 一种结合语音增强和关键词识别的信号处理方法、装置
CN115083412A (zh) 语音交互方法及相关装置、电子设备、存储介质
CN110648681B (zh) 语音增强的方法、装置、电子设备及计算机可读存储介质
JP4729534B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム、および、その記録媒体
CN111883155A (zh) 回声消除方法、装置及存储介质
CN111354341A (zh) 语音唤醒方法及装置、处理器、音箱和电视机
CN108922557A (zh) 一种聊天机器人的多人语音分离方法及系统
CN114299938B (zh) 一种基于深度学习的智能语音识别方法和系统
CN116403594B (zh) 基于噪声更新因子的语音增强方法和装置
CN113393858B (zh) 语音分离方法和系统、电子设备及可读存储介质
CN113409802B (zh) 语音信号的增强处理方法、装置、设备及存储介质
CN115662394A (zh) 语音提取方法、装置、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant