CN110444214B - 语音信号处理模型训练方法、装置、电子设备及存储介质 - Google Patents
语音信号处理模型训练方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110444214B CN110444214B CN201910745812.1A CN201910745812A CN110444214B CN 110444214 B CN110444214 B CN 110444214B CN 201910745812 A CN201910745812 A CN 201910745812A CN 110444214 B CN110444214 B CN 110444214B
- Authority
- CN
- China
- Prior art keywords
- task
- signal processing
- training
- voice signal
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 589
- 238000012549 training Methods 0.000 title claims abstract description 519
- 238000000034 method Methods 0.000 title claims abstract description 115
- 238000013528 artificial neural network Methods 0.000 claims abstract description 267
- 230000006870 function Effects 0.000 claims abstract description 192
- 230000008569 process Effects 0.000 claims description 55
- 230000015654 memory Effects 0.000 claims description 19
- 230000000694 effects Effects 0.000 claims description 5
- 230000000750 progressive effect Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 35
- 238000013473 artificial intelligence Methods 0.000 abstract description 15
- 238000010801 machine learning Methods 0.000 abstract description 10
- 238000001514 detection method Methods 0.000 description 43
- 238000001228 spectrum Methods 0.000 description 19
- 230000003595 spectral effect Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 11
- 230000009467 reduction Effects 0.000 description 9
- 230000008030 elimination Effects 0.000 description 5
- 238000003379 elimination reaction Methods 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供一种语音信号处理模型训练方法、装置、电子设备及存储介质,涉及人工智能中的语音技术以及机器学习技术,获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征;根据各语音信号处理任务的训练损失函数,确定目标训练损失函数;将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络收敛,得到语音信号处理模型;待训练的多任务神经网络包括共享层和各语音信号处理任务对应的任务层。降低训练语音信号处理模型的计算复杂度,提高语音信号处理模型的训练效率。
Description
本申请为申请日为2017年11月24日,申请号为:CN201711191604.9,发明名称为:语音信号处理模型训练方法、装置、电子设备及存储介质的分案申请。
技术领域
本发明涉及语音处理技术领域,具体涉及一种语音信号处理模型训练方法、装置、电子设备及存储介质。
背景技术
随着语音识别技术的发展,为了在复杂环境下保持较好的语音识别率,语音前端的语音信号处理技术的性能尤为重要;目前一般的语音识别过程为,语音前端对输入的多通道语音进行语音信号处理,输出单通道语音,再将单通道语音送给语音后台进行语音识别。
语音前端传统的语音信号处理过程一般包括多个语音信号处理任务,通过该多个语音信号处理任务递进协同的对输入的多通道语音进行处理,完成单通道语音的输出。以智能音箱场景为例,图1示出了语音前端传统的语音信号处理过程,该过程由多个语音信号处理任务构成,这些多个语音信号处理任务可具体包括:回声消除任务、语音检测任务、语音方向检测任务、麦克风阵列增强任务、单通道降噪任务、混响消除任务等;输入的多通道语音经过上述多个语音信号处理任务的协同处理后,可输出单通道语音,完成语音前端的语音信号处理。
随着深度学习技术的发展,神经网络技术应用的领域越来越广,为提高语音前端的语音信号处理性能,目前也出现了利用神经网络优化语音前端的语音信号处理过程的技术。该技术通过使用神经网络训练语音信号处理模型,利用语音信号处理模型替代语音前端传统的语音信号处理过程,或者辅助语音前端传统的语音信号处理过程,来提高语音前端的语音信号处理性能;可见,基于神经网络进行语音信号处理模型的训练,具有提高语音信号处理性能等重要技术意义。
然而,本发明的发明人发现,由于语音信号处理过程涉及的语音信号处理任务的数量较多,目前使用神经网络训练语音信号处理模型所面临的难题是,训练所涉及的计算复杂度较高,导致语音信号处理模型的训练效率较低;因此,如何降低训练语音信号处理模型的计算复杂度,提高语音信号处理模型的训练效率,成为了本领域技术人员需要解决的问题。
发明内容
有鉴于此,本发明实施例提供一种语音信号处理模型训练方法、装置、电子设备及存储介质,以降低训练语音信号处理模型的计算复杂度,提高语音信号处理模型的训练效率。
为实现上述目的,本发明实施例提供如下技术方案:
一种语音信号处理模型训练方法,包括:
获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征;
根据各语音信号处理任务的训练损失函数,确定目标训练损失函数;
将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络收敛,得到语音信号处理模型;其中,所述待训练的多任务神经网络包括:共享层,和各语音信号处理任务对应的任务层。
本发明实施例还提供一种语音信号处理模型训练装置,包括:
任务输入特征确定模块,用于获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征;
目标损失函数确定模块,用于根据各语音信号处理任务的训练损失函数,确定目标训练损失函数;
模型训练模块,用于将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络收敛,得到语音信号处理模型;其中,所述待训练的多任务神经网络包括:共享层,和各语音信号处理任务对应的任务层。
本发明实施例还提供一种电子设备,包括:至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述存储器存储的程序,所述程序用于:
获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征;
根据各语音信号处理任务的训练损失函数,确定目标训练损失函数;
将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络收敛,得到语音信号处理模型;其中,所述待训练的多任务神经网络包括:共享层,和各语音信号处理任务对应的任务层。
本发明实施例还提供一种存储介质,所述存储介质存储有适用于处理器执行的程序,所述程序用于:
获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征;
根据各语音信号处理任务的训练损失函数,确定目标训练损失函数;
将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络收敛,得到语音信号处理模型;其中,所述待训练的多任务神经网络包括:共享层,和各语音信号处理任务对应的任务层。
基于上述技术方案,本发明实施例提供的语音信号处理模型训练方法包括:获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征;根据各语音信号处理任务的训练损失函数,确定目标训练损失函数;将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络收敛,得到语音信号处理模型;其中,所述待训练的多任务神经网络包括:共享层,和各语音信号处理任务对应的任务层。本发明实施例提供的语音信号处理模型训练方法,可基于包括共享层和各语音信号处理任务对应的任务层的多任务神经网络,训练得到语音信号处理模型,而不是相对于每一语音信号处理任务均单独进行神经网络的训练,有效的降低了训练语音信号处理模型的计算复杂度,提升了训练效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为传统的语音信号处理过程的示意图;
图2为传统的利用神经网络,训练得到语音信号处理模型的示意图;
图3为本发明实施例提供的多任务神经网络的结构示意图;
图4为本发明实施例提供的多任务神经网络的另一结构示意图;
图5为本发明实施例提供的语音信号处理模型训练方法的流程图;
图6为语音信号处理模型的训练示意图;
图7为本发明实施例提供的语音信号处理模型训练方法的另一流程图;
图8为语音信号处理模型的另一训练示意图;
图9为本发明实施例提供的语音信号处理模型训练方法的再一流程图;
图10为本发明实施例提供的语音信号处理模型训练方法的又一流程图;
图11为语音信号处理模型的应用场景示例图;
图12为语音信号处理模型的输出结果的使用示例图;
图13为本发明实施例提供的语音信号处理模型训练装置的结构框图;
图14为本发明实施例提供的语音信号处理模型训练装置的另一结构框图;
图15为本发明实施例提供的语音信号处理模型训练装置的再一结构框图;
图16为电子设备的硬件结构框图。
具体实施方式
本申请实施例提供的语音信号处理模型训练方法涉及人工智能中的语音技术以及机器学习技术等,下面先对人工智能技术、语音技术和机器学习技术进行说明。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
下面结合如下具体实施例对语音信号处理模型训练方法涉及的人工智能的语音技术以及机器学习技术进行说明。
图2为传统的利用神经网络,训练得到语音信号处理模型的示意图,如图2所示,针对语音信号处理过程所涉及的各语音信号处理任务,分别的构建神经网络,分别的对各语音信号处理任务的神经网络进行训练,当某一神经网络达到对应的语音信号处理任务的训练收敛条件时,完成该神经网络的训练,在各神经网络训练完成后,将训练完成的各神经网络联合形成语音信号处理模型;这种语音信号处理模型的训练方式存在的问题是,需要分别针对各语音信号处理任务进行神经网络的训练,对于数量较多的语音信号处理任务而言,训练的计算复杂度较高;同时,每个神经网络相对独立,缺少语音信号处理任务之间的关联,导致训练得出的语音信号处理模型的性能具有一定的局限性。
基于此,本发明实施例考虑改进语音信号处理模型的神经网络结构,并基于改进后的神经网络结构进行语音信号处理模型的训练,降低训练语音信号处理模型的计算复杂度,提升训练效率;进一步在训练过程中体现语音信号处理任务之间的关联性,保障训练得出的语音信号处理模型具有可靠的性能。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例为达到降低训练语音信号处理模型的计算复杂度,并进一步保障语音信号处理模型的性能可靠的效果,改进了语音信号处理模型的神经网络结构,提出了一种新型的多任务神经网络;该多任务神经网络可如图3示,包括:共享层,和各语音信号处理任务对应的任务层;
可选的,在本发明实施例中,共享层的输入可导入各任务层,各任务层输出相应的语音信号处理任务的任务处理结果;其中,共享层可以体现具有共性的语音信号处理任务之间的关联性,各任务层可体现相应的语音信号处理任务的任务特性,使得各任务层的输出结果能够更好的反映相应的语音信号处理任务的任务需求。
可选的,在本发明实施例中,共享层可定义为LSTM(Long Short Term Memory,长短期记忆)网络,作为一种可选示例,共享层可以是两层的LSTM网络;任务层可定义为MLP(Multi layer Perceptron,多层感知器)全连接网络,即各任务层可以均是MLP全连接网络,作为一种可选示例,各任务层可以均是一层的MLP全连接网络。
以图1所示多个语音信号处理任务为例,本发明实施例提供的多任务神经网络可以如图4所示,包括:
共享层,回声消除任务层、语音检测任务层、…、单通道降噪任务层、混响消除任务层。
显然,在具体的语音信号处理过程中,多个语音信号处理任务并不限于图1所示,可能是在图1所示多个语音信号处理任务的基础上删减和/或增强了某些语音信号处理任务。
基于上述本发明实施例提供的多任务神经网络,本发明实施例可进行该多任务神经网络的训练,得到语音信号处理模型,所述语音信号处理模型的生成与人工智能的语音技术以及机器学习技术有关。
在一种训练语音信号处理模型的可选实现上,本发明实施例可同时基于所有的语音信号处理任务训练多任务神经网络,更新多任务神经网络的共享层和各任务层的参数;
可选的,图5示出了本发明实施例提供的语音信号处理模型训练方法的一种可选流程,该方法可应用于具有数据处理能力的电子设备,该电子设备可选用笔记本电脑、PC(个人计算机)等具有数据处理能力的终端设备实现,也可选用网络侧的服务器实现;参照图5,该方法流程可以包括:
步骤S100、获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征。
可选的,样本语音可以认为是训练语音信号处理模型所使用的样本,样本语音可以是多通道语音;本发明实施例所获取的样本语音的数量可以为多个,可以对每条样本语音,均确定出各语音信号处理任务的任务输入特征。
对于语音前端的语音信号处理过程所涉及的各语音信号处理任务,本发明实施例可对样本语音,分别获取各语音信号处理任务的任务输入特征;可选的,语音前端的语音信号处理过程所涉及的多个语音信号处理任务可以如图1所示,当然,也可以在图1所示多个语音信号处理任务的基础上,删减语音信号处理任务,和/或,增强其他形式的语音信号处理任务;
可选的,为便于理解,作为一种可选示例,以语音前端的语音信号处理过程所涉及的语音信号处理任务包括:回声消除任务(回声消除任务可用于进行单通道语音谱的估计)和语音检测任务(语音检测任务可用于进行语音存在概率的估计)为例;则本发明实施例可获取样本语音的回声消除任务的任务输入特征,具体如:样本语音的带噪单通道语音的频谱能量及标注为干净语音的频谱能量;获取样本语音的语音检测任务的任务输入特征,具体如:样本语音是否存在语音的标记值(可选的,标记值可以是0/1值,其中0表示不存在语音,1表示存在语音);
显然,上段描述的语音信号处理任务仅是作为示例,语音信号处理过程实际所涉及的语音信号处理任务可能更多,本发明实施例可对样本语音,分别获取不同语音信号处理任务相应的任务输入特征,而不同的语音信号处理任务所对应的任务输入特征可能不同。
步骤S110、根据各语音信号处理任务的训练损失函数,确定目标训练损失函数。
本发明实施例是通过训练所有的语音信号处理任务,来实现多任务神经网络的共享层和各任务层的参数更新,因此训练所使用的总训练损失函数(称为目标训练损失函数)需基于各语音信号处理任务的训练损失函数确定;
可选的,鉴于传统的分别针对各语音信号处理任务,单独进行神经网络训练的方案,本发明实施例可确定出各语音信号处理任务的训练损失函数;从而对于任一语音信号处理任务,本发明实施例可将该语音信号处理任务的训练损失函数,乘以该语音信号处理任务相应的权重,得到该语音信号处理任务相应的相乘结果,以此确定出各语音信号处理任务相应的相乘结果后,进而将各相乘结果相加,可得到目标训练损失函数;
示例的,设第i个语音信号处理任务的训练损失函数为Li,ai为第i个语音信号处理任务相应的权重,则可根据如下公式确定目标训练损失函数Lall:
其中,ai的数值可以根据实际情况进行设置,也可统一设置为1;N为语音信号处理任务的总数。
步骤S120、将样本语音的各语音信号处理任务的任务输入特征,作为多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对多任务神经网络的共享层和各任务层的参数进行更新,直至多任务神经网络收敛,得到语音信号处理模型。
在确定样本语音的各语音信号处理任务的任务输入特征,及确定训练的目标训练损失函数后,本发明实施例可对多任务神经网络进行训练,以实现多任务神经网络的共享层和各任务层的参数更新;具体的,本发明实施例可将样本语音的各语音信号处理任务的任务输入特征,作为多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对多任务神经网络进行训练,实现多任务神经网络的共享层和各任务层的参数更新,直至多任务神经网络收敛(如训练的迭代次数达到最大次数,或者目标训练损失函数不再减小),从而得到语音信号处理模型;
可选的,在确定训练输入,训练目标后,本发明实施例可使用随机梯度下降(Stochastic Gradient Descent,SGD)和/或反向传播(Back Propagation,BP)方法,对多任务神经网络的共享层和各任务层的参数进行更新;
可选的,在以最小化目标训练损失函数为训练目标,对多任务神经网络的共享层和各任务层的参数进行更新时,共享层的参数更新可根据目标训练损失函数实现,如在每次训练时,可使用随机梯度下降方法,根据每次训练得出的目标训练损失函数进行共享层的参数更新;而一语音信号处理任务对应的任务层的参数更新,可根据该语音信号处理任务的损失函数实现,如在每次训练时,可使用随机梯度下降方法,根据每次训练得出的该语音信号处理任务的训练损失函数,进行该语音信号处理任务对应的任务层的参数更新;从而既可通过共享层体现具有共性的语音信号处理任务之间的关联性,又可通过各任务层体现相应的语音信号处理任务的任务特性,使得各任务层的输出结果能够更好的反映相应的语音信号处理任务的任务需求。
可选的,作为一种示例,共享层可以是LSTM网络,一任务层可以是MLP全连接网络;更新多任务神经网络的共享层的参数可以如,更新LSTM网络的参数,包括但不限于更新LSTM网络的输入层到隐含层的连接参数、隐含层到输出层的连接参数、以及隐含层到隐含层之间的连接参数等;更新多任务神经网络的一任务层的参数可以如,更新MLP全连接网络的参数,包括但不限于更新MLP全连接网络的输入层到隐含层的连接参数、隐含层到输出层的连接参数等。
可选的,为便于理解,作为一种可选示例,若统一设置各语音信号处理任务相应的权重为1,且以语音前端的语音信号处理过程所涉及的语音信号处理任务包括:回声消除任务和语音检测任务为例;则进行语音信号处理模型的训练示意可如图6所示,过程如下:
将样本语音的回声消除任务和语音检测任务的输入特征,作为多任务神经网络的训练输入;以最小化回声消除任务的训练损失函数与语音检测任务的训练损失函数的和,为训练目标;对多任务神经网络的共享层,回声消除任务层和语音检测任务层的参数进行更新,直至多任务神经网络的迭代次数达到最大次,或者,回声消除任务的训练损失函数与语音检测任务的训练损失函数的和不再减小,得到语音信号处理模型;
具体的,在每次训练时,可根据每次训练得出的回声消除任务与语音检测任务的训练损失函数的和,更新多任务神经网络的共享层的参数;可根据每次训练得出的回声消除任务的训练损失函数,更新回声消除任务层的参数;可根据每次训练得出的语音检测任务的训练损失函数,更新语音检测任务层的参数;
可选的,一般而言,回声消除任务的训练损失函数可以如:所估计的干净语音频谱能量与真实值的差异值;语音检测任务的训练损失函数可以是如:所估计的语音存在概率与真实值的差异值;相应的,若统一设置各语音信号处理任务相应的权重为1,则可确定目标训练损失函数为:回声消除任务的训练损失函数与语音检测任务的训练损失函数的和;从而在进行多任务神经网络的训练时,可以最小化回声消除任务的训练损失函数与语音检测任务的训练损失函数的和,为训练目标(即最小化所估计的干净语音频谱能量与真实值的差异值,及所估计的语音存在概率与真实值的差异值的相加结果)。
可见,图5所示的语音信号处理模型训练方法,可基于包括共享层和各语音信号处理任务对应的任务层的多任务神经网络,将样本语音的各语音信号处理任务的任务输入特征作为训练输入,进行多任务神经网络的共享层和各任务层的参数更新,训练得到语音信号处理模型。由于本发明实施例是基于具有共享层和各语音信号处理任务对应的任务层的多任务神经网络,根据样本语音的各语音信号处理任务的任务输入特征,同时的进行多任务神经网络的共享层和各任务层的参数更新训练,而不是相对于每一语音信号处理任务均单独进行神经网络的训练,因此训练语音信号处理模型所涉及的计算复杂度将极大的降低,有效的降低了训练语音信号处理模型的计算复杂度,提升了语音信号处理模型的训练效率。
上述同时基于所有的语音信号处理任务训练多任务神经网络,来更新多任务神经网络的共享层和各任务层的参数的方式,虽然相比于传统的分别针对各语音信号处理任务,单独训练神经网络的方式能够降低计算复杂度,但由于语音信号处理过程中各语音信号处理任务间的差异较大,同时基于所有的语音信号处理任务训练多任务神经网络,较难保障多任务神经网络的参数收敛性;基于此,本发明实施例根据语音信号处理过程中各语音信号处理任务的任务特性,还提供了一种分阶段进行多任务神经网络训练的方案。
可选的,图7示出了本发明实施例提供的语音信号处理模型训练方法的另一种可选流程,该方法可应用于具有数据处理能力的电子设备,参照图7,该方法流程可以包括:
步骤S200、获取样本语音。
步骤S210、从语音信号处理过程的多个语音信号处理任务中,确定至少一个第一类语音信号处理任务。
可选的,作为一种实现,第一类语音信号处理任务可以是,语音信号处理过程涉及的多个语音信号处理任务中的基本任务;可以理解的是,基本任务可以认为是语音信号处理过程的多个语音信号处理任务中,相对于其他的语音信号处理任务具有辅助效果的任务;
作为一种可选示例,以语音前端的语音信号处理过程所涉及的语音信号处理任务包括:回声消除任务和语音检测任务为例;由于回声消除任务能够实现单通道语音谱的估计,能极大提升语音概率估计的准确度,因此回声消除任务可以认为是基本语音信号处理任务。
可选的,作为另一种可选实现,第一类语音信号处理任务可以认为是,语音信号处理过程涉及的多个语音信号处理任务中训练复杂度较高的任务(可选的,如果语音信号处理任务的训练复杂度高于设定的复杂度阈值,可认为该语音信号处理任务为第一类语音信号处理任务);
作为一种可选示例,以语音前端的语音信号处理过程所涉及的语音信号处理任务包括:回声消除任务和语音检测任务为例;由于回声消除任务所进行的单通道语音谱的估计,需要得到所有M个频带的干净语音能量值,而语音检测任务所进行的语音存在概率估计,只需得到当前帧是否包含语音的单值估计,而M(如512)远大于1,从训练复杂度的角度看,回声消除任务的训练复杂度远高于语音检测任务,因此回声消除任务可视为是训练复杂度较高的第一类语音信号处理任务。
在本发明实施例中,第一类语音信号处理任务的数量可能是一个或多个。
步骤S220、确定样本语音的第一类语音信号处理任务的任务输入特征,及样本语音的各语音信号处理任务的任务输入特征。
在确定第一类语音信号处理任务后,针对样本语音,本发明实施例可确定样本语音的第一类语音信号处理任务的任务输入特征(如确定样本语音的回声消除任务的任务输入特征);同时,对于语音信号处理过程涉及的各语音信号处理任务,确定出样本语音的各语音信号处理任务的任务输入特征(如确定样本语音的回声消除任务的任务输入特征,和语音检测任务的任务输入特征等)。
步骤S230、根据第一类语音信号处理任务的训练损失函数,确定第一目标训练损失函数;及根据各语音信号处理任务的训练损失函数,确定目标训练损失函数。
可选的,对于第一类语音信号处理任务,本发明实施例可确定第一类语音信号处理任务的训练损失函数,在第一类语音信号处理任务的数量为至少一个的情况下,对于任一第一类语音信号处理任务,可将该第一类语音信号处理任务的训练损失函数,乘以该第一类语音信号处理任务相应的权重,得到该第一类语音信号处理任务的相乘结果,以确定出各第一类语音信号处理任务的相乘结果后,进而将各第一类语音信号处理任务的相乘结果相加,可得到第一目标训练损失函数;
可选的,设第i个第一类语音信号处理任务的训练损失函数为L1i,a1i为第i个第一类语音信号处理任务相应的权重,则第一目标训练损失函数L1all的确定可根据如下公式实现:
可选的,本发明实施例可以参照上文步骤S110部分所示,对各语音信号处理任务进行处理,得到目标训练损失函数。
步骤S240、将样本语音的第一类语音信号处理任务的任务输入特征,作为多任务神经网络的训练输入,以最小化第一目标训练损失函数为训练目标,对多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至多任务神经网络收敛,得到第一多任务神经网络。
可选的,本发明实施例可先基于第一类语音信号处理任务的任务输入特征,以最小化第一目标训练损失函数为训练目标,对初始的多任务神经网络进行训练;
在具体训练时,可对多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新;具体参数更新过程可以是:将样本语音的第一类语音信号处理任务的任务输入特征,作为多任务神经网络的训练输入,以最小化第一目标训练损失函数为训练目标,通过迭代的进行多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数更新,直至达到最大迭代次数,或者第一目标训练损失函数不再减小,从而得到第一多任务神经网络;
可选的,本发明实施例可根据每次训练得出的第一目标训练损失函数,更新共享层的参数;而对于每一第一类语音信号处理任务对应的任务层,可根据每次训练得出的该第一类语音信号处理任务的训练损失函数,更新该第一类语音信号处理任务对应的任务层的参数。
步骤S250、将样本语音的各语音信号处理任务的任务输入特征,作为第一多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对多任务神经网络的共享层和各语音信号处理任务对应的任务层的参数进行更新,直至第一多任务神经网络收敛,得到语音信号处理模型。
可选的,本发明实施例基于第一类语音信号处理任务的任务输入特征,以最小化第一目标训练损失函数为训练目标,对多任务神经网络进行训练,得到第一多任务神经网络后,可再基于各语音信号处理任务的任务输入特征,以最小化目标训练损失函数为训练目标,对第一多任务神经网络进行训练,得到语音信号处理模型;
在具体训练时,可对第一多任务神经网络的共享层和各语音信号处理任务对应的任务层的参数进行更新;具体参数更新过程可以是:将样本语音的各语音信号处理任务的任务输入特征,作为第一多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,通过迭代的进行第一多任务神经网络的共享层和各语音信号处理任务对应的任务层的参数更新,直至达到最大迭代次数,或者目标训练损失函数不再减小,从而得到语音信号处理模型;
可选的,本发明实施例可根据每次训练得出的目标训练损失函数,更新共享层的参数;而对于每一语音信号处理任务对应的任务层,可根据每次训练得出的该语音信号处理任务的训练损失函数,更新该语音信号处理任务对应的任务层的参数。
为便于理解步骤S240和步骤S250所示的先后训练过程,作为一种可选示例,若统一设置各语音信号处理任务相应的权重为1,且以语音前端的语音信号处理过程所涉及的语音信号处理任务包括:回声消除任务和语音检测任务为例;则本发明实施例进行语音信号处理模型的训练过程可以如图8所示,过程如下:
先将样本语音的回声消除任务的输入特征(如样本语音的带噪单通道语音的频谱能量及标注为干净语音的频谱能量),作为多任务神经网络的训练输入,以最小化回声消除任务的训练损失函数为训练目标(如训练目标为,最小化所估计的干净语音频谱能量与真实值的差异值),对多任务神经网络的共享层和回声消除任务对应的任务层的参数进行更新,直至多任务神经网络的迭代次数达到最大次,或者,回声消除任务的训练损失函数不再减小,得到第一多任务神经网络;
进而,将样本语音的回声消除任务和语音检测任务的输入特征,作为第一多任务神经网络的训练输入;以最小化回声消除任务的训练损失函数与语音检测任务的训练损失函数的和,为训练目标;对第一多任务神经网络的共享层,回声消除任务和语音检测任务层的参数进行更新,直至第一多任务神经网络的迭代次数达到最大次,或者,回声消除任务的训练损失函数与语音检测任务的训练损失函数的和不再减小,得到语音信号处理模型。
可见,基于图7所示语音信号处理模型训练方法,本发明实施例可从多个语音信号处理任务中确定出基本任务,或者训练复杂度较高的任务,得到至少一个第一类语音信号处理任务;进而先以第一类语音信号处理任务的任务输入特征,作为多任务神经网络的训练输入,进行多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数更新训练,得到第一多任务神经网络;然后再以各语音信号处理任务的任务输入特征,作为第一多任务神经网络的训练输入,进行第一多任务神经网络的共享层和各任务层的参数更新训练,训练得到语音信号处理模型。
这个过程中,由于不再相对于每一语音信号处理任务均单独进行神经网络的训练,因此训练语音信号处理模型所涉及的计算复杂度得到了降低;同时,先以第一类语音信号处理任务的输入特征进行多任务神经网络的训练,再接着以各语音信号处理任务的任务输入特征,作为训练输入进行多任务神经网络的训练,可使得训练过程可体现语音信号处理任务之间的关联性,保障多任务神经网络的参数能够有效收敛,保障了训练得出的语音信号处理模型的可靠性能。
图7所示方法进行语音信号处理模型训练的过程中,是先根据第一类语音信号处理任务的任务输入特征,进行多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,训练得到第一多任务神经网络;在训练得到第一多任务神经网络的过程中,由于第一类语音信号处理任务是语音信号处理过程中的基本任务或者训练复杂度较高的任务,因此第一类语音信号处理任务对应的任务层的参数的可靠收敛,对于后续训练得出的语音信号处理模型的性能尤为关键;
可选的,本发明实施例为进一步保障第一类语音信号处理任务对应的任务层的参数的有效收敛,可根据第一类语音信号处理任务的不同输入特征分多个阶段的,进行第一类语音信号处理任务对应的任务层的参数的收敛训练;可选的,图9示出了本发明实施例提供的语音信号处理模型训练方法的再一种可选流程,需要说明的是,图9所示流程仅是可选的,在进行第一多任务神经网络的训练时,也可直接基于所有第一类语音信号处理任务的任务输入特征,直接进行第一多任务神经网络的训练,而不需如图9所示分多个阶段的进行第一多任务神经网络的训练;
可选的,图9所示方法可应用于具有数据处理能力的电子设备,参照图9,该方法流程可以包括:
步骤S300、获取样本语音。
步骤S310、从语音信号处理过程的多个语音信号处理任务中,确定至少一个第一类语音信号处理任务。
可选的,步骤S310的描述可参照步骤S210部分描述。
步骤S320、确定样本语音的第一类语音信号处理任务的任务输入特征,及样本语音的各类语音信号处理任务的任务输入特征;所述第一类语音信号处理任务的任务输入特征包括:多份任务输入特征;一份任务输入特征所包含的特征数量为至少一个。
可选的,在本发明实施例中,对于一第一类语音信号处理任务而言,一第一类语音信号处理任务的任务输入特征为多份,一份任务输入特征所包含的特征数量为至少一个;
作为一种可选示例,以第一类语音信号处理任务包括回声消除任务为例,则对于回声消除任务,本发明实施例可设置多份任务输入特征,如设置回声消除任务的第一份任务输入特征为:带噪单通道语音的频谱能量,及标注为干净语音的频谱能量;设置回声消除任务的第二份任务输入特征为:多通道语音的频谱能量;设置回声消除任务的第三份任务输入特征为:多通道语音的频谱能量,及参考信号的频谱能量(如智能音箱播放的音乐)等。
步骤S330、根据第一类语音信号处理任务的训练损失函数,确定第一目标训练损失函数;及根据各语音信号处理任务的训练损失函数,确定目标训练损失函数。
可选的,步骤S330的介绍可参照步骤S230部分描述。
步骤S340、根据当前训练阶段,从样本语音的第一类语音信号处理任务的多份任务输入特征中,选取当前训练阶段相应的当前份任务输入特征;将该当前份任务输入特征,作为上一训练阶段训练完成的多任务神经网络的训练输入,以最小化第一目标训练损失函数为训练目标,对上一训练阶段训练完成的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至根据最后一份任务输入特征,训练的多任务神经网络达到收敛,得到第一多任务神经网络。
可选的,步骤S340可以认为是,根据样本语音的第一类语音信号处理任务的多份任务输入特征,分多个训练阶段递进的对多任务神经网络进行训练(即分多个训练阶段递进的对多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新),得到第一多任务神经网络的一种可选实现,其中,一个训练阶段使用一份任务输入特征作为训练输入,且以最小化第一目标训练损失函数为训练目标;除通过步骤S340实现外,本发明实施例并不排除其他的,利用样本语音的第一类语音信号处理任务的多份任务输入特征,分多个训练阶段递进的对多任务神经网络进行训练的其他方式。
可选的,在步骤S340中,本发明实施例可分多个训练阶段的进行第一多任务神经网络的训练,从而依训练阶段的将第一类语音信号处理任务的每份任务输入特征,分别作为训练输入,对多任务神经网络进行训练,以得到第一多任务神经网络;且,在当前训练阶段中,第一类语音信号处理任务当前选取的当前份任务输入特征,作为上一训练阶段训练完成的多任务神经网络的训练输入。
可选的,作为示例,以第一类语音信号处理任务的任务输入特征包括三份,分别为第一份任务输入特征,第二份任务输入特征,第三份任务输入特征为例;则本发明实施例可先以第一份任务输入特征作为多任务神经网络的训练输入(即对于第一训练阶段,所选取的当前训练阶段的任务输入特征为第一份任务输入特征),以最小化第一目标训练损失函数为训练目标,对多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至网络达到收敛,得到第一训练阶段训练完成的多任务神经网络;
然后,以第二份任务输入特征作为第一训练阶段训练完成的多任务神经网络的训练输入(即对于第二训练阶段,所选取的当前训练阶段的任务输入特征为第二份任务输入特征),以最小化第一目标训练损失函数为训练目标,对第一训练阶段训练完成的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至网络达到收敛,得到第二训练阶段训练完成的多任务神经网络;
再以第三份任务输入特征作为第二训练阶段训练完成的多任务神经网络的训练输入(即对于第三训练阶段,所选取的当前训练阶段的任务输入特征为第三份任务输入特征),以最小化第一目标训练损失函数为训练目标,对第二训练阶段训练完成的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至网络达到收敛,得到第一多任务神经网络,完成基于第一类语音信号处理任务的多份任务输入特征,分多个训练阶段的训练得到第一多任务神经网络的过程。
为便于理解,以第一类语音信号处理任务为回声消除任务为例,则回声消除任务的第一份任务输入特征为:带噪单通道语音的频谱能量,及标注为干净语音的频谱能量;回声消除任务的第二份任务输入特征为:多通道语音的频谱能量;回声消除任务的第三份任务输入特征为:多通道语音的频谱能量,及参考信号的频谱能量(如智能音箱播放的音乐)等;
相应的,本发明实施例可先以样本语音的带噪单通道语音的频谱能量,及标注为干净语音的频谱能量作为多任务神经网络的训练输入,以最小化所估计的干净语音频谱能量与真实值的差异值为训练目标,更新多任务神经网络的共享层和回声消除任务的任务层的参数,直至迭代次数达到最大次数或者训练目标不再减小;
然后,以样本语音的多通道语音的频谱能量作为上段训练完成的多任务神经网络的训练输入,以最小化所估计的干净语音频谱能量与真实值的差异值为训练目标,更新多任务神经网络的共享层和回声消除任务的任务层的参数,直至迭代次数达到最大次数或者训练目标不再减小,使得训练后的多任务神经网络具备多通道的空间滤波的能力;
在完成多通道训练之后,还可以样本语音的多通道语音的频谱能量,及参考信号的频谱能量作为上段训练完成的多任务神经网络的训练输入,以最小化所估计的干净语音频谱能量与真实值的差异值为训练目标,更新多任务神经网络的共享层和回声消除任务的任务层的参数,直至迭代次数达到最大次数或者训练目标不再减小,得到第一多任务神经网络,使得第一多任务神经网络能够较好地拟合多通道输入信号和参考信号。
可选的,上述的第一类语音信号处理任务的多份任务输入特征的示例仅是可选的,本发明实施例可根据具体情况,设置第一类语音信号处理任务的任务输入特征的份数,以及每份任务输入特征所包含的具体特征;如在上述的示例中,带噪单通道语音的频谱能量、标注为干净语音的频谱能量、和多通道语音的频谱能量的任务输入特征也可合并在一起训练。
步骤S350、将样本语音的各语音信号处理任务的任务输入特征,作为第一多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对第一多任务神经网络的共享层和各语音信号处理任务对应的任务层的参数进行更新,直至第一多任务神经网络收敛,得到语音信号处理模型。
可选的,步骤S350的介绍可参照步骤S250部分描述。
可选的,在得到第一多任务神经网络后,对于语音检测、方向检测和混响消除等语音信号处理任务而言,这些任务较为简单且互相之间相对独立,可以合并在一起训练,因此可在得到第一多任务神经网络后,结合样本语音的各语音信号处理任务的任务输入特征,进行第一多任务神经网络的训练,得到语音信号处理模型。
需要说明的是,上述无论采用何种训练方式进行,在进行共享层和某一任务层的参数更新时,共享层的参数更新,基于当前训练所使用的所有任务的训练损失函数之和进行;而一任务层的参数更新,基于该任务层对应的任务的训练损失函数进行,从而可使得训练的语音信号处理模型既可通过共享层体现具有共性的语音信号处理任务之间的关联性,又可通过各任务层体现相应的语音信号处理任务的任务特性。
对上述说明的语音信号处理模型的各种训练过程进行归纳、总结,则本发明实施例提供的语音信号处理模型训练方法的基本核心流程可以如图10所示,图10为本发明实施例提供的语音信号处理模型训练方法的又一种可选流程,参照图10,该方法流程可以包括:
步骤S400、获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征。
可选的,步骤S400的介绍可参照步骤S100部分描述。
步骤S410、根据各语音信号处理任务的训练损失函数,确定目标训练损失函数。
可选的,步骤S410的介绍可参照步骤S110部分描述。
步骤S420、将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络达到收敛,得到语音信号处理模型。
可选的,作为一种可选实现,在步骤S420中,待训练的多任务神经网络可以是初始的多任务神经网络(相应的过程可归结到由图5所示流程实现);
可选的,作为另一种可选实现,在步骤S420中,待训练的多任务神经网络也可以是第一多任务神经网络,本发明实施例可利用图7所示方法流程中训练得到第一多任务神经网络的流程,先训练得到第一多任务神经网络,将第一多任务神经网络作为待训练的多任务神经网络;然后以图10所示方法,将样本语音的各语音信号处理任务的任务输入特征,作为第一多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对第一多任务神经网络的共享层和各任务层的参数进行更新,直至第一多任务神经网络收敛,得到语音信号处理模型。
可选的,第一多任务神经网络的训练,可基于样本语音的第一类语音信号处理任务的任务输入特征实现;进一步,作为一种可选示例,第一类语音信号处理任务可以具有多份任务输入特征,本发明实施例可基于图9所示的第一多任务神经网络的训练流程,分多个训练阶段,训练得到第一多任务神经网络。
需要说明的是,上述的待训练的多任务神经网络无论是初始的多任务神经网络,还是第一多任务神经网络,待训练的多任务神经网络的结构必然是包括了共享层,和各语音信号处理任务对应的任务层;而对于所述共享层,是以最小化目标训练损失函数为训练目标,根据目标训练损失函数,对共享层的参数进行更新;对于任一语音信号处理任务对应的任务层,是以最小化目标训练损失函数为训练目标,根据该语音信号处理任务的训练损失函数,对该语音信号处理任务的任务层的参数进行更新。
本发明实施例提供的语音信号处理模型训练方法,可基于包括共享层和各语音信号处理任务对应的任务层的多任务神经网络,训练得到语音信号处理模型,而不是相对于每一语音信号处理任务均单独进行神经网络的训练,有效的降低了训练语音信号处理模型的计算复杂度,提升了训练效率。
进一步,可在语音信号处理模型的训练过程中,通过先基于样本语音的第一类语音信号处理任务的任务输入特征进行训练,然后基于各语音信号处理任务的任务输入特征进行训练,可挖掘出语音信号处理过程中多任务之间的关联性,提升语音信号处理性能,保障训练得到的语音信号处理模型的性能可靠。
在以上述方法流程训练得到语音信号处理模型后,可选的,本发明实施例可使用语音信号处理模型替代语音前端传统的语音信号处理过程,如具体可用语音信号处理模型的各任务层的输出结果,替代语音前端传统的相应的语音信号处理任务的任务处理结果;
而在另一种实现上,本发明实施例可使用语音信号处理模型,辅助语音前端传统的语音信号处理过程,如具体可用语音信号处理模型的各任务层的输出,辅助语音前端传统的相应的语音信号处理任务进行任务处理。
图11示出了语音信号处理模型的应用场景示例图,如图11所示,在训练得到语音信号处理模型,本发明实施例可使用语音信号处理模型对输入即时通讯客户端的待识别语音,进行前端的语音信号处理,然后输送到即时通讯应用的语音后台服务器进行语音识别;可选的,即时通讯客户端可将语音信号处理模型的各任务层对待识别语音的输出,分别作为相应的语音信号处理任务的辅助处理信号,从而辅助各语音信号处理任务的处理,实现各语音信号处理任务更为准确的结果输出;
参照图11,作为一种可选应用场景,在即时通讯客户端装载本发明实施例训练好的语音信号处理模型的基础上,具体应用过程可以包括:
S1、即时通讯客户端获取输入的待识别语音。
S2、即时通讯客户端根据预训练的语音信号处理模型,确定语音信号处理模型的各任务层对待识别语音的输出结果。
其中,语音信号处理模型以最小化目标训练损失函数为训练目标,训练多任务神经网络得到;其中,目标训练损失函数根据各语音信号处理任务的训练损失函数确定;多任务神经网络包括共享层,和各语音信号处理任务对应的任务层。
S3、即时通讯客户端将各任务层对待识别语音的输出结果,作为相应的语音信号处理任务的任务处理结果,或,使用各任务层对待识别语音的输出结果,辅助相应的语音信号处理任务进行任务处理,以得到前端的语音信号处理结果。
S4、即时通讯客户端将前端的语音信号处理结果,发送给语音后台服务器,以便语音后台服务器根据语音信号处理结果,对待识别语音进行语音识别。
可选的,图12示出了语音信号处理模型的输出结果的一种使用示例,参照图12,针对语音前端传统的回声消除任务,语音信号处理模型的回声消除任务层可输出待识别语音的语音谱估计结果,从而将该语音谱估计结果作为语音前端传统的回声消除任务的辅助处理信号,使得回声消除任务在处理时能够更好的区分参考信号和语音信号的比例,提升回声消除任务的输出结果的准确性;显然,在另一种实现上,本发明实施例也可直接将语音信号处理模型的回声消除任务层对待识别语音的输出结果,作为回声消除任务的输出结果;
针对语音检测任务,语音信号处理模型的语音检测任务层可输出待识别语音的输出结果,将该输出结果作为语音前端传统的语音检测任务的辅助处理信号(如将语音检测任务层的输出结果,与语音前端传统的语音检测任务的输出结果的加权平均值作为最后的语音检测任务的输出结果),使得语音检测任务的输出结果的准确性得以提升;显然,在另一种实现上,本发明实施例也可直接将语音信号处理模型的语音检测任务层对待识别语音的输出结果,作为语音检测任务的输出结果;
针对语音方向检测任务,语音信号处理模型的语音方向检测任务层可输出待识别语音的输出结果(如待识别语音的语音/噪声谱估计结果),从而用该输出结果辅助语音前端传统的语音方向检测任务,进行待识别语音的语音和噪声的估计,从而得到更为准确的语音方向估计结果;显然,在另一种实现上,本发明实施例也可直接将语音方向检测任务层输出的待识别语音的语音/噪声谱估计结果,作为语音方向检测任务的输出结果;
针对麦克风阵列增强任务,语音信号处理模型的麦克风阵列增强任务层可输出待识别语音的语音/噪声谱,以此辅助语音前端传统的麦克风阵列增强任务,从而更准确的估计出阵列算法的目标方向,以及阵列算法中所需要的噪声协方差矩阵等参数;显然,在另一种实现上,本发明实施例也可直接将麦克风阵列增强任务层的输出结果,作为麦克风阵列增强任务的输出结果;
针对单通道降噪任务,语音信号处理模型的单通道降噪任务层可输出待识别语音的语音/噪声谱,从而辅助语音前端传统的单通道降噪任务,实现单通道降噪任务中所需要的信噪比等关键参数的获取,提升单通道降噪任务的处理效果;显然,在另一种实现上,本发明实施例也可直接将单通道降噪任务层的输出结果,作为单通道降噪任务的输出结果;
针对混响消除任务,语音信号处理模型的混响消除任务层可输出房间混响估计,从而辅助语音前端传统的混响消除任务进行算法的参数调节,来控制混响消除的程度;显然,在另一种实现上,本发明实施例也可直接将混响消除任务层的输出结果,作为混响消除任务的输出结果。
可选的,上述描述的语音信号处理模型在待识别语音的语音信号处理过程中的应用仅是示例,可以理解为是在智能音箱场景下的语音信号处理过程的应用;显然,在不同的应用场景下,语音信号处理模型的应用方式可以根据实际情况适配调整,但不脱离使用语音信号处理模型替代语音前端传统的语音信号处理过程,或,使用语音信号处理模型,辅助语音前端传统的语音信号处理过程的思路。
下面对本发明实施例提供的语音信号处理模型训练装置进行介绍,下文描述的语音信号处理模型训练装置可以认为是,电子设备为实现本发明实施例提供的语音信号处理模型训练方法,所需设置的程序模块;下文描述的语音信号处理模型训练装置可与上文描述的语音信号处理模型训练方法相互对应参照。
图13为本发明实施例提供的语音信号处理模型训练装置的结构框图,该装置可应用于具有数据处理能力的电子设备,参照图13,该装置可以包括:
任务输入特征确定模块100,用于获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征;
目标损失函数确定模块200,用于根据各语音信号处理任务的训练损失函数,确定目标训练损失函数;
模型训练模块300,用于将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络收敛,得到语音信号处理模型;其中,所述待训练的多任务神经网络包括:共享层,和各语音信号处理任务对应的任务层。
可选的,模型训练模块300,用于以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,具体包括:
对于所述共享层,以最小化目标训练损失函数为训练目标,根据目标训练损失函数,对共享层的参数进行更新;及对于任一语音信号处理任务对应的任务层,以最小化目标训练损失函数为训练目标,根据该语音信号处理任务的训练损失函数,对该语音信号处理任务的任务层的参数进行更新。
可选的,所述待训练的多任务神经网络可以包括:第一多任务神经网络;相应的,图14示出了本发明实施例提供的语音信号处理模型训练装置的另一结构框图,结合图13和图14所示,该装置还可以包括:
第一网络训练模块400,用于从语音信号处理过程的多个语音信号处理任务中,确定至少一个第一类语音信号处理任务;确定样本语音的第一类语音信号处理任务的任务输入特征;根据第一类语音信号处理任务的训练损失函数,确定第一目标训练损失函数;将样本语音的第一类语音信号处理任务的任务输入特征,作为初始的多任务神经网络的训练输入,以最小化第一目标训练损失函数为训练目标,对初始的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至初始的多任务神经网络收敛,得到第一多任务神经网络。
可选的,第一网络训练模块400,用于从语音信号处理过程的多个语音信号处理任务中,确定至少一个第一类语音信号处理任务,具体包括:
确定所述多个语音信号处理任务中的基本任务,将所述基本任务确定为第一类语音信号处理任务,所述基本任务为所述多个语音信号处理任务中,相对于其他的语音信号处理任务具有辅助效果的任务;
或,将所述多个语音信号处理任务中,训练复杂度高于设定的复杂度阈值的语音信号处理任务,确定为第一类语音信号处理任务。
可选的,所述第一网络训练模块400,用于根据第一类语音信号处理任务的训练损失函数,确定第一目标训练损失函数,具体包括:
对于任一第一类语音信号处理任务,将该第一类语音信号处理任务的训练损失函数,乘以该第一类语音信号处理任务相应的权重,得到该第一类语音信号处理任务的相乘结果,以确定出各第一类语音信号处理任务的相乘结果;
将各第一类语音信号处理任务的相乘结果相加,得到第一目标训练损失函数。
可选的,所述样本语音的第一类语音信号处理任务的任务输入特征包括:多份任务输入特征;一份任务输入特征所包含的特征数量为至少一个;
相应的,第一网络训练模块400,用于将样本语音的第一类语音信号处理任务的任务输入特征,作为初始的多任务神经网络的训练输入,以最小化第一目标训练损失函数为训练目标,对初始的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至初始的多任务神经网络收敛,得到第一多任务神经网络,具体包括:
根据样本语音的第一类语音信号处理任务的多份任务输入特征,分多个训练阶段递进的对初始的多任务神经网络进行训练,得到第一多任务神经网络;其中,一个训练阶段使用样本语音的第一类语音信号处理任务的一份任务输入特征作为训练输入,且以最小化第一目标训练损失函数为训练目标。
可选的,第一网络训练模块400,用于根据样本语音的第一类语音信号处理任务的多份任务输入特征,分多个训练阶段递进的对初始的多任务神经网络进行训练,得到第一多任务神经网络,具体包括:
根据当前训练阶段,从样本语音的第一类语音信号处理任务的多份任务输入特征中,选取当前训练阶段相应的当前份任务输入特征;将该当前份任务输入特征,作为上一训练阶段训练完成的多任务神经网络的训练输入,以最小化第一目标训练损失函数为训练目标,对上一训练阶段训练完成的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至根据最后一份任务输入特征,训练的多任务神经网络达到收敛,得到第一多任务神经网络。
可选的,在另一种实现上,所述待训练的多任务神经网络可以包括:初始的多任务神经网络;所述目标损失函数确定模块200,用于根据各语音信号处理任务的训练损失函数,确定目标训练损失函数,具体包括:
对于任一语音信号处理任务,将该语音信号处理任务的训练损失函数,乘以该语音信号处理任务相应的权重,得到该语音信号处理任务相应的相乘结果,以确定出各语音信号处理任务相应的相乘结果;
将各语音信号处理任务相应的相乘结果相加,得到目标训练损失函数。
可选的,多任务神经网络中的共享层可以包括LSTM网络,各语音信号处理任务对应的任务层可以包括:各语音信号处理任务对应的MLP全连接网络;
可选的,模型训练模块300,用于对待训练的多任务神经网络的共享层和各任务层的参数进行更新,可以具体包括:
对待训练的多任务神经网络的LSTM网络的输入层到隐含层的连接参数、隐含层到输出层的连接参数、以及隐含层到隐含层之间的连接参数进行更新;及,对各语音信号处理任务对应的MLP全连接网络的输入层到隐含层的连接参数、隐含层到输出层的连接参数进行更新。
可选的,在训练得到语音信号处理模型后,可在语音前端的语音信号处理过程中进行应用;可选的,图15示出了本发明实施例提供的语音信号处理模型训练装置的再一结构框图,结合图14和图15所示,该装置还可以包括:
模型应用模块500,用于确定语音信号处理模型的各任务层对待识别语音的输出结果;将各任务层对待识别语音的输出结果,作为相应的语音信号处理任务的任务处理结果,或,使用各任务层对待识别语音的输出结果,辅助相应的语音信号处理任务进行任务处理。
可选的,模型应用模块500也可在图13所示装置中进行使用。
本发明实施例提供的语音信号处理模型训练装置可应用于电子设备中,可选的,该电子设备的硬件结构可以如图16所示,包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本发明实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;可选的,处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(Application Specific IntegratedCircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器;
其中,所述存储器存储有程序,所述处理器调用所述程序,所述程序用于:
获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征;根据各语音信号处理任务的训练损失函数,确定目标训练损失函数;将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络收敛,得到语音信号处理模型;其中,所述待训练的多任务神经网络包括:共享层,和各语音信号处理任务对应的任务层。
可选的,所述程序的细化功能和扩展功能可参照上文相应部分。
进一步,本发明实施例还提供一种存储介质,该存储介质可选如存储器,所述存储介质存储有适用于处理器执行的程序,所述程序用于:
获取样本语音,确定样本语音的各语音信号处理任务的任务输入特征;根据各语音信号处理任务的训练损失函数,确定目标训练损失函数;将样本语音的各语音信号处理任务的任务输入特征,作为待训练的多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对待训练的多任务神经网络的共享层和各任务层的参数进行更新,直至待训练的多任务神经网络收敛,得到语音信号处理模型;其中,所述待训练的多任务神经网络包括:共享层,和各语音信号处理任务对应的任务层。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的语音信号处理模型训练技术可以应用于以上任意领域。
可选的,所述程序的细化功能和扩展功能可参照上文相应部分。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (12)
1.一种语音信号处理模型训练方法,其特征在于,包括:
获取样本语音,从语音信号处理过程的多个语音信号处理任务中,确定至少一个第一类语音信号处理任务;
确定样本语音的第一类语音信号处理任务的任务输入特征,及样本语音的各类语音信号处理任务的任务输入特征;所述第一类语音信号处理任务的任务输入特征包括:多份任务输入特征;一份任务输入特征所包含的特征数量为至少一个;
根据第一类语音信号处理任务的训练损失函数,确定第一目标训练损失函数;及根据各语音信号处理任务的训练损失函数,确定目标训练损失函数,所述目标训练损失函数包括多任务神经网络的总训练损失函数;
根据当前训练阶段,从样本语音的第一类语音信号处理任务的多份任务输入特征中,选取当前训练阶段相应的当前份任务输入特征;将该当前份任务输入特征,作为上一训练阶段训练完成的多任务神经网络的训练输入,以最小化第一目标训练损失函数为训练目标,对上一训练阶段训练完成的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至根据最后一份任务输入特征,训练的多任务神经网络达到收敛,得到第一多任务神经网络;
将样本语音的各语音信号处理任务的任务输入特征,作为第一多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对第一多任务神经网络的共享层和各语音信号处理任务对应的任务层的参数进行更新,直至第一多任务神经网络收敛,得到语音信号处理模型。
2.根据权利要求1所述的语音信号处理模型训练方法,其特征在于,所述以最小化第一目标训练损失函数为训练目标,对上一训练阶段训练完成的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新包括:
对于所述共享层,以最小化所述第一目标训练损失函数为训练目标,根据所述第一目标训练损失函数,对共享层的参数进行更新;及对于第一类语音信号处理任务对应的任务层,以最小化所述第一目标训练损失函数为训练目标,根据该语音信号处理任务的训练损失函数,对该第一类语音信号处理任务的任务层的参数进行更新。
3.根据权利要求1所述的语音信号处理模型训练方法,其特征在于,所述根据第一类语音信号处理任务的训练损失函数,确定第一目标训练损失函数包括:
对于任一第一类语音信号处理任务,将该第一类语音信号处理任务的训练损失函数,乘以该第一类语音信号处理任务相应的权重,得到该第一类语音信号处理任务的相乘结果,以确定出各第一类语音信号处理任务的相乘结果;
将各第一类语音信号处理任务的相乘结果相加,得到第一目标训练损失函数。
4.根据权利要求1所述的语音信号处理模型训练方法,其特征在于,所述从语音信号处理过程的多个语音信号处理任务中,确定至少一个第一类语音信号处理任务包括:
确定所述多个语音信号处理任务中的基本任务,将所述基本任务确定为第一类语音信号处理任务,所述基本任务为所述多个语音信号处理任务中,相对于其他的语音信号处理任务具有辅助效果的任务;
或,将所述多个语音信号处理任务中,训练复杂度高于设定的复杂度阈值的语音信号处理任务,确定为第一类语音信号处理任务。
5.根据权利要求1项所述的语音信号处理模型训练方法,其特征在于,所述样本语音的第一类语音信号处理任务的任务输入特征包括:多份任务输入特征;一份任务输入特征所包含的特征数量为至少一个;
所述将该当前份任务输入特征,作为上一训练阶段训练完成的多任务神经网络的训练输入,以最小化第一目标训练损失函数为训练目标,对上一训练阶段训练完成的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至根据最后一份任务输入特征,训练的多任务神经网络达到收敛,得到第一多任务神经网络包括:
根据样本语音的第一类语音信号处理任务的多份任务输入特征,分多个训练阶段递进的对初始的多任务神经网络进行训练,得到第一多任务神经网络;其中,一个训练阶段使用样本语音的第一类语音信号处理任务的一份任务输入特征作为训练输入,且以最小化第一目标训练损失函数为训练目标。
6.根据权利要求1或2所述的语音信号处理模型训练方法,其特征在于,所述待训练的多任务神经网络包括:初始的多任务神经网络;所述根据各语音信号处理任务的训练损失函数,确定目标训练损失函数包括:
对于任一语音信号处理任务,将该语音信号处理任务的训练损失函数,乘以该语音信号处理任务相应的权重,得到该语音信号处理任务相应的相乘结果,以确定出各语音信号处理任务相应的相乘结果;
将各语音信号处理任务相应的相乘结果相加,得到目标训练损失函数。
7.根据权利要求1所述的语音信号处理模型训练方法,其特征在于,所述共享层包括长短期记忆LSTM网络,各语音信号处理任务对应的任务层包括:各语音信号处理任务对应的多层感知器MLP全连接网络;
所述对上一训练阶段训练完成的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新包括:
对上一训练阶段训练完成的多任务神经网络的LSTM网络的输入层到隐含层的连接参数、隐含层到输出层的连接参数、以及隐含层到隐含层之间的连接参数进行更新;及,对各语音信号处理任务对应的MLP全连接网络的输入层到隐含层的连接参数、隐含层到输出层的连接参数进行更新。
8.根据权利要求1所述的语音信号处理模型训练方法,其特征在于,所述方法还包括:
确定语音信号处理模型的各任务层对待识别语音的输出结果;
将各任务层对待识别语音的输出结果,作为相应的语音信号处理任务的任务处理结果,或,使用各任务层对待识别语音的输出结果,辅助相应的语音信号处理任务进行任务处理。
9.一种语音信号处理模型训练装置,其特征在于,包括:
任务输入特征确定模块,用于获取样本语音,从语音信号处理过程的多个语音信号处理任务中,确定至少一个第一类语音信号处理任务;
目标损失函数确定模块,用于确定样本语音的第一类语音信号处理任务的任务输入特征,及样本语音的各类语音信号处理任务的任务输入特征;所述第一类语音信号处理任务的任务输入特征包括:多份任务输入特征;一份任务输入特征所包含的特征数量为至少一个,根据第一类语音信号处理任务的训练损失函数,确定第一目标训练损失函数;及根据各语音信号处理任务的训练损失函数,确定目标训练损失函数,所述目标训练损失函数包括多任务神经网络的总训练损失函数;
模型训练模块,用于根据当前训练阶段,从样本语音的第一类语音信号处理任务的多份任务输入特征中,选取当前训练阶段相应的当前份任务输入特征;将该当前份任务输入特征,作为上一训练阶段训练完成的多任务神经网络的训练输入,以最小化第一目标训练损失函数为训练目标,对上一训练阶段训练完成的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至根据最后一份任务输入特征,训练的多任务神经网络达到收敛,得到第一多任务神经网络;
将样本语音的各语音信号处理任务的任务输入特征,作为第一多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对第一多任务神经网络的共享层和各语音信号处理任务对应的任务层的参数进行更新,直至第一多任务神经网络收敛,得到语音信号处理模型。
10.根据权利要求9所述的语音信号处理模型训练装置,其特征在于,所述模型训练模块,用于以最小化第一目标训练损失函数为训练目标,对上一训练阶段训练完成的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,具体包括:
对于所述共享层,以最小化所述第一目标训练损失函数为训练目标,根据所述第一目标训练损失函数,对共享层的参数进行更新;及对于第一类语音信号处理任务对应的任务层,以最小化所述第一目标训练损失函数为训练目标,根据该语音信号处理任务的训练损失函数,对该第一类语音信号处理任务的任务层的参数进行更新。
11.一种电子设备,其特征在于,包括:至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述存储器存储的程序,所述程序用于:
获取样本语音,从语音信号处理过程的多个语音信号处理任务中,确定至少一个第一类语音信号处理任务;
确定样本语音的第一类语音信号处理任务的任务输入特征,及样本语音的各类语音信号处理任务的任务输入特征;所述第一类语音信号处理任务的任务输入特征包括:多份任务输入特征;一份任务输入特征所包含的特征数量为至少一个;
根据第一类语音信号处理任务的训练损失函数,确定第一目标训练损失函数;及根据各语音信号处理任务的训练损失函数,确定目标训练损失函数,所述目标训练损失函数包括多任务神经网络的总训练损失函数;
根据当前训练阶段,从样本语音的第一类语音信号处理任务的多份任务输入特征中,选取当前训练阶段相应的当前份任务输入特征;将该当前份任务输入特征,作为上一训练阶段训练完成的多任务神经网络的训练输入,以最小化第一目标训练损失函数为训练目标,对上一训练阶段训练完成的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至根据最后一份任务输入特征,训练的多任务神经网络达到收敛,得到第一多任务神经网络;
将样本语音的各语音信号处理任务的任务输入特征,作为第一多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对第一多任务神经网络的共享层和各语音信号处理任务对应的任务层的参数进行更新,直至第一多任务神经网络收敛,得到语音信号处理模型。
12.一种存储介质,其特征在于,所述存储介质存储有适用于处理器执行的程序,所述程序用于:
获取样本语音,从语音信号处理过程的多个语音信号处理任务中,确定至少一个第一类语音信号处理任务;
确定样本语音的第一类语音信号处理任务的任务输入特征,及样本语音的各类语音信号处理任务的任务输入特征;所述第一类语音信号处理任务的任务输入特征包括:多份任务输入特征;一份任务输入特征所包含的特征数量为至少一个;
根据第一类语音信号处理任务的训练损失函数,确定第一目标训练损失函数;及根据各语音信号处理任务的训练损失函数,确定目标训练损失函数,所述目标训练损失函数包括多任务神经网络的总训练损失函数;
根据当前训练阶段,从样本语音的第一类语音信号处理任务的多份任务输入特征中,选取当前训练阶段相应的当前份任务输入特征;将该当前份任务输入特征,作为上一训练阶段训练完成的多任务神经网络的训练输入,以最小化第一目标训练损失函数为训练目标,对上一训练阶段训练完成的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新,直至根据最后一份任务输入特征,训练的多任务神经网络达到收敛,得到第一多任务神经网络;
将样本语音的各语音信号处理任务的任务输入特征,作为第一多任务神经网络的训练输入,以最小化目标训练损失函数为训练目标,对第一多任务神经网络的共享层和各语音信号处理任务对应的任务层的参数进行更新,直至第一多任务神经网络收敛,得到语音信号处理模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910745812.1A CN110444214B (zh) | 2017-11-24 | 2017-11-24 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910745812.1A CN110444214B (zh) | 2017-11-24 | 2017-11-24 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
CN201711191604.9A CN109841220B (zh) | 2017-11-24 | 2017-11-24 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711191604.9A Division CN109841220B (zh) | 2017-11-24 | 2017-11-24 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110444214A CN110444214A (zh) | 2019-11-12 |
CN110444214B true CN110444214B (zh) | 2021-08-17 |
Family
ID=66630868
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910745812.1A Active CN110444214B (zh) | 2017-11-24 | 2017-11-24 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
CN201711191604.9A Active CN109841220B (zh) | 2017-11-24 | 2017-11-24 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711191604.9A Active CN109841220B (zh) | 2017-11-24 | 2017-11-24 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11158304B2 (zh) |
EP (1) | EP3611725B1 (zh) |
CN (2) | CN110444214B (zh) |
WO (1) | WO2019100998A1 (zh) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110444214B (zh) | 2017-11-24 | 2021-08-17 | 深圳市腾讯计算机系统有限公司 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
EP3598777B1 (en) * | 2018-07-18 | 2023-10-11 | Oticon A/s | A hearing device comprising a speech presence probability estimator |
JP7051749B2 (ja) * | 2019-06-03 | 2022-04-11 | 株式会社東芝 | 信号処理装置、信号処理システム、信号処理方法、およびプログラム |
CN112116095B (zh) * | 2019-06-19 | 2024-05-24 | 北京搜狗科技发展有限公司 | 一种多任务学习模型训练的方法及相关装置 |
CN110751941B (zh) * | 2019-09-18 | 2023-05-26 | 平安科技(深圳)有限公司 | 语音合成模型的生成方法、装置、设备及存储介质 |
WO2021077247A1 (zh) * | 2019-10-21 | 2021-04-29 | 深圳大学 | 一种人工耳蜗信号处理方法、装置及计算机可读存储介质 |
CN110681051B (zh) * | 2019-10-21 | 2023-06-13 | 深圳大学 | 一种人工耳蜗信号处理方法、装置及计算机可读存储介质 |
CN110767212B (zh) * | 2019-10-24 | 2022-04-26 | 百度在线网络技术(北京)有限公司 | 一种语音处理方法、装置和电子设备 |
CN110782883B (zh) * | 2019-11-12 | 2020-10-20 | 百度在线网络技术(北京)有限公司 | 一种模型训练方法、装置、电子设备及存储介质 |
CN111191675B (zh) * | 2019-12-03 | 2023-10-24 | 深圳市华尊科技股份有限公司 | 行人属性识别模型实现方法及相关装置 |
CN110930996B (zh) * | 2019-12-11 | 2023-10-31 | 广州市百果园信息技术有限公司 | 模型训练方法、语音识别方法、装置、存储介质及设备 |
CN110996208B (zh) * | 2019-12-13 | 2021-07-30 | 恒玄科技(上海)股份有限公司 | 一种无线耳机及其降噪方法 |
WO2021137754A1 (en) * | 2019-12-31 | 2021-07-08 | National University Of Singapore | Feedback-controlled voice conversion |
CN111261145B (zh) * | 2020-01-15 | 2022-08-23 | 腾讯科技(深圳)有限公司 | 语音处理装置、设备及其训练方法 |
CN111368748B (zh) * | 2020-03-06 | 2023-12-01 | 深圳市商汤科技有限公司 | 网络训练方法及装置、图像识别方法及装置 |
CN111341293B (zh) * | 2020-03-09 | 2022-11-18 | 广州市百果园信息技术有限公司 | 一种文本语音的前端转换方法、装置、设备和存储介质 |
CN111402929B (zh) * | 2020-03-16 | 2022-09-20 | 南京工程学院 | 基于域不变的小样本语音情感识别方法 |
CN111524521B (zh) * | 2020-04-22 | 2023-08-08 | 北京小米松果电子有限公司 | 声纹提取模型训练方法和声纹识别方法、及其装置和介质 |
CN111654572A (zh) * | 2020-05-27 | 2020-09-11 | 维沃移动通信有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN111653287A (zh) * | 2020-06-04 | 2020-09-11 | 重庆邮电大学 | 基于dnn和频带内互相关系数的单通道语音增强算法 |
CN111667728B (zh) * | 2020-06-18 | 2021-11-30 | 思必驰科技股份有限公司 | 语音后处理模块训练方法和装置 |
CN111816162B (zh) * | 2020-07-09 | 2022-08-23 | 腾讯科技(深圳)有限公司 | 一种语音变化信息检测方法、模型训练方法以及相关装置 |
CN111883154B (zh) * | 2020-07-17 | 2023-11-28 | 海尔优家智能科技(北京)有限公司 | 回声消除方法及装置、计算机可读的存储介质、电子装置 |
CN111599382B (zh) * | 2020-07-27 | 2020-10-27 | 深圳市声扬科技有限公司 | 语音分析方法、装置、计算机设备和存储介质 |
CN111951780B (zh) * | 2020-08-19 | 2023-06-13 | 广州华多网络科技有限公司 | 语音合成的多任务模型训练方法及相关设备 |
CN112163676B (zh) * | 2020-10-13 | 2024-04-05 | 北京百度网讯科技有限公司 | 多任务服务预测模型训练方法、装置、设备以及存储介质 |
CN112380849B (zh) * | 2020-11-20 | 2024-05-28 | 北京百度网讯科技有限公司 | 生成兴趣点提取模型和提取兴趣点的方法和装置 |
CN112712816B (zh) * | 2020-12-23 | 2023-06-20 | 北京达佳互联信息技术有限公司 | 语音处理模型的训练方法和装置以及语音处理方法和装置 |
CN112541124B (zh) * | 2020-12-24 | 2024-01-12 | 北京百度网讯科技有限公司 | 生成多任务模型的方法、装置、设备、介质及程序产品 |
CN112989108B (zh) * | 2021-02-24 | 2022-11-04 | 腾讯科技(深圳)有限公司 | 基于人工智能的语种检测方法、装置及电子设备 |
CN113704388A (zh) * | 2021-03-05 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 多任务预训练模型的训练方法、装置、电子设备和介质 |
CN113241064B (zh) * | 2021-06-28 | 2024-02-13 | 科大讯飞股份有限公司 | 语音识别、模型训练方法、装置、电子设备和存储介质 |
CN113314119B (zh) * | 2021-07-27 | 2021-12-03 | 深圳百昱达科技有限公司 | 语音识别智能家居控制方法及装置 |
CN113610150B (zh) * | 2021-08-05 | 2023-07-25 | 北京百度网讯科技有限公司 | 模型训练的方法、对象分类方法、装置及电子设备 |
CN113707134B (zh) * | 2021-08-17 | 2024-05-17 | 北京搜狗科技发展有限公司 | 一种模型训练方法、装置和用于模型训练的装置 |
CN113593594B (zh) * | 2021-09-01 | 2024-03-08 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和设备及语音增强方法和设备 |
CN113724723A (zh) * | 2021-09-02 | 2021-11-30 | 西安讯飞超脑信息科技有限公司 | 混响与噪声抑制方法、装置、电子设备及存储介质 |
CN113782000B (zh) * | 2021-09-29 | 2022-04-12 | 北京中科智加科技有限公司 | 一种基于多任务的语种识别方法 |
CN114612750B (zh) * | 2022-05-09 | 2022-08-19 | 杭州海康威视数字技术股份有限公司 | 自适应学习率协同优化的目标识别方法、装置及电子设备 |
CN115116446A (zh) * | 2022-06-21 | 2022-09-27 | 成都理工大学 | 一种噪声环境下说话人识别模型构建方法 |
CN114882884B (zh) * | 2022-07-06 | 2022-09-23 | 深圳比特微电子科技有限公司 | 一种基于深度学习模型的多任务实现方法、装置 |
CN117275499B (zh) * | 2023-11-17 | 2024-02-02 | 深圳波洛斯科技有限公司 | 自适应神经网络的降噪方法及相关装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881678A (zh) * | 2015-05-11 | 2015-09-02 | 中国科学技术大学 | 一种模型与特征联合学习的多任务学习方法 |
CN106529402A (zh) * | 2016-09-27 | 2017-03-22 | 中国科学院自动化研究所 | 基于多任务学习的卷积神经网络的人脸属性分析方法 |
CN106653056A (zh) * | 2016-11-16 | 2017-05-10 | 中国科学院自动化研究所 | 基于lstm循环神经网络的基频提取模型及训练方法 |
WO2017083399A2 (en) * | 2015-11-09 | 2017-05-18 | Google Inc. | Training neural networks represented as computational graphs |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9460711B1 (en) * | 2013-04-15 | 2016-10-04 | Google Inc. | Multilingual, acoustic deep neural networks |
US9665823B2 (en) * | 2013-12-06 | 2017-05-30 | International Business Machines Corporation | Method and system for joint training of hybrid neural networks for acoustic modeling in automatic speech recognition |
US10089576B2 (en) * | 2015-07-28 | 2018-10-02 | Microsoft Technology Licensing, Llc | Representation learning using multi-task deep neural networks |
US10339921B2 (en) * | 2015-09-24 | 2019-07-02 | Google Llc | Multichannel raw-waveform neural networks |
US20190034814A1 (en) * | 2016-03-17 | 2019-01-31 | Sri International | Deep multi-task representation learning |
KR102151682B1 (ko) * | 2016-03-23 | 2020-09-04 | 구글 엘엘씨 | 다중채널 음성 인식을 위한 적응성 오디오 강화 |
CN106228980B (zh) * | 2016-07-21 | 2019-07-05 | 百度在线网络技术(北京)有限公司 | 数据处理方法和装置 |
US10657437B2 (en) * | 2016-08-18 | 2020-05-19 | International Business Machines Corporation | Training of front-end and back-end neural networks |
CN106355248A (zh) * | 2016-08-26 | 2017-01-25 | 深圳先进技术研究院 | 一种深度卷积神经网络训练方法及装置 |
US11042796B2 (en) * | 2016-11-03 | 2021-06-22 | Salesforce.Com, Inc. | Training a joint many-task neural network model using successive regularization |
EP3545472A1 (en) * | 2017-01-30 | 2019-10-02 | Google LLC | Multi-task neural networks with task-specific paths |
CN107357838B (zh) * | 2017-06-23 | 2020-09-01 | 上海交大知识产权管理有限公司 | 基于多任务学习的对话策略在线实现方法 |
CN110444214B (zh) | 2017-11-24 | 2021-08-17 | 深圳市腾讯计算机系统有限公司 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
-
2017
- 2017-11-24 CN CN201910745812.1A patent/CN110444214B/zh active Active
- 2017-11-24 CN CN201711191604.9A patent/CN109841220B/zh active Active
-
2018
- 2018-11-15 WO PCT/CN2018/115704 patent/WO2019100998A1/zh unknown
- 2018-11-15 EP EP18880575.8A patent/EP3611725B1/en active Active
-
2019
- 2019-10-17 US US16/655,548 patent/US11158304B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881678A (zh) * | 2015-05-11 | 2015-09-02 | 中国科学技术大学 | 一种模型与特征联合学习的多任务学习方法 |
WO2017083399A2 (en) * | 2015-11-09 | 2017-05-18 | Google Inc. | Training neural networks represented as computational graphs |
CN106529402A (zh) * | 2016-09-27 | 2017-03-22 | 中国科学院自动化研究所 | 基于多任务学习的卷积神经网络的人脸属性分析方法 |
CN106653056A (zh) * | 2016-11-16 | 2017-05-10 | 中国科学院自动化研究所 | 基于lstm循环神经网络的基频提取模型及训练方法 |
Non-Patent Citations (3)
Title |
---|
"Multi-task deep neural network with shared hidden layers: Breaking down the wall between emotion representations";Yue Zhang;《 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20170619;全文 * |
"speech enhancement and recognition using multi-task learning of long short-term memory recurrent neural networks";Zhou Chen 等;《INTERSPEECH 2015》;20150906;全文 * |
"基于多任务协同深度学习的疲劳检测系统研究";田卓;《中国优秀硕士学位论文全文数据库(工程科技Ⅱ辑)》;20180215;全文 * |
Also Published As
Publication number | Publication date |
---|---|
EP3611725A4 (en) | 2020-12-23 |
CN109841220B (zh) | 2022-09-13 |
US11158304B2 (en) | 2021-10-26 |
EP3611725A1 (en) | 2020-02-19 |
EP3611725B1 (en) | 2024-01-17 |
CN110444214A (zh) | 2019-11-12 |
WO2019100998A1 (zh) | 2019-05-31 |
US20200051549A1 (en) | 2020-02-13 |
CN109841220A (zh) | 2019-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110444214B (zh) | 语音信号处理模型训练方法、装置、电子设备及存储介质 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
JP7337953B2 (ja) | 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム | |
CN108269569B (zh) | 语音识别方法和设备 | |
CN108417224B (zh) | 双向神经网络模型的训练和识别方法及系统 | |
CN109841226A (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN111785288B (zh) | 语音增强方法、装置、设备及存储介质 | |
CN113436643B (zh) | 语音增强模型的训练及应用方法、装置、设备及存储介质 | |
CN112863535B (zh) | 一种残余回声及噪声消除方法及装置 | |
Wang et al. | Recurrent deep stacking networks for supervised speech separation | |
CN110930996B (zh) | 模型训练方法、语音识别方法、装置、存储介质及设备 | |
CN112562716A (zh) | 基于神经网络的语音增强方法、装置、终端和介质 | |
CN111722696A (zh) | 用于低功耗设备的语音数据处理方法和装置 | |
CN112180318A (zh) | 声源波达方向估计模型训练和声源波达方向估计方法 | |
CN114664288A (zh) | 一种语音识别方法、装置、设备及可存储介质 | |
JP7231181B2 (ja) | 耐雑音音声認識装置及び方法、並びにコンピュータプログラム | |
Taniguchi et al. | Signal restoration based on bi-directional LSTM with spectral filtering for robot audition | |
CN108573698B (zh) | 一种基于性别融合信息的语音降噪方法 | |
CN114067785B (zh) | 语音深度神经网络训练方法、装置、存储介质及电子装置 | |
CN111354341A (zh) | 语音唤醒方法及装置、处理器、音箱和电视机 | |
CN108922557A (zh) | 一种聊天机器人的多人语音分离方法及系统 | |
CN115910047B (zh) | 数据处理方法、模型训练方法、关键词检测方法及设备 | |
CN116705013B (zh) | 语音唤醒词的检测方法、装置、存储介质和电子设备 | |
CN114155883B (zh) | 基于进阶式的语音深度神经网络训练方法、装置 | |
CN114495974B (zh) | 音频信号处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |