CN112562648A - 基于元学习的自适应语音识别方法、装置、设备及介质 - Google Patents
基于元学习的自适应语音识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN112562648A CN112562648A CN202011434900.9A CN202011434900A CN112562648A CN 112562648 A CN112562648 A CN 112562648A CN 202011434900 A CN202011434900 A CN 202011434900A CN 112562648 A CN112562648 A CN 112562648A
- Authority
- CN
- China
- Prior art keywords
- model
- voice
- meta
- target
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 111
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 79
- 230000006978 adaptation Effects 0.000 claims abstract description 34
- 230000006870 function Effects 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 abstract description 12
- 230000000694 effects Effects 0.000 abstract description 9
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000012938 design process Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请公开了一种基于元学习的自适应语音识别方法、装置、设备及介质,涉及人工智能技术领域,可以解决目前在对语音识别模型进行说话人自适应调节时,需要人工预先根据不同说话人类型进行调整准则的设计,设计过程繁琐、工作量较大,并且无法涵盖所有参数调整情况,进而导致语音识别效果不佳的问题。其中方法包括:利用预处理后的样本语音数据训练语音识别模型以及元学习适应模型;基于所述元学习适应模型,将所述语音识别模型的初始模型参数调整为与目标语音类型匹配的目标模型参数;利用配置有所述目标模型参数的语音识别模型识别所述目标语音类型下的目标语音。本申请适用于对语音的自适应识别。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及到一种基于元学习的自适应语音识别方法、装置、设备及介质。
背景技术
随着深度学习的发展,自动语音识别系统取得了显著的效果,并被用于日常生活的各种场景。目前最广泛使用的语音识别应用是智能助理,用户可以通过语音自然地与机器进行交流,协助工作。然而智能助理服务面向的多数场景是单一用户,其语音识别针对的是单一说话人。此时自动语音识别系统的性能可以通过调整声学模型参数来补偿训练和测试条件之间的不匹配,从而来改善识别的效果。这种针对未知说话人调整已有参数的方法被称为说话人自适应方法。
有效的说话人自适应方法依赖于选择合适的声学模型参数和合适的参数更新规则,以避免在较少的训练数据上的过拟合。为了依据不同说话人进行声学模型参数的有效调整,目前主要采用人工设计调整准则(如设计调整步骤数,学习率等)的方式来进行。然而这种调整方式需要人工预先根据不同说话人类型进行调整准则的设计,设计过程繁琐,且工作量较大,并且无法涵盖所有参数调整情况,进而容易导致语音识别效果不佳。
发明内容
有鉴于此,本申请提供了一种基于元学习的自适应语音识别方法、装置、设备及介质,主要解决目前在对语音识别模型进行说话人自适应调节时,需要人工预先根据不同说话人类型进行调整准则的设计,设计过程繁琐、工作量较大,并且无法涵盖所有参数调整情况,进而导致语音识别效果不佳的问题。
根据本申请的一个方面,提供了一种基于元学习的自适应语音识别方法,该方法包括:
利用预处理后的样本语音数据训练语音识别模型以及元学习适应模型;
基于所述元学习适应模型,将所述语音识别模型的初始模型参数调整为与目标语音类型匹配的目标模型参数;
利用配置有所述目标模型参数的语音识别模型识别所述目标语音类型下的目标语音。
根据本申请的另一个方面,提供了一种基于元学习的自适应语音识别装置,其特征在于,包括:
训练模块,用于利用预处理后的样本语音数据训练语音识别模型以及元学习适应模型;
调整模块,用于基于所述元学习适应模型,将所述语音识别模型的初始模型参数调整为与目标语音类型匹配的目标模型参数;
识别模块,用于利用配置有所述目标模型参数的语音识别模型识别所述目标语音类型下的目标语音。
根据本申请的又一个方面,提供了一种非易失性可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述基于元学习的自适应语音识别方法。
根据本申请的再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于元学习的自适应语音识别方法。
借由上述技术方案,本申请提供的一种基于元学习的自适应语音识别方法、装置、设备及介质,与通过人工设计调整准则来进行语音自适应识别的方式相比,本申请可首先通过样本语音数据对语音识别模型进行预训练,并且进一步将说话人适应任务当作元学习中的任务,设计用于根据不同语音类型,调整语音识别模型中模型参数的元学习适应模型。进而可在确定目标语音类型时,基于元学习适应模型将语音识别模型的初始模型参数调整为与目标语音类型匹配的目标模型参数,进而利用配置目标模型参数的语音识别模型实现对目标语音类型下目标语音的智能性精准识别。在本申请中,采用元学习适应模型实现对语音识别模型中模型参数的自适应调整,采用人工智能技术,不仅减少了人工设计的不稳定性,还使得模型参数更新可以针对不同的应用场景,进而保证语音识别的精准性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种基于元学习的自适应语音识别方法的流程示意图;
图2示出了本申请实施例提供的另一种基于元学习的自适应语音识别方法的流程示意图;
图3示出了本申请实施例提供的一种元学习适应模型训练过程的流程示意图;
图4示出了本申请实施例提供的一种基于元学习的自适应语音识别系统的流程示意图;
图5示出了本申请实施例提供的一种基于元学习的自适应语音识别装置的结构示意图;
图6示出了本申请实施例提供的另一种基于元学习的自适应语音识别装置的结构示意图。
具体实施方式
下文将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
针对目前在对语音识别模型进行说话人自适应调节时,需要人工预先根据不同说话人类型进行调整准则的设计,设计过程繁琐、工作量较大,并且无法涵盖所有参数调整情况,进而导致语音识别效果不佳的问题,本申请实施例提供了一种基于元学习的自适应语音识别方法,如图1所示,该方法包括:
101、利用预处理后的样本语音数据训练语音识别模型以及元学习适应模型。
其中,样本语音数据对应预设数量个未标注的语音数据,在利用样本语音数据训练语音识别模型以及元学习适应模型之前,需要利用预设语音处理工具(如Kaldi ASR工具)对样本语音数据进行数据预处理,数据预处理可包括预加重,分帧,加窗等操作,通过数据预处理,可消除因为人类发声器官缺陷和采集设备缺陷带来的混叠、高次谐波失真等因素对语音信号质量的影响。此外,为了方便对语音特征的分析,还需要利用特征提取工具(如梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)或Filter-Bank特征等)进行特征提取,具体需要提取出语音特征以及文本特征。
此外,在利用样本语音数据训练元学习适应模型时,因为训练过程中不可以使用测试集数据,故还需要按照元学习的方式对样本语音数据进行数据块的预处理,具体可采用从样本语音数据中采样或划分转换为多个数据块的方式,从而在训练过程中,可以使用当前数据块进行适应训练,在当前数据块对应的下一数据块上取得损失降低。
对于本申请的执行主体可为用于实现说话人自适应的语音识别系统,在语音识别系统中配置有预训练好的语音识别模型,以及能够根据不同语音类型下的适应数据对语音识别模型中模型参数进行调整的元学习适应模型。
102、基于元学习适应模型,将语音识别模型的初始模型参数调整为与目标语音类型匹配的目标模型参数。
其中,目标语音类型为与待识别的说话人类型相同的语音类型,语音类型具体可根据实际应用需求进行自定义划分。以下特举几种语音类型划分的场景实例:因为不同年龄段或不同性别对应的音频、音调往往不同,故可将说话人类型按照年龄或性别来划分,如按照年龄将语音类型划分为老人、成年人、青少年、婴幼儿,或按照性别将语音类型划分为男人、女人;相应的,因为即使同一年龄段,不同人因为声带的不同,也会导致具有不同的音色,故可将每个人作为一个独立的语音类型;此外,因为受到环境的影响,不同地域的人都会具有不同类型的口音,故可按照环境地域进行语音类型的定义划分,如东北话、四川话、山东话、广东话等。
相应的,对于本实施例,可根据实际应用需求进行目标语音类型的划分选取,如涉及对不同年龄段的语音识别任务(如婴幼儿教育等)时,可按照年龄段来划分选取目标语音类型;如涉及一对一智能语音服务时,可将每一个人作为一个独立的人群类型;如涉及面向大众化的智能语音服务时,可按照环境区域来划分选取目标语音类型等。进一步地,在选取出目标人群类型后,可利用元学习适应模型将语音识别模型的初始模型参数调整为与目标语音类型匹配的目标模型参数。
103、利用配置有目标模型参数的语音识别模型识别目标语音类型下的目标语音。
对于本实施例,在具体的应用场景中,在确定得到与目标人群类型匹配的目标模型参数后,可基于配置有目标模型参数的语音识别模型对目标语音类型下的目标语音进行针对性识别,从而提高识别准确度。
通过本实施例中基于元学习的自适应语音识别方法,与通过人工设计调整准则来进行语音自适应识别的方式相比,本申请可首先通过样本语音数据对语音识别模型进行预训练,并且进一步将说话人适应任务当作元学习中的任务,设计了用于根据不同语音类型,调整语音识别模型中模型参数的元学习适应模型。进而可在确定目标语音类型时,基于元学习适应模型将语音识别模型的初始模型参数调整为与目标语音类型匹配的目标模型参数,进而利用配置目标模型参数的语音识别模型实现对目标语音类型下目标语音的针对性精准识别。在本申请中,采用元学习适应模型实现对语音识别模型中模型参数的自适应调整,采用人工智能技术,不仅减少了人工设计的不稳定性,还使得模型参数更新可以针对不同的应用场景,进而保证语音识别的精准性。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例中的具体实施过程,提供了另一种基于元学习的自适应语音识别方法,如图2所示,该方法包括:
201、对样本语音数据进行预处理,并标记样本语音数据对应的第一语音特征以及第一文本特征,预处理至少包括预加重处理、分帧处理、加窗处理。
其中,对样本语音数据进行预加重处理,目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率。一般通过传递函数为H(z)=1-az-1的一阶FIR高通数字滤波器来实现预加重,其中a为预加重系数,0.9<a<1.0。设n时刻的语音采样值为x(n),经过预加重处理后的结果为y(n)=x(n)-ax(n-1),这里取a=0.98。
此外,由于语音信号在一个短时间范围内其特性基本保持不变,即语音信号具有短时平稳性,所以在对样本语音进行分析时应建立在“短时”的基础上,对样本语音数据进行加窗分帧处理,将样本语音分成一段一段来分析其特征,其中每一段成为一“帧”。由于帧太大不能得到语音信号随时间变化的特性,帧太小不能提取出语音信号的特征,故可将每帧切分为20-30ms大小,在对样本语音进行加窗分帧处理后,可得到每帧样本语音对应语音特征的一个矢量。整个样本数据的语音特征可通过组帧获取得到,即基于帧序号整合各帧下的语音特征矢量,帧序号大小表示每帧对应语音的时间先后。
对于本实施例,通过将语音识别任务看作是一个序列到序列的问题。具体来说,首先逐帧计算样本语音中的语音特征,最后可基于每帧对应的帧序号对语音特征进行整合,进一步得到样本语音的语音序列特征,表示为:
Xt=[x0,…,xT]
其中,T为语音序列的总帧数,表示为第t帧所包含的语音特征。
相应的,可利用已有的语音转换算法,获取每帧样本语音对应的文本特征,进一步进行整合,可得到样本语音对应的文本序列特征,表示为:
Yu=[x0,…,yU]
其中,U为语音对应文本的总长度,表示为第u个文本特征。
202、基于第一语音特征和第一文本特征训练符合第一训练标准的语音识别模型。
其中,在本实施例中,利用样本语音数据预训练得到的语音识别模型可应用于基本的语音识别任务,然而在进行语音的针对性识别时(如带有口音的语音识别、婴幼儿语音的识别等),识别效果往往不够精准,故需要执行后续步骤的模型参数修正过程,以使语音识别模型能够实现针对性识别。对于本实施例的语音识别模型可以采用基于联结时序分类(Connectionist Temporal Classification,CTC)的深度神经网络模型,基于CTC的模型训练时通过预测语音序列中每一帧的输出,对比真实样本标签来计算模型训练误差。在本申请中,语音识别模型采用样本语音数据对应的第一语音特征和第一文本特征进行训练,网络结构一般可采用LSTM/CNN/GRU等结构,考虑到移动场景的内存计算限制,应使用较少的网络结构层数。相应的,为了依据第一语音特征和第一文本特征训练得到符合第一训练标准的语音识别模型,实施例步骤202具体可以包括:将第一语音特征输入语音识别模型,获取文本输出结果;依据文本输出结果与第一文本特征计算第一损失函数;若确定第一损失函数小于第一预设阈值,则判定语音识别模型符合第一训练标准。其中,第一预设阈值可根据实际训练精度要求进行设定,应为大于0且小于1的数值,设定的数值越大,表示语音识别模型的训练精度越高。
203、利用样本语音数据以及语音识别模型,训练符合第二训练标准的元学习适应模型。
在本实施例中,元学习适应模型是基于元学习技术进行训练的,其中,元学习是使用学习任务相关的模型代替手工设计调整准则的算法。在本方案的设置下,元学习适应模型的任务是在少量适应语音数据的帮助下,调整原模型的参数,使得其在语音识别上的效果更好。在利用样本语音数据训练元学习适应模型时,因为训练过程中不可以使用测试集数据,故需要按照元学习的方式对样本语音数据进行数据块的预处理,具体可采用从样本语音数据中采样或划分转换为多个数据块的方式,从而在训练过程中,可以使用当前数据块进行适应训练,在当前数据块对应的下一数据块上取得损失降低。相应的,在利用样本语音数据以及语音识别模型进行元学习适应模型的训练时,实施例步骤203具体可以包括:将样本语音数据划分为预设数量个数据块,并提取各个数据块的第二语音特征和第二文本特征;依据第二语音特征、第二文本特征以及语音识别模型,训练符合第二训练标准的元学习适应模型。需要说明是,本实施例步骤中的第二语音特征、第二文本特征与实施例步骤202中的第一语音特征、第一文本特征不同,第二语音特征、第二文本特征均对应样本语音数据划分的各个数据块的特征序列,而第一语音特征、第一文本特征对应整个样本语音数据的特征序列。
在依据第二语音特征、第二文本特征以及语音识别模型,对元学习适应模型进行训练的过程中,可参见图3所示的元学习适应模型训练过程的流程示意图,若当前数据块为划分的第一个数据块时,可利用预训练的语音识别模型(预训练模型1)的初始模型参数以及数据块1的第二语音特征和第二文本特征,计算元学习适应模型在数据块1中的损失值、损失梯度以及新模型参数,将新模型参数替换至预训练模型1中的初始模型参数,得到语音识别模型对应的模型2。进一步依据模型2对应的模型参数以及数据块2的第二语音特征和第二文本特征,计算元学习适应模型在数据块2中的损失值、损失梯度以及新模型参数,将此时得到的新模型参数替换至模型2中,得到语音识别模型对应的模型3。进一步依据模型3对应的模型参数以及数据块3的第二语音特征和第二文本特征,计算元学习适应模型在数据块3中的损失值、损失梯度以及新模型参数,将此时得到的新模型参数替换至模型3中,得到语音识别模型对应的模型4……,直至完成所有数据块对元学习适应模型的训练,最后可通过所有块数据的训练,计算得到元学习适应模型的第二损失函数,依据损失函数判定元学习适应模型是否通过训练,当通过训练时,可将最后一个数据块确定出的模型参数确定为语音识别模型在测试阶段的新模型参数。
相应的,依据第二语音特征、第二文本特征以及语音识别模型,训练元学习适应模型的具体实现过程可为:提取语音识别模型的初始模型参数;若判定当前数据块为划分的第一个数据块,则依据初始模型参数以及当前数据块的第二语音特征和第二文本特征,计算元学习适应模型在第一个数据块中的损失值、损失梯度以及新模型参数;若判定当前数据块非第一个数据块,则依据前一数据块的新模型参数和当前数据块的第二语音特征和第二文本特征,计算元学习适应模型在当前数据块中的损失值、损失梯度以及新模型参数;若判定所有数据块均完成训练,则利用各个数据块计算得到的损失值、损失梯度以及新模型参数确定元学习适应模型的第二损失函数;若确定第二损失函数小于第二预设阈值,则判定元学习适应模型符合第二训练标准。其中,第二预设阈值可根据实际训练精度要求进行设定,应为大于0且小于1的数值,设定的数值越大,表示语音识别模型的训练精度越高。
其中,第二损失函数计算公式的特征描述为:其中,J为第二损失函数,yc+1为c+1数据块的第二文本特征,xc+1为c+1数据块的第二语音特征,θ′为元学习适应模型在c数据块计算出的新模型参数,L(yc+1,f(xc+1;θ′))为元学习适应模型在c+1数据块计算出的损失值。
在本申请中,元学习适应模型网络结构可采用两层的长短期记忆网络(LongShort-Term Memory,LSTM)。其中第一层的LSTM的t时刻的输入包括原模型参数θt,在数据块上的交叉熵损失Lt和其对应的梯度经过第一层LSTM,可以得到输入的隐层表示ht。将ht输入第二层LSTM后,可以得到其中的遗忘门参数ft和输入门参数it,结合原参数θt和对应的梯度可以得到新模型的参数:
204、基于元学习适应模型,将语音识别模型的初始模型参数调整为与目标语音类型匹配的目标模型参数。
对于本实施例,在训练得到符合预设训练标准的元学习适应模型后,即可根据实际应用场景利用元学习适应模型对语音识别模型的模型参数进行适应性调整。具体的,为了得到与目标语音类型匹配的目标模型参数,需要提取少量与目标语音类型匹配的适应语音数据,在将语音识别模型的初始模型参数和适应语音数据上的损失及损失梯度输入元学习适应模型中,即可得到语音识别模型中与目标语音类型匹配的目标模型参数。其中适应数据需要与待识别的目标语音同属于一个语音类型,例如,若本申请的语音识别应用于婴幼儿教育时,因为待识别的目标语音为婴幼儿,故在利用元学习适应模型对语音识别模型的模型参数进行调整时,可利用少量婴幼儿语音数据作为适应语音数据,进一步确定得到与婴幼儿这一语音类型匹配的目标模型参数,从而能够得到在婴幼儿语音识别上精度较高的语音识别模型。再例如,若本申请的语音识别应用于面向大众化的智能语音服务时,因为待识别的目标语音为各个地域的人群,为了避免地域口音对语音识别效果的影响,故可根据待识别区域来选取对应的适应语音数据,如待识别区域为东北区域,则可选取少量东北语音数据作为适应语音数据,从而训练得到能够排除口音干扰的语音识别模型。
205、利用配置有目标模型参数的语音识别模型识别目标语音类型下的目标语音。
其中,在确定得到与适应语音数据匹配的目标模型参数后,可将目标模型参数更新到语音识别模型中,进而利用更新后的语音识别模型实现对目标语音类型下的目标语音的精准识别,从而能够得到比预训练的语音识别模型更好的语音识别效果。
借由上述基于元学习的自适应语音识别方法,本申请可首先通过样本语音数据对语音识别模型进行预训练,并且进一步将说话人适应任务当作元学习中的任务,设计用于根据不同语音类型,调整语音识别模型中模型参数的元学习适应模型。进而可在确定目标语音类型时,基于元学习适应模型将语音识别模型的初始模型参数调整为与目标语音类型匹配的目标模型参数,进而利用配置目标模型参数的语音识别模型实现对目标语音类型下目标语音的针对性精准识别。在本申请中,采用元学习适应模型实现对语音识别模型中模型参数的自适应调整,不仅减少了人工设计的不稳定性,还使得模型参数更新可以针对不同的应用场景,进而保证语音识别的精准性。并且在利用元学习适应模型确定语音识别模型的模型参数时,仅需少量适应语音数据,较少的适应语音数据会使得更新的模型参数更容易在应用场景中过拟合,故还可减少参数更新的过拟合风险。
对于本实施例,在具体的应用场景中,语音识别系统可参见图4所示的基于元学习的自适应语音识别系统的流程示意图,具体可在确定出样本语音数据并进行预处理后,进行特征提取,利用提取出的第一语音特征以及第一文本特征预训练语音适应模型,进而根据样本语音数据对应的第二语音特征、第二文本特征以及语音识别模型对应的原始模型参数训练元学习适应模型。之后利用与目标语音类型匹配的适应语音数据,在提取语音特征以及文本特征后,与语音识别模型的初始模型参数一同输入到训练完成的元学习适应模型中,即可获取得到与目标语音类型匹配的目标模型参数,将语音识别模型的初始模型参数更新为目标模型参数,进而可利用更新后的语音识别模型(说话人适应模型)识别目标语音类型下的目标语音。
进一步的,作为图1和图2所示方法的具体实现,本申请实施例提供了一种基于元学习的自适应语音识别装置,如图5所示,该装置包括:训练模块31、调整模块32、识别模块33;
训练模块31,可用于利用预处理后的样本语音数据训练语音识别模型以及元学习适应模型;
调整模块32,可用于基于元学习适应模型,将语音识别模型的初始模型参数调整为与目标语音类型匹配的目标模型参数;
识别模块33,可用于利用配置有目标模型参数的语音识别模型识别目标语音类型下的目标语音。
在具体的应用场景中,为了预训练得到语音识别模型,以及元学习适应模型,如图6所示,训练模块31,具体可包括:处理单元311、第一训练单元312、第二训练单元313;
处理单元311,可用于对样本语音数据进行预处理,并标记样本语音数据对应的第一语音特征以及第一文本特征,预处理至少包括预加重处理、分帧处理、加窗处理;
第一训练单元312,可用于基于第一语音特征和第一文本特征训练符合第一训练标准的语音识别模型;
第二训练单元313,可用于利用样本语音数据以及语音识别模型,训练符合第二训练标准的元学习适应模型。
相应的,第一训练单元312,具体可用于将第一语音特征输入语音识别模型,获取文本输出结果;依据文本输出结果与第一文本特征计算第一损失函数;若确定第一损失函数小于第一预设阈值,则判定语音识别模型符合第一训练标准。
在具体的应用场景中,第二训练单元313,具体可用于将样本语音数据划分为预设数量个数据块,并提取各个数据块的第二语音特征和第二文本特征;依据第二语音特征、第二文本特征以及语音识别模型,训练符合第二训练标准的元学习适应模型。
相应的,在依据第二语音特征、第二文本特征以及语音识别模型,训练符合第二训练标准的元学习适应模型时,第二训练单元313,具体可用于提取语音识别模型的初始模型参数;若判定当前数据块为划分的第一个数据块,则依据初始模型参数以及当前数据块的第二语音特征和第二文本特征,计算元学习适应模型在第一个数据块中的损失值、损失梯度以及新模型参数;若判定当前数据块非第一个数据块,则依据前一数据块的新模型参数和当前数据块的第二语音特征和第二文本特征,计算元学习适应模型在当前数据块中的损失值、损失梯度以及新模型参数;若判定所有数据块均完成训练,则利用各个数据块计算得到的损失值、损失梯度以及新模型参数确定元学习适应模型的第二损失函数;若确定第二损失函数小于第二预设阈值,则判定元学习适应模型符合第二训练标准。
其中,第二损失函数计算公式的特征描述为:
其中,J为第二损失函数,yc+1为c+1数据块的第二文本特征,xc+1为c+1数据块的第二语音特征,θ′为元学习适应模型在c数据块计算出的新模型参数,L(yc+1,f(xc+1;θ′))为元学习适应模型在c+1数据块计算出的损失值。
在具体的应用场景中,为了基于元学习适应模型确定得到与目标语音类型匹配的目标模型参数,如图6所示,调整模块32,具体可包括:提取单元321、获取单元322;
提取单元321,用于提取与目标语音类型匹配的适应语音数据;
获取单元322,用于将语音识别模型的初始模型参数和适应语音数据输入元学习适应模型中,获取与目标语音类型匹配的目标模型参数。
相应的,识别模块33,具体可用于将语音识别模型的初始模型参数更新为目标模型参数,以便利用更新后的语音识别模型识别目标语音类型下的目标语音。
需要说明的是,本实施例提供的一种基于元学习的自适应语音识别装置所涉及各功能单元的其他相应描述,可以参考图1至图2的对应描述,在此不再赘述。
基于上述如图1至图2所示方法,相应的,本实施例还提供了一种非易失性存储介质,其上存储有计算机可读指令,该可读指令被处理器执行时实现上述如图1至图2所示的基于元学习的自适应语音识别方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1至图2所示的方法和图5、图6所示的虚拟装置实施例,为了实现上述目的,本实施例还提供了一种计算机设备,该计算机设备包括存储介质和处理器;非易失性存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图2所示的基于元学习的自适应语音识别方法。
可选的,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
非易失性存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。
通过应用本申请的技术方案,与目前现有技术相比,本申请可首先通过样本语音数据对语音识别模型进行预训练,并且进一步将说话人适应任务当作元学习中的任务,设计用于根据不同语音类型,调整语音识别模型中模型参数的元学习适应模型。进而可在确定目标语音类型时,基于元学习适应模型将语音识别模型的初始模型参数调整为与目标语音类型匹配的目标模型参数,进而利用配置目标模型参数的语音识别模型实现对目标语音类型下目标语音的针对性精准识别。在本申请中,采用元学习适应模型实现对语音识别模型中模型参数的自适应调整,不仅减少了人工设计的不稳定性,还使得模型参数更新可以针对不同的应用场景,进而保证语音识别的精准性。并且在利用元学习适应模型确定语音识别模型的模型参数时,仅需少量适应语音数据,较少的适应语音数据会使得更新的模型参数更容易在应用场景中过拟合,故还可减少参数更新的过拟合风险。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种基于元学习的自适应语音识别方法,其特征在于,包括:
利用预处理后的样本语音数据训练语音识别模型以及元学习适应模型;
基于所述元学习适应模型,将所述语音识别模型的初始模型参数调整为与目标语音类型匹配的目标模型参数;
利用配置有所述目标模型参数的语音识别模型识别所述目标语音类型下的目标语音。
2.根据权利要求1所述的方法,其特征在于,所述利用预处理后的样本语音数据训练语音识别模型以及元学习适应模型,具体包括:
对样本语音数据进行预处理,并标记所述样本语音数据对应的第一语音特征以及第一文本特征,所述预处理至少包括预加重处理、分帧处理、加窗处理;
基于所述第一语音特征和所述第一文本特征训练符合第一训练标准的语音识别模型;
利用所述样本语音数据以及所述语音识别模型,训练符合第二训练标准的元学习适应模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一语音特征和所述第一文本特征训练符合第一训练标准的语音识别模型,具体包括:
将所述第一语音特征输入所述语音识别模型,获取文本输出结果;
依据所述文本输出结果与所述第一文本特征计算第一损失函数;
若确定所述第一损失函数小于第一预设阈值,则判定所述语音识别模型符合第一训练标准;
所述利用所述样本语音数据以及所述语音识别模型,训练符合第二训练标准的元学习适应模型,具体包括:
将所述样本语音数据划分为预设数量个数据块,并提取各个所述数据块的第二语音特征和第二文本特征;
依据所述第二语音特征、所述第二文本特征以及所述语音识别模型,训练符合第二训练标准的元学习适应模型。
4.根据权利要求3所述的方法,其特征在于,所述依据所述第二语音特征、所述第二文本特征以及所述语音识别模型,训练符合第二训练标准的元学习适应模型,具体包括:
提取所述语音识别模型的初始模型参数;
若判定当前数据块为划分的第一个数据块,则依据所述初始模型参数以及当前数据块的第二语音特征和第二文本特征,计算所述元学习适应模型在第一个数据块中的损失值、损失梯度以及新模型参数;
若判定当前数据块非所述第一个数据块,则依据前一数据块的新模型参数和当前数据块的第二语音特征和第二文本特征,计算所述元学习适应模型在当前数据块中的损失值、损失梯度以及新模型参数;
若判定所有数据块均完成训练,则利用各个数据块计算得到的损失值、损失梯度以及新模型参数确定所述元学习适应模型的第二损失函数;
若确定所述第二损失函数小于第二预设阈值,则判定所述元学习适应模型符合第二训练标准。
6.根据权利要求5所述的方法,其特征在于,所述基于所述元学习适应模型,将所述语音识别模型的初始模型参数调整为与目标语音类型匹配的目标模型参数,具体包括:
提取与目标语音类型匹配的适应语音数据;
将所述语音识别模型的初始模型参数和所述适应语音数据输入所述元学习适应模型中,获取与所述目标语音类型匹配的目标模型参数。
7.根据权利要求6所述的方法,其特征在于,所述利用配置有所述目标模型参数的语音识别模型识别所述目标语音类型下的目标语音,具体包括:
将所述语音识别模型的初始模型参数更新为所述目标模型参数,以便利用更新后的语音识别模型识别所述目标语音类型下的目标语音。
8.一种基于元学习的自适应语音识别装置,其特征在于,包括:
训练模块,用于利用预处理后的样本语音数据训练语音识别模型以及元学习适应模型;
调整模块,用于基于所述元学习适应模型,将所述语音识别模型的初始模型参数调整为与目标语音类型匹配的目标模型参数;
识别模块,用于利用配置有所述目标模型参数的语音识别模型识别所述目标语音类型下的目标语音。
9.一种非易失性可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的基于元学习的自适应语音识别方法。
10.一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的基于元学习的自适应语音识别方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011434900.9A CN112562648A (zh) | 2020-12-10 | 2020-12-10 | 基于元学习的自适应语音识别方法、装置、设备及介质 |
PCT/CN2021/083002 WO2022121155A1 (zh) | 2020-12-10 | 2021-03-25 | 基于元学习的自适应语音识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011434900.9A CN112562648A (zh) | 2020-12-10 | 2020-12-10 | 基于元学习的自适应语音识别方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112562648A true CN112562648A (zh) | 2021-03-26 |
Family
ID=75060346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011434900.9A Pending CN112562648A (zh) | 2020-12-10 | 2020-12-10 | 基于元学习的自适应语音识别方法、装置、设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112562648A (zh) |
WO (1) | WO2022121155A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113052324A (zh) * | 2021-03-24 | 2021-06-29 | 支付宝(杭州)信息技术有限公司 | 一种用户异常模式识别方法、装置以及设备 |
CN113539246A (zh) * | 2021-08-20 | 2021-10-22 | 北京房江湖科技有限公司 | 语音识别方法和装置 |
CN113838466A (zh) * | 2021-06-16 | 2021-12-24 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN114038465A (zh) * | 2021-04-28 | 2022-02-11 | 北京有竹居网络技术有限公司 | 语音处理方法、装置和电子设备 |
CN114453852A (zh) * | 2022-02-16 | 2022-05-10 | 上海海事大学 | 基于语音识别控制机械臂进行叶片装配的方法和系统 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116090553B (zh) * | 2023-04-10 | 2023-06-16 | 环球数科集团有限公司 | 一种基于元学习的人工智能自动处理系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7885812B2 (en) * | 2006-11-15 | 2011-02-08 | Microsoft Corporation | Joint training of feature extraction and acoustic model parameters for speech recognition |
JP7375741B2 (ja) * | 2018-02-22 | 2023-11-08 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、および、プログラム |
CN108777146A (zh) * | 2018-05-31 | 2018-11-09 | 平安科技(深圳)有限公司 | 语音模型训练方法、说话人识别方法、装置、设备及介质 |
CN111312256B (zh) * | 2019-10-31 | 2024-05-10 | 平安科技(深圳)有限公司 | 语音身份识别的方法、装置及计算机设备 |
CN111243576B (zh) * | 2020-01-16 | 2022-06-03 | 腾讯科技(深圳)有限公司 | 语音识别以及模型训练方法、装置、设备和存储介质 |
CN111613212B (zh) * | 2020-05-13 | 2023-10-31 | 携程旅游信息技术(上海)有限公司 | 语音识别方法、系统、电子设备和存储介质 |
CN111916067A (zh) * | 2020-07-27 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 语音识别模型的训练方法、装置、电子设备及存储介质 |
-
2020
- 2020-12-10 CN CN202011434900.9A patent/CN112562648A/zh active Pending
-
2021
- 2021-03-25 WO PCT/CN2021/083002 patent/WO2022121155A1/zh active Application Filing
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113052324A (zh) * | 2021-03-24 | 2021-06-29 | 支付宝(杭州)信息技术有限公司 | 一种用户异常模式识别方法、装置以及设备 |
CN113052324B (zh) * | 2021-03-24 | 2022-08-02 | 支付宝(杭州)信息技术有限公司 | 一种用户异常模式识别方法、装置以及设备 |
CN114038465A (zh) * | 2021-04-28 | 2022-02-11 | 北京有竹居网络技术有限公司 | 语音处理方法、装置和电子设备 |
CN114038465B (zh) * | 2021-04-28 | 2022-08-23 | 北京有竹居网络技术有限公司 | 语音处理方法、装置和电子设备 |
WO2022228067A1 (zh) * | 2021-04-28 | 2022-11-03 | 北京有竹居网络技术有限公司 | 语音处理方法、装置和电子设备 |
CN113838466A (zh) * | 2021-06-16 | 2021-12-24 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN113838466B (zh) * | 2021-06-16 | 2024-02-06 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN113539246A (zh) * | 2021-08-20 | 2021-10-22 | 北京房江湖科技有限公司 | 语音识别方法和装置 |
CN114453852A (zh) * | 2022-02-16 | 2022-05-10 | 上海海事大学 | 基于语音识别控制机械臂进行叶片装配的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2022121155A1 (zh) | 2022-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112562648A (zh) | 基于元学习的自适应语音识别方法、装置、设备及介质 | |
CN109326302B (zh) | 一种基于声纹比对和生成对抗网络的语音增强方法 | |
CN111292764B (zh) | 辨识系统及辨识方法 | |
EP3346462B1 (en) | Speech recognizing method and apparatus | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
CN108922513B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN112435684B (zh) | 语音分离方法、装置、计算机设备和存储介质 | |
Uria et al. | A deep neural network for acoustic-articulatory speech inversion | |
CN108962231B (zh) | 一种语音分类方法、装置、服务器及存储介质 | |
CN110288975B (zh) | 语音风格迁移方法、装置、电子设备及存储介质 | |
CN110473568B (zh) | 场景识别方法、装置、存储介质及电子设备 | |
US10748544B2 (en) | Voice processing device, voice processing method, and program | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
WO2019237518A1 (zh) | 模型库建立方法、语音识别方法、装置、设备及介质 | |
Rammo et al. | Detecting the speaker language using CNN deep learning algorithm | |
CN111899757A (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
Dash et al. | Speech intelligibility based enhancement system using modified deep neural network and adaptive multi-band spectral subtraction | |
CN113539243A (zh) | 语音分类模型的训练方法、语音分类方法及相关装置 | |
CN111402918A (zh) | 一种音频处理方法、装置、设备及存储介质 | |
CN116206592A (zh) | 一种语音克隆方法、装置、设备及存储介质 | |
CN106340310B (zh) | 语音检测方法及装置 | |
CN114913859A (zh) | 声纹识别方法、装置、电子设备和存储介质 | |
CN114627889A (zh) | 多声源声音信号处理方法及装置、存储介质和电子设备 | |
CN115700871A (zh) | 模型训练和语音合成方法、装置、设备及介质 | |
CN113823271A (zh) | 语音分类模型的训练方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |