CN117859173A - 利用基于语音合成的模型适配改进语音识别 - Google Patents

利用基于语音合成的模型适配改进语音识别 Download PDF

Info

Publication number
CN117859173A
CN117859173A CN202280056643.0A CN202280056643A CN117859173A CN 117859173 A CN117859173 A CN 117859173A CN 202280056643 A CN202280056643 A CN 202280056643A CN 117859173 A CN117859173 A CN 117859173A
Authority
CN
China
Prior art keywords
speech
model
target domain
synthesized speech
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280056643.0A
Other languages
English (en)
Inventor
安德鲁·罗森伯格
布瓦那·拉马巴德兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN117859173A publication Critical patent/CN117859173A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)

Abstract

用于训练语音识别模型(200)的方法(400)包括:获取目标域中的合成语音(306)的样本话语;获取目标域中的非合成语音(304)的转录话语;以及在目标域中的合成语音的样本话语上预训练语音识别模型以获得用于热启动训练的初始状态。在预训练语音识别模型后,方法还包括在目标域中的非合成语音的转录话语上热启动训练语音识别模型以教导语音识别模型学习识别目标域中的真实/人类语音。

Description

利用基于语音合成的模型适配改进语音识别
技术领域
本公开涉及利用基于语音合成的模型适配来改进语音识别。
背景技术
自动语音识别(ASR)、采取音频输入并且将其转录成文本的过程已经成为移动设备和其他设备中使用的重要技术。通常,自动语音识别尝试通过采取音频输入(例如,语音话语)并且将音频输入转录成文本来提供人已经说过什么的准确转录。现代ASR模型基于深度神经网络的正在进行的开发而继续在准确性(例如,低词错率(WER))和时延(例如,用户说话与转录之间的延迟)这两者上进行改进。然而,开发基于深度学习的ASR模型的一个挑战是,ASR模型的参数倾向于过拟合训练数据,从而导致ASR模型在训练数据不够广泛时难以泛化未见的数据。结果,在更大的训练数据集上训练ASR模型改进了ASR模型的准确性。能够并入合成语音和/或数据增强语音以增加用于训练ASR模型的训练数据的音量。
发明内容
本公开的一个方面提供了一种计算机实现的方法,该方法在数据处理硬件上执行时使数据处理硬件执行操作。操作包括:获取目标域中的合成语音的样本话语以及获取目标域中的非合成语音的转录话语。操作还包括在目标域中的合成语音的样本话语上预训练语音识别模型以获得用于热启动训练的初始状态。在预训练语音识别模型后,操作还包括在目标域中的非合成语音的转录话语上热启动训练语音识别模型以教导语音识别模型学习识别目标域中的真实/人类语音。
本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,获取目标域中的合成语音的样本话语包括使用文本到语音(TTS)系统,基于被接收作为在TTS系统处的输入的话语的对应转录来生成每个合成语音的样本话语。可以从语言模型对对应转录进行采样。可以在目标域中的转录音频样本上训练和/或在与目标域不同的域外音频样本上训练TTS系统。TTS系统还可以被配置为跨合成语音的话语改变话音特性或跨合成语音的话语改变韵律/风格质量中的至少一个。
在一些示例中,操作还包括将数据增强应用于合成语音的样本话语中的一个或多个。这里,所应用的数据增强可以包括添加噪声、添加混响或操纵定时中的至少一个。语音识别模型可以包括诸如递归神经网络-换能器(RNN-T)模型的基于帧对准的换能器模型。语音识别模型可以包括基于对准的编码器-解码器模型。
本公开的另一方面提供了一种系统,该系统包括数据处理硬件和与数据处理硬件通信并且存储指令的存储器硬件,该指令在数据处理硬件上执行时使数据处理硬件执行操作。操作包括:获取目标域中的合成语音的样本话语以及获取目标域中的非合成语音的转录话语。操作还包括在目标域中的合成语音的样本话语上预训练语音识别模型以获得用于热启动训练的初始状态。在预训练语音识别模型后,操作还包括在目标域中的非合成语音的转录话语上热启动训练语音识别模型以教导语音识别模型学习识别目标域中的真实/人类语音。
本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,获取目标域中的合成语音的样本话语包括使用文本到语音(TTS)系统,基于被接收作为在TTS系统处的输入的话语的对应转录来生成每个合成语音的样本话语。可以从语言模型对对应转录进行采样。可以在目标域中的转录音频样本上训练和/或在与目标域不同的域外音频样本上训练TTS系统。TTS系统还可以被配置为跨合成语音的话语改变话音特性或跨合成语音的话语改变韵律/风格质量中的至少一个。
在一些示例中,操作还包括将数据增强应用于合成语音的样本话语中的一个或多个。这里,所应用的数据增强可以包括添加噪声、添加混响或操纵定时中的至少一个。语音识别模型可以包括诸如递归神经网络-换能器(RNN-T)模型的基于帧对准的换能器模型。语音识别模型可以包括基于对准的编码器-解码器模型。
在附图和以下描述中阐述了本公开的一个或多个实施方式的细节。根据说明书和附图以及权利要求,其他方面、特征和优点将是显而易见的。
附图说明
图1是示例语音识别系统的示意图。
图2A是递归神经网络-换能器(RNN-T)模型架构的示意图。
图2B是基于注意力的编码器-解码器(AED)模型架构的示意图。
图3是用于促进语音识别模型以学习关于非合成语音和合成语音这两者上的一致预测的示例训练过程的示意图。
图4是用于训练语音识别模型的方法的操作的示例布置的流程图。
图5是可以用于实现本文描述的系统和方法的示例计算设备的示意图。
各个附图中相同的附图标记指示相同的元件。
具体实施方式
自动语音识别已经通过将从音频映射到字符序列的序列到序列(Seq2Seq)模型的引入而产生巨大的进展。同时,文本到语音(TTS)或语音合成系统已经成功地应用Seq2Seq模型以获取本领域的自然、逼真的发声合成语音的状态,该发声合成语音能够是对人耳来说与人类语音无法区分的。
开发基于深度学习的ASR模型的一个挑战是,ASR模型的参数倾向于过拟合训练数据,从而导致ASR模型在训练数据不够广泛时难以泛化未见的数据。因此,在更大的训练数据集上训练ASR模型改进了ASR模型的准确性。例如,使用机器学习或其他统计方法能够在包括超过10000小时的转录语音的训练数据集上训练ASR模型。然而,当与训练数据相关联的域与在推理期间将部署ASR模型的域不同时,ASR模型的性能受损。例如,对在与视频会议相关联的域中的转录语音将丢失的ASR模型进行训练,与识别与话音搜索查询相关的语音相比效果较差,反之亦然。
合成语音具有极大地限制训练ASR模型所需的经标记的人类语音的量的潜力,同时还提供跨不同域移动ASR模型的灵活性。一般来说,尽管现有技术的合成语音的实例与人类语音无法区分,但合成语音的使用已显示出与人类语音不同地对ASR训练的影响。合成语音与人类语音之间的这种差距归因于来自人类语音数据的合成语音数据中的不匹配,该不匹配源于TTS系统试图解决的困难的一对多映射问题。即,虽然可用的合成语音的聚合质量非常高,但是合成语音表现出比人类语音小得多的变化,以及最小的语音障碍。结果,专门在合成语音数据上训练ASR模型呈现了在推理期间泛化真实语音话语的难度。
本文的实施方式针对使用合成语音来训练ASR模型以在目标域中识别语音,以在用于训练ASR模型的目标域中的大量转录语音(例如,非合成语音)不可用或不太普遍时保持ASR模型的准确性。更具体地,本文的实施方式针对使用目标域中的合成语音来预训练ASR模型以实现预计算的、信息性状态,并且然后使用目标域中的可用的转录非合成语音以从预计算的信息性状态来预热启动训练ASR模型。附加的实施方式包括应用诸如通过改变合成说话者特性以合成训练话语的多样实现的数据增强技术,以便促进对说话者差异的稳健性。当目标域中的相对较少的转录人类语音可用时,本文描述的技术尤其有用。
图1示出了实现驻留在用户104的用户设备102上和/或驻留在与用户设备102通信的远程计算设备201(例如,在云计算环境中执行的分布式系统的一个或多个服务器)上的ASR模型200的自动语音识别(ASR)系统100。尽管用户设备102被描绘为移动计算设备(例如,智能电话),但是用户设备102可以对应于任何类型的计算设备,诸如但不限于平板设备、膝上型/台式计算机、可穿戴设备、数字助理设备、智能扬声器/显示器、智能电器、汽车信息娱乐系统或物联网(IoT)设备,并且配备有数据处理硬件111和存储器硬件113。
用户设备102包括被配置为接收由用户104说出的话语106的音频子系统108(例如,用户设备102可以包括用于记录口头话语106的一个或多个麦克风),并且将话语106转换成与能够由ASR系统100处理的输入声学帧110相关联的对应数字格式。在所示的示例中,用户以英语的自然语言说出针对短语“what is the weather in New York City?(纽约城的天气怎么样?)”的相应话语106,并且音频子系统108将话语106转换成对应的声学帧110以用于输入到ASR系统100。此后,ASR模型200接收对应于话语106的声学帧110作为输入,并且生成/预测话语106的对应转录120(例如,识别结果/假设)作为输出。在所示的示例中,用户设备102和/或远程计算设备201还执行被配置为向用户设备102的用户104呈现话语106的转录120的表示的用户界面生成器107。在一些配置中,例如通过在用户设备102或远程计算设备201上执行的自然语言理解(NLU)模块来处理从ASR系统100输出的转录120,以执行用户命令。附加地或可替选地,文本到语音系统(例如,在用户设备102或远程计算设备201的任何组合上执行)可以将转录转换成合成语音以供另一设备可听的输出。例如,原始话语106可以对应于用户104正在向朋友发送的消息,在该消息中,转录120被转换成合成语音以用于向朋友的可听输出以收听在原始话语106中传达的消息。
参考图2A和2B,ASR模型200可以包括端到端(E2E)序列到序列模型,诸如基于帧对准的换能器模型200a(图2A)或基于注意力的编码器-解码器(AED)模型200b(图2B)。ASR模型200可以通过将声学、发音和语言模型集成到单个神经网络中来提供E2E语音识别,并且不需要词典或单独的文本归一化组件。各种结构和优化机制能够提供增加的准确性和减少的模型训练时间。ASR模型200
参考图2A,示例基于帧对准的换能器模型200a包括遵循与交互式应用相关联的时延约束的递归神经网络-换能器(RNN-T)模型架构。RNN-T模型架构的使用是示例性的,并且基于帧对准的换能器模型200a可以包括其他架构,诸如transformer-换能器和conformer-换能器模型架构等。RNN-T模型200a提供小的计算占用空间并且利用比常规ASR架构更少的存储器要求,使得RNN-T模型架构适合于完全在用户设备102上执行语音识别(例如,不需要与远程服务器通信)。RNN-T模型200a包括编码器网络210、预测网络220和联合网络230。粗略地类似于传统ASR系统中的声学模型(AM)的编码器网络210包括堆叠的长短期记忆(LSTM)层的递归网络。例如,编码器读取d维特征向量的序列(例如,声学帧110(图1))x=(x1,x2,···,xT),其中并且在每个时间步处产生高阶特征表示。该高阶特征表示被表示为/>
类似地,预测网络220也是LSTM网络,其与语言模型(LM)一样,处理到目前为止由最终Softmax层240输出的非空白符号的序列y0,...,yui-1,,转化为稠密表示最后,利用RNN-T模型架构,由编码器和预测网络210、220产生的表示由联合网络230组合。预测网络220可以由嵌入查找表代替,以通过输出查找到的稀疏嵌入代替处理稠密表示来改进时延。然后,联合网络预测/>其是在下一个输出符号上的分布。换句话说,联合网络230在每个输出步(例如,时间步)处生成可能的语音识别假设上的概率分布。这里,“可能的语音识别假设”对应于输出标签的集合,每个输出标签的集合表示指定的自然语言中的符号/字符。例如,当自然语言是英语时,该输出标签的集合可以包括二十七(27)个符号,例如,针对英语字母表中的26个字母中的每一个的一个标签以及指定空格的一个标签。因此,联合网络230可以输出指示每个预定输出标签的集合出现的可能性的值的集合。该值的集合能够是向量并且能够指示该输出标签的集合上的概率分布。在一些情况下,输出标签是字素(例如,个体字符,以及潜在标点符号和其他符号),但是输出标签的集合不限于此。例如,除了或代替字素之外,该输出标签的集合能够包括词元(wordpieces)和/或整个词。联合网络230的输出分布能够包括每个不同的输出标签的后验概率值。因此,如果存在100个表示不同字素或其他符号的不同的输出标签,则联合网络230的输出yi能够包括100个不同的概率值,每个输出标签一个值。然后,概率分布能够用于在用于确定转录120的波束搜索过程(例如,通过Softmax层240)中选择得分并且将得分分配给候选正交元素(例如,字素、词元和/或词)。
Softmax层240可以采用任何技术来选择分布中具有最高概率的输出标签/符号以作为由RNN-T模型200a在对应的输出步骤处预测的下一个输出符号。以这种方式,RNN-T模型200a不进行条件独立性假设,而是每个符号的预测不仅基于声学,而且还基于目前为止输出的标签序列。RNN-T模型200a确实假设输出符号独立于未来的声学帧110,这允许以流式方式采用RNN-T模型。
在一些示例中,RNN-T模型200a的编码器网络210由八个2,048-维的LSTM层组成,每个2,048-维的LSTM层之后是640-维的投影层。预测网络220可以具有两个2,048-维的LSTM层,每个2,048-维的LSTM层之后也是640-维的投影层。最后,联合网络230还可以具有640个隐藏单元。softmax层240可以由使用多个训练数据集301(图3)中的所有唯一词元或字素生成的统一词元或字素集合组成。
参照图2B,与提供包括类似于常规声学模型的收听器(listener)编码器模块211、充当对准模型的注意力器(attender)模块221以及类似于常规系统中的语言模型的解码器231的单个神经网络的Listen、Attend和Spell(LAS)模型架构相关联的示例AED模型200b。具体地,收听器编码器模块211采取输入特征(例如,声学帧110(图1))、x,并且将它们映射到更高级的特征表示,henc。能够针对多个输入帧(其表示不同的输入时间步)中的每一个来完成生成编码特征表示henc的该过程。这些时间步使用以下的下标u表示。因此,对于帧的集合{f1,f2,f3,···,fu},能够存在对应的编码输出的集合{h1,h2,h3,···,hu}。
收听器编码器模块211的输出被传递到注意力器模块221,该注意力器模块221确定henc中的哪些编码器特征应该被关注以便预测下一个输出符号,yi,类似于动态时间规整(DTW)对准模块。在一些示例中,注意力器模块221在本文中被称为注意力器神经网络或注意力器221。对于多个输出步i中的每一个,注意力器221能够生成上下文输出ci。对于每个上下文输出向量ci,注意力器221能够基于用于一个或多个输入步u的编码(例如,用于当前输入步的编码以及用于先前输入步的编码)来计算注意力。例如,注意力器221能够在话语的所有编码器输出的集合上生成注意力上下文输出ci,例如,整个集合{h1,h2,h3,…,hu}。注意力上下文向量能够是表示被识别的话语的帧(例如,部分)的当前和先前编码的加权摘要的向量。
最后,将注意力器221的输出传递到解码器231,该解码器231采取注意力上下文(例如,上下文向量或注意力分布),ci,由注意力器221输出,以及先前预测的嵌入,yi-1,以便产生解码器输出。解码器输出能够是当前子词单元yi上的概率分布,P(yi|yi-1,...,y0,x),在给定先前单元{yi-1,...,y0}和输入x的情况下。因此,解码器231在每个输出步处生成可能的语音识别假设上的概率分布。如同上面参考图2A讨论的RNN-T模型200a一样,“可能的语音识别假设”对应于输出符号的集合,每个输出符号表示指定的自然语言中的符号/字符。
尽管未示出,但是ASR模型200可以包括接收解码器231的输出的softmax层。在一些实施方式中,softmax层与解码器231分离并且处理来自解码器231的输出yi,并且然后在波束搜索过程中使用softmax层的输出来选择正交元素。在一些实施方式中,softmax层与解码器231集成,使得解码器231的输出yi表示softmax层的输出。
可以训练解码器231和/或相关联的softmax层以输出指示预定输出标签集合中的每个输出标签的出现可能性的值的集合。该值的集合能够是向量并且能够指示输出标签的集合上的概率分布。在一些情况下,输出标签是字素(例如,个体字符,以及潜在地标点符号和其他符号),但是输出标签的集合不限于此。例如,除了或代替字素之外,输出标签的集合能够包括词元和/或整个词。解码器231和/或softmax层的输出分布能够包括每个不同的输出标签的后验概率值。因此,如果存在100个表示不同字素或其他符号的不同的输出标签,则解码器的输出yi或接收和处理输出yi的softmax层的输出能够包括100个不同的概率值,每个输出标签一个值。然后,概率分布能够用于在用于确定转录的波束搜索过程中选择得分并且将得分分配给候选正交元素(例如,字素、词元和/或词)。
参照图3,示例训练过程300用于最初从随机状态预训练ASR模型200以实现预计算的信息性状态,并且然后从预计算的信息性状态热启动训练该模型以教导ASR模型200学习准确地识别目标域中的语音。如本文所使用的,目标域可以指ASR模型200在被采用时将在推理期间识别的语音的类型。例如,目标域可以包括会议语音、话音搜索语音、运动广播者语音、新闻广播语音、或导航命令语音等。目标域还可以对应于特定语言,诸如其中转录人类语音不容易获得的低资源语言。在一些示例中,ASR模型200包括多语言ASR模型。训练过程300可以在图1的远程计算设备201上执行。例如,远程计算设备201包括数据处理硬件510(图5)和与数据处理硬件通信并且存储指令的存储器硬件520(图5),指令在数据处理硬件510上执行时使数据处理硬件510执行训练过程300的操作。
在所示的示例中,训练过程300包括预训练阶段,在预训练阶段处,使用目标域中的合成语音306的样本话语从随机状态预训练ASR模型200,以获得用于热启动训练的初始状态。该初始状态与和目标域相关联的预计算的信息性状态相关联。因此,预训练阶段使用合成语音306的样本话语以适配用于热启动训练的模型。
文本到语音(TTS)系统330可以通过对话语的对应转录320执行TTS转换来生成合成语音306的每个样本话语。这里,每个转录320对应于由TTS系统330接收到的输入文本,用于转换成包括目标域中的合成语音306的对应话语的合成音频。这样,每个转录320包括目标域中的文本序列。文本序列可以包括字素或音素。可以从被训练为在目标域中生成文本话语的语言模型对转录320进行采样。TTS系统330可以在转换转录本320时应用说话者嵌入z以获取具有与说话者嵌入相关联的特定说话风格和韵律的合成语音。TTS系统300可以应用多个不同的说话者嵌入z,每个说话者嵌入z与被合成的合成语音306的所得话语的不同说话者特性相关联。类似地,TTS系统300可以改变被合成的话语的韵律和其他生产质量。
在一些示例中,训练过程最初使用可用转录音频样本来训练TTS系统300。在一些示例中,用于训练TTS系统300的可用音频样本包括与目标域相关联的域内音频样本。在其他示例中,用于训练TTS系统300的可用音频样本包括与目标域不同的域外音频样本。在这些示例中,TTS系统300正在目标域中生成合成语音306的话语,以在预训练阶段期间输入到ASR模型200,尽管TTS系统300是在从域外音频样本转录的。在一些示例中,可以基于域内和域外的变体来训练TTS系统300。
在一些示例中,训练过程300将数据增强应用于合成语音306的样本话语中的至少一个。数据增强可以包括但不限于添加噪声、操纵定时(例如,拉伸)或向对应的语音表示添加混响。数据增强可以将不同的合成录音条件添加到合成语音306。
在预训练阶段期间,ASR模型200接收作为特征/向量序列(例如,图1的声学帧110)的合成语音306的每个话语作为输入,并且针对多个输出步中的每一个,生成对应话语合成语音/>306的可能合成语音识别假设(y)上的第一概率分布311作为输出。为简单起见,术语“合成语音识别结果311”可以用于可互换地指代用于合成语音/>306的对应话语的可能合成语音识别假设(y)上的第一概率分布311。
训练过程300在多个输出步中的每一个处,生成第一监督损失项作为输出,该第一监督损失项包括基于转录320和用于合成语音306的对应话语的可能合成语音识别假设(y)上的第一概率分布311的合成语音损失项/>344。值得注意的是,对应于提供给TTS系统330以用于生成合成语音306的对应话语的输入文本的转录320也用作真实值标签/转录。在所示的示例中,训练过程300执行监督损失项模块340,该监督损失项模块340被配置为接收转录320作为真实值和第一概率分布311并且输出合成语音损失项/>344。可以通过以下等式来计算合成语音损失项/>344:
其中,y*,z表示由TTS模块330基于转录(y*)和说话者嵌入(z)生成的合成语音表示306。
监督损失项模块340可以将合成语音损失项344提供回ASR模型200。例如,训练过程300可以使用随机优化算法(诸如随机梯度下降)来训练ASR模型200,以通过反向传播来训练ASR模型200。这里,随机优化算法使用损失项344以基于神经网络的实际输出(例如,合成语音识别结果311)与期望输出(例如,对应话语的真实值转录320)之间的差来定义相应损失函数(例如,交叉熵损失函数)。例如,针对一批训练示例来计算损失函数,并且然后关于ASR模型200中的每个权重进行微分。
一旦预训练阶段完成并且获得初始状态,训练过程300可以执行热启动训练阶段以使用目标域中的非合成语音304的可用转录话语来微调预训练模型。非合成语音304的每个话语对应于由人类说出的真实语音。在一些示例中,训练过程300将数据增强应用于非合成语音304的话语中的至少一个。数据增强可以包括但不限于添加噪声、操纵定时(例如,拉伸)、或向对应的语音表示添加混响。非合成语音304的每个转录话语与对应的真实值转录321相关联。
在热启动训练阶段期间,ASR模型200接收作为特征/向量序列(例如,图1的声学帧110)的非合成语音(x)304的每个话语作为输入,并且针对多个输出步中的每一个,生成在非合成语音(x)304的对应话语的可能非合成语音识别假设(y)上的第二概率分布312作为输出。为简单起见,术语“非合成语音识别结果312”可以用于指代在非合成语音(x)304的对应话语的可能非合成语音识别假设(y)上的第二概率分布312。
此后,针对在多个输出步中的每一个处由ASR模型200的输出,训练过程300生成第二监督损失项,该第二监督损失项包括基于真实值转录321和用于对应话语的对应非合成语音表示(x)304的非合成语音识别结果312(y)的非合成语音损失项342。在所示的示例中,训练过程300执行监督损失项模块340,该监督损失项模块340被配置为接收真实值转录321和第二概率分布312并且输出非合成语音损失项/>342。可以通过以下等式来计算非合成语音损失项/>342:
监督损失项模块340可以将非合成语音损失项342提供回ASR模型200。例如,训练过程300可以使用随机优化算法(诸如随机梯度下降)来训练ASR模型200,以通过反向传播来训练ASR模型200。这里,随机优化算法使用损失项342以基于神经网络的实际输出(例如,非合成语音识别结果312)与期望输出(例如,对应话语的真实值转录321)之间的差来定义相应损失函数(例如,交叉熵损失函数)。例如,针对一批训练示例来计算损失函数,并且然后关于ASR模型200中的每个权重进行微分。
有利地,ASR模型200能够最初在目标域中对合成语音的潜在无限数量的话语进行预训练,以适配ASR模型200以学习识别目标域中的真实/人类语音。值得注意的是,当目标域中的非合成语音的可用转录话语稀缺时,本文的技术特别有利。因此,ASR模型200能够在新目标域中被快速训练,而不必依赖于域内转录的非合成语音,因为合成语音能够在运行时从未配对的文本生成以用于在目标域中训练ASR模型200。在一个示例使用情况中,ASR模型200的准确性能够显著改进以用于识别自然语言中的语音,在该自然语言中,通过在预训练阶段增加来自从未配对的文本生成的合成语音的语音训练示例的数量难以获得转录的非合成语音。
图4是用于训练语音识别模型200的方法400的操作的示例布置的流程图。ASR模型200可以包括基于注意力的编码器-解码器(AED)模型200b(图2B)或基于帧对准的换能器模型200a(图2A)。在操作402处,方法400包括获取目标域中的合成语音306的样本话语并且获取目标域中的非合成语音304的转录话语。
在操作404处,方法400包括在目标域中的合成语音306的样本话语上预训练语音识别模型200以获得用于热启动训练的初始状态。在预训练语音识别模型200后,方法400还包括在操作406处,在目标域中的非合成语音304的转录话语上热启动训练语音识别模型200以教导语音识别模型200学习识别目标域中的真实/人类语音。
软件应用(即,软件资源)可以指使计算设备执行任务的计算机软件。在一些示例中,软件应用可以被称为“应用”、“应用程序(app)”或“程序”。示例应用包括但不限于系统诊断应用、系统管理应用、软件维护应用、文字处理应用、电子表格应用、消息传递应用、媒体流应用,社交网络应用和游戏应用。
非暂时性存储器可以是用于临时或永久地存储程序(例如,指令序列)或数据(例如,程序状态信息)以供计算设备使用的物理设备。非暂时性存储器可以是易失性和/或非易失性可寻址半导体存储器。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如,通常用于固件,诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。
图5是可以用于实现本文档中描述的系统和方法的示例计算设备500的示意图。计算设备500旨在表示各种形式的数字计算机,诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。这里所示的组件、它们的连接和关系及其功能仅仅是示例性的,并不意味着限制本文档中描述和/或要求保护的公开的实施方式。
计算设备500包括处理器510、存储器520、存储设备530、连接到存储器520和高速扩展端口550的高速接口/控制器540、以及连接到低速总线570和存储设备530的低速接口/控制器560。组件510、520、530、540、550和560中的每一个使用各种总线互连,并且可以适当地安装在公共母板上或以其他方式安装。处理器510(即,数据处理硬件111或数据处理硬件201)能够处理用于在计算设备500内执行的指令,包括存储在存储器520中或在存储设备530上的指令,以在外部输入/输出设备(诸如耦合到高速接口540的显示器580)上显示图形用户界面(GUI)的图形信息。在其他实施方式中,可以适当地使用多个处理器和/或多个总线以及多个存储器和存储器类型。此外,可以连接多个计算设备500,其中每个设备提供必要操作的部分(例如,作为服务器组、一组刀片服务器或多处理器系统)。
存储器520非暂时性地存储计算设备500内的信息。存储器520可以是计算机可读介质、(多个)易失性存储器单元、或(多个)非易失性存储器单元。非暂时性存储器520可以是用于临时或永久地存储程序(例如,指令序列)或数据(例如,程序状态信息)以供计算设备500使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如,通常用于固件,诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。
存储设备530能够为计算设备500提供大容量存储。在一些实施方式中,存储设备530是计算机可读介质。在各种不同的实施方式中,存储设备530可以是软盘设备、硬盘设备、光盘设备、或磁带设备、闪存或其他类似的固态存储器设备、或设备阵列,包括存储区域网络或其他配置中的设备。在附加的实施方式中,计算机程序产品被有形地体现在信息载体中。计算机程序产品包含指令,所述指令在被执行时执行一种或多种方法,诸如上述那些方法。信息载体是计算机或机器可读介质,诸如存储器520、存储设备530或处理器510上的存储器。
高速控制器540管理用于计算设备500的带宽密集型操作,而低速控制器560管理较低带宽密集型操作。这种职责分配仅仅是示例性的。在一些实施方式中,高速控制器540耦合到存储器520、显示器580(例如,通过图形处理器或加速器)和高速扩展端口550,高速扩展端口550可以接受各种扩展卡(未示出)。在一些实施方式中,低速控制器560耦合到存储设备530和低速扩展端口590。可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口590可以例如通过网络适配器耦合到一个或多个输入/输出设备,诸如键盘、定点设备、扫描仪或诸如交换机或路由器的网络设备。
计算设备500可以以多种不同的形式实现,如图所示。例如,它可以实现为标准服务器500a或在一组这样的服务器500a中实现多次,作为膝上型计算机500b,或者作为机架服务器系统500c的一部分。
本文描述的系统和技术的各种实施方式能够在数字电子和/或光学电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中实现。这些各种实施方式能够包括在可编程系统上可执行和/或可解释的一个或多个计算机程序中的实施方式,该可编程系统包括至少一个可编程处理器,该可编程处理器可以是特殊的或通用的,被耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令,并且向存储系统、至少一个输入设备和至少一个输出设备发送数据和指令。
这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,并且能够以高级过程和/或面向对象的编程语言和/或以汇编/机器语言来实现。如本文所使用的,术语“机器可读介质”和“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如,磁盘、光盘、存储器、可编程逻辑器件(PLD)),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。
本说明书中描述的过程和逻辑流程能够由一个或多个可编程处理器(也称为数据处理硬件)执行,该可编程处理器执行一个或多个计算机程序以通过对输入数据进行操作并且生成输出来执行功能。过程和逻辑流程也能够由专用逻辑电路(例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路))执行。适合于施行计算机程序的处理器例如包括通用和专用微处理器这两者,以及任何种类的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或这两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括或可操作地耦合以从一个或多个大容量存储设备接收数据或将数据传送到一个或多个大容量存储设备或这两者,该一个或多个大容量存储设备用于存储数据,例如磁性、磁光盘或光盘。然而,计算机不需要具有这样的设备。适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,包括例如半导体存储器设备,例如EPROM、EEPROM和闪存设备;磁盘,例如内部硬盘或可移动盘;磁光盘;以及CD ROM和DVD-ROM盘。处理器和存储器能够由专用逻辑电路补充或并入专用逻辑电路中。
为了提供与用户的交互,本公开的一个或多个方面能够在计算机上实现,该计算机具有用于向用户显示信息的显示设备(例如,CRT(阴极射线管)、LCD(液晶显示器)监视器或触摸屏)和任选地用户能够通过其向计算机提供输入的键盘和定点设备(例如,鼠标或轨迹球)。其他类型的设备也能够用于提供与用户的交互;例如,提供给用户的反馈能够是任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且能够以任何形式接收来自用户的输入,包括声学、语音或触觉输入。另外,计算机能够通过向由用户使用的设备发送文档和从该设备接收文档来与用户交互;例如,通过响应于从web浏览器接收的请求将网页发送到用户的客户端设备上的web浏览器。
已经描述了多种实施方式。然而,应当理解,在不脱离本公开的精神和范围的情况下,可以进行各种修改。因此,其他实施方式在所附权利要求的范围内。

Claims (24)

1.一种由数据处理硬件(510)执行的计算机实现的方法(400),所述方法使所述数据处理硬件(510)执行操作,所述操作包括:
获取目标域中的合成语音(306)的样本话语;
获取所述目标域中的非合成语音(304)的转录话语;
在所述目标域中的所述合成语音(306)的样本话语上预训练语音识别模型(200)以获得用于热启动训练的初始状态;以及
在预训练所述语音识别模型(200)后,在所述目标域中的所述非合成语音(304)的转录话语上热启动训练所述语音识别模型(200)以教导所述语音识别模型(200)学习识别所述目标域中的真实/人类语音。
2.根据权利要求1所述的方法(400),其中,获取所述目标域中的所述合成语音(306)的样本话语包括使用文本到语音(TTS)系统(330),基于作为在所述TTS系统(330)处的输入接收的话语的对应转录(320)来生成合成语音(306)的每个样本话语。
3.根据权利要求2所述的方法(400),其中,从语言模型对所述对应转录(320)进行采样。
4.根据权利要求2或3所述的方法(400),其中,在所述目标域中的转录音频样本上训练所述TTS系统(330)。
5.根据权利要求2至4中的任一项所述的方法(400),其中,在与所述目标域不同的域外音频样本上训练所述TTS系统(330)。
6.根据权利要求2至5中的任一项所述的方法(400),其中,所述TTS系统(330)被配置为跨合成语音(306)的话语改变话音特性。
7.根据权利要求2至6中的任一项所述的方法(400),其中,所述TTS系统(330)被配置为跨合成语音(306)的话语改变韵律/风格质量。
8.根据权利要求1至7中的任一项所述的方法(400),其中,所述操作还包括将数据增强应用于所述合成语音(306)的样本话语中的一个或多个。
9.根据权利要求8所述的方法(400),其中,所应用的数据增强包括添加噪声、添加混响或操纵定时中的至少一个。
10.根据权利要求1至9中的任一项所述的方法(400),其中,所述语音识别模型(200)包括基于帧对准的换能器模型(200a)。
11.根据权利要求10所述的方法(400),其中,所述基于帧对准的换能器模型(200a)包括递归神经网络-换能器(RNN-T)模型(200a)。
12.根据权利要求1至11中的任一项所述的方法(400),其中,所述语音识别模型(200)包括基于对准的编码器-解码器模型(200b)。
13.一种系统(100),包括:
数据处理硬件(510);以及
存储器硬件(520),所述存储器硬件(520)与所述数据处理硬件(510)通信,所述存储器硬件(520)存储指令,所述指令当在所述数据处理硬件(510)上执行时使所述数据处理硬件(510)执行操作,所述操作包括:
获取目标域中的合成语音(306)的样本话语;
获取所述目标域中的非合成语音(304)的转录话语;
在所述目标域中的所述合成语音(306)的样本话语上预训练语音识别模型(200)以获得用于热启动训练的初始状态;以及
在预训练所述语音识别模型后,在所述目标域中的所述非合成语音(304)的转录话语上热启动训练所述语音识别模型(200)以教导所述语音识别模型(200)学习识别所述目标域中的真实/人类语音。
14.根据权利要求13所述的系统(100),其中,获取所述目标域中的所述合成语音(306)的样本话语包括使用文本到语音(TTS)系统(330),基于作为在所述TTS系统(330)处的输入接收的话语的对应转录(320)来生成合成语音(306)的每个样本话语。
15.根据权利要求14所述的系统(100),其中,从语言模型对所述对应转录(320)进行采样。
16.根据权利要求14或15所述的系统(100),其中,在所述目标域中的转录音频样本上训练所述TTS系统(330)。
17.根据权利要求14至16中的任一项所述的系统(100),其中,在与所述目标域不同的域外音频样本上训练所述TTS系统(330)。
18.根据权利要求14至17中的任一项所述的系统(100),其中,所述TTS系统(330)被配置为跨合成语音(306)的话语改变话音特性。
19.根据权利要求14至18中的任一项所述的系统(100),其中,所述TTS系统(330)被配置为跨合成语音(306)的话语改变韵律/风格质量。
20.根据权利要求13至19中的任一项所述的系统(100),其中,所述操作还包括将数据增强应用于所述合成语音(306)的样本话语中的一个或多个。
21.根据权利要求20所述的系统(100),其中,所应用的数据增强包括添加噪声、添加混响或操纵定时中的至少一个。
22.根据权利要求13至21中的任一项所述的系统(100),其中,所述语音识别模型(200)包括基于帧对准的换能器模型(200a)。
23.根据权利要求22所述的系统(100),其中,所述基于帧对准的换能器模型(200a)包括递归神经网络换能器(RNN-T)模型(200a)。
24.根据权利要求13至23中的任一项所述的系统(100),其中,所述语音识别模型(200)包括基于对准的编码器-解码器模型(200b)。
CN202280056643.0A 2021-08-20 2022-07-20 利用基于语音合成的模型适配改进语音识别 Pending CN117859173A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/445,537 US11823697B2 (en) 2021-08-20 2021-08-20 Improving speech recognition with speech synthesis-based model adapation
US17/445,537 2021-08-20
PCT/US2022/073977 WO2023023434A1 (en) 2021-08-20 2022-07-20 Improving speech recognition with speech synthesis-based model adaption

Publications (1)

Publication Number Publication Date
CN117859173A true CN117859173A (zh) 2024-04-09

Family

ID=82898879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280056643.0A Pending CN117859173A (zh) 2021-08-20 2022-07-20 利用基于语音合成的模型适配改进语音识别

Country Status (5)

Country Link
US (1) US11823697B2 (zh)
EP (1) EP4367663A1 (zh)
KR (1) KR20240051176A (zh)
CN (1) CN117859173A (zh)
WO (1) WO2023023434A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111261144B (zh) * 2019-12-31 2023-03-03 华为技术有限公司 一种语音识别的方法、装置、终端以及存储介质
KR20240097874A (ko) 2022-09-07 2024-06-27 구글 엘엘씨 자기 회귀 생성 신경망을 사용한 오디오 생성

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9411882B2 (en) * 2013-07-22 2016-08-09 Dolby Laboratories Licensing Corporation Interactive audio content generation, delivery, playback and sharing
WO2021006920A1 (en) 2019-07-09 2021-01-14 Google Llc On-device speech synthesis of textual segments for training of on-device speech recognition model
US11636438B1 (en) * 2019-10-18 2023-04-25 Meta Platforms Technologies, Llc Generating smart reminders by assistant systems
CN113470662A (zh) * 2020-03-31 2021-10-01 微软技术许可有限责任公司 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配

Also Published As

Publication number Publication date
KR20240051176A (ko) 2024-04-19
WO2023023434A1 (en) 2023-02-23
US11823697B2 (en) 2023-11-21
EP4367663A1 (en) 2024-05-15
US20230058447A1 (en) 2023-02-23

Similar Documents

Publication Publication Date Title
US11605368B2 (en) Speech recognition using unspoken text and speech synthesis
US11929060B2 (en) Consistency prediction on streaming sequence models
CN117859173A (zh) 利用基于语音合成的模型适配改进语音识别
JP7502561B2 (ja) 言語間音声合成を改良するための音声認識の使用
CN117378004A (zh) 具有序列的对比损失的有监督和无监督的训练
US20230317059A1 (en) Alignment Prediction to Inject Text into Automatic Speech Recognition Training
US20230298565A1 (en) Using Non-Parallel Voice Conversion for Speech Conversion Models
US20230103722A1 (en) Guided Data Selection for Masked Speech Modeling
US20240013777A1 (en) Unsupervised Data Selection via Discrete Speech Representation for Automatic Speech Recognition
US20230017892A1 (en) Injecting Text in Self-Supervised Speech Pre-training
US20230013587A1 (en) Advancing the Use of Text and Speech in ASR Pretraining With Consistency and Contrastive Losses
CN113811946B (zh) 数字序列的端到端自动语音识别
US20240153484A1 (en) Massive multilingual speech-text joint semi-supervised learning for text-to-speech
CN117597729A (zh) 推进文本和语音在具有一致性和对比损失的asr预训练中的使用
JP2024525220A (ja) 自己教師あり音声事前トレーニングにおけるテキストの挿入

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination