CN112334974A

CN112334974A - 使用跨语言音素映射的语音生成

Info

Publication number: CN112334974A
Application number: CN201880095079.7A
Authority: CN
Inventors: 阿米·帕特尔; 西马克·塔扎里
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2021-02-05
Also published as: US11430425B2; WO2020076325A1; EP3955243A2; EP3662467B1; EP3662467A1; US20220415305A1; US20200342851A1; EP3955243A3

Abstract

可以通过利用通用音素集来生成跨语言自然语言文本数据流的计算机生成的语音。在各种实施方式中，所述自然语言文本数据流包括采用主要语言的主要语言部分以及不是采用所述主要语言的次要语言部分。可以从通用数据集中的一组音素确定对应于所述次要语言部分的音素。可以将这些音素映射回所述主要语言的一组音素。可以使用与所述主要语言相关联的音素生成这些音素的音频数据，以读出所述自然语言文本数据流的所述次要语言部分。

Description

使用跨语言音素映射的语音生成

背景技术

人类语言可以分成声音单位。例如，音素是可以将单词彼此区分开的声音单位。英文单词可以分为44个音素，其中每个音素是一个人说单词时可以发出的不同声音。相反，西班牙语的单词可以使用24个音素进行发音。计算系统可以基于文本输入生成人工人类语音。例如，文本转语音(“TTS”)系统可以从自然语言文本输入生成人工人类语音。例如，给定文本输入，TTS系统可以将书面输入转换成计算机生成的语音。一些TTS系统可以将文本输入转换成音素序列，并且基于音素序列生成音频输出，其中音频输出可以可听地渲染为反映音素序列的计算机生成的语音。

发明内容

在将采用用户不熟悉的次要语言的自然语言文本的一部分的音素(用于自然语言文本)映射到用户熟悉的主要语言的音素时，本文所描述的实施方式通过至少选择性地使用通用音素集将自然语言文本转换成计算机生成的语音。作为一个示例，假设要转换成语音以渲染给用户的文本包括用户不熟悉的次要语言的次要术语(例如，未分配为与用户相关联的账户的理解语言)。在本文所描述的各种实施方式中，可以确定次要术语的音素并且所述音素可以包括一个或多个通用音素。在这些各种实施方式中，使用在通用音素集和与主要语言相关联的音素集中的音素之间定义的映射，将次要术语的此类通用音素映射到分配给用户的主要语言的相关音素。次要术语的通用音素到相关音素的映射可以响应于确定次要语言不是用户熟悉的语言。此后，可以代替通用音素使用相关音素生成语音，并且可以经由一个或多个硬件扬声器将所生成的语音渲染给用户。因此，代替用户不熟悉的音素，所生成和所渲染的语音将使用用户熟悉的相关音素传送次要术语。由于所渲染的语音利用用户熟悉的音素来代替用户不熟悉的音素，因此这使得用户更易于理解所渲染的语音。这种改进的理解在执行各种系统指导的技术任务时提供改进的人机交互，其中在指导用户执行任务时系统生成语音输出。此外，改进的理解减少了用户将请求重复所渲染语音的可能性，从而节省了以其他方式利用客户端装置资源再次渲染语音。

此外，本文所公开的各种实施方式至少选择性地确定不应将跨语言话语的次要术语(次要语言)的通用音素映射到主要语言的相关音素，并且替代地，通用音素不应用于生成语音。例如，这可以响应于确定次要语言是用户熟悉的语言而发生。因此，在这些实施方式中，所生成和所渲染的语音将使用次要语言的音素，而不是主要语言的音素传送次要术语。考虑到用户对次要语言的熟悉性，所渲染的语音对于所述用户来说可能更易于理解，因为传送次要术语的语音利用使次要术语以就像由说次要语言的母语人士说出的方式(所述方式可以是用户期望的且更易于理解的方式)，可听地传送的音素。这种改进的理解同样可以在执行各种系统指导的技术任务时提供改进的人机交互，和/或减少用户将请求重复所渲染语音的可能性。

作为一个示例示例，假设要转换成语音以渲染给用户的文本包括用户熟悉的次要语言的次要术语(例如，分配为与用户相关联的账户的理解语言)。在本文所描述的各种实施方案实施方式中，可以确定次要术语的音素并且所述音素可以包括一个或多个通用音素。在这些各种实施方案实施方式中，代替除了用分配给用户的主要语言的相关音素代替这些音素之外，这些次要术语的此通用音素可以用于生成语音。使用通用音素代替映射到第一音素可以响应于确定次要语言是用户熟悉的语言。此后，可以使用通用音素生成语音，并且经由一个或多个硬件扬声器将所生成的语音渲染给用户。因此，所生成和所渲染的语音将传送要可听地传送的次要术语，就像说次要语言的本地人母语人士正在说次要语言一样。

根据各种实施方案实施方式的通用音素集包括在许多语言中通用的声音(即，通用声音)。在各种实施方式中，通用音素集含有约100个不同音素。根据各种实施方式的文本转语音(“TTS”)系统可以将文本(诸如例如，自然语言数据流)或文本的音素转换成计算机生成的语音。跨语言自然语言数据流是包括多种不同语言的文本的数据流。例如，跨语言自然语言数据流可以包括主要语言的部分和唯一的次要语言的部分(例如，具有次要语言的一个或多个单词的主要语言的短语)。例如，“在

Straβe向右转”包括英语部分(“右转”)和德语部分(“

Straβ”)。在各种实施方式中，通过在主要语言词典的数据流中缺失的一个或多个单词，TTS系统可以确定自然语言数据流是跨语言的。另外地或替代地，TTS系统可以接收指示数据流是跨语言的信号(例如，地图应用程序可以为正在运行地图应用程序的客户端设备提供信号，指示其正在提供与指定母国不同的国家的方向)。在许多实施方式中，主要语言词典可以包括与主要语言的单词的发音相对应的一组音素。类似地，通用语言词典可以包括与单词的发音相对应的来自通用音素集的一组音素。在许多实施方式中，可以在通用语言词典中找到次要语言的单词，并且可以将用于读出单词的通用音素集映射回主要语言的音素，因此生成主要语言的次要语言单词的发音。

另外地或替代地，针对通用语言词典中不存在的单词，可以生成来自通用音素集的音素。在一些此类实施方式中，可以使用字素到音素模型和/或附加模型动态地生成音素，以预测与次要语言的单词相对应的通用音素。类似地，可以将动态地生成的音素映射到主要语言的音素。

TTS系统可以使用音素生成音频数据，以经由扬声器渲染输入文本。在许多实施方式中，音频数据可以生成多语言话音，其中话音可以使用与所述语言相关联的音素读出各种语言。换句话说，相同话音可以使用英语音素读出英语单词，使用德语音素读出德语单词，使用法语音素读出法语单词，和/或读出其它语言以及对应的音素组合。

根据本文所描述的多种实施方式的TTS系统可以向多语言用户提供对跨语言文本的更好理解。可以用次要语言读出所述语言的数据流的部分，这可以向说次要语言的用户提供对数据流的部分的更清楚理解。例如，与用英语口音读出德国街道名称相比，作为以英语提供的所述街道的方向的一部分，用德语音素读出德国街道名称可能更容易被德语/英语说话者理解。在一些此类实施方式中，TTS系统可以通过减少多语言用户对重放不清楚信息、请求附加信息等的需求来获得计算效率。此外，通过消除对存储计算装置上的每一个语言对之间的音素映射的需求，使用通用音素集可以提供存储效率。另外地或替代地，通过在通用语言词典，而不是许多语言特定的词典中查找单词，可以更快地生成与未知次要语言的单词相对应的一组音素。

提供以上描述作为本文所公开的各种实施方式的概述。此处更详细地描述这些各种实施方式以及附加实施方式。

在一些实施方式中，提供一种用于从自然语言文本数据流生成计算机生成的语音的方法，所述方法包括接收自然语言文本数据流，所述自然语言文本数据流转换成计算机生成的语音以经由计算装置的一个或多个扬声器渲染给用户，其中自然语言文本数据流包括采用分配给用户的主要语言的主要部分，以及不是采用分配给用户的主要语言的次要语言部分。所述方法还包括确定自然语言文本数据流的次要语言部分是否采用未作为用户的熟悉语言分配的次要语言。所述方法还包括处理自然语言文本数据流的主要部分，以确定分配给主要语言并且对应于主要部分的第一组音素。所述方法还包括处理自然语言文本数据流的次要部分，以确定对应于次要部分的通用音素集中的第二组音素，其中通用音素集至少包括对应于主要语言和次要语言的音素。所述方法还包括响应于确定次要语言部分采用未作为用户的熟悉语言分配的次要语言：将对应于次要部分并且不是用于主要语言的一个或多个第二音素映射到主要语言中的一个或多个相关音素，其中将一个或多个第二音素映射到一个或多个相关音素基于通用音素集中的音素与主要语言音素之间的定义映射。所述方法还包括通过用主要语言中的相关音素代替第二组音素中的一个或多个第二音素，生成修改的第二组音素。所述方法还包括处理第一组音素和修改的第二组音素，以生成模仿说第一组音素和修改的第二组音素的人类说话者的音频数据。所述方法还包括使音频数据经由计算装置的一个或多个扬声器渲染。本文所公开的技术的这些和其它实施方式可以包括以下特征中的一个或多个。

在一些实施方案实施方式中，响应于确定次要语言部分不是采用未作为用户的熟悉语言分配的次要语言，而是采用作为用户的熟悉语言分配的另外的次要语言：所述方法还包括处理第一组音素和第二组音素，而不将第二组音素映射到主要语言中的音素。在一些实施方式中，所述方法还包括使替代音频数据经由计算装置的一个或多个扬声器渲染。在这些实施方式的一些版本中，所述方法还包括基于由计算装置提供的数据或基于与分配给用户的账户相关联地存储的数据，另外的次要语言作为用户的熟悉语言分配。在这些实施方式的一些版本中，所述方法还包括处理第一组音素和第二组音素以生成替代音频数据，包括使用至少部分地基于来自人类说话者的音频数据训练的受训神经网络模型处理第一组音素和第二组音素，所述人类说话者会流利地说主要语言并且会流利地说另外的次要语言。

在一些实施方式中，远程计算系统提供自然语言文本数据流，并且通过自然语言文本数据流提供次要语言部分不是采用主要语言的指示。

在一些实施方式中，所述方法还包括确定自然语言文本数据流的次要语言部分不是采用主要语言，其中确定次要语言部分不是采用主要语言包括：确定自然语言文本数据流中的一个或多个次要单词不在主要语言的主要语言词典中。在这些实施方式的一些版本中，所述方法还包括处理自然语言文本数据流的次要部分，以确定对应于次要部分的通用音素集中的第二组音素包括：确定不在主要语言的主要语言词典中的一个或多个第二单词在替代词典中。所述方法还包括在替代词典中检索次要语言部分的第二组音素。在这些实施方式的一些版本中，所述方法还包括处理自然语言文本数据流的次要部分，以通过使用字素到音素模型自动地确定第二组音素来确定对应于次要部分的通用音素集中的第二组音素。

在一些实施方式中，所述方法还包括处理第一组音素和修改的第二组音素，以生成模仿说第一组音素和修改的第二组音素的人类说话者的音频数据，包括使用受训的神经网络模型处理第一组音素和第二组音素，以使用特定于多种语言中的每一者的音素生成人类语音。在这些实施方式的一些版本中，所述方法还包括基于多个训练实例训练神经网络模型，每个训练实例包括来自多语言用户的对应跨语言口头话语以及对应于跨语言口头话语的对应跨语言音素。

在一些实施方式中，提供一种用于从自然语言文本数据流生成计算机生成的语音的方法并且所述方法包括：在远离客户端装置的计算系统处接收自然语言文本数据流，所述自然语言文本数据流被转换成计算机生成的语音以经由客户端装置的一个或多个扬声器渲染给用户，其中自然语言文本数据流包括采用分配给用户的主要语言的主要部分，以及不是采用分配给用户的主要语言的次要语言部分。所述方法还包括确定自然语言文本数据流的次要语言部分是否采用未作为用户的熟悉语言分配的次要语言。所述方法还包括处理自然语言文本数据流的主要部分，以确定分配给主要语言并且对应于主要部分的第一组音素。所述方法还包括处理自然语言文本数据流的次要部分，以确定对应于次要部分的通用音素集中的第二组音素，其中通用音素集至少包括对应于主要语言和次要语言的音素。所述方法还包括响应于确定次要语言部分是采用未作为用户的熟悉语言分配的次要语言：将对应于次要部分而不是用于主要语言的一个或多个第二音素映射到主要语言中的一个或多个相关音素，其中将一个或多个第二音素映射到一个或多个相关音素基于通用音素集中的音素与主要语言音素之间的定义映射。所述方法还包括通过用主要语言的相关音素代替第二组音素中的一个或多个第二音素，生成修改的第二组音素。所述方法还包括处理第一组音素和修改的第二组音素，以生成模仿说第一组音素和修改的第二组音素的人类说话者的音频数据。

本文所公开的技术的这些和其它实施方式可以包括以下特征中的一个或多个。

在一些实施方式中，由远离客户端装置的计算系统生成自然语言文本数据流。在这些实施方式的一些版本中，由远程客户端装置经由网络将自然语言文本数据流传输到计算系统。

在一些实施方式中，用于生成跨语言自然语言数据流的计算机生成的语音的TTS系统可以使用除了通用音素集之外的附加和/或替代技术生成音素。当TTS系统正在处理自然语言数据流时，可以利用这些附加和/或替代音素生成技术中的一种确定用户熟悉主要语言和次要语言(即，用户是多语言的)，而不需要使用通用音素集。

在一些实施方式中，系统包括一个或多个处理器以及与一个或多个处理器可操作地耦合的存储器，其中存储器存储指令，所述指令响应于由一个或多个处理器执行指令而使一个或多个处理器执行前述方法中的任一个。

另外，一些实施方式包括一个或多个计算装置的一个或多个处理器(例如，中央处理单元(CPU)、图形处理单元(GPU)，和/或张量处理单元(TPU))，其中一个或多个处理器可操作以执行存储于相关联存储器中的指令，并且其中所述指令被配置成执行本文所描述的方法中的任一个。一些实施方式还包括一个或多个非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质存储可由一个或多个处理器执行以执行本文所描述的方法中的任一个的计算机指令。

应理解，本文中更详细描述的前述概念和附加概念的所有组合被认为是本文所公开的主题的一部分。例如，出现在本公开的结尾处的要求保护的主题的所有组合被认为是本文所公开的主题的一部分。

附图说明

图1是可以实施本文所公开的实施方式的示例环境的框图。

图2A是说明根据本文所公开的实施方式的用户与文本转语音系统交互的示例的场景。

图2B是说明根据本文所公开的实施方式的用户与文本转语音系统交互的另外的示例的场景。

图3是说明根据本文所公开的实施方式的过程的流程图。

图4是说明根据本文所公开的实施方式的另一过程的流程图。

图5是说明根据本文所公开的实施方式的另一过程的流程图。

图6是可以实施本文所公开的实施方式的示例环境的另外的框图。

图7说明计算装置的示例架构。

具体实施方式

图1说明可以实施本文所公开的实施方式的示例环境。图1中的示例环境100包括客户端装置102、文本转语音(“TTS”)引擎104、跨语言引擎108、映射引擎110，以及通用词典引擎114。客户端装置102可以是例如独立的声控扬声器装置、台式计算装置、膝上型计算装置、平板计算装置、移动电话计算装置、用户的车辆的计算装置(例如，车载通信系统、车载娱乐系统、车载导航系统)，和/或包括计算装置的用户的可穿戴设备(例如，具有计算装置的手表、具有计算装置的眼镜、虚拟或增强现实计算装置等)。可以提供额外的和/或替代的客户端装置。

TTS引擎104、跨语言引擎108、映射引擎110和通用词典引擎114是示例组件，其中可以实施本文所描述的技术和/或本文所描述的系统、组件和技术可以与所述组件交互。由图1的一个或多个引擎104、108、110和114执行的操作可以分布在多个计算系统上。在一些实施方式中，引擎104、108、110、114的一个或多个方面可以组合在单个系统中，和/或一个或多个方面可以在客户端装置102上实施。例如，在这些实施方式中的一些实施方式中，跨语言引擎108的方面可以与映射引擎110的方面组合。根据许多实施方式的引擎可以各自在例如通过通信网络进行通信的一个或多个计算装置中实施。通信网络可以包括例如因特网的广域网、例如Wi-Fi局域网、网状网络等的一个或多个局域网，和/或一个或多个总线子系统。通信网络可以任选地利用一种或多种标准通信技术、协议和/或进程间通信技术。

在许多实施方式中，客户端装置102可以包括可以将文本转换成计算机生成的语音的TTS引擎104。在一些此类实施方式中，TTS引擎104可以从客户端装置102(未图示)和/或远程计算系统内的另一引擎接收自然语言文本输入。在其它实施方式中，TTS引擎104可以生成自然语言文本输入。另外地或替代地，TTS引擎104可以生成模仿说一个或多个音素的人类说话者的音频数据。在许多实施方式中，可以使用多语言话音经由客户端装置102的一个或多个扬声器(未图示)渲染音频数据，其中话音可以读出与多种语言相关联的各种音素。

在各种实施方式中，跨语言引擎108可以确定自然语言数据流是否是跨语言的(即，自然语言数据流含有主要语言的部分以及次要语言的部分)。在一些此类实施方式中，可以向自然语言数据流提供数据流是跨语言的指示。例如，第三方应用程序可以向客户端装置提供自然语言数据流以及自然语言数据流是跨语言的指示。另外地或替代地，跨语言引擎108可以处理自然语言数据流以确定自然语言数据流是否为跨语言的。在一些此类实施方式中，跨语言引擎108可以将自然语言数据流中的单词与主要词典112相比较，其中主要词典含有采用主要语言的单词和对应音素。主要词典112中缺失的一个或多个单词可以指示这些单词不是采用主要语言。在许多实施方式中，通用词典引擎112可以接收单词不在主要词典112中的条目的指示，并且可以类似地在通用词典116中搜索单词。通用词典116可以包括多种语言的单词以及来自通用音素集的这些单词的对应音素。如果单词不在主要词典112或通用词典116中，则跨语言引擎108可以从单词的通用音素集生成音素。在许多实施方式中，字素到音素语言模型和/或其它语言模型可以用于(自动地)生成通用音素集中的音素。

映射引擎110可以将通用音素集中的一组音素(例如，与由跨语言引擎108所确定的次要语言的自然语言数据流的部分相对应的音素)映射到采用主要语言的音素。在一些实施方式中，映射引擎110可以利用声学耦合将通用音素集映射到采用主要语言的对应音素。

图2A和图2B说明根据本文所公开的实施方式的用户与文本转语音系统交互的示例。图2A的场景200包括用户202和客户端装置204。，用户202是不熟悉德语的英语说话者并且正在收听来自地图英语应用程序的指导，所述该指导包括经由客户端装置204渲染的德语位置(即，假想咖啡厅(Hypothetisches Café))。由于用户202不熟悉德语，因此根据许多实施方式的TTS系统可以生成音频数据，其中“假想咖啡厅”用英语音素读出。例如，客户端装置204可以渲染消息206：“在[英语发音]假想咖啡厅左转”。图2B的场景250包括用户252和客户端装置254。客户端装置254正类似地从地图应用程序渲染音频数据，该地图应用程序提供包括德语位置的指导。与不熟悉德语的用户202相反，用户252熟悉英语和德语。在一些此类实施方式中，客户端装置254可以向TTS系统提供用户252熟悉英语和德语的指示。客户端装置254可以使用英语音素和德语音素的组合渲染消息256“在[[德语发音]]假想咖啡厅左转”(即，德语位置可以用德语音素渲染，而英语指导可以用英语音素渲染)。

另外地或替代地，用户可以与呈现渲染音频数据的附加类型的音频数据的客户端装置的文本转语音系统交互。例如，文本转语音系统可以呈现渲染用于初始化外来路由器的指令，其中大部分指令采用用户的主要语言，但是在指令中提及的路由器的商标名称是采用次要语言的外来词。作为另一示例，多语言用户可以初始化采用次要语言的智能灯的名称。根据本文所描述的实施方式的文本转语音系统可以呈现渲染计算机生成的语音，该计算机生成的语音包括采用次要语言的智能灯的名称，作为以主要语言讲述智能灯状态的叙述的一部分。另外地或替代地，当文本转语音系统检测到不熟悉次要语言的用户正请求关于智能灯的状态信息时，以次要语言命名的相同智能灯可以使用主要语言中的音素呈现被渲染。

图3是说明根据本文所公开的各种实施方式的基于自然语言数据流渲染计算机生成的语音的示例过程300的流程图。为了方便起见，参考执行操作的系统来描述图3的操作。此系统可以包括各种计算机系统的各种组件，诸如客户端装置102的一个或多个组件。此外，尽管以特定顺序示出过程300的操作，但这并不意味着是限制性的。可以重新排序、省略和/或添加一个或多个操作。

在框302处，系统处理自然语言文本数据流。在许多实施方式中，自然语言数据流可以由客户端装置从例如服务器、第三方应用程序和/或另外的远程计算系统的远程计算系统接收自然语言数据流。另外地或替代地，客户端装置可以生成自然语言数据流。在一些实施方式中，处理自然语言数据流可以包括各种处理以使TTS系统能够渲染跨语言数据流的音频数据，诸如对自然语言数据流执行音译。例如，可以将俄语自然语言数据流的次要部分从俄语字符转换成用于泰语TTS系统的泰语字符(通常无需将俄语单词翻译成泰语)。

在框304处，系统确定对应于自然语言数据流中的单词的音素。根据许多实施方式的TTS系统可以确定自然语言数据流是否为跨语言的和/或确定用户是否是熟悉多于主要语言的用户(即，多语言用户)。在各种实施方式中，可以使用通用音素集确定采用次要语言的单词的音素，并且可以将这些音素映射回采用主要语言的一个或多个音素。本文中描述了用于使用通用音素集确定跨语言自然语言数据流的音素的过程，包括图4的过程400。

在框306处，系统生成对应于自然语言数据流的音素的音频数据，其中音频数据模仿人类说话者。在许多实施方式中，计算机生成的音频数据可以使用主要语言和次要语言中的单词的相同话音。在一些此类实施方式中，可以使用各种机器学习技术训练用于生成多语言话音的机器学习模型(例如，神经网络模型)，其中训练机器学习技术的输入包括训练实例，每个训练实例包括来自多语言用户的对应跨语言口头话语以及对应于跨语言口头话语的对应跨语言音素。可以训练用于生成多语言话音的机器学习模型，以渲染在通用音素集中表示的相同语言组中的音素。

在框308处，系统经由扬声器，诸如图1中说明的客户端装置102向客户端装置的用户渲染音频数据。

图4是说明根据本文所公开的各种实施方式的生成一组音素的示例过程400的流程图。为了方便起见，参考执行操作的系统来描述图4的操作。此系统可以包括各种计算机系统的各种组件，诸如客户端装置102的一个或多个组件。此外，尽管以特定顺序示出过程400的操作，但这并不意味着是限制性的。可以重新排序、省略和/或添加一个或多个操作。

在框402处，系统确定自然语言文本数据流是否含有主要语言和次要语言(即，自然语言数据流是多语言的)。如本文所描述，根据各种实施方式的TTS系统可以接收自然语言数据流是跨语言的指示，和/或确定自然语言数据流中的一个或多个单词不在与主要语言相关联的主要语言词典中。如果系统在框404处确定自然语言数据流是跨语言的，则系统前进到框406。另外地或替代地，如果系统在框404处确定自然语言数据流不是跨语言的，则系统可以前进到框418处确定用于自然语言数据流的部分的音频数据含有主要语言。

在框406处，系统确定自然语言数据流的次要语言部分是否处于通用语言词典中。如果在框408处次要语言单词存在于通用语言词典中，则在前进到框416、418和420之前，系统可以在框422处通过使用与通用语言词典中的次要语言单词相对应的音素确定来自次要语言单词的通用音素集的一组音素。另外地或替代地，系统可以在框408处确定自然语言数据流的次要语言部分不存在于通用词典中，并且可以前进到框410。

在框410处，系统确定来自通用音素集的一组次要语言音素。如本文所描述，诸如字素到音素的语言模型可以用于生成通用音素集中的自然语言数据流的次要语言部分的音素。

在框412处，系统确定用户(即，多语言用户)是否熟悉次要语言。在各种实施方式中，可以由客户端装置和/或基于与分配给用户的账户相关联地存储的数据提供对次要语言和/或多种另外的语言的熟悉性。如果系统在框414处确定用户不是多语言的，则在前进到框416、418和420之前，系统可以在框424处将次要语言部分的音素映射到采用主要语言的音素。另外地或替代地，如果系统在框414处确定用户是多语言的，则系统可以前进到框416。

在框416处，系统确定自然语言数据流的部分的音频数据含有次要语言。在框418处，系统确定自然语言数据流的部分的音频数据含有主要语言。在框420处，系统经由客户端装置的扬声器向用户渲染音频数据。

图5是说明根据本文所公开的各种实施方式的使用远程计算生成对应于文本自然语言数据流的音频数据的示例过程500的流程图。为了方便起见，参考执行操作的系统来描述图5的操作。此系统可以包括各种计算机系统的各种组件，诸如客户端装置102的一个或多个组件。此外，尽管以特定顺序示出过程500的操作，但这并不意味着是限制性的。可以重新排序、省略和/或添加一个或多个操作。

在框502处，系统经由网络从诸如客户端装置102的远程客户端装置接收自然语言文本数据流。在其它实施方式中，响应于对远程客户端装置所提供的信息的请求，系统可以生成文本自然语言数据流。

在框502处，系统确定自然语言数据流的一组音素。在各种实施方式中，自然语言数据流可以是跨语言的，并且本文中所描述的包括图4的过程400的实施方式可以用于确定所述一组音素。

在框504处，系统生成对应于自然语言数据流的所述一组音素的音频数据，其中音频数据模仿人类说话者。

在框506处，系统经由网络将音频数据传输到远程客户端装置。在一些实施方式中，客户端装置可以经由扬声器向用户渲染音频数据。在其它实施方式中，系统将自然语言数据流的所述一组音素传输到客户端装置，并且客户端装置可以生成对应于所述一组音素的音频数据且经由扬声器向用户渲染音频数据。

现在转向图6，说明可以执行各种实施方式的另外的示例环境。图6包括客户端装置602，该客户端装置执行自动助理客户端604的实例。一个或多个基于云的自动助理组件610可以在一个或多个计算系统(即，云计算系统)上实施，该计算系统经由通常指示为608的一个或多个局域网和/或广域网(例如，因特网)通信地耦合到客户端装置602。

通过自动助理客户端604与一个或多个基于云的自动助理组件610的交互，自动助理客户端的实例可以从用户的角度形成似乎自动助理600的逻辑实例，用户可以通过所述自动助理600参与人机对话。图6中描绘了此该自动助理600的实例。因此，应理解，在一些实施方式中，与在客户端装置602上执行的自动助理客户端604交互的用户实际上可以与自动助理600的其自身的逻辑实例交互。为简洁起见，本文中用作“服务”特定用户的术语“自动助理”通常是指在用户操作的客户端装置602上执行的自动助理客户端604和一个或多个基于云的自动助理组件610(其可以在多个客户端计算装置的多个自动助理客户端之间共享)的组合。还应理解，在一些实施方式中，自动助理600可以对来自任何用户的请求作出响应，而不管自动助理600的所述特定实例是否实际“服务”用户。

客户端计算装置602可以是例如：台式计算装置、膝上型计算装置、平板计算装置、移动电话计算装置、用户的车辆的计算装置(例如，车载通信系统、车载娱乐系统、车载导航系统)、独立的交互式扬声器、例如诸如智能电视的智能电器设备，和/或包括计算装置的用户的可穿戴设备(例如，具有计算装置的用户的手表、具有计算装置的用户的眼镜、虚拟或增强现实计算装置)。可以提供另外和/或替代客户端计算装置。在各种实施方式中，客户端计算装置602可以任选地操作除自动助理客户端604之外的一个或多个其它应用程序，例如，消息交换客户端(例如，SMS、MMS、在线聊天)、浏览器等等。在这些各种实施方式中的一些实施方式中，其它应用程序中的一个或多个可以任选地与自动助理600交互(例如，经由应用程序编程接口)，或包括自动助理应用程序(还可以与基于云的自动助理组件610交互)的其自身的实例。

自动助理600经由客户端装置602的用户接口输入和输出装置与用户进行人机对话会话。为了保护用户隐私和/或节省资源，在许多情况下，用户通常必须在自动助理将完全处理口头话语之前显式地调用自动助理600。可以响应于在客户端装置602处接收到的特定用户接口输入而发生自动助理600的显式调用。例如，可以经由客户端装置602调用自动助理600的用户接口输入可以任选地包括客户端装置602的硬件和/或虚拟按钮的致动。此外，自动助理客户端可以包括一个或多个本地引擎606，诸如可用于检测是否存在一个或多个口头调用短语的调用引擎。调用引擎可以响应于检测到口头调用短语中的一个而调用自动助理600。例如，调用引擎可以响应于检测到诸如“嗨助理”、“OK助理”和/或“助理”的口头调用短语而调用自动助理600。调用引擎可以连续地处理(例如，如果不是处于“非活动”模式)基于来自客户端装置602的一个或多个麦克风的输出的音频数据帧流，以监视口头调用短语的出现。当监视口头调用短语的出现时，调用引擎丢弃(例如，在临时存储在缓冲区中之后)不包括口头调用短语的任何音频数据帧。然而，当调用引擎在经过处理的音频数据帧中检测到口头调用短语的出现时，调用引擎可以调用自动助理600。如本文所使用，“调用”自动助理600可以包括使自动助理600的一个或多个先前非活动的功能激活。例如，调用自动助理600可以包括使一个或多个本地引擎606和/或基于云的自动助理组件610进一步处理基于其检测到调用短语的音频数据帧，和/或一个或多个随后的音频数据帧(然而，在调用之前没有进行音频数据帧的进一步处理)。

自动助理600的一个或多个本地引擎606是任选的，并且可以包括例如上述调用引擎、本地话音转文本(“STT”)引擎(将所捕获音频转换成文本)、本地文本转语音(“TTS”)引擎(将文本转换成语音)、本地自然语言处理器(确定音频和/或从音频转换的文本的语义)，和/或其它本地组件。根据本文所公开的许多实施方式的TTS引擎可以由客户端装置602用作本地TTS引擎。因为客户端装置602在计算资源(例如，处理器周期、存储器、电池等)方面相对受限，所以本地引擎606可以相对于包括在基于云的自动助理组件610中的任何对等方具有受限功能。

基于云的自动助理组件610利用云的实际上地无限资源，以相对于本地引擎606的任何对等方执行音频数据和/或其它用户接口输入的更稳固和/或更精确处理。同样，在各种实施方式中，客户端装置602可以响应于检测口头调用短语，或检测自动助理600的一些其它显式调用的调用引擎，将音频数据和/或其它数据提供到基于云的自动助理组件610。

所说明的基于云的自动助理组件610包括基于云的TTS模块612、基于云的STT模块614，以及自然语言处理器616。根据本文所描述的各种实施方式的TTS引擎可以用作TTS模块612。在一些实施方式中，可以在与自动助理600分开的组件中省略、组合和/或实施自动助理600的引擎和/或模块中的一个或多个。此外，在一些实施方式中，自动助理600可以包括另外和/或替代引擎和/或模块。

基于云的STT模块614可以将音频数据转换成文本，然后可以将该文本提供到自然语言处理器616。基于云的TTS模块614可以将文本数据(例如，由自动助理600制定的自然语言响应)转换成计算机生成的语音输出。在一些实施方式中，TTS模块612可以将计算机生成的语音输出提供到客户端装置602，以例如使用一个或多个扬声器直接输出。在其它实施方式中，可以将由自动助理600生成的文本数据(例如，自然语言响应)提供到本地引擎606中的一个，所述本地引擎然后可以将文本数据转换成本地输出的计算机生成的语音。

自动助理600的自然语言处理器616处理自由形式的自然语言输入，并且基于自然语言输入生成带注释输出，以供自动助理600的一个或多个其它组件使用。例如，自然语言处理器616可以处理自然语言自由形式的输入，所述自然语言自由形式的输入是文本输入，所述文本输入是STT模块614经由客户端装置602对用户提供的音频数据的转换。生成的带注释输出可以包括自然语言输入的一个或多个注释，以及任选地自然语言输入的一个或多个(例如，所有)术语。

在一些实施方式中，自然语言处理器616被配置成识别和注释自然语言输入中的各种类型的语法信息。在一些实施方式中，自然语言处理器616可以另外地和/或替代地包括实体标注器(未描绘)，所述实体标注器被配置成注释一个或多个片段中的实体引用，诸如对人(包括例如，文学人物、名人、公众人物等)、组织、位置(真实和虚拟)等的引用。在一些实施方式中，自然语言处理器616可以另外地和/或替代地包括共指解析器(未描绘)，所述共指解析器被配置成基于一个或多个语境线索对相同实体的引用进行分组或“聚集”。例如，共指解析器可以用于将自然语言输入“我上次在那儿用餐时喜欢假想咖啡厅”中的术语“那儿”解析成“假想咖啡厅”。在一些实施方式中，自然语言处理器616的一个或多个组件可以依赖于来自自然语言处理器616的一个或多个其它组件的注释。在一些实施方式中，在处理特定自然语言输入时，自然语言处理器616的一个或多个组件可以使用相关的先前输入和/或特定自然语言输入之外的其它相关数据来确定一个或多个注释。

图7是可以任选地用于执行本文所描述的技术的一个或多个方面的示例计算装置710的框图。在一些实施方式中，一个或多个客户端计算装置和/或其它组件可以包括示例计算装置710的一个或多个组件。

计算装置710通常包括经由总线子系统712与多个外围装置通信的至少一个处理器714。这些外围装置可以包括：存储子系统724，所述存储子系统包括例如存储器子系统725和文件存储子系统726，用户接口输出装置720，用户接口输入装置722，以及网络接口子系统716。输入和输出装置允许与计算装置710进行用户交互。网络接口子系统716将接口提供到外部网络并且耦合到其它计算装置中的对应接口装置。

用户接口输入装置722可以包括键盘、诸如鼠标、轨迹球、触摸板或图形输入板的指向装置、扫描仪、结合在显示器中的触摸屏、诸如话音辨识系统、麦克风的音频输入装置，和/或其它类型的输入装置。通常，术语“输入装置”的使用旨在包括用于将信息输入到计算装置710中或通信网络上的所有可能类型的装置和方式。

用户接口输出装置720可以包括显示器子系统、打印机、传真机，或诸如音频输出装置的非可视显示器。显示器子系统可以包括阴极射线管(“CRT”)、诸如液晶显示器(“LCD”)的平板装置、投影装置，或用于产生可见图像的某种其它机构。显示器子系统还可以诸如经由音频输出装置来提供非可视显示器。通常，术语“输出装置”的使用旨在包括用于将信息从计算装置710输出到用户或另一机器或计算装置的各种可能类型的装置和方式。

存储子系统724存储提供本文所描述的一些或全部模块的功能的编程和数据结构。例如，存储子系统724可以包括用于执行图3至图5的一个或多个过程的选定方面，以及实施图1中描绘的各种组件的逻辑。

这些软件模块通常由处理器714单独地或结合其它处理器执行。用于存储子系统724中的存储器725可以包括多个存储器，包括用于在程序执行期间存储指令和数据的主随机存取存储器(“RAM”)730以及存储固定指令的只读存储器(“ROM”)732。文件存储子系统726可以为程序和数据文件提供持久存储，并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质盒。实现某些实施方式的功能的模块可以由文件存储子系统726存储在存储子系统724中，或者存储在处理器714可访问的其它机器中。

总线子系统712提供用于使计算装置710的各个组件和子系统按预期彼此通信的机构。尽管总线子系统712被示意性地示出为单个总线，但是总线子系统的替代实施方式可以使用多个总线。

计算装置710可以具有各种类型，包括工作站、服务器、计算集群、刀片服务器、服务器群或任何其它数据处理系统或计算装置。由于计算机和网络的不断变化的性质，因此对图7中所描绘的计算装置710的描述仅旨在作为用于说明一些实施方式的特定示例。计算装置710的许多其它配置可能具有比图7中描绘的计算装置更多或更少的组件。

尽管本文已经描述和说明几个实现方案实施方式，但是可以利用用于执行功能和/或获得结果的各种其它手段和/或结构，和/或本文描述的一个或多个优点，并且此类变化和/或修改中的每一个被认为在本文描述的实施方式的范围内。更一般地，本文描述的所有参数、尺寸、材料和配置表示示例性的，并且实际参数、尺寸、材料和/或配置将取决于教示教导用于的一个或多个特定应用。仅使用常规实验，本领域技术人员将认识到或能够确定本文描述的具体实施方式的许多等同物。因此，应理解，前述实施方式仅以示例的方式呈现，并且在所附权利要求及其等同物的范围内，可以不同于具体描述和要求保护的方式来实践实施方式。本公开的实施方式涉及本文描述的每个个别特征、系统、物品、材料、套件和/或方法。另外，如果此类特征、系统、物品、材料、套件和/或方法不是相互矛盾的，则两个或更多个此类特征、系统、物品、材料、套件和/或方法的任何组合包括在本公开的范围内。

Claims

1.一种用于从自然语言文本数据流生成计算机生成的语音的方法，所述方法由一个或多个处理器实施并且包括：

接收自然语言文本数据流，所述自然语言文本数据流将被转换成计算机生成的语音以经由计算装置的一个或多个扬声器渲染给用户，其中，所述自然语言文本数据流包括采用分配给所述用户的主要语言的主要部分，以及不是采用分配给所述用户的所述主要语言的次要语言部分；

确定所述自然语言文本数据流的所述次要语言部分是否采用未作为所述用户的熟悉语言分配的次要语言；

处理所述自然语言文本数据流的所述主要部分，以确定分配给所述主要语言并且对应于所述主要部分的第一组音素；

处理所述自然语言文本数据流的次要部分，以确定对应于所述次要部分的通用音素集中的第二组音素，其中，所述通用音素集至少包括对应于所述主要语言和所述次要语言的音素；

响应于确定所述次要语言部分采用未作为所述用户的熟悉语言分配的所述次要语言：

将对应于所述次要部分并且不是用于所述主要语言的一个或多个第二音素映射到采用所述主要语言的一个或多个相关音素，其中，将所述一个或多个第二音素映射到所述一个或多个相关音素基于所述通用音素集中的音素与主要语言音素之间的定义映射；

通过用采用所述主要语言的所述相关音素代替所述第二组音素中的所述一个或多个第二音素，来生成修改的第二组音素；

处理所述第一组音素和所述修改的第二组音素，以生成模仿说所述第一组音素和所述修改的第二组音素的人类说话者的音频数据；以及

使所述音频数据经由所述计算装置的所述一个或多个扬声器被渲染。

2.根据权利要求1所述的方法，还包括：

响应于确定所述次要语言部分不是采用未作为所述用户的熟悉语言分配的所述次要语言，而是采用作为所述用户的熟悉语言分配的另外的次要语言：

处理所述第一组音素和所述第二组音素，而不将所述第二组音素映射到采用所述主要语言的音素；以及

使替代音频数据经由所述计算装置的所述一个或多个扬声器被渲染。

3.根据权利要求2所述的方法，其中，基于由所述计算装置提供的数据或基于与分配给所述用户的账户相关联地存储的数据，所述另外的次要语言被分配为所述用户的熟悉语言。

4.根据权利要求2所述的方法，其中，处理所述第一组音素和所述第二组音素以生成所述替代音频数据包括：使用至少部分地基于来自人类说话者的音频数据训练的受训神经网络模型处理所述第一组音素和所述第二组音素，所述人类说话者会流利地用所述主要语言并且会流利地用所述另外的次要语言。

5.根据任一项前述权利要求所述的方法，其中，远程计算系统提供所述自然语言文本数据流，并且通过所述自然语言文本数据流提供所述次要语言部分不是采用所述主要语言的指示。

6.根据任一项前述权利要求所述的方法，还包括：

确定所述自然语言文本数据流的所述次要语言部分不是采用所述主要语言，其中，确定所述次要语言部分不是采用所述主要语言包括：

确定所述自然语言文本数据流中的一个或多个次要单词不在所述主要语言的主要语言词典中。

7.根据权利要求6所述的方法，其中，处理所述自然语言文本数据流的所述次要部分以确定对应于所述次要部分的所述通用音素集中的所述第二组音素包括：

确定不在所述主要语言的所述主要语言词典中的所述一个或多个第二单词在替代词典中；以及

在所述替代词典中检索所述次要语言部分的所述第二组音素。

8.根据权利要求6所述的方法，其中，处理所述自然语言文本数据流的所述次要部分以确定对应于所述次要部分的所述通用音素集中的所述第二组音素包括：

使用字素到音素模型自动地确定所述第二组音素。

9.根据权利要求1所述的方法，其中，处理所述第一组音素和所述修改的第二组音素以生成模仿说所述第一组音素和所述修改的第二组音素的人类说话者的音频数据包括：使用受训的神经网络模型处理所述第一组音素和所述第二组音素，以使用特定于多种语言中的每一种语言的音素生成人类语音。

10.根据权利要求9所述的方法，其中，通过以下来训练所述神经网络模型：

基于多个训练实例训练所述神经网络模型，每个训练实例包括来自多语言用户的对应跨语言口头话语以及对应于所述跨语言口头话语的对应跨语言音素。

11.一种用于从自然语言文本数据流生成计算机生成的语音的方法，所述方法由一个或多个处理器实施并且包括：

在远离客户端装置的计算系统处接收自然语言文本数据流，所述自然语言文本数据流将被转换成计算机生成的语音以经由所述客户端装置的一个或多个扬声器渲染给用户，其中，所述自然语言文本数据流包括采用分配给所述用户的主要语言的主要部分，以及不是采用分配给所述用户的所述主要语言的次要语言部分；

通过用采用所述主要语言的所述相关音素代替所述第二组音素中的所述一个或多个第二音素，生成修改的第二组音素；

处理所述第一组音素和所述修改的第二组音素，以生成模仿说所述第一组音素和所述修改的第二组音素的人类说话者的音频数据。

12.根据权利要求11所述的方法，其中，由远离所述客户端装置的所述计算系统生成所述自然语言文本数据流。

13.根据权利要求12所述的方法，其中，由所述远程客户端装置经由网络将所述自然语言文本数据流传输到所述计算系统。

14.一种包括一个或多个处理器以及与所述一个或多个处理器可操作地耦合的存储器的系统，其中，所述存储器存储指令，所述指令响应于由一个或多个处理器执行所述指令而使所述一个或多个处理器执行前述方法中的任一项的方法。