CN109891497B

CN109891497B - 动态的文本到语音供应

Info

Publication number: CN109891497B
Application number: CN201780067743.2A
Authority: CN
Inventors: J.J.S.奥坎波
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-11-01
Filing date: 2017-07-13
Publication date: 2023-08-01
Anticipated expiration: 2037-07-13
Also published as: DE202017105485U1; EP3510591B1; WO2018084904A1; JP6767581B2; US10074359B2; KR102245246B1; CN109891497A; KR20190064626A; EP3510591A1; JP2019536091A; US20180122361A1

Abstract

描述了动态文本到语音(TTS)过程和系统。响应于接收到向用户提供信息的命令，设备检索信息并确定用户和环境属性，该用户和环境属性包括：(i)当用户发出询问时设备与用户之间的距离；(ii)用户的语音特征。基于用户和环境属性，设备确定用户的可能情绪、以及用户和用户设备所处的可能环境。选择与用户的可能情绪和语音特征匹配的音频输出模板。音频输出模板还与用户和设备所处的环境兼容。使用所选择的音频输出模板将检索的信息转换为音频信号，并由设备输出。

Description

动态的文本到语音供应

技术领域

本公开一般涉及语音合成。

背景技术

设备越来越多地使用文本到语音(Text-to-speech，TTS)功能来提供音频输出。然而，TTS输出通常不能自动适应用户环境，并且只有少数有限的方法(诸如控制设备的音量)可用于控制TTS输出。

发明内容

根据一些实施方式，在用户设备上运行的TTS操作可以基于多个因素自动控制和修改音频输出，该多个因素包括用户的语音、用户的可能情绪以及用户设备所处的环境。例如，在一些实施方式中，用户设备可以接收向用户提供信息的命令。响应于接收到命令，用户设备检索与命令有关的信息，并且可以确定用户和环境属性，该用户和环境属性包括：(i)指示用户设备与用户之间的距离的接近度指示符；(ii)用户的语音特征，诸如音调或音高；(iii)环境噪音。用户设备还可以确定要通过其输出检索的信息的应用。用户设备选择与用户和环境属性匹配并且与用户和用户设备所处的环境兼容的音频输出模板。检索的信息被转换成符合所选择的音频输出模板的音频信号并且由用户设备输出。可以实施隐私和安全策略，使得用户设备可以维护用户隐私并不向第三方输出信息或响应第三方命令。

根据一些实施方式，可以动态地生成由用户设备输出的音频信号以，例如，通过匹配用户说话的音调或音高或者通过发音某些单词或音节匹配用户的语音或情绪来模仿用户的语音或情绪的特征。在一些实施方案中，用户设备可以确定用户离用户设备有多远并相应地调整音频输出信号的音量或强度。在一些实施方式中，用户设备可以确定用户所处的环境的类型，并根据所确定的环境类型来调整音频输出信号。例如，用户设备可以确定用户处于拥挤的环境中并且可以增加音频输出信号的音量，使得用户尽管处于拥挤的环境中，也可以听到音频输出信号。在另一示例中，用户设备可以确定用户处于拥挤的环境中，并且可以从用户请求输出音频信号的许可，使得用户可能不想向第三方公开的信息保持私密。

在一些实施方式中，本说明书中描述的主题的创新方面包括执行操作的计算机实施的方法。该操作包括由一个或多个计算设备基于以下中的一个或多个来确定一个或多个用户属性：(i)与用户设备相关联的用户的语音特征、以及(ii)指示用户与用户设备之间的距离的接近度指示符。操作还包括由一个或多个计算设备获得要输出的数据。操作还包括由一个或多个计算设备基于一个或多个用户属性选择音频输出模板。操作还包括由一个或多个计算设备使用所选择的音频输出模板生成包括数据的音频信号。操作还包括由一个或多个计算设备提供用于输出的音频信号。

每个实施方式可以可选地包括以下特征中的一个或多个。例如，在一些实施方式中，与用户设备相关联的用户的语音特征包括与用户相关联的音频语音信号中的音高、音调、频率和振幅中的一个或多个。

在一些实施方式中，操作包括确定环境属性并基于所确定的环境属性确定环境的类型。基于所确定的环境的类型来选择音频输出模板。

在一些实施方式中，所选择的音频输出模板包括振幅、频率、单词发音和音调数据，以用于配置用于输出的音频信号。所选择的音频输出模板包括与所确定的一个或多个用户属性匹配的属性。

在一些实施方式中，选择音频输出模板的操作包括基于以下中的一个或多个来选择音频输出模板：(I)要输出的数据的类型、以及(II)用于提供要输出的数据的应用的类型。

在一些实施方式中，操作包括接收输出数据的命令。该命令包括获得数据的用户请求或来自被编程为在特定时间输出数据的应用的指令。

在一些实施方式中，基于指示用户与用户设备之间的距离的接近度指示符来确定一个或多个用户属性的操作包括：从第一麦克风获得音频信号数据，从第二麦克风获得音频信号数据，从一个或多个传感器获得传感器数据，以及基于传感器数据、来自第一麦克风的音频信号数据和来自第二麦克风的音频信号数据确定用户的可能位置和可能的距离。

在一些实施方式中，操作包括从用户接收音频语音信号。为输出提供的音频信号具有与接收的音频语音信号匹配的音高、音调或振幅。

这些方面的其他实施方式包括被配置为实施方式上述方法的动作的相应的系统、装置、计算机可读存储介质、以及计算机程序。

实施方式可以与一系列技术优点相关联。通常，通过基于所选择的音频模板生成音频信号来实现优化的通信方法，使得可以以确保其易于理解的方式将信息通信传达给接收者。这最小化了错误地解释所通信传达的信息的可能性，否则可能促使用户请求输出重复的音频信号，增加了进一步的处理步骤且浪费资源。因此，可以减少与音频信号的生成相关联的计算设备上的负载。

实施方式还可以与不需要浪费在音频信号的生成中使用的资源的优点相关联。例如，在安静音频信号适当或要求安静音频信号的环境中，相应的音频输出模板的选择避免了输出音频信号中不必要的振幅的需要，节省了功率。类似地，如果可以替代地使用与降低的资源消耗(诸如更低的功耗或处理复杂性)相关联的音高、音调或频率，则可以避免使用在生成具有特定音高、音调或频率的音频信号时可能消耗的资源。

如果确定环境不安全，则通过防止输出音频信号，实施方式还可以与改进的安全性相关联。这提供了通过避免不必要的音频输出信号的生成来节省资源的进一步机会。

在附图和以下描述中阐述了一个或多个实施方式的细节。根据描述、附图和权利要求，其他特征和优点将变得显而易见。

附图说明

图1A和图1B描绘了提供TTS输出的示例性场景。

图2A和图2B描绘了提供TTS输出的示例性场景。

图3描绘了提供TTS输出的示例性场景。

图4描绘了示出用于提供TTS输出的方法的流程图。

图5描绘了用于提供TTS输出的示例性系统。

各附图中相同的参考编号和标记表示相同的元素。

具体实施方式

参考附图描述示例性实施方式。

在图1A所示的示例性场景中，用户设备可以位于距用户近的位置处。当用户设备(A)接收到诸如短消息服务(Short Message Service，SMS)消息或多媒体消息传送服务(Multimedia Messaging Service，MMS)消息的消息时，用户设备可以确定消息传送应用用于输出消息内容并且该消息传送应用被配置用于TTS输出。

然后，用户设备可以利用由传感器和麦克风获得的数据来确定用户和环境属性。例如，如下面更详细讨论的，用户设备可以致动(actuate)麦克风和传感器以监视用户的语音、检测环境条件、以及确定指示用户与用户设备的距离的接近度指示符。基于从传感器和麦克风接收的数据，由用户设备确定的接近度指示符可以指示用户可能在用户设备的例如12英寸以内。用户设备还可以确定用户和用户设备所处的环境不是嘈杂的环境。

然后，用户设备可以将接收的消息中的内容转换为音频信号，并控制音频信号的输出处于与所确定的接近度指示符成比例的音量。如图1A所示，用户设备可以以相对低的音量输出音频信号，因为接近度指示符指示用户可能距用户设备大约12英寸并且因为用户设备周围的环境可能不是嘈杂的环境。例如，用户设备使用其音量是用户设备(B)的最大音量水平的四分之一的音频信号输出接收的消息“不要忘了将杂货带回家”。

在图1B所示的示例性场景中，与图1A中所示的场景相比，用户设备可以位于更远离用户的位置。用户和用户设备可以分开例如8英尺。当用户设备(A)接收到诸如短消息服务(SMS)消息或多媒体消息传送服务(MMS)消息的消息时，用户设备可以确定消息传送应用用于输出消息内容并且该消息传送应用被配置用于TTS输出。

然后，用户设备可以致动麦克风和传感器以确定用户和环境属性。基于从传感器和麦克风接收的数据，由用户设备确定的接近度指示符可以指示用户可能在用户设备的例如8英尺以内。然后，用户设备可以将接收的消息中的内容转换为音频信号，并控制音频信号的输出处于与接近度指示符成比例的音量。

参考图1B，因为接近度指示符指示用户可能距离用户设备大约8英尺，所以用户设备可以以相对高的音量输出音频信号。例如，用户设备使用其音量是用户设备(B)的最大音量水平的四分之三的音频信号输出接收的消息“不要忘了将杂货带回家”。

由于若干原因，上述控制TTS输出的自动和动态方法是有利的。例如，当用户靠近用户设备时以及当用户远离用户设备时，输出相同音量的音频信号将是不期望的。除了环境属性之外，通过考虑用户的距离，用户可以避免每当用户相对于用户设备的位置改变时必须朝向用户设备移动移仅为了收听消息或者调整用户设备的音量的不便。

参考图2A，用户设备从用户接收询问。该询问由用户低声说出。虽然图示的询问是“你能提醒我在我的待办事项清单上有什么吗”，但是一般来说，可以提交任何询问。

在接收到询问时，用户设备可以确定用于响应用户询问的应用已经被配置用于TTS输出。然后，用户设备可以致动麦克风和传感器以确定用户和环境属性。

用户设备可以从致动的麦克风获得用户语音的样本。语音样本可以是用户的询问的各种大小的部分。处理语音样本以确定一个或多个语音特征，该一个或多个语音特征可以包括但不限于与用户的语音相对应的音频信号的音高、音调、频率和振幅。

语音样本也可以被分类以确定诸如用户的可能情绪或演讲风格的用户特性。例如，语音样本可以被分类为指示用户可能快乐、兴奋、悲伤或焦虑。语音样本分类还可以指示对用户唯一的语音签名，诸如某些单词的用户发音，诸如例如“我”或“提醒”。指示语音特征和分类的数据可以作为用户属性添加到存储在用户数据库中的用户简档，并且在一些情况下可以用于语音识别目的。

然后，用户设备访问多个音频输出模板的数据库，并从多个模板中选择与所确定的用户属性具有最高相似度的音频输出模板。在一些情况下，如果不能选择合适的音频输出模板，则用户设备可以创建基于所确定的用户属性的新模板或者与服务器通信以创建基于所确定的用户属性的新模板。

音频输出模板是用于生成和输出音频信号的模板。模板可以包括各种参数，诸如音高、音调，频带、振幅、用户风格和用户情绪。可以根据所确定的用户属性提供这些参数的值，从而可以生成具有与用户语音相似属性的音频输出模板。

在图2A中，基于语音特征和分类，用户设备确定用户可能正在低语(whisper)，并选择与低语音频信号相对应的语音输出模板。与低语音频信号相对应的语音输出模板可以包括音频信号特征，诸如例如低分贝输出、低音量以及与低语相对应的音高、音调和频率。

用户设备可以从任何合适的源获得数据以响应用户询问。在所示的场景中，用户设备可以搜索用户的待办事项或提醒列表以响应用户询问。该信息可以通过与网络中的服务器通信或检索存储在存储设备中的数据来获得。存储设备可以集成到用户设备中或附接到用户设备。

在获得响应询问的数据之后，用户设备生成包括所获得的数据并且与所选择的音频输出模板一致的音频信号，使得音频信号可以具有与用户的属性匹配或类似的特性。如图2A所示，用户设备输出音频信号以通知用户将杂货带回家是在用户的待办事项列表(B)上。用户设备输出音频信号，好像用户设备响应于用户的询问而正低语回复用户。用户设备的音量被设置在相对低的水平，例如，最大音量水平的四分之一，以与低语音量一致。

在图2B所示的场景中，用户可以兴奋地尖叫并问用户设备谁赢得了与用户的最喜欢的团队的比赛。通过使用上面参考图2A描述的过程确定用户属性，用户设备可以获得响应用户的询问的数据并以模仿用户的属性的方式输出响应用户的音频信号。例如，由用户设备输出的音频信号可以具有相对高的音量输出，例如，最大音量水平的四分之三，并且可以具有类似于兴奋的人的音调和音高。音频信号包括用于向用户通知该用户的团队2-1赢得胜利的信息。

模仿用户的输入询问提供了若干优点。例如，用户可能处于用户不能大声说话并且必须低语的环境中。在这样的环境中，用户可能想要避免高音量响应以避免潜在的尴尬或使用户周围的其他人不方便。因此，作为使用动态TTS供应方法的结果，用户可以通过接收低音量响应来避免这种潜在的尴尬场景，并且用户不必修改用户设备的音频设置。另外，如果用户与反映用户的情绪的用户设备交互，则可以增强用户体验。例如，兴奋的用户将不必接收对询问的单调或无聊的响应。

图3描绘了实施TTS供应方法的安全和隐私特征的场景。在图3中，用户是车辆的驾驶员，并且多个乘客与用户一起坐在车辆中。车辆包括车辆控制模块，该车辆控制模块从车辆传感器接收多个信号，并根据车辆制造商和驾驶员配置运行操作。例如，车辆控制模块可以运行本文描述的动态TTS供应方法。为了与驾驶员通信，车辆可以通过扬声器输出音频信号或通过显示设备显示消息。

集成到TTS供应方法中的安全和隐私特征当中包括语音识别和环境检测特征。车辆控制模块接收用户的语音的样本、处理语音样本、以及存储用于语音识别目的的数据。例如，车辆控制模块可以处理用户的语音样本以检测用户的音高、音调、频率和发音，并将这些语音特征作为用户属性存储在用户简档中。当用户设备接收到后续音频指令时，用户设备可以通过将音频指令的语音特征与存储的与用户相关联的语音特征进行比较来确定接收的音频指令是否是由用户发出的。

如果后续音频指令的语音特征与存储的与用户相关联的语音特征匹配，则车辆控制模块可以确定后续音频指令可能是用户的指令。然后，车辆控制模块可以处理音频指令并运行相对应的操作。例如，如果音频指令是要增加音量，则车辆控制模块可以向扬声器传递控制信号以增加音量。

如果后续音频指令的语音特征与存储的与用户相关联的语音特征不匹配，则车辆控制模块确定后续音频指令可能不是用户的指令。例如，如图3所示，车辆中的乘客可以通过命令车辆控制模块“为我阅读最后的消息”(A)来尝试请求车辆控制模块读出驾驶员的个人消息。车辆控制模块处理接收的命令并确定命令的语音特征与存储的与用户相关联的语音特征不匹配。

在一些实施方式中，如果接收的命令的语音特征和存储的与用户相关联的语音特征不匹配，则车辆控制模块可以生成指示命令中的语音与用户的语音不匹配的音频信号，并且可以请求用户确认是否应该执行接收的命令中的指令。例如，如图所示，车辆控制模块可以生成消息“那听起来像不同的人，您想让我阅读您最后的消息吗？”，并通过车辆中的显示设备或车辆中的扬声器输出该消息。然后，用户可以通过确认或拒绝进行响应。

在一些实施方式中，如果后续音频指令的语音特征与存储的与用户相关联的语音特征不匹配，则车辆控制模块可以不采取进一步动作并且可以忽略接收的命令。

TTS供应方法可以包括附加的安全特征。诸如，在一些实施方式中，如果接收的语音命令未被识别为用户的命令，则TTS供应方法可以不运行某些特征，诸如模仿接收的语音命令的音调和音高。该特征将避免各种不期望的场景，例如，其他用户对用户设备尖叫仅仅为了使用户设备以大音量输出音频信号。

图4描绘了示出用于提供动态TTS输出的方法的流程图。该方法可以由图5中示出的系统运行。该系统可以在用户设备中实施，或者以跨包括用户设备的一个或多个网络的分布式方式实施。该系统包括收发器502、一个或多个传感器504、一个或多个麦克风506、处理器510、语音合成器520和扬声器530。处理器510包括应用确定器512和多个分类器，该多个分类器包括接近度分类器514、语音分类器516和环境分类器518。语音合成器520可以是包括情绪分类器522、音频信号生成器526和音频模板选择器528的处理器。

用户设备可以是任何合适的电子设备，包括但不限于计算机、膝上型电脑、个人数字助理、电子垫、电子笔记本、电话、智能电话、电视、智能电视、手表、导航设备、或者通常可以连接到网络并具有扬声器的任何电子设备。用户设备可以是硬件和软件的任何组合，并且可以运行任何合适的操作系统，诸如操作系统。

用户可以使用本文描述的动态TTS供应方法将用户设备配置为以音频格式输出用于特定应用的数据。例如，用户设备可以被配置为利用TTS功能并输出用于一个应用但不用于另一个应用的音频信号。由用户设备输出的音频信号可以包括由来自网络的应用获得的数据，或者由用户设备生成或存储的数据。可以输出的数据的示例包括但不限于在文本消息中接收的内容、应用推送消息、警报或调度应用计划输出的数据、由web浏览应用获得的内容、存储在用户设备中的基于文本的内容以及通常可以以音频格式输出的任何数据。

用于提供动态TTS输出的方法可以在接收到输出数据的命令(401)时开始。可以以各种合适的方式接收命令。在一些情况下，该命令可以是通过麦克风506接收的用户命令。在一些情况下，该命令可以是响应于应用、服务器或处理器运行代码而生成的命令。例如，调度应用可以被配置为使用TTS在特定时间输出提醒消息传送。作为另一示例，文本消息可以被接收并且可以触发输出接收的文本消息的命令。

在接收到命令之后，应用确定器512可以确定使用哪个应用来处理或响应命令以及所确定的应用是否被配置用于TTS输出(402)。通常，命令可以被分类以及被映射到特定应用。应用确定器512访问映射信息以确定使用哪个应用来处理或响应命令。例如，如果接收到输出电子或文本消息的命令，则该命令被分类为文本消息传送输出命令，并被映射到可以用于输出接收的消息的消息传送应用。在另一示例中，与用户询问相对应的命令可以被分类为知识询问并被映射到浏览器应用。浏览器应用可以用于使用从网络(诸如互联网)检索的数据来响应询问。

命令到应用的映射可以由用户设备的制造商、程序编写者或用户完成。在一些情况下，用户可以指定使用特定应用以用于响应特定命令。例如，用户可以选择若干浏览器中的一个作为用于响应知识询问的默认浏览器。

在访问命令的映射并选择应用以处理或响应命令之后，应用确定器512确定所选择的应用是否被配置为TTS输出。例如，应用确定器512可以验证所选择的应用是否被配置用于TTS输出。在一些情况下，应用确定器512可以确定是否满足触发所选择的应用以提供TTS输出的一个或多个条件。例如，基于由诸如陀螺仪、微波传感器、超声波传感器的一个或多个传感器504提供的数据，如果系统确定用户设备正以与汽车中的运行移动或移动相对应的速度移动，则系统可以确定使用动态TTS供应以音频格式将数据输出给用户以增强用户安全性。然后，只要移动条件持续，系统就可以将由用户设备使用的应用配置为运行TTS以以音频格式提供数据。

如果所选择的应用未被配置为使用TTS功能输出数据，则系统可以通过图4中未示出的其他方法来响应命令(403)。例如，在一些情况下，可以生成对命令的响应而不使用TTS输出。

在一些实施方式中，系统可以获得将使能用于所选择的应用的TTS功能的数据，并问用户用户是否想要下载将使能TTS功能的数据。如果用户同意下载数据，则系统可以下载并运行数据以为所选择的应用安装TTS功能，并运行下面描述的操作404。如果用户不同意下载数据，则系统不能将所选择的应用用于TTS输出，并且可以通过图4中未示出的其他方法来响应该命令(403)。

如果所选择的应用被配置为使用TTS功能来输出数据，则系统尝试检索用于处理或响应命令的数据(404)。可以以各种合适的方式检索数据，包括例如，与诸如互联网的网络通信以检索数据，或者与服务器、数据库或存储设备通信以检索数据。从中获得数据的来源取决于各种因素，包括应用类型和命令类型。例如，在一些情况下，为了处理某些命令，可以预先配置应用以从应用数据库或应用服务器检索数据。相反，另一个应用可以具有更大的灵活性，并且可以响应于相同的命令从各种合适的数据源检索数据。系统可以使用收发器502与未被包括在图5的系统中的任何模块或设备通信。

如果系统不能检索数据以处理或响应命令，则系统输出指示系统不能响应命令的失败消息(406)。如果系统成功检索数据，则系统确定用户属性(408)和环境属性(410)。

为了确定用户属性，系统可以利用一个或多个传感器504和一个或多个麦克风506。传感器504可以包括各种合适的传感器，包括但不限于触摸传感器、电容传感器、光学传感器和运动传感器。从传感器504接收的数据可以用于提供各种类型的信息。例如，触摸、光学或电容传感器可以用于确定用户是否正在触摸用户设备或者是否非常接近用户设备。运动传感器可以用于确定用户设备的移动的方向、位移或速度。光学传感器可以用于确定用户设备周围的光照条件。

一个或多个麦克风506可以用于从用户或向用户设备发出命令的任何人接收音频信号。在一些情况下，多个麦克风506可以与用户设备集成。多个麦克风506可以每个接收音频信号。可以处理来自每个麦克风的音频信号以确定指示用户距用户设备的距离的接近度指示符。

例如，系统可以具有两个麦克风。一个麦克风放置在用户设备的一侧(例如左侧)，而另一个麦克风放置在用户设备的另一侧(例如右侧)。当用户说话时，两个麦克风可以分别接收音频信号。如果通过用户设备的一侧(例如左侧)的麦克风接收的音频信号具有比通过用户设备的另一侧(例如右侧)的麦克风接收的音频信号大的振幅，则接近度分类器514可以确定用户或用户的嘴可能更靠近用户设备的左侧。如果通过用户设备右侧的麦克风接收的音频信号具有比通过用户设备左侧的麦克风接收的音频信号大的振幅，则接近度分类器514可以确定用户的嘴可能更靠近在用户设备的右侧。

在一些情况下，如果在接收到在用户设备的另一侧(例如右侧)的麦克风处检测到的音频信号之前接收到在用户设备的一侧(例如左侧)的麦克风处检测到的音频信号，则接近度分类器514可以确定用户或用户的嘴可能更靠近用户设备的左侧。如果在接收到在用户设备的左侧的麦克风处检测到音频信号之前接收到在用户设备的右侧的麦克风处检测到的音频信号，则可以确定接近度分类器514可能位于更靠近用户设备的右侧处。如果在两个麦克风处接收的信号的时间差很大，则可以确定用户可能位于更远离在时间上稍后接收到音频信号的麦克风并且更靠近在时间上较早接收到音频信号的麦克风的位置。

在一些实施方案中，如果由多个麦克风接收的音频信号具有相似的特性，例如，相似的振幅和频率，则接近度分类器514可以确定用户可能位于距设备比特定阈值距离大的距离处。如果由多个麦克风接收的音频信号具有不同的特性，则接近度分类器514可以确定用户可能位于距设备比特定阈值距离小的距离处。

在一些实施方案中，滑动标尺(sliding scale)可以与由一个或多个麦克风506接收的信号一起使用以计算接近度指示符。例如，如果由多个麦克风接收的音频信号具有相同的特性，则接近度分类器514可以计算指示用户位于等于或大于特定距离阈值的距离处的接近度指示符。特定距离阈值可以基于用户设备和麦克风的类型来确定，并且可以由用户设备的制造商设置。随着由麦克风接收的音频信号之间的差异变得更大，接近度分类器514可以应用滑动标尺并计算指示用户位于小于特定距离阈值的距离处的接近度指示符。计算出的距用户设备的距离可以与音频信号的差异成反比，并且可以应用滑动标尺来计算用户距用户设备的可能距离。

除了接近度指示符之外，还可以确定其他用户属性，诸如语音特征和可能的用户情绪。当麦克风506接收到音频信号时，音频信号可以由语音分类器516处理，以提取用于确定语音特征并预测可能的用户情绪的数据。语音特征可以包括用户的语音和用户发音模式的音高、频率、振幅和音调。可能的用户情绪可以包括任何类型的人类情绪，诸如快乐、悲伤或兴奋的情绪。

为了确定语音特征，可以过滤由麦克风506接收的音频信号以去除背景和环境噪声。例如，可以使用具有与人类语音频率的可能范围(例如，80至260Hz)相对应的通带带宽的滤波器。可以处理经滤波的音频信号以提取音频信号的振幅和频率。语音分类器516可以接收提取的振幅和频率数据以确定用户的语音的音高和音调。然后，情绪分类器522可以基于音频信号的音高、音调、振幅和频率数据来预测用户的可能情绪。通过使用分类器对从用户接收的音频信号进行分类并确定用户属性，可以确定可能的用户性情(temperament)，诸如用户是否正在低语、大喊大叫、快乐、悲伤或者兴奋。

在一些实施方式中，语音分类器516包括语言分类器，该语言分类器可以用于确定在接收的音频信号中使用的单词的语调和发音。例如，语言分类器可以标识接收的音频信号中的单词，并确定在接收的音频信号中某些单词是否比其他单词更多地被发音。

用户属性(包括语音特征和可能的用户情绪)可以作为用户语音简档的一部分存储在数据库中。用户语音简档可以是匿名的，没有任何身份信息，但是可以包括指示用户设备的默认用户的语音简档的用户属性数据。在一些实施方式中，用户可以通过选择允许系统创建用户简档或存储用户属性的选项来控制系统是否可以创建用户简档或存储用户属性。通常，用户简档和用户属性数据是匿名的，使得不能为用户确定个人可标识信息，或者可以在获得位置信息的地方一般化用户的地理位置(诸如城市、邮政编码或州级别)，使得无法确定用户的特定位置。

在一些实施方式中，从麦克风506接收的语音信号中提取的数据可以用于准确性和验证目的。例如，可以将基于从一个麦克风接收的音频信号确定的用户属性信息与基于从另一个麦克风接收的音频信号确定的用户属性信息进行比较。如果来自两个麦克风的信息相同，则系统可以在其对用户属性的确定时具有更大的置信度。如果来自两个麦克风的信息不同，则用户设备可以在其对用户属性的确定时具有低置信度。然后，系统可以从第三麦克风获得数据以用于确定用户属性，或者可以提取和分类由两个麦克风接收的附加语音信号。在一些实施方式中，可以对从多个麦克风接收的语音信号中提取的数据进行平均，并且可以处理平均数据以确定用户属性。

为了确定环境属性(410)，环境分类器518可以处理音频信号以对用户设备周围的可能环境特征进行分类。例如，在一些实施方式中，可以从接收的音频信号中提取振幅和频率数据，并且可以滤除与用户的语音相对应的语音信号。环境分类器518可以使用振幅和频率数据来将接收的信号分类为可能包括与特定环境相对应的声音，诸如其中人群、海滩、餐馆、汽车或电视机在场的环境。

在一些实施方式中，来自传感器504的数据可以独立使用，或者可以与音频信号分类一起使用以确定环境属性。例如，如果运动传感器确定用户设备正在以特定范围中的速度(例如，上述每小时20英里)移动，则环境分类器518可以确定用户设备环境可能对应于包括移动车辆的环境。在一些实施方式中，可以将基于传感器数据确定的环境属性信息与基于音频数据确定的环境属性信息进行比较。如果基于传感器数据的环境属性信息与基于音频数据的环境属性信息匹配，则环境分类器518可以在其对环境属性的确定时具有高置信度。如果基于传感器数据的环境属性信息与基于音频数据的环境属性信息不匹配，则环境分类器518可以在其对环境属性的确定时具有低置信度。

在一些实施方式中，可以实施隐私和安全策略以维护用户隐私并不向第三方输出信息或响应第三方命令。例如，在确定用户属性之后，系统可以验证所确定的用户属性是否与存储在用户语音简档中的用户属性匹配。如果所确定的用户属性与存储的用户属性匹配，则系统可以确定音频信号对应于用户设备的用户的语音。如果所确定的用户属性与存储的用户属性不匹配，则系统可以确定音频信号不对应于用户设备的用户的语音。然后，系统可以终止动态TTS供应方法，或者可以请求用户允许以响应命令。

在一些实施方式中，验证所确定的环境属性以确定系统是否应该在与所确定的环境属性相对应的环境中输出音频数据。具体地，可以在受限制的环境列表中列出限制或限定音频输出的环境。如果与所确定的环境属性相对应的环境在受限制的环境列表中被列出，则系统可以终止动态TTS供应方法或者可以请求用户允许以响应命令。例如，如果具有许多不同的语音的拥挤环境被列为受限制的环境以及所确定的环境属性指示用户设备处于拥挤环境中，则系统可以终止动态TTS供应方法或者可以请求用户允许以响应命令。

返回参考图4，音频模板选择器528可以使用所确定的用户属性和环境属性来为音频输出信号选择音频模板(412)。从音频模板的数据库中选择具有与所确定的用户属性和环境属性匹配的特征的音频输出模板。在一些情况下，所选择的音频输出模板具有分别与所确定的用户属性和环境属性中的振幅、频率、音调、音高和发音匹配的振幅、频率、音调、音高和发音。在一些情况下，所选择的音频输出模板的振幅、频率、音调、音高和发音中的一个或多个可以分别与所确定的用户属性和环境属性中的振幅、频率、音调、音高和发音中的一个或多个匹配。

音频模板选择器528可以访问音频输出模板的数据库以从多个音频输出模板中选择音频输出模板。在一些情况下，如果无法选择合适的音频输出模板，系统将基于所确定的用户属性生成新模板，并将新模板保存在音频输出模板的数据库中。

在诸如图2A中所示的场景的示例性场景中，如果用户属性指示用户位于用户设备附近并且用户以低语音调发出命令，并且环境属性指示用户可能在安静的空间或房间中，则用户设备中的音频模板选择器528可以选择具有低输出音量和低语音调的音频输出模板。

在一些实施方式中，可以基于响应于命令要输出的内容的类型和要通过其输出数据的应用的类型中的一个或多个来选择音频输出模板。例如，如果要输出的内容是玩笑，则可以选择使用快乐或开玩笑音调的音频输出模板。作为另一示例，如果要使用音频书应用来响应命令，则可以选择被配置用于音频书的音频输出模板。如上所述，在操作402中确定用于响应于命令输出数据的应用。通常，音频模板选择器528可以基于用户属性、环境属性、要输出的内容的类型以及要通过其输出数据的应用的类型的任何组合来选择音频输出模板。

接下来，在操作404中检索的数据由音频信号生成器526使用所选择的音频输出模板转换为音频信号(414)。例如，如图2A所示，如果响应于用户命令获得的数据是“记得将杂货带回家”，则使用基于指示用户具有低语音调的用户属性选择的音频输出模板将该数据转换为音频信号。音频信号生成器526可以使用诸如级联合成、共振峰合成、发音合成和基于隐马尔可夫模型(hidden Markov model，HMM)的合成的任何合适的音频合成器技术，以将检索的数据转换为音频信号。

接下来，使用一个或多个扬声器530以音频格式输出包括获得的数据的音频信号(416)。

图5中示出的系统可以在用户设备中实施，或者以跨包括用户设备的一个或多个网络的分布式方式实施。

系统中的收发器502包括发送器和接收器，并且可以用于与一个或多个网络服务器以及一个或多个数据库通信。收发器可以包括放大器、调制器、解调器、天线和各种其他组件。收发器可以将从其他网络组件接收的数据引导到诸如处理器510和语音合成器520的其他系统组件。收发器527还可以将从系统组件接收的数据引导到一个或多个网络中的其他设备。

一个或多个网络可以向系统、一个或多个网络服务器以及一个或多个数据库提供网络访问、数据传输和其他服务。通常，一个或多个网络可以包括并实施任何通常定义的网络架构，包括由标准组织(诸如全球移动通信系统(Global System for Mobilecommunication，GSM)协会、互联网工程任务组(Internet Engineering Task Force，IETF)和微波接入全球互通(Worldwide Interoperability for Microwave Access，WiMAX)论坛定义的那些网络架构。例如，一个或多个网络可以实施GSM架构、通用分组无线服务(General Packet Radio Service，GPRS)架构、通用移动电信系统(Universal MobileTelecommunications System，UMTS)架构和被称为长期演进(Long Term Evolution，LTE)的UMTS的演进中的一个或多个。一个或多个网络可以实施由WiMAX论坛定义的WiMAX架构或无线保真(Wireless Fidelity，WiFi)架构。一个或多个网络可以包括例如局域网(LocalArea Network，LAN)、广域网(Wide Area Network，WAN)、互联网、虚拟LAN(Virtual LAN，VLAN)、企业LAN、第3层虚拟专用网(Virtual Private Network，VPN)、企业IP网络、公司网络或其任何组合。

在一些实施方式中，一个或多个网络可以包括云系统、一个或多个存储系统、一个或多个服务器、一个或多个数据库、接入点和模块。包括云系统的一个或多个网络可以提供互联网连接和其他网络相关功能。

一个或多个服务器可以与系统通信以实施本文描述的动态TTS供应方法的一个或多个操作。一个或多个服务器可以包括耦合到一个或多个网络的任何合适的计算设备，包括但不限于个人计算机、服务器计算机、一系列服务器计算机、迷你计算机和大型计算机、或其组合。例如，一个或多个服务器可以包括运行网络操作系统的web服务器(或一系列服务器)。

一个或多个服务器还可以实施公共和标准协议和库，诸如安全套接字层(SecureSockets Layer，SSL)保护的文件传输协议、基于安全Shell文件传输协议(Secure ShellFile Transfer Protocol，SFTP)的密钥管理和NaCl加密库。一个或多个服务器可以用于和/或提供云和/或网络计算。尽管未在图中示出，但是一个或多个服务器可以具有到外部系统的连接，该外部系统提供诸如电子邮件、SMS消息传送、文本消息传送的消息传送功能，以及诸如加密/解密服务、网络警报等的其他功能。

一个或多个服务器可以连接到一个或多个数据库或者可以与一个或多个数据库集成。一个或多个数据库可以包括云数据库或由数据库管理系统(Database ManagementSystem，DBMS)管理的数据库。通常，云数据库可以在诸如Python的平台上操作。DBMS可以被实施为控制数据库中数据的组织、存储、管理和检索的引擎。DBMS经常提供询问、备份和复制、实施规则、提供安全性、进行计算、执行改变和访问日志以及自动化优化的能力。DBMS典型地包括建模语言、数据结构、数据库询问语言和事务机制。根据数据库模型，建模语言可以用于定义DBMS中的每个数据库的模式，该数据库模型可以包括分层模型、网络模型、关系模型、对象模型或一些其他适用的已知或方便的组织。数据结构可以包括字段、记录、文件、对象以及用于存储数据的任何其他适用的已知或方便的结构。DBMS还可以包括关于存储的数据的元数据。

一个或多个数据库可以包括存储数据库，该存储数据库可以包括一个或多个大容量存储设备，诸如例如磁盘、磁光盘、光盘、EPROM、EEPROM、闪存设备，并且可以被实施为内部硬盘、可移动磁盘、磁光盘、CDROM或DVD-ROM盘，以用于存储数据。在一些实施方式中，存储数据库可以存储用户简档、用于对接收的音频信号进行分类的规则、用于选择音频模板的规则、以及用于训练系统中的分类器的训练数据中的一个或多个。

通常，可以与训练数据一起利用各种机器学习算法、神经网络或规则来训练和操作系统中的分类器。诸如，语音分类器516可以利用用于标识诸如音高和音调的语音特征训练数据来训练。训练数据可以包括频率和振幅值的范围中的一个或多个以及与特定音高和音调的模型相对应的语音样本。可以利用用于标识用户情绪的训练数据来训练情绪分类器522。对于情绪分类器522的训练数据可以包括指示用户音高、音调、频率和振幅值的范围的值以及与特定用户情绪相对应的样本。

可以训练接近度分类器514以解释来自一个或多个麦克风的音频信号数据和模式以及来自传感器的数据，以确定用户相对于用户设备的可能位置和定位。用于接近度分类器514的规则可以包括定义距离阈值和滑动标尺的规则。

可以利用用于标识环境属性的训练数据来训练环境分类器518。训练数据可以包括滤波器值、频率和振幅值的范围中的一个或多个以及与特定环境的模型相对应的样本。

本说明书中描述的实施例和所有功能操作和/或动作可以在数字电子电路中实施，或者在计算机软件、固件或硬件中实施，包括本说明书中公开的结构及其结构等同物、或者它们的一个或多个的组合。实施例可以被实施为一个或多个计算机程序产品，例如，在计算机可读介质上编码、用于由数据处理装置运行或者控制数据处理装置的操作一个或多个计算机程序指令模块。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、影响机器可读传播信号的物质的组合、或者它们中的一个或多个的组合。术语“数据处理装置”包括用于处理数据的所有装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。除了硬件之外，装置还可以包括为所讨论的计算机程序创建运行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或者它们的一个或多个的组合的代码。传播信号是人工生成的信号，例如，机器生成的电、光或电磁信号，其被生成以对信息进行编码以便传输到合适的接收器装置。

也被称为程序、软件、软件应用、脚本或代码的计算机程序可以用任何形式的编程语言编写，包括编译或解释语言，并且它可以以任何形式部署，包括作为独立程序，或者作为适合在计算环境中使用的模块、组件、子例程或其他单元。计算机程序不一定对应于文件系统中的文件。程序可以存储在文件的一部分中，该文件将其他程序保存在专用于所讨论的程序的单个文件中，或者多个协调文件中。可以部署计算机程序以在一个计算机上或在位于一个站点上或跨多个站点分布并通过通信网络互连的多个计算机上运行。

本说明书中描述的过程和逻辑流程可以由运行一个或多个计算机程序的一个或多个可编程处理器执行，以通过对输入数据进行操作并生成输出来执行动作。过程和逻辑流程也可以由专用逻辑电路执行，并且装置也可以实施为该专用逻辑电路，例如FPGA(Field Programmable Gate Array，现场可编程门阵列)或ASIC(Application SpecificIntegrated Circuit，专用集成电路)。

举例来说，适合于计算机程序的运行的处理器包括通用和专用微处理器两者、以及任何类型的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。处理器可以包括硬件和软件的任何合适的组合。

计算机的元素可以包括用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备(例如，磁盘、磁光盘或光盘)，或可操作地耦合以从用于存储数据的一个或多个大容量存储设备(例如，磁盘、磁光盘或光盘)接收数据、或将数据传输到该一个或多个大容量存储设备、或这两者。此外，计算机可以嵌入在另一个设备中，例如，用户设备。适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备(例如，EPROM、EEPROM和闪存设备)、磁盘(例如，内部硬盘或可移动磁盘)、磁光盘、以及CD ROM和DVD-ROM磁盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多细节，但这些细节不应被解释为对本公开或可以要求保护的范围的限制，而是作为对具体实施例的特定特征的描述。在单独实施例的上下文中在本说明书中描述的某些特征也可以在单个实施例中组合实施。相反，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合在多个实施例中实施。此外，尽管在上面特征可以被描述为以某些组合起作用并且甚至可以如此声明，但是在某些情况下可以从组合中切除来自所要求保护的组合的一个或多个特征，并且所要求保护的组合可以针对子组合或子组合的变化。

类似地，虽然在附图中以具体顺序描绘了操作，但是这不应该被理解为为了实现期望的结果要求以所示的具体顺序或按顺序次序执行这样的动作或者执行所有示出的动作。此外，上述实施例中的各种系统组件的分离不应被理解为在所有实施例中都要求这种分离，并且应该理解，描述的程序组件和系统通常可以一起集成在单个软件产品中或打包成多个软件产品。

应当理解，措辞中的一个或多个以及措辞中的至少一个包括元素的任何组合。例如，措辞A和B中的一个或多个包括A、B、或者A和B两者。类似地，措辞A和B中的至少一个包括A、B、或者A和B两者。

因此，已经描述了具体实施方式。其他实施方式在以下权利要求的范围内。例如，权利要求中列举的动作可以以不同的顺序执行并且仍然实现期望的结果。

Claims

1.一种计算机实施的方法，包括：

由一个或多个计算设备基于以下各项来确定一个或多个用户属性：(i)与用户设备相关联的用户的语音特征、以及(ii)指示用户与用户设备之间的距离的接近度指示符；

由所述一个或多个计算设备获得要输出的数据；

由所述一个或多个计算设备基于所述一个或多个用户属性选择音频输出模板；

由所述一个或多个计算设备使用所选择的音频输出模板生成包括所述数据的音频信号；以及

由所述一个或多个计算设备提供用于输出的音频信号，

其中确定指示用户与用户设备之间的距离的所述接近度指示符包括：

从第一麦克风获得音频信号数据；

从第二麦克风获得音频信号数据；以及

基于来自第一麦克风的音频信号数据的特性和来自第二麦克风的音频信号数据的特性来确定所述接近度指示符，其中所述确定包括：

将来自所述第一麦克风的音频信号数据的特性与来自所述第二麦克风的音频数据的特性进行比较，其中所述用户与所述用户设备之间的距离与所述音频信号的特性之间的差异成反比；

根据比较结果，确定指示所述用户位于距所述用户设备大于预定阈值距离的距离处的接近度指示符，或者使用预定阈值距离的标尺，确定指示所述用户位于距所述用户设备小于预定阈值距离的标尺之一的距离处的接近度指示符。

2.如权利要求1所述的计算机实施的方法，其中所述与用户设备相关联的用户的语音特征包括与所述用户相关联的音频语音信号中的音高、音调、频率和振幅中的一个或多个。

3.如权利要求1或权利要求2所述的计算机实施的方法，还包括：

确定环境属性；以及

基于所确定的环境属性确定环境的类型，

其中，进一步基于所确定的环境的类型来选择音频输出模板。

4.如权利要求1或权利要求2所述的计算机实施的方法，其中，所选择的音频输出模板包括振幅、频率、单词发音和音调数据，以用于配置用于输出的音频信号；并且

其中，所选择的音频输出模板包括与所确定的一个或多个用户属性匹配的属性。

5.如权利要求1或权利要求2所述的计算机实施的方法，其中，选择音频输出模板包括进一步基于以下中的一个或多个来选择音频输出模板：(I)要输出的数据的类型、以及(II)用于提供要输出的数据的应用的类型。

6.如权利要求1所述的计算机实施的方法，还包括：

由所述一个或多个计算设备接收输出数据的命令，所述命令包括获得数据的用户请求、或来自被编程为在特定时间输出数据的应用的指令。

7.如权利要求1所述的计算机实施的方法，其中基于指示用户与用户设备之间的距离的接近度指示符来确定所述一个或多个用户属性包括：

从一个或多个传感器获得传感器数据；以及

基于传感器数据、来自第一麦克风的音频信号数据和来自第二麦克风的音频信号数据来确定用户的可能位置和可能距离。

8.如权利要求1或权利要求2所述的计算机实施的方法，还包括：

从用户接收音频语音信号，

其中，为输出提供的音频信号具有与接收的音频语音信号匹配的音高、音调或振幅。

9.根据权利要求1至8中任一项所述的计算机实施的方法，其中所述第一和第二音频信号数据的特性是振幅和频率。

10.一个或多个非暂时性计算机可读存储介质，包括指令，当由一个或多个计算设备执行时，所述指令使所述一个或多个计算设备执行权利要求1至9中任一项所述的方法。

11.一种用于语音合成的系统包括：

一个或多个计算设备和存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算设备运行时，使所述一个或多个计算设备执行权利要求1至9中任一项所述的方法。