CN107516511B

CN107516511B - 意图识别和情绪的文本到语音学习系统

Info

Publication number: CN107516511B
Application number: CN201610410602.3A
Authority: CN
Inventors: 赵培; K·姚; M·莱昂; 闫勃; 栾剑; 时宇; 马龙; 黄美玉
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-06-13
Filing date: 2016-06-13
Publication date: 2021-05-25
Anticipated expiration: 2036-06-13
Also published as: EP3469592A2; WO2017218243A2; US20210225357A1; US20220122580A1; CN107516511A; WO2017218243A3; EP3469592B1; US11727914B2; US11238842B2

Abstract

描述了意图识别和情绪的文本到语音学习系统。示例意图识别系统包括处理器和存储指令的存储器。指令致使处理器接收包括说出的单词的语音输入。指令致使处理器基于语音输入来生成文本结果并基于语音输入来生成声学特征注释。指令还致使处理器将意图模型应用到文本结果和声学特征注释以基于语音输入来识别意图。用于适配情绪的文本到语音模型的示例系统包括处理器和存储器。存储器存储致使处理器接收包括语音输入的训练示例并接收包括与该语音输入相关联的情绪信息的标记数据的指令。指令还致使处理器从训练示例中提取音频信号矢量并基于音频信号矢量和标记数据来生成经情绪适配的声音字体模型。

Description

意图识别和情绪的文本到语音学习系统

背景

文本到语音应用被用于大声地读出书写的文本。这样的应用可帮助视力不好的人、正进行活动(诸如驾驶车辆)的人(其中读出文本是不理想的)、以及相比于必须读出文本而言就是偏好听取被大声读出的文本的人。在其中文本被大声读出给用户的情形中，用户通常想要听取传达适合于该文本的情绪的声音。

语音识别应用被用于接收来自用户的说出的命令和输入。这些应用在用户的手或眼被用其他方式占据时(诸如在驾驶车辆时)、在用户与具有小的或受限文本输入界面的计算设备交互时、以及在用户简单地说话而非键入输入时有用。用户通常希望在与语音识别应用交互时正常地说话并使用普通语言。

各实施例正是对于这些和其它一般考虑事项而做出的。而且，尽管讨论了相对具体的问题，但是应当理解，各实施例不应被限于解决本背景技术中所标识的具体问题。

发明内容

提供本概述来以简化形式介绍一些概念，这些概念将在以下详细描述部分中进一步描述。本概述并不旨在标识出所要求保护的主题的所有关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

示例意图识别系统包括处理器和存储指令的存储器。指令致使处理器接收包括说出的单词的语音输入。指令致使处理器基于语音输入来生成文本结果并基于语音输入来生成声学特征注释。指令还致使处理器将意图模型应用到文本结果和声学特征注释以基于语音输入来识别意图。用于适配情绪的文本到语音模型的示例系统包括处理器和存储器。存储器存储致使处理器接收包括语音输入的训练示例并接收包括与该语音输入相关联的情绪信息的标记数据的指令。指令还致使处理器从训练示例中提取音频信号矢量并基于音频信号矢量和标记数据来生成经情绪适配的声音字体模型。

各示例被实现为计算机进程、计算系统、或者诸如设备、计算机程序产品或计算机可读介质等制品。根据一方面，计算机程序产品是计算机系统可读并对包括用于执行计算机进程的指令的计算机程序进行编码的计算机存储介质。

一个或多个方面的细节在附图和以下描述中被阐明。根据对以下详细描述的阅读和对相关联附图的审阅，其他特征和优点将是显而易见的。要理解的是下面的详细描述仅仅是解释性的，而不是对权利要求的限制。

附图简述

合并在本公开中并构成其一部分的附图例示出各方面。

图1示出用于提供语音接口系统并执行意图识别和情绪的文本到语音学习的示例系统。

图2是图1的意图识别系统的示例的示意性框图。

图3是图2的示例意图识别系统的示例数据流。

图4是图3的情绪的文本到语音系统的示例的示意性框图。

图5是图4的示例情绪的文本到语音系统的示例数据流。

图6是图1的语音接口学习系统的示例的说明性框图。

图7示出由图1的语音接口学习系统的一些方面执行的生成意图模型的示例方法。

图8示出在图7的方法被执行时的示例数据流。

图9示出由图6的语音接口学习系统的一些方面执行的生成韵律模型的示例方法。

图10示出在图9的方法被执行时的示例数据流。

图11示出由图6的语音接口学习系统的一些方面执行的适配当前声音字体模型的示例方法。

图12示出在图11的方法被执行时的示例数据流。

图13是示出计算设备的示例物理组件的框图。

图14A和14B是移动计算设备的框图。

图15是分布式计算系统的框图。

具体实施方式

以下详细描述引用附图。只要可能，就在附图和以下描述中使用相同的附图标记来指示相同或类似的要素。尽管可能描述了各示例，但修改、改编、以及其他实现是可能的。例如，可对附图中所解说的元素进行替换、添加或修改，并且可通过对所公开的方法替换、重排或添加阶段来修改本文中所描述的方法。因此，下文的详细描述不是限制性的，相反，合适范围由所附权利要求来限定。各示例可采用硬件实现形式、全软件实现形式或者组合软件和硬件方面的实现形式。因此，以下详细描述并非是局限性的。

一计算设备可包括意图识别系统和情绪的文本到语音系统中的一者或两者。例如，计算设备可包括语音接口(诸如对话管理系统)，该语音接口将意图识别系统和情绪的文本到语音系统的元素进行组合以允许用户使用语音输入和音频输出来与计算设备以及运行在计算设备上的应用进行交互。

例如，用户可通过向计算设备说话来与语音接口进行交互。意图识别系统可将来自用户的语音输入转换成想要的动作或输入。意图识别系统还可基于接收自用户与一个或多个其他用户之间的会话(例如，电话呼叫或多个用户之间的当面会话)的语音输入来确定该用户的意图。

意图识别系统可包括语音到文本系统，该语音到文本系统将语音输入转换成可接着被解释为对计算设备的命令或其他输入的一个或多个单词。意图识别系统还可从该语音中提取声学特征。声学特征是语音输入的超出所说出的单词的超文本特征。声学特征的示例包括韵律、音高、能量和频谱谐波。

意图识别系统可使用所提取的声学特征来从语音输入中确定说话者的意图。例如，相同的单词可基于单词被如何说而对应于不同的意图。例如，人类用户在用嘲讽语气而非中性的语气说“我非常饿”时会具有不同的意图。当用中性的语气说出时，用户可想要针对附近的餐馆或食品杂货店的建议；而用嘲讽语气说出时，用户可能不想要任何建议。经识别的意图可被用于确定多个不同类型的动作以供计算设备来执行，诸如发送消息、执行搜索和提供建议。

情绪的文本到语音系统可基于文本数据来合成语音。文本数据可来自多个源。例如，文本数据可以是基于来自用户的语音输入被执行的命令的结果的一部分。作为另一输入，文本输入可基于打开的文档或在计算设备上发生的或被计算设备检测到的事件来生成。

合成语音可用期望的情绪来生成(例如，以传达期望的情绪或模仿人类用户将用期望的情绪来说出的方式的方式)。期望的情绪可用文本数据(例如，以相关联的元数据)来指定。情绪还可基于文本数据或由计算设备执行的动作的结果来确定。

合成语音可作为音频输出被回放给用户。通过这种方式，用户可与计算设备进行交互，而不使用物理控制(例如，触摸屏、按钮、键盘、鼠标等)。然而，在其它方面，情绪的文本到语音系统和意图识别系统不是语音接口的一部分并且相互分开。

在一些方面，意图识别系统使用意图识别模型来识别相关联的语音输入的意图。意图识别模型还可包括若干个子模型，诸如用于将音频信号转换成发音信号(例如，单音、音素和停顿)的声学模型和/或用于将音频信号或发音信号转换成单词的自然语言处理模型。意图识别模型可通过意图识别和情绪的文本到语音学习系统基于训练数据来被生成(被训练)。

类似地，情绪的文本到语音系统可使用情绪的文本到语音模型来以可理解的、听上去类似于人类语音且类似于人类语音来表达情绪的方式来合成语音。情绪的文本到语音模型还可通过意图识别和情绪的文本到语音学习系统基于训练数据来被生成(被训练)。

作为一个示例，训练数据可包括多个训练对，其中每个训练对包括语音输入(例如，一个或多个正被说出的单词的音频记录)以及对应的文本输入(例如，对在语音输入中说出的单词的转录)。在一些方面，训练基于用户机器语音通信中的至少一些来继续，使得文本到语音系统和语音识别系统中的一者或两者继续改进。

在一些方面，意图识别和情绪的文本到语音学习系统使用相同的训练数据来生成意图识别模型和情绪的文本到语音模型两者。有益地，意图识别和情绪的文本到语音学习系统可扩展可用于生成意图识别模型和情绪的文本到语音模型的训练数据的量。附加地，意图识别和情绪的文本到语音学习系统可使用意图识别系统的一个或多个组件的输出来生成情绪的文本到语音模型。类似地，意图识别和情绪的文本到语音学习系统可使用情绪的文本到语音系统的一个或多个组件的输出来生成意图识别模型。

图1示出用于提供语音接口系统并执行意图识别和情绪的文本到语音学习的示例系统100。在这个示例中，系统100包括通过网络106进行通信的用户计算设备102和服务器计算设备104。用户计算设备102可以是用于实现用于与人类用户进行交互的语音接口108的任何合适的计算设备。例如，用户计算设备102可以是以下至少一个：移动电话；智能电话；平板；大屏手机；智能手表；可穿戴计算机；个人计算机；台式计算机；膝上型计算机；游戏设备/计算机(例如，来自华盛顿州雷蒙德市的微软公司的

游戏系统)；媒体播放设备(例如，

或DVD播放器、或流传输媒体播放器)、电视机；导航系统；车载通信系统等。这个列表仅仅是示例性的并且不应当被认为是限制。

在一些方面中，用户计算设备102包括语音接口108、意图识别系统110和情绪的文本到语音系统112。例如，语音接口108对用户提供用于采用口语来与用户计算设备102进行交互的接口。在一些方面中，语音接口108包括可执行针对用户的任务或服务的智能个人助理。智能个人助理的非限制示例包括来自华盛顿州雷蒙德市的微软公司的

软件和服务、来自加利福尼亚州山景城的谷歌公司的GOOGLE

软件和服务以及来自加利福尼亚州库珀蒂诺市的Apple公司

软件和服务。在其它方面中，语音接口108包括其它类型的应用或服务，诸如屏幕读出或听写系统。

在一些方面中，语音接口108使用意图识别系统110和情绪的文本到语音系统112中的一者或两者来与用户进行交互。附加地或替换地，意图识别系统110和情绪的文本到语音系统112中的一者或两者独立于语音接口108与用户进行交互。

意图识别系统110基于作为说出的单词接收自用户的语音输入118来识别用户意图，其可对应于命令、输入内容、与另一人类用户的会话等。语音输入118作为经由话筒的音频信号可被意图识别系统110接收。在一些方面中，意图识别系统110使用意图识别模型114来将语音输入118的音频信号识别为单词序列以及相关联的用户意图。在一些方面中，意图识别模型114包括自然语言处理模型和意图模型。

情绪的文本到语音系统112生成合成语音120以供例如经由扬声器向用户回放。语音可被合成以不仅仅传达单词，还传达情绪。在一些方面中，情绪的文本到语音系统112使用情绪的文本到语音模型116来生成合成语音120。情绪的文本到语音模型116可包括发音模型、韵律预测模型、以及一个或多个经适配的情绪声音字体。

服务器计算设备104包括语音接口学习系统122。语音接口学习系统122生成意图识别模型114和情绪的文本到语音模型116。在一些方面，语音接口学习系统122使用训练语料库124来生成意图识别模型114和情绪的文本到语音模型116。训练语料库124可包括多个训练示例，该多个训练示例包括语音输入(例如，说出的单词的音频记录)和伴随的标记数据。训练语料库124可包括来自具有各种各样声音和说话风格的多个说话者的多个语音输入。训练语料库还可包括已经被说出以传达某一情绪(或语气)(诸如开心、嘲讽或紧急)的语音输入。

标记数据可包括该语音输入中说出的单词的转录、情绪、以及意图信息。在一些方面，标记数据中的一些还包括例如标识该语音输入的不同时间处的韵律和其他声学特征的声学特征注释。标记数据可由用户提供。替换地或附加地，标记数据可使用意图识别系统来生成。

虽然在图1的示例中，意图识别系统110和情绪的文本到语音系统112两者均在用户计算设备102中，但是在其它方面中，意图识别系统110和情绪的文本到语音系统112中的一者或两者可以在服务器计算设备(诸如服务器计算设备104)上。例如，用户计算设备102可将接收到的语音输入118传送到服务器计算设备104以供识别。在另一方面中，语音接口学习系统122的至少一部分在用户计算设备102上并生成或更新意图识别模型114和情绪的文本到语音模型116中的一者或两者。

图2是示例意图识别系统200的示意性框图。意图识别系统200是意图识别系统(诸如图1中示出的意图识别系统110)的非排他示例。

在这个示例中，意图识别系统200包括语音到文本系统202、声学特征注释器204、以及意图确定引擎206。语音到文本系统202转录语音输入的单词。例如，语音到文本系统202可将语音输入的音频信号转换成音频信号矢量，将音频信号矢量转换成发音信号的发音序列，并将发音序列转换成一个或多个单词。

声学特征注释器204基于从语音输入中提取的声学特征来对语音输入进行注释。声学特征的示例包括韵律、音高、能量和频谱谐波。韵律指语音输入中的时序、着重和语调。声学特征注释可与完整的语音输入、与该语音输入中的特定单词或、与该语音输入内的时间点或时间范围相关联。

意图确定引擎206至少基于由语音到文本系统202生成的文本以及由声学特征注释器204生成的声学特征注释来确定意图。

图3是针对示例意图识别系统(诸如图2中示出的意图识别系统200)的示例数据流。在这个示例数据流中，语音输入300被处理来生成经识别的意图318。经识别的意图318可接着被用于执行一动作(例如，提供指示、发送消息、做出预定、执行搜索等)或确定适当的响应。

语音到文本系统302将语音输入300转换为文本结果310。语音到文本系统302是语音到文本系统(诸如语音到文本系统202)的非排他示例。文本结果310包括在语音输入300中被说出的单词的文本表示。在一些方面，文本结果310还可包括与单词相关联的附加信息，诸如指示单词在语音输入300中何时被说出的时间戳以及指示单词已经被正确识别的概率的置信度分数。

语音到文本系统302可使用用于将语音输入转换成文本的任何已知的技术。作为一示例，语音到文本系统302可将语音输入300转换成音频矢量序列；该音频矢量序列可被处理来生成对应于该音频矢量序列的发音序列；并且该发音序列可被处理来生成一单词或单词序列。

语音到文本系统302可使用一个或多个模型来将语音输入300转换成文本结果310。例如，意图识别模型306内的自然语言处理模型304被用于将语音输入300转换成文本结果310。意图识别模型306是意图识别模型(诸如图1中示出的意图识别模型114)的非排他示例。自然语言处理模型304可包括一个或多个类型的神经网络、隐马尔科夫模型、分段模型、超分段模型(包括隐动态模型)、最大熵模型、(隐)条件随机场、语法模型、以及其它类型的模型。

声学特征注释器308用声学特征来对语音输入300进行注释以生成声学特征注释312。声学特征注释器308可例如生成标识语音输入300中不同时间处的韵律、音高、能量、和谐波的标记。在一些方面，声学特征注释器308与语音到文本系统302并行地操作(即，语音到文本系统302在与声学特征注释器308生成声学特征注释312相同的时间生成文本结果310)。

声学特征注释器308可使用各种声学信号处理技术和各种模型来标识语音输入300的声学特征。例如，声学特征注释器308可使用韵律模型来确定语音输入300的韵律值。作为另一示例，信号处理技术可被用于确定语音输入300的一个或多个部分的声学信号的能量。傅立叶分析可被用于标识语音输入300的各个部分中存在的音高和谐波。其他信号处理技术也可被用于标识音高和谐波。

声学特征注释312可包括将所标识的注释与语音输入300中在特定时间处发生的部分相关的时间戳。声学特征注释310还可标识文本结果310中的特定单词并与这些特定单词相关联。此外，声学特征注释312中的一些可与整个语音输入300相关联。

意图确定引擎314基于文本结果310和声学特征注释312来生成经识别的意图318。文本结果310可与明确的意图相关联(例如，如果文本结果310包括命令：“预订一张2016年4月1日从明尼阿波利斯到西雅图的航班#134的机票”)，意图确定引擎314可不使用声学特征注释312来确定意图。一些方面使用来自意图识别模型306的意图模型316来生成经识别的意图318。意图模型316可包括一个或多个类型的神经网络、隐马尔科夫模型、分段模型、超分段模型(包括隐动态模型)、最大熵模型、(隐)条件随机场、语法模型、以及其它类型的模型。

在一些方面，经识别的意图318可包括要被用户计算设备102执行的动作。经识别的意图318还可包括没有动作应当被采取的判定，诸如当命令是用嘲讽的情绪说出时。附加地或替换地，经识别的意图318可包括语音输入300的语气或情绪的指示。如果在该语音输入中标识出多个语气或情绪，则经识别的意图可包括与语音输入中的特定时间相关联的情绪序列(例如，经识别的意图可包括语气或情绪注释)。在一些方面，经识别的意图318包括表示多个语气或意图的多个数字加权值(例如，经识别的意图可包括针对嘲讽的值0.7、针对中性的0.2、以及针对开心的0.1)。

图4是示例情绪的文本到语音系统400的示意性框图。情绪的文本到语音系统400是情绪的文本到语音系统(诸如图1中示出的情绪的文本到语音系统112)的非排他示例。

在这个示例中，情绪的文本到语音系统400包括发音序列生成器402、韵律调节器404、以及声音字体呈现器406。发音序列生成器402从文本中生成发音序列。韵律调节器404基于指定的情绪或意图来预测发音序列的韵律值并基于所预测的韵律值来调节发音序列。声音字体呈现器406基于指定的情绪或意图来使用声音字体呈现发音序列。这些组件的示例在以下参考流程图被更加详细地描述。

图5是针对示例情绪的文本到语音系统(诸如图4中示出的情绪的文本到语音系统400)的示例数据流。发音序列生成器502基于文本输入500来生成发音序列508。发音序列生成器502是发音序列生成器(诸如图4中示出的发音序列生成器402)的非排他示例。文本输入500可由运行在用户计算设备102上的应用生成、接收自服务器计算设备104(例如，网页或文档)、或由用户输入。文本输入500可包括标识也应当被用于呈现文本的部分或全部的一个或多个情绪的数据。

在一些方面，发音序列生成器502使用情绪的文本到语音模型506的发音序列模型504来生成发音序列508。情绪的文本到语音模型506是情绪的文本到语音模型(诸如图1的情绪的文本到语音模型116)的非排他示例。

例如，发音序列生成器502可将文本输入500分隔成单词并接着使用发音序列模型504来确定这些单词的潜在发音。发音序列模型504可包括一个或多个类型的神经网络、隐马尔科夫模型、分段模型、超分段模型(包括隐动态模型)、最大熵模型、(隐)条件随机场、语法模型、以及其它类型的模型。

韵律调节器510使用来自情绪的文本到语音模型506的韵律模型512来调节由发音序列生成器502生成的发音序列508。韵律调节器510是韵律调节器(诸如图4中示出的韵律调节器404)的非排他示例。

在一些方面，韵律调节器510调节发音序列508来生成经韵律调节的发音序列514，其中发音信号中的至少一些与韵律调节相关联(例如，时序信号指示发音信号的经调节的持续时间、停顿等等)。在一些方面，韵律模型512使用发音序列508以及期望的情绪来预测针对发音序列508的韵律调节。在一些方面，韵律模型512包括一个或多个类型的神经网络、隐马尔科夫模型、分段模型、超分段模型(包括隐动态模型)、最大熵模型、(隐)条件随机场、以及其它类型的模型。

声音字体呈现器516使用经情绪适配的声音字体模型518来呈现经韵律调节的发音序列514以生成经合成的语音520。声音字体呈现器516是声音字体呈现器(诸如图4中示出的声音字体呈现器406)的非排他示例。

经情绪适配的声音字体模型518可包括可被用于呈现经合成的语音520的多个声音字体。声音字体可例如对应于可被用于呈现语音的不同声音(例如，对于特定年纪、性别和/或地理区域的说话者而言典型的声音)。在一些方面，声音字体指定针对发音信号的各种音效和声学属性。声音字体也可被适配来仿真各种情绪。在一简单示例中，经情绪适配的声音字体模型518可包括针对男性说话者和女性说话者的声音字体模型。附加地，这两个声音字体模型均可被适配来基于针对文本输入500指定的情绪数据来生成对应于多个不同情绪(例如，开心、中性和嘲讽)的语音。

在一些方面，声音字体呈现器516使用经情绪适配的声音字体模型518来将经韵律调节的发音序列514中的发音信号映射到音效来生成经合成的语音520。在一些方面中，经合成的语音520包括可使用扬声器来输出的音频信号。

图6是语音接口学习系统600的示例的说明性框图。语音接口学习系统600生成可被意图识别系统110和情绪的文本到语音系统112使用的模型。例如，语音接口学习系统600可生成意图模型(诸如意图模型316)、韵律模型(诸如韵律模型512)、以及经情绪适配的声音字体模型。在一些方面中，语音接口学习系统600生成被意图识别系统110和情绪的文本到语音系统112使用的模型。例如，当各个模型被生成时，模型可被存储在可被用户计算设备102访问的网络位置中(例如，服务器计算设备104上的共享目录)或模型可被传送到用户计算设备102。

在这个示例中，语音接口学习系统600包括意图识别系统602、意图比较器604、意图模型生成器606、情绪的文本到语音系统608、声学特征注释器610、韵律注释比较器612、韵律模型生成器614、音频信号矢量提取器616、音频信号矢量转换器618、和声音字体适配器620。这些组件的示例在以下参考示例方面和数据流图被更加详细地描述。

语音接口学习系统600是语音接口学习系统(诸如语音接口学习系统122)的非限制示例。意图识别系统602可以类似于图1的意图识别系统100。情绪的文本到语音系统608可以类似于图1的情绪的文本到语音系统112。声学特征注释器610可以类似于图2的声学特征注释器204。

图7和8示出语音接口学习系统122生成意图模型816的示例。图7示出由语音接口学习系统122的一些方面执行的生成意图模型816的示例方法700。图8示出在方法700被执行时的示例数据流。在各示例中，方法700可以在包括被配置成存储和执行操作、程序或指令的至少一个处理器的设备上执行。

在一些方面，方法700开始于循环702，其可针对训练语料库(诸如图1中示出的训练语料库124)中的每个训练示例来执行一次。循环702可对训练语料库124中的所有训练示例来执行。替换地，循环702可对训练语料库124中的训练示例的子集来执行。例如，循环702可对来自特定说话者(例如，图1中显示的用户)、来自特定一组说话者、或传达特定情绪的训练示例来执行。

在操作704，从训练语料库中选择训练示例800。训练示例800包括语音输入802和标记数据804。语音输入802可包括一个或多个正被说出的单词。标记数据804包括在语音输入中被说出的该单词或该多个单词的文本。标记数据804还可包括关于与该语音相关联的情绪或意图中的一个或多个的信息。在一些方面中，语音输入802是正被说出的单词的记录。可根据各种次序来从训练语料库中选择训练示例，诸如训练对被添加到语料库的次序、被分派到训练对的标识符值等。

在一些方面，训练示例的标记数据804由收听语音输入的用户来提供。替换地或附加地，标记数据804由处理语音输入802的意图识别系统(或其组件)来生成，该意图识别系统诸如意图识别系统110。例如，语音到文本系统(诸如语音到文本系统202)可生成在语音输入802中被说出的单词的转录。类似地，意图确定引擎206(诸如意图确定引擎206)可基于语音输入802来确定与语音输入802相关联的情绪和说话者的意图中的一者或两者。

在操作706，从语音输入802中确定经识别的意图808。在一些方面中，经识别的意图808类似于当意图识别被意图识别系统110执行时经识别的意图318被如何生成那样(其至少参考图3来示出和描述)来被生成。例如，文本结果和声学特征注释可由语音到文本系统和声学特征注释器来分别生成。意图确定引擎可接着使用文本结果和声学特征注释来确定语音输入802的意图或语气。

在操作708，由意图比较器810来确定经识别的意图808与标记数据804中的意图之间的意图差异812。意图比较器810是意图比较器(诸如图6中示出的意图比较器604)的非排他示例。经识别的意图808可与来自标记数据804的意图对齐。经对齐的意图可接着被相互比较来确定经识别的意图与标记数据804中的意图之间的差异。然而，在一些方面(例如，当意图是表示整个语音输入的单个值(或值阵列)而非表示语音输入的各部分的值序列时)，在计算差异之前意图没有被对齐。意图差异812可包括数据结构，该数据结构包括对经识别的意图808的为了得出来自标记数据804的意图的改变(例如，插入、删除和替换)。在一些方面，还计算经识别的意图808与来自标记数据804的意图之间的距离。该距离可包括具有大小的数值，其与经识别的意图808与来自标记数据804的意图之间的相似度有关(例如，相比于较大的距离，较小的距离指示意图相互更加相似)。

在操作710，确定是否存在要在循环702中处理的更多训练示例。如果是，则方法700返回到操作704，对不同的训练示例800来重复循环702。如果不是，则方法700行进到操作712。例如，如果存在L个训练示例，则循环702可被执行L次以生成L个意图差异812。

在操作712，意图模型816基于在循环702中生成的差异812来生成。意图模型816是意图模型(诸如图3中示出的意图模型316)的非排他示例。例如，意图模型816可由意图模型生成器814来生成。意图模型生成器814是意图模型生成器(诸如图6中示出的意图模型生成器606)的非排他示例。

在一些方面中，训练语料库中的训练示例的一部分被用于训练意图模型816。附加地，训练语料库中的训练示例的一部分可被用作验证数据来验证意图模型816。例如，意图模型816的各个参数可使用优化技术(例如，爬山法、梯度下降)来被调整，以改进意图模型816对验证数据的执行。

图9和10示出语音接口学习系统(诸如语音接口学习系统122)生成韵律模型1026的示例。图9示出由语音接口学习系统122的一些方面执行的生成韵律模型1022的示例方法900。图10示出在方法900被执行时的示例数据流。在各示例中，方法900可以在包括被配置成存储和执行操作、程序或指令的至少一个处理器的设备上执行。

在一些方面，方法900开始于循环902，其可针对训练语料库(诸如训练语料库124)中的每个训练示例1000来执行一次。

在操作904，从训练语料库中选择训练示例1000。在一些方面中，操作904类似于操作704，其先前已经至少参考图7被描述。训练示例1000包括包含正被说出的一个或多个单词的语音输入1002和与语音输入1002相关联的标记数据1004。训练示例1000可以类似于训练示例800，其先前已经至少参考图8被描述。

在操作906，韵律注释1012从语音输入1002中生成。在一些方面，韵律注释1012由声学特征注释器1010来生成。声学特征注释器1010是声学特征注释器(诸如声学特征注释器610)的非排他示例，并可与声学特征注释器308类似地操作，该声学特征注释器308先前已经至少参考图3被描述。

在操作908，韵律注释1004从标记数据1004中生成。在一些方面，通过从标记数据1004中生成合成语音1008并接着使用声学特征注释器1010来对合成语音1008进行注释来生成韵律注释1014。例如，在一些方面，用情绪的文本到语音系统1006来处理标记数据1004以生成合成语音1008。情绪的文本到语音系统1006是情绪的文本到语音系统(诸如图1中示出的情绪的文本到语音系统112)的非排他示例。

在操作910，(来自语音输入1002的)韵律注释1012与(来自标记数据1004的)韵律注释1014之间的韵律注释差异1018由韵律注释比较器1016来确定。韵律注释比较器1016是韵律注释比较器(诸如图6中示出的韵律注释比较器612)的非排他示例。在一些方面，韵律注释差异1018包括数据结构，该数据结构包括对韵律注释1014的为了得出韵律注释1012的改变(例如，插入、删除和替换)。在一些方面，还计算韵律注释1012与韵律注释1014之间的距离。该距离可包括具有大小的数值，其与韵律注释1012与韵律注释1014之间的相似度有关。

在操作912，确定是否存在要在循环902中处理的更多训练示例。如果是，则方法900返回到操作904，对不同的训练示例1000来重复循环902。如果不是，则方法900行进到操作914。例如，如果存在M个训练示例，则循环可被执行M次以生成M个韵律注释差异1018。

在操作914，韵律模型1022可由韵律模型生成器1020基于在循环902中确定的韵律注释1012与韵律注释1014之间的韵律注释差异1018来生成。韵律模型生成器1020是韵律模型生成器(诸如图6中示出的韵律模型生成器614)的非排他示例。韵律模型1022是韵律模型(诸如图5中示出的韵律模型512)的非排他示例。

在一些方面，生成韵律模型1022来大致地将当前产生(来自标记数据1004的)韵律注释1014的合成语音1008转换成会产生(来自语音输入1002的)韵律注释1012的合成语音。换言之，韵律模型1022可被生成，使得当被用在语音合成时，合成语音将匹配语音输入的韵律。在一些方面中，训练语料库中的训练示例的一个或多个部分被用于训练韵律模型1022。例如，对应于特定说话者、说话风格、或情绪的训练示例可被用于训练韵律模型1022来生成具有匹配韵律的语音。附加地，训练语料库中的训练示例的一部分可被用作验证数据来验证韵律模型1022。例如，韵律模型1022的各个参数可使用优化技术(例如，爬山法、梯度下降)来被调整，以改进韵律模型1022对验证数据的执行。

图11和12示出语音接口学习系统(诸如图1语音接口学习系统122)适配当前声音字体模型来生成经情绪适配的声音字体模型的示例。图11示出由语音接口学习系统122的一些方面执行的适配当前声音字体模型的示例方法1100。图12示出在方法1100被执行时的示例数据流。在各示例中，方法1100可以在包括被配置成存储和执行操作、程序或指令的至少一个处理器的设备上执行。

在一些方面中，方法1100开始于循环1102，其可针对每个可用的训练示例1200被执行一次。在一些方面，从训练语料库(诸如训练语料库124)中选择训练示例。循环1102可对训练语料库124中的所有训练示例来执行。替换地，循环1102可对训练语料库124中的训练示例的子集来执行。例如，循环1102可对来自特定说话者、特定一组说话者或传达特定情绪的训练示例来执行。

在操作1104，从训练语料库中选择训练示例1200。训练示例1200包括语音输入1202和标记数据1204。语音输入1202可包括一个或多个正被说出的单词。标记数据1204包括在语音输入中被说出的该单词或该多个单词的文本。标记数据1204还可包括关于与该语音相关联的情绪或意图中的一个或多个的信息。在一些方面中，语音输入1202是正被说出的单词的记录。可根据各种次序来从训练语料库中选择训练示例，诸如训练对被添加到语料库的次序、被分派到训练对的标识符值等。

在一些方面，训练示例的标记数据1204由收听语音输入的用户来提供。替换地或附加地，标记数据1204由处理语音输入1202的意图识别系统(或其组件)来生成，该意图识别系统诸如意图识别系统110。例如，语音到文本系统(诸如语音到文本系统202)可生成在语音输入1202中被说出的单词的转录。类似地，意图确定引擎206(诸如意图确定引擎206)可基于语音输入1202来确定与语音输入1202相关联的情绪和说话者的意图中的一者或两者。

在操作1106，从所选的训练示例1200的语音输入1202中提取音频信号矢量1208。在一些方面中，音频信号矢量提取器1206通过对语音输入1202进行采样并确定语音输入1202的音频信号在各个频率处的幅度来提取音频信号矢量1208。音频信号矢量提取器1206是音频信号矢量提取器(诸如图6中示出的音频信号矢量提取器616)的非排他示例。

在操作1108，音频信号矢量转换模型1212通过音频信号矢量转换器1210被应用到所提取的音频信号矢量1208来生成经转换的音频信号矢量1214。音频信号矢量转换器1210是音频信号矢量转换器(诸如图6中示出的音频信号矢量转换器618)的非排他示例。

音频信号矢量转换模型1212可被用于将所提取的音频信号矢量1208转换成经转换的音频信号矢量1214，其在识别语音输入中的语音时更加有用。音频信号矢量转换模型1212可包括递归神经网络。附加地或替换地，音频信号矢量转换模型1212可包括其它类型的神经网络、隐马尔科夫模型、分段模型、超分段模型(包括隐动态模型)、最大熵模型、(隐)条件随机场、以及其它类型的模型。

音频信号矢量转换模型1212可基于来自训练语料库(诸如图1的训练语料库124)的训练示例来生成。例如，情绪的文本到语音模型116可被用于从训练示例的标记数据中生成音频信号矢量，而音频信号矢量提取器被用于从训练示例的语音输入中提取音频信号矢量。这两个音频信号矢量可被比较并至少部分地被用于生成可被用于适配声音字体模型的音频信号矢量转换模型。音频信号矢量转换模型还可被意图识别系统(诸如意图识别系统110)使用。有益地，通过比较中间音频信号矢量来训练语音识别模型，语音接口学习系统可生成可在语音识别期间执行地更好的模型。

虽然图11中示出的方法1100在操作1108处应用信号矢量转换模型，但是其他替换是可能的。例如，一些方面不包括应用信号矢量转换模型的步骤，而在无需转换的情况下使用所提取的音频矢量。

在操作1110，确定是否存在要在循环1102中处理的更多训练示例。如果是，则方法1100返回到操作1104，对另一训练示例来重复循环1102。如果不是，则方法1100行进到操作1112。例如，如果存在N个语音输入(例如，存在N个训练对)，则循环可被执行N次来生成N个经转换的语音信号矢量1214。

在操作1112，由声音字体适配器1216基于经转换的音频信号矢量1214来适配当前声音字体模型1218以生成经情绪适配的声音字体模型1220。如以上提到的，一些方面不包括应用信号矢量转换模型的步骤。在这些方面中，所提取的音频信号矢量1208，而非经转换的音频信号矢量，可被声音字体适配器使用。

声音字体适配器1216是声音字体适配器(诸如图6中示出的声音字体适配器620)的非排他示例。经情绪适配的声音字体模型1220是经情绪适配的声音字体模型(诸如图5中示出的经情绪适配的声音字体模型518)的非排他示例。在一些方面中，经情绪适配的声音字体模型1220接着被用在将来的文本到语音操作中。

经情绪适配的声音字体模型1220可包括已经被适配来传达一个或多个不同情绪的声音字体模型。例如，经情绪适配的声音字体模型1220可被适配来用于生成听上去生气、开心、嘲讽或紧急的语音以及情绪中性的语音(即，以不传达任何特定情绪的声音)。当前声音字体模型1218可以是被配置成生成不传达任何特定情绪的语音的中性的声音字体模型。替换地，当前声音字体模型1218可以是正基于附加训练数据被进一步适配的先前适配的经情绪适配的声音字体模型。

在一些方面，随着新的训练数据变得可用，经情绪适配的声音字体模型1220被频繁地(或甚至连续地)生成。例如，在经情绪适配的声音字体模型1220被生成并且新的训练数据被接收或标识后，经情绪适配的声音字体模型1220可被用作当前声音字体模型1218并可基于新的训练数据被声音字体适配器1216进一步地适配。替换地或附加地，经情绪适配的声音字体模型1220可被周期性地生成。一旦被生成，经情绪适配的声音字体模型1220可被存储在服务器计算设备104上或可由情绪的文本到语音系统112访问的另一位置中。附加地或替换地，经情绪适配的声音字体模型1220可(例如，作为应用更新的一部分)被传送到用户计算设备102以供情绪的文本到语音系统112使用。

声音字体模型(例如，当前声音字体模型1218和经情绪适配的声音字体模型1220)可包括深度神经网络。附加地或替换地，声音字体模型可包括一个或多个其它类型的神经网络、隐马尔科夫模型、分段模型、超分段模型(包括隐动态模型)、最大熵模型、(隐)条件随机场、高斯模型(诸如高斯混合模型)、语法模型、以及其它类型的模型。在一些方面，适配声音字体模型包括调节模型的各个参数(诸如加权参数)，使得声音字体模型产生和与特定情绪相关联的训练数据相似的语音。

在一些方面，经情绪适配的声音字体模型1220被包括在情绪的文本到语音系统112中并被情绪的文本到语音系统112用来合成传达情绪的语音。在一些方面，声音字体呈现器(诸如声音字体呈现器516)使用经情绪适配的声音字体模型518来在文本到语音操作期间生成合成语音，如至少参考图5示出且描述的。

尽管已经在结合在计算机上的操作系统上运行的应用程序执行的程序模块的一般上下文中描述了各实现，但是本领域技术人员将认识到各方面还可结合其他程序模块实现。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构及其它类型的结构。

本文描述的各方面和功能性可通过多种计算系统来操作，包括但不限于台式计算机系统、有线和无线计算系统、移动计算系统(如移动电话、手表、上网本、图形输入板或平板型计算机、笔记本计算机以及膝上型计算机)、手持设备、娱乐设备(例如，智能电视机、包括流媒体播放器在内的媒体播放器、游戏系统)多处理器系统、基于微处理器或可编程消费电子产品、小型计算机、以及大型计算机。

另外，根据一方面，本文中所描述的各方面和功能可在分布式系统(例如，基于云的计算系统)上操作，其中应用功能、存储器、数据存储和检索、以及各种处理功能在分布式计算网络(诸如因特网或内联网)上彼此远程地操作。根据一方面，各种类型的用户界面和信息经由板上计算设备显示器或者经由与一个或多个计算设备相关联的远程显示单元显示。例如，在各种类型的用户界面和信息被投射到的墙壁表面上显示和交互各种类型的用户界面和信息。与用于实施各实现的许多计算系统的交互包括：键击输入、触摸屏输入、语音或其他音频输入、姿势输入(其中相关联的计算设备配备有用于捕捉和解释用于控制计算设备的功能的用户姿势的检测(如相机)功能)等。

图13-15及相关联的描述提供了其中可实施各示例的各种操作环境的讨论。然而，关于图13-15所示出和讨论的设备和系统是用于示例和说明的目的，而非构成对可被用于实施本文所述的各方面的大量计算设备配置的限制。

图13是示出可用来实施本发明的各示例的计算设备1300的物理组件(即硬件)的框图。以下描述的物理组件是用户计算设备102和服务器计算设备104的各方面的物理组件的示例。在基本配置中，计算设备1300包括至少一个处理单元1302和系统存储器1304。根据一方面，取决于计算设备的配置和类型，系统存储器1304包括但不限于易失性存储(例如，随机存取存储器)、非易失性存储(例如，只读存储器)、闪存、或者此类存储器的任何组合。根据一方面，系统存储器1304包括操作系统1305以及一个或多个适合用于运行软件应用1350的程序模块1306，并且例如，可类似于语音接口108的语音接口1532；可类似于意图识别系统110的意图识别系统1354；可类似于情绪的文本到语音系统112的情绪的文本到语音系统1356；以及可类似于语音接口学习系统122的语音接口学习系统1358中的一个或多个。例如，操作系统1305可适合于控制计算设备1300的操作。此外，各方面可结合图形库、其他操作系统、或任何其他应用程序来实践，并且不限于任何特定应用或系统。该基本配置在图13中用虚线1308内的那些组件示出。根据一方面，计算设备1300具有附加的特征或功能。例如，根据一方面，计算设备1300可以包括诸如例如磁盘、光盘或磁带之类的附加数据存储设备(可移动和/或不可移动)。这种附加存储在图13中用可移动存储设备1309和不可移动存储设备1310示出。

如上所述，根据一方面，可在系统存储器1304中存储多个程序模块和数据文件。当在处理单元1302上执行时，程序模块1306(例如语音接口108、语音接口学习系统122)可以执行包括但不限于下列过程：分别在附图7、9和11中所示的方法700、900和1100的各阶段中的一个或多个。根据一方面，根据本公开的各示例可使用的其他程序模块可包括应用，诸如电子邮件和联系人应用、文字处理应用、电子表格应用、数据库应用、幻灯片演示应用、绘图或计算机辅助应用程序等。

根据一方面，各方面可在包括分立电子元件的电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或在包含电子元件或微处理器的单个芯片上实现。例如，可以通过片上系统(SOC)来实践各方面，其中，可以将图13中示出的每个或许多组件集成到单个集成电路上。根据一方面，此类SOC设备可包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元、以及各种应用功能，所有这些单元被集成(或烧制摂)到芯片基板上，作为单个集成电路。当通过SOC操作时，在此所述的功能可以通过与计算设备1300的其他组件一起集成在单个集成电路(芯片)上的应用专用逻辑来操作。根据一方面，本发明的各方面还可使用能够执行诸如例如，AND(与)、OR(或)和NOT(非)的逻辑运算的其他技术来实施，包括但不限于，机械、光学、流体和量子技术。此外，实施例可以在通用计算机或在任何其他电路或系统内实现。

根据一方面，计算设备1300具有一个或多个输入设备1312，如键盘、鼠标、笔、语音输入设备、触摸输入设备等等。也可根据一方面包括输出设备1314，如显示器、扬声器、打印机等等。前述设备是示例，并且可使用其他设备。根据一方面，计算设备1300包括允许与其他计算设备1318进行通信的一个或多个通信连接1316。合适的通信连接1316的示例包括但不限于射频(RF)发射机、接收机和/或收发机电路；通用串行总线(USB)、并行和/或串行端口。

如此处所使用的术语“计算机可读介质”包括计算机存储介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构或程序模块这样的信息的任意方法或技术来实现的易失性和非易失性、可移动和不可移动介质。系统存储器1304、可移动存储设备1309、以及不可移动存储设备1310都是计算机存储介质示例(即，存储器存储)。根据一方面，计算机存储介质可以包括RAM、ROM、电可擦除可编程只读存储器(EEPROM)、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁性存储设备、或可用于存储信息且可以由计算机设备1300访问的任何其他制造品。根据一方面，任意这样的计算机存储介质是计算设备1300的一部分。计算机存储介质不包括载波或者其他经传播的数据信号。

根据一方面，通信媒介由诸如载波或其他传输机制等已调制数据信号中的计算机可读指令、数据结构、程序模块、或其他数据来体现，并且包括任何信息传递介质。根据一方面，术语“已调制数据信号”描述具有以对该信号中的信息编码的方式设定或者改变的一个或多个特征的信号。作为示例而非限制，通信介质包括有线介质，如有线网络或直接连线连接，以及无线介质，如声学、射频(RF)、红外线和其它无线介质。

图14A和14B例示出可用来实施各方面的移动计算设备1400，例如移动电话、智能电话、平板个人计算机、膝上型计算机等。参考图14A，示出了用于实现各方面的移动计算设备1400的一个示例。在基本配置中，移动计算设备1400是具有输入元件和输出元件两者的手持计算机。移动计算设备1400通常包括显示器1405以及允许用户将信息输入移动计算设备1400的一个或多个输入按钮1410。根据一方面，移动计算设备1400的显示器1405可用作输入设备(例如，触摸屏显示器)。如果被包括在内，任选的侧输入元件1415允许进一步的用户输入。根据一方面，侧输入元件1415是旋转开关、按钮、或者任何其他类型的手动输入元件。在替代示例中，移动计算设备1400可纳入更多或更少的输入元件。例如，在某些示例中，显示器1405可以不是触摸屏。在一替代示例中，移动计算设备1400是诸如蜂窝电话之类的便携式电话系统。根据一方面，移动计算设备1400包括任选的键区1435。根据一方面，任选的键区1435是物理键区。根据另一方面，任选的键区1435是被生成在触摸屏显示器上的“软”键区。在各个方面中，输出元件包括用于示出图形用户界面(GUI)的显示器1405、可视指示器1420(例如，发光二极管)、和/或音频换能器1425(例如，扬声器)。在某些示例中，移动计算设备1400结合振动换能器来向用户提供触觉反馈。在又一示例中，移动计算设备1400结合诸如音频输入(如传声器插孔)、音频输出(如耳机插孔)、以及视频输出(如HDMI端口)之类的输入和/或输出端口，用于将信号发送到外部设备或从外部设备接收信号。在又一示例中，移动计算设备1400结合诸如音频输入(如传声器插孔)、音频输出(如耳机插孔)、以及视频输出(如HDMI端口)之类的外围设备端口1440，用于将信号发送到外部设备或从外部设备接收信号。

图14B是示出移动计算设备的一个示例的架构的框图。即，移动计算设备1400可纳入系统(即架构)1402以实现某些示例。在一个示例中，系统1402被实现为能够运行一个或多个应用(如浏览器、电子邮件、日历、联系人管理器、消息收发客户端、游戏、以及媒体客户端/播放器)的智能手机摂。在某些示例中，系统1402被集成为计算设备，诸如集成的个人数字助理(PDA)和无线电话。

根据一方面，一个或多个应用程序1450被加载到存储器1462中并在操作系统1464上运行或与操作系统1464相关联地运行。应用程序的示例包括电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、文字处理程序、电子表格程序、因特网浏览器程序、消息收发程序等等。根据一方面，以下中的一个或多个被加载到存储器1462中：可类似于语音接口108的语音接口1452；可类似于意图识别系统110的意图识别系统1454；可类似于情绪的文本到语音系统112的情绪的文本到语音系统1456；以及可类似于语音接口学习系统122的语音接口学习系统1458。系统1402还包括存储器1462内的非易失性存储区域1468。非易失性存储区1468可被用于存储在系统1402断电时不会丢失的持久信息。应用程序1450可使用和存储非易失性存储区域1468中的信息，诸如电子邮件应用所使用的电子邮件或其他消息等。同步应用(未示出)还驻留在系统1402上，并且被编程为与驻留在主机计算机上的相应同步应用交互以使存储在非易失性存储区域1468中的信息保持与存储在主机计算机的相应信息同步。如应当理解的，其他应用也可被加载到存储器1462并在移动计算设备1400上运行。

根据一方面，系统1402具有电源1470，其被实现为一个或多个电池。根据一方面，电源1470还包括外部功率源，如补充电池或对电池充电的AC适配器或加电对接托架。

根据一方面，系统1402包括执行发射和接收无线电频率通信的功能的无线电1472。经由通信载体或服务供应者，无线电1472促进系统1402和“外部世界”之间的无线连接。在操作系统1464的控制下进行与无线电1472之间的传输。换句话说，可经由操作系统1464将无线电1472接收到的通信散布到应用程序1450，反之亦然。

根据一方面，可以使用可视指示器1420来提供视觉通知和/或可以使用音频接口1474来通过音频换能器1425产生可听通知。在所示示例中，可视指示器1420是发光二极管(LED)，而音频换能器1425是扬声器。这些设备可直接耦合到电源1470以使它们在激活时保持开启达通知机制所陈述的持续时间，即使处理器1460以及其他组件可能关闭以节约电池电量。LED可被编程为无限地保持开启，直至用户采取措施来指示该设备的开启状态。音频接口1474用于向用户提供听得见的信号且接收来自用户的听得见的信号。例如，除了耦合到音频换能器1425以外，音频接口1474还可耦合到话筒以接收听得见的输入，诸如促进电话交谈。根据一方面，系统1402进一步包括允许板载相机1430的操作来记录静止图像、视频流等的视频接口1476。

根据一方面，实现系统1402的移动计算设备1400具有附加特征或功能。例如，移动计算设备1400还包括附加数据存储设备(可移动和/或不可移动)，例如磁盘、光盘或磁带。这种附加存储设备在图14B中用非易失性存储区1468示出。

根据一方面，由移动计算设备1400生成或捕捉的并由系统1402存储的数据/信息被本地地存储在移动计算设备1400上，如上描述的。根据另一方面，数据被存储在任意数量的存储介质上，该存储介质可经由无线电1472或经由移动计算设备1400和与移动计算设备1400相关联的分开的计算设备(例如，在分布式计算网络(诸如因特网)中的服务器计算机)之间的有线连接来被设备访问。如应当领会的，可经由移动计算设备1400、经由无线电1472、或者经由分布式计算网络访问此类数据/信息。类似地，根据一方面，可以在根据熟知的数据/信息转移和存储装置(包括电子邮件和协同数据/信息共享系统)的用于存储和使用的计算设备之间容易地转移此类数据/信息。

图15示出用于如以上描述的具有语音接口学习系统的语音接口的系统的架构的一个示例。与语音接口108相关联地开发、与其交互、或者与其相关联地编辑的内容被存储在不同的通信信道或者其他存储类型中。例如，可使用目录服务1522、web门户1524、邮箱服务1526、即时消息收发存储1528、或者社交网站1530来存储各种文档。如本文中描述的，语音接口108用于基于来自用户的语音输入来使用这些类型的系统中的任意。根据一方面，服务器1520向客户端1505a、1505b和1505c提供语音接口108。作为一个示例，服务器1520是通过web来提供以下中的一个或多个的web服务器：可类似于语音接口108的语音接口1552；可类似于意图识别系统110的意图识别系统1554；以及可类似于情绪的文本到语音系统122的情绪的文本到语音系统1556。服务器1520通过网络1540在web上向客户端1505提供语音接口1552、意图识别系统1554以及情绪的文本到语音系统1556中的一个或多个。作为示例，客户端计算设备可被实现并被具体化在个人计算机1505a、平板计算设备1505b或移动计算设备1505c(例如智能电话)、或其他计算设备中。客户端计算设备的这些示例中的任一个可从存储1516获得内容。

例如，以上参考根据各方法的方法、系统和计算机程序产品的框图和/或操作说明描述了各实现。框图中所注释的功能/动作可以不按照如任一流程图中所示的次序发生。例如，连续示出的两个框实际上可基本并发地执行，或者取决于所涉及的功能/动作，这些框有时可以相反的次序执行。

本申请中提供的一个或多个示例的描述和说明不旨在以任何方式限制或约束权利要求书的范围。本申请中提供的各方面、示例和细节被认为是足以传达所有权，且使得他人能够制作并使用最佳模式。各实现不应被理解为限制于本申请中所提供的任何方面、示例或细节。不管是以组合的方式还是分开的方式示出和描述，各种特征(结构上的和方法逻辑上的)旨在被选择性地包括或忽略，以产生具有特定的特征集的示例。在被提供本申请的描述和说明的情况下，本领域的技术人员能够想象到落在本申请中具体化的一般发明概念的更宽泛方面的精神内的各种变体、修改和替代示例，这些变体、修改和替代示例并不背离其更宽泛的范围。

Claims

1.一种用于适配情绪的文本到语音模型的系统，所述系统包括：

至少一个处理器；以及

操作地连接到所述至少一个处理器并存储指令的存储器，所述指令在被所述至少一个处理器执行时致使所述至少一个处理器：

接收包括语音输入的训练示例；

接收包括与所述语音输入相关联的情绪信息的标记数据；

从所述训练示例中提取音频信号矢量；以及

基于所述音频信号矢量以及所述标记数据来适配声音字体模型以生成经情绪适配的声音字体模型，其中所述经情绪适配的声音字体模型能被情绪的文本到语音系统使用来生成传达特定情绪的合成语音。

2.如权利要求1所述的系统，其特征在于，所述存储器还存储指令，所述指令在被所述至少一个处理器执行时致使所述至少一个处理器将音频信号矢量转换模型应用到所提取的音频信号矢量来生成经转换的音频信号矢量，并且其中所述声音字体模型基于所述经转换的音频信号矢量被适配。

3.如权利要求1所述的系统，其特征在于，所述标记数据由处理所述训练示例的所述语音输入的意图识别系统来生成。

4.如权利要求3所述的系统，其特征在于，所述存储器还存储在由所述至少一个处理器执行时致使所述至少一个处理器生成针对所述语音输入的标记数据的指令。

5.如权利要求1所述的系统，其特征在于，所述标记数据还包括针对所述语音输入的音频特征注释。

6.如权利要求1所述的系统，其特征在于，所述声音字体模型是中性的声音字体模型。

7.如权利要求1所述的系统，其特征在于，所述声音字体模型是先前生成的经情绪适配的声音字体。

8.如权利要求3所述的系统，其特征在于，所述意图识别系统包括：

至少一个处理器；以及

接收包括说出的单词的语音输入；

基于所述语音输入来生成文本结果，其中所述文本结果包括所述语音输入中所述说出的单词的文本表示；

基于所述语音输入来生成声学特征注释；以及

将意图模型应用到所述文本结果和所述声学特征注释以基于所述语音输入来识别意图。

9.如权利要求8所述的系统，其特征在于，所述声学特征注释包括与所述语音输入的超文本特征有关的注释。

10.如权利要求9所述的系统，其特征在于，所述声学特征注释包括与所述语音输入的韵律标记、音高、能量、和谐波有关的注释。

11.如权利要求8所述的系统，其特征在于，所述声学特征注释包括与整个语音输入相关联的注释。

12.如权利要求8所述的系统，其特征在于，所述声学特征注释包括与所述语音输入内一时间范围相关联的注释。

13.如权利要求8所述的系统，其特征在于，所述声学特征注释包括与所述文本结果中说出的单词相关联的注释。

14.权利要求8所述的系统，其特征在于，经识别的意图包括与所述语音输入相关联的语气。

15.权利要求8所述的系统，其特征在于，所述意图模型包括递归神经网络。

16.如权利要求8所述的系统，其特征在于，所述存储器还包括在由所述至少一个处理器执行时致使所述至少一个处理器执行以下的指令：

基于经识别的意图来执行动作；以及

基于所述动作的结果来更新用户界面。

17.一种用于生成情绪的文本到语音模型的方法，所述方法包括：

接收包括语音输入的训练示例；

接收包括与所述语音输入相关联的情绪信息的标记数据；

从所述训练示例中提取音频信号矢量；

将音频信号矢量转换模型应用到所提取的音频信号矢量来生成经转换的音频信号矢量；以及

基于所述经转换的音频信号矢量以及所述标记数据来适配声音字体模型以生成经情绪适配的声音字体模型，其中所述经情绪适配的声音字体模型能被情绪的文本到语音系统使用来生成传达特定情绪的合成语音。

18.一种存储指令的计算机可读存储介质，所述指令在被执行时使得计算机执行权利要求17所述的方法。

19.一种计算机系统，包括用于执行权利要求17所述的方法的装置。