CN103098124B

CN103098124B - 用于文本到语音转换的方法和系统

Info

Publication number: CN103098124B
Application number: CN201180043239.1A
Authority: CN
Inventors: L·J·黄; T·熊
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-09-14
Filing date: 2011-06-22
Publication date: 2016-06-01
Anticipated expiration: 2031-06-22
Also published as: KR20130059408A; US20120065979A1; TW201225064A; KR101426214B1; TWI470620B; US8645141B2; WO2012036771A1; EP2601652A1; EP2601652A4; CN103098124A

Abstract

一种文本到语音转换的系统和方法。在便携式装置上执行文本到语音转换的方法包括：识别用于转换到语音格式的文本的一部分，其中所述识别包括基于与用户关联的信息执行预测。在便携式装置连接到电源时，对所述文本的一部分执行文本到语音转换以产生转换的语音。把转换的语音存储在便携式装置的存储装置中。执行阅读器应用，其中接收对所述文本的一部分的叙述的用户请求。在所述执行期间，响应于用户请求从存储装置访问转换的语音，并且把转换的语音呈现给用户。

Description

用于文本到语音转换的方法和系统

技术领域

根据本发明的实施例一般地涉及文本到语音转换，具体地讲，涉及用于数字阅读器的文本到语音转换。

背景技术

文本到音频系统能够把输入文本转换成模仿自然语音的输出声学信号。文本到音频系统在很多应用中很有用。例如，对于自动信息服务、自动服务员、基于计算机的指令、用于视觉障碍者的计算机系统和数字阅读器，文本到音频系统很有用。

一些简单的文本到音频系统工作于纯文本输入，并在几乎没有或没有对接收的文本的处理或分析的情况下产生对应的语音输出。其它更复杂的文本到音频系统处理接收的文本输入以确定影响文本的发音的文本的各种语义和语法属性。另外，其它复杂的文本到音频系统处理接收的具有注释的文本输入。有注释的文本输入指定由文本到音频系统使用的发音信息以产生更流利的像人类的语音。

一些文本到音频系统几乎实时地把文本转换成高质量、听起来自然的语音。然而，产生高质量语音需要大量潜在声学单元、复杂规则和用于组合这些单元的例外。因此，这种系统通常需要大存储容量和高计算能力，并通常消耗大量功率。

经常地，文本到音频系统将会多次接收相同的文本输入。这种系统完全处理每个接收的文本输入，把该文本转换成语音输出。因此，每个接收的文本输入被处理以构造对应的口语输出，而不考虑以前已把相同的文本输入转换成语音，并且不考虑每隔多久由文本到音频系统接收相同的文本输入。

例如，在数字阅读器的情况下，在用户首次收听书时以及另外当用户决定再一次收听该书时，单个文本到音频系统可接收文本输入。另外，在多个用户的情况下，单本书可被许多不同的数字阅读器转换成百上千次。这种冗余处理可以是能量效率低，消耗处理资源，并且浪费时间。

发明内容

本发明的实施例涉及一种用于高效的文本到语音转换的方法和系统。在一个实施例中，一种在便携式装置上执行文本到语音转换的方法包括：识别用于转换到语音格式的文本的一部分，其中所述识别包括基于与用户关联的信息执行预测；在所述便携式装置连接到电源时，对所述文本的一部分执行文本到语音转换以产生转换的语音；把所述转换的语音存储在所述便携式装置的存储装置中；执行阅读器应用，其中接收对所述文本的一部分的叙述的用户请求；以及在所述执行期间，从所述存储装置访问所述转换的语音，并且响应于所述用户请求在所述便携式装置上呈现所述转换的语音。

在一个实施例中，所述文本的一部分包括音频转换的书。在一些实施例中，所述信息包括新添加的书的标识，并且从所述新添加的书获得所述文本的一部分。在各种实施例中，所述文本包括音频转换的书，并且所述执行预测包括基于音频转换的书的特征预期随后的书。

在另外的实施例中，所述信息包括书的播放列表。在一些实施例中，所述书的播放列表是用户创建的书的播放列表。在其它实施例中，所述书的播放列表由具有与所述用户类似的属性的其他用户创建。

在另一实施例中，一种文本到语音转换方法包括：识别用于转换到书的音频版本的所述书，其中所述识别包括基于与所述书关联的信息执行预测；在数字阅读器连接到电源时，访问所述书的所述音频版本；把所述音频版本存储在所述数字阅读器的存储装置中；执行阅读器应用，其中由用户请求所述书的叙述；以及在所述执行期间，从所述数字阅读器的所述存储装置中的所述音频版本产生模仿自然语音的声学信号。

在一些实施例中，所述信息包括存储在服务器上的书的列表，并且所述书的列表包括所述书的标识。在各种实施例中，所述信息包括书的主题、类型、标题、作者和日期之一。

在一个实施例中，所述访问包括经互联网从服务器接收流传输通信。在另外的实施例中，所述访问包括经互联网从服务器下载音频版本。在一些实施例中，所述访问包括经互联网从另一数字阅读器下载音频版本。在各种实施例中，所述访问包括直接从另一数字阅读器下载。

在另一实施例中，一种文本到语音转换系统包括：处理器；显示器，耦合到处理器；输入装置，耦合到处理器；音频输出装置，耦合到处理器；存储器，耦合到处理器。存储器包括指令，当执行所述指令时，所述指令使所述系统在便携式装置上执行文本到语音转换。该方法包括：识别用于转换到语音格式的文本的一部分，其中所述识别包括基于与用户关联的信息执行预测；在便携式装置连接到电源时，对所述文本的一部分执行文本到语音转换以产生转换的语音；把转换的语音存储在便携式装置的存储装置中；执行阅读器应用，其中接收对所述文本的一部分的叙述的用户请求；以及在所述执行期间，从存储装置访问转换的语音，并且响应于用户请求把转换的语音呈现给用户。

在一些实施例中，所述文本的一部分包括音频转换的书。在其它实施例中，所述信息包括新添加的书的标识，并且从所述新添加的书获得所述文本的一部分。在各种实施例中，所述文本包括音频转换的书，并且所述执行预测包括基于音频转换的书的特征预期随后的书。在另外的实施例中，所述信息包括用户创建的书的播放列表或由具有与所述用户类似的属性的其他用户创建的书的播放列表。

在阅读下面在各种附图中表示的实施例的详细描述之后，本领域普通技术人员将会意识到本发明的各种实施例的这些和其它目的和优点。

附图说明

在附图的示图中作为例子而非限制性地表示本发明的实施例，其中相似的标号表示相似的元件。

图1是根据本发明实施例的示例性文本到语音系统的示图。

图2是根据本发明实施例的示例性服务器-客户机系统的示图。

图3是根据本发明实施例的示例性客户机-客户机系统的示图。

图4是根据本发明实施例的示例性客户机-客户机系统的示图。

图5是根据本发明实施例的示例性服务器-客户机系统的示图。

图6是根据本发明实施例的示例性客户机-客户机系统的示图。

图7是根据本发明实施例的示例性客户机-客户机系统的示图。

图8是通用计算机系统的例子的框图，在该计算机系统内，能够实现根据本发明的文本到语音系统。

图9描述根据本发明实施例的文本到语音转换的示例性方法的流程图。

图10描述根据本发明实施例的文本到语音转换的另一示例性方法的流程图。

具体实施方式

现在将详细参照根据本发明的实施例，其例子表示在附图中。尽管将会结合这些实施例描述本发明，但将会理解，它们并不意图把本发明限制于这些实施例。相反地，本发明意图包括可被包括在如所附权利要求所定义的本发明的精神和范围内的替换、修改和等同物。另外，在下面的本发明的实施例的详细描述中，阐述许多特定细节以便提供本发明的彻底的理解。然而，本领域普通技术人员将会意识到，在没有这些特定细节的情况下可实施本发明。在其它实例中，公知方法、过程、部件和电路未被详细描述以免不必要地模糊本发明的实施例的各方面。

显示系统的实施例的附图是半图式的并且未按照比例绘制，具体地讲，一些尺寸为了清楚呈现而在附图中被夸大地显示。此外，在公开并描述具有一些共同的特征的多个实施例的情况下，为了说明、描述及其理解的清楚和方便，彼此相似的特征通常将会由相似的标号描述。

按照过程、步骤、仿真、计算、逻辑块、处理和计算机系统内关于数据的操作的其它符号表示，呈现下面的详细描述的一些部分(例如，图9和图10)。这些描述和表示是由数据处理领域技术人员用来最有效地向其他本领域技术人员表达他们的工作的实质的方式。过程、计算机执行的步骤、逻辑块、处理等在这里并且通常被认为是导致所希望的结果的前后一致的一系列步骤或指令。步骤是需要物理量的物理操纵的步骤。通常，这些量采用能够被存储、传送、组合、比较和以其它方式在计算机系统中被操纵的电信号或磁信号的形式，但并不必然如此。已表明有时(主要由于共同使用的原因)把这些信号称为位、值、元素、符号、字符、术语、数字等是很方便的。

然而，应该记住，所有的这些和类似的术语与合适的物理量关联并且仅是应用于这些量的方便的标签。除非根据下面的讨论清楚而明确地另外指出，否则应该理解，在整个本发明中，讨论参照计算机系统或类似电子计算装置的动作和处理，所述计算机系统或类似电子计算装置操纵表示为计算机系统的寄存器和存储器内的物理(电子)量的数据并把该数据转换成类似地表示为计算机系统存储器或寄存器或其它这种信息存储、传输或显示装置内的物理量的其它数据。

图1是根据本发明实施例的示例性文本到语音系统100的示图。文本到语音系统100把输入文本102转换成模仿自然语音的声学信号114。输入文本102通常包含标点符号、缩写词、首字母缩略词和非单词符号。文本规范化单元104把输入文本102转换成包含一系列非缩写单词的规范化文本。多数的标点符号有助于建议合适的语调。因此，文本规范化单元104过滤出标点符号以用作语调产生单元106的输入。在实施例中，一些标点符号是非必要的并且被滤除。

缩写词和首字母缩略词被转换成它们的等同单词序列，可根据上下文或者可不根据上下文来实现这一点。文本规范化单元104还把符号转换成单词序列。例如，文本规范化单元104检测数字、金额、日期、时间和电子邮件地址。文本规范化单元104随后把符号转换成取决于符号在句子中的位置的文本。

规范化文本被发送给发音单元108，发音单元108分析每个单词以确定它的词法表示。对于英语，这通常不难，然而，在单词串在一起的语言(例如，德语)中，单词必须被划分成基本单词、前缀和后缀。所获得的单词随后被转换成音素序列或者它的发音。

发音可取决于单词在句子中的位置或它的上下文，例如附近的单词。在实施例中，三种资源由发音单元108使用以执行转换：字母到声音规则；基于语言统计把字母序列转换成最可能的音素序列的统计表示；和作为单词和发音对的词典。

能够在没有统计表示的情况下执行转换，但通常使用所有三种资源。规则能够根据单词的上下文区分同一单词的不同发音。其它规则用于基于人类知识预测未见过的字母组合的发音。词典包含不能从规则或统计方法产生的例外。规则、统计模型和词典的集合形成发音单元108需要的数据库。在实施例中，这个数据库很大，对于高质量文本到语音转换尤其如此。

所获得的音素与从文本规范化单元104提取的标点符号一起被发送给语调产生单元106。语调产生单元106从文本的句子结构、标点符号、特定单词和附近句子产生语音合成所需的定时和音调信息。在例子中，音调在一个水平开始并朝着句子的末尾降低。音调轮廓也能够在这种平均轨迹附近变化。

日期、时间和货币是可被识别为特殊部分的句子的一部分的例子。从为该类型的信息制定的规则集合或统计模型确定每种信息的音调。例如，数字序列中的最后的数字通常处于比前面的数字低的音调。

例如日期和电话号码的节奏或语调持续时间通常彼此不同。在实施例中，规则集合或统计模型基于实际单词、它在句子中的部分和附近句子确定音素持续时间。这些规则集合或统计模型形成语调产生单元106需要的数据库。在实施例中，对于更自然的声音合成器，该数据库可能很大。

声学信号合成单元110组合来自发音单元108和语调产生单元106的音调、持续时间和音素信息以产生模仿自然语音的声学信号114。根据本发明的实施例，声学信号114被预先高速缓冲到智能高速缓冲单元112中。智能高速缓冲单元112存储声学信号114，直至用户请求收听模仿自然语音的声学信号114。

根据本发明的实施例，服务器-客户机系统可使用各种智能高速缓冲技术。在实施例中，最近播放的音频转换的书可被存储在服务器或客户机上。在一些实施例中，新添加的书可被预先转换成音频格式。在其它实施例中，可在服务器上准备好列表，该列表能够随后以流传输方式直接传输到客户机或预先下载到客户机。在各种实施例中，客户机或服务器可基于书或用户的某些特征(例如，主题、类型、标题、作者、日期、以前阅读的书、用户人口统计信息等)进行智能猜测。在另外的实施例中，由该用户或其他用户整理的书的播放列表可被预先高速缓冲到服务器或客户机上。

图2是根据本发明实施例的示例性服务器-客户机系统200的示图。服务器-客户机系统200在服务器机器202上把文本转换成语音，使用智能高速缓冲技术准备用于输出的转换的文本，在服务器机器202上存储转换的文本，并把转换的文本从服务器机器202分配到客户机机器204以便输出。在实施例中，客户机机器204可以是便携式数字阅读器，但能够是任何便携式计算机系统。当客户机机器204连接到电源时或者当客户机机器基于电池能量运行时，服务器机器202和客户机机器204可通信。在实施例中，服务器机器202和客户机机器204通过诸如XML、HTTP、TCP/IP等的协议来通信。服务器-客户机系统200可包括经互联网或局域网连接的多个服务器和多个客户机机器。

服务器202的服务器处理器206在服务器程序代码208的指示下工作。客户机204的客户机处理器210在客户机程序代码212的指示下工作。服务器202的服务器传送模块214和客户机204的客户机传送模块216彼此通信。在实施例中，服务器202通过声学信号合成来完成文本到语音系统100(图1)的所有步骤。客户机204完成文本到语音系统100(图1)的声学信号的智能高速缓冲和产生。

服务器202的发音数据库218存储用于确定发音的三种类型的数据中的至少一种：字母到声音规则，包括基于上下文的规则和对未知单词的发音预测；统计模型，基于语言统计把字母序列转换成最可能的音素序列；和词典，包含不能从规则或统计方法获得的例外。服务器202的语调数据库220包含基于单词和它的上下文确定音素持续时间和音调的规则集合或统计模型。声学单元数据库222存储被选择用于获得所希望的音素的子语音单元、语音单元和更大的多语音声学单元。

服务器202使用发音数据库218、语调数据库220和声学单元数据库222执行文本规范化、发音、语调产生和声学信号合成。在实施例中，数据库可被组合、分离，或者可使用另外的数据库。在模仿自然语音的声学信号已被合成之后，声学信号被存储在服务器202的存储器224(例如，硬盘)中。在实施例中，声学信号可被压缩。

因此，服务器机器202把文本(例如，书)转换成合成的自然语音。服务器机器202存储合成的自然语音，并在请求时把合成的自然语音发送到一个或多个客户机机器204。服务器机器202可存储许多书转换。

客户机机器204通过客户机传送模块216从服务器传送模块214接收声学信号。声学信号被存储在客户机机器204的高速缓冲存储器226中。当用户请求收听书时，客户机机器204从高速缓冲存储器226检索声学信号，并通过语音输出单元228(例如，扬声器)产生模仿自然语音的声学信号。在一些实施例中，阅读器应用叙述书的声学信号。

在实施例中，服务器202可把最近播放的音频转换的书存储在存储器224中。在其它实施例中，客户机204可把最近播放的音频转换的书存储在高速缓冲存储器226中。在一些实施例中，服务器202把新添加的书预先转换成音频格式。例如，用户最近购买的书、新发行的书或最近可用于音频转换的书。

在实施例中，服务器202可具有基于各种准则分组在一起的音频转换的书的列表。例如，该准则可包括主题、类型、标题、作者、日期、用户以前阅读的书、其他用户以前阅读的书、用户人口统计信息等。在一些实施例中，组是客户机204上的可包括一本或多本书的书的列表。音频转换的书可被下载到客户机204，或者音频转换的书可按照流传输方式直接传输到客户机204。在各种实施例中，服务器202或客户机204基于准则对用户可能接下来阅读哪本书进行智能猜测。在另外的实施例中，客户机204可预先高速缓冲由该用户或其他用户整理的书的播放列表。

图3是根据本发明实施例的示例性客户机-客户机系统300的示图。客户机-客户机系统300在客户机机器204之间经互联网传送代表已经转换的语音的声学信号。例如，客户机机器204经互联网330通过客户机传送模块216发送和接收声学信号。声学信号被存储在客户机机器204的高速缓冲存储器226中。当用户从客户机机器204之一请求收听书时，对应的客户机机器204从高速缓冲存储器226检索声学信号，并通过语音输出单元228(例如，扬声器)产生模仿自然语音的声学信号。

在实施例中，客户机机器204可把最近播放的音频转换的书的声学信号存储在高速缓冲存储器226中。在一些实施例中，客户机204可具有基于各种准则分组在一起的音频转换的书的列表。例如，该准则可包括主题、类型、标题、作者、日期、用户以前阅读的书、其他用户以前阅读的书、用户人口统计信息等。在一些实施例中，组是客户机204上的可包括一本或多本书的书的列表。可经互联网在客户机204之间下载音频转换的书，或者可经互联网在客户机204之间按照流传输方式传输音频转换的书。在各种实施例中，客户机204可基于准则对用户可能接下来阅读哪本书进行智能猜测。在另外的实施例中，客户机204可预先高速缓冲由该用户或其他用户整理的书的播放列表。

图4是根据本发明实施例的示例性客户机-客户机系统400的示图。客户机-客户机系统400在客户机机器204之间直接传送代表已经转换的文本的声学信号。客户机机器204直接在彼此之间通过客户机传送模块216发送和接收声学信号。例如，客户机机器可通过任何数量的公知技术(例如，Wi-Fi、红外、USB、FireWire、SCSI、以太网等)直接通信。声学信号被存储在客户机机器204的高速缓冲存储器226中。当用户从客户机机器204之一请求收听书时，对应的客户机机器204从高速缓冲存储器226检索声学信号，并通过语音输出单元228(例如，扬声器)产生模仿自然语音的声学信号。

在实施例中，客户机机器204可把最近播放的音频转换的书的声学信号存储在高速缓冲存储器226中。在一些实施例中，客户机204可具有基于各种准则分组在一起的音频转换的书的列表。例如，该准则可包括主题、类型、标题、作者、日期、用户以前阅读的书、其他用户以前阅读的书、用户人口统计信息等。在一些实施例中，组是客户机204上的可包括一本或多本书的书的列表。可在客户机204之间直接传送音频转换的书，或者可在客户机204之间按照流传输方式传输音频转换的书。在各种实施例中，客户机204可基于准则对用户可能接下来阅读哪本书进行智能猜测。在另外的实施例中，客户机204可预先高速缓冲由该用户或其他用户整理的书的播放列表。

图5是根据本发明实施例的示例性服务器-客户机系统500的示图。服务器-客户机系统500在客户机机器204上把文本转换成语音，使用智能高速缓冲技术准备用于输出的转换的文本，在服务器机器202上存储转换的文本，并把转换的文本从服务器机器202分配到客户机机器204以便输出。在实施例中，客户机机器204是便携式数字阅读器，但也可以是任何计算机系统。当客户机机器连接到电源时或者当客户机机器基于电池能量运行时，服务器机器202和客户机机器204可通信。在实施例中，服务器机器202和客户机机器204通过诸如XML、HTTP、TCP/IP等的协议来通信。服务器-客户机系统500可包括经互联网或局域网连接的多个服务器和多个客户机机器。

服务器202的服务器处理器206在服务器程序代码208的指示下工作。客户机204的客户机处理器210在客户机程序代码212的指示下工作。服务器202的服务器传送模块214和客户机204的客户机传送模块216彼此通信。在实施例中，客户机204完成文本到语音系统100(图1)的所有步骤。服务器202存储代表音频转换的书的声学信号的大的库。

因此，客户机204使用发音数据库218、语调数据库220和声学单元数据库222把文本(例如，书)转换成合成的自然语音。服务器机器202存储合成的自然语音，并在请求时把合成的自然语音发送到一个或多个客户机机器204。服务器机器202可把许多书转换存储在存储器224中。

客户机机器204通过客户机传送模块216把声学信号发送到服务器传送模块214/从服务器传送模块214接收声学信号。声学信号被存储在客户机机器204的高速缓冲存储器226中。当用户请求收听书时，客户机机器204从高速缓冲存储器226检索声学信号，并通过语音输出单元228(例如，扬声器)产生模仿自然语音的声学信号。

在实施例中，服务器202可把最近播放的音频转换的书的声学信号存储在存储器224中。在其它实施例中，客户机204可把最近播放的音频转换的书存储在高速缓冲存储器226中。在一些实施例中，客户机204把新添加的书预先转换成音频格式。例如，用户最近购买的书、新发行的书或最近可用于音频转换的书。

在实施例中，服务器202可具有基于各种准则分组在一起的音频转换的书的列表。例如，该准则可包括主题、类型、标题、作者、日期、用户以前阅读的书、其他用户以前阅读的书、用户人口统计信息等。在一些实施例中，组是客户机204上的可包括一本或多本书的书的列表。音频转换的书可被下载到客户机204，或者音频转换的书可按照流传输方式直接传输到客户机204。在各种实施例中，服务器202或客户机204基于准则对用户可能接下来阅读哪本书进行智能猜测。在另外的实施例中，客户机204可预先高速缓冲由该用户或其他用户创建的书的播放列表。

图6是根据本发明实施例的示例性客户机-客户机系统600的示图。客户机-客户机系统600在客户机机器204上把文本转换成语音，并经互联网在客户机机器之间传送转换的语音。客户机机器204使用发音数据库218、语调数据库220和声学单元数据库222把文本(例如，书)转换成合成的自然语音。在实施例中，客户机机器204可一起工作以转换书。例如，各种客户机机器204可转换书的不同部分。

客户机机器204经互联网330通过客户机传送模块216发送和接收声学信号。声学信号被存储在客户机机器204的高速缓冲存储器226中。当用户从客户机机器204之一请求收听书时，对应的客户机机器204从高速缓冲存储器226检索声学信号，并通过语音输出单元228(例如，扬声器)产生模仿自然语音的声学信号。

在实施例中，客户机机器204可把最近播放的音频转换的书的声学信号存储在高速缓冲存储器226中。在一些实施例中，客户机204可具有基于各种准则分组在一起的音频转换的书的列表。例如，该准则可包括主题、类型、标题、作者、日期、用户以前阅读的书、其他用户以前阅读的书、用户人口统计信息等。在一些实施例中，组是客户机204上的可包括一本或多本书的书的列表。可经互联网在客户机204之间下载音频转换的书，或者可经互联网在客户机204之间按照流传输方式传输音频转换的书。在各种实施例中，客户机204可基于准则对用户可能接下来阅读哪本书进行智能猜测。在另外的实施例中，客户机204可预先高速缓冲由该用户或其他用户创建的书的播放列表。

图7是根据本发明实施例的示例性客户机-客户机系统700的示图。客户机-客户机系统600在客户机机器204上把文本转换成语音，并在客户机机器之间直接传送转换的语音。客户机机器204使用发音数据库218、语调数据库220和声学单元数据库222把文本(例如，书)转换成合成的自然语音。在实施例中，客户机机器204可一起工作以转换书。例如，各种客户机机器204可转换书的不同部分。

客户机机器204直接在彼此之间通过客户机传送模块216发送和接收声学信号。例如，客户机机器可通过任何数量的公知技术(例如，Wi-Fi、红外、USB、FireWire、SCSI、以太网等)直接通信。声学信号被存储在客户机机器204的高速缓冲存储器226中。当用户从客户机机器204之一请求收听书时，对应的客户机机器204从高速缓冲存储器226检索声学信号，并通过语音输出单元228(例如，扬声器)产生模仿自然语音的声学信号。

在实施例中，客户机机器204可把最近播放的音频转换的书的声学信号存储在高速缓冲存储器226中。在一些实施例中，客户机204可具有基于各种准则分组在一起的音频转换的书的列表。例如，该准则可包括主题、类型、标题、作者、日期、用户以前阅读的书、其他用户以前阅读的书、用户人口统计信息等。在一些实施例中，组是客户机204上的可包括一本或多本书的书的列表。可在客户机204之间直接传送音频转换的书，或者可在客户机204之间按照流传输方式传输音频转换的书。在各种实施例中，客户机204可基于准则对用户可能接下来阅读哪本书进行智能猜测。在另外的实施例中，客户机204可预先高速缓冲由该用户或其他用户创建的书的播放列表。

图8是通用计算机系统800的例子的框图，在计算机系统800内，能够实现根据本发明的文本到语音系统。在图8的例子中，该系统包括主机中央处理单元(CPU)802，CPU802经总线806耦合到图形处理单元(GPU)804。可使用一个或多个CPU以及一个或多个GPU。

CPU802和GPU804都耦合到存储器808。在图8的例子中，存储器808可以是共享存储器，由此该存储器存储用于CPU802和GPU804两者的指令和数据。替代地，可存在分别专用于CPU802和GPU804的单独的存储器。在实施例中，存储器808包括根据本发明的文本到语音系统。存储器808还能够包括用于存储驱动耦合的显示器810的像素数据的视频帧缓冲器。

系统800还包括用户接口812，用户接口812在一种实现方式中包括屏幕光标控制装置。用户接口可包括键盘、鼠标、操纵杆、游戏控制器和/或触摸屏装置(触摸垫)。

一般而言，系统800包括实现根据本发明实施例的功能的计算机系统平台的基本部件。系统800能够被实现为例如任何数量的不同类型的计算机系统(例如，服务器、膝上型计算机、桌上型计算机、笔记本计算机和游戏系统)以及家庭娱乐系统(例如，DVD播放器)(诸如，机顶盒或数字电视)或便携式或手提式电子装置(例如，便携式电话、个人数字助手、手提式游戏装置或数字阅读器)。

图9描述根据本发明实施例的高效文本到语音转换的示例性计算机控制的方法的流程图。虽然在流程图900中公开了特定步骤，但这种步骤是示例性的。也就是说，本发明的实施例完全适合执行各种其它步骤或在流程图900中列举的步骤的变型。

在步骤902中，识别用于转换到语音格式的文本的各部分，其中该识别包括基于与用户关联的信息执行预测。在实施例中，文本的各部分包括音频转换的书。例如，在图2中，书被转换成合成的自然语音，并且智能高速缓冲技术预期用户可能请求的未来的书。

在一些实施例中，该信息包括新添加的书的标识，并且从新添加的书获得文本的一部分。例如，在图2中，服务器识别用户最近购买的书、新发行的书或最近可用于音频转换的书。在预期用户请求该书的情况下，服务器可把该书转换成音频格式，并把音频格式发送到客户机。

在各种实施例中，文本包括音频转换的书，执行预测包括基于音频转换的书的特征预期随后的书。例如，在图2中，预期可基于准则，该准则包括主题、类型、标题、作者、日期、用户以前阅读的书、其他用户以前阅读的书、用户人口统计信息等。另外，该信息可包括用户创建的书的播放列表和/或由具有与该用户类似的属性的其他用户创建的书的播放列表。

在步骤904中，在便携式装置连接到电源时，对文本的部分执行文本到语音转换以产生转换的语音。例如，在图2中，服务器把书转换成合成的自然语音。在客户机连接到电源时，转换的书被发送到客户机。

在步骤906中，转换的语音被存储在便携式装置的存储装置中。例如，在图2中，声学信号被存储在客户机机器的高速缓冲存储器中。在步骤908中，执行阅读器应用，其中接收对文本的部分的叙述的用户请求。例如，在图2中，用户从客户机机器请求收听书。当客户机机器接收到该请求时，客户机机器上的阅读器应用叙述音频转换的书。在步骤910中，在该执行期间，响应于用户请求从存储装置访问转换的语音，并且在便携式装置上呈现转换的语音。例如，在图2中，从客户机机器的高速缓冲存储器访问声学信号。由阅读器应用通过语音输出单元(例如，扬声器)播放声学信号。

图10描述根据本发明实施例的文本到语音转换的示例性计算机控制的方法的流程图1000。虽然在流程图1000中公开了特定步骤，但这种步骤是示例性的。也就是说，本发明的实施例完全适合执行各种其它步骤或在流程图1000中列举的步骤的变型。

在步骤1002中，识别用于转换到书的音频版本的书，其中该识别包括基于与书关联的信息执行预测。在实施例中，该信息包括存储在服务器上的书的列表，其中书的列表包括书的标识。例如，在图2中，服务器存储书的列表和音频转换的书。客户机机器上的音频转换的书可被包括在服务器上的一个或多个列表中。在一些实施例中，该信息包括书的主题、类型、标题、作者和日期。

在步骤1004中，在数字阅读器连接到电源时，访问书的音频版本。在一些实施例中，访问包括经互联网从服务器接收流传输通信。例如，在图2中，音频转换的书可经互联网按照流传输方式从服务器传输到客户机。在一些实施例中，访问包括经互联网从服务器下载音频版本。例如，在图2中，音频转换的书可经互联网被下载到客户机。

在各种实施例中，访问包括经互联网从另一数字阅读器下载音频版本。例如，在图3中，客户机-客户机系统经互联网从客户机到客户机传送音频转换的书。在另外的实施例中，访问包括直接从另一数字阅读器下载音频版本。例如，在图4中，客户机-客户机系统可通过Wi-Fi、红外、USB、FireWire、SCSI等直接从客户机到客户机传送音频转换的书。

在步骤1006中，音频版本被存储在数字阅读器的存储装置中。例如，在图2中，声学信号被存储在客户机机器的高速缓冲存储器中。在步骤1008中，执行阅读器应用，其中由用户请求书的叙述。例如，在图2中，用户请求从客户机机器收听书。当客户机机器接收到该请求时，客户机机器上的阅读器应用叙述音频转换的书。在步骤1010中，在该执行期间，从数字阅读器的存储装置中的音频版本产生模仿自然语音的声学信号。例如，在图2中，从在客户机机器的高速缓冲存储器访问声学信号。由阅读器应用通过语音输出单元(扬声器)播放声学信号。

为了解释的目的，参照特定实施例进行了前面的描述。然而，以上的说明性讨论不应该是穷尽的或者把本发明限制于公开的精确形式。考虑到以上教导，可实现许多变化和修改。选择并描述实施例，以便最好地解释本发明的原理及其实际应用，以由此使其他本领域技术人员能够最好地利用本发明和具有可适合设想的特定用途的各种修改的各种实施例。

Claims

1.一种在便携式装置上执行文本到语音转换的方法，所述方法包括：

识别用于转换到语音格式的文本的一部分，其中所述识别包括基于与用户关联的信息执行预测，所述信息包括以下中的一个或多个：用户最近购买的书、新发行的书或最近可用于音频转换的书；

响应于所述预测并且在用户作出选择之前，对所述文本的一部分执行文本到语音转换以产生转换的语音；

把所述转换的语音存储在所述便携式装置的存储装置中；

执行阅读器应用，其中接收对所述文本的一部分的叙述的用户请求；以及

在所述执行期间，从所述存储装置访问所述转换的语音，并且响应于所述用户请求在所述便携式装置上呈现所述转换的语音。

2.如权利要求1所述的方法，其中所述文本的一部分包括音频转换的书。

3.如权利要求1所述的方法，其中所述信息包括新添加的书的标识，并且其中从所述新添加的书获得所述文本的一部分。

4.如权利要求1所述的方法，其中所述文本包括音频转换的书，并且所述执行预测包括基于音频转换的书的特征预期随后的书。

5.如权利要求1所述的方法，其中所述信息包括书的播放列表。

6.如权利要求5所述的方法，其中所述书的播放列表是用户创建的书的播放列表。

7.如权利要求5所述的方法，其中所述书的播放列表由具有与所述用户类似的属性的其他用户创建。

8.一种用于执行文本到语音转换的方法，包括：

识别用于转换到书的音频版本的所述书，其中所述识别包括基于与所述书关联的信息执行预测，所述信息包括以下中的一个或多个：用户最近购买的书、新发行的书或最近可用于音频转换的书；

在数字阅读器连接到电源时，访问所述书的所述音频版本，所述音频版本是在之前响应于所述预测而被转换得到的；

把所述音频版本存储在所述数字阅读器的存储装置中；

执行阅读器应用，其中由用户请求所述书的叙述；以及

在所述执行期间，从所述数字阅读器的所述存储装置中的所述音频版本产生模仿自然语音的声学信号。

9.如权利要求8所述的方法，其中所述信息包括存储在服务器上的书的列表，并且其中所述书的列表包括所述书的标识。

10.如权利要求8所述的方法，其中所述访问包括经互联网从服务器接收流传输通信。

11.如权利要求8所述的方法，其中所述访问包括经互联网从服务器下载所述音频版本。

12.如权利要求8所述的方法，其中所述访问包括经互联网从另一数字阅读器下载所述音频版本。

13.如权利要求8所述的方法，其中所述访问包括直接从另一数字阅读器下载所述音频版本。

14.如权利要求8所述的方法，其中所述信息包括所述书的主题、类型、标题、作者和日期之一。

15.一种用于执行文本到语音转换的系统，包括：

识别用于转换到语音格式的文本的一部分的装置，其中所述识别包括基于与用户关联的信息执行预测，所述信息包括以下中的一个或多个：用户最近购买的书、新发行的书或最近可用于音频转换的书；

响应于所述预测并且在用户作出选择之前，对所述文本的一部分执行文本到语音转换以产生转换的语音的装置；

把所述转换的语音存储在便携式装置的存储装置中的装置；

执行阅读器应用的装置，其中接收对所述文本的一部分的叙述的用户请求；以及

在所述执行期间，从所述存储装置访问所述转换的语音，并且响应于所述用户请求在音频输出装置上呈现所述转换的语音的装置。

16.如权利要求15所述的系统，其中所述文本的一部分包括音频转换的书。

17.如权利要求15所述的系统，其中所述信息包括新添加的书的标识，并且其中从所述新添加的书获得所述文本的一部分。

18.如权利要求15所述的系统，其中所述文本包括音频转换的书，并且所述执行预测包括基于所述音频转换的书的特征预期随后的书。

19.如权利要求15所述的系统，其中所述信息包括用户创建的书的播放列表。

20.如权利要求15所述的系统，其中所述信息包括由具有与所述用户类似的属性的其他用户创建的书的播放列表。