CN103098124B - 用于文本到语音转换的方法和系统 - Google Patents

用于文本到语音转换的方法和系统 Download PDF

Info

Publication number
CN103098124B
CN103098124B CN201180043239.1A CN201180043239A CN103098124B CN 103098124 B CN103098124 B CN 103098124B CN 201180043239 A CN201180043239 A CN 201180043239A CN 103098124 B CN103098124 B CN 103098124B
Authority
CN
China
Prior art keywords
book
text
conversion
user
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201180043239.1A
Other languages
English (en)
Other versions
CN103098124A (zh
Inventor
L·J·黄
T·熊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN103098124A publication Critical patent/CN103098124A/zh
Application granted granted Critical
Publication of CN103098124B publication Critical patent/CN103098124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Abstract

一种文本到语音转换的系统和方法。在便携式装置上执行文本到语音转换的方法包括:识别用于转换到语音格式的文本的一部分,其中所述识别包括基于与用户关联的信息执行预测。在便携式装置连接到电源时,对所述文本的一部分执行文本到语音转换以产生转换的语音。把转换的语音存储在便携式装置的存储装置中。执行阅读器应用,其中接收对所述文本的一部分的叙述的用户请求。在所述执行期间,响应于用户请求从存储装置访问转换的语音,并且把转换的语音呈现给用户。

Description

用于文本到语音转换的方法和系统
技术领域
根据本发明的实施例一般地涉及文本到语音转换,具体地讲,涉及用于数字阅读器的文本到语音转换。
背景技术
文本到音频系统能够把输入文本转换成模仿自然语音的输出声学信号。文本到音频系统在很多应用中很有用。例如,对于自动信息服务、自动服务员、基于计算机的指令、用于视觉障碍者的计算机系统和数字阅读器,文本到音频系统很有用。
一些简单的文本到音频系统工作于纯文本输入,并在几乎没有或没有对接收的文本的处理或分析的情况下产生对应的语音输出。其它更复杂的文本到音频系统处理接收的文本输入以确定影响文本的发音的文本的各种语义和语法属性。另外,其它复杂的文本到音频系统处理接收的具有注释的文本输入。有注释的文本输入指定由文本到音频系统使用的发音信息以产生更流利的像人类的语音。
一些文本到音频系统几乎实时地把文本转换成高质量、听起来自然的语音。然而,产生高质量语音需要大量潜在声学单元、复杂规则和用于组合这些单元的例外。因此,这种系统通常需要大存储容量和高计算能力,并通常消耗大量功率。
经常地,文本到音频系统将会多次接收相同的文本输入。这种系统完全处理每个接收的文本输入,把该文本转换成语音输出。因此,每个接收的文本输入被处理以构造对应的口语输出,而不考虑以前已把相同的文本输入转换成语音,并且不考虑每隔多久由文本到音频系统接收相同的文本输入。
例如,在数字阅读器的情况下,在用户首次收听书时以及另外当用户决定再一次收听该书时,单个文本到音频系统可接收文本输入。另外,在多个用户的情况下,单本书可被许多不同的数字阅读器转换成百上千次。这种冗余处理可以是能量效率低,消耗处理资源,并且浪费时间。
发明内容
本发明的实施例涉及一种用于高效的文本到语音转换的方法和系统。在一个实施例中,一种在便携式装置上执行文本到语音转换的方法包括:识别用于转换到语音格式的文本的一部分,其中所述识别包括基于与用户关联的信息执行预测;在所述便携式装置连接到电源时,对所述文本的一部分执行文本到语音转换以产生转换的语音;把所述转换的语音存储在所述便携式装置的存储装置中;执行阅读器应用,其中接收对所述文本的一部分的叙述的用户请求;以及在所述执行期间,从所述存储装置访问所述转换的语音,并且响应于所述用户请求在所述便携式装置上呈现所述转换的语音。
在一个实施例中,所述文本的一部分包括音频转换的书。在一些实施例中,所述信息包括新添加的书的标识,并且从所述新添加的书获得所述文本的一部分。在各种实施例中,所述文本包括音频转换的书,并且所述执行预测包括基于音频转换的书的特征预期随后的书。
在另外的实施例中,所述信息包括书的播放列表。在一些实施例中,所述书的播放列表是用户创建的书的播放列表。在其它实施例中,所述书的播放列表由具有与所述用户类似的属性的其他用户创建。
在另一实施例中,一种文本到语音转换方法包括:识别用于转换到书的音频版本的所述书,其中所述识别包括基于与所述书关联的信息执行预测;在数字阅读器连接到电源时,访问所述书的所述音频版本;把所述音频版本存储在所述数字阅读器的存储装置中;执行阅读器应用,其中由用户请求所述书的叙述;以及在所述执行期间,从所述数字阅读器的所述存储装置中的所述音频版本产生模仿自然语音的声学信号。
在一些实施例中,所述信息包括存储在服务器上的书的列表,并且所述书的列表包括所述书的标识。在各种实施例中,所述信息包括书的主题、类型、标题、作者和日期之一。
在一个实施例中,所述访问包括经互联网从服务器接收流传输通信。在另外的实施例中,所述访问包括经互联网从服务器下载音频版本。在一些实施例中,所述访问包括经互联网从另一数字阅读器下载音频版本。在各种实施例中,所述访问包括直接从另一数字阅读器下载。
在另一实施例中,一种文本到语音转换系统包括:处理器;显示器,耦合到处理器;输入装置,耦合到处理器;音频输出装置,耦合到处理器;存储器,耦合到处理器。存储器包括指令,当执行所述指令时,所述指令使所述系统在便携式装置上执行文本到语音转换。该方法包括:识别用于转换到语音格式的文本的一部分,其中所述识别包括基于与用户关联的信息执行预测;在便携式装置连接到电源时,对所述文本的一部分执行文本到语音转换以产生转换的语音;把转换的语音存储在便携式装置的存储装置中;执行阅读器应用,其中接收对所述文本的一部分的叙述的用户请求;以及在所述执行期间,从存储装置访问转换的语音,并且响应于用户请求把转换的语音呈现给用户。
在一些实施例中,所述文本的一部分包括音频转换的书。在其它实施例中,所述信息包括新添加的书的标识,并且从所述新添加的书获得所述文本的一部分。在各种实施例中,所述文本包括音频转换的书,并且所述执行预测包括基于音频转换的书的特征预期随后的书。在另外的实施例中,所述信息包括用户创建的书的播放列表或由具有与所述用户类似的属性的其他用户创建的书的播放列表。
在阅读下面在各种附图中表示的实施例的详细描述之后,本领域普通技术人员将会意识到本发明的各种实施例的这些和其它目的和优点。
附图说明
在附图的示图中作为例子而非限制性地表示本发明的实施例,其中相似的标号表示相似的元件。
图1是根据本发明实施例的示例性文本到语音系统的示图。
图2是根据本发明实施例的示例性服务器-客户机系统的示图。
图3是根据本发明实施例的示例性客户机-客户机系统的示图。
图4是根据本发明实施例的示例性客户机-客户机系统的示图。
图5是根据本发明实施例的示例性服务器-客户机系统的示图。
图6是根据本发明实施例的示例性客户机-客户机系统的示图。
图7是根据本发明实施例的示例性客户机-客户机系统的示图。
图8是通用计算机系统的例子的框图,在该计算机系统内,能够实现根据本发明的文本到语音系统。
图9描述根据本发明实施例的文本到语音转换的示例性方法的流程图。
图10描述根据本发明实施例的文本到语音转换的另一示例性方法的流程图。
具体实施方式
现在将详细参照根据本发明的实施例,其例子表示在附图中。尽管将会结合这些实施例描述本发明,但将会理解,它们并不意图把本发明限制于这些实施例。相反地,本发明意图包括可被包括在如所附权利要求所定义的本发明的精神和范围内的替换、修改和等同物。另外,在下面的本发明的实施例的详细描述中,阐述许多特定细节以便提供本发明的彻底的理解。然而,本领域普通技术人员将会意识到,在没有这些特定细节的情况下可实施本发明。在其它实例中,公知方法、过程、部件和电路未被详细描述以免不必要地模糊本发明的实施例的各方面。
显示系统的实施例的附图是半图式的并且未按照比例绘制,具体地讲,一些尺寸为了清楚呈现而在附图中被夸大地显示。此外,在公开并描述具有一些共同的特征的多个实施例的情况下,为了说明、描述及其理解的清楚和方便,彼此相似的特征通常将会由相似的标号描述。
按照过程、步骤、仿真、计算、逻辑块、处理和计算机系统内关于数据的操作的其它符号表示,呈现下面的详细描述的一些部分(例如,图9和图10)。这些描述和表示是由数据处理领域技术人员用来最有效地向其他本领域技术人员表达他们的工作的实质的方式。过程、计算机执行的步骤、逻辑块、处理等在这里并且通常被认为是导致所希望的结果的前后一致的一系列步骤或指令。步骤是需要物理量的物理操纵的步骤。通常,这些量采用能够被存储、传送、组合、比较和以其它方式在计算机系统中被操纵的电信号或磁信号的形式,但并不必然如此。已表明有时(主要由于共同使用的原因)把这些信号称为位、值、元素、符号、字符、术语、数字等是很方便的。
然而,应该记住,所有的这些和类似的术语与合适的物理量关联并且仅是应用于这些量的方便的标签。除非根据下面的讨论清楚而明确地另外指出,否则应该理解,在整个本发明中,讨论参照计算机系统或类似电子计算装置的动作和处理,所述计算机系统或类似电子计算装置操纵表示为计算机系统的寄存器和存储器内的物理(电子)量的数据并把该数据转换成类似地表示为计算机系统存储器或寄存器或其它这种信息存储、传输或显示装置内的物理量的其它数据。
图1是根据本发明实施例的示例性文本到语音系统100的示图。文本到语音系统100把输入文本102转换成模仿自然语音的声学信号114。输入文本102通常包含标点符号、缩写词、首字母缩略词和非单词符号。文本规范化单元104把输入文本102转换成包含一系列非缩写单词的规范化文本。多数的标点符号有助于建议合适的语调。因此,文本规范化单元104过滤出标点符号以用作语调产生单元106的输入。在实施例中,一些标点符号是非必要的并且被滤除。
缩写词和首字母缩略词被转换成它们的等同单词序列,可根据上下文或者可不根据上下文来实现这一点。文本规范化单元104还把符号转换成单词序列。例如,文本规范化单元104检测数字、金额、日期、时间和电子邮件地址。文本规范化单元104随后把符号转换成取决于符号在句子中的位置的文本。
规范化文本被发送给发音单元108,发音单元108分析每个单词以确定它的词法表示。对于英语,这通常不难,然而,在单词串在一起的语言(例如,德语)中,单词必须被划分成基本单词、前缀和后缀。所获得的单词随后被转换成音素序列或者它的发音。
发音可取决于单词在句子中的位置或它的上下文,例如附近的单词。在实施例中,三种资源由发音单元108使用以执行转换:字母到声音规则;基于语言统计把字母序列转换成最可能的音素序列的统计表示;和作为单词和发音对的词典。
能够在没有统计表示的情况下执行转换,但通常使用所有三种资源。规则能够根据单词的上下文区分同一单词的不同发音。其它规则用于基于人类知识预测未见过的字母组合的发音。词典包含不能从规则或统计方法产生的例外。规则、统计模型和词典的集合形成发音单元108需要的数据库。在实施例中,这个数据库很大,对于高质量文本到语音转换尤其如此。
所获得的音素与从文本规范化单元104提取的标点符号一起被发送给语调产生单元106。语调产生单元106从文本的句子结构、标点符号、特定单词和附近句子产生语音合成所需的定时和音调信息。在例子中,音调在一个水平开始并朝着句子的末尾降低。音调轮廓也能够在这种平均轨迹附近变化。
日期、时间和货币是可被识别为特殊部分的句子的一部分的例子。从为该类型的信息制定的规则集合或统计模型确定每种信息的音调。例如,数字序列中的最后的数字通常处于比前面的数字低的音调。
例如日期和电话号码的节奏或语调持续时间通常彼此不同。在实施例中,规则集合或统计模型基于实际单词、它在句子中的部分和附近句子确定音素持续时间。这些规则集合或统计模型形成语调产生单元106需要的数据库。在实施例中,对于更自然的声音合成器,该数据库可能很大。
声学信号合成单元110组合来自发音单元108和语调产生单元106的音调、持续时间和音素信息以产生模仿自然语音的声学信号114。根据本发明的实施例,声学信号114被预先高速缓冲到智能高速缓冲单元112中。智能高速缓冲单元112存储声学信号114,直至用户请求收听模仿自然语音的声学信号114。
根据本发明的实施例,服务器-客户机系统可使用各种智能高速缓冲技术。在实施例中,最近播放的音频转换的书可被存储在服务器或客户机上。在一些实施例中,新添加的书可被预先转换成音频格式。在其它实施例中,可在服务器上准备好列表,该列表能够随后以流传输方式直接传输到客户机或预先下载到客户机。在各种实施例中,客户机或服务器可基于书或用户的某些特征(例如,主题、类型、标题、作者、日期、以前阅读的书、用户人口统计信息等)进行智能猜测。在另外的实施例中,由该用户或其他用户整理的书的播放列表可被预先高速缓冲到服务器或客户机上。
图2是根据本发明实施例的示例性服务器-客户机系统200的示图。服务器-客户机系统200在服务器机器202上把文本转换成语音,使用智能高速缓冲技术准备用于输出的转换的文本,在服务器机器202上存储转换的文本,并把转换的文本从服务器机器202分配到客户机机器204以便输出。在实施例中,客户机机器204可以是便携式数字阅读器,但能够是任何便携式计算机系统。当客户机机器204连接到电源时或者当客户机机器基于电池能量运行时,服务器机器202和客户机机器204可通信。在实施例中,服务器机器202和客户机机器204通过诸如XML、HTTP、TCP/IP等的协议来通信。服务器-客户机系统200可包括经互联网或局域网连接的多个服务器和多个客户机机器。
服务器202的服务器处理器206在服务器程序代码208的指示下工作。客户机204的客户机处理器210在客户机程序代码212的指示下工作。服务器202的服务器传送模块214和客户机204的客户机传送模块216彼此通信。在实施例中,服务器202通过声学信号合成来完成文本到语音系统100(图1)的所有步骤。客户机204完成文本到语音系统100(图1)的声学信号的智能高速缓冲和产生。
服务器202的发音数据库218存储用于确定发音的三种类型的数据中的至少一种:字母到声音规则,包括基于上下文的规则和对未知单词的发音预测;统计模型,基于语言统计把字母序列转换成最可能的音素序列;和词典,包含不能从规则或统计方法获得的例外。服务器202的语调数据库220包含基于单词和它的上下文确定音素持续时间和音调的规则集合或统计模型。声学单元数据库222存储被选择用于获得所希望的音素的子语音单元、语音单元和更大的多语音声学单元。
服务器202使用发音数据库218、语调数据库220和声学单元数据库222执行文本规范化、发音、语调产生和声学信号合成。在实施例中,数据库可被组合、分离,或者可使用另外的数据库。在模仿自然语音的声学信号已被合成之后,声学信号被存储在服务器202的存储器224(例如,硬盘)中。在实施例中,声学信号可被压缩。
因此,服务器机器202把文本(例如,书)转换成合成的自然语音。服务器机器202存储合成的自然语音,并在请求时把合成的自然语音发送到一个或多个客户机机器204。服务器机器202可存储许多书转换。
客户机机器204通过客户机传送模块216从服务器传送模块214接收声学信号。声学信号被存储在客户机机器204的高速缓冲存储器226中。当用户请求收听书时,客户机机器204从高速缓冲存储器226检索声学信号,并通过语音输出单元228(例如,扬声器)产生模仿自然语音的声学信号。在一些实施例中,阅读器应用叙述书的声学信号。
在实施例中,服务器202可把最近播放的音频转换的书存储在存储器224中。在其它实施例中,客户机204可把最近播放的音频转换的书存储在高速缓冲存储器226中。在一些实施例中,服务器202把新添加的书预先转换成音频格式。例如,用户最近购买的书、新发行的书或最近可用于音频转换的书。
在实施例中,服务器202可具有基于各种准则分组在一起的音频转换的书的列表。例如,该准则可包括主题、类型、标题、作者、日期、用户以前阅读的书、其他用户以前阅读的书、用户人口统计信息等。在一些实施例中,组是客户机204上的可包括一本或多本书的书的列表。音频转换的书可被下载到客户机204,或者音频转换的书可按照流传输方式直接传输到客户机204。在各种实施例中,服务器202或客户机204基于准则对用户可能接下来阅读哪本书进行智能猜测。在另外的实施例中,客户机204可预先高速缓冲由该用户或其他用户整理的书的播放列表。
图3是根据本发明实施例的示例性客户机-客户机系统300的示图。客户机-客户机系统300在客户机机器204之间经互联网传送代表已经转换的语音的声学信号。例如,客户机机器204经互联网330通过客户机传送模块216发送和接收声学信号。声学信号被存储在客户机机器204的高速缓冲存储器226中。当用户从客户机机器204之一请求收听书时,对应的客户机机器204从高速缓冲存储器226检索声学信号,并通过语音输出单元228(例如,扬声器)产生模仿自然语音的声学信号。
在实施例中,客户机机器204可把最近播放的音频转换的书的声学信号存储在高速缓冲存储器226中。在一些实施例中,客户机204可具有基于各种准则分组在一起的音频转换的书的列表。例如,该准则可包括主题、类型、标题、作者、日期、用户以前阅读的书、其他用户以前阅读的书、用户人口统计信息等。在一些实施例中,组是客户机204上的可包括一本或多本书的书的列表。可经互联网在客户机204之间下载音频转换的书,或者可经互联网在客户机204之间按照流传输方式传输音频转换的书。在各种实施例中,客户机204可基于准则对用户可能接下来阅读哪本书进行智能猜测。在另外的实施例中,客户机204可预先高速缓冲由该用户或其他用户整理的书的播放列表。
图4是根据本发明实施例的示例性客户机-客户机系统400的示图。客户机-客户机系统400在客户机机器204之间直接传送代表已经转换的文本的声学信号。客户机机器204直接在彼此之间通过客户机传送模块216发送和接收声学信号。例如,客户机机器可通过任何数量的公知技术(例如,Wi-Fi、红外、USB、FireWire、SCSI、以太网等)直接通信。声学信号被存储在客户机机器204的高速缓冲存储器226中。当用户从客户机机器204之一请求收听书时,对应的客户机机器204从高速缓冲存储器226检索声学信号,并通过语音输出单元228(例如,扬声器)产生模仿自然语音的声学信号。
在实施例中,客户机机器204可把最近播放的音频转换的书的声学信号存储在高速缓冲存储器226中。在一些实施例中,客户机204可具有基于各种准则分组在一起的音频转换的书的列表。例如,该准则可包括主题、类型、标题、作者、日期、用户以前阅读的书、其他用户以前阅读的书、用户人口统计信息等。在一些实施例中,组是客户机204上的可包括一本或多本书的书的列表。可在客户机204之间直接传送音频转换的书,或者可在客户机204之间按照流传输方式传输音频转换的书。在各种实施例中,客户机204可基于准则对用户可能接下来阅读哪本书进行智能猜测。在另外的实施例中,客户机204可预先高速缓冲由该用户或其他用户整理的书的播放列表。
图5是根据本发明实施例的示例性服务器-客户机系统500的示图。服务器-客户机系统500在客户机机器204上把文本转换成语音,使用智能高速缓冲技术准备用于输出的转换的文本,在服务器机器202上存储转换的文本,并把转换的文本从服务器机器202分配到客户机机器204以便输出。在实施例中,客户机机器204是便携式数字阅读器,但也可以是任何计算机系统。当客户机机器连接到电源时或者当客户机机器基于电池能量运行时,服务器机器202和客户机机器204可通信。在实施例中,服务器机器202和客户机机器204通过诸如XML、HTTP、TCP/IP等的协议来通信。服务器-客户机系统500可包括经互联网或局域网连接的多个服务器和多个客户机机器。
服务器202的服务器处理器206在服务器程序代码208的指示下工作。客户机204的客户机处理器210在客户机程序代码212的指示下工作。服务器202的服务器传送模块214和客户机204的客户机传送模块216彼此通信。在实施例中,客户机204完成文本到语音系统100(图1)的所有步骤。服务器202存储代表音频转换的书的声学信号的大的库。
因此,客户机204使用发音数据库218、语调数据库220和声学单元数据库222把文本(例如,书)转换成合成的自然语音。服务器机器202存储合成的自然语音,并在请求时把合成的自然语音发送到一个或多个客户机机器204。服务器机器202可把许多书转换存储在存储器224中。
客户机机器204通过客户机传送模块216把声学信号发送到服务器传送模块214/从服务器传送模块214接收声学信号。声学信号被存储在客户机机器204的高速缓冲存储器226中。当用户请求收听书时,客户机机器204从高速缓冲存储器226检索声学信号,并通过语音输出单元228(例如,扬声器)产生模仿自然语音的声学信号。
在实施例中,服务器202可把最近播放的音频转换的书的声学信号存储在存储器224中。在其它实施例中,客户机204可把最近播放的音频转换的书存储在高速缓冲存储器226中。在一些实施例中,客户机204把新添加的书预先转换成音频格式。例如,用户最近购买的书、新发行的书或最近可用于音频转换的书。
在实施例中,服务器202可具有基于各种准则分组在一起的音频转换的书的列表。例如,该准则可包括主题、类型、标题、作者、日期、用户以前阅读的书、其他用户以前阅读的书、用户人口统计信息等。在一些实施例中,组是客户机204上的可包括一本或多本书的书的列表。音频转换的书可被下载到客户机204,或者音频转换的书可按照流传输方式直接传输到客户机204。在各种实施例中,服务器202或客户机204基于准则对用户可能接下来阅读哪本书进行智能猜测。在另外的实施例中,客户机204可预先高速缓冲由该用户或其他用户创建的书的播放列表。
图6是根据本发明实施例的示例性客户机-客户机系统600的示图。客户机-客户机系统600在客户机机器204上把文本转换成语音,并经互联网在客户机机器之间传送转换的语音。客户机机器204使用发音数据库218、语调数据库220和声学单元数据库222把文本(例如,书)转换成合成的自然语音。在实施例中,客户机机器204可一起工作以转换书。例如,各种客户机机器204可转换书的不同部分。
客户机机器204经互联网330通过客户机传送模块216发送和接收声学信号。声学信号被存储在客户机机器204的高速缓冲存储器226中。当用户从客户机机器204之一请求收听书时,对应的客户机机器204从高速缓冲存储器226检索声学信号,并通过语音输出单元228(例如,扬声器)产生模仿自然语音的声学信号。
在实施例中,客户机机器204可把最近播放的音频转换的书的声学信号存储在高速缓冲存储器226中。在一些实施例中,客户机204可具有基于各种准则分组在一起的音频转换的书的列表。例如,该准则可包括主题、类型、标题、作者、日期、用户以前阅读的书、其他用户以前阅读的书、用户人口统计信息等。在一些实施例中,组是客户机204上的可包括一本或多本书的书的列表。可经互联网在客户机204之间下载音频转换的书,或者可经互联网在客户机204之间按照流传输方式传输音频转换的书。在各种实施例中,客户机204可基于准则对用户可能接下来阅读哪本书进行智能猜测。在另外的实施例中,客户机204可预先高速缓冲由该用户或其他用户创建的书的播放列表。
图7是根据本发明实施例的示例性客户机-客户机系统700的示图。客户机-客户机系统600在客户机机器204上把文本转换成语音,并在客户机机器之间直接传送转换的语音。客户机机器204使用发音数据库218、语调数据库220和声学单元数据库222把文本(例如,书)转换成合成的自然语音。在实施例中,客户机机器204可一起工作以转换书。例如,各种客户机机器204可转换书的不同部分。
客户机机器204直接在彼此之间通过客户机传送模块216发送和接收声学信号。例如,客户机机器可通过任何数量的公知技术(例如,Wi-Fi、红外、USB、FireWire、SCSI、以太网等)直接通信。声学信号被存储在客户机机器204的高速缓冲存储器226中。当用户从客户机机器204之一请求收听书时,对应的客户机机器204从高速缓冲存储器226检索声学信号,并通过语音输出单元228(例如,扬声器)产生模仿自然语音的声学信号。
在实施例中,客户机机器204可把最近播放的音频转换的书的声学信号存储在高速缓冲存储器226中。在一些实施例中,客户机204可具有基于各种准则分组在一起的音频转换的书的列表。例如,该准则可包括主题、类型、标题、作者、日期、用户以前阅读的书、其他用户以前阅读的书、用户人口统计信息等。在一些实施例中,组是客户机204上的可包括一本或多本书的书的列表。可在客户机204之间直接传送音频转换的书,或者可在客户机204之间按照流传输方式传输音频转换的书。在各种实施例中,客户机204可基于准则对用户可能接下来阅读哪本书进行智能猜测。在另外的实施例中,客户机204可预先高速缓冲由该用户或其他用户创建的书的播放列表。
图8是通用计算机系统800的例子的框图,在计算机系统800内,能够实现根据本发明的文本到语音系统。在图8的例子中,该系统包括主机中央处理单元(CPU)802,CPU802经总线806耦合到图形处理单元(GPU)804。可使用一个或多个CPU以及一个或多个GPU。
CPU802和GPU804都耦合到存储器808。在图8的例子中,存储器808可以是共享存储器,由此该存储器存储用于CPU802和GPU804两者的指令和数据。替代地,可存在分别专用于CPU802和GPU804的单独的存储器。在实施例中,存储器808包括根据本发明的文本到语音系统。存储器808还能够包括用于存储驱动耦合的显示器810的像素数据的视频帧缓冲器。
系统800还包括用户接口812,用户接口812在一种实现方式中包括屏幕光标控制装置。用户接口可包括键盘、鼠标、操纵杆、游戏控制器和/或触摸屏装置(触摸垫)。
一般而言,系统800包括实现根据本发明实施例的功能的计算机系统平台的基本部件。系统800能够被实现为例如任何数量的不同类型的计算机系统(例如,服务器、膝上型计算机、桌上型计算机、笔记本计算机和游戏系统)以及家庭娱乐系统(例如,DVD播放器)(诸如,机顶盒或数字电视)或便携式或手提式电子装置(例如,便携式电话、个人数字助手、手提式游戏装置或数字阅读器)。
图9描述根据本发明实施例的高效文本到语音转换的示例性计算机控制的方法的流程图。虽然在流程图900中公开了特定步骤,但这种步骤是示例性的。也就是说,本发明的实施例完全适合执行各种其它步骤或在流程图900中列举的步骤的变型。
在步骤902中,识别用于转换到语音格式的文本的各部分,其中该识别包括基于与用户关联的信息执行预测。在实施例中,文本的各部分包括音频转换的书。例如,在图2中,书被转换成合成的自然语音,并且智能高速缓冲技术预期用户可能请求的未来的书。
在一些实施例中,该信息包括新添加的书的标识,并且从新添加的书获得文本的一部分。例如,在图2中,服务器识别用户最近购买的书、新发行的书或最近可用于音频转换的书。在预期用户请求该书的情况下,服务器可把该书转换成音频格式,并把音频格式发送到客户机。
在各种实施例中,文本包括音频转换的书,执行预测包括基于音频转换的书的特征预期随后的书。例如,在图2中,预期可基于准则,该准则包括主题、类型、标题、作者、日期、用户以前阅读的书、其他用户以前阅读的书、用户人口统计信息等。另外,该信息可包括用户创建的书的播放列表和/或由具有与该用户类似的属性的其他用户创建的书的播放列表。
在步骤904中,在便携式装置连接到电源时,对文本的部分执行文本到语音转换以产生转换的语音。例如,在图2中,服务器把书转换成合成的自然语音。在客户机连接到电源时,转换的书被发送到客户机。
在步骤906中,转换的语音被存储在便携式装置的存储装置中。例如,在图2中,声学信号被存储在客户机机器的高速缓冲存储器中。在步骤908中,执行阅读器应用,其中接收对文本的部分的叙述的用户请求。例如,在图2中,用户从客户机机器请求收听书。当客户机机器接收到该请求时,客户机机器上的阅读器应用叙述音频转换的书。在步骤910中,在该执行期间,响应于用户请求从存储装置访问转换的语音,并且在便携式装置上呈现转换的语音。例如,在图2中,从客户机机器的高速缓冲存储器访问声学信号。由阅读器应用通过语音输出单元(例如,扬声器)播放声学信号。
图10描述根据本发明实施例的文本到语音转换的示例性计算机控制的方法的流程图1000。虽然在流程图1000中公开了特定步骤,但这种步骤是示例性的。也就是说,本发明的实施例完全适合执行各种其它步骤或在流程图1000中列举的步骤的变型。
在步骤1002中,识别用于转换到书的音频版本的书,其中该识别包括基于与书关联的信息执行预测。在实施例中,该信息包括存储在服务器上的书的列表,其中书的列表包括书的标识。例如,在图2中,服务器存储书的列表和音频转换的书。客户机机器上的音频转换的书可被包括在服务器上的一个或多个列表中。在一些实施例中,该信息包括书的主题、类型、标题、作者和日期。
在步骤1004中,在数字阅读器连接到电源时,访问书的音频版本。在一些实施例中,访问包括经互联网从服务器接收流传输通信。例如,在图2中,音频转换的书可经互联网按照流传输方式从服务器传输到客户机。在一些实施例中,访问包括经互联网从服务器下载音频版本。例如,在图2中,音频转换的书可经互联网被下载到客户机。
在各种实施例中,访问包括经互联网从另一数字阅读器下载音频版本。例如,在图3中,客户机-客户机系统经互联网从客户机到客户机传送音频转换的书。在另外的实施例中,访问包括直接从另一数字阅读器下载音频版本。例如,在图4中,客户机-客户机系统可通过Wi-Fi、红外、USB、FireWire、SCSI等直接从客户机到客户机传送音频转换的书。
在步骤1006中,音频版本被存储在数字阅读器的存储装置中。例如,在图2中,声学信号被存储在客户机机器的高速缓冲存储器中。在步骤1008中,执行阅读器应用,其中由用户请求书的叙述。例如,在图2中,用户请求从客户机机器收听书。当客户机机器接收到该请求时,客户机机器上的阅读器应用叙述音频转换的书。在步骤1010中,在该执行期间,从数字阅读器的存储装置中的音频版本产生模仿自然语音的声学信号。例如,在图2中,从在客户机机器的高速缓冲存储器访问声学信号。由阅读器应用通过语音输出单元(扬声器)播放声学信号。
为了解释的目的,参照特定实施例进行了前面的描述。然而,以上的说明性讨论不应该是穷尽的或者把本发明限制于公开的精确形式。考虑到以上教导,可实现许多变化和修改。选择并描述实施例,以便最好地解释本发明的原理及其实际应用,以由此使其他本领域技术人员能够最好地利用本发明和具有可适合设想的特定用途的各种修改的各种实施例。

Claims (20)

1.一种在便携式装置上执行文本到语音转换的方法,所述方法包括:
识别用于转换到语音格式的文本的一部分,其中所述识别包括基于与用户关联的信息执行预测,所述信息包括以下中的一个或多个:用户最近购买的书、新发行的书或最近可用于音频转换的书;
响应于所述预测并且在用户作出选择之前,对所述文本的一部分执行文本到语音转换以产生转换的语音;
把所述转换的语音存储在所述便携式装置的存储装置中;
执行阅读器应用,其中接收对所述文本的一部分的叙述的用户请求;以及
在所述执行期间,从所述存储装置访问所述转换的语音,并且响应于所述用户请求在所述便携式装置上呈现所述转换的语音。
2.如权利要求1所述的方法,其中所述文本的一部分包括音频转换的书。
3.如权利要求1所述的方法,其中所述信息包括新添加的书的标识,并且其中从所述新添加的书获得所述文本的一部分。
4.如权利要求1所述的方法,其中所述文本包括音频转换的书,并且所述执行预测包括基于音频转换的书的特征预期随后的书。
5.如权利要求1所述的方法,其中所述信息包括书的播放列表。
6.如权利要求5所述的方法,其中所述书的播放列表是用户创建的书的播放列表。
7.如权利要求5所述的方法,其中所述书的播放列表由具有与所述用户类似的属性的其他用户创建。
8.一种用于执行文本到语音转换的方法,包括:
识别用于转换到书的音频版本的所述书,其中所述识别包括基于与所述书关联的信息执行预测,所述信息包括以下中的一个或多个:用户最近购买的书、新发行的书或最近可用于音频转换的书;
在数字阅读器连接到电源时,访问所述书的所述音频版本,所述音频版本是在之前响应于所述预测而被转换得到的;
把所述音频版本存储在所述数字阅读器的存储装置中;
执行阅读器应用,其中由用户请求所述书的叙述;以及
在所述执行期间,从所述数字阅读器的所述存储装置中的所述音频版本产生模仿自然语音的声学信号。
9.如权利要求8所述的方法,其中所述信息包括存储在服务器上的书的列表,并且其中所述书的列表包括所述书的标识。
10.如权利要求8所述的方法,其中所述访问包括经互联网从服务器接收流传输通信。
11.如权利要求8所述的方法,其中所述访问包括经互联网从服务器下载所述音频版本。
12.如权利要求8所述的方法,其中所述访问包括经互联网从另一数字阅读器下载所述音频版本。
13.如权利要求8所述的方法,其中所述访问包括直接从另一数字阅读器下载所述音频版本。
14.如权利要求8所述的方法,其中所述信息包括所述书的主题、类型、标题、作者和日期之一。
15.一种用于执行文本到语音转换的系统,包括:
识别用于转换到语音格式的文本的一部分的装置,其中所述识别包括基于与用户关联的信息执行预测,所述信息包括以下中的一个或多个:用户最近购买的书、新发行的书或最近可用于音频转换的书;
响应于所述预测并且在用户作出选择之前,对所述文本的一部分执行文本到语音转换以产生转换的语音的装置;
把所述转换的语音存储在便携式装置的存储装置中的装置;
执行阅读器应用的装置,其中接收对所述文本的一部分的叙述的用户请求;以及
在所述执行期间,从所述存储装置访问所述转换的语音,并且响应于所述用户请求在音频输出装置上呈现所述转换的语音的装置。
16.如权利要求15所述的系统,其中所述文本的一部分包括音频转换的书。
17.如权利要求15所述的系统,其中所述信息包括新添加的书的标识,并且其中从所述新添加的书获得所述文本的一部分。
18.如权利要求15所述的系统,其中所述文本包括音频转换的书,并且所述执行预测包括基于所述音频转换的书的特征预期随后的书。
19.如权利要求15所述的系统,其中所述信息包括用户创建的书的播放列表。
20.如权利要求15所述的系统,其中所述信息包括由具有与所述用户类似的属性的其他用户创建的书的播放列表。
CN201180043239.1A 2010-09-14 2011-06-22 用于文本到语音转换的方法和系统 Active CN103098124B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/881,979 2010-09-14
US12/881,979 US8645141B2 (en) 2010-09-14 2010-09-14 Method and system for text to speech conversion
PCT/US2011/041526 WO2012036771A1 (en) 2010-09-14 2011-06-22 Method and system for text to speech conversion

Publications (2)

Publication Number Publication Date
CN103098124A CN103098124A (zh) 2013-05-08
CN103098124B true CN103098124B (zh) 2016-06-01

Family

ID=45807562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180043239.1A Active CN103098124B (zh) 2010-09-14 2011-06-22 用于文本到语音转换的方法和系统

Country Status (6)

Country Link
US (1) US8645141B2 (zh)
EP (1) EP2601652A4 (zh)
KR (1) KR101426214B1 (zh)
CN (1) CN103098124B (zh)
TW (1) TWI470620B (zh)
WO (1) WO2012036771A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
US9240180B2 (en) 2011-12-01 2016-01-19 At&T Intellectual Property I, L.P. System and method for low-latency web-based text-to-speech without plugins
GB201320334D0 (en) 2013-11-18 2014-01-01 Microsoft Corp Identifying a contact
CN104978121A (zh) * 2015-04-30 2015-10-14 努比亚技术有限公司 一种桌面控制应用软件的方法及设备
US10489110B2 (en) * 2016-11-22 2019-11-26 Microsoft Technology Licensing, Llc Implicit narration for aural user interface
US11347733B2 (en) * 2019-08-08 2022-05-31 Salesforce.Com, Inc. System and method for transforming unstructured numerical information into a structured format

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6886036B1 (en) * 1999-11-02 2005-04-26 Nokia Corporation System and method for enhanced data access efficiency using an electronic book over data networks
CN1788305A (zh) * 2003-06-19 2006-06-14 国际商业机器公司 使用语义分析配置语音阅读器的系统和方法
CN1874574A (zh) * 2005-05-30 2006-12-06 京瓷株式会社 音频输出装置、文档阅读方法和移动终端
CN101354840A (zh) * 2008-09-08 2009-01-28 众智瑞德科技(北京)有限公司 一种对电子书进行语音阅读控制的方法及装置

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073695B1 (en) * 1992-12-09 2011-12-06 Adrea, LLC Electronic book with voice emulation features
US6600814B1 (en) * 1999-09-27 2003-07-29 Unisys Corporation Method, apparatus, and computer program product for reducing the load on a text-to-speech converter in a messaging system capable of text-to-speech conversion of e-mail documents
US6810379B1 (en) * 2000-04-24 2004-10-26 Sensory, Inc. Client/server architecture for text-to-speech synthesis
US7043432B2 (en) * 2001-08-29 2006-05-09 International Business Machines Corporation Method and system for text-to-speech caching
US7401020B2 (en) 2002-11-29 2008-07-15 International Business Machines Corporation Application of emotion-based intonation and prosody to speech in text-to-speech systems
US7072477B1 (en) * 2002-07-09 2006-07-04 Apple Computer, Inc. Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file
US20040133908A1 (en) * 2003-01-03 2004-07-08 Broadq, Llc Digital media system and method therefor
US7805307B2 (en) 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system
US20060008256A1 (en) * 2003-10-01 2006-01-12 Khedouri Robert K Audio visual player apparatus and system and method of content distribution using the same
CN101088085A (zh) 2004-12-22 2007-12-12 皇家飞利浦电子股份有限公司 便携式音频播放设备及其操作方法
US7490775B2 (en) * 2004-12-30 2009-02-17 Aol Llc, A Deleware Limited Liability Company Intelligent identification of multimedia content for synchronization
WO2006076516A2 (en) * 2005-01-12 2006-07-20 Howard Friedman Customizable delivery of audio information
US7457915B2 (en) * 2005-04-07 2008-11-25 Microsoft Corporation Intelligent media caching based on device state
US20070100631A1 (en) * 2005-11-03 2007-05-03 Bodin William K Producing an audio appointment book
CN1991826A (zh) * 2005-12-27 2007-07-04 鸿富锦精密工业(深圳)有限公司 电子书检索系统及方法
US7653761B2 (en) * 2006-03-15 2010-01-26 Microsoft Corporation Automatic delivery of personalized content to a portable media player with feedback
WO2008072045A2 (en) * 2006-12-11 2008-06-19 Hari Prasad Sampath A method and system for personalized content delivery for wireless devices
US20080306909A1 (en) * 2007-06-08 2008-12-11 Microsoft Corporation Intelligent download of media files to portable device
KR20090003533A (ko) * 2007-06-15 2009-01-12 엘지전자 주식회사 사용자 손수 저작물의 생성과 운용을 위한 방법 및 시스템
KR101445869B1 (ko) * 2007-07-11 2014-09-29 엘지전자 주식회사 미디어 인터페이스
US8898568B2 (en) * 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8239201B2 (en) 2008-09-13 2012-08-07 At&T Intellectual Property I, L.P. System and method for audibly presenting selected text
US8712776B2 (en) * 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US20100082328A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for speech preprocessing in text to speech synthesis
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US20100088746A1 (en) 2008-10-08 2010-04-08 Sony Corporation Secure ebook techniques
US9104670B2 (en) * 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6886036B1 (en) * 1999-11-02 2005-04-26 Nokia Corporation System and method for enhanced data access efficiency using an electronic book over data networks
CN1788305A (zh) * 2003-06-19 2006-06-14 国际商业机器公司 使用语义分析配置语音阅读器的系统和方法
CN1874574A (zh) * 2005-05-30 2006-12-06 京瓷株式会社 音频输出装置、文档阅读方法和移动终端
CN101354840A (zh) * 2008-09-08 2009-01-28 众智瑞德科技(北京)有限公司 一种对电子书进行语音阅读控制的方法及装置

Also Published As

Publication number Publication date
KR20130059408A (ko) 2013-06-05
US20120065979A1 (en) 2012-03-15
TW201225064A (en) 2012-06-16
KR101426214B1 (ko) 2014-08-01
TWI470620B (zh) 2015-01-21
US8645141B2 (en) 2014-02-04
WO2012036771A1 (en) 2012-03-22
EP2601652A1 (en) 2013-06-12
EP2601652A4 (en) 2014-07-23
CN103098124A (zh) 2013-05-08

Similar Documents

Publication Publication Date Title
CN103098124B (zh) 用于文本到语音转换的方法和系统
CN108288468B (zh) 语音识别方法及装置
CN101079301B (zh) 一种计算机实现的创建从文本到音频记录的时序映射方法
CN107423363B (zh) 基于人工智能的话术生成方法、装置、设备及存储介质
CN1540625B (zh) 多语种文本-语音系统的前端结构
US8583418B2 (en) Systems and methods of detecting language and natural language strings for text to speech synthesis
US8396714B2 (en) Systems and methods for concatenation of words in text to speech synthesis
CN105869446B (zh) 一种电子阅读装置和语音阅读加载方法
US20100082349A1 (en) Systems and methods for selective text to speech synthesis
WO2010036486A2 (en) Systems and methods for speech preprocessing in text to speech synthesis
US20230259712A1 (en) Sound effect adding method and apparatus, storage medium, and electronic device
CN111653265A (zh) 语音合成方法、装置、存储介质和电子设备
CN112116903A (zh) 语音合成模型的生成方法、装置、存储介质及电子设备
CN111930792A (zh) 数据资源的标注方法、装置、存储介质及电子设备
CN1945692B (zh) 一种在语音合成系统中提升提示音匹配效果的智能方法
CN111354354A (zh) 一种基于语义识别的训练方法、训练装置及终端设备
CN110851564B (zh) 一种语音数据处理方法和相关装置
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN112201253A (zh) 文字标记方法、装置、电子设备及计算机可读存储介质
CN116229935A (zh) 语音合成方法、装置、电子设备及计算机可读介质
CN115050351A (zh) 生成时间戳的方法、装置及计算机设备
CN115101042A (zh) 一种文本处理方法、装置及设备
CN112669796A (zh) 基于人工智能的音乐转乐谱的方法及装置
CN113626635A (zh) 一种歌曲乐句划分方法、系统、电子设备及介质
CN102918587B (zh) 能够将听写代号短语转录成标准词组的分层快速注解

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant