CN1946065A

CN1946065A - 通过可听信号来注释即时消息的方法和系统

Info

Publication number: CN1946065A
Application number: CN200610093555.0A
Authority: CN
Inventors: T·W·尼迈耶; L·奥罗兹科
Original assignee: International Business Machines Corp
Current assignee: Serenes operations
Priority date: 2005-10-03
Filing date: 2006-06-26
Publication date: 2007-04-11
Anticipated expiration: 2026-06-26
Also published as: US20120253816A1; JP2007102787A; US8224647B2; US8428952B2; US9026445B2; US20070078656A1; CN1946065B; US20130218569A1

Abstract

一种允许即时消息的撰写者实现和控制到消息接收方的可听语音的产生的系统和方法。将所述消息撰写者的声音表征为与构词的或发音的文本到语音引擎兼容的参数，以便在接收时，接收客户端设备可以根据所述撰写者的声音特征从消息文本生成可听语音信号。可替代地，所述撰写者可以将他或她的实际声音的样本存储在服务器中，以便在所述撰写者将消息传输给接收方时，所述服务器只提取合成所述文本消息中的单词所需的样本，并将这些样本发送到所述接收客户端设备，以便客户端侧波形拼接文本到语音引擎使用这些样本来生成与所述撰写者的实际声音非常相似的可听语音信号。

Description

通过可听信号来注释即时消息的方法和系统

技术领域

本发明涉及一种使用用户声音数据的服务器侧存储以便即时消息传递客户端利用所述数据使用文本到语音合成来读出文本消息的方法。

背景技术

文本到语音合成。传统的文本到语音(“TTS”)合成方法可分为两个主要阶段：高级合成和低级合成。高级合成考虑词以及这些词的语法用法(例如，短语的开始或结尾，诸如句号或问号之类的标点符号等)。通常，执行文本分析以便可以将输入文本转录为语音的表示或某些其他语言的表示，并且语音的信息产生了波形形式的语音生成。

在高级TTS处理期间，分析要说出的文本字符串以将其分为多个词。然后将这些词分成称为“音素”的更小的发音单位。一般而言，音素是一种可以区分词的基本的理论上的发音单位。然后将词定义或配置为音素的集合。然后，在低级TTS处理期间，为每个音素生成(或恢复)数据、装配词并完成短语。

实际上，低级合成生成可以使用适当的电路(如声卡、D/A转换器等)转换为模拟形式的可听语音的数据。存在三种用于低级TTS合成的常用方法：(a)共振峰(formant)合成，(b)波形拼接(concatenative)合成，(c)发音(articulatory)合成。

共振峰合成(也称为终端模拟)仅模仿声源和共振峰频率。它不使用任何人类语音样本，但采用声学模型来创建合成的语音输出。发音、噪音水平和基频是一些用于在一段时间内创建人工语音波形的参数。

由于共振峰合成生成更像机器发音的语音，所以它没有真人的语音自然。共振峰合成的语音的优点之一是其智能性。即使在高速的情况下，它也可以避免通常阻碍波形拼接系统的声学假信号(glitch)。此外，由于基于共振峰的系统在其输出语音中具有总的控制，因此它可以生成多种模拟的情感和语调。

共振峰TTS合成程序的大小小于波形拼接系统，因为它不需要语音样本的数据库。因此，它可以在处理器能力和存储器空间不足的情况下使用。

发音TTS合成方法直接模仿人类语音的生成，但是不使用任何实际录制的声音样本。发音合成尝试数学地模仿人类的声道，并在此进行发音处理。由于这些原因，发音合成通常被看作共振峰TTS合成的更为复杂的版本。

波形拼接合成包括结合或“串接”一系列较短的、预先录制的人类声音样本以便以更具有人类特性的方式来重现词、短语和句子。此方法产生最自然的发音合成的语音。但是，因为它的自然变调，有时可听假信号会影响它的波形(如吸气音、爆破音等)，这会消弱它的自然性。为了说出大量词语或词典，波形拼接TTS系统还必须具有可观的数据存储以便保存所有人类声音样本。波形拼接合成有三种子类型：单元选择、双音素和特定域合成。所有子类型都使用预录制的词和短语以根据其方法来创建完整的话语。

概括地说，共振峰或发音TTS系统需要较少的软件和存储空间，但是不会产生具有任何特定真人特征的类似人类的声音。共振峰TTS系统生成在某种程度上听起来像从其获得音素样本的人的声音，但是这些系统需要相当多的用于样本数据库的存储空间。

基于文本的即时消息传递。随着如今技术应用的进步，更多的人使用诸如美国在线(“AOL”)的即时消息传递(“AIM”)[TM]或国际商业机器公司(“IBM”)的SameTime[TM]之类的实时消息传递系统作为一种以近似实时的方式通过他们的计算机与一方或多方通信的方法。

电子邮件和IM一般都是基于文本的。换句话说，因为取决于所使用的服务或网络，它们带有图形、电影、声音等的操作会受到限制、效率低下或不可用，所以它们通常用于发送纯文本消息。

实时消息传递系统与电子邮件(“e-mail”)系统的不同之处在于，消息被立即发送到接收方，并且如果接收方当前不在线，则不存储消息或排队消息以便稍后进行发送。对于即时消息传递，两个(或所有)用户(他们是同一服务的用户)都必须同时在线以便进行通信，并且接收方(多个)还必须愿意接受来自发送方的即时消息。尝试将消息发送给不在线的个人或者不愿接受来自特定发送方的消息的个人会导致出现无法完成传输的通知。

因此，尽管IM通常像电子邮件那样基于文本，但是它的通信机制更像双向的无线电或电话(而不是电子邮件系统)那样工作。

IM中的内容很少，难以帮助视觉受损的用户。文本大小、颜色和背景可以被调整到某种程度。此外，某些运行在特定平台(如运行Windows的IBM兼容个人计算机)上的IM客户端可以激活文本到语音功能，此功能使用类似计算机的合成声音“说出”计算机屏幕上的文本。这种类似计算机的合成声音可能难以理解。此外，由于合成声音对于它读出的所有文本都具有相同的语调和特征(无论消息撰写者为何人)，所以消息的接收方可能会发现很难确定谁正在向他们发送IM消息。

已经引入某些新的产品以使得视觉受损的人能够更有效地通过IM进行通信。一种此类方法是完全基于客户端的布置，其中软件允许用户从若干“库存”中选择预录制的声音。使用这些声音之一将接收的文本消息可听地“读”给接收方。不管最初发送文本消息的是何人，用户都以相同的声音和语调收听消息。例如，如果用户选择了男声，则将使用男声读出所有消息而不管消息的撰写者为何人，即使撰写者是女性也是如此。此外，此类基于共振峰的TTS系统需要客户端设备上的存储空间来保存音素样本，这使此系统不适合低成本的普及计算设备应用，如个人数字助理(“PDA”)、智能电话等。

市场上当前提供的另一种方法是将语音消息传递系统与即时消息传递系统结合。如果消息发送方发现目标接收方当前不在线，并因此不能接收IM消息，则发送方可以选择在语音邮件系统中录制消息。然后保存录制的语音消息以供目标接收方以后检索。但是，此方法使发送方所需的工作加倍-首先发送方必须键入文本消息，然后发送方必须录制语音消息。此外，此方法要求目标接收方使用除IM客户端之外的界面-接收方必须以某种方式登录并检索语音邮件消息。

另一种解决这些问题的尝试是向IM消息接收方的客户端设备提供这样的能力：从IM消息文本合成语音并且用户可以根据消息撰写者选择在合成器中指定语音的特定“语调”。此“语调”不是撰写者的语调或特有声音，而是计算机合成的语调，其可由接收方用于帮助区分他或她接收的消息的不同撰写者。

因此，当前的即时文本消息传递技术缺少为视觉受损用户实现更有效通信的易于理解的功能。这些方法中没有一种方法为视觉受损的用户真正解决了即时文本消息传递问题。每种方法都表现出一个或多个以下的问题：要求客户端设备具有大量代码、要求客户端设备具有大量样本存储，或者无法创建在特征或特性上与消息发送方或撰写者类似的语音。

发明内容

本发明允许即时消息的撰写者或发送方实现和控制到消息接收方的可听语音的产生。根据本发明的一个方面，将所述消息撰写者的声音表征为与构词的或发音的文本到语音引擎兼容的参数，以便在接收时，接收客户端设备可以根据所述撰写者的声音特征从消息文本生成可听语音信号。

根据本发明的另一个方面，所述撰写者可以将他或她的实际声音的语音和单词样本存储在服务器中。在所述撰写者将消息传输给接收方时，所述服务器只提取合成所述文本消息中的单词所需的样本，并将这些样本发送到所述接收客户端设备，以便客户端侧波形拼接文本到语音引擎使用这些样本来生成与所述撰写者的所述实际声音非常相似的可听语音信号。

根据本发明的再一个方面，不是传送所述实际的构词或发音控制参数，也不是与所述即时消息一起传送实际的音素样本，而是只与所述消息一起传送超链接或其他指针。然后，在所述接收方客户端设备“读出”所述消息时，可以使用所述链接来检索所述样本和/或参数。

附图说明

当结合在此呈现的附图时，以下详细说明提供了本发明的完整公开：

图1示出了其中将先前配置的使TTS非常类似IM消息撰写者的声音的LFO TTS合成参数与接收客户端进行交换的本发明的一个实施例；

图2a和2b示出了一般化的计算平台体系结构以及此类计算平台体系结构的软件和固件的一般化的组织；

图3a示出了根据本发明的撰写带有声音注释的IM消息的逻辑过程，并且图3b示出了根据本发明的接收和“播放”此类语音注释的IM消息的逻辑过程；

图4示出了利用已录制的用户音素的子集的传输的本发明的另一个实施例；

图5示出了利用指向已采样的用户音素的子集的一组超链接的交换的本发明的另一个实施例；

图6示出了配置LFO TTS语音参数的过程；

图7示出了配置用户音素样本的主集合的过程；

图8示出了根据本发明的允许用户初始化一种或两种初始化其撰写账户的方法的逻辑过程。

具体实施方式

在以下公开中，我们将所有使用软件生成的语调作为语音生成(如构词、发音等)基础的TTS合成方法和系统总称为局部频率振荡器(“LFO”)TTS合成方法。这些类型的方法并不尝试模仿或听起来像任何特殊或特定人的声音，并且通常听起来更像“计算机声音”。它们通常不需要声音样本存储，因为它们几乎完全根据语音和人类声道的数学模型来生成其语音。

同样，我们将所有依赖于采样或录制的人类声音来生成语音信号(例如，波形拼接)的TTS合成方法和系统总称为“基于样本”的TTS方法和系统。

根据替代实施例使用LFO或基于样本的TTS方法或两者的组合以如下方式说明了本发明：最小化接收客户端设备处的资源要求，但是最大化消息撰写者或发送方的控制以确定播放给接收方的声音的独特且可理解的特征。

更广泛地说，本发明提供了发送方声音的服务器侧存储和/或分析，以便将接收客户端设备从复杂的LFO合成软件的显著资源消耗或基于样本的TTS的大量声音样本存储中解脱出来。将消息传送到客户端时，本发明向接收客户端设备提供了若干机制中的一种机制，以便只获取或使用为特定IM消息合成语音所需的资源量。

例如，在第一实施例中，如果接收客户端设备使用基于LFO的TTS，则与IM消息一起发送一组合成参数，所述合成参数导致或控制TTS引擎生成听起来与消息发送方自己的声音类似的声音。这样，接收用户不必为每个潜在的撰写者定义这些参数，接收客户端设备也不必消耗资源(如存储器、磁盘空间等)来为消息的大量潜在撰写者长期存储大量参数。通过使用此方法，向接收用户提供了与众不同的并可识别为每条消息的特定撰写者的声音的TTS，并且不需要消息的发送方或撰写者代替文本IM消息来录制单独的声音消息。

在本发明的第二变型实施例中，如果接收客户端设备使用基于样本的TTS，则由声音注释的消息传递服务器而不是客户端设备来存储每个消息撰写者的音素样本的完整集合。这使客户端设备不必将大量资源专用于为从其接收消息的大量潜在消息撰写者存储音素样本。当将IM消息从消息服务器传输到接收客户端时，消息具备被认为在合成文本消息中包含的单词和短语时所需的音素样本的子集。将不会传输特定消息不需要的音素，由此显著地减少了客户端的数据存储要求。接收客户端然后临时地存储此音素样本的子集直到接收用户听到语音为止，之后可以可选地删除所述样本。此方法使发送方不必随所述消息录制单独的声音消息，最小化了传输期间声音注释的消息的大小，并且允许接收用户根据消息文本听到接近发送方声音的特征和独特特性的合成声音。此外，像第一实施例一样，接收用户无需为每个可以从其接收消息的潜在撰写者配置TTS参数，并且与可用技术相比，减少了用于TTS的客户端设备资源消耗。

在本发明的第三实施例中，操作类似于上述的第二实施例，但是与随IM消息一起传输音素样本的子集相反，只传输一组指向音素样本子集的服务器侧存储位置的指针或超链接。这进一步减小了声音注释的IM消息的大小，但是允许客户端设备可能在合成语音的实时根据其需要来快速检索音素样本。

本发明的一般操作

转到图3a，一般地说，声音注释的即时消息传递系统的用户通常通过键入文本来撰写(30)文本消息，然后撰写者允许(31)目标接收方接收声音注释的消息，并将特殊控制的消息提交或“发送”(32)到与声音注释消息服务器协作的即时消息服务器。

图3b示出了本发明的接收声音注释的即时消息的一般操作，其中接收用户从服务器(多个)接收(33)声音注释的消息；本发明接收(34)撰写者/发送方控制的基于LFO的声音合成参数，或接收(35)撰写者/发送方控制的音素样本，或者同时接收两者；然后根据由消息的撰写者或发送方控制和配置的参数或样本来合成消息的文本。

基于LFO TTS的实施例

如前所述，本发明的第一实施例(11)与采用基于LFO的TTS功能的客户端设备互操作。转到图1，声音注释的消息传递(“VAM”)服务器(48)存储一组用于撰写者或发送方的声音合成参数(11)，所述服务器(48)与诸如基于IBM Sametime[TM]的服务器之类的即时消息传递服务器(47)协作。当撰写者创建和发送包含文本部分的即时消息(46)时，VAM服务器还从非客户端存储(11)提取撰写者的LFO合成参数(12)，并将这些提取的参数(12)提供(401)给客户端侧LFO TTS引擎(45)。提供(401)这些参数的方法随本发明的实现而不同，包括但不限于：

(a)将参数作为数据部分附加到消息(46)；以及

(b)将消息(46)中指向参数存储位置的指针或超链接放置在客户端可访问的存储介质上。

增强的IM客户端(41)然后可以结合显示(43)消息(46)的文本部分，控制LFO TTS引擎从消息(46)的文本生成可听声音信号(44)，并且可听声音信号(44)具有由消息的发送方或撰写者确定的特征(12)。

基于样本的TTS实施例

如前所述，如图4中更详细地示出的，本发明的另一个实施例允许与采用基于样本的TTS技术的客户端设备互操作。在此实施例中，由VAM服务器(48)而不是客户端来存储(49)用于每个使用系统的消息的撰写者或发送方的用户音素样本的完整集合。然后，当此类用户创建和发送IM文本消息(46)时，VAM服务器将分析消息(46)的文本内容，确定需要哪些音素来合成消息的读音，以及对于特定的文本消息(46)，TTS引擎将不使用哪些音素。然后，VAM服务器(48)从存储(49)提取所需或必需的音素样本(400)的子集，并将其提供(401)给客户端侧基于样本的TTS引擎(42)。与前面所述的基于LFO的实施例类似，用于向客户端侧TTS引擎提供(401)音素样本的子集的方法可根据特定实现的网络和技术的不同而不同，包括但不限于：

(a)将样本(400)附加到消息(46)或将样本(400)与消息(46)关联；以及

(b)提供一个或多个指向存储在客户端可访问介质上的样本子集的指针或超链接(52)，以便TTS引擎可在需要时检索(51)样本(如图5所示)。

发送方/撰写者账户初始化

转到图8，其中示出了根据本发明的为每个希望撰写和发送声音注释的消息的用户初始化系统的一般化的过程。撰写者(81)优选地登录网页，调用语音响应单元(“VRU”)，或执行类似操作以启动(81)初始化(或维护)过程(80)，然后选择(82)初始化基于LFO的操作或基于样本的操作，或者选择两者。

如果用户选择初始化(或更新)基于LFO的TTS操作，则通常提示用户说出单词或短语(83)，然后分析(84)这些单词和短语以生成LFO合成参数，然后与用户的账户或标识相关联地存储(11)这些参数。

如果用户选择初始化(或更新)基于样本的TTS操作，则通常提示用户说出单词和短语(85)，然后分析(86)这些单词和短语以提取音素样本，然后与用户的账户或标识相关联地存储(49)这些样本。

图6更详细地示出了初始化(或更新)基于LFO的实施例的逻辑过程。为了初始化本发明的此实施例，声音注释的IM消息的每个潜在发送方或撰写者都可以使用其自己的客户端设备(62)(如具有音频记录功能的Web浏览器设备或者电话)与语音分析系统(61)通信(如通过登录网页或调用语音响应单元)。语音分析系统可以是通常提示用户说出单词、声音或短语，然后对这些语音样本执行算法分析以确定语音的特定特征的若干可用类型中的一种类型。例如，所述分析可以产生诸如用户声音的和声内容(例如，在该处找到声音样本的大部分能量的主频)和用户声音的能量包络(例如，每次说出单词或短语时的能量和声压)之类的参数。

如前面结合将声音注释的IM消息传送到接收客户端设备所述的，用户声音分析器(61)然后将这些参数存储(11)在可由VAM服务器(48)访问的数据存储中以供以后使用。

图7更详细地示出了初始化(或更新)基于样本的实施例的逻辑过程。与基于LFO的实施例的初始化过程类似，此过程允许用户使用诸如启用音频的Web浏览器或电话之类的客户端设备(62)与可以是用于此目的的若干可用单元之一的用户音素分析器(71)通信(701)(如通过电话呼叫或到Web服务器的连接)。音素分析器(71)通常提示用户说出若干短语、单词和声音(已知它们包含所有重新创建单词的完整词典所需的发音单元)。通常，无需用户说出词典的所有单词，但是可能录制某些特定的单词(如用户的名称)。

然后，音素分析器从用户提供的语音样本提取音素，并且如先前描述的，将所述音素存储在可由VAM服务器(48)访问的用户音素数据库(49)中以供在传输声音注释的IM消息期间使用。

适合的计算平台

本发明优选地被实现为已在诸如个人计算机、Web服务器和Web浏览器之类的公知计算平台上存在的软件的功能或附加功能。这些通用的计算平台可以包括个人计算机以及便携式计算平台，如个人数字助理(“PDA”)、启用Web的无线电话和其他类型的个人信息管理(“PIM”)设备。

因此，重温计算平台的一般体系结构是有用的，其可以将实现范围从高端Web或企业服务器平台扩展到个人计算机，到便携PDA或启用Web的无线电话。

转到图2a，其中示出了包括中央处理单元(21)(“CPU”)的一般体系结构，中央处理单元(21)通常包括与随机存取存储器(“RAM”)(24)和只读存储器(“ROM”)(25)关联的微处理器(22)。通常，CPU(21)还具备高速缓冲存储器(23)和可编程闪速ROM(26)。微处理器(22)与各种类型的CPU存储器之间的接口(27)通常被称为“局部总线”，但也可以是更通用的总线或工业标准总线。

许多计算平台还具备一个或多个存储设备(29)，例如硬盘驱动器(“HDD”)、软盘驱动器、光盘驱动器(CD、CD-R、CD-RW、DVD、DVD-R等)，以及专用盘和磁带驱动器(如Iomega Zip[TM]和Jaz[TM]，AddonicsSuperDisk[TM]等)。此外，某些存储驱动器可以通过计算机网络来访问。

根据计算平台的期望功能，许多计算平台具备一个或多个通信接口(210)。例如，个人计算机通常具备高速串口(RS-232、RS-422等)、增强的并口(“EPP”)以及一个或多个通用串行总线(“USB”)端口。计算平台还可以具备诸如以太网卡之类的局域网(“LAN”)接口和诸如高性能串行总线IEEE-1394之类的其他高速接口。

诸如无线电话和无线联网的PDA之类的计算平台还可以具备带有天线的射频(“RF”)接口。在某些情况下，所述计算平台还可以具备红外线数据布置(“IrDA”)接口。

计算平台通常具备一个或多个内部扩展槽(211)(例如工业标准体系结构(“ISA”)、增强型工业标准体系结构(“EISA”)、外围组件互连(“PCI”)或专用接口槽)以便添加其他硬件，如声卡、存储器板和图形加速器。

此外，许多单元(如膝上型计算机和PDA)具备一个或多个外部扩展槽(212)，其允许用户轻松地安装和移除硬件扩展设备(如PCMCIA卡、SmartMedia卡)和各种专用模块(如可移动硬盘驱动器、CD驱动器和软盘驱动器)。

通常，存储驱动器(29)、通信接口(210)、内部扩展槽(211)和外部扩展槽(212)通过诸如ISA、EISA或PCI之类的标准或工业开放总线体系结构(28)与CPU(21)互连。在许多情况下，总线(28)可能具有专用设计。

计算平台通常具备一个或多个用户输入设备，如键盘或小键盘(216)、鼠标或指点设备(217)和/或触摸屏显示器(218)。在个人计算机的情况下，通常与鼠标或指点设备(如轨迹球或TrackPoint[TM])一起提供了标准键盘。在启用Web的无线电话的情况下，可以与一个或多个特定功能键一起提供简单的小键盘。在PDA的情况下，通常随手写识别功能一起提供触摸屏(218)。

此外，计算平台具备诸如启用Web的无线电话的麦克风或个人计算机的麦克风之类的麦克风(219)。此麦克风可用于简单地报告音频和语音信号，也可用于使用语音识别功能来输入用户选择，例如网站语音导航或自动拨号。

许多计算平台还配备有照相机设备(2100)，例如静态数码相机或全动态数码摄像机。

多数计算平台还具备诸如显示器(213)之类的一个或多个用户输出设备。显示器(213)可以采取多种形式，包括阴极射线管(“CRT”)、薄膜晶体管(“TFT”)阵列、一组简单的发光二极管(“LED”)或液晶显示(“LCD”)指示器。

计算平台通常还关联有一个或多个扬声器(214)和/或信号器(215)。扬声器(214)(如无线电话的扬声器或个人计算机的扬声器)可用于重放声频或音乐。信号器(215)可以采取简单的哔声发射器或峰鸣器的形式，它们通常可在诸如PDA和PIM之类的特定设备中找到。

这些用户输入和输出设备可通过专用总线结构和/或接口与CPU(21)直接互连(28’，28”)，或者它们可以通过诸如ISA、EISA、PCI之类的一个或多个工业开放总线来互连。

计算平台还具备一个或多个软件和固件(2101)程序以实现所需的计算平台功能。

现在转到图2b，其中详细示出了此计算平台范围内的软件和固件(2101)的一般组织。计算平台上可以提供一个或多个操作系统(“OS”)固有的应用程序(223)，例如字处理器、电子表格、联系人管理实用工具、地址簿、日历、电子邮件客户端、演示文稿、财务和记帐程序。

此外，可以提供一个或多个“可移植”或设备无关的程序(224)，这些程序必须由诸如Java[TM]脚本和程序之类的操作系统固有的平台特定的解释器(225)来解释。

通常，计算平台还具备某种形式的Web浏览器或微浏览器(226)，它们还可以包括对浏览器的一个或多个扩展，如浏览器插件(227)。

计算设备还具备操作系统(220)(例如Microsoft Windows[TM]、UNIX、IBM OS/2[TM]、IBM AIX[TM]、开放源代码LINUX、苹果的MAC OS[TM])或其他平台特定的操作系统。诸如PDA和无线电话之类的小型设备可以配备有其他形式的操作系统，例如实时操作系统(“RTOS”)或Palm Computing的PalmOS[TM]。

通常提供一组基本输入和输出功能(“BIOS”)以及硬件设备驱动程序(221)以允许操作系统(220)和程序连接到随计算平台提供的特定硬件的功能并控制这些功能。

此外，许多计算平台通常具备一个或多个嵌入式固件程序(222)，这些程序由作为外围设备(如微控制器或硬盘驱动器、通信处理器、网络接口卡、声卡或图形卡)的一部分的板上或“嵌入式”微处理器来执行。

这样，图2a和2b总体描述了各种计算平台的各种硬件组件、软件和固件程序，这些计算平台包括但不限于个人计算机、PDA、PIM、启用Web的电话和其他诸如WebTV[TM]单元之类的设备。这样，现在我们将注意力转向关于被优选地实现为此类计算平台上的软件和固件的过程和方法的本发明的公开。本领域的技术人员将容易地认识到，在不偏离本发明的精神和范围的情况下，可以可替代地将下列方法和过程部分或全部实现为硬件功能。

已经描述了本发明，其中包括若干示例性的实例。本领域的技术人员将认识到，这些实例并不代表本发明的全部范围，可以做出特定的替代实施例选择，包括但不限于使用替代编程语言或方法，使用替代计算平台，以及采用替代通信协议和网络。因此，本发明的范围应由下列权利要求来确定。

Claims

1.一种通过可听信号来注释即时消息的方法，所述方法包括：

撰写者在创建即时消息期间建立一个或多个用于声音注释选项的文本到语音控制参数；

将所述即时消息和所述控制参数发送到接收方设备；

所述接收方设备接收所述撰写者建立的控制参数；以及

结合查看所述即时消息，所述接收方设备根据所述撰写者建立的控制参数来执行文本到语音合成，以便根据所述撰写者建立的控制参数来可听地产生代表所述即时消息的文本部分的语音。

2.如权利要求1中所述的方法，其中所述建立一个或多个文本到语音控制参数的步骤包括建立一个或多个与构词的文本到语音引擎兼容的声音特征参数，所述控制参数由服务器来存储。

3.如权利要求1中所述的方法，其中所述建立一个或多个文本到语音控制参数的步骤包括建立一个或多个与发音的文本到语音引擎兼容的声音特征参数。

4.如权利要求1中所述的方法，其中所述建立一个或多个文本到语音控制参数的步骤包括建立所述撰写者实际声音的一个或多个音素样本，所述样本由服务器来存储并与波形拼接的文本到语音引擎兼容。

5.如权利要求1中所述的方法，其中所述将所述即时消息和所述控制参数发送到接收方设备的步骤包括在传输前将所述控制参数与所述即时消息相关联。

6.如权利要求1中所述的方法，其中所述将所述即时消息和所述控制参数发送到接收方设备的步骤包括在传输前将一组指向所述控制参数的超链接与所述即时消息相关联。

7.一种通过可听信号来注释即时消息的系统，所述系统包括：

一个或多个用于声音注释选项的文本到语音控制参数，所述控制参数由撰写者在创建即时消息期间建立；

适合于将所述即时消息和所述控制参数发送到接收方设备的消息发送器；

适合于所述接收方设备接收所述撰写者建立的控制参数的消息接收器；以及

适合于结合查看所述即时消息来根据所述撰写者建立的控制参数执行文本到语音合成，以便根据所述撰写者建立的控制参数来可听地产生代表所述即时消息的文本部分的语音的接收方设备文本到语音引擎。

8.如权利要求7中所述的系统，其中所述一个或多个文本到语音控制参数包括一个或多个与构词的文本到语音引擎兼容的声音特征参数，所述控制参数由服务器来存储。

9.如权利要求7中所述的系统，其中所述一个或多个文本到语音控制参数包括与发音的文本到语音引擎兼容的声音特征参数。

10.如权利要求7中所述的系统，其中所述一个或多个文本到语音控制参数包括所述撰写者实际声音的音素样本，所述样本由服务器来存储并与波形拼接的文本到语音引擎兼容。

11.如权利要求7中所述的系统，其中所述消息发送器还适合于通过在传输前将所述控制参数与所述即时消息相关联来将所述即时消息和所述控制参数发送给接收方设备。

12.如权利要求7中所述的系统，其中所述消息发送器还适合于通过在传输前将一组指向所述控制参数的超链接与所述即时消息相关联来发送所述即时消息和所述控制参数。

13.一种编码有用于通过可听信号来注释即时消息的软件的计算机可读介质，所述软件执行根据权利要求1到6中的任一权利要求的方法中的步骤。