CN1946065A - 通过可听信号来注释即时消息的方法和系统 - Google Patents

通过可听信号来注释即时消息的方法和系统 Download PDF

Info

Publication number
CN1946065A
CN1946065A CN200610093555.0A CN200610093555A CN1946065A CN 1946065 A CN1946065 A CN 1946065A CN 200610093555 A CN200610093555 A CN 200610093555A CN 1946065 A CN1946065 A CN 1946065A
Authority
CN
China
Prior art keywords
control parameter
message
text
instant message
author
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200610093555.0A
Other languages
English (en)
Other versions
CN1946065B (zh
Inventor
T·W·尼迈耶
L·奥罗兹科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Serenes operations
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1946065A publication Critical patent/CN1946065A/zh
Application granted granted Critical
Publication of CN1946065B publication Critical patent/CN1946065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Abstract

一种允许即时消息的撰写者实现和控制到消息接收方的可听语音的产生的系统和方法。将所述消息撰写者的声音表征为与构词的或发音的文本到语音引擎兼容的参数,以便在接收时,接收客户端设备可以根据所述撰写者的声音特征从消息文本生成可听语音信号。可替代地,所述撰写者可以将他或她的实际声音的样本存储在服务器中,以便在所述撰写者将消息传输给接收方时,所述服务器只提取合成所述文本消息中的单词所需的样本,并将这些样本发送到所述接收客户端设备,以便客户端侧波形拼接文本到语音引擎使用这些样本来生成与所述撰写者的实际声音非常相似的可听语音信号。

Description

通过可听信号来注释即时消息的方法和系统
技术领域
本发明涉及一种使用用户声音数据的服务器侧存储以便即时消息传递客户端利用所述数据使用文本到语音合成来读出文本消息的方法。
背景技术
文本到语音合成。传统的文本到语音(“TTS”)合成方法可分为两个主要阶段:高级合成和低级合成。高级合成考虑词以及这些词的语法用法(例如,短语的开始或结尾,诸如句号或问号之类的标点符号等)。通常,执行文本分析以便可以将输入文本转录为语音的表示或某些其他语言的表示,并且语音的信息产生了波形形式的语音生成。
在高级TTS处理期间,分析要说出的文本字符串以将其分为多个词。然后将这些词分成称为“音素”的更小的发音单位。一般而言,音素是一种可以区分词的基本的理论上的发音单位。然后将词定义或配置为音素的集合。然后,在低级TTS处理期间,为每个音素生成(或恢复)数据、装配词并完成短语。
实际上,低级合成生成可以使用适当的电路(如声卡、D/A转换器等)转换为模拟形式的可听语音的数据。存在三种用于低级TTS合成的常用方法:(a)共振峰(formant)合成,(b)波形拼接(concatenative)合成,(c)发音(articulatory)合成。
共振峰合成(也称为终端模拟)仅模仿声源和共振峰频率。它不使用任何人类语音样本,但采用声学模型来创建合成的语音输出。发音、噪音水平和基频是一些用于在一段时间内创建人工语音波形的参数。
由于共振峰合成生成更像机器发音的语音,所以它没有真人的语音自然。共振峰合成的语音的优点之一是其智能性。即使在高速的情况下,它也可以避免通常阻碍波形拼接系统的声学假信号(glitch)。此外,由于基于共振峰的系统在其输出语音中具有总的控制,因此它可以生成多种模拟的情感和语调。
共振峰TTS合成程序的大小小于波形拼接系统,因为它不需要语音样本的数据库。因此,它可以在处理器能力和存储器空间不足的情况下使用。
发音TTS合成方法直接模仿人类语音的生成,但是不使用任何实际录制的声音样本。发音合成尝试数学地模仿人类的声道,并在此进行发音处理。由于这些原因,发音合成通常被看作共振峰TTS合成的更为复杂的版本。
波形拼接合成包括结合或“串接”一系列较短的、预先录制的人类声音样本以便以更具有人类特性的方式来重现词、短语和句子。此方法产生最自然的发音合成的语音。但是,因为它的自然变调,有时可听假信号会影响它的波形(如吸气音、爆破音等),这会消弱它的自然性。为了说出大量词语或词典,波形拼接TTS系统还必须具有可观的数据存储以便保存所有人类声音样本。波形拼接合成有三种子类型:单元选择、双音素和特定域合成。所有子类型都使用预录制的词和短语以根据其方法来创建完整的话语。
概括地说,共振峰或发音TTS系统需要较少的软件和存储空间,但是不会产生具有任何特定真人特征的类似人类的声音。共振峰TTS系统生成在某种程度上听起来像从其获得音素样本的人的声音,但是这些系统需要相当多的用于样本数据库的存储空间。
基于文本的即时消息传递。随着如今技术应用的进步,更多的人使用诸如美国在线(“AOL”)的即时消息传递(“AIM”)[TM]或国际商业机器公司(“IBM”)的SameTime[TM]之类的实时消息传递系统作为一种以近似实时的方式通过他们的计算机与一方或多方通信的方法。
电子邮件和IM一般都是基于文本的。换句话说,因为取决于所使用的服务或网络,它们带有图形、电影、声音等的操作会受到限制、效率低下或不可用,所以它们通常用于发送纯文本消息。
实时消息传递系统与电子邮件(“e-mail”)系统的不同之处在于,消息被立即发送到接收方,并且如果接收方当前不在线,则不存储消息或排队消息以便稍后进行发送。对于即时消息传递,两个(或所有)用户(他们是同一服务的用户)都必须同时在线以便进行通信,并且接收方(多个)还必须愿意接受来自发送方的即时消息。尝试将消息发送给不在线的个人或者不愿接受来自特定发送方的消息的个人会导致出现无法完成传输的通知。
因此,尽管IM通常像电子邮件那样基于文本,但是它的通信机制更像双向的无线电或电话(而不是电子邮件系统)那样工作。
IM中的内容很少,难以帮助视觉受损的用户。文本大小、颜色和背景可以被调整到某种程度。此外,某些运行在特定平台(如运行Windows的IBM兼容个人计算机)上的IM客户端可以激活文本到语音功能,此功能使用类似计算机的合成声音“说出”计算机屏幕上的文本。这种类似计算机的合成声音可能难以理解。此外,由于合成声音对于它读出的所有文本都具有相同的语调和特征(无论消息撰写者为何人),所以消息的接收方可能会发现很难确定谁正在向他们发送IM消息。
已经引入某些新的产品以使得视觉受损的人能够更有效地通过IM进行通信。一种此类方法是完全基于客户端的布置,其中软件允许用户从若干“库存”中选择预录制的声音。使用这些声音之一将接收的文本消息可听地“读”给接收方。不管最初发送文本消息的是何人,用户都以相同的声音和语调收听消息。例如,如果用户选择了男声,则将使用男声读出所有消息而不管消息的撰写者为何人,即使撰写者是女性也是如此。此外,此类基于共振峰的TTS系统需要客户端设备上的存储空间来保存音素样本,这使此系统不适合低成本的普及计算设备应用,如个人数字助理(“PDA”)、智能电话等。
市场上当前提供的另一种方法是将语音消息传递系统与即时消息传递系统结合。如果消息发送方发现目标接收方当前不在线,并因此不能接收IM消息,则发送方可以选择在语音邮件系统中录制消息。然后保存录制的语音消息以供目标接收方以后检索。但是,此方法使发送方所需的工作加倍-首先发送方必须键入文本消息,然后发送方必须录制语音消息。此外,此方法要求目标接收方使用除IM客户端之外的界面-接收方必须以某种方式登录并检索语音邮件消息。
另一种解决这些问题的尝试是向IM消息接收方的客户端设备提供这样的能力:从IM消息文本合成语音并且用户可以根据消息撰写者选择在合成器中指定语音的特定“语调”。此“语调”不是撰写者的语调或特有声音,而是计算机合成的语调,其可由接收方用于帮助区分他或她接收的消息的不同撰写者。
因此,当前的即时文本消息传递技术缺少为视觉受损用户实现更有效通信的易于理解的功能。这些方法中没有一种方法为视觉受损的用户真正解决了即时文本消息传递问题。每种方法都表现出一个或多个以下的问题:要求客户端设备具有大量代码、要求客户端设备具有大量样本存储,或者无法创建在特征或特性上与消息发送方或撰写者类似的语音。
发明内容
本发明允许即时消息的撰写者或发送方实现和控制到消息接收方的可听语音的产生。根据本发明的一个方面,将所述消息撰写者的声音表征为与构词的或发音的文本到语音引擎兼容的参数,以便在接收时,接收客户端设备可以根据所述撰写者的声音特征从消息文本生成可听语音信号。
根据本发明的另一个方面,所述撰写者可以将他或她的实际声音的语音和单词样本存储在服务器中。在所述撰写者将消息传输给接收方时,所述服务器只提取合成所述文本消息中的单词所需的样本,并将这些样本发送到所述接收客户端设备,以便客户端侧波形拼接文本到语音引擎使用这些样本来生成与所述撰写者的所述实际声音非常相似的可听语音信号。
根据本发明的再一个方面,不是传送所述实际的构词或发音控制参数,也不是与所述即时消息一起传送实际的音素样本,而是只与所述消息一起传送超链接或其他指针。然后,在所述接收方客户端设备“读出”所述消息时,可以使用所述链接来检索所述样本和/或参数。
附图说明
当结合在此呈现的附图时,以下详细说明提供了本发明的完整公开:
图1示出了其中将先前配置的使TTS非常类似IM消息撰写者的声音的LFO TTS合成参数与接收客户端进行交换的本发明的一个实施例;
图2a和2b示出了一般化的计算平台体系结构以及此类计算平台体系结构的软件和固件的一般化的组织;
图3a示出了根据本发明的撰写带有声音注释的IM消息的逻辑过程,并且图3b示出了根据本发明的接收和“播放”此类语音注释的IM消息的逻辑过程;
图4示出了利用已录制的用户音素的子集的传输的本发明的另一个实施例;
图5示出了利用指向已采样的用户音素的子集的一组超链接的交换的本发明的另一个实施例;
图6示出了配置LFO TTS语音参数的过程;
图7示出了配置用户音素样本的主集合的过程;
图8示出了根据本发明的允许用户初始化一种或两种初始化其撰写账户的方法的逻辑过程。
具体实施方式
在以下公开中,我们将所有使用软件生成的语调作为语音生成(如构词、发音等)基础的TTS合成方法和系统总称为局部频率振荡器(“LFO”)TTS合成方法。这些类型的方法并不尝试模仿或听起来像任何特殊或特定人的声音,并且通常听起来更像“计算机声音”。它们通常不需要声音样本存储,因为它们几乎完全根据语音和人类声道的数学模型来生成其语音。
同样,我们将所有依赖于采样或录制的人类声音来生成语音信号(例如,波形拼接)的TTS合成方法和系统总称为“基于样本”的TTS方法和系统。
根据替代实施例使用LFO或基于样本的TTS方法或两者的组合以如下方式说明了本发明:最小化接收客户端设备处的资源要求,但是最大化消息撰写者或发送方的控制以确定播放给接收方的声音的独特且可理解的特征。
更广泛地说,本发明提供了发送方声音的服务器侧存储和/或分析,以便将接收客户端设备从复杂的LFO合成软件的显著资源消耗或基于样本的TTS的大量声音样本存储中解脱出来。将消息传送到客户端时,本发明向接收客户端设备提供了若干机制中的一种机制,以便只获取或使用为特定IM消息合成语音所需的资源量。
例如,在第一实施例中,如果接收客户端设备使用基于LFO的TTS,则与IM消息一起发送一组合成参数,所述合成参数导致或控制TTS引擎生成听起来与消息发送方自己的声音类似的声音。这样,接收用户不必为每个潜在的撰写者定义这些参数,接收客户端设备也不必消耗资源(如存储器、磁盘空间等)来为消息的大量潜在撰写者长期存储大量参数。通过使用此方法,向接收用户提供了与众不同的并可识别为每条消息的特定撰写者的声音的TTS,并且不需要消息的发送方或撰写者代替文本IM消息来录制单独的声音消息。
在本发明的第二变型实施例中,如果接收客户端设备使用基于样本的TTS,则由声音注释的消息传递服务器而不是客户端设备来存储每个消息撰写者的音素样本的完整集合。这使客户端设备不必将大量资源专用于为从其接收消息的大量潜在消息撰写者存储音素样本。当将IM消息从消息服务器传输到接收客户端时,消息具备被认为在合成文本消息中包含的单词和短语时所需的音素样本的子集。将不会传输特定消息不需要的音素,由此显著地减少了客户端的数据存储要求。接收客户端然后临时地存储此音素样本的子集直到接收用户听到语音为止,之后可以可选地删除所述样本。此方法使发送方不必随所述消息录制单独的声音消息,最小化了传输期间声音注释的消息的大小,并且允许接收用户根据消息文本听到接近发送方声音的特征和独特特性的合成声音。此外,像第一实施例一样,接收用户无需为每个可以从其接收消息的潜在撰写者配置TTS参数,并且与可用技术相比,减少了用于TTS的客户端设备资源消耗。
在本发明的第三实施例中,操作类似于上述的第二实施例,但是与随IM消息一起传输音素样本的子集相反,只传输一组指向音素样本子集的服务器侧存储位置的指针或超链接。这进一步减小了声音注释的IM消息的大小,但是允许客户端设备可能在合成语音的实时根据其需要来快速检索音素样本。
本发明的一般操作
转到图3a,一般地说,声音注释的即时消息传递系统的用户通常通过键入文本来撰写(30)文本消息,然后撰写者允许(31)目标接收方接收声音注释的消息,并将特殊控制的消息提交或“发送”(32)到与声音注释消息服务器协作的即时消息服务器。
图3b示出了本发明的接收声音注释的即时消息的一般操作,其中接收用户从服务器(多个)接收(33)声音注释的消息;本发明接收(34)撰写者/发送方控制的基于LFO的声音合成参数,或接收(35)撰写者/发送方控制的音素样本,或者同时接收两者;然后根据由消息的撰写者或发送方控制和配置的参数或样本来合成消息的文本。
基于LFO TTS的实施例
如前所述,本发明的第一实施例(11)与采用基于LFO的TTS功能的客户端设备互操作。转到图1,声音注释的消息传递(“VAM”)服务器(48)存储一组用于撰写者或发送方的声音合成参数(11),所述服务器(48)与诸如基于IBM Sametime[TM]的服务器之类的即时消息传递服务器(47)协作。当撰写者创建和发送包含文本部分的即时消息(46)时,VAM服务器还从非客户端存储(11)提取撰写者的LFO合成参数(12),并将这些提取的参数(12)提供(401)给客户端侧LFO TTS引擎(45)。提供(401)这些参数的方法随本发明的实现而不同,包括但不限于:
(a)将参数作为数据部分附加到消息(46);以及
(b)将消息(46)中指向参数存储位置的指针或超链接放置在客户端可访问的存储介质上。
增强的IM客户端(41)然后可以结合显示(43)消息(46)的文本部分,控制LFO TTS引擎从消息(46)的文本生成可听声音信号(44),并且可听声音信号(44)具有由消息的发送方或撰写者确定的特征(12)。
基于样本的TTS实施例
如前所述,如图4中更详细地示出的,本发明的另一个实施例允许与采用基于样本的TTS技术的客户端设备互操作。在此实施例中,由VAM服务器(48)而不是客户端来存储(49)用于每个使用系统的消息的撰写者或发送方的用户音素样本的完整集合。然后,当此类用户创建和发送IM文本消息(46)时,VAM服务器将分析消息(46)的文本内容,确定需要哪些音素来合成消息的读音,以及对于特定的文本消息(46),TTS引擎将不使用哪些音素。然后,VAM服务器(48)从存储(49)提取所需或必需的音素样本(400)的子集,并将其提供(401)给客户端侧基于样本的TTS引擎(42)。与前面所述的基于LFO的实施例类似,用于向客户端侧TTS引擎提供(401)音素样本的子集的方法可根据特定实现的网络和技术的不同而不同,包括但不限于:
(a)将样本(400)附加到消息(46)或将样本(400)与消息(46)关联;以及
(b)提供一个或多个指向存储在客户端可访问介质上的样本子集的指针或超链接(52),以便TTS引擎可在需要时检索(51)样本(如图5所示)。
发送方/撰写者账户初始化
转到图8,其中示出了根据本发明的为每个希望撰写和发送声音注释的消息的用户初始化系统的一般化的过程。撰写者(81)优选地登录网页,调用语音响应单元(“VRU”),或执行类似操作以启动(81)初始化(或维护)过程(80),然后选择(82)初始化基于LFO的操作或基于样本的操作,或者选择两者。
如果用户选择初始化(或更新)基于LFO的TTS操作,则通常提示用户说出单词或短语(83),然后分析(84)这些单词和短语以生成LFO合成参数,然后与用户的账户或标识相关联地存储(11)这些参数。
如果用户选择初始化(或更新)基于样本的TTS操作,则通常提示用户说出单词和短语(85),然后分析(86)这些单词和短语以提取音素样本,然后与用户的账户或标识相关联地存储(49)这些样本。
图6更详细地示出了初始化(或更新)基于LFO的实施例的逻辑过程。为了初始化本发明的此实施例,声音注释的IM消息的每个潜在发送方或撰写者都可以使用其自己的客户端设备(62)(如具有音频记录功能的Web浏览器设备或者电话)与语音分析系统(61)通信(如通过登录网页或调用语音响应单元)。语音分析系统可以是通常提示用户说出单词、声音或短语,然后对这些语音样本执行算法分析以确定语音的特定特征的若干可用类型中的一种类型。例如,所述分析可以产生诸如用户声音的和声内容(例如,在该处找到声音样本的大部分能量的主频)和用户声音的能量包络(例如,每次说出单词或短语时的能量和声压)之类的参数。
如前面结合将声音注释的IM消息传送到接收客户端设备所述的,用户声音分析器(61)然后将这些参数存储(11)在可由VAM服务器(48)访问的数据存储中以供以后使用。
图7更详细地示出了初始化(或更新)基于样本的实施例的逻辑过程。与基于LFO的实施例的初始化过程类似,此过程允许用户使用诸如启用音频的Web浏览器或电话之类的客户端设备(62)与可以是用于此目的的若干可用单元之一的用户音素分析器(71)通信(701)(如通过电话呼叫或到Web服务器的连接)。音素分析器(71)通常提示用户说出若干短语、单词和声音(已知它们包含所有重新创建单词的完整词典所需的发音单元)。通常,无需用户说出词典的所有单词,但是可能录制某些特定的单词(如用户的名称)。
然后,音素分析器从用户提供的语音样本提取音素,并且如先前描述的,将所述音素存储在可由VAM服务器(48)访问的用户音素数据库(49)中以供在传输声音注释的IM消息期间使用。
适合的计算平台
本发明优选地被实现为已在诸如个人计算机、Web服务器和Web浏览器之类的公知计算平台上存在的软件的功能或附加功能。这些通用的计算平台可以包括个人计算机以及便携式计算平台,如个人数字助理(“PDA”)、启用Web的无线电话和其他类型的个人信息管理(“PIM”)设备。
因此,重温计算平台的一般体系结构是有用的,其可以将实现范围从高端Web或企业服务器平台扩展到个人计算机,到便携PDA或启用Web的无线电话。
转到图2a,其中示出了包括中央处理单元(21)(“CPU”)的一般体系结构,中央处理单元(21)通常包括与随机存取存储器(“RAM”)(24)和只读存储器(“ROM”)(25)关联的微处理器(22)。通常,CPU(21)还具备高速缓冲存储器(23)和可编程闪速ROM(26)。微处理器(22)与各种类型的CPU存储器之间的接口(27)通常被称为“局部总线”,但也可以是更通用的总线或工业标准总线。
许多计算平台还具备一个或多个存储设备(29),例如硬盘驱动器(“HDD”)、软盘驱动器、光盘驱动器(CD、CD-R、CD-RW、DVD、DVD-R等),以及专用盘和磁带驱动器(如Iomega Zip[TM]和Jaz[TM],AddonicsSuperDisk[TM]等)。此外,某些存储驱动器可以通过计算机网络来访问。
根据计算平台的期望功能,许多计算平台具备一个或多个通信接口(210)。例如,个人计算机通常具备高速串口(RS-232、RS-422等)、增强的并口(“EPP”)以及一个或多个通用串行总线(“USB”)端口。计算平台还可以具备诸如以太网卡之类的局域网(“LAN”)接口和诸如高性能串行总线IEEE-1394之类的其他高速接口。
诸如无线电话和无线联网的PDA之类的计算平台还可以具备带有天线的射频(“RF”)接口。在某些情况下,所述计算平台还可以具备红外线数据布置(“IrDA”)接口。
计算平台通常具备一个或多个内部扩展槽(211)(例如工业标准体系结构(“ISA”)、增强型工业标准体系结构(“EISA”)、外围组件互连(“PCI”)或专用接口槽)以便添加其他硬件,如声卡、存储器板和图形加速器。
此外,许多单元(如膝上型计算机和PDA)具备一个或多个外部扩展槽(212),其允许用户轻松地安装和移除硬件扩展设备(如PCMCIA卡、SmartMedia卡)和各种专用模块(如可移动硬盘驱动器、CD驱动器和软盘驱动器)。
通常,存储驱动器(29)、通信接口(210)、内部扩展槽(211)和外部扩展槽(212)通过诸如ISA、EISA或PCI之类的标准或工业开放总线体系结构(28)与CPU(21)互连。在许多情况下,总线(28)可能具有专用设计。
计算平台通常具备一个或多个用户输入设备,如键盘或小键盘(216)、鼠标或指点设备(217)和/或触摸屏显示器(218)。在个人计算机的情况下,通常与鼠标或指点设备(如轨迹球或TrackPoint[TM])一起提供了标准键盘。在启用Web的无线电话的情况下,可以与一个或多个特定功能键一起提供简单的小键盘。在PDA的情况下,通常随手写识别功能一起提供触摸屏(218)。
此外,计算平台具备诸如启用Web的无线电话的麦克风或个人计算机的麦克风之类的麦克风(219)。此麦克风可用于简单地报告音频和语音信号,也可用于使用语音识别功能来输入用户选择,例如网站语音导航或自动拨号。
许多计算平台还配备有照相机设备(2100),例如静态数码相机或全动态数码摄像机。
多数计算平台还具备诸如显示器(213)之类的一个或多个用户输出设备。显示器(213)可以采取多种形式,包括阴极射线管(“CRT”)、薄膜晶体管(“TFT”)阵列、一组简单的发光二极管(“LED”)或液晶显示(“LCD”)指示器。
计算平台通常还关联有一个或多个扬声器(214)和/或信号器(215)。扬声器(214)(如无线电话的扬声器或个人计算机的扬声器)可用于重放声频或音乐。信号器(215)可以采取简单的哔声发射器或峰鸣器的形式,它们通常可在诸如PDA和PIM之类的特定设备中找到。
这些用户输入和输出设备可通过专用总线结构和/或接口与CPU(21)直接互连(28’,28”),或者它们可以通过诸如ISA、EISA、PCI之类的一个或多个工业开放总线来互连。
计算平台还具备一个或多个软件和固件(2101)程序以实现所需的计算平台功能。
现在转到图2b,其中详细示出了此计算平台范围内的软件和固件(2101)的一般组织。计算平台上可以提供一个或多个操作系统(“OS”)固有的应用程序(223),例如字处理器、电子表格、联系人管理实用工具、地址簿、日历、电子邮件客户端、演示文稿、财务和记帐程序。
此外,可以提供一个或多个“可移植”或设备无关的程序(224),这些程序必须由诸如Java[TM]脚本和程序之类的操作系统固有的平台特定的解释器(225)来解释。
通常,计算平台还具备某种形式的Web浏览器或微浏览器(226),它们还可以包括对浏览器的一个或多个扩展,如浏览器插件(227)。
计算设备还具备操作系统(220)(例如Microsoft Windows[TM]、UNIX、IBM OS/2[TM]、IBM AIX[TM]、开放源代码LINUX、苹果的MAC OS[TM])或其他平台特定的操作系统。诸如PDA和无线电话之类的小型设备可以配备有其他形式的操作系统,例如实时操作系统(“RTOS”)或Palm Computing的PalmOS[TM]。
通常提供一组基本输入和输出功能(“BIOS”)以及硬件设备驱动程序(221)以允许操作系统(220)和程序连接到随计算平台提供的特定硬件的功能并控制这些功能。
此外,许多计算平台通常具备一个或多个嵌入式固件程序(222),这些程序由作为外围设备(如微控制器或硬盘驱动器、通信处理器、网络接口卡、声卡或图形卡)的一部分的板上或“嵌入式”微处理器来执行。
这样,图2a和2b总体描述了各种计算平台的各种硬件组件、软件和固件程序,这些计算平台包括但不限于个人计算机、PDA、PIM、启用Web的电话和其他诸如WebTV[TM]单元之类的设备。这样,现在我们将注意力转向关于被优选地实现为此类计算平台上的软件和固件的过程和方法的本发明的公开。本领域的技术人员将容易地认识到,在不偏离本发明的精神和范围的情况下,可以可替代地将下列方法和过程部分或全部实现为硬件功能。
已经描述了本发明,其中包括若干示例性的实例。本领域的技术人员将认识到,这些实例并不代表本发明的全部范围,可以做出特定的替代实施例选择,包括但不限于使用替代编程语言或方法,使用替代计算平台,以及采用替代通信协议和网络。因此,本发明的范围应由下列权利要求来确定。

Claims (13)

1.一种通过可听信号来注释即时消息的方法,所述方法包括:
撰写者在创建即时消息期间建立一个或多个用于声音注释选项的文本到语音控制参数;
将所述即时消息和所述控制参数发送到接收方设备;
所述接收方设备接收所述撰写者建立的控制参数;以及
结合查看所述即时消息,所述接收方设备根据所述撰写者建立的控制参数来执行文本到语音合成,以便根据所述撰写者建立的控制参数来可听地产生代表所述即时消息的文本部分的语音。
2.如权利要求1中所述的方法,其中所述建立一个或多个文本到语音控制参数的步骤包括建立一个或多个与构词的文本到语音引擎兼容的声音特征参数,所述控制参数由服务器来存储。
3.如权利要求1中所述的方法,其中所述建立一个或多个文本到语音控制参数的步骤包括建立一个或多个与发音的文本到语音引擎兼容的声音特征参数。
4.如权利要求1中所述的方法,其中所述建立一个或多个文本到语音控制参数的步骤包括建立所述撰写者实际声音的一个或多个音素样本,所述样本由服务器来存储并与波形拼接的文本到语音引擎兼容。
5.如权利要求1中所述的方法,其中所述将所述即时消息和所述控制参数发送到接收方设备的步骤包括在传输前将所述控制参数与所述即时消息相关联。
6.如权利要求1中所述的方法,其中所述将所述即时消息和所述控制参数发送到接收方设备的步骤包括在传输前将一组指向所述控制参数的超链接与所述即时消息相关联。
7.一种通过可听信号来注释即时消息的系统,所述系统包括:
一个或多个用于声音注释选项的文本到语音控制参数,所述控制参数由撰写者在创建即时消息期间建立;
适合于将所述即时消息和所述控制参数发送到接收方设备的消息发送器;
适合于所述接收方设备接收所述撰写者建立的控制参数的消息接收器;以及
适合于结合查看所述即时消息来根据所述撰写者建立的控制参数执行文本到语音合成,以便根据所述撰写者建立的控制参数来可听地产生代表所述即时消息的文本部分的语音的接收方设备文本到语音引擎。
8.如权利要求7中所述的系统,其中所述一个或多个文本到语音控制参数包括一个或多个与构词的文本到语音引擎兼容的声音特征参数,所述控制参数由服务器来存储。
9.如权利要求7中所述的系统,其中所述一个或多个文本到语音控制参数包括与发音的文本到语音引擎兼容的声音特征参数。
10.如权利要求7中所述的系统,其中所述一个或多个文本到语音控制参数包括所述撰写者实际声音的音素样本,所述样本由服务器来存储并与波形拼接的文本到语音引擎兼容。
11.如权利要求7中所述的系统,其中所述消息发送器还适合于通过在传输前将所述控制参数与所述即时消息相关联来将所述即时消息和所述控制参数发送给接收方设备。
12.如权利要求7中所述的系统,其中所述消息发送器还适合于通过在传输前将一组指向所述控制参数的超链接与所述即时消息相关联来发送所述即时消息和所述控制参数。
13.一种编码有用于通过可听信号来注释即时消息的软件的计算机可读介质,所述软件执行根据权利要求1到6中的任一权利要求的方法中的步骤。
CN200610093555.0A 2005-10-03 2006-06-26 通过可听信号来注释即时消息的方法和系统 Active CN1946065B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/242,661 2005-10-03
US11/242,661 US8224647B2 (en) 2005-10-03 2005-10-03 Text-to-speech user's voice cooperative server for instant messaging clients

Publications (2)

Publication Number Publication Date
CN1946065A true CN1946065A (zh) 2007-04-11
CN1946065B CN1946065B (zh) 2012-01-11

Family

ID=37902930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610093555.0A Active CN1946065B (zh) 2005-10-03 2006-06-26 通过可听信号来注释即时消息的方法和系统

Country Status (3)

Country Link
US (3) US8224647B2 (zh)
JP (1) JP2007102787A (zh)
CN (1) CN1946065B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103021402A (zh) * 2011-09-26 2013-04-03 株式会社东芝 合成字典制作装置及合成字典制作方法
CN103533155A (zh) * 2012-07-06 2014-01-22 三星电子株式会社 在移动终端中记录和播放用户语音的方法和装置
CN105721292A (zh) * 2016-03-31 2016-06-29 宇龙计算机通信科技(深圳)有限公司 一种信息读取方法、装置及终端

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8224647B2 (en) 2005-10-03 2012-07-17 Nuance Communications, Inc. Text-to-speech user's voice cooperative server for instant messaging clients
US8600753B1 (en) * 2005-12-30 2013-12-03 At&T Intellectual Property Ii, L.P. Method and apparatus for combining text to speech and recorded prompts
US8103509B2 (en) * 2006-12-05 2012-01-24 Mobile Voice Control, LLC Wireless server based text to speech email
US8478598B2 (en) * 2007-08-17 2013-07-02 International Business Machines Corporation Apparatus, system, and method for voice chat transcription
US20090055186A1 (en) * 2007-08-23 2009-02-26 International Business Machines Corporation Method to voice id tag content to ease reading for visually impaired
US8103506B1 (en) * 2007-09-20 2012-01-24 United Services Automobile Association Free text matching system and method
US8285548B2 (en) 2008-03-10 2012-10-09 Lg Electronics Inc. Communication device processing text message to transform it into speech
US20120069974A1 (en) * 2010-09-21 2012-03-22 Telefonaktiebolaget L M Ericsson (Publ) Text-to-multi-voice messaging systems and methods
EA201001550A1 (ru) * 2010-10-25 2012-02-28 Висконти Груп Менеджмент Лтд. Способ преобразования текстов, способ поиска, способ автоматизированного перевода и способ автоматизированного озвучивания текстов
US20120259633A1 (en) * 2011-04-07 2012-10-11 Microsoft Corporation Audio-interactive message exchange
US9240180B2 (en) 2011-12-01 2016-01-19 At&T Intellectual Property I, L.P. System and method for low-latency web-based text-to-speech without plugins
US9015044B2 (en) * 2012-03-05 2015-04-21 Malaspina Labs (Barbados) Inc. Formant based speech reconstruction from noisy signals
PL401347A1 (pl) * 2012-10-25 2014-04-28 Ivona Software Spółka Z Ograniczoną Odpowiedzialnością Spójny interfejs do lokalnej i oddalonej syntezy mowy
CN104050962B (zh) * 2013-03-16 2019-02-12 广东恒电信息科技股份有限公司 基于语音合成技术的多功能阅读器
GB2516942B (en) * 2013-08-07 2018-07-11 Samsung Electronics Co Ltd Text to Speech Conversion
KR101703214B1 (ko) * 2014-08-06 2017-02-06 주식회사 엘지화학 문자 데이터의 내용을 문자 데이터 송신자의 음성으로 출력하는 방법
US10176798B2 (en) * 2015-08-28 2019-01-08 Intel Corporation Facilitating dynamic and intelligent conversion of text into real user speech
CN106547511B (zh) 2015-09-16 2019-12-10 广州市动景计算机科技有限公司 一种语音播读网页信息的方法、浏览器客户端及服务器
US9830903B2 (en) * 2015-11-10 2017-11-28 Paul Wendell Mason Method and apparatus for using a vocal sample to customize text to speech applications
US10083684B2 (en) * 2016-08-22 2018-09-25 International Business Machines Corporation Social networking with assistive technology device
US10339925B1 (en) * 2016-09-26 2019-07-02 Amazon Technologies, Inc. Generation of automated message responses
CN109213466B (zh) * 2017-06-30 2022-03-25 北京国双科技有限公司 庭审信息的显示方法及装置
CN108366302B (zh) * 2018-02-06 2020-06-30 南京创维信息技术研究院有限公司 Tts播报指令优化方法、智能电视、系统及存储装置
CN111261139B (zh) * 2018-11-30 2023-12-26 上海擎感智能科技有限公司 文字拟人化播报方法及系统
CN110415678A (zh) * 2019-06-13 2019-11-05 百度时代网络技术(北京)有限公司 自定义语音播报客户端、服务器、系统及方法
CN110337030B (zh) * 2019-08-08 2020-08-11 腾讯科技(深圳)有限公司 视频播放方法、装置、终端和计算机可读存储介质
US11270702B2 (en) 2019-12-07 2022-03-08 Sony Corporation Secure text-to-voice messaging

Family Cites Families (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5278943A (en) * 1990-03-23 1994-01-11 Bright Star Technology, Inc. Speech animation and inflection system
US5444768A (en) * 1991-12-31 1995-08-22 International Business Machines Corporation Portable computer device for audible processing of remotely stored messages
JPH05260082A (ja) 1992-03-13 1993-10-08 Toshiba Corp テキスト読み上げ装置
US5559927A (en) * 1992-08-19 1996-09-24 Clynes; Manfred Computer system producing emotionally-expressive speech messages
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
US6035273A (en) * 1996-06-26 2000-03-07 Lucent Technologies, Inc. Speaker-specific speech-to-text/text-to-speech communication system with hypertext-indicated speech parameter changes
JP3349905B2 (ja) * 1996-12-10 2002-11-25 松下電器産業株式会社 音声合成方法および装置
US5812126A (en) * 1996-12-31 1998-09-22 Intel Corporation Method and apparatus for masquerading online
US5890115A (en) * 1997-03-07 1999-03-30 Advanced Micro Devices, Inc. Speech synthesizer utilizing wavetable synthesis
US7027568B1 (en) * 1997-10-10 2006-04-11 Verizon Services Corp. Personal message service with enhanced text to speech synthesis
JPH11265195A (ja) * 1998-01-14 1999-09-28 Sony Corp 情報配信システム、情報送信装置、情報受信装置、情報配信方法
PT1057827E (pt) 1998-01-23 2003-11-28 Sankyo Co Derivados da espiropiperidina
KR100259918B1 (ko) * 1998-03-05 2000-06-15 윤종용 핸즈프리키트의 쇼트메시지 음성합성 장치 및 방법
US5995590A (en) * 1998-03-05 1999-11-30 International Business Machines Corporation Method and apparatus for a communication device for use by a hearing impaired/mute or deaf person or in silent environments
US6023678A (en) * 1998-03-27 2000-02-08 International Business Machines Corporation Using TTS to fill in for missing dictation audio
US6100461A (en) * 1998-06-10 2000-08-08 Advanced Micro Devices, Inc. Wavetable cache using simplified looping
JP2000122941A (ja) 1998-10-14 2000-04-28 Matsushita Electric Ind Co Ltd 電子メールを用いた情報転送方法
EP1045372A3 (en) * 1999-04-16 2001-08-29 Matsushita Electric Industrial Co., Ltd. Speech sound communication system
US6611802B2 (en) * 1999-06-11 2003-08-26 International Business Machines Corporation Method and system for proofreading and correcting dictated text
JP2001034280A (ja) * 1999-07-21 2001-02-09 Matsushita Electric Ind Co Ltd 電子メール受信装置および電子メールシステム
US6557026B1 (en) * 1999-09-29 2003-04-29 Morphism, L.L.C. System and apparatus for dynamically generating audible notices from an information network
US20030028380A1 (en) * 2000-02-02 2003-02-06 Freeland Warwick Peter Speech system
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
US6810379B1 (en) * 2000-04-24 2004-10-26 Sensory, Inc. Client/server architecture for text-to-speech synthesis
US7277855B1 (en) * 2000-06-30 2007-10-02 At&T Corp. Personalized text-to-speech services
US6801931B1 (en) * 2000-07-20 2004-10-05 Ericsson Inc. System and method for personalizing electronic mail messages by rendering the messages in the voice of a predetermined speaker
JP2002149560A (ja) * 2000-08-28 2002-05-24 Sharp Corp 電子メール装置及び電子メールシステム
US6862568B2 (en) * 2000-10-19 2005-03-01 Qwest Communications International, Inc. System and method for converting text-to-voice
US6978239B2 (en) * 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification
US6876968B2 (en) * 2001-03-08 2005-04-05 Matsushita Electric Industrial Co., Ltd. Run time synthesizer adaptation to improve intelligibility of synthesized speech
CN1159702C (zh) 2001-04-11 2004-07-28 国际商业机器公司 具有情感的语音-语音翻译系统和方法
US6570983B1 (en) * 2001-07-06 2003-05-27 At&T Wireless Services, Inc. Method and system for audibly announcing an indication of an identity of a sender of a communication
JP3589216B2 (ja) * 2001-11-02 2004-11-17 日本電気株式会社 音声合成システム及び音声合成方法
US6816578B1 (en) * 2001-11-27 2004-11-09 Nortel Networks Limited Efficient instant messaging using a telephony interface
US20060069567A1 (en) * 2001-12-10 2006-03-30 Tischer Steven N Methods, systems, and products for translating text to speech
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
KR100450319B1 (ko) * 2001-12-24 2004-10-01 한국전자통신연구원 가상 환경에서 참여자간의 의사전달 장치 및 방법
US7123695B2 (en) * 2002-05-21 2006-10-17 Bellsouth Intellectual Property Corporation Voice message delivery over instant messaging
US20050043951A1 (en) * 2002-07-09 2005-02-24 Schurter Eugene Terry Voice instant messaging system
AU2002950502A0 (en) 2002-07-31 2002-09-12 E-Clips Intelligent Agent Technologies Pty Ltd Animated messaging
FR2843479B1 (fr) * 2002-08-07 2004-10-22 Smart Inf Sa Procede de calibrage d'audio-intonation
US20040054534A1 (en) * 2002-09-13 2004-03-18 Junqua Jean-Claude Client-server voice customization
US8666747B2 (en) * 2002-10-31 2014-03-04 Verizon Business Global Llc Providing information regarding interactive voice response sessions
US7280968B2 (en) * 2003-03-25 2007-10-09 International Business Machines Corporation Synthetically generated speech responses including prosodic characteristics of speech inputs
WO2004097792A1 (ja) * 2003-04-28 2004-11-11 Fujitsu Limited 音声合成システム
US8005677B2 (en) * 2003-05-09 2011-08-23 Cisco Technology, Inc. Source-dependent text-to-speech system
JP2005031919A (ja) 2003-07-10 2005-02-03 Ntt Docomo Inc 通信システム
US20050027539A1 (en) * 2003-07-30 2005-02-03 Weber Dean C. Media center controller system and method
US8886538B2 (en) * 2003-09-26 2014-11-11 Nuance Communications, Inc. Systems and methods for text-to-speech synthesis using spoken example
US20050096909A1 (en) * 2003-10-29 2005-05-05 Raimo Bakis Systems and methods for expressive text-to-speech
US7454349B2 (en) * 2003-12-15 2008-11-18 Rsa Security Inc. Virtual voiceprint system and method for generating voiceprints
FR2865846A1 (fr) * 2004-02-02 2005-08-05 France Telecom Systeme de synthese vocale
KR20070004788A (ko) * 2004-03-05 2007-01-09 레삭 테크놀로지스 인코포레이티드. 프로소딕 스피치 텍스트 코드 및 컴퓨터화 스피치 시스템내에서의 프로소딕 스피치 텍스트 코드의 사용법
US7865365B2 (en) * 2004-08-05 2011-01-04 Nuance Communications, Inc. Personalized voice playback for screen reader
US7693719B2 (en) * 2004-10-29 2010-04-06 Microsoft Corporation Providing personalized voice font for text-to-speech applications
US7706510B2 (en) * 2005-03-16 2010-04-27 Research In Motion System and method for personalized text-to-voice synthesis
US7269561B2 (en) * 2005-04-19 2007-09-11 Motorola, Inc. Bandwidth efficient digital voice communication system and method
US8224647B2 (en) 2005-10-03 2012-07-17 Nuance Communications, Inc. Text-to-speech user's voice cooperative server for instant messaging clients
US8886537B2 (en) * 2007-03-20 2014-11-11 Nuance Communications, Inc. Method and system for text-to-speech synthesis with personalized voice

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103021402A (zh) * 2011-09-26 2013-04-03 株式会社东芝 合成字典制作装置及合成字典制作方法
CN103021402B (zh) * 2011-09-26 2015-09-09 株式会社东芝 合成字典制作装置及合成字典制作方法
CN103533155A (zh) * 2012-07-06 2014-01-22 三星电子株式会社 在移动终端中记录和播放用户语音的方法和装置
US9786267B2 (en) 2012-07-06 2017-10-10 Samsung Electronics Co., Ltd. Method and apparatus for recording and playing user voice in mobile terminal by synchronizing with text
CN103533155B (zh) * 2012-07-06 2018-04-13 三星电子株式会社 在移动终端中记录和播放用户语音的方法和装置
CN105721292A (zh) * 2016-03-31 2016-06-29 宇龙计算机通信科技(深圳)有限公司 一种信息读取方法、装置及终端

Also Published As

Publication number Publication date
US20120253816A1 (en) 2012-10-04
JP2007102787A (ja) 2007-04-19
US8224647B2 (en) 2012-07-17
US8428952B2 (en) 2013-04-23
US9026445B2 (en) 2015-05-05
US20070078656A1 (en) 2007-04-05
CN1946065B (zh) 2012-01-11
US20130218569A1 (en) 2013-08-22

Similar Documents

Publication Publication Date Title
CN1946065B (zh) 通过可听信号来注释即时消息的方法和系统
US9761219B2 (en) System and method for distributed text-to-speech synthesis and intelligibility
US20040064322A1 (en) Automatic consolidation of voice enabled multi-user meeting minutes
US20060069567A1 (en) Methods, systems, and products for translating text to speech
US20040111271A1 (en) Method and system for customizing voice translation of text to speech
US20120201362A1 (en) Posting to social networks by voice
US20200184948A1 (en) Speech playing method, an intelligent device, and computer readable storage medium
US9892095B2 (en) Reconciliation of transcripts
CN110493123B (zh) 即时通讯方法、装置、设备及存储介质
CN1246826C (zh) 在语音合成系统中将背景音与文本语音混合输出的方法
US20040098266A1 (en) Personal speech font
US8423366B1 (en) Automatically training speech synthesizers
US20090177473A1 (en) Applying vocal characteristics from a target speaker to a source speaker for synthetic speech
KR100917552B1 (ko) 대화 시스템의 충실도를 향상시키는 방법 및 컴퓨터이용가능 매체
US7428491B2 (en) Method and system for obtaining personal aliases through voice recognition
Davis et al. Masked speech priming: neighborhood size matters
TWI768412B (zh) 發音教學方法
CN115938342A (zh) 语音处理方法、装置、电子设备及存储介质
CN117597728A (zh) 使用未完全训练的文本到语音模型的个性化和动态的文本到语音声音克隆
JP2001022371A (ja) 音声合成電子メール送受信方法
Subbulakshmi et al. Efficient AI-Powered Audio-to-Text Transcription: A GUI-Enhanced Stack with EXE Build for Innovation in Communications
CN113870829A (zh) 基于家庭角色的声学模型播报的方法、系统、设备及存储介质
Damodar An Android Based Voice-Mail Application for Visually Impaired
Branco et al. A Portuguese spoken and multi-modal dialog corpora.
HIX H. REX HARTSON

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: NEW ANST COMMUNICATION CO.,LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP.

Effective date: 20091002

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20091002

Address after: Massachusetts, USA

Applicant after: Nuance Communications Inc

Address before: American New York

Applicant before: International Business Machines Corp.

C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200921

Address after: Massachusetts, USA

Patentee after: Serenes operations

Address before: Massachusetts, USA

Patentee before: Nuance Communications, Inc.