CN101356427A

CN101356427A - 使用发送者语音的电子邮件文本到话音转换

Info

Publication number: CN101356427A
Application number: CN200780001288.2A
Authority: CN
Inventors: 萨杰韦·库玛; 拉比士·帕特尔; 约瑟夫·廓里; 沐酷勒·珍
Original assignee: Cisco Technology Inc
Current assignee: Cisco Technology Inc
Priority date: 2006-01-24
Filing date: 2007-01-03
Publication date: 2009-01-28
Also published as: WO2007087120A3; EP1977208A2; WO2007087120A2; US20070174396A1

Abstract

多个作者的语音可以被用在电子邮件线程的文本到话音(TTS)转换中，使得该线程的每个片段被用该作者的语音来阅读。标签被用来标识哪个文本部分对应于哪个作者。语音特性可以源自作者的发送设备或者可以集中存储于统一的消息传递服务器处的语音特性数据库中，并被提供到电子邮件线程的接收者。类似的方法可被用在正被多个作者编辑的单个文档中，例如变化被跟踪的文档。与文档的不同片段相对应的作者的不同语音特性可被访问以用于TTS转换，从而在音频设备(例如电话、VoIP电话、蜂窝电话等等)上收听的人能够识别特定片段的作者，而无需使用文本或其他显示的信息。

Description

使用发送者语音的电子邮件文本到话音转换

背景技术

本发明一般地涉及电子通信系统，更具体而言涉及使用文本作者的语音特性(voice characteristic)的文本到话音转换(text-to-speechconversion)系统。

现今在远程通信方面我们有了许多选择。传统上，电话系统提供语音通信和打印副本的电子传真(fax)传输。诸如因特网之类的全球网络以及计算机、个人数字助理(PDA)、便携式处理器和电子邮件设备(例如Cleo^TM、Blackberry^TM等等)的普遍使用允许选择其他通信方式，例如电子邮件、聊天、即时消息传递(IM)、web发贴、基于因特网协议(IP)的语音(VoIP)电话，等等。

这些通信形式中的每一种都具有其自己的格式、传送协议、输入/输出设备或其他细节。例如，使用蜂窝电话的人经常不能很容易地访问或查看电子邮件消息。该问题的一种解决方案是从一种格式转换成另一种。文本到话音转换可用在这种情形下，以允许使用蜂窝电话的人能够使电子邮件的内容以合成话音的方式被读出，从而能够通过电话来收听电子邮件消息。类似地，其他类型的文本信息可被转换成音频话音，以便通过音频设备而不是显示设备来传输或重放。

对文本到话音转换的一种改进在于尝试再现文本作者的语音。为了实现这一点，作者的语音的特性或特征被提取并与作者的文本一起被发送。如果接收者具有用来转换和收听作者的消息的适当设备，那么他们就能够听到与作者语音类似或者至少某种程度上能够被识别为作者语音(只要技术允许)的语音所说出的消息。

文本到话音转换中的特征提取和语音特性的使用例如在以下论文中有记载：“High Resolution Voice Transformation”，Alexander Blouke Kain，Computer Science and Mathematics，Rockford College，1995。

附图说明

图1示出了用于将语音特征与文本通信一起提供的系统中的实体和组件的简化框图；

图2图示了具有多个作者和多个片段(part)的电子邮件线程的生成；

图3示出了通常可能显示在传统设备上的电子邮件消息；以及

图4示出了根据本发明实施例的、用来生成图3的显示的通用数据文件格式的图示，其中包括标签。

具体实施方式

本发明的优选实施例使得多个作者的语音可以被用在电子邮件线程的文本到话音(TTS)转换中。电子邮件线程包括来自2个或更多个作者的文本或片段。标签被用来标识哪个文本部分对应于哪个作者。语音特性可以源自作者的发送设备或者可以集中存储于统一的消息传递服务器处的语音特性数据库中，并被提供到电子邮件线程的接收者。

另一个实施例使得语音特性标签可被用在多个作者正在编辑的单个文档中，例如变化被跟踪的文档。与文档的不同片段相对应的作者的不同语音特性可被访问以用于TTS转换，从而在音频设备(例如电话、VoIP电话、蜂窝电话等等)上收听的人能够识别特定片段的作者，而无需使用文本或其他显示的信息。

图1示出了用于将语音特征与文本通信一起提供的系统中的实体和组件的简化框图。用户1是在诸如客户端计算机102之类的处理设备处的第一人类用户。作为系统中的第一步，用户1的语音特性被捕捉和存储。在优选实施例中，计算机系统102向用户1呈现样本文本110。用户1阅读文本并且用户1的话音被计算机系统102捕捉以用于特征提取。提取出的特征以及可能有的其他语音特性被传送到统一消息传递系统(UMS)112，并被存储在用户简档数据库114中。

注意，任何类型的适当设备都可用来执行特征提取或者获得下面描述的其他语音特性。例如，可以使用蜂窝电话、个人数字助理(PDA)、便携式计算机等等。可以使用不止一个设备，其中在第一设备(例如运行互联网浏览器的计算机)上呈现文本，并且在第二设备(例如蜂窝电话)上捕捉语音。另外，特征提取的处理功能可由一个或多个设备来执行。例如，图1的特征提取可由计算机102执行，或者由UMS处的处理器执行，或者由其他位置中的一个或多个处理器执行。一般来说，这里描述的任何功能根据需要都可由一个或多个处理设备来执行。功能的一些部分可在不同时刻执行(例如分批模式)、基本同时执行(例如实时)、在一个或多个地理位置中执行或者通过任何现有的或将来的处理技术执行。

用户1使用客户端计算机来生成信息，例如电子邮件消息、聊天消息、即时消息、文档等等。在其他实施例中，不同的用户设备可替换客户端计算机。一般来说，可以使用任何能产生文本信息的设备。可以使用执行话音识别并产生文本作为输出的设备。本申请中使用的“文本”意图包括任何类型的符号化语言表示。字母数字字符、符号、图形、来自不同语言的字符等等都包括在“文本”的含义内。

当用户1作者生成文本消息并将消息发送到接收者即用户2时，UMS112检测到该消息被发送并将用户1的语音特性与该消息一起提供。语音特性可与消息同时提供，或者在消息发送之前或之后提供。在优选实施例中，如下所述，标签被用于根据特定的语音特性来对要转换成话音的文本进行定界。

一旦电子邮件消息被用户设备130接收，TTS子系统120就利用例如典型数字处理系统所提供的标准技术来执行转换。用来执行TTS功能的基本组件(例如耦合到存储器、用户界面、控制电路等的处理器)在图1中没有示出，不过是本领域公知的。一旦话音被合成，它就经由音频变换器132被呈现给用户2。

图2图示了具有多个作者和多个片段的电子邮件线程的生成。用户1编写并发送具有片段A的电子邮件150到用户2和用户3。接着，用户3通过添加片段B来创建包括具有分别来自两个不同作者用户1和用户3的两个片段A和B的线程的消息160，从而对用户1的电子邮件作出响应(并且还抄送用户2)。最后，用户2添加片段C到消息170中的电子邮件线程中，并将其发送到用户3。

在构建线程的电子邮件消息的每次传送中，电子邮件服务器140(或者UMS或其他类型的通信服务器或设备)可以添加标签或其他标记来对每个片段或一个片段内的一个部分进行定界。与每个作者相关联的语音特性可与每个电子邮件消息传送一起被服务器140传送。另一个选项是电子邮件服务器140对于每个线程只发送语音特性一次，例如只在向用户2和用户3传送电子邮件150时发送用户1的语音特性。当用户3发送消息160时，用户3的语音特性被传送到用户1和用户2。最后，当用户2发送消息170时，于是用户2的语音特性被传送到用户3。

电子邮件服务器140可跟踪语音特性何时被更新或修改，并且如果已知用户具有当前版本则不需要重新发送语音特性。从而，语音特性可被存储在用户计算机本地或者其他本地设备中，用于对接收到的文本信息执行TTS转换。存储、更新和传送语音特性记录的其他布置也是可能的。

图3示出了通常会显示在传统设备上(例如在计算机显示器的浏览器窗口或电子邮件程序中)的包括三片段线程的电子邮件消息180。每个片段是已被结合到电子邮件消息的线程180中的先前电子邮件消息。片段186对应于图2的片段A，片段184对应于片段B，片段182对应于片段C。通常，线程的每个片段包括列出标准信息的头部，所述标准信息例如是该片段的发送者、接收者和CC(如果有的话)、主题和接收日期。在其他实施例中，可能不需要包括头部，或者如果需要包括的话，则头部中的信息的量和类型可与这里的示例不同。

在优选实施例中，每个片段的内容或消息部分在TTS转换中被利用该片段的作者的语音特性读出。线程被从下往上阅读，以从最早的消息读到最近的消息。如果收听者希望听到诸如头部信息之类的细节，则这种选项可利用标准控件来选择，所述标准控件例如是蜂窝电话上的数字小键盘、触摸屏、计算机键盘、语音命令，等等。一般来说，根据需要可提供与音频重放和TTS有关的额外特征。例如，可以使用用于改变音量、前跳或后跳、暂停等等的控件。

图4示出了用来生成图3的显示的数据文件200。注意，图4意图代表文本消息的任何类型的数据表示。通常，原始数据是不可读的，因此为了例示，用纯文本来代表关键构造。许多细节已被省略。

在数据文件中遇到的第一个标签是格式指示符202。它被用于示出文件的格式。例如，文本可以是美国信息交换标准代码(ASCII)、多用因特网邮件扩展(MIME)等等。一般来说，可以使用任何适当的格式、指示符、字段、标签或其他构造或表示。

行204包括[From]字段和[Received]字段，其中[From]字段指示了示出发送者的电子邮件地址的字段的开始，[Received]字段指示了消息的接收时间。类似地，行206具有用于接收者的电子邮件地址和主题的字段。注意行缩进(line indentation)、可读文本和其他特征的使用只是出于可读性目的，而可能并不指示代表电子邮件或电子邮件消息中的线程的实际数据。另外，类似的方法可用于其他通信模式，例如即时消息传递、聊天、因特网发贴、网志、文档等等。

行208包括内容字段和被示为“<VCT id＝Kumar37789>”的语音特性标签(VCT)。VCT可由图2的电子邮件服务器140插入，或者可由这里描述的另一设备插入。标签的使用只是实现本发明的TTS特征的一种有效方式。行208的VCT标签包括“ID”字段，用于标识包括与ID相关联的作者的一个或多个语音特性的简档或数据记录。TTS解析器(parser)扫描电子邮件线程，并且在遇到VCT时使用通过VCT的ID字段确定的与VCT相关联的语音特性来生成与作者的语音相类似的话音输出。结束VCT标签由“</VCT>”指示。

可以通过不同方式来处理在VCT定界文本之外的文本(非VCT定界文本)。可以使用默认语音。或者，取决于文本特性(例如如果文本在特定字段中)，可以使用不同的语音来阅读文本。例如，如果用户打开了“阅读接收时间”特征，则可以用默认语音来阅读日期和时间。可以为用户提供选择或修改一个或多个默认语音的选项(例如不同的语音用于不同的字段)。

注意，行220的VCT与“默认管理员”相关联，因为电子邮件来自群组电子邮件地址而不是特定的个人。可以允许用户选择特定的人的语音特性(例如群组领导或经理)来代表该群组。或者可以根据需要使用多种通用或预编程的语音中的任何一种。

在电子邮件线程的单个片段内可能存在或使用了多个作者或不同语音。这例如可能发生在变化跟踪被用于单个电子邮件消息内的一部分文本的情况下。当每个作者贡献一个变化(例如添加文本、删除文本等等)时，该变化被记录并被定界为属于该作者。类似的方法可用于在TTS系统中被回读的单个文档，不论这些文档是经由电子邮件还是某种其他通信模式来传送的。

可以允许作者选择用于对该作者生成的文本进行回读的语音、语音特性或语音特性集合。例如，作者可能希望某个文本部分被用喜剧演员的语音、卡通人物的语音、接收者最喜爱演员的语音等等来回读。作者可在发送消息时从预定的语音或特性中进行选择。选择可使得具有预定ID的标签将所选语音或特性与文本的一部分关联起来，如上所述。

虽然已经主要参考特定布置、格式、协议等等论述了本发明的实施例，但也可使用任何其他适当的设计或方法。在不脱离权利要求的范围的前提下，可以对这里给出的具体细节进行修改。

这里描述的实施例只是例示本发明而不是限制本发明。例如，网络可包括诸如路由器、交换机、服务器之类的组件或这种网络中常见的其他组件。另外，这些组件可包括实现网络设备和其他设备之间的连通功能的软件算法。

任何适当的编程语言都可用来实现本发明，所述语言包括C、C++、Java、汇编语言等等。可以使用不同的编程技术，例如过程式的或面向对象的。例程可在单个处理设备或多个处理器上执行。虽然流程图格式要求以特定顺序来呈现步骤，但是这个顺序是可以改变的。可以同时执行多个步骤。可以中断流程图序列。例程可在操作系统环境中工作，或者作为占用系统处理的所有或实质部分的独立例程工作。

根据需要可以用硬件或软件来执行步骤。注意，在不脱离本发明范围的前提下，可向本说明书中给出的流程图添加步骤、从中去除步骤或修改其中的步骤。一般来说，流程图只是用来指示用于实现功能的基本操作的一种可能序列。

在这里的描述中，提供了许多具体细节，例如组件和/或方法的示例，以帮助全面理解本发明的实施例。但是，本领域的技术人员将会意识到，没有这些具体细节中的一个或多个，或者利用其他装置、系统、组合件、方法、组件、素材、部件等等也能实现本发明的实施例。在其他情况下，没有具体地示出或详细描述公知的结构、素材或操作，以避免模糊本发明实施例的各个方面。

这里所使用的各种数据库、应用软件或网络工具可驻留在一个或多个服务器计算机中，或者更具体而言驻留在这种服务器计算机的存储器中。这里使用的用于本发明实施例的“存储器”可以是任何介质，这种介质可以包含、存储、传送、传播或传输供指令执行系统、装置、系统或设备使用或与之结合使用的程序。存储器例如可以是但不限于是电子的、磁的、光的、电磁的、红外的或半导体系统、装置、系统、设备、传播介质或计算机存储器。

“处理器”或“过程”包括任何处理数据、信号或其他信息的人类、硬件和/或软件系统、机构或组件。处理器可包括具有通用中央处理单元、多个处理单元、用于实现功能的专用电路的系统或其他系统。处理不必限于某个地理位置，也不必有时间限制。例如，处理器可“实时地”、“离线地”、“分批地”执行其功能，等等。处理的一些部分可在不同的时间、不同的位置、由不同的(或相同的)处理系统执行。

本说明书中提到“一个实施例”、“实施例”、或“特定实施例”是指结合该实施例描述的特定的特征、结构或特性被包括在本发明的至少一个实施例中，但不一定包括在所有实施例中。因此，本说明书中各处出现的各个短语“在一个实施例中”、“在实施例中”或“在特定实施例”中不一定指的是同一个实施例。另外，本发明的任何特定实施例的特定的特征、结构或特性可以按任何适当的方式与一个或多个其他实施例组合。应当注意，基于这里的教导可以对这里描述和图示出的本发明的实施例进行其他各种变化和修改，并且这些变化和修改应当被认为是本发明的精神和范围的一部分。

本发明的实施例可利用编程的通用数字计算机、利用专用集成电路、可编程逻辑器件、现场可编程门阵列来实现，可以使用光的、化学的、生物的、量子的或纳米工程的系统、组件和机构。一般来说，本发明的功能可通过本领域已知的任何手段来实现。可以使用分布式或联网系统、组件和电路。数据的通信或传送可以是有线的、无线的或者通过任何其他手段。

还将意识到，根据特定应用的需要，附图中示出的要素中的一个或多个可以按更分离或更集成的方式来实现，或者甚至在某些情况下因不可操作而被去除或被停用。实现可存储在机器可读介质中的程序或代码以允许计算机执行上述任何方法，也在本发明的精神和范围之内。

此外，附图中的任何信号箭头应当被认为仅是示例性的，而不是限制性的，除非另有具体指示。另外，除非另有指明，这里使用的术语“或”一般是要指“和/或”。当术语被预见为使分离或组合的能力不清楚时，组件或者步骤的组合也将被认为是已经记载了。

这里的描述及所附权利要求中使用的“a”、“an”和“the”包括复数形式，除非上下文另有清楚记载。另外，这里的描述及所附权利要求中使用的“在...中”的含义包括“在...中”和“在...上”，除非上下文另有清楚记载。

以上对本发明的图示实施例的描述，包括摘要中描述的内容，并不想要毫无遗漏，或者将本发明限定到这里公开的精确形式。本领域的技术人员将会意识到并明白，在这里仅出于示例目的来描述本发明的具体实施例及其示例，在本发明的精神和范围内可以进行各种等同的修改。如上所述，根据以上对本发明的图示实施例的描述可以对本发明进行这些修改，并且这些修改将被包括在本发明的精神和范围内。

因此，虽然已经参考本发明的特定实施例描述了本发明，但以上公开中意欲包括一定范围的修改、各种变化和替换，并且将会明白，在一些情况下，将会使用本发明实施例的一些特征，但没有相应地使用其他特征，这不脱离所记载的本发明的精神和范围。因此，在本发明的实质范围和精神内，可对特定情形或素材进行许多修改。希望本发明不被限制到所附权利要求中使用的特定术语和/或作为所想到的实现本发明的最佳模式而公开的特定实施例，相反本发明将包括落在所附权利要求的精神内的任何及所有实施例和等同物。

Claims

1.一种用于执行电子邮件的文本到话音转换的方法，其中所述电子邮件包括由多个人类作者创建的多个片段，该方法包括：

确定所述电子邮件将被发送到特定目的地；

检测出所述电子邮件消息包括来自第一作者的第一片段和来自第二作者的第二片段；

取得所述第一作者的第一语音特性；

取得所述第二作者的第二语音特性；以及

将所述第一和第二语音特性传送到所述特定目的地。

2.如权利要求1所述的方法，其中取得步骤包括：

从所存储位置取得所述语音特性。

3.如权利要求2所述的方法，其中权利要求1所述的步骤由服务器计算机执行，其中数据库耦合到所述服务器计算机，所述方法还包括：

从所述数据库取得所述语音特性。

4.如权利要求1所述的方法，还包括：

将第一标签插入到所述电子邮件中，以指示与所述第一作者相对应的文本信息的开始；以及

将第二标签插入到所述电子邮件中，以指示与所述第二作者相对应的文本信息的开始。

5.如权利要求1所述的方法，其中语音特性包括说话者的年龄的属性。

6.如权利要求1所述的方法，其中语音特性包括说话者的情绪的属性。

7.如权利要求1所述的方法，其中语音特性包括说话者的音量的属性。

8.一种用于执行文本的文本到话音转换的方法，其中所述文本包括由多个人类作者创建的多个片段，该方法包括：

检测出所述文本包括来自第一作者的第一片段和来自第二作者的第二片段；

取得所述第一作者的第一语音特性；

取得所述第二作者的第二语音特性；以及

将所述第一和第二语音特性传送到特定目的地。

9.如权利要求8所述的方法，其中所述文本被包括在具有多个经过编辑的片段的文档中，其中两个或更多个经过编辑的片段是由不同作者完成的。

10.如权利要求9所述的方法，其中所述文本包括变化被跟踪的字处理文档。

11.如权利要求1所述的方法，其中所述第一语音特性是由所述第一作者选择的。

12.一种用于播放文本的文本到话音转换的方法，其中所述文本包括由多个人类作者创建的多个片段，该方法包括：

取得所述第一作者的第一语音特性；

取得所述第二作者的第二语音特性；

利用所述第一语音特性执行所述第一片段的文本到话音转换；以及

利用所述第一语音特性执行所述第一片段的文本到话音转换。

13.如权利要求12所述的方法，其中语音特性包括说话者的年龄的属性。

14.如权利要求12述的方法，其中语音特性包括说话者的情绪的属性。

15.如权利要求12所述的方法，其中语音特性包括说话者的音量的属性。

16.如权利要求12所述的方法，其中所述第一语音特性是由所述第一作者选择的。

17.一种用于执行电子邮件的文本到话音转换的装置，其中所述电子邮件包括由多个人类作者创建的多个片段，该装置包括：

处理器；

包括一个或多个指令的机器可读介质，该一个或多个指令可被处理器执行以用于：

确定所述电子邮件将被发送到特定目的地；

取得所述第一作者的第一语音特性；

取得所述第二作者的第二语音特性；以及

将所述第一和第二语音特性传送到所述特定目的地。

18.一种包括指令的机器可读介质，所述指令可被处理器执行以用于执行电子邮件的文本到话音转换，其中所述电子邮件包括由多个人类作者创建的多个片段，所述机器可读介质包括一个或多个指令，该一个或多个指令用于：

确定所述电子邮件将被发送到特定目的地；

取得所述第一作者的第一语音特性；

取得所述第二作者的第二语音特性；以及

将所述第一和第二语音特性传送到所述特定目的地。