CN101356427A - 使用发送者语音的电子邮件文本到话音转换 - Google Patents

使用发送者语音的电子邮件文本到话音转换 Download PDF

Info

Publication number
CN101356427A
CN101356427A CN200780001288.2A CN200780001288A CN101356427A CN 101356427 A CN101356427 A CN 101356427A CN 200780001288 A CN200780001288 A CN 200780001288A CN 101356427 A CN101356427 A CN 101356427A
Authority
CN
China
Prior art keywords
author
text
speech sounds
speech
fragment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200780001288.2A
Other languages
English (en)
Inventor
萨杰韦·库玛
拉比士·帕特尔
约瑟夫·廓里
沐酷勒·珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cisco Technology Inc
Original Assignee
Cisco Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cisco Technology Inc filed Critical Cisco Technology Inc
Publication of CN101356427A publication Critical patent/CN101356427A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Hardware Design (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)

Abstract

多个作者的语音可以被用在电子邮件线程的文本到话音(TTS)转换中,使得该线程的每个片段被用该作者的语音来阅读。标签被用来标识哪个文本部分对应于哪个作者。语音特性可以源自作者的发送设备或者可以集中存储于统一的消息传递服务器处的语音特性数据库中,并被提供到电子邮件线程的接收者。类似的方法可被用在正被多个作者编辑的单个文档中,例如变化被跟踪的文档。与文档的不同片段相对应的作者的不同语音特性可被访问以用于TTS转换,从而在音频设备(例如电话、VoIP电话、蜂窝电话等等)上收听的人能够识别特定片段的作者,而无需使用文本或其他显示的信息。

Description

使用发送者语音的电子邮件文本到话音转换
背景技术
本发明一般地涉及电子通信系统,更具体而言涉及使用文本作者的语音特性(voice characteristic)的文本到话音转换(text-to-speechconversion)系统。
现今在远程通信方面我们有了许多选择。传统上,电话系统提供语音通信和打印副本的电子传真(fax)传输。诸如因特网之类的全球网络以及计算机、个人数字助理(PDA)、便携式处理器和电子邮件设备(例如CleoTM、BlackberryTM等等)的普遍使用允许选择其他通信方式,例如电子邮件、聊天、即时消息传递(IM)、web发贴、基于因特网协议(IP)的语音(VoIP)电话,等等。
这些通信形式中的每一种都具有其自己的格式、传送协议、输入/输出设备或其他细节。例如,使用蜂窝电话的人经常不能很容易地访问或查看电子邮件消息。该问题的一种解决方案是从一种格式转换成另一种。文本到话音转换可用在这种情形下,以允许使用蜂窝电话的人能够使电子邮件的内容以合成话音的方式被读出,从而能够通过电话来收听电子邮件消息。类似地,其他类型的文本信息可被转换成音频话音,以便通过音频设备而不是显示设备来传输或重放。
对文本到话音转换的一种改进在于尝试再现文本作者的语音。为了实现这一点,作者的语音的特性或特征被提取并与作者的文本一起被发送。如果接收者具有用来转换和收听作者的消息的适当设备,那么他们就能够听到与作者语音类似或者至少某种程度上能够被识别为作者语音(只要技术允许)的语音所说出的消息。
文本到话音转换中的特征提取和语音特性的使用例如在以下论文中有记载:“High Resolution Voice Transformation”,Alexander Blouke Kain,Computer Science and Mathematics,Rockford College,1995。
附图说明
图1示出了用于将语音特征与文本通信一起提供的系统中的实体和组件的简化框图;
图2图示了具有多个作者和多个片段(part)的电子邮件线程的生成;
图3示出了通常可能显示在传统设备上的电子邮件消息;以及
图4示出了根据本发明实施例的、用来生成图3的显示的通用数据文件格式的图示,其中包括标签。
具体实施方式
本发明的优选实施例使得多个作者的语音可以被用在电子邮件线程的文本到话音(TTS)转换中。电子邮件线程包括来自2个或更多个作者的文本或片段。标签被用来标识哪个文本部分对应于哪个作者。语音特性可以源自作者的发送设备或者可以集中存储于统一的消息传递服务器处的语音特性数据库中,并被提供到电子邮件线程的接收者。
另一个实施例使得语音特性标签可被用在多个作者正在编辑的单个文档中,例如变化被跟踪的文档。与文档的不同片段相对应的作者的不同语音特性可被访问以用于TTS转换,从而在音频设备(例如电话、VoIP电话、蜂窝电话等等)上收听的人能够识别特定片段的作者,而无需使用文本或其他显示的信息。
图1示出了用于将语音特征与文本通信一起提供的系统中的实体和组件的简化框图。用户1是在诸如客户端计算机102之类的处理设备处的第一人类用户。作为系统中的第一步,用户1的语音特性被捕捉和存储。在优选实施例中,计算机系统102向用户1呈现样本文本110。用户1阅读文本并且用户1的话音被计算机系统102捕捉以用于特征提取。提取出的特征以及可能有的其他语音特性被传送到统一消息传递系统(UMS)112,并被存储在用户简档数据库114中。
注意,任何类型的适当设备都可用来执行特征提取或者获得下面描述的其他语音特性。例如,可以使用蜂窝电话、个人数字助理(PDA)、便携式计算机等等。可以使用不止一个设备,其中在第一设备(例如运行互联网浏览器的计算机)上呈现文本,并且在第二设备(例如蜂窝电话)上捕捉语音。另外,特征提取的处理功能可由一个或多个设备来执行。例如,图1的特征提取可由计算机102执行,或者由UMS处的处理器执行,或者由其他位置中的一个或多个处理器执行。一般来说,这里描述的任何功能根据需要都可由一个或多个处理设备来执行。功能的一些部分可在不同时刻执行(例如分批模式)、基本同时执行(例如实时)、在一个或多个地理位置中执行或者通过任何现有的或将来的处理技术执行。
用户1使用客户端计算机来生成信息,例如电子邮件消息、聊天消息、即时消息、文档等等。在其他实施例中,不同的用户设备可替换客户端计算机。一般来说,可以使用任何能产生文本信息的设备。可以使用执行话音识别并产生文本作为输出的设备。本申请中使用的“文本”意图包括任何类型的符号化语言表示。字母数字字符、符号、图形、来自不同语言的字符等等都包括在“文本”的含义内。
当用户1作者生成文本消息并将消息发送到接收者即用户2时,UMS112检测到该消息被发送并将用户1的语音特性与该消息一起提供。语音特性可与消息同时提供,或者在消息发送之前或之后提供。在优选实施例中,如下所述,标签被用于根据特定的语音特性来对要转换成话音的文本进行定界。
一旦电子邮件消息被用户设备130接收,TTS子系统120就利用例如典型数字处理系统所提供的标准技术来执行转换。用来执行TTS功能的基本组件(例如耦合到存储器、用户界面、控制电路等的处理器)在图1中没有示出,不过是本领域公知的。一旦话音被合成,它就经由音频变换器132被呈现给用户2。
图2图示了具有多个作者和多个片段的电子邮件线程的生成。用户1编写并发送具有片段A的电子邮件150到用户2和用户3。接着,用户3通过添加片段B来创建包括具有分别来自两个不同作者用户1和用户3的两个片段A和B的线程的消息160,从而对用户1的电子邮件作出响应(并且还抄送用户2)。最后,用户2添加片段C到消息170中的电子邮件线程中,并将其发送到用户3。
在构建线程的电子邮件消息的每次传送中,电子邮件服务器140(或者UMS或其他类型的通信服务器或设备)可以添加标签或其他标记来对每个片段或一个片段内的一个部分进行定界。与每个作者相关联的语音特性可与每个电子邮件消息传送一起被服务器140传送。另一个选项是电子邮件服务器140对于每个线程只发送语音特性一次,例如只在向用户2和用户3传送电子邮件150时发送用户1的语音特性。当用户3发送消息160时,用户3的语音特性被传送到用户1和用户2。最后,当用户2发送消息170时,于是用户2的语音特性被传送到用户3。
电子邮件服务器140可跟踪语音特性何时被更新或修改,并且如果已知用户具有当前版本则不需要重新发送语音特性。从而,语音特性可被存储在用户计算机本地或者其他本地设备中,用于对接收到的文本信息执行TTS转换。存储、更新和传送语音特性记录的其他布置也是可能的。
图3示出了通常会显示在传统设备上(例如在计算机显示器的浏览器窗口或电子邮件程序中)的包括三片段线程的电子邮件消息180。每个片段是已被结合到电子邮件消息的线程180中的先前电子邮件消息。片段186对应于图2的片段A,片段184对应于片段B,片段182对应于片段C。通常,线程的每个片段包括列出标准信息的头部,所述标准信息例如是该片段的发送者、接收者和CC(如果有的话)、主题和接收日期。在其他实施例中,可能不需要包括头部,或者如果需要包括的话,则头部中的信息的量和类型可与这里的示例不同。
在优选实施例中,每个片段的内容或消息部分在TTS转换中被利用该片段的作者的语音特性读出。线程被从下往上阅读,以从最早的消息读到最近的消息。如果收听者希望听到诸如头部信息之类的细节,则这种选项可利用标准控件来选择,所述标准控件例如是蜂窝电话上的数字小键盘、触摸屏、计算机键盘、语音命令,等等。一般来说,根据需要可提供与音频重放和TTS有关的额外特征。例如,可以使用用于改变音量、前跳或后跳、暂停等等的控件。
图4示出了用来生成图3的显示的数据文件200。注意,图4意图代表文本消息的任何类型的数据表示。通常,原始数据是不可读的,因此为了例示,用纯文本来代表关键构造。许多细节已被省略。
在数据文件中遇到的第一个标签是格式指示符202。它被用于示出文件的格式。例如,文本可以是美国信息交换标准代码(ASCII)、多用因特网邮件扩展(MIME)等等。一般来说,可以使用任何适当的格式、指示符、字段、标签或其他构造或表示。
行204包括[From]字段和[Received]字段,其中[From]字段指示了示出发送者的电子邮件地址的字段的开始,[Received]字段指示了消息的接收时间。类似地,行206具有用于接收者的电子邮件地址和主题的字段。注意行缩进(line indentation)、可读文本和其他特征的使用只是出于可读性目的,而可能并不指示代表电子邮件或电子邮件消息中的线程的实际数据。另外,类似的方法可用于其他通信模式,例如即时消息传递、聊天、因特网发贴、网志、文档等等。
行208包括内容字段和被示为“<VCT id=Kumar37789>”的语音特性标签(VCT)。VCT可由图2的电子邮件服务器140插入,或者可由这里描述的另一设备插入。标签的使用只是实现本发明的TTS特征的一种有效方式。行208的VCT标签包括“ID”字段,用于标识包括与ID相关联的作者的一个或多个语音特性的简档或数据记录。TTS解析器(parser)扫描电子邮件线程,并且在遇到VCT时使用通过VCT的ID字段确定的与VCT相关联的语音特性来生成与作者的语音相类似的话音输出。结束VCT标签由“</VCT>”指示。
可以通过不同方式来处理在VCT定界文本之外的文本(非VCT定界文本)。可以使用默认语音。或者,取决于文本特性(例如如果文本在特定字段中),可以使用不同的语音来阅读文本。例如,如果用户打开了“阅读接收时间”特征,则可以用默认语音来阅读日期和时间。可以为用户提供选择或修改一个或多个默认语音的选项(例如不同的语音用于不同的字段)。
注意,行220的VCT与“默认管理员”相关联,因为电子邮件来自群组电子邮件地址而不是特定的个人。可以允许用户选择特定的人的语音特性(例如群组领导或经理)来代表该群组。或者可以根据需要使用多种通用或预编程的语音中的任何一种。
在电子邮件线程的单个片段内可能存在或使用了多个作者或不同语音。这例如可能发生在变化跟踪被用于单个电子邮件消息内的一部分文本的情况下。当每个作者贡献一个变化(例如添加文本、删除文本等等)时,该变化被记录并被定界为属于该作者。类似的方法可用于在TTS系统中被回读的单个文档,不论这些文档是经由电子邮件还是某种其他通信模式来传送的。
可以允许作者选择用于对该作者生成的文本进行回读的语音、语音特性或语音特性集合。例如,作者可能希望某个文本部分被用喜剧演员的语音、卡通人物的语音、接收者最喜爱演员的语音等等来回读。作者可在发送消息时从预定的语音或特性中进行选择。选择可使得具有预定ID的标签将所选语音或特性与文本的一部分关联起来,如上所述。
虽然已经主要参考特定布置、格式、协议等等论述了本发明的实施例,但也可使用任何其他适当的设计或方法。在不脱离权利要求的范围的前提下,可以对这里给出的具体细节进行修改。
这里描述的实施例只是例示本发明而不是限制本发明。例如,网络可包括诸如路由器、交换机、服务器之类的组件或这种网络中常见的其他组件。另外,这些组件可包括实现网络设备和其他设备之间的连通功能的软件算法。
任何适当的编程语言都可用来实现本发明,所述语言包括C、C++、Java、汇编语言等等。可以使用不同的编程技术,例如过程式的或面向对象的。例程可在单个处理设备或多个处理器上执行。虽然流程图格式要求以特定顺序来呈现步骤,但是这个顺序是可以改变的。可以同时执行多个步骤。可以中断流程图序列。例程可在操作系统环境中工作,或者作为占用系统处理的所有或实质部分的独立例程工作。
根据需要可以用硬件或软件来执行步骤。注意,在不脱离本发明范围的前提下,可向本说明书中给出的流程图添加步骤、从中去除步骤或修改其中的步骤。一般来说,流程图只是用来指示用于实现功能的基本操作的一种可能序列。
在这里的描述中,提供了许多具体细节,例如组件和/或方法的示例,以帮助全面理解本发明的实施例。但是,本领域的技术人员将会意识到,没有这些具体细节中的一个或多个,或者利用其他装置、系统、组合件、方法、组件、素材、部件等等也能实现本发明的实施例。在其他情况下,没有具体地示出或详细描述公知的结构、素材或操作,以避免模糊本发明实施例的各个方面。
这里所使用的各种数据库、应用软件或网络工具可驻留在一个或多个服务器计算机中,或者更具体而言驻留在这种服务器计算机的存储器中。这里使用的用于本发明实施例的“存储器”可以是任何介质,这种介质可以包含、存储、传送、传播或传输供指令执行系统、装置、系统或设备使用或与之结合使用的程序。存储器例如可以是但不限于是电子的、磁的、光的、电磁的、红外的或半导体系统、装置、系统、设备、传播介质或计算机存储器。
“处理器”或“过程”包括任何处理数据、信号或其他信息的人类、硬件和/或软件系统、机构或组件。处理器可包括具有通用中央处理单元、多个处理单元、用于实现功能的专用电路的系统或其他系统。处理不必限于某个地理位置,也不必有时间限制。例如,处理器可“实时地”、“离线地”、“分批地”执行其功能,等等。处理的一些部分可在不同的时间、不同的位置、由不同的(或相同的)处理系统执行。
本说明书中提到“一个实施例”、“实施例”、或“特定实施例”是指结合该实施例描述的特定的特征、结构或特性被包括在本发明的至少一个实施例中,但不一定包括在所有实施例中。因此,本说明书中各处出现的各个短语“在一个实施例中”、“在实施例中”或“在特定实施例”中不一定指的是同一个实施例。另外,本发明的任何特定实施例的特定的特征、结构或特性可以按任何适当的方式与一个或多个其他实施例组合。应当注意,基于这里的教导可以对这里描述和图示出的本发明的实施例进行其他各种变化和修改,并且这些变化和修改应当被认为是本发明的精神和范围的一部分。
本发明的实施例可利用编程的通用数字计算机、利用专用集成电路、可编程逻辑器件、现场可编程门阵列来实现,可以使用光的、化学的、生物的、量子的或纳米工程的系统、组件和机构。一般来说,本发明的功能可通过本领域已知的任何手段来实现。可以使用分布式或联网系统、组件和电路。数据的通信或传送可以是有线的、无线的或者通过任何其他手段。
还将意识到,根据特定应用的需要,附图中示出的要素中的一个或多个可以按更分离或更集成的方式来实现,或者甚至在某些情况下因不可操作而被去除或被停用。实现可存储在机器可读介质中的程序或代码以允许计算机执行上述任何方法,也在本发明的精神和范围之内。
此外,附图中的任何信号箭头应当被认为仅是示例性的,而不是限制性的,除非另有具体指示。另外,除非另有指明,这里使用的术语“或”一般是要指“和/或”。当术语被预见为使分离或组合的能力不清楚时,组件或者步骤的组合也将被认为是已经记载了。
这里的描述及所附权利要求中使用的“a”、“an”和“the”包括复数形式,除非上下文另有清楚记载。另外,这里的描述及所附权利要求中使用的“在...中”的含义包括“在...中”和“在...上”,除非上下文另有清楚记载。
以上对本发明的图示实施例的描述,包括摘要中描述的内容,并不想要毫无遗漏,或者将本发明限定到这里公开的精确形式。本领域的技术人员将会意识到并明白,在这里仅出于示例目的来描述本发明的具体实施例及其示例,在本发明的精神和范围内可以进行各种等同的修改。如上所述,根据以上对本发明的图示实施例的描述可以对本发明进行这些修改,并且这些修改将被包括在本发明的精神和范围内。
因此,虽然已经参考本发明的特定实施例描述了本发明,但以上公开中意欲包括一定范围的修改、各种变化和替换,并且将会明白,在一些情况下,将会使用本发明实施例的一些特征,但没有相应地使用其他特征,这不脱离所记载的本发明的精神和范围。因此,在本发明的实质范围和精神内,可对特定情形或素材进行许多修改。希望本发明不被限制到所附权利要求中使用的特定术语和/或作为所想到的实现本发明的最佳模式而公开的特定实施例,相反本发明将包括落在所附权利要求的精神内的任何及所有实施例和等同物。

Claims (18)

1.一种用于执行电子邮件的文本到话音转换的方法,其中所述电子邮件包括由多个人类作者创建的多个片段,该方法包括:
确定所述电子邮件将被发送到特定目的地;
检测出所述电子邮件消息包括来自第一作者的第一片段和来自第二作者的第二片段;
取得所述第一作者的第一语音特性;
取得所述第二作者的第二语音特性;以及
将所述第一和第二语音特性传送到所述特定目的地。
2.如权利要求1所述的方法,其中取得步骤包括:
从所存储位置取得所述语音特性。
3.如权利要求2所述的方法,其中权利要求1所述的步骤由服务器计算机执行,其中数据库耦合到所述服务器计算机,所述方法还包括:
从所述数据库取得所述语音特性。
4.如权利要求1所述的方法,还包括:
将第一标签插入到所述电子邮件中,以指示与所述第一作者相对应的文本信息的开始;以及
将第二标签插入到所述电子邮件中,以指示与所述第二作者相对应的文本信息的开始。
5.如权利要求1所述的方法,其中语音特性包括说话者的年龄的属性。
6.如权利要求1所述的方法,其中语音特性包括说话者的情绪的属性。
7.如权利要求1所述的方法,其中语音特性包括说话者的音量的属性。
8.一种用于执行文本的文本到话音转换的方法,其中所述文本包括由多个人类作者创建的多个片段,该方法包括:
检测出所述文本包括来自第一作者的第一片段和来自第二作者的第二片段;
取得所述第一作者的第一语音特性;
取得所述第二作者的第二语音特性;以及
将所述第一和第二语音特性传送到特定目的地。
9.如权利要求8所述的方法,其中所述文本被包括在具有多个经过编辑的片段的文档中,其中两个或更多个经过编辑的片段是由不同作者完成的。
10.如权利要求9所述的方法,其中所述文本包括变化被跟踪的字处理文档。
11.如权利要求1所述的方法,其中所述第一语音特性是由所述第一作者选择的。
12.一种用于播放文本的文本到话音转换的方法,其中所述文本包括由多个人类作者创建的多个片段,该方法包括:
检测出所述文本包括来自第一作者的第一片段和来自第二作者的第二片段;
取得所述第一作者的第一语音特性;
取得所述第二作者的第二语音特性;
利用所述第一语音特性执行所述第一片段的文本到话音转换;以及
利用所述第一语音特性执行所述第一片段的文本到话音转换。
13.如权利要求12所述的方法,其中语音特性包括说话者的年龄的属性。
14.如权利要求12述的方法,其中语音特性包括说话者的情绪的属性。
15.如权利要求12所述的方法,其中语音特性包括说话者的音量的属性。
16.如权利要求12所述的方法,其中所述第一语音特性是由所述第一作者选择的。
17.一种用于执行电子邮件的文本到话音转换的装置,其中所述电子邮件包括由多个人类作者创建的多个片段,该装置包括:
处理器;
包括一个或多个指令的机器可读介质,该一个或多个指令可被处理器执行以用于:
确定所述电子邮件将被发送到特定目的地;
检测出所述电子邮件消息包括来自第一作者的第一片段和来自第二作者的第二片段;
取得所述第一作者的第一语音特性;
取得所述第二作者的第二语音特性;以及
将所述第一和第二语音特性传送到所述特定目的地。
18.一种包括指令的机器可读介质,所述指令可被处理器执行以用于执行电子邮件的文本到话音转换,其中所述电子邮件包括由多个人类作者创建的多个片段,所述机器可读介质包括一个或多个指令,该一个或多个指令用于:
确定所述电子邮件将被发送到特定目的地;
检测出所述电子邮件消息包括来自第一作者的第一片段和来自第二作者的第二片段;
取得所述第一作者的第一语音特性;
取得所述第二作者的第二语音特性;以及
将所述第一和第二语音特性传送到所述特定目的地。
CN200780001288.2A 2006-01-24 2007-01-03 使用发送者语音的电子邮件文本到话音转换 Pending CN101356427A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/338,377 2006-01-24
US11/338,377 US20070174396A1 (en) 2006-01-24 2006-01-24 Email text-to-speech conversion in sender's voice

Publications (1)

Publication Number Publication Date
CN101356427A true CN101356427A (zh) 2009-01-28

Family

ID=38286839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200780001288.2A Pending CN101356427A (zh) 2006-01-24 2007-01-03 使用发送者语音的电子邮件文本到话音转换

Country Status (4)

Country Link
US (1) US20070174396A1 (zh)
EP (1) EP1977208A2 (zh)
CN (1) CN101356427A (zh)
WO (1) WO2007087120A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942673A (zh) * 2013-01-18 2014-07-23 福特全球技术公司 用于众包信息呈现的方法和设备
CN105575383A (zh) * 2014-10-28 2016-05-11 现代摩比斯株式会社 利用用户的语音特征的对象信息语音输出控制装置及方法
CN107870899A (zh) * 2016-09-26 2018-04-03 联想(新加坡)私人有限公司 信息处理方法、信息处理设备及程序产品

Families Citing this family (142)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
WO2008070094A2 (en) * 2006-12-05 2008-06-12 Nuance Communication, Inc. Wireless server based text to speech email
US8060565B1 (en) * 2007-01-31 2011-11-15 Avaya Inc. Voice and text session converter
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US7689421B2 (en) * 2007-06-27 2010-03-30 Microsoft Corporation Voice persona service for embedding text-to-speech features into software programs
US20090055187A1 (en) * 2007-08-21 2009-02-26 Howard Leventhal Conversion of text email or SMS message to speech spoken by animated avatar for hands-free reception of email and SMS messages while driving a vehicle
US8549080B2 (en) * 2007-12-12 2013-10-01 International Business Machines Corporation Method to identify and display contributions by author in an e-mail comprising multiple authors
KR101513888B1 (ko) * 2007-12-13 2015-04-21 삼성전자주식회사 멀티미디어 이메일 합성 장치 및 방법
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8489690B2 (en) * 2008-08-28 2013-07-16 International Business Machines Corporation Providing cellular telephone subscription for e-mail threads
US8645430B2 (en) * 2008-10-20 2014-02-04 Cisco Technology, Inc. Self-adjusting email subject and email subject history
US8655660B2 (en) * 2008-12-11 2014-02-18 International Business Machines Corporation Method for dynamic learning of individual voice patterns
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US20100153116A1 (en) * 2008-12-12 2010-06-17 Zsolt Szalai Method for storing and retrieving voice fonts
JP2012512424A (ja) * 2008-12-15 2012-05-31 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声合成のための方法および装置
US8645140B2 (en) * 2009-02-25 2014-02-04 Blackberry Limited Electronic device and method of associating a voice font with a contact for text-to-speech conversion at the electronic device
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102025801A (zh) * 2010-11-19 2011-04-20 华为终端有限公司 文本信息的转换方法及装置
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9223859B2 (en) 2011-05-11 2015-12-29 Here Global B.V. Method and apparatus for summarizing communications
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9166977B2 (en) 2011-12-22 2015-10-20 Blackberry Limited Secure text-to-speech synthesis in portable electronic devices
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9570066B2 (en) * 2012-07-16 2017-02-14 General Motors Llc Sender-responsive text-to-speech processing
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN103796181A (zh) * 2012-11-05 2014-05-14 华为技术有限公司 一种发送消息的播放方法、系统及相关设备
US20140129228A1 (en) * 2012-11-05 2014-05-08 Huawei Technologies Co., Ltd. Method, System, and Relevant Devices for Playing Sent Message
KR102103057B1 (ko) 2013-02-07 2020-04-21 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
JP6259911B2 (ja) 2013-06-09 2018-01-10 アップル インコーポレイテッド デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
GB2516942B (en) * 2013-08-07 2018-07-11 Samsung Electronics Co Ltd Text to Speech Conversion
CA2932189A1 (en) * 2013-11-29 2015-06-04 Ims Solutions Inc. Threaded message handling system for sequential user interfaces
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US9830903B2 (en) 2015-11-10 2017-11-28 Paul Wendell Mason Method and apparatus for using a vocal sample to customize text to speech applications
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
KR20170100175A (ko) * 2016-02-25 2017-09-04 삼성전자주식회사 전자 장치 및 전자 장치의 동작 방법
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10489110B2 (en) * 2016-11-22 2019-11-26 Microsoft Technology Licensing, Llc Implicit narration for aural user interface
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
JP2019113681A (ja) * 2017-12-22 2019-07-11 オンキヨー株式会社 音声合成システム
KR20190108364A (ko) * 2018-03-14 2019-09-24 삼성전자주식회사 전자 장치 및 그의 동작 방법
US11996113B2 (en) 2021-10-29 2024-05-28 Snap Inc. Voice notes with changing effects

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69327446T2 (de) * 1992-11-18 2000-05-11 Canon Information Syst Inc Verfahren und Gerät zur Gewinnung von Text aus einer strukturierten Datei und zu dessen Umsetzung in Sprache
US6035273A (en) * 1996-06-26 2000-03-07 Lucent Technologies, Inc. Speaker-specific speech-to-text/text-to-speech communication system with hypertext-indicated speech parameter changes
US5911129A (en) * 1996-12-13 1999-06-08 Intel Corporation Audio font used for capture and rendering
US5812126A (en) * 1996-12-31 1998-09-22 Intel Corporation Method and apparatus for masquerading online
US5995590A (en) * 1998-03-05 1999-11-30 International Business Machines Corporation Method and apparatus for a communication device for use by a hearing impaired/mute or deaf person or in silent environments
US6081780A (en) * 1998-04-28 2000-06-27 International Business Machines Corporation TTS and prosody based authoring system
US20030028380A1 (en) * 2000-02-02 2003-02-06 Freeland Warwick Peter Speech system
US7277855B1 (en) * 2000-06-30 2007-10-02 At&T Corp. Personalized text-to-speech services
US6801931B1 (en) * 2000-07-20 2004-10-05 Ericsson Inc. System and method for personalizing electronic mail messages by rendering the messages in the voice of a predetermined speaker
US6944591B1 (en) * 2000-07-27 2005-09-13 International Business Machines Corporation Audio support system for controlling an e-mail system in a remote computer
US6871178B2 (en) * 2000-10-19 2005-03-22 Qwest Communications International, Inc. System and method for converting text-to-voice
US6944272B1 (en) * 2001-01-16 2005-09-13 Interactive Intelligence, Inc. Method and system for administering multiple messages over a public switched telephone network
US7062437B2 (en) * 2001-02-13 2006-06-13 International Business Machines Corporation Audio renderings for expressing non-audio nuances
US6810378B2 (en) * 2001-08-22 2004-10-26 Lucent Technologies Inc. Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
US20030177010A1 (en) * 2002-03-11 2003-09-18 John Locke Voice enabled personalized documents
CN1692403A (zh) * 2002-10-04 2005-11-02 皇家飞利浦电子股份有限公司 具有个人化语音段的语音合成设备
US8055713B2 (en) * 2003-11-17 2011-11-08 Hewlett-Packard Development Company, L.P. Email application with user voice interface
US8666746B2 (en) * 2004-05-13 2014-03-04 At&T Intellectual Property Ii, L.P. System and method for generating customized text-to-speech voices
US7693719B2 (en) * 2004-10-29 2010-04-06 Microsoft Corporation Providing personalized voice font for text-to-speech applications

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942673A (zh) * 2013-01-18 2014-07-23 福特全球技术公司 用于众包信息呈现的方法和设备
CN105575383A (zh) * 2014-10-28 2016-05-11 现代摩比斯株式会社 利用用户的语音特征的对象信息语音输出控制装置及方法
CN107870899A (zh) * 2016-09-26 2018-04-03 联想(新加坡)私人有限公司 信息处理方法、信息处理设备及程序产品

Also Published As

Publication number Publication date
WO2007087120A3 (en) 2007-12-13
EP1977208A2 (en) 2008-10-08
WO2007087120A2 (en) 2007-08-02
US20070174396A1 (en) 2007-07-26

Similar Documents

Publication Publication Date Title
CN101356427A (zh) 使用发送者语音的电子邮件文本到话音转换
US8825472B2 (en) Automated message attachment labeling using feature selection in message content
US6895257B2 (en) Personalized agent for portable devices and cellular phone
CN103620539B (zh) 对话线程的概述
US6873687B2 (en) Method and apparatus for capturing and retrieving voice messages
CN1658687B (zh) 利用移动消息接收机和服务器的基于命令的分组sms
CN102782751B (zh) 社会网络中的数字媒体语音标签
JP5247983B2 (ja) アクション可能な電子メールドキュメント
CN102546757B (zh) 定制馈源系统以及管理社交网络馈源的方法和系统
US20100100371A1 (en) Method, System, and Apparatus for Message Generation
CN101351818A (zh) 个人化用户专用文法
US20080262827A1 (en) Real-Time Translation Of Text, Voice And Ideograms
US20100030715A1 (en) Social Network Model for Semantic Processing
US20080037726A1 (en) Method and System for Integrating Voicemail and Electronic Messaging
CN102272788A (zh) 用于处理电子邮件的方法和系统
EP3667586A1 (en) Electronic communication system with drafting assistant and method of using same
JP2008546360A (ja) メッセージ作成者の状態情報伝達システム及び方法
US20100153116A1 (en) Method for storing and retrieving voice fonts
JP3597327B2 (ja) マルチメディア電子メールシステム
JP2006252446A (ja) 通信端末
WO2006109767A1 (ja) 音声再生方法、文字コード利用装置、配信サービスシステム、及び文字コード管理方法
US20140278404A1 (en) Audio merge tags
JP2004233577A (ja) 音声認識辞書作成方法
CN110740212B (zh) 基于智能语音技术的通话接听方法、装置及电子设备
US9077813B2 (en) Masking mobile message content

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090128