CN101567186A - 语音合成装置、方法、程序、系统以及便携式信息终端 - Google Patents
语音合成装置、方法、程序、系统以及便携式信息终端 Download PDFInfo
- Publication number
- CN101567186A CN101567186A CNA2009101345944A CN200910134594A CN101567186A CN 101567186 A CN101567186 A CN 101567186A CN A2009101345944 A CNA2009101345944 A CN A2009101345944A CN 200910134594 A CN200910134594 A CN 200910134594A CN 101567186 A CN101567186 A CN 101567186A
- Authority
- CN
- China
- Prior art keywords
- text
- content
- data
- voice
- project
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 26
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 title claims description 29
- 238000006243 chemical reaction Methods 0.000 claims abstract description 34
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 description 100
- 230000002123 temporal effect Effects 0.000 description 33
- 230000033458 reproduction Effects 0.000 description 23
- 230000000996 additive effect Effects 0.000 description 14
- 238000010411 cooking Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 241001269238 Data Species 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000008676 import Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
本发明涉及语音合成装置、方法、程序、系统以及便携式信息终端。该语音合成装置包括:内容选择单元,选择要被转换成语音的文本内容项目;相关信息选择单元,选择相关信息,所述相关信息能够被至少转换成文本并且与所述内容选择单元选择的文本内容项目相关;数据添加单元,将所述相关信息选择单元选择的相关信息转换成文本,并将所述文本的文本数据添加到所述内容选择单元选择的文本内容项目的文本数据;文本到语音转换单元,将从所述数据添加单元提供的文本数据转换成语音信号;和语音输出单元,输出从所述文本到语音转换单元提供的语音信号。
Description
技术领域
本发明涉及一种在将各种效果添加到例如从文本数据转换成的语音的情况下期望的语音合成装置、语音合成方法、语音合成程序、便携式信息终端和语音合成系统。
背景技术
作为个人计算机或游戏机实现的功能之一,有一种从扬声器输出从文本数据转换成的语音信号的功能。该功能被称作朗读功能。
大致有两种类型的在该朗读功能中使用的执行文本到语音转换的方法。
这两种类型的方法中的一种是通过归档(filing)和编辑的语音合成,另一种是利用规则的语音合成。
通过归档和编辑的语音合成是一种通过执行编辑来合成期望的词、句子等的方法,所述编辑诸如为组合预先记录的语音项目(如人发声的词等)。这里,在通过归档和编辑的语音合成中,尽管得到的语音听起来自然并且接近人声,但是由于通过组合预先记录的语音项目来产生期望的词、句子等,所以利用预先记录的语音项目无法产生某些词或句子。而且,例如,当将该通过归档和编辑的语音合成应用于若干虚构角色朗读文本的情况时,需要与虚构角色的数量一样多的多组不同音质(声色)的语音数据。具体地讲,对于高质量的音质,例如,每个虚构角色需要600MB的附加语音数据。
相反,利用规则的语音合成是一种通过组合诸如构成语音的“音素”和“音节”的元素来合成语音的方法。由于诸如“音素”和“音节”的元素可被自由地组合,所以这种利用规则的语音合成的自由度高。而且,例如,由于不需要预先记录语音数据作为材料,所以这种利用规则的语音合成适合安装在内置存储器不足够大的装置(如便携式信息终端)中的应用的语音合成功能。这里,与以上描述的通过归档和编辑的语音合成相比,通过利用规则的语音合成获得的合成语音更像机器声音的语音。
另外,例如,第2001-51688号未审查日本专利申请公报公开了一种利用语音合成的电子邮件朗读装置,在所述语音合成中,利用关于电子邮件消息的文本信息来合成与电子邮件消息的文本对应的语音,将音乐和声效添加到合成语音中,然后输出得到的合成语音。
另外,例如,第2002-354111号未审查日本专利申请公报公开了一种语音信号合成装置等,其合成从麦克风输入的语音和从背景音乐(BGM)记录单元再现的BGM,并从扬声器等输出得到的语音信号。
另外,例如,第2005-106905号未审查日本专利申请公报公开了一种语音输出系统等,其将包括在电子邮件消息或网站中的文本数据转换成语音数据,将所述语音数据转换成语音信号,并从扬声器等输出所述语音信号。
另外,例如,第2003-223181号未审查日本专利申请公报公开了一种文本到语音转换装置等,其将文本数据划分成象形文字数据和其它文字数据,将象形文字数据转换成声调控制数据,基于声调控制数据将其它文字数据转换成具有声调的语音信号,并从扬声器等输出语音信号。
另外,第2007-293277号未审查日本专利申请公报公开了一种从RSS内容提取文本并将该文本转换成语音的RSS内容管理方法等。
发明内容
这里,在用于执行文本到语音转换的上述现有技术中,文本数据仅被转换成语音信号,并且所述语音信号仅被再现。因此,再现输出的语音信号是像机器声音的语音并且不具有吸引力。
例如,通过归档和编辑的语音合成提供了听起来自然并且接近人声的语音,然而,该语音是通过简单转换文本而获得的,从而该语音不具有吸引力。此外,利用规则的语音合成的缺点在于语音为像机器声音的语音并且听起来差。
另一方面,如上述的日本未审查专利申请公报所述,存在一种可以通过添加BGM或声调将一些效果添加到语音的技术,然而,这种添加的效果并不是在每种情况下都对收听者有益。
期望提供一种语音合成装置、语音合成方法、语音合成程序、便携式信息终端以及语音合成系统,其在例如再现输出从文本数据转换成的语音信号的情况下,能够输出一种有吸引力的语音,该语音给收听者一种语音不仅仅是从对象文本转换而来的愉悦印象。
此外,期望提供一种语音合成装置、语音合成方法、语音合成程序、便携式信息终端以及语音合成系统,其能够输出已经添加了对收听者在一定程度上有益的效果等的再现语音。
根据本发明的实施例,选择要被转换成语音的文本内容项目,可被至少转换成文本并与所选择的内文本内容项目相关的相关信息被选择,该相关信息被转换成文本,所述文本的文本数据被添加到所选择的文本内容项目的文本数据。然后,将得到的文本数据转换成语音信号,并输出该语音信号。
即,根据本发明的实施例,当选择文本内容项目时,也选择与所述文本内容项目相关的相关信息。该相关信息被转换成文本,所述文本的文本数据被添加到所选择的文本内容项目的文本数据,对得到的文本数据执行文本到语音转换。换言之,根据本发明的实施例,文本数据不仅仅被转换成语音。添加了根据相关信息等的效果的文本数据被转换成语音。
根据本发明的实施例,选择要被转换成语音的文本内容项目,将与所选择的文本内容项目相关的相关信息转换成文本,所述文本的文本数据被添加到所选择的文本内容项目的文本数据。得到的数据被转换成语音信号并输出该语音信号。因此,根据本发明的实施例,例如,在再现输出从文本数据转换成的语音信号时,可以获得并输出给予收听者一种语音不仅仅是从对象文本转换而来的愉悦印象的有吸引力的语音。此外,根据本发明的实施例,可以输出已经添加了对收听者在一定程度上有益的效果等的语音。
附图说明
图1是示出了根据本发明实施例的语音合成装置的示意性内部结构的示例的框图;
图2是示出了从选择文本内容项目到对文本内容项目添加效果的处理过程的流程图;以及
图3是示出了在用户信息、日期时间信息、文本内容项目和BGM数据等被存储在网络上的服务器等中的情况下,语音合成装置的示意性内部结构的示例的框图。
具体实施方式
以下将参照附图来描述本发明的实施例。
这里,本发明的实施例是一个示例,因此,当然,本发明的实施例不仅仅限于此示例。
图1示出了根据本发明实施例的语音合成装置的示意性内部结构的示例。
这里,根据本发明实施例的语音合成装置不仅可以应用于各种固定装置,也可以应用于各种移动装置,诸如便携式电话终端、个人数字助理(PDA)、个人计算机(例如,膝上型计算机)、导航装置、便携式视听(AV)装置、便携式游戏机等。另外,根据本发明实施例的语音合成装置可以是其组件为单独的装置的语音合成系统。在这个实施例中,便携式电话终端被用作可应用语音合成装置的示例性装置。另外,本实施例中的将文本转换成语音的方法可被应用于通过归档和编辑的语音合成以及利用规则的语音合成;然而,本实施例特别适用于使在利用规则的语音合成中获得的像机器声音的合成语音更具吸引力的情况。
图1中示出的根据实施例的便携式电话终端包括内容选择接口单元1、效果确定单元2、文本内容记录存储器3、用户信息记录存储器4、日期时间记录单元5、BGM记录存储器6、文本到语音转换和再现单元7、BGM再现单元8、混频器单元9、语音识别和用户命令确定单元10以及扬声器或头戴受话器11。
例如,在文本内容记录存储器3中记录通过互联网等下载的各种文本内容项目的数据(具体地讲为文本数据),所述文本内容项目诸如为电子邮件消息、用户日程表、烹饪食谱、向导(导航)信息以及关于新闻、天气预报、股票价格、电视时间表、网页、网络日志、占卜等的信息。这里,在下面的描述中,文本内容项目的数据可简称为文本内容项目或内容项目。上述的文本内容项目仅为示例,其它各种文本内容项目也被记录在文本内容记录存储器3中。
与记录在文本内容记录存储器3中的文本内容项目相关的用户信息被记录在用户信息记录存储器4中。根据用户预先设定的设置、基于每个内容预先设定的设置、下面将描述的语音合成程序的编程者设定的设置等,将每条用户信息与记录在文本内容记录存储器3中的文本内容项目相关联。另外,在用户信息被预先包括在文本内容项目内的情况下,可以不必预先将文本内容项目与用户信息相关联。这里,与文本内容项目相关的用户信息的示例是至少可以用文本表示的信息,例如,对象便携式电话终端的用户的姓名、电子邮件消息的发送者的姓名以及计划日程表中的参与者的姓名。当然,可存在一些与任何用户信息都不相关的文本内容项目。
与记录在文本内容记录存储器3中的文本内容项目相关的日期时间信息被记录在日期时间记录单元5中。根据用户预先设定的设置、基于每个内容预先设定的设置、下面将描述的语音合成程序的编程者设定的设置等,将每条日期时间信息与记录在文本内容记录存储器3中的文本内容项目相关联。这里,与文本内容项目相关的日期时间信息的示例是关于当前日期和时间的日期时间信息等。另外,日期时间信息的另一示例为基于每个内容的唯一日期时间信息。唯一日期时间信息的示例为至少可以被转换成文本的信息,例如,在新闻的情况下为关于发布的新闻的发布日期和时间的信息等,在调度表的情况下为关于日程表的日期和时间的信息等,在电子邮件消息的情况下为关于电子邮件消息的接收或发送的日期和时间的信息等。当然,可存在一些与任何日期时间信息都不相关的文本内容项目。
多条BGM数据被记录在BGM记录存储器6中。BGM记录存储器6中的BGM数据被划分成与记录在文本内容记录存储器3中的文本内容项目相关的BGM数据和与记录在文本内容记录存储器3中的文本内容项目不相关的BGM数据。根据用户预先设定的设置、基于每个内容预先设定的设置、语音合成程序的编程者设定的设置等,将每条BGM数据与记录在BGM记录存储器6中的文本内容项目相关联。另外,每条BGM数据可被随机地与记录在BGM记录存储器6中的文本内容项目相关联。可预先设定是否将BGM数据与文本内容项目随机地相关联。此外,当内容选择接口单元1选择一文本内容项目时,如下面所述,该文本内容项目可被随机并自动地与所述BGM数据之一相关联。
语音识别和用户命令确定单元10对通过麦克风输入的用户的语音执行语音识别,并利用语音识别结果来确定用户输入的命令的细节。
内容选择接口单元1是允许用户从记录在文本内容记录存储器3中的文本内容项目中选择期望的内容项目的接口单元。用户可以从记录在文本内容记录存储器3中的文本内容项目中直接选择期望的内容项目,或者当对象便携式电话终端内的应用程序根据用户输入的启动命令而启动时自动地选择期望的内容项目。这里,当用户输入选择命令时,例如,在显示屏幕上显示从多个内容项目中选择内容项目的菜单。当用户通过例如键操作或触摸面板操作从菜单输入选择命令以选择期望的内容项目时,内容选择接口单元1选择期望的内容项目。在根据应用的启动而选择内容项目的情况下,例如,当用户从显示屏幕上的多个用于启动应用的图标中选择启动一个应用的图标并且该应用被启动时,内容项目被选择。此外,可以利用已经对其执行了语音识别的语音来选择内容项目。在这种情况下,语音识别和用户命令确定单元10针对用户执行语音识别,并利用语音识别结果来确定用户输入的命令的细节。已经根据语音识别确定了细节的命令被发送到内容选择接口单元1。因此,内容选择接口单元1根据用户口头输入的命令来选择内容项目。
效果确定单元2执行根据本发明实施例的语音合成程序,并从文本内容记录存储器3获得用户通过内容选择接口单元1选择的文本内容项目。这里,根据本发明实施例的语音合成程序可在便携式电话终端被发运之前预先安装到便携式电话终端的内部存储器等上。语音合成程序也可以经由例如盘形记录介质、外部半导体存储器等而安装到内部存储器等上。语音合成程序也可以例如经由连接到外部接口的线缆或经由无线通信而安装到内部存储器等上。
同时,效果确定单元2选择与所选择的文本内容项目相关的用户信息、日期时间信息、BGM信息等。即,当内容选择接口单元1选择文本内容项目时,如果存在与所选择的文本内容项目相关的用户信息,则效果确定单元2从用户信息记录存储器4获得该用户信息。此外,如果存在与所选择的文本内容项目相关的日期时间信息,则效果确定单元2从日期时间记录单元5获得该日期时间信息。相似地,如果存在与所选择的文本内容项目相关的BGM数据,则效果确定单元2从BGM记录存储器6获得该BGM数据。这里,当文本内容项目被随机地与BGM数据相关联时,效果确定单元2从BGM记录存储器6随机地获得BGM数据。
效果确定单元2利用用户信息、日期时间信息和BGM数据将效果添加到所选择的文本内容项目。
即,例如,用户信息被转换成诸如用户姓名等的文本数据。相似地,日期时间信息被转换成诸如日期和时间的文本数据。根据需要,用户姓名的文本数据、日期和时间的文本数据等被添加到例如所选择的文本内容项目的开头、中部或末端。
当从效果确定单元2提供文本内容项目、用户姓名以及日期和时间的文本数据时,用户姓名以及日期和时间已经作为效果被添加到文本内容项目,文本到语音转换和再现单元7将该文本数据转换成语音信号。然后,作为文本到语音转换的结果而获得的语音信号被输出到混频器单元9。
此外,当从效果确定单元2提供BGM数据时,BGM再现单元8从BGM数据产生BGM信号(音乐信号)。
当从文本到语音转换和再现单元7提供作为文本到语音转换的结果而获得的语音信号并且从BGM再现单元8提供BGM信号时,混频器单元9将语音信号和BGM信号混合,并将得到的信号输出到扬声器或头戴受话器(在下文中称作扬声器11)。
这样,从扬声器11输出通过混合从文本转换成的语音和BGM而获得的语音。即,在这个实施例中,输出的语音不仅仅是从所选择的文本内容项目的文本数据转换成的语音和BGM的混合。例如,输出的语音包括从作为效果的文本数据(如用户姓名以及日期和时间)转换成的语音等。用户姓名、日期和时间等与所选择的文本内容项目相关联,因此,在这个实施例中添加的效果有益于收听输出的语音的收听者。
下面将利用具体的示例来描述将通过效果确定单元2添加到文本内容项目的效果。这里,当然,本发明的实施例不限于下面的具体示例。
作为向文本内容项目添加效果的示例,当文本内容项目是接收到的电子邮件消息时,例如,用户信息包括电子邮件消息的发送者信息和对象便携式电话终端的用户信息,例如,日期时间信息包括当前日期和时间以及接收的电子邮件消息的接收日期和时间。这里,电子邮件消息的发送者信息具体为电子邮件地址,然而,如果与电子邮件地址相关的姓名等被注册在对象便携式电话终端内部的电话薄中,则所述姓名可被用作发送者信息。
即,如果用户指示利用文本到语音转换将接收到的电子邮件消息朗读并输出,则效果确定单元2例如从用户信息记录存储器4获得对象便携式电话终端的用户信息,并从日期时间记录单元5获得当前日期时间信息。利用用户信息和当前日期时间信息,效果确定单元2产生表示对象便携式电话终端的用户的消息的文本数据和表示当前的日期和时间的文本数据。同时,效果确定单元2从接收到的电子邮件消息的数据产生表示发送者的姓名的文本数据和表示接收的电子邮件消息的接收日期和时间的文本数据,其中,接收到的电子邮件是由电子邮件接收单元(未示出)接收的并且被记录在文本内容记录存储器3中。如果需要,效果确定单元2通过组合这些文本数据来产生将被用于添加效果的文本数据。更具体地讲,例如,在对象便携式电话终端的用户的姓名为“A”、当前时间在“夜晚”时间帧内、发送者的姓名为“B”、电子邮件接收日期和时间为“4月8日下午6:30”的情况下,作为示例,效果确定单元2产生诸如“晚上好,A先生。您在下午6:30接收到来自B先生的邮件”的文本数据,作为将被用于添加效果的文本数据。之后,效果确定单元2将上述的用于添加效果的文本数据添加到例如接收到的电子邮件消息的标题和正文的文本数据的开头,并将得到的文本数据发送到文本到语音转换和再现单元7。
同时,效果确定单元2从BGM记录存储器6获得针对电子邮件消息的内容预先设定的BGM数据或随机设定的BGM数据。这里,例如,针对电子邮件消息的内容而预先设定的BGM数据可针对在电话薄中注册的姓名进行预先设定,可针对接收文件夹进行预先设定,可针对按组设定的子接收文件夹进行预先设定,或者可随机设定。效果确定单元2将从BGM记录存储器6获得的BGM数据发送到BGM再现单元8。
这样,作为混频器单元9执行的混频结果而获得的并最终从扬声器11输出的语音是这样的语音,在该语音中混合了从用作效果的文本数据“晚上好,A先生。您在下午6:30接收到来自B先生的邮件”转换成的语音、如上所述从接收到的电子邮件消息的标题和正文的文本数据转换成的后续语音以及用作效果的BGM。
作为将效果添加到文本内容项目的另一示例,如果文本内容项目是从互联网下载的新闻等,则用户信息例如是对象便携式电话终端的用户信息,日期时间信息包括例如当前的日期和时间以及发布的新闻的接收日期和时间。
即,当用户指示利用文本到语音转换来朗读新闻并输出所述新闻时,例如,效果确定单元2从用户信息记录存储器4获得对象便携式电话终端的用户信息,并从日期时间记录单元5获得当前的日期时间信息。利用用户信息和日期时间信息,效果确定单元2产生表示对象便携式电话终端的用户的消息的文本数据以及表示当前的日期和时间的文本数据。而且,同时,效果确定单元2从通过互联网连接单元(未示出)发布并下载并且记录在文本内容记录存储器3中的新闻的数据,产生表示所述新闻的主题的文本数据以及表示每个新闻主题的发布日期和时间的文本数据。然后,如果需要,效果确定单元2通过将这些文本数据组合来产生将被用作添加效果的文本数据。更具体地讲,例如,在对象便携式电话终端的用户的姓名为“A”、当前时间在“早晨”时间帧内、新闻的主题为“汽油税”以及所述新闻的发布日期和时间为“4月8日上午9:00”的情况下,作为示例,效果确定单元2产生诸如“早上好,A先生。这是上午9:00关于汽油税的新闻”的文本数据,作为将用于添加效果的文本数据。之后,效果确定单元2将上述的用于添加效果的文本数据添加到例如所述新闻的正文的文本数据的开头,并将得到的文本数据发送到文本到语音转换和再现单元7。此外,在设置了能够朗读新闻的拟人虚构角色“C”等的情况下,作为示例,可添加诸如“新闻播报员C将报道今日新闻”的文本数据,作为将被用于添加效果的文本数据。
而且,同时,效果确定单元2从BGM记录存储器6读取针对新闻的内容预先设定的BGM数据或随机设定的BGM数据。这里,例如,针对新闻的内容预先设定的BGM数据可针对所述新闻进行预先设定,可针对新闻的类型或发布源进行预先设定,或者可随机设定。效果确定单元2将从BGM记录存储器6读取的BGM数据发送到BGM再现单元8。
因此,作为混频器单元9执行的混合的结果而获得的并最终从扬声器11输出的语音是这样的语音,在该语音中混合了从用作效果的文本数据“早上好,A先生。这是上午9:00关于汽油税的新闻”转换成的语音、如上所述从新闻的正文的文本数据转换成的后续语音以及用作效果的BGM。
作为将效果添加到文本内容项目的另一示例,如果文本内容项目例如是烹饪食谱,则所述用户信息是对象便携式终端的用户信息,所述日期时间信息包括当前的日期和时间以及在烹饪食谱中指定的各种时间段。
即,当用户指示利用文本到语音转换来朗读并输出烹饪食谱时,例如,效果确定单元2从用户信息记录存储器4获得对象便携式电话终端的用户信息并从日期时间记录单元5获得当前的日期时间信息。利用用户信息和日期时间信息,效果确定单元2产生表示对象便携式电话终端的用户的消息的文本数据以及表示当前的日期和时间的文本数据。而且,同时,效果确定单元2从记录在文本内容记录存储器3中的烹饪食谱的数据产生表示菜肴的名称的文本数据以及表示菜肴的烹饪过程的文本数据。然后,如果需要,效果确定单元2通过将这些文本数据组合来产生将被用于添加效果的文本数据。更具体地讲,例如,在对象便携式电话终端的用户的姓名为“A”、当前时间在“白天”时间帧内并且菜肴的名称为“汉堡牛排”的情况下,作为示例,效果确定单元2产生诸如“您好,A先生。让我们做美味的汉堡牛排”的文本数据,作为将用于添加效果的文本数据。之后,效果确定单元2将上述的用于添加效果的文本数据添加到例如所述菜肴的烹饪过程的文本数据的开头,并将得到的文本数据发送到文本到语音转换和再现单元7。此外,具体地讲,在需要在烹饪过程中测量时间(如汉堡牛排的烤制时间)的情况下,效果确定单元2测量时间。此外,在设定了能够朗读烹饪食谱的拟人虚构角色“C”的情况下,作为示例,可添加诸如“我的名字是C。我将告诉您如何制作美味的汉堡牛排”的文本数据,作为将用于添加效果的文本数据。
同时,效果确定单元2从BGM记录存储器6读取针对烹饪菜谱的内容预先设定的BGM数据或随机设定的BGM数据。这里,例如,针对烹饪菜谱的内容预先设定的BGM数据可针对烹饪菜谱进行预先设定,可针对烹饪的类型进行预先设定,或者可以随机设定。效果确定单元2将从BGM记录存储器6读取的BGM数据发送到BGM再现单元8。
因此,作为混频器单元9执行的混合的结果而获得的并最终从扬声器11输出的语音是这样的语音,在该语音中混合了从用作效果的文本数据“您好,A先生。让我们做美味的汉堡牛排”转换成的语音、如上所述从菜肴的烹饪过程的文本数据转换成的后续语音以及用作效果的BGM。
这里,在本发明的实施例中,效果确定单元2可将除了上述的具体示例外的各种效果添加到文本内容项目。为了减少冗余,省略对其它效果的描述。
而且,在这个实施例中,当正在利用文本到语音转换朗读文本内容项目的文本时,例如,如果用户口头输入了命令等,则文本的朗读被暂停、重新开始、终止或重复,或者根据用户口头输入的命令执行跳至另一文本内容项目的文本并朗读。即,语音识别和用户命令确定单元10对通过麦克风等输入的语音执行所谓的语音识别,利用语音识别结果确定用户输入的命令的细节,并将输入的命令的细节发送到效果确定单元2。效果确定单元2确定指示了文本内容项目的文本朗读的暂停、重新开始、终止、重复、以及跳至另一文本内容项目的文本并朗读中的哪一个,并执行与所述指示对应的处理。
图2示出了在根据本发明实施例的便携式电话终端中从选择文本内容项目到向所述文本内容项目添加效果的处理过程。这里,图2中示出的流程图的处理是由根据本发明实施例的语音合成程序执行的处理,该语音合成程序由效果确定单元2执行。
在图2中,效果确定单元2处于等待状态,直到在启动语音合成程序之后效果确定单元2从内容选择接口单元1接收到输入。在步骤S1,当用户通过内容选择接口单元1输入了用于选择文本内容项目的选择命令时,效果确定单元2从文本内容记录存储器3读取与选择命令对应的文本内容项目。
接下来,在步骤S2,效果确定单元2确定在用户信息记录存储器4内是否设定了与所述文本内容项目相关的用户信息。如果效果确定单元2确定设定了这样的用户信息,则该过程进行到步骤S3。如果效果确定单元2确定没有设定这样的用户信息,则该过程进行到步骤S4。
在步骤S3,如上所述,效果确定单元2将与用户信息对应的文本数据发送到文本到语音转换和再现单元7,以将所述文本数据转换成语音。
在步骤S4,效果确定单元2确定在日期时间记录单元5中是否设定了与所述文本内容项目相关的日期时间信息。如果效果确定单元2确定设定了这种日期时间信息,则该过程进行到步骤S5。如果效果确定单元2确定没有设定这种日期时间信息,则该过程进行到步骤S6。
在步骤S5,如上所述,效果确定单元2将与所述日期时间信息对应的文本数据发送到文本到语音转换和再现单元7,以将所述文本数据转换成语音。
在步骤S6,效果确定单元2确定例如所述文本内容项目的类型,并且该过程进行到步骤S7。
在步骤S7,效果确定单元2确定在BGM记录存储器6中是否设定了与文本内容项目的所述类型相关的BGM数据。如果效果确定单元2确定设定了这种BGM数据,则该过程进行到步骤S8。如果效果确定单元2确定没有设定这种BGM数据,则该过程进行到步骤S9。
在步骤S8,如上所述,效果确定单元2从BGM记录存储器6读取BGM数据,并将所述BGM数据发送到BGM再现单元8,以再现所述BGM数据。
在步骤S9,效果确定单元2确定BGM是否被设定为随机选择。如果效果确定单元2确定设定了随机选择,则该过程进行到步骤S10。如果效果确定单元2确定没有设定随机选择,则该过程进行到步骤S11。
在步骤S10,效果确定单元2从BGM记录存储器6中随机选择BGM数据,并将所述BGM数据发送到BGM再现单元8,以再现所述BGM数据。
在步骤S11,效果确定单元2将所述文本内容项目的文本数据发送到文本到语音转换和再现单元7,以将所述文本数据转换成语音。
之后,在步骤S12,效果确定单元2使在文本到语音转换和再现单元7中通过如上所述将文本转换成语音而获得的语音信号输出到混频器单元9。同时,效果确定单元2使BGM再现单元8再现的BGM信号输出到混频器单元9。因此,混频器单元9将从文本转换成的语音信号和BGM信号混合,并且从扬声器11输出混合的语音。
上述的用户信息、日期时间信息、文本内容项目以及BGM数据可被存储在例如网络上的服务器等中。
图3示出了在这种信息被存储在网络上的情况下语音合成装置的示意性内部结构的示例。这里,在图3中,与如1中相同的组件用相同的附图标记表示,并且根据需要省略对其的描述。
在图3的示例性结构的情况下,作为根据本发明实施例的语音合成装置的示例的便携式电话终端包括:内容选择接口单元1、效果确定单元2、文本到语音转换和再现单元7、BGM再现单元8、混频器单元9、语音识别和用户命令确定单元10以及扬声器或头戴受话器11。即,在图3的示例性结构的情况下,文本内容项目被存储在网络上的文本内容记录装置23中。相似地,与文本内容项目相关的用户信息被存储在网络上的用户信息记录装置24中,与文本内容项目相关的日期时间信息被存储在网络上的日期时间记录装置25中。而且,BGM数据被存储在网络上的BGM记录装置26中。文本内容记录装置23、用户信息记录装置24、日期时间记录装置25和BGM记录装置26例如包括服务器,并可经由网络接口单元(未示出)连接到效果确定单元2。
在图3的示例性结构中,选择文本内容项目、将效果添加到文本内容项目、将具有效果的文本内容项目转换成语音信号以及混合所述语音信号和BGM的处理与在图1和图2的上述示例中描述的处理相同。这里,在图3的示例中,通过网络接口单元执行效果确定单元2与文本内容记录装置23、用户信息记录装置24、日期时间记录装置25和BGM记录装置26中的每个之间的数据交换。
这里,在获得了互联网上的网页的内容的情况下,效果确定单元2可以根据包括在例如网页的URL(统一资源定位符)中的信息来确定从该网页可获得的内容的类型。当选择BGM时,效果确定单元2可选择与内容的类型对应的BGM。例如,在新闻网页的情况下,在网页的URL中经常描述诸如“news”等的字符。因此,当在网页的URL中检测到诸如“news”等的字符时,效果确定单元2确定该网页的内容包括在新闻类型中。然后,当从BGM记录装置26获得BGM数据时,效果确定单元2选择预先设定的与新闻的内容相关的BGM数据。此外,内容的类型可根据网页上描述的字符(新闻等)等进行确定,而不是根据URL进行确定。
此外,通常,在互联网浏览器的屏幕上,URL经常注册在根据类型设定的文件夹(所谓的书签文件夹)中。因此,在获得了互联网上的网页的内容的情况下,效果确定单元2可通过监视哪个文件夹包含该网页的URL来确定从该网页可获得的内容的类型。
例如,可通过在空气中将从用于输出作为文本到语音转换的结果而获得的语音的扬声器输出的语音与从用于输出BGM的扬声器输出的音乐进行混合,来实现作为文本到语音转换的结果而获得的语音与BGM的混合。
即,例如,如果从例如便携式电话终端的扬声器输出作为文本到语音转换的结果而获得的语音,并从例如家庭音频系统的扬声器输出BGM,则在空气中混合所述语音和BGM。
在这个示例的情况下,便携式电话终端至少包括内容选择接口单元、效果确定单元和文本到语音转换和再现单元。这里,如图1的示例所示,日期时间信息、用户信息和文本内容项目可被记录在便携式电话终端中,或者如图3的示例所示可被存储在网络上。
相反,BGM记录装置和BGM再现装置可以为例如家庭音频系统的组件。这里,BGM数据可被记录在便携式电话终端中,并且如上述描述选择的BGM数据可经由例如无线通信等从便携式电话终端传送到家庭音频系统的BGM再现装置。
此外,例如,便携式电话终端可仅包括内容选择接口单元和效果确定单元,文本到语音转换和再现装置执行文本到语音转换。从文本到语音转换和再现装置提供的语音信号和从家庭音频系统的BGM再现装置提供的BGM再现音乐信号可由家庭音频系统的混频器装置进行混合,然后可从家庭音频系统的扬声器输出得到的信号。
如上所述,根据本发明的实施例,当输入了朗读文本内容项目的命令时,选择与该文本内容项目相关的用户信息、日期时间信息以及BGM信息。利用所述的用户信息、日期时间信息以及BGM信息,将效果添加到从所述文本内容项目转换成的语音,从而可以获得并输出给予收听者一种语音不仅仅是从对象文本转换而来的愉悦印象的有吸引力的语音。此外,添加到文本内容项目的效果是基于与该文本内容项目相关的用户信息、日期时间信息以及BGM信息的效果,从而可以获得添加了对于收听者在一定程度上有益的效果等的语音。
这里,本发明的上述实施例是根据本发明的示例。因此,本发明不限于上述的实施例,当然,可以根据设计等进行各种改变,只要它们在权利要求或其等同物的范围内即可。
在上述的实施例中,朗读文本内容项目所用的语言并不限于特定的单一语言,而可以是包括目语、英语、法语、德语、俄语、阿拉伯语、汉语等的语言中的任何语言。
本申请包含与于2008年4月23日在日本专利局提交的第2008-113202号日本在先专利申请中公开的主题相关的主题,该申请的全部内容通过引用包含于此。
本领域的技术人员应该理解,可以根据设计要求和其它因素进行各种变形、组合、子组合和替换,只要它们在权利要求或其等同物的范围内即可。
Claims (13)
1、一种语音合成装置,包括:
内容选择单元,选择要被转换成语音的文本内容项目;
相关信息选择单元,选择相关信息,所述相关信息能够被至少转换成文本并且与所述内容选择单元选择的文本内容项目相关;
数据添加单元,将所述相关信息选择单元选择的相关信息转换成文本,并将所述文本的文本数据添加到所述内容选择单元选择的文本内容项目的文本数据;
文本到语音转换单元,将从所述数据添加单元提供的文本数据转换成语音信号;和
语音输出单元,输出从所述文本到语音转换单元提供的语音信号。
2、根据权利要求1所述的语音合成装置,
其中,所述相关信息选择单元选择与所选择的文本内容项目相关的音乐数据,并且
所述语音输出单元将从所述文本到语音转换单元提供的语音信号与所述音乐数据的音乐信号混合,并输出所得到的信号。
3、根据权利要求1或2所述的语音合成装置,
其中,所述相关信息选择单元从多条相关信息中选择与所述内容选择单元选择的文本内容项目相关的相关信息,所述多条相关信息与能够被所述内容选择单元选择的多个文本内容项目相关并且被预先记录。
4、根据权利要求1或2所述的语音合成装置,
其中,所述内容选择单元从网络上的多个文本内容项目中选择期望的文本内容项目,并且
所述相关信息选择单元从多条相关信息中选择与所述内容选择单元选择的文本内容项目相关的相关信息,所述多条相关信息与能够被所述内容选择单元选择的多个文本内容项目相关并且被存储在网络上。
5、一种语音合成方法,包括如下步骤:
选择要被转换成语音的文本内容项目,所述文本内容项目由内容选择单元选择;
选择相关信息,所述相关信息能够被至少转换成文本并与所述内容选择单元选择的文本内容项目相关,所述相关信息由相关信息选择单元选择;
将所述相关信息选择单元选择的相关信息转换成文本,并将所述文本的文本数据添加到所述内容选择单元选择的文本内容项目的文本数据,所述转换和添加由数据添加单元执行;
将从所述数据添加单元提供的文本数据转换成语音信号,所述转换由文本到语音转换单元执行;
输出从所述文本到语音转换单元提供的语音信号,所述语音信号由语音输出单元输出。
6、根据权利要求5所述的语音合成方法,还包括如下步骤:
选择与所选择的文本内容项目相关的音乐数据,所述音乐数据由所述相关信息选择单元选择;以及
将从所述文本到语音转换单元提供的语音信号与所述音乐数据的音乐信号混合,并输出所得到的信号,所述混合和输出由所述语音输出单元执行。
7、一种使计算机作为如下单元起作用的语音合成程序:
内容选择单元,选择要被转换成语音的文本内容项目;
相关信息选择单元,选择相关信息,所述相关信息能够被至少转换成文本并且与所述内容选择单元选择的文本内容项目相关;
数据添加单元,将所述相关信息选择单元选择的相关信息转换成文本,并将所述文本的文本数据添加到所述内容选择单元选择的文本内容项目的文本数据;
文本到语音转换单元,将从所述数据添加单元提供的文本数据转换成语音信号;和
语音输出单元,输出从所述文本到语音转换单元提供的语音信号。
8、根据权利要求7的语音合成程序,
其中,所述相关信息选择单元选择与所选择的文本内容项目相关的音乐数据,并且
所述语音输出单元将从所述文本到语音转换单元提供的语音信号与所述音乐数据的音乐信号混合,并输出所得到的信号。
9、一种便携式信息终端,包括:
命令输入单元,获得由用户输入的命令;
内容选择单元,根据用户输入的命令来选择要被转换成语音的文本内容项目;
相关信息选择单元,选择相关信息,所述相关信息能够被至少转换成文本并且与所述内容选择单元选择的文本内容项目相关;
数据添加单元,将所述相关信息选择单元选择的相关信息转换成文本,并将所述文本的文本数据添加到所述内容选择单元选择的文本内容项目的文本数据;
文本到语音转换单元,将从所述数据添加单元提供的文本数据转换成语音信号;和
语音输出单元,输出从所述文本到语音转换单元提供的语音信号。
10、根据权利要求9所述的便携式信息终端,
其中,所述相关信息选择单元选择与所选择的文本内容项目相关的音乐数据,并且
所述语音输出单元将从所述文本到语音转换单元提供的语音信号与所述音乐数据的音乐信号混合,并输出所得到的信号。
11、一种语音合成系统,包括:
选择和添加装置,根据用户输入的命令来选择要被转换成语音的文本内容项目,选择至少能够被转换成文本并与所选择的文本内容项目相关的相关信息,将所选择的相关信息转换成文本,并根据用户输入的命令将所述文本的文本数据添加到所选择的文本内容项目的文本数据;
文本到语音转换装置,将从所述选择和添加装置提供的文本数据转换成语音信号;
语音输出装置,将与从所述文本到语音转换装置提供的语音信号对应的语音输出到空气中。
12、根据权利要求11所述的语音合成系统,
其中,所述选择和添加装置选择与所选择的文本内容项目相关的音乐数据,并且
所述语音输出装置将从所述文本到语音转换装置提供的语音信号与所述音乐数据的音乐信号混合,并输出得到的信号。
13、根据权利要求11所述的语音合成系统,
其中,所述选择和添加装置选择与所选择的文本内容项目相关的音乐信号,并且
所述语音输出装置包括:将与从所述文本到语音转换装置提供的语音信号对应的语音输出到空气中的设备;和将与从所述选择和添加装置提供的音乐信号对应的音乐输出到空气中的设备。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008-113202 | 2008-04-23 | ||
JP2008113202A JP2009265279A (ja) | 2008-04-23 | 2008-04-23 | 音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム |
JP2008113202 | 2008-04-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101567186A true CN101567186A (zh) | 2009-10-28 |
CN101567186B CN101567186B (zh) | 2013-01-02 |
Family
ID=40636977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009101345944A Expired - Fee Related CN101567186B (zh) | 2008-04-23 | 2009-04-23 | 语音合成装置、方法、系统以及便携式信息终端 |
Country Status (4)
Country | Link |
---|---|
US (2) | US9812120B2 (zh) |
EP (2) | EP2112650B8 (zh) |
JP (1) | JP2009265279A (zh) |
CN (1) | CN101567186B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108877766A (zh) * | 2018-07-03 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 歌曲合成方法、装置、设备及存储介质 |
CN109036373A (zh) * | 2018-07-31 | 2018-12-18 | 北京微播视界科技有限公司 | 一种语音处理方法及电子设备 |
CN112331223A (zh) * | 2020-11-09 | 2021-02-05 | 合肥名阳信息技术有限公司 | 一种给配音添加背景音乐的方法 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8751562B2 (en) * | 2009-04-24 | 2014-06-10 | Voxx International Corporation | Systems and methods for pre-rendering an audio representation of textual content for subsequent playback |
US9244984B2 (en) | 2011-03-31 | 2016-01-26 | Microsoft Technology Licensing, Llc | Location based conversational understanding |
US9760566B2 (en) | 2011-03-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof |
US10642934B2 (en) | 2011-03-31 | 2020-05-05 | Microsoft Technology Licensing, Llc | Augmented conversational understanding architecture |
US9842168B2 (en) * | 2011-03-31 | 2017-12-12 | Microsoft Technology Licensing, Llc | Task driven user intents |
US9754045B2 (en) * | 2011-04-01 | 2017-09-05 | Harman International (China) Holdings Co., Ltd. | System and method for web text content aggregation and presentation |
US9064006B2 (en) | 2012-08-23 | 2015-06-23 | Microsoft Technology Licensing, Llc | Translating natural language utterances to keyword search queries |
US9159313B2 (en) | 2012-04-03 | 2015-10-13 | Sony Corporation | Playback control apparatus, playback control method, and medium for playing a program including segments generated using speech synthesis and segments not generated using speech synthesis |
CN103065620B (zh) * | 2012-12-27 | 2015-01-14 | 安徽科大讯飞信息科技股份有限公司 | 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法 |
TWI582755B (zh) * | 2016-09-19 | 2017-05-11 | 晨星半導體股份有限公司 | 文字轉語音方法及系統 |
TW202009924A (zh) * | 2018-08-16 | 2020-03-01 | 國立臺灣科技大學 | 音色可選之人聲播放系統、其播放方法及電腦可讀取記錄媒體 |
JP7284571B2 (ja) * | 2018-11-20 | 2023-05-31 | 東京瓦斯株式会社 | 情報処理装置およびプログラム |
JP7308620B2 (ja) * | 2019-02-15 | 2023-07-14 | 東芝ホームテクノ株式会社 | レシピ情報提供システム |
JP6773844B1 (ja) * | 2019-06-12 | 2020-10-21 | 株式会社ポニーキャニオン | 情報処理端末及び情報処理方法 |
US11494434B2 (en) | 2019-07-31 | 2022-11-08 | Rovi Guides, Inc. | Systems and methods for managing voice queries using pronunciation information |
US11410656B2 (en) * | 2019-07-31 | 2022-08-09 | Rovi Guides, Inc. | Systems and methods for managing voice queries using pronunciation information |
JP7262142B2 (ja) * | 2019-09-18 | 2023-04-21 | ヨプ リ,ジョン | 複数の音声システムが装着されたオンラインメディアサービス具現方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1694460A (zh) * | 2004-04-30 | 2005-11-09 | 卡西欧计算机株式会社 | 通信终端装置及通信终端处理程序 |
CN1855223A (zh) * | 2005-04-18 | 2006-11-01 | 株式会社理光 | 音频字体输出设备、字体数据库和语言输入前端处理器 |
CN101042752A (zh) * | 2006-03-09 | 2007-09-26 | 国际商业机器公司 | 用于电子邮件管理的方法和系统 |
US20080059189A1 (en) * | 2006-07-18 | 2008-03-06 | Stephens James H | Method and System for a Speech Synthesis and Advertising Service |
Family Cites Families (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5671158A (en) * | 1995-09-18 | 1997-09-23 | Envirotest Systems Corp. | Apparatus and method for effecting wireless discourse between computer and technician in testing motor vehicle emission control systems |
JP3847838B2 (ja) | 1996-05-13 | 2006-11-22 | キヤノン株式会社 | 情報処理方法及び装置 |
JPH10290256A (ja) | 1997-04-15 | 1998-10-27 | Casio Comput Co Ltd | 受信電子メールの報告装置及び記憶媒体 |
US6446040B1 (en) | 1998-06-17 | 2002-09-03 | Yahoo! Inc. | Intelligent text-to-speech synthesis |
JP2000081892A (ja) | 1998-09-04 | 2000-03-21 | Nec Corp | 効果音付加装置および効果音付加方法 |
JP2000250574A (ja) | 1999-03-03 | 2000-09-14 | Sony Corp | コンテンツ選択システム、コンテンツ選択クライアント、コンテンツ選択サーバ及びコンテンツ選択方法 |
CA2405209A1 (en) * | 1999-04-13 | 2000-10-19 | Christopher Lee Somerville | Terminal for an active labelling system |
JP2001005688A (ja) | 1999-06-24 | 2001-01-12 | Hitachi Ltd | 並列プログラム用デバッグ支援装置 |
JP2001014306A (ja) | 1999-06-30 | 2001-01-19 | Sony Corp | 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体 |
JP2001051688A (ja) | 1999-08-10 | 2001-02-23 | Hitachi Ltd | 音声合成を用いた電子メール読み上げ装置 |
JP2001109487A (ja) * | 1999-10-07 | 2001-04-20 | Matsushita Electric Ind Co Ltd | 電子メールの音声再生装置、その音声再生方法、及び音声再生プログラムを記録した記録媒体 |
JP2001117828A (ja) | 1999-10-14 | 2001-04-27 | Fujitsu Ltd | 電子装置及び記憶媒体 |
US20020172376A1 (en) * | 1999-11-29 | 2002-11-21 | Bizjak Karl M. | Output processing system and method |
JP3850616B2 (ja) | 2000-02-23 | 2006-11-29 | シャープ株式会社 | 情報処理装置および情報処理方法、ならびに情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US6757362B1 (en) * | 2000-03-06 | 2004-06-29 | Avaya Technology Corp. | Personal virtual assistant |
JP4392956B2 (ja) | 2000-05-17 | 2010-01-06 | シャープ株式会社 | 電子メール端末装置 |
US6823311B2 (en) * | 2000-06-29 | 2004-11-23 | Fujitsu Limited | Data processing system for vocalizing web content |
JP3635230B2 (ja) | 2000-07-13 | 2005-04-06 | シャープ株式会社 | 音声合成装置および方法、情報処理装置、並びに、プログラム記録媒体 |
US7233940B2 (en) * | 2000-11-06 | 2007-06-19 | Answers Corporation | System for processing at least partially structured data |
CA2436940C (en) * | 2000-12-01 | 2010-07-06 | The Trustees Of Columbia University In The City Of New York | A method and system for voice activating web pages |
JP4225703B2 (ja) * | 2001-04-27 | 2009-02-18 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報アクセス方法、情報アクセスシステムおよびプログラム |
JP2002354111A (ja) | 2001-05-30 | 2002-12-06 | Sony Corp | 音声信号合成装置、方法、プログラムおよび該プログラムを記録した記録媒体 |
US7581170B2 (en) * | 2001-05-31 | 2009-08-25 | Lixto Software Gmbh | Visual and interactive wrapper generation, automated information extraction from Web pages, and translation into XML |
JP2002366186A (ja) * | 2001-06-11 | 2002-12-20 | Hitachi Ltd | 音声合成方法及びそれを実施する音声合成装置 |
US20030023688A1 (en) * | 2001-07-26 | 2003-01-30 | Denenberg Lawrence A. | Voice-based message sorting and retrieval method |
US20040030554A1 (en) * | 2002-01-09 | 2004-02-12 | Samya Boxberger-Oberoi | System and method for providing locale-specific interpretation of text data |
US7324942B1 (en) * | 2002-01-29 | 2008-01-29 | Microstrategy, Incorporated | System and method for interactive voice services using markup language with N-best filter element |
JP2003223181A (ja) | 2002-01-29 | 2003-08-08 | Yamaha Corp | 文字−音声変換装置およびそれを用いた携帯端末装置 |
US6999930B1 (en) * | 2002-03-27 | 2006-02-14 | Extended Systems, Inc. | Voice dialog server method and system |
JP2004198488A (ja) | 2002-12-16 | 2004-07-15 | Casio Comput Co Ltd | 電子装置 |
JP2004240217A (ja) | 2003-02-06 | 2004-08-26 | Ricoh Co Ltd | 文書/音声変換装置および文書/音声変換方法 |
US7653698B2 (en) * | 2003-05-29 | 2010-01-26 | Sonicwall, Inc. | Identifying e-mail messages from allowed senders |
WO2004109659A1 (ja) * | 2003-06-05 | 2004-12-16 | Kabushiki Kaisha Kenwood | 音声合成装置、音声合成方法及びプログラム |
JP2005043968A (ja) | 2003-07-22 | 2005-02-17 | Canon Inc | 通信装置、音声読出方法、制御プログラム、及び記憶媒体 |
JP2005106905A (ja) | 2003-09-29 | 2005-04-21 | Matsushita Electric Ind Co Ltd | 音声出力システムおよびサーバ装置 |
JP2005135169A (ja) * | 2003-10-30 | 2005-05-26 | Nec Corp | 携帯端末およびデータ処理方法 |
JP2005221289A (ja) | 2004-02-04 | 2005-08-18 | Nissan Motor Co Ltd | 車両用経路誘導装置及び方法 |
CN1655634A (zh) * | 2004-02-09 | 2005-08-17 | 联想移动通信科技有限公司 | 移动装置的显示信息的话音装置及其实现方法 |
DE102004061782B4 (de) * | 2004-03-04 | 2015-05-07 | Volkswagen Ag | Kraftfahrzeug mit einem Instant-Messaging-Kommunikationssystem |
JP2005321730A (ja) * | 2004-05-11 | 2005-11-17 | Fujitsu Ltd | 対話システム、対話システム実行方法、及びコンピュータプログラム |
WO2006019101A1 (ja) * | 2004-08-19 | 2006-02-23 | Nec Corporation | コンテンツ関連情報取得装置、およびプログラム |
DE102004050785A1 (de) * | 2004-10-14 | 2006-05-04 | Deutsche Telekom Ag | Verfahren und Anordnung zur Bearbeitung von Nachrichten im Rahmen eines Integrated Messaging Systems |
US20060122837A1 (en) * | 2004-12-08 | 2006-06-08 | Electronics And Telecommunications Research Institute | Voice interface system and speech recognition method |
US20060161850A1 (en) * | 2004-12-14 | 2006-07-20 | John Seaberg | Mass personalization of messages to enhance impact |
US7555713B2 (en) * | 2005-02-22 | 2009-06-30 | George Liang Yang | Writing and reading aid system |
US20080249776A1 (en) * | 2005-03-07 | 2008-10-09 | Linguatec Sprachtechnologien Gmbh | Methods and Arrangements for Enhancing Machine Processable Text Information |
DE602005017829D1 (de) * | 2005-05-31 | 2009-12-31 | Telecom Italia Spa | Bereitstellung von sprachsynthese auf benutzerendgeräten über ein kommunikationsnetz |
JP4675691B2 (ja) | 2005-06-21 | 2011-04-27 | 三菱電機株式会社 | コンテンツ情報提供装置 |
US20070050188A1 (en) * | 2005-08-26 | 2007-03-01 | Avaya Technology Corp. | Tone contour transformation of speech |
JP2007087267A (ja) * | 2005-09-26 | 2007-04-05 | Nippon Telegr & Teleph Corp <Ntt> | 音声ファイル生成装置、音声ファイル生成方法およびプログラム |
CN100487788C (zh) * | 2005-10-21 | 2009-05-13 | 华为技术有限公司 | 一种实现文语转换功能的方法 |
US9361299B2 (en) | 2006-03-09 | 2016-06-07 | International Business Machines Corporation | RSS content administration for rendering RSS content on a digital audio player |
US20070239856A1 (en) * | 2006-03-24 | 2007-10-11 | Abadir Essam E | Capturing broadcast sources to create recordings and rich navigations on mobile media devices |
US7870142B2 (en) * | 2006-04-04 | 2011-01-11 | Johnson Controls Technology Company | Text to grammar enhancements for media files |
EP2036079B1 (en) * | 2006-04-27 | 2011-01-12 | Mobiter Dicta Oy | A method, a system and a device for converting speech |
KR100699050B1 (ko) * | 2006-06-30 | 2007-03-28 | 삼성전자주식회사 | 문자정보를 음성정보로 출력하는 이동통신 단말기 및 그방법 |
US8271284B2 (en) * | 2006-07-21 | 2012-09-18 | Nec Corporation | Speech synthesis device, method, and program |
JP4843455B2 (ja) | 2006-10-30 | 2011-12-21 | 株式会社エヌ・ティ・ティ・ドコモ | 整合回路、マルチバンド増幅器 |
US7415409B2 (en) * | 2006-12-01 | 2008-08-19 | Coveo Solutions Inc. | Method to train the language model of a speech recognition system to convert and index voicemails on a search engine |
FR2910143B1 (fr) * | 2006-12-19 | 2009-04-03 | Eastman Kodak Co | Procede pour predire automatiquement des mots dans un texte associe a un message multimedia |
US7689421B2 (en) * | 2007-06-27 | 2010-03-30 | Microsoft Corporation | Voice persona service for embedding text-to-speech features into software programs |
US20090055187A1 (en) * | 2007-08-21 | 2009-02-26 | Howard Leventhal | Conversion of text email or SMS message to speech spoken by animated avatar for hands-free reception of email and SMS messages while driving a vehicle |
US20140304228A1 (en) * | 2007-10-11 | 2014-10-09 | Adobe Systems Incorporated | Keyword-Based Dynamic Advertisements in Computer Applications |
US9241063B2 (en) * | 2007-11-01 | 2016-01-19 | Google Inc. | Methods for responding to an email message by call from a mobile device |
US20090235312A1 (en) * | 2008-03-11 | 2009-09-17 | Amir Morad | Targeted content with broadcast material |
US8370148B2 (en) * | 2008-04-14 | 2013-02-05 | At&T Intellectual Property I, L.P. | System and method for answering a communication notification |
-
2008
- 2008-04-23 JP JP2008113202A patent/JP2009265279A/ja active Pending
-
2009
- 2009-03-25 US US12/411,031 patent/US9812120B2/en active Active
- 2009-03-31 EP EP09156866.7A patent/EP2112650B8/en not_active Expired - Fee Related
- 2009-03-31 EP EP16168765.2A patent/EP3086318B1/en not_active Expired - Fee Related
- 2009-04-23 CN CN2009101345944A patent/CN101567186B/zh not_active Expired - Fee Related
-
2017
- 2017-09-28 US US15/719,106 patent/US10720145B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1694460A (zh) * | 2004-04-30 | 2005-11-09 | 卡西欧计算机株式会社 | 通信终端装置及通信终端处理程序 |
CN1855223A (zh) * | 2005-04-18 | 2006-11-01 | 株式会社理光 | 音频字体输出设备、字体数据库和语言输入前端处理器 |
CN101042752A (zh) * | 2006-03-09 | 2007-09-26 | 国际商业机器公司 | 用于电子邮件管理的方法和系统 |
US20080059189A1 (en) * | 2006-07-18 | 2008-03-06 | Stephens James H | Method and System for a Speech Synthesis and Advertising Service |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108877766A (zh) * | 2018-07-03 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 歌曲合成方法、装置、设备及存储介质 |
CN109036373A (zh) * | 2018-07-31 | 2018-12-18 | 北京微播视界科技有限公司 | 一种语音处理方法及电子设备 |
CN112331223A (zh) * | 2020-11-09 | 2021-02-05 | 合肥名阳信息技术有限公司 | 一种给配音添加背景音乐的方法 |
Also Published As
Publication number | Publication date |
---|---|
EP2112650A1 (en) | 2009-10-28 |
CN101567186B (zh) | 2013-01-02 |
US10720145B2 (en) | 2020-07-21 |
US20180018956A1 (en) | 2018-01-18 |
EP2112650B8 (en) | 2016-07-27 |
JP2009265279A (ja) | 2009-11-12 |
EP3086318A1 (en) | 2016-10-26 |
EP2112650B1 (en) | 2016-06-15 |
EP3086318B1 (en) | 2019-10-23 |
US9812120B2 (en) | 2017-11-07 |
US20090271202A1 (en) | 2009-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101567186B (zh) | 语音合成装置、方法、系统以及便携式信息终端 | |
JP7065740B2 (ja) | アプリケーション機能情報表示方法、装置、及び端末装置 | |
Godwin-Jones | Skype and podcasting: Disruptive technologies for language learning | |
CN104205209B9 (zh) | 回放控制设备、回放控制方法 | |
RU2471251C2 (ru) | Устройство на основе личности | |
EP2015278B1 (en) | Media Interface | |
US20070238082A1 (en) | E-card method and system | |
US20240126403A1 (en) | Interaction method and apparatus, medium, and electronic device | |
CN111142667A (zh) | 一种基于文本标记生成语音的系统和方法 | |
US20080312760A1 (en) | Method and system for generating and processing digital content based on text-to-speech conversion | |
WO2014154097A1 (en) | Automatic page content reading-aloud method and device thereof | |
US20240007718A1 (en) | Multimedia browsing method and apparatus, device and mediuim | |
US20040098266A1 (en) | Personal speech font | |
CN110491367B (zh) | 智能电视的语音转换方法及设备 | |
CN113593519A (zh) | 文本的语音合成方法、系统、装置、设备及存储介质 | |
KR100784263B1 (ko) | 클립보드를 이용한 메시지 전송 방법 및 이를 위한 장치 | |
US20140297285A1 (en) | Automatic page content reading-aloud method and device thereof | |
CN113450762B (zh) | 文字朗读方法、装置、终端及存储介质 | |
KR102020341B1 (ko) | 악보 구현 및 음원 재생 시스템 및 그 방법 | |
JP2022051500A (ja) | 関連情報提供方法及びシステム | |
Turchet et al. | SMIF: A format for the offline exchange of smart musical instruments configuration and data | |
US20230092783A1 (en) | Botcasts - ai based personalized podcasts | |
KR20020036895A (ko) | 전자책 서비스 시스템 | |
WO2023048803A1 (en) | Botcasts - ai based personalized podcasts | |
CN113448535A (zh) | 一种终端屏幕内容的阅读方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C53 | Correction of patent of invention or patent application | ||
CB02 | Change of applicant information |
Address after: Tokyo, Japan Applicant after: Sony Mobile Communications Japan Co.,Ltd. Address before: Tokyo, Japan Applicant before: SONY ERICSSON MOBILE COMMUNICATIONS JAPAN, Inc. |
|
COR | Change of bibliographic data |
Free format text: CORRECT: APPLICANT; FROM: SONY ERICSSON MOBILE COMMUNICATION JAPAN CO., LTD. TO: SONY MOBILE COMMUNICATIONS JAPAN, INC. |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130102 |