CN101567186A

CN101567186A - 语音合成装置、方法、程序、系统以及便携式信息终端

Info

Publication number: CN101567186A
Application number: CNA2009101345944A
Authority: CN
Inventors: 高塚进
Original assignee: Sony Ericsson Mobile Communications Japan Inc
Current assignee: Sony Corp
Priority date: 2008-04-23
Filing date: 2009-04-23
Publication date: 2009-10-28
Anticipated expiration: 2029-04-23
Also published as: EP2112650A1; CN101567186B; US10720145B2; US20180018956A1; EP2112650B8; JP2009265279A; EP3086318A1; EP2112650B1; EP3086318B1; US9812120B2; US20090271202A1

Abstract

本发明涉及语音合成装置、方法、程序、系统以及便携式信息终端。该语音合成装置包括：内容选择单元，选择要被转换成语音的文本内容项目；相关信息选择单元，选择相关信息，所述相关信息能够被至少转换成文本并且与所述内容选择单元选择的文本内容项目相关；数据添加单元，将所述相关信息选择单元选择的相关信息转换成文本，并将所述文本的文本数据添加到所述内容选择单元选择的文本内容项目的文本数据；文本到语音转换单元，将从所述数据添加单元提供的文本数据转换成语音信号；和语音输出单元，输出从所述文本到语音转换单元提供的语音信号。

Description

语音合成装置、方法、程序、系统以及便携式信息终端

技术领域

本发明涉及一种在将各种效果添加到例如从文本数据转换成的语音的情况下期望的语音合成装置、语音合成方法、语音合成程序、便携式信息终端和语音合成系统。

背景技术

作为个人计算机或游戏机实现的功能之一，有一种从扬声器输出从文本数据转换成的语音信号的功能。该功能被称作朗读功能。

大致有两种类型的在该朗读功能中使用的执行文本到语音转换的方法。

这两种类型的方法中的一种是通过归档(filing)和编辑的语音合成，另一种是利用规则的语音合成。

通过归档和编辑的语音合成是一种通过执行编辑来合成期望的词、句子等的方法，所述编辑诸如为组合预先记录的语音项目(如人发声的词等)。这里，在通过归档和编辑的语音合成中，尽管得到的语音听起来自然并且接近人声，但是由于通过组合预先记录的语音项目来产生期望的词、句子等，所以利用预先记录的语音项目无法产生某些词或句子。而且，例如，当将该通过归档和编辑的语音合成应用于若干虚构角色朗读文本的情况时，需要与虚构角色的数量一样多的多组不同音质(声色)的语音数据。具体地讲，对于高质量的音质，例如，每个虚构角色需要600MB的附加语音数据。

相反，利用规则的语音合成是一种通过组合诸如构成语音的“音素”和“音节”的元素来合成语音的方法。由于诸如“音素”和“音节”的元素可被自由地组合，所以这种利用规则的语音合成的自由度高。而且，例如，由于不需要预先记录语音数据作为材料，所以这种利用规则的语音合成适合安装在内置存储器不足够大的装置(如便携式信息终端)中的应用的语音合成功能。这里，与以上描述的通过归档和编辑的语音合成相比，通过利用规则的语音合成获得的合成语音更像机器声音的语音。

另外，例如，第2001-51688号未审查日本专利申请公报公开了一种利用语音合成的电子邮件朗读装置，在所述语音合成中，利用关于电子邮件消息的文本信息来合成与电子邮件消息的文本对应的语音，将音乐和声效添加到合成语音中，然后输出得到的合成语音。

另外，例如，第2002-354111号未审查日本专利申请公报公开了一种语音信号合成装置等，其合成从麦克风输入的语音和从背景音乐(BGM)记录单元再现的BGM，并从扬声器等输出得到的语音信号。

另外，例如，第2005-106905号未审查日本专利申请公报公开了一种语音输出系统等，其将包括在电子邮件消息或网站中的文本数据转换成语音数据，将所述语音数据转换成语音信号，并从扬声器等输出所述语音信号。

另外，例如，第2003-223181号未审查日本专利申请公报公开了一种文本到语音转换装置等，其将文本数据划分成象形文字数据和其它文字数据，将象形文字数据转换成声调控制数据，基于声调控制数据将其它文字数据转换成具有声调的语音信号，并从扬声器等输出语音信号。

另外，第2007-293277号未审查日本专利申请公报公开了一种从RSS内容提取文本并将该文本转换成语音的RSS内容管理方法等。

发明内容

这里，在用于执行文本到语音转换的上述现有技术中，文本数据仅被转换成语音信号，并且所述语音信号仅被再现。因此，再现输出的语音信号是像机器声音的语音并且不具有吸引力。

例如，通过归档和编辑的语音合成提供了听起来自然并且接近人声的语音，然而，该语音是通过简单转换文本而获得的，从而该语音不具有吸引力。此外，利用规则的语音合成的缺点在于语音为像机器声音的语音并且听起来差。

另一方面，如上述的日本未审查专利申请公报所述，存在一种可以通过添加BGM或声调将一些效果添加到语音的技术，然而，这种添加的效果并不是在每种情况下都对收听者有益。

期望提供一种语音合成装置、语音合成方法、语音合成程序、便携式信息终端以及语音合成系统，其在例如再现输出从文本数据转换成的语音信号的情况下，能够输出一种有吸引力的语音，该语音给收听者一种语音不仅仅是从对象文本转换而来的愉悦印象。

此外，期望提供一种语音合成装置、语音合成方法、语音合成程序、便携式信息终端以及语音合成系统，其能够输出已经添加了对收听者在一定程度上有益的效果等的再现语音。

根据本发明的实施例，选择要被转换成语音的文本内容项目，可被至少转换成文本并与所选择的内文本内容项目相关的相关信息被选择，该相关信息被转换成文本，所述文本的文本数据被添加到所选择的文本内容项目的文本数据。然后，将得到的文本数据转换成语音信号，并输出该语音信号。

即，根据本发明的实施例，当选择文本内容项目时，也选择与所述文本内容项目相关的相关信息。该相关信息被转换成文本，所述文本的文本数据被添加到所选择的文本内容项目的文本数据，对得到的文本数据执行文本到语音转换。换言之，根据本发明的实施例，文本数据不仅仅被转换成语音。添加了根据相关信息等的效果的文本数据被转换成语音。

根据本发明的实施例，选择要被转换成语音的文本内容项目，将与所选择的文本内容项目相关的相关信息转换成文本，所述文本的文本数据被添加到所选择的文本内容项目的文本数据。得到的数据被转换成语音信号并输出该语音信号。因此，根据本发明的实施例，例如，在再现输出从文本数据转换成的语音信号时，可以获得并输出给予收听者一种语音不仅仅是从对象文本转换而来的愉悦印象的有吸引力的语音。此外，根据本发明的实施例，可以输出已经添加了对收听者在一定程度上有益的效果等的语音。

附图说明

图1是示出了根据本发明实施例的语音合成装置的示意性内部结构的示例的框图；

图2是示出了从选择文本内容项目到对文本内容项目添加效果的处理过程的流程图；以及

图3是示出了在用户信息、日期时间信息、文本内容项目和BGM数据等被存储在网络上的服务器等中的情况下，语音合成装置的示意性内部结构的示例的框图。

具体实施方式

以下将参照附图来描述本发明的实施例。

这里，本发明的实施例是一个示例，因此，当然，本发明的实施例不仅仅限于此示例。

图1示出了根据本发明实施例的语音合成装置的示意性内部结构的示例。

这里，根据本发明实施例的语音合成装置不仅可以应用于各种固定装置，也可以应用于各种移动装置，诸如便携式电话终端、个人数字助理(PDA)、个人计算机(例如，膝上型计算机)、导航装置、便携式视听(AV)装置、便携式游戏机等。另外，根据本发明实施例的语音合成装置可以是其组件为单独的装置的语音合成系统。在这个实施例中，便携式电话终端被用作可应用语音合成装置的示例性装置。另外，本实施例中的将文本转换成语音的方法可被应用于通过归档和编辑的语音合成以及利用规则的语音合成；然而，本实施例特别适用于使在利用规则的语音合成中获得的像机器声音的合成语音更具吸引力的情况。

图1中示出的根据实施例的便携式电话终端包括内容选择接口单元1、效果确定单元2、文本内容记录存储器3、用户信息记录存储器4、日期时间记录单元5、BGM记录存储器6、文本到语音转换和再现单元7、BGM再现单元8、混频器单元9、语音识别和用户命令确定单元10以及扬声器或头戴受话器11。

例如，在文本内容记录存储器3中记录通过互联网等下载的各种文本内容项目的数据(具体地讲为文本数据)，所述文本内容项目诸如为电子邮件消息、用户日程表、烹饪食谱、向导(导航)信息以及关于新闻、天气预报、股票价格、电视时间表、网页、网络日志、占卜等的信息。这里，在下面的描述中，文本内容项目的数据可简称为文本内容项目或内容项目。上述的文本内容项目仅为示例，其它各种文本内容项目也被记录在文本内容记录存储器3中。

与记录在文本内容记录存储器3中的文本内容项目相关的用户信息被记录在用户信息记录存储器4中。根据用户预先设定的设置、基于每个内容预先设定的设置、下面将描述的语音合成程序的编程者设定的设置等，将每条用户信息与记录在文本内容记录存储器3中的文本内容项目相关联。另外，在用户信息被预先包括在文本内容项目内的情况下，可以不必预先将文本内容项目与用户信息相关联。这里，与文本内容项目相关的用户信息的示例是至少可以用文本表示的信息，例如，对象便携式电话终端的用户的姓名、电子邮件消息的发送者的姓名以及计划日程表中的参与者的姓名。当然，可存在一些与任何用户信息都不相关的文本内容项目。

与记录在文本内容记录存储器3中的文本内容项目相关的日期时间信息被记录在日期时间记录单元5中。根据用户预先设定的设置、基于每个内容预先设定的设置、下面将描述的语音合成程序的编程者设定的设置等，将每条日期时间信息与记录在文本内容记录存储器3中的文本内容项目相关联。这里，与文本内容项目相关的日期时间信息的示例是关于当前日期和时间的日期时间信息等。另外，日期时间信息的另一示例为基于每个内容的唯一日期时间信息。唯一日期时间信息的示例为至少可以被转换成文本的信息，例如，在新闻的情况下为关于发布的新闻的发布日期和时间的信息等，在调度表的情况下为关于日程表的日期和时间的信息等，在电子邮件消息的情况下为关于电子邮件消息的接收或发送的日期和时间的信息等。当然，可存在一些与任何日期时间信息都不相关的文本内容项目。

多条BGM数据被记录在BGM记录存储器6中。BGM记录存储器6中的BGM数据被划分成与记录在文本内容记录存储器3中的文本内容项目相关的BGM数据和与记录在文本内容记录存储器3中的文本内容项目不相关的BGM数据。根据用户预先设定的设置、基于每个内容预先设定的设置、语音合成程序的编程者设定的设置等，将每条BGM数据与记录在BGM记录存储器6中的文本内容项目相关联。另外，每条BGM数据可被随机地与记录在BGM记录存储器6中的文本内容项目相关联。可预先设定是否将BGM数据与文本内容项目随机地相关联。此外，当内容选择接口单元1选择一文本内容项目时，如下面所述，该文本内容项目可被随机并自动地与所述BGM数据之一相关联。

语音识别和用户命令确定单元10对通过麦克风输入的用户的语音执行语音识别，并利用语音识别结果来确定用户输入的命令的细节。

内容选择接口单元1是允许用户从记录在文本内容记录存储器3中的文本内容项目中选择期望的内容项目的接口单元。用户可以从记录在文本内容记录存储器3中的文本内容项目中直接选择期望的内容项目，或者当对象便携式电话终端内的应用程序根据用户输入的启动命令而启动时自动地选择期望的内容项目。这里，当用户输入选择命令时，例如，在显示屏幕上显示从多个内容项目中选择内容项目的菜单。当用户通过例如键操作或触摸面板操作从菜单输入选择命令以选择期望的内容项目时，内容选择接口单元1选择期望的内容项目。在根据应用的启动而选择内容项目的情况下，例如，当用户从显示屏幕上的多个用于启动应用的图标中选择启动一个应用的图标并且该应用被启动时，内容项目被选择。此外，可以利用已经对其执行了语音识别的语音来选择内容项目。在这种情况下，语音识别和用户命令确定单元10针对用户执行语音识别，并利用语音识别结果来确定用户输入的命令的细节。已经根据语音识别确定了细节的命令被发送到内容选择接口单元1。因此，内容选择接口单元1根据用户口头输入的命令来选择内容项目。

效果确定单元2执行根据本发明实施例的语音合成程序，并从文本内容记录存储器3获得用户通过内容选择接口单元1选择的文本内容项目。这里，根据本发明实施例的语音合成程序可在便携式电话终端被发运之前预先安装到便携式电话终端的内部存储器等上。语音合成程序也可以经由例如盘形记录介质、外部半导体存储器等而安装到内部存储器等上。语音合成程序也可以例如经由连接到外部接口的线缆或经由无线通信而安装到内部存储器等上。

同时，效果确定单元2选择与所选择的文本内容项目相关的用户信息、日期时间信息、BGM信息等。即，当内容选择接口单元1选择文本内容项目时，如果存在与所选择的文本内容项目相关的用户信息，则效果确定单元2从用户信息记录存储器4获得该用户信息。此外，如果存在与所选择的文本内容项目相关的日期时间信息，则效果确定单元2从日期时间记录单元5获得该日期时间信息。相似地，如果存在与所选择的文本内容项目相关的BGM数据，则效果确定单元2从BGM记录存储器6获得该BGM数据。这里，当文本内容项目被随机地与BGM数据相关联时，效果确定单元2从BGM记录存储器6随机地获得BGM数据。

效果确定单元2利用用户信息、日期时间信息和BGM数据将效果添加到所选择的文本内容项目。

即，例如，用户信息被转换成诸如用户姓名等的文本数据。相似地，日期时间信息被转换成诸如日期和时间的文本数据。根据需要，用户姓名的文本数据、日期和时间的文本数据等被添加到例如所选择的文本内容项目的开头、中部或末端。

当从效果确定单元2提供文本内容项目、用户姓名以及日期和时间的文本数据时，用户姓名以及日期和时间已经作为效果被添加到文本内容项目，文本到语音转换和再现单元7将该文本数据转换成语音信号。然后，作为文本到语音转换的结果而获得的语音信号被输出到混频器单元9。

此外，当从效果确定单元2提供BGM数据时，BGM再现单元8从BGM数据产生BGM信号(音乐信号)。

当从文本到语音转换和再现单元7提供作为文本到语音转换的结果而获得的语音信号并且从BGM再现单元8提供BGM信号时，混频器单元9将语音信号和BGM信号混合，并将得到的信号输出到扬声器或头戴受话器(在下文中称作扬声器11)。

这样，从扬声器11输出通过混合从文本转换成的语音和BGM而获得的语音。即，在这个实施例中，输出的语音不仅仅是从所选择的文本内容项目的文本数据转换成的语音和BGM的混合。例如，输出的语音包括从作为效果的文本数据(如用户姓名以及日期和时间)转换成的语音等。用户姓名、日期和时间等与所选择的文本内容项目相关联，因此，在这个实施例中添加的效果有益于收听输出的语音的收听者。

下面将利用具体的示例来描述将通过效果确定单元2添加到文本内容项目的效果。这里，当然，本发明的实施例不限于下面的具体示例。

作为向文本内容项目添加效果的示例，当文本内容项目是接收到的电子邮件消息时，例如，用户信息包括电子邮件消息的发送者信息和对象便携式电话终端的用户信息，例如，日期时间信息包括当前日期和时间以及接收的电子邮件消息的接收日期和时间。这里，电子邮件消息的发送者信息具体为电子邮件地址，然而，如果与电子邮件地址相关的姓名等被注册在对象便携式电话终端内部的电话薄中，则所述姓名可被用作发送者信息。

即，如果用户指示利用文本到语音转换将接收到的电子邮件消息朗读并输出，则效果确定单元2例如从用户信息记录存储器4获得对象便携式电话终端的用户信息，并从日期时间记录单元5获得当前日期时间信息。利用用户信息和当前日期时间信息，效果确定单元2产生表示对象便携式电话终端的用户的消息的文本数据和表示当前的日期和时间的文本数据。同时，效果确定单元2从接收到的电子邮件消息的数据产生表示发送者的姓名的文本数据和表示接收的电子邮件消息的接收日期和时间的文本数据，其中，接收到的电子邮件是由电子邮件接收单元(未示出)接收的并且被记录在文本内容记录存储器3中。如果需要，效果确定单元2通过组合这些文本数据来产生将被用于添加效果的文本数据。更具体地讲，例如，在对象便携式电话终端的用户的姓名为“A”、当前时间在“夜晚”时间帧内、发送者的姓名为“B”、电子邮件接收日期和时间为“4月8日下午6:30”的情况下，作为示例，效果确定单元2产生诸如“晚上好，A先生。您在下午6:30接收到来自B先生的邮件”的文本数据，作为将被用于添加效果的文本数据。之后，效果确定单元2将上述的用于添加效果的文本数据添加到例如接收到的电子邮件消息的标题和正文的文本数据的开头，并将得到的文本数据发送到文本到语音转换和再现单元7。

同时，效果确定单元2从BGM记录存储器6获得针对电子邮件消息的内容预先设定的BGM数据或随机设定的BGM数据。这里，例如，针对电子邮件消息的内容而预先设定的BGM数据可针对在电话薄中注册的姓名进行预先设定，可针对接收文件夹进行预先设定，可针对按组设定的子接收文件夹进行预先设定，或者可随机设定。效果确定单元2将从BGM记录存储器6获得的BGM数据发送到BGM再现单元8。

这样，作为混频器单元9执行的混频结果而获得的并最终从扬声器11输出的语音是这样的语音，在该语音中混合了从用作效果的文本数据“晚上好，A先生。您在下午6:30接收到来自B先生的邮件”转换成的语音、如上所述从接收到的电子邮件消息的标题和正文的文本数据转换成的后续语音以及用作效果的BGM。

作为将效果添加到文本内容项目的另一示例，如果文本内容项目是从互联网下载的新闻等，则用户信息例如是对象便携式电话终端的用户信息，日期时间信息包括例如当前的日期和时间以及发布的新闻的接收日期和时间。

即，当用户指示利用文本到语音转换来朗读新闻并输出所述新闻时，例如，效果确定单元2从用户信息记录存储器4获得对象便携式电话终端的用户信息，并从日期时间记录单元5获得当前的日期时间信息。利用用户信息和日期时间信息，效果确定单元2产生表示对象便携式电话终端的用户的消息的文本数据以及表示当前的日期和时间的文本数据。而且，同时，效果确定单元2从通过互联网连接单元(未示出)发布并下载并且记录在文本内容记录存储器3中的新闻的数据，产生表示所述新闻的主题的文本数据以及表示每个新闻主题的发布日期和时间的文本数据。然后，如果需要，效果确定单元2通过将这些文本数据组合来产生将被用作添加效果的文本数据。更具体地讲，例如，在对象便携式电话终端的用户的姓名为“A”、当前时间在“早晨”时间帧内、新闻的主题为“汽油税”以及所述新闻的发布日期和时间为“4月8日上午9:00”的情况下，作为示例，效果确定单元2产生诸如“早上好，A先生。这是上午9:00关于汽油税的新闻”的文本数据，作为将用于添加效果的文本数据。之后，效果确定单元2将上述的用于添加效果的文本数据添加到例如所述新闻的正文的文本数据的开头，并将得到的文本数据发送到文本到语音转换和再现单元7。此外，在设置了能够朗读新闻的拟人虚构角色“C”等的情况下，作为示例，可添加诸如“新闻播报员C将报道今日新闻”的文本数据，作为将被用于添加效果的文本数据。

而且，同时，效果确定单元2从BGM记录存储器6读取针对新闻的内容预先设定的BGM数据或随机设定的BGM数据。这里，例如，针对新闻的内容预先设定的BGM数据可针对所述新闻进行预先设定，可针对新闻的类型或发布源进行预先设定，或者可随机设定。效果确定单元2将从BGM记录存储器6读取的BGM数据发送到BGM再现单元8。

因此，作为混频器单元9执行的混合的结果而获得的并最终从扬声器11输出的语音是这样的语音，在该语音中混合了从用作效果的文本数据“早上好，A先生。这是上午9:00关于汽油税的新闻”转换成的语音、如上所述从新闻的正文的文本数据转换成的后续语音以及用作效果的BGM。

作为将效果添加到文本内容项目的另一示例，如果文本内容项目例如是烹饪食谱，则所述用户信息是对象便携式终端的用户信息，所述日期时间信息包括当前的日期和时间以及在烹饪食谱中指定的各种时间段。

即，当用户指示利用文本到语音转换来朗读并输出烹饪食谱时，例如，效果确定单元2从用户信息记录存储器4获得对象便携式电话终端的用户信息并从日期时间记录单元5获得当前的日期时间信息。利用用户信息和日期时间信息，效果确定单元2产生表示对象便携式电话终端的用户的消息的文本数据以及表示当前的日期和时间的文本数据。而且，同时，效果确定单元2从记录在文本内容记录存储器3中的烹饪食谱的数据产生表示菜肴的名称的文本数据以及表示菜肴的烹饪过程的文本数据。然后，如果需要，效果确定单元2通过将这些文本数据组合来产生将被用于添加效果的文本数据。更具体地讲，例如，在对象便携式电话终端的用户的姓名为“A”、当前时间在“白天”时间帧内并且菜肴的名称为“汉堡牛排”的情况下，作为示例，效果确定单元2产生诸如“您好，A先生。让我们做美味的汉堡牛排”的文本数据，作为将用于添加效果的文本数据。之后，效果确定单元2将上述的用于添加效果的文本数据添加到例如所述菜肴的烹饪过程的文本数据的开头，并将得到的文本数据发送到文本到语音转换和再现单元7。此外，具体地讲，在需要在烹饪过程中测量时间(如汉堡牛排的烤制时间)的情况下，效果确定单元2测量时间。此外，在设定了能够朗读烹饪食谱的拟人虚构角色“C”的情况下，作为示例，可添加诸如“我的名字是C。我将告诉您如何制作美味的汉堡牛排”的文本数据，作为将用于添加效果的文本数据。

同时，效果确定单元2从BGM记录存储器6读取针对烹饪菜谱的内容预先设定的BGM数据或随机设定的BGM数据。这里，例如，针对烹饪菜谱的内容预先设定的BGM数据可针对烹饪菜谱进行预先设定，可针对烹饪的类型进行预先设定，或者可以随机设定。效果确定单元2将从BGM记录存储器6读取的BGM数据发送到BGM再现单元8。

因此，作为混频器单元9执行的混合的结果而获得的并最终从扬声器11输出的语音是这样的语音，在该语音中混合了从用作效果的文本数据“您好，A先生。让我们做美味的汉堡牛排”转换成的语音、如上所述从菜肴的烹饪过程的文本数据转换成的后续语音以及用作效果的BGM。

这里，在本发明的实施例中，效果确定单元2可将除了上述的具体示例外的各种效果添加到文本内容项目。为了减少冗余，省略对其它效果的描述。

而且，在这个实施例中，当正在利用文本到语音转换朗读文本内容项目的文本时，例如，如果用户口头输入了命令等，则文本的朗读被暂停、重新开始、终止或重复，或者根据用户口头输入的命令执行跳至另一文本内容项目的文本并朗读。即，语音识别和用户命令确定单元10对通过麦克风等输入的语音执行所谓的语音识别，利用语音识别结果确定用户输入的命令的细节，并将输入的命令的细节发送到效果确定单元2。效果确定单元2确定指示了文本内容项目的文本朗读的暂停、重新开始、终止、重复、以及跳至另一文本内容项目的文本并朗读中的哪一个，并执行与所述指示对应的处理。

图2示出了在根据本发明实施例的便携式电话终端中从选择文本内容项目到向所述文本内容项目添加效果的处理过程。这里，图2中示出的流程图的处理是由根据本发明实施例的语音合成程序执行的处理，该语音合成程序由效果确定单元2执行。

在图2中，效果确定单元2处于等待状态，直到在启动语音合成程序之后效果确定单元2从内容选择接口单元1接收到输入。在步骤S1，当用户通过内容选择接口单元1输入了用于选择文本内容项目的选择命令时，效果确定单元2从文本内容记录存储器3读取与选择命令对应的文本内容项目。

接下来，在步骤S2，效果确定单元2确定在用户信息记录存储器4内是否设定了与所述文本内容项目相关的用户信息。如果效果确定单元2确定设定了这样的用户信息，则该过程进行到步骤S3。如果效果确定单元2确定没有设定这样的用户信息，则该过程进行到步骤S4。

在步骤S3，如上所述，效果确定单元2将与用户信息对应的文本数据发送到文本到语音转换和再现单元7，以将所述文本数据转换成语音。

在步骤S4，效果确定单元2确定在日期时间记录单元5中是否设定了与所述文本内容项目相关的日期时间信息。如果效果确定单元2确定设定了这种日期时间信息，则该过程进行到步骤S5。如果效果确定单元2确定没有设定这种日期时间信息，则该过程进行到步骤S6。

在步骤S5，如上所述，效果确定单元2将与所述日期时间信息对应的文本数据发送到文本到语音转换和再现单元7，以将所述文本数据转换成语音。

在步骤S6，效果确定单元2确定例如所述文本内容项目的类型，并且该过程进行到步骤S7。

在步骤S7，效果确定单元2确定在BGM记录存储器6中是否设定了与文本内容项目的所述类型相关的BGM数据。如果效果确定单元2确定设定了这种BGM数据，则该过程进行到步骤S8。如果效果确定单元2确定没有设定这种BGM数据，则该过程进行到步骤S9。

在步骤S8，如上所述，效果确定单元2从BGM记录存储器6读取BGM数据，并将所述BGM数据发送到BGM再现单元8，以再现所述BGM数据。

在步骤S9，效果确定单元2确定BGM是否被设定为随机选择。如果效果确定单元2确定设定了随机选择，则该过程进行到步骤S10。如果效果确定单元2确定没有设定随机选择，则该过程进行到步骤S11。

在步骤S10，效果确定单元2从BGM记录存储器6中随机选择BGM数据，并将所述BGM数据发送到BGM再现单元8，以再现所述BGM数据。

在步骤S11，效果确定单元2将所述文本内容项目的文本数据发送到文本到语音转换和再现单元7，以将所述文本数据转换成语音。

之后，在步骤S12，效果确定单元2使在文本到语音转换和再现单元7中通过如上所述将文本转换成语音而获得的语音信号输出到混频器单元9。同时，效果确定单元2使BGM再现单元8再现的BGM信号输出到混频器单元9。因此，混频器单元9将从文本转换成的语音信号和BGM信号混合，并且从扬声器11输出混合的语音。

上述的用户信息、日期时间信息、文本内容项目以及BGM数据可被存储在例如网络上的服务器等中。

图3示出了在这种信息被存储在网络上的情况下语音合成装置的示意性内部结构的示例。这里，在图3中，与如1中相同的组件用相同的附图标记表示，并且根据需要省略对其的描述。

在图3的示例性结构的情况下，作为根据本发明实施例的语音合成装置的示例的便携式电话终端包括：内容选择接口单元1、效果确定单元2、文本到语音转换和再现单元7、BGM再现单元8、混频器单元9、语音识别和用户命令确定单元10以及扬声器或头戴受话器11。即，在图3的示例性结构的情况下，文本内容项目被存储在网络上的文本内容记录装置23中。相似地，与文本内容项目相关的用户信息被存储在网络上的用户信息记录装置24中，与文本内容项目相关的日期时间信息被存储在网络上的日期时间记录装置25中。而且，BGM数据被存储在网络上的BGM记录装置26中。文本内容记录装置23、用户信息记录装置24、日期时间记录装置25和BGM记录装置26例如包括服务器，并可经由网络接口单元(未示出)连接到效果确定单元2。

在图3的示例性结构中，选择文本内容项目、将效果添加到文本内容项目、将具有效果的文本内容项目转换成语音信号以及混合所述语音信号和BGM的处理与在图1和图2的上述示例中描述的处理相同。这里，在图3的示例中，通过网络接口单元执行效果确定单元2与文本内容记录装置23、用户信息记录装置24、日期时间记录装置25和BGM记录装置26中的每个之间的数据交换。

这里，在获得了互联网上的网页的内容的情况下，效果确定单元2可以根据包括在例如网页的URL(统一资源定位符)中的信息来确定从该网页可获得的内容的类型。当选择BGM时，效果确定单元2可选择与内容的类型对应的BGM。例如，在新闻网页的情况下，在网页的URL中经常描述诸如“news”等的字符。因此，当在网页的URL中检测到诸如“news”等的字符时，效果确定单元2确定该网页的内容包括在新闻类型中。然后，当从BGM记录装置26获得BGM数据时，效果确定单元2选择预先设定的与新闻的内容相关的BGM数据。此外，内容的类型可根据网页上描述的字符(新闻等)等进行确定，而不是根据URL进行确定。

此外，通常，在互联网浏览器的屏幕上，URL经常注册在根据类型设定的文件夹(所谓的书签文件夹)中。因此，在获得了互联网上的网页的内容的情况下，效果确定单元2可通过监视哪个文件夹包含该网页的URL来确定从该网页可获得的内容的类型。

例如，可通过在空气中将从用于输出作为文本到语音转换的结果而获得的语音的扬声器输出的语音与从用于输出BGM的扬声器输出的音乐进行混合，来实现作为文本到语音转换的结果而获得的语音与BGM的混合。

即，例如，如果从例如便携式电话终端的扬声器输出作为文本到语音转换的结果而获得的语音，并从例如家庭音频系统的扬声器输出BGM，则在空气中混合所述语音和BGM。

在这个示例的情况下，便携式电话终端至少包括内容选择接口单元、效果确定单元和文本到语音转换和再现单元。这里，如图1的示例所示，日期时间信息、用户信息和文本内容项目可被记录在便携式电话终端中，或者如图3的示例所示可被存储在网络上。

相反，BGM记录装置和BGM再现装置可以为例如家庭音频系统的组件。这里，BGM数据可被记录在便携式电话终端中，并且如上述描述选择的BGM数据可经由例如无线通信等从便携式电话终端传送到家庭音频系统的BGM再现装置。

此外，例如，便携式电话终端可仅包括内容选择接口单元和效果确定单元，文本到语音转换和再现装置执行文本到语音转换。从文本到语音转换和再现装置提供的语音信号和从家庭音频系统的BGM再现装置提供的BGM再现音乐信号可由家庭音频系统的混频器装置进行混合，然后可从家庭音频系统的扬声器输出得到的信号。

如上所述，根据本发明的实施例，当输入了朗读文本内容项目的命令时，选择与该文本内容项目相关的用户信息、日期时间信息以及BGM信息。利用所述的用户信息、日期时间信息以及BGM信息，将效果添加到从所述文本内容项目转换成的语音，从而可以获得并输出给予收听者一种语音不仅仅是从对象文本转换而来的愉悦印象的有吸引力的语音。此外，添加到文本内容项目的效果是基于与该文本内容项目相关的用户信息、日期时间信息以及BGM信息的效果，从而可以获得添加了对于收听者在一定程度上有益的效果等的语音。

这里，本发明的上述实施例是根据本发明的示例。因此，本发明不限于上述的实施例，当然，可以根据设计等进行各种改变，只要它们在权利要求或其等同物的范围内即可。

在上述的实施例中，朗读文本内容项目所用的语言并不限于特定的单一语言，而可以是包括目语、英语、法语、德语、俄语、阿拉伯语、汉语等的语言中的任何语言。

本申请包含与于2008年4月23日在日本专利局提交的第2008-113202号日本在先专利申请中公开的主题相关的主题，该申请的全部内容通过引用包含于此。

本领域的技术人员应该理解，可以根据设计要求和其它因素进行各种变形、组合、子组合和替换，只要它们在权利要求或其等同物的范围内即可。

Claims

1、一种语音合成装置，包括：

内容选择单元，选择要被转换成语音的文本内容项目；

相关信息选择单元，选择相关信息，所述相关信息能够被至少转换成文本并且与所述内容选择单元选择的文本内容项目相关；

数据添加单元，将所述相关信息选择单元选择的相关信息转换成文本，并将所述文本的文本数据添加到所述内容选择单元选择的文本内容项目的文本数据；

文本到语音转换单元，将从所述数据添加单元提供的文本数据转换成语音信号；和

语音输出单元，输出从所述文本到语音转换单元提供的语音信号。

2、根据权利要求1所述的语音合成装置，

其中，所述相关信息选择单元选择与所选择的文本内容项目相关的音乐数据，并且

所述语音输出单元将从所述文本到语音转换单元提供的语音信号与所述音乐数据的音乐信号混合，并输出所得到的信号。

3、根据权利要求1或2所述的语音合成装置，

其中，所述相关信息选择单元从多条相关信息中选择与所述内容选择单元选择的文本内容项目相关的相关信息，所述多条相关信息与能够被所述内容选择单元选择的多个文本内容项目相关并且被预先记录。

4、根据权利要求1或2所述的语音合成装置，

其中，所述内容选择单元从网络上的多个文本内容项目中选择期望的文本内容项目，并且

所述相关信息选择单元从多条相关信息中选择与所述内容选择单元选择的文本内容项目相关的相关信息，所述多条相关信息与能够被所述内容选择单元选择的多个文本内容项目相关并且被存储在网络上。

5、一种语音合成方法，包括如下步骤：

选择要被转换成语音的文本内容项目，所述文本内容项目由内容选择单元选择；

选择相关信息，所述相关信息能够被至少转换成文本并与所述内容选择单元选择的文本内容项目相关，所述相关信息由相关信息选择单元选择；

将所述相关信息选择单元选择的相关信息转换成文本，并将所述文本的文本数据添加到所述内容选择单元选择的文本内容项目的文本数据，所述转换和添加由数据添加单元执行；

将从所述数据添加单元提供的文本数据转换成语音信号，所述转换由文本到语音转换单元执行；

输出从所述文本到语音转换单元提供的语音信号，所述语音信号由语音输出单元输出。

6、根据权利要求5所述的语音合成方法，还包括如下步骤：

选择与所选择的文本内容项目相关的音乐数据，所述音乐数据由所述相关信息选择单元选择；以及

将从所述文本到语音转换单元提供的语音信号与所述音乐数据的音乐信号混合，并输出所得到的信号，所述混合和输出由所述语音输出单元执行。

7、一种使计算机作为如下单元起作用的语音合成程序：

内容选择单元，选择要被转换成语音的文本内容项目；

8、根据权利要求7的语音合成程序，

9、一种便携式信息终端，包括：

命令输入单元，获得由用户输入的命令；

内容选择单元，根据用户输入的命令来选择要被转换成语音的文本内容项目；

10、根据权利要求9所述的便携式信息终端，

11、一种语音合成系统，包括：

选择和添加装置，根据用户输入的命令来选择要被转换成语音的文本内容项目，选择至少能够被转换成文本并与所选择的文本内容项目相关的相关信息，将所选择的相关信息转换成文本，并根据用户输入的命令将所述文本的文本数据添加到所选择的文本内容项目的文本数据；

文本到语音转换装置，将从所述选择和添加装置提供的文本数据转换成语音信号；

语音输出装置，将与从所述文本到语音转换装置提供的语音信号对应的语音输出到空气中。

12、根据权利要求11所述的语音合成系统，

其中，所述选择和添加装置选择与所选择的文本内容项目相关的音乐数据，并且

所述语音输出装置将从所述文本到语音转换装置提供的语音信号与所述音乐数据的音乐信号混合，并输出得到的信号。

13、根据权利要求11所述的语音合成系统，

其中，所述选择和添加装置选择与所选择的文本内容项目相关的音乐信号，并且

所述语音输出装置包括：将与从所述文本到语音转换装置提供的语音信号对应的语音输出到空气中的设备；和将与从所述选择和添加装置提供的音乐信号对应的音乐输出到空气中的设备。