CN101098528B

CN101098528B - 移动通信终端和文本到语音转换方法

Info

Publication number: CN101098528B
Application number: CN2006101627970A
Authority: CN
Inventors: 李庸硕
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2006-06-30
Filing date: 2006-11-23
Publication date: 2012-06-27
Anticipated expiration: 2026-11-23
Also published as: DE602006009385D1; US20080045199A1; KR100699050B1; US20130059628A1; US8560005B2; EP1873752A1; EP1873752B1; US8326343B2; CN101098528A

Abstract

一种移动通信终端和文本到语音转换方法。该移动通信终端包括：显示单元，用于在屏幕上显示至少一个对象；控制器，用于标识屏幕上的激活对象的深度，并发现映射到所标识的深度的语音数据集；语音合成器，用于利用所发现的语音数据集而将激活对象的文本内容变换为音波数据；和音频处理器，用于以语音声输出该音波数据。结果，以不同嗓音输出不同对象的文本内容，使得用户可容易地区分一个对象和另一个对象。

Description

移动通信终端和文本到语音转换方法

技术领域

本发明一般涉及具有文本到语音转换(text-to-speech)功能的移动通信终端，并更具体地，涉及一种用于产生用于不同屏幕对象的不同语音声的移动通信终端和方法。

背景技术

便携式终端是可由人携带的终端，并且能够支持无线通信。移动通信终端、个人数字助理(PDA)、灵巧电话机、和国际移动电信-2000(IMT-2000)终端是这样的便携式终端的例子。下面的描述将集中于移动通信终端。

随着通信技术的发展，移动中的用户可容易地携带移动通信终端，并在大多数时间和地点发送和接收呼叫。除了传统电话呼叫处理之外，先进的移动通信终端支持各种功能，例如文本消息传输、日程管理、因特网访问等。

当用户用他们的移动通信终端访问因特网以进行信息检索时，所检索到的文本信息被显示在移动通信终端的屏幕上。然而，用户必须一直看着屏幕，直到用户完成了对文本信息的读取为止。此外，由于屏幕的小画面尺寸，所以用户在读取屏幕上的文本信息时可能体验到困难。

把文本作为输入并产生语音声作为输出的文本到语音转换(TTS)功能可有助于解决该问题。例如，在移动通信终端中，TTS功能可用于产生来自所接收的文本消息的语音声、与当前时间对应的可听信号、和与各字符和符号对应的可听信号。

然而，移动通信终端的传统TTS功能一直使用相同的嗓音产生语音声。结果，很难基于TTS输出来区分移动通信终端的显示状态。

发明内容

考虑到以上问题已作出了本发明，并且本发明的一个目的在于提供一种用于产生与各显示情况对应的不同语音声的移动通信终端和文本到语音转换方法。

本发明的另一目的在于提供一种用于产生与屏幕对象的深度对应的不同语音声的移动通信终端和文本到语音转换方法。

根据本发明，提供了一种能够进行文本到语音合成的移动通信终端，该终端包括：控制器，用于标识屏幕上的激活对象的深度，并发现映射到所标识的深度的语音数据集；语音合成器，用于利用所发现的语音数据集而将激活对象的文本内容变换为音波数据；和音频处理器，用于以语音声输出该音波数据。

根据本发明，还提供了一种用于移动通信终端的文本到语音转换方法，该方法包括：标识屏幕上的激活对象的深度；发现映射到所标识的深度的语音数据集；和利用所发现的语音数据集而输出与该激活对象的文本内容对应的可听信号。

在本发明的一个特征中，根据对象深度以不同嗓音输出不同对象的文本内容。例如，当以重叠方式在屏幕上显示两个弹出式窗口时，以不同的嗓音输出该弹出式窗口的文本内容，使得用户可容易地区分一个弹出式窗口与另一个弹出式窗口。

附图说明

通过结合附图进行的以下详细描述，本发明的以上和其它目的、特征和优点将变得更明显，其中：

图1是图示了根据本发明的移动通信终端的配置；

图2是图示了根据本发明的文本到语音转换方法的各步骤的流程图；

图3是图示了图2的方法中的用于标识对象深度的步骤的流程图；

图4A到4C图示了图2的方法中的语音数据映射表；而图5A到5C图示了图2的方法中的输出的显示屏幕表示。

具体实施方式

其后，参考附图来详细描述本发明的优选实施例。相同的附图标记标识图中相同或对应的元件。可不描述本领域已知的一些构造或处理，以避免以不必要的细节使本发明模糊。

在该描述中，术语“对象”表示在屏幕上显示的窗口，例如弹出式菜单、弹出式通知和消息编辑窗口，除非在上下文中以别的方式指定。

术语“深度”用于当多个对象重叠时、判决应该隐藏哪个对象。例如，如果两个对象重叠，则具有较大深度(例如，深度“2”)的对象被画在具有较小深度(例如，深度“1”)的另一对象之上。

图1示出了根据本发明的移动通信终端。该移动通信终端100包括通信单元110、存储单元120、输入单元130、音调调节器140、语音合成器150、控制器160、显示单元170、和音频处理器180。

用于发送功能的通信单元110将要传送的数据变换为射频(RF)信号，并通过天线将RF信号传送到对应基站。用于接收功能的通信单元110通过天线从对应基站接收携带数据的RF信号，将该RF信号变换为中频(IF)信号，并将该IF信号输出到控制器160。所传送或接收的数据可包括嗓音数据、图像数据、和各种消息数据，例如短消息服务消息、多媒体消息服务消息和长消息服务消息。

存储单元120存储用于移动终端100的操作和用于控制器160的控制操作的程序和相关数据，并可包括各种存储装置，例如可擦除可编程只读存储器、静态随机存取存储器、闪存等。具体来说，存储单元120包括语音数据部件121，用于存储至少一个基本语音数据集；和映射数据部件123，用于存储与对象深度和语音数据集之间的映射有关的信息。语音数据集可在出货(shipment)之前的制造处理期间被预先安装在移动通信终端100中，或可根据用户偏好而从万维网服务器下载。

音调调节器140在正常操作条件下根据需要而执行音调调节。存储单元120可存储与例如男人、女人和小孩嗓音对应的一个基本语音数据集或多个基本语音数据集。

当由于性能降级而使得不可能在操作中进行动态音调调节时，可使用在存储单元120中存储的音调调节后的语音数据集。例如，存储单元120存储在音调调节器140的控制下对基本语音数据集进行音调调节后所得到的多个调节后的语音数据集。存储单元120也存储与对象深度和音调调节后的语音数据集之间的映射有关的信息，其中最好根据用户选择而将对象深度与音调调节后的语音数据集一一映射。

如果多个语音数据集(例如男人语音数据集、女人语音数据集和小孩语音数据集)可用，则存储单元120存储与对象深度和该可用语音数据集之间的映射有关的信息，其中最好根据用户选择而将对象深度与语音数据集一一映射。

输入单元130可包括例如小键盘和触摸屏的各种装置，并由用户用于选择期望功能或输入期望信息。具体来说，输入单元130输入来自用户的对象添加和去除命令。例如，在显示单元170上显示文本消息期间，如果用户输入了对象添加命令(例如菜单选择命令)，则显示单元170以重叠方式在文本消息之上显示对应的可选择菜单项列表。

音调调节器140对存储在存储单元120中的基本语音数据集应用音调调节，并创建多个音调调节后的语音数据集。音调调节器140也可以对从正在进行的呼叫中记录的并在存储单元120中存储的语音数据进行音调调节，使其成为音调调节后的语音数据集。优选地，该音调调节后的语音数据集被存储在语音数据部件121中。

语音合成器150读取在移动通信终端100中存储的文本信息，并利用存储在存储单元120中的语音数据集而产生语音声。文本到语音(TTS)合成是现有技术中已知的，并省略其详细描述。

控制器160控制移动通信终端100的整体操作和状态，并可包括微处理器或数字信号处理器。具体来说，控制器160控制显示单元170，以标识在屏幕上显示的激活对象的深度，并发现通过映射数据部件123而映射到所标识的激活对象深度的语音数据集。

响应于从输入单元130输入的对象添加或去除命令，控制器160控制显示单元170以标识新激活的对象的深度，并重新发现映射到所标识的深度的语音数据集。

当激活对象被确定为包括附件文件时，控制器160将该附件文件看作独立对象，并获得该附件文件的信息(例如，文件名称)。控制器160然后标识该激活对象和附件文件的深度，并发现分别映射到所标识的深度的语音数据集。

其后，控制器160控制语音合成器150利用与该对象关联的语音数据集而将该激活对象的文本内容变换为音波数据，并通过音频处理器180以可听信号的形式输出该音波数据。当该附件文件被选择和激活时，该附件文件的文本内容也利用关联的语音数据集而被变换为音波数据，并被馈送到音频处理器180，用于以可听信号的形式输出。

响应于从输入单元130输入的对于状态信息的请求，控制器160控制该语音合成器150利用预置语音数据集将所请求的状态信息变换为可听信号，并控制该音频处理器180最好以低音嗓音输出该可听信号。与状态信息关联的语音数据集也可根据用户选择而改变。该状态信息可与当前时间、接收的信号强度、剩余电池电力、和消息接收中的至少一个相关。

控制器160周期性地检查预置状态报告时间，并控制音频处理器180以规则间隔(最好是5到10分钟)利用预置语音数据集输出与移动通信终端100的当前状态有关的信息。状态输出之间的间隔可根据用户选择而改变。

显示单元170显示移动通信终端100的操作模式和状态。具体来说，显示单元170可以以重叠方式在屏幕上的另一对象之上显示一个对象。例如，在文本消息的显示期间，如果通过输入单元130输入了菜单选择命令，则显示单元170以重叠方式在所显示的文本消息之上显示对应的可选菜单项列表。

音频处理器180最好利用存储单元120中的与映射信息关联的语音数据集，而将由语音合成器150从输入文本信息所变换的音波数据变换为模拟语音信号，并通过扬声器输出该语音信号。

图2示出了根据本发明的文本到语音转换方法的步骤。参考图1和2，下面描述该方法。

控制器160根据用户选择而在映射数据部件123中存储与对象深度和语音数据部件121中所存储的语音数据集之间的映射有关的信息(S200)。最好是，对象深度以一一对应的方式映射到语音数据集。最好是，语音数据部件121存储至少一个基本语音数据集和音调调节器140所生成的多个音调调节后的语音数据集。

控制器160标识屏幕上的激活对象的深度(S210)。稍后结合图3来描述步骤S210。

控制器160利用映射数据部件123中的映射信息而发现映射到所标识的深度的语音数据集(S220)。控制器160控制语音合成器150利用所发现的语音数据集而产生与该激活对象的文本内容对应的音波数据，并控制音频处理器180输出所生成的音波数据作为可听信号(S230)。控制器160确定是否通过输入单元130输入了对象添加或去除命令(S240)。如果输入了对象添加或去除命令，则控制器160返回到步骤S210并重复步骤S210到S230，以处理在屏幕上新激活的对象。

例如，参考图5A的显示屏表示，控制器160发现映射到激活文本消息的131的深度的语音数据集，控制语音合成器150利用所发现的语音数据集而生成与文本消息131的文本内容对应的音波数据，并控制通过音频处理器180而输出所生成的音波数据。其后，响应于对象添加命令，控制器160显示菜单项列表133，利用映射到该菜单项列表133的深度的语音数据集而生成与该菜单项列表133(例如“回复”、“转发”、“删除”、“保存”)对应的音波数据，并输出所生成的音波数据作为可听信号。因为该菜单项列表133和文本消息131是不同的对象，所以最好以不同的嗓音输出它们的内容。

如果在步骤S240确定没有输入对象添加或去除命令，则控制器160确定是否输入了对于状态信息的请求(S250)。如果输入了对于状态信息的请求，则控制器160控制语音合成器150利用预置语音数据集将移动通信终端100的当前状态信息变换为可听信号，并控制音频处理器180输出该可听信号(S260)。该状态信息可与当前时间、接收的信号强度、剩余电池电力、和消息接收中的至少一个相关。此外，控制器160周期性地检查用户预置的状态报告时间(最好是大约每5到10分钟)。在每一状态报告时间处，控制器160控制语音合成器150利用预置语音数据集将移动通信终端100的当前状态信息变换为可听信号，并控制音频处理器180输出该可听信号。

例如，参考图5C的显示屏表示，响应于在空闲模式期间从用户输入的对于状态信息的请求，控制器160通过音频处理器180输出移动通信终端100的当前状态。最好是，响应于在任何模式期间输入的对于状态信息的请求，控制器160利用预置语音数据集通过语音合成器150将当前状态变换为可听信号，并通过音频处理器180输出该可听信号。

图3示出了用于标识激活对象的深度的步骤(图2的步骤S210)。参考图1和3，下面描述这些步骤。

控制器160在步骤S211分析该激活对象，并在步骤S212确定该激活对象是否附有文件。如果附有文件，则控制器160将该附件文件看作独立对象，并在步骤S213分析该附件文件，并在步骤S214标识该附件文件的深度。

其后，控制器160在步骤S215标识该激活对象的深度。

例如，参考图5B的显示屏表示，在响应于用户选择而显示所接收的消息135期间，控制器160分析该消息135并检测附件文件137。该附件文件137被看作独立对象，并且控制器160获得有关该附件文件137的信息(例如文件名称)。控制器160标识该消息135和附件文件137的深度。其后，控制器106发现分别映射到所标识的深度的语音数据集，并控制语音合成器150利用所发现的语音数据集而生成与所显示的消息135的文本内容对应的音波数据，并还控制通过音频处理器180输出所生成的音波数据。此外，当附件文件137由用户选择并激活时，控制器160利用映射到所标识的深度的语音数据集，而生成与附件文件137的文本内容对应的音波数据，并通过音频处理器180而输出所生成的音波数据。结果，以不同嗓音输出消息135和附件文件137的文本内容，并且用户可容易地区分消息135和附件文件137。

图4A到4C图示了图2所示方法的语音数据映射表。

参考图4A，存储在映射数据部件123中的语音数据映射表20包括深度栏(field)21和语音数据栏23，用于存储对象深度和在语音数据部件121中存储的语音数据集之间的映射。最好是，根据用户选择将对象深度以一一对应方式映射到语音数据集。最好是，语音数据部件121存储由音调调节器140创建的多个音调调节后的语音数据集。例如，当将基本语音数据集存储在语音数据部件121中时，可通过对基本语音数据集应用音调调节，而创建多个音调调节后的语音数据集。在语音数据映射表20中，对象深度“1”、“2”和“3”被分别映射到音调调节后的语音数据集“语音数据集-1”、“语音数据集-2”和“语音数据集-3”。

参考图4B，存储在映射数据部件123中的语音数据映射表30包括深度栏31和语音数据栏33，用于存储对象深度和在语音数据部件121中存储的语音数据集之间的映射。最好是，根据用户选择将对象深度以一一对应方式映射到语音数据集。最好是，语音数据部件121存储具有不同嗓音的各种语音数据集。该语音数据集可在出货之前的制造处理期间被预先安装在移动通信终端100中，或可根据用户偏好而从万维网服务器下载。例如，在语音数据映射表30中，对象深度“1”、“2”、“3”和“4”被分别映射到语音数据集“女人语音数据集”、“男人语音数据集”、“小孩语音数据集”和“机器人语音数据集”。

参考图4C，存储在映射数据部件123中的语音数据映射表40包括深度栏41和语音数据栏43，用于存储对象深度和在语音数据部件121中存储的语音数据集之间的映射。最好是，根据用户选择将对象深度以一一对应方式映射到语音数据集。最好是，语音数据部件121存储与频繁进行电话会谈的亲密的人的嗓音对应的各种语音数据集。例如，在语音数据映射表40中，对象深度“1”、“2”、“3”和“4”被分别映射到语音数据集“AA语音数据集”、“BB语音数据集”、“CC语音数据集”和“母亲语音数据集”。

根据以上描述可清楚地看出，本发明提供了一种移动通信终端和文本到语音转换方法，其中以各种嗓音输出不同对象的文本内容，使得用户可容易地区分一个对象与另一个对象。例如，当利用文本到语音转换功能输出文本消息的内容时，如果用户选择了特定菜单并且显示对应菜单项列表，例如“回复”、“重发”、“删除”和“转发”，则利用该文本到语音转换功能而输出该菜单项列表。文本消息和菜单项列表的内容以不同嗓音输出，其通知当前激活的对象不是文本消息，而是菜单项列表。

尽管已在本说明书中示出和描述了本发明的优选实施例，但是本领域普通技术人员将理解在不脱离由所附权利要求限定的本发明的精神和范围的情况下，对实施例的各种改变或修改都是可能的。

Claims

1.一种能够进行文本到语音合成的移动通信终端，该终端包括：

显示单元，用于在屏幕上显示至少一个对象；

控制器，用于标识屏幕上的激活对象的深度，并发现映射到所标识的深度的语音数据集，其中所述深度用于在多个对象重叠时判决应该隐藏哪个对象；

语音合成器，用于利用所发现的语音数据集而将激活对象的文本内容变换为音波数据；和

音频处理器，用于以语音声输出该音波数据。

2.根据权利要求1的移动通信终端，还包括：输入单元，用于输入来自用户的对象添加或去除命令，并且其中该控制器响应于通过该输入单元输入的对象添加或去除命令而激活新选择的对象，标识该新激活的对象的深度，并发现映射到所标识的深度的语音数据集。

3.根据权利要求1的移动通信终端，还包括存储单元，用于存储多个语音数据集和与对象深度和语音数据集之间的映射有关的信息。

4.根据权利要求3的移动通信终端，还包括音调调节器，用于通过向所存储的语音数据集之一应用音调调节，而创建多个音调调节后的语音数据集，并且其中该存储单元存储映射信息，在该映射信息中，根据用户选择而将对象深度以一一对应的方式映射到音调调节后的语音数据集。

5.根据权利要求3的移动通信终端，其中该存储单元存储映射信息，在该映射信息中，根据用户选择而将对象深度以一一对应的方式映射到所存储的语音数据集。

6.根据权利要求1的移动通信终端，其中当该激活对象包括附加对象时，该控制器获得有关该附加对象的信息，并且标识该激活对象和该附加对象的深度。

7.根据权利要求6的移动通信终端，其中该控制器发现映射到该激活和附加对象的所标识的深度的语音数据集，并利用对应的所映射的语音数据集而控制输出与该激活和附加对象的文本内容对应的可听信号。

8.根据权利要求1的移动通信终端，其中该控制器响应于通过输入单元输入的对于状态信息的请求，而控制利用预置语音数据集来输出与移动通信终端的当前状态信息对应的可听信号。

9.根据权利要求8的移动通信终端，其中该状态信息与当前时间、接收的信号强度、剩余电池电力、和消息接收中的至少一个相关。

10.根据权利要求8的移动通信终端，其中该控制器周期性地检查预置的状态报告时间，并在每一状态报告时间处，控制利用预置语音数据集而输出与移动通信终端的当前状态信息对应的可听信号。

11.一种用于移动通信终端的文本到语音转换方法，该移动通信终端能够以重叠方式在屏幕上显示多个对象，该方法包括：

标识屏幕上的激活对象的深度，其中所述深度用于在多个对象重叠时判决应该隐藏哪个对象；

发现映射到所标识的深度的语音数据集；和

利用所发现的语音数据集而输出与该激活对象的文本内容对应的可听信号。

12.根据权利要求11的文本到语音转换方法，还包括当响应于对象添加或去除命令的输入而替换该激活对象时，标识新激活的对象的深度，并发现映射到所标识的深度的语音数据集。

13.根据权利要求11的文本到语音转换方法，还包括存储多个语音数据集和与对象深度和语音数据集之间的映射有关的信息。

14.根据权利要求13的文本到语音转换方法，还包括通过向所存储的语音数据集之一应用音调调节，而创建多个音调调节后的语音数据集，并且其中该存储有关映射的信息的步骤存储映射信息，在该映射信息中，将对象深度以一一对应的方式映射到音调调节后的语音数据集。

15.根据权利要求13的文本到语音转换方法，其中该存储有关映射的信息的步骤存储映射信息，在该映射信息中，将对象深度以一一对应的方式映射到所存储的语音数据集。

16.根据权利要求11的文本到语音转换方法，该标识深度的步骤包括：当该激活对象包括附加对象时，获得有关该附加对象的信息，并且标识该激活对象和该附加对象的深度，并且其中所述发现语音数据集的步骤包括：发现映射到该激活和附加对象的所标识的深度的语音数据集，并利用对应的所映射的语音数据集而输出与该激活和附加对象的文本内容对应的可听信号。

17.根据权利要求11的文本到语音转换方法，还包括：响应于对于状态信息的请求的输入，而利用预置语音数据集来输出与移动通信终端的当前状态信息对应的可听信号。

18.根据权利要求17的文本到语音转换方法，其中该状态信息与当前时间、接收的信号强度、剩余电池电力、和消息接收中的至少一个相关。

19.根据权利要求17的文本到语音转换方法，其中所述输出可听信号的步骤包括：周期性地检查预置的状态报告时间，并在每一状态报告时间处，利用预置语音数据集而输出与移动通信终端的当前状态信息对应的可听信号。