CN1855223B

CN1855223B - 音频字体输出设备、字体数据库和语言输入前端处理器

Info

Publication number: CN1855223B
Application number: CN2006100752780A
Authority: CN
Inventors: 鲤沼敦
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2005-04-18
Filing date: 2006-04-18
Publication date: 2010-12-15
Anticipated expiration: 2026-04-18
Also published as: US8285547B2; JP4787634B2; JP2006323827A; US20060235702A1; CN1855223A

Abstract

公开了一种音频字体输出设备，它能够将字符或文本有效地转换成人类听觉可识别的音频信号。音频字体输出设备包括：字体数据库，用于存储对应于符号代码的字符或符号的图像数据、对应于符号代码的第一音频数据；符号显示单元，用于显示对应于符号代码的字符或者基于图像数据的符号；和音频输出单元，用于输出基于对应于符号代码的第一音频数据的音频信号。

Description

音频字体输出设备、字体数据库和语言输入前端处理器

技术领域

本发明涉及音频字体输出设备、字体数据库和语言输入前端处理器，尤其涉及一种既能输出字符又能输出音频信号的音频字体输出设备、字体数据库和语言输入前端处理器。

背景技术

当使用计算机或其他信息处理设备显示字符时，在显示器上显示由输入设备输入的字符，其中输入设备将输入字符转换成字符代码。用户通过视觉识别输入字符并理解字符、词或文本。

类似地，当在显示器上显示通过网络传送的文件时，用户通过视觉识别文件中显示的字符以便理解文件中的文本。

这是理解显示的字符信息的通常方式。

例如，国际专利申请WO1997/037344的日文翻译(下面称为“参考文献1”)公开了一种朗读文件中的字符的技术，即，将文件中的字符变换成语音以便减少掌握文本意思所需的时间。参考文献1公开了一种文本-语音转换设备，该设备防止生成特定词，并且将文本转换成音频信号。

与仅仅朗读文本不同，例如，日本特许公开专利申请No.2003-150507(下面称为“参考文献2”)公开了一种技术，当输入预定符号时，产生特定于预定符号的声音。在参考文献2的技术中，当在朗读文件中的字符的同时文件中包含图案符号的时候，产生对应于文件中的图案符号的声音。

此外，实际应用了许多其他技术来基于字符的显示产生话音。例如，诸如触摸屏之类的由弱的击键操作的输入设备可以在每次击键时发声。

然而，在朗读字符(即，将字符转换成话音)的参考文献1的技术中，如果用户没有听到全文，那么有时可能难以掌握文本的意思。例如，如果一个句子太长，那么有时仅理解句子的某些要点(例如，摘要)就足够了。此外，当用设备朗读文本时，如果词或短语之间的停顿不恰当，那么用户会对朗读文本产生的语音感到不舒服。在这种情况下，输入字符的同时朗读文本就不那么有用了。

在产生特定于图案符号的声音的参考文献2的技术中，有时图案符号与文本毫无关系；因此，产生的声音妨碍了对文本的理解。此外，当结合文本中的图案符号的内容准备适当的声音时，由于大量类型的声音，存储器声音数据的存储器的容量增加，而这增加了提取适当声音的时间，并且增加了设备成本。此外，当使用过多的图案符号和特定声音时，用户可能难以记住图案符号和特定声音之间的对应关系，而这让用户感觉不便。

在每次击键产生声音的技术中，由于声音与输入字符或文本毫无关系，因此声音无法帮助用户掌握输入文本的内容。

发明内容

本发明总的目的是解决相关技术中的一个或多个问题。

本发明的更具体的目的是提供一种能够将字符或文本有效地转换成人类听觉可识别的音频信号的音频字体输出设备、以及字体数据库和语言输入前端处理器。

根据本发明的第一方面，提供一种音频前端输出设备，包括：字体数据库，用于存储对应于符号代码的字符或符号的图像数据、以及对应于符号代码的第一音频数据，其中，第一音频数据被作为控制数据存储；符号显示单元，用于显示对应于符号代码的字符或者基于图像数据的符号；和音频输出单元，用于输出基于对应于符号代码的第一音频数据的音频信号。

根据本发明的实施例，可以提供一种能够将字符或文本有效地转换成人类听觉可识别的音频信号的音频字体输出设备。

这里，“符号”可以是计算机可以显示的任何对象，例如字符、字母、数字和图案符号。此外，符号不限于特定语言，例如，符号可以是日文字符、中文字符或韩文字符。

作为实施例，音频字体输出设备还包括声音源数据生成单元，用于当输入符号代码时，提取第一音频数据并生成用来输出音频信号的第一声音源数据，其中音频输出单元输出基于声音源数据生成单元所生成的第一声音源数据的音频信号。

根据本发明的实施例，可以生成基于音频数据的声音源数据；因此可以将大小较小的音频数据存储在字体数据库中。

根据本发明的第二方面，提供一种音频字体输出设备，包括：字体数据库，用于存储对应于符号代码的字符或符号的图像数据、以及对应于词的代码的第二音频数据，所述词由多个字符和符号代码构成，其中，第二音频数据被作为控制数据存储；显示单元，用于显示对应于符号代码的字符或者基于图像数据的符号；和音频输出单元，用于输出基于对应于词代码的第二音频数据的音频信号。

根据本发明的实施例，可以提供一种能够不仅将符号而且将词有效地转换成图像、并输出声音的音频字体输出设备。

作为实施例，音频字体输出设备还包括：声音源数据生成单元，用于当输入词代码时，提取对应于词代码的第二音频数据并生成用来输出音频信号的第二声音源数据，其中音频输出单元输出基于声音源数据生成单元所生成的第二声音源数据的音频信号。

根据本发明的实施例，由于基于对应于词代码的第二音频数据生成声音源数据，因此可以减少音频数据的大小。

作为实施例，从字符输入单元输入符号代码，或者从字符输入单元输入词代码。

根据本发明的实施例，每次使用字符输入设备(例如键盘)输入符号(例如字符)时，产生并输出对应于符号的音频信号。这里，字符输入设备可以是能够输入任何符号的任何输入设备。

作为实施例，从应用程序的数据文件输入符号代码，或者从应用程序的数据文件输入词代码。

根据本发明的实施例，当显示文件时，可以在显示文本的同时输出音频信号。

作为实施例，音频字体输出设备还包括语言输入前端处理器，用于通过使用词典将一系列输入符号代码变换成包括字符的句子。

根据本发明的实施例，由于语言输入前端处理器的多功能，因此可以在低工作负荷、处理速度下降很少的情况下产生和输出对应于词的音频信号。

作为实施例，在字体数据库中存储对应于词代码的词的优先顺序，并且音频输出单元按照词的优先顺序的降序输出音频信号。

根据本发明的实施例，由于字体数据库中存储词的优先顺序，因此可以分配输出对应于词的音频信号的优先顺序；从而可以容易地掌握文本的意思。

作为实施例，音频字体输出设备，还包括：信号接收单元，用于接收包括词代码的电子邮件；和确定单元，用于确定对应于电子邮件中包括的词代码的第二音频数据是否存储在字体数据库中，其中当对应于电子邮件中包括的词代码的第二音频数据存储在字体数据库中时，音频输出单元输出基于第二声音源数据的音频信号，作为电子邮件的响铃，以及当对应于电子邮件中包括的词代码的第二音频数据未存储在字体数据库中时，音频输出单元输出电子邮件的响铃。

根据本发明的实施例，当电子邮件到达时，由于可以基于电子邮件中包括的词产生声音源数据，因此用户能够通过响铃知道或预测电子邮件的内容。

根据本发明的第三方面，提供一种邮件服务器，其将通过网络从信号发送终端接收到的电子邮件通过网络发送给信号接收终端，所述邮件服务器包括：数据库，用于存储对应于词代码的音频数据，所述词由多个字符和符号代码构成，其中，音频数据被作为控制数据存储；音频数据附加单元，用于生成基于音频数据的声音源数据或提取对应于词的声音源数据，并且将声音源数据附加到电子邮件上；和发送单元，用于将具有附加的声音源数据的电子邮件发送到信号接收终端。

根据本发明的实施例，由于邮件服务器维持音频数据和声音源数据，因此即使当信号发送终端或信号接收终端没有产生音频数据的机制时，信号接收终端也能够输出对应于接收到的文本内容的音频信号。

作为实施例，信号发送终端发送将声音源数据附加到电子邮件上的请求。

根据本发明的实施例，当附加声音源数据的请求没有与电子邮件一起发送时，不必将声音源数据发送给信号接收终端。

作为实施例，当接收到的电子邮件附有声音源数据时，信号接收终端基于声音源数据响铃，作为电子邮件的响铃。

根据本发明的实施例，当电子邮件到达时，由于可以基于电子邮件中包括的词生成声音源数据，因此用户能够通过响铃知道或预测电子邮件的内容。

根据本发明的第四方面，提供一种在字体数据库存储数据的方法，包括：存储对应于符号代码的字符或者符号的图像数据；和存储对应于符号代码的第一音频数据，其中，第一音频数据被作为控制数据存储。

作为实施例，所述在字体数据库存储数据的方法还包括：对应于词的代码的第二音频数据，所述词由多个字符和符号代码构成。

根据本发明的第五方面，提供一种语言输入前端处理器，其中语言输入前端处理器通过使用词典将一系列输入符号代码变换成包括字符的句子；以及词典包括对应于词的代码的音频数据，所述词由多个字符和符号代码构成其中，音频数据被作为控制数据存储。

根据本发明，可以提供一种能够将字符或文本有效地转换成人类听觉可识别的音频信号的音频字体输出设备、以及字体数据库和语言输入前端处理器。

通过下面参照附图给出的对优选实施例的详细描述，本发明的这些和其他目的、特征和优点将变得清楚。

附图说明

图1是例示根据本发明第一实施例的音频字体输出设备的方框图；

图2是说明存储在字体数据库中的字体数据和音频数据(将在下面描述)的例子的表；

图3是说明当显示输入的字符时输出声音的操作的流程图；

图4是说明存储在前端处理器的词典中的词的例子的表；

图5是例示根据本发明第二实施例的音频字体输出设备的方框图；

图6是说明在显示输入文件中的字符时输出声音的操作的流程图；

图7示出当开始电子邮件应用程序时在显示器上显示的窗口的例子；

图8示出用于设置根据本发明第三实施例的音频字体输出设备的窗口的例子；

图9是说明根据第四实施例的前端处理器的词典的例子的表；

图10A示出在显示器上显示的用于分配优先级的窗口的例子；

图10B示出在显示器上显示的、用于通过词类别分配优先级的窗口的例子；

图11是说明在本实施例的音频字体输出设备显示输入文件中的字符的同时按照优先级的顺序输出声音的操作的流程图；

图12是例示根据本发明第五实施例的音频字体输出设备的方框图；

图13是说明当本实施例的音频字体输出设备接收电子邮件时输出对应于电子邮件中包含的词的音频数据作为响铃的操作的流程图；

图14是说明根据本发明第六实施例的电子邮件分发系统的总体配置的示意图；

图15是例示邮件服务器62中根据本发明第六实施例的音频字体输出设备的方框图；

图16是说明邮件服务器中的音频字体输出设备生成声音数据的操作的流程图；

图17是说明信号接收终端接收电子邮件和声音源数据这两者、并且输出声音作为响铃声音的操作的流程图；和

图18是说明包括本发明的音频字体输出设备的硬件配置的例子的方框图。

具体实施方式

下面将参照附图描述本发明的优选实施例。

第一实施例

在本实施例中，每次生成字符代码时显示字符，并且同时产生特定的声音。这样，当用户输入字符时，输入设备生成特定于字符的声音，从而用户可以仅仅凭借听声音来预测或理解字符或句子的意思。

图1是例示根据本发明第一实施例的音频字体输出设备的方框图。

如图1所示，本发明的音频字体输出设备包括字符输入单元11、具有词典18的前端处理器(FEP)12、具有声音生成器10的栅格器(rasterizer)13、显示器14、声音源15、扬声器16和字体数据库(DB)17。

例如，字符输入单元11是键盘，并且用户可以通过用手指敲击键盘的按键来将字符输入到计算机中。例如，在键盘中，可以布置多个键，表示英文字母、假名(日语假名)、数字、符号和其他。当用户击键时，对应于该键的代码(例如，ASCII码)被送到计算机。可以为几个字符分配一个键。例如，一个键可以既表示字母“A”又表示假名“chi”。可以通过组合使用“shift”键、“Ctrl”键或其他辅助键，或者通过选择输入模式来选择分配给一个键的这些字符。

字符输入单元11不限于键盘，而可以是各种其他类型的设备。例如，它可以是生成对应于输入字符的键代码的任何设备、触摸屏、手写输入设备或音频键盘。

键代码被BIOS(基本输入输出系统)变换成字符代码，并且送到前端处理器12。

前端处理器12将一系列输入的字符代码变换成诸如日文或中文之类的语言的字符。

例如，当通过字符输入单元11输入字母“K”、“U”、“R”、“U”、“M”、“A”时，前端处理器12查阅词典18，并且使用特定的字符代码系统将一系列字母“K”、“U”、“R”、“U”、“M”、“A”变换成三个日文假名，然后用户从对应于三个日文假名的几个日文字符中选择表示“car”的日文字符，并且生成表示“car”的所选日文字符的字符代码。

有几种字符代码系统，如JIS码、Shift码、Unicode和其他。在本实施例中，可以使用这些代码系统中的任何一种。

表示“car”的所选日文字符的字符代码被送到栅格器13。栅格器13生成多个点来表示对应于字符代码的字符，以便在显示器14上显示字符。栅格器13包括字体数据库17，其中存储对应于字符代码的字体数据。

图2是说明存储在字体数据库17中的字体数据和音频数据(将在下面描述)的例子的表。

字体数据与字符代码相关联地存储在字体数据库17中。字体数据包括点的位置坐标、穿过点的线或平面的等式的参数，以及诸如填色之类的绘图信息。

栅格器13包括声音生成器10。声音生成器10基于图2中的表格所示的音频数据生成声音源数据，以便通过扬声器16输出对应于输入的字符代码的声音。

如图2所示，音频数据与字符代码相关联地存储在字体数据库17中。音频数据包括指示每个声音持续时间中的间隔、长度、强度和变化模式的音乐信息。

声音生成器10提取对应于输入字符代码的音频数据，并且基于音频数据生成声音源数据，例如FM声音源数据、PCM声音源数据和MIDI(乐器数字接口)。

音频数据包括产生提醒用户相应字符的声音的数据。例如，与词“car”相关联的音频数据产生行驶的汽车的音效，与词“bird”相关联的音频数据产生鸟鸣的音效，与词“rain”相关联的音频数据产生下雨的音效，与词“flame”相关联的音频数据产生燃烧的音效，与词“sea”相关联的音频数据产生波浪的音效，而与词“run”相关联的音频数据产生奔跑的音效。

这些音频数据存储在字体数据库17中。

因此，声音生成器10生成声音源数据来产生输入字符的音效。

声音生成器10生成的声音源数据被送到声音源IC15。

声音源IC15产生由音频数据确定的音调的声音。声音由放大器放大，并且通过扬声器16输出。

应当注意的是，声音源数据可以存储在字体数据库17中用作音频数据。在这种情况下，声音源数据被直接送到声音源IC15来输出声音。此外，当声音源数据不适合声音源IC15时，声音生成器10改变声音源数据来适合声音源IC15。

使用如上所述配置的音频字体输出设备，每当显示输入的字符时音频字体输出设备输出声音。

图3是说明当显示输入的字符时输出声音的操作的流程图。

如图3所示，在步骤S11中，像相关技术中那样，用户通过字符输入单元11输入字符串，其中输入的字符串显示在显示器14上。

例如，用户通过字符输入单元11输入字符串“K”、“U”、“R”、“U”、“M”、“A”、“D”、“E”、“I”、“K”、“U”、“Y”、“O”。

在步骤S12中，前端处理器12基于上面输入的字符的代码将输入的字符0 串转换成日文句子，意思是“Let’s go by car”(让我们坐汽车去)，并且生成日文句子中包含的字符的代码。特别地，前端处理器12生成日文句子的代码“3c56”、“2447”、“3954”、“242F”和“2468”。例如，上述字符代码是JIS代码。

前端处理器12将日文句子的代码“3c56”、“2447”、“3954”、“242F”和“2468”发送给栅格器13。

在步骤S13中，栅格器13从前端数据库17提取对应于接收到的代码的字体数据，并且在显示器14上逐个显示对应于代码的字符，每个字符作为点(dot)的集合。

在步骤S14中，声音生成器10搜索字体数据库17来确定字体数据库17中是否存在对应于来自前端处理器12的代码的音频数据。

如果字体数据库17中存在期望的音频数据，则流程返回到步骤S15。

如果字体数据库17中不存在期望的音频数据，则流程返回到步骤S17。

在步骤S15中，声音生成器10提取对应于输入的字符代码的音频数据，并且基于音频数据生成声音源。

例如，由音频数据“0x12”、“0x15”、“0x90”生成声音源数据，从而为词“car”产生行驶的汽车的音效。

在步骤S16中，声音源IC15在接收到声音源数据后通过扬声器16产生声音。

在步骤S17中，如果字符的输入没有结束，则流程返回到步骤13，并且音频字体输出设备重复从步骤S13到步骤S17的处理，直到输入了所有字符为止。

不必为每个词都产生音效。例如，可以将一个句子中包含的词的声音源数据存储一会，并且可以在整个句子显示完之后依次输出句子中的所有词的声音。

根据本实施例，每次输入字符时，产生反映字符意思的特定声音；从而用户不看显示器14就可以预测文本的内容。由于音频数据和字体数据作为大小很小的控制数据存储，因此与存储声音文件(WAVE或MP3)相比，大大减少了所需的存储器容量。因此，音频字体输出设备可以容易地安装在蜂窝电话、PDA(个人数字助理)或其他便携终端中。

改进

在上述实施例中，如图2所示，音频数据与字符代码相关联地存储在字体数据库17中。

音频数据也可以与词的代码相关联地存储在字体数据库17中，每个词具有特定含义。

图4是说明存储在前端处理器12的词典18中的词的例子的表。

每个词可以是名词、动词、形容词或其他。下面主要使用名词作为例子。

在词典18中，将字体数据和音频数据与词的代码相关联地存储。词(例如，“noodle”)的代码用于表示“noodle”，并且包括字符“n”、“o”、“o”、“d”、“l”和“e”的代码。与图2所示的一样，字体数据包括点的位置坐标、穿过点的线或平面的等式的参数，以及诸如填色之类的绘图信息。

将音频数据与词的代码相关联地存储。音频数据包括指示每个声音持续时间中的间隔、长度、强度和变化模式的音乐信息，来提醒用户相应的词。

例如，与词“noodle”相关联的音频数据产生吃面条的音效，与词“typhoon”相关联的音频数据产生强风的音效，与词“bird”相关联的音频数据产生鸟鸣的音效，与词“bicycle”相关联的音频数据产生自行车引擎的音效，与词“train” 相关联的音频数据产生行驶的火车的音效，而与词“clock”相关联的音频数据产生工作的时钟的音效。

由于前端处理器12将对应于词的音频数据发送给声音生成器10，因此声音生成器19基于音频数据产生声音源数据。此外，栅格器13在显示器14上显示包括词或其他字符的文本，并且声音源IC15基于音频数据产生声音。

根据本实施例的改进，产生了反映文本中的词含义的特定声音；从而用户不看显示器14就可以掌握文本的内容。

要注意的是，除了词的声音外，也可以输出每个字符的声音。

第二实施例

在前面的实施例中，对当输入文本时输出对应于输入字符的声音的情况进行了描述。

在本实施例中，描述了当在显示器上显示文本时输出对应于输入字符或词的声音的情况。

下面，为与之前所述的相同的元件分配相同的附图标记，并且省略重复的描述。

图5是例示根据本发明第二实施例的音频字体输出设备的方框图。

如图5所示，本实施例的音频字体输出设备包括具有声音生成器10的栅格器13、显示器14、声音源15、扬声器16和具有词典19的字体数据库17。

输入到音频字体输出设备的数据来自于输入文件21，并且输入文件21首先输入到应用程序22。

词典19与图4所示的相同。

例如，文件21可以是各种格式的数据文件，可以包含文本，并且用在字处理软件、演示软件、电子邮件软件、电子表格软件或浏览器软件中。文件21可以通过光盘或其他存储介质输入到应用程序22中，或者可以通过网络接收。文件21与预定的应用程序22相关联，并且应用程序22提取文件21中包含的文本。应用程序22在显示器14上形成窗口或框、显示图标和菜单，并且同时将提取的文本发送给栅格器13。

栅格器13从字体数据库17提取对应于构成文本的字符的字体数据，并且在应用程序22指定的位置显示特定大小的字符，每个字符作为点的集合。

类似地，声音生成器10从字体数据库17提取对应于构成文本的字符的音频数据，并且基于音频数据产生声音源数据。在文本中，如果有具有相同音频数据的多个字符，则按照出现的顺序生成声音源数据，并将其依次存储。

将音频数据与词典19中的词相关联地存储在字体数据库17中。

声音生成器10从字体数据库17提取对应于构成文本的字符的音频数据。

声音源IC15通过扬声器依次输出由此生成的声音源数据。

使用上述配置，音频字体输出设备在显示所述输入文件21中的字符的同时输出声音。

图6是说明在显示输入文件中的字符时输出声音的操作的流程图。

如图6所示，在步骤S21中，调用应用程序22，接收并加载文件21，然后打开文件21。

例如，应用程序22是电子邮件应用程序，当打开电子邮件时，本实施例的音频字体输出设备开始操作。

图7示出当开始电子邮件应用程序时在显示器14上显示的窗口的例子。

如图7所示，电子邮件包括命令区域31、文件夹切换区域32、收件箱邮件列表33和文本显示区域34。

在步骤S22中，例如，用户用鼠标从收件箱邮件列表中选择邮件，并且文件21(即，所选邮件)的文本中包含的字符的代码被送到栅格器13。例如，文件21的文本中的字符串显示“Let’s go to the beach tomorrow to drink beer！”(让我们明天去海边喝啤酒！)。

在步骤S23中，栅格器13从字体数据库17中提取句子“Let’s go to thebeach tomorrow to drink beer！”中的字符的代码的字体数据，并且形成指定大小的相应字符(每个字符作为点的集合)，并且在文本显示区域34上逐个显示字符。

在步骤S24中，声音生成器10从字体数据库17中提取句子“Let’s go tothe beach tomorrow to drink beer！”中的字符的代码所对应的音频数据，并且从词典19中提取句子中的词的音频数据。例如，提取词“beach”、“drink”和“beer”的音频数据。

在步骤S25中，声音生成器10基于词“beach”、“drink”和“beer”的音频数据生成声音源数据。

例如，由词“beach”、“drink”和“beer”的音频数据生成声音源数据，从而为词“beach”产生海风的音效，为词“drink”产生喝的音效，并且为词 “beer”产生喝啤酒的音效。

在步骤S26中，声音源IC15在接收到声音源数据后通过扬声器16产生声音。

根据本实施例，可以为预先创建的文件中包含的字符或词产生声音。在本实施例中，由于为电子邮件产生了声音，用户可以容易地掌握电子邮件的内容，并且利用听觉传输电子邮件的内容。即，提醒一个人去海边和品尝啤酒的感觉，从而以非常现实的感受传输电子邮件的内容。

此外，例如，当使用演示应用程序时，如果应用本实施例的音频字体输出设备，则可以通过在显示“成绩”、“效果”这些词的同时产生音效来强调这些词，来更有效地向观众呈现演示的内容。

第三实施例

在本实施例中，描述了改变音频字体输出设备的设置的情况。

如前面实施例所述，通过使用本发明的音频字体输出设备，可以通过声音有效地表示文本的内容。然而，例如在图书馆中，有时不允许输出声音。在本实施例中，描述了设置音频字体输出设备的ON或OFF的各种操作。

图8示出用于操作根据本发明第三实施例的音频字体输出设备的窗口的例子。

在本实施例中，例如，可以通过点击显示器14上的工具条来开始音频字体输出设备。

用户可以使用鼠标选择“功能ON”按钮或“功能OFF”按钮来选择是否输出声音。

在“声音输出”区域中，“字符输入”按钮选择当输入字符时是否输出声音，而“打开文件”按钮选择当打开文件时是否输出声音。

在“声音输出定时”区域中，“每个字符”按钮选择是否为每个字符输出声音，而“每个句子”按钮选择是否为每个句子输出声音。

特别地，在输入了周期后，当选择“每个字符”按钮时，每次显示字符时都输出声音，而当选择“每个句子”按钮时，每次输入句子时依次输出句子中的字符的声音。

此外，只有当选择了“声音输出”区域中的“字符输入”按钮时才允许在“声音输出定时”区域中选择。

在“声音登记”区域中，用户被允许将期望的音频数据与字符或词相关联地登记。例如，用户可以在“字符输入”框、或者“代码输入”框或者“手写”框中输入期望的字符。然后，通过点击“输出”按钮，用户可以输出声音来测试音效。如果用户对音效满意并且该音频数据还没有被登记，则用户可以在下面的“音频数据选择”区域登记音频数据。如果用户对音效不满意，则用户就不在下面的“音频数据选择”区域点击“登记”。

在“音频数据选择”区域中，提供用于存储登记的音频数据的“服务器”和“文件”。用户可以从“服务器”下载音频数据，或者从“文件”中读出音频数据。

用户可以点击“测试”按钮来测试候选声音，如果用户对音效满意，则用户可以点击“登记”按钮来将该音频数据登记为输入字符的音频数据。

根据本实施例，用户可以以各种方式改变音频字体输出设备的设置并且可以登记期望的音频数据。

此外，用户可以用听觉有效地掌握字符和文本的内容。由于音频数据作为大小很小的控制代码存储，因此大大减少了所需的存储器容量，因而音频字体输出设备可以容易地安装在便携终端中。

由于音频字体输出设备不仅在从输入设备输入字符的时候还在打开文件的时候输出声音，因此用户可以容易地掌握文件的内容。

第四实施例

在第二实施例中，描述了当在显示器上显示包含字符或词的文本时输出对应于字符或词的声音。

在本实施例中，描述按照优先级依次输出声音的情况。

本发明的音频字体输出设备除了下述不同以外基本与图5的相同：在词典19中，音频数据除了与词对应外还被分配有优先级。

图9是说明根据第四实施例的字体数据库17(图5)的词典19的例子的表。

在图9中，用整数表示优先级，其中“1”对应于最高优先级，而较大的数字对应于较低的优先级。

当文本包含多个字符时，声音生成器10预先存储所有音频数据或声音源数据，并且按照优先级顺序的降序通过扬声器16依次输出音频数据或声音源数据。

下面描述优先级的定义。

例如，优先级定义为有3个或更多级别，最多10个级别，用户可以自由地为词分配优先级。

图10A示出在显示器14上显示的用于分配优先级的窗口的例子。

在本实施例中，与第三实施例类似，通过点击显示器14上的工具条开始音频字体输出设备。然后，用户调用用来选择优先级的程序，并且该程序从图9所示的词典19中读出词和优先级。

在图10A中，在优先级设置窗口中，有用于选择词的起始字符“起始字符选择”区域41，以及用于设置所选的起始字符和具有该起始字符的词的优先级的优先级设置表42。例如，在图10A中，所选的起始字符是日文假名“a”。

在优先级设置表42中，依次列出具有日文假名“a”、“i”、“u”、“e”、“o”作为起始字符的日文词。除了日文词之外，还有用于输入优先级的列，用户可以在列中输入期望的数字1到10作为优先级。

在输入优先级后，用户点击“结束”按钮，优先级设置程序将输入的优先级值存储在词典19中。

这样，用户可以为词分配任何期望的优先级。

也可以根据词类别来分配优先级。

图10B出在显示器14上显示的、用于通过词类别分配优先级的窗口的例子。

类似地，通过点击显示器14上的工具条开始音频字体输出设备，然后用户调用优先级设置程序，并且如图10B所示在显示器14上显示窗口。

应当注意的是，通过词类别的优先级设置可以作为额外的功能加到图10A的窗口上。

如图10B所示，词类别可以包括名词、动词、形容词、副词和象声词，并且除了词类别之外，还留有输入优先级的空间。用户可以在该空间内输入期望的数字1到10作为每个词类别的优先级。

在图10B中，象声词也作为一种词类别，并且用户可以为象声词分配优先级。象声词模仿人、动物的语音或自然声音。在图10B中，象声词的优先级设置得相对高。这在将文本表达为音乐时是有用的。

当开始应用程序22并选择文件21时，应用程序22提取文件21中包含的文本，并且将提取的文本发送给栅格器13。

声音生成器10查阅图9所示的词典19，提取和存储文本中包含的词的音频数据和优先级，并且按照优先级的降序排序音频数据。然后，声音生成器10由排序的音频数据依次生成声音源数据，并且通过扬声器16依次输出声音源数据。

当声音源数据存储在词典19中时，当然可以直接提取声音源数据。

如果文本中有多个词具有相同的优先级，则按照出现的顺序生成声音源数据。

应当注意的是，可以按照优先级的升序依次输出声音源数据。

图11是说明在本实施例的音频字体输出设备显示输入文件中的字符的同时按照优先级的顺序输出声音的操作的流程图。

例如，应用程序22是电子邮件应用程序。

在步骤S31中，调用应用程序22，接收并打开文件21(电子邮件)。

由于应用程序22是电子邮件应用程序，因此当打开电子邮件时，本实施例的音频字体输出设备开始操作。

在步骤S32中，例如，用户用鼠标从收件箱邮件列表中选择邮件，并且文件21(即，所选邮件)的文本中包含的字符的代码被发送到栅格器13。例如，文件21的文本中的字符串显示“Let’s go to the beach tomorrow to drinkbeer！”(让我们明天去海边喝啤酒！)。

在步骤S33中，栅格器13从字体数据库17中提取句子“Let’s go to thebeach tomorrow to drink beer！”中的字符的代码的字体数据，并且形成指定大小的相应字符(每个字符作为点的集合)，并且在文本显示区域34上逐个显示字符。

在步骤S34中，声音生成器10从词典19中提取句子中的词的音频数据和优先级。例如，提取优先级为1的词“beach”、优先级为3的“drink”和优先级为2的“beer”的音频数据。

在步骤S35中，声音生成器10根据词“beach”、“drink”和“beer”的优先级对这些词的音频数据排序，并且获得一系列词“beach”、“beer”和“drink”。

在步骤S36中，声音生成器10由词“beach”、“beer”和“drink”的音频数据生成声音源数据，并且将其依次从扬声器16输出。

与第三实施例类似，例如，以这样的方式生成声音源数据，即，为词“beach”产生海风的音效，为词“beer”产生喝啤酒的音效，并且为词“drink”产生喝的音效。

依次输出这些声音。

如上所述，尽管上述词按照“beach”、“drink”和“beer”的顺序出现，但由于为这些词分配了优先级，因此通过按照优先级排序得到了一系列词“beach”、“beer”和“drink”。由此，按照优先级而不是出现的顺序输出这些词的声音，而这产生了电子邮件的不同音效，使得用户可以更容易地掌握电子邮件的内容。

改进

作为对本实施例的改进，在这个例子中，即使当词典中没有登记优先级数据时，也可以改变输出词的声音的顺序。

例如，可以对句子进行语法分析，并且为主语词和动词分配音频数据，并且可以优先输出主语词和动词的原始声音。例如，在句子“chased by a dog，a cat starts running”(受到狗的追赶，猫开始奔跑起来)中，主语词是“a cat”，动词是“starts running”，因此为“a cat”和“starts running”分配音频数据，并且输出猫的叫声和猫奔跑的音效。这帮助用户仅仅通过听声音就可容易地掌握文本的内容。

当输出没有对应关系或具有弱的对应关系的词的声音时，例如，可以让词的声音之间的间隔长一些；从而，输出的声音正确地反映文本内容，并且用户可以通过听声音来正确地掌握文本内容。

例如，在句子“Let’s go to the beach tomorrow to drink beer！”中，“go”与“beach”关联，而“drink”与“beer”关联。如果词“beach”、“drink”和“beer”的音频数据存储在词典中，则在输出“beach”的声音后，提供一个比通常间隔长的时间间隔，然后用通常间隔输出“drink”和“beer”的声音。这样，通过调整声音之间的时间间隔，可以理解词之间的关系。

根据本实施例，由于为对应于词的输出声音分配优先级，因此更容易发送文本内容。

第五实施例

在本实施例中，与电子邮件中包含的词对应的音频数据作为电子邮件的响铃输出。

在个人计算机的情况下，当电子邮件应用程序接收到电子邮件时，再现预定的声音文件(WAVE或MP3)。

在蜂窝电话的情况下，当蜂窝电话接收到电子邮件时，OS(操作系统)提取诸如MIDI数据之类的预定声音源数据，并且通过声音源IC输出声音源数据。当使用蜂窝电话时，可以根据发信人的邮件地址选择声音源数据。

在本实施例中，将对应于电子邮件中包含的词的音频数据作为响铃声输出，而不是预先准备的响铃声。

图12是例示根据本发明第五实施例的音频字体输出设备的方框图。

下面，为与图5所述的相同的元件分配相同的附图标记，并且省略重复的描述。

如图12所示，本实施例的音频字体输出设备包括具有声音生成器10的栅格器13、显示器14、声音源15、扬声器16和具有词典19的字体数据库(DB)17。

输入到音频字体输出设备的数据来自于电子邮件51而不是图5中的文件21，并且电子邮件应用程序52或OS(操作系统)(下面，将它们统称为“邮件程序”52)接收到电子邮件51。即，当使用个人计算机时，邮件程序52是电子邮件应用程序，而当使用蜂窝电话时，邮件程序52是OS中包含的程序，用于响铃指示接收到新电子邮件或者点亮LED(发光二极管)。

图13是说明当本实施例的音频字体输出设备接收电子邮件时输出对应于电子邮件中包含的词的音频数据作为响铃声的操作的流程图。

在图13中，作为例子，假设蜂窝电话接收到电子邮件51。

如图13所示，在步骤S41中，当蜂窝电话加电后，邮件程序52重复地确定是否接收到电子邮件51。

在步骤S42中，如果接收到电子邮件51，则邮件程序52将电子邮件51中的文本发送到声音生成器10。

例如，电子邮件51中的文本显示“Let’s go to the beach tomorrow to drinkbeer！”，并且该句子被送到声音发生器10。

声音发生器10从词典19中提取与电子邮件51中的文本包含的词对应的音频数据。

这里，可以如图9或图4所示那样将优先级值与音频数据相关联地存储在词典19中，词典19不包含优先级值。当提取音频数据时，存储音频数据，并且在电子邮件中设置标记，其中标记指示声音生成器19已经提取了该音频数据。如果声音源数据存储在词典19中，则可以直接提取声音源数据。

在步骤S43中，邮件程序52查阅标记来确定与电子邮件51中包含的词对应的音频数据是否存在。

如果确定与电子邮件51中包含的词对应的音频数据存在，则流程前进到步骤S44。

如果确定与电子邮件51中包含的词对应的音频数据不存在，则流程前进到步骤S45。

在步骤S44中，声音生成器10基于所存储的音频数据生成声音源数据，并且将声音源数据发送给声音源IC15。声音源IC15从扬声器16产生声音。

例如，不是输出预先准备的通常的响铃声，而是为词“beach”产生海风的音效，为词“drink”产生喝的音效，并且为词“beer”产生喝啤酒的音效。即，输出对应于电子邮件中包含的词的声音。

在步骤S45中，由于对应于电子邮件51中包含的词的音频数据不存在，因此邮件程序52提取预先准备的声音源数据并且将声音源数据发送到声音源IC15。声音源IC15从扬声器16产生声音。

应当注意的是，当在步骤S42中提取对应于词的音频数据时，可以直接生成声音源数据，然后声音源IC15从扬声器16产生声音。在这种情况下，仅当没有提取音频数据时声音生成器10才通知邮件程序52。

根据本实施例，当接收到电子邮件时，根据电子邮件中包含的词生成并输出声音源数据；因此用户可以从响铃声预测或理解电子邮件。即使当不存在对应于电子邮件中包含的词的音频数据时，也可以输出预先准备的声音源数据作为响铃声通知用户。

第六实施例

在前面的实施例中，装在蜂窝电话或个人计算机中的声音生成器10生成声音源数据并输出声音源数据。

在本实施例中，声音生成器10安装在服务器中，该声音生成器10生成声音源数据并将声音源数据发送给客户机，客户机接收并再现声音源数据。

图14是说明根据本发明第六实施例的电子邮件分发系统的总体配置的示意图。

如图14所示，电子邮件分发系统包括信号发送终端61(如蜂窝电话或PHS)、邮件服务器62、个人计算机64和信号接收终端65(下面，在必要时个人计算机64也称为“信号接收终端65”)。

当从信号发送终端61发送的信号(例如，电子邮件)被覆盖指定区域的基站接收时，电子邮件通过连接到基站的网络(例如，因特网)送到邮件服务器62。邮件服务器62分析电子邮件的预期收信人的地址，并且通过网络将电子邮件发送到信号接收终端65附近的基站，并且该基站进一步将电子邮件发送给信号接收终端65。

当向个人计算机64发送电子邮件时，邮件服务器62将电子邮件发送给与个人计算机64联系的因特网提供商的邮件服务器(未示出)，并且因特网提供商的邮件服务器进一步将电子邮件发送给个人计算机64。

在本实施例中，信号发送终端61、个人计算机64和信号接收终端65不生成声音源数据，但邮件服务器62根据电子邮件中的文本生成声音源数据，并且将电子邮件和声音源数据发送给信号接收终端65。为此，邮件服务器62被配置成具有字体数据库(DB)17。

有时，发信人不希望发送声音源数据。为了满足这个要求，在本实施例中，当发信人要将电子邮件发送给信号接收终端65时，邮件服务器62被配置成使得发信人能够请求邮件服务器62发送或不发送声音源数据给信号接收终端65。例如，当发信人希望请求邮件服务器62将声音源数据发送给信号接收终端65时，发信人可以简单地按下信号发送终端61中的邮件应用程序提供的按钮。

当发信人发出指令时，例如发信人按下按钮，并且信号发送终端61中的邮件应用程序将电子邮件与附加声音的请求一起发送给邮件服务器62。例如，附加声音的请求可以在指定的标签之间描述，如HTML(注册商标)邮件，或者可以通过将特殊符号添加到电子邮件的头的“主题”部分的结尾处来进行，从而将声音源数据作为附件发送。

当收信人不希望接收声音源数据时，可以为此预先设置邮件服务器62。

图15是例示邮件服务器62中根据本发明第六实施例的音频字体输出设备的方框图。

下面，为与前面实施例中所述的相同的元件分配相同的附图标记，并且省略重复的描述。

如图15所示，本实施例的音频字体输出设备包括具有声音生成器10的栅格器13和具有词典19的字体数据库(DB)17。

服务程序66提取电子邮件51的文本，并且将生成的声音源数据附加到原始电子邮件51上。

例如，服务程序66可以是著名的软件“Sendmail”(注册商标)。在服务程序66中，以与第二实施例、第四实施例和第五实施例中所述相同的方式生成声音源数据。

图16是说明邮件服务器62中的音频字体输出设备生成声音数据的操作的流程图。

如图16所示，在步骤S51中，邮件程序66接收电子邮件51。

例如，电子邮件51中的文本显示“Let’s go to the beach tomorrow to drinkbeer！”。

在步骤S52中，邮件服务器66确定是否与电子邮件51一起发送附加声音请求。

如果确定与电子邮件51一起发送附加声音请求，则流程前进到步骤S53。

如果确定不与电子邮件51一起发送附加声音请求，则流程前进到步骤S55。

在步骤S53中，由于与电子邮件51一起发送附加声音请求，因此服务程序66提取电子邮件51的文本，并且将文本发送给声音生成器10。

声音生成器10从字体数据库DB17提取与电子邮件51中的文本中包含的词对应的音频数据，并且基于音频数据生成声音源数据。如上所述，声音源数据产生海风、喝、和喝啤酒的音效。

由于邮件服务器62的字体数据库17可以是大容量的，因此可以直接生成对应于词的声音源数据。

在步骤S54中，服务程序66将声音源数据附加到原始电子邮件51上，并且从电子邮件51中删除声音附加请求。由于删除了声音附加请求，因此可以防止向信号接收终端65发送不必要的信息。

服务程序66将电子邮件51与所附的声音源数据一起发送给邮件软件。

在步骤S55中，服务程序66将电子邮件51发送给邮件软件，并且电子邮件51被发送给信号接收终端65。

这样，电子邮件51和声音源数据都被送到信号接收终端65。

图17是说明信号接收终端65接收电子邮件51和声音源数据这两者、并且输出声音作为响铃声的操作的流程图。

例如，信号接收终端65是蜂窝电话。

如图17所示，在步骤S61中，当蜂窝电话加电时，信号接收终端65的邮件程序重复地检查是否接收到电子邮件51。

在步骤S62中，如果接收到电子邮件51，则信号接收终端65的邮件程序确认是否有声音源数据附加到电子邮件51上。例如，可以通过确定是否附有指定扩展名的文件来进行该确认。

如果确定有声音源数据附加到电子邮件51上，则流程前进到步骤S63。

如果确定声音源数据未附加到电子邮件51上，则流程前进到步骤S64。

在步骤S63中，由于声音源数据附加到电子邮件51上，因此信号接收终端65的邮件程序由所附的声音源数据输出声音。

例如，从信号接收终端65的扬声器而不是事先准备的通常的响铃声，产生海风、喝和喝啤酒的音效。即，输出对应于电子邮件内容的响铃声，这使得用户能容易地掌握电子邮件的内容。

在步骤S64中，由于声音源数据未附加到电子邮件51上，因此信号接收终端65的邮件程序提取预先准备的声音源数据，并且将声音源数据发送到声音源IC15。声音源IC15从扬声器16产生声音。

在上面，输出附加的声音源数据作为响铃声。然而，即使当附有声音源数据时，也可以输出预先准备的声音源数据作为响铃声，或者可以输出在打开电子邮件51时原本附带的声音源数据。

根据本实施例，信号发送终端61和信号接收终端65都不需要具有音频字体输出设备，并且可以将对应于电子邮件51内容的声音输出到信号接收终端65。收信人仅仅通过听声音就可以掌握电子邮件51的内容。

硬件配置

例如，硬件配置与计算机或蜂窝电话的配置相同。它包括：CPU(中央处理单元)71，用于控制系统部件；用于存储BIOS的ROM(只读存储器)72；RAM(随机存取存储器)73，用作用来分配各种临时数据的工作区；闪存或硬盘(HDD)或其他外部存储单元74；驱动器76，用于从/向诸如CD(压缩盘)-RW和存储卡之类的存储介质78读取/写入；通信设备77，用于连接到蜂窝电话网络或LAN(局域网)；和输入/输出设备79。上述部件通过总线75连接。

输入/输出设备79对应于使用键盘、鼠标、显示器14、声音源IC15或扬声器16接收输入数据的输入设备。

用作符号显示单元或声音源生成单元的程序存储在外部存储单元74中，CPU72执行这些程序来实现符号显示单元(栅格器13)、前端处理器12和声音源生成单元(声音生成器10)。字体数据库(DB)17和词典19存储在外部存储单元74中。应用程序22、邮件程序52和服务程序66也存储在外部存储单元74中。

尽管为了说明的目的参照特定实施例描述了本发明，但应当理解本发明不限于这些实施例，相反，本领域技术人员在不背离本发明基本概念和范围的前提下可以对其进行许多修改。

本专利申请基于于2005年4月18日提交的日本优先专利申请No.2005-120376和2006年3月8日提交的No.2006-0632238，其全部内容并入这里作为参考。

Claims

1.一种音频字体输出设备，包括：

字体数据库，用于存储对应于符号代码的字符或符号的图像数据、以及对应于符号代码的第一音频数据，其中，第一音频数据被作为控制数据存储；

符号显示单元，用于显示对应于符号代码的字符或者基于图像数据的符号；和

音频输出单元，用于输出基于对应于符号代码的第一音频数据的音频信号。

2.一种如权利要求1所述的音频字体输出设备，还包括：

声音源数据生成单元，用于当输入符号代码时，提取对应于符号代码的第一音频数据并生成用来输出音频信号的第一声音源数据；

其中音频输出单元输出基于声音源数据生成单元所生成的第一声音源数据的音频信号。

3.一种音频字体输出设备，包括：

字体数据库，用于存储对应于符号代码的字符或符号的图像数据、以及对应于词的代码的第二音频数据，所述词由多个字符和符号代码构成，其中，第二音频数据被作为控制数据存储；

显示单元，用于显示对应于符号代码的字符或者基于图像数据的符号；和

音频输出单元，用于输出基于对应于词代码的第二音频数据的音频信号。

4.如权利要求3所述的音频字体输出设备，还包括：

声音源数据生成单元，用于当输入词代码时，提取对应于词代码的第二音频数据并生成用来输出音频信号的第二声音源数据；

其中音频输出单元输出基于声音源数据生成单元所生成的第二声音源数据的音频信号。

5.如权利要求1所述的音频字体输出设备，其中从字符输入单元输入符号代码。

6.如权利要求3所述的音频字体输出设备，其中从字符输入单元输入词代码。

7.如权利要求1所述的音频字体输出设备，其中从应用程序的数据文件输入符号代码。

8.如权利要求3所述的音频字体输出设备，其中从应用程序的数据文件输入词代码。

9.如权利要求3所述的音频字体输出设备，还包括：

语言输入前端处理器，用于通过使用词典将一系列输入符号代码变换成包括字符的句子。

10.如权利要求8所述的音频字体输出设备，其中

在字体数据库中存储对应于词代码的词的优先顺序，以及

音频输出单元按照词的优先顺序的降序输出音频信号。

11.如权利要求3所述的音频字体输出设备，还包括：

信号接收单元，用于接收包括词代码的电子邮件；和

确定单元，用于确定对应于电子邮件中包括的词代码的第二音频数据是否存储在字体数据库中；

其中

当对应于电子邮件中包括的词代码的第二音频数据存储在字体数据库中时，音频输出单元输出基于第二声音源数据的音频信号，作为电子邮件的响铃，以及

当对应于电子邮件中包括的词代码的第二音频数据未存储在字体数据库中时，音频输出单元输出电子邮件的响铃。

12.一种邮件服务器，其将通过网络从信号发送终端接收到的电子邮件通过网络发送给信号接收终端，所述邮件服务器包括：

数据库，用于存储对应于词代码的音频数据，所述词由多个字符和符号代码构成，其中，音频数据被作为控制数据存储；

音频数据附加单元，用于生成基于音频数据的声音源数据或提取对应于词的声音源数据，并且将声音源数据附加到电子邮件上；和

发送单元，用于将具有附加的声音源数据的电子邮件发送到信号接收终端。

13.如权利要求12所述的邮件服务器，其中信号发送终端将附加声音源数据的请求与电子邮件一起发送。

14.如权利要求12所述的邮件服务器，其中当接收到的电子邮件附有声音源数据时，信号接收终端基于声音源数据响铃，作为电子邮件的响铃。

15.一种在字体数据库中存储数据的方法，包括：

存储对应于符号代码的字符或者符号的图像数据；和

存储对应于符号代码的第一音频数据，其中，第一音频数据被作为控制数据存储。

16.如权利要求15所述的在字体数据库中存储数据的方法，还包括：

存储对应于词的代码的第二音频数据，所述词由多个字符和符号代码构成。

17.一种语言输入前端处理器，

其中

语言输入前端处理器通过使用词典将一系列输入符号代码变换成包括字符的句子；以及

词典包括对应于词的代码的音频数据，所述词由多个字符和符号代码构成，其中，音频数据被作为控制数据存储。