CN101295504B

CN101295504B - 用于仅文本的应用的娱乐音频

Info

Publication number: CN101295504B
Application number: CN2007101077195A
Authority: CN
Inventors: O·基尔克比
Original assignee: Nokia Oyj
Current assignee: Nokia Technologies Oy
Priority date: 2007-04-28
Filing date: 2007-04-28
Publication date: 2013-03-27
Anticipated expiration: 2027-04-28
Also published as: KR20090132631A; CN101295504A; US8694320B2; WO2008132579A2; JP2010529519A; EP2143100A2; WO2008132579A3; EP2143100A4; US20100145705A1; JP2013101637A

Abstract

一种针对仅文本的应用生成音频的方法，包括步骤：向输入的文本添加标签，所述标签可用于向生成的音频添加音效，处理所述标签以形成用于生成所述音频的指令，基于所述指令生成带有所述音效的音频，同时呈现文本。本发明向文本应用中添加娱乐值并提供相比较于常规多媒体很紧凑的格式，以及使用娱乐声音以使得例如SMS和电子邮件的仅文本的应用更为有趣和娱乐性。

Description

用于仅文本的应用的娱乐音频

技术领域

本发明一般地涉及在例如SMS、电子邮件、书籍和报纸的仅文本的应用中使用和生成音频。

背景技术

尽管对移动设备的多媒体能力的不断关注，但大部分的文本内容不太可能被升级到包含图形和声音。例如书籍和报纸的“存档”格式以及例如SMS和电子邮件的消息格式将在很长的时间内以它们的当前形式而保持受青睐。当前开始发展这样的技术，即该技术可以将多媒体的吸引力添加到就其本身而言不是太令人兴奋的文本格式。

针对该问题的最显而易见的方法是将添加的多媒体内容与原始的文本内容一起存储和/或传输。然而，这将数据量增加了至少一个数量级，因为文本格式比图形和声音更为紧凑。美国专利NO.7103548公开了一种用于将文本消息转化为音频形式的系统，其中文本消息具有嵌入的情感指示符和特征类型指示，后者用于确定多种音频形式呈现特征类型中的哪一种将被用于以文本消息的音频形式来表达由所述情感指示符来指示的情感。另外当前MSN Messenger允许发送方在文本中写标签，接着该文本在接收端处被翻译成图片。然而，预先准备内容消除了与环境相关的“意外效果”的可能性。另外，如果某个周围的音景(比方说雨声和风声)被添加到语音并通过常规移动设备中的单个扬声器进行回放时，其听起来就像干扰的背景噪声并且减小了可理解性。

有适于存储和呈现多媒体内容的若干种格式。最为熟知的是SMIL(同步多媒体集成语言)。对于旨在在万维网上公开的素材，ACSS(音频层叠样式表)可用于定义声音的某些属性。结合SSML(语音合成标记语言，由W3推荐)，可以执行声音和语音的一些基本实时渲染(rendering)。

因此，还不存在适于在基于文本的应用中执行实时声音合成和音效渲染(尤其是立体声或3D声音)的标记语言或相应的软件架构。

发明内容

本发明的目的是提供一种使用娱乐声音(尤其是立体声或3D音频)以使得例如SMS和电子邮件的文本应用更为有趣和娱乐的方法。

为了实现上述目的，本发明提供一种针对仅文本的应用生成音频的方法，该方法包括：将标签添加到输入文本，所述标签可用于向生成的音频添加音效；处理标签以形成用于生成音频的指令；基于指令生成带有所述音效的音频，同时呈现文本。

本发明还提供一种针对仅文本的应用生成音频的设备，该设备包括：标签添加器，用于将标签添加到输入文本，所述标签可用于向生成的音频添加音效；标签处理器，用于处理标签以形成用于生成音频的指令；音频生成器，用于基于指令生成带有所述音效的音频，同时呈现文本。

本发明还提供一种能够针对仅文本的应用生成音频的通信终端，该通信终端包括：标签处理器，用于处理添加在输入文本中并且可用于向生成的音频添加音效的标签，从而形成用于生成音频的指令；音频生成器，用于基于指令生成带有音效的音频，同时呈现文本。

通信终端可另外包括标签添加器，用于将标签添加到输入文本。

本发明的使用可以产生3D、空间感的增强和效果的形式的音频。例如，立体声或3D音频的使用允许声音被不间断地添加到语音，使得如果音景被处理成立体声或3D效果并且通过立体声耳机或者两个间隔很近的扬声器回放，则其可被以不干扰语音的方式来空间化。例如，如果收听者在两侧听到雨声和风声，而语音在中央，则可理解性不会受到影响。

另外，本发明旨在通过向生成的音频效果添加随机性来增加环境相关的“意外效果或值”，使得例如当在飞行中生成音频时，渲染算法可考虑关于时间(早晨/白天/夜晚，工作日/周末，夏季/冬季)或用户位置(房间/汽车/办公室，国家)的信息。

另外，本发明完全可以允许对文本应用定制和添加娱乐值，并且向纯文本添加多媒体“类”。本发明还提供相比较于常规多媒体很紧凑的格式。因为本发明不是特定于平台的，所以本发明的设备决定如何进行渲染。

附图说明

根据下面结合附图阅读的示例性的实施方式的详细描述，本发明的上述和其他目的、特征和优势将变得明显。

图1是根据本发明的针对仅文本的应用生成音频的方法的流程图；以及

图2是根据本发明的针对仅文本的应用生成音频的设备的框图。

具体实施方式

参考附图，现在详细描述本发明。

图1表示根据本发明的针对仅文本的应用生成音频的方法的流程图。

在步骤100中，输入例如SMS、电子邮件、音频书籍等的文本应用。在步骤110中，从输入文本生成标签。优选地，针对音频处理生成两组标签(稍后描述)。在特定的情况下，这些标签可手工插入，例如由用户输入，或由终端生成，所述终端包括移动电话、PDA(个人数字助理)、膝上型计算机和能够向文本中添加标签的任何其他设备。为了实施该步骤，可以使用多种标记语言，这些标记语言包括但不限于VoiceXML(用于网页的话音UI和音频渲染)、JSML(JSpeech标记语言(Sun公司的java))、STML(语音文本标记语言)、Sable(试图结合JSML和STML)、SSML(由W3推荐的语音合成标记语言)、SMIL(用于多媒体呈现的同步多媒体集成语言)。在该步骤中也可包括ACSS(音频层叠样式表)。其可被用于定义一些声音的属性，规定语音合成和音频，以及将话音和音频进行重叠。此外，ACSS具有一些空间音频特征(例如方位、高度)。根据本发明，新的标记语言(例如包括应用于语音、音乐和音频效果的标签的音频XML格式)可以被建立用以将例如立体声或3D音效添加到音频。例如，输入消息是“对不起，我没有收听你的电话。那时我正在打乒乓球，我赢了”。示例性的伪标签是：<持续播放：背景音乐>对不起，我没有收听你的<音频替换：电话>。那时我正在打乒乓球<音频图标：乒乓球>我赢了！<音频图标：烟火><结束播放：背景音乐>。

在步骤120中，在步骤110中添加的标签被转化成可被用于合成声音的指令以及生成控制音频处理的消息，二者中的任何一个可以用作音频处理的输入。对于声音合成，可以使用MIDI消息。对于语音合成，则可以使用SSML的扩展版本(因而参考图1中的SSML+)。步骤120可以包括一种特征：随机化(randomization)。对于收听者来说，准确重复声音很快将使人变得厌烦，甚至令人讨厌。在游戏的音频设计中，例如，通常会记录多次重复相同线路的人物，从而用户不需要多次精确地收听相同的样本。可以许多种不同的方式插入随机性。一些例子如下：

.通用

.改变低级的渲染参数(话音、乐器)

.改变“声音图标”(等同于“笑声”的短促声音)的选择

.改变空间感效果和后处理

.语音

.清晰度

.改变事件的同步(语音节奏、暂停)

.修改文本但不修改意思

.音乐

.使用算法的音乐生成

.修改声音样本的音调和/或速度

.效果

.不同地渲染类似的声音

音频渲染可支持一些渲染参数(例如，嵌入在MIDI消息中的值)的低级控制，例如脚步声可以在同步、音调和持续时间上改变，使得声音听起来总像同一事件的不同发生。

随机化的优势是明显的，其添加了意外值并防止了用户由于准确重复而变得厌倦或厌烦，并阻止了渲染的音频太容易预测，以及获得了用于根据个人喜好调整设置的完全可能性。

在步骤130中，来自步骤120的输入被处理以输出音频。对于语音合成，可以使用TTS(文本到语音)引擎来将标签化的文本(例如，SSML+)转化为语音。TTS系统在过去的几年中得到明显的改进。制品(artifact)使得语音听起来“精细化”而不是“机器人式”的。语音的质量可以被做得很自然，但好质量的TTS意味着在MIPS和存储方面的强度更大的计算。对于音频合成，需要包括音乐和效果(例如脚步声、海滨和鸟鸣声)的两种类型的合成音频。适用于作为控制语言的MIDI可包括效果设置(混响、合声等)，优先级(SP-MIDI)、时间戳和影响声音的低级参数。在MIDI中使用的波表合成能够很好地执行音乐和效果。波表合成引擎(音频合成引擎)(参见图1)是服从GM1(通用MIDI)的并可使得其服从GM2，支持DLS(可下载声音)和所有主要的采样率。

接着流程前进到步骤140，进一步处理来自步骤130的输出音频。

现在参考图2，其示出根据本发明的针对仅文本的应用生成音频的设备，该设备相应地执行图1的流程图中的方法。在接收到仅文本的应用后，标签添加装置针对输入的文本生成多组标签。在特定的情况下，这些标签可手工插入，例如由用户输入，或由终端生成，所述终端包括移动电话、PDA(个人数字助理)、膝上型计算机和能够向文本中添加标签的任何其他设备。优选地，可由标签添加装置生成两组标签。一组标签有效地用于TTS引擎，为此目的，可以使用例如SSML的格式。另一组标签可有效地用于音频合成引擎，该引擎可生成音效和音乐。这样的格式可以被表示为音频XML(参见图2)。在例如SMS应用的情况下，标签添加装置可以运行在发送方或接收方的终端上。

接着标签处理装置可以将标签转化为可被用于合成声音的低级指令并生成控制音频处理的消息，以及添加“意外值”。对于声音合成，可以使用MIDI消息。对于TTS，则可以使用SSML的扩展版本(因而参考图2中的SSML+)。标签处理装置必须运行在收听者的终端上。标签处理装置可以包括一种特征：随机化。利用声音合成引擎，通过低级指令中的小的改变可以实施微妙的变化。例如脚步声可以在同步、音调和持续时间上改变，从而声音听起来总像同一事件的不同发生。

音频生成装置(参见图2的虚线部分)接收来自标签处理装置的输出。对于语音合成，使用TTS引擎执行处理是有利的。对于音频合成，则使用波表合成引擎来很好地执行音乐和效果是有利的。

音频处理装置利用来自TTS和音频合成引擎的输出执行例如3D算法和后处理。音频处理装置能够执行下面功能中的至少一项：定位音频、Mono到3D空间感增强、立体声扩音、混响、均衡(均衡器)和DRC(动态范围控制)。另外，音频处理装置可选地支持采样率转化、混频、参数的实时改变(3D位置、针对混响的T60)。

本发明的设备可以应用在能够针对仅文本的应用生成音频的通信终端中，该通信终端包括标签处理装置，用于处理添加在输入文本中并且可用于向生成的音频添加音效的标签，从而形成用于生成音频的指令；音频生成装置，用于基于指令生成带有音效的音频，同时呈现文本。可选地，通信终端可另外包括标签添加装置，用于将标签添加到输入文本。通信终端例如是移动终端。

尽管已经公开了本发明的特定实施方式，但本领域技术人员将理解可针对特定的实施方式做出改变而不会偏离本发明的精神和范围。本发明专注于音频，但也可以执行针对用于向文本的应用中添加图形的等同情况。因此，本发明不限于特定的实施方式，并且意图在于所附权利要求包含本发明的范围内的任何和所有这样的应用、修改和实施方式。

Claims

1.一种针对仅文本的应用生成音频的方法，包括：

向输入的文本添加标签，所述标签可用于向生成的音频添加音效；

处理所述标签以形成用于生成所述音频的指令；

基于所述指令对语音和音频进行合成；

对合成的语音和音频执行3D算法和后处理；以及

基于所述指令生成带有所述音效的音频，同时呈现文本。

2.根据权利要求1所述的方法，其中所述音效是立体声效果。

3.根据权利要求1所述的方法，其中所述音效是3D音效。

4.根据权利要求1所述的方法，其中通过显示或以文本到语音转换的方式来呈现文本。

5.根据权利要求1所述的方法，其中根据所述输入的文本生成所述标签，或手工插入所述标签。

6.根据权利要求1所述的方法，其中所述标签用于语音、音乐或音频效果。

7.根据权利要求1所述的方法，其中在生成带有音效的音频步骤中，使用所述指令来合成声音以及控制音频处理。

8.根据权利要求1所述的方法，其中所述处理标签的步骤还包括添加随机性的步骤。

9.根据权利要求8所述的方法，其中通过指令中的变化来实施所述添加随机性的步骤，所述变化改变用于生成音频的方式或参数。

10.根据权利要求9所述的方法，其中所述方式或参数包括下面内容中的至少一项：低级渲染参数、声音图标的选择、空间感效果和后处理、清晰度、事件的同步、修改文本但不修改意思、使用算法的音乐生成以及不同地渲染类似的声音。

11.根据权利要求1所述的方法，其中所述生成带有音效的音频的步骤还包括利用TTS引擎执行语音合成的步骤。

12.根据权利要求1所述的方法，其中所述生成带有音效的音频的步骤还包括利用音频合成引擎执行音频合成的步骤。

13.根据权利要求1所述的方法，其中所述生成带有音效的音频的步骤还包括执行音频处理的步骤。

14.一种针对仅文本的应用生成音频的设备，包括：

标签添加器，用于向输入的文本添加标签，所述标签可用于向生成的音频添加音效；

标签处理器，用于处理所述标签以形成用于生成所述音频的指令；

音频生成装置，用于基于所述指令对语音和音频进行合成，对合成的语音和音频执行3D算法和后处理，以及基于所述指令，生成带有所述音效的音频，同时呈现文本。

15.根据权利要求14所述的设备，其中所述音效是立体声效果。

16.根据权利要求14所述的设备，其中所述音效是3D音效。

17.根据权利要求14所述的设备，其中通过显示或以文本到语音转换的方式来呈现文本。

18.根据权利要求14所述的设备，其中根据所述输入的文本生成所述标签，或手工插入所述标签。

19.根据权利要求14所述的设备，其中所述标签用于语音、音乐或音频效果。

20.根据权利要求14所述的设备，其中所述音频生成器使用所述指令来合成声音以及控制音频处理。

21.根据权利要求14所述的设备，其中所述标签处理器添加随机性。

22.根据权利要求21所述的设备，其中所述标签处理器通过指令中的变化来实施所述随机性，所述变化改变用于生成音频的方式或参数。

23.根据权利要求22所述的设备，其中所述方式或参数包括下面内容中的至少一项：低级渲染参数、声音图标的选择、空间感效果和后处理、清晰度、事件的同步、修改文本但不修改意思、使用算法的音乐生成以及不同地渲染类似的声音。

24.根据权利要求14所述的设备，其中所述音频发生器还包括用于执行语音合成的TTS引擎和用于执行音频合成的音频合成引擎中的至少一个。

25.根据权利要求14所述的设备，其中所述生成音频发生器还包括用于执行音频处理的音频处理器。

26.一种能够针对仅文本的应用生成音频的通信终端，包括：

标签处理器，用于处理添加在输入的文本中并且可用于向生成的音频添加音效的标签，从而形成用于生成音频的指令；

音频生成装置，用于基于所述指令对语音和音频进行合成，对合成的语音和音频执行3D算法和后处理以及基于指令生成带有音效的音频，同时呈现文本。

27.根据权利要求26所述的通信终端，还包括用于将所述标签添加到所述输入的文本的标签添加器。