CN101473645A

CN101473645A - 使用预设音频场景的基于对象的三维音频服务系统

Info

Publication number: CN101473645A
Application number: CNA2007800230849A
Authority: CN
Inventors: 李用主; 李泰辰; 刘载铉; 姜京玉; 洪镇佑; 张仁瑄; 徐廷一; 张大永
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2005-12-08
Filing date: 2007-05-16
Publication date: 2009-07-01
Anticipated expiration: 2027-05-16
Also published as: US20140185810A1; CN101473645B; US8705747B2; US20090147961A1

Abstract

提供了一种使用预设音频场景的基于对象的三维(3－D)音频服务系统及其方法。所述系统和方法被建议用来通过消除要求用户控制声源的每个对象音频信号的不便、使得用户能够容易且方便地观看和收听基于对象的3－D音频服务。所述系统包括：音频输入部件，用于输入音频信号；预设音频场景生成部件，用于从通过所述音频输入部件输入的音频信号中提取对象音频信号，并且通过在3－D空间中排列所提取的对象音频信号和编辑每个对象的特征，来生成多于一个的3－D音频场景信息；以及编码部件，用于编码和多路复用所述音频信号和用于每个对象音频信号的所述3－D音频场景信息。

Description

使用预设音频场景的基于对象的三维音频服务系统

技术领域

本发明涉及一种使用预设音频场景(preset audio scene)的基于对象的三维(3-D)音频服务系统及其方法；且更具体地，涉及一种用于提供交互式(interactive)服务的使用预设音频场景的基于对象的3维音频服务系统及其方法，所述交互式服务使用用于向用户或观众提供逼真(realistic)广播的3-D音频相关技术来使得用户或观众能够直接形成音频场景。

背景技术

图1是图示了传统的音频服务系统的视图。

如图1所示，传统的音频服务系统包括：音频服务提供设备10和音频服务再现设备20。音频服务提供设备10包括：音频捕捉单元11，用于捕捉诸如声音之类的音频信号；编辑/混合单元12，用于编辑并混合所捕捉的音频信号、以便将所述音频信号传送至音频服务再现设备20；和存储/传送单元13，用于存储混合后的音频信号、并且将混合后的音频信号传送至音频服务再现设备20。

音频服务再现设备20包括：接收机21，用于接收从音频服务提供设备10传送的音频信号；控制器22，用于控制所接收到的音频信号；和再现器23，用于再现音频信号。

基于传统的音频服务系统通过诸如TV广播、无线电广播、和数字多媒体广播(DMB)之类的广播服务提供的音频信号通常是通过混合从各种声源捕捉的多个音频信号来创建的。例如，通过混合足球场中的喧闹声(noise)、人群的叫喊声(yelling)、和解说员的语音(voice)来创建通过足球比赛广播提供的音频信号。

尽管用户或观众可以控制整个音频信号的音量，但是不可能控制每个对象(例如，解说员的语音、人群的叫喊声、和足球场的喧闹声)的音量。这是因为在一般的广播服务中音频信号是在多个对象音频信号被混合成一个音频信号之后传送的。

然而，如果诸如音频服务提供设备10之类的发射机在声源的对象音频信号没有被混合成一个音频信号的情况下、独立地传送声源的对象音频信号，则诸如音频服务再现设备20之类的接收机可以独立地控制所述声源的对象音频信号的音量。基于对象的音频服务表示下列这种音频服务：其通过经由发射机独立地传送声源的对象音频信号来允许用户或观众在接收机处控制每个对象音频信号。

例如，如果足球比赛广播的音频信号是在基于对象的3-D音频服务的基础上提供的，则用户或观众可以控制每个对象(例如，足球场中的喧闹声、人群的叫喊声、和解说员的语音)，以便获得所期望的音频设置。也就是说，用户或观众可以控制使得足球场的喧闹声响亮、使得人群的叫喊声柔和、和使得解说员的语音响亮。或者，观众可以控制音频信号以仅再现足球场的喧闹声和解说员的语音，而没有人群的叫喊声。

因此，非常需要开发一种用于提供基于对象的3-D音频服务的方法，使得用户能够控制声源的每个对象音频信号，所述方法可应用于提供诸如数字广播、无线电广播、数字多媒体广播、因特网广播、数字电影、DVD、运动画面内容之类的音频的所有广播服务和多媒体服务。

尽管在于2004年5月7日公布的韩国专利公开第10-2004-0037437号中介绍了一种传统的基于对象的3-D音频系统及其控制方法，但是该传统的基于对象的3-D音频系统要求用户控制声源的每个对象音频信号以便根据用户的喜好来设置音频信号。因此，这对于用户或观众非常麻烦。

发明内容

技术问题

本发明的实施例致力于提供一种基于对象的三维(3-D)音频服务系统及其方法，所述系统和方法用于通过消除要求用户控制声源的每个对象音频信号的不便，使得用户能够容易且方便地观看和收听基于对象的3-D音频服务。

本发明的其他对象和优点可以通过下列描述来理解，并且可以参考本发明的实施例而变得明显。而且，对于本发明技术领域的技术人员来说显而易见的是，本发明的对象和优点可以通过如权利要求所述的部件及其组合来实现。

技术方案

根据本发明的一方面，提供了一种使用预设音频场景的基于对象的三维(3-D)音频服务提供设备，包括：音频输入部件，用于输入音频信号；预设音频场景生成部件，用于从通过所述音频输入部件输入的音频信号中提取对象音频信号，并且通过在3-D空间中排列所提取的对象音频信号和编辑每个对象的特征，来生成多于一个的3-D音频场景信息；以及编码部件，用于编码和多路复用所述音频信号和用于每个对象音频信号的所述3-D音频场景信息。

根据本发明的另一方面，提供了一种使用预设音频场景的基于对象的3-D音频服务再现设备，包括：解码部件，用于解多路复用和解码基于对象的3-D音频内容；音频场景形成部件，用于根据由包括观众的用户从解多路复用和解码后的基于对象的3-D音频内容中的多个3-D音频场景信息中选择的一个，来形成3-D音频场景信息；音频信号混合部件，用于根据所形成的3-D音频场景信息来控制解多路复用和解码后的基于对象的3-D音频内容的音频信号中的对象的特征；以及再现部件，用于以所控制的特征之一来再现所述音频信号。

根据本发明的另一方面，提供了一种用于使用预设音频场景来提供基于对象的3-D音频服务的方法，包括以下步骤：输入音频信号；通过从所输入的音频信号中提取对象音频信号、在3-D空间中排列所提取的对象音频信号、并且编辑每个对象的特征，来生成多于一个的3-D音频场景信息；以及编码和多路复用所述音频信号和用于每个对象音频信号的所述3-D音频场景信息。

根据本发明的另一方面，提供了一种用于使用预设音频场景来再现基于对象的3-D音频服务的方法，包括以下步骤：解多路复用和解码基于对象的3-D音频内容；根据由包括观众的用户从解多路复用和解码后的基于对象的3-D音频内容中的多个3-D音频场景信息中选择的一个，来形成3-D音频场景信息；根据所形成的3-D音频场景信息来控制解多路复用和解码后的基于对象的3-D音频内容的音频信号中的对象的特征；和以所控制的特征之一来再现所述音频信号。

有利效果

根据本发明的基于对象的三维(3-D)音频服务系统及其方法利用应用于所有广播服务和多媒体服务的基于对象的3-D音频服务，来向用户或观众提供预先生成的预设音频场景，所述所有广播服务和多媒体服务提供诸如数字广播、无线电广播、数字多媒体广播(DMB)、因特网广播、数字电影、数字视频光盘(DVD)、和运动画面内容之类的音频。因此，根据本发明的基于对象的3-D音频服务系统及其方法消除了用户控制声源的每个对象音频信号的不便，并且使得用户能够容易且方便地观看和收听基于对象的3-D音频服务。

本发明可应用于提供诸如数字广播、无线电广播、DMB、因特网广播、数字电影、DVD、和运动画面内容之类的音频的广播服务和多媒体服务，并且本发明不限于用于传送并存储用于提供音频的广播和多媒体服务的基于对象的音频内容的这种类型的介质。

附图说明

图1是图示了传统的音频服务系统的视图。

图2是图示了根据本发明实施例的使用预设音频场景的基于对象的三维(3-D)音频服务系统的方框图。

图3是图示了根据本发明实施例的用于使用预设音频场景来提供基于对象的3-D音频服务的方法的流程图。

图4是图示了根据本发明实施例的用于使用预设音频场景来再现基于对象的3-D音频服务的方法的流程图。

具体实施方式

参考附图，从在下文中阐述的实施例的下列描述中，本发明的优点、特征和方面将变得清楚。

如图2所示，基于对象的3-D音频服务系统包括：基于对象的3-D音频服务提供设备30、传送介质50、和基于对象的3-D音频服务再现设备40。3-D音频服务提供设备30通过各种输入装置接收音频信号，创建可以由用户或观众选择的、多于一个的基于对象的3-D音频场景信息，并且将所创建的基于对象的3-D音频场景信息传送到基于对象的3-D音频服务再现设备40。传送介质50是诸如数字广播网络或因特网网络之类的介质，用于通过网络连接基于对象的3-D音频服务提供设备30和基于对象的3-D音频服务再现设备40。基于对象的3-D音频服务再现设备40在从基于对象的3-D音频服务提供设备30传送的基于对象的3-D音频场景信息的基础上，生成多于一个的3-D音频场景。

在下文中，将详细描述根据本实施例的使用预设音频场景的基于对象的3-D音频服务系统的组成元件。

基于对象的3-D音频服务提供设备30包括：输入单元31、预设音频场景生成器32、编码器33、和发射机34。输入单元31通过各种输入装置接收音频信号。预设音频场景生成器32从通过输入单元31接收的音频信号中提取基于对象的音频信号(在下文中，称为对象音频信号)，在三维空间中排列所提取的对象音频信号，并且通过编辑每个对象的特征(例如，位置、大小、方向、和声场环境)来创建多于一个的3-D音频场景信息。编码器33对通过输入单元31输入的音频信号和由预设音频场景生成器32创建的基于对象的3-D音频场景信息进行编码和多路复用，用以向基于对象的3-D音频服务再现设备40传送所输入的音频信号和所生成的预设音频场景信息。例如，所输入的音频信号和所生成的预设音频场景信息被多路复用为数字广播网络中的运动图像专家组4(MPEG-4)文件格式。发射机34将多路复用后的基于对象的音频内容转换为传输格式，所述多路复用后的基于对象的音频内容包括来自编码单元33的所输入的音频信号和所生成的预设音频场景信息。例如，发射机34将多路复用后的基于对象的音频内容转换为用于数字广播网络的MPEG-2传输流(TS)。

转换后的基于对象的音频内容可被传送到基于对象的3-D音频再现设备40并且可被存储在存储介质中，所述转换后的基于对象的音频内容包括所输入的音频信号和所生成的基于对象的3-D音频场景信息。

发射机34可以通过诸如地面DMB信道50之类的数字广播网络将包括所输入的音频信号和基于对象的3-D音频场景信息的基于对象的音频内容传送到基于对象的3-D音频再现设备40。

如果输入到输入单元31的音频信号的声源是混合声源，则预设音频场景生成器32使用卷积盲源分离(Convolutive Blind Source Separation)技术来提取对象音频信号。特别地，预设音频场景生成器32通过控制每个对象音频信号的每个基于对象的音频场景信息的比率来形成多于一个的基于对象的3-D音频场景信息，所述比率是根据诸如编辑者(editor)的用户的控制来设置的。

基于对象的3-D音频服务再现设备40包括：解码器42、音频场景信息形成单元43、音频信号混合器44、和音频信号再现器45。解码器42对包括音频信号和基于对象的3-D音频场景信息的基于对象的音频内容进行解多路复用和解码，用以再现。音频场景信息形成单元43向诸如观众的用户提供由解码器42解多路复用和解码的基于对象的3-D音频内容的基于对象的3-D音频场景信息，以便选择，并且根据用户选择形成基于对象的3-D音频场景信息。音频信号混合器44通过根据由音频场景信息形成单元43形成的基于对象的3-D音频场景信息来控制每个对象的特征(例如，每个对象的位置、方向、大小、和声场)，以混合来自解码器42的解多路复用和解码后的基于对象的3-D音频内容的音频信号的对象音频信号。音频信号再现器45对由音频信号混合器44混合为一个基于对象的3-D音频场景的音频信号进行再现。

可以通过广播服务或多媒体服务(例如，数字广播、无线电广播、数字多媒体广播(DMB)、因特网广播、数字电影、数字视频光盘(DVD)、和运动画面内容，来提供包括音频信号和基于对象的3-D音频场景信息的基于对象的音频内容。尽管在本实施例中可以通过接收机41来接收基于对象的音频内容，但是本发明不限于此。也就是说，可以通过能够提供供应音频的广播服务或多媒体服务的传送介质或存储介质来提供基于对象的音频内容。

音频场景信息形成单元43使得用户或观众能够选择对象的特征，例如，每个对象的位置、方向、音量、和声场环境，并且根据由用户设置的、包括每个对象的位置、方向、音量、和声场环境的所述特征来形成新的基于对象的3-D音频场景信息。

用户或观众可以通过经由音频场景信息形成单元43控制初始反射声音的音量和延迟时间而改变3-D空间的混响时间(reverberation time)，来控制3-D音频空间的特征。

也就是说，根据本实施例的使用预设音频场景的基于对象的3-D音频服务系统预先生成被期待频繁使用的基于对象的3-D音频场景，并且将所生成的基于对象的3-D音频场景作为预设音频场景提供给用户或观众。即，根据本实施例的基于对象的3-D音频服务系统使得用户或观众能够选择所述预设音频场景之一，以便使用户以所期望的音频喜好来方便地观看和收听广播节目

例如，足球场的喧闹声、人群的叫喊声、和解说员的语音被定义为用于足球比赛广播的音频对象，并且独立地传送所定义的音频对象。利用所述音频对象，将具有关于足球场的喧闹声、人群的叫喊声、和解说员的语音的音量被设置为1:1:1的信息的第一音频场景，具有关于足球场的喧闹声、人群的叫喊声、和解说员的语音的音量被设置为1:0.5:1的信息的第二音频场景，以及具有关于足球场的喧闹声、人群的叫喊声和解说员的语音的音量被设置为1:0:1的信息的音频场景作为预设音频场景进行传送。然后，用户或观众以所期望的音频喜好来选择所述预设音频场景之一，以便观看和收听足球比赛广播。

如果用户从所提供的音频场景中不能发现所期望的音频场景，则用户可以直接控制每个音频对象。然而，优选地向用户提供大量的预设音频场景，以便使得用户能够从所提供的音频场景中发现所期望的音频场景。

参考图3，在步骤S301中，基于对象的3-D音频服务提供设备30的输入单元31通过各种输入装置接收基于对象的音频信号。

在步骤S302中，预设音频场景生成器32从通过输入单元31输入的音频信号中提取基于对象的音频信号，即，对象音频信号。然后，预设音频场景生成器32通过在步骤S303中在3-D空间中排列所提取的对象音频信号、并且编辑每个对象音频信号的特征(例如，音频对象的位置、方向、音量、和声场环境)，来在步骤S304中生成多于一个的基于对象的3-D音频场景信息。在步骤S305中，编码器33对通过输入单元31输入的音频信号和由预设音频场景生成器32生成的基于对象的3-D音频场景信息进行编码和多路复用。例如，编码器33将音频信号和基于对象的3-D音频场景信息编码和多路复用为用于数字广播网络的MPEG-4文件格式。

然后，在步骤S306中，发射机34转换包括音频信号和基于对象的3-D音频场景信息的、多路复用后的基于对象的音频内容以适合于传输格式，并且传送转换后的基于对象的音频内容。例如，多路复用后的基于对象的音频内容被转换为数字广播网络中的MPEG-2 TS。

例如，发射机34通过诸如地面DMB信道之类的数字广播网络，将包括音频信号和基于对象的3-D音频场景信息的、转换后的基于对象的音频内容传送到基于对象的3-D音频再现设备40。包括音频信号和基于对象的3-D音频场景信息的、转换后的基于对象的音频内容可存储在存储介质中。

参考图4，在步骤S401中，基于对象的3-D音频服务再现设备40的接收机41通过诸如陆地DMB信道50之类的数字广播网络或因特网网络，来接收包括音频信号和基于对象的3-D音频信息的基于对象的音频内容。

接收机41可以通过传送介质来接收基于对象的音频内容，所述传送介质可以提供供应音频的广播服务或多媒体服务。或者，基于对象的音频内容可以通过存储介质输入。

在步骤S402中，解码器42对包括音频信号和基于对象的3-D音频场景信息的、所接收或所输入的基于对象的音频内容进行解多路复用和解码。在步骤S403中，音频场景信息形成单元43向用户或观众提供解多路复用和解码后的基于对象的3-D音频内容的基于对象的3-D音频场景信息，以便选择，并且根据用户选择来形成基于对象的3-D音频场景信息。

然后，在步骤S404中，音频信号混合器44通过根据由音频场景信息形成单元43形成的基于对象的3-D音频场景信息而控制解多路复用和解码后的基于对象的3-D音频内容的音频信号中的对象的特征(例如，每个音频对象的位置、方向、音量、和声场环境)，来混合对象音频信号。最后，在步骤S405，音频信号再现器45对由音频信号混合器44基于所述基于对象的3-D音频场景之一而混合的音频信号进行再现。

根据本发明的上述方法可被实施为程序并且被存储在计算机可读记录介质上。计算机可读记录介质是可以存储其后可由计算机系统读取的数据的任何数据存储装置。计算机可读记录介质包括：只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、软盘、硬盘和光磁盘。

尽管已经参考某些优选实施例描述了本发明，但是对于本领域技术人员将显而易见的是，可以进行各种改变和修改，而不脱离由所附权利要求限定的本发明的精神和范围。

Claims

1.一种使用预设音频场景的基于对象的三维(3-D)音频服务提供设备，包括：

音频输入部件，用于输入音频信号；

预设音频场景生成部件，用于从通过所述音频输入部件输入的音频信号中提取对象音频信号，并且通过在3-D空间中排列所提取的对象音频信号和编辑每个对象的特征，来生成多于一个的3-D音频场景信息；以及

编码部件，用于编码和多路复用所述音频信号和用于每个对象音频信号的所述3-D音频场景信息。

2.如权利要求1所述的基于对象的3-D音频服务提供设备，还包括处理部件，用于处理编码和多路复用后的基于对象的3-D音频内容。

3.如权利要求2所述的基于对象的3-D音频服务提供设备，其中所述处理部件通过数字广播网络将编码和多路复用后的基于对象的3-D音频内容传送到音频再现终端。

4.如权利要求3所述的基于对象的3-D音频服务提供设备，其中所述音频再现终端使用所述3-D音频场景信息来形成3-D场景，并且使用所形成的3-D场景来再现所述音频信号。

5.如权利要求1所述的基于对象的3-D音频服务提供设备，其中所述特征包括每个对象的位置、音量、方向、和声场环境之中的至少一个。

6.如权利要求1所述的基于对象的3-D音频服务提供设备，其中当所述输入音频信号的声源是混合声源时，所述音频场景生成部件使用卷积盲源分离技术来提取对象音频信号。

7.如权利要求1所述的基于对象的3-D音频服务提供设备，其中所述音频场景生成部件通过控制每个对象音频信号的每个基于对象的音频场景信息的比率，来生成3-D音频场景信息之中的至少一个，所述比率根据包括观众的用户的控制来设置。

8.一种使用预设音频场景的基于对象的三维(3-D)音频服务再现设备，包括：

解码部件，用于解多路复用和解码基于对象的3-D音频内容；

音频场景形成部件，用于根据由包括观众的用户从解多路复用和解码后的基于对象的3-D音频内容中的多个3-D音频场景信息中选择的一个，来形成3-D音频场景信息；

音频信号混合部件，用于根据所形成的3-D音频场景信息来控制解多路复用和解码后的基于对象的3-D音频内容的音频信号中的对象的特征；以及

再现部件，用于以所控制的特征之一来再现所述音频信号。

9.如权利要求8所述的基于对象的3-D音频服务再现设备，其中所述音频场景形成部件具有根据每个对象的特征来形成3-D音频场景信息的功能，所述每个对象的特征由包括观众的用户设置。

10.如权利要求8所述的基于对象的3-D音频服务再现设备，其中所述特征包括每个对象的位置、音量、方向、和声场环境之中的至少一个。

11.如权利要求10所述的基于对象的3-D音频服务再现设备，其中所述音频场景形成部件通过控制初始反射的声音的音量和延迟时间而改变3-D音频空间的混响时间，来控制3-D音频空间的特征。

12.一种用于使用预设音频场景来提供基于对象的三维(3-D)音频服务的方法，包括以下步骤：

输入音频信号；

通过从所输入的音频信号中提取对象音频信号、在3-D空间中排列所提取的对象音频信号、并且编辑每个对象的特征，来生成多于一个的3-D音频场景信息；以及

编码和多路复用所述音频信号和用于每个对象音频信号的所述3-D音频场景信息。

13.如权利要求12所述的方法，还包括步骤：

处理编码和多路复用后的基于对象的3-D音频内容。

14.如权利要求13所述的方法，其中，在所述处理基于对象的3-D音频内容的步骤中，通过数字广播网络来传送编码和多路复用后的基于对象的3-D音频内容。

15.如权利要求12所述的方法，其中所述特征包括每个对象的位置、音量、方向、和声场环境之中的至少一个。

16.如权利要求12所述的方法，其中，在所述生成3-D音频场景信息的步骤中，通过控制每个对象音频信号的每个基于对象的音频场景信息的比率，来生成3-D音频场景信息之中的至少一个，所述比率根据包括观众的用户的控制来设置。

17.一种用于使用预设音频场景来再现基于对象的三维(3-D)音频服务的方法，包括以下步骤：

解多路复用和解码基于对象的3-D音频内容；

根据由包括观众的用户从解多路复用和解码后的基于对象的3-D音频内容中的多个3-D音频场景信息中选择的一个，来形成3-D音频场景信息；

根据所形成的3-D音频场景信息来控制解多路复用和解码后的基于对象的3-D音频内容的音频信号中的对象的特征；和

以所控制的特征之一来再现所述音频信号。

18.如权利要求17所述的方法，其中在所述形成3-D音频场景信息的步骤中，根据每个对象的特征来形成3-D音频场景信息，所述每个对象的特征由包括观众的用户设置。

19.如权利要求17所述的方法，其中所述特征包括每个对象的位置、音量、方向、和声场环境之中的至少一个。

20.如权利要求19所述的方法，其中通过控制初始反射的声音的音量和延迟时间而改变3-D音频空间的混响时间，来控制3-D音频空间的特征。