CN101473645A - 使用预设音频场景的基于对象的三维音频服务系统 - Google Patents
使用预设音频场景的基于对象的三维音频服务系统 Download PDFInfo
- Publication number
- CN101473645A CN101473645A CNA2007800230849A CN200780023084A CN101473645A CN 101473645 A CN101473645 A CN 101473645A CN A2007800230849 A CNA2007800230849 A CN A2007800230849A CN 200780023084 A CN200780023084 A CN 200780023084A CN 101473645 A CN101473645 A CN 101473645A
- Authority
- CN
- China
- Prior art keywords
- audio
- audio signal
- scene information
- service
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 112
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000002156 mixing Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H40/00—Arrangements specially adapted for receiving broadcast information
- H04H40/18—Arrangements characterised by circuits or components specially adapted for receiving
- H04H40/27—Arrangements characterised by circuits or components specially adapted for receiving specially adapted for broadcast systems covered by groups H04H20/53 - H04H20/95
- H04H40/36—Arrangements characterised by circuits or components specially adapted for receiving specially adapted for broadcast systems covered by groups H04H20/53 - H04H20/95 specially adapted for stereophonic broadcast receiving
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/02—Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information
- H04H60/04—Studio equipment; Interconnection of studios
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44012—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving rendering scenes according to scene graphs, e.g. MPEG-4 scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H20/00—Arrangements for broadcast or for distribution combined with broadcast
- H04H20/44—Arrangements characterised by circuits or components specially adapted for broadcast
- H04H20/46—Arrangements characterised by circuits or components specially adapted for broadcast specially adapted for broadcast systems covered by groups H04H20/53-H04H20/95
- H04H20/47—Arrangements characterised by circuits or components specially adapted for broadcast specially adapted for broadcast systems covered by groups H04H20/53-H04H20/95 specially adapted for stereophonic broadcast systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H20/00—Arrangements for broadcast or for distribution combined with broadcast
- H04H20/86—Arrangements characterised by the broadcast information itself
- H04H20/88—Stereophonic broadcast systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H20/00—Arrangements for broadcast or for distribution combined with broadcast
- H04H20/86—Arrangements characterised by the broadcast information itself
- H04H20/88—Stereophonic broadcast systems
- H04H20/89—Stereophonic broadcast systems using three or more audio channels, e.g. triphonic or quadraphonic
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Stereophonic System (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
提供了一种使用预设音频场景的基于对象的三维(3-D)音频服务系统及其方法。所述系统和方法被建议用来通过消除要求用户控制声源的每个对象音频信号的不便、使得用户能够容易且方便地观看和收听基于对象的3-D音频服务。所述系统包括:音频输入部件,用于输入音频信号;预设音频场景生成部件,用于从通过所述音频输入部件输入的音频信号中提取对象音频信号,并且通过在3-D空间中排列所提取的对象音频信号和编辑每个对象的特征,来生成多于一个的3-D音频场景信息;以及编码部件,用于编码和多路复用所述音频信号和用于每个对象音频信号的所述3-D音频场景信息。
Description
技术领域
本发明涉及一种使用预设音频场景(preset audio scene)的基于对象的三维(3-D)音频服务系统及其方法;且更具体地,涉及一种用于提供交互式(interactive)服务的使用预设音频场景的基于对象的3维音频服务系统及其方法,所述交互式服务使用用于向用户或观众提供逼真(realistic)广播的3-D音频相关技术来使得用户或观众能够直接形成音频场景。
背景技术
图1是图示了传统的音频服务系统的视图。
如图1所示,传统的音频服务系统包括:音频服务提供设备10和音频服务再现设备20。音频服务提供设备10包括:音频捕捉单元11,用于捕捉诸如声音之类的音频信号;编辑/混合单元12,用于编辑并混合所捕捉的音频信号、以便将所述音频信号传送至音频服务再现设备20;和存储/传送单元13,用于存储混合后的音频信号、并且将混合后的音频信号传送至音频服务再现设备20。
音频服务再现设备20包括:接收机21,用于接收从音频服务提供设备10传送的音频信号;控制器22,用于控制所接收到的音频信号;和再现器23,用于再现音频信号。
基于传统的音频服务系统通过诸如TV广播、无线电广播、和数字多媒体广播(DMB)之类的广播服务提供的音频信号通常是通过混合从各种声源捕捉的多个音频信号来创建的。例如,通过混合足球场中的喧闹声(noise)、人群的叫喊声(yelling)、和解说员的语音(voice)来创建通过足球比赛广播提供的音频信号。
尽管用户或观众可以控制整个音频信号的音量,但是不可能控制每个对象(例如,解说员的语音、人群的叫喊声、和足球场的喧闹声)的音量。这是因为在一般的广播服务中音频信号是在多个对象音频信号被混合成一个音频信号之后传送的。
然而,如果诸如音频服务提供设备10之类的发射机在声源的对象音频信号没有被混合成一个音频信号的情况下、独立地传送声源的对象音频信号,则诸如音频服务再现设备20之类的接收机可以独立地控制所述声源的对象音频信号的音量。基于对象的音频服务表示下列这种音频服务:其通过经由发射机独立地传送声源的对象音频信号来允许用户或观众在接收机处控制每个对象音频信号。
例如,如果足球比赛广播的音频信号是在基于对象的3-D音频服务的基础上提供的,则用户或观众可以控制每个对象(例如,足球场中的喧闹声、人群的叫喊声、和解说员的语音),以便获得所期望的音频设置。也就是说,用户或观众可以控制使得足球场的喧闹声响亮、使得人群的叫喊声柔和、和使得解说员的语音响亮。或者,观众可以控制音频信号以仅再现足球场的喧闹声和解说员的语音,而没有人群的叫喊声。
因此,非常需要开发一种用于提供基于对象的3-D音频服务的方法,使得用户能够控制声源的每个对象音频信号,所述方法可应用于提供诸如数字广播、无线电广播、数字多媒体广播、因特网广播、数字电影、DVD、运动画面内容之类的音频的所有广播服务和多媒体服务。
尽管在于2004年5月7日公布的韩国专利公开第10-2004-0037437号中介绍了一种传统的基于对象的3-D音频系统及其控制方法,但是该传统的基于对象的3-D音频系统要求用户控制声源的每个对象音频信号以便根据用户的喜好来设置音频信号。因此,这对于用户或观众非常麻烦。
发明内容
技术问题
本发明的实施例致力于提供一种基于对象的三维(3-D)音频服务系统及其方法,所述系统和方法用于通过消除要求用户控制声源的每个对象音频信号的不便,使得用户能够容易且方便地观看和收听基于对象的3-D音频服务。
本发明的其他对象和优点可以通过下列描述来理解,并且可以参考本发明的实施例而变得明显。而且,对于本发明技术领域的技术人员来说显而易见的是,本发明的对象和优点可以通过如权利要求所述的部件及其组合来实现。
技术方案
根据本发明的一方面,提供了一种使用预设音频场景的基于对象的三维(3-D)音频服务提供设备,包括:音频输入部件,用于输入音频信号;预设音频场景生成部件,用于从通过所述音频输入部件输入的音频信号中提取对象音频信号,并且通过在3-D空间中排列所提取的对象音频信号和编辑每个对象的特征,来生成多于一个的3-D音频场景信息;以及编码部件,用于编码和多路复用所述音频信号和用于每个对象音频信号的所述3-D音频场景信息。
根据本发明的另一方面,提供了一种使用预设音频场景的基于对象的3-D音频服务再现设备,包括:解码部件,用于解多路复用和解码基于对象的3-D音频内容;音频场景形成部件,用于根据由包括观众的用户从解多路复用和解码后的基于对象的3-D音频内容中的多个3-D音频场景信息中选择的一个,来形成3-D音频场景信息;音频信号混合部件,用于根据所形成的3-D音频场景信息来控制解多路复用和解码后的基于对象的3-D音频内容的音频信号中的对象的特征;以及再现部件,用于以所控制的特征之一来再现所述音频信号。
根据本发明的另一方面,提供了一种用于使用预设音频场景来提供基于对象的3-D音频服务的方法,包括以下步骤:输入音频信号;通过从所输入的音频信号中提取对象音频信号、在3-D空间中排列所提取的对象音频信号、并且编辑每个对象的特征,来生成多于一个的3-D音频场景信息;以及编码和多路复用所述音频信号和用于每个对象音频信号的所述3-D音频场景信息。
根据本发明的另一方面,提供了一种用于使用预设音频场景来再现基于对象的3-D音频服务的方法,包括以下步骤:解多路复用和解码基于对象的3-D音频内容;根据由包括观众的用户从解多路复用和解码后的基于对象的3-D音频内容中的多个3-D音频场景信息中选择的一个,来形成3-D音频场景信息;根据所形成的3-D音频场景信息来控制解多路复用和解码后的基于对象的3-D音频内容的音频信号中的对象的特征;和以所控制的特征之一来再现所述音频信号。
有利效果
根据本发明的基于对象的三维(3-D)音频服务系统及其方法利用应用于所有广播服务和多媒体服务的基于对象的3-D音频服务,来向用户或观众提供预先生成的预设音频场景,所述所有广播服务和多媒体服务提供诸如数字广播、无线电广播、数字多媒体广播(DMB)、因特网广播、数字电影、数字视频光盘(DVD)、和运动画面内容之类的音频。因此,根据本发明的基于对象的3-D音频服务系统及其方法消除了用户控制声源的每个对象音频信号的不便,并且使得用户能够容易且方便地观看和收听基于对象的3-D音频服务。
本发明可应用于提供诸如数字广播、无线电广播、DMB、因特网广播、数字电影、DVD、和运动画面内容之类的音频的广播服务和多媒体服务,并且本发明不限于用于传送并存储用于提供音频的广播和多媒体服务的基于对象的音频内容的这种类型的介质。
附图说明
图1是图示了传统的音频服务系统的视图。
图2是图示了根据本发明实施例的使用预设音频场景的基于对象的三维(3-D)音频服务系统的方框图。
图3是图示了根据本发明实施例的用于使用预设音频场景来提供基于对象的3-D音频服务的方法的流程图。
图4是图示了根据本发明实施例的用于使用预设音频场景来再现基于对象的3-D音频服务的方法的流程图。
具体实施方式
参考附图,从在下文中阐述的实施例的下列描述中,本发明的优点、特征和方面将变得清楚。
图2是图示了根据本发明实施例的使用预设音频场景的基于对象的三维(3-D)音频服务系统的方框图。
如图2所示,基于对象的3-D音频服务系统包括:基于对象的3-D音频服务提供设备30、传送介质50、和基于对象的3-D音频服务再现设备40。3-D音频服务提供设备30通过各种输入装置接收音频信号,创建可以由用户或观众选择的、多于一个的基于对象的3-D音频场景信息,并且将所创建的基于对象的3-D音频场景信息传送到基于对象的3-D音频服务再现设备40。传送介质50是诸如数字广播网络或因特网网络之类的介质,用于通过网络连接基于对象的3-D音频服务提供设备30和基于对象的3-D音频服务再现设备40。基于对象的3-D音频服务再现设备40在从基于对象的3-D音频服务提供设备30传送的基于对象的3-D音频场景信息的基础上,生成多于一个的3-D音频场景。
在下文中,将详细描述根据本实施例的使用预设音频场景的基于对象的3-D音频服务系统的组成元件。
基于对象的3-D音频服务提供设备30包括:输入单元31、预设音频场景生成器32、编码器33、和发射机34。输入单元31通过各种输入装置接收音频信号。预设音频场景生成器32从通过输入单元31接收的音频信号中提取基于对象的音频信号(在下文中,称为对象音频信号),在三维空间中排列所提取的对象音频信号,并且通过编辑每个对象的特征(例如,位置、大小、方向、和声场环境)来创建多于一个的3-D音频场景信息。编码器33对通过输入单元31输入的音频信号和由预设音频场景生成器32创建的基于对象的3-D音频场景信息进行编码和多路复用,用以向基于对象的3-D音频服务再现设备40传送所输入的音频信号和所生成的预设音频场景信息。例如,所输入的音频信号和所生成的预设音频场景信息被多路复用为数字广播网络中的运动图像专家组4(MPEG-4)文件格式。发射机34将多路复用后的基于对象的音频内容转换为传输格式,所述多路复用后的基于对象的音频内容包括来自编码单元33的所输入的音频信号和所生成的预设音频场景信息。例如,发射机34将多路复用后的基于对象的音频内容转换为用于数字广播网络的MPEG-2传输流(TS)。
转换后的基于对象的音频内容可被传送到基于对象的3-D音频再现设备40并且可被存储在存储介质中,所述转换后的基于对象的音频内容包括所输入的音频信号和所生成的基于对象的3-D音频场景信息。
发射机34可以通过诸如地面DMB信道50之类的数字广播网络将包括所输入的音频信号和基于对象的3-D音频场景信息的基于对象的音频内容传送到基于对象的3-D音频再现设备40。
如果输入到输入单元31的音频信号的声源是混合声源,则预设音频场景生成器32使用卷积盲源分离(Convolutive Blind Source Separation)技术来提取对象音频信号。特别地,预设音频场景生成器32通过控制每个对象音频信号的每个基于对象的音频场景信息的比率来形成多于一个的基于对象的3-D音频场景信息,所述比率是根据诸如编辑者(editor)的用户的控制来设置的。
基于对象的3-D音频服务再现设备40包括:解码器42、音频场景信息形成单元43、音频信号混合器44、和音频信号再现器45。解码器42对包括音频信号和基于对象的3-D音频场景信息的基于对象的音频内容进行解多路复用和解码,用以再现。音频场景信息形成单元43向诸如观众的用户提供由解码器42解多路复用和解码的基于对象的3-D音频内容的基于对象的3-D音频场景信息,以便选择,并且根据用户选择形成基于对象的3-D音频场景信息。音频信号混合器44通过根据由音频场景信息形成单元43形成的基于对象的3-D音频场景信息来控制每个对象的特征(例如,每个对象的位置、方向、大小、和声场),以混合来自解码器42的解多路复用和解码后的基于对象的3-D音频内容的音频信号的对象音频信号。音频信号再现器45对由音频信号混合器44混合为一个基于对象的3-D音频场景的音频信号进行再现。
可以通过广播服务或多媒体服务(例如,数字广播、无线电广播、数字多媒体广播(DMB)、因特网广播、数字电影、数字视频光盘(DVD)、和运动画面内容,来提供包括音频信号和基于对象的3-D音频场景信息的基于对象的音频内容。尽管在本实施例中可以通过接收机41来接收基于对象的音频内容,但是本发明不限于此。也就是说,可以通过能够提供供应音频的广播服务或多媒体服务的传送介质或存储介质来提供基于对象的音频内容。
音频场景信息形成单元43使得用户或观众能够选择对象的特征,例如,每个对象的位置、方向、音量、和声场环境,并且根据由用户设置的、包括每个对象的位置、方向、音量、和声场环境的所述特征来形成新的基于对象的3-D音频场景信息。
用户或观众可以通过经由音频场景信息形成单元43控制初始反射声音的音量和延迟时间而改变3-D空间的混响时间(reverberation time),来控制3-D音频空间的特征。
也就是说,根据本实施例的使用预设音频场景的基于对象的3-D音频服务系统预先生成被期待频繁使用的基于对象的3-D音频场景,并且将所生成的基于对象的3-D音频场景作为预设音频场景提供给用户或观众。即,根据本实施例的基于对象的3-D音频服务系统使得用户或观众能够选择所述预设音频场景之一,以便使用户以所期望的音频喜好来方便地观看和收听广播节目
例如,足球场的喧闹声、人群的叫喊声、和解说员的语音被定义为用于足球比赛广播的音频对象,并且独立地传送所定义的音频对象。利用所述音频对象,将具有关于足球场的喧闹声、人群的叫喊声、和解说员的语音的音量被设置为1:1:1的信息的第一音频场景,具有关于足球场的喧闹声、人群的叫喊声、和解说员的语音的音量被设置为1:0.5:1的信息的第二音频场景,以及具有关于足球场的喧闹声、人群的叫喊声和解说员的语音的音量被设置为1:0:1的信息的音频场景作为预设音频场景进行传送。然后,用户或观众以所期望的音频喜好来选择所述预设音频场景之一,以便观看和收听足球比赛广播。
如果用户从所提供的音频场景中不能发现所期望的音频场景,则用户可以直接控制每个音频对象。然而,优选地向用户提供大量的预设音频场景,以便使得用户能够从所提供的音频场景中发现所期望的音频场景。
图3是图示了根据本发明实施例的用于使用预设音频场景来提供基于对象的3-D音频服务的方法的流程图。
参考图3,在步骤S301中,基于对象的3-D音频服务提供设备30的输入单元31通过各种输入装置接收基于对象的音频信号。
在步骤S302中,预设音频场景生成器32从通过输入单元31输入的音频信号中提取基于对象的音频信号,即,对象音频信号。然后,预设音频场景生成器32通过在步骤S303中在3-D空间中排列所提取的对象音频信号、并且编辑每个对象音频信号的特征(例如,音频对象的位置、方向、音量、和声场环境),来在步骤S304中生成多于一个的基于对象的3-D音频场景信息。在步骤S305中,编码器33对通过输入单元31输入的音频信号和由预设音频场景生成器32生成的基于对象的3-D音频场景信息进行编码和多路复用。例如,编码器33将音频信号和基于对象的3-D音频场景信息编码和多路复用为用于数字广播网络的MPEG-4文件格式。
然后,在步骤S306中,发射机34转换包括音频信号和基于对象的3-D音频场景信息的、多路复用后的基于对象的音频内容以适合于传输格式,并且传送转换后的基于对象的音频内容。例如,多路复用后的基于对象的音频内容被转换为数字广播网络中的MPEG-2 TS。
例如,发射机34通过诸如地面DMB信道之类的数字广播网络,将包括音频信号和基于对象的3-D音频场景信息的、转换后的基于对象的音频内容传送到基于对象的3-D音频再现设备40。包括音频信号和基于对象的3-D音频场景信息的、转换后的基于对象的音频内容可存储在存储介质中。
图4是图示了根据本发明实施例的用于使用预设音频场景来再现基于对象的3-D音频服务的方法的流程图。
参考图4,在步骤S401中,基于对象的3-D音频服务再现设备40的接收机41通过诸如陆地DMB信道50之类的数字广播网络或因特网网络,来接收包括音频信号和基于对象的3-D音频信息的基于对象的音频内容。
接收机41可以通过传送介质来接收基于对象的音频内容,所述传送介质可以提供供应音频的广播服务或多媒体服务。或者,基于对象的音频内容可以通过存储介质输入。
在步骤S402中,解码器42对包括音频信号和基于对象的3-D音频场景信息的、所接收或所输入的基于对象的音频内容进行解多路复用和解码。在步骤S403中,音频场景信息形成单元43向用户或观众提供解多路复用和解码后的基于对象的3-D音频内容的基于对象的3-D音频场景信息,以便选择,并且根据用户选择来形成基于对象的3-D音频场景信息。
然后,在步骤S404中,音频信号混合器44通过根据由音频场景信息形成单元43形成的基于对象的3-D音频场景信息而控制解多路复用和解码后的基于对象的3-D音频内容的音频信号中的对象的特征(例如,每个音频对象的位置、方向、音量、和声场环境),来混合对象音频信号。最后,在步骤S405,音频信号再现器45对由音频信号混合器44基于所述基于对象的3-D音频场景之一而混合的音频信号进行再现。
根据本发明的上述方法可被实施为程序并且被存储在计算机可读记录介质上。计算机可读记录介质是可以存储其后可由计算机系统读取的数据的任何数据存储装置。计算机可读记录介质包括:只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、软盘、硬盘和光磁盘。
尽管已经参考某些优选实施例描述了本发明,但是对于本领域技术人员将显而易见的是,可以进行各种改变和修改,而不脱离由所附权利要求限定的本发明的精神和范围。
Claims (20)
1.一种使用预设音频场景的基于对象的三维(3-D)音频服务提供设备,包括:
音频输入部件,用于输入音频信号;
预设音频场景生成部件,用于从通过所述音频输入部件输入的音频信号中提取对象音频信号,并且通过在3-D空间中排列所提取的对象音频信号和编辑每个对象的特征,来生成多于一个的3-D音频场景信息;以及
编码部件,用于编码和多路复用所述音频信号和用于每个对象音频信号的所述3-D音频场景信息。
2.如权利要求1所述的基于对象的3-D音频服务提供设备,还包括处理部件,用于处理编码和多路复用后的基于对象的3-D音频内容。
3.如权利要求2所述的基于对象的3-D音频服务提供设备,其中所述处理部件通过数字广播网络将编码和多路复用后的基于对象的3-D音频内容传送到音频再现终端。
4.如权利要求3所述的基于对象的3-D音频服务提供设备,其中所述音频再现终端使用所述3-D音频场景信息来形成3-D场景,并且使用所形成的3-D场景来再现所述音频信号。
5.如权利要求1所述的基于对象的3-D音频服务提供设备,其中所述特征包括每个对象的位置、音量、方向、和声场环境之中的至少一个。
6.如权利要求1所述的基于对象的3-D音频服务提供设备,其中当所述输入音频信号的声源是混合声源时,所述音频场景生成部件使用卷积盲源分离技术来提取对象音频信号。
7.如权利要求1所述的基于对象的3-D音频服务提供设备,其中所述音频场景生成部件通过控制每个对象音频信号的每个基于对象的音频场景信息的比率,来生成3-D音频场景信息之中的至少一个,所述比率根据包括观众的用户的控制来设置。
8.一种使用预设音频场景的基于对象的三维(3-D)音频服务再现设备,包括:
解码部件,用于解多路复用和解码基于对象的3-D音频内容;
音频场景形成部件,用于根据由包括观众的用户从解多路复用和解码后的基于对象的3-D音频内容中的多个3-D音频场景信息中选择的一个,来形成3-D音频场景信息;
音频信号混合部件,用于根据所形成的3-D音频场景信息来控制解多路复用和解码后的基于对象的3-D音频内容的音频信号中的对象的特征;以及
再现部件,用于以所控制的特征之一来再现所述音频信号。
9.如权利要求8所述的基于对象的3-D音频服务再现设备,其中所述音频场景形成部件具有根据每个对象的特征来形成3-D音频场景信息的功能,所述每个对象的特征由包括观众的用户设置。
10.如权利要求8所述的基于对象的3-D音频服务再现设备,其中所述特征包括每个对象的位置、音量、方向、和声场环境之中的至少一个。
11.如权利要求10所述的基于对象的3-D音频服务再现设备,其中所述音频场景形成部件通过控制初始反射的声音的音量和延迟时间而改变3-D音频空间的混响时间,来控制3-D音频空间的特征。
12.一种用于使用预设音频场景来提供基于对象的三维(3-D)音频服务的方法,包括以下步骤:
输入音频信号;
通过从所输入的音频信号中提取对象音频信号、在3-D空间中排列所提取的对象音频信号、并且编辑每个对象的特征,来生成多于一个的3-D音频场景信息;以及
编码和多路复用所述音频信号和用于每个对象音频信号的所述3-D音频场景信息。
13.如权利要求12所述的方法,还包括步骤:
处理编码和多路复用后的基于对象的3-D音频内容。
14.如权利要求13所述的方法,其中,在所述处理基于对象的3-D音频内容的步骤中,通过数字广播网络来传送编码和多路复用后的基于对象的3-D音频内容。
15.如权利要求12所述的方法,其中所述特征包括每个对象的位置、音量、方向、和声场环境之中的至少一个。
16.如权利要求12所述的方法,其中,在所述生成3-D音频场景信息的步骤中,通过控制每个对象音频信号的每个基于对象的音频场景信息的比率,来生成3-D音频场景信息之中的至少一个,所述比率根据包括观众的用户的控制来设置。
17.一种用于使用预设音频场景来再现基于对象的三维(3-D)音频服务的方法,包括以下步骤:
解多路复用和解码基于对象的3-D音频内容;
根据由包括观众的用户从解多路复用和解码后的基于对象的3-D音频内容中的多个3-D音频场景信息中选择的一个,来形成3-D音频场景信息;
根据所形成的3-D音频场景信息来控制解多路复用和解码后的基于对象的3-D音频内容的音频信号中的对象的特征;和
以所控制的特征之一来再现所述音频信号。
18.如权利要求17所述的方法,其中在所述形成3-D音频场景信息的步骤中,根据每个对象的特征来形成3-D音频场景信息,所述每个对象的特征由包括观众的用户设置。
19.如权利要求17所述的方法,其中所述特征包括每个对象的位置、音量、方向、和声场环境之中的至少一个。
20.如权利要求19所述的方法,其中通过控制初始反射的声音的音量和延迟时间而改变3-D音频空间的混响时间,来控制3-D音频空间的特征。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20050119972 | 2005-12-08 | ||
KR1020060045184 | 2006-05-19 | ||
KR1020060045184A KR100802179B1 (ko) | 2005-12-08 | 2006-05-19 | 프리셋 오디오 장면을 이용한 객체기반 3차원 오디오서비스 시스템 및 그 방법 |
KR10-2006-0045184 | 2006-05-19 | ||
PCT/KR2007/002395 WO2007136187A1 (en) | 2006-05-19 | 2007-05-16 | Object-based 3-dimensional audio service system using preset audio scenes |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101473645A true CN101473645A (zh) | 2009-07-01 |
CN101473645B CN101473645B (zh) | 2011-09-21 |
Family
ID=41314481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007800230849A Active CN101473645B (zh) | 2005-12-08 | 2007-05-16 | 使用预设音频场景的基于对象的三维音频服务系统 |
Country Status (2)
Country | Link |
---|---|
US (2) | US8705747B2 (zh) |
CN (1) | CN101473645B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102576533A (zh) * | 2009-08-14 | 2012-07-11 | Srs实验室有限公司 | 面向对象的音频流系统 |
CN103460285A (zh) * | 2010-12-03 | 2013-12-18 | 弗兰霍菲尔运输应用研究公司 | 用于以几何为基础的空间音频编码的装置及方法 |
CN105075295A (zh) * | 2013-04-03 | 2015-11-18 | 杜比实验室特许公司 | 用于生成和渲染具有条件渲染元数据的基于对象的音频的方法和系统 |
CN106375778A (zh) * | 2016-08-12 | 2017-02-01 | 南京青衿信息科技有限公司 | 一种符合数字电影规范的三维音频节目码流传输的方法 |
US9805725B2 (en) | 2012-12-21 | 2017-10-31 | Dolby Laboratories Licensing Corporation | Object clustering for rendering object-based audio content based on perceptual criteria |
CN107533846A (zh) * | 2015-04-24 | 2018-01-02 | 索尼公司 | 发送装置、发送方法、接收装置与接收方法 |
CN110800048A (zh) * | 2017-05-09 | 2020-02-14 | 杜比实验室特许公司 | 多通道空间音频格式输入信号的处理 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100942142B1 (ko) * | 2007-10-11 | 2010-02-16 | 한국전자통신연구원 | 객체기반 오디오 콘텐츠 송수신 방법 및 그 장치 |
WO2010013946A2 (en) * | 2008-07-29 | 2010-02-04 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
US9165558B2 (en) | 2011-03-09 | 2015-10-20 | Dts Llc | System for dynamically creating and rendering audio objects |
US9528852B2 (en) * | 2012-03-02 | 2016-12-27 | Nokia Technologies Oy | Method and apparatus for generating an audio summary of a location |
CN104019885A (zh) | 2013-02-28 | 2014-09-03 | 杜比实验室特许公司 | 声场分析系统 |
US9979829B2 (en) | 2013-03-15 | 2018-05-22 | Dolby Laboratories Licensing Corporation | Normalization of soundfield orientations based on auditory scene analysis |
WO2015190864A1 (ko) * | 2014-06-12 | 2015-12-17 | 엘지전자(주) | 고속 인터페이스를 이용하여 객체 기반 오디오 데이터를 처리하는 방법 및 장치 |
US9609383B1 (en) * | 2015-03-23 | 2017-03-28 | Amazon Technologies, Inc. | Directional audio for virtual environments |
US9928848B2 (en) * | 2015-12-24 | 2018-03-27 | Intel Corporation | Audio signal noise reduction in noisy environments |
GB2546504B (en) * | 2016-01-19 | 2020-03-25 | Facebook Inc | Audio system and method |
US10349196B2 (en) | 2016-10-03 | 2019-07-09 | Nokia Technologies Oy | Method of editing audio signals using separated objects and associated apparatus |
US10499178B2 (en) * | 2016-10-14 | 2019-12-03 | Disney Enterprises, Inc. | Systems and methods for achieving multi-dimensional audio fidelity |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5590207A (en) | 1993-12-14 | 1996-12-31 | Taylor Group Of Companies, Inc. | Sound reproducing array processor system |
JP3593883B2 (ja) * | 1998-05-15 | 2004-11-24 | 株式会社日立製作所 | 映像ストリーム送受信システム |
US6163510A (en) * | 1998-06-30 | 2000-12-19 | International Business Machines Corporation | Multimedia search and indexing system and method of operation using audio cues with signal thresholds |
JP2000358294A (ja) | 1999-06-15 | 2000-12-26 | Yamaha Corp | オーディオ音響装置 |
JP4499905B2 (ja) | 2000-11-29 | 2010-07-14 | 株式会社フジテレビジョン | 広告方法及び広告放送システム |
KR100542129B1 (ko) * | 2002-10-28 | 2006-01-11 | 한국전자통신연구원 | 객체기반 3차원 오디오 시스템 및 그 제어 방법 |
EP1568251B1 (en) | 2002-12-02 | 2007-01-24 | Thomson Licensing | Method for describing the composition of audio signals |
US6925186B2 (en) * | 2003-03-24 | 2005-08-02 | Todd Hamilton Bacon | Ambient sound audio system |
JP2005293623A (ja) | 2004-03-31 | 2005-10-20 | Clarion Co Ltd | 車載音響装置、車載音響システム、及び音楽データ記録プログラム |
KR100647286B1 (ko) * | 2004-08-14 | 2006-11-23 | 삼성전자주식회사 | 교차채널 간섭을 제거하기 위한 후처리장치 및 방법과이를 이용한 다채널 음원 분리장치 및 방법 |
KR100733965B1 (ko) * | 2005-11-01 | 2007-06-29 | 한국전자통신연구원 | 객체기반 오디오 전송/수신 시스템 및 그 방법 |
KR101218776B1 (ko) * | 2006-01-11 | 2013-01-18 | 삼성전자주식회사 | 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체 |
-
2007
- 2007-05-16 US US12/300,720 patent/US8705747B2/en active Active
- 2007-05-16 CN CN2007800230849A patent/CN101473645B/zh active Active
-
2014
- 2014-03-06 US US14/199,188 patent/US20140185810A1/en not_active Abandoned
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102576533B (zh) * | 2009-08-14 | 2014-09-17 | Dts有限责任公司 | 面向对象的音频流系统 |
CN102576533A (zh) * | 2009-08-14 | 2012-07-11 | Srs实验室有限公司 | 面向对象的音频流系统 |
CN103460285B (zh) * | 2010-12-03 | 2018-01-12 | 弗劳恩霍夫应用研究促进协会 | 用于以几何为基础的空间音频编码的装置及方法 |
US10109282B2 (en) | 2010-12-03 | 2018-10-23 | Friedrich-Alexander-Universitaet Erlangen-Nuernberg | Apparatus and method for geometry-based spatial audio coding |
US9396731B2 (en) | 2010-12-03 | 2016-07-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Sound acquisition via the extraction of geometrical information from direction of arrival estimates |
CN103460285A (zh) * | 2010-12-03 | 2013-12-18 | 弗兰霍菲尔运输应用研究公司 | 用于以几何为基础的空间音频编码的装置及方法 |
US9805725B2 (en) | 2012-12-21 | 2017-10-31 | Dolby Laboratories Licensing Corporation | Object clustering for rendering object-based audio content based on perceptual criteria |
CN105103570B (zh) * | 2013-04-03 | 2018-02-13 | 杜比实验室特许公司 | 用于基于对象的音频的交互式渲染的方法和系统 |
CN105075295B (zh) * | 2013-04-03 | 2017-05-24 | 杜比实验室特许公司 | 用于生成和渲染具有条件渲染元数据的基于对象的音频的方法和系统 |
CN105075295A (zh) * | 2013-04-03 | 2015-11-18 | 杜比实验室特许公司 | 用于生成和渲染具有条件渲染元数据的基于对象的音频的方法和系统 |
CN108134978A (zh) * | 2013-04-03 | 2018-06-08 | 杜比实验室特许公司 | 用于基于对象的音频的交互式渲染的方法和系统 |
CN105103570A (zh) * | 2013-04-03 | 2015-11-25 | 杜比实验室特许公司 | 用于基于对象的音频的交互式渲染的方法和系统 |
US11081118B2 (en) | 2013-04-03 | 2021-08-03 | Dolby Laboratories Licensing Corporation | Methods and systems for interactive rendering of object based audio |
US11727945B2 (en) | 2013-04-03 | 2023-08-15 | Dolby Laboratories Licensing Corporation | Methods and systems for interactive rendering of object based audio |
CN107533846A (zh) * | 2015-04-24 | 2018-01-02 | 索尼公司 | 发送装置、发送方法、接收装置与接收方法 |
US11636862B2 (en) | 2015-04-24 | 2023-04-25 | Sony Group Corporation | Transmission device, transmission method, reception device, and reception method |
US12008999B2 (en) | 2015-04-24 | 2024-06-11 | Sony Group Corporation | Transmission device, transmission method, reception device, and reception method |
CN106375778A (zh) * | 2016-08-12 | 2017-02-01 | 南京青衿信息科技有限公司 | 一种符合数字电影规范的三维音频节目码流传输的方法 |
CN110800048A (zh) * | 2017-05-09 | 2020-02-14 | 杜比实验室特许公司 | 多通道空间音频格式输入信号的处理 |
CN110800048B (zh) * | 2017-05-09 | 2023-07-28 | 杜比实验室特许公司 | 多通道空间音频格式输入信号的处理 |
Also Published As
Publication number | Publication date |
---|---|
US20140185810A1 (en) | 2014-07-03 |
CN101473645B (zh) | 2011-09-21 |
US8705747B2 (en) | 2014-04-22 |
US20090147961A1 (en) | 2009-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101473645B (zh) | 使用预设音频场景的基于对象的三维音频服务系统 | |
EP2501128B1 (en) | Object-based 3-dimensional audio service system using preset audio scenes | |
KR100802179B1 (ko) | 프리셋 오디오 장면을 이용한 객체기반 3차원 오디오서비스 시스템 및 그 방법 | |
Herre et al. | MPEG-H audio—the new standard for universal spatial/3D audio coding | |
EP2113112B1 (en) | Method for creating, editing, and reproducing multi-object audio contents files for object-based audio service, and method for creating audio presets | |
JP5609160B2 (ja) | 情報処理システム、コンテンツ合成装置および方法、並びに記録媒体 | |
US9271101B2 (en) | System and method for transmitting/receiving object-based audio | |
CN103650539B (zh) | 用于自适应音频信号产生、编码和呈现的系统和方法 | |
Bleidt et al. | Development of the MPEG-H TV audio system for ATSC 3.0 | |
WO2007066868A1 (en) | Method for providing dmb-based 3d image service, and decoding apparatus and method for dmb-based 3d image service | |
CN108134978A (zh) | 用于基于对象的音频的交互式渲染的方法和系统 | |
JP2009537876A5 (zh) | ||
US7606716B2 (en) | Systems and methods for multi-dialog surround audio | |
US20140310010A1 (en) | Apparatus for encoding and apparatus for decoding supporting scalable multichannel audio signal, and method for apparatuses performing same | |
Stenzel et al. | Producing interactive immersive sound for MPEG-H: A field test for sports broadcasting | |
KR101114431B1 (ko) | 실시간 스트리밍을 위한 오디오 생성장치, 오디오 재생장치 및 그 방법 | |
Bleidt et al. | Building the world’s most complex TV network: a test bed for broadcasting immersive and interactive audio | |
Scuda et al. | Using audio objects and spatial audio in sports broadcasting | |
JPH0955920A (ja) | Isdb用送信装置およびその受信装置 | |
JPH0946305A (ja) | Isdb用送信装置およびその受信装置 | |
KR101040086B1 (ko) | 오디오 생성방법, 오디오 생성장치, 오디오 재생방법 및 오디오 재생장치 | |
KR102529400B1 (ko) | 오디오 메타데이터 제공 장치 및 방법, 오디오 데이터 제공 장치 및 방법, 오디오 데이터 재생 장치 및 방법 | |
DeFilippis | Mastering and Distributing Immersive Sound | |
Sunna et al. | Toward the Practical Realisation of Next Generation Audio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |