JP2014522181A - オーディオ信号処理方法及びそれによるオーディオ信号処理装置 - Google Patents

オーディオ信号処理方法及びそれによるオーディオ信号処理装置 Download PDF

Info

Publication number
JP2014522181A
JP2014522181A JP2014523837A JP2014523837A JP2014522181A JP 2014522181 A JP2014522181 A JP 2014522181A JP 2014523837 A JP2014523837 A JP 2014523837A JP 2014523837 A JP2014523837 A JP 2014523837A JP 2014522181 A JP2014522181 A JP 2014522181A
Authority
JP
Japan
Prior art keywords
information
audio signal
audio
video
signal processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014523837A
Other languages
English (en)
Other versions
JP5890523B2 (ja
Inventor
キム,ソン−ミン
リ,ヨン−ウ
リ,ユン−ジェ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2014522181A publication Critical patent/JP2014522181A/ja
Application granted granted Critical
Publication of JP5890523B2 publication Critical patent/JP5890523B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Stereophonic System (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

三次元映像情報を入力され、該三次元映像情報に基づいて、オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも1つの方向に立体感を付与するための情報であるインデックス情報を生成するインデックス予測部、及びインデックス情報に基づいて、オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも1つの方向における立体感を付与するレンダリング部と、を含み、立体音響効果を最大化させることができるオーディオ信号処理装置である。

Description

本発明は、オーディオ信号処理方法及びそれによるオーディオ信号処理装置に係り、さらに詳細には、立体音響を生成することができるオーディオ信号処理方法及びそれによるオーディオ信号処理装置に関する。
映像技術の発展により、ユーザは、三次元立体映像を視聴することができるようになった。三次元立体映像は、両眼視差を考慮し、左視点映像データを左目に露出させ、右視点映像データを右目に露出させる。ユーザは、三次元映像技術を介して、スクリーンから飛び出してきたり、あるいはスクリーンの奥に入って行くオブジェクトを、臨場感をもって認識することができる。
一方、映像技術の発展と共に、音響に対するユーザの関心が高まり、特に、立体音響技術が、目を見張るように発展している。現在の立体音響技術は、ユーザの周囲に複数個のスピーカを配置し、ユーザをして定位感と臨場感とを感じさせる。例えば、6個のスピーカを利用して、6個の分離されたオーディオ信号を出力する5.1チャネル・オーディオシステムを利用して、立体音響を具現している。しかし、前述の立体音響技術では、映像オブジェクトの立体感変化に対応する立体音響を、ユーザに提供することができない。
従って、映像オブジェクトの立体感変化に対応する立体音響を生成することができる方法及びその装置を提供する必要がある。また、立体音響技術では、オーディオ・オブジェクトの立体感を増大させることが何より重要である。従って、立体感をさらに増大させることができる方法及びその装置を提供する必要がある。
本発明は、映像オブジェクトの立体感変化に対応する立体音響を生成することができるオーディオ信号処理方法、及びそれによるオーディオ信号処理装置の提供を目的とする。
また、本発明は、オーディオ・オブジェクトの立体感を向上させることができるオーディオ信号処理方法、及びそれによるオーディオ信号処理装置の提供を目的とする。
本発明の一実施形態によるオーディオ信号処理装置は、三次元映像情報を入力され、前記三次元映像情報に基づいて、オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも1つの方向に立体感を付与するための情報であるインデックス情報を生成するインデックス予測部、及び前記インデックス情報に基づいて、前記オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも1つの方向における立体感を付与するレンダリング部を含む。
また、前記インデックス予測部は、前記左右方向における音響拡張感情報、前記前後方向におけるデプス情報、及び前記上下方向における高度感情報のうち少なくとも一つを含む前記インデックス情報を生成することができる。
また、前記三次元映像情報は、映像フレーム別に、最大ディスパリティ値、最小ディスパリティ値、及び前記最大ディスパリティまたは最小ディスパリティを有する映像オブジェクトの位置情報のうち少なくとも一つを含んでもよい。
また、前記映像オブジェクトの位置情報は、前記三次元映像情報が、前記映像フレーム別に入力される場合、1フレームに対応する1つの映像画面を、少なくとも一つに分割したサブフレームに係わる情報を含んでもよい。
また、前記音響拡張感情報は、前記最大ディスパリティ値及び前記位置情報を利用して、前記オーディオ・オブジェクトの前記左右方向における位置を推定し、前記推定された位置に基づいて算出される。
また、前記デプス情報は、前記最大ディスパリティまたは最小ディスパリティ値を利用して、前記オーディオ・オブジェクトの前記前後方向におけるデプス値を推定し、前記推定されたデプス値に基づいて算出される。
また、前記高度感情報は、前記最大ディスパリティ値及び前記位置情報を利用して、前記オーディオ・オブジェクトの前記上下方向における位置を推定し、前記推定された位置に基づいて算出される。
また、前記インデックス予測部は、前記オーディオ・オブジェクトと、映像オブジェクトとが不一致である場合、及び前記オーディオ・オブジェクトが非効果音である場合のうち少なくとも1つの場合、前記オーディオ・オブジェクトの立体感が低下するように、前記インデックス情報を生成することができる。
また、ステレオオーディオ信号を入力され、前記ステレオオーディオ信号で、左/右信号及びセンターチャネル信号を抽出し、前記抽出された信号を、前記レンダリング部に伝送する信号抽出部をさらに含んでもよい。
また、前記インデックス予測部は、前記ステレオオーディオ信号、前記左/右信号及びセンターチャネル信号のうち少なくとも一つを、オーディオ信号として入力され、前記入力されたオーディオ信号の方向角及び周波数帯域別エネルギーのうち少なくとも一つを分析し、前記分析結果に基づいて、効果音と非効果音とを区別する音源感知部、前記オーディオ・オブジェクトと、映像オブジェクトとが一致するか否かを判断する比較部、及び前記オーディオ・オブジェクトと、前記映像オブジェクトとが不一致である場合、及び前記オーディオ・オブジェクトが前記非効果音である場合のうち少なくとも1つの場合、前記オーディオ・オブジェクトの立体感が低下するように、前記インデックス情報を生成するインデックス生成部を含んでもよい。
また、前記音源感知部は、前記ステレオオーディオ信号、前記左/右信号及びセンターチャネル信号のうち少なくとも一つを入力され、前記ステレオオーディオ信号に含まれるオーディオ・オブジェクトの方向角を追跡し、前記追跡結果に基づいて、前記効果音と前記非効果音とを区別することができる。
また、前記音源感知部は、追跡された前記方向角の変化量が、所定値より大きいか、あるいはそれと同じである場合、あるいは追跡された前記方向角が左右方向に收斂される(converge)場合、前記オーディオ・オブジェクトが前記効果音であると判断することができる。
また、前記音源感知部は、追跡された前記方向角の変化量が、所定値より小さいか、あるいはそれと同じである場合、あるいは前記方向角が中心地点に収斂される場合、前記オーディオ・オブジェクトが静的音源であると判断することができる。
また、前記音源感知部は、前記左/右信号と、前記センターチャネル信号との高周波数領域のエネルギーの比率を分析し、前記左/右信号のエネルギーの比率が、前記センターチャネル信号のエネルギーの比率より低い場合、前記オーディオ・オブジェクトが前記非効果音であると判断することができる。
前記音源感知部は、前記センターチャネル信号において、音声帯域周波数区間と、非音声帯域周波数区間とのエネルギーの比率を分析し、前記分析結果に基づいて、前記オーディオ・オブジェクトが前記非効果音である音声信号であるか否かを判断することができる。
また、前記三次元映像情報は、1映像フレーム内に存在する映像オブジェクト別に、ディスパリティ値、前記映像オブジェクトの位置情報、及び映像のデプスマップのうち少なくとも一つを含んでもよい。
本発明の一実施形態によるオーディオ信号処理方法は、少なくとも1つのオーディオ・オブジェクトを含むオーディオ信号及び三次元映像情報を入力される段階、前記三次元映像情報に基づいて、前記オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも1つの方向における立体感を付与するための情報であるインデックス情報を生成する段階、及び前記インデックス情報に基づいて、前記オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも1つの方向に立体感を付与する段階を含む。
また、前記インデックス情報を生成する段階は、前記最大ディスパリティ値及び前記位置情報を利用して、前記オーディオ・オブジェクトの前記左右方向における位置を推定し、前記推定された位置に基づいて、前記左右方向でのインデックス情報を生成する段階と、前記最大ディスパリティ値及び最小ディスパリティ値を利用して、前記オーディオ・オブジェクトの前記前後方向でのデプス値を推定し、前記推定されたデプス値に基づいて、前記前後方向におけるインデックス情報を生成する段階と、前記最大ディスパリティ値及び前記位置情報を利用して、前記オーディオ・オブジェクトの前記上下方向における位置を推定し、前記推定された位置に基づいて、前記上下方向におけるインデックス情報を生成する段階と、を含んでもよい。
また、前記オーディオ・オブジェクトと、映像オブジェクトとが一致するか否かということを判断する段階をさらに含み、前記インデックス情報を生成する段階は、前記オーディオ・オブジェクトと、前記映像オブジェクトとが不一致である場合、前記オーディオ・オブジェクトの立体感が低下するように、前記インデックス情報を生成する段階を含んでもよい。
また、前記オーディオ・オブジェクトが非効果音であるか否かということを判断する段階をさらに含み、前記インデックス情報を生成する段階は、前記オーディオ・オブジェクトが前記非効果音である場合、前記オーディオ・オブジェクトの立体感が低下するように、前記インデックス情報を生成する段階を含むことを特徴とする。
本発明の他の実施形態によるオーディオ信号処理方法は、三次元映像に対応するオーディオ信号を入力される段階と、前記三次元映像のための立体感情報に基づいて、前記オーディオ信号に立体感を付与する段階と、を含む。
また、前記立体感情報は、前記三次元映像に係わるデプス情報及び位置情報のうち少なくとも一つを含んでもよい。
また、前記オーディオ信号に立体感効果を付与する段階は、再生時に、前記三次元映像に含まれたオブジェクトの動きに相応するように、音源の位置が移動するように感じられるように、前記オーディオ信号を処理する段階を含んでもよい。
また、前記オーディオ信号に立体感効果を付与する段階は、前記三次元映像の深度(デプス)、左右拡張感及び高度感のうち少なくとも一つを知らせるインデックス情報を基に、前記オーディオ信号を、複数個の方向にレンダリングする段階を含んでもよい。
本発明の実施形態によるオーディオ信号処理装置は、映像画面の立体感変化に対応し、立体感を有するオーディオ信号を生成することができる。それにより、ユーザが所定映像及びオーディオを共に視聴する場合、最大限の立体感効果を感じることが可能である。
また、本発明の実施形態によるオーディオ信号処理装置は、6方向における立体感を有するオーディオ・オブジェクトを生成することができる。それにより、オーディオ信号の立体感を向上させることができる。
本発明の一実施形態によるオーディオ信号処理装置を示す図面である。 本発明の他の実施形態によるオーディオ信号処理装置を詳細に示す一図面である。 本発明の実施形態によるオーディオ信号処理装置で利用される三次元映像情報について説明するための一図面である。 本発明の実施形態によるオーディオ信号処理装置で利用される三次元映像情報について説明するための他の図面である。 本発明の実施形態によるオーディオ信号処理装置で利用される三次元映像情報について説明するための他の図面である。 本発明の実施形態によるオーディオ信号処理装置で生成されるインデックス情報について説明するための図面である。 図1のインデックス予測部を詳細に示す一図面である。 非効果音について説明するための一図面である。 非効果音について説明するための一図面である。 非効果音について説明するための一図面である。 効果音について説明するための一図面である。 効果音について説明するための一図面である。 効果音について説明するための一図面である。 本発明の一実施形態によるオーディオ信号処理装置について説明するためのフローチャートである。 図9の920段階について詳細に説明する一図面である。
以下、添付された図面を参照し、本発明によるオーディオ信号処理方法及びそれによるオーディオ信号処理装置について詳細に説明する。
まず、説明の便宜のために、本明細書で使用される用語を簡単に定義する。
映像オブジェクトは、映像信号内に含まれた事物や、人、動物、植物などの被写体を指す。
オーディオ・オブジェクトは、オーディオ信号に含まれた音響成分それぞれを指す。1つのオーディオ信号には、多様なオーディオ・オブジェクトが含まれる。例えば、オーケストラの公演実況を録音して生成されたオーディオ信号には、ギター、バイオリン、オーボエなどの多数個の楽器から生じた多数個のオーディオ・オブジェクトが含まれる。
音源は、オーディオ・オブジェクトを生成した対象(例えば、楽器、人間の声帯)を指す。本明細書では、オーディオ・オブジェクトを実際に生成した対象と、ユーザがオーディオ・オブジェクトを生成したと認識する対象とをいずれも音源とする。一例として、ユーザが映画を視聴しているとき、リンゴがスクリーン側からユーザ側に飛んで来るなら、リンゴが飛んで来るときに生じる音が、オーディオ信号に含まれるであろう。ここで、リンゴが飛んで来るときに生じる音自体が、オーディオ・オブジェクトになる。前記オーディオ・オブジェクトは、実際にリンゴが投げられて生じた音を録音したものでもあり、あらかじめ録音されたオーディオ・オブジェクトを、単に再生するものでもある。しかし、いずれにせよ、ユーザは、リンゴが前記オーディオ・オブジェクトを発生させたと認識するので、リンゴも、本明細書で定義する音源に含まれる。
三次元映像情報は、映像を三次元でディスプレイするために必要な情報を含む。例えば、三次元映像情報は、映像のデプス(depth)を表現することができる情報、及び映像オブジェクトが、1つの画面上に位置する位置情報のうち少なくとも一つを含んでもよい。映像の深度(デプス)を表現することができる情報は、映像オブジェクトと基準位置との距離を示す情報である。基準位置は、映像が出力されるディスプレイ装置の表面でもある。具体的には、映像の深度を表現することができる情報としては、映像オブジェクトのディスパリティ(disparity)が含まれる。ここで、ディスパリティは、両眼の視差である左目映像と右目映像との距離を意味する。
図1は、本発明の一実施形態によるオーディオ信号処理装置を示す図面である。図1を参照すれば、本発明の一実施形態によるオーディオ信号処理装置100は、インデックス予測部(index estimation nunit)110及びレンダリング部(rendering unit)150を含む。
インデックス予測部110は、三次元映像情報を入力され、三次元映像情報に基づいて、オーディオ・オブジェクトに適用するインデックス情報を生成する。三次元映像情報は、少なくとも1つの映像フレーム単位で入力される。例えば、24Hzの映像の場合、1秒に24個の映像フレームが含まれ、1秒に24回の映像フレーム別に、三次元映像情報が入力される。また、三次元映像情報は、偶数フレームごとに入力され、前記例では、1秒に12回の映像フレーム別に、三次元映像情報が入力される。
ここで、インデックス情報は、オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも1つの方向に立体感を付与するため(applying a three-dimensional effect)の情報である。インデックス情報を利用すれば、オーディオ・オブジェクト別に、最大、左右上下前後の6方向における立体感を表現することができる。インデックス情報は、1つのフレームに含まれる少なくとも1つのオーディオ・オブジェクトに対応して生成される。また、インデックス情報は、1つのフレームでの代表的なオーディオ・オブジェクトにマッチングされて生成される。
インデックス情報は、以下で、図3ないし図5を参照して詳細に説明する。
レンダリング部150は、インデックス予測部110で生成されたインデックス情報に基づいて、オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも1つの方向における立体感を付与する。
図2は、本発明の他の実施形態によるオーディオ信号処理装置を詳細に示す一図面である。図2を参照すれば、オーディオ信号処理装置200は、図1のオーディオ信号処理装置100に比べ、信号抽出部280及びミキシング部290のうち少なくとも一つをさらに含んでもよい。インデックス予測部210及びレンダリング部250は、それぞれ図1のインデックス予測部110及びレンダリング部150と同一に対応するので、図1と重複する説明は省略する。
信号抽出部280は、ステレオオーディオ信号Lin,Rinを入力され、ステレオオーディオ信号Lin,Rinから、左/右領域に対応する左/右信号S_R/S_L、及び中央領域に対応するセンターチャネル信号S_Cを分離する。そして、前記分離された信号である左/右信号S_R/S_L及びセンターチャネル信号S_Cをレンダリング部250に伝送する。ここで、ステレオオーディオ信号は、左チャネル(L−channel)オーディオ信号Linと、右チャネル(R_channel)オーディオ信号Rinと、を含んでもよい。
具体的には、信号抽出部280は、左チャネル(L−channel)オーディオ信号Linと、右チャネル(R_channel)オーディオ信号Rinとの干渉度(coherence function)と類似度(similarity function)とを利用して、センターチャネル信号S_Cを生成することができる。そして、左チャネル(L−channel)オーディオ信号Linと、右チャネル(R_channel)オーディオ信号Rinとに対応する左/右信号S_R/S_Lを生成することができる。具体的には、左/右信号S_R/S_Lは、入力されたステレオオーディオ信号Lin,Rinから、センターチャネル信号S_Cの一部または全部を減算して生成することができる。
インデックス予測部210は、三次元映像情報に基づいて、左右方向における音響拡張感情報、前後方向におけるデプス情報、及び上下方向における高度感情報のうち少なくとも一つを、インデックス情報として生成することができる。ここで、音響拡張感情報、デプス情報及び高度感情報は、オーディオ信号に含まれるオーディオ・オブジェクトにマッチングされる値として生成される。ここで、インデックス予測部210がインデックス情報を生成するために入力されるオーディオ信号は、信号抽出部280で生成される左/右信号S_R/S_L及びセンターチャネル信号S_C、及びステレオオーディオ信号Lin,Rinのうち少なくとも一つを含んでもよい。
インデックス予測部210が入力される三次元映像情報は、三次元映像フレームに含まれる映像オブジェクトに立体感を与えるための情報である。具体的には、三次元映像情報は、映像フレーム別に、最大ディスパリティ値、最小ディスパリティ値及び最大ディスパリティまたは最小ディスパリティを有する映像オブジェクトの位置情報のうち少なくとも一つを含んでもよい。また、三次元映像情報は、映像フレーム内のメイン映像オブジェクトのディスパリティ値、及びメイン映像オブジェクトの位置情報のうち、少なくとも一つを含んでもよい。または、三次元映像情報は、映像のデプスマップ(depth map)を含んでもよい。
また、映像オブジェクトの位置情報は、三次元映像情報が、フレーム別に入力される場合、1フレームに対応する1つの画面を、少なくとも一つに分割したサブフレームに係わる情報を含んでもよい。映像オブジェクトの位置情報については、図3、図4A、図4B及び図5を参照して詳細に説明する。
図3は、本発明の実施形態によるオーディオ信号処理装置で利用される三次元映像情報について説明するための一図面である。図3を参照すれば、1フレームに対応する1つの画面300を9個のサブフレームに分割した場合を例として図示している。映像オブジェクトの位置情報は、図示されたサブフレームに係わる情報で表現される。例えば、それぞれのサブフレームに対応するサブフレーム番号、例えば、「1」ないし「9」を割り当て、映像オブジェクトが位置した領域に該当するサブフレーム番号を、映像オブジェクトの位置情報として設定することができる。
具体的には、映像オブジェクトがサブフレーム「3」内に位置した場合、映像オブジェクトの位置情報は、「subframe number=3」のように表現され、映像オブジェクトが、サブフレーム「4」,「5」,「7」及び「8」にわたって位置する場合、映像オブジェクトの位置情報は、「subframe number=4,5,7,8」のように表現される。
図4A及び図4Bは、本発明の実施形態によるオーディオ信号処理装置で利用される三次元映像情報について説明するための他の図面である。
インデックス予測部210は、連続するフレームにそれぞれ対応する三次元映像情報を入力される。図4Aは、連続するフレームのうち、1フレームに対応する映像を示し、図4Bは、連続するフレームのうち、1フレームに後続するフレームに対応する映像を示す。図4A及び図4Bでは、図3で説明した1つのフレームを、16個のサブフレームに分割した場合を例として挙げて図示している。図4A及び図4Bに図示された映像画面410,460のx軸は、映像の左右方向を示し、y軸は、映像の上下方向を示す。また、サブフレームは、「x_y」値で示すことができる。例えば、図4Aの423サブフレームの位置値は、「3_3」と表現される。
ディスパリティが大きくなるほど、両眼視差が大きくなり、ユーザは、物体が近くにあると認識することになり、ディスパリティが小くなるほど、両眼視差が小さくなり、ユーザは、物体が遠くあると認識することになる。例えば、二次元映像の場合、両眼視差が存在せず、デプス値が0になる。そして、ユーザの近くにある物体であればあるほど、両眼視差が大きくなり、大きいデプス値を有することになる。
図4Aを参照すれば、1フレームに対応する映像画面410において、映像オブジェクト421に、最大ディスパリティが付与され、映像オブジェクト421に付与された最大ディスパリティ値が、三次元映像情報に含まれる。また、最大ディスパリティ値を有する映像オブジェクト421の位置情報である所定フレーム423の位置を示す情報、例えば、「subframe number=3_3」が、三次元映像情報に含まれる。
図4Bを参照すれば、映像画面410がディスプレイされる時点を基準に、隣接した後続時点で、映像画面460がディスプレイされる。
後続フレームに対応する映像画面460において、映像オブジェクト471に最大ディスパリティが付与され、映像オブジェクト471に付与された最大ディスパリティ値が、三次元映像情報に含まれる。また、最大ディスパリティ値を有する映像オブジェクト471の位置情報である所定サブフレーム473を示す情報、例えば、「subframe number=2_2,2_3,3_2,3_3」、が三次元映像情報に含まれる。
また、図4Aでの映像オブジェクト421が、後続時点で、映像オブジェクト471としてディスプレイされもする。すなわち、ユーザは、連続してディスプレイされる映像画面410,460を介して、動く自動車の映像を視聴することができる。また、映像オブジェクト471である自動車が動きながら音が生じるので、映像オブジェクト471である自動車が音源になる。また、自動車が動きながら生じる音がオーディオ・オブジェクトになる。
インデックス予測部210は、入力された三次元映像情報に基づいて、オーディオ・オブジェクトに対応するインデックス情報を生成する。インデックス情報については、以下の図5を参照して詳細に説明する。
図5は、本発明の実施形態によるオーディオ信号処理装置で生成されるインデックス情報について説明するための図面である。
インデックス情報は、前述のように、音響拡張感情報、デプス情報及び高度感情報のうち少なくとも一つを含んでもよい。音響拡張感情報は、映像画面の左右方向に、オーディオ・オブジェクトに立体感を付与するための情報であり、デプス情報は、映像画面を基準に前後方向に、オーディオ・オブジェクトに立体感を付与するための情報である。また、高度感情報は、映像画面の上下方向に、オーディオ・オブジェクトに立体感を付与するための情報である。具体的には、左右方向は、図示されたx軸方向になり、上下方向は、図示されたy軸方向になり、前後方向は、図示されたz軸方向になる。
図5に図示された映像画面500は、図4Aに図示された映像画面410に同一に対応する。また、点線で表示された映像オブジェクト530は、図4Bに図示された映像オブジェクト471に同一に対応する。図4A、図4B及び図5に図示された例のように、自動車が動きながら音を発生させる映像の場合、1フレームでのオーディオ・オブジェクトは、映像オブジェクト510と一致する。以下では、オーディオ・オブジェクトと、映像オブジェクトとが一致する場合、インデックス情報を生成する動作について詳細に説明する。
音響拡張感情報は、三次元映像情報に含まれる最大ディスパリティ値、及び映像オブジェクトの位置情報を利用して、オーディオ・オブジェクトの左右方向における位置を推定し、推定された位置に基づいて算出される。
具体的には、三次元映像情報が、映像オブジェクト510の最大ディスパリティ値及び位置情報を含む場合、インデックス予測部210は、三次元映像情報を利用して、映像オブジェクト510に対応するオーディオ・オブジェクトの左右方向における位置を推定することができる。そして、推定された位置で認識されるオーディオ・オブジェクトが生成されるように、音響拡張感情報を生成する。例えば、映像オブジェクト510の左右方向における位置がX1地点であるので、X1地点からオーディオ・オブジェクトが生成されるように、音響拡張感情報を生成することができる。また、映像オブジェクト510の最大ディスパリティ値を考慮し、映像オブジェクト510が、ユーザからどれほど近距離にあるかということを判断することができる。従って、ユーザからの距離が近くなるほど、オーディオ出力または音の大きさが増大するように、音響拡張感情報を生成することができる。
図5の例でのように、オーディオ・オブジェクトに対応する映像オブジェクト510が、映像画面500の右側に配置される場合、インデックス予測部210は、左チャネル(left channel)の信号に比べ、右チャネル(right channel)の信号が増幅されて出力されるように、音響拡張感情報を生成する。
デプス情報は、三次元映像情報に含まれる最大ディスパリティまたは最小ディスパリティ値を利用して、オーディオ・オブジェクトの前後方向におけるデプス値を推定し、前記推定されたデプス値に基づいて算出される。
インデックス予測部210は、オーディオ・オブジェクトのデプス値を、映像オブジェクトのデプス値に比例して設定することができる。
具体的には、三次元映像情報が、映像オブジェクト510の最大ディスパリティまたは最小ディスパリティ値を含む場合、インデックス予測部210は、三次元映像情報を利用して、映像オブジェクト510に対応するオーディオ・オブジェクトのデプス情報、すなわち、デプスを推定することができる。そして、推定されたオーディオ・オブジェクトのデプス値によって、オーディオ出力または音の大きさが増大するように、デプス情報を生成することができる。
高度感情報は、三次元映像情報に含まれる最大ディスパリティ値及び位置情報を利用して、映像オブジェクト510に対応するオーディオ・オブジェクトの上下方向における位置を推定し、推定された位置に基づいて算出される。
具体的には、三次元映像情報が、映像オブジェクト510の最大ディスパリティ値及び位置情報を含む場合、インデックス予測部210は、三次元映像情報を利用して、映像オブジェクト510に対応するオーディオ・オブジェクトの上下方向における位置を推定することができる。そして、推定された位置で認識されるオーディオ・オブジェクトが生成されるように、高度感情報を生成する。
例えば、映像オブジェクト510の上下方向における位置がY1地点であるので、Y1地点でオーディオ・オブジェクトが生成されるように、高度感情報を生成することができる。また、映像オブジェクト510の最大ディスパリティ値を考慮し、映像オブジェクト510が、ユーザからどれほど近距離にあるかということを判断することができる。従って、ユーザからの距離が近くなるほど、オーディオ出力または音の大きさが増大するように、高度感情報を生成することができる。
レンダリング部250は、入力される左/右信号S_R/S_L及びセンターチャネル信号S_Cら別に、オーディオ信号に含まれるオーディオ・オブジェクトに立体感を付与することができる。具体的には、レンダリング部250は、高度レンダリング部(elevation rendering unit)251及びパンニング及びデプス制御部(panning and depth control unit)253を含んでもよい。
高度レンダリング部250は、インデックス生成部210で生成されたインデックス情報に基づいて、オーディオ・オブジェクトが所定高度に定位されるように、オーディオ・オブジェクトを含むオーディオ信号を生成することができる。具体的には、高度レンダリング部250は、インデックス情報に含まれる高度感情報に基づいて、オーディオ・オブジェクトの上下方向の位置によって、オーディオ信号が仮想高度感を再現することができるように、オーディオ信号を生成する。
例えば、高度レンダリング部250は、オーディオ・オブジェクトに対応する映像オブジェクトが、映像画面の上端に位置する場合、上端位置まで高度感を再現し、オーディオ・オブジェクトに対応する映像オブジェクトが、映像画面の下端に位置する場合、下端位置まで高度感を再現することができる。また、高度レンダリング部250は、映像オブジェクトが、映像画面の中間から上側に、続けて移動する場合、高度感効果を強調するために、映像画面の上側を越えてまで、仮想高度感を再現することができる。
また、仮想高度感を再現するため、高度レンダリング部250は、頭部伝達関数(HRTF:head related transfer function)を利用して、オーディオ信号をレンダリングすることができる。
パンニング及びデプス制御部253は、インデックス生成部210で生成されたインデックス情報に基づいて、オーディオ・オブジェクトが、左右方向における所定地点に定位され、所定デプスを有するように、オーディオ・オブジェクトを含むオーディオ信号を生成することができる。具体的には、パンニング及びデプス制御部253は、インデックス情報に含まれる音響拡張感情報及びデプス情報に基づいて、ユーザが、左右方向における所定地点に位置し、デプス値に対応するオーディオ出力または音の大きさを認識するように、オーディオ信号を生成することができる。
例えば、映像オブジェクト510に対応するオーディオ・オブジェクトのデプス値が大きい場合、ユーザから近く位置する音になる。従って、パンニング及びデプス制御部253は、前述の例において、オーディオ信号の出力を増大させることができる。または、映像オブジェクト510に対応するオーディオ・オブジェクトのデプス値が小さい場合、ユーザから遠く位置する音になる。従って、パンニング及びデプス制御部253は、前述の例において、ユーザが遠いところで生じる音を認識するように、オーディオ信号の初期反射音(early reflection)を調節したり、あるいは残響(reverberation)を調節することができる。
また、パンニング及びデプス制御部253は、音響拡張感情報に基づいて判断したとき、映像オブジェクトに対応するオーディオ・オブジェクトの位置が、左側または右側に配置される場合、左チャネル(left channel)の信号または右チャネル(right channel)の信号が増幅されて出力されるように、オーディオ信号をレンダリングする。
再び、図5を参照すれば、映像オブジェクト510を含む1フレームに、後続して映像オブジェクト530を含む他のフレームが出力される。それに対応し、レンダリング部250は、連続するオーディオフレームに対応するオーディオ信号をレンダリングする。図5の例で、映像オブジェクト510,530である自動車は、映像画面500の右側上端から左側下端に移動し、それにより、オーディオ・オブジェクトも、右側上端から左側下端に移動することになる。レンダリング部250が、フレーム別に、オーディオ・オブジェクトに、左右方向、上下方向及び前後方向に立体感を付与することができる。それにより、ユーザは、512方向のように、上から下に低下する音、511方向のように、右側から左側に移動する音、及び後から前に飛び出す音を認識することができる。
図6は、図1のインデックス予測部を詳細に示す一図面である。図6に図示されたインデックス予測部610は、図1のインデックス予測部110、または図2のインデックス予測部210に対応する。従って、図1及び図2と重複する説明は省略する。
インデックス予測部610は、オーディオ・オブジェクトと、映像オブジェクトとが不一致である場合、及びオーディオ・オブジェクトが非効果音である場合のうち少なくとも1つの場合、オーディオ・オブジェクトの立体感が低下するように、インデックス情報を生成することができる。
具体的には、オーディオ・オブジェクトが、映像オブジェクトと不一致である場合、映像オブジェクトが音を発生させない場合である。図4A、図4B及び図5の例でのように、映像オブジェクトが自動車である場合、映像オブジェクト自体が音を発生させるオーディオ・オブジェクトと一致する。他の例として、人が手を振る映像の場合、映像オブジェクトは、人の手になる。しかし、人の手が振られるとき、いかなる音も生じるものではないので、かような場合、映像オブジェクトとオーディオ・オブジェクトは、不一致であり、インデックス予測部610は、オーディオ・オブジェクトの立体感が最小化されるように、インデックス情報を生成する。具体的には、デプス情報で、デプス値は、基本オフセット値として設定され、音響拡張感情報は、左チャネル及び右チャネルで出力されるオーディオ信号の大きさが同一になるように設定される。また、高度感情報は、上側及び右側の位置を考慮せず、所定オフセット高度に対応するオーディオ信号が出力されるように設定される。
また、オーディオ・オブジェクトが非効果音である場合、オーディオ・オブジェクトの位置変化量が小さい場合のような静的音源(static source)である場合がある。例えば、人の音声、固定された位置で演奏されるピアノ伴奏音、または背景音楽などは、静的音源であり、発生位置が急変しない。従って、かような非効果音である場合には、立体感が最小化されるように、インデックス情報を生成する。非効果音と効果音については、以下で図7及び図8を参照して詳細に説明する。
図6を参照すれば、インデックス予測部210は、音源感知部620、比較部630及びインデックス生成部640を含んでもよい。
音源感知部620は、ステレオオーディオ信号Lin,Rin、左/右信号S_R/S_L及びセンターチャネル信号S_Cのうち少なくとも一つを、オーディオ信号として入力され、前記入力されたオーディオ信号の方向角または方向ベクトル、及び周波数帯域別エネルギーのうち少なくとも一つを分析し、前記分析結果に基づいて、前記効果音と前記非効果音とを区別することができる。
比較部630は、オーディオ・オブジェクトと、映像オブジェクトとが一致するか否かを判断する。
インデックス生成部640は、オーディオ・オブジェクトと、映像オブジェクトとが不一致である場合、及びオーディオ・オブジェクトが非効果音である場合のうち少なくとも1つの場合、オーディオ・オブジェクトの立体感が低下したり、あるいは最小化されるように、インデックス情報を生成する。
図7Aないし図7Cは、非効果音について説明するための一図面である。図7Aは、非効果音を生成するオーディオ・オブジェクトと、それに対応する左右角及びグローバルアングルとについて説明するための図面である。図7Bは、経時的な、非効果音に対応するオーディオ信号の波形変化を示す。そして、図7Cは、フレーム数による非効果音のグローバルアングル変化を示す。
図7Aを参照すれば、非効果音としては、人間732の音声、または楽器722,726の音などを例として挙げることができる。
以下では、非効果音が生じる方向の角度を、左右角(panning angle)とする。そして、非効果音が収斂される角度を、グローバルアングル(global angle)とする。図7Aを参照すれば、音源が楽器722,726から生じる音楽である場合、グローバルアングルは、中心地点Cに収斂される。すなわち、ユーザが、ギター722音を聞く場合、中心地点Cから721方向に形成される左右角を有する静的音源を認識する。また、ユーザがピアノ726音を聞く場合、中心地点Cから725方向に形成される左右角を有する静的音源を認識する。
音源の左右角及びグローバルアングルは、オーディオ・オブジェクトを含むオーディオ信号の方向ベクトル(direction vector)を利用して、推定することができる。前記左右角及びグローバルアングルの推定は、以下で説明する角追跡部621で行われ、またはオーディオ信号処理装置100,200内のコントローラ(controller)(図示せず)で行われる。また、非効果音の場合、左右角の変化量及びグローバルアングルの変化量が小さい。
図7Bを参照すれば、x軸は、オーディオ信号のサンプリング数(sampling number)を示し、y軸は、オーディオ信号の波形(waveform)を示す。非効果音の場合、楽器から出力される音の強弱により、オーディオ信号の振幅が一定区間の間、減少または増加する。751の部分は、楽器から音が強く出力される場合に対応するオーディオ信号の波形になる。
図7Cを参照すれば、x軸は、オーディオ信号のフレーム数(frame number)を示し、y軸は、グローバルアングルを示す。図7Cを参照すれば、楽器の音または音声のような非効果音は、グローバルアングルの変化量が小さい。すなわち、音源が静的であるので、ユーザは、急変しないオーディオ・オブジェクトを認識する。
図8Aないし図8Cは、効果音について説明するための一図面である。図8Aは、効果音を生成するオーディオ・オブジェクト、それに対応する左右角及びグローバルアングルについて説明するための図面である。図8Bは、効果音に対応するオーディオ信号の経時的な波形変化を示す。そして、図8Cは、フレーム数による効果音のグローバルアングル変化を示す。
図8Aを参照すれば、効果音としては、オーディオ・オブジェクトが持続的に移動しながら生じる音がある。例えば、811地点に位置した飛行機が、所定方向813に移動し、812地点に位置する間に生じる音がある。すなわち、飛行機、自動車などのオーディオ・オブジェクトが動きながら生じる音などがある。
図8Aを参照すれば、飛行機が移動しながら生じる音のような効果音の場合、グローバルアングルは、図示された813方向のように移動する。すなわち、効果音の場合、グローバルアングルが所定中心地点ではない左右方向の周囲(surround)に向かう。従って、ユーザが効果音を聞く場合、左右に移動する動的音源(dynamic source)を認識する。
図8Bを参照すれば、x軸は、オーディオ信号のサンプリング数(sampling number)を示し、y軸は、オーディオ信号の波形(waveform)を示す。効果音の場合、オーディオ・オブジェクトから生じる音の強弱変化が少なく、オーディオ信号の振幅変化がリアルタイムで示される。すなわち、図7Bの場合と異なり、振幅が全体的に大きくなる区間、または振幅が全体的に小さくなる区間が存在しない。
図8Cを参照すれば、x軸は、オーディオ信号のフレーム数(frame number)を示し、y軸は、グローバルアングルを示す。図8Cを参照すれば、効果音は、グローバルアングルの変化量が大きい。すなわち、音源が動的であるので、ユーザは、変化するオーディオ・オブジェクトを認識することになる。
具体的には、音源感知部620は、ステレオオーディオ信号Lin,Rinを入力され、ステレオオーディオ信号Lin,Rinに含まれるオーディオ・オブジェクトの方向角を追跡し、前記追跡結果に基づいて、効果音と非効果音とを区別することができる。ここで、方向角は、前述のグローバルアングルまたは左右角などになる。
具体的には、音源感知部620は、角追跡部621及び静的ソース感知部623を含んでもよい。
角追跡部621は、連続するオーディオフレームに含まれるオーディオ・オブジェクトの方向角を追跡する。ここで、方向角は、前述のグローバルアングル、左右角及び前後角のうち少なくとも一つを含んでもよい。そして、追跡された結果を、静的ソース感知部623に通知する。
具体的には、角追跡部621は、ステレオオーディオ信号で、左チャネル(L−channel)のステレオオーディオ信号と、右チャネル(R−channel)のステレオオーディオ信号とのエネルギーの比率によって、左右方向における方向角を追跡することができる。または、角追跡部621は、左/右信号S_R/S_Lと、センターチャネル信号S_Cとのエネルギー比率によって、前後(front-back)方向における方向角である前後角を追跡することができる。
静的ソース感知部623は、角追跡部621の追跡結果に基づいて、非効果音と効果音とを区別する。
具体的には、静的ソース感知部623は、角追跡部621で追跡された方向角が、図7Aで図示されたように、中心地点に收斂される場合、あるいは追跡された前記方向角の変化量が、所定値より小さいか、あるいはそれと同じである場合、オーディオ・オブジェクトが非効果音であると判断することができる。
また、静的ソース感知部623は、角追跡部621で追跡された方向角が、図8Aで図示されたように、左右方向に收斂される場合、あるいは追跡された前記方向角の変化量が、所定値より大きいか、あるいはそれと同じである場合、オーディオ・オブジェクトが効果音であると判断することができる。
また、静的ソース感知部623は、左/右信号S_R/S_Lと、センターチャネル信号S_Cとの高周波数領域のエネルギーの比率を分析し、左/右信号S_R/S_Lのエネルギーの比率が、センターチャネル信号S_Cのエネルギーの比率より低い場合、オーディオ・オブジェクトが、前記非効果音であると判断することができる。また、左/右信号S_R/S_Lのエネルギーの比率が、センターチャネル信号S_Cのエネルギーの比率より高い場合、オーディオ・オブジェクトが、左側または右側に移動すると判断することができるので、その場合には、効果音の場合であると判断することができる。
また、静的ソース感知部623は、センターチャネル信号S_Cにおいて、音声帯域周波数区間と、非音声帯域周波数区間とのエネルギーの比率を分析し、前記分析結果に基づいて、オーディオ・オブジェクトが非効果音である音声信号であるかということを判断することができる。
また、比較部630は、角追跡部621で算出された方向により、オーディオ・オブジェクトの左または右の位置を判断する。そして、オーディオ・オブジェクトの位置を、三次元映像情報に含まれる映像オブジェクトの位置情報と比べ、一致いかんを判断する。比較部630は、映像オブジェクトとオーディオ・オブジェクトとの位置が一致するか否かに係わる情報を、インデックス生成部640に伝送する。
インデックス生成部640は、音源感知部620及び比較部630から伝送される結果によって、効果音である場合、及び映像オブジェクトとオーディオ・オブジェクトとが一致する場合のうち、少なくとも1つの場合には、オーディオ・オブジェクトに、前述の6方向における立体感が増加されるように、インデックス情報を生成する。そして、非効果音である場合、及び映像オブジェクトとオーディオ・オブジェクトとが不一致である場合のうち少なくとも一つには、オーディオ・オブジェクトに立体感を付与しないか、あるいは基本オフセット値による立体感が付与されるように、インデックス情報を生成する。
前述のように、本発明の実施形態によるオーディオ信号処理装置は、映像画面の立体感変化に対応し、立体感を有するオーディオ信号を生成することができる。それによって、ユーザが所定映像及びオーディオを共に視聴する場合、最大限の立体感効果を感じることになる。
また、本発明の実施形態によるオーディオ信号処理装置は、6方向における立体感を有するオーディオ・オブジェクトを生成することができる。それによって、オーディオ信号の立体感を向上させることができる。
図9は、本発明の一実施形態によるオーディオ信号処理装置について説明するためのフローチャートである。本発明の一実施形態によるオーディオ信号処理方法は、図1ないし図8Cを参照して説明した本発明によるオーディオ信号処理装置と、その動作構成が同一である。従って、図1ないし図8Cと重複する説明は省略する。また、本発明の一実施形態によるオーディオ信号処理方法は、図1、図2及び図6のオーディオ信号処理装置を参照して説明する。
本発明の一実施形態によるオーディオ信号処理方法900は、少なくとも1つのオーディオ・オブジェクトを含むオーディオ信号及び三次元映像情報を入力される(910段階)。910段階の動作は、インデックス予測部110,210で行われる。
910段階で入力された三次元映像情報に基づいて、前記オーディオ・オブジェクト別に、左右方向、上下方向及び前後方向のうち少なくとも1つの方向における立体感を付与するための情報であるインデックス情報を生成する(920段階)。920段階の動作は、インデックス予測部110,210で遂行される。
そして、三次元映像のための立体感情報に基づいて、オーディオ信号に立体感を付与する。具体的には、920段階で生成されたインデックス情報に基づいて、オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも1つの方向における立体感を付与する(930段階)。930段階の動作は、レンダリング部150,250で遂行される。
具体的には、オーディオ信号の再生時、三次元映像に含まれたオブジェクトの動きに相応し、音源の位置が移動するように感じるように、オーディオ信号に立体感を付与することができる。
図10は、図9の920段階について詳細に説明する一図面である。920段階は、図10に図示された1020段階と同一に対応する。以下、1020段階は、オーディオ信号をレンダリングする段階であるとする。
オーディオ信号のレンダリング(1020段階)は、図示された1021,1022及び1023段階を含む。
具体的には、オーディオ・オブジェクトと、映像オブジェクトとが不一致である場合、及びオーディオ・オブジェクトが非効果音である場合のうち少なくとも1つの場合に該当するか否かを判断する(1021段階)。1021段階の動作は、インデックス予測部110,210,610、具体的には、音源感知部620または比較部630のうち少なくとも一つで遂行される。
1021段階の判断結果、前記少なくとも1つの場合に該当すれば、オーディオ・オブジェクトの立体感が低下するように、インデックス情報を生成する(1022段階)。1021段階の動作は、インデックス予測部110,210,610、具体的には、インデックス生成部640で遂行される。
1021段階の判断結果、前記少なくとも1つの場合に該当しなければ、オーディオ・オブジェクトが、左右、上下、前後の6方向のうち少なくとも1つの方向において立体感を有するように、インデックス情報を生成する(1023段階)。1023段階の動作は、インデックス予測部110,210,610、具体的には、インデックス生成部640で遂行される。
以上の説明は、本発明の一実施形態に過ぎず、本発明が属する技術分野で当業者であるならば、本発明の本質的特性からはずれない範囲で変形された形態で具現することが可能である。従って、本発明の範囲は、前述の実施形態に限定されるものではなく、特許請求の範囲に記載した内容と同等な範囲内にある多様な実施形態が含まれるように解釈されなければならないのである。

Claims (25)

  1. 三次元映像情報を入力され、前記三次元映像情報に基づいて、オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも1つの方向に立体感を付与するための情報であるインデックス情報を生成するインデックス予測部と、
    前記インデックス情報に基づいて、前記オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも1つの方向における立体感を付与するレンダリング部と、を含むことを特徴とするオーディオ信号処理装置。
  2. 前記インデックス予測部は、
    前記左右方向における音響拡張感情報、前記前後方向におけるデプス情報、及び前記上下方向における高度感情報のうち少なくとも一つを含む前記インデックス情報を生成することを特徴とする請求項1に記載のオーディオ信号処理装置。
  3. 前記三次元映像情報は、
    映像フレーム別に、最大ディスパリティ値、最小ディスパリティ値、及び前記最大ディスパリティまたは最小ディスパリティを有する映像オブジェクトの位置情報のうち少なくとも一つを含むことを特徴とする請求項1に記載のオーディオ信号処理装置。
  4. 前記映像オブジェクトの位置情報は、
    前記三次元映像情報が、前記映像フレーム別に入力される場合、前記1フレームに対応する1つの映像画面を、少なくとも一つに分割したサブフレームに係わる情報を含むことを特徴とする請求項3に記載のオーディオ信号処理装置。
  5. 前記音響拡張感情報は、
    前記最大ディスパリティ値及び前記位置情報を利用して、前記オーディオ・オブジェクトの前記左右方向における位置を推定し、前記推定された位置に基づいて算出されることを特徴とする請求項4に記載のオーディオ信号処理装置。
  6. 前記デプス情報は、
    前記最大ディスパリティまたは最小ディスパリティ値を利用して、前記オーディオ・オブジェクトの前記前後方向におけるデプス値を推定し、前記推定されたデプス値に基づいて算出されることを特徴とする請求項4に記載のオーディオ信号処理装置。
  7. 前記高度感情報は、
    前記最大ディスパリティ値及び前記位置情報を利用して、前記オーディオ・オブジェクトの前記上下方向における位置を推定し、前記推定された位置に基づいて算出されることを特徴とする請求項4に記載のオーディオ信号処理装置。
  8. 前記インデックス予測部は、
    前記オーディオ・オブジェクトと、映像オブジェクトとが不一致である場合、及び前記オーディオ・オブジェクトが非効果音である場合のうち少なくとも1つの場合、前記オーディオ・オブジェクトの立体感が低下するように、前記インデックス情報を生成することを特徴とする請求項1に記載のオーディオ信号処理装置。
  9. ステレオオーディオ信号を入力され、前記ステレオオーディオ信号で、左/右信号及びセンターチャネル信号を抽出し、前記抽出された信号を、前記レンダリング部に伝送する信号抽出部をさらに含むことを特徴とする請求項1に記載のオーディオ信号処理装置。
  10. 前記インデックス予測部は、
    前記ステレオオーディオ信号、前記左/右信号及びセンターチャネル信号のうち少なくとも一つを、オーディオ信号として入力され、前記入力されたオーディオ信号の方向角及び周波数帯域別エネルギーのうち少なくとも一つを分析し、前記分析結果に基づいて、効果音と非効果音とを区別する音源感知部と、
    前記オーディオ・オブジェクトと、映像オブジェクトとが一致するか否かを判断する比較部と、
    前記オーディオ・オブジェクトと、前記映像オブジェクトとが不一致である場合、及び前記オーディオ・オブジェクトが前記非効果音である場合のうち少なくとも1つの場合、前記オーディオ・オブジェクトの立体感が低下するように、前記インデックス情報を生成するインデックス生成部と、を含むことを特徴とする請求項9に記載のオーディオ信号処理装置。
  11. 前記音源感知部は、
    前記ステレオオーディオ信号、前記左/右信号及びセンターチャネル信号のうち少なくとも一つを入力され、前記ステレオオーディオ信号に含まれるオーディオ・オブジェクトの方向角を追跡し、前記追跡結果に基づいて、効果音と前記非効果音とを区別することを特徴とする請求項10に記載のオーディオ信号処理装置。
  12. 前記音源感知部は、
    追跡された前記方向角の変化量が、所定値より大きいか、あるいはそれと同じである場合、あるいは追跡された前記方向角が左右方向に收斂される場合、前記オーディオ・オブジェクトが、前記効果音であると判断することを特徴とする請求項11に記載のオーディオ信号処理装置。
  13. 前記音源感知部は、
    追跡された前記方向角の変化量が、所定値より小さいか、あるいはそれと同じである場合、あるいは前記方向角が中心地点に収斂される場合、前記オーディオ・オブジェクトが静的音源であると判断することを特徴とする請求項11に記載のオーディオ信号処理装置。
  14. 前記音源感知部は、
    前記左/右信号と、前記センターチャネル信号との高周波数領域のエネルギーの比率を分析し、前記左/右信号のエネルギーの比率が、前記センターチャネル信号のエネルギーの比率より低い場合、前記オーディオ・オブジェクトが前記非効果音であると判断することを特徴とする請求項10に記載のオーディオ信号処理装置。
  15. 前記音源感知部は、
    前記センターチャネル信号において、音声帯域周波数区間と、非音声帯域周波数区間とのエネルギーの比率を分析し、前記分析結果に基づいて、前記オーディオ・オブジェクトが前記非効果音である音声信号であるか否かを判断することを特徴とする請求項10に記載のオーディオ信号処理装置。
  16. 前記三次元映像情報は、
    1映像フレーム内に存在する映像オブジェクト別に、ディスパリティ値、前記映像オブジェクトの位置情報及び映像のデプスマップのうち少なくとも一つを含むことを特徴とする請求項1に記載のオーディオ信号処理装置。
  17. 少なくとも1つのオーディオ・オブジェクトを含むオーディオ信号及び三次元映像情報を入力される段階と、
    前記三次元映像情報に基づいて、前記オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも1つの方向における立体感を付与するための情報であるインデックス情報を生成する段階と、
    前記インデックス情報に基づいて、前記オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも1つの方向に立体感を付与する段階と、を含むことを特徴とするオーディオ信号処理方法。
  18. 前記インデックス情報を生成する段階は、
    前記左右方向における音響拡張感情報、前記前後方向におけるデプス情報、及び前記上下方向における高度感情報のうち少なくとも一つを含む前記インデックス情報を生成する段階を含むことを特徴とする請求項17に記載のオーディオ信号処理方法。
  19. 前記インデックス情報を生成する段階は、
    前記最大ディスパリティ値及び前記位置情報を利用して、前記オーディオ・オブジェクトの前記左右方向における位置を推定し、前記推定された位置に基づいて、前記左右方向におけるインデックス情報を生成する段階と、
    前記最大ディスパリティ値及び最小ディスパリティ値を利用して、前記オーディオ・オブジェクトの前記前後方向におけるデプス値を推定し、前記推定されたデプス値に基づいて、前記前後方向におけるインデックス情報を生成する段階と、
    前記最大ディスパリティ値及び前記位置情報を利用して、前記オーディオ・オブジェクトの前記上下方向における位置を推定し、前記推定された位置に基づいて、前記上下方向におけるインデックス情報を生成する段階と、を含むことを特徴とする請求項18に記載のオーディオ信号処理方法。
  20. 前記オーディオ・オブジェクトと、映像オブジェクトとが一致するか否かということを判断する段階をさらに含み、
    前記インデックス情報を生成する段階は、
    前記オーディオ・オブジェクトと、前記映像オブジェクトとが不一致である場合、前記オーディオ・オブジェクトの立体感が低下するように、前記インデックス情報を生成する段階を含むことを特徴とする請求項17に記載のオーディオ信号処理方法。
  21. 前記オーディオ・オブジェクトが非効果音であるか否かということを判断する段階をさらに含み、
    前記インデックス情報を生成する段階は、
    前記オーディオ・オブジェクトが前記非効果音である場合、前記オーディオ・オブジェクトの立体感が低下するように、前記インデックス情報を生成する段階を含むことを特徴とする請求項17に記載のオーディオ信号処理方法。
  22. 三次元映像に対応するオーディオ信号を入力される段階と、
    前記三次元映像のための立体感情報に基づいて、前記オーディオ信号に立体感を付与する段階と、を含むオーディオ信号処理方法。
  23. 前記立体感情報は、
    前記三次元映像に係わる深度情報及び位置情報のうち少なくとも一つを含むことを特徴とする請求項22に記載のオーディオ信号処理方法。
  24. 前記オーディオ信号に立体感を付与する段階は、
    再生時に、前記三次元映像に含まれたオブジェクトの動きに相応するように、音源の位置が移動するように感じられるように、前記オーディオ信号を処理する段階を含むことを特徴とする請求項22に記載のオーディオ信号処理方法。
  25. 前記オーディオ信号に立体感を付与する段階は、
    前記三次元映像の深度、左右拡張感及び高度感のうち少なくとも一つを知らせるインデックス情報を基に、前記オーディオ信号を、複数個の方向にレンダリングする段階を含むことを特徴とする請求項22に記載のオーディオ信号処理方法。
JP2014523837A 2011-07-29 2012-07-26 オーディオ信号処理装置及びオーディオ信号処理方法 Active JP5890523B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020110076148A KR101901908B1 (ko) 2011-07-29 2011-07-29 오디오 신호 처리 방법 및 그에 따른 오디오 신호 처리 장치
KR10-2011-0076148 2011-07-29
PCT/KR2012/005955 WO2013019022A2 (en) 2011-07-29 2012-07-26 Method and apparatus for processing audio signal

Publications (2)

Publication Number Publication Date
JP2014522181A true JP2014522181A (ja) 2014-08-28
JP5890523B2 JP5890523B2 (ja) 2016-03-22

Family

ID=47597241

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014523837A Active JP5890523B2 (ja) 2011-07-29 2012-07-26 オーディオ信号処理装置及びオーディオ信号処理方法

Country Status (6)

Country Link
US (1) US9554227B2 (ja)
EP (1) EP2737727B1 (ja)
JP (1) JP5890523B2 (ja)
KR (1) KR101901908B1 (ja)
CN (1) CN103858447B (ja)
WO (1) WO2013019022A2 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101717787B1 (ko) * 2010-04-29 2017-03-17 엘지전자 주식회사 디스플레이장치 및 그의 음성신호 출력 방법
US9892743B2 (en) * 2012-12-27 2018-02-13 Avaya Inc. Security surveillance via three-dimensional audio space presentation
US10203839B2 (en) 2012-12-27 2019-02-12 Avaya Inc. Three-dimensional generalized space
KR101859453B1 (ko) * 2013-03-29 2018-05-21 삼성전자주식회사 오디오 장치 및 이의 오디오 제공 방법
KR102148217B1 (ko) * 2013-04-27 2020-08-26 인텔렉추얼디스커버리 주식회사 위치기반 오디오 신호처리 방법
US20140328505A1 (en) * 2013-05-02 2014-11-06 Microsoft Corporation Sound field adaptation based upon user tracking
EP2879047A3 (en) * 2013-11-28 2015-12-16 LG Electronics Inc. Mobile terminal and controlling method thereof
WO2016114432A1 (ko) 2015-01-16 2016-07-21 삼성전자 주식회사 영상 정보에 기초하여 음향을 처리하는 방법, 및 그에 따른 디바이스
US10176644B2 (en) * 2015-06-07 2019-01-08 Apple Inc. Automatic rendering of 3D sound
CN106657178B (zh) * 2015-10-29 2019-08-06 中国科学院声学研究所 一种基于http服务器的三维音效在线处理方法
KR20170106063A (ko) * 2016-03-11 2017-09-20 가우디오디오랩 주식회사 오디오 신호 처리 방법 및 장치
CN106162447A (zh) * 2016-06-24 2016-11-23 维沃移动通信有限公司 一种音频播放的方法和终端
CN106803910A (zh) * 2017-02-28 2017-06-06 努比亚技术有限公司 一种音频处理装置及方法
CN108777832B (zh) * 2018-06-13 2021-02-09 上海艺瓣文化传播有限公司 一种基于视频对象追踪的实时3d声场构建和混音系统
CN109168125B (zh) * 2018-09-16 2020-10-30 东阳市鑫联工业设计有限公司 一种3d音效系统
US11356791B2 (en) 2018-12-27 2022-06-07 Gilberto Torres Ayala Vector audio panning and playback system
KR102217262B1 (ko) 2020-07-20 2021-02-18 주식회사 파파플랜트 라이브커머스 서비스 제공 시스템 및 방법
KR20230006181A (ko) 2021-07-02 2023-01-10 블링크코퍼레이션 주식회사 지자체 소상공인을 위한 라이브 서비스 제공 시스템 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006128816A (ja) * 2004-10-26 2006-05-18 Victor Co Of Japan Ltd 立体映像・立体音響対応記録プログラム、再生プログラム、記録装置、再生装置及び記録メディア
JP2009278381A (ja) * 2008-05-14 2009-11-26 Nippon Hoso Kyokai <Nhk> 音像定位音響メタ情報を付加した音響信号多重伝送システム、制作装置及び再生装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1063470A (ja) * 1996-06-12 1998-03-06 Nintendo Co Ltd 画像表示に連動する音響発生装置
US6829018B2 (en) 2001-09-17 2004-12-07 Koninklijke Philips Electronics N.V. Three-dimensional sound creation assisted by visual information
US20060120534A1 (en) * 2002-10-15 2006-06-08 Jeong-Il Seo Method for generating and consuming 3d audio scene with extended spatiality of sound source
JP2004151229A (ja) * 2002-10-29 2004-05-27 Matsushita Electric Ind Co Ltd 音声情報変換方法、映像・音声フォーマット、エンコーダ、音声情報変換プログラム、および音声情報変換装置
US20060250391A1 (en) * 2005-05-09 2006-11-09 Vesely Michael A Three dimensional horizontal perspective workstation
EP1784020A1 (en) * 2005-11-08 2007-05-09 TCL & Alcatel Mobile Phones Limited Method and communication apparatus for reproducing a moving picture, and use in a videoconference system
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
CN101350931B (zh) * 2008-08-27 2011-09-14 华为终端有限公司 音频信号的生成、播放方法及装置、处理系统
KR101235832B1 (ko) * 2008-12-08 2013-02-21 한국전자통신연구원 실감 멀티미디어 서비스 제공 방법 및 장치
JP5345025B2 (ja) * 2009-08-28 2013-11-20 富士フイルム株式会社 画像記録装置及び方法
US20110116665A1 (en) * 2009-11-17 2011-05-19 King Bennett M System and method of providing three-dimensional sound at a portable computing device
KR101690252B1 (ko) 2009-12-23 2016-12-27 삼성전자주식회사 신호 처리 방법 및 장치
KR101844511B1 (ko) 2010-03-19 2018-05-18 삼성전자주식회사 입체 음향 재생 방법 및 장치
KR20120004909A (ko) 2010-07-07 2012-01-13 삼성전자주식회사 입체 음향 재생 방법 및 장치
EP2727381B1 (en) * 2011-07-01 2022-01-26 Dolby Laboratories Licensing Corporation Apparatus and method for rendering audio objects

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006128816A (ja) * 2004-10-26 2006-05-18 Victor Co Of Japan Ltd 立体映像・立体音響対応記録プログラム、再生プログラム、記録装置、再生装置及び記録メディア
JP2009278381A (ja) * 2008-05-14 2009-11-26 Nippon Hoso Kyokai <Nhk> 音像定位音響メタ情報を付加した音響信号多重伝送システム、制作装置及び再生装置

Also Published As

Publication number Publication date
JP5890523B2 (ja) 2016-03-22
EP2737727B1 (en) 2017-01-04
CN103858447B (zh) 2016-12-07
KR20130014187A (ko) 2013-02-07
US9554227B2 (en) 2017-01-24
US20130028424A1 (en) 2013-01-31
KR101901908B1 (ko) 2018-11-05
EP2737727A4 (en) 2015-07-22
EP2737727A2 (en) 2014-06-04
CN103858447A (zh) 2014-06-11
WO2013019022A3 (en) 2013-04-04
WO2013019022A2 (en) 2013-02-07

Similar Documents

Publication Publication Date Title
JP5890523B2 (ja) オーディオ信号処理装置及びオーディオ信号処理方法
JP7275227B2 (ja) 複合現実デバイスにおける仮想および実オブジェクトの記録
JP5944840B2 (ja) 立体音響の再生方法及びその装置
CN116156411A (zh) 用于交互式音频环境的空间音频
KR101764175B1 (ko) 입체 음향 재생 방법 및 장치
US10924875B2 (en) Augmented reality platform for navigable, immersive audio experience
CN109314832A (zh) 音频信号处理方法和设备
US10547962B2 (en) Speaker arranged position presenting apparatus
WO2021249157A1 (zh) 发声装置、显示装置、发声控制方法及装置
TW201412092A (zh) 多媒體處理系統及音訊信號處理方法
KR20200087130A (ko) 신호 처리 장치 및 방법, 그리고 프로그램
Brinkmann et al. Audio quality assessment for virtual reality
JP2011234177A (ja) 立体音響再生装置及び再生方法
JP6296072B2 (ja) 音響再生装置及びプログラム
CA3044260A1 (en) Augmented reality platform for navigable, immersive audio experience
US11252528B2 (en) Low-frequency interchannel coherence control
US10812927B2 (en) Spatial sound generation device, spatial sound generation system, spatial sound generation method, and spatial sound generation program
WO2023173285A1 (zh) 音频处理方法、装置、电子设备及计算机可读存储介质
Churnside et al. The Virtual Maestro-The Creation of an Immersive, Interactive Orchestral Experience

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150406

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151217

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20151225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160218

R150 Certificate of patent or registration of utility model

Ref document number: 5890523

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250