JP2014522181A

JP2014522181A - オーディオ信号処理方法及びそれによるオーディオ信号処理装置

Info

Publication number: JP2014522181A
Application number: JP2014523837A
Authority: JP
Inventors: キム，ソン−ミン; リ，ヨン−ウ; リ，ユン−ジェ
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2011-07-29
Filing date: 2012-07-26
Publication date: 2014-08-28
Anticipated expiration: 2032-07-26
Also published as: JP5890523B2; EP2737727B1; CN103858447B; KR20130014187A; US9554227B2; US20130028424A1; KR101901908B1; EP2737727A4; EP2737727A2; CN103858447A; WO2013019022A3; WO2013019022A2

Abstract

三次元映像情報を入力され、該三次元映像情報に基づいて、オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも１つの方向に立体感を付与するための情報であるインデックス情報を生成するインデックス予測部、及びインデックス情報に基づいて、オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも１つの方向における立体感を付与するレンダリング部と、を含み、立体音響効果を最大化させることができるオーディオ信号処理装置である。

Description

本発明は、オーディオ信号処理方法及びそれによるオーディオ信号処理装置に係り、さらに詳細には、立体音響を生成することができるオーディオ信号処理方法及びそれによるオーディオ信号処理装置に関する。

映像技術の発展により、ユーザは、三次元立体映像を視聴することができるようになった。三次元立体映像は、両眼視差を考慮し、左視点映像データを左目に露出させ、右視点映像データを右目に露出させる。ユーザは、三次元映像技術を介して、スクリーンから飛び出してきたり、あるいはスクリーンの奥に入って行くオブジェクトを、臨場感をもって認識することができる。

一方、映像技術の発展と共に、音響に対するユーザの関心が高まり、特に、立体音響技術が、目を見張るように発展している。現在の立体音響技術は、ユーザの周囲に複数個のスピーカを配置し、ユーザをして定位感と臨場感とを感じさせる。例えば、６個のスピーカを利用して、６個の分離されたオーディオ信号を出力する５．１チャネル・オーディオシステムを利用して、立体音響を具現している。しかし、前述の立体音響技術では、映像オブジェクトの立体感変化に対応する立体音響を、ユーザに提供することができない。

従って、映像オブジェクトの立体感変化に対応する立体音響を生成することができる方法及びその装置を提供する必要がある。また、立体音響技術では、オーディオ・オブジェクトの立体感を増大させることが何より重要である。従って、立体感をさらに増大させることができる方法及びその装置を提供する必要がある。

本発明は、映像オブジェクトの立体感変化に対応する立体音響を生成することができるオーディオ信号処理方法、及びそれによるオーディオ信号処理装置の提供を目的とする。

また、本発明は、オーディオ・オブジェクトの立体感を向上させることができるオーディオ信号処理方法、及びそれによるオーディオ信号処理装置の提供を目的とする。

本発明の一実施形態によるオーディオ信号処理装置は、三次元映像情報を入力され、前記三次元映像情報に基づいて、オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも１つの方向に立体感を付与するための情報であるインデックス情報を生成するインデックス予測部、及び前記インデックス情報に基づいて、前記オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも１つの方向における立体感を付与するレンダリング部を含む。

また、前記インデックス予測部は、前記左右方向における音響拡張感情報、前記前後方向におけるデプス情報、及び前記上下方向における高度感情報のうち少なくとも一つを含む前記インデックス情報を生成することができる。

また、前記三次元映像情報は、映像フレーム別に、最大ディスパリティ値、最小ディスパリティ値、及び前記最大ディスパリティまたは最小ディスパリティを有する映像オブジェクトの位置情報のうち少なくとも一つを含んでもよい。

また、前記映像オブジェクトの位置情報は、前記三次元映像情報が、前記映像フレーム別に入力される場合、１フレームに対応する１つの映像画面を、少なくとも一つに分割したサブフレームに係わる情報を含んでもよい。

また、前記音響拡張感情報は、前記最大ディスパリティ値及び前記位置情報を利用して、前記オーディオ・オブジェクトの前記左右方向における位置を推定し、前記推定された位置に基づいて算出される。

また、前記デプス情報は、前記最大ディスパリティまたは最小ディスパリティ値を利用して、前記オーディオ・オブジェクトの前記前後方向におけるデプス値を推定し、前記推定されたデプス値に基づいて算出される。

また、前記高度感情報は、前記最大ディスパリティ値及び前記位置情報を利用して、前記オーディオ・オブジェクトの前記上下方向における位置を推定し、前記推定された位置に基づいて算出される。

また、前記インデックス予測部は、前記オーディオ・オブジェクトと、映像オブジェクトとが不一致である場合、及び前記オーディオ・オブジェクトが非効果音である場合のうち少なくとも１つの場合、前記オーディオ・オブジェクトの立体感が低下するように、前記インデックス情報を生成することができる。

また、ステレオオーディオ信号を入力され、前記ステレオオーディオ信号で、左／右信号及びセンターチャネル信号を抽出し、前記抽出された信号を、前記レンダリング部に伝送する信号抽出部をさらに含んでもよい。

また、前記インデックス予測部は、前記ステレオオーディオ信号、前記左／右信号及びセンターチャネル信号のうち少なくとも一つを、オーディオ信号として入力され、前記入力されたオーディオ信号の方向角及び周波数帯域別エネルギーのうち少なくとも一つを分析し、前記分析結果に基づいて、効果音と非効果音とを区別する音源感知部、前記オーディオ・オブジェクトと、映像オブジェクトとが一致するか否かを判断する比較部、及び前記オーディオ・オブジェクトと、前記映像オブジェクトとが不一致である場合、及び前記オーディオ・オブジェクトが前記非効果音である場合のうち少なくとも１つの場合、前記オーディオ・オブジェクトの立体感が低下するように、前記インデックス情報を生成するインデックス生成部を含んでもよい。

また、前記音源感知部は、前記ステレオオーディオ信号、前記左／右信号及びセンターチャネル信号のうち少なくとも一つを入力され、前記ステレオオーディオ信号に含まれるオーディオ・オブジェクトの方向角を追跡し、前記追跡結果に基づいて、前記効果音と前記非効果音とを区別することができる。

また、前記音源感知部は、追跡された前記方向角の変化量が、所定値より大きいか、あるいはそれと同じである場合、あるいは追跡された前記方向角が左右方向に收斂される（converge）場合、前記オーディオ・オブジェクトが前記効果音であると判断することができる。

また、前記音源感知部は、追跡された前記方向角の変化量が、所定値より小さいか、あるいはそれと同じである場合、あるいは前記方向角が中心地点に収斂される場合、前記オーディオ・オブジェクトが静的音源であると判断することができる。

また、前記音源感知部は、前記左／右信号と、前記センターチャネル信号との高周波数領域のエネルギーの比率を分析し、前記左／右信号のエネルギーの比率が、前記センターチャネル信号のエネルギーの比率より低い場合、前記オーディオ・オブジェクトが前記非効果音であると判断することができる。

前記音源感知部は、前記センターチャネル信号において、音声帯域周波数区間と、非音声帯域周波数区間とのエネルギーの比率を分析し、前記分析結果に基づいて、前記オーディオ・オブジェクトが前記非効果音である音声信号であるか否かを判断することができる。

また、前記三次元映像情報は、１映像フレーム内に存在する映像オブジェクト別に、ディスパリティ値、前記映像オブジェクトの位置情報、及び映像のデプスマップのうち少なくとも一つを含んでもよい。

本発明の一実施形態によるオーディオ信号処理方法は、少なくとも１つのオーディオ・オブジェクトを含むオーディオ信号及び三次元映像情報を入力される段階、前記三次元映像情報に基づいて、前記オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも１つの方向における立体感を付与するための情報であるインデックス情報を生成する段階、及び前記インデックス情報に基づいて、前記オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも１つの方向に立体感を付与する段階を含む。

また、前記インデックス情報を生成する段階は、前記最大ディスパリティ値及び前記位置情報を利用して、前記オーディオ・オブジェクトの前記左右方向における位置を推定し、前記推定された位置に基づいて、前記左右方向でのインデックス情報を生成する段階と、前記最大ディスパリティ値及び最小ディスパリティ値を利用して、前記オーディオ・オブジェクトの前記前後方向でのデプス値を推定し、前記推定されたデプス値に基づいて、前記前後方向におけるインデックス情報を生成する段階と、前記最大ディスパリティ値及び前記位置情報を利用して、前記オーディオ・オブジェクトの前記上下方向における位置を推定し、前記推定された位置に基づいて、前記上下方向におけるインデックス情報を生成する段階と、を含んでもよい。

また、前記オーディオ・オブジェクトと、映像オブジェクトとが一致するか否かということを判断する段階をさらに含み、前記インデックス情報を生成する段階は、前記オーディオ・オブジェクトと、前記映像オブジェクトとが不一致である場合、前記オーディオ・オブジェクトの立体感が低下するように、前記インデックス情報を生成する段階を含んでもよい。

また、前記オーディオ・オブジェクトが非効果音であるか否かということを判断する段階をさらに含み、前記インデックス情報を生成する段階は、前記オーディオ・オブジェクトが前記非効果音である場合、前記オーディオ・オブジェクトの立体感が低下するように、前記インデックス情報を生成する段階を含むことを特徴とする。

本発明の他の実施形態によるオーディオ信号処理方法は、三次元映像に対応するオーディオ信号を入力される段階と、前記三次元映像のための立体感情報に基づいて、前記オーディオ信号に立体感を付与する段階と、を含む。

また、前記立体感情報は、前記三次元映像に係わるデプス情報及び位置情報のうち少なくとも一つを含んでもよい。

また、前記オーディオ信号に立体感効果を付与する段階は、再生時に、前記三次元映像に含まれたオブジェクトの動きに相応するように、音源の位置が移動するように感じられるように、前記オーディオ信号を処理する段階を含んでもよい。

また、前記オーディオ信号に立体感効果を付与する段階は、前記三次元映像の深度（デプス）、左右拡張感及び高度感のうち少なくとも一つを知らせるインデックス情報を基に、前記オーディオ信号を、複数個の方向にレンダリングする段階を含んでもよい。

本発明の実施形態によるオーディオ信号処理装置は、映像画面の立体感変化に対応し、立体感を有するオーディオ信号を生成することができる。それにより、ユーザが所定映像及びオーディオを共に視聴する場合、最大限の立体感効果を感じることが可能である。

また、本発明の実施形態によるオーディオ信号処理装置は、６方向における立体感を有するオーディオ・オブジェクトを生成することができる。それにより、オーディオ信号の立体感を向上させることができる。

本発明の一実施形態によるオーディオ信号処理装置を示す図面である。本発明の他の実施形態によるオーディオ信号処理装置を詳細に示す一図面である。本発明の実施形態によるオーディオ信号処理装置で利用される三次元映像情報について説明するための一図面である。本発明の実施形態によるオーディオ信号処理装置で利用される三次元映像情報について説明するための他の図面である。本発明の実施形態によるオーディオ信号処理装置で利用される三次元映像情報について説明するための他の図面である。本発明の実施形態によるオーディオ信号処理装置で生成されるインデックス情報について説明するための図面である。図１のインデックス予測部を詳細に示す一図面である。非効果音について説明するための一図面である。非効果音について説明するための一図面である。非効果音について説明するための一図面である。効果音について説明するための一図面である。効果音について説明するための一図面である。効果音について説明するための一図面である。本発明の一実施形態によるオーディオ信号処理装置について説明するためのフローチャートである。図９の９２０段階について詳細に説明する一図面である。

以下、添付された図面を参照し、本発明によるオーディオ信号処理方法及びそれによるオーディオ信号処理装置について詳細に説明する。

まず、説明の便宜のために、本明細書で使用される用語を簡単に定義する。

映像オブジェクトは、映像信号内に含まれた事物や、人、動物、植物などの被写体を指す。

オーディオ・オブジェクトは、オーディオ信号に含まれた音響成分それぞれを指す。１つのオーディオ信号には、多様なオーディオ・オブジェクトが含まれる。例えば、オーケストラの公演実況を録音して生成されたオーディオ信号には、ギター、バイオリン、オーボエなどの多数個の楽器から生じた多数個のオーディオ・オブジェクトが含まれる。

音源は、オーディオ・オブジェクトを生成した対象（例えば、楽器、人間の声帯）を指す。本明細書では、オーディオ・オブジェクトを実際に生成した対象と、ユーザがオーディオ・オブジェクトを生成したと認識する対象とをいずれも音源とする。一例として、ユーザが映画を視聴しているとき、リンゴがスクリーン側からユーザ側に飛んで来るなら、リンゴが飛んで来るときに生じる音が、オーディオ信号に含まれるであろう。ここで、リンゴが飛んで来るときに生じる音自体が、オーディオ・オブジェクトになる。前記オーディオ・オブジェクトは、実際にリンゴが投げられて生じた音を録音したものでもあり、あらかじめ録音されたオーディオ・オブジェクトを、単に再生するものでもある。しかし、いずれにせよ、ユーザは、リンゴが前記オーディオ・オブジェクトを発生させたと認識するので、リンゴも、本明細書で定義する音源に含まれる。

三次元映像情報は、映像を三次元でディスプレイするために必要な情報を含む。例えば、三次元映像情報は、映像のデプス（depth）を表現することができる情報、及び映像オブジェクトが、１つの画面上に位置する位置情報のうち少なくとも一つを含んでもよい。映像の深度（デプス）を表現することができる情報は、映像オブジェクトと基準位置との距離を示す情報である。基準位置は、映像が出力されるディスプレイ装置の表面でもある。具体的には、映像の深度を表現することができる情報としては、映像オブジェクトのディスパリティ（disparity）が含まれる。ここで、ディスパリティは、両眼の視差である左目映像と右目映像との距離を意味する。

図１は、本発明の一実施形態によるオーディオ信号処理装置を示す図面である。図１を参照すれば、本発明の一実施形態によるオーディオ信号処理装置１００は、インデックス予測部（index estimation nunit）１１０及びレンダリング部（rendering unit）１５０を含む。

インデックス予測部１１０は、三次元映像情報を入力され、三次元映像情報に基づいて、オーディオ・オブジェクトに適用するインデックス情報を生成する。三次元映像情報は、少なくとも１つの映像フレーム単位で入力される。例えば、２４Ｈｚの映像の場合、１秒に２４個の映像フレームが含まれ、１秒に２４回の映像フレーム別に、三次元映像情報が入力される。また、三次元映像情報は、偶数フレームごとに入力され、前記例では、１秒に１２回の映像フレーム別に、三次元映像情報が入力される。

ここで、インデックス情報は、オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも１つの方向に立体感を付与するため（applying a three-dimensional effect）の情報である。インデックス情報を利用すれば、オーディオ・オブジェクト別に、最大、左右上下前後の６方向における立体感を表現することができる。インデックス情報は、１つのフレームに含まれる少なくとも１つのオーディオ・オブジェクトに対応して生成される。また、インデックス情報は、１つのフレームでの代表的なオーディオ・オブジェクトにマッチングされて生成される。

インデックス情報は、以下で、図３ないし図５を参照して詳細に説明する。

レンダリング部１５０は、インデックス予測部１１０で生成されたインデックス情報に基づいて、オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも１つの方向における立体感を付与する。

図２は、本発明の他の実施形態によるオーディオ信号処理装置を詳細に示す一図面である。図２を参照すれば、オーディオ信号処理装置２００は、図１のオーディオ信号処理装置１００に比べ、信号抽出部２８０及びミキシング部２９０のうち少なくとも一つをさらに含んでもよい。インデックス予測部２１０及びレンダリング部２５０は、それぞれ図１のインデックス予測部１１０及びレンダリング部１５０と同一に対応するので、図１と重複する説明は省略する。

信号抽出部２８０は、ステレオオーディオ信号Ｌｉｎ，Ｒｉｎを入力され、ステレオオーディオ信号Ｌｉｎ，Ｒｉｎから、左／右領域に対応する左／右信号Ｓ＿Ｒ／Ｓ＿Ｌ、及び中央領域に対応するセンターチャネル信号Ｓ＿Ｃを分離する。そして、前記分離された信号である左／右信号Ｓ＿Ｒ／Ｓ＿Ｌ及びセンターチャネル信号Ｓ＿Ｃをレンダリング部２５０に伝送する。ここで、ステレオオーディオ信号は、左チャネル（Ｌ−channel）オーディオ信号Ｌｉｎと、右チャネル（Ｒ＿channel）オーディオ信号Ｒｉｎと、を含んでもよい。

具体的には、信号抽出部２８０は、左チャネル（Ｌ−channel）オーディオ信号Ｌｉｎと、右チャネル（Ｒ＿channel）オーディオ信号Ｒｉｎとの干渉度（coherence function）と類似度（similarity function）とを利用して、センターチャネル信号Ｓ＿Ｃを生成することができる。そして、左チャネル（Ｌ−channel）オーディオ信号Ｌｉｎと、右チャネル（Ｒ＿channel）オーディオ信号Ｒｉｎとに対応する左／右信号Ｓ＿Ｒ／Ｓ＿Ｌを生成することができる。具体的には、左／右信号Ｓ＿Ｒ／Ｓ＿Ｌは、入力されたステレオオーディオ信号Ｌｉｎ，Ｒｉｎから、センターチャネル信号Ｓ＿Ｃの一部または全部を減算して生成することができる。

インデックス予測部２１０は、三次元映像情報に基づいて、左右方向における音響拡張感情報、前後方向におけるデプス情報、及び上下方向における高度感情報のうち少なくとも一つを、インデックス情報として生成することができる。ここで、音響拡張感情報、デプス情報及び高度感情報は、オーディオ信号に含まれるオーディオ・オブジェクトにマッチングされる値として生成される。ここで、インデックス予測部２１０がインデックス情報を生成するために入力されるオーディオ信号は、信号抽出部２８０で生成される左／右信号Ｓ＿Ｒ／Ｓ＿Ｌ及びセンターチャネル信号Ｓ＿Ｃ、及びステレオオーディオ信号Ｌｉｎ，Ｒｉｎのうち少なくとも一つを含んでもよい。

インデックス予測部２１０が入力される三次元映像情報は、三次元映像フレームに含まれる映像オブジェクトに立体感を与えるための情報である。具体的には、三次元映像情報は、映像フレーム別に、最大ディスパリティ値、最小ディスパリティ値及び最大ディスパリティまたは最小ディスパリティを有する映像オブジェクトの位置情報のうち少なくとも一つを含んでもよい。また、三次元映像情報は、映像フレーム内のメイン映像オブジェクトのディスパリティ値、及びメイン映像オブジェクトの位置情報のうち、少なくとも一つを含んでもよい。または、三次元映像情報は、映像のデプスマップ（depth map）を含んでもよい。

また、映像オブジェクトの位置情報は、三次元映像情報が、フレーム別に入力される場合、１フレームに対応する１つの画面を、少なくとも一つに分割したサブフレームに係わる情報を含んでもよい。映像オブジェクトの位置情報については、図３、図４Ａ、図４Ｂ及び図５を参照して詳細に説明する。

図３は、本発明の実施形態によるオーディオ信号処理装置で利用される三次元映像情報について説明するための一図面である。図３を参照すれば、１フレームに対応する１つの画面３００を９個のサブフレームに分割した場合を例として図示している。映像オブジェクトの位置情報は、図示されたサブフレームに係わる情報で表現される。例えば、それぞれのサブフレームに対応するサブフレーム番号、例えば、「１」ないし「９」を割り当て、映像オブジェクトが位置した領域に該当するサブフレーム番号を、映像オブジェクトの位置情報として設定することができる。

具体的には、映像オブジェクトがサブフレーム「３」内に位置した場合、映像オブジェクトの位置情報は、「subframe number＝３」のように表現され、映像オブジェクトが、サブフレーム「４」，「５」，「７」及び「８」にわたって位置する場合、映像オブジェクトの位置情報は、「subframe number＝４，５，７，８」のように表現される。

図４Ａ及び図４Ｂは、本発明の実施形態によるオーディオ信号処理装置で利用される三次元映像情報について説明するための他の図面である。

インデックス予測部２１０は、連続するフレームにそれぞれ対応する三次元映像情報を入力される。図４Ａは、連続するフレームのうち、１フレームに対応する映像を示し、図４Ｂは、連続するフレームのうち、１フレームに後続するフレームに対応する映像を示す。図４Ａ及び図４Ｂでは、図３で説明した１つのフレームを、１６個のサブフレームに分割した場合を例として挙げて図示している。図４Ａ及び図４Ｂに図示された映像画面４１０，４６０のｘ軸は、映像の左右方向を示し、ｙ軸は、映像の上下方向を示す。また、サブフレームは、「ｘ＿ｙ」値で示すことができる。例えば、図４Ａの４２３サブフレームの位置値は、「３＿３」と表現される。

ディスパリティが大きくなるほど、両眼視差が大きくなり、ユーザは、物体が近くにあると認識することになり、ディスパリティが小くなるほど、両眼視差が小さくなり、ユーザは、物体が遠くあると認識することになる。例えば、二次元映像の場合、両眼視差が存在せず、デプス値が０になる。そして、ユーザの近くにある物体であればあるほど、両眼視差が大きくなり、大きいデプス値を有することになる。

図４Ａを参照すれば、１フレームに対応する映像画面４１０において、映像オブジェクト４２１に、最大ディスパリティが付与され、映像オブジェクト４２１に付与された最大ディスパリティ値が、三次元映像情報に含まれる。また、最大ディスパリティ値を有する映像オブジェクト４２１の位置情報である所定フレーム４２３の位置を示す情報、例えば、「subframe number＝３＿３」が、三次元映像情報に含まれる。

図４Ｂを参照すれば、映像画面４１０がディスプレイされる時点を基準に、隣接した後続時点で、映像画面４６０がディスプレイされる。

後続フレームに対応する映像画面４６０において、映像オブジェクト４７１に最大ディスパリティが付与され、映像オブジェクト４７１に付与された最大ディスパリティ値が、三次元映像情報に含まれる。また、最大ディスパリティ値を有する映像オブジェクト４７１の位置情報である所定サブフレーム４７３を示す情報、例えば、「subframe number＝２＿２，２＿３，３＿２，３＿３」、が三次元映像情報に含まれる。

また、図４Ａでの映像オブジェクト４２１が、後続時点で、映像オブジェクト４７１としてディスプレイされもする。すなわち、ユーザは、連続してディスプレイされる映像画面４１０，４６０を介して、動く自動車の映像を視聴することができる。また、映像オブジェクト４７１である自動車が動きながら音が生じるので、映像オブジェクト４７１である自動車が音源になる。また、自動車が動きながら生じる音がオーディオ・オブジェクトになる。

インデックス予測部２１０は、入力された三次元映像情報に基づいて、オーディオ・オブジェクトに対応するインデックス情報を生成する。インデックス情報については、以下の図５を参照して詳細に説明する。

図５は、本発明の実施形態によるオーディオ信号処理装置で生成されるインデックス情報について説明するための図面である。

インデックス情報は、前述のように、音響拡張感情報、デプス情報及び高度感情報のうち少なくとも一つを含んでもよい。音響拡張感情報は、映像画面の左右方向に、オーディオ・オブジェクトに立体感を付与するための情報であり、デプス情報は、映像画面を基準に前後方向に、オーディオ・オブジェクトに立体感を付与するための情報である。また、高度感情報は、映像画面の上下方向に、オーディオ・オブジェクトに立体感を付与するための情報である。具体的には、左右方向は、図示されたｘ軸方向になり、上下方向は、図示されたｙ軸方向になり、前後方向は、図示されたｚ軸方向になる。

図５に図示された映像画面５００は、図４Ａに図示された映像画面４１０に同一に対応する。また、点線で表示された映像オブジェクト５３０は、図４Ｂに図示された映像オブジェクト４７１に同一に対応する。図４Ａ、図４Ｂ及び図５に図示された例のように、自動車が動きながら音を発生させる映像の場合、１フレームでのオーディオ・オブジェクトは、映像オブジェクト５１０と一致する。以下では、オーディオ・オブジェクトと、映像オブジェクトとが一致する場合、インデックス情報を生成する動作について詳細に説明する。

音響拡張感情報は、三次元映像情報に含まれる最大ディスパリティ値、及び映像オブジェクトの位置情報を利用して、オーディオ・オブジェクトの左右方向における位置を推定し、推定された位置に基づいて算出される。

具体的には、三次元映像情報が、映像オブジェクト５１０の最大ディスパリティ値及び位置情報を含む場合、インデックス予測部２１０は、三次元映像情報を利用して、映像オブジェクト５１０に対応するオーディオ・オブジェクトの左右方向における位置を推定することができる。そして、推定された位置で認識されるオーディオ・オブジェクトが生成されるように、音響拡張感情報を生成する。例えば、映像オブジェクト５１０の左右方向における位置がＸ１地点であるので、Ｘ１地点からオーディオ・オブジェクトが生成されるように、音響拡張感情報を生成することができる。また、映像オブジェクト５１０の最大ディスパリティ値を考慮し、映像オブジェクト５１０が、ユーザからどれほど近距離にあるかということを判断することができる。従って、ユーザからの距離が近くなるほど、オーディオ出力または音の大きさが増大するように、音響拡張感情報を生成することができる。

図５の例でのように、オーディオ・オブジェクトに対応する映像オブジェクト５１０が、映像画面５００の右側に配置される場合、インデックス予測部２１０は、左チャネル（left channel）の信号に比べ、右チャネル（right channel）の信号が増幅されて出力されるように、音響拡張感情報を生成する。

デプス情報は、三次元映像情報に含まれる最大ディスパリティまたは最小ディスパリティ値を利用して、オーディオ・オブジェクトの前後方向におけるデプス値を推定し、前記推定されたデプス値に基づいて算出される。

インデックス予測部２１０は、オーディオ・オブジェクトのデプス値を、映像オブジェクトのデプス値に比例して設定することができる。

具体的には、三次元映像情報が、映像オブジェクト５１０の最大ディスパリティまたは最小ディスパリティ値を含む場合、インデックス予測部２１０は、三次元映像情報を利用して、映像オブジェクト５１０に対応するオーディオ・オブジェクトのデプス情報、すなわち、デプスを推定することができる。そして、推定されたオーディオ・オブジェクトのデプス値によって、オーディオ出力または音の大きさが増大するように、デプス情報を生成することができる。

高度感情報は、三次元映像情報に含まれる最大ディスパリティ値及び位置情報を利用して、映像オブジェクト５１０に対応するオーディオ・オブジェクトの上下方向における位置を推定し、推定された位置に基づいて算出される。

具体的には、三次元映像情報が、映像オブジェクト５１０の最大ディスパリティ値及び位置情報を含む場合、インデックス予測部２１０は、三次元映像情報を利用して、映像オブジェクト５１０に対応するオーディオ・オブジェクトの上下方向における位置を推定することができる。そして、推定された位置で認識されるオーディオ・オブジェクトが生成されるように、高度感情報を生成する。

例えば、映像オブジェクト５１０の上下方向における位置がＹ１地点であるので、Ｙ１地点でオーディオ・オブジェクトが生成されるように、高度感情報を生成することができる。また、映像オブジェクト５１０の最大ディスパリティ値を考慮し、映像オブジェクト５１０が、ユーザからどれほど近距離にあるかということを判断することができる。従って、ユーザからの距離が近くなるほど、オーディオ出力または音の大きさが増大するように、高度感情報を生成することができる。

レンダリング部２５０は、入力される左／右信号Ｓ＿Ｒ／Ｓ＿Ｌ及びセンターチャネル信号Ｓ＿Ｃら別に、オーディオ信号に含まれるオーディオ・オブジェクトに立体感を付与することができる。具体的には、レンダリング部２５０は、高度レンダリング部（elevation rendering unit）２５１及びパンニング及びデプス制御部（panning and depth control unit）２５３を含んでもよい。

高度レンダリング部２５０は、インデックス生成部２１０で生成されたインデックス情報に基づいて、オーディオ・オブジェクトが所定高度に定位されるように、オーディオ・オブジェクトを含むオーディオ信号を生成することができる。具体的には、高度レンダリング部２５０は、インデックス情報に含まれる高度感情報に基づいて、オーディオ・オブジェクトの上下方向の位置によって、オーディオ信号が仮想高度感を再現することができるように、オーディオ信号を生成する。

例えば、高度レンダリング部２５０は、オーディオ・オブジェクトに対応する映像オブジェクトが、映像画面の上端に位置する場合、上端位置まで高度感を再現し、オーディオ・オブジェクトに対応する映像オブジェクトが、映像画面の下端に位置する場合、下端位置まで高度感を再現することができる。また、高度レンダリング部２５０は、映像オブジェクトが、映像画面の中間から上側に、続けて移動する場合、高度感効果を強調するために、映像画面の上側を越えてまで、仮想高度感を再現することができる。

また、仮想高度感を再現するため、高度レンダリング部２５０は、頭部伝達関数（ＨＲＴＦ：head related transfer function）を利用して、オーディオ信号をレンダリングすることができる。

パンニング及びデプス制御部２５３は、インデックス生成部２１０で生成されたインデックス情報に基づいて、オーディオ・オブジェクトが、左右方向における所定地点に定位され、所定デプスを有するように、オーディオ・オブジェクトを含むオーディオ信号を生成することができる。具体的には、パンニング及びデプス制御部２５３は、インデックス情報に含まれる音響拡張感情報及びデプス情報に基づいて、ユーザが、左右方向における所定地点に位置し、デプス値に対応するオーディオ出力または音の大きさを認識するように、オーディオ信号を生成することができる。

例えば、映像オブジェクト５１０に対応するオーディオ・オブジェクトのデプス値が大きい場合、ユーザから近く位置する音になる。従って、パンニング及びデプス制御部２５３は、前述の例において、オーディオ信号の出力を増大させることができる。または、映像オブジェクト５１０に対応するオーディオ・オブジェクトのデプス値が小さい場合、ユーザから遠く位置する音になる。従って、パンニング及びデプス制御部２５３は、前述の例において、ユーザが遠いところで生じる音を認識するように、オーディオ信号の初期反射音（early reflection）を調節したり、あるいは残響（reverberation）を調節することができる。

また、パンニング及びデプス制御部２５３は、音響拡張感情報に基づいて判断したとき、映像オブジェクトに対応するオーディオ・オブジェクトの位置が、左側または右側に配置される場合、左チャネル（left channel）の信号または右チャネル（right channel）の信号が増幅されて出力されるように、オーディオ信号をレンダリングする。

再び、図５を参照すれば、映像オブジェクト５１０を含む１フレームに、後続して映像オブジェクト５３０を含む他のフレームが出力される。それに対応し、レンダリング部２５０は、連続するオーディオフレームに対応するオーディオ信号をレンダリングする。図５の例で、映像オブジェクト５１０，５３０である自動車は、映像画面５００の右側上端から左側下端に移動し、それにより、オーディオ・オブジェクトも、右側上端から左側下端に移動することになる。レンダリング部２５０が、フレーム別に、オーディオ・オブジェクトに、左右方向、上下方向及び前後方向に立体感を付与することができる。それにより、ユーザは、５１２方向のように、上から下に低下する音、５１１方向のように、右側から左側に移動する音、及び後から前に飛び出す音を認識することができる。

図６は、図１のインデックス予測部を詳細に示す一図面である。図６に図示されたインデックス予測部６１０は、図１のインデックス予測部１１０、または図２のインデックス予測部２１０に対応する。従って、図１及び図２と重複する説明は省略する。

インデックス予測部６１０は、オーディオ・オブジェクトと、映像オブジェクトとが不一致である場合、及びオーディオ・オブジェクトが非効果音である場合のうち少なくとも１つの場合、オーディオ・オブジェクトの立体感が低下するように、インデックス情報を生成することができる。

具体的には、オーディオ・オブジェクトが、映像オブジェクトと不一致である場合、映像オブジェクトが音を発生させない場合である。図４Ａ、図４Ｂ及び図５の例でのように、映像オブジェクトが自動車である場合、映像オブジェクト自体が音を発生させるオーディオ・オブジェクトと一致する。他の例として、人が手を振る映像の場合、映像オブジェクトは、人の手になる。しかし、人の手が振られるとき、いかなる音も生じるものではないので、かような場合、映像オブジェクトとオーディオ・オブジェクトは、不一致であり、インデックス予測部６１０は、オーディオ・オブジェクトの立体感が最小化されるように、インデックス情報を生成する。具体的には、デプス情報で、デプス値は、基本オフセット値として設定され、音響拡張感情報は、左チャネル及び右チャネルで出力されるオーディオ信号の大きさが同一になるように設定される。また、高度感情報は、上側及び右側の位置を考慮せず、所定オフセット高度に対応するオーディオ信号が出力されるように設定される。

また、オーディオ・オブジェクトが非効果音である場合、オーディオ・オブジェクトの位置変化量が小さい場合のような静的音源（static source）である場合がある。例えば、人の音声、固定された位置で演奏されるピアノ伴奏音、または背景音楽などは、静的音源であり、発生位置が急変しない。従って、かような非効果音である場合には、立体感が最小化されるように、インデックス情報を生成する。非効果音と効果音については、以下で図７及び図８を参照して詳細に説明する。

図６を参照すれば、インデックス予測部２１０は、音源感知部６２０、比較部６３０及びインデックス生成部６４０を含んでもよい。

音源感知部６２０は、ステレオオーディオ信号Ｌｉｎ，Ｒｉｎ、左／右信号Ｓ＿Ｒ／Ｓ＿Ｌ及びセンターチャネル信号Ｓ＿Ｃのうち少なくとも一つを、オーディオ信号として入力され、前記入力されたオーディオ信号の方向角または方向ベクトル、及び周波数帯域別エネルギーのうち少なくとも一つを分析し、前記分析結果に基づいて、前記効果音と前記非効果音とを区別することができる。

比較部６３０は、オーディオ・オブジェクトと、映像オブジェクトとが一致するか否かを判断する。

インデックス生成部６４０は、オーディオ・オブジェクトと、映像オブジェクトとが不一致である場合、及びオーディオ・オブジェクトが非効果音である場合のうち少なくとも１つの場合、オーディオ・オブジェクトの立体感が低下したり、あるいは最小化されるように、インデックス情報を生成する。

図７Ａないし図７Ｃは、非効果音について説明するための一図面である。図７Ａは、非効果音を生成するオーディオ・オブジェクトと、それに対応する左右角及びグローバルアングルとについて説明するための図面である。図７Ｂは、経時的な、非効果音に対応するオーディオ信号の波形変化を示す。そして、図７Ｃは、フレーム数による非効果音のグローバルアングル変化を示す。

図７Ａを参照すれば、非効果音としては、人間７３２の音声、または楽器７２２，７２６の音などを例として挙げることができる。

以下では、非効果音が生じる方向の角度を、左右角（panning angle）とする。そして、非効果音が収斂される角度を、グローバルアングル（global angle）とする。図７Ａを参照すれば、音源が楽器７２２，７２６から生じる音楽である場合、グローバルアングルは、中心地点Ｃに収斂される。すなわち、ユーザが、ギター７２２音を聞く場合、中心地点Ｃから７２１方向に形成される左右角を有する静的音源を認識する。また、ユーザがピアノ７２６音を聞く場合、中心地点Ｃから７２５方向に形成される左右角を有する静的音源を認識する。

音源の左右角及びグローバルアングルは、オーディオ・オブジェクトを含むオーディオ信号の方向ベクトル（direction vector）を利用して、推定することができる。前記左右角及びグローバルアングルの推定は、以下で説明する角追跡部６２１で行われ、またはオーディオ信号処理装置１００，２００内のコントローラ（controller）（図示せず）で行われる。また、非効果音の場合、左右角の変化量及びグローバルアングルの変化量が小さい。

図７Ｂを参照すれば、ｘ軸は、オーディオ信号のサンプリング数（sampling number）を示し、ｙ軸は、オーディオ信号の波形（waveform）を示す。非効果音の場合、楽器から出力される音の強弱により、オーディオ信号の振幅が一定区間の間、減少または増加する。７５１の部分は、楽器から音が強く出力される場合に対応するオーディオ信号の波形になる。

図７Ｃを参照すれば、ｘ軸は、オーディオ信号のフレーム数（frame number）を示し、ｙ軸は、グローバルアングルを示す。図７Ｃを参照すれば、楽器の音または音声のような非効果音は、グローバルアングルの変化量が小さい。すなわち、音源が静的であるので、ユーザは、急変しないオーディオ・オブジェクトを認識する。

図８Ａないし図８Ｃは、効果音について説明するための一図面である。図８Ａは、効果音を生成するオーディオ・オブジェクト、それに対応する左右角及びグローバルアングルについて説明するための図面である。図８Ｂは、効果音に対応するオーディオ信号の経時的な波形変化を示す。そして、図８Ｃは、フレーム数による効果音のグローバルアングル変化を示す。

図８Ａを参照すれば、効果音としては、オーディオ・オブジェクトが持続的に移動しながら生じる音がある。例えば、８１１地点に位置した飛行機が、所定方向８１３に移動し、８１２地点に位置する間に生じる音がある。すなわち、飛行機、自動車などのオーディオ・オブジェクトが動きながら生じる音などがある。

図８Ａを参照すれば、飛行機が移動しながら生じる音のような効果音の場合、グローバルアングルは、図示された８１３方向のように移動する。すなわち、効果音の場合、グローバルアングルが所定中心地点ではない左右方向の周囲（surround）に向かう。従って、ユーザが効果音を聞く場合、左右に移動する動的音源（dynamic source）を認識する。

図８Ｂを参照すれば、ｘ軸は、オーディオ信号のサンプリング数（sampling number）を示し、ｙ軸は、オーディオ信号の波形（waveform）を示す。効果音の場合、オーディオ・オブジェクトから生じる音の強弱変化が少なく、オーディオ信号の振幅変化がリアルタイムで示される。すなわち、図７Ｂの場合と異なり、振幅が全体的に大きくなる区間、または振幅が全体的に小さくなる区間が存在しない。

図８Ｃを参照すれば、ｘ軸は、オーディオ信号のフレーム数（frame number）を示し、ｙ軸は、グローバルアングルを示す。図８Ｃを参照すれば、効果音は、グローバルアングルの変化量が大きい。すなわち、音源が動的であるので、ユーザは、変化するオーディオ・オブジェクトを認識することになる。

具体的には、音源感知部６２０は、ステレオオーディオ信号Ｌｉｎ，Ｒｉｎを入力され、ステレオオーディオ信号Ｌｉｎ，Ｒｉｎに含まれるオーディオ・オブジェクトの方向角を追跡し、前記追跡結果に基づいて、効果音と非効果音とを区別することができる。ここで、方向角は、前述のグローバルアングルまたは左右角などになる。

具体的には、音源感知部６２０は、角追跡部６２１及び静的ソース感知部６２３を含んでもよい。

角追跡部６２１は、連続するオーディオフレームに含まれるオーディオ・オブジェクトの方向角を追跡する。ここで、方向角は、前述のグローバルアングル、左右角及び前後角のうち少なくとも一つを含んでもよい。そして、追跡された結果を、静的ソース感知部６２３に通知する。

具体的には、角追跡部６２１は、ステレオオーディオ信号で、左チャネル（Ｌ−channel）のステレオオーディオ信号と、右チャネル（Ｒ−channel）のステレオオーディオ信号とのエネルギーの比率によって、左右方向における方向角を追跡することができる。または、角追跡部６２１は、左／右信号Ｓ＿Ｒ／Ｓ＿Ｌと、センターチャネル信号Ｓ＿Ｃとのエネルギー比率によって、前後（front-back）方向における方向角である前後角を追跡することができる。

静的ソース感知部６２３は、角追跡部６２１の追跡結果に基づいて、非効果音と効果音とを区別する。

具体的には、静的ソース感知部６２３は、角追跡部６２１で追跡された方向角が、図７Ａで図示されたように、中心地点に收斂される場合、あるいは追跡された前記方向角の変化量が、所定値より小さいか、あるいはそれと同じである場合、オーディオ・オブジェクトが非効果音であると判断することができる。

また、静的ソース感知部６２３は、角追跡部６２１で追跡された方向角が、図８Ａで図示されたように、左右方向に收斂される場合、あるいは追跡された前記方向角の変化量が、所定値より大きいか、あるいはそれと同じである場合、オーディオ・オブジェクトが効果音であると判断することができる。

また、静的ソース感知部６２３は、左／右信号Ｓ＿Ｒ／Ｓ＿Ｌと、センターチャネル信号Ｓ＿Ｃとの高周波数領域のエネルギーの比率を分析し、左／右信号Ｓ＿Ｒ／Ｓ＿Ｌのエネルギーの比率が、センターチャネル信号Ｓ＿Ｃのエネルギーの比率より低い場合、オーディオ・オブジェクトが、前記非効果音であると判断することができる。また、左／右信号Ｓ＿Ｒ／Ｓ＿Ｌのエネルギーの比率が、センターチャネル信号Ｓ＿Ｃのエネルギーの比率より高い場合、オーディオ・オブジェクトが、左側または右側に移動すると判断することができるので、その場合には、効果音の場合であると判断することができる。

また、静的ソース感知部６２３は、センターチャネル信号Ｓ＿Ｃにおいて、音声帯域周波数区間と、非音声帯域周波数区間とのエネルギーの比率を分析し、前記分析結果に基づいて、オーディオ・オブジェクトが非効果音である音声信号であるかということを判断することができる。

また、比較部６３０は、角追跡部６２１で算出された方向により、オーディオ・オブジェクトの左または右の位置を判断する。そして、オーディオ・オブジェクトの位置を、三次元映像情報に含まれる映像オブジェクトの位置情報と比べ、一致いかんを判断する。比較部６３０は、映像オブジェクトとオーディオ・オブジェクトとの位置が一致するか否かに係わる情報を、インデックス生成部６４０に伝送する。

インデックス生成部６４０は、音源感知部６２０及び比較部６３０から伝送される結果によって、効果音である場合、及び映像オブジェクトとオーディオ・オブジェクトとが一致する場合のうち、少なくとも１つの場合には、オーディオ・オブジェクトに、前述の６方向における立体感が増加されるように、インデックス情報を生成する。そして、非効果音である場合、及び映像オブジェクトとオーディオ・オブジェクトとが不一致である場合のうち少なくとも一つには、オーディオ・オブジェクトに立体感を付与しないか、あるいは基本オフセット値による立体感が付与されるように、インデックス情報を生成する。

前述のように、本発明の実施形態によるオーディオ信号処理装置は、映像画面の立体感変化に対応し、立体感を有するオーディオ信号を生成することができる。それによって、ユーザが所定映像及びオーディオを共に視聴する場合、最大限の立体感効果を感じることになる。

また、本発明の実施形態によるオーディオ信号処理装置は、６方向における立体感を有するオーディオ・オブジェクトを生成することができる。それによって、オーディオ信号の立体感を向上させることができる。

図９は、本発明の一実施形態によるオーディオ信号処理装置について説明するためのフローチャートである。本発明の一実施形態によるオーディオ信号処理方法は、図１ないし図８Ｃを参照して説明した本発明によるオーディオ信号処理装置と、その動作構成が同一である。従って、図１ないし図８Ｃと重複する説明は省略する。また、本発明の一実施形態によるオーディオ信号処理方法は、図１、図２及び図６のオーディオ信号処理装置を参照して説明する。

本発明の一実施形態によるオーディオ信号処理方法９００は、少なくとも１つのオーディオ・オブジェクトを含むオーディオ信号及び三次元映像情報を入力される（９１０段階）。９１０段階の動作は、インデックス予測部１１０，２１０で行われる。

９１０段階で入力された三次元映像情報に基づいて、前記オーディオ・オブジェクト別に、左右方向、上下方向及び前後方向のうち少なくとも１つの方向における立体感を付与するための情報であるインデックス情報を生成する（９２０段階）。９２０段階の動作は、インデックス予測部１１０，２１０で遂行される。

そして、三次元映像のための立体感情報に基づいて、オーディオ信号に立体感を付与する。具体的には、９２０段階で生成されたインデックス情報に基づいて、オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも１つの方向における立体感を付与する（９３０段階）。９３０段階の動作は、レンダリング部１５０，２５０で遂行される。

具体的には、オーディオ信号の再生時、三次元映像に含まれたオブジェクトの動きに相応し、音源の位置が移動するように感じるように、オーディオ信号に立体感を付与することができる。

図１０は、図９の９２０段階について詳細に説明する一図面である。９２０段階は、図１０に図示された１０２０段階と同一に対応する。以下、１０２０段階は、オーディオ信号をレンダリングする段階であるとする。

オーディオ信号のレンダリング（１０２０段階）は、図示された１０２１，１０２２及び１０２３段階を含む。

具体的には、オーディオ・オブジェクトと、映像オブジェクトとが不一致である場合、及びオーディオ・オブジェクトが非効果音である場合のうち少なくとも１つの場合に該当するか否かを判断する（１０２１段階）。１０２１段階の動作は、インデックス予測部１１０，２１０，６１０、具体的には、音源感知部６２０または比較部６３０のうち少なくとも一つで遂行される。

１０２１段階の判断結果、前記少なくとも１つの場合に該当すれば、オーディオ・オブジェクトの立体感が低下するように、インデックス情報を生成する（１０２２段階）。１０２１段階の動作は、インデックス予測部１１０，２１０，６１０、具体的には、インデックス生成部６４０で遂行される。

１０２１段階の判断結果、前記少なくとも１つの場合に該当しなければ、オーディオ・オブジェクトが、左右、上下、前後の６方向のうち少なくとも１つの方向において立体感を有するように、インデックス情報を生成する（１０２３段階）。１０２３段階の動作は、インデックス予測部１１０，２１０，６１０、具体的には、インデックス生成部６４０で遂行される。

以上の説明は、本発明の一実施形態に過ぎず、本発明が属する技術分野で当業者であるならば、本発明の本質的特性からはずれない範囲で変形された形態で具現することが可能である。従って、本発明の範囲は、前述の実施形態に限定されるものではなく、特許請求の範囲に記載した内容と同等な範囲内にある多様な実施形態が含まれるように解釈されなければならないのである。

Claims

三次元映像情報を入力され、前記三次元映像情報に基づいて、オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも１つの方向に立体感を付与するための情報であるインデックス情報を生成するインデックス予測部と、
前記インデックス情報に基づいて、前記オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも１つの方向における立体感を付与するレンダリング部と、を含むことを特徴とするオーディオ信号処理装置。
前記インデックス予測部は、
前記左右方向における音響拡張感情報、前記前後方向におけるデプス情報、及び前記上下方向における高度感情報のうち少なくとも一つを含む前記インデックス情報を生成することを特徴とする請求項１に記載のオーディオ信号処理装置。
前記三次元映像情報は、
映像フレーム別に、最大ディスパリティ値、最小ディスパリティ値、及び前記最大ディスパリティまたは最小ディスパリティを有する映像オブジェクトの位置情報のうち少なくとも一つを含むことを特徴とする請求項１に記載のオーディオ信号処理装置。
前記映像オブジェクトの位置情報は、
前記三次元映像情報が、前記映像フレーム別に入力される場合、前記１フレームに対応する１つの映像画面を、少なくとも一つに分割したサブフレームに係わる情報を含むことを特徴とする請求項３に記載のオーディオ信号処理装置。
前記音響拡張感情報は、
前記最大ディスパリティ値及び前記位置情報を利用して、前記オーディオ・オブジェクトの前記左右方向における位置を推定し、前記推定された位置に基づいて算出されることを特徴とする請求項４に記載のオーディオ信号処理装置。
前記デプス情報は、
前記最大ディスパリティまたは最小ディスパリティ値を利用して、前記オーディオ・オブジェクトの前記前後方向におけるデプス値を推定し、前記推定されたデプス値に基づいて算出されることを特徴とする請求項４に記載のオーディオ信号処理装置。
前記高度感情報は、
前記最大ディスパリティ値及び前記位置情報を利用して、前記オーディオ・オブジェクトの前記上下方向における位置を推定し、前記推定された位置に基づいて算出されることを特徴とする請求項４に記載のオーディオ信号処理装置。
前記インデックス予測部は、
前記オーディオ・オブジェクトと、映像オブジェクトとが不一致である場合、及び前記オーディオ・オブジェクトが非効果音である場合のうち少なくとも１つの場合、前記オーディオ・オブジェクトの立体感が低下するように、前記インデックス情報を生成することを特徴とする請求項１に記載のオーディオ信号処理装置。
ステレオオーディオ信号を入力され、前記ステレオオーディオ信号で、左／右信号及びセンターチャネル信号を抽出し、前記抽出された信号を、前記レンダリング部に伝送する信号抽出部をさらに含むことを特徴とする請求項１に記載のオーディオ信号処理装置。
前記インデックス予測部は、
前記ステレオオーディオ信号、前記左／右信号及びセンターチャネル信号のうち少なくとも一つを、オーディオ信号として入力され、前記入力されたオーディオ信号の方向角及び周波数帯域別エネルギーのうち少なくとも一つを分析し、前記分析結果に基づいて、効果音と非効果音とを区別する音源感知部と、
前記オーディオ・オブジェクトと、映像オブジェクトとが一致するか否かを判断する比較部と、
前記オーディオ・オブジェクトと、前記映像オブジェクトとが不一致である場合、及び前記オーディオ・オブジェクトが前記非効果音である場合のうち少なくとも１つの場合、前記オーディオ・オブジェクトの立体感が低下するように、前記インデックス情報を生成するインデックス生成部と、を含むことを特徴とする請求項９に記載のオーディオ信号処理装置。
前記音源感知部は、
前記ステレオオーディオ信号、前記左／右信号及びセンターチャネル信号のうち少なくとも一つを入力され、前記ステレオオーディオ信号に含まれるオーディオ・オブジェクトの方向角を追跡し、前記追跡結果に基づいて、効果音と前記非効果音とを区別することを特徴とする請求項１０に記載のオーディオ信号処理装置。
前記音源感知部は、
追跡された前記方向角の変化量が、所定値より大きいか、あるいはそれと同じである場合、あるいは追跡された前記方向角が左右方向に收斂される場合、前記オーディオ・オブジェクトが、前記効果音であると判断することを特徴とする請求項１１に記載のオーディオ信号処理装置。
前記音源感知部は、
追跡された前記方向角の変化量が、所定値より小さいか、あるいはそれと同じである場合、あるいは前記方向角が中心地点に収斂される場合、前記オーディオ・オブジェクトが静的音源であると判断することを特徴とする請求項１１に記載のオーディオ信号処理装置。
前記音源感知部は、
前記左／右信号と、前記センターチャネル信号との高周波数領域のエネルギーの比率を分析し、前記左／右信号のエネルギーの比率が、前記センターチャネル信号のエネルギーの比率より低い場合、前記オーディオ・オブジェクトが前記非効果音であると判断することを特徴とする請求項１０に記載のオーディオ信号処理装置。
前記音源感知部は、
前記センターチャネル信号において、音声帯域周波数区間と、非音声帯域周波数区間とのエネルギーの比率を分析し、前記分析結果に基づいて、前記オーディオ・オブジェクトが前記非効果音である音声信号であるか否かを判断することを特徴とする請求項１０に記載のオーディオ信号処理装置。
前記三次元映像情報は、
１映像フレーム内に存在する映像オブジェクト別に、ディスパリティ値、前記映像オブジェクトの位置情報及び映像のデプスマップのうち少なくとも一つを含むことを特徴とする請求項１に記載のオーディオ信号処理装置。
少なくとも１つのオーディオ・オブジェクトを含むオーディオ信号及び三次元映像情報を入力される段階と、
前記三次元映像情報に基づいて、前記オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも１つの方向における立体感を付与するための情報であるインデックス情報を生成する段階と、
前記インデックス情報に基づいて、前記オーディオ・オブジェクトに、左右方向、上下方向及び前後方向のうち少なくとも１つの方向に立体感を付与する段階と、を含むことを特徴とするオーディオ信号処理方法。
前記インデックス情報を生成する段階は、
前記左右方向における音響拡張感情報、前記前後方向におけるデプス情報、及び前記上下方向における高度感情報のうち少なくとも一つを含む前記インデックス情報を生成する段階を含むことを特徴とする請求項１７に記載のオーディオ信号処理方法。
前記インデックス情報を生成する段階は、
前記最大ディスパリティ値及び前記位置情報を利用して、前記オーディオ・オブジェクトの前記左右方向における位置を推定し、前記推定された位置に基づいて、前記左右方向におけるインデックス情報を生成する段階と、
前記最大ディスパリティ値及び最小ディスパリティ値を利用して、前記オーディオ・オブジェクトの前記前後方向におけるデプス値を推定し、前記推定されたデプス値に基づいて、前記前後方向におけるインデックス情報を生成する段階と、
前記最大ディスパリティ値及び前記位置情報を利用して、前記オーディオ・オブジェクトの前記上下方向における位置を推定し、前記推定された位置に基づいて、前記上下方向におけるインデックス情報を生成する段階と、を含むことを特徴とする請求項１８に記載のオーディオ信号処理方法。
前記オーディオ・オブジェクトと、映像オブジェクトとが一致するか否かということを判断する段階をさらに含み、
前記インデックス情報を生成する段階は、
前記オーディオ・オブジェクトと、前記映像オブジェクトとが不一致である場合、前記オーディオ・オブジェクトの立体感が低下するように、前記インデックス情報を生成する段階を含むことを特徴とする請求項１７に記載のオーディオ信号処理方法。
前記オーディオ・オブジェクトが非効果音であるか否かということを判断する段階をさらに含み、
前記インデックス情報を生成する段階は、
前記オーディオ・オブジェクトが前記非効果音である場合、前記オーディオ・オブジェクトの立体感が低下するように、前記インデックス情報を生成する段階を含むことを特徴とする請求項１７に記載のオーディオ信号処理方法。
三次元映像に対応するオーディオ信号を入力される段階と、
前記三次元映像のための立体感情報に基づいて、前記オーディオ信号に立体感を付与する段階と、を含むオーディオ信号処理方法。
前記立体感情報は、
前記三次元映像に係わる深度情報及び位置情報のうち少なくとも一つを含むことを特徴とする請求項２２に記載のオーディオ信号処理方法。
前記オーディオ信号に立体感を付与する段階は、
再生時に、前記三次元映像に含まれたオブジェクトの動きに相応するように、音源の位置が移動するように感じられるように、前記オーディオ信号を処理する段階を含むことを特徴とする請求項２２に記載のオーディオ信号処理方法。
前記オーディオ信号に立体感を付与する段階は、
前記三次元映像の深度、左右拡張感及び高度感のうち少なくとも一つを知らせるインデックス情報を基に、前記オーディオ信号を、複数個の方向にレンダリングする段階を含むことを特徴とする請求項２２に記載のオーディオ信号処理方法。