JP2011234177A

JP2011234177A - 立体音響再生装置及び再生方法

Info

Publication number: JP2011234177A
Application number: JP2010103301A
Authority: JP
Inventors: Toshihiko Date; 俊彦伊達; Akira Usami; 陽宇佐見; Naoya Tanaka; 直也田中
Original assignee: Panasonic Corp
Current assignee: Panasonic Corp
Priority date: 2010-04-28
Filing date: 2010-04-28
Publication date: 2011-11-17

Abstract

【課題】画像分析で抽出された映像オブジェクト毎に立体音響処理を施す構成であっても、必ずしも全ての画像オブジェクトが発音するオブジェクトとは限らない。建物や風景など発音しないオブジェクトまで画像分析することによって、演算量が必要以上に大きくなり、演算処理のリアルタイム性や分析精度を向上させるためには実現に必要となるコストが上昇する。
【解決手段】まず立体音響処理を施す音像オブジェクトを抽出し、その音像オブジェクトが出現する領域についてのみ画像オブジェクトを抽出した上で、双方のオブジェクトの位置を照合する。その結果、発音しない画像オブジェクトや画像のない音像オブジェクトと発音するオブジェクトを選別することが可能となり、発音オブジェクトについてのみ、その定位方向や飛び出し量に基づいた立体音響処理を施すことができる。
【選択図】図１

Description

本発明は、３Ｄ立体映像による飛び出し感や奥行き感と同期した立体音響再生を実現する技術に関するものである。

近年、３Ｄ映画再生に対応した映画館が増加し、さらに映画以外でもゲームや放送など様々なコンテンツが３Ｄ立体映像で制作される動きが現れている。これに伴い、家庭においてもこれらの３Ｄ映像を再生できる薄型テレビに代表されるディスプレイ装置が提供されはじめている。このように、映像再生は、２Ｄから３Ｄへ大きく変化している。

一方、音響再生については、映像表現が３Ｄとなっても従来のステレオや５．１ｃｈサラウンドなど再生方式やそれに基づくコンテンツの制作手法や制作フォーマットは基本的には２Ｄ映像時と大きく変わっていない。

しかしながら、３Ｄ立体映像と整合した音響効果を提供することができれば、３Ｄ映像再生の表現力増加を一層際立たせる臨場感や実在感を実現できることが期待できる。

このように３Ｄ立体映像と整合した音響効果を提供するという観点において、３Ｄ映像再生で用いられる右目用画像と左目用画像の視差量を、立体音響処理の制御パラメータとして用いる立体音響処理を行う先行技術がある。

特許文献１では、奥行き信号の値に応じて右眼左眼用画像の生成と立体音響処理を施すものである。

より具体的な構成としては、図５のブロック図に示す通り、奥行き信号発生装置２１で決定された奥行き信号の値に応じて、音響信号に対して減衰器２２と両耳間相互相関係数制御装置２３によって、音場の距離感や拡がり感を制御するものである。

また特許文献２では、右目用画像と左目用画像の画像分析によって画像オブジェクトを抽出し、その画像オブジェクト毎に立体音響処理を施すものである。

より具体的な構成としては、図６のブロック図に示す通り、右眼と左眼用画像を撮影する２台のカメラ２４の出力画像の視差量を視差ベクトル検出器２５で検出し、奥行き距離算出部２６で算出した画像オブジェクトの位置情報に基づいて、複数方向の音を収録するように設置された複数マイク群２７から適切なマイクの出力を音源選択部２８で選択し、その選択されたマイクの出力信号を記録メディア２９に記録するものである。

特開平６−１０５４００号公報特開２００６−１２８８１６号公報

しかし、特許文献１において、奥行き信号の生成方法については具体的に明示されていない。また奥行き信号は、画像全体に対する値であるため、画面内の特定のオブジェクトに対する立体音響処理には対応できない。

また、特許文献２において、画像分析で抽出される全ての画像オブジェクトが必ずしも音を発する発音体とは限らない。建物や風景など発音しないオブジェクトまで画像分析することによって、演算量が必要以上に大きくなり、演算処理のリアルタイム性や分析精度を向上させるためには実現コストが上昇するという課題がある。

そこで本発明は、まず立体音響処理を施す音像オブジェクトを抽出し、その音像オブジェクトが出現する領域についてのみ画像オブジェクトを抽出した上で、双方のオブジェクトの位置、出現時間を照合する。その結果、発音しない画像オブジェクトやＢＧＭやナレーションなど画像のない音像オブジェクトと発音するオブジェクトを選別し、発音ずるオブジェクトについてのみ、その定位方向や飛び出し量に基づいた立体音響処理を施すことによって、映像信号と音響信号との整合性が高い、より臨場感のある立体音響の再生処理を効率的な演算量で実現することを目的としている。

上記目的を達成するために本発明の立体音響再生装置は、音声信号を入力する音声信号入力部と、定位位置から音声を発する音像オブジェクトの信号成分を前記音声信号から抽出する音像オブジェクト抽出部と、画像信号を入力する画像信号入力部と、前記音像オブジェクトの定位位置に関する情報に基づいて、前記画像信号に含まれる画像オブジェクトを抽出する領域を画像内で決定する抽出領域決定部と、前記抽出領域決定部で決定した領域から画像オブジェクトを抽出する画像オブジェクト抽出部と、前記音像オブジェクト抽出部で抽出した前記音像オブジェクトの定位位置と前記画像オブジェクト抽出部で抽出した前記画像オブジェクトの位置とが一致するか否かを判断する画像・音像オブジェクト照合部と、前記画像・音像オブジェクト照合部により前記音像オブジェクトの位置と前記画像オブジェクトの位置が一致するものと判断した場合、前記音像オブジェクトを立体音響処理する対象として決定するオブジェクト位置決定部と、前記音声信号のうち、オブジェクト位置決定部で決定された音像オブジェクトに対する音声信号成分に対して立体音響処理を施す立体音響処理部と、前記立体音響処理した音声信号を出力する音声信号出力部とを備えたものである。

さらに、前記音像オブジェクト抽出部は、複数のチャンネル間の相関を判断するチャンネル間相関算出部と、前記チャンネル間の相関関係が高いものについては前記音像オブジェクトの音像位置を推定する音像位置推定部と、前記音声信号について、前記音像オブジェクトの信号成分と音像定位を持たない非音像成分とに分離する音源分離部とを備えるように構成しても構わない。

また、前記画像オブジェクト抽出部は、前記画像信号から左眼用画像と右眼用画像との間の視差量を算出する視差量算出部と、前記視差量算出部で算出した前記視差量の分布を解析することで画像オブジェクトの位置情報を算出する視差量分布解析部とを備えるように構成しても構わない。

本発明の立体音響再生装置及び、立体音響再生方法によれば、映像信号を構成する画像信号と音声信号との整合性が高い、より臨場感のある立体音響の再生処理を効率的な演算量で実現することができる。

本発明の実施の形態における立体音響再生装置の構成を示すブロック図本発明の実施の形態における本発明の立体音響再生装置における処理フロー図音像オブジェクトの存在の有無を判定する動作の説明図音像オブジェクトの定位位置を推定する動作の説明図第１の従来技術の構成を示すブロック図第２の従来技術の構成を示すブロック図

以下本発明を実施するための最良の形態について、図面を参照しながら説明する。

（実施の形態）
図１は本実施の形態における立体音響再生装置の構成を示すブロック図である。

図１において、本実施の形態における立体音響再生装置は、音声信号入力部１、音像オブジェクト抽出部２、画像・音像オブジェクト照合部６、画像信号入力部８、画像オブジェクト抽出部７、抽出領域決定部１０、オブジェクト位置決定部１２、立体音響処理部１３、音声信号出力部１４、画像信号出力部１５とから構成される。音像オブジェクト抽出部２は、チャンネル間相関算出部３、音像位置推定部４、音源分離部５とから構成されている。また、画像オブジェクト抽出部７は、視差量算出部９、視差量分布解析部１１とから構成されている。

また図２は、実施の形態における立体音響再生装置における処理フロー図である。

以下では、図１で構成される本実施の形態における立体音響再生装置の動作について、図２の処理フローも参照しながら説明する。

本実施の形態では映像信号は、音声信号と、画像信号とからなるものとして説明する。

まず最初に、音声入力部１に音声信号が入力される（Ｓ１）。次に、音像オブジェクト抽出部２において、音声信号中に含まれる定位音声を発する音像オブジェクトを抽出する。

本実施の形態における音声信号は、一般的なステレオ２チャンネルの音声信号であるものとする。そしてこの２チャンネルの音声信号について、受聴者に対して前方の左右に割り当てられるオーディオ信号ＦＬ（ｉ）とオーディオ信号ＦＲ（ｉ）とから音像オブジェクト成分Ｘ（ｉ）を推定するものとする。

推定の基本的な考え方としては、オーディオ信号の２つのチャンネル間に相関の強い信号成分があるとき、この２つのオーディオ信号によって受聴空間に定位する音像が知覚されるということを利用し、２つのオーディオ信号の相関をもとに音オブジェクトを抽出するものである。

チャンネル間相関算出部３は、時系列のオーディオ信号ＦＬ（ｉ）とオーディオ信号ＦＲ（ｉ）との間の相関を表す相関係数Ｃ１を（数１）により算出する（Ｓ２）。

続いて、チャンネル間相関算出部３は、算出した相関係数Ｃ１の値を所定の閾値ＴＨ１と比較し、相関係数Ｃ１が閾値ＴＨ１を超える場合には音像オブジェクトが存在するものと判定し、逆に相関係数Ｃ１が閾値ＴＨ１以下の場合は音像オブジェクトが存在しないと判定する。

ここで、（数１）により算出する相関係数Ｃ１は、（数２）に示す範囲の値となる。相関係数Ｃ１が１となる場合には、オーディオ信号ＦＬ（ｉ）とオーディオ信号ＦＲ（ｉ）との間の相関が最も強く、オーディオ信号ＦＬ（ｉ）とオーディオ信号ＦＲ（ｉ）は同相の同一信号である。また、相関係数Ｃ１は、０に近づいて小さくなるにしたがって、オーディオ信号ＦＬ（ｉ）とオーディオ信号ＦＲ（ｉ）との間の相関は弱くなり、０となる場合はオーディオ信号ＦＬ（ｉ）とオーディオ信号ＦＲ（ｉ）との間には相関が全くない。また、相関係数Ｃ１が−１に近づくにしたがってオーディオ信号ＦＬ（ｉ）とオーディオ信号ＦＲ（ｉ）とは逆の相関が強くなり、相関係数Ｃ１が−１となる場合はオーディオ信号ＦＬ（ｉ）とオーディオ信号ＦＲ（ｉ）とは位相が反転しており、オーディオ信号ＦＬ（ｉ）はオーディオ信号ＦＲ（ｉ）の逆相のオーディオ信号（−ＦＲ（ｉ））であることを示す。ただし、このように互いに逆相の信号が対となることは一般的にはほとんどない条件である。

従って本実施の形態における音源信号推定手段では、逆相では音像オブジェクト成分は存在しないものと判定する。

以上の説明の通り、（数３）の通り算出する相関係数Ｃ１が正の値で、かつ、所定の閾値ＴＨ１を超える場合に音像オブジェクトＸ（ｉ）が存在するものと判定する。

ただし、一組のオーディオ信号のいずれか一方のチャンネルが０である場合や、一方のチャンネルのエネルギーが他方に対して十分大きくなる場合には、一方のチャンネルのみで受聴空間に定位する音像が知覚される。このことから、（数４）に示されるような条件である。この条件は、オーディオ信号ＦＬ（ｉ）が０で、かつオーディオ信号ＦＲ（ｉ）が０でない場合、または、オーディオ信号ＦＲ（ｉ）が０で、かつオーディオ信号ＦＬ（ｉ）が０でない場合である。このような場合には、０でない方のチャンネルのオーディオ信号ＦＬ（ｉ）、またはオーディオ信号ＦＲ（ｉ）を音像オブジェクト成分Ｘ（ｉ）と見なすことができる。そして、このような場合にも音像オブジェクトが存在すると判定する。

また、（数５）に示すように、オーディオ信号ＦＬ（ｉ）、またはオーディオ信号ＦＲ（ｉ）のいずれか一方のエネルギーが、他方に対して十分に大きな値となる場合についても、エネルギーの大きいオーディオ信号を音像オブジェクト成分Ｘ（ｉ）と見なすことができるため、音像オブジェクトが存在すると判定する。一例として、ＴＨ２を０．００１と設定すると、エネルギー差は（−２０ｌｏｇ（ＴＨ２））で表されるため、（数５）においてオーディオ信号ＦＬ（ｉ）とオーディオ信号ＦＲ（ｉ）の間に６０［ｄＢ］以上のエネルギー差があることを示す。

以上まとめると、チャンネル間相関算出部３は（数３）、（数４）、（数５）のいずれかの条件を満たす時に、音像オブジェクトが存在するものと判定する（Ｓ３）。

また、（数３）、（数４）、（数５）のいずれかの条件でも音像オブジェクトが存在しないと判定された場合は、立体映像と同期した立体音響処理を施す音像オブジェクトはないものとして処理する。つまり、音像オブジェクト抽出部２内の音源分離部５においては、立体音響処理を行う信号成分を分離するための処理は行わず（Ｓ１８）、音声信号入力部１からの入力信号をそのまま音響信号出力部１４に出力するようにする（Ｓ１９）。

図３は、チャンネル間相関算出部３においてオーディオ信号ＦＬ（ｉ）とオーディオ信号ＦＲ（ｉ）とから算出する相関係数Ｃ１の値と、算出した相関係数Ｃ１と閾値ＴＨ１の比較にもとづいて音像オブジェクトの有無を判定する動作を示す説明図である。

図３（Ａ）はオーディオ信号ＦＬ（ｉ）の時系列の信号波形を、図３（Ｂ）はオーディオ信号ＦＲ（ｉ）の時系列の信号波形を示す。横軸には時間を、縦軸には信号振幅を示す。

また、図３（Ｃ）は、定位音源推定手段１において、（数１）により入力映像信号と同期した映像フレームごとに算出する相関係数Ｃ１の値を示す。横軸には時間軸を、縦軸には算出する相関係数Ｃ１の値を示す。

本実施の形態では、音像オブジェクトの有無を判定するための閾値ＴＨ１を０．５として説明する。閾値ＴＨ１が０．５である位置を図３（Ｃ）に波線で示す。

図３に示す例では、フレーム１およびフレーム２では、相関係数Ｃ１が閾値ＴＨ１以下であるので、音像オブジェクトが存在しないものと判定する。フレーム３およびフレーム４では、相関係数Ｃ１が閾値ＴＨ１を超えるため、音像オブジェクトが存在するものと判定する。

次に、チャンネル間相関算出部３で音像オブジェクトが存在すると判定された場合に、音像位置推定部４は入力オーディオ信号を構成する各チャンネルのオーディオ信号に含まれる音像オブジェクトの信号成分を算出し、各々の信号成分のベクトル合成によって定位音源の定位方向を推定する（Ｓ４）。

図４は、上記の音像位置推定部４での音像オブジェクトの信号成分の算出の概念を示す説明図である。図４において、オーディオ信号ＦＬ（ｉ）およびオーディオ信号ＦＲ（ｉ）に含まれる音像オブジェクト成分Ｘ（ｉ）のうち、オーディオ信号ＦＬ（ｉ）の角度方向の信号成分Ｘ０（ｉ）と、オーディオ信号ＦＲ（ｉ）の角度方向の信号成分Ｘ１（ｉ）とを示している。

ここで、チャンネル間相関算出部３で算出された相関係数Ｃ１が正の値で、かつ、所定の閾値ＴＨ１を超えた場合には、２つのオーディオ信号の間の相関が強く、同相の信号成分が含まれることを表す。一般に２つのオーディオ信号の同相の信号は和信号（（ＦＬ（ｉ）＋ＦＲ（ｉ））／２）によって得られる。定数ａとすれば、オーディオ信号ＦＬ（ｉ）に含まれる同相の信号成分Ｘ０（ｉ）は、（数６）で示される。

さらに、（数７）で示されるオーディオ信号ＦＬ（ｉ）とオーディオ信号ＦＲ（ｉ）に同相の信号成分を表す和信号（（ＦＬ（ｉ）＋ＦＲ（ｉ））／２）と、オーディオ信号ＦＬ（ｉ）との間の残差の総和Δ（Ｌ）を最小にするように定数ａを算出する。そして、この定数ａを用いて（数６）で示される信号成分Ｘ０（ｉ）を定める。

また、同様にして、オーディオ信号ＦＲ（ｉ）に含まれる音像オブジェクトの信号成分Ｘ１（ｉ）についても、和信号（（ＦＬ（ｉ）＋ＦＲ（ｉ））／２）と、オーディオ信号ＦＲ（ｉ）との間の残差の総和を最小にすることで、信号成分Ｘ１（ｉ）を求める。

図４には、このようにして算出した音像オブジェクトの信号成分Ｘ０（ｉ）およびＸ１（ｉ）も示している。

また図４において、ＦＬおよびＦＲは、受聴空間内に割り当てられるオーディオ信号ＦＬ（ｉ）およびオーディオ信号ＦＲ（ｉ）の方向を示す。受聴位置に対して正面を角度の基準として、オーディオ信号ＦＬは左側に角度αで割り当てられており、オーディオ信号ＦＲは右側に角度βで割り当てられる。Ｘ０およびＸ１は、信号成分Ｘ０（ｉ）およびＸ１（ｉ）のそれぞれのエネルギーを大きさとし、ＦＬおよびＦＲを信号の到来方向とするベクトルである。なお、音像オブジェクトＸ（ｉ）の信号成分Ｘ０（ｉ）およびＸ１（ｉ）は、それぞれオーディオ信号ＦＬ（ｉ）およびＦＲ（ｉ）に含まれる信号成分であるため、信号成分Ｘ０および信号成分Ｘ１の角度は、それぞれオーディオ信号ＦＬおよびオーディオ信号ＦＲと同一である。

従って音像オブジェクトの定位方向は、図４に示す２つの信号成分を示すベクトルＸ０とＸ１のベクトルの合成で得られるため、音像オブジェクトＸ（ｉ）を示すベクトルＸの到来方向を指す角度をγとすると、（数９）の関係式が成り立つ。

なお、ＦＬおよびＦＲを受聴位置に対して正面を基準として左右の等角度に配置するとき、すなわちβが（−α）であるとき、（数９）は（数１０）のように表すことができる。

（数１０）によれば、信号成分Ｘ０の信号振幅が信号成分Ｘ１より大きい場合は、γが正の値となり、受聴位置に対して前方の左に配置するスピーカー５に近い方向に音像が定位することを示す。逆に信号成分Ｘ１の信号振幅が信号成分Ｘ０より大きい場合は、γが負の値となり、受聴位置に対して前方の右に配置するスピーカー６に近い方向に音像が定位することを示す。また、信号成分Ｘ０と信号成分Ｘ１の信号振幅が等しい場合は、γが０となり、前方の左右に配置する２つのスピーカーから等距離の受聴位置正面の方向に音像が定位することを示す。

また、チャンネル間相関算出部３で（数４）、（数５）のいずれかの条件で音像オブジェクトが存在するものと判定された場合は、ＦＬまたはＦＲのいずれか信号エネルギー成分の大きいチャンネルと同じ方向に定位するものとする。

以上の動作によって、音像位置推定部４は、定位音源の定位方向を推定し、音像オブジェクトが存在する方向情報を、画像・音像オブジェクト照合部６と抽出領域決定部１０に出力する（Ｓ５）。

なお上記の説明は、入力音声信号がステレオ２チャンネルの場合の音像オブジェクト抽出部３の動作であるが、入力音声信号が２チャンネル以上の場合であっても同様に行える。多チャンネルの場合にも、例えば前方左チャンネルと後方左チャンネル２つのチャンネル信号について、上記と同様にチャンネル間の相関値を算出して音像位置を推定する動作を行う。さらに、入力音声信号を構成する全てのチャンネルから選択した２つのチャンネルに対して、同様にチャンネル間の相関値を算出して音像位置を推定する動作を繰り返して行うことによって、音像オブジェクトが存在する方向情報を作成することができる。

複数のチャンネルのうちの２つのチャンネル間において（数３）、（数４）、（数５）のいずれからの条件で音像オブジェクトが存在すると判断されれば、前述の様に複数のチャンネル間において音像オブジェクトが存在すると判断することができる。抽出されたそれぞれの音像オブジェクト毎に音像位置推定部４で音像位置が推定され、複数の音像オブジェクト方向情報が、画像・音像オブジェクト照合部６と抽出領域決定部１０に出力されることになる。

なお、音像オブジェクト抽出部２の動作について、本実施の形態とは別の手法として、入力音声信号の周波数スペクトラムから特定の振幅形状や位相成分を抽出する手法や、独立成分分析によるブラインド音源抽出などによって音像オブジェクトの信号成分を抽出し、その方向情報を出力することでも以降の処理を動作させることができる。

次に、画像信号に含まれる画像オブジェクト情報を、画像信号入力部８で抽出する。画像信号入力部８は、立体映像を構成する左右の画像信号を、３Ｄ対応テレビなど立体映像を表示できる画像信号出力部１５に出力する。さらに、画像信号入力部８は、画像信号を画像オブジェクト抽出部７にも出力する。

本実施の形態において、画像オブジェクトを抽出する際には、視差量を算出することを例に説明する。

本実施の形態の画像オブジェクト抽出部７において、視差量算出部９における視差量の算出は、全ての画像領域について行うのではない。音像位置推定部４から出力された音像オブジェクトの方向情報に基づいて、抽出領域決定部１０が視差量を算出する画像領域を決定する（Ｓ６）。

そして、抽出領域決定部１０により決定された画像領域の画像信号のみが画像信号入力部８から入力され（Ｓ７）、その決定された画像領域の画像信号に対して視差量算出部９が視差量を算出するものである。

抽出領域決定部１０での抽出領域の決定方法としては、例えば図４における音像オブジェクトの定位方向角γの正負に従って、γが正であれば画像領域の左半分を、γが負であれば画像領域の右半分を視差量を算出する領域として決定するものである。

また抽出領域の別の決定方法としては、画像領域を左右と中央に３分割し、音像オブジェクト抽出部２で（数３）の条件で音像オブジェクトの存在が判定された場合は中央の画像領域を、（数４）、（数５）のいずれかの条件で音像オブジェクトの存在が判定された場合は左右のうち音声信号のエネルギー成分の大きい側の画像領域をそれぞれ視差量を算出する領域として決定しても良い。

以上のように視差量を算出する画像領域を制限することで、全ての画像領域に亘って視差量を算出する場合と比べて、視差量を算出する演算量を少なくすることができる。さらに、画像信号入力部８から入力する画像信号も算出領域のみに限定することで、画像オブジェクト抽出部７に必要なメモリ量も軽減することができる。

次に、視差量算出部９で算出された計算領域毎の視差量データは、視差量分布解析部１１において、画像オブジェクト抽出のために、視差量の分布状況の解析を行う（Ｓ９）。計算された視差量の分布を用いて視差量の等しい部分を繋ぎ合わせることによって画像オブジェクトを形成できる輪郭が抽出できれば、その輪郭形状を画像オブジェクトと判定する手法により、視差量分布解析部１１は画像オブジェクトを抽出することができる（Ｓ１０）。さらに、抽出した輪郭形状の画面上でのおよその中心位置と、輪郭形状内での視差量の平均値を求め、画像オブジェクトの位置情報として画像・音像オブジェクト照合部６に出力する（Ｓ１１）。

また、視差量分布解析部１１において、画像オブジェクトを形成できる輪郭が抽出できず画像オブジェクトが存在しないと判定された場合には、立体映像と同期した立体音響処理を施す音像オブジェクトはないものとする。音像オブシェクトはない場合には、音像オブジェクト抽出部２内の音源分離部５においては、立体音響処理を行う信号成分を分離するための処理は行わず（Ｓ１８）、音声信号入力部１からの入力信号をそのまま音響信号出力部１４に出力するようにする（Ｓ１９）。

以上の処理で、音像オブジェクトと画像オブジェクトの位置情報を算出し、画像・音像オブジェクト照合部６に入力する。画像・音像オブジェクト照合部６において、音像オブジェクトの位置情報と、画像オブジェクトの位置情報とが一致するものか否かを判定する。この判定は、例えば２つの位置情報が許容角±１０度以内に入るか否かなど適切な判定条件を設定して判定する（Ｓ１２）。２つの位置情報が許容角内に入っており、一致するものと判定された場合には、立体映像と同期した立体音響処理を施す音像オブジェクトが存在するものとして、音像オブジェクトの定位位置をオブジェクト位置決定部１２において決定する（Ｓ１３）。

なお、これまで説明した一連の動作は、入力画像信号の映像フレームに同期した時間単位で行われるが、前述の立体音響処理を施す音像オブジェクト存在の判定に、前後のフレーム間でのオブジェクトの位置情報の連続性を考慮することを判定条件に加えても良い。

また、定位位置のパラメータとしては、視差量から求めた画面からの飛び出し量に代表されるように、ユーザー視聴位置から見た画面方向における画面位置からの変位量や、ユーザー視聴位置から見た画面正面方向に対する変位角などがある。

また、画像・音像オブジェクト照合部６で一致しないと判定された場合には、立体映像と同期した立体音響処理を施す音像オブジェクトはないものとして、音像オブジェクト抽出部２内の音源分離部５においては、立体音響処理を行う信号成分を分離するための処理は行わず（Ｓ１８）、音声信号入力部１からの入力信号をそのまま音響信号出力部１４に出力するようにする（Ｓ１９）。

次に、音像オブジェクト抽出部２内の音源分離部５における音源分離動作について説明する。

音像オブジェクトの信号成分Ｘ（ｉ）については、（数６）で示されるオーディオ信号ＦＬ（ｉ）の角度方向の信号成分Ｘ０（ｉ）が（数７）の定数ａを最小化する条件で求められる。ことは前述の通りである。同様にしてオーディオ信号ＦＲ（ｉ）の角度方向の信号成分Ｘ１（ｉ）も算出することも前述の通りである。

そこで、オーディオ信号ＦＬ（ｉ）と音像オブジェクトのＦＬ方向の信号成分Ｘ０（ｉ）とのエネルギー比にもとづいて、（数８）に示す信号ＦＬａ（ｉ）を受聴空間に定位する音像がない非定位信号として抽出する。

また同様にして、オーディオ信号ＦＲ（ｉ）と音像オブジェクトのＦＲ方向の信号成分Ｘ１（ｉ）のエネルギーの比にもとづいて、非定位信号ＦＲａ（ｉ）を抽出する。

以上の処理によって、音源分離部５において、入力音声信号（ＦＬ（ｉ）、ＦＲ（ｉ））を、音像オブジェクトの信号成分（Ｘ０（ｉ）、Ｘ１（ｉ））と非定位信号成分（ＦＬａ（ｉ）、ＦＲａ（ｉ））に分離することができる（Ｓ１４）。

上記２種類の信号成分のうち、音像オブジェクトの信号成分（Ｘ０（ｉ）、Ｘ１（ｉ））は、立体音響処理部１３に出力される。立体音響処理部１３において、オブジェクト位置決定部１２からの定位位置のパラメータに従った立体音響効果を付与する処理が施される（Ｓ１５）。立体音響処理部１３における、立体音響効果の例としては、音像オブジェクトの信号成分に対して、画面からの飛出し距離に応じてエネルギーレベルを変動させたり、定位角度に応じてＩＴＤやＩＬＤなどの両耳特性を与えたりする処理などがある。

また一方、非定位信号成分（ＦＬａ（ｉ）、ＦＲａ（ｉ））については、音像オブジェクトの信号成分（Ｘ０（ｉ）、Ｘ１（ｉ））とは別に出力される。非定位信号成分（ＦＬａ（ｉ）、ＦＲａ（ｉ））は必要に応じて、適切なエネルギーバランスに調整して、立体音響処理部１３の出力信号と加算される（Ｓ１６）。その加算出力は、アンプ、スピーカなどから構成される音響信号出力部１４から音声再生される（Ｓ１９）。

なお先にも述べたとおり、これまでの一連の処理は、音声入力が開始されてから終了するまで、入力画像信号の画像フレームの時間単位で繰り返して行われ（Ｓ１７）、音声入力が終了した時点で、処理を終了するものである。

本発明にかかる音像定位処理装置は、より正中面に近い後ろ方向の定位品質の向上が求められる音像定位処理において、簡易な方式で、かつ音質や音場感を大きく変化することなく、音像の定位品質を向上させることが可能となるものとして有用である。

１音声信号入力部
２音像オブジェクト抽出部
３チャンネル間相関算出部
４音像位置推定部
５音源分離部
６画像・音像オブジェクト照合部
７画像オブジェクト抽出部
８画像信号入力部
９視差量算出部
１０抽出領域決定部
１１視差量分布解析部
１２オブジェクト位置決定部
１３立体音響処理部
１４音響信号出力部
１５画像信号出力部

Claims

音声信号を入力する音声信号入力部と、定位位置から音声を発する音像オブジェクトの信号成分を前記音声信号から抽出する音像オブジェクト抽出部と、画像信号を入力する画像信号入力部と、前記音像オブジェクトの定位位置に関する情報に基づいて、前記画像信号に含まれる画像オブジェクトを抽出する領域を画像内で決定する抽出領域決定部と、前記抽出領域決定部で決定した領域から画像オブジェクトを抽出する画像オブジェクト抽出部と、前記音像オブジェクト抽出部で抽出した前記音像オブジェクトの定位位置と前記画像オブジェクト抽出部で抽出した前記画像オブジェクトの位置とが一致するか否かを判断する画像・音像オブジェクト照合部と、前記画像・音像オブジェクト照合部により前記音像オブジェクトの位置と前記画像オブジェクトの位置が一致するものと判断した場合、前記音像オブジェクトを立体音響処理する対象として決定するオブジェクト位置決定部と、前記音声信号のうち、オブジェクト位置決定部で決定された音像オブジェクトに対する音声信号成分に対して立体音響処理を施す立体音響処理部と、前記立体音響処理した音声信号を出力する音声信号出力部とからなることを特徴とする立体音響再生装置。
前記音像オブジェクト抽出部は、複数のチャンネル間の相関を判断するチャンネル間相関算出部と、前記チャンネル間の相関関係が高いものについては前記音像オブジェクトの音像位置を推定する音像位置推定部と、前記音声信号について、前記音像オブジェクトの信号成分と音像定位を持たない非音像成分とに分離する音源分離部とからなることを特徴とする請求項１に記載の立体音響再生装置。
前記画像オブジェクト抽出部は、前記画像信号から左眼用画像と右眼用画像との間の視差量を算出する視差量算出部と、前記視差量算出部で算出した前記視差量の分布を解析することで画像オブジェクトの位置情報を算出する視差量分布解析部からなることを特徴とする請求項１に記載の立体音響再生装置。
音声信号を入力する音声信号入力ステップと、定位位置から音声を発する音像オブジェクトの信号成分を前記音声信号から抽出する音像オブジェクト抽出ステップと、画像信号を入力する画像信号入力ステップと、前記音像オブジェクトの定位位置に関する情報に基づいて、前記画像信号に含まれる画像オブジェクトを抽出する領域を画像内で決定する抽出領域決定ステップと、前記抽出領域決定ステップで決定した領域から画像オブジェクトを抽出する画像オブジェクト抽出ステップと、前記音像オブジェクト抽出ステップで抽出した前記音像オブジェクトの定位位置と前記画像オブジェクト抽出ステップで抽出した前記画像オブジェクトの位置とが一致するか否かを判断する画像・音像オブジェクト照合ステップと、前記画像・音像オブジェクト照合ステップにより前記音像オブジェクトの位置と前記画像オブジェクトの位置が一致するものと判断した場合、前記音像オブジェクトを立体音響処理する対象として決定するオブジェクト位置決定ステップと、前記音声信号のうち、オブジェクト位置決定部で決定された音像オブジェクトに対する音声信号成分に対して立体音響処理を施す立体音響処理ステップと、前記立体音響処理した音声信号を出力する音声信号出力ステップとを含むことを特徴とする立体音響再生方法。
前記音像オブジェクト抽出ステップは、複数のチャンネル間の相関を判断するチャンネル間相関算出ステップと、前記チャンネル間の相関関係が高いものについては前記音像オブジェクトの音像位置を推定する音像位置推定ステップと、前記音声信号について、前記音像オブジェクトの信号成分と明確な音像定位を持たない非音像成分とに分離する音源分離ステップとを含むことを特徴とする請求項４に記載の立体音響再生方法。
前記画像オブジェクト抽出ステップは、前記画像信号から左眼用画像と右眼用画像との間の視差量算出ステップと、前記視差量算出ステップで算出した前記視差量の分布を解析することで画像オブジェクトの位置情報を算出する視差量分布解析ステップとを含むことを特徴とする請求項４に記載の立体音響再生方法。