JP2011234177A - 立体音響再生装置及び再生方法 - Google Patents

立体音響再生装置及び再生方法 Download PDF

Info

Publication number
JP2011234177A
JP2011234177A JP2010103301A JP2010103301A JP2011234177A JP 2011234177 A JP2011234177 A JP 2011234177A JP 2010103301 A JP2010103301 A JP 2010103301A JP 2010103301 A JP2010103301 A JP 2010103301A JP 2011234177 A JP2011234177 A JP 2011234177A
Authority
JP
Japan
Prior art keywords
sound
image
image object
signal
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010103301A
Other languages
English (en)
Inventor
Toshihiko Date
俊彦 伊達
Akira Usami
陽 宇佐見
Naoya Tanaka
直也 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Priority to JP2010103301A priority Critical patent/JP2011234177A/ja
Publication of JP2011234177A publication Critical patent/JP2011234177A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Stereophonic System (AREA)

Abstract

【課題】画像分析で抽出された映像オブジェクト毎に立体音響処理を施す構成であっても、必ずしも全ての画像オブジェクトが発音するオブジェクトとは限らない。建物や風景など発音しないオブジェクトまで画像分析することによって、演算量が必要以上に大きくなり、演算処理のリアルタイム性や分析精度を向上させるためには実現に必要となるコストが上昇する。
【解決手段】まず立体音響処理を施す音像オブジェクトを抽出し、その音像オブジェクトが出現する領域についてのみ画像オブジェクトを抽出した上で、双方のオブジェクトの位置を照合する。その結果、発音しない画像オブジェクトや画像のない音像オブジェクトと発音するオブジェクトを選別することが可能となり、発音オブジェクトについてのみ、その定位方向や飛び出し量に基づいた立体音響処理を施すことができる。
【選択図】図1

Description

本発明は、3D立体映像による飛び出し感や奥行き感と同期した立体音響再生を実現する技術に関するものである。
近年、3D映画再生に対応した映画館が増加し、さらに映画以外でもゲームや放送など様々なコンテンツが3D立体映像で制作される動きが現れている。これに伴い、家庭においてもこれらの3D映像を再生できる薄型テレビに代表されるディスプレイ装置が提供されはじめている。このように、映像再生は、2Dから3Dへ大きく変化している。
一方、音響再生については、映像表現が3Dとなっても従来のステレオや5.1chサラウンドなど再生方式やそれに基づくコンテンツの制作手法や制作フォーマットは基本的には2D映像時と大きく変わっていない。
しかしながら、3D立体映像と整合した音響効果を提供することができれば、3D映像再生の表現力増加を一層際立たせる臨場感や実在感を実現できることが期待できる。
このように3D立体映像と整合した音響効果を提供するという観点において、3D映像再生で用いられる右目用画像と左目用画像の視差量を、立体音響処理の制御パラメータとして用いる立体音響処理を行う先行技術がある。
特許文献1では、奥行き信号の値に応じて右眼左眼用画像の生成と立体音響処理を施すものである。
より具体的な構成としては、図5のブロック図に示す通り、奥行き信号発生装置21で決定された奥行き信号の値に応じて、音響信号に対して減衰器22と両耳間相互相関係数制御装置23によって、音場の距離感や拡がり感を制御するものである。
また特許文献2では、右目用画像と左目用画像の画像分析によって画像オブジェクトを抽出し、その画像オブジェクト毎に立体音響処理を施すものである。
より具体的な構成としては、図6のブロック図に示す通り、右眼と左眼用画像を撮影する2台のカメラ24の出力画像の視差量を視差ベクトル検出器25で検出し、奥行き距離算出部26で算出した画像オブジェクトの位置情報に基づいて、複数方向の音を収録するように設置された複数マイク群27から適切なマイクの出力を音源選択部28で選択し、その選択されたマイクの出力信号を記録メディア29に記録するものである。
特開平6−105400号公報 特開2006−128816号公報
しかし、特許文献1において、奥行き信号の生成方法については具体的に明示されていない。また奥行き信号は、画像全体に対する値であるため、画面内の特定のオブジェクトに対する立体音響処理には対応できない。
また、特許文献2において、画像分析で抽出される全ての画像オブジェクトが必ずしも音を発する発音体とは限らない。建物や風景など発音しないオブジェクトまで画像分析することによって、演算量が必要以上に大きくなり、演算処理のリアルタイム性や分析精度を向上させるためには実現コストが上昇するという課題がある。
そこで本発明は、まず立体音響処理を施す音像オブジェクトを抽出し、その音像オブジェクトが出現する領域についてのみ画像オブジェクトを抽出した上で、双方のオブジェクトの位置、出現時間を照合する。その結果、発音しない画像オブジェクトやBGMやナレーションなど画像のない音像オブジェクトと発音するオブジェクトを選別し、発音ずるオブジェクトについてのみ、その定位方向や飛び出し量に基づいた立体音響処理を施すことによって、映像信号と音響信号との整合性が高い、より臨場感のある立体音響の再生処理を効率的な演算量で実現することを目的としている。
上記目的を達成するために本発明の立体音響再生装置は、音声信号を入力する音声信号入力部と、定位位置から音声を発する音像オブジェクトの信号成分を前記音声信号から抽出する音像オブジェクト抽出部と、画像信号を入力する画像信号入力部と、前記音像オブジェクトの定位位置に関する情報に基づいて、前記画像信号に含まれる画像オブジェクトを抽出する領域を画像内で決定する抽出領域決定部と、前記抽出領域決定部で決定した領域から画像オブジェクトを抽出する画像オブジェクト抽出部と、前記音像オブジェクト抽出部で抽出した前記音像オブジェクトの定位位置と前記画像オブジェクト抽出部で抽出した前記画像オブジェクトの位置とが一致するか否かを判断する画像・音像オブジェクト照合部と、前記画像・音像オブジェクト照合部により前記音像オブジェクトの位置と前記画像オブジェクトの位置が一致するものと判断した場合、前記音像オブジェクトを立体音響処理する対象として決定するオブジェクト位置決定部と、前記音声信号のうち、オブジェクト位置決定部で決定された音像オブジェクトに対する音声信号成分に対して立体音響処理を施す立体音響処理部と、前記立体音響処理した音声信号を出力する音声信号出力部とを備えたものである。
さらに、前記音像オブジェクト抽出部は、複数のチャンネル間の相関を判断するチャンネル間相関算出部と、前記チャンネル間の相関関係が高いものについては前記音像オブジェクトの音像位置を推定する音像位置推定部と、前記音声信号について、前記音像オブジェクトの信号成分と音像定位を持たない非音像成分とに分離する音源分離部とを備えるように構成しても構わない。
また、前記画像オブジェクト抽出部は、前記画像信号から左眼用画像と右眼用画像との間の視差量を算出する視差量算出部と、前記視差量算出部で算出した前記視差量の分布を解析することで画像オブジェクトの位置情報を算出する視差量分布解析部とを備えるように構成しても構わない。
本発明の立体音響再生装置及び、立体音響再生方法によれば、映像信号を構成する画像信号と音声信号との整合性が高い、より臨場感のある立体音響の再生処理を効率的な演算量で実現することができる。
本発明の実施の形態における立体音響再生装置の構成を示すブロック図 本発明の実施の形態における本発明の立体音響再生装置における処理フロー図 音像オブジェクトの存在の有無を判定する動作の説明図 音像オブジェクトの定位位置を推定する動作の説明図 第1の従来技術の構成を示すブロック図 第2の従来技術の構成を示すブロック図
以下本発明を実施するための最良の形態について、図面を参照しながら説明する。
(実施の形態)
図1は本実施の形態における立体音響再生装置の構成を示すブロック図である。
図1において、本実施の形態における立体音響再生装置は、音声信号入力部1、音像オブジェクト抽出部2、画像・音像オブジェクト照合部6、画像信号入力部8、画像オブジェクト抽出部7、抽出領域決定部10、オブジェクト位置決定部12、立体音響処理部13、音声信号出力部14、画像信号出力部15とから構成される。音像オブジェクト抽出部2は、チャンネル間相関算出部3、音像位置推定部4、音源分離部5とから構成されている。また、画像オブジェクト抽出部7は、視差量算出部9、視差量分布解析部11とから構成されている。
また図2は、実施の形態における立体音響再生装置における処理フロー図である。
以下では、図1で構成される本実施の形態における立体音響再生装置の動作について、図2の処理フローも参照しながら説明する。
本実施の形態では映像信号は、音声信号と、画像信号とからなるものとして説明する。
まず最初に、音声入力部1に音声信号が入力される(S1)。次に、音像オブジェクト抽出部2において、音声信号中に含まれる定位音声を発する音像オブジェクトを抽出する。
本実施の形態における音声信号は、一般的なステレオ2チャンネルの音声信号であるものとする。そしてこの2チャンネルの音声信号について、受聴者に対して前方の左右に割り当てられるオーディオ信号FL(i)とオーディオ信号FR(i)とから音像オブジェクト成分X(i)を推定するものとする。
推定の基本的な考え方としては、オーディオ信号の2つのチャンネル間に相関の強い信号成分があるとき、この2つのオーディオ信号によって受聴空間に定位する音像が知覚されるということを利用し、2つのオーディオ信号の相関をもとに音オブジェクトを抽出するものである。
チャンネル間相関算出部3は、時系列のオーディオ信号FL(i)とオーディオ信号FR(i)との間の相関を表す相関係数C1を(数1)により算出する(S2)。
続いて、チャンネル間相関算出部3は、算出した相関係数C1の値を所定の閾値TH1と比較し、相関係数C1が閾値TH1を超える場合には音像オブジェクトが存在するものと判定し、逆に相関係数C1が閾値TH1以下の場合は音像オブジェクトが存在しないと判定する。
ここで、(数1)により算出する相関係数C1は、(数2)に示す範囲の値となる。相関係数C1が1となる場合には、オーディオ信号FL(i)とオーディオ信号FR(i)との間の相関が最も強く、オーディオ信号FL(i)とオーディオ信号FR(i)は同相の同一信号である。また、相関係数C1は、0に近づいて小さくなるにしたがって、オーディオ信号FL(i)とオーディオ信号FR(i)との間の相関は弱くなり、0となる場合はオーディオ信号FL(i)とオーディオ信号FR(i)との間には相関が全くない。また、相関係数C1が−1に近づくにしたがってオーディオ信号FL(i)とオーディオ信号FR(i)とは逆の相関が強くなり、相関係数C1が−1となる場合はオーディオ信号FL(i)とオーディオ信号FR(i)とは位相が反転しており、オーディオ信号FL(i)はオーディオ信号FR(i)の逆相のオーディオ信号(−FR(i))であることを示す。ただし、このように互いに逆相の信号が対となることは一般的にはほとんどない条件である。
Figure 2011234177
Figure 2011234177
従って本実施の形態における音源信号推定手段では、逆相では音像オブジェクト成分は存在しないものと判定する。
以上の説明の通り、(数3)の通り算出する相関係数C1が正の値で、かつ、所定の閾値TH1を超える場合に音像オブジェクトX(i)が存在するものと判定する。
Figure 2011234177
ただし、一組のオーディオ信号のいずれか一方のチャンネルが0である場合や、一方のチャンネルのエネルギーが他方に対して十分大きくなる場合には、一方のチャンネルのみで受聴空間に定位する音像が知覚される。このことから、(数4)に示されるような条件である。この条件は、オーディオ信号FL(i)が0で、かつオーディオ信号FR(i)が0でない場合、または、オーディオ信号FR(i)が0で、かつオーディオ信号FL(i)が0でない場合である。このような場合には、0でない方のチャンネルのオーディオ信号FL(i)、またはオーディオ信号FR(i)を音像オブジェクト成分X(i)と見なすことができる。そして、このような場合にも音像オブジェクトが存在すると判定する。
Figure 2011234177
また、(数5)に示すように、オーディオ信号FL(i)、またはオーディオ信号FR(i)のいずれか一方のエネルギーが、他方に対して十分に大きな値となる場合についても、エネルギーの大きいオーディオ信号を音像オブジェクト成分X(i)と見なすことができるため、音像オブジェクトが存在すると判定する。一例として、TH2を0.001と設定すると、エネルギー差は(−20log(TH2))で表されるため、(数5)においてオーディオ信号FL(i)とオーディオ信号FR(i)の間に60[dB]以上のエネルギー差があることを示す。
Figure 2011234177
以上まとめると、チャンネル間相関算出部3は(数3)、(数4)、(数5)のいずれかの条件を満たす時に、音像オブジェクトが存在するものと判定する(S3)。
また、(数3)、(数4)、(数5)のいずれかの条件でも音像オブジェクトが存在しないと判定された場合は、立体映像と同期した立体音響処理を施す音像オブジェクトはないものとして処理する。つまり、音像オブジェクト抽出部2内の音源分離部5においては、立体音響処理を行う信号成分を分離するための処理は行わず(S18)、音声信号入力部1からの入力信号をそのまま音響信号出力部14に出力するようにする(S19)。
図3は、チャンネル間相関算出部3においてオーディオ信号FL(i)とオーディオ信号FR(i)とから算出する相関係数C1の値と、算出した相関係数C1と閾値TH1の比較にもとづいて音像オブジェクトの有無を判定する動作を示す説明図である。
図3(A)はオーディオ信号FL(i)の時系列の信号波形を、図3(B)はオーディオ信号FR(i)の時系列の信号波形を示す。横軸には時間を、縦軸には信号振幅を示す。
また、図3(C)は、定位音源推定手段1において、(数1)により入力映像信号と同期した映像フレームごとに算出する相関係数C1の値を示す。横軸には時間軸を、縦軸には算出する相関係数C1の値を示す。
本実施の形態では、音像オブジェクトの有無を判定するための閾値TH1を0.5として説明する。閾値TH1が0.5である位置を図3(C)に波線で示す。
図3に示す例では、フレーム1およびフレーム2では、相関係数C1が閾値TH1以下であるので、音像オブジェクトが存在しないものと判定する。フレーム3およびフレーム4では、相関係数C1が閾値TH1を超えるため、音像オブジェクトが存在するものと判定する。
次に、チャンネル間相関算出部3で音像オブジェクトが存在すると判定された場合に、音像位置推定部4は入力オーディオ信号を構成する各チャンネルのオーディオ信号に含まれる音像オブジェクトの信号成分を算出し、各々の信号成分のベクトル合成によって定位音源の定位方向を推定する(S4)。
図4は、上記の音像位置推定部4での音像オブジェクトの信号成分の算出の概念を示す説明図である。図4において、オーディオ信号FL(i)およびオーディオ信号FR(i)に含まれる音像オブジェクト成分X(i)のうち、オーディオ信号FL(i)の角度方向の信号成分X0(i)と、オーディオ信号FR(i)の角度方向の信号成分X1(i)とを示している。
ここで、チャンネル間相関算出部3で算出された相関係数C1が正の値で、かつ、所定の閾値TH1を超えた場合には、2つのオーディオ信号の間の相関が強く、同相の信号成分が含まれることを表す。一般に2つのオーディオ信号の同相の信号は和信号((FL(i)+FR(i))/2)によって得られる。定数aとすれば、オーディオ信号FL(i)に含まれる同相の信号成分X0(i)は、(数6)で示される。
Figure 2011234177
さらに、(数7)で示されるオーディオ信号FL(i)とオーディオ信号FR(i)に同相の信号成分を表す和信号((FL(i)+FR(i))/2)と、オーディオ信号FL(i)との間の残差の総和Δ(L)を最小にするように定数aを算出する。そして、この定数aを用いて(数6)で示される信号成分X0(i)を定める。
Figure 2011234177
また、同様にして、オーディオ信号FR(i)に含まれる音像オブジェクトの信号成分X1(i)についても、和信号((FL(i)+FR(i))/2)と、オーディオ信号FR(i)との間の残差の総和を最小にすることで、信号成分X1(i)を求める。
図4には、このようにして算出した音像オブジェクトの信号成分X0(i)およびX1(i)も示している。
また図4において、FLおよびFRは、受聴空間内に割り当てられるオーディオ信号FL(i)およびオーディオ信号FR(i)の方向を示す。受聴位置に対して正面を角度の基準として、オーディオ信号FLは左側に角度αで割り当てられており、オーディオ信号FRは右側に角度βで割り当てられる。X0およびX1は、信号成分X0(i)およびX1(i)のそれぞれのエネルギーを大きさとし、FLおよびFRを信号の到来方向とするベクトルである。なお、音像オブジェクトX(i)の信号成分X0(i)およびX1(i)は、それぞれオーディオ信号FL(i)およびFR(i)に含まれる信号成分であるため、信号成分X0および信号成分X1の角度は、それぞれオーディオ信号FLおよびオーディオ信号FRと同一である。
従って音像オブジェクトの定位方向は、図4に示す2つの信号成分を示すベクトルX0とX1のベクトルの合成で得られるため、音像オブジェクトX(i)を示すベクトルXの到来方向を指す角度をγとすると、(数9)の関係式が成り立つ。
Figure 2011234177
なお、FLおよびFRを受聴位置に対して正面を基準として左右の等角度に配置するとき、すなわちβが(−α)であるとき、(数9)は(数10)のように表すことができる。
Figure 2011234177
(数10)によれば、信号成分X0の信号振幅が信号成分X1より大きい場合は、γが正の値となり、受聴位置に対して前方の左に配置するスピーカー5に近い方向に音像が定位することを示す。逆に信号成分X1の信号振幅が信号成分X0より大きい場合は、γが負の値となり、受聴位置に対して前方の右に配置するスピーカー6に近い方向に音像が定位することを示す。また、信号成分X0と信号成分X1の信号振幅が等しい場合は、γが0となり、前方の左右に配置する2つのスピーカーから等距離の受聴位置正面の方向に音像が定位することを示す。
また、チャンネル間相関算出部3で(数4)、(数5)のいずれかの条件で音像オブジェクトが存在するものと判定された場合は、FLまたはFRのいずれか信号エネルギー成分の大きいチャンネルと同じ方向に定位するものとする。
以上の動作によって、音像位置推定部4は、定位音源の定位方向を推定し、音像オブジェクトが存在する方向情報を、画像・音像オブジェクト照合部6と抽出領域決定部10に出力する(S5)。
なお上記の説明は、入力音声信号がステレオ2チャンネルの場合の音像オブジェクト抽出部3の動作であるが、入力音声信号が2チャンネル以上の場合であっても同様に行える。多チャンネルの場合にも、例えば前方左チャンネルと後方左チャンネル2つのチャンネル信号について、上記と同様にチャンネル間の相関値を算出して音像位置を推定する動作を行う。さらに、入力音声信号を構成する全てのチャンネルから選択した2つのチャンネルに対して、同様にチャンネル間の相関値を算出して音像位置を推定する動作を繰り返して行うことによって、音像オブジェクトが存在する方向情報を作成することができる。
複数のチャンネルのうちの2つのチャンネル間において(数3)、(数4)、(数5)のいずれからの条件で音像オブジェクトが存在すると判断されれば、前述の様に複数のチャンネル間において音像オブジェクトが存在すると判断することができる。抽出されたそれぞれの音像オブジェクト毎に音像位置推定部4で音像位置が推定され、複数の音像オブジェクト方向情報が、画像・音像オブジェクト照合部6と抽出領域決定部10に出力されることになる。
なお、音像オブジェクト抽出部2の動作について、本実施の形態とは別の手法として、入力音声信号の周波数スペクトラムから特定の振幅形状や位相成分を抽出する手法や、独立成分分析によるブラインド音源抽出などによって音像オブジェクトの信号成分を抽出し、その方向情報を出力することでも以降の処理を動作させることができる。
次に、画像信号に含まれる画像オブジェクト情報を、画像信号入力部8で抽出する。画像信号入力部8は、立体映像を構成する左右の画像信号を、3D対応テレビなど立体映像を表示できる画像信号出力部15に出力する。さらに、画像信号入力部8は、画像信号を画像オブジェクト抽出部7にも出力する。
本実施の形態において、画像オブジェクトを抽出する際には、視差量を算出することを例に説明する。
本実施の形態の画像オブジェクト抽出部7において、視差量算出部9における視差量の算出は、全ての画像領域について行うのではない。音像位置推定部4から出力された音像オブジェクトの方向情報に基づいて、抽出領域決定部10が視差量を算出する画像領域を決定する(S6)。
そして、抽出領域決定部10により決定された画像領域の画像信号のみが画像信号入力部8から入力され(S7)、その決定された画像領域の画像信号に対して視差量算出部9が視差量を算出するものである。
抽出領域決定部10での抽出領域の決定方法としては、例えば図4における音像オブジェクトの定位方向角γの正負に従って、γが正であれば画像領域の左半分を、γが負であれば画像領域の右半分を視差量を算出する領域として決定するものである。
また抽出領域の別の決定方法としては、画像領域を左右と中央に3分割し、音像オブジェクト抽出部2で(数3)の条件で音像オブジェクトの存在が判定された場合は中央の画像領域を、(数4)、(数5)のいずれかの条件で音像オブジェクトの存在が判定された場合は左右のうち音声信号のエネルギー成分の大きい側の画像領域をそれぞれ視差量を算出する領域として決定しても良い。
以上のように視差量を算出する画像領域を制限することで、全ての画像領域に亘って視差量を算出する場合と比べて、視差量を算出する演算量を少なくすることができる。さらに、画像信号入力部8から入力する画像信号も算出領域のみに限定することで、画像オブジェクト抽出部7に必要なメモリ量も軽減することができる。
次に、視差量算出部9で算出された計算領域毎の視差量データは、視差量分布解析部11において、画像オブジェクト抽出のために、視差量の分布状況の解析を行う(S9)。計算された視差量の分布を用いて視差量の等しい部分を繋ぎ合わせることによって画像オブジェクトを形成できる輪郭が抽出できれば、その輪郭形状を画像オブジェクトと判定する手法により、視差量分布解析部11は画像オブジェクトを抽出することができる(S10)。さらに、抽出した輪郭形状の画面上でのおよその中心位置と、輪郭形状内での視差量の平均値を求め、画像オブジェクトの位置情報として画像・音像オブジェクト照合部6に出力する(S11)。
また、視差量分布解析部11において、画像オブジェクトを形成できる輪郭が抽出できず画像オブジェクトが存在しないと判定された場合には、立体映像と同期した立体音響処理を施す音像オブジェクトはないものとする。音像オブシェクトはない場合には、音像オブジェクト抽出部2内の音源分離部5においては、立体音響処理を行う信号成分を分離するための処理は行わず(S18)、音声信号入力部1からの入力信号をそのまま音響信号出力部14に出力するようにする(S19)。
以上の処理で、音像オブジェクトと画像オブジェクトの位置情報を算出し、画像・音像オブジェクト照合部6に入力する。画像・音像オブジェクト照合部6において、音像オブジェクトの位置情報と、画像オブジェクトの位置情報とが一致するものか否かを判定する。この判定は、例えば2つの位置情報が許容角±10度以内に入るか否かなど適切な判定条件を設定して判定する(S12)。2つの位置情報が許容角内に入っており、一致するものと判定された場合には、立体映像と同期した立体音響処理を施す音像オブジェクトが存在するものとして、音像オブジェクトの定位位置をオブジェクト位置決定部12において決定する(S13)。
なお、これまで説明した一連の動作は、入力画像信号の映像フレームに同期した時間単位で行われるが、前述の立体音響処理を施す音像オブジェクト存在の判定に、前後のフレーム間でのオブジェクトの位置情報の連続性を考慮することを判定条件に加えても良い。
また、定位位置のパラメータとしては、視差量から求めた画面からの飛び出し量に代表されるように、ユーザー視聴位置から見た画面方向における画面位置からの変位量や、ユーザー視聴位置から見た画面正面方向に対する変位角などがある。
また、画像・音像オブジェクト照合部6で一致しないと判定された場合には、立体映像と同期した立体音響処理を施す音像オブジェクトはないものとして、音像オブジェクト抽出部2内の音源分離部5においては、立体音響処理を行う信号成分を分離するための処理は行わず(S18)、音声信号入力部1からの入力信号をそのまま音響信号出力部14に出力するようにする(S19)。
次に、音像オブジェクト抽出部2内の音源分離部5における音源分離動作について説明する。
音像オブジェクトの信号成分X(i)については、(数6)で示されるオーディオ信号FL(i)の角度方向の信号成分X0(i)が(数7)の定数aを最小化する条件で求められる。ことは前述の通りである。同様にしてオーディオ信号FR(i)の角度方向の信号成分X1(i)も算出することも前述の通りである。
そこで、オーディオ信号FL(i)と音像オブジェクトのFL方向の信号成分X0(i)とのエネルギー比にもとづいて、(数8)に示す信号FLa(i)を受聴空間に定位する音像がない非定位信号として抽出する。
Figure 2011234177
また同様にして、オーディオ信号FR(i)と音像オブジェクトのFR方向の信号成分X1(i)のエネルギーの比にもとづいて、非定位信号FRa(i)を抽出する。
以上の処理によって、音源分離部5において、入力音声信号(FL(i)、FR(i))を、音像オブジェクトの信号成分(X0(i)、X1(i))と非定位信号成分(FLa(i)、FRa(i))に分離することができる(S14)。
上記2種類の信号成分のうち、音像オブジェクトの信号成分(X0(i)、X1(i))は、立体音響処理部13に出力される。立体音響処理部13において、オブジェクト位置決定部12からの定位位置のパラメータに従った立体音響効果を付与する処理が施される(S15)。立体音響処理部13における、立体音響効果の例としては、音像オブジェクトの信号成分に対して、画面からの飛出し距離に応じてエネルギーレベルを変動させたり、定位角度に応じてITDやILDなどの両耳特性を与えたりする処理などがある。
また一方、非定位信号成分(FLa(i)、FRa(i))については、音像オブジェクトの信号成分(X0(i)、X1(i))とは別に出力される。非定位信号成分(FLa(i)、FRa(i))は必要に応じて、適切なエネルギーバランスに調整して、立体音響処理部13の出力信号と加算される(S16)。その加算出力は、アンプ、スピーカなどから構成される音響信号出力部14から音声再生される(S19)。
なお先にも述べたとおり、これまでの一連の処理は、音声入力が開始されてから終了するまで、入力画像信号の画像フレームの時間単位で繰り返して行われ(S17)、音声入力が終了した時点で、処理を終了するものである。
本発明にかかる音像定位処理装置は、より正中面に近い後ろ方向の定位品質の向上が求められる音像定位処理において、簡易な方式で、かつ音質や音場感を大きく変化することなく、音像の定位品質を向上させることが可能となるものとして有用である。
1 音声信号入力部
2 音像オブジェクト抽出部
3 チャンネル間相関算出部
4 音像位置推定部
5 音源分離部
6 画像・音像オブジェクト照合部
7 画像オブジェクト抽出部
8 画像信号入力部
9 視差量算出部
10 抽出領域決定部
11 視差量分布解析部
12 オブジェクト位置決定部
13 立体音響処理部
14 音響信号出力部
15 画像信号出力部

Claims (6)

  1. 音声信号を入力する音声信号入力部と、定位位置から音声を発する音像オブジェクトの信号成分を前記音声信号から抽出する音像オブジェクト抽出部と、画像信号を入力する画像信号入力部と、前記音像オブジェクトの定位位置に関する情報に基づいて、前記画像信号に含まれる画像オブジェクトを抽出する領域を画像内で決定する抽出領域決定部と、前記抽出領域決定部で決定した領域から画像オブジェクトを抽出する画像オブジェクト抽出部と、前記音像オブジェクト抽出部で抽出した前記音像オブジェクトの定位位置と前記画像オブジェクト抽出部で抽出した前記画像オブジェクトの位置とが一致するか否かを判断する画像・音像オブジェクト照合部と、前記画像・音像オブジェクト照合部により前記音像オブジェクトの位置と前記画像オブジェクトの位置が一致するものと判断した場合、前記音像オブジェクトを立体音響処理する対象として決定するオブジェクト位置決定部と、前記音声信号のうち、オブジェクト位置決定部で決定された音像オブジェクトに対する音声信号成分に対して立体音響処理を施す立体音響処理部と、前記立体音響処理した音声信号を出力する音声信号出力部とからなることを特徴とする立体音響再生装置。
  2. 前記音像オブジェクト抽出部は、複数のチャンネル間の相関を判断するチャンネル間相関算出部と、前記チャンネル間の相関関係が高いものについては前記音像オブジェクトの音像位置を推定する音像位置推定部と、前記音声信号について、前記音像オブジェクトの信号成分と音像定位を持たない非音像成分とに分離する音源分離部とからなることを特徴とする請求項1に記載の立体音響再生装置。
  3. 前記画像オブジェクト抽出部は、前記画像信号から左眼用画像と右眼用画像との間の視差量を算出する視差量算出部と、前記視差量算出部で算出した前記視差量の分布を解析することで画像オブジェクトの位置情報を算出する視差量分布解析部からなることを特徴とする請求項1に記載の立体音響再生装置。
  4. 音声信号を入力する音声信号入力ステップと、定位位置から音声を発する音像オブジェクトの信号成分を前記音声信号から抽出する音像オブジェクト抽出ステップと、画像信号を入力する画像信号入力ステップと、前記音像オブジェクトの定位位置に関する情報に基づいて、前記画像信号に含まれる画像オブジェクトを抽出する領域を画像内で決定する抽出領域決定ステップと、前記抽出領域決定ステップで決定した領域から画像オブジェクトを抽出する画像オブジェクト抽出ステップと、前記音像オブジェクト抽出ステップで抽出した前記音像オブジェクトの定位位置と前記画像オブジェクト抽出ステップで抽出した前記画像オブジェクトの位置とが一致するか否かを判断する画像・音像オブジェクト照合ステップと、前記画像・音像オブジェクト照合ステップにより前記音像オブジェクトの位置と前記画像オブジェクトの位置が一致するものと判断した場合、前記音像オブジェクトを立体音響処理する対象として決定するオブジェクト位置決定ステップと、前記音声信号のうち、オブジェクト位置決定部で決定された音像オブジェクトに対する音声信号成分に対して立体音響処理を施す立体音響処理ステップと、前記立体音響処理した音声信号を出力する音声信号出力ステップとを含むことを特徴とする立体音響再生方法。
  5. 前記音像オブジェクト抽出ステップは、複数のチャンネル間の相関を判断するチャンネル間相関算出ステップと、前記チャンネル間の相関関係が高いものについては前記音像オブジェクトの音像位置を推定する音像位置推定ステップと、前記音声信号について、前記音像オブジェクトの信号成分と明確な音像定位を持たない非音像成分とに分離する音源分離ステップとを含むことを特徴とする請求項4に記載の立体音響再生方法。
  6. 前記画像オブジェクト抽出ステップは、前記画像信号から左眼用画像と右眼用画像との間の視差量算出ステップと、前記視差量算出ステップで算出した前記視差量の分布を解析することで画像オブジェクトの位置情報を算出する視差量分布解析ステップとを含むことを特徴とする請求項4に記載の立体音響再生方法。
JP2010103301A 2010-04-28 2010-04-28 立体音響再生装置及び再生方法 Pending JP2011234177A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010103301A JP2011234177A (ja) 2010-04-28 2010-04-28 立体音響再生装置及び再生方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010103301A JP2011234177A (ja) 2010-04-28 2010-04-28 立体音響再生装置及び再生方法

Publications (1)

Publication Number Publication Date
JP2011234177A true JP2011234177A (ja) 2011-11-17

Family

ID=45323035

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010103301A Pending JP2011234177A (ja) 2010-04-28 2010-04-28 立体音響再生装置及び再生方法

Country Status (1)

Country Link
JP (1) JP2011234177A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011244196A (ja) * 2010-05-18 2011-12-01 Sharp Corp 音声信号処理装置、方法、プログラム、及び記録媒体
JP2011244197A (ja) * 2010-05-18 2011-12-01 Sharp Corp 音声信号処理装置、方法、プログラム、及び記録媒体
JP2013251656A (ja) * 2012-05-31 2013-12-12 Sharp Corp 画像処理装置
WO2014115222A1 (en) * 2013-01-23 2014-07-31 Nippon Hoso Kyokai Sound signal description method, sound signal production equipment, and sound signal reproduction equipment
JP2016134768A (ja) * 2015-01-20 2016-07-25 ヤマハ株式会社 オーディオ信号処理装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011244196A (ja) * 2010-05-18 2011-12-01 Sharp Corp 音声信号処理装置、方法、プログラム、及び記録媒体
JP2011244197A (ja) * 2010-05-18 2011-12-01 Sharp Corp 音声信号処理装置、方法、プログラム、及び記録媒体
JP2013251656A (ja) * 2012-05-31 2013-12-12 Sharp Corp 画像処理装置
WO2014115222A1 (en) * 2013-01-23 2014-07-31 Nippon Hoso Kyokai Sound signal description method, sound signal production equipment, and sound signal reproduction equipment
JP2016134768A (ja) * 2015-01-20 2016-07-25 ヤマハ株式会社 オーディオ信号処理装置

Similar Documents

Publication Publication Date Title
CN103493513B (zh) 用于将音频上混以便产生3d音频的方法和系统
JP5944840B2 (ja) 立体音響の再生方法及びその装置
US9883316B2 (en) Method of generating multi-channel audio signal and apparatus for carrying out same
JP5890523B2 (ja) オーディオ信号処理装置及びオーディオ信号処理方法
US9148740B2 (en) Method and apparatus for reproducing stereophonic sound
KR20180135973A (ko) 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치
MX2015006125A (es) Ajuste por segmentos de señal de audio espacial a diferentes equipos de altavoces de reproduccion.
US10003904B2 (en) Method and device for processing binaural audio signal generating additional stimulation
US20130106997A1 (en) Apparatus and method for generating three-dimension data in portable terminal
US9905231B2 (en) Audio signal processing method
EP2802161A1 (en) Method and device for localizing multichannel audio signal
TW201735667A (zh) 一種獲得空間音訊定向向量的方法、裝置及設備
JP2011234177A (ja) 立体音響再生装置及び再生方法
KR20190083863A (ko) 오디오 신호 처리 방법 및 장치
US10869151B2 (en) Speaker system, audio signal rendering apparatus, and program
Lopez et al. Elevation in wave-field synthesis using HRTF cues
Jot et al. Efficient Structures for Virtual Immersive Audio Processing
EP3623913A1 (en) Apparatus and method for processing audiovisual data
US20100172508A1 (en) Method and apparatus of generating sound field effect in frequency domain
Günel et al. Spatial synchronization of audiovisual objects by 3D audio object coding
JP5447220B2 (ja) 音響再生装置および音響再生方法
JP2011234139A (ja) 3次元音声信号生成装置
KR101896570B1 (ko) 입체 동영상에 동기화된 입체 음향을 생성할 수 있는 전자 기기
Ranjan et al. Wave field synthesis: The future of spatial audio
JPH08140200A (ja) 立体音像制御装置