JP5618043B2

JP5618043B2 - 映像音響処理システム、映像音響処理方法及びプログラム

Info

Publication number: JP5618043B2
Application number: JP2009220199A
Authority: JP
Inventors: 井上　晃; 晃井上; 野村　俊之; 俊之野村
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-09-25
Filing date: 2009-09-25
Publication date: 2014-11-05
Anticipated expiration: 2029-09-25
Also published as: JP2011071685A

Description

本発明は、映像音響処理システム、映像音響処理方法及びプログラムに関する。

近年、映像や、音声等のマルチメディアの分野において、コンテンツのうち視聴者が注目している特定の部分領域を処理し、視聴者に提供する技術が着目されている。ここで、特定部分領域である注目領域（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ：ＲＯＩ）に注目した映像音響処理を注目処理と呼ぶ。また、注目処理の中でビデオ信号等の映像情報への処理を映像注目処理、オーディオ信号への処理を音響注目処理とする。

図２１を用いて特定部分領域に注目する動作である注目処理について説明する。

元映像フレーム７１に、４つのオブジェクト（オブジェクトＡ７４、オブジェクトＢ７５、オブジェクトＣ７６、オブジェクトＤ７７）が含まれているとする。ここで、オブジェクトとは撮影された映像空間を構成する物体であり、例えば、人物や自動車、建物などがある。元映像フレーム７１内では、これらのオブジェクトの位置を示す矩形が点線で表示されている。今、元映像フレーム７１内における注目領域を、注目領域７３で示す実線矩形とする。注目処理映像７２は、注目領域７３に対して映像注目処理を施した一例である。注目処理映像７２は、注目領域を拡大して表示幅が最大となるように表示したものである。注目領域に対する映像注目処理としては、このように映像を拡大するものがあるが、その他にも注目領域以外の領域の輝度値を低くする等によって、目立たなくする方法がある。

音響注目処理の一例として、注目領域に含まれるオブジェクトに対応したオーディオ信号だけを再生する方法がある。この場合、元映像フレーム７１では、注目領域７３を指定するとその内部に含まれるオブジェクトＤ７７のみの音声が再生されることになる。

オブジェクト情報を利用した音響再生処理の一例が、特許文献１に記載されている。特許文献１によれば、予め記録されたビデオオブジェクトの矩形座標を基に、画像フレーム内のオブジェクト重心位置と大きさとに応じてステレオ音響の左右バランスを制御する方法が記載されている。

また、特許文献２によれば、ＴＶ会議システムにおいて複数のカメラと複数のマイクを用い、注目領域として特定のカメラ映像を選択すると、その映像に近い位置のマイクのみを動作させることで、注目領域に適した音声を収録・再生することが記載されている。

特開２００２−３６９１５２号公報特開２００５−４５７７９号公報

しかしながら、特許文献１に記載されている技術は、画像フレーム内の注目領域に注目した音響処理を行う場合、その注目領域に含まれるオブジェクト重心位置と大きさを用いて制御するため、注目領域に含まれないオブジェクトの音が再生されないという問題があった。また、注目領域にオブジェクトの一部だけが含まれる場合、音響バランスが崩れてしまうという問題がある。図２１の例で注目領域７３に注目した場合、違和感のない音響を再現するには、オブジェクトＤ以外の音（オブジェクトＡ，Ｂ，Ｃの音）も聞こえなければならないが、従来はオブジェクトＡ，Ｂ，Ｃの音を適切に合成することはできなかった。すなわち、注目領域に含まれない、あるいは部分的に含まれるオブジェクトを考慮した音響を再生できないということである。

更に、上述の技術は、画像フレーム内に含まれる個々のオブジェクト情報（ビデオおよびオーディオ）が既知であることが前提である。しかしながら実際に流通している映像データは含まれるオブジェクトは未知であり、その技術を適用することができない。すなわち、映像中のオブジェクト情報が予め与えられないときには、注目領域に対応した音響を再生できないということである。

また、特許文献２に記載されている技術は、選択する注目領域ごとにカメラとマイクを配置する必要があり、選択できる注目領域に限界がある。更に、複数のカメラを設置する必要があり、映像制作コストや、蓄積・伝送コストが膨大となってしまう。すなわち、入力する映像信号が複数必要であり、映像制作・蓄積・伝送コストが高いということである
そこで、本発明は上記課題に鑑みて発明されたものであって、映像中の注目領域に対する注目処理を行う際、違和感のない音響を再生する映像音響処理システム、映像音響処理方法及びプログラムを提供することにある。

上記課題を解決する本発明は、コンテンツのオーディオ信号からオーディオオブジェクトを分離し、前記コンテンツの映像信号からビデオオブジェクトを分離し、前記ビデオオブジェクトと前記オーディオオブジェクトとを対応付け、音源となるビデオオブジェクトの３次元空間の位置を算出することにより、音源の音源位置と前記音源位置に対応した音源信号とを算出する音源位置推定部と、前記映像中の指定した注目領域に視聴者が注目した場合における視聴者の仮想視聴位置を算出する仮想視聴点算出部と、前記音源位置と前記音源信号とに基づいて、前記仮想視聴位置を聴点位置とする音響信号を合成する音響合成部とを有する映像音響処理システムである。

上記課題を解決する本発明は、コンテンツのオーディオ信号からオーディオオブジェクトを分離し、前記コンテンツの映像信号からビデオオブジェクトを分離し、前記ビデオオブジェクトと前記オーディオオブジェクトとを対応付け、音源となるビデオオブジェクトの３次元空間の位置を算出することにより、音源の音源位置と前記音源位置に対応する音源信号とを算出する音源位置推定部と、前記音源位置と前記音源信号とを伝送する伝送部とを有する映像音響処理装置である。

上記課題を解決する本発明は、コンテンツのオーディオ信号からオーディオオブジェクトを分離し、前記コンテンツの映像信号からビデオオブジェクトを分離し、前記ビデオオブジェクトと前記オーディオオブジェクトとを対応付け、音源となるビデオオブジェクトの３次元空間の位置を算出することにより、算出された音源の音源位置と前記音源位置に対応する音源信号とを受信する受信部と、映像中の指定した注目領域に視聴者が注目した場合における視聴者の仮想視聴位置を算出する仮想視聴点算出部と、受信した音源の音源位置と前記音源位置に対応する音源信号とに基づいて、前記仮想視聴位置を聴点位置とする音響信号を合成する音響合成部とを有する映像音響処理装置である。

上記課題を解決する本発明は、コンテンツのオーディオ信号からオーディオオブジェクトを分離し、前記コンテンツの映像信号からビデオオブジェクトを分離し、前記ビデオオブジェクトと前記オーディオオブジェクトとを対応付け、音源となるビデオオブジェクトの３次元空間の位置を算出することにより、音源の音源位置と前記音源位置に対応する音源信号とを算出し、前記映像中の指定した注目領域に視聴者が注目した場合における視聴者の仮想視聴位置を算出し、前記音源位置と前記音源信号とに基づいて、前記仮想視聴位置を聴点位置とする音響信号を合成する映像音響処理方法である。

上記課題を解決する本発明は、コンテンツのオーディオ信号からオーディオオブジェクトを分離し、前記コンテンツの映像信号からビデオオブジェクトを分離し、前記ビデオオブジェクトと前記オーディオオブジェクトとを対応付け、音源となるビデオオブジェクトの３次元空間の位置を算出することにより、音源の音源位置と前記音源位置に対応する音源信号とを算出する処理と、前記映像中の指定した注目領域に視聴者が注目した場合における視聴者の仮想視聴位置を算出する処理と、前記音源位置と前記音源信号とに基づいて、前記仮想視聴位置を聴点位置とする音響信号を合成する処理とを情報処理装置に実行させるプログラムである。

本発明によれば、映像中の注目領域に対する注目処理を行う際、違和感のない音響を再生することができる。

図１は本発明の実施の形態のブロック図である。図２は第１の実施の形態のブロック図である。図３は仮想視点位置算出部６の動作の一例を説明するための図である。図４は映像注目処理の一例を示した図である。図５は３次元空間位置に基づいた音響再生の概念図である。図６は３次元空間位置に基づいた音響再生の概念図である。図７は第１の実施の形態の他の態様のブロック図である。図８は第２の実施の形態のブロック図である。図９は第３の実施の形態の音源位置推定部２１のブロック図である。図１０は第３の実施の形態の３次元位置推定部２６の動作を説明するための図である。図１１は第４の実施の形態の音源位置推定部３１のブロック図である。図１２は第４の実施の形態のＡＶ種類照合部３６の動作を説明するための図である。図１３は第５の実施の形態の音源位置推定部４１のブロック図である。図１４は第６の実施の形態の音源位置推定部５１のブロック図である。図１５は第７の実施の形態の音源位置推定部６１のブロック図である。図１６は第７の実施の形態のＡＶ相関照合部６５の動作を説明するための図である。図１７は第７の実施の形態のＡＶ相関照合部６５の相関値の計算方法を説明するための図である。図１８は第７の実施の形態のＡＶ相関照合部６５の相関値の他の計算方法を説明するための図である。図１９は第７の実施の形態のＡＶ相関照合部６５の相関値の他の計算方法を説明するための図である。図２０は第７の実施の形態のＡＶ相関照合部６５の相関値の他の計算方法を説明するための図である。図２１は関連する技術を説明するための図である。

本発明の実施の形態を説明する。

図１は本発明の実施の形態のブロック図である。

本実施の形態における映像音響処理システムは、コンテンツのオーディオ信号とビデオ信号とを用いて、音源の音源位置と前記音源位置に対応する音源信号とを算出する音源位置推定部１００と、映像中の指定した注目領域に視聴者が注目した場合における視聴者の仮想視聴位置を算出する仮想視聴点算出部１０１と、音源位置と音源信号とに基づいて、仮想視聴位置を聴点位置とする音響信号を合成する音響合成部１０２とを有する。尚、コンテンツとは、動画やテレビ会議などの映像、音声を含むマルチメディアデータ等である。

音源位置推定部１００は、コンテンツのビデオ信号とオーディオ信号とから音源の３次元空間内の位置を推定し、それぞれの音源位置に対応する音源信号を出力する部である。

具体的には、音源位置推定部１００は、入力ビデオ信号から画像処理によってビデオオブジェクトの位置を推定する。ここで、ビデオオブジェクトとは人物、物などの映像中の対象物である。

また、音源位置推定部１００は、入力オーディオ信号から音源信号を分離する。ここでは、入力オーディオ信号から分離されたオーディオオブジェクト毎に信号を分離する。オーディオオブジェクトとは、入力オーディオ信号の音源となりうるオブジェクトであり、例えば、人物の音声や、車のエンジン音などである。

そして、音源位置推定部１００は、ビデオオブジェクトとオーディオオブジェクトとの対応づけを行い、対応付けの情報であるオブジェクト情報を用いて、オーディオオブジェクトの３次元空間位置を推定し、これを音源位置として出力する。また、音源位置推定部１００は、音源位置に対応したオーディオオブジェクトの信号を音源信号（出力オーディオ信号）として出力する。

入力オーディオ信号からオーディオオブジェクトごとに信号を分離する方法としては、ブラインド信号源分離（Blind Source Separation）や、独立成分分析（Independent Component Analysis）と呼ばれる手法を用いることができる。

また、音源の３次元空間位置の推定の方法としては、映像からビデオオブジェクトを検出し、そのビデオオブジェクトの３次元位置を算出する。そして、そのビデオオブジェクトに対応するオーディオオブジェクトを見つけ、その位置を音源の３次元空間位置として推定する方法がある。ここで、ビデオオブジェクトの例としては、映像中の人物、建物や、草木、など、空間を構成する物体をビデオオブジェクトと見なすことができ、これらのビデオオブジェクトをテンプレート等でその種別を識別（例えば、人物、建物といた種別）することで、その種別に対応するオーディオオブジェクト（例えば、人物ならば音声、自動車ならばエンジン音など）を対応付けることができる。尚、ビデオオブジェクトの３次元位置を算出については、既存の技術を用いることで解決することができる。

仮想視聴点算出部１０１は、映像中の注目領域に視聴者が注目した場合の３次元空間中の仮想視聴点を算出する。注目領域の指定の仕方であるが、ディスプレイ上に映像を表示し、ユーザがマウスや電子ペンによって画像中にマークすることによって指定する方法や、あらかじめ求めておいた複数の候補領域を画面上に表示し、それらの中からユーザが選択するように構成しても良い。これらの指定された映像フレーム中の注目領域は、映像フレームにおける注目領域の範囲・位置を示す注目領域座標（画像平面での座標）として仮想視聴点算出部１０１に入力される。仮想視聴点の算出の一例としては、注目領域座標で特定される注目領域の中心座標、あるいは重心座標を仮想視聴点のｘｙ座標とし、元の視聴点の奥行きから注目領域が映像フレーム全体に拡大された場合の仮想視聴点の奥行き（ｙ座標）として算出する方法がある。

音響合成部１０２は、音源位置推定部１００からの音源位置及び音源信号と、仮想視聴点算出部１０１からの仮想視聴点位置とを入力し、仮想視聴位置を聴点位置とした音響信号を合成する。合成処理の一例として、頭部伝達関数（ＨＲＴＦ）を用いた音響合成方法がある。音響合成部１０２から出力される音響信号は、視聴者が仮想視聴点位置で視聴するような違和感のない音場を再現するオーディオ信号である。

以上の如く、本実施の形態は、映像内の任意の注目領域において違和感のない音響を再生できることにある。その理由は、音源の音源位置とと仮想視聴点との３次元空間位置関係を推定し、これらに基づいて、各音源位置に対応する音源信号を合成して音響再生を行っているためである。

また、本実施の形態は、映像内のオーディオオブジェクトが分離されていなくても、高品質な音響を再生できることにある。その理由は、入力ビデオ信号と入力オーディオ信号とを用いて、ビデオオブジェクトとオーディオオブジェクトとの対応付けを行い、オーディオオブジェクトの信号（音源信号）を分離しているからである。

以下、具体的な実施の形態を説明する。
＜第１の実施の形態＞
第１の実施の形態を説明する。

図２は第１の実施の形態のブロック図である。図２を参照すると、第１の実施の形態における映像音響処理システムは、カメラ１と、マイク２と、映像データ記憶部３と、映像音響処理部９とから構成されている。

カメラ１により映像が取得され、マイク２により音声が取得される。そして、取得された映像及び音声は、映像データ記憶部３に保存される。尚、映像データ記憶部３の例としては、磁気テープやＨＤＤなどがある。

映像音響処理部９は、映像データ記憶部３に保存されたビデオ信号とオーディオ信号とが入力されると、これらのビデオ信号とオーディオ信号とを、注目領域の指定に応じて違和感のない適切なビデオ信号とオーディオ信号とに変換して出力する。そして、映像音響処理部９は、注目領域指定部４と、音源位置推定部５と、仮想視聴点算出部６と、映像注目処理部７と、音響合成部８とから構成されている。

注目領域指定部４は、映像中から特に注目したい特定部分領域を指定する部である。この注目したい特定部分領域を注目領域（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ：ＲＯＩ）とよぶ。注目領域指定部４の指定例として、ディスプレイ上に映像を表示し、ユーザがマウスや電子ペンによって画像中にマークすることによって指示する例がある。また、あらかじめ求めておいた複数の候補領域を画面上に表示し、それらの中からユーザが選択するように構成しても良い。注目領域指定部４によって指定された映像フレーム中の注目領域は、映像フレームにおける注目領域の範囲・位置を示す注目領域座標（画像平面での座標）として出力される。

音源位置推定部５は、映像データ記憶部３からのビデオ信号及びオーディオ信号からオーディオ信号中の音源の３次元空間内の位置を推定し、それぞれの音源のオーディオ信号を出力する部である。音源位置推定部５は、入力ビデオ信号から画像処理によってビデオオブジェクト（例えば、人物や車などのオブジェクト）を特定してその位置を推定する。また、音源位置推定部５は、入力オーディオ信号からオーディオオブジェクト（例えば、チャンネル、音声や、エンジン音などの音）ごとに信号を分離する。そして、ビデオオブジェクトとオーディオオブジェクトとの対応づけを行い、対応付けの情報であるオブジェクト情報を用いて、オーディオオブジェクト又はオーディオオブジェクトの３次元空間位置を推定し、これを音源位置として出力する。また、音源位置推定部５は、音源位置に対応したオーディオオブジェクトの信号を音源信号として出力する。

仮想視点位置算出部６は、注目領域指定部４からの注目領域座標に基づいて、３次元空間中の仮想視聴点を算出する。仮想視点位置算出部６の動作の一例について図３を参照して説明する。

映像フレーム８８に、点線矩形で示されたオブジェクトＥ８４、オブジェクトＦ８５、オブジェクトＧ８６が映っている。そして、注目領域として実線矩形で示された注目領域８７が指定されているものとする。カメラの左右の視野角をθとする。注目領域８７の画素幅をＳとする。映像フレーム８８の横サイズ（画素幅）をＷとする。ここで、映像フレーム８８において、元の視聴点位置８１のｚ座標を０とし、ｚ方向にＤの位置に仮想平面π８３を定義する。また、元の視聴点位置８１のｘｙ座標は映像フレームの中心に一致すると考える。Ｄの値はあらかじめ決められた値を用いてもよいし、映像情報から検出したオブジェクトの情報を用いてもよい。例えば、複数のオブジェクトが存在して各オブジェクトのｚ座標が既知の場合は、元の視聴点位置８１に最も近いオブジェクトのｚ座標をＤとして仮想平面πを定義することができる。

図３において、撮影カメラをピンホールカメラであると仮定すると、注目領域８７の横幅と、映像フレーム８８の横サイズとの比率によって、新しい仮想視点位置８２の奥行きであるｈ（ｚ座標）を決定することができる。ｈの算出方法の一例を数１に示す。ｘｙ座標は、注目領域８７の中心座標、あるいは重心座標を元に、求めることができる。

尚、上記視聴点位置算出の例では横サイズを基準として説明したが、縦サイズを基準とした場合にも同様に算出することができる。

映像注目処理部７は、注目領域指定部４によって指定された注目領域に対して、擬似的に注目した映像を生成する映像注目処理を行う。注目領域８７への映像注目処理の例は、注目領域８７を映像フレーム全体に拡大することである。これは、注目することによって対象領域に視野をフォーカスする行為を擬似的に実現するものである。注目領域８７のアスペクト比を固定する場合、拡大方法として横サイズを映像フレームに一致させる方法と、縦サイズを映像フレームに一致させる方法がある。通常は、拡大時に注目領域に欠損がないように横サイズ基準または縦サイズ基準を選択する。

映像注目処理の一例を図４に示す。元映像フレーム７１において注目領域として７３が指定されている。注目処理画像７２は、映像注目処理によって拡大表示された結果の一例であり、注目領域が映像フレーム全体となるように拡大されている。注目領域に対する映像注目処理としては、このように映像の拡大処理の他、例えば、注目領域以外の領域の輝度値を低くすることによって、注目領域を目立たせる処理がある。

音響合成部８は、音源位置推定部５からの音源位置及び音源信号と、仮想視点位置算出部６から仮想視聴点位置とを入力し、違和感のない音場を再現するオーディオ信号を出力する。音響合成部８の処理例として、頭部伝達関数（ＨＲＴＦ）を用いた音響合成方法がある。ＨＲＴＦは、音源から両耳までの音響伝達特性を表す関数であり、人間の頭部マネキンなどを使って測定することができる。ＨＲＴＦと音源信号との畳み込みを行うことで、立体的な音場再生が可能となる。

音響合成部８の処理例を以下に示す。あらかじめすべての音源方向に対するＨＲＴＦを求めておく。次に、与えられた仮想視聴点位置と音源位置との位置関係から、仮想視聴点位置からみた音源方向と音源までの距離を求める。求めた音源方向に対応するＨＲＴＦを用いて前記音源信号との畳み込みを行い、前記音源までの距離値に基づいてゲイン調整を行うことで、違和感のない立体的な音場を再生することができる。

図５、６は３次元空間位置に基づいた音響再生の概念図である。図５の左側は元映像の音響再生環境９１を示したものであり、右側は映像注目時の音響再生環境９２を示したものである。また、図５の上側は元映像の音響再生環境９１を示したものであり、下側は映像注目時の音響再生環境９２を示したものである。

元の視聴点位置９３からみると、映像フレーム全体を表す仮想平面π９４を図５、６に示すように仮定する。そして、推定された３つのオブジェクトの位置が、音源推定位置９６であるとする。ここで注目領域９５に注目したときの音響再生環境が、右側の映像注目時の音響再生環境９２である。

映像注目時の音響再生環境９２では、仮想視聴点位置９７が図の位置にある。従って、各オブジェクトとの相対位置が変化していることがわかる。視聴点から見た音源方向が変化しているため、新しい方向に応じたＨＲＴＦを用いて音を再生することで、注目領域の映像注目時の音場を適切に再生することができる。

また、注目領域９５の正面にあるオブジェクトに近づくので、距離に応じて音源の再生ゲインを上げることによって臨場感も出すことができる。ゲイン調整の方法としては、聞こえる音の大きさが音源までの距離の３乗に反比例することを利用して、移動前後の距離の違いから換算する方法がある。

以上のように、３次元空間を想定してその環境に応じた音場を再生することにより、違和感のない音場を再現することができる。

尚、環境音などの一部の音源信号については、音源位置が不明となる場合がある。このように音源位置が不明な音源信号に対しては、全てのチャンネルに均等に信号を分配し、その他の音源信号と合成して再生しても良い。

また、本実施の形態では、仮想視点位置算出部６が算出した仮想視点位置は変更しないものとして説明したが、視聴者により変更するような構成でも良い。この場合、仮想視点位置の変更にともない映像注目処理部７の注目処理も変更されるので、図７に示すように、仮想視点位置算出部６から変更された仮想視点位置を映像注目処理部７に入力するようにすれば良い。
＜第２の実施の形態＞
第２の実施の形態を説明する。

図８は第２の実施の形態のブロック図である。図８を参照すると、第１の実施の形態におけるオブジェクト処理システムは、カメラ１と、マイク２と、映像データ記憶部３と、注目領域指定部４と、音位置推定部５と、仮想視聴点算出部６と、映像注目処理部７と、音響合成部８と、伝送部１１とから構成されている。尚、第１の実施の形態と同様な構成のものについては、同じ符号を付し、詳細な説明は省略する。

伝送部１１は、映像データ記憶部３からのビデオ信号と、音源位置推定部５の出力である音源位置及び音源信号とを、それぞれ符号化した後にネットワークを通じて伝送する部である。想定するネットワークは有線でも無線でも良く、様々な通信プロトコルが利用できる。放送波のように電波で伝送してもよい。

また、第２の実施の形態では、音源位置推定部５により音源位置の推定処理等を行った後に伝送を行っているが、ビデオ信号とオーディオ信号とを伝送した後に、音源位置推定部５を用いてオブジェクトを分離してもよい。すにわち、音源位置推定部５を受信側に設けても良い。

第２の実施の形態によれば、遠隔地からの信号に対して音響制御することができ、遠隔会議システム等に利用することができる。
＜第３の実施の形態＞
第３の実施の形態を説明する。

第３の実施の形態は、第１の実施の形態及び第２の実施の形態における音源位置推定部５を、図９に示す音源位置推定部２１に置き換えた構成をしている。

音源位置推定部２１は、入力ビデオ信号と入力オーディオ信号からそれぞれのオブジェクトを分離して音源信号を推定し、それぞれの音源の音源位置と音源信号を出力する手段である。

図９を参照すると、音源位置推定部２１は、ビデオオブジェクト分離部２２と、オーディオオブジェクト分離部２３と、統合部２４とから構成されている。統合部２４は、ＡＶ対応付け部２５と、３次元位置推定部２６とから構成されている。

ビデオオブジェクト分離部２２は、ビデオ信号から映像フレーム内のビデオオブジェクトを分離する。ビデオオブジェクトの例として、図９におけるオブジェクトＡ７４，オブジェクトＢ７５，オブジェクトＣ７６のような、人物オブジェクトがある。また、図３のオブジェクトＦ８５の自動車のような例もある。その他、建物や、草木、など、空間を構成する物体は、ビデオオブジェクトと見なすことができる。ビデオオブジェクト分離部２２の例として、パターン認識を利用した物体検出方法がある。予めビデオオブジェクト画像のテンプレートを作成し、このテンプレートを用いて映像フレーム全体にテンプレートマッチングを施す。テンプレートとの相関値がしきい値以上であれば、所望のビデオオブジェクトが存在するものと判断する。このようにしてビデオオブジェクト分離部２２は、所望のビデオオブジェクトを自動的に検出し、オブジェクトが存在する部分領域の位置を出力する。

オーディオオブジェクト分離部２３は、入力オーディオ信号から音源信号を分離する部である。オーディオオブジェクト分離部２３において、オブジェクト分離情報を生成する方法として、ブラインド信号源分離（Blind Source Separation）や、独立成分分析（Independent Component Analysis）と呼ばれる手法を用いることができる。ブラインド信号源分離および独立成分分析の方法に関連する技術は、非特許文献１（２００５年、「スピーチ・エンハンスメント」、シュプリンガー、（Speech Enhancement, Springer, 2005, pp. 271-369）、271ページから369ページ）に開示されている。適切なパラメータ設定を行うことで、オーディオオブジェクト分離部２３は、入力オーディオ信号から自動的に音源信号に分離することができる。

統合部２４はＡＶ対応付け部２５と３次元位置推定部２６とを有し、分離されたビデオオブジェクトとオーディオオブジェクトとの双方の情報を用いて、音源の３次元位置を推定し、推定された音源位置と音源信号とを出力する。統合部２４では、ビデオオブジェクトとオーディオオブジェクトは、まずＡＶ対応付け部２５に入力される。

ＡＶ対応付け部２５は、オーディオオブジェクトとビデオオブジェクトとの対応付けを行うことにより、オーディオオブジェクトが映像フレーム中のどこの位置にあるのかを特定する。すなわち、オーディオオブジェクト（音源）が映像フレームのどこから発生しているかを求める。

３次元位置推定部２６は、映像フレーム中の音源に対応するビデオオブジェクトの座標を求め、このビデオオブジェクトの座標をオーディオオブジェクトの３次元位置として出力する。ビデオオブジェクトの３次元位置算出動作の一例を、図１０を参照して説明する。

図１０は、映像フレーム１０１の映像を、カメラ視点１０２から観察している概念図である。カメラの左右の視野角をθとする。映像フレーム１０１からは、ビデオオブジェクトとして、オブジェクトＨ１０３と、オブジェクトＩ１０４が検出されている。また映像フレーム１０１の横サイズ（画素幅）をＷ、オブジェクトＩ１０４の画素幅をＴとする。

ここで、オブジェクトＩ１０４が人物の顔であることが分かっていると仮定する。すなわち、対象オブジェクトの種類が既知であって、平均的な大きさも既知である。この場合の人物の顔の平均的な横幅をｍとする。求めたいオブジェクトまでの距離をＺとすると、奥行きＺ地点における映像フレーム１０１の横幅Ｕは、数２で表される。

ここで横幅Ｕは、画面の横サイズＷと、顔の横幅ｍとを元に、数３で求められる。

数２と数３とから、Ｚは数４で算出できる。

算出したＺを用いて横幅Ｕを算出することができるので、オブジェクトのＸ座標を特定できる。またカメラの上下の視野角を用いれば、オブジェクトのＹ座標を特定することができる。

以上、対象オブジェクトの平均的な大きさが既知である場合の３次元位置推定方法について述べた。

一方、対象オブジェクトの元サイズ（ｍの値）が未知の場合は、同じ映像フレーム内の既知オブジェクトの元サイズとの比率によって、距離を推定することができる。また、すべてのオブジェクトの元サイズが未知の場合には、最も大きなオブジェクトの元サイズにあらかじめ決めておいた値を用いることで、擬似的にすべてのオブジェクト位置を推定することができる。
＜第４の実施の形態＞
第４の実施の形態を説明する。

第４の実施の形態は、第１の実施の形態及び第２の実施の形態における音源位置推定部５を、図１１に示す音源位置推定部３１に置き換えた構成をしている。音源位置推定部３１は、入力ビデオ信号と入力オーディオ信号からそれぞれのオブジェクトを分離し、さらにオブジェクトの種類判別を利用して、それぞれの音源位置と、音源信号を出力する部である。図１１を参照すると、音源位置推定部３１は、ビデオオブジェクト分離部３２と、オーディオオブジェクト分離部３３と、映像種類判別部３４と、音響種類判別部３５と、ＡＶ種類照合部３６と、３次元位置推定部３７とから構成されている。

ビデオオブジェクト分離部３２は、ビデオオブジェクト分離部２２と同様に動作して、ビデオオブジェクトを分離して出力する。

オーディオオブジェクト分離部３３は、オーディオオブジェクト分離部２３と同様に動作して、オーディオオブジェクトの信号を分離して出力する。

映像種類判別部３４は、ビデオオブジェクトの種類を特定する部である。オブジェクトの種類の例として、男性の顔、女性の顔、子供の顔、男性の全身、女性の全身、子供の全身、自動車、電車、ＰＣ、ディスプレイなどがある。判別されたオブジェクトの種類は、後段の処理によって、映像フレームに存在する音源情報の同定に用いられる。映像種類判別部３４の動作の一例を以下に述べる。予めいくつかの映像カテゴリを決めておき、それぞれのカテゴリに対応する典型的な画像群をテンプレートとして用意する。ビデオオブジェクト領域画素と前記テンプレートとのパターンマッチングを行い、最も類似度が大きいカテゴリにオブジェクトを分類することによって種類を判別する。パターンマッチングの方法としては、正規化相関法などの公知の技術を用いることができる。

音響種類判別部３５は、オーディオオブジェクトの種類を特定する部である。オーディオオブジェクトの種類の例として、男性の声、女性の声、子供の声、自動車音、電車音、空調音、キーボード音、マウスクリック音、周辺ノイズ、などがある。音響種類判別部３５の動作の一例を以下に述べる。予めいくつかの音響カテゴリを決めておき、それぞれのカテゴリに対応する典型的な音源データを用意する。オーディオオブジェクトの波形と音源データの波形とのマッチングを行い、最も類似度が大きいカテゴリにオブジェクトを分類することによって種類を判別する。

ＡＶ種類照合部３６は、ビデオオブジェクトの種類とオーディオオブジェクトの種類とを照合し、オブジェクトの対応付けを行う。

ＡＶ種類照合部３６の動作の一例を、図１２を用いて説明する。

映像フレーム１１１において、ビデオオブジェクトとして男性の顔１１２、女性の顔１１３、自動車１１４、が存在する。ビデオオブジェクト群をオブジェクトリスト１１５に示す。映像フレーム１１１においてオーディオオブジェクトとして、自動車の音、女性の声、男性の声、ノイズが分類されている。オーディオオブジェクト群をオーディオオブジェクトリスト１１６に示す。自動車は自動車の音に対応し、男性の声は男性の顔に対応し、女性の声は女性の顔に対応することは容易に判断することができる。しかし、ノイズのオーディオオブジェクトだけは対応するビデオオブジェクトが存在しない。以上の処理によって、オブジェクト対応表１１７を生成することができる。オブジェクト対応表１１７によって、各オーディオオブジェクトがどのビデオオブジェクトに対応しているか求めることができる。そして、ビデオオブジェクトに対応するものがあるオーディオオブジェクトの信号を音源信号として出力する。

３次元位置推定部３７は、３次元位置推定部２６と同様の動作をして、ＡＶ種類照合部３６から出力される、オーディオオブジェクトに対応するものがあるビデオオブジェクトの３次元的な位置を算出する。そして、この３次元的な位置を、対応するオーディオオブジェクトの３次元的な音源位置として出力する。
＜第５の実施の形態＞
第５の実施の形態を説明する。

第５の実施の形態は、第１の実施の形態及び第２の実施の形態における音源位置推定部５を、図１３に示す音源位置推定部４１に置き換えた構成をしている。音源位置推定部４１は、入力ビデオ信号からビデオオブジェクトを分離した後に、ビデオオブジェクト情報と入力オーディオ信号とを用いてオーディオオブジェクトを分離し、それぞれの音源位置と、音源信号を出力する部である。図１３を参照すると、音源位置推定部４１は、ビデオオブジェクト分離部４２と、オーディオオブジェクト分離部４３と、映像種類判別部４４と、３次元位置推定部４５とから構成されている。

ビデオオブジェクト分離部４２は、ビデオオブジェクト分離部２２と同様に動作して、ビデオオブジェクトを分離して出力する。

映像種類判別部４４は、映像種類判別部３４と同様に動作してビデオオブジェクトの種類を判別し、ビデオオブジェクトのうち音源となりうるビデオオブジェクトのビデオオブジェクト情報を出力する。例えば、音源となりうるビデオオブジェクトは、人物や自動車などが代表的なものである。

３次元位置推定部４５は、３次元位置推定部２６と同様の動作をして、映像種類判別部４４からのビデオオブジェクトの座標を求め、このビデオオブジェクトの座標をオーディオオブジェクトの３次元位置として出力する。

オーディオオブジェクト分離部４３は、３次元位置推定部４５からのビデオオブジェクトの座標と入力オーディオ信号を用いて、オーディオオブジェクトを分離して出力する。オーディオオブジェクト分離部４３の動作の一例を以下に述べる。得られたビデオオブジェクトは音源であるとして、そのオーディオ信号の独立成分分析を行う。すなわち、映像フレーム内の座標位置（３次元位置推定部４５からのビデオオブジェクトの座標）に音源があると仮定して、独立成分分析におけるパラメータを設定する。このようにして、ビデオオブジェクト位置に対応したオーディオオブジェクトを分離し、そのオーディオオブジェクトの信号を音源信号として出力する。
＜第６の実施の形態＞
第６の実施の形態を説明する。

第６の実施の形態は、第１の実施の形態及び第２の実施の形態における音源位置推定部５を、図１４に示す音源位置推定部５１に置き換えた構成をしている。音源位置推定部５１は、入力オーディオ信号からオーディオオブジェクトを分離した後に、オーディオ情報を用いてビデオオブジェクト分離し、それぞれの音源位置と、音源信号を出力する部である。図１４を参照すると、音源位置推定部５１は、ビデオオブジェクト分離部５３と、オーディオオブジェクト分離部５２と、音響種類判別部５４と、３次元位置推定部５５とから構成されている。

オーディオオブジェクト分離部５２は、オーディオオブジェクト分離部２３と同様に動作をして、入力オーディオ信号を用いて、オーディオオブジェクトを分離して出力する。音響種類判別部５４は、音響種類判別部３５と同様に動作して、オーディオオブジェクトの種類を判別する。例えば、人の音声や、自動車のエンジン音などである。

ビデオオブジェクト分離部５３は、オーディオオブジェクト情報と、入力ビデオ信号とを用いてビデオオブジェクトを分離して出力する。ビデオオブジェクト分離部５３の動作の一例を以下に述べる。得られたオーディオオブジェクトが映像中に存在する仮定し、オーディオオブジェクトの種類に対応する種類の映像テンプレートを用いて映像フレーム内を探索する。これにより、オーディオオブジェクトの種類に対応した、正しいビデオオブジェクトを高速に分離することができる。

３次元位置推定部５５は、３次元位置推定部２６と同様の動作をして、オブジェクトの３次元的な音源位置を算出する。
＜第７の実施の形態＞
第７の実施の形態を説明する。

第７の実施の形態は、第１の実施の形態及び第２の実施の形態における音源位置推定部５を、図１５に示す音源位置推定部６１に置き換えた構成をしている。音源位置推定部６１は、入力ビデオ信号から人物オブジェクトを検出し、オブジェクト領域内の動き情報を元にして、オーディオオブジェクトとの対応を行った後に、音源位置と、音源信号を出力する部である。図１５を参照すると、音源位置推定部６１は、オーディオオブジェクト分離部６２と、人物検出部６３と、動き検出部６４と、ＡＶ相関照合部６５と、３次元位置推定部６６と、音声区間検出部６７とから構成されている。

オーディオオブジェクト分離部６２は、オーディオオブジェクト分離部２３と同様に動作し、入力オーディオ信号を用いてオーディオオブジェクトを分離して出力する。

人物検出部６３は、パターン認識を用いて人物領域をビデオオブジェクトとして抽出する部である。人物領域を抽出する方法として、人物の顔領域を検出する方法があり、例えば非特許文献２（M.Turk, A.Pentland,“Face Recognition on Using Eigenfaces,”Proceedings of IEEE, CVPR91, pp.586-591 (1991)）などに記載されている。

動き検出部６４は、人物領域内の唇などの部分領域に着目し、前記部分領域のフレーム間差分を過去ｔ時間にわたって求め、映像動きパターンを出力する。

音声区間検出部６７は、オーディオオブジェクトごとに、過去ｔ時間にわたって音声区間が存在するかどうかを求め、音声区間パターンを出力する。

ＡＶ相関照合部６５は、映像動きパターンと音声区間パターンとを照合して相関の高い組み合わせを求めることによって、人物のビデオオブジェクトに対応したオーディオオブジェクトを同定する。

図１６を参照してＡＶ相関照合部６５の動作を説明する。

映像フレーム１２１において、人物検出部６３によってオブジェクトＪ１２２と、オブジェクトＫ１２３が検出されている。これらの人物領域内の部分領域である唇部分におけるフレーム間差分が、唇領域フレーム間差分１２４に示されている。前記唇領域フレーム間差分１２４に対し、適当なしきい値によって２値化することによって動きパターン１２５が得られる。また、オーディオオブジェクトに対して音声区間検出を行った結果を音声区間パターン１２６とする。動きパターン１２５と、音声区間パターン１２６とを比較すると、オブジェクトＪの動きパターンと、第一の音声区間パターン１２７との間に高い相関があることが分かるので、これらのオブジェクトが同一であると判断する。また、オブジェクトＫの動きパターンと、第二の音声区間パターン１２８との間に高い相関があるので、同様にこれらのオブジェクトが同一であると判断する。このようにして、オブジェクトＪの音源信号が第一のオーディオオブジェクトであり、オブジェクトＫの音源信号が第二のオーディオオブジェクトであることが分かる。

次に、ＡＶ相関照合部６５における具体的な相関値の計算方法を示す。

図１７に、映像のフレーム間差分の積分値を０と１とに２値化して得られた時系列の動きパターンbx２０１と、０と１とに２値化された音声区間パターンby２０２の例を示す。ここで、動きパターンbx２０１は上述した動きパターン１２５に相当するものであり、音声区間パターンby２０２は上述した音声区間パターン１２６に相当するものである。

予め決められた時間間隔Ｔを用いて、時刻aからＴ時間の相関値Sは、数５を用いて算出することができる。

そして、音と映像の組み合わせの中から、相関値Ｓが大きい組み合わせを選択することによって対応付けを行なう。

他のＡＶ相関照合部６５における相関値の計算方法を示す。

図１８に、映像のフレーム間差分の積分値を０と１とに２値化して得られた時系列の動きパターンbx２１１と、０と１とに２値化された音声区間パターンby２１２とを示す。ここで、動きパターンbx２１１は上述した動きパターン１２５に相当するものであり、音声区間パターンby２１２は上述した音声区間パターン１２６に相当するものである。

動きパターンbxがスターとする時間(０から１に変化する時間)をt1xとし、終了時間（１から０に変化する時間）をt2xとする。また、音声区間パターンbｙが立ち上がる時間(０から１に変化する時間)をt1yとし、終了時間（１から０に変化する時間）をt2yとする。そして時間差を数６のＴｄによって算出する。音と映像の組み合わせの中で、時間差Ｔｄが小さほど対応していると考えて、音と映像の対応付けを行なう。

尚、スタート時間だけを比較することで対応付けを行なうことも可能である。この場合には、数６に示す時間差Ｔｄ２を用いて時間差を算出する。

他のＡＶ信号相関照合部６５における相関値の計算方法を示す。

ＡＶ相関照合部６５は、動き検出部６４からの映像動きパターン（フレーム間差分）と、音声区間検出部６７からの音声区間パターンとを入力する。そして、映像のフレーム間差分の積分値の時系列動きパターンＭ２２１と、音響オブジェクトの音声信号パワーＪ２２２とを求める。図１９に、映像のフレーム間差分の積分値の時系列動きパターンＭ２２１と、音響オブジェクトの音声信号パワーＪ２２２との一例を示す。

このとき、映像オブジェクトと音響オブジェクトとの時刻aからＴ時間における相関値S２は、予め決められた時間間隔Ｔを用いて、数７を用いて算出することができる。

また、数８のＳ３のように、ＭとＪとの相関係数を相関値として算出することもできる。

尚、上述したＡＶ相関照合部６５における相関値の計算方法において、動きパターンを映像オブジェクトの動きベクトルから算出するようにしても良い。

この場合、図２０に示すように、時刻ｔから時刻ｔ+1までの、映像オブジェクトの動きベクトルを求める。動きベクトルの算出方法として、テンプレートマッチング法などがある。これは時刻ｔでオブジェクトが占める部分領域画像をテンプレートとし、t+1の映像中から類似パターンが存在する位置をテンプレートマッチングで探索する方法である。これにより、映像オブジェクトの時刻ｔからｔ＋１の動きベクトルを算出することができる。次に、動きベクトル２３３の長さを求める。本実施の形態では、動きベクトルの長さを、上述したフレーム間差分の積分値に置き換えて動きパターンを生成し、相関値を算出する。

尚、上述した実施の形態では各部をハードウェアで構成したが、プログラムで動作するＣＰＵ等の情報処理装置で構成しても良い。この場合、プログラムは、上述した動作をＣＰＵ等に実行させる。

以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。

１カメラ
２マイク
３映像データ記憶部
４注目領域指定部
５音源位置推定部
６仮想視聴点算出部
７映像注目部
８音響合成部
９映像音響処理部
１１伝送部
２１音源位置推定部
２２ビデオオブジェクト分離部
２３オーディオオブジェクト分離部
２４統合部
２５ＡＶ対応付け部
２６３次元位置推定部
３１音源位置推定部
３２ビデオオブジェクト分離部
３３オーディオオブジェクト分離部
３４映像種類判別部
３５音響種類判別部
３６ＡＶ種類照合部
３７３次元位置推定部
４１音源位置推定部
４２ビデオオブジェクト分離部
４３オーディオオブジェクト分離部
４４映像種類判別部
４５３次元位置推定部
５１音源位置推定部
５２オーディオオブジェクト分離部
５３ビデオオブジェクト分離部
５４音響種類判別部
５５３次元位置推定部
６１音源位置推定部
６２オーディオオブジェクト分離部
６３人物検出部
６４動き検出部
６５ＡＶ相関照合部
６６３次元位置推定部
６７音声区間検出部

Claims

コンテンツのオーディオ信号からオーディオオブジェクトを分離し、前記コンテンツの映像信号からビデオオブジェクトを分離し、前記ビデオオブジェクトと前記オーディオオブジェクトとを対応付け、音源となるビデオオブジェクトの３次元空間の位置を算出することにより、音源の音源位置と前記音源位置に対応した音源信号とを算出する音源位置推定部と、
前記映像中の指定した注目領域に視聴者が注目した場合における視聴者の仮想視聴位置を算出する仮想視聴点算出部と、
前記音源位置と前記音源信号とに基づいて、前記仮想視聴位置を聴点位置とする音響信号を合成する音響合成部と
を有し、
前記仮想視聴点算出部は、前記映像中の各ビデオオブジェクトの原視聴位置からの距離のうち、前記原視聴位置から最も近い距離に、前記注目領域が存在する仮想平面を想定し、原視聴位置を中心とする３次元空間における前記仮想視聴位置の位置を算出する
映像音響処理システム。
前記音源位置推定部は、
映像信号からビデオオブジェクトを分離するビデオオブジェクト分離部と、
オーディオ信号からオーディオオブジェクトを分離するオーディオオブジェクト分離部と、
前記ビデオオブジェクトと前記オーディオオブジェクトとを対応付け、前記ビデオオブジェクトと対応する前記オーディオオブジェクトの信号を音源信号として出力する対応付け部と、
前記対応付けされたビデオオブジェクトの３次元空間の位置を算出し、算出されたビデオオブジェクトの３次元空間の位置に基づいて、前記ビデオオブジェクトに対応するオーディオオブジェクトの３次元位置を算出し、この位置を音源位置として出力する３次元位置推定部と
を有する請求項１に記載の映像音響処理システム。
前記音源位置推定部は、
映像信号からビデオオブジェクトを分離するビデオオブジェクト分離部と、
オーディオ信号からオーディオオブジェクトを分離するオーディオオブジェクト分離部と、
前記分離されたビデオオブジェクトの種類を判別する映像判別部と、
前記分離されたオーディオオブジェクトの種類を判別する音響種類判別部と、
前記ビデオオブジェクトの種類と前記オーディオオブジェクトの種類とを照合して対応付けを行い、前記ビデオオブジェクトと対応する前記オーディオオブジェクトの信号を音源信号として出力するＡＶ種類照合部と、
前記照合されたビデオオブジェクトの３次元空間内の位置を算出し、算出されたビデオオブジェクトの３次元空間の位置に基づいて、前記ビデオオブジェクトに対応するオーディオオブジェクトの３次元空間の位置を算出し、この位置を音源位置として出力する３次元位置推定部と
を有する請求項１に記載の映像音響処理システム。
前記音源位置推定部は、
映像信号からビデオオブジェクトを分離するビデオオブジェクト分離部と、
前記分離されたビデオオブジェクトの種類を判別し、音源となりうるビデオオブジェクトを判別する映像判別部と、
前記音源となりうるビデオオブジェクトの３次元空間の位置を算出し、この３次元空間内の位置をオーディオオブジェクトの３次元空間の位置として算出し、この位置を音源位置として出力する３次元位置推定部と、
オーディオ信号と、前記音源となりうるビデオオブジェクトの３次元空間の位置とを用いて、オーディオオブジェクトを分離し、分離したオーディオオブジェクトの信号を音源信号として出力するオーディオオブジェクト分離部と
を有する請求項１に記載の映像音響処理システム。
前記音源位置推定部は、
オーディオ信号からオーディオオブジェクトを分離するオーディオオブジェクト分離部と、
前記オーディオオブジェクトの種類を判別する音響種類判別部と、
ビデオ信号と前記オーディオオブジェクトの種類とを用いて、ビデオオブジェクトを分離するビデオオブジェクト分離部と、
前記ビデオオブジェクトの３次元空間の位置を算出し、この３次元空間内の位置をオーディオオブジェクトの３次元空間の位置として算出し、この位置を音源位置として出力する３次元位置推定部と
を有する請求項１に記載の映像音響処理システム。
前記音源位置推定部は、
オーディオ信号からオーディオオブジェクトを分離するオーディオオブジェクト分離部と、
前記オーディオオブジェクト信号から音声区間を検出する音声区間検出部と、
ビデオ信号からビデオオブジェクトとして人物領域を検出する人物検出部と、
前記人物領域内の動き量を算出する動き検出部と、
前記音声区間と、前記動き量との相関を用いてオーディオオブジェクトとビデオオブジェクトとを照合して対応付し、対応付けられたオーディオオブジェクトの信号を音源信号として出力するＡＶ相関照合部と、
前記ビデオオブジェクトの３次元空間の位置を算出し、この３次元空間内の位置をオーディオオブジェクトの３次元空間の位置として算出し、この位置を音源位置として出力する３次元位置推定部と
を有する請求項１に記載の映像音響処理システム。
映像中の前記注目領域を指定する注目領域指定部を有する請求項１から請求項６のいずれかに記載の映像音響処理システム。
コンテンツのオーディオ信号からオーディオオブジェクトを分離し、前記コンテンツの映像信号からビデオオブジェクトを分離し、前記ビデオオブジェクトと前記オーディオオブジェクトとを対応付け、音源となるビデオオブジェクトの３次元空間の位置を算出することにより、音源の音源位置と前記音源位置に対応する音源信号とを算出し、
前記映像中の指定した注目領域に視聴者が注目した場合における視聴者の仮想視聴位置を算出し、
前記音源位置と前記音源信号とに基づいて、前記仮想視聴位置を聴点位置とする音響信号を合成し、
前記仮想視聴点の算出は、前記映像中の各ビデオオブジェクトの原視聴位置からの距離のうち、前記原視聴位置から最も近い距離に、前記注目領域が存在する仮想平面を想定し、原視聴位置を中心とする３次元空間における前記仮想視聴位置の位置を算出する
映像音響処理方法。
前記音源位置の推定は、
映像信号からビデオオブジェクトを分離し、
オーディオ信号からオーディオオブジェクトを分離し、
前記ビデオオブジェクトと前記オーディオオブジェクトとを対応付け、前記ビデオオブジェクトと対応する前記オーディオオブジェクトの信号を音源信号として算出し、
前記対応付けされたビデオオブジェクトの３次元空間の位置を算出し、算出されたビデオオブジェクトの３次元空間の位置に基づいて、前記ビデオオブジェクトに対応するオーディオオブジェクトの３次元位置を算出し、この位置を音源位置とする
請求項８に記載の映像音響処理方法。
前記音源位置の推定は、
映像信号からビデオオブジェクトを分離し、
オーディオ信号からオーディオオブジェクトを分離し、
前記分離されたビデオオブジェクトの種類を判別し、
前記分離されたオーディオオブジェクトの種類を判別し、
前記ビデオオブジェクトの種類と前記オーディオオブジェクトの種類とを照合して対応付けを行い、前記ビデオオブジェクトと対応する前記オーディオオブジェクトの信号を音源信号とし、
前記照合されたビデオオブジェクトの３次元空間内の位置を算出し、算出されたビデオオブジェクトの３次元空間の位置に基づいて、前記ビデオオブジェクトに対応するオーディオオブジェクトの３次元空間の位置を算出し、この位置を音源位置とする
請求項８に記載の映像音響処理方法。
前記音源位置の推定は、
映像信号からビデオオブジェクトを分離し、
前記分離されたビデオオブジェクトの種類を判別し、音源となりうるビデオオブジェクトを判別し、
前記音源となりうるビデオオブジェクトの３次元空間の位置を算出し、この３次元空間内の位置をオーディオオブジェクトの３次元空間の位置として算出し、この位置を音源位置とし、
オーディオ信号と、前記音源となりうるビデオオブジェクトの３次元空間の位置とを用いて、オーディオオブジェクトを分離し、分離したオーディオオブジェクトの信号を音源信号とする
請求項８に記載の映像音響処理方法。
前記音源位置の推定は、
オーディオ信号からオーディオオブジェクトを分離し、
前記オーディオオブジェクトの種類を判別し、
ビデオ信号と前記オーディオオブジェクトの種類とを用いて、ビデオオブジェクトを分離し、
前記ビデオオブジェクトの３次元空間の位置を算出し、この３次元空間内の位置をオーディオオブジェクトの３次元空間の位置として算出し、この位置を音源位置とする
請求項８に記載の映像音響処理方法。
前記音源位置の推定は、
オーディオ信号からオーディオオブジェクトを分離し、
前記オーディオオブジェクト信号から音声区間を検出し、
ビデオ信号からビデオオブジェクトとして人物領域を検出し、
前記人物領域内の動き量を算出し、
前記音声区間と、前記動き量との相関を用いてオーディオオブジェクトとビデオオブジェクトとを照合して対応付し、対応付けられたオーディオオブジェクトの信号を音源信号として算出し、
前記ビデオオブジェクトの３次元空間の位置を算出し、この３次元空間内の位置をオーディオオブジェクトの３次元空間の位置として算出し、この位置を音源位置とする
請求項８に記載の映像音響処理方法。