JP5618043B2 - 映像音響処理システム、映像音響処理方法及びプログラム - Google Patents

映像音響処理システム、映像音響処理方法及びプログラム Download PDF

Info

Publication number
JP5618043B2
JP5618043B2 JP2009220199A JP2009220199A JP5618043B2 JP 5618043 B2 JP5618043 B2 JP 5618043B2 JP 2009220199 A JP2009220199 A JP 2009220199A JP 2009220199 A JP2009220199 A JP 2009220199A JP 5618043 B2 JP5618043 B2 JP 5618043B2
Authority
JP
Japan
Prior art keywords
video
sound source
audio
signal
dimensional space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009220199A
Other languages
English (en)
Other versions
JP2011071685A (ja
Inventor
井上 晃
晃 井上
野村 俊之
俊之 野村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009220199A priority Critical patent/JP5618043B2/ja
Publication of JP2011071685A publication Critical patent/JP2011071685A/ja
Application granted granted Critical
Publication of JP5618043B2 publication Critical patent/JP5618043B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals

Landscapes

  • Stereophonic System (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)

Description

本発明は、映像音響処理システム、映像音響処理方法及びプログラムに関する。
近年、映像や、音声等のマルチメディアの分野において、コンテンツのうち視聴者が注目している特定の部分領域を処理し、視聴者に提供する技術が着目されている。ここで、特定部分領域である注目領域(Region Of Interest:ROI)に注目した映像音響処理を注目処理と呼ぶ。また、注目処理の中でビデオ信号等の映像情報への処理を映像注目処理、オーディオ信号への処理を音響注目処理とする。
図21を用いて特定部分領域に注目する動作である注目処理について説明する。
元映像フレーム71に、4つのオブジェクト(オブジェクトA74、オブジェクトB75、オブジェクトC76、オブジェクトD77)が含まれているとする。ここで、オブジェクトとは撮影された映像空間を構成する物体であり、例えば、人物や自動車、建物などがある。元映像フレーム71内では、これらのオブジェクトの位置を示す矩形が点線で表示されている。今、元映像フレーム71内における注目領域を、注目領域73で示す実線矩形とする。注目処理映像72は、注目領域73に対して映像注目処理を施した一例である。注目処理映像72は、注目領域を拡大して表示幅が最大となるように表示したものである。注目領域に対する映像注目処理としては、このように映像を拡大するものがあるが、その他にも注目領域以外の領域の輝度値を低くする等によって、目立たなくする方法がある。
音響注目処理の一例として、注目領域に含まれるオブジェクトに対応したオーディオ信号だけを再生する方法がある。この場合、元映像フレーム71では、注目領域73を指定するとその内部に含まれるオブジェクトD77のみの音声が再生されることになる。
オブジェクト情報を利用した音響再生処理の一例が、特許文献1に記載されている。特許文献1によれば、予め記録されたビデオオブジェクトの矩形座標を基に、画像フレーム内のオブジェクト重心位置と大きさとに応じてステレオ音響の左右バランスを制御する方法が記載されている。
また、特許文献2によれば、TV会議システムにおいて複数のカメラと複数のマイクを用い、注目領域として特定のカメラ映像を選択すると、その映像に近い位置のマイクのみを動作させることで、注目領域に適した音声を収録・再生することが記載されている。
特開2002−369152号公報 特開2005−45779号公報
しかしながら、特許文献1に記載されている技術は、画像フレーム内の注目領域に注目した音響処理を行う場合、その注目領域に含まれるオブジェクト重心位置と大きさを用いて制御するため、注目領域に含まれないオブジェクトの音が再生されないという問題があった。また、注目領域にオブジェクトの一部だけが含まれる場合、音響バランスが崩れてしまうという問題がある。図21の例で注目領域73に注目した場合、違和感のない音響を再現するには、オブジェクトD以外の音(オブジェクトA,B,Cの音)も聞こえなければならないが、従来はオブジェクトA,B,Cの音を適切に合成することはできなかった。すなわち、注目領域に含まれない、あるいは部分的に含まれるオブジェクトを考慮した音響を再生できないということである。
更に、上述の技術は、画像フレーム内に含まれる個々のオブジェクト情報(ビデオおよびオーディオ)が既知であることが前提である。しかしながら実際に流通している映像データは含まれるオブジェクトは未知であり、その技術を適用することができない。すなわち、映像中のオブジェクト情報が予め与えられないときには、注目領域に対応した音響を再生できないということである。
また、特許文献2に記載されている技術は、選択する注目領域ごとにカメラとマイクを配置する必要があり、選択できる注目領域に限界がある。更に、複数のカメラを設置する必要があり、映像制作コストや、蓄積・伝送コストが膨大となってしまう。すなわち、入力する映像信号が複数必要であり、映像制作・蓄積・伝送コストが高いということである
そこで、本発明は上記課題に鑑みて発明されたものであって、映像中の注目領域に対する注目処理を行う際、違和感のない音響を再生する映像音響処理システム、映像音響処理方法及びプログラムを提供することにある。
上記課題を解決する本発明は、コンテンツのオーディオ信号からオーディオオブジェクトを分離し、前記コンテンツの映像信号からビデオオブジェクトを分離し前記ビデオオブジェクトと前記オーディオオブジェクトとを対応付け、音源となるビデオオブジェクトの3次元空間の位置を算出することにより、音源の音源位置と前記音源位置に対応した音源信号とを算出する音源位置推定部と、前記映像中の指定した注目領域に視聴者が注目した場合における視聴者の仮想視聴位置を算出する仮想視聴点算出部と、前記音源位置と前記音源信号とに基づいて、前記仮想視聴位置を聴点位置とする音響信号を合成する音響合成部とを有する映像音響処理システムである。
上記課題を解決する本発明は、コンテンツのオーディオ信号からオーディオオブジェクトを分離し、前記コンテンツの映像信号からビデオオブジェクトを分離し前記ビデオオブジェクトと前記オーディオオブジェクトとを対応付け、音源となるビデオオブジェクトの3次元空間の位置を算出することにより、音源の音源位置と前記音源位置に対応する音源信号とを算出する音源位置推定部と、前記音源位置と前記音源信号とを伝送する伝送部とを有する映像音響処理装置である。
上記課題を解決する本発明は、コンテンツのオーディオ信号からオーディオオブジェクトを分離し、前記コンテンツの映像信号からビデオオブジェクトを分離し前記ビデオオブジェクトと前記オーディオオブジェクトとを対応付け、音源となるビデオオブジェクトの3次元空間の位置を算出することにより、算出された音源の音源位置と前記音源位置に対応する音源信号とを受信する受信部と、映像中の指定した注目領域に視聴者が注目した場合における視聴者の仮想視聴位置を算出する仮想視聴点算出部と、受信した音源の音源位置と前記音源位置に対応する音源信号とに基づいて、前記仮想視聴位置を聴点位置とする音響信号を合成する音響合成部とを有する映像音響処理装置である。
上記課題を解決する本発明は、コンテンツのオーディオ信号からオーディオオブジェクトを分離し、前記コンテンツの映像信号からビデオオブジェクトを分離し前記ビデオオブジェクトと前記オーディオオブジェクトとを対応付け、音源となるビデオオブジェクトの3次元空間の位置を算出することにより、音源の音源位置と前記音源位置に対応する音源信号とを算出し、前記映像中の指定した注目領域に視聴者が注目した場合における視聴者の仮想視聴位置を算出し、前記音源位置と前記音源信号とに基づいて、前記仮想視聴位置を聴点位置とする音響信号を合成する映像音響処理方法である。
上記課題を解決する本発明は、コンテンツのオーディオ信号からオーディオオブジェクトを分離し、前記コンテンツの映像信号からビデオオブジェクトを分離し前記ビデオオブジェクトと前記オーディオオブジェクトとを対応付け、音源となるビデオオブジェクトの3次元空間の位置を算出することにより、音源の音源位置と前記音源位置に対応する音源信号とを算出する処理と、前記映像中の指定した注目領域に視聴者が注目した場合における視聴者の仮想視聴位置を算出する処理と、前記音源位置と前記音源信号とに基づいて、前記仮想視聴位置を聴点位置とする音響信号を合成する処理とを情報処理装置に実行させるプログラムである。
本発明によれば、映像中の注目領域に対する注目処理を行う際、違和感のない音響を再生することができる。
図1は本発明の実施の形態のブロック図である。 図2は第1の実施の形態のブロック図である。 図3は仮想視点位置算出部6の動作の一例を説明するための図である。 図4は映像注目処理の一例を示した図である。 図5は3次元空間位置に基づいた音響再生の概念図である。 図6は3次元空間位置に基づいた音響再生の概念図である。 図7は第1の実施の形態の他の態様のブロック図である。 図8は第2の実施の形態のブロック図である。 図9は第3の実施の形態の音源位置推定部21のブロック図である。 図10は第3の実施の形態の3次元位置推定部26の動作を説明するための図である。 図11は第4の実施の形態の音源位置推定部31のブロック図である。 図12は第4の実施の形態のAV種類照合部36の動作を説明するための図である。 図13は第5の実施の形態の音源位置推定部41のブロック図である。 図14は第6の実施の形態の音源位置推定部51のブロック図である。 図15は第7の実施の形態の音源位置推定部61のブロック図である。 図16は第7の実施の形態のAV相関照合部65の動作を説明するための図である。 図17は第7の実施の形態のAV相関照合部65の相関値の計算方法を説明するための図である。 図18は第7の実施の形態のAV相関照合部65の相関値の他の計算方法を説明するための図である。 図19は第7の実施の形態のAV相関照合部65の相関値の他の計算方法を説明するための図である。 図20は第7の実施の形態のAV相関照合部65の相関値の他の計算方法を説明するための図である。 図21は関連する技術を説明するための図である。
本発明の実施の形態を説明する。
図1は本発明の実施の形態のブロック図である。
本実施の形態における映像音響処理システムは、コンテンツのオーディオ信号とビデオ信号とを用いて、音源の音源位置と前記音源位置に対応する音源信号とを算出する音源位置推定部100と、映像中の指定した注目領域に視聴者が注目した場合における視聴者の仮想視聴位置を算出する仮想視聴点算出部101と、音源位置と音源信号とに基づいて、仮想視聴位置を聴点位置とする音響信号を合成する音響合成部102とを有する。尚、コンテンツとは、動画やテレビ会議などの映像、音声を含むマルチメディアデータ等である。
音源位置推定部100は、コンテンツのビデオ信号とオーディオ信号とから音源の3次元空間内の位置を推定し、それぞれの音源位置に対応する音源信号を出力する部である。
具体的には、音源位置推定部100は、入力ビデオ信号から画像処理によってビデオオブジェクトの位置を推定する。ここで、ビデオオブジェクトとは人物、物などの映像中の対象物である。
また、音源位置推定部100は、入力オーディオ信号から音源信号を分離する。ここでは、入力オーディオ信号から分離されたオーディオオブジェクト毎に信号を分離する。オーディオオブジェクトとは、入力オーディオ信号の音源となりうるオブジェクトであり、例えば、人物の音声や、車のエンジン音などである。
そして、音源位置推定部100は、ビデオオブジェクトとオーディオオブジェクトとの対応づけを行い、対応付けの情報であるオブジェクト情報を用いて、オーディオオブジェクトの3次元空間位置を推定し、これを音源位置として出力する。また、音源位置推定部100は、音源位置に対応したオーディオオブジェクトの信号を音源信号(出力オーディオ信号)として出力する。
入力オーディオ信号からオーディオオブジェクトごとに信号を分離する方法としては、ブラインド信号源分離(Blind Source Separation)や、独立成分分析(Independent Component Analysis)と呼ばれる手法を用いることができる。
また、音源の3次元空間位置の推定の方法としては、映像からビデオオブジェクトを検出し、そのビデオオブジェクトの3次元位置を算出する。そして、そのビデオオブジェクトに対応するオーディオオブジェクトを見つけ、その位置を音源の3次元空間位置として推定する方法がある。ここで、ビデオオブジェクトの例としては、映像中の人物、建物や、草木、など、空間を構成する物体をビデオオブジェクトと見なすことができ、これらのビデオオブジェクトをテンプレート等でその種別を識別(例えば、人物、建物といた種別)することで、その種別に対応するオーディオオブジェクト(例えば、人物ならば音声、自動車ならばエンジン音など)を対応付けることができる。尚、ビデオオブジェクトの3次元位置を算出については、既存の技術を用いることで解決することができる。
仮想視聴点算出部101は、映像中の注目領域に視聴者が注目した場合の3次元空間中の仮想視聴点を算出する。注目領域の指定の仕方であるが、ディスプレイ上に映像を表示し、ユーザがマウスや電子ペンによって画像中にマークすることによって指定する方法や、あらかじめ求めておいた複数の候補領域を画面上に表示し、それらの中からユーザが選択するように構成しても良い。これらの指定された映像フレーム中の注目領域は、映像フレームにおける注目領域の範囲・位置を示す注目領域座標(画像平面での座標)として仮想視聴点算出部101に入力される。仮想視聴点の算出の一例としては、注目領域座標で特定される注目領域の中心座標、あるいは重心座標を仮想視聴点のxy座標とし、元の視聴点の奥行きから注目領域が映像フレーム全体に拡大された場合の仮想視聴点の奥行き(y座標)として算出する方法がある。
音響合成部102は、音源位置推定部100からの音源位置及び音源信号と、仮想視聴点算出部101からの仮想視聴点位置とを入力し、仮想視聴位置を聴点位置とした音響信号を合成する。合成処理の一例として、頭部伝達関数(HRTF)を用いた音響合成方法がある。音響合成部102から出力される音響信号は、視聴者が仮想視聴点位置で視聴するような違和感のない音場を再現するオーディオ信号である。
以上の如く、本実施の形態は、映像内の任意の注目領域において違和感のない音響を再生できることにある。その理由は、音源の音源位置とと仮想視聴点との3次元空間位置関係を推定し、これらに基づいて、各音源位置に対応する音源信号を合成して音響再生を行っているためである。
また、本実施の形態は、映像内のオーディオオブジェクトが分離されていなくても、高品質な音響を再生できることにある。その理由は、入力ビデオ信号と入力オーディオ信号とを用いて、ビデオオブジェクトとオーディオオブジェクトとの対応付けを行い、オーディオオブジェクトの信号(音源信号)を分離しているからである。
以下、具体的な実施の形態を説明する。
<第1の実施の形態>
第1の実施の形態を説明する。
図2は第1の実施の形態のブロック図である。図2を参照すると、第1の実施の形態における映像音響処理システムは、カメラ1と、マイク2と、映像データ記憶部3と、映像音響処理部9とから構成されている。
カメラ1により映像が取得され、マイク2により音声が取得される。そして、取得された映像及び音声は、映像データ記憶部3に保存される。尚、映像データ記憶部3の例としては、磁気テープやHDDなどがある。
映像音響処理部9は、映像データ記憶部3に保存されたビデオ信号とオーディオ信号とが入力されると、これらのビデオ信号とオーディオ信号とを、注目領域の指定に応じて違和感のない適切なビデオ信号とオーディオ信号とに変換して出力する。そして、映像音響処理部9は、注目領域指定部4と、音源位置推定部5と、仮想視聴点算出部6と、映像注目処理部7と、音響合成部8とから構成されている。
注目領域指定部4は、映像中から特に注目したい特定部分領域を指定する部である。この注目したい特定部分領域を注目領域(Region Of Interest:ROI)とよぶ。注目領域指定部4の指定例として、ディスプレイ上に映像を表示し、ユーザがマウスや電子ペンによって画像中にマークすることによって指示する例がある。また、あらかじめ求めておいた複数の候補領域を画面上に表示し、それらの中からユーザが選択するように構成しても良い。注目領域指定部4によって指定された映像フレーム中の注目領域は、映像フレームにおける注目領域の範囲・位置を示す注目領域座標(画像平面での座標)として出力される。
音源位置推定部5は、映像データ記憶部3からのビデオ信号及びオーディオ信号からオーディオ信号中の音源の3次元空間内の位置を推定し、それぞれの音源のオーディオ信号を出力する部である。音源位置推定部5は、入力ビデオ信号から画像処理によってビデオオブジェクト(例えば、人物や車などのオブジェクト)を特定してその位置を推定する。また、音源位置推定部5は、入力オーディオ信号からオーディオオブジェクト(例えば、チャンネル、音声や、エンジン音などの音)ごとに信号を分離する。そして、ビデオオブジェクトとオーディオオブジェクトとの対応づけを行い、対応付けの情報であるオブジェクト情報を用いて、オーディオオブジェクト又はオーディオオブジェクトの3次元空間位置を推定し、これを音源位置として出力する。また、音源位置推定部5は、音源位置に対応したオーディオオブジェクトの信号を音源信号として出力する。
仮想視点位置算出部6は、注目領域指定部4からの注目領域座標に基づいて、3次元空間中の仮想視聴点を算出する。仮想視点位置算出部6の動作の一例について図3を参照して説明する。
映像フレーム88に、点線矩形で示されたオブジェクトE84、オブジェクトF85、オブジェクトG86が映っている。そして、注目領域として実線矩形で示された注目領域87が指定されているものとする。カメラの左右の視野角をθとする。注目領域87の画素幅をSとする。映像フレーム88の横サイズ(画素幅)をWとする。ここで、映像フレーム88において、元の視聴点位置81のz座標を0とし、z方向にDの位置に仮想平面π83を定義する。また、元の視聴点位置81のxy座標は映像フレームの中心に一致すると考える。Dの値はあらかじめ決められた値を用いてもよいし、映像情報から検出したオブジェクトの情報を用いてもよい。例えば、複数のオブジェクトが存在して各オブジェクトのz座標が既知の場合は、元の視聴点位置81に最も近いオブジェクトのz座標をDとして仮想平面πを定義することができる。
図3において、撮影カメラをピンホールカメラであると仮定すると、注目領域87の横幅と、映像フレーム88の横サイズとの比率によって、新しい仮想視点位置82の奥行きであるh(z座標)を決定することができる。hの算出方法の一例を数1に示す。xy座標は、注目領域87の中心座標、あるいは重心座標を元に、求めることができる。
Figure 0005618043
尚、上記視聴点位置算出の例では横サイズを基準として説明したが、縦サイズを基準とした場合にも同様に算出することができる。
映像注目処理部7は、注目領域指定部4によって指定された注目領域に対して、擬似的に注目した映像を生成する映像注目処理を行う。注目領域87への映像注目処理の例は、注目領域87を映像フレーム全体に拡大することである。これは、注目することによって対象領域に視野をフォーカスする行為を擬似的に実現するものである。注目領域87のアスペクト比を固定する場合、拡大方法として横サイズを映像フレームに一致させる方法と、縦サイズを映像フレームに一致させる方法がある。通常は、拡大時に注目領域に欠損がないように横サイズ基準または縦サイズ基準を選択する。
映像注目処理の一例を図4に示す。元映像フレーム71において注目領域として73が指定されている。注目処理画像72は、映像注目処理によって拡大表示された結果の一例であり、注目領域が映像フレーム全体となるように拡大されている。注目領域に対する映像注目処理としては、このように映像の拡大処理の他、例えば、注目領域以外の領域の輝度値を低くすることによって、注目領域を目立たせる処理がある。
音響合成部8は、音源位置推定部5からの音源位置及び音源信号と、仮想視点位置算出部6から仮想視聴点位置とを入力し、違和感のない音場を再現するオーディオ信号を出力する。音響合成部8の処理例として、頭部伝達関数(HRTF)を用いた音響合成方法がある。HRTFは、音源から両耳までの音響伝達特性を表す関数であり、人間の頭部マネキンなどを使って測定することができる。HRTFと音源信号との畳み込みを行うことで、立体的な音場再生が可能となる。
音響合成部8の処理例を以下に示す。あらかじめすべての音源方向に対するHRTFを求めておく。次に、与えられた仮想視聴点位置と音源位置との位置関係から、仮想視聴点位置からみた音源方向と音源までの距離を求める。求めた音源方向に対応するHRTFを用いて前記音源信号との畳み込みを行い、前記音源までの距離値に基づいてゲイン調整を行うことで、違和感のない立体的な音場を再生することができる。
図5、6は3次元空間位置に基づいた音響再生の概念図である。図5の左側は元映像の音響再生環境91を示したものであり、右側は映像注目時の音響再生環境92を示したものである。また、図5の上側は元映像の音響再生環境91を示したものであり、下側は映像注目時の音響再生環境92を示したものである。
元の視聴点位置93からみると、映像フレーム全体を表す仮想平面π94を図5、6に示すように仮定する。そして、推定された3つのオブジェクトの位置が、音源推定位置96であるとする。ここで注目領域95に注目したときの音響再生環境が、右側の映像注目時の音響再生環境92である。
映像注目時の音響再生環境92では、仮想視聴点位置97が図の位置にある。従って、各オブジェクトとの相対位置が変化していることがわかる。視聴点から見た音源方向が変化しているため、新しい方向に応じたHRTFを用いて音を再生することで、注目領域の映像注目時の音場を適切に再生することができる。
また、注目領域95の正面にあるオブジェクトに近づくので、距離に応じて音源の再生ゲインを上げることによって臨場感も出すことができる。ゲイン調整の方法としては、聞こえる音の大きさが音源までの距離の3乗に反比例することを利用して、移動前後の距離の違いから換算する方法がある。
以上のように、3次元空間を想定してその環境に応じた音場を再生することにより、違和感のない音場を再現することができる。
尚、環境音などの一部の音源信号については、音源位置が不明となる場合がある。このように音源位置が不明な音源信号に対しては、全てのチャンネルに均等に信号を分配し、その他の音源信号と合成して再生しても良い。
また、本実施の形態では、仮想視点位置算出部6が算出した仮想視点位置は変更しないものとして説明したが、視聴者により変更するような構成でも良い。この場合、仮想視点位置の変更にともない映像注目処理部7の注目処理も変更されるので、図7に示すように、仮想視点位置算出部6から変更された仮想視点位置を映像注目処理部7に入力するようにすれば良い。
<第2の実施の形態>
第2の実施の形態を説明する。
図8は第2の実施の形態のブロック図である。図8を参照すると、第1の実施の形態におけるオブジェクト処理システムは、カメラ1と、マイク2と、映像データ記憶部3と、注目領域指定部4と、音位置推定部5と、仮想視聴点算出部6と、映像注目処理部7と、音響合成部8と、伝送部11とから構成されている。尚、第1の実施の形態と同様な構成のものについては、同じ符号を付し、詳細な説明は省略する。
伝送部11は、映像データ記憶部3からのビデオ信号と、音源位置推定部5の出力である音源位置及び音源信号とを、それぞれ符号化した後にネットワークを通じて伝送する部である。想定するネットワークは有線でも無線でも良く、様々な通信プロトコルが利用できる。放送波のように電波で伝送してもよい。
また、第2の実施の形態では、音源位置推定部5により音源位置の推定処理等を行った後に伝送を行っているが、ビデオ信号とオーディオ信号とを伝送した後に、音源位置推定部5を用いてオブジェクトを分離してもよい。すにわち、音源位置推定部5を受信側に設けても良い。
第2の実施の形態によれば、遠隔地からの信号に対して音響制御することができ、遠隔会議システム等に利用することができる。
<第3の実施の形態>
第3の実施の形態を説明する。
第3の実施の形態は、第1の実施の形態及び第2の実施の形態における音源位置推定部5を、図9に示す音源位置推定部21に置き換えた構成をしている。
音源位置推定部21は、入力ビデオ信号と入力オーディオ信号からそれぞれのオブジェクトを分離して音源信号を推定し、それぞれの音源の音源位置と音源信号を出力する手段である。
図9を参照すると、音源位置推定部21は、ビデオオブジェクト分離部22と、オーディオオブジェクト分離部23と、統合部24とから構成されている。統合部24は、AV対応付け部25と、3次元位置推定部26とから構成されている。
ビデオオブジェクト分離部22は、ビデオ信号から映像フレーム内のビデオオブジェクトを分離する。ビデオオブジェクトの例として、図9におけるオブジェクトA74,オブジェクトB75,オブジェクトC76のような、人物オブジェクトがある。また、図3のオブジェクトF85の自動車のような例もある。その他、建物や、草木、など、空間を構成する物体は、ビデオオブジェクトと見なすことができる。ビデオオブジェクト分離部22の例として、パターン認識を利用した物体検出方法がある。予めビデオオブジェクト画像のテンプレートを作成し、このテンプレートを用いて映像フレーム全体にテンプレートマッチングを施す。テンプレートとの相関値がしきい値以上であれば、所望のビデオオブジェクトが存在するものと判断する。このようにしてビデオオブジェクト分離部22は、所望のビデオオブジェクトを自動的に検出し、オブジェクトが存在する部分領域の位置を出力する。
オーディオオブジェクト分離部23は、入力オーディオ信号から音源信号を分離する部である。オーディオオブジェクト分離部23において、オブジェクト分離情報を生成する方法として、ブラインド信号源分離(Blind Source Separation)や、独立成分分析(Independent Component Analysis)と呼ばれる手法を用いることができる。ブラインド信号源分離および独立成分分析の方法に関連する技術は、非特許文献1(2005年、「スピーチ・エンハンスメント」、シュプリンガー、(Speech Enhancement, Springer, 2005, pp. 271-369)、271ページから369ページ)に開示されている。適切なパラメータ設定を行うことで、オーディオオブジェクト分離部23は、入力オーディオ信号から自動的に音源信号に分離することができる。
統合部24はAV対応付け部25と3次元位置推定部26とを有し、分離されたビデオオブジェクトとオーディオオブジェクトとの双方の情報を用いて、音源の3次元位置を推定し、推定された音源位置と音源信号とを出力する。統合部24では、ビデオオブジェクトとオーディオオブジェクトは、まずAV対応付け部25に入力される。
AV対応付け部25は、オーディオオブジェクトとビデオオブジェクトとの対応付けを行うことにより、オーディオオブジェクトが映像フレーム中のどこの位置にあるのかを特定する。すなわち、オーディオオブジェクト(音源)が映像フレームのどこから発生しているかを求める。
3次元位置推定部26は、映像フレーム中の音源に対応するビデオオブジェクトの座標を求め、このビデオオブジェクトの座標をオーディオオブジェクトの3次元位置として出力する。ビデオオブジェクトの3次元位置算出動作の一例を、図10を参照して説明する。
図10は、映像フレーム101の映像を、カメラ視点102から観察している概念図である。カメラの左右の視野角をθとする。映像フレーム101からは、ビデオオブジェクトとして、オブジェクトH103と、オブジェクトI104が検出されている。また映像フレーム101の横サイズ(画素幅)をW、オブジェクトI104の画素幅をTとする。
ここで、オブジェクトI104が人物の顔であることが分かっていると仮定する。すなわち、対象オブジェクトの種類が既知であって、平均的な大きさも既知である。この場合の人物の顔の平均的な横幅をmとする。求めたいオブジェクトまでの距離をZとすると、奥行きZ地点における映像フレーム101の横幅Uは、数2で表される。
Figure 0005618043
ここで横幅Uは、画面の横サイズWと、顔の横幅mとを元に、数3で求められる。
Figure 0005618043
数2と数3とから、Zは数4で算出できる。
Figure 0005618043
算出したZを用いて横幅Uを算出することができるので、オブジェクトのX座標を特定できる。またカメラの上下の視野角を用いれば、オブジェクトのY座標を特定することができる。
以上、対象オブジェクトの平均的な大きさが既知である場合の3次元位置推定方法について述べた。
一方、対象オブジェクトの元サイズ(mの値)が未知の場合は、同じ映像フレーム内の既知オブジェクトの元サイズとの比率によって、距離を推定することができる。また、すべてのオブジェクトの元サイズが未知の場合には、最も大きなオブジェクトの元サイズにあらかじめ決めておいた値を用いることで、擬似的にすべてのオブジェクト位置を推定することができる。
<第4の実施の形態>
第4の実施の形態を説明する。
第4の実施の形態は、第1の実施の形態及び第2の実施の形態における音源位置推定部5を、図11に示す音源位置推定部31に置き換えた構成をしている。音源位置推定部31は、入力ビデオ信号と入力オーディオ信号からそれぞれのオブジェクトを分離し、さらにオブジェクトの種類判別を利用して、それぞれの音源位置と、音源信号を出力する部である。図11を参照すると、音源位置推定部31は、ビデオオブジェクト分離部32と、オーディオオブジェクト分離部33と、映像種類判別部34と、音響種類判別部35と、AV種類照合部36と、3次元位置推定部37とから構成されている。
ビデオオブジェクト分離部32は、ビデオオブジェクト分離部22と同様に動作して、ビデオオブジェクトを分離して出力する。
オーディオオブジェクト分離部33は、オーディオオブジェクト分離部23と同様に動作して、オーディオオブジェクトの信号を分離して出力する。
映像種類判別部34は、ビデオオブジェクトの種類を特定する部である。オブジェクトの種類の例として、男性の顔、女性の顔、子供の顔、男性の全身、女性の全身、子供の全身、自動車、電車、PC、ディスプレイなどがある。判別されたオブジェクトの種類は、後段の処理によって、映像フレームに存在する音源情報の同定に用いられる。映像種類判別部34の動作の一例を以下に述べる。予めいくつかの映像カテゴリを決めておき、それぞれのカテゴリに対応する典型的な画像群をテンプレートとして用意する。ビデオオブジェクト領域画素と前記テンプレートとのパターンマッチングを行い、最も類似度が大きいカテゴリにオブジェクトを分類することによって種類を判別する。パターンマッチングの方法としては、正規化相関法などの公知の技術を用いることができる。
音響種類判別部35は、オーディオオブジェクトの種類を特定する部である。オーディオオブジェクトの種類の例として、男性の声、女性の声、子供の声、自動車音、電車音、空調音、キーボード音、マウスクリック音、周辺ノイズ、などがある。音響種類判別部35の動作の一例を以下に述べる。予めいくつかの音響カテゴリを決めておき、それぞれのカテゴリに対応する典型的な音源データを用意する。オーディオオブジェクトの波形と音源データの波形とのマッチングを行い、最も類似度が大きいカテゴリにオブジェクトを分類することによって種類を判別する。
AV種類照合部36は、ビデオオブジェクトの種類とオーディオオブジェクトの種類とを照合し、オブジェクトの対応付けを行う。
AV種類照合部36の動作の一例を、図12を用いて説明する。
映像フレーム111において、ビデオオブジェクトとして男性の顔112、女性の顔113、自動車114、が存在する。ビデオオブジェクト群をオブジェクトリスト115に示す。映像フレーム111においてオーディオオブジェクトとして、自動車の音、女性の声、男性の声、ノイズが分類されている。オーディオオブジェクト群をオーディオオブジェクトリスト116に示す。自動車は自動車の音に対応し、男性の声は男性の顔に対応し、女性の声は女性の顔に対応することは容易に判断することができる。しかし、ノイズのオーディオオブジェクトだけは対応するビデオオブジェクトが存在しない。以上の処理によって、オブジェクト対応表117を生成することができる。オブジェクト対応表117によって、各オーディオオブジェクトがどのビデオオブジェクトに対応しているか求めることができる。そして、ビデオオブジェクトに対応するものがあるオーディオオブジェクトの信号を音源信号として出力する。
3次元位置推定部37は、3次元位置推定部26と同様の動作をして、AV種類照合部36から出力される、オーディオオブジェクトに対応するものがあるビデオオブジェクトの3次元的な位置を算出する。そして、この3次元的な位置を、対応するオーディオオブジェクトの3次元的な音源位置として出力する。
<第5の実施の形態>
第5の実施の形態を説明する。
第5の実施の形態は、第1の実施の形態及び第2の実施の形態における音源位置推定部5を、図13に示す音源位置推定部41に置き換えた構成をしている。音源位置推定部41は、入力ビデオ信号からビデオオブジェクトを分離した後に、ビデオオブジェクト情報と入力オーディオ信号とを用いてオーディオオブジェクトを分離し、それぞれの音源位置と、音源信号を出力する部である。図13を参照すると、音源位置推定部41は、ビデオオブジェクト分離部42と、オーディオオブジェクト分離部43と、映像種類判別部44と、3次元位置推定部45とから構成されている。
ビデオオブジェクト分離部42は、ビデオオブジェクト分離部22と同様に動作して、ビデオオブジェクトを分離して出力する。
映像種類判別部44は、映像種類判別部34と同様に動作してビデオオブジェクトの種類を判別し、ビデオオブジェクトのうち音源となりうるビデオオブジェクトのビデオオブジェクト情報を出力する。例えば、音源となりうるビデオオブジェクトは、人物や自動車などが代表的なものである。
3次元位置推定部45は、3次元位置推定部26と同様の動作をして、映像種類判別部44からのビデオオブジェクトの座標を求め、このビデオオブジェクトの座標をオーディオオブジェクトの3次元位置として出力する。
オーディオオブジェクト分離部43は、3次元位置推定部45からのビデオオブジェクトの座標と入力オーディオ信号を用いて、オーディオオブジェクトを分離して出力する。オーディオオブジェクト分離部43の動作の一例を以下に述べる。得られたビデオオブジェクトは音源であるとして、そのオーディオ信号の独立成分分析を行う。すなわち、映像フレーム内の座標位置(3次元位置推定部45からのビデオオブジェクトの座標)に音源があると仮定して、独立成分分析におけるパラメータを設定する。このようにして、ビデオオブジェクト位置に対応したオーディオオブジェクトを分離し、そのオーディオオブジェクトの信号を音源信号として出力する。
<第6の実施の形態>
第6の実施の形態を説明する。
第6の実施の形態は、第1の実施の形態及び第2の実施の形態における音源位置推定部5を、図14に示す音源位置推定部51に置き換えた構成をしている。音源位置推定部51は、入力オーディオ信号からオーディオオブジェクトを分離した後に、オーディオ情報を用いてビデオオブジェクト分離し、それぞれの音源位置と、音源信号を出力する部である。図14を参照すると、音源位置推定部51は、ビデオオブジェクト分離部53と、オーディオオブジェクト分離部52と、音響種類判別部54と、3次元位置推定部55とから構成されている。
オーディオオブジェクト分離部52は、オーディオオブジェクト分離部23と同様に動作をして、入力オーディオ信号を用いて、オーディオオブジェクトを分離して出力する。音響種類判別部54は、音響種類判別部35と同様に動作して、オーディオオブジェクトの種類を判別する。例えば、人の音声や、自動車のエンジン音などである。
ビデオオブジェクト分離部53は、オーディオオブジェクト情報と、入力ビデオ信号とを用いてビデオオブジェクトを分離して出力する。ビデオオブジェクト分離部53の動作の一例を以下に述べる。得られたオーディオオブジェクトが映像中に存在する仮定し、オーディオオブジェクトの種類に対応する種類の映像テンプレートを用いて映像フレーム内を探索する。これにより、オーディオオブジェクトの種類に対応した、正しいビデオオブジェクトを高速に分離することができる。
3次元位置推定部55は、3次元位置推定部26と同様の動作をして、オブジェクトの3次元的な音源位置を算出する。
<第7の実施の形態>
第7の実施の形態を説明する。
第7の実施の形態は、第1の実施の形態及び第2の実施の形態における音源位置推定部5を、図15に示す音源位置推定部61に置き換えた構成をしている。音源位置推定部61は、入力ビデオ信号から人物オブジェクトを検出し、オブジェクト領域内の動き情報を元にして、オーディオオブジェクトとの対応を行った後に、音源位置と、音源信号を出力する部である。図15を参照すると、音源位置推定部61は、オーディオオブジェクト分離部62と、人物検出部63と、動き検出部64と、AV相関照合部65と、3次元位置推定部66と、音声区間検出部67とから構成されている。
オーディオオブジェクト分離部62は、オーディオオブジェクト分離部23と同様に動作し、入力オーディオ信号を用いてオーディオオブジェクトを分離して出力する。
人物検出部63は、パターン認識を用いて人物領域をビデオオブジェクトとして抽出する部である。人物領域を抽出する方法として、人物の顔領域を検出する方法があり、例えば非特許文献2(M.Turk, A.Pentland,“Face Recognition on Using Eigenfaces,”Proceedings of IEEE, CVPR91, pp.586-591 (1991))などに記載されている。
動き検出部64は、人物領域内の唇などの部分領域に着目し、前記部分領域のフレーム間差分を過去t時間にわたって求め、映像動きパターンを出力する。
音声区間検出部67は、オーディオオブジェクトごとに、過去t時間にわたって音声区間が存在するかどうかを求め、音声区間パターンを出力する。
AV相関照合部65は、映像動きパターンと音声区間パターンとを照合して相関の高い組み合わせを求めることによって、人物のビデオオブジェクトに対応したオーディオオブジェクトを同定する。
図16を参照してAV相関照合部65の動作を説明する。
映像フレーム121において、人物検出部63によってオブジェクトJ122と、オブジェクトK123が検出されている。これらの人物領域内の部分領域である唇部分におけるフレーム間差分が、唇領域フレーム間差分124に示されている。前記唇領域フレーム間差分124に対し、適当なしきい値によって2値化することによって動きパターン125が得られる。また、オーディオオブジェクトに対して音声区間検出を行った結果を音声区間パターン126とする。動きパターン125と、音声区間パターン126とを比較すると、オブジェクトJの動きパターンと、第一の音声区間パターン127との間に高い相関があることが分かるので、これらのオブジェクトが同一であると判断する。また、オブジェクトKの動きパターンと、第二の音声区間パターン128との間に高い相関があるので、同様にこれらのオブジェクトが同一であると判断する。このようにして、オブジェクトJの音源信号が第一のオーディオオブジェクトであり、オブジェクトKの音源信号が第二のオーディオオブジェクトであることが分かる。
次に、AV相関照合部65における具体的な相関値の計算方法を示す。
図17に、映像のフレーム間差分の積分値を0と1とに2値化して得られた時系列の動きパターンbx201と、0と1とに2値化された音声区間パターンby202の例を示す。ここで、動きパターンbx201は上述した動きパターン125に相当するものであり、音声区間パターンby202は上述した音声区間パターン126に相当するものである。
予め決められた時間間隔Tを用いて、時刻aからT時間の相関値Sは、数5を用いて算出することができる。
Figure 0005618043
そして、音と映像の組み合わせの中から、相関値Sが大きい組み合わせを選択することによって対応付けを行なう。
他のAV相関照合部65における相関値の計算方法を示す。
図18に、映像のフレーム間差分の積分値を0と1とに2値化して得られた時系列の動きパターンbx211と、0と1とに2値化された音声区間パターンby212とを示す。ここで、動きパターンbx211は上述した動きパターン125に相当するものであり、音声区間パターンby212は上述した音声区間パターン126に相当するものである。
動きパターンbxがスターとする時間(0から1に変化する時間)をt1xとし、終了時間(1から0に変化する時間)をt2xとする。また、音声区間パターンbyが立ち上がる時間(0から1に変化する時間)をt1yとし、終了時間(1から0に変化する時間)をt2yとする。そして時間差を数6のTdによって算出する。音と映像の組み合わせの中で、時間差Tdが小さほど対応していると考えて、音と映像の対応付けを行なう。
Figure 0005618043
尚、スタート時間だけを比較することで対応付けを行なうことも可能である。この場合には、数6に示す時間差Td2を用いて時間差を算出する。
他のAV信号相関照合部65における相関値の計算方法を示す。
AV相関照合部65は、動き検出部64からの映像動きパターン(フレーム間差分)と、音声区間検出部67からの音声区間パターンとを入力する。そして、映像のフレーム間差分の積分値の時系列動きパターンM221と、音響オブジェクトの音声信号パワーJ222とを求める。図19に、映像のフレーム間差分の積分値の時系列動きパターンM221と、音響オブジェクトの音声信号パワーJ222との一例を示す。
このとき、映像オブジェクトと音響オブジェクトとの時刻aからT時間における相関値S2は、予め決められた時間間隔Tを用いて、数7を用いて算出することができる。
Figure 0005618043
また、数8のS3のように、MとJとの相関係数を相関値として算出することもできる。
Figure 0005618043
そして、音と映像の組み合わせの中から、相関値Sが大きい組み合わせを選択することによって対応付けを行なう。
尚、上述したAV相関照合部65における相関値の計算方法において、動きパターンを映像オブジェクトの動きベクトルから算出するようにしても良い。
この場合、図20に示すように、時刻tから時刻t+1までの、映像オブジェクトの動きベクトルを求める。動きベクトルの算出方法として、テンプレートマッチング法などがある。これは時刻tでオブジェクトが占める部分領域画像をテンプレートとし、t+1の映像中から類似パターンが存在する位置をテンプレートマッチングで探索する方法である。これにより、映像オブジェクトの時刻tからt+1の動きベクトルを算出することができる。次に、動きベクトル233の長さを求める。本実施の形態では、動きベクトルの長さを、上述したフレーム間差分の積分値に置き換えて動きパターンを生成し、相関値を算出する。
尚、上述した実施の形態では各部をハードウェアで構成したが、プログラムで動作するCPU等の情報処理装置で構成しても良い。この場合、プログラムは、上述した動作をCPU等に実行させる。
以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。
1 カメラ
2 マイク
3 映像データ記憶部
4 注目領域指定部
5 音源位置推定部
6 仮想視聴点算出部
7 映像注目部
8 音響合成部
9 映像音響処理部
11 伝送部
21 音源位置推定部
22 ビデオオブジェクト分離部
23 オーディオオブジェクト分離部
24 統合部
25 AV対応付け部
26 3次元位置推定部
31 音源位置推定部
32 ビデオオブジェクト分離部
33 オーディオオブジェクト分離部
34 映像種類判別部
35 音響種類判別部
36 AV種類照合部
37 3次元位置推定部
41 音源位置推定部
42 ビデオオブジェクト分離部
43 オーディオオブジェクト分離部
44 映像種類判別部
45 3次元位置推定部
51 音源位置推定部
52 オーディオオブジェクト分離部
53 ビデオオブジェクト分離部
54 音響種類判別部
55 3次元位置推定部
61 音源位置推定部
62 オーディオオブジェクト分離部
63 人物検出部
64 動き検出部
65 AV相関照合部
66 3次元位置推定部
67 音声区間検出部

Claims (13)

  1. コンテンツのオーディオ信号からオーディオオブジェクトを分離し、前記コンテンツの映像信号からビデオオブジェクトを分離し、前記ビデオオブジェクトと前記オーディオオブジェクトとを対応付け、音源となるビデオオブジェクトの3次元空間の位置を算出することにより、音源の音源位置と前記音源位置に対応した音源信号とを算出する音源位置推定部と、
    前記映像中の指定した注目領域に視聴者が注目した場合における視聴者の仮想視聴位置を算出する仮想視聴点算出部と、
    前記音源位置と前記音源信号とに基づいて、前記仮想視聴位置を聴点位置とする音響信号を合成する音響合成部と
    を有し、
    前記仮想視聴点算出部は、前記映像中の各ビデオオブジェクトの原視聴位置からの距離のうち、前記原視聴位置から最も近い距離に、前記注目領域が存在する仮想平面を想定し、原視聴位置を中心とする3次元空間における前記仮想視聴位置の位置を算出する
    映像音響処理システム。
  2. 前記音源位置推定部は、
    映像信号からビデオオブジェクトを分離するビデオオブジェクト分離部と、
    オーディオ信号からオーディオオブジェクトを分離するオーディオオブジェクト分離部と、
    前記ビデオオブジェクトと前記オーディオオブジェクトとを対応付け、前記ビデオオブジェクトと対応する前記オーディオオブジェクトの信号を音源信号として出力する対応付け部と、
    前記対応付けされたビデオオブジェクトの3次元空間の位置を算出し、算出されたビデオオブジェクトの3次元空間の位置に基づいて、前記ビデオオブジェクトに対応するオーディオオブジェクトの3次元位置を算出し、この位置を音源位置として出力する3次元位置推定部と
    を有する請求項1に記載の映像音響処理システム。
  3. 前記音源位置推定部は、
    映像信号からビデオオブジェクトを分離するビデオオブジェクト分離部と、
    オーディオ信号からオーディオオブジェクトを分離するオーディオオブジェクト分離部と、
    前記分離されたビデオオブジェクトの種類を判別する映像判別部と、
    前記分離されたオーディオオブジェクトの種類を判別する音響種類判別部と、
    前記ビデオオブジェクトの種類と前記オーディオオブジェクトの種類とを照合して対応付けを行い、前記ビデオオブジェクトと対応する前記オーディオオブジェクトの信号を音源信号として出力するAV種類照合部と、
    前記照合されたビデオオブジェクトの3次元空間内の位置を算出し、算出されたビデオオブジェクトの3次元空間の位置に基づいて、前記ビデオオブジェクトに対応するオーディオオブジェクトの3次元空間の位置を算出し、この位置を音源位置として出力する3次元位置推定部と
    を有する請求項1に記載の映像音響処理システム。
  4. 前記音源位置推定部は、
    映像信号からビデオオブジェクトを分離するビデオオブジェクト分離部と、
    前記分離されたビデオオブジェクトの種類を判別し、音源となりうるビデオオブジェクトを判別する映像判別部と、
    前記音源となりうるビデオオブジェクトの3次元空間の位置を算出し、この3次元空間内の位置をオーディオオブジェクトの3次元空間の位置として算出し、この位置を音源位置として出力する3次元位置推定部と、
    オーディオ信号と、前記音源となりうるビデオオブジェクトの3次元空間の位置とを用いて、オーディオオブジェクトを分離し、分離したオーディオオブジェクトの信号を音源信号として出力するオーディオオブジェクト分離部と
    を有する請求項1に記載の映像音響処理システム。
  5. 前記音源位置推定部は、
    オーディオ信号からオーディオオブジェクトを分離するオーディオオブジェクト分離部と、
    前記オーディオオブジェクトの種類を判別する音響種類判別部と、
    ビデオ信号と前記オーディオオブジェクトの種類とを用いて、ビデオオブジェクトを分離するビデオオブジェクト分離部と、
    前記ビデオオブジェクトの3次元空間の位置を算出し、この3次元空間内の位置をオーディオオブジェクトの3次元空間の位置として算出し、この位置を音源位置として出力する3次元位置推定部と
    を有する請求項1に記載の映像音響処理システム。
  6. 前記音源位置推定部は、
    オーディオ信号からオーディオオブジェクトを分離するオーディオオブジェクト分離部と、
    前記オーディオオブジェクト信号から音声区間を検出する音声区間検出部と、
    ビデオ信号からビデオオブジェクトとして人物領域を検出する人物検出部と、
    前記人物領域内の動き量を算出する動き検出部と、
    前記音声区間と、前記動き量との相関を用いてオーディオオブジェクトとビデオオブジェクトとを照合して対応付し、対応付けられたオーディオオブジェクトの信号を音源信号として出力するAV相関照合部と、
    前記ビデオオブジェクトの3次元空間の位置を算出し、この3次元空間内の位置をオーディオオブジェクトの3次元空間の位置として算出し、この位置を音源位置として出力する3次元位置推定部と
    を有する請求項1に記載の映像音響処理システム。
  7. 映像中の前記注目領域を指定する注目領域指定部を有する請求項1から請求項のいずれかに記載の映像音響処理システム。
  8. コンテンツのオーディオ信号からオーディオオブジェクトを分離し、前記コンテンツの映像信号からビデオオブジェクトを分離し、前記ビデオオブジェクトと前記オーディオオブジェクトとを対応付け、音源となるビデオオブジェクトの3次元空間の位置を算出することにより、音源の音源位置と前記音源位置に対応する音源信号とを算出し、
    前記映像中の指定した注目領域に視聴者が注目した場合における視聴者の仮想視聴位置を算出し、
    前記音源位置と前記音源信号とに基づいて、前記仮想視聴位置を聴点位置とする音響信号を合成し、
    前記仮想視聴点の算出は、前記映像中の各ビデオオブジェクトの原視聴位置からの距離のうち、前記原視聴位置から最も近い距離に、前記注目領域が存在する仮想平面を想定し、原視聴位置を中心とする3次元空間における前記仮想視聴位置の位置を算出する
    映像音響処理方法。
  9. 前記音源位置の推定は、
    映像信号からビデオオブジェクトを分離し、
    オーディオ信号からオーディオオブジェクトを分離し、
    前記ビデオオブジェクトと前記オーディオオブジェクトとを対応付け、前記ビデオオブジェクトと対応する前記オーディオオブジェクトの信号を音源信号として算出し、
    前記対応付けされたビデオオブジェクトの3次元空間の位置を算出し、算出されたビデオオブジェクトの3次元空間の位置に基づいて、前記ビデオオブジェクトに対応するオーディオオブジェクトの3次元位置を算出し、この位置を音源位置とする
    請求項8に記載の映像音響処理方法。
  10. 前記音源位置の推定は、
    映像信号からビデオオブジェクトを分離し、
    オーディオ信号からオーディオオブジェクトを分離し、
    前記分離されたビデオオブジェクトの種類を判別し、
    前記分離されたオーディオオブジェクトの種類を判別し、
    前記ビデオオブジェクトの種類と前記オーディオオブジェクトの種類とを照合して対応付けを行い、前記ビデオオブジェクトと対応する前記オーディオオブジェクトの信号を音源信号とし、
    前記照合されたビデオオブジェクトの3次元空間内の位置を算出し、算出されたビデオオブジェクトの3次元空間の位置に基づいて、前記ビデオオブジェクトに対応するオーディオオブジェクトの3次元空間の位置を算出し、この位置を音源位置とする
    請求項8に記載の映像音響処理方法。
  11. 前記音源位置の推定は、
    映像信号からビデオオブジェクトを分離し、
    前記分離されたビデオオブジェクトの種類を判別し、音源となりうるビデオオブジェクトを判別し、
    前記音源となりうるビデオオブジェクトの3次元空間の位置を算出し、この3次元空間内の位置をオーディオオブジェクトの3次元空間の位置として算出し、この位置を音源位置とし、
    オーディオ信号と、前記音源となりうるビデオオブジェクトの3次元空間の位置とを用いて、オーディオオブジェクトを分離し、分離したオーディオオブジェクトの信号を音源信号とする
    請求項8に記載の映像音響処理方法。
  12. 前記音源位置の推定は、
    オーディオ信号からオーディオオブジェクトを分離し、
    前記オーディオオブジェクトの種類を判別し、
    ビデオ信号と前記オーディオオブジェクトの種類とを用いて、ビデオオブジェクトを分離し、
    前記ビデオオブジェクトの3次元空間の位置を算出し、この3次元空間内の位置をオーディオオブジェクトの3次元空間の位置として算出し、この位置を音源位置とする
    請求項8に記載の映像音響処理方法。
  13. 前記音源位置の推定は、
    オーディオ信号からオーディオオブジェクトを分離し、
    前記オーディオオブジェクト信号から音声区間を検出し、
    ビデオ信号からビデオオブジェクトとして人物領域を検出し、
    前記人物領域内の動き量を算出し、
    前記音声区間と、前記動き量との相関を用いてオーディオオブジェクトとビデオオブジェクトとを照合して対応付し、対応付けられたオーディオオブジェクトの信号を音源信号として算出し、
    前記ビデオオブジェクトの3次元空間の位置を算出し、この3次元空間内の位置をオーディオオブジェクトの3次元空間の位置として算出し、この位置を音源位置とする
    請求項8に記載の映像音響処理方法。
JP2009220199A 2009-09-25 2009-09-25 映像音響処理システム、映像音響処理方法及びプログラム Active JP5618043B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009220199A JP5618043B2 (ja) 2009-09-25 2009-09-25 映像音響処理システム、映像音響処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009220199A JP5618043B2 (ja) 2009-09-25 2009-09-25 映像音響処理システム、映像音響処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2011071685A JP2011071685A (ja) 2011-04-07
JP5618043B2 true JP5618043B2 (ja) 2014-11-05

Family

ID=44016535

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009220199A Active JP5618043B2 (ja) 2009-09-25 2009-09-25 映像音響処理システム、映像音響処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5618043B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4080907A4 (en) * 2019-12-18 2023-06-21 Sony Group Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012143745A1 (en) * 2011-04-21 2012-10-26 Sony Ericsson Mobile Communications Ab Method and system for providing an improved audio experience for viewers of video
CN104025188B (zh) * 2011-12-29 2016-09-07 英特尔公司 声学信号修改
KR101674187B1 (ko) * 2015-06-11 2016-11-09 서울과학기술대학교 산학협력단 광대역 보간법을 위한 입체음향 획득 장치 및 그 방법
JP6507946B2 (ja) 2015-08-31 2019-05-08 富士通株式会社 映像音声再生装置、映像音声再生方法、及びプログラム
US10235010B2 (en) 2016-07-28 2019-03-19 Canon Kabushiki Kaisha Information processing apparatus configured to generate an audio signal corresponding to a virtual viewpoint image, information processing system, information processing method, and non-transitory computer-readable storage medium
JP6664456B2 (ja) * 2018-09-20 2020-03-13 キヤノン株式会社 情報処理システム及びその制御方法、コンピュータプログラム
JP7116424B2 (ja) * 2019-03-06 2022-08-10 Kddi株式会社 画像に応じて音オブジェクトを混合するプログラム、装置及び方法
WO2022065981A1 (ko) * 2020-09-28 2022-03-31 삼성전자 주식회사 동영상 처리 장치 및 방법

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002369129A (ja) * 2001-06-06 2002-12-20 Canon Inc 画像処理装置、画像処理方法、画像処理プログラム及び画像処理プログラムが記憶されたコンピュータにより読み取り可能な記憶媒体
JP2003032776A (ja) * 2001-07-17 2003-01-31 Matsushita Electric Ind Co Ltd 再生システム
JP2003284196A (ja) * 2002-03-20 2003-10-03 Sony Corp 音像定位信号処理装置および音像定位信号処理方法
JP4295470B2 (ja) * 2002-05-08 2009-07-15 日本放送協会 コンテンツ提供システム、コンテンツ受信装置、コンテンツ提供方法、コンテンツ受信方法、コンテンツ提供プログラムおよびコンテンツ受信プログラム
JP2003348700A (ja) * 2002-05-28 2003-12-05 Victor Co Of Japan Ltd 臨場感信号の生成方法、及び臨場感信号生成装置
JP2005005949A (ja) * 2003-06-11 2005-01-06 Matsushita Electric Ind Co Ltd 伝達関数補間方法
JP2005295181A (ja) * 2004-03-31 2005-10-20 Victor Co Of Japan Ltd 音声情報生成装置
JP2006128818A (ja) * 2004-10-26 2006-05-18 Victor Co Of Japan Ltd 立体映像・立体音響対応記録プログラム、再生プログラム、記録装置、再生装置及び記録メディア
JP4853149B2 (ja) * 2005-09-14 2012-01-11 ソニー株式会社 画像処理装置、画像表示装置、画像処理方法、プログラムおよび記録媒体
JP4940671B2 (ja) * 2006-01-26 2012-05-30 ソニー株式会社 オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
JP2007266967A (ja) * 2006-03-28 2007-10-11 Yamaha Corp 音像定位装置およびマルチチャンネルオーディオ再生装置
JP5230096B2 (ja) * 2006-12-27 2013-07-10 キヤノン株式会社 映像音声出力装置及び映像音声出力方法
JP2009038605A (ja) * 2007-08-01 2009-02-19 Sony Corp 音声信号生成装置、音声信号生成方法、音声信号生成プログラム並びに音声信号を記録した記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4080907A4 (en) * 2019-12-18 2023-06-21 Sony Group Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD

Also Published As

Publication number Publication date
JP2011071685A (ja) 2011-04-07

Similar Documents

Publication Publication Date Title
JP5618043B2 (ja) 映像音響処理システム、映像音響処理方法及びプログラム
US9749738B1 (en) Synthesizing audio corresponding to a virtual microphone location
US10045120B2 (en) Associating audio with three-dimensional objects in videos
US10074012B2 (en) Sound and video object tracking
CN109313904B (zh) 视频音频处理设备和方法以及存储介质
JP6464449B2 (ja) 音源分離装置、及び音源分離方法
JP4973188B2 (ja) 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム
US20180295463A1 (en) Distributed Audio Capture and Mixing
JP7347597B2 (ja) 動画編集装置、動画編集方法及びプログラム
GB2414369A (en) Processing audio data
TWI588590B (zh) 影像產生系統及影像產生方法
Oldfield et al. Object-based audio for interactive football broadcast
JP7469235B2 (ja) 音源の位置特定
US20190155483A1 (en) Information processing apparatus, configured to generate an audio signal corresponding to a virtual viewpoint image, information processing system, information processing method, and non-transitory computer-readable storage medium
JP2011205599A (ja) 信号処理装置
KR101244789B1 (ko) 3차원 재구성을 이용한 디지털 만화 콘텐츠 생성 방법
CN108781310A (zh) 使用视频的图像来选择要增强的视频的音频流
JP2008197650A (ja) 音データ記録再生装置および音データ記録再生方法
JP5435221B2 (ja) 音源信号分離装置、音源信号分離方法及びプログラム
Arnaud et al. The CAVA corpus: synchronised stereoscopic and binaural datasets with head movements
JP6016277B2 (ja) 映像音響処理システム、映像音響処理方法及びプログラム
JP2005295181A (ja) 音声情報生成装置
EP4080907A1 (en) Information processing device and information processing method
JP6456171B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2008090570A (ja) 情報処理装置及び情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120806

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131004

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131016

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140604

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140731

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140820

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140902

R150 Certificate of patent or registration of utility model

Ref document number: 5618043

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150