JP7338627B2

JP7338627B2 - 情報処理装置および方法、並びにプログラム

Info

Publication number: JP7338627B2
Application number: JP2020532274A
Authority: JP
Inventors: 直也高橋
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-07-24
Filing date: 2019-07-10
Publication date: 2023-09-05
Anticipated expiration: 2039-07-10
Also published as: CN112425157A; US20210281739A1; US11431887B2; EP3829161B1; JPWO2020022055A1; KR20210038537A; EP3829161A4; EP3829161A1; WO2020022055A1

Description

本技術は、情報処理装置および方法、並びにプログラムに関し、特に、音声付動画像から所望のオブジェクトを抽出することができるようにした情報処理装置および方法、並びにプログラムに関する。

音声が付随している動画像である音声付動画像から、音を発するオブジェクトを抽出することができれば、その抽出結果を様々な処理に利用することができ、便利である。

例えば音声付動画像再生時において、動画像上のあるオブジェクト（物体）を対象としてフォーカスを行ったり、オブジェクトを中心に拡大やトリミングを行ったりすることが考えられる。そのような場合に、音声付動画像の音声についても、フォーカスや拡大、トリミングなどの画像処理が行われたオブジェクトから発せられた音を強調したり、その音のみを抽出して再生したりしたいという要求がある。

また、例えば所望の音を強調する技術として、マイクアレイを用いてオブジェクト（物体）のある方向の音声を強調する技術が提案されている（例えば、特許文献１参照）。

特開２０１４－５０００５号公報

しかしながら、上述した技術では音声付動画像から所望のオブジェクトの画像領域や音を抽出することは困難であった。

例えば特許文献１に記載の技術では、音を発する物体が空間上の同方向に複数ある場合には、所望の物体に音をフォーカスすることができない。すなわち、それらの同方向にある複数の物体（オブジェクト）のなかから、所望の物体の音のみを抽出することはできない。

また、特許文献１に記載の技術では動画像上の位置の選択により物体の選択を近似しているため、人物A、車、ギターといった概念ベースでのオブジェクトの選択を行うことができない。例えばユーザが音声認識インターフェースで「赤いシャツの女の子にフォーカスして」などと指示をしたくても赤いシャツの女の子がオブジェクトとして定義され、そのオブジェクトに対応する画像領域と音が定義されていないと、このようなコマンドに応えることは困難である。

したがって、例えばオブジェクトの音に基づいて、そのオブジェクトにフォーカスするなど、特定の音を発するオブジェクトにフォーカスを行うことができなかった。

本技術は、このような状況に鑑みてなされたものであり、音声付動画像から所望のオブジェクトを抽出することができるようにするものである。

本技術の一側面の情報処理装置は、音声付動画像に基づいて画像オブジェクトを検出する画像オブジェクト検出部と、前記音声付動画像に基づいて音オブジェクトを検出する音オブジェクト検出部と、前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトを検出する音画像オブジェクト検出部とを備え、前記音オブジェクト検出部は、前記画像オブジェクトの検出結果に基づく複数の前記音オブジェクトの同時発生確率に基づいて、検出対象とする前記音オブジェクトの絞り込みを行う。

本技術の一側面の情報処理方法またはプログラムは、音声付動画像に基づいて画像オブジェクトを検出し、前記音声付動画像に基づいて音オブジェクトを検出し、前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトを検出するステップを含み、前記画像オブジェクトの検出結果に基づく複数の前記音オブジェクトの同時発生確率に基づいて、検出対象とする前記音オブジェクトの絞り込みを行う。

本技術の一側面においては、音声付動画像に基づいて画像オブジェクトが検出され、前記音声付動画像に基づいて音オブジェクトが検出され、前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトが検出される。また、前記画像オブジェクトの検出結果に基づく複数の前記音オブジェクトの同時発生確率に基づいて、検出対象とする前記音オブジェクトの絞り込みが行われる。

本技術の一側面によれば、音声付動画像から所望のオブジェクトを抽出することができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

再生装置の構成例を示す図である。音画像オブジェクト抽出部の構成例を示す図である。音オブジェクト検出器の構成例を示す図である。音画像オブジェクトの選択について説明する図である。再生処理を説明するフローチャートである。本技術のユースケースについて説明する図である。本技術のユースケースについて説明する図である。本技術のユースケースについて説明する図である。本技術のユースケースについて説明する図である。本技術のユースケースについて説明する図である。本技術のユースケースについて説明する図である。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
本技術は、音声付動画像から音オブジェクトと画像オブジェクトを検出し、それらの検出結果に基づいて音画像オブジェクトを検出することで、音声付動画像から所望のオブジェクトの画像領域と音、つまり音画像オブジェクトを抽出できるようにするものである。

ここで、音声付動画像とは、動画像と、その動画像に付随する音声とから構成されるものである。以下では、音声付動画像を構成する動画像を単に音声付動画像とも称することとする。また、音オブジェクトとは、音声付動画像の音声の音源となる物体等のオブジェクトであり、画像オブジェクトとは、音声付動画像上の被写体として写っている物体等のオブジェクトである。また、音画像オブジェクトとは、音声付動画像の音オブジェクトでもあり、かつ画像オブジェクトでもあるオブジェクトである。

本技術では、音画像オブジェクトの検出時には、まず画像オブジェクトと音オブジェクトが個別に検出される。

このとき、画像オブジェクトの検出には音オブジェクトの検出結果や音響イベントの検出結果など、音声付動画像の音情報も適宜利用することができる。このようにすれば、音声付動画像を構成する動画像が暗く、輝度が不足していたり、被写体が不鮮明であったり、被写体の大部分が隠れているなどの状況でも画像オブジェクトを検出することができる。

また、音オブジェクトの検出には音源分離が利用される。これにより、１つの方向に複数の音源がある場合でも音源の種類に応じて各音源の音を分離することができる。すなわち、より確実に音オブジェクトを検出および抽出することができる。

なお、ここでは音オブジェクトの検出に音源分離が用いられる例について説明するが、その他、マイクアレイを用いた指向性制御等の音源方向の検出技術などを組み合わせてもよい。

しかし指向性制御を単純に音源分離に置き換えることはできない。これは音源分離には、どのような種類の音源の音を分離抽出するかという事前知識と、その音源に対するモデルが必要となり、モデルの構築にも音量差や位相差、音響特徴量以上の情報、つまりより多くの情報が必要となるからである。

さらに、音オブジェクトの検出時に画像オブジェクトの検出結果等の画像情報を用いるようにしてもよい。例えば画像オブジェクトの検出結果を用いれば、音オブジェクトの検出時に音源（音オブジェクト）のある方向や音源の種類などを絞り込むことができる。

その他、画像オブジェクトや音オブジェクトの検出には、画像オブジェクトや音オブジェクトについての同時発生確率を利用してもよい。そのような場合、例えば所定の画像オブジェクトが存在するときに、複数の各音オブジェクトが同時に観測される確率、すなわち同時発生確率を推定するモデルが事前に学習され、同時発生確率が利用されて検出対象とする音オブジェクトの絞り込みが行われる。

画像オブジェクトと音オブジェクトが検出されると、それらの検出結果に基づいて音画像オブジェクトが検出される。

具体的には、本技術では検出された画像オブジェクトと音オブジェクトの対応付けを行うことで音画像オブジェクトが検出される。

画像オブジェクトと音オブジェクトの対応付けでは、例えば画像オブジェクトや音オブジェクトの事前知識や空間上の位置情報などを利用すれば、位置情報に応じて、各位置にある画像オブジェクトと音オブジェクトとを正しく対応付けることができる。また、画像オブジェクトと音オブジェクトの対応付けでは、同方向にある音源も個別にオブジェクト化することが可能である。

具体的には、例えば学習により得られたニューラルネットワーク等が予め用意され、そのニューラルネットワーク等により音オブジェクトと画像オブジェクトの対応付けを行うようにすることができる。

このとき、例えば音オブジェクトの事前知識（事前情報）から、その音オブジェクトの位置に対応する画像オブジェクトがラベル付け（対応付け）されたり、逆に画像オブジェクトの事前知識から、その画像オブジェクトの位置に対応する音オブジェクトがラベル付け（対応付け）されたりする。

その他、画像オブジェクトと音オブジェクトの共起確率を事前に学習しておき、その共起確率を音画像オブジェクトの検出に利用してもよい。

以上のようにして１または複数の音画像オブジェクトが検出されると、それらの音画像オブジェクトのうちの任意のものを選択し、選択した音画像オブジェクトに基づく処理を実行させることが可能となる。

音画像オブジェクトの選択方法は、ユーザにより指定されてもよいし、機器側で自動的に選択されてもよい。

例えばユーザが音画像オブジェクトを選択（指定）する場合には、ユーザはマウス等の入力操作機器による入力操作や音声認識を利用した音声入力により、音画像オブジェクト単位で所望の音画像オブジェクトを選択することができる。

また、VR（Virtual Reality）、AR（Augmented Reality）、MR（Mixed Reality）などにおいて、事前に登録された所定の音画像オブジェクトが選択されるようにしてもよい。この場合、例えば人の声や特定の音響イベント、特定の物体（オブジェクト）などに対応する音画像オブジェクトが選択されることになる。

その他、VR、AR、MRなどにおいて、ユーザの注視位置が検出され、その注視位置にある音画像オブジェクトが選択されるようにしてもよいし、カメラ等においてAF（Auto Focus）によりピントが合っている音画像オブジェクトが選択されるようにしてもよい。

また、選択された音画像オブジェクトに基づく処理は、どのような処理であってもよいが、フォーカス処理や除去処理、通知処理、シャッタ動作制御処理などが考えられる。

例えばフォーカス処理では、ARやライトフィールドカメラにおいて、選択された音画像オブジェクトの画像領域がフォーカスされるように強調処理や画像合成等が行われ、同時にその選択された音画像オブジェクトの音声が強調されるようにすることができる。

また、例えば除去処理では、ARにおいて特定の人を消去するなど、選択された音画像オブジェクトが音声付動画像上から除去され、その音画像オブジェクトの音声も除去されるようにすることができる。

さらに通知処理では、例えばARにおいて、選択された音画像オブジェクトが、注目すべきオブジェクトであることをユーザに通知することができる。その他、シャッタ動作制御処理では、カメラにおいて、選択された音画像オブジェクトが特性の音を発したときにシャッタ動作を行い、画像を撮像するように制御することができる。

〈再生装置の構成例〉
それでは、以下、上述した本技術について、さらに詳細に説明する。

図１は、本技術を適用した再生装置の一実施の形態の構成例を示す図である。

図１に示す再生装置１１は、例えばパーソナルコンピュータやヘッドマウントディスプレイ、ゲーム機器、スマートホン、カメラ、スマートスピーカ、ロボットなど、音声付動画像を処理することのできる情報処理装置からなる。

再生装置１１は音画像オブジェクト抽出部２１、音画像オブジェクト選択部２２、動画像処理部２３、入力部２４、メモリ２５、表示画像生成部２６、表示部２７、およびスピーカ２８を有している。

音画像オブジェクト抽出部２１は、供給された音声付動画像から音画像オブジェクトを検出することで、音声付動画像から音画像オブジェクトを抽出し、その抽出結果を音画像オブジェクト選択部２２、動画像処理部２３、およびメモリ２５に供給する。

ここでは音画像オブジェクトの抽出結果として、例えば音声付動画像のフレームごとに、各音画像オブジェクトの音画像オブジェクト情報が出力される。この音画像オブジェクト情報には、例えば画像領域情報や分離音、種別情報などが含まれている。

画像領域情報は、音声付動画像上における音画像オブジェクトの画像領域、つまり音画像オブジェクトの画像であり、分離音は音画像オブジェクトの音声、より詳細には音画像オブジェクトの音の音声信号である。また、種別情報は音画像オブジェクトの種類（種別）を示す情報である。

一般的に、音声付動画像の音声からは複数の音源（オブジェクト）から発せられた音が混合されて観測されるが、音画像オブジェクト抽出部２１では、対象となる音画像オブジェクトの音のみが分離（抽出）され、分離音として出力される。

音画像オブジェクト選択部２２は、入力部２４から供給された信号に応じて、音画像オブジェクト抽出部２１から供給された音画像オブジェクトの抽出結果に基づいて、抽出された１または複数の音画像オブジェクトのなかから、所望の１または複数の音画像オブジェクトを選択し、その選択結果を動画像処理部２３に供給する。

動画像処理部２３は、入力部２４から供給された信号や音画像オブジェクト選択部２２から供給された選択結果、音画像オブジェクト抽出部２１から供給された抽出結果に応じて、外部から供給された音声付動画像に対して音画像オブジェクトに基づく処理を行う。

動画像処理部２３は、音画像オブジェクトに基づく処理として画像処理が行われた場合には、その画像処理後の音声付動画像を表示画像生成部２６に供給する。

また、例えば再生装置１１がカメラ等の撮像機能を有する機器である場合には、動画像処理部２３が音画像オブジェクトに基づく処理として、上述したシャッタ動作制御処理等を行うようにしてもよい。

入力部２４は、例えばボタンやスイッチ、表示部２７に重畳して設けられたタッチパネル、音声認識に用いるマイクロフォンなどの各種の入力装置からなる。入力部２４は、ユーザの操作や音声入力等に応じた信号を音画像オブジェクト選択部２２や動画像処理部２３、表示画像生成部２６に供給する。

メモリ２５は、音画像オブジェクト抽出部２１から供給された抽出結果を一時的に保持し、保持している抽出結果を適宜、表示画像生成部２６に供給する。

表示画像生成部２６は、入力部２４から供給された信号に応じて、メモリ２５に保持されている抽出結果と、動画像処理部２３から供給された画像処理後の音声付動画像とに基づいて、再生用の画像と音声である表示画像および再生用音声を生成する。

表示画像生成部２６は、生成した表示画像、より詳細には表示画像の画像データを表示部２７に供給して表示画像を表示させるとともに、生成した再生用音声、より詳細には再生用音声の音声データをスピーカ２８に供給して再生用音声を再生（出力）させる。

表示部２７は、例えば液晶表示パネルなどからなり、表示画像生成部２６から供給された表示画像を表示する。スピーカ２８は、表示画像生成部２６から供給された再生用音声を出力する。

〈音画像オブジェクト抽出部の構成例〉
また、再生装置１１における音画像オブジェクト抽出部２１は、例えば図２に示すように構成される。

図２に示す例では音画像オブジェクト抽出部２１は、画像オブジェクト検出器５１、音オブジェクト検出器５２、および音画像オブジェクト検出器５３を有している。

画像オブジェクト検出器５１は、音オブジェクト検出器５２から供給された、音響イベントや音オブジェクトの検出結果を適宜用いて、外部から供給された音声付動画像から画像オブジェクトを検出する。すなわち、画像オブジェクト検出器５１では、音声付動画像を構成する動画像から画像オブジェクトの画像領域が検出される。

画像オブジェクト検出器５１は、画像オブジェクトの検出結果を音オブジェクト検出器５２および音画像オブジェクト検出器５３に供給する。なお、画像オブジェクト検出器５１における画像オブジェクトの検出では、音声付動画像を構成する動画像だけでなく、音声付動画像を構成する音声も用いられるようにしてもよい。

音オブジェクト検出器５２は、画像オブジェクト検出器５１から供給された画像オブジェクトの検出結果を適宜用いて、外部から供給された音声付動画像から音オブジェクトを検出し、その検出結果を音画像オブジェクト検出器５３に供給する。音オブジェクトの検出には音声付動画像の音声だけでなく、音声付動画像を構成する動画像も適宜用いられる。

また、音オブジェクト検出器５２は、音声付動画像から音響イベントの検出も行う。音オブジェクト検出器５２は、音オブジェクトや音響イベントの検出結果を適宜、画像オブジェクト検出器５１に供給する。

なお、より詳細には音オブジェクト検出器５２では、音オブジェクトを検出することにより、検出された音オブジェクトの音声（分離音）が音声付動画像の音声から抽出される。

音画像オブジェクト検出器５３は、画像オブジェクト検出器５１から供給された検出結果と、音オブジェクト検出器５２から供給された検出結果とに基づいて音画像オブジェクトを検出する。ここでは、画像オブジェクトと音オブジェクトとの対応付けを行うことで、音画像オブジェクトが検出される。

また、音画像オブジェクト検出器５３は、画像オブジェクトの検出結果と音オブジェクトの検出結果とから、検出された音画像オブジェクトの音画像オブジェクト情報を生成することで、音声付動画像から音画像オブジェクトを抽出する。音画像オブジェクト検出器５３は、音画像オブジェクトの抽出結果として得られた音画像オブジェクト情報を音画像オブジェクト選択部２２、動画像処理部２３、およびメモリ２５に供給する。

なお、音画像オブジェクトは画像オブジェクトであり、かつ音オブジェクトでもあるオブジェクトである。しかし、所定のフレームにおいて画像オブジェクトであるが、音オブジェクトではないものが無音の音画像オブジェクトとされてもよい。

すなわち、過去のフレームにおいては音画像オブジェクトとされていた画像オブジェクトについて、現フレームでは対応する音オブジェクトがない場合でも、現フレームにおいて、その画像オブジェクトが無音の音画像オブジェクトとされるようにしてもよい。

これは、例えば所定のフレームにおいては対応する音オブジェクトは検出されなかったが、過去のフレームにおいては対応する音オブジェクトが検出された画像オブジェクトも音画像オブジェクトとして扱われるべきだからである。なお、複数のフレーム間で、どの画像オブジェクトが互いに対応するものであるかについては、トラッキングなどにより特定することが可能である。

同様に、音画像オブジェクトがあるフレームにおいては、何らかの遮蔽物等に隠れて見えなくなることもある。そこで過去のフレームにおいては音画像オブジェクトとされていた音オブジェクトについて、現フレームでは対応する画像オブジェクトがない場合でも、現フレームにおいて、その音オブジェクトが音画像オブジェクトとされてもよい。

その他、対応する音オブジェクトのない画像オブジェクトや、対応する画像オブジェクトのない音オブジェクトが背景画像や背景音のオブジェクト、つまり背景オブジェクトとして分類されるようにしてもよい。

また、図２では、画像オブジェクトの検出結果と、音オブジェクトの検出結果とに基づいて音画像オブジェクト検出器５３が音画像オブジェクトを検出する例について説明したが、音画像オブジェクト検出器５３が、音声付動画像を入力として音画像オブジェクトを検出するように構成することも可能である。

しかし、音声付動画像を入力として音画像オブジェクト検出器５３で音画像オブジェクトを検出するよりも、図２の例のように音画像オブジェクト検出器５３の前段に画像オブジェクト検出器５１と音オブジェクト検出器５２を設けた方が高精度に音画像オブジェクトを検出することが可能である。

〈音オブジェクト検出器の構成例〉
さらに音オブジェクト検出器５２は、例えば図３に示すように構成される。

図３に示す例では、音オブジェクト検出器５２は、音源分離部８１および音響イベント検出部８２を有している。

音源分離部８１は、画像オブジェクト検出器５１から供給された検出結果や、音響イベント検出部８２から供給された音響イベントの検出結果を適宜用いて、外部から供給された音声付動画像の音声に基づいて音源分離により音オブジェクトを検出する。音源分離部８１は、音オブジェクトの検出結果を音響イベント検出部８２および音画像オブジェクト検出器５３に供給する。なお、音オブジェクトの検出結果は、画像オブジェクト検出器５１にも供給されるようにしてもよい。

音響イベント検出部８２は、音源分離部８１から供給された検出結果を適宜用いて、外部から供給された音声付動画像の音声から特定の音響イベントを検出し、その検出結果を音源分離部８１および画像オブジェクト検出器５１に供給する。

〈再生装置の各部の動作について〉
次に、以上において説明した再生装置１１の各部の動作について、より詳細に説明する。

まず、音源分離部８１と音響イベント検出部８２について説明する。

例えば音源分離部８１は、ニューラルネットワークで構築することができる。

一般的にマイクロフォンで収録される音には、複数の音源から発せられた音が混合されている。つまり、マイクロフォンでは、複数の音源からの音が混合された状態で、それらの各音源からの音が観測される。そのため、音オブジェクトを抽出するには、混合音から目的とする音オブジェクトの音だけを分離する音源分離の技術が必要となる。

そこで音源分離部８１では、例えば「Multi-scale Multi-band DenseNets for Audio Source Separation, WASPAA2017」（以下、技術文献１と称する）などに記載された技術が利用されて音源分離が行われ、音オブジェクトの音声の検出および抽出が行われる。

すなわち、音源分離部８１がニューラルネットワークにより構成される場合、最終的に検出したい所望のオブジェクトが、音源分離で検出対象（抽出対象）となる音オブジェクトとされる。また、検出対象の音オブジェクトの音声と、それと同時に観測され得るその他の音声とを含む音声データがニューラルネットワークの学習用のデータとして予め用意される。

そして、そのような学習用の音声データが用いられて、それらの混合音から目的とするオブジェクトの音声が音オブジェクトの音声として推定されるようにニューラルネットワークの学習が行われる。特に学習時には、周波数領域で振幅スペクトルの推定二乗誤差を最小化するようにニューラルネットワークが学習される。

ニューラルネットワークでは、検出対象とするオブジェクトの種類が増えるにつれて、分離性能が低下することが考えられる。これは類似する音響特性を有するオブジェクト間で混乱が生じ、出力先が分散するためである。

そのような混乱が生じることを防止するために、音源分離部８１として機能するニューラルネットワークでの音源分離に画像情報を用いるようにしてもよい。ここで、画像情報は音声付動画像そのものであってもよいし、音声付動画像に対する画像物体認識の結果や、画像オブジェクトの検出結果などであってもよい。

例えば画像情報として、音声付動画像を構成する動画像に対する画像物体認識結果を用いることで、予め候補となる音オブジェクトの種類を絞り込むことができ、より高精度に音源分離を行うことができるようになる。

また、例えばマイクロフォンが複数あり、音声付動画像の音声が複数チャンネルの音声となる場合には、音による音源位置推定結果と、画像による画像物体位置推定結果とを照合し、方向ごとに音オブジェクトの絞り込みを行うようにしてもよい。

具体的には、例えば検出対象とするオブジェクト（音オブジェクト）の種類を示すインデックスをｉ（但し、ｉ＝1,…,N）とし、画像物体認識器でのオブジェクトの検出結果として得られた、ｉ番目のオブジェクトの存在確率をp_iとする。

この場合、音源分離部８１を構成するニューラルネットワークにおいて存在確率p_iが所定の閾値th以上であるオブジェクトの集合O＝｛i｜p_i＞th｝、または存在確率p_iが高い上位M個のオブジェクトの集合O’のみに限定して音源分離が行われるようにすればよい。

したがって、この場合、音オブジェクト検出器５２には音声付動画像を入力とし、N個の各オブジェクトの画像領域を音声付動画像から検出する、図示せぬ画像物体認識器が設けられることになる。

そして、音源分離部８１は、この画像物体認識器の出力である存在確率p_iと、音声付動画像の音声とを入力として、集合Oまたは集合O’に属す音オブジェクトのみを検出対象として、音声付動画像の音声から音オブジェクトを検出する。

この場合、音源分離部８１では、音声付動画像上に被写体として存在するオブジェクトのみが検出対象となるように、音オブジェクトの検出時にオブジェクトの種類に基づく絞り込みが行われることになる。

なお、画像物体認識器の出力である存在確率p_iに代えて、画像オブジェクト検出器５１の出力を用いることも可能である。この場合、音源分離部８１は、少なくとも画像オブジェクト検出器５１による画像オブジェクトの検出結果と、音声付動画像の音声とを入力として音源分離により音オブジェクトを検出（抽出）する。

その他、音オブジェクトの検出に画像オブジェクト検出器５１の出力を用いる場合、例えば音源分離部８１を構成するニューラルネットワークにおいて、画像オブジェクト検出器５１で検出された画像オブジェクトに対応する音オブジェクトの存在確率が大きくなるようにしてもよい。さらにこの場合、検出されなかった画像オブジェクトに対応する音オブジェクトの存在確率が大幅に小さくなるようにしてもよい。

また、音声付動画像の音声が複数チャンネルである場合、方向ごとに音オブジェクトの候補の絞り込みを行うことができる。

この場合、画像物体認識器や画像オブジェクト検出器５１での検出結果として得られた、画像オブジェクト（物体）の位置、つまり画像オブジェクトのある方向と、その位置における画像オブジェクトの存在確率p_iと、音声付動画像の音声とが音源分離部８１に入力される。

音源分離部８１では、入力された音声付動画像の音声から音オブジェクトの候補である音源の位置、つまり音源の方向が推定により得られるようになっている。そこで、音源分離部８１において、音源の方向ごとに、その音源の方向にある画像オブジェクトの存在確率p_iについての集合Oまたは集合O’に属すオブジェクトのみが検出対象とされて音オブジェクトが検出される。換言すれば、画像オブジェクトがある方向と音源がある方向との照合が行われ、画像オブジェクトの検出結果から、音源がある方向に存在している可能性が高いオブジェクトのみが検出対象とされる。

この場合、音声付動画像を構成する動画像上における画像オブジェクトの位置、つまり画像物体認識等による画像物体位置、および音オブジェクトとなる音源の位置に基づいて、検出対象とする音オブジェクトの絞り込みが行われることになる。

さらに、音声付動画像上に被写体として写っていない物体から発せられた音が収音されて、音声付動画像の音声に含まれている可能性もある。

そのような場合には、画像物体認識器や画像オブジェクト検出器５１の出力、つまり検出された画像オブジェクト（物体）に対して、その画像オブジェクトが存在するときに同時に観測される複数の音オブジェクトの同時発生確率q_jを推定するモデルを予め学習しておけばよい。

そうすれば、音源分離部８１において同時発生確率q_jも入力として用い、同時発生確率q_jに基づいて、検出対象とする音オブジェクトの絞り込みを行うことができる。

この場合、音オブジェクト検出器５２内には、例えばニューラルネットワークなどにより構成される図示せぬ同時発生確率q_jの推定用のモデルが設けられる。そして、そのモデルが、例えば画像オブジェクトの検出結果を入力として複数の音オブジェクトの同時発生確率q_jの推定を行い、その結果得られた同時発生確率q_jを音源分離部８１に供給する。

音源分離部８１は、画像オブジェクト検出器５１の検出結果としての存在確率p_iと、音声付動画像の音声と、モデルから供給された同時発生確率q_jとを入力として音源分離により音オブジェクトを検出する。

このとき、音オブジェクトの検出時には、同時発生確率q_jが高いオブジェクトが集合Oまたは集合O’に加えられたり、同時発生確率q_jが低いオブジェクトが集合Oまたは集合O’から除外されたりする。これにより、複数の音オブジェクトが同時に存在する確率である同時発生確率q_jに基づく、検出対象とする音オブジェクトの絞り込みが行われる。

また、同種類の音オブジェクトが複数存在し、それらの音オブジェクトが同時に音を発する場合、上述した技術文献１のように、オブジェクトの種類にのみ依存して音源分離を行う手法では、同じ種類の複数の音オブジェクトの音を分離することができない。

そこで、例えば音像の定位位置を示す定位情報、音源の独立性、周波数領域上でのスパース性などを用いたビームフォーミング、独立成分分析、クラスタリングベースの手法、パーミュテーションフリーな学習により得られたニューラルネットワーク等により音源分離部８１が構成されるようにしてもよい。なお、定位情報には画像情報を用いることができる。

また、音響イベント検出部８２は、例えばニューラルネットワークなどからなり、供給された音声付動画像の音声から特定の音響イベントを検出し、その検出結果である音響イベント情報を画像オブジェクト検出器５１および音源分離部８１に供給する。

ここでは、例えば人の声や、犬などの動物の鳴き声、予め定められた音楽などが特定の音響イベントとして検出され、その音響イベントの発生の事後確率を含む情報が音響イベント情報として出力される。なお、音響イベント情報には、音響イベントが発生した方向を示す方向情報などが含まれるようにしてもよい。

上述したように、音源分離部８１と、音響イベント検出部８２とでは、相互に検出結果を利用することができる。

例えば音源分離部８１では、音響イベント情報に含まれる事後確率も音源分離のためのニューラルネットワークの入力とされ、入力された事後確率が高い音響イベントに対応する音オブジェクトが検出されやすくなるように音源分離が行われる。この場合、音源分離部８１では、音響イベントを検出することで音オブジェクトが検出されるともいうことができる。

これに対して、音響イベント検出部８２では、音源分離部８１から供給された音オブジェクトの検出結果と、音声付動画像の音声とが入力とされ、検出された音オブジェクトに対応する音響イベントの事後確率が高くなるように、音響イベントの検出が行われる。

続いて、画像オブジェクト検出器５１について説明する。

画像オブジェクト検出器５１は、例えばニューラルネットワークで構築することができ、画像オブジェクト検出器５１の構築には物体検出の技術やセグメンテーションの技術などを利用することができる。

なお、物体検出の技術については、例えば「You Only Look Once: Unified, Real-Time Object Detection，CVPR 2016」（以下、技術文献２と称する）に詳細に記載されている。また、セグメンテーションの技術については例えば「One-Shot Video Object Segmentation, CVPR 2017」（以下、技術文献３と称する）に詳細に記載されている。

さらに、画像オブジェクト検出器５１では、音声付動画像上の被写体が不鮮明な際にも高性能に画像オブジェクトを検出することができるように、音声付動画像の音声や、音響イベント検出部８２から供給された音響イベント情報、音源分離部８１で得られた音オブジェクトの検出結果を入力として用いるようにしてもよい。

例えば、音声付動画像から画像オブジェクトとして犬を検出したいが、犬の動きが激しく音声付動画像上における犬の画像が不鮮明であるような場合がある。

しかし、そのような場合でも、音オブジェクトの検出結果や音響イベント情報として供給された犬の鳴き声の情報から、高い確率で音声付動画像に犬が被写体として含まれているという情報を得ることができる。そして、そのような情報を用いれば画像オブジェクトとしての犬の検出精度を向上させることができる。

このような情報の利用は、画像オブジェクト検出器５１を構成するニューラルネットワークの学習時に音声付動画像の音声や、音オブジェクトの検出結果、音響イベント情報等を入力として与え、ニューラルネットワークを学習させることで実現できる。

この場合、画像オブジェクトの検出時には、画像オブジェクト検出器５１を構成するニューラルネットワークに対して、音声付動画像の動画像だけでなく、音声付動画像の音声や音オブジェクトの検出結果、音響イベント情報なども入力されることになる。

画像オブジェクト検出器５１においても音源分離部８１における場合と同様に、音オブジェクトの検出結果や音響イベント情報などが用いられて、オブジェクトの種類や音源の位置、画像物体位置、同時発生確率などに基づく、検出対象とする画像オブジェクトの絞り込みが行われるようにすることができる。

また、音画像オブジェクト検出器５３は、画像オブジェクトの検出結果と、音オブジェクトの検出結果とに基づいて音画像オブジェクトを検出する。

ここでは、音画像オブジェクトの検出は、画像オブジェクト検出器５１で検出された画像オブジェクトと、音オブジェクト検出器５２で検出された音オブジェクトとを対応付ける処理と等価である。

例えば画像オブジェクト検出器５１からは画像オブジェクトの検出結果、すなわち画像オブジェクトの抽出結果として画像オブジェクト情報が出力される。画像オブジェクト情報には、例えば画像領域情報と、画像種類情報とが含まれている。

ここで、画像領域情報は、音声付動画像における画像オブジェクトの画像（ビデオ）、つまり画像オブジェクトの存在する画像領域の画像である。また、画像種類情報は、画像領域情報、つまり画像領域に存在する画像オブジェクトの種類を示す情報であり、例えば画像種類情報は、その画像領域における、インデックスがｉである画像オブジェクトの存在確率p_i ^Vなどとされる。その他、画像オブジェクト情報には、画像領域情報の位置、つまり画像オブジェクトの位置（方向）を示す画像オブジェクト位置情報も含まれるようにしてもよい。

また、例えば音源分離部８１からは音オブジェクトの検出結果、つまり音オブジェクトの抽出結果として音オブジェクト情報が出力される。この音オブジェクト情報には、音声付動画像から抽出された音オブジェクトの音声（分離音）と、その分離音の音オブジェクトの種類を示す音種類情報とが含まれている。例えば音種類情報は、分離音が、インデックスがｉである音オブジェクトの音声である確率（識別確率）p_i ^Aなどとされる。その他、音オブジェクト情報には、音オブジェクトのある方向（位置）を示す音オブジェクト方向情報も含まれるようにしてもよい。

例えば音画像オブジェクト検出器５３は、画像オブジェクト情報と音オブジェクト情報を入力とし、それらの画像オブジェクト情報と音オブジェクト情報に基づいて、検出された画像オブジェクトと音オブジェクトが同じオブジェクト（物体）である確率を出力するニューラルネットワークである。ここで、画像オブジェクトと音オブジェクトが同じオブジェクトである確率とは、画像オブジェクトと音オブジェクトの共起確率である。

すなわち、音画像オブジェクト検出器５３を構成するニューラルネットワークでは、例えば画像種類情報や音種類情報、画像オブジェクト位置情報、音オブジェクト方向情報、時系列の画像オブジェクト位置情報から求まる画像オブジェクトの動きに関する情報などを利用して、検出された画像オブジェクトと音オブジェクトが一致するかを判別する。

このような音画像オブジェクト検出器５３を構成するニューラルネットワークは、予め人が画像オブジェクトと音オブジェクトを対応付けた音声付動画像のデータセットが用いられて学習されてもよい。また、音画像オブジェクト検出器５３を構成するニューラルネットワークは、学習装置等により自動でラベル付けされたデータ、つまり学習装置等により画像オブジェクトと音オブジェクトとの対応付けが行われた音声付動画像のデータセットが用いられて学習されてもよい。

音画像オブジェクト検出器５３は、画像オブジェクトと音オブジェクトの全ての組み合わせ、または一部の組み合わせについて、それらの画像オブジェクトと音オブジェクトが一致する共起確率を求める。

そして、音画像オブジェクト検出器５３は、求めた共起確率が高い順に画像オブジェクトと音オブジェクトを対応付けて、対応付けられた画像オブジェクトと音オブジェクトが同じ音画像オブジェクトであるとされる。

また、音画像オブジェクト検出器５３は、対応付けられた画像オブジェクトの存在確率p_i ^Vと音オブジェクトの識別確率p_i ^Aとに基づいて、それらの対応付けられた画像オブジェクトと音オブジェクト、すなわち音画像オブジェクトの種類を決定する。

ここでは画像オブジェクト、音オブジェクト、および音画像オブジェクトの定義が同じであるとする。なお、定義が同じであるとは、例えば画像オブジェクトの種類を示すインデックスｉと、音オブジェクトの種類を示すインデックスｉとがともに同じ種類のオブジェクトを示していることである。

具体的には、例えば画像オブジェクトの種類として「人」があり、音オブジェクトの種類として「人の拍手の音」や「人の話し声」などがあるとする。この場合、画像オブジェクトの種類「人」と、音オブジェクトの種類「人の拍手の音」とは定義が異なることになる。

例えば画像オブジェクト、音オブジェクト、および音画像オブジェクトの定義が同じである場合、音画像オブジェクト検出器５３は、画像オブジェクトの存在確率p_i ^Vと音オブジェクトの識別確率p_i ^Aとの和（argmax_i(p_i ^A+p_i ^V)）や最大値（argmax_i({p_i ^A,p_i ^V})）から音画像オブジェクトの種類を決定するようにしてもよい。

なお、画像オブジェクトと音オブジェクトの定義が異なる場合には、変換テーブルを用いて、画像オブジェクトと音オブジェクトの一方の種類を他方の種類に変換してから音画像オブジェクトの種類を決定すればよい。

具体的には、例えば画像オブジェクトの種類が「人」であり、音オブジェクトの種類が「人の拍手の音」であるときには、例えば音オブジェクトの種類「人の拍手の音」が「人」に変換される。

なお、変換テーブルは、用途に応じて予め人手により定めるようにしてもよいし、画像オブジェクトと音オブジェクトの種類の対応付け用のデータに基づいて共起確率をクラスタリングするなどして自動生成するようにしてもよい。

以上の処理により、音画像オブジェクトが検出され、その音画像オブジェクトの種類が決定されると、音画像オブジェクト検出器５３は音画像オブジェクトの検出結果、すなわち音画像オブジェクトの抽出結果として音画像オブジェクト情報を出力する。

上述したように音画像オブジェクト情報には、例えば音画像オブジェクトの種類を示す種類情報、音画像オブジェクトの画像領域情報、および音画像オブジェクトの分離音が含まれている。なお、画像領域情報には、例えば画像領域の位置、つまり音声付動画像上における音画像オブジェクトの位置を示す情報も含まれているようにしてもよい。

続いて、音画像オブジェクト選択部２２による音画像オブジェクトの選択と、動画像処理部２３による音画像オブジェクトに基づく処理について説明する。

音画像オブジェクト選択部２２では、音画像オブジェクト検出器５３から供給された音画像オブジェクト情報に基づいて、音画像オブジェクトに対するズーム処理やフォーカス処理、通知処理などの対象となる音画像オブジェクトが選択される。なお、音画像オブジェクトの選択はユーザにより手動で行われてもよいし、音画像オブジェクト選択部２２により自動で行われてもよい。

例えばユーザが手動により音画像オブジェクトを選択する場合、ユーザは表示部２７に表示された表示画像を見ながら入力部２４を操作し、表示画像上から所望の音画像オブジェクトを選択（指定）する。

具体的には、例えば図４に示す表示画像が表示部２７に表示されていたとする。この例では表示画像上には、音声付動画像P11が表示されており、その音声付動画像P11上には音画像オブジェクトとしての子供、車、およびバイオリンのそれぞれの位置を示す矩形の枠W11乃至枠W13が表示されている。

さらに表示画像における音声付動画像P11の図中、左側には枠W11乃至枠W13のそれぞれの位置に表示されている音画像オブジェクトを示す文字「kid」、「car」、および「violin」が表示されている。すなわち、これらの音画像オブジェクトを示す文字は、オブジェクトベースで音画像オブジェクトを選択することができるオブジェクトリストとなっている。

この場合、ユーザは入力部２４を操作してオブジェクトリストのなかから所望の音画像オブジェクトを選択する。すると、音画像オブジェクト選択部２２は、ユーザの操作に応じて入力部２４から供給された信号に基づいて、音画像オブジェクト情報により示される音画像オブジェクトのうちのユーザにより選択されたものを選択する。

その他、例えばユーザが入力部２４としてのマイクロフォンに音声として「バイオリンにズームして」など、音画像オブジェクトと、その音画像オブジェクトに対する処理を指定する音声を入力するようにしてもよい。この場合、例えば入力部２４は、マイクロフォンにより収音された音声に対して音声認識を行い、その音声認識結果を音画像オブジェクト選択部２２に供給する。すると、音画像オブジェクト選択部２２は、入力部２４から供給された認識結果に基づいて、音画像オブジェクトとして「バイオリン」を選択する。

また、ユーザが選択操作を行うことなく音画像オブジェクト選択部２２側で自動的に選択を行う場合、例えば入力部２４等によりユーザの視線が検出され、その検出結果が音画像オブジェクト選択部２２に供給される。すると音画像オブジェクト選択部２２は、供給された視線の検出結果に基づいて、ユーザが注視している音画像オブジェクトを選択する。さらに、例えば音画像オブジェクト情報に基づいて、予め登録された音画像オブジェクトが選択されるようにしてもよい。

動画像処理部２３は、音画像オブジェクト選択部２２から供給された音画像オブジェクトの選択結果に基づいて、例えば音声付動画像に対して各種の処理を行う。

例えばズーム処理が行われる場合、動画像処理部２３は、音画像オブジェクト選択部２２により選択された音画像オブジェクトの音画像オブジェクト情報に基づいて、供給された音声付動画像から、選択された音画像オブジェクトを中心とする画像領域を切り出して拡大することで拡大画像を生成する。このとき、拡大画像の生成には画像領域情報が用いられるようにしてもよい。

また、動画像処理部２３は、音画像オブジェクト選択部２２により選択された音画像オブジェクトの音画像オブジェクト情報に基づいて、選択された音画像オブジェクトの音の音量が相対的に増加するようにしたり、選択された音画像オブジェクトの音のみが再生されるようにしたりする。さらに、選択された音画像オブジェクトの音の音像を、拡大画像に合わせて適切な位置に定位させるようにしてもよい。

例えば選択された音画像オブジェクトの音の音量を増加させる場合には、その選択された音画像オブジェクトの分離音が適切に増幅（ゲイン調整）され、増幅後の分離音が音声付動画像の音声に加算されるようにすればよい。また、選択された音画像オブジェクトの音のみが再生される場合には、分離音が再生用音声とされる。

さらに、例えば音像の定位位置を再配置する場合には、音画像オブジェクトの位置に合わせてインテンシティステレオや頭部伝達関数を用いたバイノーラル再生、波面合成などが利用されて音像の定位が調整される。

また、フォーカス処理が行われる場合、音声付動画像がライトフィールドカメラで撮影された動画像であるときには、動画像処理部２３は、音声付動画像としての画像群に基づき画像合成を行うことで、選択された音画像オブジェクトに合焦した動画像をフォーカス処理後の音声付動画像として生成する。

その他、音声付動画像がライトフィールドカメラで撮影されたものではない通常の動画像である場合、動画像処理部２３が音声付動画像上における音画像オブジェクトのうちの選択された音画像オブジェクト以外のものにぼかし処理等を施すことで、選択された音画像オブジェクトがフォーカスされるようにすることができる。

また、フォーカス処理が行われる場合、ズーム処理における場合と同様に、選択された音画像オブジェクトの音の音量が相対的に増加されるようにしたり、選択された音画像オブジェクトの音以外の他の音に音声ブラー処理が施されるようにしたりしてもよい。

さらに音画像オブジェクトに関する通知処理が行われる場合、例えば動画像処理部２３は、選択された音画像オブジェクトの領域にバウンディングボックス（枠）等が表示されて、その音画像オブジェクトが強調されるように、音画像オブジェクト情報に基づいて音声付動画像に強調処理を施す。これにより、ユーザに対して選択された音画像オブジェクトがどれであるのかを通知（提示）することができる。

また、例えば表示画像としてVRの画像が表示される場合、選択された音画像オブジェクトがユーザの視野外にあるとき、つまり選択された音画像オブジェクトが表示画像外にあるときには、選択された音画像オブジェクトがある方向を示す矢印等が表示画像上に表示されるように音声付動画像に加工を施す処理が通知処理として行われてもよい。さらに、この場合、選択された音画像オブジェクトの分離音がバイノーラル再生で強調して再生されるように動画像処理部２３により音声付動画像の音声に対して信号処理が施されるようにしてもよい。これらの処理によって、ユーザに対して、ユーザにとって興味のあり得る音画像オブジェクトの存在を通知することができる。

さらに、表示画像として通常の動画像やARの画像が表示される場合、表示画像の生成に用いる音声付動画像上から、選択された音画像オブジェクトを除去し、選択された音画像オブジェクトの音を除去（消去）する処理を除去処理として行うようにしてもよい。

具体的には、例えば音声付動画像上の被写体となっている街中の風景のなかから、選択された音画像オブジェクトである人を消して無人の街の風景の画像としたいとする。そのような場合、動画像処理部２３は音声付動画像上から選択された音画像オブジェクトを除去（消去）するとともに、その除去された音画像オブジェクトの領域に対してインペインティング等の技術を利用して街の風景の画像が付加されるように補完処理を行う。

なお、インペインティングについては、例えば「"A study on effect of automatic perspective correction on exemplar-based image inpainting", ITE Trans. on Media Technology and Applications, Vol. 4, No.1, Jan. 2016」などに詳細に記載されている。

また、音声については、動画像処理部２３は、選択された音画像オブジェクトの分離音と、音声付動画像の音声とに基づいて、音声付動画像の音声から分離音のみを除去することで、分離音以外の音声が出力されるように音声を加工することができる。この場合、例えば音声付動画像の音声に対して位相反転された分離音を加算することで、音声付動画像の音声から分離音のみが除去される。これにより、例えば鳥の声や川のせせらぎ、風の音など風景の音を残したまま人の声のみを除去することができる。

さらに、例えば音画像オブジェクトの検出と選択に応じて、音声付動画像やその音声に対する処理以外の他の特定の処理（動作）が実行されるようにすることもできる。

例えば再生装置１１が撮像機能を有している場合、特定の音画像オブジェクトが検出されて、音画像オブジェクト選択部２２で選択されたときに、動画像処理部２３が図示せぬ撮像部に対して静止画像の撮像、つまりシャッタ動作の実行を指示するようにすることができる。その他、例えば動画像処理部２３が選択された音画像オブジェクトに関する検索処理の実行を制御するなどしてもよい。

〈再生処理の説明〉
続いて、再生装置１１で行われる処理の流れについて説明する。すなわち、以下、図５のフローチャートを参照して、再生装置１１により行われる再生処理について説明する。

ステップＳ１１において音響イベント検出部８２は、適宜、音源分離部８１から供給された音オブジェクトの検出結果を用いて、外部から供給された音声付動画像の音声に基づいて音響イベントを検出する。

例えばステップＳ１１では、音響イベント検出部８２を構成するニューラルネットワークに対して、音オブジェクトの検出結果や音声付動画像の音声が入力されて演算処理が行われ、音響イベントが検出される。音響イベント検出部８２は、音響イベントの検出結果として得られた音響イベント情報を音源分離部８１および画像オブジェクト検出器５１に供給する。なお、検出された音響イベントがそのまま音オブジェクトとされてもよい。

ステップＳ１２において音源分離部８１は、適宜、音響イベント検出部８２から供給された音響イベント情報や、画像オブジェクト検出器５１から供給された検出結果等を用いて、外部から供給された音声付動画像の音声に基づいて音オブジェクトを検出し、その検出結果を音響イベント検出部８２および音画像オブジェクト検出器５３に供給する。なお、音オブジェクトの検出結果が画像オブジェクト検出器５１に供給されるようにしてもよい。

例えばステップＳ１２では、音源分離部８１を構成するニューラルネットワークに対して、音響イベント情報や画像オブジェクトの検出結果、画像物体認識器での画像物体認識結果、音声付動画像の音声が入力されて演算処理が行われ、音オブジェクトが検出される。このとき、適宜、上述したオブジェクトの種類や音源の位置、画像物体認識等による画像物体位置、同時発生確率などに基づく音オブジェクトの候補の絞り込みが行われるようにしてもよい。

ステップＳ１３において画像オブジェクト検出器５１は、適宜、音響イベント検出部８２から供給された音響イベント情報や、音源分離部８１から供給された音オブジェクトの検出結果を用いて、外部から供給された音声付動画像に基づいて画像オブジェクトを検出する。

例えばステップＳ１３では、画像オブジェクト検出器５１を構成するニューラルネットワークに対して、音響イベント情報や音オブジェクトの検出結果、音声付動画像が入力されて演算処理が行われ、画像オブジェクトが検出される。画像オブジェクト検出器５１は、画像オブジェクトの検出結果を音源分離部８１および音画像オブジェクト検出器５３に供給する。

なお、より詳細には以上のステップＳ１１乃至ステップＳ１３の処理は同時に行われる。

ステップＳ１４において音画像オブジェクト検出器５３は、画像オブジェクト検出器５１から供給された画像オブジェクトの検出結果である画像オブジェクト情報と、音源分離部８１から供給された音オブジェクトの検出結果である音オブジェクト情報とに基づいて音画像オブジェクトを検出する。

例えばステップＳ１４では、音画像オブジェクト検出器５３を構成するニューラルネットワークに対して、画像オブジェクト情報と音オブジェクト情報が入力されて演算処理が行われる。演算処理では、例えば共起確率に基づく画像オブジェクトと音オブジェクトの対応付けが行われるとともに、対応付けにより検出された音画像オブジェクトの種類が決定される。

音画像オブジェクト検出器５３は、音画像オブジェクトの検出結果として得られた音画像オブジェクト情報を音画像オブジェクト選択部２２、動画像処理部２３、およびメモリ２５に供給する。

ステップＳ１５において音画像オブジェクト選択部２２は、入力部２４から供給された信号等に応じて、音画像オブジェクト検出器５３から供給された音画像オブジェクト情報に基づいて１または複数の音画像オブジェクトを選択し、その選択結果を動画像処理部２３に供給する。

ステップＳ１６において動画像処理部２３は、入力部２４から供給された信号や音画像オブジェクト選択部２２から供給された選択結果に応じて、音画像オブジェクト検出器５３から供給された音画像オブジェクト情報、および外部から供給された音声付動画像に基づいて、音画像オブジェクトに基づく処理を行う。

例えばステップＳ１６では、音画像オブジェクトに基づく処理として、上述したズーム処理やフォーカス処理、通知処理、除去処理などが音声付動画像と、その音声付動画像の音声に対して行われ、処理結果として得られた音声付動画像が表示画像生成部２６に供給される。その他、音画像オブジェクトに基づく処理としてシャッタ動作制御処理などが行われてもよい。

ステップＳ１７において表示画像生成部２６は、入力部２４から供給された信号に応じて、動画像処理部２３から供給された音声付動画像に基づいて表示画像および再生用音声を生成する。このとき表示画像生成部２６は、適宜、メモリ２５に記録されている音画像オブジェクト情報も用いて表示画像を生成する。

例えば表示画像がVRの画像である場合、表示画像生成部２６は、動画像処理部２３から供給された、音画像オブジェクトに基づく処理後の音声付動画像におけるユーザの視野内となる領域を切り出して表示画像とするとともに、音画像オブジェクトに基づく処理後の音声付動画像の音声をそのまま再生用音声とする。

ステップＳ１８において表示画像生成部２６は、生成した表示画像を表示部２７に供給して表示させるとともに、再生用音声をスピーカ２８に供給して再生用音声を出力させ、再生処理は終了する。

以上のようにして再生装置１１は、音声付動画像から画像オブジェクトを検出するとともに音オブジェクトを検出し、それらの検出結果に基づいて音画像オブジェクトを検出する。このようにすることで、より確実に音声付動画像から所望の音画像オブジェクトを抽出することができる。

〈ユースケース１〉
ここで、本技術のユースケースについて説明する。

例えば本技術は、オブジェクトベースのズーム処理を行う場合に利用することが可能である。

すなわち、本技術では、音声付動画像の一部の領域を指定して位置ベースでズーム処理を行うのではなく、音画像オブジェクトを選択してオブジェクトベースでフォーカスやズームを行うことができる。

例えば図６の矢印Q11に示すように、監視カメラ等により撮影された音声付動画像に対して特に処理が施されずに、音声付動画像とその音声がそのまま表示画像および再生用音声として表示部２７およびスピーカ２８で再生されているとする。

図６に示す例では、矢印Q11に示す部分には、表示部２７に表示された表示画像が示されており、その表示画像上には、パーソナルコンピュータを所持した女性が音画像オブジェクトOB11として含まれている。

このような状態で、表示画像を見ているユーザU11が入力部２４としてのマイクロフォンに対して、矢印Q12に示すように音声「パソコンを持った女性にズームして会話を聞かせて」と入力したとする。この場合、入力部２４から音画像オブジェクト選択部２２や動画像処理部２３には、入力された音声に対する音声認識の結果等を示す信号が供給される。

すると、音画像オブジェクト選択部２２は、入力部２４からの信号に応じて、音声付動画像から検出された音画像オブジェクトのうち、ユーザU11により指定された「パソコンを持った女性」である音画像オブジェクトOB11を選択する。

そして動画像処理部２３では、音声付動画像における選択された音画像オブジェクトOB11の周囲の領域の画像が表示画像生成部２６に供給され、その音画像オブジェクトOB11の周囲の領域の画像が矢印Q13に示すように表示画像として表示部２７に表示される。

ここでは動画像処理部２３により音画像オブジェクトOB11の周囲の領域の画像を生成する処理がズーム処理として行われる。なお、この音画像オブジェクトOB11の周囲の領域の画像は、音画像オブジェクトOB11の音画像オブジェクト情報に含まれる画像領域情報そのものであってもよいし、画像領域情報等に基づいて音声付動画像から切り出された画像であってもよい。

また、動画像処理部２３では、例えば音画像オブジェクトOB11の音声のみを抽出して表示画像生成部２６に供給する処理が音声のズーム処理として行われる。ここでは、例えば音画像オブジェクトOB11の音画像オブジェクト情報に含まれる分離音がそのまま表示画像生成部２６に供給され、この分離音が再生用音声として出力される。この例では、音画像オブジェクトOB11の音声として「引き渡しは９時に品川埠頭で」が再生用音声として再生されている。

このように本技術では、音声入力（音声コマンド）によりオブジェクト単位で対象とする音画像オブジェクトを指定して画像と音のズーム処理を実行させることができる。

〈ユースケース２〉
また、本技術は、360度の全方位動画像の再生やVR等の画像の再生にも利用することが可能である。

具体的には、例えば図７に示すようにVRの画像においてユーザが注視したオブジェクトにフォーカスを当てるとともに、そのオブジェクトの音を強調することができる。

図７に示す例では、例えば矢印Q21に示すようにヘッドマウントディスプレイの表示部２７に、音声付動画像がそのまま表示画像として表示されている。

ここでは表示画像（音声付動画像）には、音画像オブジェクトとして、ユーザが注視している小さい女の子である音画像オブジェクトOB21と、車である音画像オブジェクトOB22と、犬である音画像オブジェクトOB23とが含まれている。また、音画像オブジェクトOB21の音声「パパ見て見て」が再生されているが、この音声は車である音画像オブジェクトOB22の音「ブーン」や、犬である音画像オブジェクトOB23の鳴き声「ワンワン」にかき消されてしまっている。

この場合、入力部２４から音画像オブジェクト選択部２２へとユーザの注視方向を示す信号が供給され、音画像オブジェクト選択部２２において小さい女の子である音画像オブジェクトOB21が選択されたとする。すると動画像処理部２３では、その女の子を対象とするフォーカス処理が行われる。

すなわち、例えば動画像処理部２３は、音画像オブジェクト検出器５３から供給された音画像オブジェクト情報に基づいて、音声付動画像における車と犬、つまり音画像オブジェクトOB22と音画像オブジェクトOB23の領域に対してぼかし処理を施すことで、相対的に音画像オブジェクトOB21がフォーカスされるフォーカス処理を行う。

また、動画像処理部２３は、音声付動画像の音声については音画像オブジェクトOB21の分離音のみを後段の表示画像生成部２６に出力することで、音画像オブジェクトOB21の音声のみを抽出する、つまり女の子の音声にフォーカスするフォーカス処理を行う。

これにより、表示部２７では、例えば矢印Q22に示すように車である音画像オブジェクトOB22と、犬である音画像オブジェクトOB23とがぼかされて、ユーザが注視している女の子である音画像オブジェクトOB21にフォーカスが当てられることになる。また、この場合、音声として音画像オブジェクトOB21の音声「パパ見て見て」だけが再生用音声として再生されるようになる。

また、図７に示した例の他にも例えば表示画像生成部２６がメモリ２５に保持されている音画像オブジェクトの検出結果に基づいて、音声付動画像から検出された音画像オブジェクトのリストを生成し、表示部２７に表示させるようにしてもよい。この場合、ユーザは入力部２４を操作して、表示されたリストのなかから所望の音画像オブジェクトを選択することができる。

そうすれば、例えば動画像処理部２３では、ライトフィールドカメラにより撮影された音声付動画像としての画像群に基づいて画像合成を行うことで、選択された音画像オブジェクトに合焦した動画像をフォーカス処理後の音声付動画像として生成することができる。この例では、ユーザはより直感的な操作で所望の音画像オブジェクトを選択し、フォーカスさせることができる。

〈ユースケース３〉
さらに本技術は、例えば撮像機能付きのホームエージェントやロボット、アクションカムなどにおける動画像検索等にも利用することが可能である。

すなわち、例えばユーザが特に注意を払わずに撮りためた動画像のなかから、「Aさんがギターを弾いているときの動画」や「愛犬が飼い主と一緒に歌っている動画」など、動画像（映像）と音についての所定の条件を満たす動画像やシーンを検索することができるようになる。

具体例として、例えば図８の矢印Q31に示すように、表示部２７に図示せぬ記録部に記録されている音声付動画像の一覧が表示されているとする。ここでは一覧とともに音声付動画像の検索を促す文字「何の動画が見たいですか？」が表示されている。

このような一覧を見たユーザU31が、例えば矢印Q32に示すように入力部２４としてのマイクロフォンに対して音声「ビリーがギターを弾いている動画を見せて」と入力したとする。この場合、入力部２４から音画像オブジェクト選択部２２や動画像処理部２３には、入力された音声に対する音声認識の結果等を示す信号が供給される。

すると、音画像オブジェクト抽出部２１では、記録部に記録されている全ての音声付動画像が対象とされて音画像オブジェクトの検出が行われる。そして音画像オブジェクト選択部２２は、入力部２４から供給された信号に基づいて、指定された人物「ビリー」の画像領域情報と分離音を有する音画像オブジェクト、および指定された楽器であるギターの画像領域情報と分離音を有する音画像オブジェクトを選択し、その選択結果を動画像処理部２３に供給する。

動画像処理部２３は、音画像オブジェクト選択部２２から供給された選択結果に基づいて、各音声付動画像のなかからユーザU31により指定された条件を満たす音声付動画像、すなわち音画像オブジェクトとして「ビリー」および「ギター」が検出された音声付動画像を選択し、表示画像生成部２６に供給する。このとき、音画像オブジェクトとして「ビリー」および「ギター」の何れか一方のみが検出された音声付動画像が、他の候補となる音声付動画像として表示画像生成部２６に供給されてもよい。

これにより表示部２７では、例えば矢印Q33に示すように音画像オブジェクトとして「ビリー」および「ギター」が検出された音声付動画像のサムネイルSM11と、他の候補となる音声付動画像のサムネイルとが表示された画面が検索結果として表示される。

〈ユースケース４〉
また、本技術は例えばVRで360度の全方位動画像を視聴する際に、ユーザの視野外に注目すべきオブジェクトがあることを通知する場合などにも利用することが可能である。これにより、例えばユーザが興味を示すであろうシーン等を見逃してしまうことを防止することができる。

具体的には、例えば図９の矢印Q41に示すように、ヘッドマウントディスプレイの表示部２７に音声付動画像における所定の視野の領域が表示画像として表示されていたとする。また、このとき、音声付動画像からユーザが興味を示すであろう鳥が音画像オブジェクトOB41として検出されたが、現時点ではその音画像オブジェクトOB41は視野外にあったとする。

そのような場合、例えば音画像オブジェクト選択部２２において音画像オブジェクトOB41が選択されると、動画像処理部２３は、音声付動画像の現在の視野の領域に対して、音画像オブジェクトOB41を表すマークMK11と、その音画像オブジェクトOB41がある方向を示す矢印マークMK12とを音声付動画像に重畳させる重畳加工処理を行う。ここでは、このような重畳加工処理が、ユーザに対して音画像オブジェクトOB41の存在と、その音画像オブジェクトOB41の方向とを通知する通知処理として行われることになる。

その後、例えばユーザがマークMK11と矢印マークMK12を視認し、矢印マークMK12により示される方向に視線を向けると、表示部２７の表示は矢印Q42に示すように変化し、表示画像上に鳥である音画像オブジェクトOB41が表示されるとともに、その音画像オブジェクトOB41の分離音声「ピーチクパーチク」が再生用音声として再生される。

〈ユースケース５〉
さらに、本技術は除去処理を行う場合にも利用することができ、例えば自然や街などの風景の動画像から任意のオブジェクトの画像と音を除去し、あたかもそのオブジェクトがなかったかのような動画像を生成することができる。

具体的には、例えば図１０の矢印Q51に示すように、表示部２７に散歩中の人と犬である音画像オブジェクトOB51および音画像オブジェクトOB52が含まれていたとする。また、犬である音画像オブジェクトOB52の鳴き声「ワンワン」も再生用音声として再生されているとする。

このとき、例えばユーザが入力部２４を操作することで、表示画像上に表示されているポインタPT11を動かして音画像オブジェクトOB51および音画像オブジェクトOB52を選択し、それらの音画像オブジェクトの削除を指示したとする。この場合、音画像オブジェクト選択部２２は、入力部２４から供給された信号に応じて、音画像オブジェクトOB51および音画像オブジェクトOB52を選択し、その選択結果を動画像処理部２３に供給する。

すると、動画像処理部２３は音声付動画像から音画像オブジェクトOB51および音画像オブジェクトOB52の領域を除去するとともに、それらの領域に対してインペインティング等の技術を利用した画像補完処理を行う。また、動画像処理部２３は音声付動画像の音声に対して、音画像オブジェクトOB52の分離音の逆位相の音を加算することで、音声付動画像の音声から音画像オブジェクトOB52の音を除去する。

これにより、例えば矢印Q52に示すようにもとの音声付動画像から音画像オブジェクトOB51および音画像オブジェクトOB52が除去された画像が表示画像として表示されるようになるとともに、これまで再生されていた音画像オブジェクトOB52の音も聞こえなくなる。すなわち、あたかも散歩中の人と犬がいなかったような表示画像が表示される。

〈ユースケース６〉
その他、本技術はシャッタ動作の実行制御にも利用することができる。

例えば本技術をシャッタ動作の実行制御に利用すれば、特定の人が特定の声を上げたときや、特定の犬が吠えたときなど、周囲の騒音や目的外のオブジェクトの音によらずに決定的瞬間を逃さずシャッタを切ることができるようになる。

具体的には、例えば撮像機能を有するカメラ等の表示画像生成部２６が、図１１の矢印Q61に示す表示画像を表示部２７に表示させているとする。

ここで、矢印Q61に示す表示画像には、人である音画像オブジェクトOB61と、犬である音画像オブジェクトOB62とが被写体として写っている音声付動画像としてのスルー画像MV11が表示された領域と、そのスルー画像MV11から検出された音画像オブジェクトの一覧を表示する領域とが設けられている。

例えば音画像オブジェクトの一覧は、表示画像生成部２６がメモリ２５に保持されている音画像オブジェクト情報に基づいて生成したものであり、ここでは一覧には音画像オブジェクトとして検出された「犬」と「人」が示されている。

このような状態でユーザが入力部２４を操作して表示画像上にあるポインタPT21を移動させ、音画像オブジェクトの一覧から「犬」を選択したとする。これにより、スルー画像MV11上にある音画像オブジェクトのなかから、シャッタ動作のための追跡対象とされる音画像オブジェクトOB62が選択されたことになる。

すると、表示画像生成部２６は、矢印Q62に示すように、シャッタ動作を行うタイミングを選択させるために、ユーザにより選択された追跡対象の音画像オブジェクトOB62についてシャッタ動作のトリガとなる動作の一覧を生成し、表示画像上に表示させる。ここでは、トリガとなる動作として「走る」、「鳴く」、および「自動」が表示されている。

例えばトリガとして「走る」が選択された場合には、動画像処理部２３は、犬である音画像オブジェクトOB62の時系列の音画像オブジェクト情報に基づいて、犬である音画像オブジェクトOB62が走っていることが検出されたタイミングで図示せぬシャッタまたは撮像素子を動作させ、静止画像を撮像させる。

また、例えばトリガとして「鳴く」が選択された場合には、動画像処理部２３は、犬である音画像オブジェクトOB62の音画像オブジェクト情報に基づいて、犬である音画像オブジェクトOB62の鳴き声が検出されたタイミングで図示せぬシャッタまたは撮像素子を動作させ、静止画像を撮像させる。なお、犬が鳴いたか否かは分離音声に対する音声認識等により検出してもよいし、音響イベント検出部８２での音響イベントとしての犬の鳴き声の検出結果や、音源分離部８１での音オブジェクトとしての犬の鳴き声の検出結果などから特定するようにしてもよい。

さらに、例えばトリガとして「自動」が選択された場合には、動画像処理部２３は、犬である音画像オブジェクトOB62の音画像オブジェクト情報に基づいて、犬が静止したタイミングなど、予め定められた条件が満たされた適切なタイミングで図示せぬシャッタまたは撮像素子を動作させ、静止画像を撮像させる。

矢印Q62に示す例ではトリガとして「鳴く」が選択されたので、矢印Q63に示すように犬である音画像オブジェクトOB62の分離音声として犬の鳴き声「ワン」が検出されたタイミングで静止画像が撮像される。

例えば音画像オブジェクトを検出すれば、犬の鳴き声など、特定のオブジェクトが特定の音を発したときにシャッタ動作を行うことができる。特に、同方向に複数の音源がある場合や同種類の音源が複数存在している場合であっても、特定のオブジェクトが特定の音を発したタイミングを正確に特定することができる。

〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図１２は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

（１）
音声付動画像に基づいて画像オブジェクトを検出する画像オブジェクト検出部と、
前記音声付動画像に基づいて音オブジェクトを検出する音オブジェクト検出部と、
前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトを検出する音画像オブジェクト検出部と
を備える情報処理装置。
（２）
前記音画像オブジェクト検出部は、検出された前記音画像オブジェクトの画像領域情報および分離音を含む音画像オブジェクト情報を出力する
（１）に記載の情報処理装置。
（３）
前記音画像オブジェクト検出部は、前記画像オブジェクトと前記音オブジェクトとの対応付けを行うことで、前記音画像オブジェクトを検出する
（１）または（２）に記載の情報処理装置。
（４）
前記音画像オブジェクト検出部は、前記画像オブジェクトと前記音オブジェクトとの共起確率に基づいて、前記音画像オブジェクトを検出する
（１）乃至（３）の何れか一項に記載の情報処理装置。
（５）
前記音画像オブジェクト検出部は、前記画像オブジェクトの位置情報、および前記音オブジェクトの位置情報に基づいて、前記音画像オブジェクトを検出する
（１）乃至（４）の何れか一項に記載の情報処理装置。
（６）
前記画像オブジェクト検出部は、前記音声付動画像を構成する音声、前記音声付動画像を構成する音声からの音響イベントの検出結果、および前記音オブジェクトの検出結果のうちの少なくとも何れか１つと、前記音声付動画像を構成する動画像とに基づいて前記画像オブジェクトを検出する
（１）乃至（５）の何れか一項に記載の情報処理装置。
（７）
前記音オブジェクト検出部は、前記音声付動画像を構成する動画像、前記音声付動画像を構成する動画像に対する画像物体認識の結果、および前記画像オブジェクトの検出結果のうちの少なくとも何れか１つと、前記音声付動画像を構成する音声とに基づいて前記音オブジェクトを検出する
（１）乃至（６）の何れか一項に記載の情報処理装置。
（８）
前記音オブジェクト検出部は、複数の前記音オブジェクトの同時発生確率、音源位置、画像物体位置、および前記音オブジェクトの種類のうちの少なくとも何れか１つに基づいて、検出対象とする前記音オブジェクトの絞り込みを行う
（１）乃至（７）の何れか一項に記載の情報処理装置。
（９）
前記音オブジェクト検出部は、音響イベントを検出することで前記音オブジェクトを検出する
（１）乃至（８）の何れか一項に記載の情報処理装置。
（１０）
前記音オブジェクト検出部は、音源分離により前記音オブジェクトを検出する
（１）乃至（９）の何れか一項に記載の情報処理装置。
（１１）
検出された複数の前記音画像オブジェクトのなかから、１または複数の前記音画像オブジェクトを選択する音画像オブジェクト選択部をさらに備える
（１）乃至（１０）の何れか一項に記載の情報処理装置。
（１２）
前記音画像オブジェクト選択部による前記音画像オブジェクトの選択結果に応じた処理を実行する処理部をさらに備える
（１１）に記載の情報処理装置。
（１３）
前記処理部は、前記選択結果に応じた処理として、
前記音声付動画像の選択された前記音画像オブジェクトに対するズーム処理、
前記音声付動画像の選択された前記音画像オブジェクトに対するフォーカス処理、
選択された前記音画像オブジェクトの前記音声付動画像からの除去処理、
選択された前記音画像オブジェクトに関する通知処理、
選択された前記音画像オブジェクトに関する検索処理、
または、選択された前記音画像オブジェクトに基づくシャッタ動作制御処理
を実行する
（１２）に記載の情報処理装置。
（１４）
情報処理装置が、
音声付動画像に基づいて画像オブジェクトを検出し、
前記音声付動画像に基づいて音オブジェクトを検出し、
前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトを検出する
情報処理方法。
（１５）
音声付動画像に基づいて画像オブジェクトを検出し、
前記音声付動画像に基づいて音オブジェクトを検出し、
前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトを検出する
ステップを含む処理をコンピュータに実行させるプログラム。

１１再生装置，２１音画像オブジェクト抽出部，２２音画像オブジェクト選択部，２３動画像処理部，２４入力部，２６表示画像生成部，５１画像オブジェクト検出器，５２音オブジェクト検出器，５３音画像オブジェクト検出器

Claims

音声付動画像に基づいて画像オブジェクトを検出する画像オブジェクト検出部と、
前記音声付動画像に基づいて音オブジェクトを検出する音オブジェクト検出部と、
前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトを検出する音画像オブジェクト検出部と
を備え、
前記音オブジェクト検出部は、前記画像オブジェクトの検出結果に基づく複数の前記音オブジェクトの同時発生確率に基づいて、検出対象とする前記音オブジェクトの絞り込みを行う
情報処理装置。
前記音画像オブジェクト検出部は、検出された前記音画像オブジェクトの画像領域情報および分離音を含む音画像オブジェクト情報を出力する
請求項１に記載の情報処理装置。
前記音画像オブジェクト検出部は、前記画像オブジェクトと前記音オブジェクトとの対応付けを行うことで、前記音画像オブジェクトを検出する
請求項１に記載の情報処理装置。
前記音画像オブジェクト検出部は、前記画像オブジェクトと前記音オブジェクトとの共起確率に基づいて、前記音画像オブジェクトを検出する
請求項１に記載の情報処理装置。
前記音画像オブジェクト検出部は、前記画像オブジェクトの位置情報、および前記音オブジェクトの位置情報に基づいて、前記音画像オブジェクトを検出する
請求項１に記載の情報処理装置。
前記画像オブジェクト検出部は、前記音声付動画像を構成する音声、前記音声付動画像を構成する音声からの音響イベントの検出結果、および前記音オブジェクトの検出結果のうちの少なくとも何れか１つと、前記音声付動画像を構成する動画像とに基づいて前記画像オブジェクトを検出する
請求項１に記載の情報処理装置。
前記音オブジェクト検出部は、前記音声付動画像を構成する動画像、前記音声付動画像を構成する動画像に対する画像物体認識の結果、および前記画像オブジェクトの検出結果のうちの少なくとも何れか１つと、前記音声付動画像を構成する音声とに基づいて前記音オブジェクトを検出する
請求項１に記載の情報処理装置。
前記音オブジェクト検出部は、音響イベントを検出することで前記音オブジェクトを検出する
請求項１に記載の情報処理装置。
前記音オブジェクト検出部は、音源分離により前記音オブジェクトを検出する
請求項１に記載の情報処理装置。
検出された複数の前記音画像オブジェクトのなかから、１または複数の前記音画像オブジェクトを選択する音画像オブジェクト選択部をさらに備える
請求項１に記載の情報処理装置。
前記音画像オブジェクト選択部による前記音画像オブジェクトの選択結果に応じた処理を実行する処理部をさらに備える
請求項１０に記載の情報処理装置。
前記処理部は、前記選択結果に応じた処理として、
前記音声付動画像の選択された前記音画像オブジェクトに対するズーム処理、
前記音声付動画像の選択された前記音画像オブジェクトに対するフォーカス処理、
選択された前記音画像オブジェクトの前記音声付動画像からの除去処理、
選択された前記音画像オブジェクトに関する通知処理、
選択された前記音画像オブジェクトに関する検索処理、
または、選択された前記音画像オブジェクトに基づくシャッタ動作制御処理
を実行する
請求項１１に記載の情報処理装置。
情報処理装置が、
音声付動画像に基づいて画像オブジェクトを検出し、
前記音声付動画像に基づいて音オブジェクトを検出し、
前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトを検出する
ステップを含み、
前記画像オブジェクトの検出結果に基づく複数の前記音オブジェクトの同時発生確率に基づいて、検出対象とする前記音オブジェクトの絞り込みを行う
情報処理方法。
音声付動画像に基づいて画像オブジェクトを検出し、
前記音声付動画像に基づいて音オブジェクトを検出し、
前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトを検出する
ステップを含む処理をコンピュータに実行させ、
前記画像オブジェクトの検出結果に基づく複数の前記音オブジェクトの同時発生確率に基づいて、検出対象とする前記音オブジェクトの絞り込みを行う
プログラム。