JP6367258B2

JP6367258B2 - オーディオ処理装置

Info

Publication number: JP6367258B2
Application number: JP2016084105A
Authority: JP
Inventors: ケマルウグル; ミッコタンミ
Original assignee: ノキアテクノロジーズオーユー
Priority date: 2013-07-09
Filing date: 2016-04-20
Publication date: 2018-08-01
Anticipated expiration: 2034-07-09
Also published as: JP6310793B2; KR20150006799A; GB2516056A; KR101703388B1; EP2824663A3; JP2016178652A; EP2824663B1; GB2516056B; US10142759B2; EP2824663A2; US20150016641A1; US10080094B2; GB201312326D0; US20180084365A1; JP2015019371A

Description

分野

本願はオーディオ処理のための装置に関する。また本願は、それらに限られるわけではないが、オーディオ処理のためのポータブル装置または携帯装置に関する。

背景

電子機器で、音声の録音や、音声付き動画の録画を行うことは、現在では一般的である。プロ用のビデオ撮影装置や、一般消費者向けのビデオカメラやデジタルカメラ、携帯電話、さらにウェブカムのようなシンプルなデバイスまでの様々な装置によって、電子的に動画を撮影することができる。ビデオや、ビデオに関連付けれる音声を記録することは、多くの携帯機器にとって標準的な機能となり、そのような機器における記録品質も急速に向上してきている。携帯機器を使って個人的な経験を記録することは、携帯電話やその他のユーザ機器のような携帯機器にとってますます重要な使用法となっている。このような機能と、ソーシャルメディア等の、効率的なコンテンツ共有の新しい方法とを組み合わせることは、これらの発展の重要性と、電子機器業界にもたらされた新しい機会とに、その基礎がある。

従来の状況において、環境は、三つの空間次元の全てに拡散する複数の音源を有する音場からなっている。脳によりコントロールされる人間の聴覚システムは、この三次元の音場において、これらの音源の場所を特定し、音源を分離し、それを理解するという能力を進化させてきた。例えば脳は、音の波面（wavefront）が我々の両耳に届いたとき、音源からの音の波面に埋め込まれているキュー（cue）を解読することにより、音源の場所を特定しようと試みる。空間認知に関与する最も重要な二つのキューは、両耳間時間差（Interaural Time Differences; ITD）と、両耳間強度差（Interaural Level Differences (ILD）である。例えば、聴く者の前方左側に位置する音源が右耳に届く時間は、左耳に届く時間に比べて長い。この時間差をITDと呼ぶ。また、頭部により影になるため、右耳に届く波面は左耳に届く波面に比べて減衰しており、これがILDをもたらす。さらに、耳介の構造や肩部の反射による波面の変形も、３次元の音場中で音源の位置を特定することに重要な役割を果たす場合がある。従って、これらのキューは聴く者や個人、周波数、三次元音場における音源の位置、聴く者が置かれている環境（例えば無響室、ホールの観客席、居間等）に依存する。

音声−動画記録手段の実装方法はよく知られている。これらの記録・キャプチャは、しばしばノイズの多い環境で行われる。背景ノイズのため、記録される内容の細かい事項は把握することができなくなることがある。このような事態が生じると、それらの細かい事項が何かを把握するために、記録をやり直すように要求されることがある。これは、周辺のノイズがひどく邪魔して議論についていくことが難しいような状況で、会話を録音するような状況では、特に問題となる。周辺や環境のノイズが記録内容の細かい特徴を理解することを妨げないような場合でも、理解するために多くの注意を払わなければならないような状況は、煩わしく、いらいらさせられるものである。

本願のまとめ

本願の特徴は、柔軟なオーディオ処理を可能にするオーディオ処理能力を提供することである。

少なくとも一つのプロセッサと、一つ又は複数のプログラムのためのコンピュータ命令を格納する少なくとも一つのメモリとを備える装置が提供される。前記少なくとも一つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも一つのプロセッサを用いて、前記装置に：少なくとも一つのオーディオ信号を用いて、少なくとも一つの音源を決定することと；前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することと；前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置の移動経路を決定することと；前記決定した移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することと；を遂行させるように構成される。

少なくとも一つのオーディオ信号を用いて、少なくとも一つの音源を決定することとは、前記装置に：前記少なくとも一つのオーディオ信号に関連する少なくとも一つのメタファイルであって、音源の位置情報を含むメタファイルを見つけることと；前記位置情報から少なくとも一つの音源を決定することと；の少なくともいずれかを行わせてもよい。さらに、前記少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定することは、前記装置に、前記位置情報に基づいて前記少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定させてもよい。

前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することは、前記装置にさらに：イメージフレームにおいて、視覚的イメージ要素に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置を決定すること；少なくとも一つのオーディオ信号に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置を決定すること；少なくとも一つのユーザ入力位置を決定することにより、前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定すること；の少なくともいずれかを行わせてもよい。

前記装置はさらに：表示領域内に、前記少なくとも一つの音源の少なくとも一つの視覚的イメージ要素を提供することと；前記少なくとも一つの視覚的イメージ要素に関する少なくとも一つのPOI位置を決定することと；を行うようにされてもよい。ここで、少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することは、前記装置に、少なくとも一つの視覚的要素に関連する少なくとも一つのPOI位置として、少なくとも一つの音源に関する少なくとも一つのPOI位置を決定させてもよい。

表示領域内に、前記少なくとも一つの音源の少なくとも一つの視覚的イメージ要素を提供することは、前記装置に更に：表示領域内に、イメージフレームから、少なくとも一つの視覚的イメージ要素を含む表示イメージを生成することと；少なくとも一つの選択入力を提供するように構成されるタッチインタフェース・ディスプレイに、前記表示イメージを表示することと；を行わせてもよい。また、少なくとも一つの視覚的要素のPOI位置を決定することは、前記装置に、少なくとも一つの選択入力に基づいて少なくとも一つのPOI位置を決定させてもよい。

前記表示イメージを生成することは、前記装置に：少なくとも一つのイメージフレームをキャプチャすることと；少なくとも一つのユーザインタフェース・オーバーレイ要素を生成することと；少なくとも一つの視覚的要素を含む前記表示イメージを生成すべく、前記少なくとも一つのイメージフレームと、前記少なくとも一つのユーザインタフェース・オーバーレイ要素とを結合することと；を行わせてもよい。

少なくとも一つのユーザインタフェース・オーバーレイ要素を生成することは、前記装置に：少なくとも一つの音源のPOI位置を示すオーバーレイを生成することと；少なくとも一つの音源に関する少なくとも一つのPOI位置が、イメージフレームの視野外にあることを強調するオーバーレイを生成することと；少なくとも一つの音源に関する少なくとも一つのPOI位置に基づいて処理中の焦点範囲及び焦点方向を示す、焦点領域オーバーレイを生成することと；少なくとも一つの更なるユーザインタフェース・オーバーレイ要素を生成する状態を示すように構成される処理オーバーレイを生成することと；決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの増幅利得を示すように構成される、焦点増幅オーバーレイを生成することと；決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの減衰の度合いを示すように構成される、焦点減衰オーバーレイを生成することと；焦点当て処理を反転するトグル状態を表示するように構成される、焦点反転オーバーレイを生成することと；装置の周囲の方向の増幅プロファイルを示すように構成される、焦点増幅プロファイル・オーバーレイを生成することと；の少なくともいずれかを行わせてもよい。

前記装置は、少なくとも一つの音源に関する少なくとも一つのPOI位置に関連する少なくとも一つの制御入力を提供するようにされてもよい。例えば、決定された移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することは、前記装置に、前記少なくとも一つの制御入力に基づき少なくとも一つのオーディオ信号を再生させる。

前記少なくとも一つの位置に関連する少なくとも一つの制御入力を提供することは、前記装置に：少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理幅；少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理範囲；少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点増幅ファクタ；少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点減衰ファクタ；少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外増幅ファクタ；少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外減衰ファクタ；の少なくともいずれかを提供させてもよい。

前記少なくとも一つのオーディオ信号は少なくとも２つのオーディオ信号を含み、少なくとも一つのオーディオ信号を用いて少なくとも一つの音源を決定することとは、前記装置に：前記少なくとも２つのオーディオ信号から、前記少なくとも一つの音源が位置に関する値を含むことを決定することと；前記少なくとも一つの音源に関する前記一つのPOI位置内に少なくとも一つの音源を決定することと；の少なくともいずれかを行わせてもよい。

前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置の移動経路を決定することは、前記装置に：前記少なくとも一つのPOI位置において、少なくとも一つの視覚的イメージ要素及び／又は前記少なくとも一つの音源に関する少なくとも一つの特徴を決定することと；前記少なくとも一つの視覚的イメージ要素及び／又は前記少なくとも一つの音源に関する少なくとも一つの特徴をそれぞれ追跡することと；前記少なくとも一つの特徴の移動経路を決定することと；を行わせてもよい。

前記装置は、前記少なくとも一つのオーディオ信号を、少なくとも２つのマイク；装置のメモリ；少なくとも一つの他の装置；のいずれかから受け取るようにされてもよい。

前記装置はさらに：前記少なくとも一つの位置が決定される、少なくとも一つのキャプチャされたイメージフレームを受け取るようにされ、前記少なくとも一つのキャプチャされたイメージフレームは、少なくとも一つのカメラ；メモリ；少なくとも一つの他の装置；のいずれかから受け取られる。

本発明の第２の側面によれば、次のような装置が提供される。この装置は、少なくとも一つのオーディオ信号を用いて、少なくとも一つの音源を決定する手段と；前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定する手段と；前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置の移動経路を決定する手段と；前記決定した移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生する手段と；を備える。

少なくとも一つのオーディオ信号を用いて少なくとも一つの音源を決定する前記手段は：前記少なくとも一つのオーディオ信号に関連する少なくとも一つのメタファイルであって、音源の位置情報を含むメタファイルを見つける手段；前記位置情報から少なくとも一つの音源を決定する手段；の少なくともいずれかを備えてもよく、さらに、前記少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定する手段は、前記位置情報に基づいて前記少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定する手段を備えてもよい。

前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定する手段は、さらに：イメージフレームにおいて、視覚的イメージ要素に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置を決定する手段；少なくとも一つのオーディオ信号に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置を決定する手段；少なくとも一つのユーザ入力位置を決定することにより、前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定する手段；の少なくともいずれかを備えてもよい。

前記装置はさらに、表示領域内に、前記少なくとも一つの音源の少なくとも一つの視覚的イメージ要素を提供する手段；前記少なくとも一つの視覚的イメージ要素に関する少なくとも一つのPOI位置を決定する手段；を備えてもよい。

また、少なくとも一つの音源に関する少なくとも一つのPOI位置を決定する手段は、少なくとも一つの視覚的要素に関連する少なくとも一つのPOI位置として、少なくとも一つの音源に関する少なくとも一つのPOI位置を決定する手段を備えてもよい。

表示領域内に、前記少なくとも一つの音源の少なくとも一つの視覚的イメージ要素を提供する前記手段は；表示領域内に、イメージフレームから、少なくとも一つの視覚的イメージ要素を含む表示イメージを生成する手段；少なくとも一つの選択入力を提供するように構成されるタッチインタフェース・ディスプレイに、前記表示イメージを表示する手段；を備えてもよい。また、少なくとも一つの視覚的要素のPOI位置を決定する手段は、少なくとも一つの選択入力に基づいて少なくとも一つのPOI位置を決定する手段を備えてもよい。

表示イメージを生成する前記手段は：少なくとも一つのイメージフレームをキャプチャする手段と；少なくとも一つのユーザインタフェース・オーバーレイ要素を生成する手段と；少なくとも一つの視覚的要素を含む前記表示イメージを生成すべく、前記少なくとも一つのイメージフレームと、前記少なくとも一つのユーザインタフェース・オーバーレイ要素とを結合する手段と；を備えてもよい。

少なくとも一つのユーザインタフェース・オーバーレイ要素を生成する前記手段は：少なくとも一つの音源のPOI位置を示すオーバーレイを生成する手段；少なくとも一つの音源に関する少なくとも一つのPOI位置が、イメージフレームの視野外にあることを強調するオーバーレイを生成する手段；少なくとも一つの音源に関する少なくとも一つのPOI位置に基づいて処理中の焦点範囲及び焦点方向を示す、焦点領域オーバーレイを生成する手段；少なくとも一つの更なるユーザインタフェース・オーバーレイ要素を生成する状態を示すように構成される処理オーバーレイを生成する手段；決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの増幅利得を示すように構成される、焦点増幅オーバーレイを生成する手段；決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの減衰の度合いを示すように構成される、焦点減衰オーバーレイを生成する手段；焦点当て処理を反転するトグル状態を表示するように構成される、焦点反転オーバーレイを生成する手段；装置の周囲の方向の増幅プロファイルを示すように構成される、焦点増幅プロファイル・オーバーレイを生成する手段；の少なくともいずれかを備えてもよい。

前記装置は、少なくとも一つの音源に関する少なくとも一つのPOI位置に関連する少なくとも一つの制御入力を提供する手段を備えてもよい。また、決定された移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生する手段は、前記少なくとも一つの制御入力に基づき少なくとも一つのオーディオ信号を再生する手段を備えてもよい。

前記少なくとも一つの位置に関連する少なくとも一つの制御入力を提供する手段は：少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理幅を提供する手段；少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理範囲を提供する手段；少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点増幅ファクタを提供する手段；少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点減衰ファクタを提供する手段；少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外増幅ファクタを提供する手段；少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外減衰ファクタを提供する手段；の少なくともいずれかを備えてもよい。

前記少なくとも一つのオーディオ信号は少なくとも２つのオーディオ信号を含み、少なくとも一つのオーディオ信号を用いて少なくとも一つの音源を決定する前記手段は：前記少なくとも２つのオーディオ信号から、前記少なくとも一つの音源が位置に関する値を含むことを決定する手段；前記少なくとも一つの音源に関する前記一つのPOI位置内に少なくとも一つの音源を決定する手段；の少なくともいずれかを備えてもよい。

前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置の移動経路を決定する手段は：前記少なくとも一つのPOI位置において、少なくとも一つの視覚的イメージ要素及び／又は前記少なくとも一つの音源に関する少なくとも一つの特徴を決定する手段と；前記少なくとも一つの視覚的イメージ要素及び／又は前記少なくとも一つの音源に関する少なくとも一つの特徴をそれぞれ追跡する手段と；前記少なくとも一つの特徴の移動経路を決定する手段と；を備えてもよい。

前記装置は、前記少なくとも一つのオーディオ信号を、少なくとも２つのマイク；装置のメモリ；少なくとも一つの他の装置；のいずれかから受け取る手段を備えてもよい。

前記装置はさらに、前記少なくとも一つの位置が決定される、少なくとも一つのキャプチャされたイメージフレームを受け取る手段をさらに備えてもよく、前記少なくとも一つのキャプチャされたイメージフレームは、少なくとも一つのカメラ；メモリ；少なくとも一つの他の装置；のいずれかから受け取られてもよい。

本発明の第３の側面によれば、次のような方法が提供される。この方法は、少なくとも一つのオーディオ信号を用いて、少なくとも一つの音源を決定することと；前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することと；前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置の移動経路を決定することと；前記決定した移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することと；前記少なくとも一つのオーディオ信号に関連する少なくとも一つのメタファイルであって、音源の位置情報を含むメタファイルを見つけることと；前記位置情報から少なくとも一つの音源を決定することと；を含む。さらに前記方法は、前記少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定することは、前記位置情報に基づいて前記少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定することを含む。

前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することは：イメージフレームにおいて、視覚的イメージ要素に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置を決定すること；少なくとも一つのオーディオ信号に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置を決定すること；少なくとも一つのユーザ入力位置を決定することにより、前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定すること；の少なくともいずれかを含んでもよい。

前記方法はさらに、表示領域内に、前記少なくとも一つの音源の少なくとも一つの視覚的イメージ要素を提供することと；前記少なくとも一つの視覚的イメージ要素に関する少なくとも一つのPOI位置を決定することと；を含んでもよい。また、少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することは、少なくとも一つの視覚的要素に関連する少なくとも一つのPOI位置として、少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することを含んでもよい。

表示領域内に、前記少なくとも一つの音源の少なくとも一つの視覚的イメージ要素を提供することは：表示領域内に、イメージフレームから、少なくとも一つの視覚的イメージ要素を含む表示イメージを生成することと；少なくとも一つの選択入力を提供するように構成されるタッチインタフェース・ディスプレイに、前記表示イメージを表示することと；を含んでもよい。また、少なくとも一つの視覚的要素のPOI位置を決定することは、少なくとも一つの選択入力に基づいて少なくとも一つのPOI位置を決定することを含んでもよい。

表示イメージを生成することは：少なくとも一つのイメージフレームをキャプチャすることと；少なくとも一つのユーザインタフェース・オーバーレイ要素を生成することと；少なくとも一つの視覚的要素を含む前記表示イメージを生成すべく、前記少なくとも一つのイメージフレームと、前記少なくとも一つのユーザインタフェース・オーバーレイ要素とを結合することと；を含んでもよい。

前記少なくとも一つのユーザインタフェース・オーバーレイ要素を生成することは：少なくとも一つの音源のPOI位置を示すオーバーレイを生成すること；少なくとも一つの音源に関する少なくとも一つのPOI位置が、イメージフレームの視野外にあることを強調するオーバーレイを生成すること；少なくとも一つの音源に関する少なくとも一つのPOI位置に基づいて処理中の焦点範囲及び焦点方向を示す、焦点領域オーバーレイを生成すること；少なくとも一つの更なるユーザインタフェース・オーバーレイ要素を生成する状態を示すように構成される処理オーバーレイを生成すること；決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの増幅利得を示すように構成される、焦点増幅オーバーレイを生成すること；決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの減衰の度合いを示すように構成される、焦点減衰オーバーレイを生成すること；焦点当て処理を反転するトグル状態を表示するように構成される、焦点反転オーバーレイを生成すること；装置の周囲の方向の増幅プロファイルを示すように構成される、焦点増幅プロファイル・オーバーレイを生成すること；の少なくともいずれかを含んでもよい。

前記方法は、少なくとも一つの音源に関する少なくとも一つのPOI位置に関連する少なくとも一つの制御入力を提供することを含んでもよい。また、決定された移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することは、前記少なくとも一つの制御入力に基づき少なくとも一つのオーディオ信号を再生することを含んでもよい。

前記少なくとも一つの位置に関連する少なくとも一つの制御入力を提供することは：少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理幅を提供すること；少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理範囲を提供すること；少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点増幅ファクタを提供すること；少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点減衰ファクタを提供すること；少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外増幅ファクタを提供すること；少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外減衰ファクタを提供すること；の少なくともいずれかを含んでもよい。

前記少なくとも一つのオーディオ信号は少なくとも２つのオーディオ信号を含み、少なくとも一つのオーディオ信号を用いて、少なくとも一つの音源を決定することとは：前記少なくとも２つのオーディオ信号から、前記少なくとも一つの音源が位置に関する値を含むことを決定すること；前記少なくとも一つの音源に関する前記一つのPOI位置内に少なくとも一つの音源を決定すること；の少なくともいずれかを含んでもよい。

前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置の移動経路を決定することは：前記少なくとも一つのPOI位置において、少なくとも一つの視覚的イメージ要素及び／又は前記少なくとも一つの音源に関する少なくとも一つの特徴を決定することと；前記少なくとも一つの視覚的イメージ要素及び／又は前記少なくとも一つの音源に関する少なくとも一つの特徴をそれぞれ追跡することと；前記少なくとも一つの特徴の移動経路を決定することと；を含んでもよい。

前記方法は、前記少なくとも一つのオーディオ信号を、少なくとも２つのマイク；装置のメモリ；少なくとも一つの他の装置；のいずれかから受け取ることを含んでもよい。

前記方法は：前記少なくとも一つの位置が決定される、少なくとも一つのキャプチャされたイメージフレームを受信することを含んでもよい。

ここで前記少なくとも一つのキャプチャされたイメージフレームは、少なくとも一つのカメラ；メモリ；少なくとも一つの他の装置；のいずれかから受け取られてもよい。

本発明の第４の側面によれば、次のような装置が提供される。この装置は、少なくとも一つのオーディオ信号を用いて少なくとも一つの音源を決定するように構成される空間オーディオアナライザと；前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定するように構成される位置決定部と；前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置の移動経路を決定するように構成される移動経路決定部と；前記決定した移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより前記少なくとも一つのオーディオ信号を再生するように構成される処理部と；を備える。

前記空間オーディオアナライザは：前記少なくとも一つのオーディオ信号に関連する少なくとも一つのメタファイルであって、音源の位置情報を含むメタファイルを見つけるメタデータ決定部；前記位置情報から少なくとも一つの音源を決定する空間アナライザ；の少なくともいずれかを備えてもよい。

また、前記位置決定部は、前記音源位置情報に基づいて、前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定するように構成されてもよい。

前記位置決定部は：イメージフレームにおいて、視覚的イメージ要素に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置を決定するように構成されるイメージ位置決定部；少なくとも一つのオーディオ信号に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置を決定するように構成されるオーディオ位置決定部；少なくとも一つのユーザ入力位置を決定することにより、前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定するように構成されるユーザインタフェース入力部；の少なくともいずれかを備えてもよい。

前記装置はさらに、表示領域内に、前記少なくとも一つの音源の少なくとも一つの視覚的イメージ要素を提供するように構成されるビジュアルプロセッサと；前記少なくとも一つの視覚的イメージ要素に関する少なくとも一つのPOI位置を決定するように構成されるタッチコントローラと；を備えてもよい。

また、前記位置決定部は、少なくとも一つの視覚的要素に関連する少なくとも一つのPOI位置として、少なくとも一つの音源に関する少なくとも一つのPOI位置を決定するように構成されてもよい。

前記ビジュアルプロセッサは：表示領域内に、イメージフレームから、少なくとも一つの視覚的イメージ要素を含む表示イメージを生成することと；少なくとも一つの選択入力を提供するように構成されるタッチインタフェース・ディスプレイに、前記表示イメージを表示することと；を行うように構成されてもよい。

また、前記位置決定部は、前記少なくとも一つの選択入力に基づいて、前記少なくとも一つのPOI位置を決定するように構成されてもよい。

前記ビジュアルプロセッサは：少なくとも一つのキャプチャされたイメージフレームを受け取ることと；少なくとも一つのユーザインタフェース・オーバーレイ要素を生成することと；少なくとも一つの視覚的要素を含む前記表示イメージを生成すべく、前記少なくとも一つのキャプチャされたイメージフレームと、前記少なくとも一つのユーザインタフェース・オーバーレイ要素とを結合することと；を行うように構成されてもよい。

前記少なくとも一つのユーザインタフェース・オーバーレイ要素を生成するように構成された前記ビジュアルプロセッサは、少なくとも一つの音源のPOI位置を示すオーバーレイ；少なくとも一つの音源に関する少なくとも一つのPOI位置が、イメージフレームの視野外にあることを強調するオーバーレイ；少なくとも一つの音源に関する少なくとも一つのPOI位置に基づいて処理中の焦点範囲及び焦点方向を示す、焦点領域オーバーレイ；少なくとも一つの更なるユーザインタフェース・オーバーレイ要素を生成する状態を示すように構成される処理オーバーレイ；決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの増幅利得を示すように構成される、焦点増幅オーバーレイ；決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの減衰の度合いを示すように構成される、焦点減衰オーバーレイ；焦点当て処理を反転するトグル状態を表示するように構成される、焦点反転オーバーレイ；装置の周囲の方向の増幅プロファイルを示すように構成される、焦点増幅プロファイル・オーバーレイ；の少なくともいずれかを生成するように構成されてもよい。

前記装置は、少なくとも一つの音源に関する少なくとも一つのPOI位置に関連する制御入力部を備えてもよい。また、前記プロセッサは、前記少なくとも一つの制御入力部に基づいて前記少なくとも一つのオーディオ信号を再生するように構成されてもよい。

前記制御入力部は：少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理幅；少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理範囲；少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点増幅ファクタ；少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点減衰ファクタ；少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外増幅ファクタ；少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外減衰ファクタ；の少なくともいずれかを提供するように構成されてもよい。

前記少なくとも一つのオーディオ信号は少なくとも２つのオーディオ信号を含み、前記空間オーディオアナライザは：前記少なくとも２つのオーディオ信号から、位置に関する値を含む前記少なくとも一つの音源；前記少なくとも一つの音源に関する前記一つのPOI位置内に少なくとも一つの音源；の少なくともいずれかを決定するように構成されてもよい。

前記移動経路決定部は：前記少なくとも一つのPOI位置において、少なくとも一つの視覚的イメージ要素及び／又は前記少なくとも一つの音源に関する少なくとも一つの特徴を決定するように構成される特徴決定部と；前記少なくとも一つの視覚的イメージ要素及び／又は前記少なくとも一つの音源に関する少なくとも一つの特徴をそれぞれ追跡するように構成される特徴追跡部と；前記少なくとも一つの特徴の移動経路を決定するように構成される特徴移動経路決定部と；を備えてもよい。

前記装置は、前記少なくとも一つのオーディオ信号を、少なくとも２つのマイク；装置のメモリ；少なくとも一つの他の装置；のいずれかから受け取るように構成される入力部を備えてもよい。

前記装置はさらに、前記少なくとも一つの位置が決定される、少なくとも一つのキャプチャされたイメージフレームを受信するように構成されるイメージ入力部を備えてもよい。

本発明の第５の側面によれば、次のような装置が提供される。この装置は、少なくとも一つの送受信機と；少なくとも一つの表示装置と；少なくとも一つのサウンド再生トランスデューサーと；少なくとも１つのプロセッサと；少なくとも一つのメモリと；少なくとも一つのオーディオ信号を用いて少なくとも一つの音源を決定するように構成される空間オーディオアナライザと；前記少なくとも一つの音源に関する少なくとも一つのPOI位置を決定するように構成される位置決定部と；前記少なくとも一つの音源に関する前記少なくとも一つのPOI位置の移動経路を決定するように構成される移動経路決定部と；前記決定した移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより前記少なくとも一つのオーディオ信号を再生するように構成される処理部と；を備える。

媒体に格納されるコンピュータプログラムが、上述の方法を装置に遂行させてもよい。

電子機器が上述の装置を備えていてもよい。

チップセットが上述の装置を備えていてもよい。

本願の実施形態は、技術分野における現状の問題に対処することを目的とする。

本願の深い理解に資すべく、例として添付図面を参照されたい。
実施形態を実装するために適切な装置を図示したものである。実施形態を実装するために適切な、オーディオ・ビデオ処理装置をさらに詳しく図示したものである。ある実施形態に従う、図２に図示した装置の流れ図である。例示的なオーディオ・ビデオキャプチャのシナリオを示したものである。焦点を当てたオーディオ・ビデオソースを特定するためのユーザ入力が存在する、例示的なオーディオ・ビデオキャプチャのシナリオを示したものである。例示的なオーディオ・ビデオキャプチャのシナリオを示したものであり、焦点が当てられたオーディオ・ビデオソースが視覚的に示されている。例示的なオーディオ・ビデオキャプチャのシナリオを示したものであり、焦点が当てられたオーディオ・ビデオソースが視覚的に示されていると共に、当該オーディオ・ビデオソースが追跡されている。例示的なオーディオ・ビデオキャプチャのシナリオを示したものであり、焦点が当てられたオーディオ・ビデオソースが視覚的に示されている。また、例示的なオーディオ波形も示されており、キャプチャしたオーディオ信号のうち焦点が当てられたものと当てられていないものが示されている。例示的なオーディオ・ビデオキャプチャのシナリオを示したものであり、焦点が当てられたオーディオ・ビデオソースが視覚的に示されている。また、例示的なオーディオ波形も示されており、キャプチャしたオーディオ信号のうち焦点が当てられ追跡されているものと、焦点が当てられておらず追跡されていないものが示されている。例示的なオーディオ・ビデオキャプチャのシナリオを示したものであり、焦点が当てられているオーディオ・ビデオソースを視覚的に特定するためのビデオ処理が示されている。例示的なオーディオ・ビデオキャプチャのシナリオを示したものであり、焦点が当てられているオーディオ・ビデオソースがスクリーンをどこに離れているかを視覚的に特定するためのビデオ処理が示されている。ある実施形態に従う装置の動作の概要の流れ図である。

本願の実施形態

以下、効率的なオーディオ処理を提供するために適切な装置及びメカニズムを詳細に説明する。

本明細書で説明するように、オーディオイベントは、複数のマイクをアレイで用いることにより（すなわち配列して用いることにより）、効率的にキャプチャすることが可能である。

複数のマイクは効率的にオーディオイベントをキャプチャするために使用されうる。しかし、その信号が収録された時に自らもそこにいたように聴く者に思わせうるように、キャプチャした信号を変換することは、しばしば困難である。特に、収録された又はキャプチャされたオーディオ信号においては、空間を表現する成分が失われる可能性がある。それは、リスナーが音源の方向を感知することができず、またはリスナーが、収録された又はキャプチャされたオーディオイベントと同じような形でリスナーの周囲の雰囲気を感知することができないからである。

様々な方向に存在する複数の音源を含む空間信号を表現するために、マルチチャネルのシステムを使用することができる。例えば、５．１チャネルでセットアップされたシステムがよく用いられている。このようなシステムは、複数のマイクを有するシステムにより収録された空間イベントを表現するために使用されうる。複数のマイクによるレコーディング又はキャプチャの結果を適切なマルチチャネルのオーディオ信号形式に変換するための効率的な手法については、これまでにも議論されてきている。

マルチチャネルシステムの他にも、ヘッドホンを使って再生を行う場合、バイノーラル・オーディオ信号形式によっても空間オーディオを表現することができる。複数のマイクにより収録されたオーディオ信号をバイノーラル信号に変換するための手法についても議論されてきている。

これまでのところ、これらの形式は互いに補完しあうものであると理解されている。というのも、バイノーラル信号は通常モバイルユーザにとって好適なものであり、マルチチャネルのシステムは、例えば家やオフィスなどで使用されうるものであるからである。

ある手法では、複数のマイクで収録されたオーディオ信号は、音源の方向の情報を含む、暫定的な空間オーディオ形式の信号に変換されることができる。複数のマイクで収録されたオーディオ信号から導き出された音源方向情報の生成は、状況次第で、空間オーディオ信号処理に用いられることができる。空間オーディオ信号処理は、例えばユーザが、空間フィールドにおける特定の部分（例えば興味をそそられるような音源）に集中したいと欲する場合に使用される。

例えばこれは、例えば次のように動作する、"インタラクティブなオーディオ操作"として実装されることができる。
１．音場を収録し、収録した信号から方向情報を解析する。
２．ビデオの収録中に、音声信号を増幅又は減衰させるべく方向情報を指示する。（例えばユーザが画面上でタップすることによって行われる。）
３．音源の方向及び指示された方向に基づき、空間及び方向情報を修正して新たなオーディオ信号を生成する。（例えば所望の方向からの音を増幅することによって行われる。）

さらに、実施形態によっては、"インタラクティブなオーディオ操作"は、オブジェクトの追跡に基づいた操作を提供しうる。例えば、オブジェクトが移動すると、処理動作もそのオブジェクトに追随する。本明細書で紹介される実施例で説明されるコンセプトは、サウンド・オブジェクトの方向を追跡し、この追跡情報を空間オーディオプロセッサに提供することである。従って例えば、処理対象オブジェクトの方向は、（マイクやカメラを有する）装置が移動したり、サウンド・オブジェクトが移動したりすることにより、時間と共に変化しうる。

ある実施形態において、ユーザは、特に関心を引く音源を選択してもよく、装置はその音源を追跡し、追跡した方向における音声収録動作に集中してもよい。

ある実施形態において、この追跡処理は、画像追跡（image tracking）又は視覚追跡（vision tracking）に基づいてもよい。従って例えば、デバイスのスクリーン上でタップすることにより、増幅すべき所望のサウンド・オブジェクトの方向を指示するとき、装置は、指示されたポイントの領域の周りに特徴ポイントを生成する。そして装置は、視覚ベースの追跡アルゴリズムを用いてこれらの特徴ポイントを追跡し、オーディオプロセッサに提供されるべき追跡方向情報を生成してもよい。

さらに、実施形態によっては、上記追跡処理は、オーディオ・フィンガープリント（audio fingerprint）の追跡に基づいてもよい。従って例えば、ユーザが所望のサウンド・オブジェクトの方向を指示するとき、装置はその方向からのオーディオ信号を分析し、オーディオ・フィンガープリントを生成する。そしてアルゴリズムは、後続の全てのオーディオフレームに対して、収録したオーディオ信号をオーディオ・フィンガープリントとのマッチングを行うことで分析し、オブジェクトの方向を推定する。このため、音源はビューファインダで見えていなくともよく、またカメラの撮影範囲にいなくてもよい。

本明細書で説明されるコンセプトはさらに、実施形態によっては、音が強められるオブジェクトを示すために、視覚的なキューを生成して装置のディスプレイ上に提供することを特徴とする。例えば、実施形態によっては、特定の方向に対応するピクセルの色が強められてもよい。

本明細書で説明される実施形態は、後で再生を行うためのレコーディング・アプリケーションに実装されるだけでなく、音源を動的に変更するリアルタイムアプリケーションや、以前に収録されたオーディオ・ビデオコンテンツに基づいて実装されてもよい。例えば、実施形態によっては、レコーディングされた物に関する適切な実施形態の概要は、次のように表される。
・レコーディング中に、メインのオーディオトラックに加えて、音源の方向に関する情報を示すメタファイルが同時に生成される。オーディオトラックは（例えばステレオやマルチチャネルのオーディオ信号として、又はモノラルのオーディオ信号として）記録され収録される。
・再生中に、音源の方向が選択される。（例えば所望の音源を強調して示すユーザインタフェースによって行われる。）
・追跡メカニズムを用いて、またレコーディング中に得られたメタデータを用いて、計算された音源の方向が強められたオーディオ信号が生成される。

これに関して、まず図１を参照されたい。この図は例示的な装置又は電子機器１０のブロック図である。例示的な装置又は電子機器１０は、オーディオ信号をキャプチャ又はモニタするために使用されてもよい。オーディオ信号をキャプチャ又はモニタすることによって、音源の方向又は動きを決定したり、ユーザインタフェースで使用するために、音源の動きが既知の又は決定されたジェスチャに一致するかどうかを決定したりしてもよい。

装置１０は、例えば移動端末や、無線通信システムにおけるユーザ機器であることができる。実施形態によっては、装置１０は、MP3プレーヤーやメディアレコーダー、（MP４プレーヤーとしても知られる）メディアプレーヤー等のオーディオプレーヤーやオーディオレコーダーであってもよく、ユーザインタフェース入力を要する適当なポータブルデバイスであってもよい。

実施形態によっては、装置１０は、パーソナルコンピュータシステムや、電子ドキュメントリーダー、タブレットコンピュータ、ラップトップコンピュータの一部であってもよい。

実施形態によっては、装置１０は、オーディオ・サブシステムを備えていてもよい。実施形態によっては、オーディオ・サブシステムは、例えば、オーディオ信号をキャプチャするためのマイクやマイクアレイ１１を備えていてもよい。実施形態によっては、マイク（又はマイクアレイの少なくとも一つ）はソリッドステートマイクであってもよい。つまり、アコースティック信号をキャプチャし、適切なデジタル形式音声信号として出力する能力を有するマイクであってもよい。別の実施形態において、マイク又はマイクアレイ１１は、例えばコンデンサーマイクや、静電型マイク、エレクトレットコンデンサーマイク、ダイナミックマイク、リボンマイク、カーボンマイク、圧電マイク、微小電気機械システム（MEMS）マイクであってもよい。実施形態によっては、マイク又はマイクアレイ１１は、生成したオーディオ信号を、A/Dコンバータ（ADC）１４へと出力してもよい。

実施形態によっては、装置又はオーディオ・サブシステムはＡ/Ｄコンバータ１４を備える。Ａ/Ｄコンバータ１４は、キャプチャされたアナログオーディオ信号をマイクから受け取り、適切なデジタル形式にして出力する。Ａ／Ｄコンバータ１４は、アナログ・デジタル変換処理を行う如何なる手段であってもよい。

実施形態によっては、装置１０及びオーディオ・サブシステムは、プロセッサ２１からのデジタルオーディオ信号を適切なアナログ形式に変換するＤ／Ａコンバータ３２を備えてもよい。Ｄ／Ａコンバータ（DAC）又は信号処理手段３２には、如何なるDAC技術を用いてもよい。

さらに実施形態によっては、オーディオ・サブシステムは、スピーカー３３を備えてもよい。実施形態によっては、スピーカー３３は、Ｄ／Ａコンバータ３２の出力を受け取り、アナログのオーディオ信号をユーザに提示することができる。実施形態によっては、スピーカー３３はヘッドセット（例えばヘッドホンとコードレスマイクのセット）を表してもよい。

装置１０は、オーディオキャプチャ要素及びオーディオ再生要素の両方を備えているものとして描かれているが、実施形態によっては、音声収録のためのマイクとＡ／Ｄコンバータしか備えていない装置のような、オーディオキャプチャ要素しか備えていない場合もある。

実施形態によっては、装置のオーディオ・ビデオサブシステムはカメラ５１又はイメージキャプチャ手段を備える。カメラ５１又はイメージキャプチャ手段はイメージデータをプロセッサ２１に出力するように構成される。

実施形態によっては、このカメラは、ビデオストリームを供給すべく、時間と共に複数のイメージ又はフレームを供給するように構成されてもよい。実施形態によっては、装置のオーディオ・ビデオサブシステムは、表示装置５２を備える。ディスプレイ又は表示装置は視覚的イメージ又はビデオフレームを、装置のユーザが見えるように出力するように構成される。実施形態によっては、このディスプレイは、装置に入力を供給するために適したタッチスクリーンディスプレイであることができる。このディスプレイは如何なるディスプレイ技術を用いたものであってもよい。例えば、LCDやLED、OLEDのセルからなるフラットパネルを用いて実装されてもよいし、プラズマディスプレイにより実装されてもよい。

装置１０は、オーディオ／ビデオキャプチャ要素及びオーディオ／ビデオ再生要素の両方を備えているものとして描かれているが、実施形態によっては、オーディオ・サブシステムのオーディオキャプチャ要素及びオーディオ再生部しか備えていない場合もある。例えば実施形態によっては、収録用のマイクロフォンと、再生用のスピーカーしか備えていない場合もある。同様に、実施形態によっては、装置１０は、ビデオサブシステムのうちビデオキャプチャ要素及びビデオ再生部のいずれかしか備えていない場合もある。例えば、ビデオキャプチャ用のカメラ５１とビデオ再生用の表示装置５２のいずれかしか備えていない場合がある。

実施形態によっては、装置１０はプロセッサ２１を備える。プロセッサ２１はオーディオ・サブシステムに組み合わされており、また実施例によっては、特に、オーディオ信号を表すマイク１１からのアナログ信号を受け取るＡ／Ｄコンバータ１４と、処理済みのデジタルオーディオビデオ信号を生成するカメラ５１と、信号を受け取るＤ／Ａコンバータ１２と、プロセッサ２１からの処理済みデジタルビデオ信号を出力する表示装置５２とにも組み合わされている。

プロセッサ２１は、様々なプログラム命令を実行するように構成されることができる。実装されうるプログラム命令は、例えば、ソースの決定、音源の方向の推定、音源処理、ユーザインタフェース動作のためのものであることができる。

実施形態によっては、装置１０はメモリ22を備える。実施形態によっては、プロセッサ２１はメモリ２２に組み合わされる。メモリ２２は、適切な如何なる記憶手段であってもよい。実施形態によっては、メモリ２２は、プログラム命令を格納するプログラム命令セクション２３を有してもよい。プログラム命令セクション２３はプロセッサ２１により実装されうる。さらに、実施形態によっては、メモリ２２は、データ記憶のためのデータ記憶セクション２４を有してもよい。データ記憶セクション２４は、例えば、アプリケーションに従ってキャプチャされたオーディオデータや、本明細書で説明される実施形態に関連して処理されたオーディオデータを記憶する。プログラム命令セクション２３に格納されるプログラム命令と、データ記憶セクション２４に格納されるデータとは、必要な時にはいつでも、メモリ−プロセッサ・カップリングを通じて読み出されることができる。

実施形態によっては、装置１０はユーザインタフェース15を備える。実施形態によっては、ユーザインタフェース１５はプロセッサ２１に組み合わされる。実施形態によっては、プロセッサは、ユーザインタフェース１５の動作を制御し、ユーザインタフェース１５からの入力を受け取ることができる。実施形態によっては、ユーザインタフェース１５は、ユーザが、例えばキーパッドを使って、デバイス又は装置１０に命令を入力することを可能にすることができる。及び／又は、ユーザが、例えばディスプレイを通じて装置１０から情報を受け取ることを可能にする。キーパッドやディスプレイはユーザインタフェース１５の一部である。実施形態によっては、ユーザインタフェース１５は、装置１０への情報入力及び情報の表示の両方が可能なタッチスクリーンやタッチインタフェースを備えることができる。

実施形態によっては、装置１０はさらに、送受信機１３を備える。実施形態によっては、送受信機１３はプロセッサに組み合わされ、例えば無線通信ネットワークを介して、他の装置又は電子機器と通信しうるように構成される。実施形態によっては、送受信機１３、又は他の適当な送受信手段、送信手段、受信機手段、他の電子機器や装置と有線又は無線のカップリングを通じて通信し合うように構成される。

送受信機１３は、さらに別のデバイスと、適切な既知の通信プロトコルによって通信することができてもよい。例えば実施形態によっては、送受信機１３又は送受信手段は、UMTS（universal mobile telecommunications system）プロトコルや、例えばＩＥＥＥ８０２．X等の無線ローカルエリアネットワーク（WLAN）プロトコル、Ｂｌｕｅｔｏｏｔｈ（登録商標）のような短距離無線通信プロトコル、赤外線データ通信路（IrDA）のうち適切なものを使用することができてもよい。

実施形態によっては、送受信機１３は、本明細書で説明される実施形態に従って処理するために、オーディオ信号を送信したり受信したりするように構成される。

実施形態によっては、装置１０は、装置１０の位置を推定するように構成される位置センサ１６を備える。

実施形態によっては、位置センサ１６は、GPS（Global Positioning System）やGLONASS、ガリレオレシーバのような衛星測位システムであってもよい。

実施形態によっては、位置センサ１６は、セルラIDシステムやassisted-GPSシステムであってもよい。

実施形態によっては、装置１０はさらに、方向又はを方位センサを備える。

実施形態によっては、方位／方向センサは電子コンパス、加速度計、ジャイロスコープであってもよい。実施形態によっては、位置推定を用いて装置の動きを決定することによる検出装置であってもよい。

装置１０の構成は、様々に補完され変更されてもよい。

図２には、ある実施形態に従う、オーディオ処理装置が詳細に描かれている。また、この装置の動作を図３を用いて説明する。

ここで説明される装置は、少なくとも二つのマイクを含むマイクアレイと、それに関連して設けられるＡ／Ｄコンバータを備える。Ａ／Ｄコンバータは、マイクアレイからの信号を、後の処理に適したデジタル形式の信号に変換する。マイクアレイは、例えば、装置の端部に配されてもよく、各個別マイクがそれぞれ互いに距離ｄをおいて配されてもよい。従って、オーディオ信号はマイクアレイによりキャプチャされたものと考えることができる。このオーディオ信号は、空間オーディオアナライザ１０１へと渡される。

例えば、例示的のマイクアレイは、第１のマイクと第２のマイクと第３のマイクを備えてもよい。この例において、これらのマイクはそれぞれ正三角形の頂点に配される。しかし、これらのマイクはその他の如何なる適切な形状又は配置に配されてもよい。この例において、各個別マイクは互いに距離ｄだけ離れており、アレイを構成する個別マイクのペアの各々は、アレイを構成する他のペアに対して１２０°ずれて配されていると考えることができる。各マイクが互いに離れていることから、音源１３１から受け取るオーディオ信号は、例えば、第1のマイク（例えばマイク２）に先に到着し、他のマイク（例えばマイク３）には後で到着する。この状況は、例えば、第1の時点で生じる時間領域のオーディオ信号f1(t)と、第2のマイクに関して（時間遅延値ｂだけ）遅れた時間において第3のマイクで受信された同じオーディオ信号f2(t) と、によって見ることができる。

以下の例では、１つのマイクペアに関するオーディオ信号の処理が説明される。しかし、マイクアレイ構成は、複数のペアによってその規模を拡大させることができることに留意されたい。各マイクペアは、音源をモニタするための線または平面を規定する。これらの線または平面は、一次元（例えば方位角又は仰角）、二次元（方位角及び仰角）、三次元（方位角，仰角，距離）に関して音源をモニタするために、互いにオフセットしている。

アコースティック信号のキャプチャ又はマイクによる音声信号の生成の動作が、図3のステップ201で示されている。

実施形態によっては、オーディオ信号のキャプチャは、画像又はビデオフレームのキャプチャと同時に又は並行して行われる。

例えば、実施形態によっては、装置は一つ又は複数のカメラ５１を備える。カメラ５１は、装置の周囲のイメージ又はビデオ形式の連続したイメージを生成又はキャプチャするように構成される。ある実施形態において、カメラ５１は、これらのイメージを追跡部１０６に出力する。さらに、ある実施形態において、カメラ５１は、視覚的イメージをビジュアルプロセッサ１０７へと渡す。

カメラによりイメージをキャプチャする動作が、図3のステップ202で示されている。

ある実施形態において、オーディオ信号及び／又はビデオイメージの生成は、オーディオ信号及び／又はビデオイメージを受信する動作や、これらをメモリから読み出す動作を指してもよい。つまり、実施形態によっては、オーディオ信号及び／又はビデオイメージの"生成"は、以前に収録した（空間情報付き）オーディオ信号及び／又はビデオイメージを読み出すことであることができる。実施形態によっては、それによってユーザは、その収録時の体験を改めて味わうことができる。また、実施形態によっては、オーディオ信号及び／又はビデオイメージの生成動作は、無線通信リンク又は有線の通信リンクを介してオーディオ／ビデオ信号を受信することを含んでもよい。これらの信号は、例えば、大量の収録コンテンツを格納しているオーディオ−ビジュアルサーバから受信してもよい。以下の例において、生成されたオーディオ信号は、音場の時間領域における表現である。このオーディオ信号は、オーディオ信号の空間表現を生成するべく、空間オーディオアナライザにより処理される。しかし、実施形態によっては、生成されたオーディオ信号が既にオーディオの空間表現であり、従って直接にオーディオプロセッサ１０３へと渡されてもよい。例えば、実施形態によっては、格納されたオーディオ信号を受信又は呼び出してもよいが、このオーディオ信号は、オーディオプロセッサ１０３により処理される空間領域表現の形式を有していてもよい。

実施形態によっては、装置は、空間オーディオアナライザ１０１を備える。空間オーディオアナライザ１０１は、マイクにより生成されたオーディオ信号や、通信リンク又はメモリを通じて受け取ったオーディオ信号に基づいて、音源の方向や位置の推定結果を得るための方向解析（directional analysis）を行うように構成される。実施形態によってはさらに、音源に関連するオーディオ信号や、周囲の音に関するオーディオ信号を生成するように構成される。空間オーディオアナライザ１０１は、決定した、方向性を有する音源情報と、周囲の音についてのパラメータを、プロセッサ１０３又は適切な空間をオーディオプロセッサへと出力するように構成されてもよい。実施形態によっては、空間オーディオアナライザ１０１の出力は、追跡部１０６へと出力されるように構成されてもよい。

音源の決定及び環境パラメータの決定処理が、図３のステップ２０３で示されている。この決定処理は、例えば、少なくとも一つのオーディオ信号から音源の空間的方向又は空間位置を推定することを含んでもよい。

実施形態によっては、空間オーディオアナライザは、少なくとも一つのオーディオ信号に関連する少なくとも一つのメタファイルであって、音源の位置情報を含むメタファイルを見つけるように構成されるメタファイル検出部を備えてもよい。つまり、実施形態によっては、少なくとも一つのオーディオ信号が処理されるが、そのオーディオ信号にはメタファイル又はメタデータが関連付けられており、そのメタファイル又はメタデータは、そのオーディオ信号の音源の情報を含んでいる。

空間オーディオアナライザの例は本明細書でより詳細に説明される。なお、本明細書で説明されるものの他にも、到来する音の方向を推定するために適した如何なる方法が用いられてもよいことは注意されたい。例えば、本明細書では、周波数領域における方向解析が説明されているが、実施形態によっては時間領域で方向解析が行われてもよい。ここで説明される装置は、少なくとも二つのマイクを含むマイクアレイと、それに関連して設けられるＡ／Ｄコンバータを備えることができる。Ａ／Ｄコンバータは、マイクアレイの少なくとも二つのマイクからの信号を、後の処理に適したデジタル形式の信号に変換する。マイクアレイの各マイクは、例えば、装置の端部に配されてもよく、各マイクがそれぞれ互いに距離ｄをおいて配されてもよい。従って、オーディオ信号はマイクアレイによりキャプチャされたものと考えることができる。このオーディオ信号は、空間オーディオアナライザへと渡される。

ある実施形態において、空間オーディオアナライザはフレーム作成部を備える。フレーム作成部は、マイクからオーディオ信号を受信し、デジタル形式の信号をフレーム（又はオーディオサンプルデータのグループ）に分割する。実施形態によっては、フレーム作成部はさらに、適切な窓関数を使ってデータにウィンドウをかけるように構成されてもよい。フレーム作成部は各マイク入力につきオーディオ信号データのフレームを生成するように構成されてもよい。各フレームの長さやフレーム同士の重なり合いの度合いは適切な様々な値になりうる。例えば、実ｓ施形態によっては、各オーディオフレームは２０ミリ秒の長さを有し、隣接するフレーム同士に１０ミリ秒の重なり合いが設けられる。フレーム作成部はフレーム化したオーディオデータを時間周波数変換部（Time-to-Frequency Domain Transformer）に出力するように構成されてもよい。

実施形態によっては、空間オーディオアナライザは時間周波数変換部を備えるように構成される。時間周波数変換部は、フレーム化されたオーディオデータに対して、適切な時間周波数変換を行うように構成されてもよい。実施形態によっては、時間周波数変換部は、離散フーリエ変換器（Discrete Fourier Transformer；DTF）である。しかし、他の適切な変換手段であってもよく、例えば離散コサイン変換器（Discrete Cosine Transformer；DCT）や、修正離散コサイン変換器（Modified Discrete Cosine Transformer；MDCT）、直交ミラーフィルタ（quadrature mirror filter；QMF）であってもよい。

時間周波数変換部は、各マイク入力に対して周波数領域の信号を出力するように構成されてもよい。この出力は、サブ帯域フィルタへ出力されてもよい。ある実施形態において、空間オーディオアナライザはサブ帯域フィルタを備える。サブ帯域フィルタは、各マイクについて周波数領域信号を時間周波数変換部から受け取り、これらの信号をそれぞれいくつかのサブ帯域に分割するように構成されてもよい。以下の例において、サブ帯域フィルタはB個のサブ帯域信号を生成するように構成されることとする。各サブ帯域には値b ∈ [0, B-1]によってインデックスが付けられる。

サブ帯域分割には適切な如何なる手法を用いてもよい。例えば、実施形態によっては、サブ帯域フィルタは、音響心理学的なフィルタ・バンクを用いて動作するように構成されてもよい。サブ帯域フィルタは各値域のサブ帯域信号を方向分析部へ出力するように構成されてもよい。

ある実施形態において、空間オーディオアナライザは方向分析部を備える。ある実施形態において、方向分析部は、サブ帯域の各マイクについて、そのサブ帯域及び関連する周波数領域信号を選択するように構成されてもよい。方向分析部は、そのサブ帯域の信号に対して方向分析を行うように構成されてもよい。

ある実施形態において、方向分析部は、当該サブ帯域において、マイクペア間で、周波数領域信号の相互相関をとるように構成されてもよい。そして、そのサブ帯域の周波数領域信号の相互相関値を最大化する遅延値が求められる。ある実施形態において、この遅延値τ_ｂが、そのサブ帯域におけるドミナントなオーディオ信号源の角度を推定するために（又は角度を表すために）使用されうる。この角度をαと定義してもよい。二つのマイクによるペアが第１の角度を与えることができるが、二つより多い数のマイクを使うことにより、方向推定の質を向上させることができる。好ましい実施形態においては、二つ又はそれ以上の角度のために、二つより多いマイクが用いられる。

特に、ある実施形態においては、この方向分析は、オーディオサブ帯域データを受信することと定義されてもよい。本明細書では、ある実施形態に従う方向分析部の動作を説明する。方向分析部は、次のようなサブ帯域データを受け取る。
ここでｎ_ｂは、ｂ番目のサブ帯域の第１のインデックスである。ある実施形態においては、全てのサブ帯域について次のように方向分析が行われる。まず、二つのチャネルを用いて方向が推定される。（本例のマイク構成においては、チャネル２及び３すなわちマイク２および３が用いられる。）方向分析部は、サブ帯域ｂについて、二つのチャネルの相関を最大化する遅延値はτ_ｂであることを見つける。

例えば
のDFT表現は、次の式を用いて、τ_ｂに基づいてシフトされることができる。
ある実施形態において、最適な遅延値は次の式で求められる。
ここでReは実部を表し、＊は複素共役を表す。また、
は、それぞれ（n_b+1-n_b）サンプルの長さのベクトルであるとみなされる。ある実施形態において、方向分析部は、遅延値の探索のために時間領域サンプル１個の分解能で、遅延値の探索を行うようにされてもよい。

ある実施形態において、遅延値情報を得た方向分析部はサム信号を生成する。サム信号は数学的に次のように定義されうる。
つまり方向分析部が生成するように構成されるサム信号において、イベントが最初に生じるチャネルのコンテンツは修正なしで加えられ、そのイベントが後で生じるチャネルのコンテンツは、最初のチャネルになるべく合致するようにシフトされる。

なお、遅延値又はシフト量τ_ｂは、音源が、マイク３に比べてマイク２にどれだけ近いかを示すことに注意されたい。（τ_ｂが正であることは、音源はマイク３よりマイク２に近いことを意味している。）方向分析部は、距離の実際の差を、次のように決定するように構成されてもよい。
ここでF_sは信号のサンプリングレートであり、νは空気中の信号の速度である（水中において収録を行う場合には水中の速度である）。

到来する音の角度は、方向分析部によって次のように決定される。
ここでｄは、ペアを組むマイク同士の距離を表し、ｒは音源と音源に最も近いマイクとの間の推定距離を表す。ある実施形態において、方向分析部は、ｒとして固定値をセットするように構成されうる。例えば、ｒ＝２メートルが、安定的な結果をもたらすことがわかっている。

なお、ここで説明された決定方法が、音の到来方向として、二つの異なる結果をもたらすことに注意されたい。これは、二つのマイクだけでは正確な到来方向を決定することができないからである。

ある実施形態において、方向分析部は、正負の符号のどちらが正しいかを定めるために、第三のチャネル又は第三のマイクからのオーディオ信号を使うように構成されてもよい。第三のチャネル又はマイク（マイク１）と、推定された二つの音源との距離は、次のように表される。
ここでｈは正三角形の高さであり、すなわち：
である。

上の決定方法における距離は、（サンプル数で表した）遅延値：
に等しいと考えられる。

ある実施形態において、方向分析部は、これら二つの遅延値から、サム信号との相関がよい方を選択するように構成されてもよい。この相関は、例えば次のように表されることができる。

そしてある実施形態において、方向分析部は、サブ帯域ｂにおけるドミナントな音源の方向を、次のように決定することができる。

ある実施形態において、空間オーディオアナライザは、中央信号／サイド信号生成部を備える。方向分析に続いて、中央信号／サイド信号生成部は、各サブ帯域に対して、中央信号及びサイド信号を決定するように構成される。中央信号の主要成分は、方向分析により発見されたドミナントな音源によるものである。同様に、サイド信号は、オーディオ信号のその他の部分や環境音を含む。ある実施形態において、中央信号／サイド信号生成部は、あるサブ帯域についての中央信号M及びサイド信号Sを、次の式に従って決定してもよい。

なお、中央信号Mは以前に既に決定した信号と同じものであることに注意されたい。また、実施形態によっては、中央信号は、方向分析の一部から得られることができる。中央信号及びサイド信号は、知覚的に安全な手法で構成されることができる。例えば、最初にイベントが発生したチャネルについての信号は、遅延の調整処理においてシフトされない。実施形態によっては、中央信号及びサイド信号は、マイク同士が比較的近接している場合に適切な手法で決定されてもよい。音源からの距離に対してマイク間の距離が著しい場合、中央信号／サイド信号生成部は、修正された中央信号及びサイド信号決定処理を行うように構成されてもよい。この場合、メインのチャネルとのマッチングが最良になるように、各チャネルが修正される。

ここで、全てのサブ帯域が処理されたどうかを判断してもよい。

全てのサブ帯域が処理された場合、終了処理が行われる。

サブ帯域の全てがまだ処理されていない場合、次のサブ帯域を選択する処理へと進む。

実施形態によっては、装置は、タッチ／ユーザインタフェース・コントローラ１０４を備える。タッチ／ユーザインタフェース１０４は、オーディオプロセッサが焦点を当てることのできる領域または部分または範囲を選択するための少なくとも一つのユーザ入力を受け取るように構成されることができる。ある実施形態において、選択された領域または部分または範囲は、音源が存在する領域または部分または範囲である。例えば、ある実施形態において、タッチ／ユーザインタフェース・コントローラ１０４は、方向又は位置を選択するか、それは例えば、方向に関する値をキーパッドから入力したり、ジョイスティックやポインタを使って方向を選択したりすることによって行われる。ある実施形態において、タッチ／ユーザインタフェース・コントローラ１０４は、カメラによりキャプチャされたイメージを表示するタッチスクリーンディスプレイ（例えば表示装置５２）からユーザ入力を受け取るように構成される。ある実施形態において、タッチ／ユーザインタフェース・コントローラ１０４は、このディスプレイや、装置の既知の方位に基づいて、位置又は方向に関する値を生成するように構成される。ある実施形態において、タッチ／ユーザインタフェース・コントローラ１０４は、追跡部１０６に、位置又は方向（又はより一般的に、「選択」）に関する情報を出力するように構成されることができる。

以下の例において、この選択は、位置又は方向であるが、その他の適切な特徴を選択するようにしてもよい。以下の例は、タッチ・ユーザインタフェースコントローラからのユーザ入力であって、少なくとも一つのPOI（Point of Interest, 興味ポイント）位置を選択するためのユーザ入力が示されている。このPOI位置は少なくとも一つの音源に関連付けられている。選択は、少なくとも一つのユーザ入力の位置を決定することにより行われる。しかし、実施形態によっては、少なくとも一つの音源に関連付けられる少なくとも一つのPOI位置は、別の手段によって決定されうる。例えば、実施形態によっては、少なくとも一つの音源に関連する少なくとも一つのPOI位置の決定は、少なくとも一つのオーディオ信号に関連する少なくとも一つの位置を決定することにより、行われる。つまり、オーディオ信号の処理が、POI位置を示す情報を生成する。例えば、最も大きな音を出す音源、既定の周波数スペクトルに一致する音源等が、POI位置を示す情報となりうる。さらに、実施形態によっては、少なくとも一つの音源に関連する少なくとも一つのPOI位置の決定は、視覚的イメージ要素に関連する少なくとも一つの位置をイメージフレームから決定することにより、行われる。例えば、画像中から装置が追跡すべき形や色が検出されてもよい。例えば「顔」が検出されてもよい。

従って例えば、実施形態によっては、ディスプレイは、ビジュアルプロセッサにより生成されたイメージを表示してもよいが、この表示は、表示を行う範囲の中に、少なくとも一つの音源の少なくとも一つの視覚的イメージ要素を提供してもよい。さらにビジュアルプロセッサは、少なくとも一つの視覚的要素に関連付けられる少なくとも一つのPOI位置を決定してもよい。ここで、少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することは、少なくとも一つの視覚的要素に関連する少なくとも一つのPOI位置として、少なくとも一つの音源に関する少なくとも一つのPOI位置を決定することになる。

実施形態によっては、装置は追跡部106を備える。実施形態によっては、追跡部１０６又は移動経路決定部又は移動経路決定手段は、タッチ／ユーザインタフェース・コントローラ１０４から位置又は選択（又は実施形態によっては少なくとも一つの音源に関連する少なくとも一つのPOI位置）を示す入力を、カメラ５１から画像を含む入力を、空間オーディオアナライザ１０１からオーディオ信号データを含む入力を、それぞれ受け取るように構成されてもよい。ある実施形態において、追跡部１０６は、選択されたものを追跡するように構成されてもよい。ここで、当該追跡は、タッチ／ユーザインタフェース・コントローラからの入力を最初の選択入力として使用し、オーディオ及び／又はビデオ入力を、選択物を追跡するために使用して、行われてもよい。追跡される選択情報は、方向情報や位置、範囲であることができる。そのような選択情報は、空間オーディオプロセッサ１０３及び／又はビジュアルプロセッサ１０７に渡されることができる。

ユーザインタフェース入力の決定や選択された特徴の追跡の処理は、図３においてステップ２０５により示されている。

実施形態によっては、追跡部106は特徴選択部を備える。特徴選択部は、タッチ／ユーザインタフェース・コントローラからユーザインタフェース入力を受け取るように構成され、また、空間オーディオアナライザの出力及びカメラの出力の少なくともいずれかを受け取るように構成される。特徴選択部は、分析された空間オーディオ信号と、カメラのビデオ信号との少なくともいずれかを処理し、ユーザインタフェース入力により選択されたもの（例えば領域・位置・範囲）の中から適切な特徴セットを決定するように構成されることができる。例えば特徴選択部は、処理されるべき所望のサウンド・オブジェクトを示す情報をユーザインタフェースから受け取るように構成されることができる。このユーザインタフェース情報は、実施形態によっては、焦点をあてる方向を示す情報であって、装置の表示装置のスクリーン上のタップであることができる。

視覚情報に基づいて特徴を決定する実施形態において、特徴選択部は、ユーザが示した位置の周りの領域の視覚的記述情報を少なくとも一つ生成するように構成されてもよい。視覚的記述情報は、適切な如何なる視覚的特徴分析によって生成されてもよく、少なくとも一つの視覚的成分又はパラメータを含んでいてもよい。例えば、実施形態によっては、視覚的記述情報は、ユーザが示した位置の周りの領域の画素値（例えば輝度や彩度）を含んでもよい。実施形態によっては、視覚的記述情報は、スケール不変の特徴記述情報（scale invariant feature descriptor；SAFT）を含んでもよい。さらに、実施形態によっては、視覚的記述情報は、角部又は端部検出部により提供される角部又は端部情報や、色や形を記述する情報を含んでもよい。

オーディオ情報に基づいて特徴を定義する実施形態のあるものにおいて、特徴選択部は、空間オーディオアナライザ１０１から、空間的に分析されたオーディオ信号を受信すると共に、方向を示すユーザインタフェース入力を受信するように構成されることができ、また、空間的に分析されたオーディオ信号成分のいずれかと当該方向との一致を試みるように構成されることができる。つまり、装置を囲む音環境の三次元的な像が、主要な（複数の）音源の位置と共に提供され、ユーザは、いずれかの音源を追跡することができる。実施形態によっては、特徴分析部は、示された位置または方向における音源について、アコースティック・フィンガープリント（又はオーディオ記述情報）を生成するように構成されることができる。アコースティック・フィンガープリントは、音源に関する音の特徴又はパラメータの少なくとも一つを解析することにより生成されることができる。例えば、アコースティック・フィンガープリントは、選択されたもの又は選択範囲における音源のスペクトルの特徴を解析することにより生成されることができる。その他にも、様々な特徴又はパラメータ、または特徴及びパラメータの組み合わせも、選択されたもの又は選択範囲における音源のオーディオ・フィンガープリントを定義するために使用されることができる。

実施形態によっては、特徴選択部は、ユーザインタフェースによる位置又は選択を表す視覚的記述情報及び／又はオーディオ・フィンガープリントを、特徴追跡部に供給することができる。

実施形態によっては、追跡部106は特徴追跡部を備える。特徴追跡部は、特徴選択部から、選択された特徴を（視覚的記述情報及び／又はオーディオ・フィンガープリントの形で）受信し、後続のビデオフレーム又はオーディオフレームにおいて、その特徴の追跡を試みる。そして、その特徴の更新された位置（または方向や方位）を空間オーディオプロセッサ及び／又はビデオプロセッサに提供する。

さらに、実施形態によっては、追跡部はさらに、特徴追跡部の出力に基づいて、少なくとも一つの音源に関連する少なくとも一つのPOI位置の移動経路を決定するように構成される移動経路決定部を備える。

そして、画像に基づく追跡手法を採用する実施形態のあるものは、視覚的記述情報の元の位置に対する当該視覚的記述情報の位置を決定すべく、後続のフレームを分析する。それによって、選択されたもの（すなわち処理されるべき音源に関連する選択イメージ）が時間と共に動いたかどうかを決定する。例えば、実施形態によっては、特徴追跡部は、連続する画像フレームにわたる、選択された視覚的記述情報の動きを表すモーションベクトルを生成するように構成される。モーションベクトルは、選択されたものの動きの方向及び速度を表す。視覚的記述情報の追跡手法としては、実施形態によって、どのようなものが用いられてもよい。

ある実施形態において、特徴追跡部により行われる視覚ベースの追跡処理は、次のように行われてもよい。すなわち、例えばカメラが動いたり、追跡中のオブジェクトが動いたりといった理由で、視覚的記述情報がカメラの視野から外れてしまった場合、追跡処理は一時停止することとしてもよい。そして、視覚的記述情報を有する当該オブジェクトが再び視野に入ったときに、追跡処理を再開することとしてもよい。

ある実施形態において、選択されたもの（サウンド・オブジェクト）が見えない場合（例えば選択されたものが視野から外れてしまったり、選択されたものから離れるように装置が動いたりした場合）、特徴追跡部は、オーディオ処理を一時停止するための情報を出力したり、オブジェクトが見えないことを示すメッセージを表示したりするように構成されてもよい。

オーディオ・フィンガープリント（アコースティック・フィンガープリント）追跡を実装する実施形態における特徴追跡部は、フィンガープリントに最もよく適合する音源の位置を決定するために、後続のオーディオフレームの解析を行うように構成されてもよい。例えば、実施形態によっては、特徴追跡部は、はじめに選択された音源の近辺において、その音源と似たような特徴を有する他の音源を検出するように構成されてもよい。実施形態によっては、音の追跡のための特徴追跡部は、どこで音源からの音が中断したか（又はどこで音源が消失したか）を決定するように構成されてもよい。例えば、会話が中断したために、音源の連続性が途切れたところを決定するように構成されてもよい。

実施形態によっては、特徴追跡部は、アコースティック・フィンガープリントまたは視覚的記述情報を監視し続け、アコースティック・フィンガープリントまたは視覚的記述情報が変化するところを決定し、現在のアコースティック・フィンガープリントまたは視覚的記述情報を保持して特徴追跡部が特徴を見失わないようにするように構成されてもよい。例えば、選択されたもの（音源）が人間の声に関連付けられるとき、人が装置の方へ向いたり装置から背を向けたりすると、アコースティック・フィンガープリントが変化するだろう。または、視覚的記述情報も同様に変化するだろ。

実施形態によっては、音ベースの追跡と、視覚ベースの追跡の両方が組み合わされて、追跡の性能や信頼性を向上させようとしてもよい。

特徴追跡部の出力は、空間オーディオプロセッサ１０３及び／又はビジュアルプロセッサ１０７に提供されてもよい。

次の例では、追跡部又は移動経路決定部が、選択されたものの位置を表現する方位（θ）及び幅（ｗ）と、選択されたものの幅（角度等の他の情報であってもよい）を出力するように構成される。これらの出力情報は、装置の基準方位を基準とする情報であってもよい。装置の基準方位は、カメラと同じ方向を向き、その中心線の方向であってもよい。なお、実施形態によっては、その他の適切な一つ又は複数の位置選択パラメータが空間オーディオプロセッサ１０及び／又はビジュアルプロセッサ１０７に提供されてもよい。例えば、位置選択パラメータは方向及び幅を含んでもよく、その方向は、装置の方位とは独立であってもよい。

実施形態によっては、装置は、空間オーディオプロセッサ103を備える。実施形態によっては、オーディオプロセッサは、追跡部１０６から、選択情報又は特徴情報の入力を受けるように構成される。これら選択情報又は特徴情報は、少なくとも一つの音源に関連する少なくとも一つのPOI位置の移動経路の同定に基づくものである。

ここでは、ある実施形態に従う例示的なオーディオプロセッサ１０３が説明される。

実施形態によっては、オーディオプロセッサ１０３は、空間平滑化部及び空間平滑化フィルタ生成部を備える。空間平滑化部及び空間平滑化フィルタ生成部は、定義したセクタの端部で急激な利得の落ち込みを生じさせないように構成される。実施形態によっては、空間平滑化部は、位置選択パラメータを受け取るように構成される。この位置選択パラメータの例には、位置（焦点をあてる方向）や幅がある。また空間平滑化部は、定義したセクタの両端に、追加の平滑化ゾーンを設けるように構成される。例えば、実施形態によっては、定義したセクタの方位及び幅は、セクタの開始方位θ_lowと、終了方位θ_highによって規定される。従って、これらの方位の差は幅ｗである。また、セクタ全体の方位は、上記二つの方位の平均と規定される。

実施形態によっては、平滑化ゾーンの幅w_sは次のように規定される。

w_s = 0.15(|θ_high - θ_low|)

そして、焦点が当てられるセクタの下端と上端に対応する角度項は（θ_low，θ_high）と規定される。また、平滑化ゾーンの下端θ_LSと上端θ_HSはそれぞれ次のように規定される。

(θ_LS = θ_low - w_s，θ_HS = θ_high + w_s)

ある実施形態において、空間平滑化部は、セクタ及び平滑化ゾーンの情報を、空間平滑化フィルタ生成部に出力するように構成される。

実施形態によっては、オーディオプロセッサ１０３は、空間平滑化フィルタ生成部を備える。空間平滑化フィルタ生成部は、空間平滑化部の出力を受け取るように構成される。つまり、平滑化ゾーンの情報と音源の方向情報とを受信するように構成される。そして空間平滑化フィルタ生成部は、平滑化ゾーン内に空間ソース（spatial source）が存在するかどうかを示すブール変数（Boolean variable）を生成するように構成される。ある実施形態において、ブール変数z(b)は、帯域ｂ（a(b)）の推定方向が平滑化ゾーンの中にあるかどうかを示す。z(b)は次のように定義される。

空間平滑化フィルタ生成部は、ブール変数z(b)を、空間フォーカサー（focuser；焦点当て部）に出力することができる。

実施形態によっては、ビジュアルオーディオプロセッサ１０３は、空間フォーカサーを備える。空間フォーカサーは、中央信号（M）及びサイド信号（S）の形で音源の情報を受信するように構成されると共に、空間オーディオアナライザ１０１から音源の位置を表す情報（α）を受信するように構成される。さらに空間フォーカサーは、追跡部１０６から、焦点が当てられているセクタ（焦点セクタ）の情報（θ，ｗ）のような選択パラメータを受信することができると共に、空間平滑化フィルタのブール値z(b)を、空間平滑化フィルタ生成器から受信することができる。そして空間フォーカサーは、音源に対して空間的に焦点を当てることを行うように構成される。

（ポジティブに）焦点を当てることの効果、または焦点を当てるという処理は、焦点セクタ内の音源の増幅を試み、また、そのセクタの外の音源を減衰させることである。さらに、実施形態によっては、空間フォーカサーは、ブール変数z(b)が真である場合、推定した音源位置と、焦点が当てられたセクタの端部との角度差を生成するように構成される。ある実施形態において、焦点が当てられたセクタの端部とa(b)との角度差Δ_minは、次のように計算される。

実施形態によっては、焦点セクタ又は平滑化ゾーンの中に推定された音源が位置している時はいつでも、対応するサブ帯域ｂが増幅され、焦点を当てたことの効果が生成される。対照的に、音源の位置が、空間の中でその他の場所に位置している場合は、サブ帯域ｂは減衰させられる。実施形態によっては、焦点当て処理は、中央信号（M）とサイド信号（S）とで別々に行われ、また、所望の出力モードに応じてそれぞれ異なるものであってもよい。

実施形態によっては、ネガティブな焦点当て又はフィルタ処理をセクタに適用することも可能である。そのような実施形態においては、例えば不要な音源をセクタから除くために、当該セクタ内の音源は減衰させられ、当該セクタの外にある音源が増幅される。ここで紹介した例では、ポジティブな焦点当て動作の効果が一般的に説明されたが、実施形態によっては、セクタ内の音源のための利得又は増幅の項を減衰のためのものに置き換え、セクタの外の音源のための減衰の項を、利得又は増幅の項に置き換えることにより、ネガティブな焦点当て動作の効果も同様に生成されうる。

実施形態によっては、空間フォーカサーは、焦点を当てているセクタ内の音源のための増幅項を生成するように構成されることができる。

実施形態によっては、空間フォーカサーは、音源を処理し、適切なバイノーラル出力を生成するように構成されることができる。例えば、実施形態によっては、サブ帯域ｂに対してバイノーラルモードで適切に増幅又は減衰を行うために、サブ帯域ｂの利得レベルが修正される。実施形態によっては、増幅のために次の増幅項が適用されることができる。
ここでamp(b)は、サブ帯域bに対応する増幅係数である。実施形態によっては、増幅係数はユーザが決めることができる。例えば本明細書で紹介されるユーザインタフェースの例では、スライダを用いて決めることができる。実施形態によっては、全てのサブ帯域ｂ∈｛1, B｝についての増幅係数を同じとしてもよい。実施形態によっては、音場におけるズーム量に基づいて、サブ帯域毎に生成してもよい。ある実施形態において、amp(b)の値の適切な範囲は０．２から０．８の間である。

推定した方向α(b)が平滑化ゾーンの中に位置している時（z(b)=1である時）、増幅項G(b)は、次の式により修正される。
ここで、att(b)はサブ帯域bのための減衰係数である。実施形態によっては、減衰量を規定する減衰定数が定められてもよい。これは、ユーザインタフェースからの入力や、ズーム量に基づく計算に基づいて、定められてもよい。減衰係数att(b)の適切な値は0.1から1.0の範囲である。

これまでの説明で判る通り、平滑化ゾーンは、増幅項G(b)に対して、角度差Δminの関数として線形の減少を生じる。しかし、実施形態によっては、増幅項と減衰係数との間に適切な（線形又は非線形の）補間が施されてもよい。

実施形態によっては、空間フォーカサーは、焦点セクタの外で、且つ平滑化ゾーンの外に位置する音源a(b)に対して減衰処理を行うように構成されることができる。そのような実施形態では、サブ帯域の増幅項は次のように定義される。

さらに、実施形態によっては、受け取った中央信号に対して、頭部に関連する伝達関数係数を用いてフィルタが適用され、左側の中央信号ML(ｂ）及び右側の中央信号MR(ｂ）が作られる。

そして、実施形態によっては、空間フォーカサーは、左側及び右側の中央信号に増幅項を適用し、焦点が当てられた左側及び右側中央信号を作るように構成される。

実施形態によっては、空間フォーカサーは、音源を処理し、適切なマルチチャネル出力を生成するように構成されることができる。そのような実施形態では、空間フォーカサーは、マルチチャネルモードのチャネル位置を決定するように構成されることができる。以下の例では、５チャネルによるマルチチャネル構成が決定され、前方左側（FL）、前方右側（FR）、中央（C）、後方左側（RL）、後方右側（RR）のチャネルが定義される。これらはそれぞれ角度A=[30, -30, 0, 110, -110] 度に対応する。

そして、実施形態によっては、空間フォーカサーは、a(b)との角度差が最も小さなオーディオチャネルを決定するように構成されることができる。これは次のようにして行うことができる。
ここでA(ｊ）はｊ番目のオーディオチャネルの角度を表し、Δ(j)はチャネルｊの角度差を、c₁は推定角度に最も近いチャネルのインデックスを表す。

多くの場合、得られる推定方向はいずれかのチャネルに直接に向いているわけではない。そのため、合成処理の間に、オーディオの分野でいうパニング（panning）を行うことを検討しなければならない。そこで、実施形態によっては、空間フォーカサー８０５は、a(b)の両側に二つのチャネルを決定するように構成されてもよい。実施形態によっては、この決定は、既知のチャネル配置に基づいて行われてもよい。

実施形態によっては、空間フォーカサーは、c₁のいずれの側に角度a(b)が位置するかを決定してもよい。そして、角度差Δ(c₁)の正負によって、上記の側を正の側と定義するか負の側と定義するかを決定してもよい。（すなわち、上述の差の決定からの絶対値を無視してもよい。）上記の側を正の側とする場合、c₁から反時計回り方向に隣接するチャネルは、２番目に近いチャネルc₂と考えられる。反対に、上記の側を負の側とする場合、c₁から時計回り方向に隣接するチャネルを、２番目に近いチャネルc₂と考える。そして空間フォーカサーは、a(b)と第２のチャネルc₂との間の角度差Δ(c₂)を決定してもよい。

実施形態によっては、空間フォーカサー８０５は、決定した二つの角度差の間の関係Rを、0からπ/2でスケーリングして次のように定めるように構成されることができる。

そして実施形態によっては、空間フォーカサーは、この関係を、チャネルの比例利得値を計算するときに適用するように構成されることができる。実施形態によっては、チャネル利得は次の関係に従うものと仮定される。
ここでG₁及びG₂は、それぞれチャネルc₁及びc₂の比例利得である。チャネルの中間点で、利得値はG₁ = G₂ = 1/√2に等しくなる。この仮定に基づけば、サブ帯域bのc₁及びc₂の利得値は次のように決定されうる。

実施形態によっては、５ｃｈモードにおいて、焦点セクタの角度θが−４５°から４５°のいずれかにある場合はいつでも、増幅利得は、二つの最近接チャネルの間で分配されるのではなく、三つのフロントスピーカチャネルの間で分配される。このような方式がとられるのは、フロントスピーカーの間の角度が小さいことが、２つのスピーカーの間でパニングを生じ、特定のフロント焦点方向において、アーチファクトや不自然なオーディオ出力を発生させる可能性があるからである。

なお閾値角度±４５°は経験的に得られた値であり、いくつかの角度値と出力とを対比して得られた値である。しかし、他の閾値が用いられてもよい。

実施形態によっては、空間フォーカサー８０５は、次の表のようなジオメトリカルな分割ルールに基づいて、第２及び第３のチャネルを定義するように構成されてもよい。

これらの場合においては、最近接チャネルと第３のチャネルとの間の関係が決定される。中間点のチャネル利得はG₁=G₂=G₃= 1/√3に更新され、対応する関係は次のように計算される。

従って、チャネル利得は次の関係に従うと仮定される。

すなわち、c₁，c₂，c₃の比例利得値は次のように得られる。

実施形態によっては、空間フォーカサーは、焦点が当てられているチャネルの最終利得値を、比例利得を用いて決定するように構成されることができる。例えば、実施形態によっては、最終利得値は次のように表すことができる。

実施形態によっては、空間フォーカサーは、残り２つのチャネル（パニングにおいて２つのチャネルしか用いられない場合は残り３つ）の利得値を、減衰させるような値に決定するように構成されることができる。焦点当て効果を強調するためである。推定角度a(b)が平滑化ゾーンに属する場合、利得値は次のように更新される。

例示的なスケーリングロジックは、バイノーラルモードに関連して説明したものと同様であることがわかる。

実施形態によっては、空間フォーカサーは、焦点セクタ又は平滑化ゾーンにa(b)入っていない場合は常に、全てのチャネルに対して減衰を行うように構成されてもよい。ただし、焦点角度θに最も近いチャネルに対してだけは減衰を行わない。実施形態によっては、これは、利得値を次のように設定することにより実装することができる。
ここで、iはθに最も近いチャネルのインデックスを表す。このチャネルに対しては操作は行われない。すなわち
これは、焦点が当てられている方向から到来する非ドミナントな音源やオリジナルの背景ノイズが減衰させられることを防ぐためである。というのも、これらの音も、合成出力においては、焦点が当てられているものとして聞こえる必要があるからである。

実施形態によっては、空間フォーカサーは、計算した利得値
に基づいて、実際のチャネルのスケーリング係数
を決定するように構成されることができる。

増幅については次の通り：

減衰については次の通り：

ここで、
は、それぞれチャネルc₁，c₂，c₃のスケーリング係数を表す。

さらに、実施形態によっては、空間フォーカサーは、次のように、中央信号M(b)を用いて方向及び焦点要素を決定するように構成されることができる。

なお、収録されたオーディオ信号が不明瞭であったり雑音が入っていたりするために、場合によっては、全てのサブ帯域について、信頼性のある方向推定ができない場合がある。例えば通常、有効な方向推定が可能となるサブ帯域の数は、各フレームについて１８から２２の間で変化する。そのような場合、ここで説明された、焦点当て処理は、有効な方向推定結果が得られたサブ帯域についてのみ行われることとしてもよい。これは、バイノーラルモードであってもマルチチャネルモードであっても同様である。誤っている方向において強調を行うことを防ぐためである。実施形態によっては、この制限を乗り越えるために、統計解析に基づいて全てのサブ帯域を修正することを可能にする、更なる利得制御処理が行われる。

実施形態によっては、空間フォーカサーは、サイド信号S(b)を処理するようにさらに構成される。サイド信号S(b)には方向の情報が含まれていないため、バイノーラルモードにおいては、オーディオフォーカサーはサイド信号の合成に対して何の作用も及ぼさない。

すなわちサイド信号は、修正されることなく中央信号に加えられる。

しかし、マルチチャネルモードにおける信号合成においては、焦点当て処理はサイド信号に対しても適用される。これは、全てのサブ帯域について、焦点角度θを得られた推定角度αと考えることによって行われる。このため、焦点が当てられる方向において、背景信号も増幅される。これは、全体的な焦点当て効果を強めるためである。しかし、合成された出力信号において自然さを保つためには、サイド信号要素の増幅は注意して行わなければならないことには留意されたい。例えば、サイド信号を増幅しすぎると、オーディオシーンの全体を特定の角度方向に引き寄せすぎることになり兼ねない。そのようなことは避けるべきである。

例えば、実施形態によっては、空間フォーカサー８０５は、マルチｃｈ合成のための比例利得値Gxが得られると、各チャネルのサイド信号のスケーリングファクタYxを次のように導出する。
ここで、
は、固定された、"バランスされていない"、各チャネルについてのガンマ値であり、amp_sとatt_sは、それぞれサイド信号の増幅ファクタ及び減衰ファクタである。実施形態によっては、これらの値の好適な値は０．１から０．３の間で変化する。

実施形態によっては、空間フォーカサーの出力は、後処理利得制御部／時間平滑化部へと渡される。

実施形態によっては、オーディオプロセッサ１０３は、後処理利得制御部／時間平滑化部をさらに備える。

実施形態によっては、マルチチャネル合成及びバイノーラル合成のいずれにおいても、処理された中央信号に対して、焦点当て効果をさらに強めるために、更なる処理が行われる。

すなわち、実施形態によっては、一つの時間フレームにおいて焦点セクタ内に方向の推定が得られた場合はいつでも、全てのサブ帯域が、追加の利得係数によってさらに修正される。

さらに、実施形態によっては、後処理利得制御部／時間平滑化部は、連続するフレーム中で突然に利得が変化することがないように、時間的平滑化を行うように構成されることができる。

実施形態によっては、後処理利得制御部／時間平滑化部８０７は、追加の利得制御を行うべきか否かの決定に使用される、サブ帯域閾値を定めるように構成されることができる。実施形態によっては、このサブ帯域閾値は、実験によって、またサブ帯域の数によって、定められることができる。例えば、B=32の場合、追加で増幅及び減衰を行うための閾値は、増幅のための閾値th_amp= 8，減衰のための閾値th_att= 4と、それぞれ定められることができる。これらの閾値は、単一のフレームにおける焦点が当てられたセクタ内で得られた推定方向の最小数および最大数であって、追加の利得制御処理をトリガする最小数および最大数に対応する。なお、例示的なサブ帯域の数（B=32）は、多くの可能性のうちの１つに過ぎず、適切な如何なる数のサブ帯域が存在する場合があり、それに応じて閾値も変わりうる。実施形態によっては、後処理利得制御部／時間平滑化部８０７は、焦点セクタ内で推定された方向の数Ｅを決定し、それを設定された閾値と比較するように構成されることができる。すなわち、実施形態によっては、後処理利得制御部／時間平滑化部８０７は、セクタ内の有効推定方向の数を評価することにより、現在の時間フレーム内の３２個全てのサブ帯域につき、増幅又は減衰を行うように構成されることができる。（この３２個全てのサブ帯域には、空間オーディオアナライザで得られた、信頼性のない又は不明な推定α（ｂ）が含まれる。）

実施形態によっては、追加の増幅処理は、焦点セクタ内の音源帯域についてのみ行われる。または、信頼性のない又は不明な方向の場合は閾値が満たされたときのみ行われる。同様に、実施形態によっては、セクタ内における推定の帯域は、（設定された閾値に基づく）追加の減衰処理が行われない。（そのような帯域の数はせいぜい３つである。）

例えば、実施形態によっては、E ≧ th_ampである場合、バイノーラル合成モードにおいて、追加の増幅処理のために次の式が適用されてもよい。

また、E < th_attである場合、追加の減衰処理のためには次の式が適用されてもよい。

amp_add及びatt_addの項は、それぞれ追加の増幅及び減衰係数であり、元の係数amp及びattから導き出されたものである。実施形態によっては、追加の増幅及び減衰係数は、いずれも固定値であり、各サブ帯域について決まった値をとる（つまり、ズーム効果の強さによっては影響を受けない）。

マルチチャネル合成モードにおいては、チャネルスケーリング係数のために、次の式が適用されうる。
増幅：
減衰：

これらはまた、次のように適用される。
ここで、
は、それぞれチャネルc₁，c₂，c₃のスケーリング係数を表す。

方向及び焦点要素は、中央信号Ｍ（ｂ）を用いて次のように得ることができる。
それによって、実際のオーディオチャネル信号を得ることができる。

実施形態によっては、後処理利得制御部／時間平滑化部８０７は、さらに、フレーム状態の過去の経過に基づいて、オーディオ信号に時間的平滑化処理を行うように構成されることができる。

実施形態によっては、オーディオプロセッサ１０３はさらに、チャネルモード変換部を備える。実施形態によっては、チャネルモード変換部は、処理された中央信号及びサイド信号を受け取り、適切なチャネル出力を生成するように構成されることができる。

例えば、実施形態によっては、チャネルモード変換部は、マルチチャネル処理信号から、ヘッドホンで聴くために適したステレオ信号を生成するように構成される。

実施形態によっては、このモード変換部は、次の変換式を用いて、マルチチャネル合成出力から直接に変換処理を行うように構成される。
ここでX(z)は、チャネルXの時間領域信号に対応する。

実施形態によっては、上記モード変換部は、マルチチャネル合成信号において焦点が当てられた中央信号M(ｂ）を使い、また、オリジナルの（焦点当て処理が行われていない）サイド信号を使うように構成される。そのような実施形態において、焦点当て効果が中央信号成分に結合されると、ステレオ変換処理は周波数領域において行われる。ステレオ変換処理は上述のように実行されうるが、この処理は、例えば次のような周波数領域の係数に対して実行される。
処理は、各サブ帯域ｂの各周波数ビンに対して個別に行われ、サイド信号S(b)は右チャネルに加えられ、左チャネルからは取り除かれる。

実施形態によっては、時間領域への変換は、逆フーリエ変換（IFT）を用いて行われることができる。そのような実施形態においては、最初の"直接"変換オプションに比べて、"平坦"で安定した背景ノイズが生成される。

実施形態によっては、上記モード変換部は、推定角度a(b)に対してパニングを行うように構成される。２つのチャネル（P_R, P_L）のパニング係数は次のように計算される。
ここで、a(b)の角度符号は変わる。帯域ｂの角度推定が不確実である場合、この係数にはデフォルト値P_R = P_L = 1/√2が用いられる。

実施形態によっては、ステレオ信号からモノラル出力が次のように形成される。

このモノラル信号は、焦点当てがなされたモノラル信号であると定義されることができる。この信号においてはリスナーに方向の情報が届けられることがないが、それでも、増幅された方向や減衰された方向、音源は、聞き取ることが可能である。

従って、実施形態によっては、オーディオプロセッサ１０３は、空間オーディオ出力１０５へと渡される、処理済みのオーディオ信号を生成することができる。

ユーザインタフェース入力又は追跡処理に少なくとも基づくオーディオ信号処理の動作は、図３のステップ２０７として示されている。

実施形態によっては、空間オーディオ出力部１０５は、処理されたオーディオ信号を、適切な再生装置やメモリ、その他適切な記憶要素に出力するように構成される。出力または再生される音は、実施形態によって、モノラルオーディオ信号、ステレオオーディオ信号、バイノーラル・オーディオ信号、マルチチャネルオーディオ信号、空間的または３次元オーディオ信号の少なくともいずれかであることができる。

なお、オーディオ信号（又はユーザ入力に基づくそのような音の操作の結果）は、適切な再生装置へ出力されることができるが、その場合、再生される信号は、モノラルやマルチチャネルのオーディオ再生をユーザに生成するために使用されうる。実施形態によっては、適切な再生装置が、オーディオコネクタを通じて装置に組み合わされてもよい。実施形態によっては、少なくとも一つの内部スピーカーが装置に設けられる。

さらに、処理されたオーディオ信号（サウンド操作）及び／又はユーザ入力に基づいて調整された設定は、例えば内部メモリやデータベース、クラウド等に保存されることができる。この場合、単独で保存されることもできるし、視覚データと共に保存されることもできる。

処理済みのオーディオ信号の出力を提供する動作は、図3のステップ209で示される。

実施形態によっては、装置は、ビジュアルプロセッサ107を備える。実施形態によっては、ビジュアルプロセッサ１０７は、カメラ５１からのイメージデータを受信するように構成されることができる。また、追跡部１０６からのユーザインタフェース入力／選択追跡情報を受信するように構成されることができる。実施形態によっては、ビジュアルプロセッサ１０７は、ユーザインタフェースや追跡される選択物（音源）に基づいて、カメラ５１による視覚的イメージの上に、ユーザインタフェースを重ねて生成するように構成されることができる。例えば、実施形態によっては、ビジュアルプロセッサ１０７は、追跡部１０６が選択物（音源）を追うに連れて、領域又は範囲をハイライトするように構成されることができる。ビジュアルプロセッサは、動きを強調するようなオーバーレイを生成するように構成されることができる。さらに、実施形態によっては、ビジュアルプロセッサ１０７は、選択物（音源）が視野から離れたときに（すなわちカメラの視野の外に出てしまった時に）、それを示すUI視覚情報を提供するように構成されることができる。それによって、実施形態によっては、ユーザは、その音源を追跡するために装置の方向を変えることができる。

実施形態によっては、ビジュアルプロセッサ又は適切な視覚情報処理手段は、イメージフレームからの少なくとも一つの視覚イメージ要素を含む表示イメージを、表示領域の中に生成するように構成されることができる。さらに、そのような実施形態において、表示装置は、少なくとも一つの選択入力を提供するように構成されるタッチインタフェース・ディスプレイ上に表示イメージを表示するように構成されることができる。ここで、少なくとも一つの視覚要素のPOI位置を決定することは、少なくとも一つの選択入力に基づいて、当該少なくとも一つのPOI位置を決定することにより行われることができる。

ビジュアルプロセッサ１０７は、この視覚的ユーザインタフェース・オーバーレイを、カメラによるイメージデータと共に、表示装置５２に出力することができる。

つまり、本明細書に開示される実施形態のあるものは、表示イメージを、少なくとも一つのイメージフレームを（適切な手段で）キャプチャすることと；少なくとも一つのユーザインタフェース・オーバーレイ要素を（適切な手段で）生成することと；少なくとも一つの視覚的要素を含む前記表示イメージを生成すべく、前記少なくとも一つのイメージフレームと、前記少なくとも一つのユーザインタフェース・オーバーレイ要素とを（適切な手段で）結合することと；によって生成する。

ここで、前記オーバーレイは、次のいずれかであることができる。
・少なくとも一つの音源のPOI位置を示すオーバーレイ；
・少なくとも一つの音源に関する少なくとも一つのPOI位置が、イメージフレームの視野外にあることを強調するオーバーレイ；
・少なくとも一つの音源に関する少なくとも一つのPOI位置に基づいて処理中の焦点範囲及び焦点方向を示す、焦点領域オーバーレイ；
・少なくとも一つの更なるユーザインタフェース・オーバーレイ要素を生成する状態を示すように構成される処理オーバーレイ；
・決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの増幅利得を示すように構成される、焦点増幅オーバーレイ；
・決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの減衰の度合いを示すように構成される、焦点減衰オーバーレイ；
・焦点当て処理を反転するトグル状態を表示するように構成される、焦点反転オーバーレイ；
・装置の周囲の方向の増幅プロファイルを示すように構成される、焦点増幅プロファイル・オーバーレイ。

ユーザインタフェース入力又は追跡処理に基づいて、ビデオ／イメージデータを生成する動作は、図３のステップ208として示されている。

表示装置５２は、ビジュアルプロセッサ１０７からデータを受信し、生成された又は処理されたイメージを表示するように構成されることができる。

生成された又は処理されたイメージを表示する動作は、図3のステップ210で示される。

図４には、ある実施形態に従って動作中の例示的な装置１０が描かれている。図示される例において、装置１０は表示装置５２及びカメラ５１を備える。カメラ５１の視野は破線で示されている。これは、ビデオ／オーディオのキャプチャが行われるアプリケーション又はプログラムの初期設定に従う。カメラの視野には、第１の音源１００１と、第２の音源位置００３と、第３の音源１００５が描かれている。これらの音源は、表示装置５２上に、第１の音源ビジュアル表現１０１１、第２の音源ビジュアル表現１０１３、第３の音源ビジュアル表現１０１５によって、視覚的に示されている。

図５を参照すると、図４の例に対して、ユーザ１１０１が、第３の音源ビジュアル表現１０１５をタップすることによって、第３の音源１００５が選択物であることを指示している。つまり、第３の音源１００５が追跡され処理されるべきであることを示している。すなわち、装置のタッチ／ユーザインタフェース・コントローラ１０４は、選択物の場所又は位置を示す入力を表示装置５２から受信するように構成されることができる。この入力は、追跡部１０６へと渡されることができる。実施形態によっては、装置の表示装置または他のユーザインタフェース入力部は、焦点がポジティブな焦点であるのか、すなわち他の音源に対して前記第３の音源を強調もしくは増幅するべきであるのか、又はネガティブな焦点であるのか、すなわち他の音源に対して前記第３の音源を弱めたり減衰させたりすべきであるのかを、決定するように構成されることができる。例えば表示装置は、増幅を示すアイコンや減衰を示すアイコンを表示することができる。または、焦点領域又は選択領域に適用する焦点減衰／増幅の度合いを指定するために使用することのできるスライダやダイヤルといったユーザインタフェースを備える表示を行うことができる。

図６を参照すると、前記第３の音源を、焦点を当てるべき音源であると選択した後の、前記装置が描かれている。実施形態によっては、図６の例において、追跡部又は特徴セレクタ１０６は、第３の音源１００５に関連する適切な視覚的記述情報（及び／又はオーディオ・フィンガープリントやオーディオ記述情報）を生成しており、それらを提供している。それは、スクリーン上に表示されている、第３の音源ビジュアル表現１０１５を強調するためである。例えば、実施形態によっては、前記視覚的記述情報は、図６においてバツ印で示されている視覚的記述特徴１２０３の少なくとも一つとして、表示装置に表示される。実施形態によっては、第３の音源ビジュアル表現の強調は、それを囲むボックス１２０１によって行われることができる。

図７を参照すると、第３の音源１００５が動いた後の、前記装置が描かれている。この例において、第３の音源１００５は、第１の音源１００１及び第２の音源１００３に対して移動し、第１の音源１００１の前を通過している。この様子は図７において、装置１０の表示装置５２上で、第３の音源ビジュアル表現１０１５が、第１の音源ビジュアル表現１０１１の前を横切って移動していることにより、示されている。しかし、視覚的記述特徴１２０３は、依然として、第３の音源ビジュアル表現１０１５を追跡していることに注意されたい。

図８を参照すると、選択されたもの（音源）を示す例示的な画像が表示されており、画像１４０３は、強調された選択ボックス１４０１で示される第１の音源（スピーカーは又は話者）を含んでいる。さらに図８は、ノーマルのステレオ収録オーディオ信号１４１１と、焦点当て処理が適用されたステレオ収録オーディオ信号１４１３との差を示している。装置は、話者に焦点を当てている。

図９を参照すると、話者が追跡される更なる例が示されている。画像１５０５は、はじめに選択されたもの（音源・話者）の位置１５０１が示されていると共に、それが移動したものの位置が、ボックス１５０３により強調されて示されている。この図はさらに、焦点当て処理がなされていないオーディオ信号１５１１と、はじめに選択された領域に基づく、固定された焦点当て処理がなされたオーディオ信号１５１３と、初めの選択領域１５０１から追跡された現在の選択領域１５０３への追跡結果に基づく、焦点当て処理がなされたオーディオ信号１５１５とが示されている。

図１０を参照すると、ビジュアルプロセッサによるユーザインタフェース・オーバーレイであって、追跡を示すオーバーレイが表示されている。最初の画像１６０１は、図８の画像１４０３に基づくものであるが、この画像において、ビジュアルプロセッサは、焦点が当てられた領域が、その他の領域よりも明るくなるような、マスキング・オーバーレイを適用している。実施形態によっては、この処理は、焦点領域のピクセルを明るくすることと、焦点領域外のピクセルを暗くする処理を暗くすることとの、いずれかまたは両方を行うことにより行うことができる。このため、焦点領域１６０３ははっきりと見ることができ、焦点が当てられていない領域は暗く見える。さらに図１０は、マスキングがどのように選択物を追跡するのかも示している。第２の画像１６１１は、図９の画像１５０５に基づくものであるが、これに対して、焦点が当てられていない領域に対して、同様に、暗くする処理が行われている。

なお、ビジュアルプロセッサ１０７は、選択された領域や範囲への焦点当てを示すために適切な如何なるオーバーレイ処理を行ってもよいことには注意されたい。そのようなものの中には、イメージを明るくすることや、イメージの色を変えること、イメージをシャープにしたりぼかしたりすることが含まれることができ、それらによって、イメージに焦点が当てられているのか、またはイメージが焦点領域の外にあるのかを示すことができる。

図１１を参照すると、ビジアルプロセッサが、選択されたもの（音源）が、カメラの視野外にあることを示す、ユーザインタフェース・オーバーレイが示されている。このため、画像１７０１及び１７１１の両方において、音源（話者）がカメラの視野の外に移動してしまったことが描かれている。一番目の画像１７０１には、ユーザインタフェース・オーバーレイとして矢印１７０３が描かれており、カメラの視野外に移動した音源の方向を示している。２番目の画像１７１１においては、ビジュアルプロセッサ１０７が、選択されたものから遠くなる方向に徐々に暗くするというマスク処理を施している。つまり、視野外の選択物に向かって徐々に明るさを増すという処理を施している。従って、画像において、音源又は選択物が視野から外れた場所の端部が最も明るくなっている。

図１２を参照すると、ある実施形態に従う装置の例示的な動作を示す例示的なフローチャートが描かれている。

実施形態によっては、ユーザは装置上でアプリケーション又は適切なプログラムを起動することができ、ビデオの収録が開始される。

この例においては、オーディオとビデオの両方がキャプチャされる。

オーディオ及びビデオの収録の開始又は初期化の動作が、図12のステップ1801で示されている。

ユーザが、焦点を当てるために適切なオブジェクトを選択することを望む時、実施形態によっては、ユーザは、そのためのアイコンをスクリーン上で押し、興味のあるオブジェクトをタッピングによって選択することにより、オブジェクト選択機能を起動することができる。

スクリーン上の専用アイコンを押し、興味のあるオブジェクトをタッピングによって選択することにより、オブジェクト選択機能を起動する動作は、図１２のステップ１８０３で示されている。

実施形態によっては、ユーザはさらに、オブジェクトが増幅されるべきか又は減衰されるべきかを示すユーザ入力を、スクリーン上の対応するアイコンを押すことにより、提供することができる。

実施形態によっては、通常、ユーザは、少なくとも一つの音源に関する少なくとも一つのPOI位置に関連する適切な制御入力を提供し、オーディオプロセッサはそれを用いることができる。例えば、決定された移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することは、装置に、前記少なくとも一つの制御入力に基づき少なくとも一つのオーディオ信号を再生させる。

この制御入力は、例えば次のいずれかであることができる。
・少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理幅；
・少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理範囲；
・少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点増幅ファクタ；
・少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点減衰ファクタ；
・少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外増幅ファクタ；
・少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外減衰ファクタ。

スクリーン上で対応するアイコンを押すことにより、オブジェクトが増幅されるべきか減衰されるべきかを選択する動作は、図１２のステップ１８０５に示されている。

なお実施形態によっては、オブジェクトの選択や、焦点オブジェクトの増幅・減衰の決定は、自動的に決定されてもよい。

実施形態によっては、装置のアプリケーションは、オブジェクトの視覚的記述情報及び／又は聴覚的記述情報を生成することができる。

視覚的記述情報及び／又は聴覚的記述情報を生成する動作は、図１２のステップ１８０７に示されている。

実施形態によっては、装置のアプリケーションは、オブジェクトの視覚的及び／又は聴覚的記述情報に基づいて、選択されたオブジェクトの位置を追跡することができる。

選択されたオブジェクトの位置を追跡する動作は、図１２のステップ１８０９に示されている。

実施形態によっては、すなわち場合によっては、追跡されるオブジェクトの位置はスクリーン上で視覚化される。例えば上述のように、ビジュアルプロセッサは、追跡されるオブジェクトの位置に基づいて、適切なマスキング又は強調効果を生成する。そのような効果は、カメラによる画像における当該オブジェクトの物理的なイメージと共に表示されることができる。

この処理は図１２のステップ１８１１として示されている。

さらに、実施形態によっては、追跡されるオブジェクトの方向を強調するという、オーディオ処理又はオーディオ操作が適用される。

この処理は図１２のステップ１８１３として示されている。

実施形態によっては、処理されたオーディオ信号は、ビデオの少なくとも一つのオーディオトラックとして、既定のフォーマットで格納される。

この処理は図１２のステップ１８１５として示されている。

上述のアプリケーション又は処理は、記述情報の更新処理や、オブジェクトの追跡処理のために、繰り返されてもよい。

例えば、実施形態によっては、オブジェクトは、１００ｍｓ毎に追跡されることができる。記述情報値の更新処理は、実施形態によっては、２−３００ｍｓ毎に行われることができる。つまり、追跡処理の頻度よりも更新処理の頻度は少ない場合がある。実施形態によっては、追跡処理の頻度と更新処理の頻度とは等しくてもよい。実施形態によっては、記述情報値の更新処理は、追跡された記述情報値が、前回格納された記述情報値から大きく変わった場合に行われてもよい。

本明細書において登場した各要素は、実施形態によっては少なくともその一部が、少なくとも一つのメモリに格納され、少なくとも一つのプロセッサで実行される命令やルーチンとして実装されることができる。

「ユーザ機器」との語句は、如何なるタイプの無線ユーザ機器を表してもよく、例えば携帯電話やポータブルデータ処理装置、ポータブルＷｅｂブラウザであってもよい。

さらに、地上波公共移動通信ネットワーク.（PLMN）が、上述の装置を含んでもよい。

一般に、様々な実施形態が、ハードウェアまたは特定用途向け回路、ソフトウェア、ロジック、またはそれらの組み合わせで実装されてもよい。例えば、ある場合ではハードウェアで実装されてもよく、一方別の場合では、コントローラやマイクロプロセッサ等のコンピュータデバイスによって実行されるファームウェアやソフトウェアで実装されてもよい。本発明の種々の形態はブロック図，フローチャート，または他の図的記述を使用して記述ないし図示される。これらのブロック，装置，システム，技術，またはここで記述される方法は、非限定的な例として、ハードウェア，ソフトウェア，ファームウェア，特定用途向け回路やロジック，汎用ハードウェア，コントローラや他のコンピュータデバイス，またはそれらの組み合わせで実装されてもよいと理解されるべきである。

そして本発明の実施形態は、移動デバイスのデータプロセッサによって実行可能なコンピュータソフトウェア，ハードウェア，またはソフトウェアとハードウェアの組合せによって実装されてもよい。またこの点に関して、添付する図面に示される論理フローの任意のブロックが、プログラムのステップや相互接続された論理回路・ブロック・機能，またはプログラムのステップ，論理回路・ブロック・機能の組合せを表現してもよいことに留意されたい。ソフトウェアは、メモリチップ等の物理メディアやプロセッサ内に実装されるメモリブロック，ハードディスクやフレキシブルディスク等の磁気メディア，DVDやそのデータ異形態であるCD等の光学式メディアに格納されてもよい。

メモリは、ローカルな技術環境に適したあらゆるタイプのものであってよい。例えば、半導体ベースのメモリデバイス，磁気メモリデバイス・システム，光学式メモリデバイス・システム，固定式・移動式メモリ等の様々な適合するデータ格納技術を用いて実装されてもよい。データプロセッサは、ローカルな技術環境に適したあらゆるタイプのものであってよく、非限定的な例として、一つ以上の汎用コンピュータ，特定用途向けコンピュータ，マイクロプロセッサ，デジタル信号プロセッサ（DSP），特定用途向け集積回路（ASIC），ゲートレベル回路，マルチコアプロセッサ・アーキテクチャに基づくプロセッサを含んでもよい。

本発明の実施形態は、集積回路モジュールのような、様々な要素で実施されることもできる。集積回路の設計は多くは自動化されたプロセスである。論理レベルの設計を、半導体基板上にエッチング・形成するための半導体回路設計に変換する複雑で強力なソフトウェアツールが利用可能である。

カリフォルニア州マウンテンビューのSynopsys, Incや、カリフォルニア州サンノゼのCadence Designのような業者が提供するプログラムは、定評のある設計ルールと実績のある設計モジュールのライブラリに基づいて、半導体チップ上に導電経路や要素を配する。半導体回路の設計が完了すると、それは、OpusやGDSII等の標準的な電子フォーマットの形で半導体製造設備または、いわゆるfabに送られる。

前述の説明は、本発明の非限定的な実施例を十分かつ詳細に記述している。しかし、こうした前述の説明を、添付する図面および特許請求の範囲と併せて考慮すれば、種々の修正および変更が可能であることは、本願に関連する技術分野の当業者には明らかであろう。

さらに、本発明が教示するこうした事項の全ておよび類似する変形は、添付の特許請求の範囲で定義されるように、その全てが本発明の範囲内にある。

好適な実施形態のいくつかを例として以下に示す。
［実施形態１］
少なくとも一つのプロセッサと、一つ又は複数のプログラムのためのコンピュータ命令を格納する少なくとも一つのメモリとを備える装置であって、前記少なくとも一つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも一つのプロセッサを用いて、前記装置に：
少なくとも一つのオーディオ信号を用いて、少なくとも一つの音源を決定することと；
前記少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定することと；
前記少なくとも一つの音源に関する前記少なくとも一つのＰＯＩ位置の移動経路を決定することと；
前記決定した移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することと；
を行わせるように構成される、装置。
［実施形態２］
実施形態１に従う装置であって、少なくとも一つのオーディオ信号を用いて少なくとも一つの音源を決定することは、前記装置に少なくとも、
前記少なくとも一つのオーディオ信号に関連する少なくとも一つのメタファイルであって、音源の位置情報を含むメタファイルを見つけることと；
前記位置情報から少なくとも一つの音源を決定することと；
の少なくともいずれかを行うようにさせ、
さらに、前記少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定することは、前記装置に、前記位置情報に基づいて前記少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定するようにさせる、装置。
［実施形態３］
実施形態１又は２に従う装置であって、
前記少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定することは、前記装置に少なくとも：
イメージフレームにおいて、視覚的イメージ要素に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのＰＯＩ位置を決定すること；
少なくとも一つのオーディオ信号に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのＰＯＩ位置を決定すること；
少なくとも一つのユーザ入力位置を決定することにより、前記少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定すること；
の少なくともいずれかをさせる、装置。
［実施形態４］
実施形態１から３のいずれかに従う装置であって、さらに、
表示領域内に、前記少なくとも一つの音源の少なくとも一つの視覚的イメージ要素を提供することと；
前記少なくとも一つの視覚的イメージ要素に関する少なくとも一つのＰＯＩ位置を決定することと；
を行うようにされ、ここで、少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定することは、前記装置に、少なくとも一つの視覚的要素に関連する少なくとも一つのＰＯＩ位置として、少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定することをさせる、装置。
［実施形態５］
実施形態４に従う装置であって、
表示領域内に、前記少なくとも一つの音源の少なくとも一つの視覚的イメージ要素を提供することは、前記装置に更に、
表示領域内に、イメージフレームから、少なくとも一つの視覚的イメージ要素を含む表示イメージを生成することと；
少なくとも一つの選択入力を提供するように構成されるタッチインタフェース・ディスプレイに、前記表示イメージを表示することと；
を行うようにさせ、
ここで、少なくとも一つの視覚的要素のＰＯＩ位置を決定することは、前記装置に、少なくとも一つの選択入力に基づいて、前記少なくとも一つのＰＯＩ位置を決定するようにさせる、装置。
［実施形態６］
実施形態５に従う装置であって、
前記表示イメージを生成することは、前記装置に、
少なくとも一つのイメージフレームをキャプチャすることと；
少なくとも一つのユーザインタフェース・オーバーレイ要素を生成することと；
少なくとも一つの視覚的要素を含む前記表示イメージを生成すべく、前記少なくとも一つのイメージフレームと、前記少なくとも一つのユーザインタフェース・オーバーレイ要素とを結合することと；
を行わせる、装置。
［実施形態７］
実施形態６に従う装置であって、
少なくとも一つのユーザインタフェース・オーバーレイ要素を生成することは、前記装置に、
少なくとも一つの音源のＰＯＩ位置を示すオーバーレイを生成することと；
少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置が、イメージフレームの視野外にあることを強調するオーバーレイを生成することと；
少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置に基づいて処理中の焦点範囲及び焦点方向を示す、焦点領域オーバーレイを生成することと；
少なくとも一つの更なるユーザインタフェース・オーバーレイ要素を生成する状態を示すように構成される処理オーバーレイことと；
決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの増幅利得を示すように構成される、焦点増幅オーバーレイを生成することと；
決定された移動経路に基づいて、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を生成するための少なくとも一つの減衰の度合いを示すように構成される、焦点減衰オーバーレイを生成することと；
焦点当て処理を反転するトグル状態を表示するように構成される、焦点反転オーバーレイを生成することと；
装置の周囲の方向の増幅プロファイルを示すように構成される、焦点増幅プロファイル・オーバーレイを生成することと；
の少なくともいずれかを行わせる、装置。
［実施形態８］
実施形態１から７のいずれかに従う装置であって、さらに、
少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置に関連する少なくとも一つの制御入力を提供するようにされ、
決定された移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することは、前記装置に、前記少なくとも一つの制御入力に基づき少なくとも一つのオーディオ信号を再生させる、装置。
［実施形態９］
実施形態８に従う装置であって、
前記少なくとも一つの位置に関連する少なくとも一つの制御入力を提供することは、前記装置に、
少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理幅；
少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための処理範囲；
少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点増幅ファクタ；
少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点減衰ファクタ；
少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外増幅ファクタ；
少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することを制御するための焦点外減衰ファクタ；
の少なくともいずれかを提供させるようにする、装置。
［実施形態１０］
実施形態１から９のいずれかに従う装置であって、さらに、
前記少なくとも一つのオーディオ信号は少なくとも２つのオーディオ信号を含み、少なくとも一つのオーディオ信号を用いて少なくとも一つの音源を決定することは、前記装置に少なくとも：
前記少なくとも２つのオーディオ信号から、前記少なくとも一つの音源が位置に関する値を含むことを決定することと；
前記少なくとも一つの音源に関する前記一つのＰＯＩ位置内に少なくとも一つの音源を決定することと；
の少なくともいずれかを行わせる、装置。
［実施形態１１］
実施形態１から１０のいずれかに従う装置であって、さらに、
前記少なくとも一つの音源に関する前記少なくとも一つのＰＯＩ位置の移動経路を決定することは、前記装置に：
前記少なくとも一つのＰＯＩ位置において、少なくとも一つの視覚的イメージ要素及び／又は前記少なくとも一つの音源に関する少なくとも一つの特徴を決定することと；
前記少なくとも一つの視覚的イメージ要素及び／又は前記少なくとも一つの音源に関する少なくとも一つの特徴をそれぞれ追跡することと；
前記少なくとも一つの特徴の移動経路を決定することと；
を行わせる、装置。
［実施形態１２］
実施形態１から１２のいずれかに従う装置であって、前記少なくとも一つのオーディオ信号を、
少なくとも２つのマイク；
装置のメモリ；
少なくとも一つの他の装置；
のいずれかから受け取るように構成される、装置。
［実施形態１３］
実施形態３に直接又は間接に従う装置であって、さらに、
前記少なくとも一つの位置が決定される、少なくとも一つのキャプチャされたイメージフレームを、少なくとも一つのカメラ，メモリ，少なくとも一つの他の装置の少なくともいずれかから受け取るように構成される、装置。
［実施形態１４］
少なくとも一つのオーディオ信号を用いて、少なくとも一つの音源を決定する手段と；
前記少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定する手段と；
前記少なくとも一つの音源に関する前記少なくとも一つのＰＯＩ位置の移動経路を決定する手段と；
前記決定した移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生する手段と；
を備える、装置。
［実施形態１５］
実施形態１４に従う装置であって、
少なくとも一つのオーディオ信号を用いて、少なくとも一つの音源を決定する手段は：
前記少なくとも一つのオーディオ信号に関連する少なくとも一つのメタファイルであって、音源の位置情報を含むメタファイルを見つける手段と；
前記位置情報から少なくとも一つの音源を決定する手段と；
の少なくともいずれかを備え、
さらに、前記少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定する手段は、前記位置情報に基づいて前記少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定する手段を備える、装置。
［実施形態１６］
実施形態１４又は１５に従う装置であって、
前記少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定する手段は、さらに；
イメージフレームにおいて、視覚的イメージ要素に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのＰＯＩ位置を決定する手段と；
少なくとも一つのオーディオ信号に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのＰＯＩ位置を決定する手段と；
少なくとも一つのユーザ入力位置を決定することにより、前記少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定する手段と；
の少なくともいずれかを備える、装置。
［実施形態１７］
少なくとも一つのオーディオ信号を用いて、少なくとも一つの音源を決定することと；
前記少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定することと；
前記少なくとも一つの音源に関する前記少なくとも一つのＰＯＩ位置の移動経路を決定することと；
前記決定した移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより少なくとも一つのオーディオ信号を再生することと；
を含む、方法。
［実施形態１８］
実施形態１７に従う方法であって、
少なくとも一つのオーディオ信号を用いて、少なくとも一つの音源を決定することは：
前記少なくとも一つのオーディオ信号に関連する少なくとも一つのメタファイルであって、音源の位置情報を含むメタファイルを見つけることと；
前記位置情報から少なくとも一つの音源を決定することと；
の少なくともいずれかを含み、
さらに、前記少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定することは、前記位置情報に基づいて前記少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定することを含む、方法。
［実施形態１９］
実施形態１７又は１８に従う装置であって、
前記少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定することは、さらに；
イメージフレームにおいて、視覚的イメージ要素に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのＰＯＩ位置を決定すること；
少なくとも一つのオーディオ信号に関する少なくとも一つの位置を決定することにより、前記少なくとも一つの音源に関する前記少なくとも一つのＰＯＩ位置を決定すること；
少なくとも一つのユーザ入力位置を決定することにより、前記少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定すること；
の少なくともいずれかを含む、装置。
［実施形態２０］
少なくとも一つのオーディオ信号を用いて少なくとも一つの音源を決定するように構成される空間オーディオアナライザと；
前記少なくとも一つの音源に関する少なくとも一つのＰＯＩ位置を決定するように構成される位置決定部と；
前記少なくとも一つの音源に関する前記少なくとも一つのＰＯＩ位置の移動経路を決定するように構成される移動経路決定部と；
前記決定した移動経路に基づき、少なくとも一つのサウンド再生トランスデューサーにより前記少なくとも一つのオーディオ信号を再生するように構成される処理部と；
を備える装置。

Claims

少なくとも一つのオーディオトラックのレコーディング中にメタデータファイルを生成することと；
前記少なくとも一つのオーディオトラックを、前記メタデータファイルに関連付けて格納することと；
を含み、
前記メタデータファイルは、前記少なくとも一つのオーディオトラックに含まれる一つ又は複数のアコースティック音源のそれぞれについての方向情報を示し、
前記一つ又は複数のアコースティック音源のうちの少なくとも一つはユーザ入力に基づいて選択され、前記メタデータファイルは、前記選択された前記少なくとも一つのアコースティック音源の方向に基づいて強調がなされたオーディオ信号を生成するために、少なくとも一つの追跡メカニズムによって処理されるように構成される、
方法。
前記選択された前記少なくとも一つのアコースティック音源に焦点をあてることと；
前記少なくとも一つの追跡メカニズムによって前記選択された前記少なくとも一つのアコースティック音源の追跡を行うことと；
を含む、請求項１に記載の方法。
前記選択された前記少なくとも一つのアコースティック音源を、関連するユーザインタフェースで強調することを含む、請求項１に記載の方法。
追跡するイメージフレームから、視覚的イメージ要素に関連する少なくとも一つの位置を決定すること、ただし前記視覚的イメージ要素は、形状及び色の少なくともいずれかを含む、請求項１に記載の方法。
前記視覚的イメージ要素は顔である、請求項４に記載の方法。
前記少なくとも一つの追跡メカニズムは、コンピュータビジョンベースの追跡メカニズム及びオーディオ・フィンガープリントベースの追跡メカニズムの少なくともいずれかを含む、請求項１に記載の方法。
前記選択された前記少なくとも一つのアコースティック音源の前記方向に基づいて、前記選択された前記少なくとも一つのアコースティック音源のオーディオ信号を、増幅又は減衰する指示を受け取ることを含む、請求項１に記載の方法。
空間フォーカサーの焦点角度に関連する少なくとも一つのチャネルの利得値を決定することと；
残りのチャネルの少なくとも一つに利得値１を適用することと；
を含み、ここで利得値１は、ドミナントではない少なくとも一つの音源及び焦点角度から到来する背景ノイズを減衰させることを防ぐ、請求項１に記載の方法。
少なくとも一つのオーディオトラックの再生中にメタデータファイルにアクセスすること、ただし前記メタデータファイルは、前記少なくとも一つのオーディオトラックに含まれる一つ又は複数のアコースティック音源のそれぞれについての方向情報を示す、前記アクセスすることと；
ユーザ入力に基づいて、前記一つ又は複数のアコースティック音源のうちの少なくとも一つの選択を受け取ることと；
前記選択された前記少なくとも一つのアコースティック音源の方向に基づいて強調がなされたオーディオ信号を生成するために、少なくとも一つの追跡メカニズムによって、前記メタデータファイルを処理することと；
を含む、方法。
前記選択された前記少なくとも一つのアコースティック音源は、関連するユーザインタフェースで強調されるように構成される、請求項９に記載の方法。
イメージフレームから、視覚的イメージ要素に関連する少なくとも一つの位置を追跡すること、ただし前記視覚的イメージ要素は、形状及び色の少なくともいずれかを含む、請求項９に記載の方法。
前記選択された前記少なくとも一つのアコースティック音源の前記方向に基づいて、前記選択された前記少なくとも一つのアコースティック音源のオーディオ信号を、増幅又は減衰する指示を受け取ることを含む、請求項９に記載の方法。
処理手段と記憶手段とを有する装置であって、前記記憶手段はプログラム命令を格納し、前記プログラム命令は、前記処理手段で実行されると、請求項１から１２のいずれかに記載の方法を前記装置に遂行させるように構成される、装置。
装置の処理手段で実行されると、請求項１から１２のいずれかに記載の方法を前記装置に遂行させるように構成されるプログラム命令を有するコンピュータプログラム。
少なくとも一つのオーディオトラックのレコーディング中にメタデータファイルを生成する手段と；
前記少なくとも一つのオーディオトラックを、前記メタデータファイルに関連付けて格納する手段と；
を備え、
前記メタデータファイルは、前記少なくとも一つのオーディオトラックに含まれる一つ又は複数のアコースティック音源のそれぞれについての方向情報を示し、
前記一つ又は複数のアコースティック音源のうちの少なくとも一つはユーザ入力に基づいて選択され、前記メタデータファイルは、前記選択された前記少なくとも一つのアコースティック音源の方向に基づいて強調がなされたオーディオ信号を生成するために、少なくとも一つの追跡メカニズムによって処理されるように構成される、
装置。
少なくとも一つのオーディオトラックの再生中にメタデータファイルにアクセスする手段、ただし前記メタデータファイルは、前記少なくとも一つのオーディオトラックに含まれる一つ又は複数のアコースティック音源のそれぞれについての方向情報を示す、前記アクセスする手段と；
ユーザ入力に基づいて、前記一つ又は複数のアコースティック音源のうちの少なくとも一つの選択を受け取る手段と；
前記選択された前記少なくとも一つのアコースティック音源の方向に基づいて強調がなされたオーディオ信号を生成するために、少なくとも一つの追跡メカニズムによって、前記メタデータファイルを処理する手段と；
を備える、装置。