JP2019220848A

JP2019220848A - データ処理装置、データ処理方法及びプログラム

Info

Publication number: JP2019220848A
Application number: JP2018116973A
Authority: JP
Inventors: 石毛　善樹; Yoshiki Ishige; 善樹石毛
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2019-12-26
Anticipated expiration: 2038-06-20
Also published as: JP7100824B2; CN110620895A; US20190394423A1; JP2022133366A; JP7347597B2

Abstract

【課題】画像内の被写体（音源）とその被写体が発生した音響との対応関係を明確にすることができる。【解決手段】音響データ付き画像データを取得すると（図４のステップＡ１）、この取得した音響データ及び画像データを解析することにより当該画像内に存在している音源としての被写体を特定する（図４のステップＡ２〜Ａ５）。そして、取得した一連の音響データの中から音源として特定した被写体に該当する音響データを選別して当該被写体に対応付ける（図４のステップＡ１０）。この場合、例えば、音源である被写体の表示に対応付けて（画像表示に同期して）、この音響データを出力させる。【選択図】図４

Description

本発明は、画像データ及び音響データを取得して処理するデータ処理装置、データ処理方法及びプログラムに関する。

この種のデータ処理装置（例えば、ビデオカメラ、コンパクトカメラ、スマートフォンなど）において、取得した画像データと音響データとを対応付けて再生する技術の一例としては、例えば、画角が略１８０゜という広範囲な撮影が可能な広角レンズ（魚眼レンズ）を用いて、会議中の各参加者の顔が含まれるように円形画像（魚眼画像）が撮影されると、その撮影された魚眼画像の中から各参加者の顔を認識して個々の参加者の発話時間と共に、各参加者の画像（部分画像）を切り出して表示するようにしたものが知られている（特許文献１参照）。

特開２０１５−１９１６２号公報

しかしながら、上述した特許文献の技術にあっては、表示中の切出し画像内の被写体（参加者）がどの位置に表示されているかに関係なく、その撮影時に集音した音声データを単に出力するだけであり、切出し画像内の被写体（参加者）と、その被写体（参加者）の音声（出力音声）との関係が明確ではなく、参加者の誰が話しているかを知り得るものではなかった。

本発明の課題は、画像内の被写体（音源）とその被写体が発生した音響との対応関係を明確にできるようにすることである。

前記課題を解決するために本発明のデータ処理装置の一態様は、
画像データを取得する画像取得手段と、
音響データを取得する音響取得手段と、
前記画像取得手段により取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する特定手段と、
前記音響取得手段により取得された音響データの中から、前記特定手段により音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける対応付け手段と、
を備えることを特徴とする。
また、前記課題を解決するため、本発明のデータ処理方法の一態様は、
データ処理方装置のデータ処理方法であって、
画像データを取得する処理と、
音響データを取得する処理と、
前記取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する処理と、
前記取得された音響データの中から前記音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける処理と、
を含む、
ことを特徴とする。
また、前記課題を解決するため、本発明のプログラムの一態様は、
データ処理方装置のコンピュータに対して、
画像データを取得する機能と、
音響データを取得する機能と、
前記取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する機能と、
前記取得された音響データの中から前記音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける機能と、
を実現させる、
ことを特徴とする。

本発明によれば、画像内の被写体（音源）とその被写体が発生した音響との対応関係を明確にすることができる。

データ処理装置１として適用したセパレート型デジタルカメラの外観図で、（１）は、撮像装置２と本体装置３とを一体的に組み合わせた状態、（２）は、撮像装置２と本体装置３とを分離した状態を示した図。データ処理装置１を構成する本体装置３の基本的な構成要素を示したブロック図。図３（１）は、撮像装置２を横置き姿勢とした状態を示した図、図３（２）は、横置き姿勢で撮影された魚眼画像を例示した図、図３（３）は、魚眼画像から音源の被写体を含む領域を切り出して拡大表示させた図。データ処理装置１（本体装置３）の動作（第１実施形態での特徴的な動作：画像・音響再生処理）を示したフローチャート。第２実施形態において、データ処理装置１（本体装置３）の特徴的な動作（画像・音響再生処理）を示したフローチャート。図６（１）は、第３実施形態の動画像データを例示し、図６（２）は、この動画像データに同期して音響データ（音声データ）が出力される様子を例示した図。第３実施形態において、データ処理装置１（本体装置３）の特徴的な動作（画像・音響再生処理）を示したフローチャート。第１〜第３実施形態の変形例を説明するための図で、データ処理装置１から外部機器（テレビ受像機又は監視モニタ装置）２０に音響データ付き動画像データを送信して外部機器２０に出力させる場合を示した図。

以下、図１〜図４を参照して本発明の実施形態を説明する。
本実施形態は、データ処理装置１として適用したセパレート型デジタルカメラに適用した場合を例示したもので、このデジタルカメラは、後述する撮像部を備える撮像装置２と、後述する表示部を備える本体装置３とに分離可能なセパレート型デジタルカメラである。図１（１）は、撮像装置２と本体装置３とを一体的に組み合わせた状態を示し、図１（２）は、撮像装置２と本体装置３とを分離した状態を示している。このデータ処理装置１を構成する撮像装置２と本体装置３とは、それぞれが利用可能な無線通信を用いてペアリング（無線接続認識）が可能なもので、無線通信としては、例えば、無線ＬＡＮ（Ｗｉ−Ｆｉ）又はＢｌｕｅｔｏｏｔｈ（登録商標）を使用するようにしている。

撮像装置２は、静止画像及び動画像を撮影可能なもので、撮影機能の他に録音機能を備え、画像の撮影時に集音した音響データ付き画像データを本体装置３側に送信するようにしている。この撮像装置２には広角レンズ（魚眼レンズ）４と、広角レンズ４の近傍に配設された単一のマイク（モノクロマイク）５が備えられている。なお、撮像装置２は、広角レンズ（魚眼レンズ）４と標準レンズ（図示省略）とを任意に撮り替え可能な構成となっている。撮像装置２は、図示省略したが、撮像装置２の全体動作を制御する制御部、二次電池を備えた電源部、ＲＯＭやフラッシュメモリなどを備えた記憶部、本体装置３との間で無線通信を行う通信部、広角レンズ４を備えた撮像部、モノクロマイク５を備えた音響入力部などを備えている。

広角レンズ４は、画角が略１８０゜という広範囲な撮影が可能な魚眼レンズで、本実施形態では１枚の魚眼レンズを使用して半天球の撮影を行うようにしている。なお、魚眼画像（半天球画像）の全体は、歪曲歪によってその中心（光軸）からレンズ端（周辺部）に向かう程、大きく歪んだものとなる。モノクロマイク５は、広角レンズ４側に設けられ、画像の撮影時にその撮像に同期して周辺の音響を集音するもので、例えば、ビームフォーミングにも最適な超小型マイクロフォンとして、例えば、振動・衝撃や温度変化に強く、優れた音響特性と電気特性を実現したＭＥＭＳ（ＭｉｃｒｏＥｌｅｒｃｔｒｏｎｉｃｓＭｅｃｈａｎｉｃａｌＳｙｓｔｅｍ）マイクで、本実施形態では無指向性のマイクを使用するようにしている。

本体装置３は、撮像装置２側で撮影・集音された音響データ付き画像データを受信取得すると、この画像データをライブビュー画像としてモニタ画面（ライブビュー画面）に表示したり、画像データと音響データとを対応付けて記憶保存したりするようにしている。本体装置３には、タッチ入力機能及び表示機能を備えたタッチ表示画面６と、動画像データの表示に同期してその音響データを出力する２台のスピーカ（ダイナミック型スピーカ）７、８とが備えられている。この２台のスピーカ７、８は、所定距離（可能な限り）離れて配設されたもので、図示の例は、長方形の本体装置３の長辺方向に可能な限り離して２台のスピーカ７、８を配設した場合を示している。すなわち、長方形の本体装置３を横長にした横向き姿勢において、本体装置３の左下角部には、第１スピーカ（左スピーカ）７が配設され、本体装置３の右下角部には、第２スピーカ（右スピーカ）８が配設されている。

図２は、データ処理装置１を構成する本体装置３の基本的な構成要素を示したブロック図である。
データ処理装置１（本体装置３）は、制御部１１、電源部１２、記憶部１３、タッチ表示部１４、短距離通信部１５、姿勢検出部１６、音響出力部１７を有し、更に、本体装置３は、撮像装置２から短距離通信部１５を介して画像データを受信取得したり、音響データを受信取得したりするデータ取得機能と、この取得した画像データを再生する画像再生機能と、取得した一連の音響データを再生する音響再生機能とを備えている。制御部１１は、電源部（二次電池）１２からの電力供給によって動作し、記憶部１３内の各種のプログラムに応じてこの本体装置３の全体動作を制御するもので、この制御部１１には図示しないＣＰＵ（中央演算処理装置）やメモリなどが設けられている。

記憶部１３は、本実施形態を実現するためのプログラム（図４のフローチャートを参照）や各種のアプリケーションなどが格納されているプログラムメモリ１３ａと、この本体装置３が動作するために必要となる各種の情報（例えば、フラグなど）を一時的に記憶するワークメモリ１３ｂと、音響データ付き画像データなどを記憶するデータメモリ１３ｃを有する他に、第１実施形態では、後述する音響認識用メモリ１３ｄと画像認識用メモリ１３ｅを有している。なお、記憶部１３は、例えば、ＳＤカード、ＵＳＢメモリなど、着脱自在な可搬型メモリ（記録メディア）を含む構成であってもよく、図示しないが、通信機能を介してネットワークに接続されている状態においては所定のサーバ装置側の記憶領域を含むものであってもよい。

上述の音響認識用メモリ１３ｄは、音響データの解析時に使用されるもので、音源毎にその種類を示す情報と、音源の種類に応じて異なる音響的特徴（音響特徴量）を示す情報を対応付けて記憶する構成となっている。「音源の種類」は、例えば、人物（老若男女）、動物（大型犬、小型犬、猫、鳥）、物体（自動車、電車）を示しているが、それに限らないは勿論である。なお、音響認識用メモリ１３ｄの内容は、予め入力された大量の音響データが統計的に処理され、音源の種類に応じた規則性や関連性など、音響的特徴を学習（機械学習、例えば、ディープラーニング）することによりモデル化されたもので、その内容は学習に応じて動的に逐次変更（追加、編集）される。

画像認識用メモリ１３ｅは、画像データの解析時に使用されるもので、音源毎にその種類を示す情報と、音源の種類に応じて異なる外観的特徴（画像特徴量）を示す情報を対応付けて記憶する構成となっている。「音源の種類」は、音響認識用メモリ１３ｄと同様に、人物（老若男女）、動物（大型犬、小型犬、猫、鳥）、物体（自動車、電車）を示しているが、それに限らないは勿論である。なお、画像認識用メモリ１３ｅの内容は、予め入力された大量の画像データが統計的に処理され、音源の種類に応じた規則性や関連性など、外観的特徴を学習（機械学習、例えば、ディープラーニング）することによりモデル化されたもので、その内容は学習に応じて動的に逐次変更（追加、編集）される。

タッチ表示部１４は、高精細液晶などのディスプレイ上にタッチパネルを積層配置した構成のタッチ表示画面６を有し、このタッチ表示画面６は、撮影されたライブビュー画像をリアルタイムに表示するモニタ画面（ライブビュー画面）となったり、撮影済み画像を再生する画面となったりする。短距離通信部１５は、撮像装置２又は外部機器２０との間で各種のデータの送受信を行う通信インターフェイスである。姿勢検出部１６は、本体装置３に加わる加速度を検出する３軸タイプの加速度センサなどであり、本体装置３の姿勢として、長方形のタッチ表示部１４の向きに応じて、縦長画面（縦向き画面）か、横長画面（横向き画面）かを検出して制御部１１に与える。音響出力部１７は、音響データを出力する第１スピーカ７及び第２スピーカ８を有し、各スピーカ７、８の出力音量をスピーカ毎に制御するようにしている。

図３（１）は、撮像装置２を横置き姿勢にした状態を示した図である。
すなわち、広角レンズ４の光軸方向を天頂に向けた状態（横置き状態）、つまり、光軸方向が重力方向に対して略逆方向となる状態で撮影する場合の姿勢（横置き姿勢）を示している。図３（２）は、この横置き姿勢で撮影された魚眼画像を例示した図で、会議中にテーブル上に横置き姿勢で載置された撮像装置２によって会議の様子が撮影された場合の魚眼画像（半天球画像）を示している。図３（３）は、この魚眼画像から音源（話者）の被写体を含むように所定の領域を切り出してタッチ表示画面６に拡大表示させた場合を示した図である。

なお、図示の例は、光軸方向を天頂に向けた横置き状態（横置き姿勢）で撮影した魚眼画像からその一部分の画像が切り出されて、その切出し画像が横長画面（横向き画面）として表示された場合を示したが、光軸方向を水平方向に向けた縦置き状態（縦置き姿勢）で撮影した魚眼画像からその一部分の画像が切り出されて、その切出し画像が横長画面（横向き画面）として表示させたり、縦長画面（縦向き画面）として表示させたりするようにしてもよい。

本体装置３の制御部１１は、音響データ付き画像データを再生する際に、ユーザ操作によって再生対象が任意に指定されると、その指定された音響データ付き画像データをデータメモリ１３ｃから読み出し取得する。その後、再生指示に応じて音響データ付き画像データの再生を開始するが、第１実施形態では、音響データ付き画像データの全てを逐次再生（全体再生）するのではなく、データを遂次解析して前後の無音区間を除いた音響区間を検出し、この音響区間の音響データ及び画像データを抽出し、この抽出した音響データ及び画像データのみを対応付けて再生（部分再生）するようにしている。

すなわち、制御部１１は、一連の音響データを遂次解析して前後の無音区間を除いた音響区間を検出すると、この音響区間の音響データに対してその特徴を抽出する処理を行うことによりその区間の音響的特徴（周波数特性など）を得るようにしている。そして、音響認識用メモリ１３ｄを参照してその音響的特徴に該当する音源の種類を得た後に、画像認識用メモリ１３ｅを参照し、この音源の種類に該当する音響的特徴を持った音源（被写体）を特定する。その後、制御部１１は、特定した音源（被写体）を含むように所定サイズの領域を切り出すと共に、この切出し画像に対して歪補正を施した後、タッチ表示画面６に拡大表示させる。なお、画像の切り出し方は任意であるが、図３（３）の例では、音源（話者）として特定した被写体（男性）Ａの他に、可能な限り他の被写体（隣席の他の被写体Ｂ）を含むように画像の切り出しを行った場合である。

そして、制御部１１は、再生対象として指定された一連の音響データの中から、上述のようにして特定した音源（被写体）に対応する音響データを選別（抽出）することにより当該音源（被写体）に該当する音響データ（当該音源の音響データ）として切り出すと共に、この切出し音響（トリミング音響）を、切出し画像に対応付けて（画像表示に同期して）出力させる。その際、切出し画像内における音源（被写体）の位置（表示位置）に応じて、切出し音響の出力状態（出力音量）を、スピーカ毎に制御するようにしている。つまり、切出し画像（平面）内において、その中心からの方向と距離（平面座標系の位置）を検出し、音源（被写体）の表示位置は、第１スピーカ７側の方向に偏っているか、第２スピーカ８側の方向に偏っているかに応じて、切出し音響の出力音量を制御するようにしている。

図示の例において音源（被写体）Ａの位置は、切出し画像の中心から第１スピーカ７側の方向（図中、左方向）に偏っているので、第１スピーカ７からの出力音量を予め任意に設定されている音量（設定音量）よりも大きくし、逆に、第２スピーカ８からの出力音量を設定音量よりも小さくするようにしている。このような音量の制御は、切出し画像内においてその画像の中心から音源の位置までの距離に比例し、距離が遠くなる程、つまり、その方向に配置されているスピーカに近づくほど、そのスピーカの出力音量が大きくなるように、他方のスピーカの出力音量が小さくなるように両スピーカの出力音量を制御するようにしている。

次に、第１実施形態におけるデータ処理装置１（本体装置３）の動作概念を図４に示すフローチャートを参照して説明する。ここで、このフローチャートに記述されている各機能は、読み取り可能なプログラムコードの形態で格納されており、このプログラムコードにしたがった動作が逐次実行される。また、ネットワークなどの伝送媒体を介して伝送されてきた上述のプログラムコードに従った動作を逐次実行することもできる。このことは後述する他の実施形態においても同様であり、記録媒体の他に、伝送媒体を介して外部供給されたプログラム／データを利用して本実施形態特有の動作を実行することもできる。なお、図４は、データ処理装置１の全体動作のうち、本実施形態の特徴部分の動作概要を示したフローチャートであり、この図４のフローから抜けた際には、全体動作のメインフロー（図示省略）に戻る。

図４は、データ処理装置１（本体装置３）の動作（第１実施形態での特徴的な動作：画像・音響再生処理）を示したフローチャートで、音響データ付き画像データの再生が指示された際に実行開始される。ここで、再生対象として動画撮影された音響データ付き動画像データが指定されたものとする（以下、同様）。
先ず、本体装置３は、再生が指示されると、データメモリ１３ｃの中から再生対象として指定された音響データ及び動画像データを読み出し取得する（ステップＡ１）。そして、取得した一連の音響データを逐次解析することにより、その中から音源の音響データを分離抽出して切出し音響を得る（ステップＡ２）。すなわち、前後の無音区間を切った音響区間において、音圧レベルが所定値以上の音源を主要な音源として分離抽出することにより、雑音を取り除いた主要な音源の音響データを切出し音響として得る。

そして、この切出し音響（主要な音源の音響データ）を解析することによってその音源の音響的特徴を得た後、音響認識用メモリ１３ｄを参照して、この音響的特徴を持った音源の種類を得る（ステップＡ３）。その際、統計的手法、又はＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：隠れマルコフモデル）手法などを用いて音響データの解析を行う。本実施形態においては、現在の状態から次の状態に遷移する確率を定義するＨＭＭを用いて、切出し音響の解析を行い、それによって得られた時系列の音響的特徴と、その時系列の音響的特徴のモデルとのパターンマッチングによって音源の種類を認識するようにしている。

このような音響解析の結果、所定の種類の音源を特定することができたか否かを判別する（ステップＡ４）。すなわち、音響データを解析することにより得られた音響的特徴は、音響認識用メモリ１３ｄに記憶されている音源の種類に該当するか否かを判別する。例えば、音源が人物であれば、更に老若男女の何れであるかを判別し、動物であれば、犬（大型犬、小型犬）、猫、小鳥であるかを判別し、物体であれば、自動車、電車であるかを判別する。

いま、特定した音源の種類が所定の種類でなければ（ステップＡ４でＮＯ）、その切出し音響を無視（出力対象外）とするために、上述の音響解析処理（ステップＡ２に戻るが、所定の種類の音源であれば（ステップＡ４でＹＥＳ）、その音源の種類を基にして、画像データを解析することにより当該音源である被写体が存在している画像内の位置（被写体の位置）を特定する（ステップＡ５）。すなわち、この音源の種類を基にして、画像認識用メモリ１３ｅを参照することにより、この音源の種類に該当する外観的特徴を得ると共に、取得した画像データを解析することによりその外観的特徴を持った被写体（音源）の位置を特定する。

この場合の画像解析手法としては、例えば、局所特徴量と統計的学習手法との組み合わせで行うようにしてもよいが、本実施形態においては、物体（音源）検出のアルゴリズムとして、Ｒ―ＣＮＮ（ＲｅｇｉｏｎｓｗｉｔｈＣＮＮｆｅａｔｕｒｅｓ）の手法を用いて画像内の音源を特定するようにしている。すなわち、時系列順のフレーム画像の各々を逐次解析する際に、物体（音源）らしさ（Ｏｂｊｅｃｔｎｅｓｓ）を見つける既存手法（ＳｅｌｅｃｔｉｖｅＳｅａｒｃｈ）を用いて、画像から物体（音源）候補（ＲｅｇｉｏｎＰｒｏｐｏｓａｌｓ）を探した後、この音源候補の領域画像を全て一定の大きさにリサイズしてＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）にかけて音源の外観的な特徴（ｆｅａｔｕｒｅｓ）を抽出する。そして、抽出した音源の外観的な特徴を複数のＳＶＭ（ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ）を用いて、学習すると共に、カテゴリ識別、回帰分析（ｒｅｇｒｅｓｓｉｏｎ）によってＢｏｕｎｄｉｎｇＢｏｘ（音源（被写体）の位置）を推定する。

このようにして画像内における音源（被写体）の位置を特定すると、この音源（被写体）を含む所定サイズ（例えば、画像全体の１／４サイズ）の領域を動画像（魚眼画像）データの中から切り出す（ステップＡ６）。その際、音源（被写体）が画像の中心に来るように切り出す場合に限らず、なるべく複数の被写体が含まれるように切り出すようにしている。例えば、隣に他の人物などの被写体が存在していれば、その隣の被写体も含まれるように切り出したり、背景などとの構図を考慮して切り出したりするが、その切り出し方は、それに限らず、任意である。

いま、図３（１）〜（３）に示したように、横置き姿勢で撮影された魚眼画像（半天球画像）の中から音源（話者）としての男性の被写体Ａと、他の被写体（音源に隣席する女性）Ｂが含まれるようなに域が切り出されたものとすると、この切出し画像内における音源の被写体（男性）Ａの位置として、画像の中心から音源（被写体）への方向とその距離を検出する（ステップＡ７）。すなわち、切出し画像内において音源（話者）として男性の被写体Ａがその画像の中心からどの方向にどれくらい離れているか、言い換えれば、切出し画像内において音源の位置は、その画像の中心から第１スピーカ７側の方向にどれくらい偏っているかを検出すると共に、第２スピーカ８側の方向にどれくらい偏っているのかを検出する。

これによって検出した音源（被写体）の位置に応じて、その切出し音響の出力音量を決定する（ステップＡ８）。例えば、図３（３）において音源（話者）として被写体（男性）Ａは、切出し画像の中心から第１スピーカ７側の方向（図中、左方向）に大きく偏っているので、第１スピーカ７から出力される切出し音響の出力音量が、設定音量よりもその偏り量分大きくなるように、逆に、第２スピーカ８から出力される切出し音響の出力音量が設定音量よりもその偏り量分小さくなるようにスピーカ毎にその切出し音響の出力音量を決定する。

その後、切出し画像に対して広角レンズ（魚眼レンズ）４による歪を補正する処理を施した後、その補正した切出し画像をタッチ表示画面６の全体サイズに拡大して表示させる処理（ステップＡ９）を行うと共に、切出し音響を、切出し画像の表示に対応付けて（同期させて）、スピーカ毎に決定した音量で出力させる（ステップＡ１０）。図３（３）の場合には、切出し画像内においてその音源（被写体）の位置がその画像の中心から第１スピーカ７側の方向（図中、左方向）に大きく偏っているので、第１スピーカ７からの出力音量は、その偏りの距離に比例して大きくなり、逆に第２スピーカ８からの出力音量は、その偏り距離に比例して小さくなる。

このようにして切出し音響の出力音量を、その音源（被写体）の位置に応じてスピーカ毎に制御する処理を行うと、再生が終了したか、つまり、音響データ付き動画像データの再生がその末尾まで終了したか、又は再生途中でユーザ操作により再生終了が指示されたかを調べる（ステップＡ１１）。ここで、再生終了でなければ（ステップＡ１１でＮＯ）、再生終了となるまで上述のステップＡ２に戻り、上述の動作を繰り返す。この場合、特定した音源（被写体）が移動体の場合、又は撮影者が移動しながら撮影を行った場合に、上述した動作が繰り返されることにより切出し音響の出力状態（出力音量）は、音源の位置の移動に追従して制御されることになる。
なお、切出し音響とそれに該当する切出し画像とを管理するためのファイルを作成する処理ステップを、上述のステップＡ６の後に新たに設け、この新たなステップで作成した管理ファイルを利用して、上述のステップＡ７以降の各処理を行うような構成にしてもよいことは勿論である。

以上のように、第１実施形態においてデータ処理装置１（本体装置３）は、画像データ及び音響データを取得すると、この取得した画像データを解析することにより当該画像内に存在している音源としての被写体を特定すると共に、取得した一連の音響データの中から音源として特定した被写体に該当する音響データを選別して当該被写体に対応付けるようにしたので、画像内に存在している音源として被写体と、その被写体が発生した音響との関係を明確にすることができる。

本体装置３は、取得した一連の音響データを解析することによりその音源の音響的特徴を特定すると共に、この音響的特徴を基にして、取得した画像データを解析することにより当該音響的特徴を持った被写体を特定するようにしたので、音響データを基にして、画像内に存在している音源としての被写体を的確に特定することが可能となる。

本体装置３は、音源として特定した被写体を含む画像データを表示させると共に、その音源の音響データを当該表示中の被写体に対応付けるようにしたので、音源の音響データを、表示中の音源（被写体）に対応付けることができ、その対応関係が明確なものとなる。

本体装置３は、取得した画像データの中から音源として特定した被写体を含む領域を切り出して表示している状態において、取得した音響データの中から、音源として表示している被写体に該当する音響データを選別して当該表示中の被写体に対応付けるようにしたので、音源として特定した被写体を基にして、その被写体を含む領域を切り出すことができると共に、切出し画像内の被写体（音源）とその被写体（音源）が発生した音響との対応関係を明確にすることができる。

本体装置３は、選別した音源（被写体）の音響データを出力する場合に、画像内の音源の位置に応じて、その音響の出力状態を制御するようにしたので、音源の位置に適合した音響出力が可能となり、臨場感のある音響を出力させることができる。

本体装置３は、異なる位置に配置された複数のスピーカとして第１スピーカ７と第２スピーカ８を有し、音源（被写体）の音響データを出力する際にその出力音量をスピーカ毎に制御するようにしたので、更に、臨場感のある音響を出力させることができる。

本体装置３は、特定した音源が移動体の場合、又は撮影者が移動しながら撮影を行った場合に、その音響データの出力状態（音量）を、音源の位置の移動に追従してスピーカ毎に制御するようにしたので、更に、臨場感のある音響を出力させることができる。

本体装置３は、音響データを出力させる際に、音源として特定した被写体に該当する音響データのみを選別（抽出）して出力することにより音響データと共に集音された他の音響データの出力を抑制するようにしたので、雑音などを抑制したクリアな音響を出力することができる。

画像データは、広角撮像された画像（魚眼画像）であり、音響データは、広角画像の撮影時にその撮影に同期して集音記憶された音響であるので、多くの被写体が存在している可能性が高い魚眼画像であっても、取得した音響データを解析することにより多くの被写体の中から音源としての被写体を容易に特定することが可能となる。

（第２実施形態）
以下、この発明の第２実施形態について図５のフローチャートを参照して説明する。
なお、上述した第１実施形態においては、音響解析を行ってから画像解析を行うことにより、切出し画像と切出し音響とを対応付けるようにしたが、第２実施形態においては、画像解析を行ってから音響解析を行うにより、切出し画像と切出し音響とを対応付けるようにしたものである。ここで、両実施形態において基本的あるいは名称的に同一のものは、同一符号を付して示し、その説明を省略すると共に、以下、第２実施形態の特徴部分を中心に説明するものとする。

図５は、第２実施形態において、データ処理装置１（本体装置３）の特徴的な動作（画像・音響再生処理）を示したフローチャートであり、音響データ付き動画像データの再生が指示された際に実行開始される。
先ず、本体装置３は、再生が指示されると、データメモリ１３ｃの中から再生対象として指定された音響データ及び動画像データを読み出し取得する（ステップＢ１）。そして、取得した動画像データをフレーム毎に逐次解析することにより、画像内に各被写体の全体動作や口元の動作などから、音を発している被写体（例えば、発言している人物、吠えている犬など）を音源として特定する（ステップＢ２）。この場合、物体（音源）検出のアルゴリズムとして、Ｒ―ＣＮＮの手法を用いて画像内の音源を特定するようにしている。

このような画像解析の結果、音源としての被写体を特定することができたか否かを判別し（ステップＢ３）、音源（被写体）を特定できなければ、つまり、音を発している被写体が存在していなければ（ステップＢ３でＮＯ）、そのときの画像を無視（出力対象外）とするために、上述の画像解析処理（ステップＢ２）に戻るが、音源（被写体）を特定できた場合には（ステップＢ３でＹＥＳ）、この音源（被写体）を含む画像データを、更に解析することにより音源（被写体）の位置と外観的特徴（画像特徴量）を特定する処理を行う（ステップＢ４）。

次に、取得した一連の音響データを解析することにより、特定した外観的特徴を持った音源（被写体）の音響データを、この一連の音響データの中から選別（抽出）する（ステップＢ５）。この場合、特定した外観的特徴を基にして、画像認識用メモリ１３ｅを参照し、この外観的特徴に該当する音源の種類を得ると共に、この音源の種類を基にして、音響認識用メモリ１３ｄを参照し、この音源の種類に該当する音響的特徴を得た後、取得した一連の音響データを解析することによりその音響的特徴を持った音響データを抽出して切出し音響を得る。すなわち、特定した音源（被写体）に該当する音響データを選別（抽出）することにより当該音響データを切出し音響（トリミング音響）として得る。

以下、図４のステップＡ６〜Ａ１１に対応する処理（ステップＢ６〜Ｂ１１）に移る。先ず、音源（被写体）を含む所定サイズの領域を動画像データの中から切り出し（ステップＢ６）、この切出し画像の中心から音源（被写体）への方向と距離（被写体の位置）を検出する処理（ステップＢ７）を行うと共に、切出し音響の音量を音源（被写体）の位置に応じてスピーカ毎に決定する処理を行う（ステップＢ８）。そして、切出し画像に対して歪補正処理を施した後に、その補正した切出し画像をタッチ表示画面６の全体サイズに拡大して表示させる（ステップＢ９）。

その後、切出し音響を画像表示に対応付けて（同期して）出力させる際に、この切出し音響の出力音量を、その音源（被写体）の位置に応じて、スピーカ毎に制御する（ステップＢ１０）。このような出力処理が終わると、再生が終了したか、つまり、音響データ付き動画像データの再生がその末尾まで終了したか、又は再生途中でユーザ操作により再生終了が指示されたかを調べる（ステップＢ１１）。ここで、再生終了でなければ（ステップＢ１１でＮＯ）、再生終了となるまで上述のステップＢ２に戻り、以下、上述の動作を繰り返す。
なお、切出し音響とそれに該当する切出し画像とを管理するためのファイルを作成する処理ステップを、上述のステップＢ６の後に新たに設け、この新たなステップにより作成した管理ファイルを利用して、上述のステップＢ７以降の各処理を行うような構成にしてもよいことは勿論である。

以上のように、第２実施形態においては、取得した画像データ内の被写体の動作を解析して音源となる被写体を特定し、この特定した音源の外観的特徴を基にして、音響データを解析することによりその外観的特徴に該当する音響データを、当該音源（被写体）の音響データとして選別（抽出）して、当該被写体に対応付けるようにしたので、画像内に存在している音源として被写体と、その被写体が発生した音響との関係を明確にすることができる。

その他、第２実施形態においても上述した第１実施形態と同様の効果を有する。すなわち、音源として特定した被写体を基にして、その被写体を含む領域を切り出すことができると共に、切出し画像内の被写体（音源）とその被写体（音源）が発生した音響（切出し音響）との対応関係を明確にすることができる。また、音源（被写体）の位置に応じて切出し音響の出力状態を制御することができると共に、その出力音量をスピーカ毎に制御することが可能となる。更に、音源の位置の移動に追従して切出し音響の出力状態を制御することができる。

（第１及び第２実施形態の変形例１）
上述した第１及び第２実施形態においては、取得した画像データの中から音源として特定した被写体に基づいてその被写体を含む領域を切り出して表示するようにしたが、その切り出し領域をユーザ操作によって任意に指定できるようにしても。すなわち、表示中の画像データの中から音源として任意に指定された被写体を含む領域を、ユーザ操作によって任意に指定されると、その指定領域の画像を切り出して表示するようにしてもよい。これによってユーザにあっては表示中の画像から所望する被写体を任意に指定するだけで、その被写体とその被写体が発生した音響データとを対応付けることができる。

（第１及び第２実施形態の変形例２）
上述した第１及び第２実施形態においては、音源（被写体）の音響データ（切出し音響）のみを分離抽出して出力（他の音響データの出力を抑制）するようにしたが、切出し音響のデータを分離せず、その音源による音響の発生区間を抽出して出力するようにしてもよい。これによって雑音も含めた撮影時の環境をそのまま再現することができるようになる。

（第１及び第２実施形態の変形例３）
上述した第１及び第２実施形態においては、画角が略１８０゜という広範囲な撮影が可能な広角レンズ（魚眼レンズ）４を使用して撮影した動画像について適用したが、撮像装置２の前面部と背面部に２枚の魚眼レンズを配置し、前面部の魚眼レンズによる前方１８０゜の撮影と、背面部の魚眼レンズによる後方１８０゜の撮影を同時に行って、３６０°の画像（全天球画像）に得るようにしてもよい。ここで、撮像装置２の前面部に設けたモノクロマイク５によって３６０°の集音を行った場合に、音源としての被写体が、モノクロマイク５に対して逆の方向に位置している場合には、視聴者の後方に音源が存在しているように、その音源の音響データを仮想化して出力するようにしてもよい。この仮想化は、例えば、聴取者に対して任意の方向からの音のように知覚させるバイノーラル化技術と、各チャンネルの音声が反対側の耳へまわりこむ現象（クロストーク成分）を削減する処理（クロストークキャンセル処理）などの一般的な方法で実施することが可能となる。

その他、上述した第１及び第２実施形態は、単一のモノクロマイク５を使用して集音した場合を示したが、２チャンネル以上のマイクを使用して録音するようにしてもよい。この場合、マイク別に集音した音響データに対してその出力音量を、第１及び第２実施形態と同様に、音源（被写体）の位置に応じて制御するようにすればよい。

（第３実施形態）
以下、この発明の第３実施形態について図６及び図７を参照して説明する。
なお、上述した第１実施形態においては、取得した一連の音響データの中から、音源の種類に該当する音響データを分離抽出するようにしたが、この第３実施形態においては、取得した一連の音響データの中から、個々の音源（人物であれば特定話者）に該当する音響データを分離抽出するようにしたものである。すなわち、この第３実施形態は、取得した一連の音響データを解析して音源毎の音響データに分離抽出した後、この分離抽出した音源毎の音響データの中から、音源として特定した被写体に該当する音響データを選別して当該被写体に対応付けるようにしたものである。ここで、両実施形態において基本的あるいは名称的に同一のものは、同一符号を付して示し、その説明を省略すると共に、以下、第３実施形態の特徴部分を中心に説明するものとする。

図６（１）は、第３実施形態の動画像データを例示したもので、上述した第１実施形態では、広角レンズ（魚眼レンズ）４を使用して撮影した画像を例示したが、この第３実施形態にあっては、標準レンズ（図示省略）を使用して撮影した画像を示している。図示の例は、男女３人Ｘ、Ｙ、Ｚが会話している様子を撮影した場合で、その撮影時にはモノクロマイク５で集音された音響データと共にその画像データは、データメモリ１３ｃに記憶保存される。なお、図示の撮影タイミングは、人物（二人の女性）Ｘ、Ｚが同時に会話している場合を示している。

図６（２）は、図６（１）に示した動画像データの表示に同期して音響データが再生される様子を例示した図である。
なお、上述した第１及び第２実施形態においては、取得した画像データの中からその一部分として、音源（被写体）を含む領域を切り出して表示するようにしたが、この第３実施形態においては、取得した画像データの全体を表示するようにしている。図示の例では、同時に会話している二人の女性Ｘ、Ｚの音響データが各スピーカ７、８から同時に再生された場合で、上述した第１及び第２実施形態と同様に、話者（音源）がその画像の中心からどの方向にどれくらい離れているかを検出し、この検出結果（話者の位置）に応じて、話者（音源）毎にその出力音量をスピーカ毎に制御するようにしている。

第３実施形態で使用する音響認識用メモリ１３ｄは、音源毎にその音源の個々を識別する情報（音源ＩＤ）と、音響的特徴（音響特徴量）とを対応付けた構成となっている。同様に、第３実施形態で使用する画像認識用メモリ１３ｅは、音源毎にその音源ＩＤと外観的特徴（画像特徴量）とを対応付けた構成となっている。なお、上述した第１及び第２実施形態では音源としてその種類（人物、動物、物体）とした場合を示したが、第３実施形態では、音源を人物の個々（個人）に特化し、音響データを人の声（音声データ）とした場合である。

図７は、第３実施形態において、データ処理装置１（本体装置３）の特徴的な動作（画像・音響再生処理）を示したフローチャートであり、音響データ（音声データ）付き動画像データの再生が指示された際に実行開始される。
先ず、本体装置３は、再生が指示されると、データメモリ１３ｃの中から再生対象として指定された音声データ付き動画像データを取得して（ステップＣ１）、その動画像データの再生を開始（ステップＣ２）させた後、取得した一連の音声データを逐次解析して（ステップＣ３）、音声（人の声）の有無を調べる（ステップＣ４）。

ここで、無音状態、又は人物以外の音響であれば（ステップＣ４でＮＯ）、上述のステップＣ３に戻るが、音声を検出したときには（ステップＣ４でＹＥＳ）、取得した一連の音声データを解析することにより話者毎にその音声データを分離抽出する（ステップＣ５）。この場合、例えば、一連の音声データを解析することによって得られた話者毎の音声データを分類するクラスタリング処理などの一般的な方法を実施して、話者毎にその個々の音声データ（各人の音声データ）を分離抽出する。

そして、分離抽出した話者毎の音声データ（音響的特徴）を基にして、音響認識用メモリ１３ｄを参照し、その音響的特徴に該当する特定話者（音源ＩＤ）を認識する（ステップＣ６）。更に、この特定話者（音源ＩＤ）を基にして、画像認識用メモリ１３ｅを参照し、その特定話者（音源ＩＤ）に該当する外観的特徴を得ると共に、取得した画像データを解析することによりその外観的特徴を持った被写体（話者）の位置（画像内の位置）を特定する（ステップＣ７）。

この話者毎の位置に応じて、その音声データを出力する際の音量をスピーカ毎に決定する（ステップＣ８）。例えば、図６（２）の場合において、話者Ｘは、画像の中心から第１スピーカ７側の方向（図中、左方向）に偏っているので、第１スピーカ７からの出力音量が設定音量よりも大きくなるように、また、第２スピーカ８からの出力音量が設定音量よりも小さくなるようにその音量を決定し、また、話者Ｚは、画像の中心から第２スピーカ８側の方向（図中、右方向）に偏っているので、第２スピーカ８からの出力音量が設定音量よりも大きくなるように、また、第１スピーカ７からの出力音量が設定音量よりも小さくなるようにその音量を決定する。

次に、話者毎に分離抽出した音声データを画像表示に同期してスピーカ毎に、上述の決定音量で出力する（ステップＣ９）。その際、複数の話者が同時に発言した音声であれば、スピーカ毎に各話者の音声データを合成した混合音を出力するようにしている。すなわち、図６（２）の場合には、第１スピーカ７から出力される話者Ｘ、Ｚの混合音は、話者Ｘの音声の方が話者Ｚの音声よりも音量が大きく出力され、逆に、第２スピーカ８から出力される話者Ｘ、Ｚの混合音は、話者Ｚの音声の方が話者Ｘの音声よりも音量が大きく出力される。以下、再生終了が指示されたか、つまり、音声データ付の動画像データの再生がその末尾まで終了したか、又は再生途中でユーザ操作により再生終了が指示されたかを調べる（ステップＣ１０）。ここで、再生終了でなければ（ステップＣ１０でＮＯ）、再生終了となるまで上述のステップＣ３に戻り、以下、上述の動作を繰り返す。
なお、話者毎に分離抽出した音声データとそれに該当する話者を含む画像データとを管理するためのファイルを作成する処理ステップを、上述のステップＣ６の後に新たに設ける、又は話者毎に分離抽出した音声データとそれに該当する話者を含む画像データと話者に関する位置情報や認識された話者に関する情報等とを管理するためのファイルを作成する処理ステップを上述のステップＣ７の後に新たに設け、この新たなステップで作成した管理ファイルを利用してそれ以降の各処理を行うような構成にしてもよいことは勿論である。

以上のように、第３実施形態においては、取得した一連の音響データを解析することにより音源毎の音響データに分離抽出し、この分離抽出した音源毎の音響データの中から、音源（被写体）の音響データを選別して当該被写体に対応付けるようにしたので、音源（被写体）を精度良く特定することが可能となり、音源と被写体との対応付けがより確実なものとなる。

本体装置３は、表示中の画像データを解析することにより当該画像内に存在している音源としての各被写体を特定するようにしたので、分離抽出した音源毎の音響データを、表示中の音源（被写体）に対応付けることができ、その対応関係が明確なものとなる。

また、複数の話者が同時に会話している場合には、分離抽出した話者毎の音声データを、スピーカ毎に合成した混合音として出力するようにしたので、複数の話者が同時に会話していても聞き取りやすい音声を出力することが可能となる。

その他、第３実施形態においても上述した第１実施形態と同様の効果を有する。すなわち、表示されている音源の被写体（話者）の位置に応じて、その話者の音声データの出力音量を制御することが可能となると共に、その出力音量をスピーカ毎に制御することが可能となる。更に、音源（話者）の位置の移動に追従してその出力音声を制御することができる。

（第３実施形態の変形例１）
なお、上述した第３実施形態においては、取得した音声データの中から分離抽出した話者毎の音声データ（音響的特徴）を基にして、各話者を認識した後、各話者の外観的特徴からその被写体（話者）の位置を特定するようにしたが、これに限らず、例えば、取得した画像データを解析することによって話者毎の外観的特徴から話者を認識してその位置を特定した後、各話者の音響的特徴を基にして、取得した音声データを解析することによって話者毎の音声データを分離抽出するようにしてもよい。すなわち、上述した第１実施形態、第２実施形態の関係の様に、音響解析を行ってから画像解析を行うか、画像解析を行ってから音響解析を行うかのいずれであってもよい。

（第３実施形態の変形例２）
上述した第３実施形態においては、単一のモノクロマイク５によって集音した音声データを示したが、例えば、会議中の各参加者の個々にマイク（図示省略）を装着しておき、このマイク別に音声データを集音するようにしてもよい。この場合、動画像データの表示時にその画像内の被写体（話者）を特定し、マイク別の音声データの中からその音源（話者）の音声データを選別して当該被写体（話者）と音声データとを対応付けるようにすればよい。このように各参加者の個々にマイクを装着するようにすれば、音声データを解析して話者毎に音声データを分類するクラスタリング処理が不要となる。

（第３実施形態の変形例３）
その他、上述した第３実施形態においては、動画像データの再生中に話者毎にその音声データを分離抽出するようにしたが、動画像データの再生を開始する前処理として、話者毎にその音声データを分離抽出して記憶しておき、動画像データの再生中にその話者の出現（表示タイミング）に同期して、その音声データを出力するようにしてもよい。更に、第３実施形態は音源（被写体）を人物としたが、それに限らないことは勿論である。

（第１〜第３実施形態の変形例４）
上述した第１〜第３実施形態は、音源（被写体）の音響データのみを分離抽出して出力するようにしたが、音源（被写体）の音響データと、同時集音された雑音を含むその他の音響データとに分離して記憶しておき、音源（被写体）の音響データを出力する際に、雑音などの音響データを合成して出力するようにしてもよい。

（第１〜第３実施形態の変形例５）
上述した第１〜第３実施形態は、データ処理装置１としてデジタルカメラに適用した場合を示したが、音響データ付き動画像データを外部機器に送信することによってその外部機器をデータの出力先とするようにしてもよい。
図８は、データ処理装置（デジタルカメラ）１から外部機器２０に音響データ付き動画像データを送信して外部機器２０に出力させる場合を示した図である。

外部機器２０は、例えば、テレビ受像装置又は監視モニタ装置を構成するもので、画像データを表示する表示部２１の他に、データ処理装置１との間でデータ通常を行う短距離通信部２２と、図中、外部機器２０の左下角部に配設された左スピーカ２３と、外部機器２０の右下角部に配設された右スピーカ２４が備えられている。なお、短距離通信としては、例えば、無線ＬＡＮ（Ｗｉ−Ｆｉ）又はＢｌｕｅｔｏｏｔｈ（登録商標）を使用するようにすればよい。

この場合、データ処理装置１側では、例えば、上述した第１実施形態を適用したものとすると、図４のフローチャートと基本的には同様の動作を行うが、音響データ付き動画像データを外部機器２０から出力させるために、図４のステップＡ９においては、切出し画像を外部機器２０に送信する処理を行い、ステップＡ１０においては、切出し画像の送信に同期して、この音源の音響データを、スピーカ毎に決定した音量制御情報と共に、外部機器２０に送信するようにすればよい。この場合、外部機器２０側では、受信した音量制御情報に基づいて音響データをスピーカ毎に決定音量で出力するようにすればよい。このような大型の外部機器２０をデータの出力先とすれば、更に迫力感と臨場感のある出力が可能となる。
なお、切出し音響とそれに該当する切出し画像とを管理するためのファイルを作成する処理ステップを、上述のステップＡ６の後に新たに設け、この新たなステップで作成した管理ファイルを外部機器２０に送信して、外部機器２０ではそのデータを利用して音声付画像を出力するような構成であってもよい。
また、外部機器２０をデータの出力先とする場合にも上述した第２実施形態又は第３実施形態を適用するようにしてもよい。

（第１〜第３実施形態の変形例６）
上述した第１〜第３実施形態は、２つのスピーカ（第１スピーカ７、第２スピーカ８）を使用してステレオ出力する場合を示したが、例えば、３チャンネル以上のスピーカを使用して、臨場感のあるサラウンド音響を再生するようにしてもよい。この場合、長方形の表示画面の左右方向（長辺方向）に２チャンネルのスピーカを配置する場合に限らず、表示画面の上下方向（短辺方向）にも２チャンネルのスピーカを配置するようにしてもよい。その際、長方形の表示画面が縦長となる姿勢（縦向き姿勢）か、横長となる姿勢（横向き姿勢）に応じて、長辺方向に配置された２台のスピーカを使用するのか、短辺方向に配置された２台のスピーカを使用するのかを選択するようにすればよい。更に、視聴者の背後に２チャンネルのスピーカを配置するようにしてもよい。

また、第１〜第３実施形態においては、各スピーカを表示画面に対して固定的に配設したが、これに限らず、視聴者に対して各スピーカを任意の位置に移動可能としてもよい。この場合、各スピーカを表示画面との相対的な位置関係をユーザ操作で任意に設定可能とすればよい。
その他、第１〜第３実施形態においては、動画像データを再生するようにしたが、静止画像の再生中にその録音内容を出力するようにしてもよい。また、録画・録音されたデータを再生する場合に限らず、撮影中の画像データや撮影中に集音された音響データを、通信手段を介して取得してリアルタイムに出力する場合であってもよい。

また、データ処理装置１としては、セパレート型デジタルカメラ（本体装置３）に限らず、例えば、テレビ受像装置、監視モニタ装置、パーソナルコンピュータ、ＰＤＡ（個人向け携帯型情報通信機器）、タブレット端末装置、スマートフォンなどの携帯電話機、電子ゲーム、音楽プレイヤー、電子腕時計などであってもよい。

また、上述した各実施形態において示した“装置”や“部”とは、機能別に複数の筐体に分離されていてもよく、単一の筐体に限らない。また、上述したフローチャートに記述した各ステップは、時系列的な処理に限らず、複数のステップを並列的に処理したり、別個独立して処理したりするようにしてもよい。

以上、この発明の実施形態について説明したが、この発明は、これに限定されるものではなく、特許請求の範囲に記載された発明とその均等の範囲を含むものである。
以下、本願出願の特許請求の範囲に記載された発明を付記する。
（付記）
（請求項１）
請求項１に記載の発明は、
画像データを取得する画像取得手段と、
音響データを取得する音響取得手段と、
前記画像取得手段により取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する特定手段と、
前記音響取得手段により取得された音響データの中から、前記特定手段により音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける対応付け手段と、
を備えることを特徴とするデータ処理装置。
（請求項２）
請求項２に記載の発明は、請求項１に記載のデータ処理装置において、
前記音響取得手段により取得された音響データを解析することによりその音響的特徴を得る音響解析手段を更に備え、
前記特定手段は、前記音響解析手段により得られた音響的特徴を基にして、前記画像取得手段により取得された画像データを解析することにより当該音響的特徴を持った音源としての被写体を特定する、
ことを特徴とする。
（請求項３）
請求項３に記載の発明は、請求項１に記載のデータ処理装置において、
前記特定手段は、前記画像取得手段により取得された画像データ内の被写体の動作を解析することにより音源としての被写体を特定し、
前記対応付け手段は、前記特定手段により音源として特定された被写体の外観的特徴を基にして、前記音響取得手段により取得された音響データを解析することにより当該外観的特徴を持った被写体に該当する音響データを選別して当該被写体に対応付ける、
ことを特徴とする。
（請求項４）
請求項４に記載の発明は、請求項１乃至３の何れか１項に記載のデータ処理装置において、
前記画像データを表示する表示手段を、更に設け、
前記対応付け手段は、前記音源として特定された被写体を含む画像データを前記表示手段に表示させると共に、前記選別した音響データを当該表示中の前記被写体に対応付ける、
ことを特徴とする。
（請求項５）
請求項５に記載の発明は、請求項４に記載のデータ処理装置において、
前記画像取得手段により取得された画像データの中から前記特定手段により音源として特定された被写体を含む領域を切り出す切出手段を、更に備え、
前記対応付け手段は、前記切出手段により切出された切出し画像を前記表示手段に表示させると共に、前記音響取得手段により取得された音響データの中から前記切出し画像内に音源として含まれている被写体に該当する音響データを選別して当該表示中の前記被写体に対応付ける、
ことを特徴とする。
（請求項６）
請求項６に記載の発明は、請求項４に記載のデータ処理装置において、
前記表示手段に表示されている画像データの中から音源として任意に指定された被写体を含む領域を切り出す切出手段を、更に備え、
前記対応付け手段は、前記切出手段により切出された切出し画像を前記表示手段に表示させると共に、前記音響取得手段により取得された音響データの中から前記切出し画像内に音源として含まれている被写体に該当する音響データを選別して当該被写体に対応付ける、
ことを特徴とする。
（請求項７）
請求項７に記載の発明は、請求項１乃至６の何れか１項に記載のデータ処理装置において、
前記音響取得手段により取得された音響データを解析することにより音源毎の音響データに分離抽出する音響分離手段を、更に備え、
前記対応付け手段は、前記音響分離手段により分離抽出された音源毎の音響データの中から、前記特定手段により音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける、
ことを特徴とする。
（請求項８）
請求項８に記載の発明は、請求項４に記載のデータ処理装置において、
前記特定手段は、前記表示手段に表示されている画像データを解析することにより当該表示中の画像内に存在している音源としての被写体を特定する、
ことを特徴とする。
（請求項９）
請求項９に記載の発明は、請求項１乃至８の何れか１項に記載のデータ処理装置において、
前記対応付け手段により選別された音響データを出力する音響出力手段と、
前記音響出力手段から出力される前記音響データの出力状態を、前記特定手段により特定された被写体の位置に応じて制御する音響出力制御手段と、
を更に備える、
ことを特徴とする。
（請求項１０）
請求項１０に記載の発明は、請求項９に記載のデータ処理装置において、
前記音響出力手段は、異なる位置に配置された複数のスピーカを有し、
前記音響出力制御手段は、前記音響データの音量を、前記特定手段により特定された被写体の位置に応じて前記スピーカ毎に制御する、
ことを特徴とする。
（請求項１１）
請求項１１に記載の発明は、請求項９又は１０に記載のデータ処理装置において、
前記音響出力制御手段は、前記音響出力手段から出力される前記音響データの出力状態を、前記特定手段により特定された被写体の位置の移動に追従して制御する、
ことを特徴とする。
（請求項１２）
請求項１２に記載の発明は、請求項９乃至１１の何れか１項に記載のデータ処理装置において、
前記音響出力制御手段は、前記音響データを出力させる際に、前記音源として特定された被写体に該当する音響データのみを抽出して出力し、当該音響データと共に集音された他の音響データの出力を抑制する、
ことを特徴とする。
（請求項１３）
請求項１３に記載の発明は、請求項９乃至１１の何れか１項に記載のデータ処理装置において、
前記音響出力制御手段は、前記音響データを出力させる際に、当該音響データと共に集音された他の音響データを合成して出力する、
ことを特徴とする。
（請求項１４）
請求項１４に記載の発明は、請求項１乃至１３の何れか１項に記載のデータ処理装置において、
前記画像データは、広角撮影された画像データであり、
前記音響データは、前記広角画像の撮影に同期して当該広角を網羅する広範囲を集音した音響データである、
ことを特徴とする。
（請求項１５）
請求項１５に記載の発明は、請求項１乃至１４の何れか１項に記載のデータ処理装置において、
前記対応付け手段は、前記音源として特定された被写体と当該被写体に該当する前記音響データとを対応付けた上で、前記被写体を含む画像データと前記被写体に該当する前記音響データとを管理するためのファイルを作成する、
ことを特徴とする。
（請求項１６）
請求項１６に記載の発明は、
データ処理方装置のデータ処理方法であって、
画像データを取得する処理と、
音響データを取得する処理と、
前記取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する処理と、
前記取得された音響データの中から前記音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける処理と、
を含む、
ことを特徴とする。
（請求項１７）
請求項１７に記載の発明は、
データ処理方装置のコンピュータに対して、
画像データを取得する機能と、
音響データを取得する機能と、
前記取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する機能と、
前記取得された音響データの中から前記音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける機能と、
を実現させる、
ことを特徴とするプログラムである。

１データ処理装置
２撮像装置
３本体装置
４広角レンズ（魚眼レンズ）
５モノクロマイク
６タッチ表示画面
７第１スピーカ
８第２スピーカ
１１制御部
１３ａプログラムメモリ
１３ｃデータメモリ
１３ｄ音響認識用メモリ
１３ｅ画像認識用メモリ
１４タッチ表示部
１７音響出力部
２０外部機器
２１表示部
２３左スピーカ
２４右スピーカ

Claims

画像データを取得する画像取得手段と、
音響データを取得する音響取得手段と、
前記画像取得手段により取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する特定手段と、
前記音響取得手段により取得された音響データの中から、前記特定手段により音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける対応付け手段と、
を備えることを特徴とするデータ処理装置。
前記音響取得手段により取得された音響データを解析することによりその音響的特徴を得る音響解析手段を更に備え、
前記特定手段は、前記音響解析手段により得られた音響的特徴を基にして、前記画像取得手段により取得された画像データを解析することにより当該音響的特徴を持った音源としての被写体を特定する、
ことを特徴とする請求項１に記載のデータ処理装置。
前記特定手段は、前記画像取得手段により取得された画像データ内の被写体の動作を解析することにより音源としての被写体を特定し、
前記対応付け手段は、前記特定手段により音源として特定された被写体の外観的特徴を基にして、前記音響取得手段により取得された音響データを解析することにより当該外観的特徴を持った被写体に該当する音響データを選別して当該被写体に対応付ける、
ことを特徴とする請求項１に記載のデータ処理装置。
前記画像データを表示する表示手段を、更に設け、
前記対応付け手段は、前記音源として特定された被写体を含む画像データを前記表示手段に表示させると共に、前記選別した音響データを当該表示中の前記被写体に対応付ける、
ことを特徴とする請求項１乃至３の何れか１項に記載のデータ処理装置。
前記画像取得手段により取得された画像データの中から前記特定手段により音源として特定された被写体を含む領域を切り出す切出手段を、更に備え、
前記対応付け手段は、前記切出手段により切出された切出し画像を前記表示手段に表示させると共に、前記音響取得手段により取得された音響データの中から前記切出し画像内に音源として含まれている被写体に該当する音響データを選別して当該表示中の前記被写体に対応付ける、
ことを特徴とする請求項４に記載のデータ処理装置。
前記表示手段に表示されている画像データの中から音源として任意に指定された被写体を含む領域を切り出す切出手段を、更に備え、
前記対応付け手段は、前記切出手段により切出された切出し画像を前記表示手段に表示させると共に、前記音響取得手段により取得された音響データの中から前記切出し画像内に音源として含まれている被写体に該当する音響データを選別して当該被写体に対応付ける、
ことを特徴とする請求項４に記載のデータ処理装置。
前記音響取得手段により取得された音響データを解析することにより音源毎の音響データに分離抽出する音響分離手段を、更に備え、
前記対応付け手段は、前記音響分離手段により分離抽出された音源毎の音響データの中から、前記特定手段により音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける、
ことを特徴とする請求項１乃至６の何れか１項に記載のデータ処理装置。
前記特定手段は、前記表示手段に表示されている画像データを解析することにより当該表示中の画像内に存在している音源としての被写体を特定する、
ことを特徴とする請求項４に記載のデータ処理装置。
前記対応付け手段により選別された音響データを出力する音響出力手段と、
前記音響出力手段から出力される前記音響データの出力状態を、前記特定手段により特定された被写体の位置に応じて制御する音響出力制御手段と、
を更に備える、
ことを特徴とする請求項１乃至８の何れか１項に記載のデータ処理装置。
前記音響出力手段は、異なる位置に配置された複数のスピーカを有し、
前記音響出力制御手段は、前記音響データの音量を、前記特定手段により特定された被写体の位置に応じて前記スピーカ毎に制御する、
ことを特徴とする請求項９に記載のデータ処理装置。
前記音響出力制御手段は、前記音響出力手段から出力される前記音響データの出力状態を、前記特定手段により特定された被写体の位置の移動に追従して制御する、
ことを特徴とする請求項９又は１０に記載のデータ処理装置。
前記音響出力制御手段は、前記音響データを出力させる際に、前記音源として特定された被写体に該当する音響データのみを抽出して出力し、当該音響データと共に集音された他の音響データの出力を抑制する、
ことを特徴とする請求項９乃至１１の何れか１項に記載のデータ処理装置。
前記音響出力制御手段は、前記音響データを出力させる際に、当該音響データと共に集音された他の音響データを合成して出力する、
ことを特徴とする請求項９乃至１１の何れか１項に記載のデータ処理装置。
前記画像データは、広角撮影された画像データであり、
前記音響データは、前記広角画像の撮影に同期して当該広角を網羅する広範囲を集音した音響データである、
ことを特徴とする請求項１乃至１３の何れか１項に記載のデータ処理装置。
前記対応付け手段は、前記音源として特定された被写体と当該被写体に該当する前記音響データとを対応付けた上で、前記被写体を含む画像データと前記被写体に該当する前記音響データとを管理するためのファイルを作成する、
ことを特徴とする請求項１乃至１４の何れか１項に記載のデータ処理装置。
データ処理方装置のデータ処理方法であって、
画像データを取得する処理と、
音響データを取得する処理と、
前記取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する処理と、
前記取得された音響データの中から前記音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける処理と、
を含む、
ことを特徴とするデータ処理方法。
データ処理方装置のコンピュータに対して、
画像データを取得する機能と、
音響データを取得する機能と、
前記取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する機能と、
前記取得された音響データの中から前記音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける機能と、
を実現させる、
ことを特徴とするプログラム。