JP2019062448A

JP2019062448A - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: JP2019062448A
Application number: JP2017186627A
Authority: JP
Inventors: 北村　和久; Kazuhisa Kitamura; 和久北村
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2017-09-27
Filing date: 2017-09-27
Publication date: 2019-04-18
Also published as: US10805557B2; CN109561250A; US20190098225A1

Abstract

【課題】画像内の一部の領域と、その領域に対応する音声との関係を明確にしてユーザに提供できるようにする。
【解決手段】制御部２１は、記憶部２３に記憶されている画像（例えば、魚眼動画像）と、この画像に対応する音声を記憶部２３から取得した後、取得した画像全体のうち、その平面上の一部の領域を特定すると共に、取得した音声全体のうち特定した一部の領域に対応する方向からの音声を取得し、この特定した音声をスピーカ部２７から出力させる。
【選択図】図２

Description

本発明は、音声付の画像を処理する画像処理装置、画像処理方法及びプログラムに関する。

一般に、広角レンズ（魚眼レンズ）は、例えば、画角が略１８０゜という広範囲な撮影が可能であり、このような魚眼レンズを用いて撮影された魚眼画像を利用する技術としては、例えば、会議中において、その各参加者の顔を含む歪曲円形画像（魚眼画像）が撮影されると、その撮影された魚眼画像の中から各参加者の顔を認識して個々の参加者の発話時間と共に、各参加者の画像（部分画像）を切り出して表示するようにした技術がある（特許文献１参照）。この特許文献１の技術にあっては、魚眼画像の中から各参加者の顔を認識して、その顔領域の画像を切り出し、その切り出した領域の画像（人物の顔画像）を表示すると共に、参加者の唇の近傍の変化（輝度、色）から発話状態を認識して、その発話時間を決定するようにしている。

特開２０１５−１９１６２号公報

しかしながら、上述した特許文献の技術にあっては、マイクから入力された音声は撮影された魚眼画像における一部の領域がどの位置であるかとは関係なく出力されることになるので、魚眼画像におけるその一部の領域とその領域に対応する方向からの音声との関係を明確にした上でユーザに提供することができなかった。

本発明の課題は、画像内の一部の領域とそれに対応する音声との関係を明確にしてユーザに提供できるようにすることである。

上述した課題を解決するために本発明は、
画像を取得する画像取得手段と、
前記画像に対応する音声を取得する音声取得手段と、
前記画像取得手段により取得された画像全体のうち、その一部の領域を特定する領域特定手段と、
前記音声取得手段により取得された音声全体のうち、前記領域特定手段により特定された一部の領域に対応する音声を取得する特定音声取得手段と、
を備えることを特徴とする画像処理装置である。

本発明によれば、画像内の一部の領域とそれに対応する音声との関係を明確にしてユーザに提供することができる。

画像処理装置として適用したセパレート型デジタルカメラの外観図で、（１）は、撮像装置１０と本体装置２０とを一体的に組み合わせた状態、（２）は、撮像装置１０と本体装置２０とを分離した状態を示した図。（１）は、撮像装置１０の構成を示したブロック図、（２）は、本体装置２０の構成を示したブロック図。（１）〜（３）は、撮像時における撮像装置１０の姿勢を説明するための図。撮像装置１０の外側面に４個のマイクＭ１〜Ｍ４が配置されている状態を説明するための図。（１）、（２）は、魚眼レンズ１６Ｂで撮像された魚眼画像のライブビュー画面の表示例を示した図。撮像装置１０によって撮像された動画像データと集音された音声データとを対応付けて記憶するデータメモリ２３Ｃ（例えば、ＳＤカード）の内容を例示した図。音声付魚眼動画像を再生する場合における本実施形態の特徴を説明するための図。動画像撮像モードの動作（本実施形態での特徴的な動作）を示したフローチャート。音声付動画像の再生が指示された際に実行開始される動作（本実施形態での特徴的な動作）を示したフローチャート。図９に続く動作を示したフローチャート。（１）〜（３）は、縦置き姿勢で撮像された動画像（魚眼画像）が再生画面（縦長画面）に表示されている場合を例示した図。（１）〜（３）は、横置き姿勢で撮像された動画像（魚眼画像）が再生画面（縦長画面）に表示されている場合を例示した図。（１）、（２）は、本実施形態の変形例として、複数のマイクの他の配置状態を説明するための図。

以下、図１〜図１１を参照して本発明の実施形態を説明する。
本実施形態は、画像処理装置としてデジタルカメラに適用した場合を例示したもので、このデジタルカメラは、後述する撮像部を備える撮像装置１０と、後述する表示部を備える本体装置２０とに分離可能なセパレート型デジタルカメラである。図１（１）は、撮像装置１０と本体装置２０とを一体的に組み合わせた状態を示し、図１（２）は、撮像装置１０と本体装置２０とを分離した状態を示している。このセパレート型デジタルカメラを構成する撮像装置１０と本体装置２０とは、それぞれが利用可能な無線通信を用いてペアリング（無線接続認識）が可能なもので、無線通信としては、無線ＬＡＮ（Ｗｉ−Ｆｉ）又はＢｌｕｅｔｏｏｔｈ（登録商標）を使用している。本体装置２０は、撮像装置１０側で撮像された画像を受信取得して、この撮像画像（ライブビュー画像）をモニタ画面（ライブビュー画面）に表示する。

図２（１）は、撮像装置１０の構成を示したブロック図であり、図２（２）は、本体装置２０の構成を示したブロック図である。
図２（１）において、撮像装置１０は、制御部１１、電源部１２、記憶部１３、通信部１４、操作部１５、撮像部１６、姿勢検出部１７、音声処理部１８、４個のマイクＭ１、Ｍ２、Ｍ３、Ｍ４を備えている。制御部１１は、電源部（二次電池）１２からの電力供給によって動作し、記憶部１３内の各種のプログラムに応じてこの撮像装置１０の全体動作を制御するもので、この制御部１１には図示しないＣＰＵ（中央演算処理装置）やメモリなどが設けられている。記憶部１３は、例えば、ＲＯＭ、フラッシュメモリなどを有する構成で、本実施形態を実現するためのプログラムや各種のアプリケーションなどが格納されている。通信部１４は、撮像した画像などを本体装置２０側に送信したり、本体装置２０からの操作指示信号などを受信したりする通信インターフェイスである。操作部１５は、電源スイッチなどの基本的な操作キー（ハードウェアキー）を備えている。

撮像部１６は、被写体を高精細に静止画像や動画像を撮像可能なカメラ部を構成するもので、この撮像部１６のレンズユニット１６Ａには、広角レンズ１６Ｂ、撮像素子１６Ｃなどが設けられている。この広角レンズ１６Ｂは、画角が略１８０゜という広範囲な撮影が可能な魚眼レンズで、本実施形態では１枚の広角レンズ（魚眼レンズ）１６Ｂを使用して半天球の撮影を行うようにしている。なお、魚眼画像（半天球画像）の全体は、歪曲歪によってその中心（光軸）からレンズ端（周辺部）に向かう程、大きく歪んだものとなる。

この魚眼レンズ１６Ｂによる被写体像（光学像）が撮像素子（例えば、ＣＭＯＳ又はＣＣＤ）１６Ｃに結像されると、この撮像素子１６Ｃによって光電変換された画像信号（アナログ値の信号）は、図示省略のＡ／Ｄ変換部によってデジタル信号に変換された後に、本体装置２０側に送信される。本体装置２０側では、撮像された画像を取得し、広角レンズ１６Ｂによる歪曲歪を補正する処理などを施してライブビュー画像としてモニタ表示させる。なお、この歪補正処理は、カメラにおいて一般的に用いられている技術であり、本実施形態ではその周知技術を利用するようにしているため、その具体的な説明については省略する。

姿勢検出部１７は、撮像時における撮像装置１０の姿勢を検出するもので、例えば、３軸タイプの加速度センサやジャイロセンタなどを有し、制御部１１は、姿勢検出部１７からのセンサ信号に基づいて撮像装置１０の姿勢（撮像時の姿勢として縦置き姿勢、横置き姿勢）を検出する。すなわち、図３（１）は、魚眼レンズ１６Ｂの光軸方向が重力方向に対して略直交する状態（縦置き状態）、つまり、撮像装置１０が地面に対して略垂直となる状態で撮像する場合の姿勢（縦置き姿勢）を示し、姿勢検出部１７は、撮像時の姿勢として縦置き姿勢を検出する。

図３（２）は、魚眼レンズ１６Ｂの光軸方向を天頂に向けた状態（横置き状態）、つまり、魚眼レンズ１６Ｂの光軸方向が重力方向に対して略逆方向となる状態で撮像する場合の姿勢（横置き姿勢）を示し、姿勢検出部１７は、撮像時の姿勢として横置き姿勢を検出する。なお、図中、破線で示した半天球は、画角が略１８０゜という魚眼レンズ１６Ｂの撮影範囲を示している。この姿勢検出部１７によって検出された撮像時の姿勢は、本体装置２０に送られるが、動画像の撮像時にはその撮像中に逐次検出された姿勢が本体装置２０に逐次送られる。

図３（３）は、例えば、縦置き姿勢において、撮像装置１０の外側面Ｓ１、Ｓ２、Ｓ３、Ｓ４の何れかが地面方向となるように縦置きした場合に、その縦置き姿勢での撮像装置１０の向きを示している。制御部１１は、撮像時における姿勢検出部１７の検出結果に基づいて撮像装置１０の姿勢として、縦置き姿勢や横置き姿勢を検出したり、縦置き姿勢又は横置き姿勢での撮像装置１０の向きを検出したりする。これによって検出した姿勢情報は、撮像された魚眼画像を撮影画像として記憶する際に、つまり、撮像された魚眼画像に対して所定の画像処理（現像処理など）を施して撮影画像として記憶する際に、撮像時における撮像装置１０の姿勢情報をその魚眼画像に対応付けて記憶するようにしている。

４個のマイクＭ１〜Ｍ４は、動画像の撮像時にその撮像に同期して周辺の音声を集音するもので、例えば、ビームフォーミングにも最適な超小型マイクロフォンとして、例えば、振動・衝撃や温度変化に強く、優れた音響特性と電気特性を実現したＭＥＭＳ（ＭｉｃｒｏＥｌｅｒｃｔｒｏｎｉｃｓＭｅｃｈａｎｉｃａｌＳｙｓｔｅｍ）マイクで、本実施形態では無指向性のマイクを使用するようにしているが、指向性マイクであってもよい。この４個のマイクＭ１〜Ｍ４は、図４に示すように撮像装置１０の各外側面（四面）に配置固定されている。

すなわち、４個のマイクＭ１〜Ｍ４は、撮像装置１０の外側面Ｓ１〜Ｓ４の中央部に１個ずつ配置されている。撮像装置１０は、例えば、その筐体全体が箱型（正方体）をなし、その正面中央部に魚眼レンズ１６Ｂを配置した構成で、図中、筐体の外側面には、４個のマイクＭ１〜Ｍ４が配置されている。すなわち、筐体の上側の外側面（上端面）Ｓ１には第１マイクＭ１、右側の外側面（右端面）Ｓ２には第２マイクＭ２、下側の外側面（下端面）Ｓ３には第３マイクＭ３、左側の外側面（左端面）Ｓ４には第４マイクＭ４が配置固定され、それらのマイク面の向きは、筐体の外側方向となっている。

このように撮像装置１０に各マイクＭ１〜Ｍ４を配置すると、各マイクＭ１〜Ｍ４と撮像装置１０の各外側面Ｓ１〜Ｓ４との位置関係は固定的なものとなり、更に、各マイクＭ１〜Ｍ４と撮像素子１６Ｃの各端面との位置関係も固定的なものとなるため、この撮像素子１６Ｃによって撮像された画像の各辺にはどのマイクが対応しているかの関係が明らかとなる。この各マイクＭ１〜Ｍ４によって動画像の撮像時に逐次集音された撮像時の音声は、本体装置２０に逐次送られる。

図２（２）において、本体装置２０は、撮影された画像を再生する再生機能を有し、制御部２１、電源部２２、記憶部２３、通信部２４、タッチ表示部２５、姿勢検出部２６、スピーカ部２７を備えている。制御部２１は、電源部（二次電池）２２からの電力供給によって動作し、記憶部２３内の各種のプログラムに応じてこの本体装置２０の全体動作を制御するもので、この制御部２１には図示しないＣＰＵ（中央演算処理装置）やメモリなどが設けられている。

記憶部２３は、本実施形態を実現するためのプログラム（図８〜図１０）や各種のアプリケーションなどが格納されているプログラムメモリ２３Ａ、この本体装置２０が動作するために必要となる各種の情報（例えば、フラグなど）を一時的に記憶するワークメモリ２３Ｂ、画像データ、音声データなど記憶するデータメモリ２３Ｃを有している。なお、記憶部２３は、例えば、ＳＤカード、ＵＳＢメモリなど、着脱自在な可搬型メモリ（記録メディア）を含む構成であってもよく、図示しないが、通信機能を介してネットワークに接続されている状態においては所定のサーバ装置側の記憶領域を含むものであってもよい。

通信部２４は、撮像装置１０との間で各種のデータの送受信を行う通信インターフェイスである。タッチ表示部２５は、高精細液晶などのディスプレイ上にタッチパネルを積層配置した構成で、縦横比の異なる表示画面（長方形の画面）は、撮像されたライブビュー画像（魚眼画像）をリアルタイムに表示するモニタ画面（ライブビュー画面）となったり、撮影済み画像を再生する画面となったりする。姿勢検出部２６は、本体装置２０に加わる加速度を検出する３軸タイプの加速度センサなどであり、本体装置２０の姿勢として、タッチ表示部２５の画面向きに応じて縦長画面（縦向き）か、横長画面（横向き）かを検出して制御部２１に与える。スピーカ部２７は、撮像装置１０のマイクＭ１〜Ｍ４によって集音された音声データなどを発生するもので、１つのスピーカに限らず、複数のスピーカを備えてもよい。

図５は、魚眼レンズ１６Ｂで撮像された魚眼画像を例示した図である。
図５（１）は、屋外で食卓に座っている親子を正面から撮像した場合（光軸方向が略水平方向となる縦置き姿勢で母子を撮像した場合）の円形魚眼画像が横長画面（横向き）で表示されているライブビュー画面と、各マイクＭ１〜Ｍ４の向きとの関係を例示した図である。この例では、魚眼画像の上側が第１マイクＭ１の向き、下側が第３マイクＭ３の向き、右側が第３マイクＭ３の向き、左側が第４マイクＭ４の向きに対応付けられたものとなる。

図５（２）は、会議中の各参加者（例えば、人物ｘ１〜ｘ６）を撮像した場合（光軸方向が略天頂方向となる横置き姿勢で会議の場面を撮像した場合）の円形魚眼画像が横長画面（横向き）で表示されたライブビュー画面と、各マイクＭ１〜Ｍ４の向きとの関係を例示した図である。この例では、第３マイクＭ３、第４マイクＭ４は、図５（１）の場合と同様であるが、魚眼画像の上側が第３マイクＭ３の向き、下側が第１マイクＭ１の向きとなる。このように各マイクＭ１〜Ｍ４と円形魚眼画像との位置関係は、撮像時の姿勢に応じたものとなる。

図６は、撮像装置１０によって撮像された動画像データと集音された音声データとを対応付けて記憶するデータメモリ２３Ｃ（例えば、ＳＤカード）の内容を例示した図である。
データメモリ２３Ｃ（例えば、ＳＤカード）は、撮影された各静止画像や各動画像を順次記憶するメモリで、図示の例は、音声付動画像、つまり、動画像（魚眼画像）を撮像して記憶すると共に、その撮像時に集音して記憶した場合のデータ構造を模式的に示したもので、動画像データファイルＶＧＦに対応してマイク別の音声データファイルＳＤＦ１〜ＳＤＦ４及び姿勢データファイルＳＴＦを有している。

動画像データファイルＶＧＦは、撮像装置１０によって撮像された動画像（魚眼画像）を記憶するファイルである。以下、動画像（魚眼画像）を“魚眼動画像”と呼称する。マイク別の音声データファイルＳＤＦ１〜ＳＤＦ４は、その魚眼動画像の撮像時に、対応する第１マイクＭ１〜Ｍ４によって集音された音声データを記憶するファイルである。姿勢データファイルＳＴＦは、その魚眼動画像の撮像時における撮像装置１０の姿勢を示すデータを記憶するファイルである。

図７は、音声付魚眼動画像を再生する場合における本実施形態の特徴を説明するための図である。
図中、四角形の破線で示した領域（矩形枠）は、再生対象である魚眼動画像の全体のうち、その平面上の一部の領域を特定した状態を例示したもので、平面上の一部の領域とは、魚眼動画像の時間軸上の一部ではなく、フレーム上（平面座標上）における一部の領域を示している。制御部２１は、特定した一部の領域の画像をフレーム毎に逐次切り出すと共に、その切り出した画像を拡大してタッチ表示部２５の再生画面に逐次表示させる。すなわち、画像全体のうち、その平面上の一部の領域を切り出し対象として特定して、その領域の画像を再生させるようにしている。以下、一部の領域を“切り出し領域”と呼称し、また、この切り出し領域の画像の再生を、“切り出し再生”と呼称する。

このような切出し再生が指示されると、制御部２１は、この一部の領域（切り出し領域）に対応する方向の音源から集音した音声データを取得して再生する。この場合、再生対象の画像全体に対して、特定した一部の領域（切り出し領域）がその画像中央部に位置しているか、画像周辺部に位置しているのかを判別する。図示の例のように、画像中央部に一部の領域（切り出し領域）の略全体（例えば、８０％以上）が含まれている場合には、切り出し領域は画像中央部に位置していると判別する。このように画像中央部に位置している場合には、４個のマイクＭ１〜Ｍ４から入力された音声を、切り出し領域に対応する方向からの音声として、各マイクＭ１〜Ｍ４対応の音声データを取得し、それらを混合・調整した信号に変換してスピーカ部２７から出力させるようにしている。

一方、画像周辺部に切り出し領域の略全体（例えば、８０％以上）が含まれている場合には、その切り出し領域が８方向（上下左右の４方向及び右上・右下・左上・左下の４方向）の何れの方向に略位置しているのか、つまり、切り出し領域がどの方向に偏っているかを判別する。そして、４個のマイクＭ１〜Ｍ４のうち、この判別した方向（偏り方向）に対応するマイクを選択し、音声データファイルＳＤＦ１〜ＳＤＦ４のうち、選択マイク対応の音声データファイルから音声データを取得して再生する。例えば、切り出し領域が上方向に略位置している場合には、筐体の上端面Ｓ１に対応付けられている第１マイクＭ１のみを選択して、その音声データを再生するが、右上方向に略位置している場合には、筐体の上端面Ｓ１及び右端面に対応付けられている第１マイクＭ１及び第２マイクＭ２を選択して、その各マイク対応の音声データを混合・調整した信号に変換してから再生すようにしている。

すなわち、４個のマイクＭ１〜Ｍ４のうち、撮像素子１６Ｃによって撮像された画像の各辺にはどのマイクが対応しているかの位置関係が明らかなため、切り出し領域が画像の周辺部に位置している場合には、その切り出し領域が位置している方向のマイクを選択して、その選択マイク対応の音声を再生する。このように切り出し領域に対応する方向からの音声を集音するマイクを選択して、その音声を再生するようにしているが、以下、切り出し領域に対応する方向からの音声を集音するマイクを、“切り出し領域対応のマイク”と呼称する。

次に、本実施形態における画像処理装置（セパレート型デジタルカメラ）の動作概念を図８〜図１０に示すフローチャートを参照して説明する。ここで、これらのフローチャートに記述されている各機能は、読み取り可能なプログラムコードの形態で格納されており、このプログラムコードにしたがった動作が逐次実行される。また、ネットワークなどの伝送媒体を介して伝送されてきた上述のプログラムコードに従った動作を逐次実行することもできる。すなわち、記録媒体の他に、伝送媒体を介して外部供給されたプログラム／データを利用して本実施形態特有の動作を実行することもできる。なお、図８〜図１０は、カメラの全体動作のうち、本実施形態の特徴部分の動作概要を示したフローチャートであり、この図８〜図１０のフローから抜けた際には、全体動作のメインフロー（図示省略）に戻る。

図８は、音声付魚眼動画像を撮像する場合に切り替えられる撮像モードの動作（本実施形態での特徴的な動作）を示したフローチャートである。
先ず、本体装置２０側の制御部２１は、撮像装置１０によって撮像された魚眼動画像を受信取得する（ステップＡ１）と共に、この取得した魚眼動画像をタッチ表示部２５にライブビュー画像として表示させる（ステップＡ２）。このライブビュー画像の表示中において、魚眼動画像の撮影開始がユーザ操作によって指示されたかを調べ（ステップＡ３）、その撮影開始が指示されるまでライブビュー画像を逐次表示させる処理に戻るが（ステップＡ１、Ａ２）、撮影開始が指示されると（ステップＡ３でＹＥＳ）、撮像装置１０に対して撮影開始を指示して、撮像装置１０側の姿勢検出部１７及び各マイクＭ１〜Ｍ４を起動させる（ステップＡ４）。

そして、制御部２１は、この撮影開始に応答して、撮像装置１０から取得した魚眼動画像に対して画像処理を施しながら動画像データファイルＶＧＦに逐次記憶させる動作を開始（ステップＡ５）すると共に、姿勢検出部１７によって検出された姿勢を取得して姿勢データファイルＳＴＦに逐次記憶させる動作を開始し（ステップＡ６）、更には、各マイクＭ１〜Ｍ４から入力された音声を取得して、対応する音声データファイルＳＤＦ１〜ＳＤＦ４に逐次記憶させる動作を開始する（ステップＡ７）。この魚眼動画像の撮影中において、その撮影終了がユーザ操作により指示されたかを調べ（ステップＡ８）、撮影終了が指示されるまで待ち状態となるが、撮影終了が指示されると（ステップＡ８でＹＥＳ）、図８のフローから抜ける。

図９及び図１０は、音声付動画像の再生が指示された際に実行開始される動作（本実施形態での特徴的な動作）を示したフローチャートである。
先ず、本体装置２０側の制御部２１は、撮影画像の再生モードに切り替えられた状態において、その再生対象として音声付動画像がユーザ操作によって選択されてその音声付動画像の再生が指示されると、図９のフローに移り、上述した切り出し再生がユーザ操作によって指示されたかを調べる（図９のステップＢ１）。

いま、切り出し再生が指示されなければ、（ステップＢ１でＮＯ）、動画像データファイルＶＧＦから魚眼動画像を取得して再生画面に逐次表示させる動作を開始（ステップＢ２）すると共に、各音声データファイルＳＤＦ１〜ＳＤＦ４から音声データを逐次取得し、それらを混合・調整した音声信号に変換する処理を行った後、その音声信号をスピーカ部２７から逐次出力させる動作を開始する（ステップＢ３）。このように複数のマイクＭ１〜Ｍ４から入力された音声を混合して出力することにより臨場感のある音声を得ることができる。この再生中に動画像の終了か（再生完了か）を調べたり（ステップＢ４）、動画再生の終了がユーザ操作によって指示されたかを調べたりする（ステップＢ５）。いま、動画像が終了（再生が完了）した際（ステップＢ４でＹＥＳ）、又は再生終了がユーザ指示された際には（ステップＡ５でＹＥＳ）、この図９のフローから抜ける。

一方、切り出し再生がユーザ指示されると（ステップＢ１でＹＥＳ）、図１０のフローに移り、動画像データファイルＶＧＦから再生対象の魚眼動画像データを取得すると共に、対応する姿勢データファイルＳＴＦから撮像時の姿勢データを取得する（ステップＢ６）。そして、制御部２１は、取得した魚眼動画像の全体を再生画面に逐次表示させる動作を開始（ステップＢ７）すると共に、取得した撮像時の姿勢データを参照し、横置き姿勢で撮像されたのか、縦置き姿勢で撮像されたのかを判別し、この判別検結果に応じて魚眼動画像内の一部の領域を切り出し領域として特定して案内表示させる（ステップＢ８）。

図１１（１）は、縦置き姿勢で撮像された魚眼動画像（図５（１）参照）が再生画面に表示された状態を示し、図示の例は、再生画面（縦長画面）の下半分の領域に円形魚眼動画像を表示させた場合である。この縦置き姿勢では、画像中央部の人物を含む領域が切り出し領域として特定されて案内表示される。すなわち、縦置き姿勢の場合には、画像中央部のうち、例えば、人物を含む領域、画像中央部に複数の人物がいる場合には大きく写っている人物を含む領域を最優先して、その領域を切り出し領域として特定して案内表示（矩形枠表示）させる。

図１２（１）は、横置き姿勢で撮像された魚眼動画像が再生画面に表示された状態を示し、図示の例は、再生画面（縦長画面）の下半分の領域に円形魚眼動画像を表示させた場合である。この横置き姿勢では、画像周辺部のうち、例えば、人物を含む領域を最優先して、その領域を切り出し領域として特定するが、画像周辺部に複数の人物がいる場合には席順など優先順位の高い人物を含む領域を最優先して、その領域を切り出し領域として特定して案内表示（矩形枠表示）させる。

このようにして特定した切り出し領域内の画像をフレーム毎に逐次切り出しながら歪補正を施す動作を開始（ステップＢ９）すると共に、補正後の切り出し画像を再生画面に拡大して逐次表示させる動作を開始する（ステップＢ１０）。図１１（１）、図１２（１）は、再生画面（縦長画面）の上半分の領域に切り出し画像（人物の顔画像）を拡大表示させた状態を示している。これによって再生画面には、魚眼動画像の全体と、切り出し画像（人物の顔画像）とが上下方向に並列表示される。なお、切り出し領域内の画像をフレーム毎に逐次切り出す場合に、その枠内の人物が移動した場合にはその移動に追従して切り出し領域を移動させるようにしてもよい。

次に、特定した切り出し領域の位置は、魚眼画像の中央部か周辺部かを判別すると共に、切り出し領域が画像周辺部であれば更にその方向（偏り方向）を判別する（ステップＢ１１）。すなわち、画像の中央部に切り出し領域の略全体が含まれている場合には、切り出し領域は画像中央部に位置していると判別する。また、画像周辺部に切り出し領域の略全体が含まれている場合には、切り出し領域は画像周辺部に位置していると判別すると共に、更にその切り出し領域は８方向の何れの方向に略位置しているのかを判別する。

そして、４個のマイクＭ１〜Ｍ４のうち、ステップＢ１１の判別結果に応じて切出し領域対応のマイクを選択して、その音声データを逐次取得する動作を開始（ステップＢ１２）すると共に、取得した音声データを画像の再生動作の進行に応じてスピーカ部２７から逐次出力させる動作を開始する（ステップＢ１３）。すなわち、上述したように各マイクＭ１〜Ｍ４と撮像素子１６Ｃの各端面との位置関係、つまり、各マイクＭ１〜Ｍ４と切り出し領域との位置関係から、その切り出し領域対応のマイクを選択して、その音声データを取得しながら画像の再生動作の進行に応じて逐次出力させる。

例えば、図１１（１）に示すように、特定した切り出し領域が画像中央部に位置している場合には、全てのマイクＭ１〜Ｍ４より入力された音声データを、この切り出し領域に対応する方向からの音声として、対応する音声データファイルＳＤＦ１〜ＳＤＦ４から取得し、それらを混合・調整した信号に変換してスピーカ部２７から出力させる。また、図１２（１）に示すように、特定した切り出し領域が画像周辺部の右下方向に位置している場合には、各マイクＭ１〜Ｍ４のうち、第３マイクＭ３より入力された音声データを、この切り出し領域に対応する方向からの音声として、対応する音声データファイルＳＤＦ３から取得し、その音声のみをスピーカ部２７から出力させる。

そして、このような音声付魚眼画像の再生中において、任意の切り出し領域が指定するユーザ操作が行われたかを調べたり（ステップＢ１４）、再生終了がユーザ操作によって指示されたかを調べたり（ステップＢ１５）、動画終了（動画完了）かを調べたりする（ステップＢ１６）。いま、再生中の動画が終了した場合には（ステップＢ１５でＹＥＳ）、上述のステップＢ７に戻り、以下、上述の動作を繰り返す。これによって再び魚眼動画像の再生を開始すると共に、撮像時の姿勢に応じて次に優先する切り出し領域を特定して案内表示させる。

例えば、図１１（２）の場合は、画像周辺部に写っている人物（子供）を含む領域を次の切り出し領域として特定した場合で、この切り出し領域に対応するマイクとして、第２マイクＭ２が選択され、このマイクＭ２より入力された音声データを、この切り出し領域に対応する方向からの音声として、対応する音声データファイルＳＤＦ２より取得して、その音声のみを再生させる。図１２（２）の場合は、画像周辺部において次の順位に写っている人物（ｘ２）を含む領域を次の切り出し領域として特定した場合で、第２及び第３マイクＭ２、Ｍ３が選択され、このマイクＭ２、Ｍ３より入力された音声データを、この切り出し領域に対応する方向からの音声として、対応する音声データファイルＳＤＦ２、ＳＤＦ３より取得して、それらを混合・調整した信号に変換して再生させる。

また、再生画面（タッチ画面）上でのタッチ操作（スライド操作など）によって切り出し領域が任意にユーザ指定された場合には（ステップＢ１４でＹＥＳ）、上述のステップＢ７に戻り、再び魚眼動画像の再生を開始する。そして、任意に指定された領域を切り出し領域として特定して魚眼動画像上に案内表示させる（ステップＢ８）。例えば、図１１（３）は、親子を含む領域が切り出し領域として指定された場合を示している。図１２（３）は、隣り合う人物ｘ３及びｘ５を含む領域が切り出し領域として指定された場合を示している。

以下、上述の動作を繰り返す（ステップＢ９〜Ｂ１３）。ここで、図１１（３）の場合には、切り出し領域が画像の中央部及び周辺部に跨っているため、切り出し領域は周辺部に位置しているものと判別され、その切り出し領域の方向は右上と判別される。これによって第１マイクＭ１と第２マイクＭ２が選択されてそれらの混合音声が再生出力される。図１２（３）の場合には、切り出し領域の方向は左上と判別されるため、第４マイクＭ４と第１マイクＭ１が選択されてそれらの混合音声が出力される。他方、再生終了がユーザ操作によって指示されると（ステップＢ１５でＹＥＳ）、図９及び図１０のフローから抜ける。

以上のように、本実施形態においては、画像とそれに対応する音声を取得した後、取得した画像全体のうちその平面上の一部の領域を特定すると共に、取得した音声全体のうち特定した一部の領域に対応する音声を取得し、この取得した音声を出力するようにしたので、画像内の一部の領域とそれに対応する方向からの音声との関係を明確にしてユーザに提供することができる。

本体装置２０側の制御部２１は、複数のマイクＭ１〜Ｍ４から入力された音声全体のうち、画像内の一部の領域に対応する方向からの音声を集音するマイクを選択し、そのマイクから入力された音声を当該領域に対応する方向からの音声として取得するようにしたので、マイクを選択するだけで音声の取得が可能となる。

制御部２１は、撮像記憶された画像を再生対象として取得し、この画像の撮像時にその撮像記憶に同期して集音記憶された音声を再生対象として取得するようにしたので、音声付画像の再生時に、その画像内の一部の領域とそれに対応する方向からの音声との関係が明確になる。

撮像記憶された画像は、魚眼レンズ１６Ｂを使用して撮像された魚眼画像（半天球画像）であり、この撮像時に集音記憶された音声は、魚眼レンズ１６Ｂの周辺部の異なる位置に配置された複数のマイクＭ１〜Ｍ４から入力された音声であるので、画像とマイクとの対応関係が明確となると共に、複数のマイクＭ１〜Ｍ４によって半天球の撮影範囲全体を集音可能域として網羅することが可能となる。

制御部２１は、複数のマイク別に集音記憶された音声全体のうち、一部の領域（切り出し領域）に対応する音声を集音するマイク（切り出し領域対応のマイク）が２以上存在している場合には、その２以上のマイクを選択してそれらの音声を組み合わせることにより当該領域に対応する方向からの音声を取得するようにしたので、多数のマイクを設置しなくても、少ない数のマイクによって広範囲を集音対象として網羅することができる。

制御部２１は、画像の撮像時の姿勢を取得し、この撮像時の姿勢に応じて、画像の平面上の一部の領域を特定するようにしたので、例えば、縦置き姿勢の場合には画像の中央部の一部の領域、横置き姿勢の場合には画像の周辺部の一部の領域を特定することができ、姿勢に合った適切な領域を特定することができる。

制御部２１は、取得した画像全体のうち、ユーザ操作によって任意に指定された切り出し領域を一部の領域として特定するようにしたので、ユーザの意向に応じた領域特定が可能となる。

制御部２１は、取得した画像を表示している状態において、特定した一部の領域の画像を再生画面に表示させるようにしたので、ユーザにあっては画像全体とその一部分との関係が明確なものとなる。

魚眼画像のうちその一部の領域の画像を表示させる場合に、その歪曲歪を補正した画像を表示するようにしたので、ユーザにあっては歪の無い画像を見ることができる。

制御部２１は、特定した一部の領域の画像を表示すると共に、それに対応する音声を出力するようにしたので、画像と音声との対応関係が明確となる。

（変形例１）
なお、上述した実施形態においては、４個のマイクＭ１〜Ｍ４を撮像装置１０の外側面Ｓ１〜Ｓ４の中央部に１個ずつ異なる向きに配置するようにしたが、複数のマイクの配置状態は、これに限らない。
図１３（１）は、撮像装置１０の正面（魚眼レンズ１６Ｂ側の面）に４個のマイクＭ１１〜Ｍ１４を四角形状に配置した場合である。すなわち、撮像装置１０の正面において、図中、第１マイクＭ１１を左上角部、第２マイクＭ１２を右上角部、第３マイクＭ１３を左下角部、第４マイクＭ１４を右下角部に配置した場合で、これら全てのマイクＭ１１〜Ｍ１４のマイク面（集音方向）を同一方向（光軸方向）とした場合である。このように複数のマイクを同じ方向に向けるようにしてもよい。また、複数のマイクは、４個に限らず、その数を多くてもよいが、少なくとも３個のマイクを配置するようにすればよい。このように複数のマイクの配置状態を任意とすることにより実装上の自由度を増すことができる。

（変形例２）
上述した実施形態においては、４個のマイクＭ１〜Ｍ４を二次元上に配置するようにしたが、三次元上に配置するようにしてもよい。
図１３（２）は、５個のマイクを三次元上に配置した場合を例示したもので、図示の例は、上述した図１３（１）の場合と同様に第１マイクＭ２１〜第４マイクＭ２４を撮像装置１０の正面（魚眼レンズ１６Ｂ側の面）に配置するが、第５マイクＭ２５を撮像装置１０の正面中心部に配置した場合である。すなわち、第１マイクＭ２１、第２マイクＭ２２をＸ軸の−側と＋側に配置し、第３マイクＭ２３、第４マイクＭ２４をＹ軸の−側と＋側に配置し、第５マイクＭ２５をＺ軸の−側に配置した場合である。このように複数のマイクを三次元上に配置することにより、各マイクから入力された音声を混合して出力することにより更に臨場感のある音声を得ることができると共に、音源が光軸方向の反対側（背後）であっても、その音声も集音して出力させることができる。

（変形例３）
上述した実施形態においては、４個のマイクＭ１〜Ｍ４と撮像素子１６Ｃの各端面との位置関係から切り出し領域対応のマイクを選択するようにしたが、複数のマイクに対応する音声データを分析することによって、切り出し領域に対応する方向からの音声を取得して、切り出し領域対応のマイクを選択するようにしてもよい。例えば、複数のマイクへの音声到達時間のずれ、マイク間の距離、音量値比較などに基づいて音源の方向を特定して、その音源方向に対応するマイクを選択するようにしてもよい。このような音声データを分析によって切り出し領域対応のマイクを選択することができる。

（変形例４）
上述した実施形態においては、４個のマイクＭ１〜Ｍ４と撮像素子１６Ｃの各端面との位置関係が固定的されているため、魚眼動画像内の一部の領域（切り出し領域）に基づいて切り出し領域対応のマイクを選択可能としたが、これに限らず、この切り出し領域対応のマイク（例えば、第１マイクＭ１）を除く他の第２マイクＭ２、第３マイクＭ３、第４マイクＭ４を出力対象から外す（出力禁止とする）ことにより切り出し領域対応のマイクからの音声データのみを出力させるようにしてもよい。これによって自由度を増すことができる。

（変形例５）
上述した実施形態においては、撮像時の姿勢に基づいて魚眼動画像上の所定の位置に切り出し領域を特定する場合に、人物を含む領域を切り出し領域として特定するようにしたが、人物に拘わらず、動物など主要被写体を特定してその主要被写体を含む領域を切り出し領域として特定したり、主要被写体の有無に拘わらず、魚眼動画像上の所定の位置、例えば、縦置き姿勢であれば、その画像の中央部所定位置、横置き姿勢であれば、その画像の周辺部所定位置を切り出し領域として特定したりするようにしてもよい。

（変形例６）
上述した実施形態においては、魚眼動画像上に特定した切り出し領域の画像（一部の領域）を拡大表示して再生するようにしたが、その一部の領域の画像を表示しなくてもよい。すなわち、魚眼動画像が再生されている状態において、その画像上に一部の領域を案内表示（例えば、枠表示）するだけで、その一部の領域の画像を表示しなくても、その切り出し領域対応のマイクを選択してそのマイクからの音声を再生するようにしてもよい。これによってユーザは、一部の領域の画像が表示されていなくても魚眼動画像の一部とそれに対応する音声との関係を確認することが可能となる。

（その他）
上述した実施形態においては、画角が略１８０゜という１枚の広角レンズ（魚眼レンズ）１６Ｂを使用して半天球３６０°の撮影を行うようにしたが、全天球３６０°の撮影を、例えば、２枚の広角レンズ（魚眼レンズ）１６Ｂを使用して行うようにしてもよい。この全天球３６０°の撮影画像に対しては、上述した三次元配置のマイクを使用するようにすればよい。

上述した実施形態においては、魚眼動画像を再生する場合を示したが、動画像に限らず、１枚の静止画像を再生する場合に、対応する音声を再生するようにしてもよい。また、静止画像は、短時間に複数枚を連続撮影（連写）した画像であってもよく、この連続画像に同期して対応する音声を再生するようにしてもよい。

上述した実施形態においては、撮像時における撮像装置１０の姿勢として、縦置き状態と横置き状態を検出する場合を示したが、これに限らず、その他の色々な姿勢であってもよいことは勿論である。

なお、上述した実施形態においては、複数のマイク別に集音記憶された音声全体のうち、特定した一部の領域に対応する音声を集音するマイクを選択して、選択したマイクからの音声を一部の領域に対応する音声として出力するようにしているが、それに限らず、複数のマイク別に集音記憶された音声の全てを利用して、その複数のマイク別に入力された全音声を混合・調整して出力すると共に、一部の領域に対応する音声と、対応しない音声との音質、音量などを変えて、特定した一部の領域に対応する音声として出力するようにしてもよい。

また、上述した実施形態においては、特に言及しなかったが、音声を主体的に発生する被写体（例えば、人物、動物）が単一の場合であってもよい。また、例えば、被写体がいない領域を一部の領域として特定した場合には、音声を無音状態として出力するようにしてもよい。

また、上述した実施形態においては、特定した一部の領域を再生する際に、その一部の領域に対応する音声を出力するようにしたが、それに限らず、例えば、再生時には魚眼動画像を表示し、魚眼画像の中から一部の領域を特定するが、その一部の領域とそれに対応する音声とを出力せずに、その関係を記憶しておく。そして後程、その一部の領域に対応する音声を再生するような構成にしてもよい。また、撮影前に特定の領域を一部の領域として予め設定しておいて、撮影時にその特定領域に対応する音声を取得して、撮影終了時に当該特定領域とそれに対応する音声とを記憶する構成であってもよい。

また、上述した実施形態においては、画像処理装置としてカメラに適用した場合を示したが、画像再生機能付きのパーソナルコンピュータ・ＰＤＡ（個人向け携帯型情報通信機器）・タブレット端末装置・スマートフォンなどの携帯電話機・電子時計・電子ゲーム・音楽プレイヤーなどに適用するようにしてもよい。

また、上述した実施形態において示した“装置”や“部”とは、機能別に複数の筐体に分離されていてもよく、単一の筐体に限らない。また、上述したフローチャートに記述した各ステップは、時系列的な処理に限らず、複数のステップを並列的に処理したり、別個独立して処理したりするようにしてもよい。

以上、この発明の実施形態について説明したが、この発明は、これに限定されるものではなく、特許請求の範囲に記載された発明とその均等の範囲を含むものである。
以下、本願出願の特許請求の範囲に記載された発明を付記する。
（付記）
（請求項１）
請求項１に記載の発明は、
画像を取得する画像取得手段と、
前記画像に対応する音声を取得する音声取得手段と、
前記画像取得手段により取得された画像全体のうち、その一部の領域を特定する領域特定手段と、
前記音声取得手段により取得された音声全体のうち、前記領域特定手段により特定された一部の領域に対応する音声を取得する特定音声取得手段と、
を備えることを特徴とする画像処理装置。
（請求項２）
請求項２に記載の発明は、請求項１に記載の画像処理装置において、
前記特定音声取得手段は、複数のマイクから入力された音声全体のうち、前記領域特定手段により特定された一部の領域に対応する方向からの音声を集音するマイクを選択して、そのマイクから入力された音声を当該領域に対応する方向からの音声として取得する、
ことを特徴とする。
（請求項３）
請求項３に記載の発明は、請求項１又は２に記載の画像処理装置において、
前記画像取得手段は、撮像記憶された画像を再生対象として取得し、
前記音声取得手段は、前記画像の撮像時にその撮像記憶に同期して集音記憶された音声を再生対象として取得する、
ことを特徴とする。
（請求項４）
請求項４に記載の発明は、請求項３に記載の画像処理装置において、
前記撮像記憶された画像は、魚眼レンズを使用して撮像された魚眼画像であり、
前記画像の撮像時にその撮像記憶に同期して集音記憶された音声は、前記魚眼レンズの周辺部の異なる位置に配置された複数のマイクから入力された音声である、
ことを特徴とする。
（請求項５）
請求項５に記載の発明は、請求項２又は４に記載の画像処理装置において、
前記特定音声取得手段は、前記複数のマイク別に集音記憶された音声全体のうち、前記領域特定手段により特定された一部の領域に対応する音声を集音するマイクが２以上存在している場合には、その２以上のマイクを選択してそれらの音声を組み合わせることにより当該領域に対応する方向からの音声を取得する、
ことを特徴とする。
（請求項６）
請求項６に記載の発明は、請求項１又は乃至５の何れか１項に記載の画像処理装置において、
前記特定音声取得手段は、前記音声取得手段により取得された音声全体のうち、前記領域特定手段により特定された一部の領域に対応する方向からの音声を除いた他の音声を出力対象から外すことにより当該領域に対応する方向からの音声を取得する、
ことを特徴とする。
（請求項７）
請求項７に記載の発明は、請求項１乃至６の何れか１項に記載の画像処理装置において、
前記画像の撮像時の姿勢を取得する姿勢取得手段を更に備え、
前記領域特定手段は、前記姿勢取得手段により取得された撮像時の姿勢に応じて、前記画像取得手段により取得された画像全体のうち、その平面上の一部の領域を特定する、
ことを特徴とする。
（請求項８）
請求項８に記載の発明は、請求項１乃至６の何れか１項に記載の画像処理装置において、
前記領域特定手段は、前記画像取得手段により取得された画像のうちユーザ操作によって任意に指定された切り出し領域を一部の領域として特定する、
ことを特徴とする。
（請求項９）
請求項９に記載の発明は、請求項１乃至８の何れか１項に記載の画像処理装置において、
前記画像取得手段により取得された画像を表示している状態において、前記領域特定手段により特定された一部の領域の画像を表示する表示手段を更に備える、
ことを特徴とする。
（請求項１０）
請求項１０に記載の発明は、請求項９に記載の画像処理装置において、
前記画像取得手段により取得された画像は、魚眼レンズで撮像された魚眼画像であり、
前記表示手段は、前記領域特定手段により特定された一部の領域の画像に対してその歪曲歪を補正した画像を表示する、
ことを特徴とする。
（請求項１１）
請求項１１に記載の発明は、請求項１乃至１０の何れか１項に記載の画像処理装置において、
前記特定音声取得手段により特定された音声を出力する出力手段を備え、
前記出力手段は、前記領域特定手段により特定された一部の領域の画像を表示すると共に、前記特定音声取得手段により取得された音声を出力する、
ことを特徴とする。
（請求項１２）
請求項１２に記載の発明は、請求項１乃至１１の何れか１項に記載の画像処理装置において、
前記特定音声取得手段により取得された音声と、前記領域特定手段により特定された一部の領域とを関連付けて記憶する記憶手段を備える、
ことを特徴とする。
（請求項１３）
請求項１３に記載の発明は、
画像処理装置における画像処理方法であって、
画像を取得する処理と、
前記画像に対応する音声を取得する処理と、
前記取得された画像全体のうち、その一部の領域を特定する処理と、
前記取得された音声全体のうち、前記特定された一部の領域に対応する音声を取得する処理と、
を含むことを特徴とする画像処理方法。
（請求項１４）
請求項１４に記載の発明は、
画像処理装置のコンピュータに対して、
画像を取得する機能と、
前記画像に対応する音声を取得する機能と、
前記取得された画像全体のうち、その一部の領域を特定する機能と、
前記取得された音声の中から前記特定された一部の領域に対応する音声を取得する機能と、
を実現させるためのプログラム。

１０撮像装置
１１、２１制御部
１３、２３記憶部
１６撮像部
１７、２６姿勢検出部
１８音声処理部
２０本体装置
２５タッチ表示部
２７スピーカ部
Ｍ１〜Ｍ４マイク
ＶＧＦ動画像データファイル
ＳＤＦ１〜ＳＤＦ４音声データファイル
ＳＴＦ姿勢データファイル

Claims

画像を取得する画像取得手段と、
前記画像に対応する音声を取得する音声取得手段と、
前記画像取得手段により取得された画像全体のうち、その一部の領域を特定する領域特定手段と、
前記音声取得手段により取得された音声全体のうち、前記領域特定手段により特定された一部の領域に対応する音声を取得する特定音声取得手段と、

を備えることを特徴とする画像処理装置。
前記特定音声取得手段は、複数のマイクから入力された音声全体のうち、前記領域特定手段により特定された一部の領域に対応する方向からの音声を集音するマイクを選択して、そのマイクから入力された音声を当該領域に対応する方向からの音声として取得する、
ことを特徴とする請求項１に記載の画像処理装置。
前記画像取得手段は、撮像記憶された画像を再生対象として取得し、
前記音声取得手段は、前記画像の撮像時にその撮像記憶に同期して集音記憶された音声を再生対象として取得する、
ことを特徴とする請求項１又は２に記載の画像処理装置。
前記撮像記憶された画像は、魚眼レンズを使用して撮像された魚眼画像であり、
前記画像の撮像時にその撮像記憶に同期して集音記憶された音声は、前記魚眼レンズの周辺部の異なる位置に配置された複数のマイクから入力された音声である、
ことを特徴とする請求項３に記載の画像処理装置。
前記特定音声取得手段は、前記複数のマイク別に集音記憶された音声全体のうち、前記領域特定手段により特定された一部の領域に対応する音声を集音するマイクが２以上存在している場合には、その２以上のマイクを選択してそれらの音声を組み合わせることにより当該領域に対応する方向からの音声を取得する、
ことを特徴とする請求項２又は４に記載の画像処理装置。
前記特定音声取得手段は、前記音声取得手段により取得された音声全体のうち、前記領域特定手段により特定された一部の領域に対応する方向からの音声を除いた他の音声を出力対象から外すことにより当該領域に対応する方向からの音声を取得する、
ことを特徴とする請求項１又は乃至５の何れか１項に記載の画像処理装置。
前記画像の撮像時の姿勢を取得する姿勢取得手段を更に備え、
前記領域特定手段は、前記姿勢取得手段により取得された撮像時の姿勢に応じて、前記画像取得手段により取得された画像全体のうち、その平面上の一部の領域を特定する、
ことを特徴とする請求項１乃至６の何れか１項に記載の画像処理装置。
前記領域特定手段は、前記画像取得手段により取得された画像のうちユーザ操作によって任意に指定された切り出し領域を一部の領域として特定する、
ことを特徴とする請求項１乃至６の何れか１項に記載の画像処理装置。
前記画像取得手段により取得された画像を表示している状態において、前記領域特定手段により特定された一部の領域の画像を表示する表示手段を更に備える、
ことを特徴とする請求項１乃至８の何れか１項に記載の画像処理装置。
前記画像取得手段により取得された画像は、魚眼レンズで撮像された魚眼画像であり、
前記表示手段は、前記領域特定手段により特定された一部の領域の画像に対してその歪曲歪を補正した画像を表示する、
ことを特徴とする請求項９に記載の画像処理装置。
前記特定音声取得手段により取得された音声を出力する出力手段を備え、
前記出力手段は、前記領域特定手段により特定された一部の領域の画像を表示すると共に、前記特定音声取得手段により取得された音声を出力する、
ことを特徴とする請求項１乃至１０の何れか１項に記載の画像処理装置。
前記特定音声取得手段により取得された音声と、前記領域特定手段により特定された一部の領域とを関連付けて記憶する記憶手段を備える、
ことを特徴とする請求項１乃至１１の何れか１項に記載の画像処理装置。
画像処理装置における画像処理方法であって、
画像を取得する処理と、
前記画像に対応する音声を取得する処理と、
前記取得された画像全体のうち、その一部の領域を特定する処理と、
前記取得された音声全体のうち、前記特定された一部の領域に対応する音声を取得する処理と、
を含むことを特徴とする画像処理方法。
画像処理装置のコンピュータに対して、
画像を取得する機能と、
前記画像に対応する音声を取得する機能と、
前記取得された画像全体のうち、その一部の領域を特定する機能と、
前記取得された音声の中から前記特定された一部の領域に対応する音声を取得する機能と、
を実現させるためのプログラム。