JP2013183280A

JP2013183280A - 情報処理装置、撮像装置、及びプログラム

Info

Publication number: JP2013183280A
Application number: JP2012045673A
Authority: JP
Inventors: Masaki Otsuki; 正樹大槻
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2012-03-01
Filing date: 2012-03-01
Publication date: 2013-09-12

Abstract

【課題】動画から所望の区間の動画を適切に抽出することができる情報処理装置を提供する。
【解決手段】情報処理装置は、時系列に続く複数の画像のうち、第１の特徴が検出された画像が時系列に続く第１区間を検出する画像区間検出部と、複数の画像に時系列に対応付けられた音のうち、第２の特徴が検出された音が時系列に続く第２区間を検出する音区間検出部と、第１区間と第２区間とに基づいて、複数の画像および音から抽出する第３区間を決定する抽出区間決定部と、を備える。
【選択図】図２

Description

本発明は、情報処理装置、撮像装置、及びプログラムに関する。

動画の画像から人物を検出し、検出した人物又はその人物と関係のある人物が記録されている区間の動画を抽出して再生（動画ダイジェスト再生）する情報処理装置がある。（例えば、特許文献１参照）。上述のような情報処理装置によれば、長時間の動画あるいは複数の動画から、例えばユーザに指定された人物又はその人物と関係のある人物が画像に記録されている区間の動画のみを、再生するための動画として抽出することができる。

特開２０１１−８２９１５号公報

しかしながら、特許文献１に示す処理装置にあっては、動画に含まれている音声には考慮されていないため、所望の画像が記録されている区間の動画を抽出した際に音声が会話の途中で途切れてしまう場合があるという問題があった。

本発明は、このような事情に鑑みてなされたもので、その目的は、動画から所望の区間の動画を適切に抽出することができる情報処理装置、撮像装置、及びプログラムを提供することにある。

この発明は上述した課題を解決するためになされたもので、本発明は、時系列に続く複数の画像のうち、第１の特徴が検出された画像が時系列に続く第１区間を検出する画像区間検出部と、前記複数の画像に時系列に対応付けられた音のうち、第２の特徴が検出された音が時系列に続く第２区間を検出する音区間検出部と、前記第１区間と前記第２区間とに基づいて、前記複数の画像および前記音から抽出する第３区間を決定する抽出区間決定部と、を備えることを特徴とする情報処理装置である。

また、本発明は、コンピュータに、時系列に続く複数の画像のうち、第１の特徴が検出された画像が時系列に続く第１区間を検出する画像区間検出ステップと、前記複数の画像に時系列に対応付けられた音のうち、第２の特徴が検出された音が時系列に続く第２区間を検出する音区間検出ステップと、前記第１区間と前記第２区間とに基づいて、前記複数の画像および前記音から抽出する第３区間を決定する抽出区間決定ステップと、を実行させるためのプログラムである。

この発明によれば、動画から所望の区間の動画を適切に抽出することができる。

本発明の第１実施形態による情報処理装置の概要を説明する図である。第１実施形態による情報処理装置の構成の一例を示す概略ブロック図である。情報処理装置における抽出処理の一例を示すフローチャートである。第１区間、第２区間、及び第３区間の時間軸上の関係の第１例を表した図である。第１区間、第２区間、及び第３区間の時間軸上の関係の第２例を表した図である。第１区間、第２区間、及び第３区間の時間軸上の関係の第３例を表した図である。第１区間、第２区間、及び第３区間の時間軸上の関係の第４例を表した図である。情報処理装置における抽出処理の別の一例を示すフローチャートである。第１区間、第２区間、及び第３区間の時間軸上の関係の第５例を表した図である。第１区間、第２区間、及び第３区間の時間軸上の関係の第６例を表した図である。情報処理装置における連結処理の第１例を説明する図である。情報処理装置における連結処理の第２例を説明する図である。第２実施形態による撮像装置の構成の一例を示す概略ブロック図である。

以下、図面を参照して、本発明の実施の形態について説明する。
＜第１実施形態＞
図１は、本発明の第１実施形態による情報処理装置１００の概要を説明する図である。図１に示す情報処理装置１００は、表示装置２００と、スピーカ３００と、記憶装置４００と、それぞれ接続されている。これらの接続は、有線による接続であってもよいし、無線による接続であってもよい。なお、表示装置２００、スピーカ３００、又は記憶装置４００は、情報処理装置１００に含まれている構成であってもよい。

情報処理装置１００は、情報処理を実行する処理部１０と、処理部１０が処理を実行する上で用いるデータベース等が記憶されているメモリ部４と、処理を実行する上での作業領域となるバッファメモリ部５と、を備えている。例えば、情報処理装置１００は、記憶装置４００に記憶されている動画を読み出して、読み出した動画を画像信号と音声信号とにデコードする。また、情報処理装置１００は、この画像信号を表示装置２００に出力するとともに、音声信号をスピーカ３００に出力する。すなわち、情報処理装置１００は、記憶装置４００に記憶されている動画を再生して、表示装置２００及びスピーカ３００に出力する。

ここで、動画は、例えば、時系列に続く複数のフレーム画像（複数の画像）と、この複数のフレーム画像に時系列に対応付けられている音とを含んで構成されている。すなわち、このフレーム画像と音とは互いに同じフレーム周期で同期し、互いに時間軸において対応している。

なお、動画を構成するフレーム画像及び音のそれぞれは、互いに時間軸において対応づけが可能な互いに異なるファイルに保存されていてもよい。また、複数のフレーム画像は、複数の静止画像を用いて構成されていてもよい。

本実施形態の情報処理装置１００は、例えば、動画から特定のシーン（例えば、ユーザが見たいシーン）のみを抽出して再生（所謂、ダイジェスト再生）する場合に、動画から抽出する区間を、複数のフレーム画像と音との何れの区間も適切になるように抽出する。

このような処理を行う情報処理装置１００の構成について、図２を参照して、詳しく説明する。
（情報処理装置の構成）
図２は、第１実施形態による情報処理装置１００の構成の一例を示す概略ブロック図である。この図２を参照して、本実施形態の情報処理装置１００の構成についてさらに詳しく説明する。なお、図２において、図１の各部に対応する構成には同一の符号を付けている。

情報処理装置１００は、処理部１０と、メモリ部４（記憶部）と、バッファメモリ部５と、操作部８と、を備えている。処理部１０は、検出部２と、人物特定部３１と、話者特定部３２と、判定部３３と、抽出区間決定部３４と、抽出部３５と、連結部３６と、再生部３７と、表示制御部３８と、音出力制御部３９と、を備えている。

まず、処理部１０の検出部２について説明する。
検出部２は、人物検出部２１と、音声検出部２２と、画像区間検出部２３と、音区間検出部２４とを備えており、動画うちの、人物が記録されている区間、又は音声が記録されている区間を検出する。

人物検出部２１は、複数のフレーム画像それぞれから、人物の画像（第１の特徴）を検出する。例えば、人物検出部２１は、フレーム画像から人物の顔の画像を検出することにより、複数のフレーム画像それぞれに人物の画像が含まれているか否か（人物が記録されているか否か）を検出する。

音声検出部２２は、音から人物の音声（第２の特長）を検出する。すなわち、音声検出部２２は、動画に含まれているフレーム画像に対応付けられた音から人物の音声を検出する。例えば、音声検出部２２は、フレーム画像のフレーム単位、又は予め設定されたフレーム数単位において、音信号の振幅（大きさ）と周波数成分に基づいて、それぞれのフレームに対応した音に人物の音声が含まれているか否かを検出する。

画像区間検出部２３は、複数のフレーム画像のうち、所定の特徴（第１の特徴）が検出されたフレーム画像が時系列に続く区間（以下、第１区間）を検出する。例えば、画像区間検出部２３は、人物検出部２１により人物の画像が検出されたフレーム画像が時系列に続く第１区間を検出する。なお、画像区間検出部２３は、わずかな区間（少ないフレーム数）において人物の画像が検出されなかったとしても、その前後の区間において人物の画像が継続して検出されていれば、その人物の画像が検出されなかった区間も人物が継続して検出されていた区間としてみなしてもよい。

例えば、画像区間検出部２３は、人物検出部２１により人物の画像が検出されないフレーム画像が時系列に続く区間が、予め定められた第１のフレーム数以下であるか否かに基づいて、人物検出部２１により人物の画像が検出されたフレーム画像が時系列に続く区間であるか否かを判定する。ここで、第１のフレーム数とは、人物の画像が継続して検出されている区間であるか否か（人物の画像が検出されている第１区間が継続しているか否か）を判定するために予め定められたフレーム数である。

例えば、人物の画像が検出されないフレーム画像が時系列に続く区間が上述の第１のフレーム数以下である場合、画像区間検出部２３は、人物の画像が検出されたフレーム画像が時系列に続く区間である（人物が検出されている第１区間が継続している）と判定する。一方、人物の画像が検出されないフレーム画像が時系列に続く区間が上述の第１のフレーム数を超えた場合、画像区間検出部２３は、人物の画像が検出されたフレーム画像が時系列に続く区間（人物が検出されている第１区間）が終了したと判定する。すなわち、画像区間検出部２３は、人物の画像が検出されない区間が第１のフレーム数以下の短い区間である場合、第１区間が継続していると判定し、人物の画像が検出されない区間が第１のフレーム数を超えて長い区間となった場合、第１区間が終了したと判定する。

なお、画像区間検出部２３は、単に人物の画像が検出されたフレーム画像が時系列に続く区間を第１区間として検出してもよいが、同一の人物の画像が検出された画像が時系列に続く区間を、第１区間として検出してもよい。例えば、画像区間検出部２３は、検出された人物の画像が何れの人物の画像であるかを人物特定部３１が特定した結果に基づいて、同一の人物の画像が検出された画像が時系列に続く区間を、第１区間として検出してもよい。

また、画像区間検出部２３は、互いに関係がある人物の画像が検出されたフレーム画像が時系列に続く区間を、第１区間として検出してもよい。例えば、画像区間検出部２３は、検出された人物の画像が何れの人物であるかを人物特定部３１が特定した結果と、後述する、複数の人物それぞれが互いに関係があるか否かを示す情報である人物関係情報が登録されている人物関係情報データベース４３と、に基づいて、互いに関係がある人物の画像が検出されたフレーム画像が時系列に続く区間を、第１区間として検出してもよい。

音区間検出部２４は、動画に含まれる音のうち所定の特徴（第２の特徴）が検出された音が時系列に続く区間（以下、第２区間）を検出する。例えば、音区間検出部２４は、音声検出部２２により検出された人物の音声が時系列に続く第２区間を検出する。なお、音区間検出部２４は、わずかな区間（少ないフレーム数）において人物の音声が検出されなかったとしても、その前後の区間において人物が継続して検出されていれば、その人物の音声が検出されなかった区間も人物の音声が継続して検出されていた区間とみなして第２区間を検出してもよい。

例えば、音区間検出部２４は、音声検出部２２により人物の音声が検出されない音が時系列に続く区間が、予め定められた第２のフレーム数以下であるか否かに基づいて、音声検出部２２により人物の音声が検出された音が時系列に続く区間であるか否かを判定する。ここで、第２のフレーム数とは、人物の音声が継続して検出されているか否か（人物の音声が検出されている第２区間が継続しているか否か）を判定するために予め定められたフレーム数である。

例えば、音声検出部２２により人物の音声が検出されない音が時系列に続く区間が上述の第２のフレーム数以下である場合、音区間検出部２４は、人物の音声が検出された音が時系列に続く区間である（人物の音声が検出されている第２区間が継続している）と判定する。一方、人物の音声が検出されない音が時系列に続く区間が上述の第２のフレーム数を超えた場合、音区間検出部２４は、人物の音声が検出された音が時系列に続く区間（人物の音声が検出されている第２区間）が終了したと判定する。すなわち、音区間検出部２４は、人物の音声が検出されない区間が第２のフレーム数以下の短い区間である場合、第２区間が継続していると判定し、人物の音声が検出されない区間が第２のフレーム数を超えて長い区間となった場合、第２区間が終了したと判定する。

なお、音区間検出部２４は、単に人物の音声が時系列に続く区間を第２区間として検出してもよいが、同一の人物の音声が検出された画像が時系列に続く区間を、第２区間として検出してもよい。例えば、音区間検出部２４は、検出された人物の音声の話者が何れの人物であるかを話者特定部３２が特定した結果に基づいて、同一の人物の音声が検出された音が時系列に続く区間を、第２区間として検出してもよい。

また、音区間検出部２４は、互いに関係がある人物の音声が検出された画像が時系列に続く区間を、第２区間として検出してもよい。例えば、音区間検出部２４は、検出された人物の音声の話者が何れの人物であるかを話者特定部３２が特定した結果と、人物関係情報が登録されている人物関係情報データベース４３と、に基づいて、互いに関係がある人物の音声が検出された画像が時系列に続く区間を、第２区間として検出してもよい。

次に、処理部１０の検出部２以外の各部について説明する。

人物特定部３１は、人物検出部２１により検出された人物の画像から、人物の特徴を示す情報を抽出するとともに、抽出した人物の特徴を示す情報に基づいて、検出された人物の画像が示す人物が何れの人物であるかを特定する。例えば、メモリ部４には、複数の人物の特徴を示す情報が登録されている人物特徴情報データベース４１が記憶されている。そして、人物特定部３１は、抽出した人物の特徴を示す情報と人物特徴情報データベース４１に登録されている複数の人物の特徴を示す情報とに基づいて、検出された人物の画像が示す人物が、人物特徴情報データベース４１に登録されている複数の人物のうちの何れの人物であるかを特定する。

話者特定部３２は、音声検出部２２により検出された人物の音声から音声の特徴を示す情報を抽出するとともに、抽出した音声の特徴を示す情報に基づいて、検出された音声の話者である人物を特定する。例えば、メモリ部４には、複数の人物の音声の特徴を示す情報が登録されている音声特徴情報データベース４２が記憶されている。そして、話者特定部３２は、抽出した人物の音声の特徴を示す情報と音声特徴情報データベースに登録されている複数の人物の音声の特徴を示す情報とに基づいて、検出された音声の話者である人物が、音声特徴情報データベース４２に登録されている複数の人物の音声うちの何れの人物であるかを特定する。

判定部３３は、人物特定部３１により第１区間において特定された人物と、話者特定部３２により第２区間において特定された音声の話者である人物とが一致するか否かを判定する。例えば、判定部３３は、第１区間において特定された人物の固有の識別情報と、第２区間において特定された音声の話者である人物の固有の識別情報とが一致するか否かを判定する。なお、この人物の固有の識別情報は、人物特徴情報データベース４１、音声特徴情報データベース４２、及び人物関係情報データベース４３で人物を識別する情報として用いられている情報であり、後述する。

また、判定部３３は、人物特定部３１により第１区間において特定された人物と、話者特定部３２により第２区間において特定された音声の話者である人物とが互いに関係があるか否かを判定する。例えば、メモリ部４には、複数の人物それぞれが互いに関係があるか否かを示す情報である人物関係情報データベース４３が記憶されている。そして、判定部３３は、人物特定部３１の特定結果、話者特定部３２の特定結果、及び人物関係情報データベースに基づいて、第１区間において特定された人物と、第２区間において特定された音声の話者である人物とが互いに関係があるか否かを判定する。

抽出区間決定部３４は、上述した第１区間と第２区間とに基づいて、動画から抽出する区間（以下、第３区間）を決定する。例えば、抽出区間決定部３４は、第１区間の画像及び第２区間の音の何れも途切れないような区間を、動画から抽出する第３区間として決定する。すなわち、抽出区間決定部３４は、複数のフレーム画像及びこの複数のフレーム画像に時系列に対応付けられた音から抽出する第３区間を、上述した第１区間と第２区間とに基づいて、第１区間及び第２区間の何れの区間も途切れないような区間に決定する。

例えば、ユーザに指定された人物のフレーム画像が続く第１区間の動画を抽出する場合、抽出区間決定部３４は、第１区間、及び時間軸上において第１区間に少なくとも一部が重なる第２区間のそれぞれ全ての区間を合わせた区間を、抽出する第３区間として決定する。また、ユーザに指定された人物の音声が続く第２区間の動画を抽出する場合、抽出区間決定部３４は、第２区間、及び時間軸上において第２区間に少なくとも一部が重なる第１区間のそれぞれ全ての区間を合わせた区間を、抽出する第３区間として決定する。

すなわち、抽出区間決定部３４は、人物の画像が含まれるフレーム画像が続く第１区間を基準に動画を抽出する際に、人物の音声が含まれる音が途切れないように第２区間も考慮して（合わせて）抽出する第３区間を決定する。一方、抽出部３５は、人物の音声が含まれる音が続く第２区間を基準に動画を抽出する際に、人物の画像が含まれるフレーム画像が途切れないように第１区間も考慮して（合わせて）抽出する第３区間を決定する。このような抽出区間の決定処理について、詳しくは後述する。

抽出部３５は、動画から第３区間のフレーム画像及び音を抽出する。例えば、抽出部３５は、動画から、１つの第３区間または複数の第３区間のフレーム画像及び音を抽出する。なお、抽出部３５は、複数の動画それそれから、１つの第３区間または複数の第３区間のフレーム画像及び音を抽出してもよい。

連結部３６は、抽出部３５により抽出された複数の第３区間のフレーム画像及び音を、それぞれ時系列の順に従って連結する。例えば、連結部３６は、複数の第３区間のフレーム画像及び音を、それぞれ時系列の順に従って連結し、連結した動画を生成する。

再生部３７は、抽出部３５により抽出された第３区間のフレーム画像及び音を、再生する。具体的には、再生部３７は、抽出部３５により抽出された第３区間のフレーム画像を時系列の順に従って画像信号に変換（デコード）して表示制御部３８に供給するとともに、フレーム画像に時系列に対応した第３区間の音を音信号に変換（デコード）して、画像信号と時間軸上で同期させて音出力制御部３９に供給する。

また、再生部３７は、抽出部３５により抽出された複数の第３区間のフレーム画像及び音を、それぞれ時系列の順に従って続けて再生する。なお、再生部３７は、複数の第３区間のフレーム画像及び音を再生する場合、連結部３６により複数の第３区間のフレーム画像及び音がそれぞれ時系列の順に従って連結された動画を再生してもよい。

表示制御部３８は、再生部３７から受けた画像信号を、表示装置２００のフォーマットに対応する信号に変換して出力する。音出力制御部３９は、再生部３７から受けた音信号を、スピーカ３００のフォーマットに対応する信号に変換して出力する。

メモリ部４は、人物特徴情報データベース４１、音声特徴情報データベース４２、及び人物関係情報データベース４３を有している。
人物特徴情報データベース４１には、複数の人物の特徴を示す情報が登録されている。例えば、人物特徴情報データベース４１には、複数の人物それぞれの固有の識別情報と、対応する人物の特徴を示す情報とが関連付けられて登録されている。この人物特徴情報データベース４１を参照することにより、前述した人物特定部３１は、検出された人物の特徴を示す情報に基づいて、固有の識別情報を選択して人物を特定することができる。

音声特徴情報データベース４２には、複数の人物の音声の特徴を示す情報が登録されている。例えば、音声特徴情報データベース４２には、複数の人物それぞれの固有の識別情報と、対応する人物の音声の特徴を示す情報とが関連付けられて登録されている。この音声特徴情報データベース４２を参照することにより、前述した話者特定部３２は、検出された人物の音声の特徴を示す情報に基づいて、固有の識別情報を選択して話者である人物を特定することができる。

人物関係情報データベース４３には、複数の人物それぞれが互いに関係があるか否かを示す情報である人物関係情報が登録されている。例えば、人物関係情報データベース４３には、複数の人物それぞれの互いの関係性や親密性を示す情報が登録されている。具体的には、人物関係情報データベース４３には、例えば、互いに関係がある複数の人物の固有の識別情報には同一のフラグ情報が関連付けられて登録されている。なお、このフラグ情報は、人物の固有の識別情報に対して複数種類のフラグ情報が関連付けられていてもよい。すなわち、人物関係情報データベース４３には、複数種類の関係が登録されていてもよい。なお、同一のフラグ情報に代えて、互いの親密度を示す情報としてもよい。

バッファメモリ部５は、例えば、揮発性のメモリを有し、処理部１０におけるフレーム画像や音に対する検出処理、抽出処理、または信号処理を実行する過程での作業領域として利用される。

操作部８は、例えば、操作釦が設けられており操作入力を検出し、検出した操作を示す操作信号を処理部１０に供給する。なお、操作部８は、タッチ操作を検出するタッチパネルを有する構成としてもよい。

（抽出処理の説明）
このように構成された情報処理装置１００において、動画から抽出する第３区間を決定する処理について具体的に説明する。情報処理装置１００は、例えば、記憶装置４００に記憶された動画から、人物が記録されている区間、ユーザにより指定された人物が記録されている区間、又はユーザにより指定された人物と関係がある人物（例えば関係性、親密性が高い人物）が記録されている区間を抽出して連結した動画を生成する（ダイジェスト動画を生成する）。また、情報処理装置１００は、この連結した動画を再生する（ダイジェスト動画を再生する）。

ここで、本実施形態の情報処理装置１００は、例えば、上述したように人物が記録されている区間（第１区間）を抽出する際に、人物の音声が記録されている区間（第２区間）、フレーム画像に含まれている人物の音声が記録されている区間（第２区間）、又はフレーム画像に含まれている人物と関係がある人物の音声が記録されている区間（第２区間）、が途切れないように抽出する。

具体的には、画像区間検出部２３は、人物（又はユーザに指定された人物や、その指定された人物と関係がある人物）が検出されたフレーム画像が時系列に続く区間を第１区間として検出する。また、音区間検出部２４は、音声検出部２２により検出された人物の音声（又はユーザに指定された人物の音声や、その指定された人物と関係がある人物の音声）が時系列に続く区間を第２区間として検出する。そして、抽出区間決定部３４は、第１区間の画像及び第２区間の音の何れも途切れないような区間を、動画から抽出する第３区間として決定する。例えば、動画から人物が記録されている第１区間を抽出する場合、抽出区間決定部３４は、抽出する第３区間を、第１区間、及び時間軸上において第１区間に少なくとも一部が重なる第２区間のそれぞれ全ての区間を合わせた区間に決定する。

図３は、情報処理装置１００における抽出処理の一例を示すフローチャートである。この図３を参照して、情報処理装置１００における抽出区間を決定して抽出する処理の動作の一例を説明する。

この図では、情報処理装置１００は、ユーザに指定された人物が記録されている第１区間を抽出する際に、第１区間に記録されている人物（第１区間において検出された人物と一致する人物）の音声が途切れないように抽出する。すなわち、情報処理装置１００は、上述の第１区間と、時間軸上において第１区間に少なくとも一部が重なる区間であって、第１区間に記録されている人物（第１区間において検出された人物と一致する人物）の音声が記録されている区間である第２区間と、を合わせた第３区間を抽出する。

まず、人物検出部２１は、動画のフレーム画像から、ユーザに指定された人物の画像を検出する（ステップＳ１１）。また、音声検出部２２は、動画の音から人物の音声を検出する（ステップＳ１２）。

次に、画像区間検出部２３は、人物検出部２１により人物の画像が検出されたフレーム画像が時系列に続く第１区間を検出する。また、音区間検出部２４は、時間軸上において第１区間に少なくとも一部が重なる区間、且つ音声検出部２２により検出された人物の音声が時系列に続く区間である第２区間を検出する（ステップＳ１３）。

続いて、人物特定部３１は、人物検出部２１により検出された人物の画像から、人物の特徴を示す情報を抽出するとともに、抽出した人物の特徴を示す情報に基づいて、検出された人物の画像が示す人物が何れの人物であるかを特定する。また、話者特定部３２は、音声検出部２２により検出された人物の音声から音声の特徴を示す情報を抽出するとともに、抽出した音声の特徴を示す情報に基づいて、検出された音声の話者である人物を特定する（ステップＳ１４）。

判定部３３は、人物特定部３１により第１区間において特定された人物と、話者特定部３２により第２区間において特定された音声の話者である人物とが一致するか否かを判定する（ステップＳ１５）。

ステップＳ１５において、第１区間において特定された人物と、第２区間において特定された音声の話者である人物とが一致すると判定された場合、抽出区間決定部３４は、抽出する区間を、第１区間及び第２区間のそれぞれ全ての区間を合わせた第３区間に決定する（抽出する区間を第１区間から第３区間に変更する、ステップＳ１６）。そして処理部１０は、ステップＳ１８に処理を進める。

一方、ステップＳ１５において、第１区間において特定された人物と、第２区間において特定された音声の話者である人物とが一致しないと判定された場合、抽出区間決定部３４は、抽出する区間を、第１区間に決定する（ステップＳ１７）。そして処理部１０は、ステップＳ１８に処理を進める。

ステップＳ１８において、抽出部３５は、抽出区間決定部３４により決定された区間の動画を抽出する。すなわち、第１区間において特定された人物と、第２区間において特定された音声の話者である人物とが一致すると判定された場合、抽出部３５は、第３区間（第１区間及び第２区間を合わせた区間）のフレーム画像と音とを抽出する。また、第１区間において特定された人物と、第２区間において特定された音声の話者である人物とが一致しないと判定された場合、抽出部３５は、第１区間のフレーム画像と音とを抽出する。

このように、抽出区間決定部３４は、人物の画像が含まれるフレーム画像が続く第１区間と、その人物の音声が含まれる音が連続する第２区間とに基づいて、動画から抽出する第３区間を、上述の第１区間及び第２区間のそれぞれ全ての区間を合わせた区間に決定する。そして、抽出部３５は、抽出区間決定部３４により決定された区間を抽出する。

これにより、情報処理装置１００は、動画から、人物の画像が含まれるフレーム画像が続く第１区間を抽出する際に、その人物の音声が含まれる第２区間が途切れないように適切に抽出することができる。

（抽出区間の具体例）
次に、図４〜７を参照して、時間軸上における第１区間、第２区間、及び第３区間の時間軸上の関係を具体的に説明する。図４〜７は、第１区間、第２区間、及び第３区間の時間軸上の関係の例を表した図であって、それぞれ、第１区間と第２区間との時間軸上の関係が異なる例を示している。

図４は、第１区間、第２区間、及び第３区間の時間軸上の関係の第１例を表した図である。この図は、抽出する人物としてユーザに指定された人物Ａの画像が含まれるフレーム画像が連続する第１区間がフレームｆ３〜ｆ８であって、この人物Ａの音声が記録されている第２区間がフレームｆ２〜ｆ１０であることを示している。

この図に示す例において、ユーザに指定された人物Ａが記録されている第１区間を抽出する場合、情報処理装置１００は、抽出する第３区間を、第１区間及び第２区間のそれぞれ全ての区間を合わせたフレームｆ２〜ｆ１０の区間に決定する（抽出する区間を第１区間から第３区間に変更する）。

よって、第１区間の開始点（フレームｆ３）に対して第２区間の開始点（フレームｆ２）の方が前であって、第１区間の終了点（フレームｆ８）に対して第２区間の終了点（フレームｆ１０）の方が後ろである場合、情報処理装置１００は、第１区間を抽出する際に、第１区間及び第２区間のそれぞれ全ての区間を合わせた区間（すなわち、この例では第２区間）である第３区間（フレームｆ２〜ｆ１０）を抽出する。そのため、情報処理装置１００は、第１区間を抽出する際に、第１区間に記録されている人物Ａの音声が途切れないように（すなわち第２区間が途切れないように）最短の所望の区間を抽出することができる。

図５は、第１区間、第２区間、及び第３区間の時間軸上の関係の第２例を表した図である。この図は、抽出する人物としてユーザに指定された人物Ａの画像が含まれるフレーム画像が連続する第１区間がフレームｆ３〜ｆ８であって、この人物Ａの音声が記録されている第２区間がフレームｆ４〜ｆ７であることを示している。

この図に示す例において、ユーザに指定された人物Ａが記録されている第１区間を抽出する場合、情報処理装置１００は、抽出する区間を、第１区間及び第２区間のそれぞれ全ての区間を合わせたフレームｆ３〜ｆ８の第３区間に決定する（抽出する区間を第１区間と同じ第３区間とする）。

よって、第１区間の開始点（フレームｆ３）に対して第２区間の開始点（フレームｆ４）の方が後ろであって、第１区間の終了点（フレームｆ８）に対して第２区間の終了点（フレームｆ７）の方が前である場合、情報処理装置１００は、第１区間を抽出する際に、第１区間及び第２区間のそれぞれ全ての区間を合わせた区間（すなわち、この例では第１区間）である第３区間（フレームｆ３〜ｆ８）を抽出する。この場合、情報処理装置１００は、第１区間を抽出する第３区間としても第２区間が途切れることがないため、第１区間に記録されている人物Ａの音声が途切れないように（すなわち第２区間が途切れないように）最短の所望の区間を抽出することができる。

図６は、第１区間、第２区間、及び第３区間の時間軸上の関係の第３例を表した図である。この図は、抽出する人物としてユーザに指定された人物Ａの画像が含まれるフレーム画像が連続する第１区間がフレームｆ３〜ｆ８であって、この人物Ａの音声が記録されている第２区間がフレームｆ４〜ｆ１０であることを示している。

この図に示す例において、ユーザに指定された人物Ａが記録されている第１区間を抽出する場合、情報処理装置１００は、抽出する第３区間を、第１区間及び第２区間のそれぞれ全ての区間を合わせたフレームｆ３〜ｆ１０の区間に決定する（抽出する区間を第１区間から第３区間に変更する）。

よって、第１区間の開始点（フレームｆ３）に対して第２区間の開始点（フレームｆ４）の方が後ろであって、第１区間の終了点（フレームｆ８）に対して第２区間の終了点（フレームｆ１０）の方が後ろである場合、情報処理装置１００は、第１区間を抽出する際に、第１区間及び第２区間のそれぞれ全ての区間を合わせた区間である第３区間（フレームｆ３〜ｆ１０）を抽出する。そのため、情報処理装置１００は、第１区間を抽出する際に、第１区間に記録されている人物Ａの音声が途切れないように（すなわち第２区間が途切れないように）最短の所望の区間を抽出することができる。

図７は、第１区間、第２区間、及び第３区間の時間軸上の関係の第４例を表した図である。この図は、抽出する人物としてユーザに指定された人物Ａの画像が含まれるフレーム画像が連続する第１区間がフレームｆ３〜ｆ８であって、この人物Ａの音声が記録されている第２区間がフレームｆ２〜ｆ７であることを示している。

この図に示す例において、ユーザに指定された人物Ａが記録されている第１区間を抽出する場合、情報処理装置１００は、抽出する第３区間を、第１区間及び第２区間のそれぞれ全ての区間を合わせたフレームｆ２〜ｆ８の区間に決定する（抽出する区間を第１区間から第３区間に変更する）。

よって、第１区間の開始点（フレームｆ３）に対して第２区間の開始点（フレームｆ２）の方が前であって、第１区間の終了点（フレームｆ８）に対して第２区間の終了点（フレームｆ７）の方が前である場合、情報処理装置１００は、第１区間を抽出する際に、第１区間及び第２区間のそれぞれ全ての区間を合わせた区間である第３区間（フレームｆ２〜ｆ８）を抽出する。そのため、情報処理装置１００は、第１区間を抽出する際に、第１区間に記録されている人物Ａの音声が途切れないように（すなわち第２区間が途切れないように）最短の所望の区間を抽出することができる。

なお、図３〜７を用いて、情報処理装置１００が、第１区間を抽出する際に、第１区間及び第２区間のそれぞれ全ての区間を合わせた第３区間を抽出する処理について説明したが、第２区間を抽出する際に、第１区間及び第２区間のそれぞれ全ての区間を合わせた第３区間を抽出する処理としてもよい。例えば、動画から人物の音声が記録されている第２区間を抽出する場合、抽出区間決定部３４は、抽出する第３区間を、第２区間、及び時間軸上において第２区間に少なくとも一部が重なる第１区間のそれぞれ全ての区間を合わせた区間に決定してもよい。

（抽出処理の別の例）
図８は、情報処理装置１００における抽出処理の別の一例を示すフローチャートである。前述の図３では、第１区間で検出された人物と第２区間で検出された音声の人物とが同一である場合に第３区間を抽出する処理の動作の一例を説明したが、この図８では、第１区間で検出された人物と第２区間で検出された音声の人物とが関係がある場合に第３区間を抽出する処理の動作の一例を説明する。なお、図８に示す処理は、図３に示すステップＳ１５の処理に代えて、ステップＳ１５ａの処理を実行することが異なり、この図８において、図３の各処理と対応する処理には同一の符号を付け、その説明を省略する。

判定部３３は、人物特定部３１により第１区間において特定された人物と、話者特定部３２により第２区間において特定された音声の話者である人物とが互いに関係があるか否かを判定する（ステップＳ１５ａ）。

ステップＳ１５ａにおいて、第１区間において特定された人物と、第２区間において特定された音声の話者である人物とが互いに関係があると判定された場合、抽出区間決定部３４は、抽出する区間を、第１区間及び第２区間のそれぞれ全ての区間を合わせた第３区間に決定する（抽出する区間を第１区間から第３区間に変更する、ステップＳ１６）。そして処理部１０は、ステップＳ１８に処理を進める。

一方、ステップＳ１５ａにおいて、第１区間において特定された人物と、第２区間において特定された音声の話者である人物とが互いに関係がないと判定された場合、抽出区間決定部３４は、抽出する区間を、第１区間に決定する（ステップＳ１７）。そして処理部１０は、ステップＳ１８に処理を進める。

このように、抽出区間決定部３４は、人物の画像が含まれるフレーム画像が続く第１区間と、その人物と関係がある人物の音声が含まれる音が連続する第２区間とに基づいて、動画から抽出する第３区間を、上述の第１区間及び第２区間のそれぞれ全ての区間を合わせた区間に決定する。そして、抽出部３５は、抽出区間決定部３４により決定された区間を抽出する。

例えば、情報処理装置１００は、ユーザに指定された人物が検出された記録されている第１区間を抽出する際に、第１区間に記録されている人物と関係がある人物（第１区間において検出された人物と関係がある人物）の音声が途切れないように抽出する。すなわち、情報処理装置１００は、第１区間と、時間軸上において第１区間に少なくとも一部が重なる区間であって、第１区間に記録されている人物と関係がある人物（第１区間において検出された人物と関係がある人物）の音声が記録されている区間である第２区間と、を合わせた第３区間を抽出する。

これにより、情報処理装置１００は、動画から、人物の画像が含まれるフレーム画像が続く第１区間を抽出する際に、その人物と関係がある人物の音声が含まれる第２区間が途切れないように適切に抽出することができる。

図９は、第１区間、第２区間、及び第３区間の時間軸上の関係の第５例を表した図であり、図４に対して、第１区間で検出された人物Ａと第２区間で検出された音声の人物Ｂとが互い関係がある人物である場合の例を示していることが異なる。また、この図９は、抽出する人物としてユーザに指定された人物Ａの画像が含まれるフレーム画像が連続する第１区間がフレームｆ３〜ｆ８であって、この人物Ａと関係がある人物Ｂの音声が記録されている第２区間がフレームｆ２〜ｆ１０であることを示している。

この図に示す例において、ユーザに指定された人物Ａが記録されている第１区間を抽出する場合、情報処理装置１００は、抽出する第３区間を、第１区間及び第２区間のそれぞれ全ての区間を合わせたフレームｆ２〜ｆ１０の区間に決定する（抽出する区間を、第１区間から第３区間に変更する）。

よって、第１区間のフレーム画像に含まれる人物Ａと第２区間の音に含まれる音声の話者である人物Ｂとが互いに関係がある場合、情報処理装置１００は、第１区間を抽出する際に、第１区間及び第２区間のそれぞれ全ての区間を合わせた区間（すなわち、この例では第２区間）である第３区間（フレームｆ２〜ｆ１０）を抽出する。そのため、情報処理装置１００は、第１区間を抽出する際に、第１区間に記録されている人物Ａと関係がある人物Ｂの音声が途切れないように（すなわち第２区間が途切れないように）最短の所望の区間を抽出することができる。

図１０は、第１区間、第２区間、及び第３区間の時間軸上の関係の第６例を表した図である。また、図１０は、第１区間が人物Ａ又は人物Ａと関係がある人物Ｂが記録されている区間であって、第２区間が人物Ａの音声又は人物Ｂの音声が記録されている区間である場合の例を示している。

この図において、抽出する人物としてユーザに指定された人物Ａの画像が含まれるフレーム画像が連続する区間がフレームｆ３〜ｆ５であって、人物Ａと関係がある人物Ｂの画像が含まれるフレーム画像が連続する第１区間がフレームｆ６〜ｆ８である。ここで、情報処理装置１００は、人物Ａ又は人物Ａと関係がある人物Ｂが記録されている区間であるフレームｆ３〜ｆ８を、第１区間として検出する。

また、人物Ａの音声が連続する区間がフレームｆ２〜ｆ６であって、人物Ａと関係がある人物Ｂの画像が含まれるフレーム画像が連続する第１区間がフレームｆ７〜ｆ１０である。ここで、情報処理装置１００は、人物Ａの音声又は人物Ａと関係がある人物Ｂの音声が記録されている区間であるフレームｆ２〜ｆ１０を、第２区間として検出する。

ユーザに指定された人物Ａ及び人物Ａと関係がある人物Ｂが記録されている第１区間を抽出する場合、情報処理装置１００は、抽出する第３区間を、第１区間及び第２区間のそれぞれ全ての区間を合わせたフレームｆ２〜ｆ１０の第３区間に決定する（抽出する区間を第１区間から第３区間に変更する）。

よって、第１区間のフレーム画像に含まれる人物Ａと人物Ｂとが互いに関係がある場合、情報処理装置１００は、第１区間を抽出する際に、人物Ａ又は人物Ｂの画像を含む第１区間、及び人物Ａの音声又は人物Ｂの音声を含む第２区間、のそれぞれ全ての区間を合わせた区間（すなわち、この例では第２区間）である第３区間（フレームｆ２〜ｆ１０）を抽出する。そのため、情報処理装置１００は、人物Ａ又は人物Ｂの画像を含む第１区間を抽出する際に、第１区間に記録されている人物Ａの音声又は人物Ｂの音声が途切れないように（すなわち第２区間が途切れないように）最短の所望の区間を抽出することができる。

（抽出した複数の区間を連結又は再生する処理）
次に、抽出した複数の第３区間を連結する処理について説明する。情報処理装置１００の連結部３６は、抽出部３５により抽出された複数の第３区間の画像及び音を、それぞれ時系列の順に従って連結する。

図１１は、情報処理装置１００における連結処理の第１例を説明する図である。この図は、第１の第３区間（図１１（ａ）の第３区間（１））と第２の第３区間（図１１（ｂ）の第３区間（２））との２つの第３区間を連結する処理を示している。

図１１（ａ）に示す第１の第３区間は、人物Ａが記録されている第１の第１区間（第１区間（１）：フレームｆ３〜ｆ８）と、人物Ａの音声が記録されている第１の第２区間（第２区間（１）：フレームｆ２〜ｆ１０）とのそれぞれ全ての区間を合わせた区間（第３区間（１）：フレームｆ２〜ｆ１０）である。

また、図１１（ｂ）に示す第２の第３区間は、人物Ｂ（人物Ａと関係がある人物Ｂ）が記録されている第２の第１区間（第１区間（２）：フレームｆ２３〜ｆ２８）と、人物Ｂの音声が記録されている第２の第２区間（第２区間（２）：フレームｆ２２〜ｆ３０）とのそれぞれ全ての区間を合わせた区間（第３区間（２）：フレームｆ２２〜ｆ３０）である。

情報処理装置１００の連結部３６は、時系列の順に従って、第１の第３区間の最後のフレームｆ１０の画像及び音と、第２の第３区間の最初のフレームｆ２２の画像及び音とを連結する。

よって、連結部３６は、抽出部３５が抽出した複数の第３区間を時系列の順に従って連結することができる。

次に、図１２を参照して、抽出した複数の第３区間を連結する処理の別の例について説明する。図１２は、情報処理装置１００における連結処理の第２例を説明する図である。

この図に示す処理は、図１１に示す処理と同様に第１の第３区間と第２の第３区間との２つの第３区間を連結する処理を示しているが、連結する際に第１の第３区間及び第２の第３区間のそれぞれ一部の区間を重ねて連結する点が図１１に示す処理と異なる。

図１２（ａ）に示す第１の第３区間は、人物Ａが記録されている第１の第１区間（第１区間（１）：フレームｆ３〜ｆ８）と、人物Ａの音声が記録されている第１の第２区間（第２区間（１）：フレームｆ２〜ｆ１０）とのそれぞれ全ての区間を合わせた区間（第３区間（１）：フレームｆ２〜ｆ１０）である。ここで、第１の第３区間における最後のフレームｆ９〜ｆ１０の区間（符号１０１参照）においては、第１の第２区間（第２区間（１））が含まれ、且つ第１の第１区間（第１区間（１））が含まれていない。

一方、図１２（ｂ）に示す第２の第３区間は、人物Ｂ（人物Ａと関係がある人物Ｂ）が記録されている第２の第１区間（第１区間（２）：フレームｆ２３〜ｆ２８）と、人物Ｂの音声が記録されている第２の第２区間（第２区間（２）：フレームｆ２５〜ｆ３０）とのそれぞれ全ての区間を合わせた区間（第３区間（２）：フレームｆ２３〜ｆ３０）である。ここで、第２の第３区間における最初のフレームｆ２３〜ｆ２４の区間（符号１０２参照）においては、第２の第１区間（第１区間（２））が含まれ、且つ第２の第２区間（第２区間（２））が含まれていない。

このような場合、情報処理装置１００の連結部３６は、第１の第３区間における最後のフレームｆ９〜ｆ１０の区間と、第２の第３区間における最初のフレームｆ２３〜ｆ２４の区間と、を重ねて連結する。具体的には、図１２（ｃ）に示すように、第１の第３区間における最後のフレームｆ９〜ｆ１０の区間の音と、第２の第３区間における最初のフレームｆ２３〜ｆ２４の区間のフレーム画像と、を重ねて連結する。すなわち、第１の第３区間における最後のフレームｆ９〜ｆ１０と、第２の第３区間における最初のフレームｆ２３〜ｆ２４と、が重ねて連結された区間（符号１０３参照）は、フレーム画像が第２の第３区間のフレームｆ２３〜ｆ２４の画像であって、音が第１の第３区間のフレームｆ９〜ｆ１０の区間の音である。

このように、連結部３６は、複数の第３区間のうちの第１の第３区間、及び時系列の順に従った第１の第３区間の次の第２の第３区間を連結する場合、第１の第３区間内における最後の所定の区間と、第２の第３区間内における最初の所定の区間とを重ねて連結する。

例えば、図１２に示すように、第１の第３区間には、第１の第１区間及び第１の第２区間が含まれており、この第１の第３区間における最後の所定の区間において、第１の第２区間が含まれ、且つ第１の第１区間が含まれていないとする。また、第２の第３区間には、第２の第１区間及び第２の第２区間を含まれており、この第２の第３区間における最初の所定の区間において、第２の第１区間が含まれ、且つ第２の第２区間が含まれていないとする。このような場合、連結部３６は、第１の第３区間における最後の所定の区間内の第１の第２区間と、第２の第３区間における最初の所定の区間内の第２の第１区間とのそれぞれ少なくとも一部を重ねて連結する。

なお、以下のようにしてもよい。
例えば、第１の第３区間には、第１の第１区間及び第１の第２区間が含まれており、この第１の第３区間における最後の所定の区間において、第１の第１区間が含まれ、且つ第１の第２区間が含まれていないとする。また、第２の第３区間には、第２の第１区間及び第２の第２区間を含まれており、この第２の第３区間における最初の所定の区間において、第２の第２区間が含まれ、且つ第２の第１区間が含まれていないとする。このような場合、連結部３６は、第１の第３区間における最後の所定の区間内の第１の第１区間と、第２の第３区間における最初の所定の区間内の第２の第２区間とのそれぞれ少なくとも一部を重ねて連結する。

これにより、連結部３６は、抽出部３５が抽出した複数の第３区間を時系列の順に従って連結する際に、複数の第３区間における最初の所定の区間又は最後の所定の区間に不要な画像又は音が含まれている場合には、有用な画像又は有用な音声を用いて、第１区間と第２区間とを重ねて（オーバーラップさせて）連結することができる。よって、情報処理装置１００は、有用な画像又は音声が途切れることなく、且つ不要な画像又は音を極力抽出しないように動画を抽出することができる。

なお、図１２では、第１の第３区間における最後のフレームｆ９〜ｆ１０の区間（符号１０１参照）と、第２の第３区間における最初のフレームｆ２３〜ｆ２４の区間（符号１０２参照）と、のそれぞれの区間の長さが同じ場合を例としているが、これらの区間の長さは互いに異なっていてもよい。すなわち、これらの区間の長さが互いに異なっていたとしても、連結部３６は、第１の第３区間における最後の所定の区間内の第１の第１区間と、第２の第３区間における最初の所定の区間内の第２の第２区間とのそれぞれ少なくとも一部を重ねて連結してもよい。

また、連結部３６は、連結後の第３区間のフレーム画像と音とを、１つの動画ファイル（ダイジェスト動画ファイル）として生成する。また、再生部３７は、複数の第３区間を時系列の順に従って連結した動画ファイルを生成し、その生成した動画ファイルを再生（ダイジェスト動画再生）する。

これにより、情報処理装置１００は、動画から抽出した複数の第３区間のフレーム画像と音とを、時系列の順に従って連結した１つの動画ファイル（ダイジェスト動画ファイル）として生成することができる。また、情報処理装置１００は、動画から抽出した複数の第３区間のフレーム画像と音とを、時系列の順に従って再生（ダイジェスト動画再生）することができる。よって、情報処理装置１００は、動画から所望の区間の動画を適切に抽出して再生することができる。

なお、再生部３７は、複数の第３区間を時系列の順に従って連結した動画ファイルを生成しないで、単に、複数の第３区間の画像及び音を時系列の順に従って続けて再生してもよい。

また、再生部３７は、複数の第３区間のうちの第１の第３区間、及び時系列の順に従った第１の第３区間の次の第２の第３区間を再生する場合、第１の第３区間内における最後の所定の区間と、第２の第３区間内における最初の所定の区間とを重ねて再生してもよい。

例えば、図１２に示すように、第１の第３区間には、第１の第１区間及び第１の第２区間が含まれており、この第１の第３区間における最後の所定の区間において、第１の第２区間が含まれ、且つ第１の第１区間が含まれていないとする。また、第２の第３区間には、第２の第１区間及び第２の第２区間を含まれており、この第２の第３区間における最初の所定の区間において、第２の第１区間が含まれ、且つ第２の第２区間が含まれていないとする。このような場合、再生部３７は、第１の第３区間における最後の所定の区間内の第１の第２区間と、第２の第３区間における最初の所定の区間内の第２の第１区間とのそれぞれ少なくとも一部を重ねて再生してもよい。

また、以下のようにしてもよい。
例えば、第１の第３区間には、第１の第１区間及び第１の第２区間が含まれており、この第１の第３区間における最後の所定の区間において、第１の第１区間が含まれ、且つ第１の第２区間が含まれていないとする。また、第２の第３区間には、第２の第１区間及び第２の第２区間を含まれており、この第２の第３区間における最初の所定の区間において、第２の第２区間が含まれ、且つ第２の第１区間が含まれていないとする。このような場合、再生部３７は、第１の第３区間における最後の所定の区間内の第１の第１区間と、第２の第３区間における最初の所定の区間内の第２の第２区間とのそれぞれ少なくとも一部を重ねて再生してもよい。

以上、説明してきたように、第１実施形態の情報処理装置１００は、動画から所望の区間の動画を適切に抽出することができる。

＜第２実施形態＞
次に、第２実施形態について説明する。第２実施形態は、本発明の情報処理装置を含む撮像装置の態様である。
（撮像装置の構成）
図１３は、本発明の第２実施形態による撮像装置５００の構成の一例を示す概略ブロック図である。この図１３を参照して、本実施形態の撮像装置５００の構成について説明する。なお、撮像装置５００は、図２を用いて説明した情報処理装置１００が備える各構成を含んでおり、その対応する構成には同一の符号をつけておりその説明を省略する。

図１３に示す撮像装置５００は、検出部２、情報処理部３、メモリ部４、バッファメモリ部５、撮像部６、制御部７、操作部８、記憶媒体制御部９、表示制御部３８、音出力制御部３９、表示部１１、音出力部１２、及びバス１５を備えている。

ここで、図１３に示す検出部２、情報処理部３、メモリ部４、バッファメモリ部５、操作部８、表示制御部３８、及び音出力制御部３９を含む構成が、図２の情報処理装置１００と対応した構成である。なお、情報処理部３は、図２の人物特定部３１、話者特定部３２、判定部３３、抽出区間決定部３４、抽出部３５、連結部３６、及び再生部３７を含んで構成されている。また、表示部１１は図２の表示装置２００と対応し、音出力部１２は図２のスピーカ３００と対応する。

記憶媒体制御部９は、取り外しが可能な記憶媒体６００（カードメモリ等）と接続され、この記憶媒体６００への情報の書込み、読み出し、あるいは消去を行う。記憶媒体６００は、撮像装置５００に対して着脱可能に接続されるメモリであって、例えば、撮像部６によって撮影された画像、又は情報処理部３によって画像処理が実行された画像などを記憶する。この記憶媒体６００は、図２の記憶装置４００と対応する。なお、撮像装置５００の構成において、記憶媒体６００に代えて、通信網を介して接続可能な記憶装置（例えば記憶装置４００）としてもよい。

なお、撮像装置５００が備える図２の情報処理装置１００と対応した各部は、第１実施形態において説明した処理に加えて、撮像装置５００において必要な処理を実行する。例えば、情報処理部３は、撮像装置５００が撮像した画像に対して、ホワイトバランス調整、シャープネス調整、ガンマ補正、階調調整などの画像処理を実行するとともに、ＪＰＥＧ（Joint Photographic Experts Group）などの画像圧縮処理を実行する。メモリ部４は、例えば、撮影に関するシーン判定条件や撮影条件、各種の撮影モードの設定条件等、撮像装置５００を制御するための制御条件を記憶する。バッファメモリ部５は、撮像部６によって撮像された画像、記憶媒体６００から読み出された画像、情報処理部３による画像処理の過程で生成された画像等を、一時的に記憶する。操作部８は、例えば、電源スイッチ、シャッターボタン、動作モードを選択するモードダイヤル、などを備えており、ユーザによって操作された操作入力を検出し、検出した操作内容を示す操作信号を制御部７又は情報処理部３に出力する。

撮像部６は、レンズ部６１、撮像素子６２、及びＡ／Ｄ変換部６３を備えており、動画（動画像）または静止画（静止画像）等を撮像する。この撮像部６は、設定された撮像条件（例えば絞り値、露出等）に基づいて制御部７により制御され、レンズ部６１を介して入力された光束を、撮像素子６２の撮像面上に結像させる。撮像素子６２は、撮像面に結像された光束を光電変換したアナログ信号を、Ａ／Ｄ変換部６３に出力する。Ａ／Ｄ変換部６３は、撮像素子６２から入力されたアナログ信号をデジタル信号に変換し、この変換したデジタル信号を出力する。なお、上述したレンズ部６１は、撮像装置５００と一体化されている構成としてもよいし、撮像装置５００に着脱可能に取り付けられている構成としてもよい。

例えば、撮像部６は、操作部８のシャッターボタンが操作されることに応じて、静止画の撮像処理、又は動画の撮像処理を実行し、撮像した画像を出力する。そして、撮像部６によって撮像された静止画又は動画は、制御部７の制御により、バッファメモリ部５や情報処理部３を介して記憶媒体６００に記録される。

制御部７は、撮像装置５００が備えている各部を制御する。例えば、制御部７は、操作部８から受け取る操作信号、又はメモリ部４に記憶されている制御条件等に基づいて、撮像装置５００が備えている各部を制御する。

バス１５は、検出部２、情報処理部３、メモリ部４、バッファメモリ部５、撮像部６、制御部７、操作部８、記憶媒体制御部９、表示制御部３８、及び音出力制御部３９と接続され、各部から出力された画像信号、音信号、制御信号、等を転送する。

以上、図１３を用いて説明した撮像装置５００の構成においては、第１実施形態の情報処理装置１００に対応する構成を有しており、第１実施形態において説明した動画の抽出処理と同様の処理が可能である。

例えば、撮像装置５００は撮像して記憶媒体６００に記憶させた動画（フレーム画像及び音から）から特定の動画の区間を抽出する際の抽出区間を、前述した第１区間と第２区間とに基づいて、第３区間に決定することができる。また、撮像装置５００は、複数の第３区間のフレーム画像及び音を、時系列の順に従って連結して１つの動画ファイル（ダイジェスト動画ファイル）として生成することができる。また、撮像装置５００は、複数の第３区間のフレーム画像及び音を時系列の順に従って再生（ダイジェスト動画再生）することができる。

これにより、第２実施形態の撮像装置５００は、動画から所望の区間の動画を適切に抽出することができる。

なお、上記第１実施形態（又は第２実施形態）では、情報処理装置１００（又は撮像装置５００）が、人物が検出されたフレーム画像が時系列に続く区間を第１区間として検出する例、及び、人物の音声が検出された音が時系列に続く区間を第２区間として検出する例を説明したが、これに限られるものではく、情報処理装置１００（又は撮像装置５００）は、人物及び人物の音声以外の画像の特徴及び音の特徴に基づいて第１区間及び第２区間を検出してもよい。例えば、情報処理装置１００（又は撮像装置５００）は、画像の特徴（第１の特徴）及び音の特徴（第２の特徴）として、動物及び動物の鳴き声、楽団及び楽団の演奏音等、に基づいて、第１区間及び第２区間を検出してもよい。

また、上記実施形態の第１区間又は第２区間は、人物が続く区間又は音声が続く区間と完全に一致していなくてもよい。例えば、第１区間又は第２区間は、人物が続く区間又は音声が続く区間と数フレーム分の違いがあってもよく、その場合であっても同様の効果を奏する。また、上記実施形態の第３区間も同様に、第１区間と第２区間とを合わせた区間と完全に一致していなくてもよい。

また、上記実施形態では、抽出区間決定部３４が、第１区間、及び時間軸上において第１区間に少なくとも一部が重なる第２区間のそれぞれ全ての区間を合わせた区間を第３区間として抽出する例を説明したが、これに限られものではない。例えば、抽出区間決定部３４は、第１区間、及び時間軸上において第１区間に少なくとも一部が重ならない第２区間のそれぞれを第３区間として抽出してもよい。具体的には、抽出区間決定部３４は、例えば、第１区間と第２区間とが互いに時間軸上において少なくとも一部が重なるか否かにかかわらず、人物が検出されたフレーム画像が時系列に続く第１区間と、人物の音声が検出された音が時系列に続く第２区間とのそれぞれを第３区間として抽出してもよい。

また、再生部３７は、動画を再生する場合、画像又は音声にフェードイン又はフェードアウト処理を実行してもよい。例えば、再生部３７は、第３区間の動画を再生する場合、画像又は音声をフェードインさせて再生を開始し、画像又は音声をフェードアウトさせて再生を終了してもよい。また、再生部３７は、複数の第３区間の動画を時系列の順に従って続けて再生する場合、複数の第３区間それぞれの画像又は音声をフェードインさせて再生を開始し、フェードアウトさせて再生を終了してもよい。また、再生部３７は、複数の第３区間のうちの第１の第３区間における最後の所定の区間と、時系列の順に従った第１の第３区間の次の第２の第３区間における最初の所定の区間とを重ねて再生する場合、その重ねて再生する画像又は音にフェードイン又はフェードアウト処理を実行してもよい。

また、上記実施形態では、情報処理装置１００（第１実施形態）と、撮像装置５００（第２実施形態）との例をそれぞれ説明したが、これに限られるものではなく、その他の電子機器に本発明の情報処理装置を適用することができる。この電子機器とは、例えば、表示装置、パーソナルコンピュータ、タブレット型端末、ゲーム機等、様々な電子機器であってもよい。

なお、上述の処理部１０は専用のハードウェアにより実現されるものであってもよく、また、メモリ及びＣＰＵ（中央演算装置）により構成され、上述の処理部１０の機能を実現するためのプログラムをメモリにロードして実行することによりその機能を実現させるものであってもよい。

また、上述の処理部１０の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述の処理部１０の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

以上、この発明の実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

２検出部、４メモリ部、２１人物検出部、２２音声検出部、２３画像区間検出部、２４音区間検出部、３１人物特定、３２話者特定部、３３判定部、３４抽出区間決定部、３５抽出部、３６連結部、３７再生部、３８表示制御部、３９音出力制御部、１００情報処理装置、５００撮像処理装置

Claims

時系列に続く複数の画像のうち、第１の特徴が検出された画像が時系列に続く第１区間を検出する画像区間検出部と、
前記複数の画像に時系列に対応付けられた音のうち、第２の特徴が検出された音が時系列に続く第２区間を検出する音区間検出部と、
前記第１区間と前記第２区間とに基づいて、前記複数の画像および前記音から抽出する第３区間を決定する抽出区間決定部と、
を備えることを特徴とする情報処理装置。
前記抽出区間決定部は、
前記第１区間の画像および前記第２区間の音の何れも途切れないような区間を、前記第３区間として決定する。
ことを特徴とする請求項１に記載の情報処理装置。
前記抽出区間決定部は、
前記第１区間、および時間軸上において前記第１区間に少なくとも一部が重なる前記第２区間のそれぞれ全ての区間を合わせた区間を、前記第３区間として決定する
ことを特徴とする請求項１または２に記載の情報処理装置。
前記複数の画像から、前記第１の特徴として人物の画像を検出する人物検出部と、
前記音から、前記第２の特徴として人物の音声を検出する音声検出部と、
を備えることを特徴とする請求項１から３に記載の情報処理装置。
前記人物検出部により検出された人物の画像から人物の特徴を示す情報を抽出するとともに、抽出した前記人物の特徴を示す情報に基づいて、前記検出された人物の画像が示す人物が何れの人物であるかを特定する人物特定部、
を備え、
前記画像区間検出部は、
前記人物特定部が特定した結果に基づいて、同一の人物が検出された画像が時系列に続く区間を、前記第１区間として検出する
ことを特徴とする請求項４に記載の情報処理装置。
前記音声検出部により検出された音声から音声の特徴を示す情報を抽出するとともに、抽出した前記音声の特徴を示す情報に基づいて、前記検出された音声の話者である人物が何れの人物であるかを特定する話者特定部、
を備え、
前記音区間検出部は、
前記話者特定部が特定した結果に基づいて、同一の人物の音声が検出された音が時系列に続く区間を、前記第２区間として検出する
ことを特徴とする請求項４または５に記載の情報処理装置。
前記第１区間において検出された人物と、前記第２区間において検出された音声の話者である人物とが一致するか否かを判定する判定部、
を備え、
前記抽出区間決定部は、
前記判定部により、前記一致すると判定された場合、
前記第１区間と前記第２区間とに基づいて、前記複数の画像および前記音から抽出する前記第３区間を決定する
ことを特徴とする請求項４から６の何れか一項に記載の情報処理装置。
複数の人物それぞれが互いに関係があるか否かを示す情報である人物関係情報が記憶部に記憶されており、
前記判定部は、
前記人物関係情報に基づいて、前記第１区間において検出された人物と、前記第２区間において検出された音声の話者である人物とが前記互いに関係があるか否かを判定し、
前記抽出区間決定部は、
前記判定部により、前記互いに関係があると判定された場合、
前記第１区間と前記第２区間とに基づいて、前記複数の画像および前記音から抽出する前記第３区間を決定する
ことを特徴とする請求項７に記載の情報処理装置。
前記画像区間検出部は、
前記人物関係情報に基づいて、前記互いに関係がある人物が検出された画像が時系列に続く区間を、前記第１区間として検出する
ことを特徴とする請求項８に記載の情報処理装置。
前記音区間検出部は、
前記人物関係情報に基づいて、前記互いに関係がある人物の音声が検出された音が時系列に続く区間を、前記第２区間として検出する
ことを特徴とする請求項８または９に記載の情報処理装置。
前記第３区間の画像および音を抽出する抽出部と、
前記抽出部により抽出された前記第３区間の画像および音を再生する再生部と、
を備え、
前記再生部は、
複数の前記第３区間の画像および音を、それぞれ時系列の順に従って続けて再生する
ことを特徴とする請求項１から１０の何れか一項に記載の情報処理装置。
前記再生部は、
複数の前記第３区間のうちの第１の第３区間、および時系列の順に従った前記第１の第３区間の次の第２の第３区間を続けて再生する場合、前記第１の第３区間内における最後の所定の区間と、前記第２の第３区間内における最初の所定の区間とを重ねて再生する
ことを特徴とする請求項１１に記載の情報処理装置。
請求項１から１２の何れか一項に記載の情報処理装置、
を備えることを特徴とする撮像装置。
コンピュータに、
時系列に続く複数の画像のうち、第１の特徴が検出された画像が時系列に続く第１区間を検出する画像区間検出ステップと、
前記複数の画像に時系列に対応付けられた音のうち、第２の特徴が検出された音が時系列に続く第２区間を検出する音区間検出ステップと、
前記第１区間と前記第２区間とに基づいて、前記複数の画像および前記音から抽出する第３区間を決定する抽出区間決定ステップと、
を実行させるためのプログラム。