JP2013183280A - 情報処理装置、撮像装置、及びプログラム - Google Patents
情報処理装置、撮像装置、及びプログラム Download PDFInfo
- Publication number
- JP2013183280A JP2013183280A JP2012045673A JP2012045673A JP2013183280A JP 2013183280 A JP2013183280 A JP 2013183280A JP 2012045673 A JP2012045673 A JP 2012045673A JP 2012045673 A JP2012045673 A JP 2012045673A JP 2013183280 A JP2013183280 A JP 2013183280A
- Authority
- JP
- Japan
- Prior art keywords
- section
- person
- detected
- unit
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】動画から所望の区間の動画を適切に抽出することができる情報処理装置を提供する。
【解決手段】情報処理装置は、時系列に続く複数の画像のうち、第1の特徴が検出された画像が時系列に続く第1区間を検出する画像区間検出部と、複数の画像に時系列に対応付けられた音のうち、第2の特徴が検出された音が時系列に続く第2区間を検出する音区間検出部と、第1区間と第2区間とに基づいて、複数の画像および音から抽出する第3区間を決定する抽出区間決定部と、を備える。
【選択図】図2
【解決手段】情報処理装置は、時系列に続く複数の画像のうち、第1の特徴が検出された画像が時系列に続く第1区間を検出する画像区間検出部と、複数の画像に時系列に対応付けられた音のうち、第2の特徴が検出された音が時系列に続く第2区間を検出する音区間検出部と、第1区間と第2区間とに基づいて、複数の画像および音から抽出する第3区間を決定する抽出区間決定部と、を備える。
【選択図】図2
Description
本発明は、情報処理装置、撮像装置、及びプログラムに関する。
動画の画像から人物を検出し、検出した人物又はその人物と関係のある人物が記録されている区間の動画を抽出して再生(動画ダイジェスト再生)する情報処理装置がある。(例えば、特許文献1参照)。上述のような情報処理装置によれば、長時間の動画あるいは複数の動画から、例えばユーザに指定された人物又はその人物と関係のある人物が画像に記録されている区間の動画のみを、再生するための動画として抽出することができる。
しかしながら、特許文献1に示す処理装置にあっては、動画に含まれている音声には考慮されていないため、所望の画像が記録されている区間の動画を抽出した際に音声が会話の途中で途切れてしまう場合があるという問題があった。
本発明は、このような事情に鑑みてなされたもので、その目的は、動画から所望の区間の動画を適切に抽出することができる情報処理装置、撮像装置、及びプログラムを提供することにある。
この発明は上述した課題を解決するためになされたもので、本発明は、時系列に続く複数の画像のうち、第1の特徴が検出された画像が時系列に続く第1区間を検出する画像区間検出部と、前記複数の画像に時系列に対応付けられた音のうち、第2の特徴が検出された音が時系列に続く第2区間を検出する音区間検出部と、前記第1区間と前記第2区間とに基づいて、前記複数の画像および前記音から抽出する第3区間を決定する抽出区間決定部と、を備えることを特徴とする情報処理装置である。
また、本発明は、コンピュータに、時系列に続く複数の画像のうち、第1の特徴が検出された画像が時系列に続く第1区間を検出する画像区間検出ステップと、前記複数の画像に時系列に対応付けられた音のうち、第2の特徴が検出された音が時系列に続く第2区間を検出する音区間検出ステップと、前記第1区間と前記第2区間とに基づいて、前記複数の画像および前記音から抽出する第3区間を決定する抽出区間決定ステップと、を実行させるためのプログラムである。
この発明によれば、動画から所望の区間の動画を適切に抽出することができる。
以下、図面を参照して、本発明の実施の形態について説明する。
<第1実施形態>
図1は、本発明の第1実施形態による情報処理装置100の概要を説明する図である。図1に示す情報処理装置100は、表示装置200と、スピーカ300と、記憶装置400と、それぞれ接続されている。これらの接続は、有線による接続であってもよいし、無線による接続であってもよい。なお、表示装置200、スピーカ300、又は記憶装置400は、情報処理装置100に含まれている構成であってもよい。
<第1実施形態>
図1は、本発明の第1実施形態による情報処理装置100の概要を説明する図である。図1に示す情報処理装置100は、表示装置200と、スピーカ300と、記憶装置400と、それぞれ接続されている。これらの接続は、有線による接続であってもよいし、無線による接続であってもよい。なお、表示装置200、スピーカ300、又は記憶装置400は、情報処理装置100に含まれている構成であってもよい。
情報処理装置100は、情報処理を実行する処理部10と、処理部10が処理を実行する上で用いるデータベース等が記憶されているメモリ部4と、処理を実行する上での作業領域となるバッファメモリ部5と、を備えている。例えば、情報処理装置100は、記憶装置400に記憶されている動画を読み出して、読み出した動画を画像信号と音声信号とにデコードする。また、情報処理装置100は、この画像信号を表示装置200に出力するとともに、音声信号をスピーカ300に出力する。すなわち、情報処理装置100は、記憶装置400に記憶されている動画を再生して、表示装置200及びスピーカ300に出力する。
ここで、動画は、例えば、時系列に続く複数のフレーム画像(複数の画像)と、この複数のフレーム画像に時系列に対応付けられている音とを含んで構成されている。すなわち、このフレーム画像と音とは互いに同じフレーム周期で同期し、互いに時間軸において対応している。
なお、動画を構成するフレーム画像及び音のそれぞれは、互いに時間軸において対応づけが可能な互いに異なるファイルに保存されていてもよい。また、複数のフレーム画像は、複数の静止画像を用いて構成されていてもよい。
本実施形態の情報処理装置100は、例えば、動画から特定のシーン(例えば、ユーザが見たいシーン)のみを抽出して再生(所謂、ダイジェスト再生)する場合に、動画から抽出する区間を、複数のフレーム画像と音との何れの区間も適切になるように抽出する。
このような処理を行う情報処理装置100の構成について、図2を参照して、詳しく説明する。
(情報処理装置の構成)
図2は、第1実施形態による情報処理装置100の構成の一例を示す概略ブロック図である。この図2を参照して、本実施形態の情報処理装置100の構成についてさらに詳しく説明する。なお、図2において、図1の各部に対応する構成には同一の符号を付けている。
(情報処理装置の構成)
図2は、第1実施形態による情報処理装置100の構成の一例を示す概略ブロック図である。この図2を参照して、本実施形態の情報処理装置100の構成についてさらに詳しく説明する。なお、図2において、図1の各部に対応する構成には同一の符号を付けている。
情報処理装置100は、処理部10と、メモリ部4(記憶部)と、バッファメモリ部5と、操作部8と、を備えている。処理部10は、検出部2と、人物特定部31と、話者特定部32と、判定部33と、抽出区間決定部34と、抽出部35と、連結部36と、再生部37と、表示制御部38と、音出力制御部39と、を備えている。
まず、処理部10の検出部2について説明する。
検出部2は、人物検出部21と、音声検出部22と、画像区間検出部23と、音区間検出部24とを備えており、動画うちの、人物が記録されている区間、又は音声が記録されている区間を検出する。
検出部2は、人物検出部21と、音声検出部22と、画像区間検出部23と、音区間検出部24とを備えており、動画うちの、人物が記録されている区間、又は音声が記録されている区間を検出する。
人物検出部21は、複数のフレーム画像それぞれから、人物の画像(第1の特徴)を検出する。例えば、人物検出部21は、フレーム画像から人物の顔の画像を検出することにより、複数のフレーム画像それぞれに人物の画像が含まれているか否か(人物が記録されているか否か)を検出する。
音声検出部22は、音から人物の音声(第2の特長)を検出する。すなわち、音声検出部22は、動画に含まれているフレーム画像に対応付けられた音から人物の音声を検出する。例えば、音声検出部22は、フレーム画像のフレーム単位、又は予め設定されたフレーム数単位において、音信号の振幅(大きさ)と周波数成分に基づいて、それぞれのフレームに対応した音に人物の音声が含まれているか否かを検出する。
画像区間検出部23は、複数のフレーム画像のうち、所定の特徴(第1の特徴)が検出されたフレーム画像が時系列に続く区間(以下、第1区間)を検出する。例えば、画像区間検出部23は、人物検出部21により人物の画像が検出されたフレーム画像が時系列に続く第1区間を検出する。なお、画像区間検出部23は、わずかな区間(少ないフレーム数)において人物の画像が検出されなかったとしても、その前後の区間において人物の画像が継続して検出されていれば、その人物の画像が検出されなかった区間も人物が継続して検出されていた区間としてみなしてもよい。
例えば、画像区間検出部23は、人物検出部21により人物の画像が検出されないフレーム画像が時系列に続く区間が、予め定められた第1のフレーム数以下であるか否かに基づいて、人物検出部21により人物の画像が検出されたフレーム画像が時系列に続く区間であるか否かを判定する。ここで、第1のフレーム数とは、人物の画像が継続して検出されている区間であるか否か(人物の画像が検出されている第1区間が継続しているか否か)を判定するために予め定められたフレーム数である。
例えば、人物の画像が検出されないフレーム画像が時系列に続く区間が上述の第1のフレーム数以下である場合、画像区間検出部23は、人物の画像が検出されたフレーム画像が時系列に続く区間である(人物が検出されている第1区間が継続している)と判定する。一方、人物の画像が検出されないフレーム画像が時系列に続く区間が上述の第1のフレーム数を超えた場合、画像区間検出部23は、人物の画像が検出されたフレーム画像が時系列に続く区間(人物が検出されている第1区間)が終了したと判定する。すなわち、画像区間検出部23は、人物の画像が検出されない区間が第1のフレーム数以下の短い区間である場合、第1区間が継続していると判定し、人物の画像が検出されない区間が第1のフレーム数を超えて長い区間となった場合、第1区間が終了したと判定する。
なお、画像区間検出部23は、単に人物の画像が検出されたフレーム画像が時系列に続く区間を第1区間として検出してもよいが、同一の人物の画像が検出された画像が時系列に続く区間を、第1区間として検出してもよい。例えば、画像区間検出部23は、検出された人物の画像が何れの人物の画像であるかを人物特定部31が特定した結果に基づいて、同一の人物の画像が検出された画像が時系列に続く区間を、第1区間として検出してもよい。
また、画像区間検出部23は、互いに関係がある人物の画像が検出されたフレーム画像が時系列に続く区間を、第1区間として検出してもよい。例えば、画像区間検出部23は、検出された人物の画像が何れの人物であるかを人物特定部31が特定した結果と、後述する、複数の人物それぞれが互いに関係があるか否かを示す情報である人物関係情報が登録されている人物関係情報データベース43と、に基づいて、互いに関係がある人物の画像が検出されたフレーム画像が時系列に続く区間を、第1区間として検出してもよい。
音区間検出部24は、動画に含まれる音のうち所定の特徴(第2の特徴)が検出された音が時系列に続く区間(以下、第2区間)を検出する。例えば、音区間検出部24は、音声検出部22により検出された人物の音声が時系列に続く第2区間を検出する。なお、音区間検出部24は、わずかな区間(少ないフレーム数)において人物の音声が検出されなかったとしても、その前後の区間において人物が継続して検出されていれば、その人物の音声が検出されなかった区間も人物の音声が継続して検出されていた区間とみなして第2区間を検出してもよい。
例えば、音区間検出部24は、音声検出部22により人物の音声が検出されない音が時系列に続く区間が、予め定められた第2のフレーム数以下であるか否かに基づいて、音声検出部22により人物の音声が検出された音が時系列に続く区間であるか否かを判定する。ここで、第2のフレーム数とは、人物の音声が継続して検出されているか否か(人物の音声が検出されている第2区間が継続しているか否か)を判定するために予め定められたフレーム数である。
例えば、音声検出部22により人物の音声が検出されない音が時系列に続く区間が上述の第2のフレーム数以下である場合、音区間検出部24は、人物の音声が検出された音が時系列に続く区間である(人物の音声が検出されている第2区間が継続している)と判定する。一方、人物の音声が検出されない音が時系列に続く区間が上述の第2のフレーム数を超えた場合、音区間検出部24は、人物の音声が検出された音が時系列に続く区間(人物の音声が検出されている第2区間)が終了したと判定する。すなわち、音区間検出部24は、人物の音声が検出されない区間が第2のフレーム数以下の短い区間である場合、第2区間が継続していると判定し、人物の音声が検出されない区間が第2のフレーム数を超えて長い区間となった場合、第2区間が終了したと判定する。
なお、音区間検出部24は、単に人物の音声が時系列に続く区間を第2区間として検出してもよいが、同一の人物の音声が検出された画像が時系列に続く区間を、第2区間として検出してもよい。例えば、音区間検出部24は、検出された人物の音声の話者が何れの人物であるかを話者特定部32が特定した結果に基づいて、同一の人物の音声が検出された音が時系列に続く区間を、第2区間として検出してもよい。
また、音区間検出部24は、互いに関係がある人物の音声が検出された画像が時系列に続く区間を、第2区間として検出してもよい。例えば、音区間検出部24は、検出された人物の音声の話者が何れの人物であるかを話者特定部32が特定した結果と、人物関係情報が登録されている人物関係情報データベース43と、に基づいて、互いに関係がある人物の音声が検出された画像が時系列に続く区間を、第2区間として検出してもよい。
次に、処理部10の検出部2以外の各部について説明する。
人物特定部31は、人物検出部21により検出された人物の画像から、人物の特徴を示す情報を抽出するとともに、抽出した人物の特徴を示す情報に基づいて、検出された人物の画像が示す人物が何れの人物であるかを特定する。例えば、メモリ部4には、複数の人物の特徴を示す情報が登録されている人物特徴情報データベース41が記憶されている。そして、人物特定部31は、抽出した人物の特徴を示す情報と人物特徴情報データベース41に登録されている複数の人物の特徴を示す情報とに基づいて、検出された人物の画像が示す人物が、人物特徴情報データベース41に登録されている複数の人物のうちの何れの人物であるかを特定する。
話者特定部32は、音声検出部22により検出された人物の音声から音声の特徴を示す情報を抽出するとともに、抽出した音声の特徴を示す情報に基づいて、検出された音声の話者である人物を特定する。例えば、メモリ部4には、複数の人物の音声の特徴を示す情報が登録されている音声特徴情報データベース42が記憶されている。そして、話者特定部32は、抽出した人物の音声の特徴を示す情報と音声特徴情報データベースに登録されている複数の人物の音声の特徴を示す情報とに基づいて、検出された音声の話者である人物が、音声特徴情報データベース42に登録されている複数の人物の音声うちの何れの人物であるかを特定する。
判定部33は、人物特定部31により第1区間において特定された人物と、話者特定部32により第2区間において特定された音声の話者である人物とが一致するか否かを判定する。例えば、判定部33は、第1区間において特定された人物の固有の識別情報と、第2区間において特定された音声の話者である人物の固有の識別情報とが一致するか否かを判定する。なお、この人物の固有の識別情報は、人物特徴情報データベース41、音声特徴情報データベース42、及び人物関係情報データベース43で人物を識別する情報として用いられている情報であり、後述する。
また、判定部33は、人物特定部31により第1区間において特定された人物と、話者特定部32により第2区間において特定された音声の話者である人物とが互いに関係があるか否かを判定する。例えば、メモリ部4には、複数の人物それぞれが互いに関係があるか否かを示す情報である人物関係情報データベース43が記憶されている。そして、判定部33は、人物特定部31の特定結果、話者特定部32の特定結果、及び人物関係情報データベースに基づいて、第1区間において特定された人物と、第2区間において特定された音声の話者である人物とが互いに関係があるか否かを判定する。
抽出区間決定部34は、上述した第1区間と第2区間とに基づいて、動画から抽出する区間(以下、第3区間)を決定する。例えば、抽出区間決定部34は、第1区間の画像及び第2区間の音の何れも途切れないような区間を、動画から抽出する第3区間として決定する。すなわち、抽出区間決定部34は、複数のフレーム画像及びこの複数のフレーム画像に時系列に対応付けられた音から抽出する第3区間を、上述した第1区間と第2区間とに基づいて、第1区間及び第2区間の何れの区間も途切れないような区間に決定する。
例えば、ユーザに指定された人物のフレーム画像が続く第1区間の動画を抽出する場合、抽出区間決定部34は、第1区間、及び時間軸上において第1区間に少なくとも一部が重なる第2区間のそれぞれ全ての区間を合わせた区間を、抽出する第3区間として決定する。また、ユーザに指定された人物の音声が続く第2区間の動画を抽出する場合、抽出区間決定部34は、第2区間、及び時間軸上において第2区間に少なくとも一部が重なる第1区間のそれぞれ全ての区間を合わせた区間を、抽出する第3区間として決定する。
すなわち、抽出区間決定部34は、人物の画像が含まれるフレーム画像が続く第1区間を基準に動画を抽出する際に、人物の音声が含まれる音が途切れないように第2区間も考慮して(合わせて)抽出する第3区間を決定する。一方、抽出部35は、人物の音声が含まれる音が続く第2区間を基準に動画を抽出する際に、人物の画像が含まれるフレーム画像が途切れないように第1区間も考慮して(合わせて)抽出する第3区間を決定する。このような抽出区間の決定処理について、詳しくは後述する。
抽出部35は、動画から第3区間のフレーム画像及び音を抽出する。例えば、抽出部35は、動画から、1つの第3区間または複数の第3区間のフレーム画像及び音を抽出する。なお、抽出部35は、複数の動画それそれから、1つの第3区間または複数の第3区間のフレーム画像及び音を抽出してもよい。
連結部36は、抽出部35により抽出された複数の第3区間のフレーム画像及び音を、それぞれ時系列の順に従って連結する。例えば、連結部36は、複数の第3区間のフレーム画像及び音を、それぞれ時系列の順に従って連結し、連結した動画を生成する。
再生部37は、抽出部35により抽出された第3区間のフレーム画像及び音を、再生する。具体的には、再生部37は、抽出部35により抽出された第3区間のフレーム画像を時系列の順に従って画像信号に変換(デコード)して表示制御部38に供給するとともに、フレーム画像に時系列に対応した第3区間の音を音信号に変換(デコード)して、画像信号と時間軸上で同期させて音出力制御部39に供給する。
また、再生部37は、抽出部35により抽出された複数の第3区間のフレーム画像及び音を、それぞれ時系列の順に従って続けて再生する。なお、再生部37は、複数の第3区間のフレーム画像及び音を再生する場合、連結部36により複数の第3区間のフレーム画像及び音がそれぞれ時系列の順に従って連結された動画を再生してもよい。
表示制御部38は、再生部37から受けた画像信号を、表示装置200のフォーマットに対応する信号に変換して出力する。音出力制御部39は、再生部37から受けた音信号を、スピーカ300のフォーマットに対応する信号に変換して出力する。
メモリ部4は、人物特徴情報データベース41、音声特徴情報データベース42、及び人物関係情報データベース43を有している。
人物特徴情報データベース41には、複数の人物の特徴を示す情報が登録されている。例えば、人物特徴情報データベース41には、複数の人物それぞれの固有の識別情報と、対応する人物の特徴を示す情報とが関連付けられて登録されている。この人物特徴情報データベース41を参照することにより、前述した人物特定部31は、検出された人物の特徴を示す情報に基づいて、固有の識別情報を選択して人物を特定することができる。
人物特徴情報データベース41には、複数の人物の特徴を示す情報が登録されている。例えば、人物特徴情報データベース41には、複数の人物それぞれの固有の識別情報と、対応する人物の特徴を示す情報とが関連付けられて登録されている。この人物特徴情報データベース41を参照することにより、前述した人物特定部31は、検出された人物の特徴を示す情報に基づいて、固有の識別情報を選択して人物を特定することができる。
音声特徴情報データベース42には、複数の人物の音声の特徴を示す情報が登録されている。例えば、音声特徴情報データベース42には、複数の人物それぞれの固有の識別情報と、対応する人物の音声の特徴を示す情報とが関連付けられて登録されている。この音声特徴情報データベース42を参照することにより、前述した話者特定部32は、検出された人物の音声の特徴を示す情報に基づいて、固有の識別情報を選択して話者である人物を特定することができる。
人物関係情報データベース43には、複数の人物それぞれが互いに関係があるか否かを示す情報である人物関係情報が登録されている。例えば、人物関係情報データベース43には、複数の人物それぞれの互いの関係性や親密性を示す情報が登録されている。具体的には、人物関係情報データベース43には、例えば、互いに関係がある複数の人物の固有の識別情報には同一のフラグ情報が関連付けられて登録されている。なお、このフラグ情報は、人物の固有の識別情報に対して複数種類のフラグ情報が関連付けられていてもよい。すなわち、人物関係情報データベース43には、複数種類の関係が登録されていてもよい。なお、同一のフラグ情報に代えて、互いの親密度を示す情報としてもよい。
バッファメモリ部5は、例えば、揮発性のメモリを有し、処理部10におけるフレーム画像や音に対する検出処理、抽出処理、または信号処理を実行する過程での作業領域として利用される。
操作部8は、例えば、操作釦が設けられており操作入力を検出し、検出した操作を示す操作信号を処理部10に供給する。なお、操作部8は、タッチ操作を検出するタッチパネルを有する構成としてもよい。
(抽出処理の説明)
このように構成された情報処理装置100において、動画から抽出する第3区間を決定する処理について具体的に説明する。情報処理装置100は、例えば、記憶装置400に記憶された動画から、人物が記録されている区間、ユーザにより指定された人物が記録されている区間、又はユーザにより指定された人物と関係がある人物(例えば関係性、親密性が高い人物)が記録されている区間を抽出して連結した動画を生成する(ダイジェスト動画を生成する)。また、情報処理装置100は、この連結した動画を再生する(ダイジェスト動画を再生する)。
このように構成された情報処理装置100において、動画から抽出する第3区間を決定する処理について具体的に説明する。情報処理装置100は、例えば、記憶装置400に記憶された動画から、人物が記録されている区間、ユーザにより指定された人物が記録されている区間、又はユーザにより指定された人物と関係がある人物(例えば関係性、親密性が高い人物)が記録されている区間を抽出して連結した動画を生成する(ダイジェスト動画を生成する)。また、情報処理装置100は、この連結した動画を再生する(ダイジェスト動画を再生する)。
ここで、本実施形態の情報処理装置100は、例えば、上述したように人物が記録されている区間(第1区間)を抽出する際に、人物の音声が記録されている区間(第2区間)、フレーム画像に含まれている人物の音声が記録されている区間(第2区間)、又はフレーム画像に含まれている人物と関係がある人物の音声が記録されている区間(第2区間)、が途切れないように抽出する。
具体的には、画像区間検出部23は、人物(又はユーザに指定された人物や、その指定された人物と関係がある人物)が検出されたフレーム画像が時系列に続く区間を第1区間として検出する。また、音区間検出部24は、音声検出部22により検出された人物の音声(又はユーザに指定された人物の音声や、その指定された人物と関係がある人物の音声)が時系列に続く区間を第2区間として検出する。そして、抽出区間決定部34は、第1区間の画像及び第2区間の音の何れも途切れないような区間を、動画から抽出する第3区間として決定する。例えば、動画から人物が記録されている第1区間を抽出する場合、抽出区間決定部34は、抽出する第3区間を、第1区間、及び時間軸上において第1区間に少なくとも一部が重なる第2区間のそれぞれ全ての区間を合わせた区間に決定する。
図3は、情報処理装置100における抽出処理の一例を示すフローチャートである。この図3を参照して、情報処理装置100における抽出区間を決定して抽出する処理の動作の一例を説明する。
この図では、情報処理装置100は、ユーザに指定された人物が記録されている第1区間を抽出する際に、第1区間に記録されている人物(第1区間において検出された人物と一致する人物)の音声が途切れないように抽出する。すなわち、情報処理装置100は、上述の第1区間と、時間軸上において第1区間に少なくとも一部が重なる区間であって、第1区間に記録されている人物(第1区間において検出された人物と一致する人物)の音声が記録されている区間である第2区間と、を合わせた第3区間を抽出する。
まず、人物検出部21は、動画のフレーム画像から、ユーザに指定された人物の画像を検出する(ステップS11)。また、音声検出部22は、動画の音から人物の音声を検出する(ステップS12)。
次に、画像区間検出部23は、人物検出部21により人物の画像が検出されたフレーム画像が時系列に続く第1区間を検出する。また、音区間検出部24は、時間軸上において第1区間に少なくとも一部が重なる区間、且つ音声検出部22により検出された人物の音声が時系列に続く区間である第2区間を検出する(ステップS13)。
続いて、人物特定部31は、人物検出部21により検出された人物の画像から、人物の特徴を示す情報を抽出するとともに、抽出した人物の特徴を示す情報に基づいて、検出された人物の画像が示す人物が何れの人物であるかを特定する。また、話者特定部32は、音声検出部22により検出された人物の音声から音声の特徴を示す情報を抽出するとともに、抽出した音声の特徴を示す情報に基づいて、検出された音声の話者である人物を特定する(ステップS14)。
判定部33は、人物特定部31により第1区間において特定された人物と、話者特定部32により第2区間において特定された音声の話者である人物とが一致するか否かを判定する(ステップS15)。
ステップS15において、第1区間において特定された人物と、第2区間において特定された音声の話者である人物とが一致すると判定された場合、抽出区間決定部34は、抽出する区間を、第1区間及び第2区間のそれぞれ全ての区間を合わせた第3区間に決定する(抽出する区間を第1区間から第3区間に変更する、ステップS16)。そして処理部10は、ステップS18に処理を進める。
一方、ステップS15において、第1区間において特定された人物と、第2区間において特定された音声の話者である人物とが一致しないと判定された場合、抽出区間決定部34は、抽出する区間を、第1区間に決定する(ステップS17)。そして処理部10は、ステップS18に処理を進める。
ステップS18において、抽出部35は、抽出区間決定部34により決定された区間の動画を抽出する。すなわち、第1区間において特定された人物と、第2区間において特定された音声の話者である人物とが一致すると判定された場合、抽出部35は、第3区間(第1区間及び第2区間を合わせた区間)のフレーム画像と音とを抽出する。また、第1区間において特定された人物と、第2区間において特定された音声の話者である人物とが一致しないと判定された場合、抽出部35は、第1区間のフレーム画像と音とを抽出する。
このように、抽出区間決定部34は、人物の画像が含まれるフレーム画像が続く第1区間と、その人物の音声が含まれる音が連続する第2区間とに基づいて、動画から抽出する第3区間を、上述の第1区間及び第2区間のそれぞれ全ての区間を合わせた区間に決定する。そして、抽出部35は、抽出区間決定部34により決定された区間を抽出する。
これにより、情報処理装置100は、動画から、人物の画像が含まれるフレーム画像が続く第1区間を抽出する際に、その人物の音声が含まれる第2区間が途切れないように適切に抽出することができる。
(抽出区間の具体例)
次に、図4〜7を参照して、時間軸上における第1区間、第2区間、及び第3区間の時間軸上の関係を具体的に説明する。図4〜7は、第1区間、第2区間、及び第3区間の時間軸上の関係の例を表した図であって、それぞれ、第1区間と第2区間との時間軸上の関係が異なる例を示している。
次に、図4〜7を参照して、時間軸上における第1区間、第2区間、及び第3区間の時間軸上の関係を具体的に説明する。図4〜7は、第1区間、第2区間、及び第3区間の時間軸上の関係の例を表した図であって、それぞれ、第1区間と第2区間との時間軸上の関係が異なる例を示している。
図4は、第1区間、第2区間、及び第3区間の時間軸上の関係の第1例を表した図である。この図は、抽出する人物としてユーザに指定された人物Aの画像が含まれるフレーム画像が連続する第1区間がフレームf3〜f8であって、この人物Aの音声が記録されている第2区間がフレームf2〜f10であることを示している。
この図に示す例において、ユーザに指定された人物Aが記録されている第1区間を抽出する場合、情報処理装置100は、抽出する第3区間を、第1区間及び第2区間のそれぞれ全ての区間を合わせたフレームf2〜f10の区間に決定する(抽出する区間を第1区間から第3区間に変更する)。
よって、第1区間の開始点(フレームf3)に対して第2区間の開始点(フレームf2)の方が前であって、第1区間の終了点(フレームf8)に対して第2区間の終了点(フレームf10)の方が後ろである場合、情報処理装置100は、第1区間を抽出する際に、第1区間及び第2区間のそれぞれ全ての区間を合わせた区間(すなわち、この例では第2区間)である第3区間(フレームf2〜f10)を抽出する。そのため、情報処理装置100は、第1区間を抽出する際に、第1区間に記録されている人物Aの音声が途切れないように(すなわち第2区間が途切れないように)最短の所望の区間を抽出することができる。
図5は、第1区間、第2区間、及び第3区間の時間軸上の関係の第2例を表した図である。この図は、抽出する人物としてユーザに指定された人物Aの画像が含まれるフレーム画像が連続する第1区間がフレームf3〜f8であって、この人物Aの音声が記録されている第2区間がフレームf4〜f7であることを示している。
この図に示す例において、ユーザに指定された人物Aが記録されている第1区間を抽出する場合、情報処理装置100は、抽出する区間を、第1区間及び第2区間のそれぞれ全ての区間を合わせたフレームf3〜f8の第3区間に決定する(抽出する区間を第1区間と同じ第3区間とする)。
よって、第1区間の開始点(フレームf3)に対して第2区間の開始点(フレームf4)の方が後ろであって、第1区間の終了点(フレームf8)に対して第2区間の終了点(フレームf7)の方が前である場合、情報処理装置100は、第1区間を抽出する際に、第1区間及び第2区間のそれぞれ全ての区間を合わせた区間(すなわち、この例では第1区間)である第3区間(フレームf3〜f8)を抽出する。この場合、情報処理装置100は、第1区間を抽出する第3区間としても第2区間が途切れることがないため、第1区間に記録されている人物Aの音声が途切れないように(すなわち第2区間が途切れないように)最短の所望の区間を抽出することができる。
図6は、第1区間、第2区間、及び第3区間の時間軸上の関係の第3例を表した図である。この図は、抽出する人物としてユーザに指定された人物Aの画像が含まれるフレーム画像が連続する第1区間がフレームf3〜f8であって、この人物Aの音声が記録されている第2区間がフレームf4〜f10であることを示している。
この図に示す例において、ユーザに指定された人物Aが記録されている第1区間を抽出する場合、情報処理装置100は、抽出する第3区間を、第1区間及び第2区間のそれぞれ全ての区間を合わせたフレームf3〜f10の区間に決定する(抽出する区間を第1区間から第3区間に変更する)。
よって、第1区間の開始点(フレームf3)に対して第2区間の開始点(フレームf4)の方が後ろであって、第1区間の終了点(フレームf8)に対して第2区間の終了点(フレームf10)の方が後ろである場合、情報処理装置100は、第1区間を抽出する際に、第1区間及び第2区間のそれぞれ全ての区間を合わせた区間である第3区間(フレームf3〜f10)を抽出する。そのため、情報処理装置100は、第1区間を抽出する際に、第1区間に記録されている人物Aの音声が途切れないように(すなわち第2区間が途切れないように)最短の所望の区間を抽出することができる。
図7は、第1区間、第2区間、及び第3区間の時間軸上の関係の第4例を表した図である。この図は、抽出する人物としてユーザに指定された人物Aの画像が含まれるフレーム画像が連続する第1区間がフレームf3〜f8であって、この人物Aの音声が記録されている第2区間がフレームf2〜f7であることを示している。
この図に示す例において、ユーザに指定された人物Aが記録されている第1区間を抽出する場合、情報処理装置100は、抽出する第3区間を、第1区間及び第2区間のそれぞれ全ての区間を合わせたフレームf2〜f8の区間に決定する(抽出する区間を第1区間から第3区間に変更する)。
よって、第1区間の開始点(フレームf3)に対して第2区間の開始点(フレームf2)の方が前であって、第1区間の終了点(フレームf8)に対して第2区間の終了点(フレームf7)の方が前である場合、情報処理装置100は、第1区間を抽出する際に、第1区間及び第2区間のそれぞれ全ての区間を合わせた区間である第3区間(フレームf2〜f8)を抽出する。そのため、情報処理装置100は、第1区間を抽出する際に、第1区間に記録されている人物Aの音声が途切れないように(すなわち第2区間が途切れないように)最短の所望の区間を抽出することができる。
なお、図3〜7を用いて、情報処理装置100が、第1区間を抽出する際に、第1区間及び第2区間のそれぞれ全ての区間を合わせた第3区間を抽出する処理について説明したが、第2区間を抽出する際に、第1区間及び第2区間のそれぞれ全ての区間を合わせた第3区間を抽出する処理としてもよい。例えば、動画から人物の音声が記録されている第2区間を抽出する場合、抽出区間決定部34は、抽出する第3区間を、第2区間、及び時間軸上において第2区間に少なくとも一部が重なる第1区間のそれぞれ全ての区間を合わせた区間に決定してもよい。
(抽出処理の別の例)
図8は、情報処理装置100における抽出処理の別の一例を示すフローチャートである。前述の図3では、第1区間で検出された人物と第2区間で検出された音声の人物とが同一である場合に第3区間を抽出する処理の動作の一例を説明したが、この図8では、第1区間で検出された人物と第2区間で検出された音声の人物とが関係がある場合に第3区間を抽出する処理の動作の一例を説明する。なお、図8に示す処理は、図3に示すステップS15の処理に代えて、ステップS15aの処理を実行することが異なり、この図8において、図3の各処理と対応する処理には同一の符号を付け、その説明を省略する。
図8は、情報処理装置100における抽出処理の別の一例を示すフローチャートである。前述の図3では、第1区間で検出された人物と第2区間で検出された音声の人物とが同一である場合に第3区間を抽出する処理の動作の一例を説明したが、この図8では、第1区間で検出された人物と第2区間で検出された音声の人物とが関係がある場合に第3区間を抽出する処理の動作の一例を説明する。なお、図8に示す処理は、図3に示すステップS15の処理に代えて、ステップS15aの処理を実行することが異なり、この図8において、図3の各処理と対応する処理には同一の符号を付け、その説明を省略する。
判定部33は、人物特定部31により第1区間において特定された人物と、話者特定部32により第2区間において特定された音声の話者である人物とが互いに関係があるか否かを判定する(ステップS15a)。
ステップS15aにおいて、第1区間において特定された人物と、第2区間において特定された音声の話者である人物とが互いに関係があると判定された場合、抽出区間決定部34は、抽出する区間を、第1区間及び第2区間のそれぞれ全ての区間を合わせた第3区間に決定する(抽出する区間を第1区間から第3区間に変更する、ステップS16)。そして処理部10は、ステップS18に処理を進める。
一方、ステップS15aにおいて、第1区間において特定された人物と、第2区間において特定された音声の話者である人物とが互いに関係がないと判定された場合、抽出区間決定部34は、抽出する区間を、第1区間に決定する(ステップS17)。そして処理部10は、ステップS18に処理を進める。
このように、抽出区間決定部34は、人物の画像が含まれるフレーム画像が続く第1区間と、その人物と関係がある人物の音声が含まれる音が連続する第2区間とに基づいて、動画から抽出する第3区間を、上述の第1区間及び第2区間のそれぞれ全ての区間を合わせた区間に決定する。そして、抽出部35は、抽出区間決定部34により決定された区間を抽出する。
例えば、情報処理装置100は、ユーザに指定された人物が検出された記録されている第1区間を抽出する際に、第1区間に記録されている人物と関係がある人物(第1区間において検出された人物と関係がある人物)の音声が途切れないように抽出する。すなわち、情報処理装置100は、第1区間と、時間軸上において第1区間に少なくとも一部が重なる区間であって、第1区間に記録されている人物と関係がある人物(第1区間において検出された人物と関係がある人物)の音声が記録されている区間である第2区間と、を合わせた第3区間を抽出する。
これにより、情報処理装置100は、動画から、人物の画像が含まれるフレーム画像が続く第1区間を抽出する際に、その人物と関係がある人物の音声が含まれる第2区間が途切れないように適切に抽出することができる。
図9は、第1区間、第2区間、及び第3区間の時間軸上の関係の第5例を表した図であり、図4に対して、第1区間で検出された人物Aと第2区間で検出された音声の人物Bとが互い関係がある人物である場合の例を示していることが異なる。また、この図9は、抽出する人物としてユーザに指定された人物Aの画像が含まれるフレーム画像が連続する第1区間がフレームf3〜f8であって、この人物Aと関係がある人物Bの音声が記録されている第2区間がフレームf2〜f10であることを示している。
この図に示す例において、ユーザに指定された人物Aが記録されている第1区間を抽出する場合、情報処理装置100は、抽出する第3区間を、第1区間及び第2区間のそれぞれ全ての区間を合わせたフレームf2〜f10の区間に決定する(抽出する区間を、第1区間から第3区間に変更する)。
よって、第1区間のフレーム画像に含まれる人物Aと第2区間の音に含まれる音声の話者である人物Bとが互いに関係がある場合、情報処理装置100は、第1区間を抽出する際に、第1区間及び第2区間のそれぞれ全ての区間を合わせた区間(すなわち、この例では第2区間)である第3区間(フレームf2〜f10)を抽出する。そのため、情報処理装置100は、第1区間を抽出する際に、第1区間に記録されている人物Aと関係がある人物Bの音声が途切れないように(すなわち第2区間が途切れないように)最短の所望の区間を抽出することができる。
図10は、第1区間、第2区間、及び第3区間の時間軸上の関係の第6例を表した図である。また、図10は、第1区間が人物A又は人物Aと関係がある人物Bが記録されている区間であって、第2区間が人物Aの音声又は人物Bの音声が記録されている区間である場合の例を示している。
この図において、抽出する人物としてユーザに指定された人物Aの画像が含まれるフレーム画像が連続する区間がフレームf3〜f5であって、人物Aと関係がある人物Bの画像が含まれるフレーム画像が連続する第1区間がフレームf6〜f8である。ここで、情報処理装置100は、人物A又は人物Aと関係がある人物Bが記録されている区間であるフレームf3〜f8を、第1区間として検出する。
また、人物Aの音声が連続する区間がフレームf2〜f6であって、人物Aと関係がある人物Bの画像が含まれるフレーム画像が連続する第1区間がフレームf7〜f10である。ここで、情報処理装置100は、人物Aの音声又は人物Aと関係がある人物Bの音声が記録されている区間であるフレームf2〜f10を、第2区間として検出する。
ユーザに指定された人物A及び人物Aと関係がある人物Bが記録されている第1区間を抽出する場合、情報処理装置100は、抽出する第3区間を、第1区間及び第2区間のそれぞれ全ての区間を合わせたフレームf2〜f10の第3区間に決定する(抽出する区間を第1区間から第3区間に変更する)。
よって、第1区間のフレーム画像に含まれる人物Aと人物Bとが互いに関係がある場合、情報処理装置100は、第1区間を抽出する際に、人物A又は人物Bの画像を含む第1区間、及び人物Aの音声又は人物Bの音声を含む第2区間、のそれぞれ全ての区間を合わせた区間(すなわち、この例では第2区間)である第3区間(フレームf2〜f10)を抽出する。そのため、情報処理装置100は、人物A又は人物Bの画像を含む第1区間を抽出する際に、第1区間に記録されている人物Aの音声又は人物Bの音声が途切れないように(すなわち第2区間が途切れないように)最短の所望の区間を抽出することができる。
(抽出した複数の区間を連結又は再生する処理)
次に、抽出した複数の第3区間を連結する処理について説明する。情報処理装置100の連結部36は、抽出部35により抽出された複数の第3区間の画像及び音を、それぞれ時系列の順に従って連結する。
次に、抽出した複数の第3区間を連結する処理について説明する。情報処理装置100の連結部36は、抽出部35により抽出された複数の第3区間の画像及び音を、それぞれ時系列の順に従って連結する。
図11は、情報処理装置100における連結処理の第1例を説明する図である。この図は、第1の第3区間(図11(a)の第3区間(1))と第2の第3区間(図11(b)の第3区間(2))との2つの第3区間を連結する処理を示している。
図11(a)に示す第1の第3区間は、人物Aが記録されている第1の第1区間(第1区間(1):フレームf3〜f8)と、人物Aの音声が記録されている第1の第2区間(第2区間(1):フレームf2〜f10)とのそれぞれ全ての区間を合わせた区間(第3区間(1):フレームf2〜f10)である。
また、図11(b)に示す第2の第3区間は、人物B(人物Aと関係がある人物B)が記録されている第2の第1区間(第1区間(2):フレームf23〜f28)と、人物Bの音声が記録されている第2の第2区間(第2区間(2):フレームf22〜f30)とのそれぞれ全ての区間を合わせた区間(第3区間(2):フレームf22〜f30)である。
情報処理装置100の連結部36は、時系列の順に従って、第1の第3区間の最後のフレームf10の画像及び音と、第2の第3区間の最初のフレームf22の画像及び音とを連結する。
よって、連結部36は、抽出部35が抽出した複数の第3区間を時系列の順に従って連結することができる。
次に、図12を参照して、抽出した複数の第3区間を連結する処理の別の例について説明する。図12は、情報処理装置100における連結処理の第2例を説明する図である。
この図に示す処理は、図11に示す処理と同様に第1の第3区間と第2の第3区間との2つの第3区間を連結する処理を示しているが、連結する際に第1の第3区間及び第2の第3区間のそれぞれ一部の区間を重ねて連結する点が図11に示す処理と異なる。
図12(a)に示す第1の第3区間は、人物Aが記録されている第1の第1区間(第1区間(1):フレームf3〜f8)と、人物Aの音声が記録されている第1の第2区間(第2区間(1):フレームf2〜f10)とのそれぞれ全ての区間を合わせた区間(第3区間(1):フレームf2〜f10)である。ここで、第1の第3区間における最後のフレームf9〜f10の区間(符号101参照)においては、第1の第2区間(第2区間(1))が含まれ、且つ第1の第1区間(第1区間(1))が含まれていない。
一方、図12(b)に示す第2の第3区間は、人物B(人物Aと関係がある人物B)が記録されている第2の第1区間(第1区間(2):フレームf23〜f28)と、人物Bの音声が記録されている第2の第2区間(第2区間(2):フレームf25〜f30)とのそれぞれ全ての区間を合わせた区間(第3区間(2):フレームf23〜f30)である。ここで、第2の第3区間における最初のフレームf23〜f24の区間(符号102参照)においては、第2の第1区間(第1区間(2))が含まれ、且つ第2の第2区間(第2区間(2))が含まれていない。
このような場合、情報処理装置100の連結部36は、第1の第3区間における最後のフレームf9〜f10の区間と、第2の第3区間における最初のフレームf23〜f24の区間と、を重ねて連結する。具体的には、図12(c)に示すように、第1の第3区間における最後のフレームf9〜f10の区間の音と、第2の第3区間における最初のフレームf23〜f24の区間のフレーム画像と、を重ねて連結する。すなわち、第1の第3区間における最後のフレームf9〜f10と、第2の第3区間における最初のフレームf23〜f24と、が重ねて連結された区間(符号103参照)は、フレーム画像が第2の第3区間のフレームf23〜f24の画像であって、音が第1の第3区間のフレームf9〜f10の区間の音である。
このように、連結部36は、複数の第3区間のうちの第1の第3区間、及び時系列の順に従った第1の第3区間の次の第2の第3区間を連結する場合、第1の第3区間内における最後の所定の区間と、第2の第3区間内における最初の所定の区間とを重ねて連結する。
例えば、図12に示すように、第1の第3区間には、第1の第1区間及び第1の第2区間が含まれており、この第1の第3区間における最後の所定の区間において、第1の第2区間が含まれ、且つ第1の第1区間が含まれていないとする。また、第2の第3区間には、第2の第1区間及び第2の第2区間を含まれており、この第2の第3区間における最初の所定の区間において、第2の第1区間が含まれ、且つ第2の第2区間が含まれていないとする。このような場合、連結部36は、第1の第3区間における最後の所定の区間内の第1の第2区間と、第2の第3区間における最初の所定の区間内の第2の第1区間とのそれぞれ少なくとも一部を重ねて連結する。
なお、以下のようにしてもよい。
例えば、第1の第3区間には、第1の第1区間及び第1の第2区間が含まれており、この第1の第3区間における最後の所定の区間において、第1の第1区間が含まれ、且つ第1の第2区間が含まれていないとする。また、第2の第3区間には、第2の第1区間及び第2の第2区間を含まれており、この第2の第3区間における最初の所定の区間において、第2の第2区間が含まれ、且つ第2の第1区間が含まれていないとする。このような場合、連結部36は、第1の第3区間における最後の所定の区間内の第1の第1区間と、第2の第3区間における最初の所定の区間内の第2の第2区間とのそれぞれ少なくとも一部を重ねて連結する。
例えば、第1の第3区間には、第1の第1区間及び第1の第2区間が含まれており、この第1の第3区間における最後の所定の区間において、第1の第1区間が含まれ、且つ第1の第2区間が含まれていないとする。また、第2の第3区間には、第2の第1区間及び第2の第2区間を含まれており、この第2の第3区間における最初の所定の区間において、第2の第2区間が含まれ、且つ第2の第1区間が含まれていないとする。このような場合、連結部36は、第1の第3区間における最後の所定の区間内の第1の第1区間と、第2の第3区間における最初の所定の区間内の第2の第2区間とのそれぞれ少なくとも一部を重ねて連結する。
これにより、連結部36は、抽出部35が抽出した複数の第3区間を時系列の順に従って連結する際に、複数の第3区間における最初の所定の区間又は最後の所定の区間に不要な画像又は音が含まれている場合には、有用な画像又は有用な音声を用いて、第1区間と第2区間とを重ねて(オーバーラップさせて)連結することができる。よって、情報処理装置100は、有用な画像又は音声が途切れることなく、且つ不要な画像又は音を極力抽出しないように動画を抽出することができる。
なお、図12では、第1の第3区間における最後のフレームf9〜f10の区間(符号101参照)と、第2の第3区間における最初のフレームf23〜f24の区間(符号102参照)と、のそれぞれの区間の長さが同じ場合を例としているが、これらの区間の長さは互いに異なっていてもよい。すなわち、これらの区間の長さが互いに異なっていたとしても、連結部36は、第1の第3区間における最後の所定の区間内の第1の第1区間と、第2の第3区間における最初の所定の区間内の第2の第2区間とのそれぞれ少なくとも一部を重ねて連結してもよい。
また、連結部36は、連結後の第3区間のフレーム画像と音とを、1つの動画ファイル(ダイジェスト動画ファイル)として生成する。また、再生部37は、複数の第3区間を時系列の順に従って連結した動画ファイルを生成し、その生成した動画ファイルを再生(ダイジェスト動画再生)する。
これにより、情報処理装置100は、動画から抽出した複数の第3区間のフレーム画像と音とを、時系列の順に従って連結した1つの動画ファイル(ダイジェスト動画ファイル)として生成することができる。また、情報処理装置100は、動画から抽出した複数の第3区間のフレーム画像と音とを、時系列の順に従って再生(ダイジェスト動画再生)することができる。よって、情報処理装置100は、動画から所望の区間の動画を適切に抽出して再生することができる。
なお、再生部37は、複数の第3区間を時系列の順に従って連結した動画ファイルを生成しないで、単に、複数の第3区間の画像及び音を時系列の順に従って続けて再生してもよい。
また、再生部37は、複数の第3区間のうちの第1の第3区間、及び時系列の順に従った第1の第3区間の次の第2の第3区間を再生する場合、第1の第3区間内における最後の所定の区間と、第2の第3区間内における最初の所定の区間とを重ねて再生してもよい。
例えば、図12に示すように、第1の第3区間には、第1の第1区間及び第1の第2区間が含まれており、この第1の第3区間における最後の所定の区間において、第1の第2区間が含まれ、且つ第1の第1区間が含まれていないとする。また、第2の第3区間には、第2の第1区間及び第2の第2区間を含まれており、この第2の第3区間における最初の所定の区間において、第2の第1区間が含まれ、且つ第2の第2区間が含まれていないとする。このような場合、再生部37は、第1の第3区間における最後の所定の区間内の第1の第2区間と、第2の第3区間における最初の所定の区間内の第2の第1区間とのそれぞれ少なくとも一部を重ねて再生してもよい。
また、以下のようにしてもよい。
例えば、第1の第3区間には、第1の第1区間及び第1の第2区間が含まれており、この第1の第3区間における最後の所定の区間において、第1の第1区間が含まれ、且つ第1の第2区間が含まれていないとする。また、第2の第3区間には、第2の第1区間及び第2の第2区間を含まれており、この第2の第3区間における最初の所定の区間において、第2の第2区間が含まれ、且つ第2の第1区間が含まれていないとする。このような場合、再生部37は、第1の第3区間における最後の所定の区間内の第1の第1区間と、第2の第3区間における最初の所定の区間内の第2の第2区間とのそれぞれ少なくとも一部を重ねて再生してもよい。
例えば、第1の第3区間には、第1の第1区間及び第1の第2区間が含まれており、この第1の第3区間における最後の所定の区間において、第1の第1区間が含まれ、且つ第1の第2区間が含まれていないとする。また、第2の第3区間には、第2の第1区間及び第2の第2区間を含まれており、この第2の第3区間における最初の所定の区間において、第2の第2区間が含まれ、且つ第2の第1区間が含まれていないとする。このような場合、再生部37は、第1の第3区間における最後の所定の区間内の第1の第1区間と、第2の第3区間における最初の所定の区間内の第2の第2区間とのそれぞれ少なくとも一部を重ねて再生してもよい。
以上、説明してきたように、第1実施形態の情報処理装置100は、動画から所望の区間の動画を適切に抽出することができる。
<第2実施形態>
次に、第2実施形態について説明する。第2実施形態は、本発明の情報処理装置を含む撮像装置の態様である。
(撮像装置の構成)
図13は、本発明の第2実施形態による撮像装置500の構成の一例を示す概略ブロック図である。この図13を参照して、本実施形態の撮像装置500の構成について説明する。なお、撮像装置500は、図2を用いて説明した情報処理装置100が備える各構成を含んでおり、その対応する構成には同一の符号をつけておりその説明を省略する。
次に、第2実施形態について説明する。第2実施形態は、本発明の情報処理装置を含む撮像装置の態様である。
(撮像装置の構成)
図13は、本発明の第2実施形態による撮像装置500の構成の一例を示す概略ブロック図である。この図13を参照して、本実施形態の撮像装置500の構成について説明する。なお、撮像装置500は、図2を用いて説明した情報処理装置100が備える各構成を含んでおり、その対応する構成には同一の符号をつけておりその説明を省略する。
図13に示す撮像装置500は、検出部2、情報処理部3、メモリ部4、バッファメモリ部5、撮像部6、制御部7、操作部8、記憶媒体制御部9、表示制御部38、音出力制御部39、表示部11、音出力部12、及びバス15を備えている。
ここで、図13に示す検出部2、情報処理部3、メモリ部4、バッファメモリ部5、操作部8、表示制御部38、及び音出力制御部39を含む構成が、図2の情報処理装置100と対応した構成である。なお、情報処理部3は、図2の人物特定部31、話者特定部32、判定部33、抽出区間決定部34、抽出部35、連結部36、及び再生部37を含んで構成されている。また、表示部11は図2の表示装置200と対応し、音出力部12は図2のスピーカ300と対応する。
記憶媒体制御部9は、取り外しが可能な記憶媒体600(カードメモリ等)と接続され、この記憶媒体600への情報の書込み、読み出し、あるいは消去を行う。記憶媒体600は、撮像装置500に対して着脱可能に接続されるメモリであって、例えば、撮像部6によって撮影された画像、又は情報処理部3によって画像処理が実行された画像などを記憶する。この記憶媒体600は、図2の記憶装置400と対応する。なお、撮像装置500の構成において、記憶媒体600に代えて、通信網を介して接続可能な記憶装置(例えば記憶装置400)としてもよい。
なお、撮像装置500が備える図2の情報処理装置100と対応した各部は、第1実施形態において説明した処理に加えて、撮像装置500において必要な処理を実行する。例えば、情報処理部3は、撮像装置500が撮像した画像に対して、ホワイトバランス調整、シャープネス調整、ガンマ補正、階調調整などの画像処理を実行するとともに、JPEG(Joint Photographic Experts Group)などの画像圧縮処理を実行する。メモリ部4は、例えば、撮影に関するシーン判定条件や撮影条件、各種の撮影モードの設定条件等、撮像装置500を制御するための制御条件を記憶する。バッファメモリ部5は、撮像部6によって撮像された画像、記憶媒体600から読み出された画像、情報処理部3による画像処理の過程で生成された画像等を、一時的に記憶する。操作部8は、例えば、電源スイッチ、シャッターボタン、動作モードを選択するモードダイヤル、などを備えており、ユーザによって操作された操作入力を検出し、検出した操作内容を示す操作信号を制御部7又は情報処理部3に出力する。
撮像部6は、レンズ部61、撮像素子62、及びA/D変換部63を備えており、動画(動画像)または静止画(静止画像)等を撮像する。この撮像部6は、設定された撮像条件(例えば絞り値、露出等)に基づいて制御部7により制御され、レンズ部61を介して入力された光束を、撮像素子62の撮像面上に結像させる。撮像素子62は、撮像面に結像された光束を光電変換したアナログ信号を、A/D変換部63に出力する。A/D変換部63は、撮像素子62から入力されたアナログ信号をデジタル信号に変換し、この変換したデジタル信号を出力する。なお、上述したレンズ部61は、撮像装置500と一体化されている構成としてもよいし、撮像装置500に着脱可能に取り付けられている構成としてもよい。
例えば、撮像部6は、操作部8のシャッターボタンが操作されることに応じて、静止画の撮像処理、又は動画の撮像処理を実行し、撮像した画像を出力する。そして、撮像部6によって撮像された静止画又は動画は、制御部7の制御により、バッファメモリ部5や情報処理部3を介して記憶媒体600に記録される。
制御部7は、撮像装置500が備えている各部を制御する。例えば、制御部7は、操作部8から受け取る操作信号、又はメモリ部4に記憶されている制御条件等に基づいて、撮像装置500が備えている各部を制御する。
バス15は、検出部2、情報処理部3、メモリ部4、バッファメモリ部5、撮像部6、制御部7、操作部8、記憶媒体制御部9、表示制御部38、及び音出力制御部39と接続され、各部から出力された画像信号、音信号、制御信号、等を転送する。
以上、図13を用いて説明した撮像装置500の構成においては、第1実施形態の情報処理装置100に対応する構成を有しており、第1実施形態において説明した動画の抽出処理と同様の処理が可能である。
例えば、撮像装置500は撮像して記憶媒体600に記憶させた動画(フレーム画像及び音から)から特定の動画の区間を抽出する際の抽出区間を、前述した第1区間と第2区間とに基づいて、第3区間に決定することができる。また、撮像装置500は、複数の第3区間のフレーム画像及び音を、時系列の順に従って連結して1つの動画ファイル(ダイジェスト動画ファイル)として生成することができる。また、撮像装置500は、複数の第3区間のフレーム画像及び音を時系列の順に従って再生(ダイジェスト動画再生)することができる。
これにより、第2実施形態の撮像装置500は、動画から所望の区間の動画を適切に抽出することができる。
なお、上記第1実施形態(又は第2実施形態)では、情報処理装置100(又は撮像装置500)が、人物が検出されたフレーム画像が時系列に続く区間を第1区間として検出する例、及び、人物の音声が検出された音が時系列に続く区間を第2区間として検出する例を説明したが、これに限られるものではく、情報処理装置100(又は撮像装置500)は、人物及び人物の音声以外の画像の特徴及び音の特徴に基づいて第1区間及び第2区間を検出してもよい。例えば、情報処理装置100(又は撮像装置500)は、画像の特徴(第1の特徴)及び音の特徴(第2の特徴)として、動物及び動物の鳴き声、楽団及び楽団の演奏音等、に基づいて、第1区間及び第2区間を検出してもよい。
また、上記実施形態の第1区間又は第2区間は、人物が続く区間又は音声が続く区間と完全に一致していなくてもよい。例えば、第1区間又は第2区間は、人物が続く区間又は音声が続く区間と数フレーム分の違いがあってもよく、その場合であっても同様の効果を奏する。また、上記実施形態の第3区間も同様に、第1区間と第2区間とを合わせた区間と完全に一致していなくてもよい。
また、上記実施形態では、抽出区間決定部34が、第1区間、及び時間軸上において第1区間に少なくとも一部が重なる第2区間のそれぞれ全ての区間を合わせた区間を第3区間として抽出する例を説明したが、これに限られものではない。例えば、抽出区間決定部34は、第1区間、及び時間軸上において第1区間に少なくとも一部が重ならない第2区間のそれぞれを第3区間として抽出してもよい。具体的には、抽出区間決定部34は、例えば、第1区間と第2区間とが互いに時間軸上において少なくとも一部が重なるか否かにかかわらず、人物が検出されたフレーム画像が時系列に続く第1区間と、人物の音声が検出された音が時系列に続く第2区間とのそれぞれを第3区間として抽出してもよい。
また、再生部37は、動画を再生する場合、画像又は音声にフェードイン又はフェードアウト処理を実行してもよい。例えば、再生部37は、第3区間の動画を再生する場合、画像又は音声をフェードインさせて再生を開始し、画像又は音声をフェードアウトさせて再生を終了してもよい。また、再生部37は、複数の第3区間の動画を時系列の順に従って続けて再生する場合、複数の第3区間それぞれの画像又は音声をフェードインさせて再生を開始し、フェードアウトさせて再生を終了してもよい。また、再生部37は、複数の第3区間のうちの第1の第3区間における最後の所定の区間と、時系列の順に従った第1の第3区間の次の第2の第3区間における最初の所定の区間とを重ねて再生する場合、その重ねて再生する画像又は音にフェードイン又はフェードアウト処理を実行してもよい。
また、上記実施形態では、情報処理装置100(第1実施形態)と、撮像装置500(第2実施形態)との例をそれぞれ説明したが、これに限られるものではなく、その他の電子機器に本発明の情報処理装置を適用することができる。この電子機器とは、例えば、表示装置、パーソナルコンピュータ、タブレット型端末、ゲーム機等、様々な電子機器であってもよい。
なお、上述の処理部10は専用のハードウェアにより実現されるものであってもよく、また、メモリ及びCPU(中央演算装置)により構成され、上述の処理部10の機能を実現するためのプログラムをメモリにロードして実行することによりその機能を実現させるものであってもよい。
また、上述の処理部10の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述の処理部10の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
以上、この発明の実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
2 検出部、4 メモリ部、21 人物検出部、22 音声検出部、23 画像区間検出部、24 音区間検出部、31 人物特定、32 話者特定部、33 判定部、 34抽出区間決定部、35 抽出部、36 連結部、37 再生部、38 表示制御部、39 音出力制御部、100 情報処理装置、500 撮像処理装置
Claims (14)
- 時系列に続く複数の画像のうち、第1の特徴が検出された画像が時系列に続く第1区間を検出する画像区間検出部と、
前記複数の画像に時系列に対応付けられた音のうち、第2の特徴が検出された音が時系列に続く第2区間を検出する音区間検出部と、
前記第1区間と前記第2区間とに基づいて、前記複数の画像および前記音から抽出する第3区間を決定する抽出区間決定部と、
を備えることを特徴とする情報処理装置。 - 前記抽出区間決定部は、
前記第1区間の画像および前記第2区間の音の何れも途切れないような区間を、前記第3区間として決定する。
ことを特徴とする請求項1に記載の情報処理装置。 - 前記抽出区間決定部は、
前記第1区間、および時間軸上において前記第1区間に少なくとも一部が重なる前記第2区間のそれぞれ全ての区間を合わせた区間を、前記第3区間として決定する
ことを特徴とする請求項1または2に記載の情報処理装置。 - 前記複数の画像から、前記第1の特徴として人物の画像を検出する人物検出部と、
前記音から、前記第2の特徴として人物の音声を検出する音声検出部と、
を備えることを特徴とする請求項1から3に記載の情報処理装置。 - 前記人物検出部により検出された人物の画像から人物の特徴を示す情報を抽出するとともに、抽出した前記人物の特徴を示す情報に基づいて、前記検出された人物の画像が示す人物が何れの人物であるかを特定する人物特定部、
を備え、
前記画像区間検出部は、
前記人物特定部が特定した結果に基づいて、同一の人物が検出された画像が時系列に続く区間を、前記第1区間として検出する
ことを特徴とする請求項4に記載の情報処理装置。 - 前記音声検出部により検出された音声から音声の特徴を示す情報を抽出するとともに、抽出した前記音声の特徴を示す情報に基づいて、前記検出された音声の話者である人物が何れの人物であるかを特定する話者特定部、
を備え、
前記音区間検出部は、
前記話者特定部が特定した結果に基づいて、同一の人物の音声が検出された音が時系列に続く区間を、前記第2区間として検出する
ことを特徴とする請求項4または5に記載の情報処理装置。 - 前記第1区間において検出された人物と、前記第2区間において検出された音声の話者である人物とが一致するか否かを判定する判定部、
を備え、
前記抽出区間決定部は、
前記判定部により、前記一致すると判定された場合、
前記第1区間と前記第2区間とに基づいて、前記複数の画像および前記音から抽出する前記第3区間を決定する
ことを特徴とする請求項4から6の何れか一項に記載の情報処理装置。 - 複数の人物それぞれが互いに関係があるか否かを示す情報である人物関係情報が記憶部に記憶されており、
前記判定部は、
前記人物関係情報に基づいて、前記第1区間において検出された人物と、前記第2区間において検出された音声の話者である人物とが前記互いに関係があるか否かを判定し、
前記抽出区間決定部は、
前記判定部により、前記互いに関係があると判定された場合、
前記第1区間と前記第2区間とに基づいて、前記複数の画像および前記音から抽出する前記第3区間を決定する
ことを特徴とする請求項7に記載の情報処理装置。 - 前記画像区間検出部は、
前記人物関係情報に基づいて、前記互いに関係がある人物が検出された画像が時系列に続く区間を、前記第1区間として検出する
ことを特徴とする請求項8に記載の情報処理装置。 - 前記音区間検出部は、
前記人物関係情報に基づいて、前記互いに関係がある人物の音声が検出された音が時系列に続く区間を、前記第2区間として検出する
ことを特徴とする請求項8または9に記載の情報処理装置。 - 前記第3区間の画像および音を抽出する抽出部と、
前記抽出部により抽出された前記第3区間の画像および音を再生する再生部と、
を備え、
前記再生部は、
複数の前記第3区間の画像および音を、それぞれ時系列の順に従って続けて再生する
ことを特徴とする請求項1から10の何れか一項に記載の情報処理装置。 - 前記再生部は、
複数の前記第3区間のうちの第1の第3区間、および時系列の順に従った前記第1の第3区間の次の第2の第3区間を続けて再生する場合、前記第1の第3区間内における最後の所定の区間と、前記第2の第3区間内における最初の所定の区間とを重ねて再生する
ことを特徴とする請求項11に記載の情報処理装置。 - 請求項1から12の何れか一項に記載の情報処理装置、
を備えることを特徴とする撮像装置。 - コンピュータに、
時系列に続く複数の画像のうち、第1の特徴が検出された画像が時系列に続く第1区間を検出する画像区間検出ステップと、
前記複数の画像に時系列に対応付けられた音のうち、第2の特徴が検出された音が時系列に続く第2区間を検出する音区間検出ステップと、
前記第1区間と前記第2区間とに基づいて、前記複数の画像および前記音から抽出する第3区間を決定する抽出区間決定ステップと、
を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012045673A JP2013183280A (ja) | 2012-03-01 | 2012-03-01 | 情報処理装置、撮像装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012045673A JP2013183280A (ja) | 2012-03-01 | 2012-03-01 | 情報処理装置、撮像装置、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013183280A true JP2013183280A (ja) | 2013-09-12 |
Family
ID=49273654
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012045673A Pending JP2013183280A (ja) | 2012-03-01 | 2012-03-01 | 情報処理装置、撮像装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013183280A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020129763A (ja) * | 2019-02-08 | 2020-08-27 | キヤノン株式会社 | 動画再生装置、動画再生方法及びプログラム |
JPWO2022091230A1 (ja) * | 2020-10-27 | 2022-05-05 | ||
JP2022075661A (ja) * | 2020-10-27 | 2022-05-18 | 株式会社I’mbesideyou | 情報抽出装置 |
-
2012
- 2012-03-01 JP JP2012045673A patent/JP2013183280A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020129763A (ja) * | 2019-02-08 | 2020-08-27 | キヤノン株式会社 | 動画再生装置、動画再生方法及びプログラム |
JP7218198B2 (ja) | 2019-02-08 | 2023-02-06 | キヤノン株式会社 | 動画再生装置、動画再生方法及びプログラム |
JPWO2022091230A1 (ja) * | 2020-10-27 | 2022-05-05 | ||
WO2022091230A1 (ja) * | 2020-10-27 | 2022-05-05 | 株式会社I’mbesideyou | 情報抽出装置 |
JP2022075661A (ja) * | 2020-10-27 | 2022-05-18 | 株式会社I’mbesideyou | 情報抽出装置 |
JP7130290B2 (ja) | 2020-10-27 | 2022-09-05 | 株式会社I’mbesideyou | 情報抽出装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6882057B2 (ja) | 信号処理装置、信号処理方法、およびプログラム | |
WO2013024704A1 (ja) | 画像処理装置および方法、並びにプログラム | |
EP1347455A2 (en) | Contents recording/playback apparatus and contents edit method | |
JP2008141484A (ja) | 画像再生システム及び映像信号供給装置 | |
JP2008199671A (ja) | 撮影装置及びプログラム | |
JP2012100216A (ja) | カメラおよび動画撮影プログラム | |
JP2021061527A (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
JP2013183280A (ja) | 情報処理装置、撮像装置、及びプログラム | |
JP2011254400A (ja) | 画像音声記録装置 | |
JP2009239348A (ja) | 撮影装置 | |
JP2011041154A (ja) | 画像処理装置、画像処理方法 | |
JP2010093603A (ja) | カメラ、再生装置、および再生方法 | |
JP5310682B2 (ja) | カラオケ装置 | |
JP2010200079A (ja) | 撮影制御装置 | |
JP6229356B2 (ja) | 撮像装置、撮像方法及びプログラム | |
JP5750668B2 (ja) | カメラ、再生装置、および再生方法 | |
JP6635093B2 (ja) | 画像記録装置、画像記録方法及びプログラム | |
JP2005184617A (ja) | 動画再生装置、撮像装置及びそのプログラム | |
JP5712599B2 (ja) | 撮像装置及びプログラム | |
US20240007742A1 (en) | Image capturing apparatus, control method thereof, and storage medium | |
WO2021029294A1 (ja) | データ作成方法及びデータ作成プログラム | |
JP2012253692A (ja) | 撮像装置、再生装置、データ構造、撮像装置の制御方法および撮像装置用プログラム | |
JP6689705B2 (ja) | カラオケ歌唱サポート装置、カラオケ歌唱サポートプログラム | |
TW201739262A (zh) | 影音自動處理系統及方法 | |
JP2005218126A (ja) | 撮影装置及び撮影方法 |