JP4289326B2

JP4289326B2 - 情報処理装置および方法、撮影装置、並びにプログラム

Info

Publication number: JP4289326B2
Application number: JP2005169506A
Authority: JP
Inventors: 誠村田; 雅友倉田; 祥弘山口; クラークソンブライアン
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-06-09
Filing date: 2005-06-09
Publication date: 2009-07-01
Anticipated expiration: 2025-06-09
Also published as: JP2006345270A; US7917020B2; US20060291840A1

Description

本発明は、情報処理装置および方法、撮影装置、並びにプログラムに関し、特に、撮影した動画の各シーンを、それを撮影したときの撮影者や被写体などの行動と関連付けて扱うことができるようにする情報処理装置および方法、撮影装置、並びにプログラムに関する。

近年、製品の低価格化が進んでいることによりビデオカメラがますます普及する傾向にある。また、筐体の小型化もあって、動画の撮影が一般に、かつ気軽に行われるようになってきている。動画の撮影は、また、例えば、携帯電話機やディジタルスチルカメラに搭載された動画撮影機能によっても気軽に行われている。

このように、動画の撮影自体は容易に行われるようになってきているものの、撮影後の動画の取り扱いが困難であるという問題があり、それを解決すべく、撮影した動画に各種の属性情報を付加しておく技術が各種提案されている。

例えば、特許文献１には、被写体の人物の名前を、撮影した画像のメタデータとして記録しておく技術が開示されている。

また、業務用のビデオカメラの中には、番組編集時の作業を容易に行うことができるように、撮影時の天候、位置、音量や、クリップ（撮影開始から撮影終了までの１回の撮影期間の動画）の代表画などの属性情報をそれぞれのシーンに付加しておくようにしたものがある。
特開２００４−６２８６８号公報

しかしながら、撮影後の取り扱いのためにメタデータが付加されているとしても、一般のユーザが、様々なメタデータを用いて、あるシーンを探したりすることは困難であり、一般的には、未だ、動画の撮影後の取り扱いは煩雑であるといえる。

例えば、DV(Digital Video)方式の従来のビデオカメラで撮影された動画全体から所定のシーンを探し出す場合、ユーザは、テープを早送りさせたり、所定の間隔で再生位置を順にスキップさせたりする必要がある。

ユーザが見たいシーンは、大体、DVテープに記録されている全シーンのうちの特定のシーンに限られるところ、そのような特定のシーンのみを抽出し、再生するといったことができないことから、ユーザは、時系列的に再生される不要なシーンも見なければならず、退屈することが多い。子供の運動会の様子を撮影したような動画がある場合、それを見る例えば子供や親は、子供が走っているシーンといった特定のシーンだけを見たいものである。

ビデオカメラにより撮影された画像を取り込んだ装置などが、撮影された画像の内容を１フレームずつ解析し、似ているシーン同士をまとめ、まとめられたシーン単位で、再生するシーンをユーザに選択させるようにすることも考えられるが、精度よく、そのような似ているシーン毎にまとめるといった処理を行うことは困難である。

本発明はこのような状況に鑑みてなされたものであり、撮影した動画の各シーンを、それを撮影したときの撮影者や被写体などの行動と関連付けて扱うことができるようにし、例えば、ユーザが、ある行動を指定して、再生するシーンを選択したりすることができるようにするものである。

本発明の第１の側面の情報処理装置および方法、並びにプログラムは、画像列の撮影タイミングと同じタイミングで取得されたセンサデータに基づいて、センサデータを出力したセンサが内蔵された機器を有する人の行動を認識し、認識した行動の内容を、画像列の再生時に再生位置の選択に用いられる情報として画像列に関連付ける関連付け手段／ステップを備え、関連付け手段／ステップは、センサデータから特徴を抽出し、抽出した特徴の時系列に基づいて、センサが内蔵された機器を有する人の行動をあらかじめ用意されている認識用モデルを用いて認識する。

この情報処理装置および方法、並びにプログラムにおいては、画像列の撮影タイミングと同じタイミングで取得されたセンサデータに基づいて、センサデータを出力したセンサが内蔵された機器を有する人の行動が認識され、認識された行動の内容が、画像列の再生時に再生位置の選択に用いられる情報として画像列に関連付けられる。センサが内蔵された機器を有する人の行動を認識することは、センサデータから特徴を抽出し、抽出した特徴の時系列に基づいて、あらかじめ用意されている認識用モデルを用いて行われる。

本発明の第２の側面の撮影装置は、撮影手段と、撮影手段による画像列の撮影タイミングと同じタイミングで取得されたセンサデータに基づいて、センサデータを出力したセンサが内蔵された機器を有する人の行動を認識し、認識した行動を表す情報を、画像列の再生時に再生位置の選択に用いられる情報として画像列に関連付ける関連付け手段とを備え、関連付け手段は、センサデータから特徴を抽出し、抽出した特徴の時系列に基づいて、センサが内蔵された機器を有する人の行動をあらかじめ用意されている認識用モデルを用いて認識する。

この撮影装置においては、撮影が行われ、その撮影タイミングと同じタイミングで取得されたセンサデータに基づいて、センサデータを出力したセンサが内蔵された機器を有する人の行動が認識され、認識された行動を表す情報が、画像列の再生時に再生位置の選択に用いられる情報として画像列に関連付けられる。センサが内蔵された機器を有する人の行動を認識することは、センサデータから特徴を抽出し、抽出した特徴の時系列に基づいて、あらかじめ用意されている認識用モデルを用いて行われる。

本発明によれば、撮影した動画の各シーンを、それを撮影したときの撮影者や被写体などの行動と関連付けて扱うことができる。

以下、本発明の実施の形態について図を参照して説明する。

図１は、本発明の一実施形態に係るカムコーダ１の外観の例を示す図である。

カムコーダ１は、音声の収音とともに撮影を行い、取得した音声データと画像データをHDD(Hard Disk Drive)などの所定の記録媒体に記録する機能の他、その撮影等（収音、撮影）と同じタイミングで内蔵のセンサにより取得されたセンサデータに基づいて、カムコーダ１を持っている撮影者であるユーザの行動を認識し、認識したユーザの行動を、撮影した画像に関連付けて記録する機能を有する。

例えば、カムコーダ１には図１の点線で示すように加速度センサ１１とジャイロセンサ１２が内蔵されており、加速度センサ１１により測定される加速度センサデータとジャイロセンサ１２により測定されるジャイロセンサデータに基づいてユーザの行動が認識される。認識された行動（行動を表す情報）は、例えば、撮影により得られた画像の再生時に、再生位置を選択するために用いられる。

図２は、撮影された画像と、認識結果である行動の関連付けの例を示す図である。

カムコーダ１においては、加速度センサ１１とジャイロセンサ１２により取得された所定のサンプル数のセンサデータに基づいてユーザの行動の１つの認識結果が所定の時間単位で得られるようになされている。図２の例では、時刻ｔ₁からｔ₂までの１認識区間の間に加速度センサ１１とジャイロセンサ１２により取得されたセンサデータに基づいて、この区間のユーザの行動として「静止」が認識されている。

上述したように時刻ｔ₁からｔ₂までの間には撮影等も行われており、図２の例においては、時刻ｔ₁からｔ₂までの区間の認識結果である「静止」は、時刻ｔ₁からｔ₂までの間に撮影されたフレームｆ₁乃至ｆ₅に関連付けられている。

同様に、時刻ｔ₂からｔ₃までの間に撮影されたフレームｆ₆乃至ｆ₁₀に対しては、時刻ｔ₂からｔ₃までの１認識区間に認識された、ユーザの行動の認識結果である「走り」が関連付けられており、時刻ｔ₃からｔ₄までの間に撮影されたフレームｆ₁₁乃至ｆ₁₅に対しては、時刻ｔ₃からｔ₄までの１認識区間に認識された、ユーザの行動の認識結果である「静止」が関連付けられている。それぞれの区間の認識結果を表す情報は、撮影された画像、収音された音声のデータとともに例えば内蔵の記録媒体に記録される。

このように、カムコーダ１においては、撮影した画像と行動の認識結果を同期させて記録するような処理が行われる。

撮影した画像の再生時、ユーザは、カムコーダ１が認識可能な複数の行動の中から所定の行動を選択することによって、撮影された画像全体のうち、選択した行動が関連付けられているシーンだけをダイジェスト再生させることができる。例えば、図２に示す画像が撮影された場合、ユーザは、「静止」を選択することによって、「静止」が関連付けられているフレームｆ₁乃至ｆ₅の再生に続けてフレームｆ₁₁乃至ｆ₁₅を再生させることができる（当然、フレームｆ₁乃至ｆ₅，ｆ₁₁乃至ｆ₁₅の撮影時に収音された音声も再生される）。すなわち、ユーザは、自分が選択した行動ではない「走り」が関連付けられているシーンであるフレームｆ₆乃至ｆ₁₀を見る必要がない。

図３は、このように、所定の行動を選択することによって、その行動が関連付けられているシーンだけを視聴することができるプレーヤ画面の例を示す図である。

このプレーヤ画面は、例えば、ユーザが、カムコーダ１をテレビジョン受像機に接続し、カムコーダ１を操作することによってカムコーダ１により表示されるようにしてもよいし、後述するように、画像・音声データと、それに関連付けられている行動の情報をカムコーダ１から取り込んだパーソナルコンピュータにより表示されるようにしてもよい。

プレーヤ画面は、基本的に、再生中のシーンが表示される画像表示部２１、各種の操作ボタンが表示される操作パネル２２、および、それぞれの行動に関連付けられているシーンの分布が行動の種類毎に表示されるブロック表示部２３から構成される。

このうちのブロック表示部２３においては、それぞれの行動に関連付けられているシーンの分布は、横方向を時間軸として、撮影時間に対応する位置にブロックで表される。図３の例においては、いま再生中のシーンを含むブロックはブロックＢ₁であり、その上にカーソルＣが表示されている。すなわち、図３の例は、カムコーダ１が認識可能な行動である「歩き（walk）」、「走り（run）」、「静止（still）」、「左ターン（turn_left）」、「右ターン（turn_right）」の５つの行動の中から、ユーザが「静止」を選択した場合の例を示している。

ブロックＢ₁に含まれる全てのシーンの再生が終了したとき、再生位置は、同じ「静止」の行動が関連付けられているブロックＢ₂の先頭位置にスキップし、ブロックＢ₂に含まれるシーンの再生が開始される。再生位置がブロックＢ₂の先頭位置にスキップしたとき、カーソルＣはブロックＢ₁上からブロックＢ₂上に移動する。

なお、操作パネル２２には、再生の開始を指示するときに操作される再生ボタン３１、再生の停止を指示するときに操作される停止ボタン３２、再生対象とするブロック（再生対象とするシーンを含むブロック）を、いま再生中のブロックと同じ行動が関連付けられている時間的に１つ前のブロックに切り替えるときに操作される戻るボタン３３、再生対象とするブロックを、いま再生中のブロックと同じ行動が関連付けられている時間的に次のブロックに切り替えるときに操作される進むボタン３４、および、スクロールバー３５が表示されている。

ユーザは、戻るボタン３３や進むボタン３４を操作することによって再生するブロックを切り替えることができ、これにより、所定のシーンを探したりすることができる。

このように、撮影時の行動毎にシーンが分けられ、行動毎に、再生対象を選択することができるから、ユーザは、撮影した画像全体のうち、例えば、「美味しいお蕎麦を食べたシーン」が見たいと思ったときには、図３のプレーヤ画面で「静止」を選択し、再生するブロックを切り替えたりすることによって、撮影した画像全体の中からそのような所定のシーンだけを探し出すことができる。

通常、お蕎麦を食べているときに撮影したシーンに対しては、加速度センサ１１やジャイロセンサ１２からの出力に基づいて、撮影者であるユーザの行動として「静止」が認識され、その行動が関連付けられるから、ユーザは、「静止」を選択することによって、行動によってシーンを絞り込むことができ、容易に、「美味しいお蕎麦を食べたあのシーン」を探し出すことが可能となる。

また、ユーザは、例えば、「家族旅行中にみんなで散歩した街のシーン」が見たいと思ったときには、図３のプレーヤ画面で「歩き」を選択し、再生するブロックを切り替えたりすることによって、撮影した画像全体の中からそのような所定のシーンだけを探し出すことができる。

通常、散歩しているときに撮影したシーンに対しては、加速度センサ１１やジャイロセンサ１２からの出力に基づいて、撮影者であるユーザの行動として「歩き」が認識され、その行動が関連付けられるから、ユーザは、「歩き」を選択することによって、行動によってシーンを絞り込むことができ、容易に、「家族旅行中にみんなで散歩した街のシーン」を探し出すことが可能となる。

さらに、ユーザは、例えば、「スキーでターンを決めているシーン」が見たいと思ったときには、図３のプレーヤ画面で「右ターン」、または「左ターン」を選択し、再生するブロックを切り替えたりすることによって、撮影した画像全体の中からそのような所定のシーンだけを探し出すことができる。

通常、スキーでターンをしているときに撮影したシーンに対しては、加速度センサ１１やジャイロセンサ１２からの出力に基づいて、撮影者であるユーザの行動として「右ターン」または「左ターン」が認識され、その行動が関連付けられるから、ユーザは、「右ターン」または「左ターン」を選択することによって、行動によってシーンを絞り込むことができ、容易に、「スキーでターンを決めているシーン」を探し出すことが可能となる。

以上のような画面表示等を行うカムコーダ１の動作についてはフローチャートを参照して後述する。

図４は、カムコーダ１のハードウェア構成例を示すブロック図である。

カメラ部５１は、イメージャ６１とマイクロフォン６２からなる。イメージャ６１はレンズを介して撮像した被写体の画像データをプロセッサ５２に出力する。マイクロフォン６２は収音した音声のデータをプロセッサ５２に出力する。

加速度センサ１１は所定の周期で加速度を測定し、測定結果である加速度センサデータをプロセッサ５２に出力する。加速度センサ１１は、例えば、互いに直交する３軸方向の加速度を測定可能なものとされる。

ジャイロセンサ１２は所定の周期で角速度を測定し、測定結果であるジャイロセンサデータをプロセッサ５２に出力する。ジャイロセンサ１２は、例えば、互いに直交する３軸周りの角速度を測定可能なものとされる。

プロセッサ５２は、カムコーダ１の全体の動作を制御し、例えば、イメージャ６１による撮影やマイクロフォン６２による収音と同じタイミングで、加速度センサ１１による加速度の測定とジャイロセンサ１２による角速度の測定をそれぞれ行わせる。

また、プロセッサ５２は、イメージャ６１から供給されてきた画像データとマイクロフォン６２から供給されてきた音声データをストレージ５３に記録させるとともに、加速度センサ１１とジャイロセンサ１２からの出力に基づいてユーザの行動を認識し、認識結果をストレージ５３に記録させる。なお、加速度センサ１１とジャイロセンサ１２からセンサデータが供給されてきた直後にそのような行動の認識が行われるのではなく、加速度センサ１１とジャイロセンサ１２から供給されてきたセンサデータがストレージ５３に一時的に記録され、所定のタイミングで、記録されているセンサデータを用いた行動の認識が行われるようにしてよい。

さらに、プロセッサ５２は、必要に応じて、ストレージ５３に記録されている各種のデータを読み出し、図３のプレーヤ画面を、カムコーダ１に接続されるテレビジョン受像機（ディスプレイ）などに表示させる。

ストレージ５３は、フラッシュメモリや、HDD、DVD(Digital Versatile Disc)ドライブ、テープドライブなどのドライブよりなり、プロセッサ５２から供給されてきたデータを記録させる。

図５は、カムコーダ１のソフトウェア構成例（機能構成例）を示すブロック図である。図５に示す機能部のうちの少なくとも一部は、図４のプロセッサ５２により所定のプログラムが実行されることによって実現される。

行動認識部７１は、後に詳述するように、加速度センサ１１から供給されてきた加速度センサデータと、ジャイロセンサ１２から供給されてきたジャイロセンサデータから特徴を抽出し、抽出した特徴の時系列に基づいて、それぞれの区間におけるユーザの行動を、あらかじめ用意されているHMM(Hidden Markov Model)を参照して認識する。行動認識部７１は、それぞれの区間の認識結果を表す情報を行動認識ログDB７２に出力し、記録させる。

画像・音声データ処理部７３は、イメージャ６１から供給されてきた画像データを所定の方式で圧縮し、圧縮して得られたデータを画像・音声データDB７４に出力し、記録させる。同様に、画像・音声データ処理部７３は、マイクロフォン６２から供給されてきた音声データを所定の方式で圧縮し、圧縮して得られたデータを画像・音声データDB７４に出力し、記録させる。

閲覧・再生制御部７５は、行動認識ログDB７２に記録されている行動の認識結果と、画像・音声データDB７４に記録されている画像データ、音声データを読み出し、図３のプレーヤ画面の表示や、その画面に対するユーザの操作に応じた画像データ、音声データの再生を制御する。

図６は、図５の行動認識部７１の詳細な構成例を示すブロック図である。

行動認識部７１は、特徴抽出部８１、認識部８２、およびHMM DB８３から構成される。そのうちの特徴抽出部８１は、加速度センサ１１から供給されてきた加速度センサデータと、ジャイロセンサ１２から供給されてきたジャイロセンサデータから特徴を抽出し、抽出した特徴を表す特徴データを認識部８２に出力する。

具体的には、特徴抽出部８１は、図７Ａに示すように、加速度センサデータから歩行の周波数（Impulse pitch）を特徴の１つとして求める。図７Ａのサンプル結果においては、横軸が時刻（加速度センサ１１のサンプル数）、縦軸が周波数（Hz）となっている。人が歩くときに加速度センサにより測定される周波数は一般的に２Hz（１秒間に２歩）であるから、この２Hzの測定結果の時系列などから、認識結果としての「歩き」がHMMが参照されて得られる。

また、特徴抽出部８１は、図７Ｂに示すように、加速度センサデータから歩行の強さ、衝撃の度合い（Impulse magnitude）を特徴の１つとして求める。図７Ｂのサンプル結果においては、横軸が時刻、縦軸が強さとなっている。

さらに、特徴抽出部８１は、図７Ｃに示すように、加速度センサデータから重力軸を求め、ジャイロセンサデータから求められる、重力軸まわりの回転角（Heading）を特徴の１つとして求める。加速度センサが重力軸に対して水平方向の加速度を検出する状態にある場合にはその出力は０となり、一方、重力軸に対して水平方向以外の方向の加速度を検出する状態にある場合には所定の値が測定されるから、上述したように、３軸方向の加速度を測定することができるようになされているときには、それぞれの方向の加速度の測定結果から重力軸を求めることが可能となる。なお、図７Ｃのサンプル結果においては、横軸が時刻、縦軸が回転角となっている。

例えば、以上のような各種の特徴が特徴抽出部８１においてセンサデータ（加速度センサデータ、ジャイロセンサデータ）に基づいて抽出される。抽出された特徴を表す特徴データは、抽出される毎に、認識部８２に順次出力される。

認識部８２は、特徴抽出部８１から供給されてきた特徴データを所定の量だけ蓄積し、蓄積した特徴データの時系列に基づいて、カムコーダ１を持って撮影しているユーザの行動をHMM DB８３に用意されているHMMを参照して認識する。

HMM DB８３には、例えば、人が歩いているときの加速度センサデータとジャイロセンサデータから抽出された特徴に基づいて生成された、「歩き」を認識するために用いられるモデル、人が走っているいるときの加速度センサデータとジャイロセンサデータから抽出された特徴に基づいて生成された、「走り」を認識するために用いられるモデル、人が静止しているときの加速度センサデータとジャイロセンサデータから抽出された特徴に基づいて生成された、「静止」を認識するために用いられるモデル、人が左ターンをしているときの加速度センサデータとジャイロセンサデータから抽出された特徴に基づいて生成された、「左ターン」を認識するために用いられるモデル、人が右ターンをしているときの加速度センサデータとジャイロセンサデータから抽出された特徴に基づいて生成された、「右ターン」を認識するために用いられるモデルなどがあらかじめ用意されている。

認識部８２により認識された「歩き」、「走り」、「静止」、「左ターン」、「右ターン」などのそれぞれの行動を表す情報は、認識結果として外部（図５の行動認識ログDB７２）に出力される。

図８は、行動認識部７１による行動認識を模式的に示す図である。

生データ（raw data）としての加速度センサデータとジャイロセンサデータに対してはキャリブレーションが施され、キャリブレーションが施されることによって得られたデータから、上述したような、歩行ピッチ、歩行の強さ、重力、進行方向が特徴量（low level context）として取得される。また、取得されたそれらの特徴量に基づいて、HMMが参照され、ユーザの行動（high level context）が統計学的に認識される。

なお、行動認識のアルゴリズムは上述したものに限られず、各種のアルゴリズムにより行われるようにしてもよい。

図９は、撮影された画像、センサデータ、特徴量、認識結果の例を時系列的に示す図である。

図９の例においては、「歩き」、「走り」、「歩き」、「走り」、「静止」、「歩き」、「静止」の順に行動の認識結果が取得されている。このようなそれぞれの認識結果が、対応する時間に撮影された画像に関連付けられ、撮影開始から何秒後までの認識区間は「歩き」、次の認識区間は「走り」などというように、それぞれの区間で認識された行動を表す情報が行動認識ログDB７２に記録される。

図１０は、図５の閲覧・再生制御部７５の詳細な構成例を示すブロック図である。

閲覧・再生制御部７５は、プレーヤ画面表示制御部９１と再生制御部９２から構成される。このうちのプレーヤ画面表示制御部９１は、例えば、カムコーダ１がテレビジョン受像機に接続され、プレーヤ画面の表示がユーザから指示されたとき、図３のプレーヤ画面を表示させるとともに、そのブロック表示部２３に、行動認識ログDB７２から読み出した行動認識結果に基づいて、それぞれの行動に関連付けられているシーンの分布を表示させる。

再生制御部９２は、行動認識ログDB７２から行動認識結果を読み出し、例えば、ユーザにより所定の行動が選択されたとき、選択された行動が関連付けられている画像データと音声データを画像・音声データDB７４から読み出し、再生させる。再生された画像はプレーヤ画面の画像表示部２１に表示され、再生された音声は図示せぬスピーカから出力される。

次に、以上のような構成を有するカムコーダ１の動作についてフローチャートを参照して説明する。

はじめに、図１１のフローチャートを参照して、カムコーダ１により行われる一連の処理について説明する。

例えば、ユーザにより撮影を開始することが指示されたとき、ステップＳ１において撮影処理が行われる。撮影処理の詳細については後述するが、この処理により、カメラ部５１による撮影や収音と同期して、加速度と角速度の測定が加速度センサ１１とジャイロセンサ１２によりそれぞれ行われる。

ステップＳ２において、加速度センサ１１により得られた加速度センサデータと、ジャイロセンサ１２により得られたジャイロセンサデータに基づく行動認識処理が行われる。この行動認識処理は、例えば、加速度センサ１１とジャイロセンサ１２によりセンサデータが取得された直後に行われるようにしてもよいし、また、加速度センサ１１とジャイロセンサ１２によりセンサデータがストレージ５３などに一時的に記録されている場合、記録されているセンサデータに基づいて、所定のタイミングで行われるようにしてもよい。

ステップＳ３において再生制御処理が行われる。この再生制御処理においては、ステップＳ２で得られた認識結果などに基づいて図３のプレーヤ画面が表示され、ユーザによる操作に応じてダイジェスト再生などが行われる。

次に、図１２のフローチャートを参照して、図１１のステップＳ１において行われる撮影処理の詳細について説明する。

ステップＳ１１において、プロセッサ５２は、ユーザによる指示に応じてカメラ部５１を制御し、撮影（撮影と収音）を開始させるとともに、加速度センサ１１による加速度の測定とジャイロセンサ１２による角速度の測定を開始させる。

ステップＳ１２において、画像・音声データ処理部７３は、イメージャ６１から供給されてきた画像データを所定の方式で圧縮し、圧縮して得られたデータを画像・音声データDB７４に記録させ、また、マイクロフォン６２から供給されてきた音声データを所定の方式で圧縮し、圧縮して得られたデータを画像・音声データDB７４に記録させる。

加速度センサ１１とジャイロセンサ１２から出力されたセンサデータは、行動認識処理がセンサデータが得られた直後に行われるようになされている場合、行動認識部７１に供給され、一方、所定のタイミングで行われるようになされている場合、ストレージ５３などに供給され、記録される。その後、処理は図１１のステップＳ１に戻り、それ以降の処理が行われる。

次に、図１３のフローチャートを参照して、図１１のステップＳ２において行われる行動認識処理の詳細について説明する。

ステップＳ２１において、行動認識部７１の特徴抽出部８１は、加速度センサ１１の出力である加速度センサデータとジャイロセンサ１２の出力であるジャイロセンサデータに基づいて、上述したような、歩行ピッチ、歩行の強さ、重力、進行方向などの特徴を抽出する。特徴抽出部８１により処理されるセンサデータは、加速度センサ１１やジャイロセンサ１２から直接供給されてきたもの、あるいは、ストレージ５３等に記録されていたものである。

特徴抽出部８１により抽出された特徴を表す特徴データは認識部８２に出力される。

ステップＳ２２において、認識部８２は、特徴抽出部８１から供給されてきた特徴データを所定の量だけ蓄積し、蓄積した特徴データの時系列に基づいて、カムコーダ１を持って撮影しているユーザの行動をHMM DB８３に用意されているHMMを参照して認識する。

ステップＳ２３において、認識部８２は、ステップＳ２２で認識した「歩き」、「走り」、「静止」、「左ターン」、「右ターン」などのそれぞれの行動を表す情報が、それぞれの認識区間を表す情報（例えば、撮影開始時刻を基準として認識区間の開始時刻、終了時刻を表すタイムスタンプ、または、認識区間に対応する時間に撮影された画像のフレーム番号）などに対応付けられた行動認識結果ファイルを作成し、作成した行動認識結果ファイルを行動認識ログDB７２記録させる。その後、処理は図１１のステップＳ２に戻り、それ以降の処理が行われる。

次に、図１４のフローチャートを参照して、図１１のステップＳ３において行われる再生制御処理の詳細について説明する。

ステップＳ３１において、閲覧・再生制御部７５のプレーヤ画面表示制御部９１は、行動認識結果ファイルを行動認識ログDB７２から読み出し、ステップＳ３２に進み、行動認識結果ファイルに記述される、それぞれの行動クラスタ（同じ行動が連続して認識された区間のまとまり）の開始時刻、終了時刻を参照する。例えば、第１の認識区間と、それに続く第２の認識区間において同じ行動が認識されている場合、それらの第１と第２の認識区間が１つの行動クラスタとして扱われ、第１の認識区間の開始時刻と、第２の認識区間の終了時刻が参照される。

ステップＳ３３において、プレーヤ画面表示制御部９１は、図３のプレーヤ画面全体を表示させ、そのうちのブロック表示部２３に、同じ行動が関連付けられたシーンの分布を表すブロックを、ステップＳ３２で参照したそれぞれの行動クラスタの開始時刻、終了時刻に応じて表示させる。

ステップＳ３４において、再生制御部９２は、ユーザにより行動が選択されるのを待つ状態となり、ステップＳ３５に進み、例えば図３の５つの行動の中からいずれかの行動が選択されたか否かを判定する。

再生制御部９２は、ステップＳ３５において、行動が選択されたと判定するまで待機し、行動が選択されたと判定した場合、ステップＳ３６に進む。

ステップＳ３６において、再生制御部９２は、ユーザにより選択された行動が関連付けられているシーンを再生するための画像データと音声データを画像・音声データDB７４から読み出し、その再生を開始する。例えば、ユーザにより選択された行動が関連付けられている全てのシーンの再生が終了したとき、処理は終了される。

以上の処理により、ユーザは、見たいシーンに応じて行動を選択するだけで、撮影した画像全体からシーンを絞り込むことができ、画像全体から探し出す場合に較べて、容易に、その見たいシーンを探し出すことができる。

なお、以上においては、プレーヤ画面表示制御部９１により表示されるプレーヤ画面のブロック表示部２３には、それぞれの行動を表す情報として「walk」、「run」、「still」、「turn_left」、「turn_right」などのテキストが表示されるものとしたが、例えば、それぞれの行動を表す図１５Ａ乃至Ｅに示すようなアイコン（アニメーション）がプレーヤ画面表示制御部９１に用意されている場合、これらのアニメーションが、テキストに替えてブロック表示部２３に表示されるようにしてもよい。

キャラクタがそれぞれの行動をとっているようなアニメーションが表示されるようにすることにより、ユーザは、テキストが表示される場合に較べてより直感的に行動を選択することができる。図１５Ａ乃至Ｅに示すアニメーションがブロック表示部２３に表示されるプレーヤ画面の例を図１６に示す。

また、以上においては、「歩き」、「走り」、「静止」、「左ターン」、「右ターン」の５つの行動の中から１つの行動をユーザが選択することができるものとしたが、選択した１つの行動の中から、さらに、その行動の程度を選択することができるようにしてもよい。

加速度センサデータやジャイロセンサデータに現れるレベルの強弱からは、そのときユーザがとっていた行動の程度、具体的には、どの程度の勢いで走っていたのかなどが分かるから、「走り」の１つの行動を選択した後、さらに、「元気に走っている」、「ふつうに走っている」、「ほとんど歩いている」などのような程度の違う「走り」の中から、再生させたいシーンが関連付けられている行動を選択することができるようにしてもよい。

また、このように、行動の程度を選択することができるようになされている場合において、図１５Ａ乃至Ｅのアイコンがプレーヤ画面表示制御部９１に用意されているとき、その程度の違いがアイコンの大きさで表されるようにしてもよい。

図１７は、程度の違いがアイコンの大きさで表されるプレーヤ画面の例を示す図であり、この例においては、行動の種類として「走り」が選択されている。例えば、図１６に示す画面から「走り」を表すアイコン（図１６のブロック表示部２３に表示されている上から２つ目のアイコン）が選択されたとき、ブロック表示部２３の表示は図１７に示すものに切り替わる。

図１７に示す「走り」を表すアイコンのうち、最も大きく表示されているアイコン２３Ａは「元気に走っている」を表し、中くらいの大きさで表示されているアイコン２３Ｂは「ふつうに走っている」を表す。また、最も小さく表示されているアイコン２３Ｃは「ほとんど歩いている」を表す。このように、行動の程度がアイコンの大きさで表されるようにすることによって、ユーザは、直感的に、見たいシーンに関連付けられている行動の程度を選択することができる。

なお、図１７の画像表示部２１には子供が走っているシーンが表示されており、ブロック表示部２３のアイコンにより表される「走り」の程度は、カムコーダ１を持っているユーザの「走り」の程度ではなく、被写体として写っている子供の「走り」の程度を表すものとされている。

後述するように、行動認識に用いられるセンサデータを出力する加速度センサ１１やジャイロセンサ１２をカムコーダ１に内蔵するのではなく、カムコーダ１との間で無線通信を行うことが可能な例えばバッジ形状の機器に内蔵することもでき、この場合、そのバッジから送信されてくるセンサデータを受信したカムコーダ１において認識される行動は、カムコーダ１を持っているユーザの行動ではなく、バッジを身につけている子供などの行動となる。これにより、ユーザは、例えば、バッジを付けている子供を被写体として撮影した画像の再生時、その子供の行動を選択して、見たいシーンを探したりすることができる。

図１８は、このように、センサデータを出力する加速度センサ１１やジャイロセンサ１２が、カムコーダ１とは異なる筐体の機器であるセンサバッジに内蔵される場合のハードウェア構成例を示すブロック図である。図４に示すものと同じ構成には同じ符号を付してある。

図１８のカムコーダ１０１には、加速度センサ１１、ジャイロセンサ１２は設けられておらず、カメラ部５１、プロセッサ５２、ストレージ５３、および無線LAN(Local Area Network)モジュール１１１が設けられている。なお、無線LANモジュール１１１に替えて、Bluetooth（商標）、Wireless USB(Wireless Universal Serial Bus)、またはUWB(Ultra Wide Band)による通信を行うモジュールが設けられ、それによりセンサバッジ１０２との間での通信が行われるようにしてもよい。

一方、センサバッジ１０２には、加速度センサ１１、ジャイロセンサ１２が設けられており、この他、加速度センサ１１とジャイロセンサ１２による測定を開始させるとともに、測定結果をカムコーダ１０１に送信したりするプロセッサ１２１と、無線LANモジュール１２２が設けられている。センサバッジ１０２は、カムコーダ１０１を用いて撮影される被写体が有している。

認識対象が、撮影者の行動ではなく被写体の行動となるこのような構成の場合も、カムコーダ１０１においては、基本的に、図１１乃至図１４を参照して説明した処理と同様の処理が行われる。

すなわち、ユーザにより撮影の開始が指示されたとき、カムコーダ１０１のプロセッサ５２は、カメラ部５１を制御して撮影を行わせるとともに、加速度センサデータ、ジャイロセンサデータの測定を開始することを指示するコマンドを生成し、生成したコマンドを無線LANモジュール１１１からセンサバッジ１０２に送信させる。

センサバッジ１０２においては、無線LANモジュール１２２によりカムコーダ１０２からのコマンドが受信され、受信されたコマンドがプロセッサ１２１により実行されることによって加速度センサ１１とジャイロセンサ１２による測定が開始される。加速度センサ１１により得られた加速度センサデータと、ジャイロセンサ１２により得られたジャイロセンサデータはプロセッサ１２１に出力され、プロセッサ１２１により、無線LANモジュール１２２からカムコーダ１０２に送信される。

センサバッジ１０２からカムコーダ１０１に対するセンサデータの送信は、例えば、撮影を終了することがカムコーダ１０２から通知されてくるまで繰り返される。

センサバッジ１０２から送信されてきたセンサデータを受信したカムコーダ１０１においては、プロセッサ５２にそれが供給され、上述したようにして行動、この場合、センサバッジ１０２を有する被写体の行動が認識され、認識結果の行動が、撮影された画像に関連付けられて記録される。

撮影された画像の再生時には図３のプレーヤ画面が表示され、ユーザは、そのプレーヤ画面から被写体の行動を選択して、見たいシーンを探し出すことができる。

例えば、子供にセンサバッジ１０２を付け、その子供が参加する運動会の様子を撮影した場合、「子供が徒競走に出ているシーン」が見たいと思ったときには、図３のプレーヤ画面で「走り」を選択し、再生するブロックを切り替えたりすることによって、撮影した画像全体の中からそのような所定のシーンだけを探し出すことができる。

通常、子供が徒競走をしているときに撮影したシーンに対しては、センサバッジ１０２に内蔵された加速度センサ１１やジャイロセンサ１２からの出力に基づいて、子供の行動として「走り」が認識され、その行動が関連付けられるから、ユーザは、「走り」を選択することによって、行動によってシーンを絞り込むことができ、容易に、「子供が徒競走に出ているシーン」を探し出すことが可能となる。

また、以上においては、撮影処理（センサデータの取得処理）、行動認識処理、および再生制御処理の全ての処理がカムコーダにおいて行われるものとしたが、撮影処理以外の、行動認識処理と再生制御処理のうちの少なくともいずれか１つの処理が、図１９に示すように、カムコーダ１３１からのデータを取り込んだパーソナルコンピュータ／ホームサーバ１３２において行われるようにしてもよい。

図１９のカムコーダ１３１には、図４のカムコーダ１と同様にカメラ部５１、プロセッサ５２、およびストレージ５３が少なくとも設けられている。加速度センサ１１とジャイロセンサ１２は、カムコーダ１３１に内蔵されるようにしてもよいし、図１８を参照して説明したようにカムコーダ１３１の外部の機器に内蔵されるようにしてもよい。

図２０は、図１９のカムコーダ１３１とパーソナルコンピュータ／ホームサーバ１３２のそれぞれのソフトウェア構成例を示すブロック図である。図５に示すものと同じ構成には同じ符号を付してある。

カムコーダ１３１には、図５に示す構成のうち、画像・音声データ処理部７３と画像・音声データDB７４だけが設けられている。また、カムコーダ１３１には、加速度センサ１１とジャイロセンサ１２により得られた加速度センサデータとジャイロセンサデータを、そのまま（例えば図８でいうraw dataのまま）記録するセンサデータDB１４１が設けられている。

このような構成を有するカムコーダ１３１においては、図１２の撮影処理と同様の処理が行われる。すなわち、撮影により得られた画像データと音声データは画像・音声データDB７４に記録され、その撮影と同じタイミングで取得されたセンサデータはセンサデータDB１４１に記録される。

一方、パーソナルコンピュータ／ホームサーバ１３２には、図５の構成のうち、行動認識部７１、行動認識ログDB７２、および閲覧・再生制御部７５が設けられている。

また、パーソナルコンピュータ／ホームサーバ１３２には、カムコーダ１３１との間で有線または無線で通信を行う機能部が用意されており、その通信により、センサデータDB１４１に記録されている加速度センサデータとジャイロセンサデータ、並びに、画像・音声データDB７４に記録されている画像データと音声データがカムコーダ１３１から取り込まれる。カムコーダ１３１から取り込まれた加速度センサデータとジャイロセンサデータはパーソナルコンピュータ／ホームサーバ１３２の行動認識部７１に供給され、画像データと音声データは閲覧・再生制御部７５に供給される。

このような構成を有するパーソナルコンピュータ／ホームサーバ１３２の行動認識部７１においては、カムコーダ１３１から取り込まれた加速度センサデータとジャイロセンサデータに基づいて、図１３の行動認識処理と同様の処理が行われる。また、閲覧・再生制御部７５においては、行動認識部７１により得られた行動認識結果と、カムコーダ１３１から取り込まれた画像データ、音声データに基づいて、図１４の再生制御処理と同様の処理が行われる。

すなわち、図５の各構成が図２０に示すように複数の機器に渡って実現される場合も、その複数の機器によって、図１０の一連の処理が行われ、ダイジェスト再生などが実現される。

図２１は、カムコーダ１３１と、パーソナルコンピュータ／ホームサーバ１３２のそれぞれの他のソフトウェア構成例を示すブロック図である。図５に示すものと同じ構成には同じ符号を付してある。

図２１の例においては、カムコーダ１３１には、図５に示す構成のうち、行動認識部７１、行動認識ログDB７２、画像・音声データ処理部７３、および画像・音声データDB７４が設けられている。

このような構成を有するカムコーダ１３１においては、図１２の撮影処理、図１３の行動認識処理と同様の処理がそれぞれ行われる。すなわち、撮影により得られた画像データと音声データは画像・音声データDB７４に記録されるとともに、その撮影と同じタイミングで取得されたセンサデータに基づいて得られた行動認識結果は行動認識ログDB７２に記録される。

一方、パーソナルコンピュータ／ホームサーバ１３２には、図５の構成のうち、閲覧・再生制御部７５だけが設けられている。パーソナルコンピュータ／ホームサーバ１３２には、カムコーダ１３１との間で有線または無線により通信を行う機能部が用意されており、その通信により、行動認識ログDB７２に記録されている行動認識結果と、画像・音声データDB７４に記録されている画像データ、音声データがカムコーダ１３１から取り込まれる。

パーソナルコンピュータ／ホームサーバ１３２の閲覧・再生制御部７５においては、カムコーダ１３１から取り込まれた行動認識結果と、画像データ、音声データに基づいて、図１４の再生制御処理と同様の処理が行われる。

すなわち、図５の各構成が図２１に示すように複数の機器に渡って実現される場合も、その複数の機器によって、図１０の一連の処理が行われ、ダイジェスト再生などが実現される。

ところで、以上のように、加速度センサデータやジャイロセンサデータから得られた行動の認識結果に基づいて画像や音声を再生する場合、連続して同じ認識結果が得られるのではなく、例えば１秒毎などの短時間毎に認識結果の内容が切り替わるときには、それに応じて再生位置も切り替わるから、撮影した画像などが細切れ的に再生されることになる。

例えば、座った状態で撮影していたにもかかわらず、加速度センサ１１やジャイロセンサ１２が内蔵されたカムコーダをテーブルに置いたときや誤って落としたとき、そのときの衝撃で瞬間的にユーザの行動として「歩き」が認識されてしまい、それにより、再生時にその座って撮影していたときのシーン全体を見たいから「静止」を選択したにもかかわらず、「歩き」が認識されたシーンだけスキップされたりすることになる。

従って、そのように短い時間だけ認識された人の行動については、それをノイズとして除去し、再生時に、比較的まとまった単位で再生が行われるように、認識結果に対して補正が施されるようにしてもよい。この補正は、例えば、撮影された画像の内容に基づいて行われる。

図２２は、認識結果に含まれるノイズについて説明する図である。

図２２の上には撮影された画像の例が示され、その下に、撮影時に測定された加速度センサデータとジャイロセンサデータの例が示されている。また、それらのセンサデータの下には行動の認識結果の例が示されている。

図２２においては、点線で囲んで示す画像は例えば撮影者が座った状態で撮影したものであり、被写体も似ている内容のものとされている。また、実線の円で囲んで示す加速度センサデータの部分には他の部分と較べて瞬間的に大きな加速度が測定され、その円で囲んで示す部分に対応する区間においては、他の部分は主に「静止」であるにもかかわらず、行動の認識結果として「歩き」が認識されている。

すなわち、ユーザが、図２２の点線で囲んで示す画像全体を続けて見たい場合、画像の再生時間全体に対応する区間に渡って「静止」の１つの認識結果が得られていることが望ましいにも関わらず、部分的に「歩き」の認識結果も含まれているから、「静止」を選択して再生した場合、「歩き」の認識結果が得られた画像はスキップされてしまい、細切れ的に再生が行われてしまうことになる。

従って、このように部分的に異なる認識結果が得られた「歩き」については、撮影された画像の内容に応じてそれを除去し、認識結果を補正することが行われる。

図２３は、認識結果の補正について説明する図である。

図２３においては、加速度センサデータとジャイロセンサデータの下には、画像のクラスタリング結果が示され、その下に、ノイズ除去前の行動認識結果と、画像のクラスタリング結果に基づくノイズ除去後の行動認識結果が示されている。

すなわち、内容の類似度に応じて画像のクラスタリングが行われ、点線で囲んで示す画像全体はひとつのシーンとして認識されている。そして、このようにひとつのシーンとして認識された区間におけるそれぞれの行動の認識結果（ノイズ除去前）の割合が参照され、例えば、「静止」が８５％、「歩き」が１５％として認識された場合、割合が１５％と少ない「歩き」の部分はノイズとして除去され、ひとつのシーンとして認識された区間全体に渡る「静止」の１つの認識結果が、ノイズ除去後の認識結果として得られる。

例えば、割合の閾値として２０％が設定され、設定された閾値以下の割合しか認識されていない「歩き」が関連付けられている画像の再生時間が２秒間などの閾値に満たない場合に、その「歩き」がノイズとして判断され、除去されることになる。

これにより、ユーザは、「静止」を選択することによって、似ている画像からなるひとつのシーンを連続して見ることができる。

以上のような、画像のクラスタリングを行い、ひとまとまりのシーンを認識することや、行動の割合を参照し、それに基づいてノイズを除去することは、例えば、閲覧・再生制御部７５により行われる。

なお、画像のクラスタリングは、どのようなアルゴリズムに従って行われてもよいが、例えば、本出願人により先に出願された特願２００４−２３４３９２号に開示されているような技術を用いることもできる。また、撮影した画像のクラスタリング結果ではなく、音声のクラスタリングにより、似た特徴の音声が記録されている区間がひとつのシーンとして判断され、その結果がノイズ除去に用いられるようにしてもよい。

図２４は、カムコーダ１の他のソフトウェア構成例を示すブロック図である。図５に示すものと同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

クラスタリング部１５１は、画像・音声データDB７４に記録されている画像データを読み出し、例えば、それぞれのフレームの特徴を抽出し、抽出した特徴に基づいて、読み出した画像データ全体を複数のクラスタに分類する。クラスタリング部１５１は、どの画像がどのクラスタに属するのかなどを表すクラスタリング結果ファイルを生成し、それを保存する。保存されたクラスタリング結果ファイルは、適宜、閲覧・再生制御部７５（ノイズ除去部１６１（図２５））により読み出される。

図２５は、図２４の閲覧・再生制御部７５の詳細な構成例を示すブロック図である。図１０に示すものと同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

ノイズ除去部１６１は、クラスタリング部１５１から取得したクラスタリング結果ファイルと、行動認識ログDB７２から取得した行動認識結果ファイルに基づいて、図２３を参照して説明したように、ひとつのシーンの区間内で認識されたそれぞれの行動の割合を求める。

また、ノイズ除去部１６１は、所定の閾値より低い割合しか含まれていない行動であって、かつ、その行動が関連付けられている画像を再生したときに、再生時間が閾値より短い時間となるような行動をノイズとして除去し、ひとつのシーンに対して１つの行動が関連付けられるように行動の補正を行う。

次に、図２６のフローチャートを参照して、以上のように、認識結果に現れるノイズを除去して行われる再生制御処理について説明する。この処理も、図１４の処理と同様、例えば図１１のステップＳ３において行われる。

ステップＳ５１において、閲覧・再生制御部７５のノイズ除去部１６１は、行動認識結果ファイルを行動認識ログDB７２から読み出し、また、クラスタリング結果ファイルをクラスタリング部１５１から読み出す。

ステップＳ５２において、ノイズ除去部１６１は、クラスタリング部１５１から読み出したクラスタリング結果ファイルに基づいてひとつのシーン（ひとつのクラスタ）に注目し、その注目したひとつのシーンとして認識された区間におけるそれぞれの行動の認識結果の割合を、行動認識ログDB７２から読み出した行動認識結果ファイルに基づいて求める。

ステップＳ５３において、ノイズ除去部１６１は、例えば２０％などとして設定された閾値以下の割合しか、ひとつのシーンとして認識された区間に含まれていない行動があるか否かを判定し、そのような行動があると判定した場合、ステップＳ５４に進む。

ステップＳ５４において、ノイズ除去部１６１は、そのような低い割合しか含まれていない行動が関連付けられている画像の再生時間を求め、ステップＳ５５に進み、求めた再生時間が、例えば２秒間などとして設定された閾値以下であるか否かを判定する。

ノイズ除去部１６１は、ステップＳ５５において、再生時間が閾値以下であると判定した場合、ステップＳ５６に進み、その行動をノイズとして判断し、ひとつのシーンとして認識された区間の認識結果から除去する。

これにより、閾値以下の割合しか含まれていない行動の認識結果であって、それが関連付けられている画像を再生したとしても閾値以下の再生時間しかないような認識結果がひとつのシーンとして認識された区間から除かれることになる。ノイズが除かれた認識結果はプレーヤ画面表示制御部９１と再生制御部９２に出力される。

ステップＳ５６においてノイズが除去された後、処理はステップＳ５７に進む。また、ステップＳ５３において、ひとつのシーンとして認識された区間に閾値以下の割合しか含まれていないような行動がないと判定された場合、また、ステップＳ５５において、再生時間が閾値以下ではないと判定された場合も同様に、処理は、ステップＳ５７に進む。

ステップＳ５７以降の処理は、上述した図１４のステップＳ３３以降の処理と基本的に同様である。

すなわち、ステップＳ５７において、プレーヤ画面表示制御部９１は、プレーヤ画面全体を表示させ、ノイズ除去部１６１から供給されてきた補正後の認識結果を参照し、同じ行動が関連付けられたシーンの分布を表すブロックをブロック表示部２３に表示させる。

ステップＳ５８において、再生制御部９２は、ユーザにより行動が選択されるのを待つ状態となり、ステップＳ５９に進み、行動が選択されたか否かを判定する。

再生制御部９２は、ステップＳ５９において、行動が選択されたと判定するまで待機し、行動が選択されたと判定した場合、ステップＳ６０に進む。

ステップＳ６０において、再生制御部９２は、ユーザにより選択された行動が関連付けられているシーンを再生するための画像データと音声データを画像・音声データDB７４から読み出し、その再生を開始させる。例えば、ユーザにより選択された行動が関連付けられている全てのシーンの再生が終了したとき、処理は終了される。

以上においては、撮影した画像の再生時、ユーザは、１つの行動を選択することができるものとしたが、複数の行動を選択することができるようにしてもよい。

例えば、ユーザは、「ショッピングモールで買い物したシーン」が見たいと思ったときには、図３のプレーヤ画面で「歩き」と、「右ターン」または「左ターン」を選択し、再生するブロックを切り替えたりすることによって、撮影された画像全体の中からそのような所定のシーンだけを探し出すことができる。この場合、「歩き」と、「右ターン」または「左ターン」が繰り返して行動の認識結果として関連付けられているようなシーンを含むブロックが再生対象のブロックとされる。

通常、買い物をしているときに撮影したシーンに対しては、いろいろな店舗をまわり、商品を見たりすることによって、加速度センサ１１やジャイロセンサ１２からの出力に基づいて、撮影者であるユーザの行動として「歩き」と、「右ターン」または「左ターン」が認識され、その行動が関連付けられるから、ユーザは、「歩き」と、「右ターン」または「左ターン」を選択することによって、行動によってシーンを絞り込むことができ、容易に、「ショッピングモールで買い物したシーン」を探し出すことが可能となる。

また、以上のような機能は、カムコーダに限らず、撮影機能を有する各種の機器に搭載されるようにしてもよい。例えば、図２７に示すように、デジタルカメラの他、カメラ付きのICレコーダ、音楽プレーヤ、携帯電話機などの各種の機器に搭載することが可能である。

さらに、撮影スタイルとしても、カムコーダの撮影スタイルである図２８上段左側に示すガングリップスタイルに限らず、上段中央に示すデジタルカメラの撮影スタイルのようないろいろなスタイルを採用することができる。また、撮影機器は、図２７の上段右側に示すように身につけるようなバッジ型の機器であってもよいし、下段左側に示すように首からぶら下げることができるような機器であってもよい。また、下段中央に示すように肩に斜め掛けすることのできる機器であってもよいし、下段右側に示すように頭部に装着することができるような機器であってもよい

上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。この場合、そのソフトウェアを実行させる装置は、例えば、図２９に示されるようなパーソナルコンピュータにより構成される。

図２９において、CPU(Central Processing Unit)２０１は、ROM(Read Only Memory)２０２に記憶されているプログラム、または、記憶部２０８からRAM(Random Access Memory)２０３にロードされたプログラムに従って各種の処理を実行する。RAM２０３にはまた、CPU２０１が各種の処理を実行する上において必要なデータなどが適宜記憶される。

CPU２０１、ROM２０２、およびRAM２０３は、バス２０４を介して相互に接続されている。このバス２０４にはまた、入出力インタフェース２０５も接続されている。

入出力インタフェース２０５には、キーボード、マウスなどよりなる入力部２０６、LCD(Liquid Crystal Display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部２０７、ハードディスクなどより構成される記憶部２０８、ネットワークを介しての通信処理を行う通信部２０９が接続されている。

入出力インタフェース２０５にはまた、必要に応じてドライブ２１０が接続される。ドライブ２１０には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどよりなるリムーバブルメディア２１１が適宜装着され、それから読み出されたコンピュータプログラムが必要に応じて記憶部２０８にインストールされる。

一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば、汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。

この記録媒体は、図２９に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disk-Read Only Memory)，DVD(Digital Versatile Disk)を含む）、光磁気ディスク（MD（登録商標）(Mini-Disk)を含む）、もしくは半導体メモリなどよりなるリムーバブルメディア２１１により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM２０２や、記憶部２０８に含まれるハードディスクなどで構成される。

なお、本明細書において、各ステップは、記載された順序に従って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

本発明の一実施形態に係るカムコーダの外観の例を示す図である。撮影された画像と、認識結果である行動の関連付けの例を示す図である。プレーヤ画面の表示例を示す図である。カムコーダのハードウェア構成例を示すブロック図である。カムコーダのソフトウェア構成例を示すブロック図である。図５の行動認識部の詳細な構成例を示すブロック図である。特徴データの例を示す図である。行動認識を模式的に示す図である。画像、センサデータ、特徴量、認識結果の例を時系列的に示す図である。図５の閲覧・再生制御部の詳細な構成例を示すブロック図である。カムコーダによる一連の処理について説明するフローチャートである。図１１のステップＳ１において行われる撮影処理の詳細について説明するフローチャートである。図１１のステップＳ２において行われる行動認識処理の詳細について説明するフローチャートである。図１１のステップＳ３において行われる再生制御処理の詳細について説明するフローチャートである。キャラクタの例を示す図である。プレーヤ画面の他の表示例を示す図である。プレーヤ画面のさらに他の表示例を示す図である。カムコーダとセンサバッジのそれぞれのハードウェア構成例を示すブロック図である。カムコーダとパーソナルコンピュータ／ホームサーバを示す図である。カムコーダと、パーソナルコンピュータ／ホームサーバのそれぞれのソフトウェア構成例を示すブロック図である。カムコーダと、パーソナルコンピュータ／ホームサーバのそれぞれの他のソフトウェア構成例を示すブロック図である。認識結果に含まれるノイズについて説明する図である。認識結果の補正について説明する図である。カムコーダの他のソフトウェア構成例を示すブロック図である。図２４の閲覧・再生制御部の詳細な構成例を示すブロック図である。図１１のステップＳ３において行われる他の再生制御処理の詳細について説明するフローチャートである。機器の例を示す図である。撮影スタイルの例を示す図である。パーソナルコンピュータの構成例を示すブロック図である。

符号の説明

１カムコーダ，１１加速度センサ，１２ジャイロセンサ，５１カメラ部，５２プロセッサ，５３ストレージ，７１行動認識部，７２行動認識ログDB，７３画像・音声データ処理部，７４画像・音声データDB，７５閲覧・再生制御部，８１特徴抽出部，８２認識部，８３ HMM DB，９１プレーヤ画面表示制御部，９２再生制御部

Claims

画像列の撮影タイミングと同じタイミングで取得されたセンサデータに基づいて、前記センサデータを出力したセンサが内蔵された機器を有する人の行動を認識し、認識した行動の内容を、前記画像列の再生時に再生位置の選択に用いられる情報として前記画像列に関連付ける関連付け手段を備え、
前記関連付け手段は、前記センサデータから特徴を抽出し、抽出した特徴の時系列に基づいて、センサが内蔵された機器を有する人の行動をあらかじめ用意されている認識用モデルを用いて認識する
情報処理装置。
前記画像列全体のうち、前記関連付け手段が認識可能な複数の行動の中からユーザにより選択された行動が関連付けられているシーンを再生させる再生制御手段をさらに備える
請求項１に記載の情報処理装置。
それぞれの行動が関連付けられているシーンの分布を、行動の種類毎に表示させる表示制御手段をさらに備える
請求項１に記載の情報処理装置。
前記センサは、情報処理装置自身に内蔵、または情報処理装置とは異なる筐体の機器に内蔵される
請求項１に記載の情報処理装置。
前記センサが情報処理装置とは異なる筐体の機器に内蔵される場合、その機器との間で無線通信を行い、前記センサデータを取得する通信手段をさらに備える
請求項４に記載の情報処理装置。
前記画像列を構成する画像を内容に応じてクラスタリングする画像処理手段と、
前記画像処理手段による処理結果に基づいて、内容が似ているとして判断された画像からなる１つのシーン全体に、内容が似ているとして判断されたそれぞれの画像に対して前記関連付け手段により関連付けられた行動のうちの１つの行動を関連付ける行動補正手段と
をさらに備える請求項１に記載の情報処理装置。
画像列の撮影タイミングと同じタイミングで取得されたセンサデータに基づいて、前記センサデータを出力したセンサが内蔵された機器を有する人の行動を認識し、認識した行動の内容を、前記画像列の再生時に再生位置の選択に用いられる情報として前記画像列に関連付ける関連付けステップを含み、
前記関連付けステップの処理においては、前記センサデータから特徴が抽出され、抽出された特徴の時系列に基づいて、センサが内蔵された機器を有する人の行動があらかじめ用意されている認識用モデルを用いて認識される
情報処理方法。
画像列の撮影タイミングと同じタイミングで取得されたセンサデータに基づいて、前記センサデータを出力したセンサが内蔵された機器を有する人の行動を認識し、認識した行動の内容を、前記画像列の再生時に再生位置の選択に用いられる情報として前記画像列に関連付ける関連付けステップを含み、
前記関連付けステップの処理においては、前記センサデータから特徴が抽出され、抽出された特徴の時系列に基づいて、センサが内蔵された機器を有する人の行動があらかじめ用意されている認識用モデルを用いて認識される
処理をコンピュータに実行させるプログラム。
撮影手段と、
前記撮影手段による画像列の撮影タイミングと同じタイミングで取得されたセンサデータに基づいて、前記センサデータを出力したセンサが内蔵された機器を有する人の行動を認識し、認識した行動を表す情報を、前記画像列の再生時に再生位置の選択に用いられる情報として前記画像列に関連付ける関連付け手段と
を備え、
前記関連付け手段は、前記センサデータから特徴を抽出し、抽出した特徴の時系列に基づいて、センサが内蔵された機器を有する人の行動をあらかじめ用意されている認識用モデルを用いて認識する
撮影装置。