JP4289326B2 - 情報処理装置および方法、撮影装置、並びにプログラム - Google Patents

情報処理装置および方法、撮影装置、並びにプログラム Download PDF

Info

Publication number
JP4289326B2
JP4289326B2 JP2005169506A JP2005169506A JP4289326B2 JP 4289326 B2 JP4289326 B2 JP 4289326B2 JP 2005169506 A JP2005169506 A JP 2005169506A JP 2005169506 A JP2005169506 A JP 2005169506A JP 4289326 B2 JP4289326 B2 JP 4289326B2
Authority
JP
Japan
Prior art keywords
action
sensor data
sensor
recognized
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005169506A
Other languages
English (en)
Other versions
JP2006345270A (ja
Inventor
誠 村田
雅友 倉田
祥弘 山口
クラークソン ブライアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2005169506A priority Critical patent/JP4289326B2/ja
Priority to US11/444,467 priority patent/US7917020B2/en
Publication of JP2006345270A publication Critical patent/JP2006345270A/ja
Application granted granted Critical
Publication of JP4289326B2 publication Critical patent/JP4289326B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • H04N5/772Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera the recording apparatus and the television camera being placed in the same enclosure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42202Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] environmental sensors, e.g. for detecting temperature, luminosity, pressure, earthquakes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4334Recording operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Ecology (AREA)
  • Emergency Management (AREA)
  • Environmental & Geological Engineering (AREA)
  • Environmental Sciences (AREA)
  • Remote Sensing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)

Description

本発明は、情報処理装置および方法、撮影装置、並びにプログラムに関し、特に、撮影した動画の各シーンを、それを撮影したときの撮影者や被写体などの行動と関連付けて扱うことができるようにする情報処理装置および方法、撮影装置、並びにプログラムに関する。
近年、製品の低価格化が進んでいることによりビデオカメラがますます普及する傾向にある。また、筐体の小型化もあって、動画の撮影が一般に、かつ気軽に行われるようになってきている。動画の撮影は、また、例えば、携帯電話機やディジタルスチルカメラに搭載された動画撮影機能によっても気軽に行われている。
このように、動画の撮影自体は容易に行われるようになってきているものの、撮影後の動画の取り扱いが困難であるという問題があり、それを解決すべく、撮影した動画に各種の属性情報を付加しておく技術が各種提案されている。
例えば、特許文献1には、被写体の人物の名前を、撮影した画像のメタデータとして記録しておく技術が開示されている。
また、業務用のビデオカメラの中には、番組編集時の作業を容易に行うことができるように、撮影時の天候、位置、音量や、クリップ(撮影開始から撮影終了までの1回の撮影期間の動画)の代表画などの属性情報をそれぞれのシーンに付加しておくようにしたものがある。
特開2004−62868号公報
しかしながら、撮影後の取り扱いのためにメタデータが付加されているとしても、一般のユーザが、様々なメタデータを用いて、あるシーンを探したりすることは困難であり、一般的には、未だ、動画の撮影後の取り扱いは煩雑であるといえる。
例えば、DV(Digital Video)方式の従来のビデオカメラで撮影された動画全体から所定のシーンを探し出す場合、ユーザは、テープを早送りさせたり、所定の間隔で再生位置を順にスキップさせたりする必要がある。
ユーザが見たいシーンは、大体、DVテープに記録されている全シーンのうちの特定のシーンに限られるところ、そのような特定のシーンのみを抽出し、再生するといったことができないことから、ユーザは、時系列的に再生される不要なシーンも見なければならず、退屈することが多い。子供の運動会の様子を撮影したような動画がある場合、それを見る例えば子供や親は、子供が走っているシーンといった特定のシーンだけを見たいものである。
ビデオカメラにより撮影された画像を取り込んだ装置などが、撮影された画像の内容を1フレームずつ解析し、似ているシーン同士をまとめ、まとめられたシーン単位で、再生するシーンをユーザに選択させるようにすることも考えられるが、精度よく、そのような似ているシーン毎にまとめるといった処理を行うことは困難である。
本発明はこのような状況に鑑みてなされたものであり、撮影した動画の各シーンを、それを撮影したときの撮影者や被写体などの行動と関連付けて扱うことができるようにし、例えば、ユーザが、ある行動を指定して、再生するシーンを選択したりすることができるようにするものである。
本発明の第1の側面の情報処理装置および方法、並びにプログラムは、画像列の撮影タイミングと同じタイミングで取得されたセンサデータに基づいて、センサデータを出力したセンサが内蔵された機器を有する人の行動を認識し、認識した行動の内容を、画像列の再生時に再生位置の選択に用いられる情報として画像列に関連付ける関連付け手段/ステップを備え、関連付け手段/ステップは、センサデータから特徴を抽出し、抽出した特徴の時系列に基づいて、センサが内蔵された機器を有する人の行動をあらかじめ用意されている認識用モデルを用いて認識する。
この情報処理装置および方法、並びにプログラムにおいては、画像列の撮影タイミングと同じタイミングで取得されたセンサデータに基づいて、センサデータを出力したセンサが内蔵された機器を有する人の行動が認識され、認識された行動の内容が、画像列の再生時に再生位置の選択に用いられる情報として画像列に関連付けられる。センサが内蔵された機器を有する人の行動を認識することは、センサデータから特徴を抽出し、抽出した特徴の時系列に基づいて、あらかじめ用意されている認識用モデルを用いて行われる。
本発明の第2の側面の撮影装置は、撮影手段と、撮影手段による画像列の撮影タイミングと同じタイミングで取得されたセンサデータに基づいて、センサデータを出力したセンサが内蔵された機器を有する人の行動を認識し、認識した行動を表す情報を、画像列の再生時に再生位置の選択に用いられる情報として画像列に関連付ける関連付け手段とを備え、関連付け手段は、センサデータから特徴を抽出し、抽出した特徴の時系列に基づいて、センサが内蔵された機器を有する人の行動をあらかじめ用意されている認識用モデルを用いて認識する。
この撮影装置においては、撮影が行われ、その撮影タイミングと同じタイミングで取得されたセンサデータに基づいて、センサデータを出力したセンサが内蔵された機器を有する人の行動が認識され、認識された行動を表す情報が、画像列の再生時に再生位置の選択に用いられる情報として画像列に関連付けられる。センサが内蔵された機器を有する人の行動を認識することは、センサデータから特徴を抽出し、抽出した特徴の時系列に基づいて、あらかじめ用意されている認識用モデルを用いて行われる。
本発明によれば、撮影した動画の各シーンを、それを撮影したときの撮影者や被写体などの行動と関連付けて扱うことができる。
以下、本発明の実施の形態について図を参照して説明する。
図1は、本発明の一実施形態に係るカムコーダ1の外観の例を示す図である。
カムコーダ1は、音声の収音とともに撮影を行い、取得した音声データと画像データをHDD(Hard Disk Drive)などの所定の記録媒体に記録する機能の他、その撮影等(収音、撮影)と同じタイミングで内蔵のセンサにより取得されたセンサデータに基づいて、カムコーダ1を持っている撮影者であるユーザの行動を認識し、認識したユーザの行動を、撮影した画像に関連付けて記録する機能を有する。
例えば、カムコーダ1には図1の点線で示すように加速度センサ11とジャイロセンサ12が内蔵されており、加速度センサ11により測定される加速度センサデータとジャイロセンサ12により測定されるジャイロセンサデータに基づいてユーザの行動が認識される。認識された行動(行動を表す情報)は、例えば、撮影により得られた画像の再生時に、再生位置を選択するために用いられる。
図2は、撮影された画像と、認識結果である行動の関連付けの例を示す図である。
カムコーダ1においては、加速度センサ11とジャイロセンサ12により取得された所定のサンプル数のセンサデータに基づいてユーザの行動の1つの認識結果が所定の時間単位で得られるようになされている。図2の例では、時刻t1からt2までの1認識区間の間に加速度センサ11とジャイロセンサ12により取得されたセンサデータに基づいて、この区間のユーザの行動として「静止」が認識されている。
上述したように時刻t1からt2までの間には撮影等も行われており、図2の例においては、時刻t1からt2までの区間の認識結果である「静止」は、時刻t1からt2までの間に撮影されたフレームf1乃至f5に関連付けられている。
同様に、時刻t2からt3までの間に撮影されたフレームf6乃至f10に対しては、時刻t2からt3までの1認識区間に認識された、ユーザの行動の認識結果である「走り」が関連付けられており、時刻t3からt4までの間に撮影されたフレームf11乃至f15に対しては、時刻t3からt4までの1認識区間に認識された、ユーザの行動の認識結果である「静止」が関連付けられている。それぞれの区間の認識結果を表す情報は、撮影された画像、収音された音声のデータとともに例えば内蔵の記録媒体に記録される。
このように、カムコーダ1においては、撮影した画像と行動の認識結果を同期させて記録するような処理が行われる。
撮影した画像の再生時、ユーザは、カムコーダ1が認識可能な複数の行動の中から所定の行動を選択することによって、撮影された画像全体のうち、選択した行動が関連付けられているシーンだけをダイジェスト再生させることができる。例えば、図2に示す画像が撮影された場合、ユーザは、「静止」を選択することによって、「静止」が関連付けられているフレームf1乃至f5の再生に続けてフレームf11乃至f15を再生させることができる(当然、フレームf1乃至f5,f11乃至f15の撮影時に収音された音声も再生される)。すなわち、ユーザは、自分が選択した行動ではない「走り」が関連付けられているシーンであるフレームf6乃至f10を見る必要がない。
図3は、このように、所定の行動を選択することによって、その行動が関連付けられているシーンだけを視聴することができるプレーヤ画面の例を示す図である。
このプレーヤ画面は、例えば、ユーザが、カムコーダ1をテレビジョン受像機に接続し、カムコーダ1を操作することによってカムコーダ1により表示されるようにしてもよいし、後述するように、画像・音声データと、それに関連付けられている行動の情報をカムコーダ1から取り込んだパーソナルコンピュータにより表示されるようにしてもよい。
プレーヤ画面は、基本的に、再生中のシーンが表示される画像表示部21、各種の操作ボタンが表示される操作パネル22、および、それぞれの行動に関連付けられているシーンの分布が行動の種類毎に表示されるブロック表示部23から構成される。
このうちのブロック表示部23においては、それぞれの行動に関連付けられているシーンの分布は、横方向を時間軸として、撮影時間に対応する位置にブロックで表される。図3の例においては、いま再生中のシーンを含むブロックはブロックB1であり、その上にカーソルCが表示されている。すなわち、図3の例は、カムコーダ1が認識可能な行動である「歩き(walk)」、「走り(run)」、「静止(still)」、「左ターン(turn_left)」、「右ターン(turn_right)」の5つの行動の中から、ユーザが「静止」を選択した場合の例を示している。
ブロックB1に含まれる全てのシーンの再生が終了したとき、再生位置は、同じ「静止」の行動が関連付けられているブロックB2の先頭位置にスキップし、ブロックB2に含まれるシーンの再生が開始される。再生位置がブロックB2の先頭位置にスキップしたとき、カーソルCはブロックB1上からブロックB2上に移動する。
なお、操作パネル22には、再生の開始を指示するときに操作される再生ボタン31、再生の停止を指示するときに操作される停止ボタン32、再生対象とするブロック(再生対象とするシーンを含むブロック)を、いま再生中のブロックと同じ行動が関連付けられている時間的に1つ前のブロックに切り替えるときに操作される戻るボタン33、再生対象とするブロックを、いま再生中のブロックと同じ行動が関連付けられている時間的に次のブロックに切り替えるときに操作される進むボタン34、および、スクロールバー35が表示されている。
ユーザは、戻るボタン33や進むボタン34を操作することによって再生するブロックを切り替えることができ、これにより、所定のシーンを探したりすることができる。
このように、撮影時の行動毎にシーンが分けられ、行動毎に、再生対象を選択することができるから、ユーザは、撮影した画像全体のうち、例えば、「美味しいお蕎麦を食べたシーン」が見たいと思ったときには、図3のプレーヤ画面で「静止」を選択し、再生するブロックを切り替えたりすることによって、撮影した画像全体の中からそのような所定のシーンだけを探し出すことができる。
通常、お蕎麦を食べているときに撮影したシーンに対しては、加速度センサ11やジャイロセンサ12からの出力に基づいて、撮影者であるユーザの行動として「静止」が認識され、その行動が関連付けられるから、ユーザは、「静止」を選択することによって、行動によってシーンを絞り込むことができ、容易に、「美味しいお蕎麦を食べたあのシーン」を探し出すことが可能となる。
また、ユーザは、例えば、「家族旅行中にみんなで散歩した街のシーン」が見たいと思ったときには、図3のプレーヤ画面で「歩き」を選択し、再生するブロックを切り替えたりすることによって、撮影した画像全体の中からそのような所定のシーンだけを探し出すことができる。
通常、散歩しているときに撮影したシーンに対しては、加速度センサ11やジャイロセンサ12からの出力に基づいて、撮影者であるユーザの行動として「歩き」が認識され、その行動が関連付けられるから、ユーザは、「歩き」を選択することによって、行動によってシーンを絞り込むことができ、容易に、「家族旅行中にみんなで散歩した街のシーン」を探し出すことが可能となる。
さらに、ユーザは、例えば、「スキーでターンを決めているシーン」が見たいと思ったときには、図3のプレーヤ画面で「右ターン」、または「左ターン」を選択し、再生するブロックを切り替えたりすることによって、撮影した画像全体の中からそのような所定のシーンだけを探し出すことができる。
通常、スキーでターンをしているときに撮影したシーンに対しては、加速度センサ11やジャイロセンサ12からの出力に基づいて、撮影者であるユーザの行動として「右ターン」または「左ターン」が認識され、その行動が関連付けられるから、ユーザは、「右ターン」または「左ターン」を選択することによって、行動によってシーンを絞り込むことができ、容易に、「スキーでターンを決めているシーン」を探し出すことが可能となる。
以上のような画面表示等を行うカムコーダ1の動作についてはフローチャートを参照して後述する。
図4は、カムコーダ1のハードウェア構成例を示すブロック図である。
カメラ部51は、イメージャ61とマイクロフォン62からなる。イメージャ61はレンズを介して撮像した被写体の画像データをプロセッサ52に出力する。マイクロフォン62は収音した音声のデータをプロセッサ52に出力する。
加速度センサ11は所定の周期で加速度を測定し、測定結果である加速度センサデータをプロセッサ52に出力する。加速度センサ11は、例えば、互いに直交する3軸方向の加速度を測定可能なものとされる。
ジャイロセンサ12は所定の周期で角速度を測定し、測定結果であるジャイロセンサデータをプロセッサ52に出力する。ジャイロセンサ12は、例えば、互いに直交する3軸周りの角速度を測定可能なものとされる。
プロセッサ52は、カムコーダ1の全体の動作を制御し、例えば、イメージャ61による撮影やマイクロフォン62による収音と同じタイミングで、加速度センサ11による加速度の測定とジャイロセンサ12による角速度の測定をそれぞれ行わせる。
また、プロセッサ52は、イメージャ61から供給されてきた画像データとマイクロフォン62から供給されてきた音声データをストレージ53に記録させるとともに、加速度センサ11とジャイロセンサ12からの出力に基づいてユーザの行動を認識し、認識結果をストレージ53に記録させる。なお、加速度センサ11とジャイロセンサ12からセンサデータが供給されてきた直後にそのような行動の認識が行われるのではなく、加速度センサ11とジャイロセンサ12から供給されてきたセンサデータがストレージ53に一時的に記録され、所定のタイミングで、記録されているセンサデータを用いた行動の認識が行われるようにしてよい。
さらに、プロセッサ52は、必要に応じて、ストレージ53に記録されている各種のデータを読み出し、図3のプレーヤ画面を、カムコーダ1に接続されるテレビジョン受像機(ディスプレイ)などに表示させる。
ストレージ53は、フラッシュメモリや、HDD、DVD(Digital Versatile Disc)ドライブ、テープドライブなどのドライブよりなり、プロセッサ52から供給されてきたデータを記録させる。
図5は、カムコーダ1のソフトウェア構成例(機能構成例)を示すブロック図である。図5に示す機能部のうちの少なくとも一部は、図4のプロセッサ52により所定のプログラムが実行されることによって実現される。
行動認識部71は、後に詳述するように、加速度センサ11から供給されてきた加速度センサデータと、ジャイロセンサ12から供給されてきたジャイロセンサデータから特徴を抽出し、抽出した特徴の時系列に基づいて、それぞれの区間におけるユーザの行動を、あらかじめ用意されているHMM(Hidden Markov Model)を参照して認識する。行動認識部71は、それぞれの区間の認識結果を表す情報を行動認識ログDB72に出力し、記録させる。
画像・音声データ処理部73は、イメージャ61から供給されてきた画像データを所定の方式で圧縮し、圧縮して得られたデータを画像・音声データDB74に出力し、記録させる。同様に、画像・音声データ処理部73は、マイクロフォン62から供給されてきた音声データを所定の方式で圧縮し、圧縮して得られたデータを画像・音声データDB74に出力し、記録させる。
閲覧・再生制御部75は、行動認識ログDB72に記録されている行動の認識結果と、画像・音声データDB74に記録されている画像データ、音声データを読み出し、図3のプレーヤ画面の表示や、その画面に対するユーザの操作に応じた画像データ、音声データの再生を制御する。
図6は、図5の行動認識部71の詳細な構成例を示すブロック図である。
行動認識部71は、特徴抽出部81、認識部82、およびHMM DB83から構成される。そのうちの特徴抽出部81は、加速度センサ11から供給されてきた加速度センサデータと、ジャイロセンサ12から供給されてきたジャイロセンサデータから特徴を抽出し、抽出した特徴を表す特徴データを認識部82に出力する。
具体的には、特徴抽出部81は、図7Aに示すように、加速度センサデータから歩行の周波数(Impulse pitch)を特徴の1つとして求める。図7Aのサンプル結果においては、横軸が時刻(加速度センサ11のサンプル数)、縦軸が周波数(Hz)となっている。人が歩くときに加速度センサにより測定される周波数は一般的に2Hz(1秒間に2歩)であるから、この2Hzの測定結果の時系列などから、認識結果としての「歩き」がHMMが参照されて得られる。
また、特徴抽出部81は、図7Bに示すように、加速度センサデータから歩行の強さ、衝撃の度合い(Impulse magnitude)を特徴の1つとして求める。図7Bのサンプル結果においては、横軸が時刻、縦軸が強さとなっている。
さらに、特徴抽出部81は、図7Cに示すように、加速度センサデータから重力軸を求め、ジャイロセンサデータから求められる、重力軸まわりの回転角(Heading)を特徴の1つとして求める。加速度センサが重力軸に対して水平方向の加速度を検出する状態にある場合にはその出力は0となり、一方、重力軸に対して水平方向以外の方向の加速度を検出する状態にある場合には所定の値が測定されるから、上述したように、3軸方向の加速度を測定することができるようになされているときには、それぞれの方向の加速度の測定結果から重力軸を求めることが可能となる。なお、図7Cのサンプル結果においては、横軸が時刻、縦軸が回転角となっている。
例えば、以上のような各種の特徴が特徴抽出部81においてセンサデータ(加速度センサデータ、ジャイロセンサデータ)に基づいて抽出される。抽出された特徴を表す特徴データは、抽出される毎に、認識部82に順次出力される。
認識部82は、特徴抽出部81から供給されてきた特徴データを所定の量だけ蓄積し、蓄積した特徴データの時系列に基づいて、カムコーダ1を持って撮影しているユーザの行動をHMM DB83に用意されているHMMを参照して認識する。
HMM DB83には、例えば、人が歩いているときの加速度センサデータとジャイロセンサデータから抽出された特徴に基づいて生成された、「歩き」を認識するために用いられるモデル、人が走っているいるときの加速度センサデータとジャイロセンサデータから抽出された特徴に基づいて生成された、「走り」を認識するために用いられるモデル、人が静止しているときの加速度センサデータとジャイロセンサデータから抽出された特徴に基づいて生成された、「静止」を認識するために用いられるモデル、人が左ターンをしているときの加速度センサデータとジャイロセンサデータから抽出された特徴に基づいて生成された、「左ターン」を認識するために用いられるモデル、人が右ターンをしているときの加速度センサデータとジャイロセンサデータから抽出された特徴に基づいて生成された、「右ターン」を認識するために用いられるモデルなどがあらかじめ用意されている。
認識部82により認識された「歩き」、「走り」、「静止」、「左ターン」、「右ターン」などのそれぞれの行動を表す情報は、認識結果として外部(図5の行動認識ログDB72)に出力される。
図8は、行動認識部71による行動認識を模式的に示す図である。
生データ(raw data)としての加速度センサデータとジャイロセンサデータに対してはキャリブレーションが施され、キャリブレーションが施されることによって得られたデータから、上述したような、歩行ピッチ、歩行の強さ、重力、進行方向が特徴量(low level context)として取得される。また、取得されたそれらの特徴量に基づいて、HMMが参照され、ユーザの行動(high level context)が統計学的に認識される。
なお、行動認識のアルゴリズムは上述したものに限られず、各種のアルゴリズムにより行われるようにしてもよい。
図9は、撮影された画像、センサデータ、特徴量、認識結果の例を時系列的に示す図である。
図9の例においては、「歩き」、「走り」、「歩き」、「走り」、「静止」、「歩き」、「静止」の順に行動の認識結果が取得されている。このようなそれぞれの認識結果が、対応する時間に撮影された画像に関連付けられ、撮影開始から何秒後までの認識区間は「歩き」、次の認識区間は「走り」などというように、それぞれの区間で認識された行動を表す情報が行動認識ログDB72に記録される。
図10は、図5の閲覧・再生制御部75の詳細な構成例を示すブロック図である。
閲覧・再生制御部75は、プレーヤ画面表示制御部91と再生制御部92から構成される。このうちのプレーヤ画面表示制御部91は、例えば、カムコーダ1がテレビジョン受像機に接続され、プレーヤ画面の表示がユーザから指示されたとき、図3のプレーヤ画面を表示させるとともに、そのブロック表示部23に、行動認識ログDB72から読み出した行動認識結果に基づいて、それぞれの行動に関連付けられているシーンの分布を表示させる。
再生制御部92は、行動認識ログDB72から行動認識結果を読み出し、例えば、ユーザにより所定の行動が選択されたとき、選択された行動が関連付けられている画像データと音声データを画像・音声データDB74から読み出し、再生させる。再生された画像はプレーヤ画面の画像表示部21に表示され、再生された音声は図示せぬスピーカから出力される。
次に、以上のような構成を有するカムコーダ1の動作についてフローチャートを参照して説明する。
はじめに、図11のフローチャートを参照して、カムコーダ1により行われる一連の処理について説明する。
例えば、ユーザにより撮影を開始することが指示されたとき、ステップS1において撮影処理が行われる。撮影処理の詳細については後述するが、この処理により、カメラ部51による撮影や収音と同期して、加速度と角速度の測定が加速度センサ11とジャイロセンサ12によりそれぞれ行われる。
ステップS2において、加速度センサ11により得られた加速度センサデータと、ジャイロセンサ12により得られたジャイロセンサデータに基づく行動認識処理が行われる。この行動認識処理は、例えば、加速度センサ11とジャイロセンサ12によりセンサデータが取得された直後に行われるようにしてもよいし、また、加速度センサ11とジャイロセンサ12によりセンサデータがストレージ53などに一時的に記録されている場合、記録されているセンサデータに基づいて、所定のタイミングで行われるようにしてもよい。
ステップS3において再生制御処理が行われる。この再生制御処理においては、ステップS2で得られた認識結果などに基づいて図3のプレーヤ画面が表示され、ユーザによる操作に応じてダイジェスト再生などが行われる。
次に、図12のフローチャートを参照して、図11のステップS1において行われる撮影処理の詳細について説明する。
ステップS11において、プロセッサ52は、ユーザによる指示に応じてカメラ部51を制御し、撮影(撮影と収音)を開始させるとともに、加速度センサ11による加速度の測定とジャイロセンサ12による角速度の測定を開始させる。
ステップS12において、画像・音声データ処理部73は、イメージャ61から供給されてきた画像データを所定の方式で圧縮し、圧縮して得られたデータを画像・音声データDB74に記録させ、また、マイクロフォン62から供給されてきた音声データを所定の方式で圧縮し、圧縮して得られたデータを画像・音声データDB74に記録させる。
加速度センサ11とジャイロセンサ12から出力されたセンサデータは、行動認識処理がセンサデータが得られた直後に行われるようになされている場合、行動認識部71に供給され、一方、所定のタイミングで行われるようになされている場合、ストレージ53などに供給され、記録される。その後、処理は図11のステップS1に戻り、それ以降の処理が行われる。
次に、図13のフローチャートを参照して、図11のステップS2において行われる行動認識処理の詳細について説明する。
ステップS21において、行動認識部71の特徴抽出部81は、加速度センサ11の出力である加速度センサデータとジャイロセンサ12の出力であるジャイロセンサデータに基づいて、上述したような、歩行ピッチ、歩行の強さ、重力、進行方向などの特徴を抽出する。特徴抽出部81により処理されるセンサデータは、加速度センサ11やジャイロセンサ12から直接供給されてきたもの、あるいは、ストレージ53等に記録されていたものである。
特徴抽出部81により抽出された特徴を表す特徴データは認識部82に出力される。
ステップS22において、認識部82は、特徴抽出部81から供給されてきた特徴データを所定の量だけ蓄積し、蓄積した特徴データの時系列に基づいて、カムコーダ1を持って撮影しているユーザの行動をHMM DB83に用意されているHMMを参照して認識する。
ステップS23において、認識部82は、ステップS22で認識した「歩き」、「走り」、「静止」、「左ターン」、「右ターン」などのそれぞれの行動を表す情報が、それぞれの認識区間を表す情報(例えば、撮影開始時刻を基準として認識区間の開始時刻、終了時刻を表すタイムスタンプ、または、認識区間に対応する時間に撮影された画像のフレーム番号)などに対応付けられた行動認識結果ファイルを作成し、作成した行動認識結果ファイルを行動認識ログDB72記録させる。その後、処理は図11のステップS2に戻り、それ以降の処理が行われる。
次に、図14のフローチャートを参照して、図11のステップS3において行われる再生制御処理の詳細について説明する。
ステップS31において、閲覧・再生制御部75のプレーヤ画面表示制御部91は、行動認識結果ファイルを行動認識ログDB72から読み出し、ステップS32に進み、行動認識結果ファイルに記述される、それぞれの行動クラスタ(同じ行動が連続して認識された区間のまとまり)の開始時刻、終了時刻を参照する。例えば、第1の認識区間と、それに続く第2の認識区間において同じ行動が認識されている場合、それらの第1と第2の認識区間が1つの行動クラスタとして扱われ、第1の認識区間の開始時刻と、第2の認識区間の終了時刻が参照される。
ステップS33において、プレーヤ画面表示制御部91は、図3のプレーヤ画面全体を表示させ、そのうちのブロック表示部23に、同じ行動が関連付けられたシーンの分布を表すブロックを、ステップS32で参照したそれぞれの行動クラスタの開始時刻、終了時刻に応じて表示させる。
ステップS34において、再生制御部92は、ユーザにより行動が選択されるのを待つ状態となり、ステップS35に進み、例えば図3の5つの行動の中からいずれかの行動が選択されたか否かを判定する。
再生制御部92は、ステップS35において、行動が選択されたと判定するまで待機し、行動が選択されたと判定した場合、ステップS36に進む。
ステップS36において、再生制御部92は、ユーザにより選択された行動が関連付けられているシーンを再生するための画像データと音声データを画像・音声データDB74から読み出し、その再生を開始する。例えば、ユーザにより選択された行動が関連付けられている全てのシーンの再生が終了したとき、処理は終了される。
以上の処理により、ユーザは、見たいシーンに応じて行動を選択するだけで、撮影した画像全体からシーンを絞り込むことができ、画像全体から探し出す場合に較べて、容易に、その見たいシーンを探し出すことができる。
なお、以上においては、プレーヤ画面表示制御部91により表示されるプレーヤ画面のブロック表示部23には、それぞれの行動を表す情報として「walk」、「run」、「still」、「turn_left」、「turn_right」などのテキストが表示されるものとしたが、例えば、それぞれの行動を表す図15A乃至Eに示すようなアイコン(アニメーション)がプレーヤ画面表示制御部91に用意されている場合、これらのアニメーションが、テキストに替えてブロック表示部23に表示されるようにしてもよい。
キャラクタがそれぞれの行動をとっているようなアニメーションが表示されるようにすることにより、ユーザは、テキストが表示される場合に較べてより直感的に行動を選択することができる。図15A乃至Eに示すアニメーションがブロック表示部23に表示されるプレーヤ画面の例を図16に示す。
また、以上においては、「歩き」、「走り」、「静止」、「左ターン」、「右ターン」の5つの行動の中から1つの行動をユーザが選択することができるものとしたが、選択した1つの行動の中から、さらに、その行動の程度を選択することができるようにしてもよい。
加速度センサデータやジャイロセンサデータに現れるレベルの強弱からは、そのときユーザがとっていた行動の程度、具体的には、どの程度の勢いで走っていたのかなどが分かるから、「走り」の1つの行動を選択した後、さらに、「元気に走っている」、「ふつうに走っている」、「ほとんど歩いている」などのような程度の違う「走り」の中から、再生させたいシーンが関連付けられている行動を選択することができるようにしてもよい。
また、このように、行動の程度を選択することができるようになされている場合において、図15A乃至Eのアイコンがプレーヤ画面表示制御部91に用意されているとき、その程度の違いがアイコンの大きさで表されるようにしてもよい。
図17は、程度の違いがアイコンの大きさで表されるプレーヤ画面の例を示す図であり、この例においては、行動の種類として「走り」が選択されている。例えば、図16に示す画面から「走り」を表すアイコン(図16のブロック表示部23に表示されている上から2つ目のアイコン)が選択されたとき、ブロック表示部23の表示は図17に示すものに切り替わる。
図17に示す「走り」を表すアイコンのうち、最も大きく表示されているアイコン23Aは「元気に走っている」を表し、中くらいの大きさで表示されているアイコン23Bは「ふつうに走っている」を表す。また、最も小さく表示されているアイコン23Cは「ほとんど歩いている」を表す。このように、行動の程度がアイコンの大きさで表されるようにすることによって、ユーザは、直感的に、見たいシーンに関連付けられている行動の程度を選択することができる。
なお、図17の画像表示部21には子供が走っているシーンが表示されており、ブロック表示部23のアイコンにより表される「走り」の程度は、カムコーダ1を持っているユーザの「走り」の程度ではなく、被写体として写っている子供の「走り」の程度を表すものとされている。
後述するように、行動認識に用いられるセンサデータを出力する加速度センサ11やジャイロセンサ12をカムコーダ1に内蔵するのではなく、カムコーダ1との間で無線通信を行うことが可能な例えばバッジ形状の機器に内蔵することもでき、この場合、そのバッジから送信されてくるセンサデータを受信したカムコーダ1において認識される行動は、カムコーダ1を持っているユーザの行動ではなく、バッジを身につけている子供などの行動となる。これにより、ユーザは、例えば、バッジを付けている子供を被写体として撮影した画像の再生時、その子供の行動を選択して、見たいシーンを探したりすることができる。
図18は、このように、センサデータを出力する加速度センサ11やジャイロセンサ12が、カムコーダ1とは異なる筐体の機器であるセンサバッジに内蔵される場合のハードウェア構成例を示すブロック図である。図4に示すものと同じ構成には同じ符号を付してある。
図18のカムコーダ101には、加速度センサ11、ジャイロセンサ12は設けられておらず、カメラ部51、プロセッサ52、ストレージ53、および無線LAN(Local Area Network)モジュール111が設けられている。なお、無線LANモジュール111に替えて、Bluetooth(商標)、Wireless USB(Wireless Universal Serial Bus)、またはUWB(Ultra Wide Band)による通信を行うモジュールが設けられ、それによりセンサバッジ102との間での通信が行われるようにしてもよい。
一方、センサバッジ102には、加速度センサ11、ジャイロセンサ12が設けられており、この他、加速度センサ11とジャイロセンサ12による測定を開始させるとともに、測定結果をカムコーダ101に送信したりするプロセッサ121と、無線LANモジュール122が設けられている。センサバッジ102は、カムコーダ101を用いて撮影される被写体が有している。
認識対象が、撮影者の行動ではなく被写体の行動となるこのような構成の場合も、カムコーダ101においては、基本的に、図11乃至図14を参照して説明した処理と同様の処理が行われる。
すなわち、ユーザにより撮影の開始が指示されたとき、カムコーダ101のプロセッサ52は、カメラ部51を制御して撮影を行わせるとともに、加速度センサデータ、ジャイロセンサデータの測定を開始することを指示するコマンドを生成し、生成したコマンドを無線LANモジュール111からセンサバッジ102に送信させる。
センサバッジ102においては、無線LANモジュール122によりカムコーダ102からのコマンドが受信され、受信されたコマンドがプロセッサ121により実行されることによって加速度センサ11とジャイロセンサ12による測定が開始される。加速度センサ11により得られた加速度センサデータと、ジャイロセンサ12により得られたジャイロセンサデータはプロセッサ121に出力され、プロセッサ121により、無線LANモジュール122からカムコーダ102に送信される。
センサバッジ102からカムコーダ101に対するセンサデータの送信は、例えば、撮影を終了することがカムコーダ102から通知されてくるまで繰り返される。
センサバッジ102から送信されてきたセンサデータを受信したカムコーダ101においては、プロセッサ52にそれが供給され、上述したようにして行動、この場合、センサバッジ102を有する被写体の行動が認識され、認識結果の行動が、撮影された画像に関連付けられて記録される。
撮影された画像の再生時には図3のプレーヤ画面が表示され、ユーザは、そのプレーヤ画面から被写体の行動を選択して、見たいシーンを探し出すことができる。
例えば、子供にセンサバッジ102を付け、その子供が参加する運動会の様子を撮影した場合、「子供が徒競走に出ているシーン」が見たいと思ったときには、図3のプレーヤ画面で「走り」を選択し、再生するブロックを切り替えたりすることによって、撮影した画像全体の中からそのような所定のシーンだけを探し出すことができる。
通常、子供が徒競走をしているときに撮影したシーンに対しては、センサバッジ102に内蔵された加速度センサ11やジャイロセンサ12からの出力に基づいて、子供の行動として「走り」が認識され、その行動が関連付けられるから、ユーザは、「走り」を選択することによって、行動によってシーンを絞り込むことができ、容易に、「子供が徒競走に出ているシーン」を探し出すことが可能となる。
また、以上においては、撮影処理(センサデータの取得処理)、行動認識処理、および再生制御処理の全ての処理がカムコーダにおいて行われるものとしたが、撮影処理以外の、行動認識処理と再生制御処理のうちの少なくともいずれか1つの処理が、図19に示すように、カムコーダ131からのデータを取り込んだパーソナルコンピュータ/ホームサーバ132において行われるようにしてもよい。
図19のカムコーダ131には、図4のカムコーダ1と同様にカメラ部51、プロセッサ52、およびストレージ53が少なくとも設けられている。加速度センサ11とジャイロセンサ12は、カムコーダ131に内蔵されるようにしてもよいし、図18を参照して説明したようにカムコーダ131の外部の機器に内蔵されるようにしてもよい。
図20は、図19のカムコーダ131とパーソナルコンピュータ/ホームサーバ132のそれぞれのソフトウェア構成例を示すブロック図である。図5に示すものと同じ構成には同じ符号を付してある。
カムコーダ131には、図5に示す構成のうち、画像・音声データ処理部73と画像・音声データDB74だけが設けられている。また、カムコーダ131には、加速度センサ11とジャイロセンサ12により得られた加速度センサデータとジャイロセンサデータを、そのまま(例えば図8でいうraw dataのまま)記録するセンサデータDB141が設けられている。
このような構成を有するカムコーダ131においては、図12の撮影処理と同様の処理が行われる。すなわち、撮影により得られた画像データと音声データは画像・音声データDB74に記録され、その撮影と同じタイミングで取得されたセンサデータはセンサデータDB141に記録される。
一方、パーソナルコンピュータ/ホームサーバ132には、図5の構成のうち、行動認識部71、行動認識ログDB72、および閲覧・再生制御部75が設けられている。
また、パーソナルコンピュータ/ホームサーバ132には、カムコーダ131との間で有線または無線で通信を行う機能部が用意されており、その通信により、センサデータDB141に記録されている加速度センサデータとジャイロセンサデータ、並びに、画像・音声データDB74に記録されている画像データと音声データがカムコーダ131から取り込まれる。カムコーダ131から取り込まれた加速度センサデータとジャイロセンサデータはパーソナルコンピュータ/ホームサーバ132の行動認識部71に供給され、画像データと音声データは閲覧・再生制御部75に供給される。
このような構成を有するパーソナルコンピュータ/ホームサーバ132の行動認識部71においては、カムコーダ131から取り込まれた加速度センサデータとジャイロセンサデータに基づいて、図13の行動認識処理と同様の処理が行われる。また、閲覧・再生制御部75においては、行動認識部71により得られた行動認識結果と、カムコーダ131から取り込まれた画像データ、音声データに基づいて、図14の再生制御処理と同様の処理が行われる。
すなわち、図5の各構成が図20に示すように複数の機器に渡って実現される場合も、その複数の機器によって、図10の一連の処理が行われ、ダイジェスト再生などが実現される。
図21は、カムコーダ131と、パーソナルコンピュータ/ホームサーバ132のそれぞれの他のソフトウェア構成例を示すブロック図である。図5に示すものと同じ構成には同じ符号を付してある。
図21の例においては、カムコーダ131には、図5に示す構成のうち、行動認識部71、行動認識ログDB72、画像・音声データ処理部73、および画像・音声データDB74が設けられている。
このような構成を有するカムコーダ131においては、図12の撮影処理、図13の行動認識処理と同様の処理がそれぞれ行われる。すなわち、撮影により得られた画像データと音声データは画像・音声データDB74に記録されるとともに、その撮影と同じタイミングで取得されたセンサデータに基づいて得られた行動認識結果は行動認識ログDB72に記録される。
一方、パーソナルコンピュータ/ホームサーバ132には、図5の構成のうち、閲覧・再生制御部75だけが設けられている。パーソナルコンピュータ/ホームサーバ132には、カムコーダ131との間で有線または無線により通信を行う機能部が用意されており、その通信により、行動認識ログDB72に記録されている行動認識結果と、画像・音声データDB74に記録されている画像データ、音声データがカムコーダ131から取り込まれる。
パーソナルコンピュータ/ホームサーバ132の閲覧・再生制御部75においては、カムコーダ131から取り込まれた行動認識結果と、画像データ、音声データに基づいて、図14の再生制御処理と同様の処理が行われる。
すなわち、図5の各構成が図21に示すように複数の機器に渡って実現される場合も、その複数の機器によって、図10の一連の処理が行われ、ダイジェスト再生などが実現される。
ところで、以上のように、加速度センサデータやジャイロセンサデータから得られた行動の認識結果に基づいて画像や音声を再生する場合、連続して同じ認識結果が得られるのではなく、例えば1秒毎などの短時間毎に認識結果の内容が切り替わるときには、それに応じて再生位置も切り替わるから、撮影した画像などが細切れ的に再生されることになる。
例えば、座った状態で撮影していたにもかかわらず、加速度センサ11やジャイロセンサ12が内蔵されたカムコーダをテーブルに置いたときや誤って落としたとき、そのときの衝撃で瞬間的にユーザの行動として「歩き」が認識されてしまい、それにより、再生時にその座って撮影していたときのシーン全体を見たいから「静止」を選択したにもかかわらず、「歩き」が認識されたシーンだけスキップされたりすることになる。
従って、そのように短い時間だけ認識された人の行動については、それをノイズとして除去し、再生時に、比較的まとまった単位で再生が行われるように、認識結果に対して補正が施されるようにしてもよい。この補正は、例えば、撮影された画像の内容に基づいて行われる。
図22は、認識結果に含まれるノイズについて説明する図である。
図22の上には撮影された画像の例が示され、その下に、撮影時に測定された加速度センサデータとジャイロセンサデータの例が示されている。また、それらのセンサデータの下には行動の認識結果の例が示されている。
図22においては、点線で囲んで示す画像は例えば撮影者が座った状態で撮影したものであり、被写体も似ている内容のものとされている。また、実線の円で囲んで示す加速度センサデータの部分には他の部分と較べて瞬間的に大きな加速度が測定され、その円で囲んで示す部分に対応する区間においては、他の部分は主に「静止」であるにもかかわらず、行動の認識結果として「歩き」が認識されている。
すなわち、ユーザが、図22の点線で囲んで示す画像全体を続けて見たい場合、画像の再生時間全体に対応する区間に渡って「静止」の1つの認識結果が得られていることが望ましいにも関わらず、部分的に「歩き」の認識結果も含まれているから、「静止」を選択して再生した場合、「歩き」の認識結果が得られた画像はスキップされてしまい、細切れ的に再生が行われてしまうことになる。
従って、このように部分的に異なる認識結果が得られた「歩き」については、撮影された画像の内容に応じてそれを除去し、認識結果を補正することが行われる。
図23は、認識結果の補正について説明する図である。
図23においては、加速度センサデータとジャイロセンサデータの下には、画像のクラスタリング結果が示され、その下に、ノイズ除去前の行動認識結果と、画像のクラスタリング結果に基づくノイズ除去後の行動認識結果が示されている。
すなわち、内容の類似度に応じて画像のクラスタリングが行われ、点線で囲んで示す画像全体はひとつのシーンとして認識されている。そして、このようにひとつのシーンとして認識された区間におけるそれぞれの行動の認識結果(ノイズ除去前)の割合が参照され、例えば、「静止」が85%、「歩き」が15%として認識された場合、割合が15%と少ない「歩き」の部分はノイズとして除去され、ひとつのシーンとして認識された区間全体に渡る「静止」の1つの認識結果が、ノイズ除去後の認識結果として得られる。
例えば、割合の閾値として20%が設定され、設定された閾値以下の割合しか認識されていない「歩き」が関連付けられている画像の再生時間が2秒間などの閾値に満たない場合に、その「歩き」がノイズとして判断され、除去されることになる。
これにより、ユーザは、「静止」を選択することによって、似ている画像からなるひとつのシーンを連続して見ることができる。
以上のような、画像のクラスタリングを行い、ひとまとまりのシーンを認識することや、行動の割合を参照し、それに基づいてノイズを除去することは、例えば、閲覧・再生制御部75により行われる。
なお、画像のクラスタリングは、どのようなアルゴリズムに従って行われてもよいが、例えば、本出願人により先に出願された特願2004−234392号に開示されているような技術を用いることもできる。また、撮影した画像のクラスタリング結果ではなく、音声のクラスタリングにより、似た特徴の音声が記録されている区間がひとつのシーンとして判断され、その結果がノイズ除去に用いられるようにしてもよい。
図24は、カムコーダ1の他のソフトウェア構成例を示すブロック図である。図5に示すものと同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
クラスタリング部151は、画像・音声データDB74に記録されている画像データを読み出し、例えば、それぞれのフレームの特徴を抽出し、抽出した特徴に基づいて、読み出した画像データ全体を複数のクラスタに分類する。クラスタリング部151は、どの画像がどのクラスタに属するのかなどを表すクラスタリング結果ファイルを生成し、それを保存する。保存されたクラスタリング結果ファイルは、適宜、閲覧・再生制御部75(ノイズ除去部161(図25))により読み出される。
図25は、図24の閲覧・再生制御部75の詳細な構成例を示すブロック図である。図10に示すものと同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
ノイズ除去部161は、クラスタリング部151から取得したクラスタリング結果ファイルと、行動認識ログDB72から取得した行動認識結果ファイルに基づいて、図23を参照して説明したように、ひとつのシーンの区間内で認識されたそれぞれの行動の割合を求める。
また、ノイズ除去部161は、所定の閾値より低い割合しか含まれていない行動であって、かつ、その行動が関連付けられている画像を再生したときに、再生時間が閾値より短い時間となるような行動をノイズとして除去し、ひとつのシーンに対して1つの行動が関連付けられるように行動の補正を行う。
次に、図26のフローチャートを参照して、以上のように、認識結果に現れるノイズを除去して行われる再生制御処理について説明する。この処理も、図14の処理と同様、例えば図11のステップS3において行われる。
ステップS51において、閲覧・再生制御部75のノイズ除去部161は、行動認識結果ファイルを行動認識ログDB72から読み出し、また、クラスタリング結果ファイルをクラスタリング部151から読み出す。
ステップS52において、ノイズ除去部161は、クラスタリング部151から読み出したクラスタリング結果ファイルに基づいてひとつのシーン(ひとつのクラスタ)に注目し、その注目したひとつのシーンとして認識された区間におけるそれぞれの行動の認識結果の割合を、行動認識ログDB72から読み出した行動認識結果ファイルに基づいて求める。
ステップS53において、ノイズ除去部161は、例えば20%などとして設定された閾値以下の割合しか、ひとつのシーンとして認識された区間に含まれていない行動があるか否かを判定し、そのような行動があると判定した場合、ステップS54に進む。
ステップS54において、ノイズ除去部161は、そのような低い割合しか含まれていない行動が関連付けられている画像の再生時間を求め、ステップS55に進み、求めた再生時間が、例えば2秒間などとして設定された閾値以下であるか否かを判定する。
ノイズ除去部161は、ステップS55において、再生時間が閾値以下であると判定した場合、ステップS56に進み、その行動をノイズとして判断し、ひとつのシーンとして認識された区間の認識結果から除去する。
これにより、閾値以下の割合しか含まれていない行動の認識結果であって、それが関連付けられている画像を再生したとしても閾値以下の再生時間しかないような認識結果がひとつのシーンとして認識された区間から除かれることになる。ノイズが除かれた認識結果はプレーヤ画面表示制御部91と再生制御部92に出力される。
ステップS56においてノイズが除去された後、処理はステップS57に進む。また、ステップS53において、ひとつのシーンとして認識された区間に閾値以下の割合しか含まれていないような行動がないと判定された場合、また、ステップS55において、再生時間が閾値以下ではないと判定された場合も同様に、処理は、ステップS57に進む。
ステップS57以降の処理は、上述した図14のステップS33以降の処理と基本的に同様である。
すなわち、ステップS57において、プレーヤ画面表示制御部91は、プレーヤ画面全体を表示させ、ノイズ除去部161から供給されてきた補正後の認識結果を参照し、同じ行動が関連付けられたシーンの分布を表すブロックをブロック表示部23に表示させる。
ステップS58において、再生制御部92は、ユーザにより行動が選択されるのを待つ状態となり、ステップS59に進み、行動が選択されたか否かを判定する。
再生制御部92は、ステップS59において、行動が選択されたと判定するまで待機し、行動が選択されたと判定した場合、ステップS60に進む。
ステップS60において、再生制御部92は、ユーザにより選択された行動が関連付けられているシーンを再生するための画像データと音声データを画像・音声データDB74から読み出し、その再生を開始させる。例えば、ユーザにより選択された行動が関連付けられている全てのシーンの再生が終了したとき、処理は終了される。
以上においては、撮影した画像の再生時、ユーザは、1つの行動を選択することができるものとしたが、複数の行動を選択することができるようにしてもよい。
例えば、ユーザは、「ショッピングモールで買い物したシーン」が見たいと思ったときには、図3のプレーヤ画面で「歩き」と、「右ターン」または「左ターン」を選択し、再生するブロックを切り替えたりすることによって、撮影された画像全体の中からそのような所定のシーンだけを探し出すことができる。この場合、「歩き」と、「右ターン」または「左ターン」が繰り返して行動の認識結果として関連付けられているようなシーンを含むブロックが再生対象のブロックとされる。
通常、買い物をしているときに撮影したシーンに対しては、いろいろな店舗をまわり、商品を見たりすることによって、加速度センサ11やジャイロセンサ12からの出力に基づいて、撮影者であるユーザの行動として「歩き」と、「右ターン」または「左ターン」が認識され、その行動が関連付けられるから、ユーザは、「歩き」と、「右ターン」または「左ターン」を選択することによって、行動によってシーンを絞り込むことができ、容易に、「ショッピングモールで買い物したシーン」を探し出すことが可能となる。
また、以上のような機能は、カムコーダに限らず、撮影機能を有する各種の機器に搭載されるようにしてもよい。例えば、図27に示すように、デジタルカメラの他、カメラ付きのICレコーダ、音楽プレーヤ、携帯電話機などの各種の機器に搭載することが可能である。
さらに、撮影スタイルとしても、カムコーダの撮影スタイルである図28上段左側に示すガングリップスタイルに限らず、上段中央に示すデジタルカメラの撮影スタイルのようないろいろなスタイルを採用することができる。また、撮影機器は、図27の上段右側に示すように身につけるようなバッジ型の機器であってもよいし、下段左側に示すように首からぶら下げることができるような機器であってもよい。また、下段中央に示すように肩に斜め掛けすることのできる機器であってもよいし、下段右側に示すように頭部に装着することができるような機器であってもよい
上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。この場合、そのソフトウェアを実行させる装置は、例えば、図29に示されるようなパーソナルコンピュータにより構成される。
図29において、CPU(Central Processing Unit)201は、ROM(Read Only Memory)202に記憶されているプログラム、または、記憶部208からRAM(Random Access Memory)203にロードされたプログラムに従って各種の処理を実行する。RAM203にはまた、CPU201が各種の処理を実行する上において必要なデータなどが適宜記憶される。
CPU201、ROM202、およびRAM203は、バス204を介して相互に接続されている。このバス204にはまた、入出力インタフェース205も接続されている。
入出力インタフェース205には、キーボード、マウスなどよりなる入力部206、LCD(Liquid Crystal Display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部207、ハードディスクなどより構成される記憶部208、ネットワークを介しての通信処理を行う通信部209が接続されている。
入出力インタフェース205にはまた、必要に応じてドライブ210が接続される。ドライブ210には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどよりなるリムーバブルメディア211が適宜装着され、それから読み出されたコンピュータプログラムが必要に応じて記憶部208にインストールされる。
一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば、汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。
この記録媒体は、図29に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(登録商標)(Mini-Disk)を含む)、もしくは半導体メモリなどよりなるリムーバブルメディア211により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM202や、記憶部208に含まれるハードディスクなどで構成される。
なお、本明細書において、各ステップは、記載された順序に従って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
本発明の一実施形態に係るカムコーダの外観の例を示す図である。 撮影された画像と、認識結果である行動の関連付けの例を示す図である。 プレーヤ画面の表示例を示す図である。 カムコーダのハードウェア構成例を示すブロック図である。 カムコーダのソフトウェア構成例を示すブロック図である。 図5の行動認識部の詳細な構成例を示すブロック図である。 特徴データの例を示す図である。 行動認識を模式的に示す図である。 画像、センサデータ、特徴量、認識結果の例を時系列的に示す図である。 図5の閲覧・再生制御部の詳細な構成例を示すブロック図である。 カムコーダによる一連の処理について説明するフローチャートである。 図11のステップS1において行われる撮影処理の詳細について説明するフローチャートである。 図11のステップS2において行われる行動認識処理の詳細について説明するフローチャートである。 図11のステップS3において行われる再生制御処理の詳細について説明するフローチャートである。 キャラクタの例を示す図である。 プレーヤ画面の他の表示例を示す図である。 プレーヤ画面のさらに他の表示例を示す図である。 カムコーダとセンサバッジのそれぞれのハードウェア構成例を示すブロック図である。 カムコーダとパーソナルコンピュータ/ホームサーバを示す図である。 カムコーダと、パーソナルコンピュータ/ホームサーバのそれぞれのソフトウェア構成例を示すブロック図である。 カムコーダと、パーソナルコンピュータ/ホームサーバのそれぞれの他のソフトウェア構成例を示すブロック図である。 認識結果に含まれるノイズについて説明する図である。 認識結果の補正について説明する図である。 カムコーダの他のソフトウェア構成例を示すブロック図である。 図24の閲覧・再生制御部の詳細な構成例を示すブロック図である。 図11のステップS3において行われる他の再生制御処理の詳細について説明するフローチャートである。 機器の例を示す図である。 撮影スタイルの例を示す図である。 パーソナルコンピュータの構成例を示すブロック図である。
符号の説明
1 カムコーダ, 11 加速度センサ, 12 ジャイロセンサ, 51 カメラ部, 52 プロセッサ, 53 ストレージ, 71 行動認識部, 72 行動認識ログDB, 73 画像・音声データ処理部, 74 画像・音声データDB, 75 閲覧・再生制御部, 81 特徴抽出部, 82 認識部, 83 HMM DB, 91 プレーヤ画面表示制御部, 92 再生制御部

Claims (9)

  1. 画像列の撮影タイミングと同じタイミングで取得されたセンサデータに基づいて、前記センサデータを出力したセンサが内蔵された機器を有する人の行動を認識し、認識した行動の内容を、前記画像列の再生時に再生位置の選択に用いられる情報として前記画像列に関連付ける関連付け手段を備え
    前記関連付け手段は、前記センサデータから特徴を抽出し、抽出した特徴の時系列に基づいて、センサが内蔵された機器を有する人の行動をあらかじめ用意されている認識用モデルを用いて認識する
    情報処理装置。
  2. 前記画像列全体のうち、前記関連付け手段が認識可能な複数の行動の中からユーザにより選択された行動が関連付けられているシーンを再生させる再生制御手段をさらに備える
    請求項1に記載の情報処理装置。
  3. それぞれの行動が関連付けられているシーンの分布を、行動の種類毎に表示させる表示制御手段をさらに備える
    請求項1に記載の情報処理装置。
  4. 前記センサは、情報処理装置自身に内蔵、または情報処理装置とは異なる筐体の機器に内蔵される
    請求項1に記載の情報処理装置。
  5. 前記センサが情報処理装置とは異なる筐体の機器に内蔵される場合、その機器との間で無線通信を行い、前記センサデータを取得する通信手段をさらに備える
    請求項4に記載の情報処理装置。
  6. 前記画像列を構成する画像を内容に応じてクラスタリングする画像処理手段と、
    前記画像処理手段による処理結果に基づいて、内容が似ているとして判断された画像からなる1つのシーン全体に、内容が似ているとして判断されたそれぞれの画像に対して前記関連付け手段により関連付けられた行動のうちの1つの行動を関連付ける行動補正手段と
    をさらに備える請求項1に記載の情報処理装置。
  7. 画像列の撮影タイミングと同じタイミングで取得されたセンサデータに基づいて、前記センサデータを出力したセンサが内蔵された機器を有する人の行動を認識し、認識した行動の内容を、前記画像列の再生時に再生位置の選択に用いられる情報として前記画像列に関連付ける関連付けステップを含み、
    前記関連付けステップの処理においては、前記センサデータから特徴が抽出され、抽出された特徴の時系列に基づいて、センサが内蔵された機器を有する人の行動があらかじめ用意されている認識用モデルを用いて認識される
    情報処理方法。
  8. 画像列の撮影タイミングと同じタイミングで取得されたセンサデータに基づいて、前記センサデータを出力したセンサが内蔵された機器を有する人の行動を認識し、認識した行動の内容を、前記画像列の再生時に再生位置の選択に用いられる情報として前記画像列に関連付ける関連付けステップを含み、
    前記関連付けステップの処理においては、前記センサデータから特徴が抽出され、抽出された特徴の時系列に基づいて、センサが内蔵された機器を有する人の行動があらかじめ用意されている認識用モデルを用いて認識される
    処理をコンピュータに実行させるプログラム。
  9. 撮影手段と、
    前記撮影手段による画像列の撮影タイミングと同じタイミングで取得されたセンサデータに基づいて、前記センサデータを出力したセンサが内蔵された機器を有する人の行動を認識し、認識した行動を表す情報を、前記画像列の再生時に再生位置の選択に用いられる情報として前記画像列に関連付ける関連付け手段と
    を備え
    前記関連付け手段は、前記センサデータから特徴を抽出し、抽出した特徴の時系列に基づいて、センサが内蔵された機器を有する人の行動をあらかじめ用意されている認識用モデルを用いて認識する
    撮影装置。
JP2005169506A 2005-06-09 2005-06-09 情報処理装置および方法、撮影装置、並びにプログラム Active JP4289326B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005169506A JP4289326B2 (ja) 2005-06-09 2005-06-09 情報処理装置および方法、撮影装置、並びにプログラム
US11/444,467 US7917020B2 (en) 2005-06-09 2006-06-01 Information processing device and method, photographing device, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005169506A JP4289326B2 (ja) 2005-06-09 2005-06-09 情報処理装置および方法、撮影装置、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2006345270A JP2006345270A (ja) 2006-12-21
JP4289326B2 true JP4289326B2 (ja) 2009-07-01

Family

ID=37567481

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005169506A Active JP4289326B2 (ja) 2005-06-09 2005-06-09 情報処理装置および方法、撮影装置、並びにプログラム

Country Status (2)

Country Link
US (1) US7917020B2 (ja)
JP (1) JP4289326B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013065519A1 (ja) 2011-10-31 2013-05-10 ソニー株式会社 発電制御システム、発電制御プログラムおよび電子機器
US9432532B2 (en) 2013-11-01 2016-08-30 Sony Corporation Information processing apparatus, information processing method, and medium using an action state of a user
US9742988B2 (en) 2013-11-01 2017-08-22 Sony Corporation Information processing apparatus, information processing method, and program
US10558301B2 (en) 2014-08-27 2020-02-11 Sony Corporation Projection display unit

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7593627B2 (en) * 2006-08-18 2009-09-22 Sony Ericsson Mobile Communications Ab Angle correction for camera
US8929709B2 (en) 2012-06-11 2015-01-06 Alpinereplay, Inc. Automatic digital curation and tagging of action videos
US10008237B2 (en) 2012-09-12 2018-06-26 Alpinereplay, Inc Systems and methods for creating and enhancing videos
US9892761B2 (en) * 2013-02-22 2018-02-13 Fuji Xerox Co., Ltd. Systems and methods for creating and using navigable spatial overviews for video
JP6213146B2 (ja) * 2013-10-24 2017-10-18 ソニー株式会社 情報処理装置、記録媒体、および情報処理方法
US9407823B2 (en) * 2013-12-09 2016-08-02 Microsoft Technology Licensing, Llc Handling video frames compromised by camera motion
JP6094476B2 (ja) * 2013-12-27 2017-03-15 カシオ計算機株式会社 撮影システム、その制御方法、および、その制御プログラム
US10212325B2 (en) 2015-02-17 2019-02-19 Alpinereplay, Inc. Systems and methods to control camera operations
US10321208B2 (en) 2015-10-26 2019-06-11 Alpinereplay, Inc. System and method for enhanced video image recognition using motion sensors
JP6337980B2 (ja) * 2017-02-15 2018-06-06 カシオ計算機株式会社 運動状態検出装置、その制御方法、および、その制御プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6408301B1 (en) * 1999-02-23 2002-06-18 Eastman Kodak Company Interactive image storage, indexing and retrieval system
DE50000144D1 (de) * 2000-08-16 2002-05-29 Active Film Com Ag Verfahren und Vorrichtung zur Steuerung von Interaktivität von Elementen einer Videosequenz
JP4121973B2 (ja) 2004-03-26 2008-07-23 富士フイルム株式会社 シーン抽出システムおよびシーン抽出方法
US7748022B1 (en) * 2006-02-21 2010-06-29 L-3 Communications Sonoma Eo, Inc. Real-time data characterization with token generation for fast data retrieval

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013065519A1 (ja) 2011-10-31 2013-05-10 ソニー株式会社 発電制御システム、発電制御プログラムおよび電子機器
US9432532B2 (en) 2013-11-01 2016-08-30 Sony Corporation Information processing apparatus, information processing method, and medium using an action state of a user
US9742988B2 (en) 2013-11-01 2017-08-22 Sony Corporation Information processing apparatus, information processing method, and program
US10558301B2 (en) 2014-08-27 2020-02-11 Sony Corporation Projection display unit

Also Published As

Publication number Publication date
JP2006345270A (ja) 2006-12-21
US7917020B2 (en) 2011-03-29
US20060291840A1 (en) 2006-12-28

Similar Documents

Publication Publication Date Title
JP4289326B2 (ja) 情報処理装置および方法、撮影装置、並びにプログラム
US8170269B2 (en) Image processing apparatus, image processing method, and program
US9779775B2 (en) Automatic generation of compilation videos from an original video based on metadata associated with the original video
US9013604B2 (en) Video summary including a particular person
TWI579838B (zh) 編譯視訊的自動產生
JP5370170B2 (ja) 要約映像生成装置および要約映像生成方法
EP3060317B1 (en) Information processing device, recording medium, and information processing method
US20120293686A1 (en) Video summary including a feature of interest
CN101998052A (zh) 摄影装置
EP1347455A2 (en) Contents recording/playback apparatus and contents edit method
CN105556947A (zh) 用于色彩检测以生成文本色彩的方法和装置
JP5407708B2 (ja) 撮影映像処理装置、制御方法及びプログラム
JP2014086849A (ja) コンテンツ取得装置及びプログラム
JP2010252008A (ja) 撮影装置、表示装置、再生装置、撮影方法、および表示方法
JP5112901B2 (ja) 画像再生装置、画像再生方法、画像再生用サーバー、および画像再生システム
US20110064384A1 (en) Reproduction control apparatus, reproduction control method, and program
JP2005286378A (ja) 動画像再生システムおよび動画像再生方法
JP2009211341A (ja) 画像の表示方法およびその表示装置
KR101748576B1 (ko) 이동통신 단말기에서 동영상 데이터를 세그먼팅하기 위한 장치 및 방법
JP2012010133A (ja) 画像処理装置および画像処理プログラム
JP6038256B2 (ja) 画像検索システムおよび画像検索方法
JP5895921B2 (ja) 撮影映像処理装置、制御方法及びプログラム
JP5851375B2 (ja) 画像検索システムおよび画像検索方法
JP6064404B2 (ja) 画像処理装置、画像処理方法及びプログラム
WO2015127385A1 (en) Automatic generation of compilation videos

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090310

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090323

R151 Written notification of patent or utility model registration

Ref document number: 4289326

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120410

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130410

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140410

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250