JP4228673B2

JP4228673B2 - 映像処理装置、映像処理方法及びプログラム

Info

Publication number: JP4228673B2
Application number: JP2002352164A
Authority: JP
Inventors: 宏樹吉村; 和貴平田
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2002-12-04
Filing date: 2002-12-04
Publication date: 2009-02-25
Anticipated expiration: 2022-12-04
Also published as: JP2004187043A

Description

【０００１】
【発明の属する技術分野】
本発明は、ビデオカメラなどで撮影される映像に入力制御や編集といった映像制御処理を加える技術に関し、特に、当該制御処理を映像中の被写体の行動態様から直接特定した特徴的な動作に基づいて行う技術に関する。
【０００２】
【従来の技術】
例えば、企業活動において、会議や講演会をビデオカメラで撮影して録画し、後に録画した映像を利用することが行われているが、企業の機密情報を含む会議などについては撮影された映像中に部分的に記録を残せない場面がある。このような場面では、映像の被写体となる話者としては、機密情報を含む場面を記録に残さないようにするために、意図的に自ら映像の録画を止めたい場合もある。
従来は、ビデオカメラを操作するカメラマンに指示して映像の撮影を中止させたり、または、撮影後に編集者が映像中の該当部分を削除する編集作業を行って、上記事情に対処していた。
【０００３】
ここで、上記事情の対処技術として、以下に説明するように、本発明の着想に照らせば、被写体となる話者の身体動作による行動態様（例えば、ジェスチャー）や音響出力動作による行動態様（例えば、「カット」などの所定の音声出力）によって、撮影される映像に入力制御や編集処理と言った映像制御処理を行えるようにするのが、人間の自然な動作による映像制御処理がなされて、会話などの連続性を妨げることなく実用上は極めて有効であると考える。
しかしながら、従来にあっては、このような技術は実現されてはおらず、その着想すらなされていなかった。
【０００４】
従来、ジェスチャーによる機器制御として、以下のような技術が知られている。
撮影者が腕と手に身体の動きを示す筋電信号を検出する装置を装着し、撮影者の動作を筋電信号として検出することによって、カメラをコントロールする電子カメラシステムが知られている。この電子カメラシステムでは、カメラ制御コマンドは、手首から先の手や指の動きおよび二の腕の動きの組み合わせからなる所定のジェスチャーに関連付けられており、撮影者は腕と手を動かすだけでその動きが筋電信号を検出する装置の信号検出部によって検出され、当該ジェスチャーに定義付けられているコマンドによってカメラが制御される（特許文献１参照）。
【０００５】
また、人間の身振りや手振りなどから抽出した固有の特徴パラメータを利用する各種の技術も知られている。
動画キャラクターの動作を自然にするため、動作者のジェスチャーを映像から取得し、動作を再生可能な基準にパラメータ化して、パラメータにタグを付け記憶し、キャラクター動作に利用するパフォーマンス動画ジェスチャーの取得及び動画キャラクター上での再生方法及び装置が知られている（特許文献２参照）。
【０００６】
映像中のオブジェクトに対するモーション情報を効率的に記述するために、モーションヒストグラムを累積した累積モーションヒストグラムを生成し、映像中の被写体に対するモーション情報を効率的に記述したモーションディスクリプタを生成し、ビデオ検索に利用する累積モーションヒストグラムを利用したモーションディスクリプタ生成装置及びその方法が知られている（特許文献３参照）。
【０００７】
また、ジェスチャー認識を行うために、モデルを構築して、映像中に連続するフレーム画像から精度よく被写体の動作と構造を推定する技術も知られている。
動画像を構成する複数のフレーム画像の各々をベクトル空間上の１つの点とみなし、当該点の動作軌跡をジェスチャーの種類毎の特徴パラメータとし、当該抽出された特徴パラメータと基準パターンの特徴パラメータとを比較することにより、ジェスチャー認識を行うジェスチャ動画像認識方法が知られている（特許文献４参照）。
【０００８】
映像中において被写体により行われるジェスチャーに関して、問いかけ(身を乗り出す)または同意(うなづく)など、ジェスチャーの意味的な単位に付与される意味ラベルを構築し、意味ラベルからジェスチャーの意味を抽出して、ジェスチャーの開始時刻と終了時刻を記述したスクリプト生成を行うジェスチャ映像再構成方法および装置およびその方法を記録した記録媒体が知られている（特許文献５参照）。
【０００９】
動画像を構成する複数の画像フレームを入力し、画像フレーム間における少なくとも３つの特徴点の位置の変化から画像フレーム間のアフィン変形を推定して、対象物体の動きおよび構造を検出する動画像処理装置が知られている（特許文献６参照）。
【００１０】
【特許文献１】
特開２０００―１３８８５８号公報
【特許文献２】
特開２００１―２２９３９８号公報
【特許文献３】
特開２０００―２２２５８６号公報
【特許文献４】
特開平９―２４５１７８号公報
【特許文献５】
特開平１１―２３８１４２号公報
【特許文献６】
特開平６―８９３４２号公報
【００１１】
【発明が解決しようとする課題】
しかしながら、従来では以下のような種々の問題があった。
上述した従来技術の共通な問題点として、利用者にジェスチャーを認識するための特別な装置や器具を装着することなしに、あるいは、撮影装置の操作用リモコンを用いることなしに、利用者が撮影中に映像の制御処理操作をすることができないという問題があった。
【００１２】
より具体的には、特許文献１に記載される技術では利用者はカメラを操作するための認識装置を体に装着しなければならず、また、特許文献２に記載される技術ではジェスチャーを識別するためセンサを利用者が体に装着しなければならず、利用者の自然な状態での行動を妨げたり、これら特別な装備を用意しなければならないものである。
また、特許文献３乃至６に記載される技術は、被写体のジェスチャーを認識するための技術を開示するだけで、映像の入力制御や編集制御に応用可能な要素技術でしかない。
【００１３】
本発明は上記従来の事情に鑑みなされたものであり、被写体に特段の装備を施す必要をなくして、映像中の被写体の自然な動作に基づく映像制御処理を実現することを目的としている。
なお、本発明の更なる目的は以下の説明において明らかなところである。
【００１４】
【課題を解決するための手段】
本発明に係る映像処理装置は、ビデオカメラなどの映像入力手段によって入力された映像から、映像制御処理手段が、被写体の身体動作又は音響出力動作による特徴的な行動態様を特定し、所定の特徴的行動態様に基づいて映像に対して対応する制御処理を加えるための制御信号を出力する。
そして、本発明に係る映像処理装置は、上記制御信号応答して、映像編集手段がある場面を削除するなどと言った対応する編集処理を映像入力手段から入力されてメモリなどに蓄積される映像に加える、又は、映像入力制御手段がビデオカメラをフェードアウトさせるなどと言った対応する制御を映像入力手段からの映像入力に加える映像制御処理を行う。
【００１５】
したがって、被写体に制御用の特段の装備を行う必要なく、映像中の被写体の自然な動作による行動態様に基づいて、映像編集制御や映像入力制御などといった映像制御処理を行うことができる。すなわち、このような映像制御処理を、映像中の被写体画像自体から直接抽出した特徴や、映像中の被写体音響自体から直接抽出した特徴に基づいて行うことができる。
【００１６】
より具体的には、本発明に係る映像処理装置は、映像制御処理手段として、入力された映像から被写体の身体動作又は音響出力動作による特徴的な行動態様を特定する特徴量抽出手段と、身体動作又は音響出力動作による行動態様モデルを保持したモデル記憶手段と、特徴量抽出手段により特定された行動態様とモデル記憶手段に保持された行動態様モデルとの整合性を判定する整合手段と、を有し、整合手段による判定結果に基づいて前記制御信号を出力する。
このように本発明は種々な態様の映像処理装置として把握されるが、例えば当該映像処理装置を動作させることにより実施される映像制御方法や、当該映像処理装置をコンピュータにより実現するプログラムとしても把握される。
【００１７】
【発明の実施の形態】
本発明を実施例に基づいて具体的に説明する。
図１には本発明の第１実施例に係る映像処理装置の構成を示してある。
ここで、本例は、映像中の被写体のジェスチャー（身体動作による行動態様）に基づいて入力された映像に場面削除などの編集処理を加えるものであるが、本発明は、映像中の被写体のジェスチャー（身体動作による行動態様）に基づいて入力映像の切替えなどの制御処理を行う、又は、映像中の被写体の音声出力内容（音響出力動作による行動態様）に基づいて上記のような編集処理若しくは入力映像制御を行う、又は、これらを組み合わせるなどと言った種々な実施形態をすることができる。
【００１８】
図１に示すように、本例の映像処理装置は、映像入力部１、身体特徴量抽出部２、ジェスチャー・モデル記述部３、整合部４、カット点抽出部５、映像編集部６、映像蓄積部７を備えている。
なお、上記した種々な実施形態についても同様であるが、例えば本発明の主要な機能である映像制御処理手段（本例では、身体特徴量抽出部２、整合部４、カット点抽出部５）をコンピュータに本発明に係るプログラムを実行させることにより構成してもよく、これによって、入力された映像から被写体の特徴的な行動態様を特定して、所定の特徴的行動態様に基づいて映像に対して対応する制御処理を加えるための制御信号を出力するようにしてもよい。
【００１９】
映像入力部１は、ビデオカメラ、ビデオキャプチャ装置を備えたコンピュータ、又は、他で撮影された映像信号を入力するインタフェースなどによって構成され、被写体である後援者を含む会議の映像（動画像）を撮像又は装置内に取り込む。
撮像された映像は図２に示すように連続する多数の画像フレーム９からなる動画像データであり、撮影時に、各画像フレームには識別子として順次フレーム番号（001、002・・）と映像時間情報（ｔ1、ｔ2・・）が付加される。
【００２０】
身体特徴量抽出部２には映像入力部１から画像フレーム単位で映像が入力され、図３に示すように、身体特徴量抽出部２は、被写体Ｍを含む入力された画像フレーム９から（同図（ａ））、身体特徴量（身体動作による特徴的な行動態様を表す線分モデルＣ）を識別し（同図（ｂ））、当該身体特徴量Ｃを抽出し（同図（ｃ））、抽出された身体特徴量Ｃを整合部４に出力する。
【００２１】
なお、後述するように、身体特徴量Ｃは図４に示すように、被写体Ｍのジャスチャーを特徴付けて表す線分Ｌ1〜Ｌ7からなる線分モデルとして処理される。より具体的には、本例では、図３（ａ）に示すように被写体Ｍが両腕を広げて、その両手の二本の指をＶ字型に開いた行動態様（蟹を模したジェスチャーであるので、カニモデルとも称せられる）を編集処理の制御タイミングに利用しているため、線分モデルＣは、図４に示すように、被写体Ｍの二本の指に対応する部位線分データ（Ｌ1及びＬ2とＬ6及びＬ7）、二本の腕に対応する部位線分データ（Ｌ3とＬ5）、頭部及び胴体部に対応する部位線分データ（Ｌ4）である。
【００２２】
身体特徴量抽出部２は、抽出した身体特徴量Ｃとともに、図５に示すように抽出した画像フレームのフレーム番号１１と抽出した身体特徴量Ｃを識別する身体特徴量ＩＤ１１を整合部４へ出力する。
ジェスチャーモデル記述部３は、所定のジェスチャーモデルデータを記憶したメモリ及び当該データに基づいて図６に示すようなジェスチャーモデルＪを記述する機能を有しており、身体特徴量抽出部２から抽出された身体特徴量Ｃが出力されたことに応じて、当該身体特徴量Ｃとマッチング評価するためにジェスチャーモデルＪを記述して当該ジェスチャーモデルＪを整合部４に出力する。
【００２３】
整合部４は、身体特徴量抽出部２から入力した身体特徴量Ｃとジェスチャーモデル記述部３から入力したジェスチャーモデルＪを比較し、身体特徴量ＣとジェスチャーモデルＪがマッチングしているか否かを判定し、図７に示すように、画像フレーム毎の判定結果（整合又は不整合）１２をフレーム番号１０に対応付けてカット点抽出部５に出力する。
【００２４】
カット点抽出部５は、映像中の削除編集（カット）を行う範囲を決定して、当該決定結果に応じた制御信号を映像編集部６に出力する。具体的には、カット点抽出部５は、整合部４から入力した判定結果１２に基づいて、判定結果１２が身体特徴量ＣとジェスチャーモデルＪとが整合しているものであるときには、映像データ中のカット開始時刻及びカット終了時刻に対応するフレーム番号１０を取得し、これらフレーム番号で挟まれた部分を映像データ中から削除させる指示を映像編集部６に出力する。
【００２５】
なお、この指示はフレーム番号に代えて映像中の画像フレーム時刻を直接指定した制御信号で行ってもよく、また、この指示は、カット開始時刻を指示して映像編集部６が開始時刻から所定時間後にカット処理を終了するようにしたり、或いは、カット終了時刻を指示して映像編集部６が終了時刻から所定時間遡った時刻からカット処理を開始するようにしてもよい。
【００２６】
映像編集部６は、カット点抽出部５から入力した制御情報に基づいて、映像入力部１から入力された映像データを編集して、当該映像編集済データを映像蓄積部７に出力し、メモリからなる映像蓄積部７のデータベースに格納させる。
具体的には、カット点抽出部５からの制御情報に応答して、映像データの該当映像部分を削除して映像蓄積部７に格納させる。
【００２７】
次に、本例の身体特徴量抽出に関する処理について詳しく説明する。
図８には身体特徴量抽出部２が行う本例の身体特徴量抽出の処理手順を示してあり、まず、画像入力部１から画像フレームが入力されると当該画像フレームを二値化して、図９に示すように、当該二値化画像データ１６を身体特徴量抽出部２の作業領域として映像処理装置に設けられている内部メモリ１５に保持する（ステップＳ１）。
【００２８】
そして、身体特徴量抽出部２が二値化画像データ１６から、被写体Ｍのいわゆる細線化画像データ１７を抽出し、さらに、細線化画像データ１７から線分分割をして、二本の指、二本の腕、頭部及び胴体部に対応する部位線分データ１８を抽出し、当該部位線分データ１８を内部メモリ１５に保持して、身体特徴量抽出処理を終了する（ステップＳ２）。なお、この処理は画像入力部１から画像フレームが入力される毎に繰り返し行われ、内部メモリ１５に保持された部位線分データ１８は特徴量Ｃとして上記のように整合部４へ順次出力される。
【００２９】
すなわち、身体特徴量抽出処理は、図３（ａ）に示すように被写体Ｍの画像を抽出して二値化し、同図（ｂ）に示すように例えば被写体Ｍの外郭を成す稜線間の中央位置を結ぶことにより骨格線を抽出し、更に、同図（ｃ）、詳しくは図４に示すように二本の指、二本の腕、頭部及び胴体部に該当する部位線分データに分解する処理である。
【００３０】
次に、ジェスチャーモデルＪについて説明する。
図６は、ジェスチャーモデルＪの概念を示しており、本例のジェスチャーモデルＪは、二本の指、二本の腕、頭部及び胴体部を特定する記述で構成されている。右腕はR_ARM、右手の第一の指をR_FINGER1、右手の第二の指をR_FINGER2とする。左腕はL_ARM、左手の第一の指をL_FINGER1、左手の第二の指をL_FINGER2とする。胴体を含む頭部をHEADとする。
【００３１】
すなわち、体全体をBODYとすると、ジェスチャーモデルＪは次のような組み合わせによる記述である。
BODY(t):=(HEAD(t),R_ ARM(t),L_ ARM(t))
R_ ARM(t):=(R_FINGER1(t),R_FINGER2(t))
L_ ARM(t):=(L_FINGER1(t),L_FINGER2(t))
【００３２】
ここで、本例のジェスチャーモデルＪは、モデルの時間的変化も表す時間パラメータｔを含んで記述されている。これは、ジェスチャーモデルＪの形態に時間変化を与えることによって、時間と共に変化している被写体Ｍの動作の内の或る画像フレームがジェスチャーモデルＪに整合すれば編集処理を行うようにするためであり、これによって、整合性検出の幅をもたせることにより被写体Ｍたる講演者が所期の動作指示を行い易くしている。
【００３３】
図１０には二本の指の開閉動作の概念を示すが、R_FINGER1ならびにR_FINGER2（L_FINGER1ならびにL_FINGER2）は、接続部を中心にそれぞれ時間が経つごとに離合する。具体的には、同図（ａ）に示す或る時刻ｔ1において、R_FINGER1(t1)およびR_FINGER2(t1) の二本の指がR_ARMとの接合点を中心に或る角度（例えば、約30度）まで開いており、同図（ｂ）に示すその後の或る時刻ｔ2においては、R_FINGER1(t2)およびR_FINGER2(t2)の二本の指が、R_ARMの接合点中心に、閉じていることを表している。
したがって、部位線分データがR_FINGER1などジェスチャーモデルＪの要素に対して、それぞれが対応していれば整合部４によって整合したと判定される。
【００３４】
次に、整合部４による部位線分データとジェスチャーモデルＪとの整合判定処理について説明する。
整合部４は、図４に示すようなそれぞれの部位線分データ（Ｌ1〜Ｌ7）が、図６に示すようなR_FINGER1などのジェスチャーモデルＪの要素に対して対応していれば、整合したと判定する。
【００３５】
具体的には、図４に示すように、Ｌ1、Ｌ2およびＬ3は一点で接続され、また、Ｌ3、Ｌ4およびＬ5は一点で接続され、さらに、Ｌ5、Ｌ6、およびＬ7は一点で接続されている。
このＬ1、Ｌ2およびＬ3はR_FINGER2、R_FINGER1およびR_ARMに対応し、Ｌ3、Ｌ4およびＬ5はR_ARM 、HEAD、L_ ARMに対応し、Ｌ5、Ｌ6およびＬ7はL_ARM、L_FINGER1、L_FINGER2に対応する。
これらの部位線分データＬ1〜Ｌ7とジェスチャーモデルＪの各要素の接続関係や位置の対応が取れた場合に、身体特徴量ＣとジェスチャーモデルＪが整合したと判断される。
【００３６】
これらの身体特徴量ＣとジェスチャーモデルＪの整合判定が、連続した画像フレーム９に対して順次行われ、整合が取れた画像フレーム９をカット点（削除編集点）の候補とする。
ここで、ジェスチャーモデルＪに時間幅をもたせた本例では特に、整合の取れた画像フレーム９が複数連続して候補とされる場合が想定されるが、これら複数の画像フレームの中から、先頭のもの、最後のもの、真中のものなどといったように、カット点を規定する画像フレーム画像を特定して、当該画像フレーム番号を用いて映像編集処理を行えばよい。
【００３７】
なお、本発明では、映像中のジェスチャーモデルＪに整合する画像フレーム位置に基づいて、当該位置から所定時間の映像部分を削除する、あるいは、当該位置から所定時間遡った位置から当該位置までの映像部分を削除する、あるいは、整合する画像フレームが連続する映像部分を削除する、あるいは、図１１に示すように、映像中の整合する或る画像フレームＡの位置から削除処理を開始して次にまた整合する画像フレームＢが現れたところで削除処理を終了するなどと言ったように、種々な態様で編集処理範囲を設定すればよい。
【００３８】
上記の例は被写体Ｍのジェスチャーと言う身体動作による特徴的な行動態様に基づいて編集処理を行うようにしたが、本発明は、映像中で被写体が発した音声などの音響的出力動作による特徴的な行動態様に基づいて編集処理を行うようにしてもよい。
例えば、図１２に示すように、映像に映像データ（動画トラック）２０と被写体が発した音声データ（音声トラック）が含まれている場合、各音響トラック２１ａ、２１ｂの開始点や終了点、或いは、音響トラック２１ａ、２１ｂの切換え点を編集処理の開始や終了の位置として利用するようにしてもよい。
【００３９】
具体的には、発言毎に音響トラックを異ならせておき、上記の開始点などを編集処理の制御タイミングの候補としてジェスチャーモデル整合と併せて利用することができる。
例えば、音声トラックの開始時刻をカット点とする場合には、身体特徴量ＣとジェスチャーモデルＪとの整合によって特定されたカット点をカット終了点として映像を削除編集すればよく、また、音声トラックの終了時刻をカット点とする場合には、身体特徴量ＣとジェスチャーモデルＪとの整合によって特定されたカット点をカット開始点として映像を削除編集すればよい。
【００４０】
なお、音声トラックの連続性を検出する方法としては、図１３に示すような無音区間に基づく方法を採用することができる。
音声データの連続性を検出する場合、音量レベルを計測して、音量レベルが既定の閾値以下になったときには、その時間を無音状態時間Δtとして検出する。例えば、或る映像データにおいて、音声トラックAudio aの直後に無音状態時間Δt、続いて音声トラックAudio bが検出された場合、無音状態時間Δtが所定時間（例えば、５秒）以内であれば、音声トラックAudio aとAudio bは連続した音声トラックとして取り扱い、所定時間を上回る時にはこれらを異なる音声トラックとして取り扱うようにすればよい。
【００４１】
さらに、本発明において、映像データに含まれる音声などの被写体が発した音響データをより積極的に編集処理に利用する場合には、例えば、図１に示した装置構成において、身体特徴量抽出部２を映像中に含まれる音響データをその映像中の時刻情報と共に抽出するものとし、ジェスチャーモデル記述部３を図１４に示すように所定の語句（例えば、「カット」）の音声波形モデルを記述したものとし、整合部４を映像中から抽出された音響データと音声波形モデルとの整合性を判定するものとして、被写体である講演者が所定の音声を発したこと及び発した時点に応じて、カット点抽出部５が編集処理の内容や範囲を決定して、映像編集部６に制御信号を出力して対応する編集処理を映像入力部１から入力された映像に施すようにしてもよい。
【００４２】
また、上記の説明では、映像中の被写体による身体動作や音響出力動作に基づいて、入力されて蓄積される映像に編集処理を施すようにしたが、本発明では、これら映像中の被写体による身体動作や音響出力動作に基づいて、例えば映像入力部１を構成するビデオカメラを他のビデオカメラに切換えると言った映像入力制御を行うようにしてもよい。
【００４３】
この場合には、例えば、図１５に示すような装置構成として、上記と同様にして整合部４で特定された画像フレーム位置を制御点抽出部３５が制御の開始や終了の位置として利用し、これに基づいて映像制御部３６が映像入力部１へ映像入力の態様を変更する制御信号を出力するようにすればよい。
なお、図１５には図１に示した構成と同一部分には同一符号を付してある。また、図１５にはジェスチャーモデルによる整合処理の例を示すが、被写体の発した音響出力による整合処理についても上記と同様に適用できる。
【００４４】
このように映像入力の制御を行うことにより、被写体となる講演者はカメラマンに指示を与えずとも、自らのジェスチャーや発言内容などに基づいて、複数台あるビデオカメラを切換えて異なるアングルの映像を撮影する、ビデオカメラをフェードアウトさせたり入力映像にモザイク掛け処理を行って映像中に機密資料が明瞭に映らないようにする、映像入力部１の入力経路を切換えて代替映像を入力するようにする、などと言った映像入力操作を行うことができる。
【００４５】
なお、上記の説明では、音響出力動作を被写体が発した音声を例にして説明したが、本発明は、音声以外に、被写体が手を叩いて発した音や、被写体がベルやブザーを操作して発した音などと言った種々な態様の音響を編集や映像入力の制御に用いることができる。
また、上記の説明では、編集処理を映像部分の削除を例にとって説明したが、本発明は、これ以外に、映像部分の解像を低下させる、映像部分中にモザイク掛けをする、映像部分中に注釈を加入するなどと言った種々な態様の編集処理を採用することができる。
【００４６】
【発明の効果】
以上説明したように、本発明によると、映像から被写体の特徴的な行動態様を抽出し、これを起点や終点として映像の制御処理を行うようにしたため、被写体が映像に記録されたくない箇所を削除するなどといった制御処理を被写体人物による会話などの連続性を妨げない自然な人間の動作で実現することができる。
【図面の簡単な説明】
【図１】本発明の一実施例に係る映像処理装置の構成を示す図である。
【図２】映像データの構成を説明する図である。
【図３】本発明の一例に係るジェスチャー抽出を説明する図である。
【図４】本発明の一例に係る部位線分データ（特徴量）を説明する図である。
【図５】本発明の一例に係る身体特徴量抽出部が出力するデータ例を示す図である。
【図６】本発明の一例に係るジェスチャーモデルを説明する図である。
【図７】本発明の一例に係るカット点情報のデータ例を示す図である。
【図８】本発明の一例に係る身体特徴量抽出の処理手順を示す図である。
【図９】本発明の一例に係る身体特徴量抽出処理の内部メモリのデータ例を示す図である。
【図１０】本発明の一例に係る二本の指の開閉を説明する図である。
【図１１】本発明の一例に係るカット点による映像データ編集部分を説明する図である。
【図１２】本発明の一例に係るジェスチャーモデルと音声処理の組合せによるカット点を説明する図である。
【図１３】本発明の一例に係る音声情報の連続性検出を説明する図である。
【図１４】本発明の一例に係る音声情報モデルを説明する図である。
【図１５】本発明の他の一実施例に係る映像処理装置の構成を示す図である。
【符号の説明】
１：映像入力部、２：身体特徴量抽出部、
３：ジェスチャーモデル記述部、４：整合部、
５：カット点抽出部、６：映像編集部、
７：映像蓄積部、９：画像フレーム、
３５：制御点抽出部、３６：映像制御部、
Ｃ：特徴量、Ｊ：ジェスチャーモデル、
Ｌ1〜Ｌ7：部位線分データ、Ｍ：被写体、

Claims

映像に対して所定の制御処理を加える映像処理装置であって、
蓄積対象の映像を入力する映像入力手段と、
前記入力された映像から被写体の特徴的な行動態様を特定し、前記入力された映像を構成する各画像フレームのうち所定の特徴的行動態様に対応する画像フレームを削除または不明瞭化する編集処理を加えるための制御信号を出力する映像制御処理手段と、
前記出力された制御信号に対応する編集処理を前記入力された映像に対して加え、当該編集後の映像を出力して映像蓄積部に格納させる映像編集手段と、
を備えたことを特徴とする映像処理装置。
請求項１に記載の映像処理装置において、
前記映像制御処理手段は、前記入力された映像から被写体の身体動作による特徴的な行動態様を特定する特徴量抽出手段と、身体動作による行動態様モデルを保持したモデル記憶手段と、前記特徴量抽出手段により特定された行動態様と前記モデル記憶手段に保持された行動態様モデルとの整合性を判定する整合手段と、を有し、前記整合手段による判定結果に基づいて前記制御信号を出力することを特徴とする映像処理装置。
請求項２に記載の映像処理装置において、
前記モデル記憶手段に保持される行動態様モデルは、身体動作の時間変化を表す時間幅をもった記述形式であることを特徴とする映像処理装置。
請求項１に記載の映像処理装置において、
前記映像入力手段から入力される映像は音響情報を含み、
前記映像制御処理手段は、前記入力された映像から被写体による音響出力動作による特徴的な行動態様を特定する特徴量抽出手段と、音響出力動作による行動態様モデルを保持したモデル記憶手段と、前記特徴量抽出手段により特定された行動態様と前記モデル記憶手段に保持された行動態様モデルとの整合性を判定する整合手段と、を有し、前記整合手段による判定結果に基づいて前記制御信号を出力することを特徴とする映像処理装置。
映像に対して所定の制御処理を加える映像処理方法であって、
蓄積対象として入力された映像から被写体の特徴的な行動態様を特定し、
前記入力された映像に対し、当該映像を構成する各画像フレームのうち前記特定された所定の特徴的行動態様に対応する画像フレームを削除または不明瞭化する編集処理を加え、当該編集後の映像を出力して映像蓄積部に格納させることを特徴とする映像処理方法。
映像に対して所定の制御処理を加える映像処理方法であって、
蓄積対象として入力された映像から被写体の身体動作による特徴的な行動態様を特定し、
前記特定された行動態様と予め用意された行動態様モデルとの整合性を判定し、
前記入力された映像に対し、当該映像を構成する各画像フレームのうち前記判定結果に基づいて特定される画像フレームを削除または不明瞭化する編集処理を加え、当該編集後の映像を出力して映像蓄積部に格納させることを特徴とする映像処理方法。
映像に対して所定の制御処理を加える映像処理方法であって、
蓄積対象として入力された音響情報を含む映像から被写体による音響出力動作による特徴的な行動態様を特定し、
前記特定された行動態様と予め用意された行動態様モデルとの整合性を判定し、
前記入力された映像に対し、当該映像を構成する各画像フレームのうち前記判定結果に基づいて特定される画像フレームを削除または不明瞭化する編集処理を加え、当該編集後の映像を出力して映像蓄積部に格納させることを特徴とする映像処理方法。
入力された映像に対して所定の制御処理を加える映像制御をコンピュータにより実行させるプログラムであって、
蓄積対象として入力された映像から被写体の特徴的な行動態様を特定する機能と、
予め用意された行動態様モデルをメモリから取得する機能と、
前記特定された行動態様と前記取得された行動態様モデルとの整合性を判定する機能と、
前記入力された映像を構成する各画像フレームのうち前記判定結果に基づいて特定される画像フレームを削除または不明瞭化する編集処理を加えるための制御信号を出力する機能と、
前記出力された制御信号に対応する編集処理を前記入力された映像に対して加え、当該編集後の映像を出力して映像蓄積部に格納させる機能と、をコンピュータに実現させるためのプログラム。