JP2002223412A

JP2002223412A - 画像処理装置、画像処理システム、画像処理方法、記憶媒体、及びプログラムソフトウェア

Info

Publication number: JP2002223412A
Application number: JP2001018785A
Authority: JP
Inventors: Kazuyo Ikeda; 和世池田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2001-01-26
Filing date: 2001-01-26
Publication date: 2002-08-09
Anticipated expiration: 2021-01-26
Also published as: JP4536940B2

Abstract

(57)【要約】【課題】従来よりも動画の内容を容易に且つ正確に認
識することが可能な画像処理装置を提供する。【解決手段】対象動画を部分動画に分割し（１５
１）、当該分割された部分動画から代表画像を抽出し
（１５３）、上記分割された部分動画を統合し（１５
２）、上記抽出された代表画像に基づいて上記統合され
た統合部分動画の代表画像を生成する（１５４）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えば、動画を処
理するコンピュータやビデオ録画装置等に用いられる、
画像処理装置、画像処理システム、画像処理方法、それ
を実施するための処理ステップをコンピュータが読出可
能に格納した記憶媒体、及びソフトウェアに関するもの
である。

【０００２】

【従来の技術】例えば、動画はその構成上、階層構造を
形成することが多い。ここでは、以下の説明において混
乱を避けるために、動画の階層構造に関する主なる用語
について、次のように定義する。・撮影を中断せずに一台のカメラで撮影して得られた一
連の動画像を「ショット」と言う。・動画像の構成や内容の連続性等に基づいて複数の「シ
ョット」を統合したもの、あるいは、1つの場面を複数
のカメラで撮影して得られた複数の「ショット」を統合
したものを「シーン」と言う。また、複数のシーンを統
合したものも同じく「シーン」と言う。・パンやズーム等のカメラの動きを考慮して「ショッ
ト」を分割、あるいは、写っている物体の出入りを考慮
して「ショット」を分割したものを「サブシヨット」と
言う。

【０００３】そこで、上記の階層構造を利用して動画の
検索や編集等を行う画像処理装置として、例えば、特開
平５−３０４６４号や特開平５−２８２３７９号等で提
案された装置がある。このような画像処理装置では、動
画を階層構造として画面表示し、当該表示画面上から動
画の検索や編集等を行えるようになされている。

【０００４】図１５は、上記画像処理装置において、動
画を階層構造として表示した画面を示したものである。
上記図１５において、“７０５”は、シーンの代表画像
を示し、“７０４”は、当該シーンに含まれるショット
の代表画像を示し、“７０１”〜“７０３”は、当該シ
ョットに含まれるサブショットの代表画像を示す。

【０００５】上記の代表画像としては、サブショツト
や、ショット及びシーンを代表するフレームを１つだけ
選び、そのフレーム（代表フレーム）の縮小画像を用い
ている。代表フレームの選択方法としては、例えば、シ
ョットやシーンの先頭のフレームを自動的に選択する方
法や、ユーザから指定されたフレームを代表フレームと
する方法等が提案されている。

【０００６】一方、複数のショットを統合してシーンを
形成する方法としては、例えば、「繰り返しショットの
統合による階層化アイコンを用いたビデオ・インターフ
ェース」（情報処理学会論文誌：Ｖｏ１．３９、Ｎｏ．
５,１９９８）等に記載された方法がある。この方法で
は、ドラマ等で複数の人間が対話するシーンでは各発話
者をアップにしたショットが発話毎に切り替わり同一シ
ーン中に類似するショットが複数回出現する、という規
則性を利用して、自動的にショットをシーンに統合する
ようになされている。

【０００７】

【発明が解決しようとする課題】しかしながら、上述し
たような従来の画像処理装置及び方法では、動画を階層
構造として画面表示するために、シーンやショットの代
表フレームを１枚だけを選択しても、その代表フレーム
が、当該シーンやショットの内容を十分に表現している
とは言えなかった。このため、あるシーン或いはショッ
トの内容を把握するためには、それ下位のノードの代表
フレームを見なければならなかった。

【０００８】また、複数のショットを自動的に統合して
形成されたシーンが、例えば、対話シーンである場合、
統合して得られた当該シーンの代表フレームとして、発
話者の１人のみが存在するフレームが選択される場合が
あった。このため、この代表フレームからは、対話シー
ンであるということが把握できない場合があった。

【０００９】また、動画中に人間が存在するショット
は、人間が存在しないショットに比べて重要なショット
であることが一般的であるが、任意のショットの代表フ
レームを選択するようにすると、人間が存在しないショ
ットの代表フレームが選択される場合があった。これ
は、シーンの内容を十分に代表していない。

【００１０】また、選択された代表フレームに人間が存
在する場合、これを縮小して画面表示することになるた
め、当該表示画面上で、誰が出現しているのか識別しづ
らかった。

【００１１】そこで、本発明は、上記の欠点を除去する
ために成されたもので、動画が階層構造として表示され
た画面から、各階層の動画（部分動画）の内容を容易に
且つ正確に認識することが可能な、画像処理装置、画像
処理システム、画像処理方法、、上記画像処理の処理ス
テップをコンピュータに実行させるためのプログラムが
記憶された記憶媒体、及び上記画像処理方法をコンピュ
ータに実行させるためのプログラムソフトウェアを提供
することを目的とする。

【００１２】

【課題を解決するための手段】斯かる目的下において、
第１の発明は、動画を処理する画像処理装置であって、
対象動画を部分動画に分割する分割手段と、上記分割
手段で得られた部分動画から代表画像を抽出する抽出手
段と、上記分割手段で得られた部分動画を統合する統合
手段と、上記抽出手段で得られた代表画像に基づいて、
上記統合手段で得られた統合部分動画の代表画像を生成
する生成手段とを備えることを特徴とする。

【００１３】第２の発明は、上記第１の発明において、
上記統合部分動画を構成する複数の部分動画に対応する
代表画像から所定数以内の代表画像を選択する選択手段
を備え、上記生成手段は、上記選択手段で選択された代
表画像に基づいて、上記統合部分動画の代表画像の生成
を行うことを特徴とする。

【００１４】第３の発明は、上記第２の発明において、
上記選択手段は、上記複数の部分動画の再生時間に基づ
いて、上記代表画像の選択を行うことを特徴とする。

【００１５】第４の発明は、上記第３の発明において、
上記選択手段は、再生時間の長い代表画像を選択するこ
とを特徴とする。

【００１６】第５の発明は、上記第２の発明において、
上記統合手段は、上記部分動画の代表画像の類似性に基
づいて、上記部分動画の統合を行い、上記選択手段は、
類似する代表画像の組に対応した部分画像の再生時間の
合計に基づいて、上記代表画像の選択を行うことを特徴
とする。

【００１７】第６の発明は、上記第２の発明において、
上記選択手段は、上記代表画像中に所定画像の領域が存
在するか否かの判定に基づいて、上記代表画像の選択を
行い、上記生成手段は、上記選択手段で選択された代表
画像に基づいて、上記統合部分動画の代表画像の生成を
行うことを特徴とする。

【００１８】第７の発明は、上記第６の発明において、
上記所定画像の領域は、顔領域を含むことを特徴とす
る。

【００１９】第８の発明は、上記第６の発明において、
上記選択手段は、異なる上記所定画像の領域が存在する
か否かの判定に基づいて、上記代表画像の選択を行うこ
とを特徴とする。

【００２０】第９の発明は、上記第６の発明において、
上記生成手段は、上記選択手段で選択された代表画像に
存在する所定画像の向きに基づいて、上記統合部分動画
の代表画像の生成を行うことを特徴とする。

【００２１】第１０の発明は、上記第６の発明におい
て、上記生成手段は、上記選択手段で選択された代表画
像に存在する所定画像の拡大画像に基づいて、上記統合
部分動画の代表画像の生成を行うことを特徴とする。

【００２２】第１１の発明は、複数の機器が互いに通信
可能に接続されてなる画像処理システムであって、上記
複数の機器のうち少なくとも１つの機器は、請求項１〜
９の何れかに記載の画像処理装置の機能を有することを
特徴とする。

【００２３】第１２の発明は、動画を処理するための画
像処理方法であって、対象動画を部分動画に分割する分
割ステップと、上記分割ステップにより得られた部分動
画を代表する画像を抽出する抽出ステップと、上記分割
ステップにより得られた部分動画を統合する統合ステッ
プと、上記抽出ステップにより得られた代表画像に基づ
いて、上記統合ステップにより得られた統合部分動画の
代表画像を生成する生成ステップとを含むことを特徴と
する。

【００２４】第１３の発明は、上記第１２の発明におい
て、上記統合部分動画を構成する複数の部分動画に対応
する代表画像から所定数以内の代表画像を選択する選択
ステップを含み、上記生成ステップは、上記選択ステッ
プで選択された代表画像に基づいて、上記統合部分動画
の代表画像の生成を行うステップを含むことを特徴とす
る。

【００２５】第１４の発明は、動画を処理するための画
像処理方法であって、動画を時間的に部分動画に分割す
る分割ステップと、上記部分動画を代表する静止画像を
抽出する抽出するステップと、上記部分動画を任意の単
位で統合する統合ステップと、上記統合部分動画を代表
する静止画像を、上記統合前の部分動画の代表画像に基
づいて生成する生成ステップとを含むことを特徴とす
る。

【００２６】第１５の発明は、上記第１４の発明におい
て、上記統合ステップによる統合前の部分動画の代表画
像の中から所定数以内の代表画像を選択する選択ステッ
プを含み、上記生成ステップは、上記選択ステップによ
り選択された代表画像に基づいて、上記統合部分動画を
代表する静止画像を生成するステップを含むことを特徴
とする。

【００２７】第１６の発明は、上記第１５の発明におい
て、上記選択ステップは、上記統合前の部分動画の再生
時間に基づいて、上記代表画像の選択を行うステップを
含むことを特徴とする。

【００２８】第１７の発明は、上記第１６の発明におい
て、上記選択ステップは、上記統合前の部分動画の再生
時間が長いものから順に対応する代表画像を選択するス
テップを含むことを特徴とする。

【００２９】第１８の発明は、上記第１６の発明におい
て、上記統合ステップは、上記統合前の各部分動画の代
表画像の類似性に基づいて、上記部分動画の統合を行う
ステップを含み、上記選択ステップは、類似する代表画
像の組に対応した各部分動画の再生時間の合計の大きい
ものから順に類似する代表画像の組を選択するステップ
と、当該選択された代表画像の各組の中から代表画像を
１つずつ選択するステップとを含むことを特徴とする。

【００３０】第１９の発明は、動画を処理するための画
像処理方法であって、動画を時間的に部分動画に分割す
る分割ステップと、上記部分動画を代表する画像を抽出
する抽出ステップと、上記部分動画を統合する統合ステ
ップと、上記代表画像から特定のオブジェクト領域を検
出する検出ステップと、上記検出ステップでの検出結果
により、上記特定のオブジェクト領域が存在すると判定
された代表画像を優先的に、上記統合ステップにより統
合される前の各部分動画に対する代表画像の中から所定
数以下の代表画像を選択する選択ステップと、上記選択
ステップにより選択された代表画像に基づいて、上記統
合ステップにより統合された後の統合部分動画を代表す
る画像を生成する生成ステップとを含むことを特徴とす
る。

【００３１】第２０の発明は、上記第１９の発明におい
て、上記特定のオブジェクト領域は、顔領域を含み、上
記検出ステップは、上記顔領域の人物をも特定するステ
ップを含み、上記選択ステップは、異なる人物が存在す
る代表画像を優先的に選択するステップを含むことを特
徴とする。

【００３２】第２１の発明は、上記第１９の発明におい
て、上記検出ステップは、上記特定のオブジェクト領域
のオブジェクトの向きをも特定するステップを含み、上
記生成ステップは、上記特定のオブジェクトが存在する
各代表画像の特定のオブジェクトの向きが中心を向いた
状態の画像を、上記統合部分動画の代表画像として生成
するステップを含むことを特徴とする。

【００３３】第２２の発明は、動画を処理するための画
像処理方法であって、動画を時間的に部分動画に分割す
る分割ステップと、上記部分動画を代表する画像を抽出
する抽出ステップと、上記代表画像中の特定のオブジェ
クト領域を検出する検出ステップと、上記部分動画を統
合する統合ステップと、上記統合ステップにより統合さ
れる前の各部分動画に対する代表画像の中から、上記統
合ステップによる統合部分動画に対する代表画像を選択
する選択ステップと、上記選択ステップにより選択され
た代表画像に基づいて、上記統合部分動画を代表する画
像を生成する生成ステップとを含み、上記生成ステップ
は、上記検出ステップにより、上記代表画像に特定のオ
ブジェクト領域が存在する場合、当該特定のオブジェク
ト領域を拡大した部分画像から上記統合部分動画に対す
る代表画像を生成するステップを含むことを特徴とす
る。

【００３４】第２３の発明は、請求項１〜１０の何れか
に記載の画像処理装置の機能、又は請求項１１記載の画
像処理システムの機能をコンピュータに実現させるため
のプログラムをコンピュータ読出可能な記憶媒体に記録
したことを特徴とする。

【００３５】第２４の発明は、請求項１２〜２２の何れ
かに記載の画像処理方法の処理ステップをコンピュータ
に実行させるためのプログラムをコンピュータ読出可能
な記憶媒体に記録したことを特徴とする。

【００３６】第２５の発明は、請求項１〜１０の何れか
に記載の画像処理装置の機能、又は請求項１１記載の画
像処理システムの機能をコンピュータに実現させるため
のプログラムソフトウェアを特徴とする。

【００３７】第２６の発明は、請求項１２〜２２の何れ
かに記載の画像処理方法をコンピュータに実行させるた
めのプログラムソフトウェアを特徴とする。

【００３８】

【発明の実施の形態】以下、本発明の実施の形態につい
て図面を用いて説明する。

【００３９】本発明は、例えば、図１に示すような画像
処理装置１００に適用される。本実施の形態の画像処理
装置１００は、上記図１に示すように、ＣＰＵ１０１、
ＲＯＭ１０２、ＲＡＭ１０３、ＣＤ−ＲＯＭドライブ１
０４、ＨＤドライブ１０６、キーボード１０７、ディス
プレイ１０８、マウス１０９、及びプリンタ１１０が、
システムバス１１１を介して互いに通信可能なように接
続された構成としている。

【００４０】ＣＰＵ１０１は、画像処理装置１００全体
の動作制御を司るものであり、例えば、ＲＯＭ１０２等
に予め記憶された処理プログラムを読み出して実行する
ことで、図２に示すような機能を実現する。すなわち、
画像処理装置１００は、上記図２に示すように、処理対
象動画を時間的に分割する動画分割部１５１と、動画分
割部１５１で得られた部分動画を代表する画像（代表画
像）を抽出する代表画像抽出部１５３と、動画分割部１
５１で得られた一連の部分動画を意味的にまとまりのあ
る部分動画として統合する部分動画統合１５２と、代表
画像抽出部１５３で得られた代表画像（部分動画統合１
５２での統合前の部分画像の代表画像）の中から人物
（顔）が存在する画像を優先的に規定枚数選択する代表
画像選択部１５５と、代表画像選択部１５５で選択され
た代表画像に基づいて部分動画統合１５２での統合後の
部分動画（統合部分動画）の代表画像を作成する代表画
像作成部１５４とを備えている。

【００４１】ＲＯＭ１０２には、例えば、図３に示すよ
うに、ＣＰＵ１０１での動作制御に必要な処理プログラ
ム（制御手順プログラム）１０２ａ等が格納されてい
る。

【００４２】ＲＡＭ１０３は、例えば、図４に示すよう
に、基本Ｉ／Ｏプログラムの格納領域１０３ａ及びオペ
レーションシステムプログラムの格納領域１０３ｂと共
に、動画検索プログラムの格納領域１０３ｃ、動画デー
タベース１０３ｄ、ショット情報の格納領域１０３ｅ、
シーン統合情報の格納領域１０３ｆ、及び代表画像分類
情報の格納領域１０３ｇ等を含んでいる。

【００４３】ＲＡＭ１０３の格納領域１０３ｃに格納さ
れる動画検索プログラムは、例えば、図５に示すよう
に、ＣＤ−ＲＯＭ１０５に記憶されている。したがっ
て、図６に示すように、動画検索プログラム１０５ａが
記憶されたＣＤ−ＲＯＭ１０５が、画像処理装置１００
のＣＤ−ＲＯＭドライブ１０４にセットされることで、
動画検索プログラム１０５ａは、上記図４に示したよう
に、ＲＡＭ１０３の格納領域１０３ｃへ格納（ロード）
されることになる。

【００４４】動画検索プログラム１０５ａがＲＡＭ１０
３へ格納されＣＰＵ１０１から実行可能状態となると、
これと同時に、ＲＡＭ１０３の格納領域１０３ｅへのシ
ョット情報の格納等が、ＨＤドライブ１０６から行なわ
れる。また、動画検索プログラム１０５ａの実行で使用
されるメモリとしてのＲＡＭ１０３の動画データベース
１０３ｄの確保や、ＲＡＭ１０３のシーン統合情報用の
格納領域１０３ｆ及び代表画像分類情報用の格納領域１
０３ｇ等の確保が行なわれる。

【００４５】図７は、ＲＡＭ１０３の格納領域１０３ｅ
に格納されたショット情報を示したものである。ショッ
ト情報は、動画データベース１０３ｄに格納されている
動画に対するショットの情報を含んでいる。具体的には
例えば、ショット情報は、ショットを一意に識別するた
めのショットＩＤ、動画中における開始位置を示す開始
時間、ショットの時間の長さを表すショット時間、ショ
ットを代表する画像のファイル名、ショット中に出現す
る人物のＩＤ、及びショット中の人物の顔の向きを表す
顔方向の情報を含んでいる。

【００４６】図８は、ＲＡＭ１０３の格納領域１０３ｆ
に格納されたシーン統合情報を示したものである。シー
ン統合情報は、類似するショットを統合するための情報
を含んでいる。具体的には例えば、シーン統合情報は、
対象ショットを識別するためのショットＩＤ、対象ショ
ットに類似するショットのショットＩＤ、当該類似する
ショットの時間の合計時間、当該類似するショットの中
で最も長いショットを示す最長ショットＩＤ、及び当該
類似するショットに出現する人物の情報を含んでいる。

【００４７】図９は、ＲＡＭ１０３の格納領域１０３ｇ
に格納された代表画像分類情報を示したものである。代
表画像分類情報は、統合されたショットの代表画像を選
択する際に使用され、シーン統合情報を人物別にまとめ
た情報を含んでいる。具体的には例えば、代表画像分類
情報は、対象人物を識別するための人物の情報、対象人
物が出現する類似のショットのＩＤ、対象人物が出現す
る時間の合計時間、及び最も長く人物が出現するショッ
トを示す最長ショットＩＤを含んでいる。

【００４８】図１０〜図１３は、画像処理装置１００の
動作を示したものである。例えば、ＣＰＵ１０１は、図
１０〜図１３のフローチャートに従った処理プログラム
（制御手順プログラム）をＲＯＭ１０２から読み出して
実行する。これにより、画像処理装置１００は、次のよ
うに動作する。

【００４９】＜メイン処理＞ステップＳ１０１：図１０参照ＣＰＵ１０１は、例えば、ＣＲ−ＲＯＭドライブ１０４
を介して、ＣＤ−ＲＯＭ１０５に格納された動画検索プ
ログラム等をＲＡＭ１０３へロードすると共に、ＨＤド
ライブ１０６から対象動画及びショット情報等をＲＡＭ
１０３へロードする。また、ＣＰＵ１０１は、ＲＡＭ１
０３に対して、シーン統合情報及び代表画像分類情報等
の格納領域を確保し、必要な初期化処理を実行する。

【００５０】ステップＳ１０２〜ステップＳ１０４：Ｃ
ＰＵ１０１は、キーボード１０７或いはマウス１０９に
よるユーザ指示に従って、処理を分岐させる（ステップ
Ｓ１０２）。すなわち、ＣＰＵ１０１は、ユーザから動
画検索の指示がなされた場合にはステップＳ１０３の処
理を実行し、ユーザから動画登録の指示がなされた場合
にはステップＳ１０４の処理を実行する。

【００５１】＜動画検索処理：ステップＳ１０３＞ＣＰ
Ｕ１０１は、ＲＡＭ１０３の動画データベース１０３ｄ
に格納された対象動画の中から、ユーザが所望するシー
ン（ユーザから指定されたシーン）を検索する処理を実
行する。

【００５２】具体的には例えば、ＣＰＵ１０１は、上記
図１５に示したような動画像の階層構造の画面を、ディ
スプレイ１０８へ表示させる。これにより、ユーザは、
ディスプレイ１０８の表示画面から、キーボード１０７
或いはマウス１０９を用いて、所望するシーンの代表画
像を検索指示する。

【００５３】尚、ここでの動画検索処理は、例えば、特
開平５−３０４６４号等に記載された方法や、任意の方
法を適用可能である。ただし、特開平５−３０４６４号
等に記載された処理が、シーンを代表する画像として、
シーン中のフレームを直接使用している構成であるのに
対して、本実施の形態では、後述するステップＳ１０４
で作成されるシーンの代表画像を使用する。

【００５４】＜動画登録処理：ステップＳ１０４＞動画
登録処理は、ＣＰＵ１０１により実現される上記図２に
示した構成により、指定された動画像をＲＡＭ１０３の
動画データベース１０３ｄへ登録する処理である。図１
１は、当該動画登録処理を示したものである。

【００５５】ステップＳ２０１：動画分割部１５１は、
対象動画（指定動画）を先頭から解析して、シーンチェ
ンジ（ショットの切り替わり）を検出し、その検出結果
の情報をショット情報として、ＲＡＭ１０３の格納領域
１０３ｅ（上記図７参照）に格納する。シーンチェンジ
の検出方法としては、例えば、特開平５−３０４６４号
等に記載されているような、フレーム間の変化量の大き
さから、ショットとショットの境界を検出する方法を適
用可能である。

【００５６】このときＲＡＭ１０３の格納領域１０３ｅ
に格納されるショット情報は、ショットＩＤ、開始時
間、及びショット時間のみの情報である。ショットＩＤ
としては、使用されているショットＩＤの最大値に
“１”を加えた値を用いる。開始時間及びショット時間
については、シーンチェンジが検出されるフレームの、
動画先頭からのフレーム番号から自動的に求めることが
可能である。

【００５７】ステップＳ２０１において、シーンチェン
ジ（ショットの切り替わり）が検出された場合、或いは
処理が対象動画の末尾に到達した場合に、次のステップ
Ｓ２０２へ進む。

【００５８】ステップＳ２０２：代表画像抽出部１５３
は、ステップＳ２０１で動画分割部１５１により検出さ
れたショットに対するキーフレーム（部分動画を代表す
るフレーム）を抽出する。キーフレームの抽出方法とし
ては、例えば、ショットの先頭や中心、或いは末尾等、
ショットの位置を指定することによって、ショットのキ
ーフレームを決定する方法を適用可能である。

【００５９】代表画像抽出部１５３は、キーフレームを
抽出後、そのキーフレームの画像情報をファイルとして
保持するために、そのファイル名を、ショット情報の代
表画像ファイル名として、ＲＡＭ１０３の格納領域１０
３ｅに格納する。ここでのファイル名としては、上記図
７に示されるように、例えば、ショットＩＤ＝“１０
０”のショットに関しては、そのショットＩＤを利用し
て、ファイル名＝“１００．ｂｍｐ”とすることで、フ
ァイル名の重複を避けることができる。

【００６０】ステップＳ２０３：対象画像の全てに対し
て、ステップＳ２０１及びステップＳ２０２の処理を実
行し終えるまで、ステップＳ２０１及びステップＳ２０
２の処理を繰り返し実行する。そして、対象画像の全て
に対して、ステップＳ２０１及びステップＳ２０２の処
理を実行し終えた場合に、すなわち動画の末尾まで処理
が到達した場合に、次のステップＳ２０４へ進む。

【００６１】ステップＳ２０４：部分動画統合部１５２
は、ステップＳ２０２において代表画像抽出部１５３に
より抽出されたキーフレームの類似性に基づいて、複数
のショットをまとめて１つのシーンとして統合し、その
統合結果をシーン統合情報として、ＲＡＭ１０３の格納
領域１０３ｆ（上記図８参照）に格納する。ここでのシ
ーン統合処理方法については、例えば、「繰り返しショ
ットの統合による階層化アイコンを用いたビデオ・イン
ターフェース」（情報処理学会論文誌：Ｖｏ１．３９，
Ｎｏ．５，１９９８）等に記載された方法を適用可能で
ある。

【００６２】シーン統合情報は、本ステップＳ２０４で
実行した統合に関する一時的な情報であり、本ステップ
Ｓ２０４の実行前に、最初に必ず初期化されるようにな
されている。例えば、本ステップＳ２０４の処理実行
後、上記図７に示したショット情報に対して、上記図８
に示したようなシーン統合情報が得られる。ただし、当
該シーン統合情報として格納される情報としては、類似
ＩＤ、ショットＩＤ、合計時間、及び最長ショットＩＤ
のみの情報であり、人物の情報は含まれない。

【００６３】ステップＳ２０５：代表画像選択部１５５
は、詳細は後述するが、ステップＳ２０４で部分動画統
合部１５２により得られたシーンを代表するフレーム画
像を、ステップＳ２０２で代表画像抽出部１５３により
得られたショットのキーフレーム（統合前のショットの
キーフレーム）の中から２枚選択する。

【００６４】ステップＳ２０６：代表画像作成部１５４
は、詳細は後述するが、ステップＳ２０５で代表画像選
択部１５５により得られた２枚のキーフレームに基づい
て、ステップＳ２０４で部分動画統合１５２により得ら
れたシーンの代表フレーム（代表画像）を作成する。

【００６５】ステップＳ２０７：対象画像の全てに対し
て、ステップＳ２０４〜ステップＳ２０６の処理を実行
し終えるまで、ステップＳ２０４〜ステップＳ２０６の
処理を繰り返し実行する。そして、対象画像の全てに対
して、ステップＳ２０４〜ステップＳ２０６の処理を実
行し終えた場合に、すなわち動画の末尾まで処理が到達
した場合に、本処理終了となる。

【００６６】＜代表画像選択処理：ステップＳ２０５＞
図１２は、代表画像選択部１５５による代表画像選択処
理を示したものである。

【００６７】ステップＳ３０１：代表画像選択部１５５
は、ＲＡＭ１０３の格納領域１０３ｆに格納されたシー
ン統合情報に含まれるショットＩＤにより示されるショ
ットのキーフレームに対して、当該フレームに存在する
人物の顔領域を推定し、その人物と顔の方向を特定し、
その結果をショット情報としてＲＡＭ１０３の格納領域
１０３ｅ（上記図７参照）に格納すると共に、ＲＡＭ１
０３の格納領域１０３ｆ（上記図８参照）のシーン統合
情報を更新する。人物の顔領域を推定して当該人物を特
定する方法としては、例えば、特開平９−２５１５３４
号等に記載されている方法を適用可能である。また、顔
の方向を特定する方法としては、例えば、特開平９−２
５１５３４号等に記載されているような、人物の顔を上
下左右等の様々な向きから撮った画像を辞書画像として
用意しておく方法が適用可能である。

【００６８】ここで、上記図７に示したＲＡＭ１０３の
格納領域１０３ｅのショット情報において、顔領域の情
報が示されていないが、当該ショット情報のショットＩ
Ｄに対しては、キーフレームに存在する人物の顔領域を
矩形で表現したときの当該矩形を示す２点の座標の情報
が対応付けられている。また、上記図７に示したショッ
ト情報の格納領域１０３ｅ、及び上記図８に示したシー
ン統合情報の格納領域１０３ｆが、本ステップＳ３０１
の処理後の状態である。上記図８において、例えば、類
似ＩＤ＝“５”に対する人物の情報の欄が空欄であるの
は、そのショットに人物が存在しないことを意味する。

【００６９】ステップＳ３０２：代表画像選択部１５５
は、代表フレーム（代表画像）を選択するために、ＲＡ
Ｍ１０３の格納領域１０３ｅ及び格納領域１０３ｆに格
納されたショット情報及びシーン統合情報に基づいて、
ＲＡＭ１０３の格納領域１０３ｇに格納する代表画像分
類情報を生成する。

【００７０】具体的には、代表画像選択部１５５は、Ｒ
ＡＭ１０３の格納領域１０３ｆに格納されたシーン統合
情報の先頭から順番に、対象類似ＩＤの情報を取得し、
その人物に対する代表画像分類情報を生成する。すなわ
ち、対象人物が代表画像分類情報に登録されていなけれ
ば、ＲＡＭ１０３の格納領域１０３ｇ（上記図９参照）
において、新たに、代表画像分類情報に対してエントリ
を生成し、これに対応する類似ＩＤを格納し、当該類似
ＩＤに対応させて合計時間及び最長ショットＩＤを格納
する。一方、対象人物が代表画像分類情報に登録されて
いれば、ＲＡＭ１０３の格納領域１０３ｇにおいて、対
象人物に対して、類似ＩＤを追加し、合計時間を加算
し、最長ショットＩＤの大小を比較して、必要に応じて
最長ショットＩＤの更新を行う。また、対象類似ＩＤの
情報に対して人物の情報が含まれていない場合、ＲＡＭ
１０３の格納領域１０３ｇにおいて、人物の情報欄は空
欄にし、類似ＩＤ及び合計時間最長ショットＩＤをその
まま格納する。

【００７１】したがって、上記図７に示したＲＡＭ１０
３の格納領域１０３ｅに格納されたショット情報、及び
上記図８に示したＲＡＭ１０３の格納領域１０３ｆに格
納されたシーン統合情報からは、上記図９に示したよう
な代表画像分類情報が生成される。

【００７２】上記図９では、その一例として、それぞれ
のシーンに１人しか出現していないものとしているが、
２人同時に出現している場合であっても、代表画像分類
情報の人物の欄には必ず１人の情報しか格納しないよう
に構成しているので、１つの類似シーンに対して出現す
る人数分、同様の処理を実行すればよい。ただし、この
場合、最長ショットＩＤとして、１人のみのショットが
選ばれるようにする。

【００７３】ステップＳ３０３：代表画像選択部１５５
は、上記図９の代表画像分類情報に基づいて、人物が出
現する代表画像を選択する。具体的には、代表画像選択
部１５５は、当該代表画像分類情報において、人物の情
報が存在する行で、且つ、合計時間が長い行から順番
に、各行のソーティングを行う。これにより、当該ソー
ティング後の代表画像分類情報の先頭の行から選択する
ことで、人物を優先的に、且つ、同一人物が重複して選
ばれないように、代表画像を選ぶことができる。また、
長時間出現する人物を優先的に代表画像として選ぶこと
もできる。

【００７４】ステップＳ３０４：代表画像選択部１５５
は、人物に基づいた代表画像の選択が終了したか否かを
判別する。具体的には例えば、代表画像選択部１５５
は、上記図９の代表画像分類情報において、人物のエン
トリーが規定枚数（ここでは“２”）以上あれば、代表
画像の選択が終わったものと判別して本処理を終了し、
そうでなければ次のステップＳ３０５へ進む。

【００７５】ステップＳ３０５：代表画像選択部１５５
は、上記図９の代表画像分類情報に基づいて、人物が出
現しないショットから代表画像を選択する。具体的には
例えば、代表画像選択部１５５は、上記図９の代表画像
分類情報において、人物の情報が存在しない行を合計時
間が長いものから順に並ぶようにソーティングを行う。
このとき、人物の情報欄に人物のＩＤが格納されている
行の位置は変更しないようにする。これにより、代表画
像分類情報の先頭から規定枚数（ここでは“２”）分の
行の最長ショットＩＤに対応した代表画像を選ぶことに
より、人物が出現しないショットに関しては、ショット
の時間が長いショットから代表画像が選ばれることにな
る。本ステップＳ３０５の処理の終了後、本処理終了と
なる。

【００７６】＜代表画像作成処理：ステップＳ２０６＞
図１３は、代表画像作成部１５４による代表画像作成処
理を示したものである。

【００７７】ステップＳ４０１：代表画像作成部１５４
は、上記図９の代表画像分類情報の先頭から順番に一行
ずつの情報を取り出し、これに対応する代表画像を取り
出す。ここでは、最長ショットＩＤに対応した上記図７
に示したようなショット情報の代表画像ファイル名に示
される代表画像が取り出されることになる。これによ
り、人物が存在する代表画像が人物が存在しない代表画
像よりも優先され、それぞれの画像中で、ショットの合
計時間が長い画像の方が優先され、人物が重複すること
なく代表画像が取り出せることになる。

【００７８】ステップＳ４０２：代表画像作成部１５４
は、ステップＳ４０１で取り出した代表画像に人物が存
在しているか否かを判別する。具体的には例えば、代表
画像作成部１５４は、上記図７のショット情報の対象と
なる情報に人物の情報が含まれている場合（当該情報欄
が空欄でない場合）、人物が存在するものとして、次の
ステップＳ４０３へ進み、そうでない場合には、後述す
るステップＳ４０５へ進む。

【００７９】ステップＳ４０３：代表画像作成部１５４
は、ステップＳ４０１で取り出した代表画像を、統合さ
れたシーンの代表画像の中にはめ込む位置を決定する。

【００８０】具体的には例えば、本実施の形態では、統
合前のショットの代表画像２枚を用いて、統合後のシー
ンの代表画像を作成する構成としているので、はめ込み
位置としては、左側と右側の２箇所としており、スナッ
ブＳ４０１で取り出した代表画像の人物の顔の向きによ
って、はめ込み位置を決定する。すなわち、最長ショッ
トＩＤに対応したショット情報中の顔方向が右であれ
ば、シーン統合後の代表画像の左側をはめ込み位置とし
て決定し、顔方向が左であれば、シーン統合後の代表画
像の右側をはめ込み位置として決定する。また、既には
め込まれている場合には、はめ込まれていないほうをは
め込み位置として決定する。この結果、例えば、２枚の
代表画像が、図１４（ａ）に示されるような人物Ａが存
在する画像、及び同図（ｂ）に示されるような人物Ｂが
存在する画像である場合、同図（ｃ）に示すように、人
物Ａが左向きであることにより人物Ａの代表画像は右側
に、人物Ｂが右向きであることにより人物Ｂの代表画像
を左側に、それぞれのめ込み位置を決定する。

【００８１】ステップＳ４０４：代表画像作成部１５４
は、ステップＳ４０３で決定したはめ込み位置に基づい
て、ステップＳ４０１で取り出した代表画像を、シーン
統合後の代表画像にはめ込む。このとき、上記図１４
（ｃ）に示すように、顔領域の部分を拡大してはめ込み
を行う。例えば、ショットの代表画像中の顔領域は、既
に矩形として求まっているので、はめ込み先のはめ込み
領域の形と顔領域の形（矩形）を勘案し、顔領域ができ
るだけ大きくなり、顔領域がはめ込み領域に収まる程度
に拡大、或いは縮小してはめ込みを行う。その後、後述
するステップＳ４０６へ進む。

【００８２】ステップＳ４０５：ステップＳ４０２の判
別の結果、人物が存在しない場合、すなわち代表画像が
人物以外のショットの画像である場合、代表画像作成部
１５４は、当該代表画像をそのままシーン統合後の代表
画像にはめ込む。このときのはめ込み位置は、空いてい
るはめ込み位置から左から順番に選ぶ等、任意の規則で
選択するようにしてもよい。また、はめ込み領域の形に
合わせて、必要に応じて縮小を行って、はめ込みを行
う。その後、次のステップＳ４０６へ進む。

【００８３】ステップＳ４０６：代表画像作成部１５４
は、上記図９の代表画像分類情報の全ての情報に対し
て、規定枚数以上のショットの代表画像を取り出し終え
ている場合には本処理終了とし、そうでない場合には再
びステップＳ４０１へと戻る。

【００８４】したがって、特に、ステップＳ４０３及び
ステップＳ４０４の処理により、シーン統合後の代表画
像として、上記図１４（ｃ）に示したような画像が得ら
れることになる。すなわち、対話シーンでは、シーン統
合後の代表画像が、人物がお互いに向き合った状態で、
また、顔領域の部分がはめ込み領域のサイズに合わせて
はめ込まれた状態の画像となるので、対話シーンである
ということが容易に且つ明確に認識できる。

【００８５】尚、本発明は、本実施の形態に限られるこ
とはなく、以下のような形態をも含まれる。

【００８６】（１）本実施の形態では、ＣＰＵ１０１
が、外部記憶装置としてのＣＤ−ＲＯＭ１０５から、上
述したような画像処理装置１００の機能を実施するため
の処理プログラム（動画検索プログラム）を直接ＲＡＭ
１０３にロードして実行するように構成したが、これに
限られることはなく、ＣＤ−ＲＯＭ１０５から当該処理
プログラムを一旦ＨＤドライブ１０６に格納（インスト
ール）しておき、当該処理プログラムを動作させる時点
で、ＨＤドライブ１０６からＲＡＭ１０３にロードする
ようにしてもよい。また、当該処理プログラムを記録す
る媒体としては、ＣＤ−ＲＯＭ１０５に限られることは
なく、例えば、ＦＤ（フロッピー（登録商標）ディス
ク）やＩＣメモリカード等であってもよい。また、当該
処理プログラムを、ＲＯＭ１０２に記録しておき、これ
をメモリマップの一部となるように構成し、直接ＣＰＵ
１０１で実行するように構成してもよい。

【００８７】（２）上記図１１に示した動画登録の処理
において、ステップＳ２０４では、ショットをまとめて
１つのシーンとして統合するために、ショットの代表フ
レームの類似性を利用して自動的に行うように構成した
が、これに限られることはなく、例えば、類似するショ
ットを人手で指定することで統合を行うようにしてもよ
い。

【００８８】（３）上記図１１に示した動画登録の処理
では、ステップＳ２０１でシーンチェンジを検出した後
に、対応するショットのキーフレームを抽出して代表画
像とするように構成したが、これに限られることはな
く、例えば、シーンチェンジを検出した後に、対応する
ショットを、ズームやパン等のカメラの動き等に基づい
て、サブショツトに分割し、その分割サブシヨットに対
してキーフレームを検出し、ステップＳ２０４〜ステッ
プＳ２０６と同様の処理を実行することで、サブシヨッ
トのキーフレームを合成してショットの代表画像を作成
するようにしてもよい。

【００８９】（４）上記図１１に示した動画登録の処理
において、ステップＳ２０７では、全てのショットに対
してシーンの統合が終了した場合に本処理終了とするよ
うに構成したが、これに限られることはなく、例えば、
さらに、階層を重ねてシーンとシーンの統合を行い、当
該統合後のシーンに対して、ステップＳ２０５及びステ
ップＳ２０６と同様の処理を実行して代表画像を作成す
るようにしてもよい。

【００９０】（５）本実施の形態では、シーンの代表画
像を、２つのショットの代表フレームとしたが、これに
限られることはなく、例えば、３つ以上のショットの代
表フレームとしてもよい。この場合、予め、使用する代
表フレームの個数に応じて、代表フレームをはめ込む領
域を決定する。例えば、４つの代表フレームを使用する
場合は、代表画像の上下左右の４分割した領域を用意し
ておく。

【００９１】（６）本実施の形態では、上記図１１に示
したステップＳ２０５の処理において、代表画像選択部
１５５が顔領域の存在を判定するように構成したが、こ
れに限られることはなく、例えば、同図に示したステッ
プＳ２０２の処理において、代表画像抽出部１５３が顔
領域の存在を判定するようにしてもよい。これにより、
より適切なキーフレームを抽出することができる。

【００９２】（７）本発明の目的は、本実施の形態のホ
スト及び端末の機能を実現するソフトウェアのプログラ
ムコードを記憶した記憶媒体を、システム或いは装置に
供給し、そのシステム或いは装置のコンピュータ（又は
ＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコ
ードを読みだして実行することによっても、達成される
ことは言うまでもない。この場合、記憶媒体から読み出
されたプログラムコード自体が本実施の形態の機能を実
現することとなり、そのプログラムコードを記憶した記
憶媒体は本発明を構成することとなる。プログラムコー
ドを供給するための記憶媒体としては、ＲＯＭ、フロッ
ピーディスク、ハードディスク、光ディスク、光磁気デ
ィスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発
性のメモリカード等を用いることができる。また、コン
ピュータが読みだしたプログラムコードを実行すること
により、本実施の形態の機能が実現されるだけでなく、
そのプログラムコードの指示に基づき、コンピュータ上
で稼動しているＯＳ等が実際の処理の一部又は全部を行
い、その処理によって本実施の形態の機能が実現される
場合も含まれることは言うまでもない。さらに、記憶媒
体から読み出されたプログラムコードが、コンピュータ
に挿入された拡張機能ボードやコンピュータに接続され
た機能拡張ユニットに備わるメモリに書き込まれた後、
そのプログラムコードの指示に基づき、その機能拡張ボ
ードや機能拡張ユニットに備わるＣＰＵなどが実際の処
理の一部又は全部を行い、その処理によって本実施の形
態の機能が実現される場合も含まれることは言うまでも
ない。

【００９３】（８）本実施の形態では、人物（顔）によ
り画像の選択・分類・登録処理を行なっているが、人物
（顔）に限定されるものではい、様々なオブジェクト
（例えば、車、動物等）に対応できることは言うまでも
ない。

【００９４】

【発明の効果】以上説明したように本発明では、統合部
分動画を構成する複数の部分動画（統合前の部分動画）
の各代表画像に基づいて、統合部分動画の代表画像を生
成するように構成したので、当該代表画像により、統合
部分動画の内容を充分に表現できることが可能となる。
また、統合前の部分動画の再生時間に基づいて、統合部
分動画の代表画像の生成に使用する代表画像を選択する
ように構成すれば、一般的に、長いシーンのほうが短い
シーンよりも重要なシーンであると言われる当該シーン
を、明確に把握することができる。

【００９５】また、統合部分動画の代表画像の生成に使
用する代表画像を選択する際に、所定画像の領域（顔領
域等）が存在するものを優先的に代表画像として選択す
るように構成すれば、重要なショットを用いた代表画像
を生成することができる。このとき、さらに、異なる所
定画像のものを代表画像として選択するように構成すれ
ば、例えば、同一人物の顔領域が存在する代表画像が複
数選択されてしまうことを防ぐことができるため、でき
るだけ多くの登場人物が含まれる統合部分動画の代表画
像を作成することができ、統合部分動画の内容を十分に
表すことができる。また、所定画像の向き（登場人物の
顔の向き等）を考慮して、統合部分動画の作成を行うよ
うに構成した場合、対話シーン等の内容をより明確に表
現することができる。また、所定画像を拡大して統合部
分動画の代表画像を作成するように構成した場合、統合
前の部分動画の代表画像が縮小画像であっても、どのよ
うな登場人物が存在するか等、統合部分動画の内容を、
より明確に把握することができる。

【００９６】よって、本発明は、動画を階層構造として
画面表示するための装置或いはシステムに対して非常に
有効であり、当該階層構造の各階層の動画（部分動画）
の内容を容易に且つ正確に認識することができるように
なる。

【図面の簡単な説明】

【図１】本発明を適用した画像処理装置の構成を示すブ
ロック図である。

【図２】上記画像処理装置の機能的構成を示すブロック
図である。

【図３】上記画像処理装置のＲＯＭを説明するための図
である。

【図４】上記画像処理装置のＲＡＭを説明するための図
である。

【図５】上記画像処理装置の動作制御のための処理プロ
グラム等が記憶されたＣＤ−ＲＯＭを説明するための図
である。

【図６】上記ＣＤ−ＲＯＭから処理プログラムが上記画
像処理装置へ供給されることを説明するための図であ
る。

【図７】上記ＲＡＭ上のショット情報を説明するための
図である。

【図８】上記ＲＡＭ上のシーン統合情報を説明するため
の図である。

【図９】上記ＲＡＭ上の代表画像分類情報を説明するた
めの図である。

【図１０】上記画像処理装置のメイン動作を説明するた
めのフローチャートである。

【図１１】上記メイン動作の動画登録処理を説明するた
めのフローチャートである。

【図１２】上記動画登録処理の代表画像選択処理を説明
するためのフローチャートである。

【図１３】上記動画登録処理の代表画像作成処理を説明
するためのフローチャートである。

【図１４】上記代表画像作成処理で得られる統合後のシ
ーンの代表画像を説明するための図である。

【図１５】画面表示された動画の階層構造を説明するた
めの図である。

【符号の説明】

１００画像処理装置１０１ＣＰＵ１０２ＲＯＭ１０３ＲＡＭ１０４ＣＤ−ＲＯＭドライブ１０５ＣＤ−ＲＯＭ１０６ＨＤドライブ１０７キーボード１０８ディスプレイ１０９マウス１１０プリンタ１１１システムバス１５１画像分割部１５２部分動画統合部１５３代表画像抽出部１５４代表画像作成部１５５代表画像選択部

Claims

【特許請求の範囲】

【請求項１】動画を処理する画像処理装置であって、対象動画を部分動画に分割する分割手段と、上記分割手段で得られた部分動画から代表画像を抽出す
る抽出手段と、上記分割手段で得られた部分動画を統合する統合手段
と、上記抽出手段で得られた代表画像に基づいて、上記統合
手段で得られた統合部分動画の代表画像を生成する生成
手段とを備えることを特徴とする画像処理装置。
【請求項２】上記統合部分動画を構成する複数の部分
動画に対応する代表画像から所定数以内の代表画像を選
択する選択手段を備え、上記生成手段は、上記選択手段で選択された代表画像に
基づいて、上記統合部分動画の代表画像の生成を行うこ
とを特徴とする請求項１記載の画像処理装置。
【請求項３】上記選択手段は、上記複数の部分動画の
再生時間に基づいて、上記代表画像の選択を行うことを
特徴とする請求項２記載の画像処理装置。
【請求項４】上記選択手段は、再生時間の長い代表画
像を選択することを特徴とする請求項３記載の画像処理
装置。
【請求項５】上記統合手段は、上記部分動画の代表画
像の類似性に基づいて、上記部分動画の統合を行い、上記選択手段は、類似する代表画像の組に対応した部分
画像の再生時間の合計に基づいて、上記代表画像の選択
を行うことを特徴とする請求項２記載の画像処理装置。
【請求項６】上記選択手段は、上記代表画像中に所定
画像の領域が存在するか否かの判定に基づいて、上記代
表画像の選択を行い、上記生成手段は、上記選択手段で選択された代表画像に
基づいて、上記統合部分動画の代表画像の生成を行うこ
とを特徴とする請求項２記載の画像処理装置。
【請求項７】上記所定画像の領域は、顔領域を含むこ
とを特徴とする請求項６記載の画像処理装置。
【請求項８】上記選択手段は、異なる上記所定画像の
領域が存在するか否かの判定に基づいて、上記代表画像
の選択を行うことを特徴とする請求項６記載の画像処理
装置。
【請求項９】上記生成手段は、上記選択手段で選択さ
れた代表画像に存在する所定画像の向きに基づいて、上
記統合部分動画の代表画像の生成を行うことを特徴とす
る請求項６記載の画像処理装置。
【請求項１０】上記生成手段は、上記選択手段で選択
された代表画像に存在する所定画像の拡大画像に基づい
て、上記統合部分動画の代表画像の生成を行うことを特
徴とする請求項６記載の画像処理装置。
【請求項１１】複数の機器が互いに通信可能に接続さ
れてなる画像処理システムであって、上記複数の機器のうち少なくとも１つの機器は、請求項
１〜９の何れかに記載の画像処理装置の機能を有するこ
とを特徴とする画像処理システム。
【請求項１２】動画を処理するための画像処理方法で
あって、対象動画を部分動画に分割する分割ステップと、上記分割ステップにより得られた部分動画を代表する画
像を抽出する抽出ステップと、上記分割ステップにより得られた部分動画を統合する統
合ステップと、上記抽出ステップにより得られた代表画像に基づいて、
上記統合ステップにより得られた統合部分動画の代表画
像を生成する生成ステップとを含むことを特徴とする画
像処理方法。
【請求項１３】上記統合部分動画を構成する複数の部
分動画に対応する代表画像から所定数以内の代表画像を
選択する選択ステップを含み、上記生成ステップは、上記選択ステップで選択された代
表画像に基づいて、上記統合部分動画の代表画像の生成
を行うステップを含むことを特徴とする請求項１２記載
の画像処理方法。
【請求項１４】動画を処理するための画像処理方法で
あって、動画を時間的に部分動画に分割する分割ステップと、上記部分動画を代表する静止画像を抽出する抽出するス
テップと、上記部分動画を任意の単位で統合する統合ステップと、上記統合部分動画を代表する静止画像を、上記統合前の
部分動画の代表画像に基づいて生成する生成ステップと
を含むことを特徴とする画像処理方法。
【請求項１５】上記統合ステップによる統合前の部分
動画の代表画像の中から所定数以内の代表画像を選択す
る選択ステップを含み、上記生成ステップは、上記選択ステップにより選択され
た代表画像に基づいて、上記統合部分動画を代表する静
止画像を生成するステップを含むことを特徴とする請求
項１４記載の画像処理方法。
【請求項１６】上記選択ステップは、上記統合前の部
分動画の再生時間に基づいて、上記代表画像の選択を行
うステップを含むことを特徴とする請求項１５記載の画
像処理方法。
【請求項１７】上記選択ステップは、上記統合前の部
分動画の再生時間が長いものから順に対応する代表画像
を選択するステップを含むことを特徴とする請求項１６
記載の画像処理方法。
【請求項１８】上記統合ステップは、上記統合前の各
部分動画の代表画像の類似性に基づいて、上記部分動画
の統合を行うステップを含み、上記選択ステップは、類似する代表画像の組に対応した
各部分動画の再生時間の合計の大きいものから順に類似
する代表画像の組を選択するステップと、当該選択され
た代表画像の各組の中から代表画像を１つずつ選択する
ステップとを含むことを特徴とする請求項１６記載の画
像処理方法。
【請求項１９】動画を処理するための画像処理方法で
あって、動画を時間的に部分動画に分割する分割ステップと、上記部分動画を代表する画像を抽出する抽出ステップ
と、上記部分動画を統合する統合ステップと、上記代表画像から特定のオブジェクト領域を検出する検
出ステップと、上記検出ステップでの検出結果により、上記特定のオブ
ジェクト領域が存在すると判定された代表画像を優先的
に、上記統合ステップにより統合される前の各部分動画
に対する代表画像の中から所定数以下の代表画像を選択
する選択ステップと、上記選択ステップにより選択された代表画像に基づい
て、上記統合ステップにより統合された後の統合部分動
画を代表する画像を生成する生成ステップとを含むこと
を特徴とする画像処理方法。
【請求項２０】上記特定のオブジェクト領域は、顔領
域を含み、上記検出ステップは、上記顔領域の人物をも特定するス
テップを含み、上記選択ステップは、異なる人物が存在する代表画像を
優先的に選択するステップを含むことを特徴とする請求
項１９記載の画像処理方法。
【請求項２１】上記検出ステップは、上記特定のオブ
ジェクト領域のオブジェクトの向きをも特定するステッ
プを含み、上記生成ステップは、上記特定のオブジェクトが存在す
る各代表画像の特定のオブジェクトの向きが中心を向い
た状態の画像を、上記統合部分動画の代表画像として生
成するステップを含むことを特徴とする請求項１９記載
の画像処理方法。
【請求項２２】動画を処理するための画像処理方法で
あって、動画を時間的に部分動画に分割する分割ステップと、上記部分動画を代表する画像を抽出する抽出ステップ
と、上記代表画像中の特定のオブジェクト領域を検出する検
出ステップと、上記部分動画を統合する統合ステップと、上記統合ステップにより統合される前の各部分動画に対
する代表画像の中から、上記統合ステップによる統合部
分動画に対する代表画像を選択する選択ステップと、上記選択ステップにより選択された代表画像に基づい
て、上記統合部分動画を代表する画像を生成する生成ス
テップとを含み、上記生成ステップは、上記検出ステップにより、上記代
表画像に特定のオブジェクト領域が存在する場合、当該
特定のオブジェクト領域を拡大した部分画像から上記統
合部分動画に対する代表画像を生成するステップを含む
ことを特徴とする画像処理装置。
【請求項２３】請求項１〜１０の何れかに記載の画像
処理装置の機能、又は請求項１１記載の画像処理システ
ムの機能をコンピュータに実現させるためのプログラム
を記録したコンピュータ読出可能な記憶媒体。
【請求項２４】請求項１２〜２２の何れかに記載の画
像処理方法の処理ステップをコンピュータに実行させる
ためのプログラムを記録したコンピュータ読取可能な記
憶媒体。
【請求項２５】請求項１〜１０の何れかに記載の画像
処理装置の機能、又は請求項１１記載の画像処理システ
ムの機能をコンピュータに実現させるためのプログラム
ソフトウェア。
【請求項２６】請求項１２〜２２の何れかに記載の画
像処理方法をコンピュータに実行させるためのプログラ
ムソフトウェア。