JP2011129137A

JP2011129137A - 画像領域の高凝縮要約画像を生成する方法

Info

Publication number: JP2011129137A
Application number: JP2011003065A
Authority: JP
Inventors: Patrick Chiu; チィーウパトリック; Andreas Girgensohn; ガーゲンソンアンドレアス; Qiong Liu; リュウチョン
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2004-03-31
Filing date: 2011-01-11
Publication date: 2011-06-30
Anticipated expiration: 2025-03-28
Also published as: JP4696635B2; US7697785B2; JP2005293577A; JP5035432B2; US20050220345A1

Abstract

【課題】画像領域の高凝縮要約画像を生成する方法を提供する。
【解決手段】（ａ）主要グループ決定手段が複数の画像の各々における主要グループとして重要な領域にあたる前記画像に含まれる人間の顔の領域を決定し、（ｂ）定義手段が前記画像の各々における前記各主要グループをジャームとして定義し、（ｃ）レイアウト手段が前記ジャームをスクリーンに対応する画像メモリ上にレイアウトし、（ｄ）充填手段が、前記画像メモリ上のジャームとジャームとの間の空間内の点を前記重要な領域の外側にある点の画素値で充填する。
【選択図】図５

Description

本発明は、画像処理に関し、詳細には、画像セグメントから重要な画像領域を抽出することに関し、さらに詳細には、画像領域の高凝縮要約画像を生成する方法に関する。

作成されるデジタル画像、ビデオ、及びマルチメディア・コンテンツが増えるにつれ、これらのコンテンツに対し、より多くのタイプのデバイス（携帯電話、ＰＤＡ、ノート・パソコン、ラップトップ・コンピュータ、及びその他のモバイル・デバイス、並びに、デスクトップ・コンピュータ、ワーク・ステーション、及び何らかのモニタを有するか或いは何らかのモニタと通信するその他のデバイスのような、非モバイル・デバイスを含む）を用いて、アクセス可能であることが望まれる。モバイル・デバイスに関し、ＰＤＡや携帯電話のような小型の無線モバイル・デバイスにおいてビデオを閲覧することは困難である。なぜなら、一般的に、スクリーンが小さいと、表示できるコンテンツの量が制限されるからである。

ビデオ・サマリを視覚化する既存の手法は、小型スクリーンに合わせて企画されておらず、小型スクリーンでは適切に機能しない。したがって、ビジュアル・サマリは、モバイル・デバイスに見られるような小型スクリーンでは適切に機能しないのが一般的である。よく知られている１つの方法として、コンテンツ分析アルゴリズムを用いてビデオから抽出されたいくつかの重要なキー・フレームを含むストーリー・ボードを使用する方法がある。ストーリー・ボード表示の一例が、図１に示されている。このレイアウトは、同じサイズの画像を有していてもよいし、異なるサイズの画像を有していてもよい。小型スクリーンで見る場合、画像の中身が見えにくい。

ドキュメントの強調表示領域の検出に関する特許文献１、ドキュメントのテキスト領域の自動抽出に関する特許文献２、及び、非特許文献１は、本発明に関連する。

米国特許第５，０４８，１０９Ａ号明細書米国特許第６，４７０，０９５Ｂ２号明細書

Ｓ．ウチハシ、Ｊ．フート、Ａ．ギルゲンゾーン、Ｊ．ボレツキー（S. Uchihashi, J. Foote, A. Girgensohn, J. Boreczky）、「ビデオ・マンガ：意味を有するビデオ要約の意味論的生成（Video Manga: Generating semantically meaningful video summaries）」、ＡＣＭマルチメディア予稿集（Proceedings ACM Multimedia）、１９９９年、pp.383-392

上記に鑑み、本発明の課題は、小型スクリーンにも適切に対応する画像領域の高凝縮ビジュアル・サマリを生成することができるようにすることである。

本発明の第１の態様は、コンピュータが画像領域の高凝縮要約画像を生成する方法であって、（ａ）主要グループ決定手段が複数の動画セグメントの各々における主要グループとして重要な領域にあたる前記画像に含まれる人間の顔の領域を決定し、（ｂ）キー・フレーム決定手段が前記動画セグメントの各々におけるキー・フレームを決定し、（ｃ）定義手段が前記動画セグメントの各々における前記各主要グループに関連するジャームを定義し、（ｄ）レイアウト手段が前記ジャームをスクリーンに対応する画像メモリ上にレイアウトし、（ｅ）充填手段が、前記画像メモリ上のジャームとジャームとの間の空間内の点を前記重要な領域の外側にある点の画素値で充填し、前記ジャームは前記主要グループの前記キー・フレームへの投影であり、（ｅ）において、第一の顔の中心と空間内の第一の点との間の距離から第一の顔を囲む円の半径を減算した値を第一の距離とし、第二の顔の中心と空間内の第一の点との間の距離から第二の重要な領域を囲む円の半径を減算した値を第二の距離とし、第一の距離が第二の距離より小さい場合には、第一の顔の外側にある点の画素値で該第一の点を充填し、第二の距離が第一の距離より小さい場合には、第二の顔の外側にある点の画素値で該第一の点を充填する。

本発明の第２の態様は、第１の態様の高凝縮要約画像を生成する方法であって、前記レイアウト手段は、カラー・ヒストグラム、類似性、サイズ、時間的順序の少なくとも一つにもとづいて前記ジャームをレイアウトする。

本発明の第３の態様は、第１または第２の態様の高凝縮要約画像を生成する方法であって、（ｄ）が、前記スクリーンに適合する最大サイズに前記ジャームがスケーリングされるように、前記各ジャームに適用される倍率を決定する。

本発明の第４の態様は、第１または第２の態様の高凝縮要約画像を生成する方法であって、（ｄ）が、前記ジャームを、各々が当該行の中で最も高いジャームに応じた高さを有する行に配置する。

本発明の第５の態様は、コンピュータが画像領域の高凝縮要約画像を生成する方法であって、（ａ）主要グループ決定手段が複数の画像の各々における主要グループとして重要な領域にあたる前記画像に含まれる人間の顔の領域を決定し、（ｂ）定義手段が前記画像の各々における前記各主要グループをジャームとして定義し、（ｃ）レイアウト手段が前記ジャームをスクリーンに対応する画像メモリ上にレイアウトし、（ｄ）充填手段が、前記画像メモリ上のジャームとジャームとの間の空間内の点を前記重要な領域の外側にある点の画素値で充填し、（ｄ）において、第一の顔の中心と空間内の第一の点との間の距離から第一の顔を囲む円の半径を減算した値を第一の距離とし、第二の顔の中心と空間内の第一の点との間の距離から第二の重要な領域を囲む円の半径を減算した値を第二の距離とし、第一の距離が第二の距離より小さい場合には、第一の顔の外側にある点の画素値で該第一の点を充填し、第二の距離が第一の距離より小さい場合には、第二の顔の外側にある点の画素値で該第一の点を充填する。

本発明の第６の態様は、第５の態様の高凝縮要約画像を生成する方法であって、前記レイアウト手段は、カラー・ヒストグラム、類似性、サイズ、時間的順序の少なくとも一つにもとづいて前記ジャームをレイアウトする。

本発明の第７の態様は、第５または第６の態様の高凝縮要約画像を生成する方法であって、（ｃ）が、前記スクリーンに適合する最大サイズに前記ジャームがスケーリングされるように、前記各ジャームに適用される倍率を決定する。

本発明の第８の態様は、第５または第６の態様の高凝縮要約画像を生成する方法であって、（ｃ）が、前記ジャームを、各々が当該行の中で最も高いジャームに応じた高さを有する行に配置する。

本発明は、複数の画像セグメントの各々における主要グループを決定し、前記画像セグメントの各々におけるキー・フレームを決定し、前記画像セグメントの各々における前記各主要グループに関連するジャームを定義し、前記ジャームをキャンバス上にレイアウトし、前記キャンバスの空間を充填している。これにより、本発明では、小型スクリーンに適切に対応する画像領域の高凝縮要約画像を生成することができる。

従来技術による、キー・フレームを用いたビデオのストーリー・ボード・サマリを示す図である。本発明の一実施形態による、ビデオ領域を抽出してビデオの高凝縮ビジュアル・サマリを生成する方法を示す図である。本発明の一実施形態による、ビデオにおける重要な領域を判別する方法を示す図である。本発明の一実施形態による、ｘ−ｙ−ｔ空間に表されたビデオを示す図である。本発明の一実施形態による、ジャームをレイアウトする方法を示す図である。Ａは、本発明の一実施形態によるジャーム及びジャームのサポートを示す図であり、Ｂは、本発明の一実施形態によるジャームを示す図である。本発明の一実施形態による、ジャームを含むキャンバスを示す図である。本発明の一実施形態による、ジャームを含むボロノイ領域を有するキャンバスを示す図である。本発明の一実施形態による、ビデオの高凝縮ビジュアル・サマリを示す図である。本発明の一実施形態による、ビデオの高凝縮ビジュアル・サマリを示す図である。本発明の一実施形態による、ビデオの高凝縮ビジュアル・サマリを示す図である。本発明の一実施形態による、異なる距離関数測定値を示す図である。本発明の一実施形態による、ビデオの高凝縮ビジュアル・サマリを示す図である。本発明の一実施形態による、ビデオの高凝縮ビジュアル・サマリを示す図である。本発明の一実施形態による、画像の高凝縮ビジュアル・サマリを示す図である。本発明の一実施形態による、顔のサイズが均一な画像の高凝縮ビジュアル・サマリを示す図である。本発明の一実施形態による、顔のサイズが異なる画像の高凝縮ビジュアル・サマリを示す図である。本発明の一実施形態による、距離測定値が強調表示された画像の高凝縮ビジュアル・サマリを示す図である。

本発明の一実施形態では、高凝縮ビジュアル・サマリ装置は、複数のビデオ・セグメントの各々における主要グループを決定する主要グループ決定手段と、該ビデオ・セグメントの各々におけるキー・フレームを決定するキー・フレーム決定手段と、該ビデオ・セグメントの各々における該各主要グループに関連するジャームを定義する定義手段と、サポートと関連付けられた該ジャームをキャンバス上にレイアウトするレイアウト手段と、該キャンバスの空間を充填する充填手段と、を少なくとも備える。高凝縮ビジュアル・サマリ装置は、ビデオ領域の高凝縮ビジュアル・サマリを生成する装置に相当する。

高凝縮ビジュアル・サマリ装置は、例えば、比較的小さいモニタを有する小型コンピュータであってよく、該小型コンピュータは、ビデオ・ファイル等のデータやユーザの指示情報等を入力する入力部、プロセッサによる実行の際の作業領域を形成すると共にプログラムや処理対象としてのデータを格納する記憶部、処理内容や処理結果を表示画面に表示するモニタ（表示部）、及びデータを通信網などに出力する出力部などを含む。プロセッサは、判別手段、付与手段、構成手段、併合手段に相当し、プログラム（ソフトウェア）を読み出し実行することにより、処理対象のデータ等に対し当該プログラムの手順に対応した処理をする。

本発明の高凝縮ビジュアル・サマリ装置は、小型コンピュータに限定されず、例えば、ＰＤＡ、携帯電話、腕時計、小型コンピュータ、デジタル・カメラ、及びその他のデバイスのような、他の比較的小さいモニタ若しくは表示スクリーンを有するデバイスであってよい。さらに、デスクトップ・コンピュータ、ワーク・ステーション、及び何らかのモニタを有するか或いは何らかのモニタと通信するその他のデバイスのような、比較的大型のデバイスであってもよい。また、本発明は、ハードウェアによって実現されることに限定されず、ソフトウェアによって実現されてもよいし、ファームウェアによって実現されてもよい。

本発明の一実施形態は、１つ以上のビデオから重要なビデオ領域を抽出し、これらのビデオの高凝縮ビジュアル・サマリを生成する。重要なビデオ領域は、エネルギー、動作、顔若しくはその他のオブジェクト検出方法、関連データ若しくは外部入力、又は、ビデオのその他何らかの特性に基づいて抽出される。別の実施形態では、本発明は、画像から重要なジャームを受信若しくは抽出し、これらの画像の高凝縮ビジュアル・サマリを生成する。

本発明の別の一実施形態では、重要な領域は、２つの部分、即ち、ジャームとサポートとから構成される。高凝縮ビジュアル・サマリは、キャンバス上にジャームをレイアウトし、これらのジャーム間の空間を充填することにより、生成される。その結果、様々な形状をした部分を備えるステンド・グラスの窓に似た、ビジュアル・サマリがもたらされる。ジャームは、所望のパターン、サイズ、又はその他何らかの様式に応じて、時間的順序、カラー・ヒストグラム、類似性によってレイアウトされてもよい。ジャームにおける人々、オブジェクト、及びその他のビジュアル・コンテンツは、より大きくなると、より見やすくなる。本発明のさらに別の一実施形態では、パッキングされたジャーム間の空間を充填するボロノイ・ベースのアルゴリズムにより、不規則な形状をしたセル境界が得られる。本発明のビジュアル・サマリは、キー・フレーム内の重要な部分領域を利用することによって、小型スクリーンに十分に適した、より凝縮度の高いサマリをもたらす。

ビジュアル・サマリの生成
ビデオ領域を抽出して高凝縮ビジュアル・サマリを生成する方法２００が、図２に示されている。方法２００は、開始ステップ２０５で開始する。次に、ステップ２１０において、ビデオがセグメントにセグメント化される。次に、ステップ２２０において、これらのビデオ・セグメントから重要な領域が決定される。重要な領域が決定されると、ステップ２３０において、重要度の高いこれらの領域がキャンバス上にレイアウトされる。次に、ステップ２４０において、重要度の高いこれらの領域間の空間が充填され、ステップ２４５において、方法２００が終了する。これらの作業については各々、以下により詳細に述べる。

ビデオのクリップへのセグメント化
ビデオは、様々な方法を用いて、１つ以上のセグメントにセグメント化されてもよい。１つのビデオは、連続的な画像フレームから構成される。一実施形態では、ビデオは、各クリップが類似した連続フレームから構成されるように、ビデオ・セグメントにセグメント化される。このセグメント化は、カラー・ヒストグラム、ユーザ入力、又はその他何らかの手段のような、標準的な手法を用いて行うことができる。別の手法としては、利用可能なカメラのオン／オフ情報を用いて、ビデオ・セグメントの時間的境界を決定する手法があり、これによって、真のショット境界がもたらされ、この真のショット境界は、より適切なセグメントを制作するのに役立つ。

別の一実施形態では、ビデオ・フレーム画像をサブサンプリングする精度が設定されてもよい。このサンプリング・レートは、凝縮サマリをもたらすデバイスの用途、利用可能な処理能力、規格、及びその他の特性に基づいて選択されてもよい。さらに別の一実施形態では、モバイル・デバイスにおいて一般的に使用することができると共に表示がしやすいという点から、１ビデオ画像当たり幅方向が１６ピクセルで高さ方向が１２ピクセルという、かなり低いサンプリング・レートを用いてもよい。さらに、画像を平滑化して、ノイズを減少させてもよい。

重要な領域の判別
方法２００のステップ２１０においてビデオが１つ以上のビデオ・セグメントにセグメント化された後、ビデオ・クリップにおいて重要な領域が決定される。図３の方法３００は、本発明の一実施形態による、重要な領域を判別する処理を示している。方法３００は、開始ステップ３０５で開始する。次に、ステップ３１０において、ビデオ・セグメント内で重要な領域が決定される。１つのビデオは、ｘ−ｙ−ｔ空間における三次元ボリュームとみなすことができる。ビデオの三次元ボリュームの例示的表現が、図４に示されている。図示されているように、ビデオ・セグメント４１０は、第１フレーム４４０と、ｔ軸に沿ったいくつかの連続フレームとから構成され得る。１つの領域は、この三次元ビデオ・セグメント４１０のｘ−ｙ−ｔ空間内における部分集合の三次元領域として特徴付けることができる。領域４２０及び４３０は、ビデオ４１０の三次元ボリューム内に位置する。

重要な領域は、多数の方法で決定することができる。一実施形態では、アクティビティ若しくは運動エネルギーが比較的高い三次元空間を重要な領域として決定してもよい。また、いくつかの方法を用いて、領域のエネルギー若しくはアクティビティを求めてもよい。別の一実施形態では、エネルギーを測定するために、速度フィールドを算出してもよい。この場合、サンプリングされた各ピクセルに速度が付与される。この速度は、ビデオ・フレーム間における輝度変化を計算することにより得ることができる。一実施形態では、速度変化を、ｔ成分における速度変化から算出してもよい。別の実施形態では、この速度変化を、ｘ、ｙ、及びｔ成分の全てを用いて、輝度変化から算出してもよい。このように、全ての成分から速度を算出するには、より多くの処理が必要とされるが、より良い結果が得られる可能性が高い。

一実施形態では、領域の残余動作(residual motion)を用いて、輝度変化若しくは速度
変化を求めるのが望ましい。残余動作とは、カメラ動作若しくは背景動作が除去若しくは減算された後に得られる動作のことである。カメラ動作にはパン、チルト、及びズームのような様々なタイプがあり、これらのタイプを検出する方法が開発されている。別の一実施形態では、この残余動作を、特定ピクセルに対する動作変化からフレームの平均動作を減算することにより求めてもよい。

次に、方法３００では、ビデオ・セグメントの（ｘ−ｙ−ｔ空間における）各ピクセルに関し、ステップ３２０において、重要な領域における各ピクセルに対する速度の大きさに値が付与される。一実施形態では、この値は、所定のピクセル・レンジ内に収まるように付与されてもよい。このピクセル・レンジは、処理能力及び生成される領域の所望の特徴に基づいて選択されてもよい。別の実施形態では、この速度の大きさは、０と１の二進数のレンジ内となるように量子化されてもよい。０と１の二進レンジを用いるこの実施形態では、平均値（特定のビデオ・セグメントにおけるサンプリングされたピクセル全ての速度の大きさの平均値）よりも速度の大きさが大きいピクセルを１に設定し、残りのピクセルを０に設定してもよい。この実施形態では、分析及び処理の重点を、値が１であるピクセルの集合に置いてもよく、これにより、計算時間が実質的に削減される。

次に、方法３００のステップ３３０において、値が１であるピクセルからグループが構成される。一実施形態では、値が１である隣接したピクセルをグループ化することによって、領域が構成される。二次元のビットマップ画像に関しては、各反復において、値が１であるピクセルまでの距離が短いピクセルが、値１のピクセルに変換される。この短い距離は用途によって決まり、一般的にはピクセル１個分であるが、任意のレンジであってもよい。例えば、ピクセル１〜５個分という距離が挙げられるが、本発明はこれに限定されない。しかしながら、値が１である隣接したピクセルをグループ化するのに、いくつのピクセル若しくはレンジを用いてもよい。何回かの反復後、値が１であるピクセルのグループ若しくは「ブロブ(blobs)」が現れる。これらのグループは、かなり不規則な形状をし
ている可能性がある。これにより、計算上、ビデオに対応する三次元ボリュームには、はるかに多くのコストがかかる。さらに、領域の構成処理中及びその後のレイアウト・ステップにおいて、領域の交差及び包含というような幾何学的特性が得られるが、これらの計算に対するアルゴリズムは、二次元よりも三次元の方がより複雑である。

ステップ３３０においてグループが構成された後、作業はステップ３４０へ続き、このステップ３４０では、値が１であるピクセルのグループを併合することによって、より大きなグループが形成される。一実施形態では、重要度の高い領域を表すのに、長方形のボックスが用いられる。本明細書中では、単なる例として長方形の領域について述べるが、これらの領域は、あらゆる形状で又はあらゆる形状の組み合わせでグループ化され構成されてもよい。重要度の高い領域を構成するために、ステップ３４０において、ボックスの前段階である、ステップ３３０で構成された値が１である隣接したピクセルのグループが、より大きなグループに併合される。

一実施形態では、値が１である２のピクセルが隣接しているならば、これらはより大きなグループに併合される。これにより、重要度の高い領域が形成され、これらは一以上の停止条件を備える。この実施形態では、該停止条件により、グループが過度にまばらに散らばらないようにされる。本発明の範囲内における停止条件は、エネルギー密度、体積、及びその他の特性に基づき得る。別の一実施形態では、この得られたより大きなグループは、値が１であるピクセルのより小さなグループを両方とも含む、最小の三次元長方形ボックスという形状をしている。本明細書中では、単なる例として長方形をしたグループについて述べる。領域は、任意の形状で又は多数のタイプの式を用いて構成されグループ化されてもよい。ステップ３４０において、値が１であるピクセルのグループが併合された後、方法３００の作業は、ステップ３４５で終了する。

上述したように、停止条件は多数の特性に基づき得る。このような特性の１つとして、エネルギー密度がある。本発明の一実施形態では、ステップ３４０で行われるような併合後に、このエネルギー密度が一定の閾値よりも低下しないようにしなければならない。例えば、グループＡの密度はｄ（Ａ）で表すことができ、これは、グループＡにおける値１のピクセルの数を、Ａのバウンディング・ボックスに含まれるピクセルの総数で割ったものである。

同様に、隣接したグループＢの密度は、ｄ（Ｂ）で表すことができる。ビデオ・セグメント全体の平均密度は、ｄ（Ｗ）で表すことができる。この場合、２つのグループＡとＢは、ｄ（Ｃ）＞ｄ（Ｗ）となるのであれば、併合してグループＣとすることができる。ここでは、単なる例として、併合されたグループのエネルギー密度が平均エネルギー密度と比較される。エネルギー密度の代わりに他の閾値を用いてもよく、これは本発明の範囲内に含まれる。

別の実施形態では、方法３００のステップ３４０で行われるように２つ以上のグループが併合される際、併合されたグループの体積が一定の閾値を超えないようにしなくてはならない。例えば、グループＡに対するバウンディング・ボックスの体積は、ｖ（Ａ）と表すことができる。同様に、グループＢに対するバウンディング・ボックスの体積は、ｖ（Ｂ）と表すことができる。グループＡ及びＢに関し、これらの交差部分をＫと表すことができる。この場合、ｖ（Ｋ）／ｖ（Ａ）＜１／２且つｖ（Ｋ）／ｖ（Ｂ）＜１／２であると、ＡとＢとは併合することができない。ここでは、単なる例として、併合された２つのグループの交差部分の体積が各グループの体積と比較される。その他の体積比較法を用いてもよく、これは本発明の範囲内に含まれる。

一実施形態では、反復併合処理の結果を、複数のツリー（tree:木）から成るフォレスト（forest:森）と比較してもよい。ここで、各ツリーは１グループを表し、このツリーの複数のリーフ（leaf:葉）は値１のピクセルである。これらのツリーは二進法ではなく、各ノードは２より多くの子を有することができる。各ツリーのバウンディング・ボックスは、一領域である。

重要度の高い領域のレイアウト
図２の方法２００では、ステップ２２０においてビデオ・クリップにおける重要な領域を判別した後、次のステップ２３０においてジャームをレイアウトする。方法２００の作業におけるこの段階では、ビデオは、図４のセグメント４１０のようなセグメントにセグメント化されており、各セグメントに対し、グループ若しくは領域４２０及び４３０のような、重要度の高いグループ若しくは領域が算出されている。これらの重要度の高いグループからレイアウトを作成する処理が、図５の方法５００によって示されている。方法５００は、開始ステップ５０５で開始する。次に、ステップ５１０において、１つ以上のセグメントにおける主要グループが決定される。１つのセグメントには、１つの主要グループがあることが多い。一実施形態では、主要グループとは、最も多くのエネルギー、モーション、又は体積を備えた区域か、或いは、その他の理由で重要な区域のことである。例えば、プレゼンテーションのビデオに関して言えば、主要グループは、壇上で身ぶり手ぶりで話している人と、部屋のあちらこちらに座っている人々とを含み得る。ビデオの各クリップから主要グループが選択されてレイアウトされる。

次に、ステップ５２０において、各ビデオ・セグメントに対し、キー・フレームが定義される。一実施形態では、各セグメントの第１フレームをキー・フレームとされる。しかしながら、キー・フレームは様々な方法で決定してもよく、これらは全て本発明の範囲内に含まれると考えられる。

次に、方法５００では、ステップ５３０において、各主要グループに対し、ジャーム及びサポートが定義される。一実施形態では、各グループは、レイアウトを決定する２つの長方形、即ち、（１）グループの三次元バウンディング・ボックス及び（２）キー・フレーム画像の二次元バウンディング・ボックスと関連付けられる。これらの長方形を念頭に置くと、ジャームは、グループのｘ−ｙ面をキー・フレーム上に投影したものと考えられる。ジャームのサポートは、キー・フレームにおいてジャームを囲む画像コンテンツ区域である。

図６Ａ及び図６Ｂは各々、本発明の一実施形態による、ジャーム及びジャームのサポートを示している。図６Ａにおいて、キー・フレーム画像バウンディング・ボックス６１０は、ジャーム画像６１４と、ジャームのサポート６１２によって占有された空間とを含む。図６Ａ及び図６Ｂに示されている実施形態では、ジャームは、キー・フレームの部分区域である。図６Ａのジャームのサポート６１２は、空白であり、このサポートが占める空間を示していることに注意されたい。図６Ｂは、空間６２０において、ジャームとサポートとを一緒に示している。図６Ａ及び図６Ｂは、単なる例として長方形をした、ジャーム及びジャームのサポートの例を表している。別の実施形態では、これらのジャーム及びサポートは、不規則な形状をしていてもよい。さらに別の実施形態では、ビデオ・モザイク・アルゴリズムのような手法を用いて、ジャームのサポートをキー・フレームの境界よりも延出させることにより、より大きなパノラマ画像を作成してもよい。ジャーム及びジャームのサポートは、本発明による任意の形状であってよく、互いに類似していても異なっていてもよいし、変化しても変化しなくてもよい。

ジャームが選択されると、次に、任意で、ジャームの順序付けが決定されてもよい（方法５００には示されていない）。このジャームの順序付けは、時間的特性、サイズ特性、カラー特性、コンテンツを含む、多数の方法のうちのいずれによって決定されてもよいし、特定のジャームから得られる又は特定のジャームと関連付けられたその他のデータによって決定されてもよい。

次に、ステップ５４０において、主要領域に対し倍率が決定される。一実施形態では、この倍率はジャームの最大倍率に相当しており、キャンバスを完全に満たす行又は列にジャームを配置することができる。この倍率は、最も望ましいスケーリングが達成されるまで、繰り返し調整することができる。一実施形態では、表示される全てのジャームに対して同じ倍率が適用される。別の実施形態では、ジャーム間で倍率が異なっていてもよい。いずれの場合にも、ステップ５４０における倍率の決定は、方法５００に示されているような改行決定ステップ５５０と別に行ってもよいし、同時に行ってもよい。

次に、ステップ５５０において、領域をキャンバス若しくは表示ページ上に配置するために、改行が決定される。一実施形態では、これは、テキストが、テキストを示すページのサイズで「ラップ」されるように、テキストのパラグラフをワード−ラップでレイアウトするのに似ている。ジャームが水平な行に配置される実施形態では、左から右へ１行ずつジャームをパッキングすることによって、その境界となる空間がキャンバス形状の縦横比に最も近くなるように、改行が選択される。改行によりジャームがレイアウトされたキャンバス７００の一例が、図７に示されている。キャンバス７００は、ジャーム７１０、７２０、及び７３０を含むジャームと、背景７４０とを含む。これらのジャームは、３行に改行されており、これらの行は各々、ジャームを３つ、２つ、３つ有している。別の実施形態では、一度に１行ずつの改行を決定するのではなく、小さな数であるＮ個のジャームに関し、これらを１〜Ｎ行に配置する全ての組み合わせを完全にリストアップすることが可能である。各組み合わせに対して、カバー区域のサイズというような品質測度を決定することができ、最適な組み合わせを選択することができる。順序付けされた複数のジャームが１ページに表示されるように「改行」を必要とする別の実施形態では、これらのジャームは、垂直列、同心円の行、又は、あらゆるその他の方式で配置されてもよい。

ステップ５６０では、そのレイアウトが許容可能であるかどうかが決定される。一実施形態では、倍率が、全てのジャームをキャンバス上に表示できる最大の大きさである場合、そのレイアウトは許容可能である。レイアウトが許容可能でない場合、方法５００の作業はステップ５４０へ戻る。レイアウトが許容可能である場合、作業はステップ５７０へ進む。

ステップ５７０において、セルの高さと幅が設定される。一実施形態では、ジャームは、右側に余白のあるライン上に水平方向に離間され、垂直方向に沿ったラインの中心にできるだけ近くなるように移動される。この離間及びセンタリングは、ジャームのサポートによって制約される。一実施形態では、キャンバスは、サポートによってできるだけ多くカバーされなければならない。本発明の一実施形態による一例が、図８のキャンバス８００によって示されている。キャンバス８００は、ジャーム８１０、８２０、８３０、及び８４０を含む、いくつかのジャームを含む。右上のジャーム８４０は、そのサポートが上部に十分な空間をカバーできていないため、垂直方向におけるラインの中心に配置されていないことに注意されたい。結果として、そのジャームはパッキングが密となる。

最後に、キャンバスの縦横比に近付けるために、サポートが隙間をカバーできるのであれば、ラインをさらに離間させてもよい。本発明の別の実施形態では、キャンバスにおける隙間の全部又は一部をカバーするように、ジャームをスケーリングすることができる。本発明の別の実施形態では、キャンバスが隙間を許容することができる。ステップ５７０において、セルの高さと幅がキャンバスに適合された後、方法５００の作業は、ステップ５７５で終了する。

領域間における空間の充填
方法２００のステップ２３０においてジャームのレイアウトが完了すると、ステップ２４０においてジャーム間の空間が充填される。一実施形態では、ジャームのボロノイ領域に応じて、領域間の空間が充填される。これらのボロノイ領域は、キャンバスを、ジャームに対応する非接合区域に分割する。つまり、キャンバス上の点（ｘ，ｙ）は、それに最も近いジャームに属する。この点が最も近いジャームのサポートに属する場合、そのピクセルには、このジャームのサポートの対応するピクセルと同じ値が付与される。最も近いジャームのサポートが点（ｘ，ｙ）を含まない場合、ボロノイ領域は用いられず、サポートが点（ｘ，ｙ）を含む次に最も近いジャームが用いられて、この点が充填される（そのピクセルには、サポートがこの点を含む次に最も近いジャームの値が付与される）。この点を含むジャームが無い場合、そのピクセルには、隣接したピクセル値の平均値、キャンバスの背景色、又はその他何らかの値を付与することができる。

一実施形態では、視覚化のために画像を描くのに、異なるジャーム及びサポート区域の区域周囲に境界が配置されてもよい。ジャーム及びサポート区域境界が強調表示されたキャンバス８００の一例が、図８に示されている。キャンバス８００は、ジャーム８１０、８２０、８３０、及び８４０、ジャーム・セル・ライン８５０、並びに区域境界線８６０を含む。図示されているように、この境界線８６０は、ジャーム８３０とジャーム８３０のサポートの一部との周囲に設けられている。

ボロノイ領域、その他の隣接したサポート、又は背景に応じて、キャンバス上の全ての点がいずれも充填されると、キャンバスが完成される。次に、方法２００の作業は、ステップ２４５で終了する。完成したキャンバス９００の一例が、図９に示されている。さらに、異なる縦横比を用いたキャンバスの例が、図１０及び図１１に示されている。図１０及び図１１では各々、例として、ジャームは、１０１０、１０２０、１１１０、及び１１２０のようなボックスによって囲まれている。

ボロノイ図式は、点からの距離を用いることが多い。異なる実施形態では、ジャームからの距離を用いてもよい。別の実施形態では、ジャームの最も近い境界と点との間の距離が用いられる。充填処理の際に異なる距離関数を用いれば、キャンバス上に異なる形状の領域を生成することができる。一実施形態では、この距離関数は、ジャームの中心とピクセルとの間の距離から得ることができる。図１２は、本発明の一実施形態による距離関数測定法１２００の一例を示している。図１２は、点（ｘ，ｙ）におけるピクセル１２１０、中心が点１２２５にあるジャーム１２２０、第１半径ｒ₁１２３０、第２半径ｒ₂１２４０、ピクセルとジャームとの間の距離ｄ₀１２５０、及びジャームの中心とピクセルとの間の距離ｄ₁１２６０を含む。この距離関数におけるジャームのサイズが含まれるように、ジャームの中心を中心とした２つの円が生成される。半径ｒ₁１２３０の第１の円の直径は、ジャームの幅と高さとの平均である。半径ｒ₂１２４０の第２の円の直径は、ジャームの対角線である。第１の距離関数ｍａｘ（０，ｄ₁−ｒ₁）を用いれば、図１３に示されているような緩やかなカーブの境界が生成される。第２の距離関数ｄ₁／ｒ₂を用いれば、図１４に示されているような急なカーブの境界が生成される。別の実施形態では、これらの距離関数を加重平均において組み合わせることにより、カーブの程度を変更することができる。また、その他様々な距離関数を用いてもよく、これにより、異なるタイプの領域境界を設けることができる。

一実施形態では、高凝縮ビジュアル・サマリは、ＰＤＡ、携帯電話、腕時計、小型コンピュータ、デジタル・カメラ、及びその他のデバイスのような、比較的小さいモニタ若しくは表示スクリーンを有するデバイスにおいて利用することができる。高凝縮ビジュアル・サマリがこれらのデバイスに表示されたら、ユーザは、入力データを供給することによって、関連付けられたグループに対応するジャームを選択することができる。ジャーム又はジャームのサポートが選択されたら、デバイスは、スクリーン上にそのグループを再生してもよい。ジャーム又はそのサポートが選択されたら、その他様々な方法でそのグループを供給するか或いはその他の動作を行うことも可能であり、これらは全て本発明の範囲内に含まれる。

画像及び写真からの高凝縮サマリ
この高凝縮サマリ構成は、画像及び写真にも適用することができる。画像において重要な領域を判別するには、一般的な画像解析アルゴリズム、静止画像の主要部分を決定する顔検出アルゴリズム、ユーザ入力若しくはその他のオブジェクト検出アルゴリズム、又はその他の方法を用いて、重要な領域を決定することができる。ユーザ入力によれば、画像を全体として又は一部として、（マウス又はその他の入力デバイスによって）選択することができる。領域が決定されたら、これらの領域は、サポートとして機能する画像の残りの部分と共にジャームとしてレイアウトすることができる。画像の高凝縮サマリの一例が、図１５に示されている。

別の実施形態では、重要な領域は、本発明のシステムにより入力データとして受信することができる。この場合、システムは、画像内の重要な領域と関連付けられた画像データ又はその他のデータを受信して、これらの領域をジャームとしてレイアウトするよう処理を進めてもよい。

別の実施形態では、画像から選んだジャームのレイアウトを、方法５００に示されたものとは異なる方法を用いて行ってもよい。一実施形態では、検出された顔を用いて、顔のコレクションから成るアトラクティブなコラージュが作成される。このような視覚化では、画像領域は、コラージュにおいて組み合わされ、領域間の隙間は、オリジナル画像における重要な領域の外側にあるピクセルで充填される。ビデオ・サマリに用いられ得るビデオ・セグメントにおけるアクティビティ領域の代わりに、顔が重要な領域である。ビデオ・セグメントを時間的順序に保つビデオ・サマリのレイアウト・アルゴリズムは、顔のコレクションに対してより適したアルゴリズムに置き換えてもよい。隙間を充填するためのアルゴリズムはほぼ同じままであるが、このようなレイアウト・アルゴリズムを用いることによって異なる充填効果が得られる。

レイアウト
ステンド・グラスに含まれる顔が、行にグループ化される。一実施形態では、写真が行全体をカバーできないような、顔の少ない行ができるのを回避するために、顔は、１行当たりのその数が１つしか違わないように、行に分割される。別の実施形態では、偶数及び奇数の顔を備えた行をできるだけ交互に設けることによって、より不規則なレイアウトが作成される。

隣り合った顔が似たような外観（同じ写真からの同じ背景、同じ日における同じ人の写真）になるのを回避するために、水平方向及び垂直方向に隣接した顔までの時間的距離が最大となるように、顔の順序のランダム順列が生成される。さらに別の実施形態では、カラー・ヒストグラムのような視覚的相違を用いてもよく、これにより、異なる時間から選んだ写真を隣接させたレイアウトに類似した効果が得られる。

顔が行に割り当てられた後、顔の幅及び高さのうちのほんの一部が余白となるように、キャンバスの寸法が決定される。一実施形態では、顔の幅の１０％を水平方向の余白、顔の高さの２０％を垂直方向の余白としてもよい。各行の高さは、最初は、その行における最も高い顔の高さに設定してもよい。垂直方向における余白は、どの行もその行における顔の写真寸法を越えて延出しない限り、全ての行にわたって均等に分割される。各行において、水平方向における余白も同様に分配される。一実施形態では、各顔は、垂直方向及び水平方向における余白を分配することにより作成されたセルの中心に配置され、含んでいる写真がセル全体をカバーできない場合のみ移動される。全ての顔を同じサイズにすると、図１６に示されているように、非常に規則的なレイアウトがもたらされる。コラージュをより不規則にして、よりアトラクティブにするには、顔のサイズに変化をつけて、写真のより多くの部分をカバーする顔（拡大写真）には、コラージュにおいて、より大きなサイズが与えられるようにする。顔は、セルの中心に配置される代わりに、図１７に示されているように、ランダムに配置されてもよい。

隙間の充填
顔と点との間の距離測度を求めるために、顔の中心と点との間のユークリッド距離が求められ、顔を囲む円の半径が減算される。この距離測度によって、より大きな顔にはより広い範囲が与えられ、区域間にわずかにカーブした境界がもたらされる。

キャンバスにおけるジャームの隙間を充填する際、いくつかの変形例及びガイドラインを任意で実施してもよい。本発明のガイドラインのうちのいくつかを組み込んでいる１つのキャンバス１８００の一部が、図１８に示されている。キャンバス１８００は、セル１８１０、１８２０、及び１８３０を含み、これらのセルは各々、顔と、中心１８１２、１８２２、及び１８３２とを有する。図１８に示されている実施形態では、これら３つの顔と顔との間において、各顔から点１８４０までの距離が同じであり、この点は、これらの顔と顔との間における境界を表している。ユークリッド距離を円の半径で割る場合、この距離測度によってよりカーブした境界がもたらされる。１つの写真がその顔に加えて別の顔を含む場合、これらの別の顔は、部分的に表示されるのを回避するため、その写真がカバーできる領域から取り除くことができる。例えば、別の顔１８５０は、セル１８２０における画像の一部である。従って、この別の顔１８５０は、セル１８２０における画像から取り除かれる。同じ写真からのいくつかの顔に対処する別の方法では、これら全ての顔を含む領域が用いられる。この方法は、１つの写真からいくつかの顔を選択してキャンバスに含める場合に適している。さらに別の実施形態では、１つのセルが、１つ以上の顔の部分画像を含んでもよい。

一実施形態では、本発明は、１つ以上のビデオから重要なビデオ領域を抽出し、これらのビデオの高凝縮ビジュアル・サマリを生成する。重要なビデオ領域は、エネルギー、モーション、顔若しくはその他のオブジェクト検出方法、関連データ若しくは外部入力、又は、ビデオのその他何らかの特性に基づいて抽出される。別の実施形態では、本発明は、画像から重要なジャームを受信若しくは抽出し、これらの画像の高凝縮ビジュアル・サマリを生成する。一実施形態では、重要な領域は、２つの部分、即ち、ジャームとサポートとから構成される。高凝縮ビジュアル・サマリは、キャンバス上にジャームをレイアウトし、これらのジャーム間の空間を充填することにより、生成される。その結果、様々な形状をした部分を備えるステンド・グラスの窓に似た、ビジュアル・サマリがもたらされる。ジャームは、所望のパターン、サイズ、又はその他何らかの様式に応じて、時間的順序、カラー・ヒストグラム、類似性によってレイアウトされてもよい。ジャームにおける人々、オブジェクト、及びその他のビジュアル・コンテンツは、より大きくなると、より見やすくなる。本発明の一実施形態では、パッキングされたジャーム間の空間を充填するボロノイ・ベースのアルゴリズムにより、不規則な形状をしたセル境界が得られる。

上記記述では、本発明の様々な態様が説明されている。しかしながら、当業者には、これらの態様のうちのいくつかのみ又は全てを用いて本発明を実施してもよい、ということは明らかであろう。本発明の理解を深めるため、説明の目的で、特定の数、材料、及び構造が示されている。しかしながら、当業者には、これらの特定の特徴を用いずに本発明を実施してもよい、ということは明らかであろう。別の例では、周知の特徴については、本発明が不明瞭とならないように省略又は簡略化されている。本発明のその他の特徴、態様、及び目的は、図面及び特許請求の範囲を検討することにより得ることができる。本発明のその他の実施形態を開発することができると共に、これらは本発明の精神及び範囲並びに特許請求の範囲内に含まれる、ということは理解されるであろう。

本発明の好適な実施形態の上記記述は、例示及び説明の目的で為されたものである。この記述は、完全であることを意図したものでもないし、ここに開示した厳密な形態に本発明を限定することを意図したものでもない。当業者には、多数の修正物及び変形物が明らかであろう。本発明の原理及びその実用化を最も適切に説明するために、これらの実施形態が選択されて説明され、これにより、当業者は、様々な実施形態に対する本発明、及び、意図される特定使用に適した様々な修正を加えた本発明を理解することができる。本発明の範囲は、添付の特許請求の範囲及びそれらの等価物によって定義されることが意図される。

コンピュータ分野の当業者には明らかであるように、特殊設計された集積回路又はその他の電子機器から構成される実施形態に加えて、本発明は、従来の汎用若しくは専用デジタル・コンピュータ、又は、本開示の教示に応じてプログラムされたマイクロプロセッサを用いて、好適に実施されてもよい。

ソフトウェア分野の当業者には明らかであるように、適切なソフトウェア・コーディングは、本開示の教示に基づいて、熟練したプログラマーにより容易に作製することができる。また、当業者には明らかであるように、本発明は、特定用途向け集積回路を作製することにより、或いは、従来のコンポーネント回路の適切なネットワークを相互接続することにより、実施してもよい。

本発明は、命令が記憶された記憶媒体であるコンピュータ・プログラム・プロダクトを含み、これらの命令を用いてコンピュータをプログラムすることにより、本発明の処理のいずれをも行うことができる。この記憶媒体としては、フロッピー（登録商標）・ディスク、光ディスク、ＤＶＤ、ＣＤ−ＲＯＭ、マイクロドライブ、及び光磁気ディスクを含むあらゆるタイプのディスク、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＤＲＡＭ、ＶＲＡＭ、フラッシュ・メモリ・デバイス、磁気若しくは光カード、ナノシステム（分子メモリＩＣを含む）、又は、命令及び／若しくはデータを記憶するのに適したあらゆるタイプの媒体若しくはデバイスが挙げられるが、これらに限定されるわけではない。

本発明では、汎用／専用コンピュータ若しくはマイクロプロセッサのハードウェアを制御すると共に、このコンピュータ若しくはマイクロプロセッサが人間のユーザと又は本発明の結果を利用するその他の機構とインターアクトできるようにするソフトウェアが、コンピュータ可読媒体のうちのいずれかに記憶される。このようなソフトウェアとしては、デバイス・ドライバ、オペレーティング・システム、及びユーザ・アプリケーションが挙げられるが、これらに限定されるわけではない。

本発明の教示（ビデオからの重要な領域の抽出及び高凝縮ビジュアル・サマリの生成が挙げられるが、これらに限定されない）を実施するソフトウェア・モジュールが、汎用／専用コンピュータ若しくはマイクロプロセッサのプログラミング（ソフトウェア）に含まれる。

４１０ビデオ・セグメント
４２０、４３０領域
４４０第１フレーム
６１０キー・フレーム画像バウンディング・ボックス
６１２ジャームのサポート
６１４ジャーム画像
６２０空間
７００、８００、９００、１８００キャンバス
７１０、７２０、７３０、８１０、８２０、８３０、８４０、１２２０ジャーム
７４０背景
８５０ジャーム・セル・ライン
８６０区域境界線
１０１０、１０２０、１１１０、１１２０ボックス

Claims

コンピュータが画像領域の高凝縮要約画像を生成する方法であって、
（ａ）主要グループ決定手段が複数の動画セグメントの各々における主要グループとして重要な領域にあたる前記画像に含まれる人間の顔の領域を決定し、
（ｂ）キー・フレーム決定手段が前記動画セグメントの各々におけるキー・フレームを決定し、
（ｃ）定義手段が前記動画セグメントの各々における前記各主要グループに関連するジャームを定義し、
（ｄ）レイアウト手段が前記ジャームをスクリーンに対応する画像メモリ上にレイアウトし、
（ｅ）充填手段が、前記画像メモリ上のジャームとジャームとの間の空間内の点を前記重要な領域の外側にある点の画素値で充填し、
前記ジャームは前記主要グループの前記キー・フレームへの投影であり、
（ｅ）において、
第一の顔の中心と空間内の第一の点との間の距離から第一の顔を囲む円の半径を減算した値を第一の距離とし、
第二の顔の中心と空間内の第一の点との間の距離から第二の重要な領域を囲む円の半径を減算した値を第二の距離とし、
第一の距離が第二の距離より小さい場合には、第一の顔の外側にある点の画素値で該第一の点を充填し、
第二の距離が第一の距離より小さい場合には、第二の顔の外側にある点の画素値で該第一の点を充填する、
画像領域の高凝縮要約画像を生成する方法。
前記レイアウト手段は、カラー・ヒストグラム、類似性、サイズ、時間的順序の少なくとも一つにもとづいて前記ジャームをレイアウトする、請求項１に記載の画像領域の高凝縮要約画像を生成する方法。
（ｄ）が、
前記スクリーンに適合する最大サイズに前記ジャームがスケーリングされるように、前記各ジャームに適用される倍率を決定する、
請求項１または請求項２に記載の画像領域の高凝縮要約画像を生成する方法。
（ｄ）が、
前記ジャームを、各々が当該行の中で最も高いジャームに応じた高さを有する行に配置する、
請求項１または請求項２に記載の画像領域の高凝縮要約画像を生成する方法。
コンピュータが画像領域の高凝縮要約画像を生成する方法であって、
（ａ）主要グループ決定手段が複数の画像の各々における主要グループとして重要な領域にあたる前記画像に含まれる人間の顔の領域を決定し、
（ｂ）定義手段が前記画像の各々における前記各主要グループをジャームとして定義し、
（ｃ）レイアウト手段が前記ジャームをスクリーンに対応する画像メモリ上にレイアウトし、
（ｄ）充填手段が、前記画像メモリ上のジャームとジャームとの間の空間内の点を前記重要な領域の外側にある点の画素値で充填し、
（ｄ）において、
第一の顔の中心と空間内の第一の点との間の距離から第一の顔を囲む円の半径を減算した値を第一の距離とし、
第二の顔の中心と空間内の第一の点との間の距離から第二の重要な領域を囲む円の半径を減算した値を第二の距離とし、
第一の距離が第二の距離より小さい場合には、第一の顔の外側にある点の画素値で該第一の点を充填し、
第二の距離が第一の距離より小さい場合には、第二の顔の外側にある点の画素値で該第一の点を充填する、
画像領域の高凝縮要約画像を生成する方法。
前記レイアウト手段は、カラー・ヒストグラム、類似性、サイズ、時間的順序の少なくとも一つにもとづいて前記ジャームをレイアウトする、請求項５に記載の画像領域の高凝縮要約画像を生成する方法。
（ｃ）が、
前記スクリーンに適合する最大サイズに前記ジャームがスケーリングされるように、前記各ジャームに適用される倍率を決定する、
請求項５または請求項６に記載の画像領域の高凝縮要約画像を生成する方法。
（ｃ）が、
前記ジャームを、各々が当該行の中で最も高いジャームに応じた高さを有する行に配置する、
請求項５または請求項６に記載の画像領域の高凝縮要約画像を生成する方法。