JP2011129137A - 画像領域の高凝縮要約画像を生成する方法 - Google Patents

画像領域の高凝縮要約画像を生成する方法 Download PDF

Info

Publication number
JP2011129137A
JP2011129137A JP2011003065A JP2011003065A JP2011129137A JP 2011129137 A JP2011129137 A JP 2011129137A JP 2011003065 A JP2011003065 A JP 2011003065A JP 2011003065 A JP2011003065 A JP 2011003065A JP 2011129137 A JP2011129137 A JP 2011129137A
Authority
JP
Japan
Prior art keywords
image
germ
distance
face
highly condensed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011003065A
Other languages
English (en)
Other versions
JP5035432B2 (ja
Inventor
Patrick Chiu
チィーウ パトリック
Andreas Girgensohn
ガーゲンソン アンドレアス
Qiong Liu
リュウ チョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2011129137A publication Critical patent/JP2011129137A/ja
Application granted granted Critical
Publication of JP5035432B2 publication Critical patent/JP5035432B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】画像領域の高凝縮要約画像を生成する方法を提供する。
【解決手段】(a)主要グループ決定手段が複数の画像の各々における主要グループとして重要な領域にあたる前記画像に含まれる人間の顔の領域を決定し、(b)定義手段が前記画像の各々における前記各主要グループをジャームとして定義し、(c)レイアウト手段が前記ジャームをスクリーンに対応する画像メモリ上にレイアウトし、(d)充填手段が、前記画像メモリ上のジャームとジャームとの間の空間内の点を前記重要な領域の外側にある点の画素値で充填する。
【選択図】図5

Description

本発明は、画像処理に関し、詳細には、画像セグメントから重要な画像領域を抽出することに関し、さらに詳細には、画像領域の高凝縮要約画像を生成する方法に関する。
作成されるデジタル画像、ビデオ、及びマルチメディア・コンテンツが増えるにつれ、これらのコンテンツに対し、より多くのタイプのデバイス(携帯電話、PDA、ノート・パソコン、ラップトップ・コンピュータ、及びその他のモバイル・デバイス、並びに、デスクトップ・コンピュータ、ワーク・ステーション、及び何らかのモニタを有するか或いは何らかのモニタと通信するその他のデバイスのような、非モバイル・デバイスを含む)を用いて、アクセス可能であることが望まれる。モバイル・デバイスに関し、PDAや携帯電話のような小型の無線モバイル・デバイスにおいてビデオを閲覧することは困難である。なぜなら、一般的に、スクリーンが小さいと、表示できるコンテンツの量が制限されるからである。
ビデオ・サマリを視覚化する既存の手法は、小型スクリーンに合わせて企画されておらず、小型スクリーンでは適切に機能しない。したがって、ビジュアル・サマリは、モバイル・デバイスに見られるような小型スクリーンでは適切に機能しないのが一般的である。よく知られている1つの方法として、コンテンツ分析アルゴリズムを用いてビデオから抽出されたいくつかの重要なキー・フレームを含むストーリー・ボードを使用する方法がある。ストーリー・ボード表示の一例が、図1に示されている。このレイアウトは、同じサイズの画像を有していてもよいし、異なるサイズの画像を有していてもよい。小型スクリーンで見る場合、画像の中身が見えにくい。
ドキュメントの強調表示領域の検出に関する特許文献1、ドキュメントのテキスト領域の自動抽出に関する特許文献2、及び、非特許文献1は、本発明に関連する。
米国特許第5,048,109 A号明細書 米国特許第6,470,095 B2号明細書
S.ウチハシ、J.フート、A.ギルゲンゾーン、J.ボレツキー(S. Uchihashi, J. Foote, A. Girgensohn, J. Boreczky)、「ビデオ・マンガ:意味を有するビデオ要約の意味論的生成(Video Manga: Generating semantically meaningful video summaries)」、ACMマルチメディア予稿集(Proceedings ACM Multimedia)、1999年、pp.383-392
上記に鑑み、本発明の課題は、小型スクリーンにも適切に対応する画像領域の高凝縮ビジュアル・サマリを生成することができるようにすることである。
本発明の第1の態様は、コンピュータが画像領域の高凝縮要約画像を生成する方法であって、(a)主要グループ決定手段が複数の動画セグメントの各々における主要グループとして重要な領域にあたる前記画像に含まれる人間の顔の領域を決定し、(b)キー・フレーム決定手段が前記動画セグメントの各々におけるキー・フレームを決定し、(c)定義手段が前記動画セグメントの各々における前記各主要グループに関連するジャームを定義し、(d)レイアウト手段が前記ジャームをスクリーンに対応する画像メモリ上にレイアウトし、(e)充填手段が、前記画像メモリ上のジャームとジャームとの間の空間内の点を前記重要な領域の外側にある点の画素値で充填し、前記ジャームは前記主要グループの前記キー・フレームへの投影であり、(e)において、第一の顔の中心と空間内の第一の点との間の距離から第一の顔を囲む円の半径を減算した値を第一の距離とし、第二の顔の中心と空間内の第一の点との間の距離から第二の重要な領域を囲む円の半径を減算した値を第二の距離とし、第一の距離が第二の距離より小さい場合には、第一の顔の外側にある点の画素値で該第一の点を充填し、第二の距離が第一の距離より小さい場合には、第二の顔の外側にある点の画素値で該第一の点を充填する。
本発明の第2の態様は、第1の態様の高凝縮要約画像を生成する方法であって、前記レイアウト手段は、カラー・ヒストグラム、類似性、サイズ、時間的順序の少なくとも一つにもとづいて前記ジャームをレイアウトする。
本発明の第3の態様は、第1または第2の態様の高凝縮要約画像を生成する方法であって、(d)が、前記スクリーンに適合する最大サイズに前記ジャームがスケーリングされるように、前記各ジャームに適用される倍率を決定する。
本発明の第4の態様は、第1または第2の態様の高凝縮要約画像を生成する方法であって、(d)が、前記ジャームを、各々が当該行の中で最も高いジャームに応じた高さを有する行に配置する。
本発明の第5の態様は、コンピュータが画像領域の高凝縮要約画像を生成する方法であって、(a)主要グループ決定手段が複数の画像の各々における主要グループとして重要な領域にあたる前記画像に含まれる人間の顔の領域を決定し、(b)定義手段が前記画像の各々における前記各主要グループをジャームとして定義し、(c)レイアウト手段が前記ジャームをスクリーンに対応する画像メモリ上にレイアウトし、(d)充填手段が、前記画像メモリ上のジャームとジャームとの間の空間内の点を前記重要な領域の外側にある点の画素値で充填し、(d)において、第一の顔の中心と空間内の第一の点との間の距離から第一の顔を囲む円の半径を減算した値を第一の距離とし、第二の顔の中心と空間内の第一の点との間の距離から第二の重要な領域を囲む円の半径を減算した値を第二の距離とし、第一の距離が第二の距離より小さい場合には、第一の顔の外側にある点の画素値で該第一の点を充填し、第二の距離が第一の距離より小さい場合には、第二の顔の外側にある点の画素値で該第一の点を充填する。
本発明の第6の態様は、第5の態様の高凝縮要約画像を生成する方法であって、前記レイアウト手段は、カラー・ヒストグラム、類似性、サイズ、時間的順序の少なくとも一つにもとづいて前記ジャームをレイアウトする。
本発明の第7の態様は、第5または第6の態様の高凝縮要約画像を生成する方法であって、(c)が、前記スクリーンに適合する最大サイズに前記ジャームがスケーリングされるように、前記各ジャームに適用される倍率を決定する。
本発明の第8の態様は、第5または第6の態様の高凝縮要約画像を生成する方法であって、(c)が、前記ジャームを、各々が当該行の中で最も高いジャームに応じた高さを有する行に配置する。
本発明は、複数の画像セグメントの各々における主要グループを決定し、前記画像セグメントの各々におけるキー・フレームを決定し、前記画像セグメントの各々における前記各主要グループに関連するジャームを定義し、前記ジャームをキャンバス上にレイアウトし、前記キャンバスの空間を充填している。これにより、本発明では、小型スクリーンに適切に対応する画像領域の高凝縮要約画像を生成することができる。
従来技術による、キー・フレームを用いたビデオのストーリー・ボード・サマリを示す図である。 本発明の一実施形態による、ビデオ領域を抽出してビデオの高凝縮ビジュアル・サマリを生成する方法を示す図である。 本発明の一実施形態による、ビデオにおける重要な領域を判別する方法を示す図である。 本発明の一実施形態による、x−y−t空間に表されたビデオを示す図である。 本発明の一実施形態による、ジャームをレイアウトする方法を示す図である。 Aは、本発明の一実施形態によるジャーム及びジャームのサポートを示す図であり、Bは、本発明の一実施形態によるジャームを示す図である。 本発明の一実施形態による、ジャームを含むキャンバスを示す図である。 本発明の一実施形態による、ジャームを含むボロノイ領域を有するキャンバスを示す図である。 本発明の一実施形態による、ビデオの高凝縮ビジュアル・サマリを示す図である。 本発明の一実施形態による、ビデオの高凝縮ビジュアル・サマリを示す図である。 本発明の一実施形態による、ビデオの高凝縮ビジュアル・サマリを示す図である。 本発明の一実施形態による、異なる距離関数測定値を示す図である。 本発明の一実施形態による、ビデオの高凝縮ビジュアル・サマリを示す図である。 本発明の一実施形態による、ビデオの高凝縮ビジュアル・サマリを示す図である。 本発明の一実施形態による、画像の高凝縮ビジュアル・サマリを示す図である。 本発明の一実施形態による、顔のサイズが均一な画像の高凝縮ビジュアル・サマリを示す図である。 本発明の一実施形態による、顔のサイズが異なる画像の高凝縮ビジュアル・サマリを示す図である。 本発明の一実施形態による、距離測定値が強調表示された画像の高凝縮ビジュアル・サマリを示す図である。
本発明の一実施形態では、高凝縮ビジュアル・サマリ装置は、複数のビデオ・セグメントの各々における主要グループを決定する主要グループ決定手段と、該ビデオ・セグメントの各々におけるキー・フレームを決定するキー・フレーム決定手段と、該ビデオ・セグメントの各々における該各主要グループに関連するジャームを定義する定義手段と、サポートと関連付けられた該ジャームをキャンバス上にレイアウトするレイアウト手段と、該キャンバスの空間を充填する充填手段と、を少なくとも備える。高凝縮ビジュアル・サマリ装置は、ビデオ領域の高凝縮ビジュアル・サマリを生成する装置に相当する。
高凝縮ビジュアル・サマリ装置は、例えば、比較的小さいモニタを有する小型コンピュータであってよく、該小型コンピュータは、ビデオ・ファイル等のデータやユーザの指示情報等を入力する入力部、プロセッサによる実行の際の作業領域を形成すると共にプログラムや処理対象としてのデータを格納する記憶部、処理内容や処理結果を表示画面に表示するモニタ(表示部)、及びデータを通信網などに出力する出力部などを含む。プロセッサは、判別手段、付与手段、構成手段、併合手段に相当し、プログラム(ソフトウェア)を読み出し実行することにより、処理対象のデータ等に対し当該プログラムの手順に対応した処理をする。
本発明の高凝縮ビジュアル・サマリ装置は、小型コンピュータに限定されず、例えば、PDA、携帯電話、腕時計、小型コンピュータ、デジタル・カメラ、及びその他のデバイスのような、他の比較的小さいモニタ若しくは表示スクリーンを有するデバイスであってよい。さらに、デスクトップ・コンピュータ、ワーク・ステーション、及び何らかのモニタを有するか或いは何らかのモニタと通信するその他のデバイスのような、比較的大型のデバイスであってもよい。また、本発明は、ハードウェアによって実現されることに限定されず、ソフトウェアによって実現されてもよいし、ファームウェアによって実現されてもよい。
本発明の一実施形態は、1つ以上のビデオから重要なビデオ領域を抽出し、これらのビデオの高凝縮ビジュアル・サマリを生成する。重要なビデオ領域は、エネルギー、動作、顔若しくはその他のオブジェクト検出方法、関連データ若しくは外部入力、又は、ビデオのその他何らかの特性に基づいて抽出される。別の実施形態では、本発明は、画像から重要なジャームを受信若しくは抽出し、これらの画像の高凝縮ビジュアル・サマリを生成する。
本発明の別の一実施形態では、重要な領域は、2つの部分、即ち、ジャームとサポートとから構成される。高凝縮ビジュアル・サマリは、キャンバス上にジャームをレイアウトし、これらのジャーム間の空間を充填することにより、生成される。その結果、様々な形状をした部分を備えるステンド・グラスの窓に似た、ビジュアル・サマリがもたらされる。ジャームは、所望のパターン、サイズ、又はその他何らかの様式に応じて、時間的順序、カラー・ヒストグラム、類似性によってレイアウトされてもよい。ジャームにおける人々、オブジェクト、及びその他のビジュアル・コンテンツは、より大きくなると、より見やすくなる。本発明のさらに別の一実施形態では、パッキングされたジャーム間の空間を充填するボロノイ・ベースのアルゴリズムにより、不規則な形状をしたセル境界が得られる。本発明のビジュアル・サマリは、キー・フレーム内の重要な部分領域を利用することによって、小型スクリーンに十分に適した、より凝縮度の高いサマリをもたらす。
ビジュアル・サマリの生成
ビデオ領域を抽出して高凝縮ビジュアル・サマリを生成する方法200が、図2に示されている。方法200は、開始ステップ205で開始する。次に、ステップ210において、ビデオがセグメントにセグメント化される。次に、ステップ220において、これらのビデオ・セグメントから重要な領域が決定される。重要な領域が決定されると、ステップ230において、重要度の高いこれらの領域がキャンバス上にレイアウトされる。次に、ステップ240において、重要度の高いこれらの領域間の空間が充填され、ステップ245において、方法200が終了する。これらの作業については各々、以下により詳細に述べる。
ビデオのクリップへのセグメント化
ビデオは、様々な方法を用いて、1つ以上のセグメントにセグメント化されてもよい。1つのビデオは、連続的な画像フレームから構成される。一実施形態では、ビデオは、各クリップが類似した連続フレームから構成されるように、ビデオ・セグメントにセグメント化される。このセグメント化は、カラー・ヒストグラム、ユーザ入力、又はその他何らかの手段のような、標準的な手法を用いて行うことができる。別の手法としては、利用可能なカメラのオン/オフ情報を用いて、ビデオ・セグメントの時間的境界を決定する手法があり、これによって、真のショット境界がもたらされ、この真のショット境界は、より適切なセグメントを制作するのに役立つ。
別の一実施形態では、ビデオ・フレーム画像をサブサンプリングする精度が設定されてもよい。このサンプリング・レートは、凝縮サマリをもたらすデバイスの用途、利用可能な処理能力、規格、及びその他の特性に基づいて選択されてもよい。さらに別の一実施形態では、モバイル・デバイスにおいて一般的に使用することができると共に表示がしやすいという点から、1ビデオ画像当たり幅方向が16ピクセルで高さ方向が12ピクセルという、かなり低いサンプリング・レートを用いてもよい。さらに、画像を平滑化して、ノイズを減少させてもよい。
重要な領域の判別
方法200のステップ210においてビデオが1つ以上のビデオ・セグメントにセグメント化された後、ビデオ・クリップにおいて重要な領域が決定される。図3の方法300は、本発明の一実施形態による、重要な領域を判別する処理を示している。方法300は、開始ステップ305で開始する。次に、ステップ310において、ビデオ・セグメント内で重要な領域が決定される。1つのビデオは、x−y−t空間における三次元ボリュームとみなすことができる。ビデオの三次元ボリュームの例示的表現が、図4に示されている。図示されているように、ビデオ・セグメント410は、第1フレーム440と、t軸に沿ったいくつかの連続フレームとから構成され得る。1つの領域は、この三次元ビデオ・セグメント410のx−y−t空間内における部分集合の三次元領域として特徴付けることができる。領域420及び430は、ビデオ410の三次元ボリューム内に位置する。
重要な領域は、多数の方法で決定することができる。一実施形態では、アクティビティ若しくは運動エネルギーが比較的高い三次元空間を重要な領域として決定してもよい。また、いくつかの方法を用いて、領域のエネルギー若しくはアクティビティを求めてもよい。別の一実施形態では、エネルギーを測定するために、速度フィールドを算出してもよい。この場合、サンプリングされた各ピクセルに速度が付与される。この速度は、ビデオ・フレーム間における輝度変化を計算することにより得ることができる。一実施形態では、速度変化を、t成分における速度変化から算出してもよい。別の実施形態では、この速度変化を、x、y、及びt成分の全てを用いて、輝度変化から算出してもよい。このように、全ての成分から速度を算出するには、より多くの処理が必要とされるが、より良い結果が得られる可能性が高い。
一実施形態では、領域の残余動作(residual motion)を用いて、輝度変化若しくは速度
変化を求めるのが望ましい。残余動作とは、カメラ動作若しくは背景動作が除去若しくは減算された後に得られる動作のことである。カメラ動作にはパン、チルト、及びズームのような様々なタイプがあり、これらのタイプを検出する方法が開発されている。別の一実施形態では、この残余動作を、特定ピクセルに対する動作変化からフレームの平均動作を減算することにより求めてもよい。
次に、方法300では、ビデオ・セグメントの(x−y−t空間における)各ピクセルに関し、ステップ320において、重要な領域における各ピクセルに対する速度の大きさに値が付与される。一実施形態では、この値は、所定のピクセル・レンジ内に収まるように付与されてもよい。このピクセル・レンジは、処理能力及び生成される領域の所望の特徴に基づいて選択されてもよい。別の実施形態では、この速度の大きさは、0と1の二進数のレンジ内となるように量子化されてもよい。0と1の二進レンジを用いるこの実施形態では、平均値(特定のビデオ・セグメントにおけるサンプリングされたピクセル全ての速度の大きさの平均値)よりも速度の大きさが大きいピクセルを1に設定し、残りのピクセルを0に設定してもよい。この実施形態では、分析及び処理の重点を、値が1であるピクセルの集合に置いてもよく、これにより、計算時間が実質的に削減される。
次に、方法300のステップ330において、値が1であるピクセルからグループが構成される。一実施形態では、値が1である隣接したピクセルをグループ化することによって、領域が構成される。二次元のビットマップ画像に関しては、各反復において、値が1であるピクセルまでの距離が短いピクセルが、値1のピクセルに変換される。この短い距離は用途によって決まり、一般的にはピクセル1個分であるが、任意のレンジであってもよい。例えば、ピクセル1〜5個分という距離が挙げられるが、本発明はこれに限定されない。しかしながら、値が1である隣接したピクセルをグループ化するのに、いくつのピクセル若しくはレンジを用いてもよい。何回かの反復後、値が1であるピクセルのグループ若しくは「ブロブ(blobs)」が現れる。これらのグループは、かなり不規則な形状をし
ている可能性がある。これにより、計算上、ビデオに対応する三次元ボリュームには、はるかに多くのコストがかかる。さらに、領域の構成処理中及びその後のレイアウト・ステップにおいて、領域の交差及び包含というような幾何学的特性が得られるが、これらの計算に対するアルゴリズムは、二次元よりも三次元の方がより複雑である。
ステップ330においてグループが構成された後、作業はステップ340へ続き、このステップ340では、値が1であるピクセルのグループを併合することによって、より大きなグループが形成される。一実施形態では、重要度の高い領域を表すのに、長方形のボックスが用いられる。本明細書中では、単なる例として長方形の領域について述べるが、これらの領域は、あらゆる形状で又はあらゆる形状の組み合わせでグループ化され構成されてもよい。重要度の高い領域を構成するために、ステップ340において、ボックスの前段階である、ステップ330で構成された値が1である隣接したピクセルのグループが、より大きなグループに併合される。
一実施形態では、値が1である2のピクセルが隣接しているならば、これらはより大きなグループに併合される。これにより、重要度の高い領域が形成され、これらは一以上の停止条件を備える。この実施形態では、該停止条件により、グループが過度にまばらに散らばらないようにされる。本発明の範囲内における停止条件は、エネルギー密度、体積、及びその他の特性に基づき得る。別の一実施形態では、この得られたより大きなグループは、値が1であるピクセルのより小さなグループを両方とも含む、最小の三次元長方形ボックスという形状をしている。本明細書中では、単なる例として長方形をしたグループについて述べる。領域は、任意の形状で又は多数のタイプの式を用いて構成されグループ化されてもよい。ステップ340において、値が1であるピクセルのグループが併合された後、方法300の作業は、ステップ345で終了する。
上述したように、停止条件は多数の特性に基づき得る。このような特性の1つとして、エネルギー密度がある。本発明の一実施形態では、ステップ340で行われるような併合後に、このエネルギー密度が一定の閾値よりも低下しないようにしなければならない。例えば、グループAの密度はd(A)で表すことができ、これは、グループAにおける値1のピクセルの数を、Aのバウンディング・ボックスに含まれるピクセルの総数で割ったものである。
同様に、隣接したグループBの密度は、d(B)で表すことができる。ビデオ・セグメント全体の平均密度は、d(W)で表すことができる。この場合、2つのグループAとBは、d(C)>d(W)となるのであれば、併合してグループCとすることができる。ここでは、単なる例として、併合されたグループのエネルギー密度が平均エネルギー密度と比較される。エネルギー密度の代わりに他の閾値を用いてもよく、これは本発明の範囲内に含まれる。
別の実施形態では、方法300のステップ340で行われるように2つ以上のグループが併合される際、併合されたグループの体積が一定の閾値を超えないようにしなくてはならない。例えば、グループAに対するバウンディング・ボックスの体積は、v(A)と表すことができる。同様に、グループBに対するバウンディング・ボックスの体積は、v(B)と表すことができる。グループA及びBに関し、これらの交差部分をKと表すことができる。この場合、v(K)/v(A)<1/2且つv(K)/v(B)<1/2であると、AとBとは併合することができない。ここでは、単なる例として、併合された2つのグループの交差部分の体積が各グループの体積と比較される。その他の体積比較法を用いてもよく、これは本発明の範囲内に含まれる。
一実施形態では、反復併合処理の結果を、複数のツリー(tree:木)から成るフォレスト(forest:森)と比較してもよい。ここで、各ツリーは1グループを表し、このツリーの複数のリーフ(leaf:葉)は値1のピクセルである。これらのツリーは二進法ではなく、各ノードは2より多くの子を有することができる。各ツリーのバウンディング・ボックスは、一領域である。
重要度の高い領域のレイアウト
図2の方法200では、ステップ220においてビデオ・クリップにおける重要な領域を判別した後、次のステップ230においてジャームをレイアウトする。方法200の作業におけるこの段階では、ビデオは、図4のセグメント410のようなセグメントにセグメント化されており、各セグメントに対し、グループ若しくは領域420及び430のような、重要度の高いグループ若しくは領域が算出されている。これらの重要度の高いグループからレイアウトを作成する処理が、図5の方法500によって示されている。方法500は、開始ステップ505で開始する。次に、ステップ510において、1つ以上のセグメントにおける主要グループが決定される。1つのセグメントには、1つの主要グループがあることが多い。一実施形態では、主要グループとは、最も多くのエネルギー、モーション、又は体積を備えた区域か、或いは、その他の理由で重要な区域のことである。例えば、プレゼンテーションのビデオに関して言えば、主要グループは、壇上で身ぶり手ぶりで話している人と、部屋のあちらこちらに座っている人々とを含み得る。ビデオの各クリップから主要グループが選択されてレイアウトされる。
次に、ステップ520において、各ビデオ・セグメントに対し、キー・フレームが定義される。一実施形態では、各セグメントの第1フレームをキー・フレームとされる。しかしながら、キー・フレームは様々な方法で決定してもよく、これらは全て本発明の範囲内に含まれると考えられる。
次に、方法500では、ステップ530において、各主要グループに対し、ジャーム及びサポートが定義される。一実施形態では、各グループは、レイアウトを決定する2つの長方形、即ち、(1)グループの三次元バウンディング・ボックス及び(2)キー・フレーム画像の二次元バウンディング・ボックスと関連付けられる。これらの長方形を念頭に置くと、ジャームは、グループのx−y面をキー・フレーム上に投影したものと考えられる。ジャームのサポートは、キー・フレームにおいてジャームを囲む画像コンテンツ区域である。
図6A及び図6Bは各々、本発明の一実施形態による、ジャーム及びジャームのサポートを示している。図6Aにおいて、キー・フレーム画像バウンディング・ボックス610は、ジャーム画像614と、ジャームのサポート612によって占有された空間とを含む。図6A及び図6Bに示されている実施形態では、ジャームは、キー・フレームの部分区域である。図6Aのジャームのサポート612は、空白であり、このサポートが占める空間を示していることに注意されたい。図6Bは、空間620において、ジャームとサポートとを一緒に示している。図6A及び図6Bは、単なる例として長方形をした、ジャーム及びジャームのサポートの例を表している。別の実施形態では、これらのジャーム及びサポートは、不規則な形状をしていてもよい。さらに別の実施形態では、ビデオ・モザイク・アルゴリズムのような手法を用いて、ジャームのサポートをキー・フレームの境界よりも延出させることにより、より大きなパノラマ画像を作成してもよい。ジャーム及びジャームのサポートは、本発明による任意の形状であってよく、互いに類似していても異なっていてもよいし、変化しても変化しなくてもよい。
ジャームが選択されると、次に、任意で、ジャームの順序付けが決定されてもよい(方法500には示されていない)。このジャームの順序付けは、時間的特性、サイズ特性、カラー特性、コンテンツを含む、多数の方法のうちのいずれによって決定されてもよいし、特定のジャームから得られる又は特定のジャームと関連付けられたその他のデータによって決定されてもよい。
次に、ステップ540において、主要領域に対し倍率が決定される。一実施形態では、この倍率はジャームの最大倍率に相当しており、キャンバスを完全に満たす行又は列にジャームを配置することができる。この倍率は、最も望ましいスケーリングが達成されるまで、繰り返し調整することができる。一実施形態では、表示される全てのジャームに対して同じ倍率が適用される。別の実施形態では、ジャーム間で倍率が異なっていてもよい。いずれの場合にも、ステップ540における倍率の決定は、方法500に示されているような改行決定ステップ550と別に行ってもよいし、同時に行ってもよい。
次に、ステップ550において、領域をキャンバス若しくは表示ページ上に配置するために、改行が決定される。一実施形態では、これは、テキストが、テキストを示すページのサイズで「ラップ」されるように、テキストのパラグラフをワード−ラップでレイアウトするのに似ている。ジャームが水平な行に配置される実施形態では、左から右へ1行ずつジャームをパッキングすることによって、その境界となる空間がキャンバス形状の縦横比に最も近くなるように、改行が選択される。改行によりジャームがレイアウトされたキャンバス700の一例が、図7に示されている。キャンバス700は、ジャーム710、720、及び730を含むジャームと、背景740とを含む。これらのジャームは、3行に改行されており、これらの行は各々、ジャームを3つ、2つ、3つ有している。別の実施形態では、一度に1行ずつの改行を決定するのではなく、小さな数であるN個のジャームに関し、これらを1〜N行に配置する全ての組み合わせを完全にリストアップすることが可能である。各組み合わせに対して、カバー区域のサイズというような品質測度を決定することができ、最適な組み合わせを選択することができる。順序付けされた複数のジャームが1ページに表示されるように「改行」を必要とする別の実施形態では、これらのジャームは、垂直列、同心円の行、又は、あらゆるその他の方式で配置されてもよい。
ステップ560では、そのレイアウトが許容可能であるかどうかが決定される。一実施形態では、倍率が、全てのジャームをキャンバス上に表示できる最大の大きさである場合、そのレイアウトは許容可能である。レイアウトが許容可能でない場合、方法500の作業はステップ540へ戻る。レイアウトが許容可能である場合、作業はステップ570へ進む。
ステップ570において、セルの高さと幅が設定される。一実施形態では、ジャームは、右側に余白のあるライン上に水平方向に離間され、垂直方向に沿ったラインの中心にできるだけ近くなるように移動される。この離間及びセンタリングは、ジャームのサポートによって制約される。一実施形態では、キャンバスは、サポートによってできるだけ多くカバーされなければならない。本発明の一実施形態による一例が、図8のキャンバス800によって示されている。キャンバス800は、ジャーム810、820、830、及び840を含む、いくつかのジャームを含む。右上のジャーム840は、そのサポートが上部に十分な空間をカバーできていないため、垂直方向におけるラインの中心に配置されていないことに注意されたい。結果として、そのジャームはパッキングが密となる。
最後に、キャンバスの縦横比に近付けるために、サポートが隙間をカバーできるのであれば、ラインをさらに離間させてもよい。本発明の別の実施形態では、キャンバスにおける隙間の全部又は一部をカバーするように、ジャームをスケーリングすることができる。本発明の別の実施形態では、キャンバスが隙間を許容することができる。ステップ570において、セルの高さと幅がキャンバスに適合された後、方法500の作業は、ステップ575で終了する。
領域間における空間の充填
方法200のステップ230においてジャームのレイアウトが完了すると、ステップ240においてジャーム間の空間が充填される。一実施形態では、ジャームのボロノイ領域に応じて、領域間の空間が充填される。これらのボロノイ領域は、キャンバスを、ジャームに対応する非接合区域に分割する。つまり、キャンバス上の点(x,y)は、それに最も近いジャームに属する。この点が最も近いジャームのサポートに属する場合、そのピクセルには、このジャームのサポートの対応するピクセルと同じ値が付与される。最も近いジャームのサポートが点(x,y)を含まない場合、ボロノイ領域は用いられず、サポートが点(x,y)を含む次に最も近いジャームが用いられて、この点が充填される(そのピクセルには、サポートがこの点を含む次に最も近いジャームの値が付与される)。この点を含むジャームが無い場合、そのピクセルには、隣接したピクセル値の平均値、キャンバスの背景色、又はその他何らかの値を付与することができる。
一実施形態では、視覚化のために画像を描くのに、異なるジャーム及びサポート区域の区域周囲に境界が配置されてもよい。ジャーム及びサポート区域境界が強調表示されたキャンバス800の一例が、図8に示されている。キャンバス800は、ジャーム810、820、830、及び840、ジャーム・セル・ライン850、並びに区域境界線860を含む。図示されているように、この境界線860は、ジャーム830とジャーム830のサポートの一部との周囲に設けられている。
ボロノイ領域、その他の隣接したサポート、又は背景に応じて、キャンバス上の全ての点がいずれも充填されると、キャンバスが完成される。次に、方法200の作業は、ステップ245で終了する。完成したキャンバス900の一例が、図9に示されている。さらに、異なる縦横比を用いたキャンバスの例が、図10及び図11に示されている。図10及び図11では各々、例として、ジャームは、1010、1020、1110、及び1120のようなボックスによって囲まれている。
ボロノイ図式は、点からの距離を用いることが多い。異なる実施形態では、ジャームからの距離を用いてもよい。別の実施形態では、ジャームの最も近い境界と点との間の距離が用いられる。充填処理の際に異なる距離関数を用いれば、キャンバス上に異なる形状の領域を生成することができる。一実施形態では、この距離関数は、ジャームの中心とピクセルとの間の距離から得ることができる。図12は、本発明の一実施形態による距離関数測定法1200の一例を示している。図12は、点(x,y)におけるピクセル1210、中心が点1225にあるジャーム1220、第1半径r11230、第2半径r21240、ピクセルとジャームとの間の距離d01250、及びジャームの中心とピクセルとの間の距離d11260を含む。この距離関数におけるジャームのサイズが含まれるように、ジャームの中心を中心とした2つの円が生成される。半径r11230の第1の円の直径は、ジャームの幅と高さとの平均である。半径r21240の第2の円の直径は、ジャームの対角線である。第1の距離関数max(0,d1−r1)を用いれば、図13に示されているような緩やかなカーブの境界が生成される。第2の距離関数d1/r2を用いれば、図14に示されているような急なカーブの境界が生成される。別の実施形態では、これらの距離関数を加重平均において組み合わせることにより、カーブの程度を変更することができる。また、その他様々な距離関数を用いてもよく、これにより、異なるタイプの領域境界を設けることができる。
一実施形態では、高凝縮ビジュアル・サマリは、PDA、携帯電話、腕時計、小型コンピュータ、デジタル・カメラ、及びその他のデバイスのような、比較的小さいモニタ若しくは表示スクリーンを有するデバイスにおいて利用することができる。高凝縮ビジュアル・サマリがこれらのデバイスに表示されたら、ユーザは、入力データを供給することによって、関連付けられたグループに対応するジャームを選択することができる。ジャーム又はジャームのサポートが選択されたら、デバイスは、スクリーン上にそのグループを再生してもよい。ジャーム又はそのサポートが選択されたら、その他様々な方法でそのグループを供給するか或いはその他の動作を行うことも可能であり、これらは全て本発明の範囲内に含まれる。
画像及び写真からの高凝縮サマリ
この高凝縮サマリ構成は、画像及び写真にも適用することができる。画像において重要な領域を判別するには、一般的な画像解析アルゴリズム、静止画像の主要部分を決定する顔検出アルゴリズム、ユーザ入力若しくはその他のオブジェクト検出アルゴリズム、又はその他の方法を用いて、重要な領域を決定することができる。ユーザ入力によれば、画像を全体として又は一部として、(マウス又はその他の入力デバイスによって)選択することができる。領域が決定されたら、これらの領域は、サポートとして機能する画像の残りの部分と共にジャームとしてレイアウトすることができる。画像の高凝縮サマリの一例が、図15に示されている。
別の実施形態では、重要な領域は、本発明のシステムにより入力データとして受信することができる。この場合、システムは、画像内の重要な領域と関連付けられた画像データ又はその他のデータを受信して、これらの領域をジャームとしてレイアウトするよう処理を進めてもよい。
別の実施形態では、画像から選んだジャームのレイアウトを、方法500に示されたものとは異なる方法を用いて行ってもよい。一実施形態では、検出された顔を用いて、顔のコレクションから成るアトラクティブなコラージュが作成される。このような視覚化では、画像領域は、コラージュにおいて組み合わされ、領域間の隙間は、オリジナル画像における重要な領域の外側にあるピクセルで充填される。ビデオ・サマリに用いられ得るビデオ・セグメントにおけるアクティビティ領域の代わりに、顔が重要な領域である。ビデオ・セグメントを時間的順序に保つビデオ・サマリのレイアウト・アルゴリズムは、顔のコレクションに対してより適したアルゴリズムに置き換えてもよい。隙間を充填するためのアルゴリズムはほぼ同じままであるが、このようなレイアウト・アルゴリズムを用いることによって異なる充填効果が得られる。
レイアウト
ステンド・グラスに含まれる顔が、行にグループ化される。一実施形態では、写真が行全体をカバーできないような、顔の少ない行ができるのを回避するために、顔は、1行当たりのその数が1つしか違わないように、行に分割される。別の実施形態では、偶数及び奇数の顔を備えた行をできるだけ交互に設けることによって、より不規則なレイアウトが作成される。
隣り合った顔が似たような外観(同じ写真からの同じ背景、同じ日における同じ人の写真)になるのを回避するために、水平方向及び垂直方向に隣接した顔までの時間的距離が最大となるように、顔の順序のランダム順列が生成される。さらに別の実施形態では、カラー・ヒストグラムのような視覚的相違を用いてもよく、これにより、異なる時間から選んだ写真を隣接させたレイアウトに類似した効果が得られる。
顔が行に割り当てられた後、顔の幅及び高さのうちのほんの一部が余白となるように、キャンバスの寸法が決定される。一実施形態では、顔の幅の10%を水平方向の余白、顔の高さの20%を垂直方向の余白としてもよい。各行の高さは、最初は、その行における最も高い顔の高さに設定してもよい。垂直方向における余白は、どの行もその行における顔の写真寸法を越えて延出しない限り、全ての行にわたって均等に分割される。各行において、水平方向における余白も同様に分配される。一実施形態では、各顔は、垂直方向及び水平方向における余白を分配することにより作成されたセルの中心に配置され、含んでいる写真がセル全体をカバーできない場合のみ移動される。全ての顔を同じサイズにすると、図16に示されているように、非常に規則的なレイアウトがもたらされる。コラージュをより不規則にして、よりアトラクティブにするには、顔のサイズに変化をつけて、写真のより多くの部分をカバーする顔(拡大写真)には、コラージュにおいて、より大きなサイズが与えられるようにする。顔は、セルの中心に配置される代わりに、図17に示されているように、ランダムに配置されてもよい。
隙間の充填
顔と点との間の距離測度を求めるために、顔の中心と点との間のユークリッド距離が求められ、顔を囲む円の半径が減算される。この距離測度によって、より大きな顔にはより広い範囲が与えられ、区域間にわずかにカーブした境界がもたらされる。
キャンバスにおけるジャームの隙間を充填する際、いくつかの変形例及びガイドラインを任意で実施してもよい。本発明のガイドラインのうちのいくつかを組み込んでいる1つのキャンバス1800の一部が、図18に示されている。キャンバス1800は、セル1810、1820、及び1830を含み、これらのセルは各々、顔と、中心1812、1822、及び1832とを有する。図18に示されている実施形態では、これら3つの顔と顔との間において、各顔から点1840までの距離が同じであり、この点は、これらの顔と顔との間における境界を表している。ユークリッド距離を円の半径で割る場合、この距離測度によってよりカーブした境界がもたらされる。1つの写真がその顔に加えて別の顔を含む場合、これらの別の顔は、部分的に表示されるのを回避するため、その写真がカバーできる領域から取り除くことができる。例えば、別の顔1850は、セル1820における画像の一部である。従って、この別の顔1850は、セル1820における画像から取り除かれる。同じ写真からのいくつかの顔に対処する別の方法では、これら全ての顔を含む領域が用いられる。この方法は、1つの写真からいくつかの顔を選択してキャンバスに含める場合に適している。さらに別の実施形態では、1つのセルが、1つ以上の顔の部分画像を含んでもよい。
一実施形態では、本発明は、1つ以上のビデオから重要なビデオ領域を抽出し、これらのビデオの高凝縮ビジュアル・サマリを生成する。重要なビデオ領域は、エネルギー、モーション、顔若しくはその他のオブジェクト検出方法、関連データ若しくは外部入力、又は、ビデオのその他何らかの特性に基づいて抽出される。別の実施形態では、本発明は、画像から重要なジャームを受信若しくは抽出し、これらの画像の高凝縮ビジュアル・サマリを生成する。一実施形態では、重要な領域は、2つの部分、即ち、ジャームとサポートとから構成される。高凝縮ビジュアル・サマリは、キャンバス上にジャームをレイアウトし、これらのジャーム間の空間を充填することにより、生成される。その結果、様々な形状をした部分を備えるステンド・グラスの窓に似た、ビジュアル・サマリがもたらされる。ジャームは、所望のパターン、サイズ、又はその他何らかの様式に応じて、時間的順序、カラー・ヒストグラム、類似性によってレイアウトされてもよい。ジャームにおける人々、オブジェクト、及びその他のビジュアル・コンテンツは、より大きくなると、より見やすくなる。本発明の一実施形態では、パッキングされたジャーム間の空間を充填するボロノイ・ベースのアルゴリズムにより、不規則な形状をしたセル境界が得られる。
上記記述では、本発明の様々な態様が説明されている。しかしながら、当業者には、これらの態様のうちのいくつかのみ又は全てを用いて本発明を実施してもよい、ということは明らかであろう。本発明の理解を深めるため、説明の目的で、特定の数、材料、及び構造が示されている。しかしながら、当業者には、これらの特定の特徴を用いずに本発明を実施してもよい、ということは明らかであろう。別の例では、周知の特徴については、本発明が不明瞭とならないように省略又は簡略化されている。本発明のその他の特徴、態様、及び目的は、図面及び特許請求の範囲を検討することにより得ることができる。本発明のその他の実施形態を開発することができると共に、これらは本発明の精神及び範囲並びに特許請求の範囲内に含まれる、ということは理解されるであろう。
本発明の好適な実施形態の上記記述は、例示及び説明の目的で為されたものである。この記述は、完全であることを意図したものでもないし、ここに開示した厳密な形態に本発明を限定することを意図したものでもない。当業者には、多数の修正物及び変形物が明らかであろう。本発明の原理及びその実用化を最も適切に説明するために、これらの実施形態が選択されて説明され、これにより、当業者は、様々な実施形態に対する本発明、及び、意図される特定使用に適した様々な修正を加えた本発明を理解することができる。本発明の範囲は、添付の特許請求の範囲及びそれらの等価物によって定義されることが意図される。
コンピュータ分野の当業者には明らかであるように、特殊設計された集積回路又はその他の電子機器から構成される実施形態に加えて、本発明は、従来の汎用若しくは専用デジタル・コンピュータ、又は、本開示の教示に応じてプログラムされたマイクロプロセッサを用いて、好適に実施されてもよい。
ソフトウェア分野の当業者には明らかであるように、適切なソフトウェア・コーディングは、本開示の教示に基づいて、熟練したプログラマーにより容易に作製することができる。また、当業者には明らかであるように、本発明は、特定用途向け集積回路を作製することにより、或いは、従来のコンポーネント回路の適切なネットワークを相互接続することにより、実施してもよい。
本発明は、命令が記憶された記憶媒体であるコンピュータ・プログラム・プロダクトを含み、これらの命令を用いてコンピュータをプログラムすることにより、本発明の処理のいずれをも行うことができる。この記憶媒体としては、フロッピー(登録商標)・ディスク、光ディスク、DVD、CD−ROM、マイクロドライブ、及び光磁気ディスクを含むあらゆるタイプのディスク、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、フラッシュ・メモリ・デバイス、磁気若しくは光カード、ナノシステム(分子メモリICを含む)、又は、命令及び/若しくはデータを記憶するのに適したあらゆるタイプの媒体若しくはデバイスが挙げられるが、これらに限定されるわけではない。
本発明では、汎用/専用コンピュータ若しくはマイクロプロセッサのハードウェアを制御すると共に、このコンピュータ若しくはマイクロプロセッサが人間のユーザと又は本発明の結果を利用するその他の機構とインターアクトできるようにするソフトウェアが、コンピュータ可読媒体のうちのいずれかに記憶される。このようなソフトウェアとしては、デバイス・ドライバ、オペレーティング・システム、及びユーザ・アプリケーションが挙げられるが、これらに限定されるわけではない。
本発明の教示(ビデオからの重要な領域の抽出及び高凝縮ビジュアル・サマリの生成が挙げられるが、これらに限定されない)を実施するソフトウェア・モジュールが、汎用/専用コンピュータ若しくはマイクロプロセッサのプログラミング(ソフトウェア)に含まれる。
410 ビデオ・セグメント
420、430 領域
440 第1フレーム
610 キー・フレーム画像バウンディング・ボックス
612 ジャームのサポート
614 ジャーム画像
620 空間
700、800、900、1800 キャンバス
710、720、730、810、820、830、840、1220 ジャーム
740 背景
850 ジャーム・セル・ライン
860 区域境界線
1010、1020、1110、1120 ボックス

Claims (8)

  1. コンピュータが画像領域の高凝縮要約画像を生成する方法であって、
    (a)主要グループ決定手段が複数の動画セグメントの各々における主要グループとして重要な領域にあたる前記画像に含まれる人間の顔の領域を決定し、
    (b)キー・フレーム決定手段が前記動画セグメントの各々におけるキー・フレームを決定し、
    (c)定義手段が前記動画セグメントの各々における前記各主要グループに関連するジャームを定義し、
    (d)レイアウト手段が前記ジャームをスクリーンに対応する画像メモリ上にレイアウトし、
    (e)充填手段が、前記画像メモリ上のジャームとジャームとの間の空間内の点を前記重要な領域の外側にある点の画素値で充填し、
    前記ジャームは前記主要グループの前記キー・フレームへの投影であり、
    (e)において、
    第一の顔の中心と空間内の第一の点との間の距離から第一の顔を囲む円の半径を減算した値を第一の距離とし、
    第二の顔の中心と空間内の第一の点との間の距離から第二の重要な領域を囲む円の半径を減算した値を第二の距離とし、
    第一の距離が第二の距離より小さい場合には、第一の顔の外側にある点の画素値で該第一の点を充填し、
    第二の距離が第一の距離より小さい場合には、第二の顔の外側にある点の画素値で該第一の点を充填する、
    画像領域の高凝縮要約画像を生成する方法。
  2. 前記レイアウト手段は、カラー・ヒストグラム、類似性、サイズ、時間的順序の少なくとも一つにもとづいて前記ジャームをレイアウトする、請求項1に記載の画像領域の高凝縮要約画像を生成する方法。
  3. (d)が、
    前記スクリーンに適合する最大サイズに前記ジャームがスケーリングされるように、前記各ジャームに適用される倍率を決定する、
    請求項1または請求項2に記載の画像領域の高凝縮要約画像を生成する方法。
  4. (d)が、
    前記ジャームを、各々が当該行の中で最も高いジャームに応じた高さを有する行に配置する、
    請求項1または請求項2に記載の画像領域の高凝縮要約画像を生成する方法。
  5. コンピュータが画像領域の高凝縮要約画像を生成する方法であって、
    (a)主要グループ決定手段が複数の画像の各々における主要グループとして重要な領域にあたる前記画像に含まれる人間の顔の領域を決定し、
    (b)定義手段が前記画像の各々における前記各主要グループをジャームとして定義し、
    (c)レイアウト手段が前記ジャームをスクリーンに対応する画像メモリ上にレイアウトし、
    (d)充填手段が、前記画像メモリ上のジャームとジャームとの間の空間内の点を前記重要な領域の外側にある点の画素値で充填し、
    (d)において、
    第一の顔の中心と空間内の第一の点との間の距離から第一の顔を囲む円の半径を減算した値を第一の距離とし、
    第二の顔の中心と空間内の第一の点との間の距離から第二の重要な領域を囲む円の半径を減算した値を第二の距離とし、
    第一の距離が第二の距離より小さい場合には、第一の顔の外側にある点の画素値で該第一の点を充填し、
    第二の距離が第一の距離より小さい場合には、第二の顔の外側にある点の画素値で該第一の点を充填する、
    画像領域の高凝縮要約画像を生成する方法。
  6. 前記レイアウト手段は、カラー・ヒストグラム、類似性、サイズ、時間的順序の少なくとも一つにもとづいて前記ジャームをレイアウトする、請求項5に記載の画像領域の高凝縮要約画像を生成する方法。
  7. (c)が、
    前記スクリーンに適合する最大サイズに前記ジャームがスケーリングされるように、前記各ジャームに適用される倍率を決定する、
    請求項5または請求項6に記載の画像領域の高凝縮要約画像を生成する方法。
  8. (c)が、
    前記ジャームを、各々が当該行の中で最も高いジャームに応じた高さを有する行に配置する、
    請求項5または請求項6に記載の画像領域の高凝縮要約画像を生成する方法。
JP2011003065A 2004-03-31 2011-01-11 画像領域の高凝縮要約画像を生成する方法 Expired - Fee Related JP5035432B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/815354 2004-03-31
US10/815,354 US7697785B2 (en) 2004-03-31 2004-03-31 Generating a highly condensed visual summary

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2005091702A Division JP4696635B2 (ja) 2004-03-31 2005-03-28 画像領域の高凝縮要約画像を生成する方法、装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2011129137A true JP2011129137A (ja) 2011-06-30
JP5035432B2 JP5035432B2 (ja) 2012-09-26

Family

ID=35054326

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2005091702A Expired - Fee Related JP4696635B2 (ja) 2004-03-31 2005-03-28 画像領域の高凝縮要約画像を生成する方法、装置およびプログラム
JP2011003065A Expired - Fee Related JP5035432B2 (ja) 2004-03-31 2011-01-11 画像領域の高凝縮要約画像を生成する方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2005091702A Expired - Fee Related JP4696635B2 (ja) 2004-03-31 2005-03-28 画像領域の高凝縮要約画像を生成する方法、装置およびプログラム

Country Status (2)

Country Link
US (1) US7697785B2 (ja)
JP (2) JP4696635B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014165912A (ja) * 2013-02-22 2014-09-08 Fuji Xerox Co Ltd ビデオ再生方法、プログラム及びシステム

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7153626B2 (en) 2005-05-23 2006-12-26 Eastman Kodak Company Method of forming dye donor element
US7689064B2 (en) * 2005-09-29 2010-03-30 Cozi Group Inc. Media display collages
JP4872370B2 (ja) 2006-02-10 2012-02-08 富士ゼロックス株式会社 情報配信システム及び情報配信方法
JP2007323285A (ja) 2006-05-31 2007-12-13 Fuji Xerox Co Ltd 電子装置、ネットワーク接続システム、接続方法及びプログラム
JP4952079B2 (ja) * 2006-06-15 2012-06-13 富士ゼロックス株式会社 画像処理装置、方法及びプログラム
JP2008003968A (ja) * 2006-06-23 2008-01-10 Fuji Xerox Co Ltd 情報処理システム、情報処理方法及びプログラム
EP2070309A2 (en) * 2006-09-11 2009-06-17 Koninklijke Philips Electronics N.V. Method and electronic device for creating an image collage
US8144919B2 (en) 2006-09-22 2012-03-27 Fuji Xerox Co., Ltd. Annealing algorithm for non-rectangular shaped stained glass collages
US7878891B2 (en) * 2007-01-29 2011-02-01 Fuji Xerox Co., Ltd. Generating polyomino video game pieces and puzzle pieces from digital photos to create photominoes
US8862986B2 (en) * 2007-10-01 2014-10-14 Hewlett-Packard Development Company, L.P. Arranging graphic objects on a page with relative position based control
EP2291995A1 (en) * 2008-06-24 2011-03-09 Koninklijke Philips Electronics N.V. Image processing
US8086745B2 (en) * 2008-08-29 2011-12-27 Fuji Xerox Co., Ltd Graphical system and method for user authentication
JP5136444B2 (ja) * 2009-01-29 2013-02-06 セイコーエプソン株式会社 画像処理方法およびそのプログラム並びに画像処理装置
KR101164353B1 (ko) * 2009-10-23 2012-07-09 삼성전자주식회사 미디어 콘텐츠 열람 및 관련 기능 실행 방법과 장치
US9335893B2 (en) * 2009-12-29 2016-05-10 Here Global B.V. Method and apparatus for dynamically grouping items in applications
US8773490B2 (en) * 2010-05-28 2014-07-08 Avaya Inc. Systems, methods, and media for identifying and selecting data images in a video stream
US8842934B2 (en) * 2010-07-20 2014-09-23 Canon Kabushiki Kaisha Image processing apparatus and method for controlling the image processing apparatus
US8959071B2 (en) 2010-11-08 2015-02-17 Sony Corporation Videolens media system for feature selection
JP5580765B2 (ja) * 2011-03-03 2014-08-27 オリンパスメディカルシステムズ株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
WO2012137214A1 (en) * 2011-04-05 2012-10-11 Hewlett-Packard Development Company, L. P. Document registration
US8938393B2 (en) 2011-06-28 2015-01-20 Sony Corporation Extended videolens media engine for audio recognition
US9025835B2 (en) * 2011-10-28 2015-05-05 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US8938100B2 (en) * 2011-10-28 2015-01-20 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US8811747B2 (en) 2011-10-28 2014-08-19 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US20130108166A1 (en) * 2011-10-28 2013-05-02 Eastman Kodak Company Image Recomposition From Face Detection And Facial Features
US20130108157A1 (en) * 2011-10-28 2013-05-02 Raymond William Ptucha Image Recomposition From Face Detection And Facial Features
US9008436B2 (en) 2011-10-28 2015-04-14 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US9025836B2 (en) * 2011-10-28 2015-05-05 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US20130108167A1 (en) * 2011-10-28 2013-05-02 Raymond William Ptucha Image Recomposition From Face Detection And Facial Features
US20130108168A1 (en) * 2011-10-28 2013-05-02 Raymond William Ptucha Image Recomposition From Face Detection And Facial Features
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
CN103607543B (zh) * 2013-11-06 2017-07-18 广东威创视讯科技股份有限公司 视频浓缩方法、系统以及视频监控方法和系统
CN105335926B (zh) * 2015-10-28 2018-08-07 北京工业大学 一种基于像素值量化和小波分析的全自动照片油画化方法
US10157638B2 (en) * 2016-06-24 2018-12-18 Google Llc Collage of interesting moments in a video
CN106231399A (zh) * 2016-08-01 2016-12-14 乐视控股(北京)有限公司 视频分割方法、设备以及系统
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10068616B2 (en) 2017-01-11 2018-09-04 Disney Enterprises, Inc. Thumbnail generation for video
US10989600B2 (en) * 2017-12-29 2021-04-27 Laurent Francois MARTIN Automated methods and systems to fill background and interstitial space in a visual object layout
CN109146772B (zh) * 2018-08-03 2019-08-23 深圳市飘飘宝贝有限公司 一种图片处理方法、终端和计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10224736A (ja) * 1997-02-05 1998-08-21 Toshiba Corp 動画像インデックス生成方法および生成装置
JP2000308008A (ja) * 1999-03-12 2000-11-02 Fuji Xerox Co Ltd ビデオのセグメント重要度を決定する方法及びフレーム・セットを限定領域にパックする方法
JP2002514359A (ja) * 1996-07-17 2002-05-14 サーノフ コーポレイション モザイク画像を作成する方法及び装置
JP2002158861A (ja) * 2000-11-22 2002-05-31 Dainippon Screen Mfg Co Ltd 画像レイアウト装置および記録媒体
JP2003101752A (ja) * 2001-09-21 2003-04-04 Pagecomp Lab Corp 画像レイアウト装置およびプログラム

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5341439A (en) 1989-09-21 1994-08-23 Hsu Shin Yi System for texture-based automatic detection of man-made objects in representations of sensed natural environmental scenes
US5048109A (en) 1989-12-08 1991-09-10 Xerox Corporation Detection of highlighted regions
EP0516047B1 (en) 1991-05-27 1998-03-11 Hitachi, Ltd. Method of and apparatus for processing multi-dimensional data
JP3478877B2 (ja) * 1994-09-30 2003-12-15 ミノルタ株式会社 画像形成装置
JPH09179861A (ja) * 1995-12-25 1997-07-11 Dainippon Screen Mfg Co Ltd ページデザイン支援方法
JP3412737B2 (ja) * 1996-10-07 2003-06-03 日本電信電話株式会社 映像目次生成表示装置
JP3529587B2 (ja) * 1997-05-29 2004-05-24 日本電信電話株式会社 映像一覧表示方法および映像一覧表示プログラムを記録した記録媒体
JP4114191B2 (ja) * 1997-06-24 2008-07-09 株式会社セガ 画像処理装置及び画像処理方法
JPH1195312A (ja) * 1997-09-24 1999-04-09 Taito Corp 顔画像とキャラクタ合成による連続ストーリー漫画アミューズメント装置
US6562077B2 (en) 1997-11-14 2003-05-13 Xerox Corporation Sorting image segments into clusters based on a distance measurement
WO1999034319A1 (en) 1997-12-29 1999-07-08 Cornell Research Foundation, Inc. Image subregion querying using color correlograms
US6292575B1 (en) 1998-07-20 2001-09-18 Lau Technologies Real-time facial recognition and verification system
US6470095B2 (en) 1998-10-13 2002-10-22 Xerox Corporation Automatic extraction of text regions and region borders for an electronic work surface
JP2000165648A (ja) * 1998-11-27 2000-06-16 Fuji Photo Film Co Ltd 画像処理方法および装置並びに記録媒体
US6307964B1 (en) * 1999-06-04 2001-10-23 Mitsubishi Electric Research Laboratories, Inc. Method for ordering image spaces to represent object shapes
KR100512138B1 (ko) * 2000-03-08 2005-09-02 엘지전자 주식회사 합성 키프레임을 이용한 비디오 브라우징 시스템
JP4495824B2 (ja) 2000-03-21 2010-07-07 株式会社東芝 情報処理方法
JP3877274B2 (ja) * 2000-03-24 2007-02-07 富士通株式会社 画像照合処理システム
JP4112819B2 (ja) * 2000-05-11 2008-07-02 株式会社東芝 物体領域情報生成装置及び物体領域情報記述プログラム
US6819793B1 (en) 2000-06-30 2004-11-16 Intel Corporation Color distribution for texture and image compression
US6819795B1 (en) 2000-07-07 2004-11-16 Fuji Xerox Co., Ltd. Genetic segmentation method for data, such as image data streams
US6697523B1 (en) 2000-08-09 2004-02-24 Mitsubishi Electric Research Laboratories, Inc. Method for summarizing a video using motion and color descriptors
KR100374040B1 (ko) * 2001-03-09 2003-03-03 엘지전자 주식회사 비디오 텍스트 합성 키 프레임 추출방법
KR100411340B1 (ko) * 2001-03-09 2003-12-18 엘지전자 주식회사 뉴스 비디오 콘텐트의 뉴스 기사 기반 요약 및 브라우징시스템
FR2825814B1 (fr) 2001-06-07 2003-09-19 Commissariat Energie Atomique Procede de creation automatique d'une base de donnees images interrogeable par son contenu semantique
JP3970102B2 (ja) 2001-06-28 2007-09-05 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP4226237B2 (ja) * 2001-09-11 2009-02-18 日本放送協会 漫画生成装置及び漫画生成プログラム
US7091969B2 (en) * 2001-10-02 2006-08-15 National University Of Singapore Frontier advancing polygonization
US7085401B2 (en) 2001-10-31 2006-08-01 Infowrap Systems Ltd. Automatic object extraction
US7203380B2 (en) * 2001-11-16 2007-04-10 Fuji Xerox Co., Ltd. Video production and compaction with collage picture frame user interface
US6922485B2 (en) * 2001-12-06 2005-07-26 Nec Corporation Method of image segmentation for object-based image retrieval
US7257252B2 (en) 2001-12-12 2007-08-14 Sony Corporation Voting-based video background mosaicking
US7035435B2 (en) * 2002-05-07 2006-04-25 Hewlett-Packard Development Company, L.P. Scalable video summarization and navigation system and method
GB0227566D0 (en) * 2002-11-26 2002-12-31 British Telecomm Method and system for estimating global motion in video sequences
EP1445734B1 (en) 2003-02-06 2007-08-08 STMicroelectronics S.r.l. Method and apparatus for texture compression
US7295700B2 (en) 2003-10-24 2007-11-13 Adobe Systems Incorporated Object extraction based on color and visual texture
US7352912B2 (en) 2004-12-10 2008-04-01 Xerox Corporation Method for automatically determining a region of interest for text and data overlay

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002514359A (ja) * 1996-07-17 2002-05-14 サーノフ コーポレイション モザイク画像を作成する方法及び装置
JPH10224736A (ja) * 1997-02-05 1998-08-21 Toshiba Corp 動画像インデックス生成方法および生成装置
JP2000308008A (ja) * 1999-03-12 2000-11-02 Fuji Xerox Co Ltd ビデオのセグメント重要度を決定する方法及びフレーム・セットを限定領域にパックする方法
JP2002158861A (ja) * 2000-11-22 2002-05-31 Dainippon Screen Mfg Co Ltd 画像レイアウト装置および記録媒体
JP2003101752A (ja) * 2001-09-21 2003-04-04 Pagecomp Lab Corp 画像レイアウト装置およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014165912A (ja) * 2013-02-22 2014-09-08 Fuji Xerox Co Ltd ビデオ再生方法、プログラム及びシステム

Also Published As

Publication number Publication date
JP5035432B2 (ja) 2012-09-26
US7697785B2 (en) 2010-04-13
JP4696635B2 (ja) 2011-06-08
US20050220345A1 (en) 2005-10-06
JP2005293577A (ja) 2005-10-20

Similar Documents

Publication Publication Date Title
JP5035432B2 (ja) 画像領域の高凝縮要約画像を生成する方法
JP4715267B2 (ja) 画像における重要度の高い領域を判別する方法、装置及びプログラム
CN110163198B (zh) 一种表格识别重建方法、装置和存储介质
WO2021012837A1 (zh) 推荐信息植入位置的确定方法、装置、设备及存储介质
AU2017339440B2 (en) Techniques for incorporating a text-containing image into a digital image
US9424479B2 (en) Systems and methods for resizing an image
US8248410B2 (en) Synthesizing detailed depth maps from images
US7751627B2 (en) Image dominant line determination and use
US20110069224A1 (en) System and method for art-directable retargeting for streaming video
BRPI1011189B1 (pt) Sistema baseado em computador para selecionar pontos de visualização ótimos e meio de armazenamento de sinal legível por máquina não transitória
JP2010503101A (ja) 画像のコラージュを生成するための方法及び電子装置
WO2013179560A1 (ja) 画像処理装置および画像処理方法
US7724959B2 (en) Determining regions of interest in photographs and images
Chiu et al. Stained-glass visualization for highly condensed video summaries
CN107146197A (zh) 一种缩略图生成方法及装置
Patel et al. Accelerated seam carving for image retargeting
CN112752158A (zh) 一种视频展示的方法、装置、电子设备及存储介质
KR20180117619A (ko) 컴퓨팅 장치를 이용한 객체 관리 및 시각화
KR101106910B1 (ko) 큰 스틸 사진 처리 방법 및 디바이스와 컴퓨터 판독가능 저장 매체
US9471967B2 (en) Relighting fragments for insertion into content
CN116468736A (zh) 基于空间结构的前景图像分割方法、装置、设备、介质
Comino Trinidad et al. Easy authoring of image-supported short stories for 3d scanned cultural heritage
Chu et al. Optimized speech balloon placement for automatic comics generation
Hashemı Review of algorithms changing image size
Wang et al. Automated image retargeting at scale using a generative adversarial network

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120605

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120618

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150713

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5035432

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

LAPS Cancellation because of no payment of annual fees
R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350