JP2016517641A

JP2016517641A - ビデオの画像サマリー

Info

Publication number: JP2016517641A
Application number: JP2015560510A
Authority: JP
Inventors: チェン，ジボ; リュー，デビン; グ，シャオドン; チャン，ファン
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2013-03-06
Filing date: 2013-03-06
Publication date: 2016-06-16
Also published as: EP2965280A1; KR20150127070A; US20150382083A1; WO2014134802A1; CN105103153A

Abstract

さまざまな実施形態は画像サマリー（コミックブック又はナレーティブアブストラクションとも呼ばれる）の提供に関する。一実施形態では、ビデオの第１の部分とビデオの第２の部分にアクセスする。第１の部分の加重を決定し、第２の部分の加重を決定する。第１の数字と第２の数字を決定する。第１の数字は、ビデオの画像サマリーにおいて、第１の部分のいくつの画像を使うか特定する。第１の数字は一以上であり、第１の部分の加重に基づき決まる。第２の数字は、ビデオの画像サマリーにおいて、第２の部分のいくつの画像を使うか特定する。第２の数字は１以上であり、第２の部分の加重に基づき決まる。

Description

ビデオの画像サマリーに関する実施形態を説明する。さまざまな具体的実施形態は、構成可能、きめ細かい、階層的、シーンベースの分析を用いて、ビデオの画像サマリーを生成することに関する。

ビデオは長いことが多く、潜在的なユーザが、そのビデオが何のビデオか判断し、そのビデオを視聴したいか判断することが困難となっている。画像サマリーは、ストーリーブック、コミックブック又は物語要約とも呼ばれるが、これを生成するさまざまなツールがある。画像サマリーは、ビデオの内容を要約又は表現することを意図された一連のスチルショットを提供する。画像サマリーを生成するのに利用可能なツールを改良し、生成される画像サマリーを改良することが、引き続き必要である。

一態様によると、ビデオの第１の部分にアクセスし、ビデオの第２の部分にアクセスする。第１の部分の加重を決定し、第２の部分の加重を決定する。第１の数字と第２の数字を決定する。第１の数字は、ビデオの画像サマリーにおいて、第１の部分のいくつの画像を使うか特定する。第１の数字は１以上であり、第１の部分の加重に基づき決まる。第２の数字は、ビデオの画像サマリーにおいて、第２の部分のいくつの画像を使うか特定する。第２の数字は１以上であり、第２の部分の加重に基づき決まる。

実施形態の詳細は添付した図面と以下の説明に記載されている。実施形態は、１つの具体的な態様で説明したが、様々な態様が可能であることは言うまでもない。例えば、一実施形態は、方法として実行しても、装置として（例えば、一組の動作を実行するように構成された装置として、または一組の動作を実行する命令を記憶した装置として）実施しても、信号で実施してもよい。本発明の他の態様及び特徴は、添付した図面と請求項を参照して以下の詳細な説明を読めば明らかとなるであろう。

ビデオシーケンスの階層構造の一例を示す図である。注釈を付したスクリプト（ｓｃｒｉｐｔ）又はスクリーンプレイ（ｓｃｒｅｅｎｐｌａｙ）の一例を示す図である。画像サマリーを生成するプロセスの一例を示すフロー図である。画像サマリーを生成するシステムの一例を示すブロック図である。画像サマリーを生成するプロセスへのユーザインタフェースの一例を示すスクリーンショットである。画像サマリーの出力ページの一例を示すスクリーンショットである。画像サマリーの画像をシーンにアロケートするプロセスの一例を示すフロー図である。所望のページ数に基づき画像サマリーを生成するプロセスの一例を示すフロー図である。構成ガイドからのパラメータに基づき画像サマリーを生成するプロセスの一例を示すフロー図である。

画像サマリーは、高速ビデオ検索、メディアバンクプレビュー又はメディアライブラリプレビュー、及びユーザ生成及び／又は非ユーザ生成コンテンツの管理（検索、読み出しなど）を含む多くの環境やアプリケーションにおいて有利に用いることができる。メディア消費のデマンドが増大しているので、画像サマリーを使える環境やアプリケーションが増えると期待される。

画像サマリー生成ツールは完全に自動化でき、構成用のユーザ入力を使うこともできる。各々には長所も短所もある。例えば、完全に自動化されたソリューションの結果はすぐに得られるが、広い範囲の消費者を引きつけられないかも知れない。対照的に、ユーザ設定可能ソリューションで複雑なインターラクションを許せば、フレキシビリティとコントロールが得られるが、初めての消費者にはフラストレーションとなるかも知れない。本願ではさまざまな実施形態を提供し、これには自動的なオペレーションとユーザ設定可能なオペレーションとのバランスを試みる実施形態が含まれる。一実施形態では、コンシューマは、出力画像サマリーに求めるページ数の簡単な入力を指定することにより、画像サマリーをカスタマイズできる。

図１を参照するに、ビデオシーケンス１１０の階層構造１００を示す。ビデオシーケンス１１０は一連のシーンを含み、図１は、ビデオシーケンス１１０の初めのシーン１１１２と、シーン１１１２に続くシーン２１１４と、ビデオシーケンス１１０の両端から特定されていない距離にあるシーンであるシーンｉ１１６と、ビデオシーケンス１１０の最後のシーンであるシーンＭ１１８とを示している。

シーンｉ１１６は一連のショットを含み、階層構造１００は、シーンｉ１１６の初めのショット１１２２と、シーンｉ１１６の両端から指定されていない距離にあるショットであるショットｊ１２４と、シーンｉ１１６の最後のショットであるショットＫ１２６とを含む。

ショットｊ１２４は一連のピクチャを含む。これらのピクチャは、画像サマリーを形成するプロセスにおいて、ハイライトピクチャ（ハイライトフレームと呼ばれることも多い）として一般的に選択される。階層構造１００はハイライトピクチャとして選択された３つのピクチャを示し、これには第１のハイライトピクチャ１３２、第２のハイライトピクチャ１３４、及び第３のハイライトピクチャ１３６が含まれる。典型的な一実施形態では、ピクチャをハイライトピクチャとして選択すると、そのピクチャは画像サマリーにも含まれる。

図２を参照するに、注釈を付したスクリプト又はスクリーンプレイ（ａｎｎｏｔａｔｅｄｓｃｒｉｐｔ，ｏｒｓｃｒｅｅｎｐｌａｙ）２００を示す。スクリプト２００は、典型的スクリプトのさまざまなコンポーネントと、コンポーネント間の関係とを示している。スクリプトはさまざまな形式で提供でき、これには例えばワープロ文書が含まれる。

スクリプト又はスクリーンプレイ（ｓｃｒｉｐｔｏｒｓｃｒｅｅｎｐｌａｙ）は、スクリプト化が映画やテレビ番組のために書いた作品であると定義されることが多い。スクリプトでは、各シーンは、例えば「誰が」（キャラクタ）、「何を」（状況）、「いつ」（時刻）、「どこで」（アクションの場所）、及び「なぜ」（アクションの目的）を確定するように記載される。スクリプト２００は一つのシーンのものであり、次のコンポーネントと、その定義と説明とを含む。

１．シーンヘディング：シーンヘディングは新しいシーンの開始を示すために記載され、１ライン上にタイプされ、幾つかの単語は省略され、すべての単語が大文字にされる。具体的に、シーンが生じる時刻の前に、シーンのロケーションがリストされている。内部（ｉｎｔｅｒｉｏｒ）はＩＮＴと省略され、例えばある構造物の内部を指す。外部（ｅｘｔｅｒｉｏｒ）はＥＸＴと省略され、例えば屋外を指す。

スクリプト２００は、シーンのロケーションを外部でありＪｏｎｅｓ牧場のキャビンの前であると特定するシーンヘディング２１０を含む。シーンヘディング２１０は、日没の時刻も特定している。

２．シーン説明：シーン説明はシーンの説明であり、左マージンから右マージンまでページにわたってタイプされている。キャラクタ名は、説明中で最初に使われた時にすべて大文字で表示される。シーン説明は、一般的には、スクリーン上に何が現れるかを説明し、これを示すため「ＯｎＶＩＤＥＯ」の言葉が前置きされる。

スクリプト２００は、「ＯｎＶＩＤＥＯ」との言葉が示しているように、ビデオ上に何が現れるかを説明するシーン説明２２０を含む。シーン説明２２０は３つの部分を含む。シーン説明２２０の第１の部分では、ＴｏｍＪｏｎｅｓが紹介され、彼の年齢（「２２歳」）、外見（「外気にさらされて年老いて見える顔」）、背景（「屋外での生活」）、ロケーション（「フェンスの上」）、及び現在のアクティビティ（「水平線を見ている」）が説明される。

シーン説明２２０の第２の部分では、Ｔｏｍの一時点での精神状態（「頭上を飛んでいる鳥のように心がさまよう」）が説明される。シーン説明２２０の第３の部分は、Ｊａｃｋの手伝いの申し出に応じたアクション（「こちらを見て立ち上がる」）を説明している。

３．話しているキャラクタ：話しているキャラクタの名前を示すにはすべて大文字を使う。

スクリプト２００は３人の話しているキャラクタの表示（ｓｐｅａｋｉｎｇｃｈａｒａｃｔｅｒｉｎｄｉｃａｔｉｏｎ）２３０を含む。第１と第３の話しているキャラクタの表示２３０はＴｏｍが話していることを示す。第２の話しているキャラクタの表示２３０は、Ｊａｃｋが話していること、またはＪａｃｋがオフスクリーン（「Ｏ．Ｓ．」）であること、すなわちスクリーンには映っていないことを示す。

４．モノローグ：キャラクタが話しているテキストは、ページ上のそのキャラクタ名（これは上述のようにすべて大文字になっている）の下にセンタリングされている。

スクリプト２００は、４つのモノローグセクションを含み、これらはモノローグインジケータ２４０により示されている。第１と第２のセクションはＴｏｍの第１のスピーチのものであり、Ｔｏｍの犬の問題とその問題に対するＴｏｍのリアクションを説明している。第３のモノローグセクションはＪａｃｋの手伝いの申し出（「君のために犬をしつけようか？」）である。第４のモノローグセクションはＴｏｍの回答（「え、しつけてくれる？」）である。

５．ダイアローグインジケーション：ダイアローグインジケーションは、キャラクタのモノローグが始まる前に、または始まる時に、キャラクタの見え方や話し方を説明する。このダイアローグインジケーションは、キャラクタ名の下に、またはモノローグ中の別のライン上に、カッコに入れてタイプされる。

スクリプト２００は２つのダイアローグインジケーション２５０を含む。第１のダイアローグインジケーション２５０はＴｏｍが「鼻を鳴らす（ｓｎｏｒｔｓ）」ことを示す。第２のダイアローグインジケーション２５０は、Ｔｏｍが「驚くほど感謝している様子」を示す。

６．ビデオトランジション：ビデオトランジションは説明するまでもなく、ビデオのトランジションを示す。

スクリプト２００は、表示されるシーンの終わりにビデオトランジション２６０を含む。ビデオトランジション２６０はフェードアウトして暗くなり、次いでフェードインして次のシーン（図示せず）になる。

図３は、画像サマリーを生成するプロセス３００の一例を示すフロー図である。プロセス３００は、ユーザ入力の受け取り（３１０）を含む。ユーザ入力の受け取りは任意的オペレーションである。例えば、パラメータは一定であってもよく、ユーザによる選択を要しないからである。しかし、ユーザ入力は、さまざまな実施形態では、次のもののうち一以上を含む：
（ｉ）画像サマリーが望ましいビデオを特定する情報であって、例えば、ビデオファイル名、ビデオ解像度、及びビデオモードを含むもの、
（ｉｉ）ビデオに対応するスクリプトを特定する情報であって、例えばスクリプトファイル名を含むもの、
（ｉｉｉ）所望の画像サマリー出力を記述する情報であって、例えば、その画像サマリーに望ましい最大ページ数、画像サマリーのページサイズ、及び／又は画像サマリーのページのフォーマット情報（例えば、画像サマリー中のピクチャ間のギャップサイズ）を含むもの、
（ｉｖ）画像サマリーを生成するのに用いるビデオの範囲、
（ｖ）シーン加重に用いるパラメータであって、例えば、（ｉ）加重に関して本願で説明するすべてのパラメータ、（ｉｉ）加重で強調する主要キャラクタ名（例えば、ＪａｍｅｓＢｏｎｄ）、（ｉｉｉ）加重で強調する主要キャラクタ数の値、（ｉｖ）加重で強調するハイライトアクションやオブジェクトのリスト（例えば、ユーザは映画のカーチェイスに主に関心を持っているかも知れない）。
（ｖｉ）画像サマリーで使えるページをビデオのさまざまな部分（例えば、シーン）に割り当てるのに用いるパラメータであって、例えば、画像サマリーに望ましい最大ページ数を記述する情報など、
（ｖｉｉ）ビデオ中のピクチャを評価するのに用いるパラメータであって、例えば、画質の尺度を選択するパラメータなど、及び／又は
（ｖｉｉｉ）画像サマリーに含めるシーンからピクチャを選択するのに用いるパラメータであって、例えば、ショット当たりで選択すべきピクチャ数など。

プロセス３００は、互いに対応するスクリプトとビデオを同期するステップ（３２０）を含む。例えば、典型的な実施形態では、ビデオとスクリプトは両方とも一つの映画のものである。同期オペレーション３２０の少なくとも一実施形態では、スクリプトを、すでにビデオと同期している字幕と同期させる。さまざまな実施形態は、スクリプトのテキストを字幕と相関させることにより同期を行う。スクリプトはこうして、字幕を通して、ビデオ（ビデオタイミング情報を含む）と同期される。一以上のかかる実装は、例えば、文献Ｍ．Ｅｖｅｒｉｎｇｈａｍ，Ｊ．Ｓｉｖｉｃ，ａｎｄＡ．Ｚｉｓｓｅｒｍａｎ著「‘Ｈｅｌｌｏ！Ｍｙｎａｍｅｉｓ．．．Ｂｕｆｆｙ．’ ＡｕｔｏｍａｔｉｃＮａｍｉｎｇｏｆＣｈａｒａｃｔｅｒｓｉｎＴＶＶｉｄｅｏ」（Ｐｒｏｃ．ＢｒｉｔｉｓｈＭａｃｈｉｎｅＶｉｓｉｏｎＣｏｎｆ．，２００６（ｔｈｅ “Ｅｖｅｒｉｎｇｈａｍ” ｒｅｆｅｒｅｎｃｅ））に記載された動的時間ワーピング（ｄｙｎａｍｉｃｔｉｍｅｗａｒｐｉｎｇ）法などの既知の手法を用いてスクリプト・字幕同期を行う。文献Ｅｖｅｒｉｎｇｈａｍの内容は、動的時間ワーピングの説明を含むがそれに限定されないすべての目的においてその全体をここに参照援用する。

同期オペレーション３２０により、同期されたビデオが出力として提供される。同期されたビデオは、元のビデオと、スクリプトとの同期を何らかの方法で示す付加情報とを含む。さまざま実装では、例えば、スクリプトのさまざまな部分に対応するピクチャのビデオタイムスタンプを決定し、次いでそのビデオタイムスタンプをスクリプトの対応部分に挿入することにより、ビデオタイムスタンプを用いる。

同期オペレーション３２０からの出力は、さまざまな実施形態では、例えば上記の通り、改変（例えば、注釈）していない元のビデオと、注釈されたスクリプトである。他の実装は、スクリプトの改変に替えて、またはそれに加えて、ビデオを改変する。さらに別の実装では、ビデオもスクリプトも改変しないが、別に同期情報を提供する。さらに別の実施形態では、同期そのものを行わない。

プロセス３００はビデオの一以上のシーンを加重するステップ（３３０）を含む。他の実施形態では、ビデオの異なる部分、例えば、ショットやシーングループなどを加重する。さまざまな実施形態では、シーンの加重（ｗｅｉｇｈｔ）の決定に、次の要因のうち一以上を用いる：
１．ビデオの始まりのシーン及び／又はビデオの終わりのシーン：始まり及び／又は終わりのシーンは、さまざまな実施形態では、時間インジケータ、ピクチャ番号インジケータ、又はシーン番号インジケータを用いて示される。
ａ．Ｓｓｔａｒｔはビデオの始まりのシーンを示す。
ｂ．Ｓｅｎｄはビデオの終わりのシーンを示す。

２．主要キャラクタの登場頻度：
ａ．Ｃｒａｎｋ［ｊ］，ｊ＝１，２，３，．．．，ＮＣｒａｎｋ［ｊ］はｊ番目のキャラクタのビデオにおける登場頻度である。ここでＮはビデオにおけるキャラクタの総数である。
ｂ．Ｃｒａｎｋ「ｊ］＝ＡＮ［ｊ］／ＴＯＴＡＬここでＡＮ［ｊ］はｊ番目のキャラクタの登場回数（ＡｐｐｅａｒａｎｃｅＮｕｍｂｅｒ）であり、
［外１］

である。登場回数（キャラクタ登場）はキャラクタがビデオに出てくる回数である。それゆえ、Ｃｒａｎｋ［ｊ］は、０と１の間の数であり、すべてのキャラクタがビデオに出てくる回数に基づきすべてのキャラクタのランキングを提供する。
キャラクタ登場は、例えばスクリプト検索など、さまざまな方法で決定できる。例えば、図２のシーンにおいて、「Ｔｏｍ」という名前はシーン説明２２０に２回、話しているキャラクタ２３０として２回出てくる。「Ｔｏｍ」という名前をカウントすることにより、例えば、（ｉ）スクリプトにおける「Ｔｏｍ」という言葉の登場により決まる、Ｔｏｍがシーン中に現れることを反映して１回、（ｉｉ）例えば、「Ｔｏｍ」が、話しているキャラクタ２３０テキスト中に登場する回数により決まる、他のキャラクタによるモノローグと干渉しないモノローグ数を反映して２回、（ｉｉｉ）「Ｔｏｍ」がシーン説明２２０テキストに登場する回数を反映して２回、（ｉｖ）「Ｔｏｍ」がシーン説明２２０テキスト又は話しているキャラクタ２３０テキストのいずれかの一部として登場する回数を反映して４回。
ｃ．Ｃｒａｎｋ［ｊ］は降順にソートされる。このように、Ｃｒａｎｋ［１］は最も頻繁に出てくるキャラクタの登場頻度である。

３．シーンの長さ：
ａ．ＬＥＮ［ｉ］，ｉ＝１，２，．．．，Ｍはｉ番目のシーンの長さであり、一般的にはピクチャ数で測られる。ここで、Ｍはスクリプトで規定されたシーンの総数である。
ｂ．ＬＥＮ［ｉ］は、図４を参照して後で説明する同期ユニット４１０で計算できる。スクリプトに記述された各シーンは、ビデオのピクチャ期間にマッピングされる。シーンの長さは、例えば、シーンに対応するピクチャ数として定義できる。他の実施形態では、シーンの長さは、例えば、シーンに対応する時間の長さとして定義できる。
ｃ．各シーンの長さは、さまざまな実施形態では、次の式により規格化される：

ここで、
［外２］

である。

４．シーン中のハイライトされるアクション又はオブジェクトのレベル：
ａ．Ｌｈｉｇｈ［ｉ］，ｉ＝１，２，．．．，Ｍは、ｉ番目のシーンにおけるハイライトされたアクション又はオブジェクトのレベルとして定義される。ここで、Ｍはスクリプトで定義されたシーンの総数である。
ｂ．ハイライトされたアクション又はオブジェクトを伴うシーンは、例えば、スクリプト中のハイライト語検出により検出できる。例えば、見る、向く、走る、上る、キスなどのさまざまなハイライトアクションワード（又はワードグループ）を検出することにより、又は、例えば、ドア、テーブル、水、車、銃、オフィスなどのさまざまなハイライトオブジェクトワードを検出することによる。
ｃ．少なくとも一実施形態では、Ｌｈｉｇｈ［ｉ］は単純に、例えば、ｉ番目のシーン説明に現れるハイライトワードの数により定義できる。これは次式によりスケールされる：

少なくとも一実施形態では、開始シーン及び終了シーンを除き、他のすべてのシーン加重（シーン「ｉ」の加重として示す）は次式により計算される：

ここで、
−ＳＨＯＷ［ｊ］［ｉ］は、ビデオのｊ番目の主要キャラクタの、シーン「ｉ」における登場回数である。これはシーン「ｉ」に出てくるＡＮ［ｊ］の部分である。ＳＨＯＷ［ｊ］［ｉ］は、シーンをスキャンして、ＡＮ［ｊ］を決定するために行ったのと同じタイプのカウントを行うことによりできる。
−Ｗ［ｊ］，ｊ＝１，２，．．．，Ｎ，α及びβは加重パラメータである。これらのパラメータはベンチマークデータセットによるデータトレーニングにより、所望の結果が得られるように、確定できる。あるいは、加重パラメータはユーザにより設定されてもよい。一実施形態では、

である。

さまざまなかかる実施形態において、画像サマリーにおける開始シーンと終了シーンの比重（ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）を大きくするため、ＳｓｔａｒｔとＳｅｎｄに最高の加重が与えられる。こうする理由は、ビデオのナレーションでは一般的に開始シーンと終了シーンが重要だからである。かかる実施形態では、開始シーンと終了シーンの加重は次式で計算される：

プロセス３００は、画像サマリーピクチャをビデオのシーン間で割り当てするステップ（３４０）を含む。さまざまな実施形態において、ユーザはユーザ入力オペレーション３１０において、ビデオ（例えば、映画コンテンツ）から生成される画像サマリーの最大長さ（すなわち、最大ページ数であり、ＰＡＧＥＳと呼ばれる）を設定できる。変数ＰＡＧＥＳは、次式を用いて画像サマリーハイライトピクチャの最大数Ｔｈｉｇｈｌｉｇｈｔに変換される。

ここで、ＮＵＭＦＰは、画像サマリーの各ページにアロケートされたピクチャ（フレームとも呼ばれる）の平均数であり、これは少なくとも一実施形態では５に設定され、ユーザによる（例えば、ユーザ入力オペレーション３１０における）インターラクティブオペレーションにより設定することもできる。

その入力を用いて、少なくとも一実施形態では、ｉ番目のシーンにアロケートされる（画像サマリー用のハイライトピクチャ選択をするための）ピクチャの割り当て（ｐｉｃｔｕｒｅｂｕｄｇｅｔ）を次式で決定する。

この式は、シーンの総加重の割合に基づいて利用可能ピクチャの一部をアロケートし、次いで、シーリング関数を用いて切り上げする。割り当てオペレーションの終わりに向けて、すべてのシーン割り当てを、Ｔｈｉｇｈｌｉｇｈｔを超えずに切り上げることができないことが予想される。かかる場合、さまざまな実施形態では、例えば、Ｔｈｉｇｈｌｉｇｈｔを超え、他の実施形態では、例えば、切り下げを始める。

さまざま実施形態では、ビデオのシーン以外の部分を加重する。かかる多くの実施形態では、オペレーション３４０は、画像サマリーピクチャをビデオの（必ずしもシーンではない）加重部分に割り当てるオペレーションと置き換えることが多い。

プロセス３００は、シーン中の、より一般的にはビデオ中のピクチャを評価するステップ（３５０）を含む。さまざまな実施形態では、各シーン「ｉ」について、そのシーン中の各ピクチャについてアピール品質（ＡｐｐｅａｌｉｎｇＱｕａｌｉｔｙ）を計算する。

１．ＡＱ［ｋ］，ｋ＝１，２，．．．，Ｔｉは、ｉ番目のシーン中の各画像のアピール品質を示す。ここでＴｉはｉ番目のシーンの総ピクチャ数である。

２．アピール品質は、ＰＳＮＲ（ＰｅａｋＳｉｇｎａｌＮｏｉｓｅＲａｔｉｏ）、シャープネスレベル、カラー調和レベル（例えば、ピクチャの色が互いによく調和しているか評価する主観的分析）、及び／又は美的レベル（例えば、色、レイアウトなどの主観的評価）などの画質係数に基づき計算できる。

３．少なくとも一実施形態では、ＡＱ［ｋ］はピクチャのシャープネスレベルと定義され、例えば、次の関数を用いて計算される：

ここで、
−ＰＩＸｅｄｇｅｓはピクチャ中のエッジピクセルの数であり、
−ＰＩＸｔｏｔａｌはピクチャ中の総ピクセル数である。

プロセス３００は、画像サマリー用のピクチャを選択するステップ（３６０）を含む。オペレーション３６０はハイライトピクチャの選択と呼ばれることも多い。さまざまな実施形態では、各シーン「ｉ」について、次のオペレーションを行う：
−ＡＱ［ｋ］，ｋ＝１，２，．．．，Ｔｉが降順にソートされ、トップＦＢｕｇ［ｉ］個のピクチャがシーンｉのハイライトピクチャとして選択され、最終的画像サマリーに含められる。
−もし（ｉ）ＡＱ［ｍ］＝ＡＱ［ｎ］であれば、より一般的にはＡＱ［ｍ］がＡＱ［ｎ］の閾値内にあり、かつ（ｉｉ）ピクチャｍとピクチャｎが同じショットにあれば、ピクチャｍとピクチャｎの一方のみが最終的画像サマリーに選択される。これにより、同じショットのピクチャは、画質が同様であり、両方とも最終的画像サマリーに含まれない。その替わり、他のピクチャが選択される。しばしば、そのシーンに含まれる追加的ピクチャ（すなわち、含まれる最後のピクチャ）は、別のショットのものである。例えば、（ｉ）シーンが３つのピクチャ「１」、「２」及び「３」に割り当てられ、（ｉｉ）ＡＱ［１］がＡＱ［２］の閾値内にあり、それゆえ（ｉｉｉ）ピクチャ「２」は含まれないが、ピクチャ「４」は含まれるとき、（ｉｖ）ピクチャ４はピクチャ２とは異なるショットのものである場合が多い。

他の実施形態では、シーン（または割り当てが行われる他のビデオ部分）のどのピクチャを画像サマリーに含めるか決定するさまざまな方法が行われる。一実施形態では、各ショットからアピール品質が最も高いピクチャ（すなわち、ＡＱ［１］）を取り、ＦＢｕｇ［ｉ］にピクチャが残っていれば、残っているピクチャのうちアピール品質が最も高いものが選択される。

プロセス３００は、画像サマリーを提供するステップ（３７０）を含む。さまざまな実施形態では、提供するステップ（３７０）は画像サマリーをスクリーン上に表示するステップを含む。他の実施形態では、格納及び／又は送信用に画像サマリーを提供する。

図４を参照するに、システム４００のブロック図を示す。システム４００は画像サマリーを生成するシステムの一例である。システム４００を用いて、例えば、プロセス３００を実行できる。

システム４００は入力としてビデオ４０４、スクリプト４０６及びユーザ入力４０８を受け取る。これらの入力の供給は、例えば、ユーザ入力オペレーション３１０に対応する。

ビデオ４０４とスクリプト４０６は互いに対応している。例えば、典型的な実施形態では、ビデオ４０４とスクリプト４０６は両方とも一つの映画のものである。ユーザ入力４０８は、以下に説明する一以上のさまざまなユニットの入力を含む。

システム４００は、スクリプト４０６とビデオ４０４とを同期する同期ユニット４１０を含む。同期ユニットの少なくとも一実施形態では、同期オペレーション３２０を行う。

同期ユニット４１０は、同期されたビデオを出力として提供する。同期されたビデオは、元のビデオ４０４と、スクリプト４０６との同期を何らかの方法で示す付加情報とを含む。上記の通り、さまざま実施形態では、例えば、スクリプトのさまざまな部分に対応するピクチャのビデオタイムスタンプを決定し、次いでそのビデオタイムスタンプをスクリプトの対応部分に挿入することにより、ビデオタイムスタンプを用いる。他の実施形態では、ピクチャではなく、シーン、ショットのビデオタイムスタンプを決定し、挿入する。例えば、（ｉ）本技術分野で知られたさまざまな方法で、（ｉｉ）本願で説明するさまざまな方法で、又は（ｉｉｉ）スクリプトを読みビデオを見ているオペレータにより、スクリプトの部分とビデオの部分との間の対応関係を決定することができる。

同期ユニット４１０からの出力は、さまざまな実施形態では、例えば上記の通り、改変（例えば、注釈）していない元のビデオと、注釈されたスクリプトである。他の実装は、スクリプトの改変に替えて、またはそれに加えて、ビデオを改変する。さらに別の実装では、ビデオもスクリプトも改変しないが、別に同期情報を提供する。さらに別の実施形態では、同期そのものを行わない。言うまでもなく、同期ユニット４１０からの出力のタイプに応じて、さまざまな実施形態では、元のスクリプト４０６をシステム４００の他のユニット（例えば、以下に説明する加重ユニット４２０など）に提供する必要はない。

システム４００は、加重ユニット４２０を含み、これは入力として、（ｉ）スクリプト４０６、（ｉｉ）ビデオ４０４と同期ユニット４１０からの同期情報、及び（ｉｉｉ）ユーザ入力４０８を受け取る。加重ユニット４２０は、例えば、これらの入力を用いて加重オペレーション３３０を行う。さまざまな実施形態では、ユーザは、例えば、ユーザ入力４０８を用いて、最初と最後のシーンが最高加重を有するか否か指定する。加重ユニット４２０は、出力として、分析されている各シーンのシーン加重を提供する。幾つかの実施形態では、ユーザは、映画の一部のみの、例えば、その映画の最初の１０分間のみの画像サマリーを準備することを望むことがある。このように、すべてのビデオで必ずしもすべてのシーンが分析されるわけではない。

システム４００は、入力として（ｉ）加重ユニット４２０からシーン加重を、そして（ｉｉ）ユーザ入力４０８を受け取る割り当てユニット（ｂｕｄｇｅｔｉｎｇｕｎｉｔ）４３０を含む。割り当てユニット４３０は、例えば、これらの入力を用いて割り当て（ｂｕｄｇｅｔｉｎｇ）オペレーション３４０を行う。さまざまな実施形態では、ユーザは、例えば、ユーザ入力４０８を用いて、割り当てオペレーション３４０の割り当て計算（ｂｕｄｇｅｔｃａｌｃｕｌａｔｉｏｎ）でシーリング関数（あるいは、例えばフロア関数）を使うか、指定できる。さらに他の実施形態では、ユーザは、シーン加重に基づき画像サマリーのピクチャをシーンに比例してアサインするのではない非線形方程式を含む、さまざまな割り当て式（ｂｕｄｇｅｔｉｎｇｆｏｒｍｕｌａｓ）を指定できる。例えば、幾つかの実施形態では、加重が大きいシーンにはますます大きなパーセンテージを与える。

割り当てユニット４３０は、出力として、すべてのシーンのピクチャ割り当て（ｐｉｃｔｕｒｅｂｕｄｇｅｔ）（すなわち、各シーンにアロケートされたピクチャ数）を提供する。他の実施形態では、例えば、すべてのシーンのページ割り当てや各ショットの割り当て（ピクチャやページなど）異なる割り当て出力を提供する。

システム４００は、評価ユニット４４０を含み、これは入力として、（ｉ）ビデオ４０４と同期ユニット４１０からの同期情報、及び（ｉｉ）ユーザ入力４０８を受け取る。評価ユニット４４０は、例えば、これらの入力を用いて評価オペレーション３５０を行う。さまざまな実施形態では、ユーザは、例えば、ユーザ入力４０８を用いて、どのタイプのアピール品質係数（ＡｐｐｅａｌｉｎｇＱｕａｌｉｔｙｆａｃｔｏｒｓ）（例えば、ＰＳＮＲ、シャープネスレベル、カラー調和レベル、美的レベル）を用いるか、及び具体的な式や利用可能な式の選択さえも指定できる。

評価ユニット４４０は、出力として、対象としている一以上のピクチャの評価を提供する。さまざまな実施形態では、対象としているすべてのピクチャの評価を提供する。しかし、他の実施形態では、例えば、各ショットの最初のピクチャのみの評価を提供する。

システム４００は選択ユニット４５０を含み、これは入力として、（ｉ）ビデオ４０４と同期ユニット４１０からの同期情報、（ｉｉ）評価ユニット４４０からの評価、（ｉｉｉ）割り当てユニット４３０からの評価、及び（ｉｖ）ユーザ入力４０８を受け取る。選択ユニット４５０は、例えば、これらの入力を用いて選択オペレーション３６０を行う。さまざまな実施形態により、ユーザは、例えば、ユーザ入力４０８を用いて、各ショットからベストピクチャを選択するか指定する。

選択ユニット４５０は出力として画像サマリーを提供する。選択ユニット４５０は、例えば、提供オペレーション３７０を行う。さまざまな実施形態では、ストレージデバイス、送信デバイス、又はプレゼンテーションデバイスに画像サマリーが提供される。さまざまな実施形態では、データファイルとして、または送信されるビットストリームとして、出力が提供される。

システム４００はプレゼンテーションデバイス４６０を含み、これは入力として例えば選択ユニット４５０、ストレージデバイス（図示せず）、又は例えば画像サマリーを含むブロードキャストストリームを受信するレシーバ（図示せず）から、画像サマリーを受け取る。プレゼンテーションユニット４６０は、例えば、テレビジョン、コンピュータ、ラップトップ、タブレット、セルラー電話、その他の通信デバイスや処理デバイスを含む。プレゼンテーションユニット４６０は、さまざまな実施形態では、図５と図６にそれぞれ示すように、ユーザインタフェース及び／又はスクリーンディスプレイを提供する。

システム４００の要素は、例えば、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせにより実施できる。例えば、一以上の処理デバイスは、実行する機能のために適切にプログラミングされれば、システム４００を実施するのに用いることができる。

図５を参照するに、ユーザインタフェーススクリーン５００を示す。ユーザインタフェーススクリーン５００は画像サマリーを生成するツールから出力される。このツールは、図５では「Ｍｏｖｉｅ２Ｃｏｍｉｃ」と表示されている。ユーザインタフェーススクリーン５００は、プロセス３００の実施形態の一部として用いることができ、システム４００の実施形態を用いて生成できる。

スクリーン５００はビデオセクション５０５とコミックブック（画像サマリー）セクション５１０とを含む。スクリーン５００は、ソフトウェアの進行のインジケーションを提供するプログレスフィールドも含む。スクリーン５００のプログレスフィールド５１５は、ソフトウェアが現在ページレイアウトを表示していることを示している「Ｄｉｓｐｌａｙｔｈｅｐａｇｅｌａｙｏｕｔ．．．」と言う更新を表示している。プログレスフィールド５１５はソフトウェアの進行に応じて表示される更新を変更する。

ビデオセクション５０５により、ユーザは、さまざまなビデオ情報アイテムを指定して、ビデオとインターラクトできる。これには次のものが含まれる：
−解像度フィールド５２０を用いたビデオ解像度の指定、
−幅フィールド５２２と高さフィールドとを用いたビデオ中のピクチャの幅と高さの指定、
−モードフィールド５２６を用いたビデオモードの指定、
−ファイル名フィールド５２８を用いたビデオのソースファイル名の指定、
−ブラウズボタン５３０を用いた利用可能ビデオファイルのブラウズと、オープンボタン５３２を用いたビデオファイルのオープン、
−ピクチャ番号フィールド５３４を用いた、（別のウィンドウに）表示するピクチャ番号の指定、
スライダバー５３６を用いた（別のウィンドウにおける）表示するビデオピクチャの選択、
−ナビゲーションボタングルーピング５３８を用いた（別のウィンドウに表示された）ビデオ内のナビゲーション。

コミックブックセクション５１０により、ユーザは、画像サマリーのさまざまな情報を指定して、画像サマリーとインターラクトできる。
−読み出し設定フィールド５５０を用いた、新しい画像サマリーを生成するか（「Ｎｏ」）、又は以前生成された画像サマリーを再利用するか（「Ｙｅｓ」）の表示（例えば、画像サマリーがすでに生成されている場合、ソフトウェアはその構成を読み出して、以前の計算を繰り返さなくても、以前生成された画像サマリーを見せられる）。
−アニメフィールド（ｃａｒｔｏｏｎｉｚａｔｉｏｎｆｉｅｌｄ）５５２を用いた画像サマリーをアニメーションのように見えるように生成するかの指定、
−開始範囲フィールド５５４と終了範囲フィールド５５６とを用いた、画像サマリーの生成に用いるビデオの範囲の指定、
−ＭａｘＰａｇｅｓフィールド５５８を用いた、画像サマリーの最大ページ数の指定、
−ページ幅フィールド５６０とページ高さフィールド５６２とを用いた画像サマリーページのサイズの指定（両者はピクセル数で指定される（他の実施形態では他の単位が用いられる））、
−水平ギャップフィールド５６４と垂直ギャップフィールド５６６とを用いた、画像サマリーページ上のピクチャ間の間隔の指定（両者はピクセル数で指定される（他の実施形態では他の単位が用いられる））、
−分析ボタン５６８を用いた、画像サマリーを生成するプロセスの開始、
−キャンセルボタン５７０を用いた、画像サマリー生成プロセスの放棄と、ツールのクローズ、
−ナビゲーションボタングルーピング５７２を用いた（別のウィンドウに表示された）画像サマリー内のナビゲーション。

言うまでもなく、スクリーン５００は設定ガイドの実施形態を提供する。スクリーン５００により、ユーザは、説明したさまざまなパラメータを指定できる。他の実施形態では、スクリーン５００に示したパラメータのすべてを提供していてもいなくても、付加的パラメータを提供する。さまざまな実施形態では、あるパラメータを自動で指定し、及び／又はスクリーン５００にデフォルト値を提供する。上記の通り、スクリーン５００のコミックブックセクション５１０により、ユーザは、（ｉ）画像サマリーの生成に用いるビデオの範囲、（ｉｉ）生成される画像サマリー中のピクチャの幅、（ｉｉｉ）生成される画像サマリー中のピクチャの高さ、（ｉｖ）生成される画像サマリー中の離間したピクチャの水平ギャップ、（ｖ）生成される画像サマリー中の離間したピクチャの垂直ギャップ、又は（ｖｉ）生成される画像サマリーの所望のページ数を示す値、のうちの少なくとも１つを指定できる。

図６を参照するに、スクリーンショット６００は、図５の説明で触れた「Ｍｏｖｉｅ２Ｃｏｍｉｃ」ツールの出力から提供される。スクリーンショット６００は、ユーザインタフェーススクリーン５００に示した使用に応じて生成された一ページの画像サマリーである。例えば：
−スクリーンショット６００は５００ピクセルのページ幅を有する（ページ幅フィールド５６０を参照）、
−スクリーンショット６００は７００ピクセルのページ高さを有する（ページ高さフィールド５６２を参照）、
−画像サマリーは１ページだけである（ＭａｘＰａｇｅｓフィールド５５８を参照）、
−スクリーンショット６００は８ピクセルのピクチャ間垂直ギャップ６０２を有する（垂直ギャップフィールド５６６を参照）、及び
−スクリーンショット６００は６ピクセルのピクチャ間水平ギャップ６０４を有する（水平ギャップフィールド５６４を参照）。

スクリーンショット６００は６つのピクチャを含み、これらはユーザインタフェーススクリーン５００で特定されたビデオ（ファイル名フィールド５２８を参照）のハイライトピクチャである。６つのピクチャは、ビデオに現れる順序で、
−第１のピクチャ６０５、これは６つのピクチャのうち最大のものであり、スクリーンショット６００のトップに配置され、男が敬礼している正面斜視図を示す、
−第２のピクチャ６１０、これはサイズが第１のピクチャ６０５の約半分であり、第１のピクチャ６０５の左手部分の下に、スクリーンショット６００の左側に沿って中ほどに配置され、隣の男性と話している女性の顔を示している、
−第３のピクチャ６１５、これはサイズが第２のピクチャ６１０と同じであり、第２のピクチャの下に配置され、ビルのフロント部分と象徴的標識を示している、
−第４のピクチャ６２０、これは最も小さいピクチャであり、サイズが第２のピクチャ６１０の半分未満であり、第１のピクチャ６０５の右手側の下に配置され、二人の男が話し合っている影となった画像の正面斜視図を示す、
−第５のピクチャ６２５、これは第２のピクチャ６１０より少し小さく、第４のピクチャのサイズの約２倍であり、第４のピクチャ６２０の下に配置され、墓地の光景を示し、
−第６のピクチャ６３０、これは第５のピクチャ６２５と同じサイズであり、第５のピクチャ６２５の下に配置され、第２のピクチャ６１０の女性と男性が別の会話で話し合っている他の画像を示し、女性の顔がピクチャのフォーカスになっている。

６つのピクチャ６０５−６３０はそれぞれ自動的にサイズ決定されクロッピングされ、関心オブジェクトにピクチャにフォーカスしている。ツールによりユーザは、ピクチャ６０５−６３０のどれを用いてもビデオをナビゲートできる。例えば、ユーザがピクチャ６０５−６３０の１つをクリックすると、または（ある実施形態では）その上にカーソルを動かすと、ビデオはそのビデオのそのポイントから再生開始される。さまざまな実施形態では、ユーザは巻き戻し、早送り、及び他のナビゲーションオペレーションの利用ができる。

さまざまな実施形態では、（ｉ）ビデオ中のピクチャの時間的順序、（ｉｉ）ピクチャにより表されるシーンのシーンランキング、（ｉｉｉ）画像サマリーのピクチャのアピール品質（ＡＱ）、及び／又は（ｉｖ）画像サマリーのピクチャのピクセル単位のサイズに従った、またはそれらに基づいた順序で画像サマリーのピクチャを配置する。さらに、画像サマリーのピクチャの（例えば、ピクチャ６０５−６３０の）レイアウトは、幾つかの実施形態では最適化される。より一般的には、画像サマリーは、ある実施形態では、欧州特許出願第２２０７１１１号に記載した一以上の実施形態により作られる。この出願はここにその全体をすべての目的のために参照援用する。

言うまでもなく、一般的な実施形態では、スクリプトは例えばビデオタイムスタンプで注釈（ａｎｎｏｔａｔｅ）されるが、ビデオは改変されない。したがって、ピクチャ６０５−６３０は元のビデオから取られ、ピクチャ６０５−６３０の１つをクリックすると、元のビデオがそのピクチャから再生開始される。他の実施形態では、スクリプトの改変に加えて、またはそれに替えて、ビデオを改変する。さらに別の実施形態では、ビデオもスクリプトも改変しないが、別の同期情報を提供する。

６つのピクチャ６０５−６３０はビデオから取った実際のピクチャである。すなわち、ピクチャは例えばアニメ化フィーチャを用いてアニメーションにされていない。他の実施形態では、しかし、画像サマリーにピクチャを含める前に、そのピクチャをアニメ化する。

図７を参照するに、システム７００のフロー図を示す。一般的に言って、プロセス７００は画像サマリーにおいてピクチャを異なるシーンにアロケート又は割り当て（ｂｕｄｇｅｔ）する。プロセス７００のバリエーションにより、ピクチャをビデオの異なる部分（必ずしもシーンではない部分）に割り当てられる。

プロセス７００は第１のシーンと第２のシーンにアクセスするステップ（７１０）を含む。少なくとも一実施形態では、オペレーション７１０はビデオの第１のシーンと、そのビデオの第２のシーンにアクセスすることにより行われる。

プロセス７００は、第１のシーンの加重を決定するステップ（７２０）と、第２のシーンの加重を決定するステップ（７３０）とを含む。加重は、少なくとも一実施形態では、図３のオペレーション３３０を用いて決定される。

プロセス７００は、第１のシーンの加重に基づき第１のシーンに用いるピクチャ数を決定するステップ（７４０）を含む。少なくとも一実施形態では、オペレーション７４０は、ビデオの画像サマリーにおいて、第１の部分のピクチャをいくつ使うか特定する第１の数を決定することにより行われる。かかる実施形態では、第１の数字は一以上であり、第１の部分の加重に基づき決まる。ピクチャの数は、少なくとも一実施形態では、図３のオペレーション３４０を用いて決定される。

プロセス７００は、第２のシーンの加重に基づき第２のシーンに用いるピクチャ数を決定するステップ（７５０）を含む。少なくとも一実施形態では、オペレーション７５０は、ビデオの画像サマリーにおいて、第２の部分のピクチャをいくつ使うか特定する第２の数を決定することにより行われる。かかる実施形態では、第２の数字は一以上であり、第２の部分の加重に基づき決まる。ピクチャの数は、少なくとも一実施形態では、図３のオペレーション３４０を用いて決定される。

図８を参照するに、システム８００のフロー図を示す。おおまかに言って、プロセス８００はビデオの画像サマリーを生成する。プロセス８００は、画像サマリーの所望のページ数を示す値にアクセスするステップ（８１０）を含む。この値は、少なくとも一実施形態では、図３のオペレーション３１０を用いてアクセスされる。

プロセス８００はビデオにアクセスするステップ（８２０）を含む。プロセス８００は、さらに、そのビデオに対して、アクセスされた値に基づいてページカウントを、画像サマリーを生成するステップ（８３０）を含む。少なくとも一実施形態では、オペレーション８３０はビデオの画像サマリーを生成することにより行われる。画像サマリーは総ページ数を有し、この総ページ数はその画像サマリーの所望のページ数を示す値（アクセスされた値）に基づく。

図９を参照するに、システム９００のフロー図を示す。おおまかに言って、プロセス９００はビデオの画像サマリーを生成する。プロセス９００は、画像サマリーの設定ガイドのパラメータにアクセスするステップ（９１０）を含む。少なくとも一実施形態では、オペレーション９１０は、ビデオの画像サマリーを設定する一以上のパラメータを含む、設定ガイドの一以上のパラメータにアクセスすることにより行われる。この一以上のパラメータは、少なくとも一実施形態では、図３のオペレーション３１０を用いてアクセスされる。

プロセス９００はビデオにアクセスするステップ（９２０）を含む。プロセス９００は、さらに、そのビデオに対して、アクセスされたパラメータに基づいて画像サマリーを生成するステップ（９３０）を含む。少なくとも一実施形態では、オペレーション９３０は、ビデオの画像サマリーを生成することにより行われる。画像サマリーは設定ガイドのアクセスされた一以上のパラメータに従う。

プロセス９００その他のプロセスのさまざまな実施形態では、ビデオ自体に関連する一以上のパラメータにアクセスするステップを含む。かかるパラメータには、スクリーン５００のビデオセクション５０５を参照して説明したように、例えば、ビデオ解像度、ビデオ幅、ビデオ高さ、及び／又はビデオモード、その他のパラメータなどがある。さまざまな実施形態では、（ビデオの画像サマリーに、またはその他の態様に関連する）アクセスされたパラメータは、例えば、（ｉ）システムにより自動的に、（ｉｉ）ユーザ入力により、及び／又は（ｉｉｉ）ユーザ入力スクリーン（例えば、スクリーン５００など）のデフォルト値により提供される。

プロセス７００は、さまざまな実施形態では、プロセス３００の選択されたオペレーションを実行するシステム４００を用いて行われる。同様に、プロセス８００と９００は、さまざまな実施形態では、プロセス３００の選択されたオペレーションを実行するシステム４００を用いて行われる。

さまざまな実施形態では、画像サマリーには、すべてのシーンを表現するほど十分なピクチャは無い。他の実施形態では、理論的には十分なピクチャがあるが、加重が大きいシーンにはより多くのピクチャが与えられるとなると、こうした実施形態では、画像サマリーにおいてすべてのシーンを表現する前に、利用可能ピクチャが足りなくなる。したがって、これらの実施形態の多くのもののバリエーションでは、加重が大きいシーンにピクチャをアロケート（ａｌｌｏｃａｔｅ）するフィーチャ（ｆｅａｔｕｒｅ）を含む。そのように、実施形態において、（画像サマリーにおいて）利用可能なピクチャが不足したとき、そういう場合には加重が大きいシーンが表されている。かかる実施形態では、シーン加重の降順でシーンを処理し、そのため加重がより大きいすべてのシーンに（画像サマリーの）ピクチャがアロケートされるまで、（画像サマリーの）ピクチャをシーンにアロケートしない。

画像サマリーにすべてのシーンを表す「十分な」ピクチャがないさまざまな実施形態では、生成される画像サマリーではビデオの一以上のシーンのピクチャを用い、その一以上のシーンは、それを含むビデオのシーン間を差別化するランキングに基づいて決定される。ある実施形態では、生成される画像サマリーがビデオの一以上の部分のピクチャを用いるように、及び一以上の部分を含むビデオ部分間を差別化するランキングに基づき決定されるように、このフィーチャをシーン以外のビデオ部分に適用する。幾つかの実施形態では、画像サマリーにおいて（ビデオなどの）第１の部分を表すか、その第１の部分の加重を、ビデオの他の部分の加重と比較することにより、決定する。ある実施形態では、部分は例えばショットである。

言うまでもなく、幾つかの実施形態では、（ｉ）画像サマリーにおいてシーンを表すか判断し、（ｉｉ）表すシーンからいくつのピクチャを画像サマリーに含めるか判断するため、（シーンなどの）ランキングを用いる。例えば、幾つかの実施形態では、画像サマリーのすべての位置が埋まるまで、加重（シーンを差別化するランキング）の降順でシーンを処理する。かかる実施形態では、それにより、シーンが加重の降順で処理されるので、加重に基づきどのシーンを画像サマリーにおいて表すか判断する。かかる実施形態では、例えば、シーンの加重を用いて、表される各シーンからいくつのピクチャを画像サマリーに含めるか判断して、シーンに割り当てられるピクチャ数を決定する。

上記の実施形態のバリエーションでは、画像サマリー中のピクチャ数が与えられると、すべてのシーンが画像サマリーにおいて表し得るか、最初に判断する。（画像サマリーに）利用可能ピクチャが無いため答えが「ｎｏ」であれば、かかる実施形態では、画像サマリーにおいてより多くのシーンを表せるようにするように、アロケーション方式を変更する（例えば、各シーンにピクチャを１つだけアロケートする）。このプロセスはシーン加重を変更するのと同様の結果を生じる。再び、（画像サマリーに）利用可能ピクチャが無いため答えが「ｎｏ」であれば、他の実施形態では、シーン加重に閾値を用いて、加重が低いシーンは画像サマリーにおいて考慮されないようにする。

さまざまな実施形態では選択されたピクチャを画像サマリーに単にコピーする点に留意されたい。しかし、他の実施形態では、選択されたピクチャを画像サマリーに挿入する前に、選択されたピクチャに一以上のさまざまな処理手法を行う。かかる処理手法には、例えば、クロッピング、サイズ変更、スケーリング、アニメ化（例えば、「アニメ（ｃａｒｔｏｏｎｉｚａｔｉｏｎ）」効果の適用）、フィルタリング（例えば、ローパスフィルタやノイズフィルタ）、カラー強調や修正、及び光レベル強調や修正などがある。選択されたピクチャは、それが画像サマリーに挿入される前に処理されたとしても、画像サマリーにおいて「利用」されると考え得る。

ユーザが画像サマリーの所望のページ数やピクチャ数を指定できるさまざまな実施形態を説明した。幾つかの実施形態では、しかし、ユーザ入力無しにページ数やピクチャ数を決定する。他の実施形態では、ユーザはページ数やピクチャ数を指定できるが、ユーザが値を指定しなければ、ユーザ入力無しに決定を行う。ユーザ入力無しにページ数やピクチャ数を決定するさまざまな実施形態では、例えば、ビデオ（例えば、映画）の長さやビデオ中のシーン数に基づき数字が設定される。２時間の長さのビデオの場合、（さまざまな実施形態における）画像サマリーの一般的なページ数は約３０ページである。１ページに６つのピクチャがあれば、かかる実施形態における一般的なピクチャ数は約１８０である。

実施形態を説明した。本開示では、これらの実施形態のバリエーションを想定している。図中及び実施形態中の要素の多くは任意的であることにより、多数のバリエーションが得られる。例えば：
−実施形態では、ユーザ入力オペレーション３１０とユーザ入力４０８は任意的である。例えば、ある実施形態には、ユーザ入力オペレーション３１０とユーザ入力４０８は含まれない。かかる実施形態では、すべてのパラメータは一定であり、ユーザはパラメータを設定できない。（ここで、及び本願のこの他の部分で）ある実施形態ではあるフィーチャが任意的であると言っているが、それは、幾つかの実施形態はそのフィーチャを必要としないということ、別の実施形態はそのフィーチャを含まないということ、及びさらに別の実施形態はそのフィーチャを利用可能なオプションとして提供し、ユーザがそのフィーチャを使うか決定できるということである。
−ある実施形態では、同期オペレーション３２０と同期ユニット４１０は任意的である。幾つかの実施形態では、画像サマリーを生成するツールがスクリプトとビデオを受け取った時、そのスクリプトとビデオはすでに同期しているので、同期は行わない。他の実施形態では、スクリプト無しでシーン分析をするので、スクリプトとビデオの同期は行わない。スクリプトを用いないスクリプトを使わないかかるさまざまな実施形態では、替わりに、（ｉ）クローズドキャプションテキスト、（ｉｉ）字幕テキスト、（ｉｉｉ）音声認識ソフトウェアを用いてテキストに変換されたオーディオ、（ｉｖ）例えば、ハイライトオブジェクトやキャラクタを識別するためビデオピクチャに対して行われたオブジェクト認識、又は（ｖ）同期に利用できる事前に生成された情報を提供するメタデータのうち一以上を分析する。
−ある実施形態では、評価オペレーション３５０と評価ユニット４４０は任意的である。幾つかの実施形態では、ビデオ中のピクチャは評価しない。かかる実施形態では、ピクチャのアピール品質（ＡｐｐｅａｌｉｎｇＱｕａｌｉｔｙ）以外の一以上の基準に基づき、選択オペレーション３６０を行う。
−プレゼンテーションユニット４６０はある実施形態では任意的である。前述の通り、さまざまな実施形態では、画像サマリーをプレゼンテーションすることなく、記憶又は送信用に画像サマリーを提供する。

図や実施形態の一以上の要素を、無くさずに、修正することにより多くのバリエーションが得られる。例えば：
−加重オペレーション３３０と加重ユニット４２０は、例えば、次のように、多数の異なる方法でシーンを加重（ｗｅｉｇｈｔ）できる：
１．シーンの加重は例えばシーン中のピクチャ数に基づいてもよい。かかる実施形態では、シーンにピクチャ数に比例した加重をアサインする。このように、加重は、例えば、シーン中のピクチャ数（ＬＥＮ［ｉ］）をビデオ中の総ピクチャ数で割ったものに等しい。

２．シーンの加重は、シーン中のハイライトされたアクション又はオブジェクトのレベルに比例してもよい。このように、幾つかの実施形態では、加重は、シーン「ｉ」のハイライトされたアクションまたはオブジェクト（Ｌｈｉｇｈ［ｉ］）をビデオのハイライトされたアクションまたはオブジェクトの総レベル（すべての「ｉ」にわたるＬｈｉｇｈ［ｉ］の和）で割ったものに等しい。

３．シーンの加重は、シーン中の一以上のキャラクタの登場回数（ＡｐｐｅａｒａｎｃｅＮｕｍｂｅｒ）に比例してもよい。このように、かかる実施形態では、シーン「ｉ」の加重はＳＨＯＷ［ｊ］［ｉ］，ｆｏｒｊ＝１．．．Ｆの和に等しい。ここで、Ｆは例えば３（ビデオのトップ３の主要キャラクタのみが考慮されることを示す）又はその他の数が選択または設定される。Ｆの値は、実施形態やビデオコンテンツが異なれば設定も異なる。例えば、ＪａｍｅｓＢｏｎｄ映画では、画像サマリーがＪａｍｅｓＢｏｎｄと主な悪役にフォーカスするように、Ｆは比較的小さい数に設定される。

４．上記の例のバリエーションでは、シーン加重のスケーリングを提供する。例えば、かかる実施形態では、シーン「ｉ」の加重は（ｇａｍｍａ［ｉ］＊ＳＨＯＷ［ｊ］［ｉ］），ｆｏｒｊ＝１．．．Ｆの和に等しい。「ｇａｍｍａ［ｉ］」はスケーリング値（すなわち、加重）であり、例えば、主要キャラクタ（例えば、ＪａｍｅｓＢｏｎｄ）の登場をより強調するために用い得る。

５．「加重」は異なる実施形態では異なるタイプの値で表し得る。例えば、さまざまな実施形態では、「加重」はランキング、ランキングの逆数（逆順）、または計算されたメトリック（ｍｅｔｒｉｃ）やスコア（例えば、ＬＥＮ［ｉ］）である。さらに、さまざまな実施形態では、加重は規格化されないが、他の実施形態では、加重は規格化され、その結果、加重は０と１の間である。

６．シーンの加重（ｗｅｉｇｈｔｉｎｇ）は、他の実施形態について説明した加重ストラテジの一以上の組み合わせを用いて行うことができる。組み合わせは、例えば、合計、積、比率、差、シーリング、フロア、平均、メジアン、モードなどであり得る。

７．他の実施形態では、シーンのビデオにおける位置にかかわらず、そのシーンを加重するので、最初と最後のシーンに大きな加重をアサインしない。

８．また別のさまざまな実施形態では、異なる方法でシーン分析と加重を行う。例えば、幾つかの実施形態では、スクリプトの異なる又は追加された部分を検索する（例えば、アクションやオブジェクトのハイライトワードのシーン説明に加えてすべてのモノローグを検索する）。また、さまざまな実施形態では、シーン分析と加重を行うとき、スクリプト以外のアイテムを検索する。かかるアイテムには、例えば、（ｉ）クローズドキャプションテキスト、（ｉｉ）字幕テキスト、（ｉｉｉ）音声認識ソフトウェアを用いてテキストに変換されたオーディオ、（ｉｖ）例えば、ハイライトオブジェクト（又はアクション）とキャラクタ登場を特定するためにビデオピクチャに行ったオブジェクト認識、又は（ｖ）シーン分析を行うときに用いるために事前に生成された情報を提供するメタデータなどを含む。

９．さまざまな実施形態では、シーンとは異なるピクチャのセットに加重の概念を適用する。（例えば、ショートビデオを含む）さまざまな実施形態では、（シーンではなく）ショットが加重され、ハイライトピクチャの割り当ては、ショット加重に基づいてショットにアロケートされる。他の実施形態では、加重される単位はシーンより大きく（例えば、シーンがグループ化され、又はショットがグループ化される）、又はショットより小さい（例えば、個々のピクチャはそれの「アピール品質」に基づいて加重される）。さまざまな実施形態では、シーンやショットはさまざまな属性に基づきグループ化される。例としては、（ｉ）長さに基づきシーンやショットをグループ化する（例えば、隣接する短いシーンをグループ化する）、（ｉｉ）同じタイプのハイライトアクションやオブジェクトを有するシーンやショットをグループ化する、又は（ｉｉｉ）同じ主要キャラクタを有するシーンやショットをグループ化する。
−割り当てオペレーション３４０と割り当てユニット４３０は、画像サマリーピクチャをさまざまな方法でシーン（又はビデオのその他の部分）にアロケート又はアサインできる。かかる実施形態では、例えば、加重が大きいシーンは不釣り合いに大きく（又は小さく）する非線形アサインメント（ａｓｓｉｇｎｍｅｎｔ）に基づきピクチャをアサインする。他の実施形態では、単純に、ショット毎に一ピクチャをアサインする。
−評価オペレーション３５０と評価ユニット４４０は、例えば、ピクチャ中のキャラクタ及び／又はシーン中のピクチャ位置に基づき、ピクチャを評価できる（例えば、シーン中の最初のピクチャとシーンの最後のピクチャは高い評価を受けられる）。他の実施形態では、ショットやシーン全体を評価して、各ピクチャではなくショットやシーン全体に１つの評価（典型的には数字）を生成する。
−選択オペレーション３６０と選択ユニット４５０は、ピクチャを、他の基準を用いて画像サマリーに含めるハイライトピクチャとして選択できる。かかる実施形態では、ピクチャの質に関わらず、各ショットの最初又は最後のピクチャをハイライトピクチャとして選択する。
−プレゼンテーションユニット４６０はさまざまなプレゼンテーションデバイスで実施できる。かかるプレゼンテーションデバイスは、例えば、テレビジョン（「ＴＶ」）（ピクチャーインピクチャ（「ＰＩＰ」機能を有する又は有しないもの）、コンピュータディスプレイ、ラップトップディスプレイ、パーソナルデジタルアシスタント（「ＰＤＡ」）ディスプレイ、セルラー電話ディスプレイ、及びタブレット（例えば、ｉＰａｄ）ディスプレイを含む。プレゼンテーションデバイスは、異なる実施形態では、主又は副スクリーンである。さらに他の実施形態では、異なる又は付加的な感覚プレゼンテーションを提供するプレゼンテーションデバイスを用いる。ディスプレイデバイスは一般的にはビジュアルプレゼンテーションを提供する。しかし、他のプレゼンテーションデバイスは、例えば、（ｉ）スピーカを用いた聴覚的プレゼンテーション、又は（ｉｉ）振動パターンを提供する振動デバイスや他の触覚的感覚インジケーション（タッチベースのもの）を提供するデバイスを用いる触覚プレゼンテーションを提供する。
−説明した実施形態の多くの要素はさらに別の実施形態を生じるために順序替えや再配置してもよい。例えば、プロセス３００の多くのオペレーションは、システム４００の説明で示唆したように、再配置できる。さまざまな実施形態では、ユーザオペレーションを、プロセス３００の一以上の他のロケーションに、例えば、加重オペレーション３３０、割り当てオペレーション３４０、評価オペレーション３５０、選択オペレーション３６０のうちの一以上のすぐ前に動かしても良い。さまざまな実施形態では、評価オペレーション３５０を、プロセス３００の一以上の他のロケーションに、例えば、加重オペレーション３３０又は割り当てオペレーション３４０のうちの一以上のすぐ前に動かしても良い。

説明した実施形態のバリエーションでは、さらに別のフィーチャが付加される。かかるフィーチャの一例は、ネタ（ｃｒｕｃｉａｌｓｔｏｒｙｐｏｉｎｔｓ）が不注意でばれないようにする「ネタバレ禁止（ｎｏｓｐｏｉｌｅｒｓ）」フィーチャである。ビデオのネタは、例えば、誰が殺人犯か、又はどうやって救助するか、どうやって逃れるかということを含む。さまざまな実施形態の「ネタバレ禁止」フィーチャは、例えば、どのシーンの、またはその替わりに例えばクライマックス、結末、フィナーレ、またはエピローグのショットのハイライトも含めないことにより行われる。これらのシーン又はショットは、例えば、（ｉ）ビデオの最後の（例えば）１０分間のシーンやショットはすべて除外すること、又は（ｉｉ）除外されるシーン及び／又はショットを特定するメタデータにより判断できる。このメタデータは、例えば、レビュアー、コンテンツプロデューサ、又はコンテンツプロバイダにより提供される。

さまざまな実施形態では、階層的細粒構造の一以上のレベルに加重をアサインする。この構造は例えば、シーン、ショット、ピクチャを含む。さまざまな実施形態では、本願で説明したように、一以上の方法でシーンを加重する。追加的又は代替的に、さまざまな実施形態では、本願で説明した一以上の方法を用いてショット及び／又はピクチャを加重する。ショット及び／又はピクチャの加重は、次の一以上の方法で行える：
（ｉ）ピクチャのアピール品質（ＡＱ）はピクチャの黙示的加重を提供できる（例えば、プロセス３００のオペレーション３５０を参照）。与えられたピクチャの加重は、ある実施形態では、そのピクチャのＡＱの実際の値である。他の実施形態では、加重はＡＱの実際の値に基づき（等しくはなく）、例えば、ＡＱをスケーリング又は規格化したものである。
（ｉｉ）他の実施形態では、与えられたピクチャの加重は、ＡＱ値の順序リストのＡＱ値のランキングに等しい、又はそれに基づく（例えば、ＡＱ値をランク付けする、プロセス３００のオペレーション３６０を参照）。
（ｉｉｉ）ＡＱはショットの加重も与える。どのショットの実際の加重も、さまざまな実施形態では、そのショットの構成ピクチャのＡＱ値に等しい（又はそれに基づく）。例えば、ショットはその中のピクチャの平均ＡＱに等しい、又はその中のすべてのピクチャの最高ＡＱに等しい加重を有する。
（ｉｖ）他の実施形態では、与えられたショットの加重は、ＡＱ値の順序リストのショットの構成ピクチャのランキングに等しい、又はそれに基づく（例えば、ＡＱ値をランク付けする、プロセス３００のオペレーション３６０を参照）。例えば、ＡＱ値が高いピクチャは、順序リスト（これはランキングである）中の高いところに現れ、「ランキングが高い」ピクチャを含むショットは、最終的な画像サマリー中に表される（又はより多くのピクチャで表される）確率が高い。これは、追加的規則が、最終的画像サマリーに含まれ得るショットからのピクチャ数を制限したとしても、本当である。どのショットの実際の加重も、さまざまな実施形態では、順序ＡＱリストにおけるそのショットの構成ピクチャの位置に等しい（又はそれに基づく）。例えば、ショットは、そのショットのピクチャの（順序ＡＱリストにおける）平均位置に等しい（又はそれに基づく）、又はそのショットのすべてのピクチャの最高位置に等しい（又はそれに基づく）加重を有する。

本願では、多くの独立なシステムや製品を提供する。例えば、本願は元のビデオ及びスクリプトで始まる、画像サマリーを生成するシステムを説明する。しかし、本願は他の多数のシステムも説明している。例えば：
−システム４００の各ユニットは別個かつ独立なエンティティ及び発明である。よって、例えば、同期システムは例えば同期ユニット４１０に対応し、加重システムは加重ユニット４２０に対応し、割り当てシステムは割り当てユニット４３０に対応し、評価システムは評価ユニット４４０に対応し、選択システムは選択ユニット４５０に対応し、プレゼンテーションシステムはプレゼンテーションユニット４６０に対応し得る。
−さらに、少なくとも１つの加重及び割り当てシステムは、シーン（又はビデオのその他の部分）を加重して、加重に基づきシーン（又はビデオのその他の部分）間にピクチャの割り当てをアロケートする機能を含む。加重及び割り当てシステムの一実施形態は、加重ユニット４２０と割り当てユニット４３０とにより構成される。
−さらに、少なくとも１つの評価及び選択システムは、ビデオ中のピクチャを評価し、その評価に基づいて、画像サマリーに含めるあるピクチャを選択する機能を含む。評価及び選択システムの一実施形態は、評価ユニット４４０と選択ユニット４５０とにより構成される。
−さらに、少なくとも１つの割り当て及び選択システムは、ビデオ中のシーンにピクチャ割り当て（ｐｉｃｔｕｒｅｂｕｄｇｅｔ）をアロケートし、次いで、画像サマリーに含めるあるピクチャを（割り当てに基づいて）選択する機能を含む。割り当て及び選択システムの一実施形態は、割り当てユニット４３０と選択ユニット４５０とにより構成される。割り当て及び選択システムのさまざまな実施形態では、評価ユニット４４０により実行されるのと同様な評価機能も含まれる。

本願で説明した実施形態は一以上のさまざまな利点を有する。かかる利点には、例えば次のものが含まれる：
−画像サマリーを生成するプロセスを提供する。該プロセスは、（ｉ）ユーザ入力に適合し、（ｉｉ）ビデオ中の各ピクチャを評価することにより粒度が細かい、（ｉｉｉ）シーン、ショット、及び個別ピクチャを分析することにより階層的である、
−シーン、ショット及びハイライトピクチャを含む階層的で粒度が細かい構成の異なるレベルに加重をアサインする、
−例えば、ビデオ中でのシーンの位置、主要キャラクタの登場頻度、シーンの長さ、シーン中のハイライトされたアクション又はオブジェクトのレベル／量などの一以上のフィーチャを考慮することにより、異なる重要度レベル（加重）をシーン（又はその他のビデオ部分）に対して特定する、
−画像サマリーのハイライトピクチャを選択する際にピクチャの「アピール品質（ａｐｐｅａｌｉｎｇｑｕａｌｉｔｙ）」を考慮する、
−シーン、ショット及びハイライトピクチャを確定するナレーション特性（ｎａｒｒａｔｉｏｎｐｒｏｐｅｒｔｙ）を保つ。ここで、「ナレーション特性」を保つとは、画像サマリーの一般的な視聴者がその画像サマリーを見るだけでそのビデオのストーリーを理解できるように、画像サマリーにおいてビデオのストーリーを保存することを言う、
−例えば、ハイライトアクション／ワードの存在や主要キャラクタの存在を考慮することにより、加重又はランキングを決定する時、シーン、ショット又はピクチャが以下に「面白い」かに関する要因を考慮する、
−画像サマリーを生成するのにシーン、ショット及び個々のピクチャを分析する階層的プロセスにおいて次の要因の一以上を用いる：（ｉ）開始シーンと終了シーンの優遇、（ｉｉ）主要キャラクタの登場頻度、（ｉｉｉ）シーンの長さ、（ｉｖ）シーン中のハイライトアクション又はオブジェクトのレベル、又は（ｖ）ピクチャの「アピール品質」係数。

本願は、異なるさまざまな実施形態環境で利用でき、異なるさまざまな目的に利用できる実施形態を提供する。限定ではないが、幾つかの例には次のものが含まれる：
−実施形態は、ＤＶＤの自動シーン選択メニューや過度の（「ＯＴＴ」）ビデオアクセスに利用される。
−実施形態は疑似トレイラー生成に用いられる。例えば、画像サマリーは広告として提供される。画像サマリーの各ピクチャは、ピクチャのクリックにより、そのピクチャから始まるビデオのクリップをユーザに提供する。クリップの長さはさまざまな方法で決定できる。
−実施形態は例えばａｐｐとしてパッケージされ、（さまざまな映画やテレビシリーズなどの）ファンは、エピソードの、シーズンの、又はシリーズ全体のサマリーなどを生成できる。ファンは、例えば、関連ビデオを選択し、又はシーズンあるいはシリーズのインジケータを選択する。これらの実施形態は、例えば、ユーザが、各番組をつぶさに見ることなく、数日で番組の全シーズンを「見る」ことを欲するときに有用である。これらの実施形態は、前のシーズンをレビューするのに、又は前に見たことを思い出させるのにも有用である。これらの実施形態は、エンターテイメントダイアリーとして用いることができ、ユーザは見たコンテンツを追跡することができる。
−完全に構成されたスクリプト無しに（例えば、クローズドキャプションのみで）動作する実施形態は、テレビ信号を調べて処理することにより、テレビジョンで動作可能である。テレビ信号はスクリプトを含まないが、かかる実施形態は追加的情報（例えば、スクリプト）を必要としない。かかる実施形態は、見たすべての番組の画像サマリーを自動的に生成するように設定できる。これらの実施形態は、例えば、（ｉ）エンターテイメントダイアリーの生成、又は（ｉｉ）親が自分の子供がテレビで見たものを追跡するのに有用である。
−実施形態は、上記のようにテレビで動作してもしなくても、電子番組ガイド（「ＥＰＧ」）番組記述を改善するのに用いられる。例えば、幾つかのＥＰＧディスプレイは映画又はシリーズエピソードの３行テキスト記述のみを表示する。さまざまな実施形態では、その替わりに、潜在的な視聴者に対して番組の要点を示す、対応する関連ダイアローグとともにピクチャ（又はクリップ）の自動的抜粋を提供する。かかる実施形態は、番組の放送前の、プロバイダーにより提供される番組に関するバルクラン（ｂｕｌｋ−ｒｕｎ）であり、結果として得られる抜粋はＥＰＧを通して利用できる。

本願は複数の図面を提供し、それには図１の階層構造、図２のスクリプト、図４のブロック図、図３及び７−８のフロー図、及び図５−６のスクリーンショットが含まれる。各図は、さまざまな実施形態を開示している。
−例えば、ブロック図は、装置又はシステムの機能ブロックの相互接続を示す。しかし、言うまでもなく、ブロック図はプロセスフローの記述も提供する。一例として、図４は、図４のブロックの機能を実行するフロー図も表す。例えば、加重ユニット４２０のブロックは、シーン加重を行うオペレーションも表し、割り当てユニット４３０のブロックはシーン割り当てを行うオペレーションも表す。図４の他のブロックはこのフロープロセスを説明では同様に解釈される。
−例えば、フロー図はフロープロセスを示す。しかし、言うまでもなく、フロー図は、そのフロープロセスを実行するシステム又は装置の機能ブロック間の相互接続も提供する。例えば、図３を参照して、同期オペレーション３２０のブロックは、ビデオ及びスクリプトを同期する機能を実行するブロックも表す。図３の他のブロックはこのシステム／装置の説明では同様に解釈される。さらに、図７−８は、各システム又は装置を同様に記述すると解釈できる。
−例えば、シーンショットはユーザに表示されるスクリーンを示す。しかし、言うまでもなく、スクリーンショットは、ユーザとインターラクトするフロープロセスも示す。例えば、図５は、ユーザに画像サマリーを構成するテンプレートを提示し、ユーザからの入力を受け、次いで画像サマリーを構成し、場合によってはプロセスを繰り返し、画像サマリーをリファインするプロセスも示す。さらに、図６は、各フロープロセスを同様に記述すると解釈できる。

このように、多数の実施形態が提供される。しかし、留意点として、説明した実施形態の変形も想定でき、本開示の範囲内に入ると考えられる。また、説明した実施形態の特徴と態様は他の実施形態にも適合できる。

さまざまな実施形態では、「画像（ｉｍａｇｅｓ）」及び／又は「ピクチャ（ｐｉｃｔｕｒｅｓ）」に言及した。「画像」及び「ピクチャ」との用語は、本文献を通して交換可能に使われ、広義語であることを意図している。「画像」又は「ピクチャ」は例えば、フレーム又はフィールドの全部又は一部であってもよい。「ビデオ（ｖｉｄｅｏ）」との用語は一連の画像（又はピクチャ）を指す。画像又はピクチャは、例えば、さまざまなビデオコンポーネントやその組み合わせを含み得る。かかるコンポーネント又はその組み合わせは、例えば、輝度、クロミナンス、（ＹＵＶ又はＹＣｂＣｒ又はＹＰｂＰｒ）のＹ，（ＹＵＶのＵ），（ＹＵＶの）Ｖ，（ＹＣｂＣｒの）Ｃｂ，（ＹＣｂＣｒの）Ｃｒ，（ＹＰｂＰｒ）のＰｂ，（ＹＰｂＰｒの）Ｐｒ，（ＲＧＢの）赤，（ＲＧＢの）緑，（ＲＧＢの）青，Ｓ−Ｖｉｄｅｏ，及びこれらのコンポーネントのネガティブ又はポジティブを含む。「画像」又は「ピクチャ」は、追加的に又は代替的に、さまざまな異なるタイプのコンテンツを含み、これには、例えば、典型的な２次元ビデオ、エクスポージャマップ、２次元ビデオピクチャのディスパリティマップ、２次元ビデオピクチャに対応する奥行きマップ、又はエッジマップなどを含む。

本原理の「一実施形態」等と言う場合、本発明の少なくとも１つの実施形態に含まれるその実施形態に関して説明する具体的な特徴、構造、特性などを意味する。それゆえ、本明細書を通していろいろなところに記載した「一実施形態において」等と言った場合、必ずしもすべてが同じ実施形態を参照するものではない。

また、本願とその特許請求の範囲において、様々な情報を「判断（ｄｅｔｅｒｍｉｎｉｎｇ）」する旨を記載した。情報の判断には、例えば、その情報の推定、その情報の計算、その情報の予測、またはその情報のメモリからの読み出しのうちの一以上が含まれ得る。

さらに、本願とその特許請求の範囲において、様々な情報を「アクセス（ａｃｃｅｓｓｉｎｇ）」する旨を記載した。情報へのアクセスは、例えば、情報の受け取り、情報の読み出し（例えば、メモリからの読み出し）、情報の記憶、情報の処理、情報の送信、情報の移動、情報のコピー、情報の削除、情報の計算、情報の決定、情報の予測、又は情報の推定などの一以上を含み得る。

言うまでもなく、例えば、「Ａ／Ｂ」、「Ａ及び／又はＢ」、および「ＡとＢの少なくとも一方」のうちの「及び／又は」および「少なくとも一方」などと言うとき、第１のオプション（Ａ）のみを選択する場合、第２のオプション（Ｂ）のみを選択する場合、又は両方のオプション（ＡとＢ）を選択する場合を含むものとする。別の例として、例えば、「Ａ、Ｂ、及び／又はＣ」、および「Ａ、Ｂ、及びＣの少なくとも一方」、及び「Ａ、Ｂ、またはＣの少なくとも一方」などと言うとき、第１のオプション（Ａ）のみを選択する場合、第２のオプション（Ｂ）のみを選択する場合、第３のオプション（Ｃ）のみを選択する場合、第１と第２のオプション（ＡとＢ）のみを選択する場合、第２と第３のオプション（ＢとＣ）を選択する場合、第１と第３のオプション（ＡとＣ）を選択する場合、又は３つすべてのオプション（ＡとＢとＣ）を選択する場合を含むものとする。本技術分野及び関連技術分野の当業者には明らかなように、これは多数の場合にも拡張できる。

また、多くの実施形態は、例えば、ポストプロセッサやプリプロセッサなどのプロセッサに実装できる。本願で説明したプロセッサは、さまざまな実施形態では、例えば、集合的に、プロセス、機能又はオペレーションを実行するように構成された複数のプロセッサ（サブプロセッサ）を含む。例えば、システム４００は、集合的にシステム４００のオペレーションを実行するように構成された複数のサブプロセッサを用いて実施できる。

ここで説明した実施形態は、方法またはプロセス、装置、またはソフトウェアプログラム、データストリーム、又は信号として実施できる。１つの形式の実施形態の場合で説明した（例えば、方法としてのみ説明した）場合であっても、説明した機能の実施形態は他の形式（例えば、装置やプログラム）でも実施できる。装置は例えば適切なハードウェア、ソフトウェア、及びファームウェアで実施可能である。上記の方法は、例えばプロセッサ等の装置で実施可能である。プロセッサとは、処理装置一般を指し、例えばコンピュータ、マイクロプロセッサ、集積回路、プログラマブル論理デバイスなどを指す。

プロセッサは、エンドユーザ間での情報通信を行う、コンピュータ、ラップトップ、セルラー電話、タブレット、ポータブル／パーソナル・デジタル・アシスタント（ＰＤＡ）などのデバイス、及びその他の通信デバイスも含む。

ここに説明した様々なプロセスと特徴の実施形態は、異なるいろいろな装置やアプリケーションで実施できる。かかる装置の例には、エンコーダ、デコーダ、ポストプロセッサ、プリプロセッサ、ビデオコーダ、ビデオデコーダ、ビデオコーデック、ウェブサーバ、テレビジョン、セットトップボックス、ルータ、ゲートウェイ、モデム、ラップトップ、パーソナルコンピュータ、タブレット、セルラー電話、ＰＤＡ、その他の通信デバイスが含まれる。言うまでもなく、上記の機器は可動なものであってもよいし、移動体に組み込まれていてもよい。

また、上記の方法は、プロセッサによって実行される命令で実施することができる。かかる命令（及び／又は、一実施形態で生成されるデータ値）は、例えば集積回路、ソフトウェア担体その他の記憶デバイス、例えば、ハードディスク、コンパクトディスク（ＣＤ）、光ディスク（例えば、デジタルバーサタイルディスクやデジタルビデオディスクと呼ばれることが多いＤＶＤなど）、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）に記憶できる。上記の命令は、プロセッサ読み取り可能媒体上に化体されたアプリケーションプログラムであってもよい。命令は、例えば、ハードウェア、ファームウェア、ソフトウェア、又はこれらの組み合わせであってもよい。命令は、例えば、オペレーティングシステム、アプリケーション、又はこれらの組み合わせに見いだすことができる。それゆえ、プロセッサは、プロセスを実行するように構成されたデバイス、及びプロセスを実行する命令を記憶したプロセッサ読み取り可能媒体（記憶デバイスなど）を含むデバイスの両方として特徴付けられる。さらに、プロセッサ読み取り可能媒体は、命令に加えて、又は命令の替わりに、実施形態により生成されたデータ値を記憶することができる。

当業者には言うまでもないが、実施形態は、例えば記憶または送信され得る情報を担うようフォーマットされた種々の信号を生成することもできる。情報には、例えば、方法を実行する命令や、説明した実施形態により生成されるデータが含まれ得る。例えば、信号は、データとして書き込み又は読み出しのシンタックスの規則を担うようにフォーマットされてもよいし、又はデータとしてそのシンタックス規則を用いて生成された実際のシンタックス値を担うようにフォーマットされてもよい。かかる信号は、（例えば、無線周波数のスペクトルを用いた）電磁波やベースバンド信号などとしてフォーマットし得る。フォーマット化には、例えば、データストリームの符号化、符号化したデータストリームによるキャリアの変調が含まれる。信号が担う情報は例えばアナログ情報やデジタル情報であってもよい。知られているように、信号は様々な異なる有線リンクまたは無線リンクで送信できる。信号はプロセッサ読み取り可能媒体に記憶してもよい。

実施形態を説明した。しかし、言うまでもなく様々な修正を行うことができる。例えば、別の実施形態の要素を組み合わせ、補充し、修正し、または削除して、他の実施形態を形成してもよい。また、当業者には言うまでもないが、開示した構成やプロセスを他の構成やプロセスで置き換えてもよく、その結果の実施形態が少なくとも実質的に同じ機能を果たし、少なくとも実質的に同じように、開示した実施形態と実質的に同じ結果を達成する。したがって、本願ではこれらの実施形態及びその他の実施形態を想定している。

Claims

ビデオの第１の部分と前記ビデオの第２の部分とにアクセスするステップと、
前記第１の部分の加重を決定するステップと、
前記第２の部分の加重を決定するステップと、
前記ビデオの画像サマリーにおいて前記第１の部分のいくつのピクチャを使うか特定する第１の数を決定するステップであって、前記第１の数は１以上であり、前記第１の部分の加重に基づいて決定される、ステップと、
前記ビデオの画像サマリーにおいて前記第２の部分のいくつのピクチャを使うか特定する第２の数を決定するステップであって、前記第２の数は１以上であり、前記第２の部分の加重に基づいて決定される、ステップと、を有する方法。
前記第１の数を決定するステップは、さらに、前記画像サマリーの中の総ページ数の値に基づく、請求項１に記載の方法。
前記画像サマリーの中の総ページ数の値はユーザが提供した値である、
請求項２に記載の方法。
前記第１の部分の中の第１のピクチャと前記第１の部分の中の第２のピクチャにアクセスするステップと、
前記第１のピクチャの一以上の特徴に基づき前記第１のピクチャの加重を決定するステップと、
前記第２のピクチャの一以上の特徴に基づき前記第２のピクチャの加重を決定するステップと、
前記第１のピクチャの加重と前記第２のピクチャの加重とに基づいて、前記画像サマリーで用いられる前記第１の部分の前記第１の数のピクチャの一部となる前記第１のピクチャと前記第２のピクチャのうち一以上を選択するステップと、をさらに有する、
請求項１に記載の方法。
前記第１のピクチャと前記第２のピクチャのうち一以上を選択するステップは、加重が小さいピクチャを選択する前に加重が大きいピクチャを選択するステップを有する、
請求項４に記載の方法。
前記第１のピクチャと前記第２のピクチャのうち一以上を選択するステップは、前記第１の部分においてショットごとに一以下のピクチャを選択するステップを有する、
請求項４に記載の方法。
前記第１のピクチャの一以上の特徴は、信号対雑音比、シャープネスレベル、カラー調和レベル又は美的レベルを含む、請求項４に記載の方法。
前記画像サマリーに含まれる前記ビデオの一以上のピクチャを選択するステップと、
前記画像サマリーを提供するステップとをさらに有する、請求項１に記載の方法。
前記画像サマリーを提供するステップは、（ｉ）画像サマリーを提示するステップ、（ｉｉ）前記画像サマリーを記憶するステップ、又は（ｉｉｉ）前記画像サマリーを送信するステップのうち一以上を有する、請求項８に記載の方法。
前記第１の数を決定するステップは、（ｉ）前記第１の部分の加重、及び（ｉｉ）加重されたすべての部分の総加重との割合に基づく、請求項１に記載の方法。
前記第１の数を決定するステップは、（ｉ）前記画像サマリーの中の総ページ数に対するユーザが提供した値と、（ｉｉ）前記第１の部分の加重と加重されたすべての部分の総加重との比率との積に基づく、請求項１０に記載の方法。
前記第１の数を決定するステップは、前記画像サマリーの中の総ページ数に対するユーザが提供した値に基づく、請求項１に記載の方法。
前記第１の部分の加重は、前記第２の部分の加重より大きく、前記第１の数は少なくとも前記第２の数と同じ大きさである、請求項１に記載の方法。
前記第１の部分の加重を決定するステップは、前記ビデオに対応するスクリプトからの入力に基づく、請求項１に記載の方法。
前記第１の部分の加重を決定するステップは、（ｉ）前記ビデオの一以上の主要キャラクタの前記第１の部分における登場率（ｐｒｅｖａｌｅｎｃｅ）、（ｉｉ）前記第１の部分の長さ、（ｉｉｉ）前記第１の部分にあるハイライト数、又は（ｉｖ）前記ビデオにおける前記第１の部分の位置のうち一以上に基づく、請求項１に記載の方法。
前記ビデオの一以上の主要キャラクタの前記第１の部分における登場率は、前記ビデオの主要キャラクタの前記第１の部分における登場回数に基づく、
請求項１５に記載の方法。
主要キャラクタは前記ビデオにわたる登場頻度がより高いことにより示され、
第１の主要キャラクタの前記第１の部分における登場率は、（ｉ）前記第１の主要キャラクタの前記ビデオにわたる登場頻度と、（ｉｉ）前記第１の主要キャラクタの前記第１の部分における登場回数とをかけることにより、少なくとも部分的に決定される、
請求項１６に記載の方法。
前記第１の主要キャラクタの前記ビデオにわたる登場頻度は、前記第１の主要キャラクタの前記ビデオにわたる登場回数をすべてのキャラクタの前記ビデオにわたる登場総数で割ったものに基づく、請求項１７に記載の方法。
ハイライトはハイライトアクション又はハイライトオブジェクトの一以上を含む、
請求項１５に記載の方法。
前記ビデオの部分はシーン、ショット、シーンのグループ、又はショットのグループである、請求項１に記載の方法。
前記第１の部分の加重はユーザ入力に基づく、請求項１に記載の方法。
前記第１の部分の加重を前記ビデオの他の部分の各加重と比較することにより、前記第１の部分を前記画像サマリーに表すか決定するステップをさらに有する、
請求項１に記載の方法。
前記ビデオの画像サマリーを設定するための一以上のパラメータを含む設定ガイドから一以上のパラメータにアクセスするステップと、
前記ビデオの画像サマリーを生成するステップであって、前記画像サマリーは前記設定ガイドからアクセスされた一以上のパラメータに従うステップとをさらに有する、
請求項１に記載の方法。
請求項１乃至２３いずれか一項に記載の方法を実行するように構成された装置。
（ｉ）ビデオの第１の部分と前記ビデオの第２の部分とにアクセスして、（ｉｉ）前記第１の部分の加重を決定し、（ｉｉｉ）前記第２の部分の加重を決定するように構成された加重ユニットと、
（ｉ）前記第１の部分からいくつのピクチャを前記ビデオの画像サマリーに用いるか特定する第１の数であって、前記第１の数は１以上であり、前記第１の部分の加重に基づいて決定される第１の数を決定し、（ｉｉ）前記第２の部分からいくつのピクチャを前記ビデオの画像サマリーに用いるか特定する第２の数であって、前記第２の数は１以上であり、前記第２の部分の加重に基づいて決定される第２の数を決定するように構成されたピクチャ割り当てユニットと、
請求項２４に記載の装置。
ビデオの第１の部分と前記ビデオの第２の部分とにアクセスする手段と、
前記第１の部分の加重を決定する手段と、
前記第２の部分の加重を決定する手段と、
前記ビデオの画像サマリーにおいて前記第１の部分のいくつのピクチャを使うか特定する第１の数を決定する手段であって、前記第１の数は１以上であり、前記第１の部分の加重に基づいて決定される、手段と、
前記ビデオの画像サマリーにおいて前記第２の部分のいくつのピクチャを使うか特定する第２の数を決定する手段であって、前記第２の数は１以上であり、前記第２の部分の加重に基づいて決定される、手段と、を有する、請求項２４に記載の装置。
請求項１乃至２３いずれか一項に記載の方法を集合的に実行するように構成された一以上のプロセッサを有する、請求項２４に記載の装置。
一以上のプロセッサに請求項１乃至２３いずれか一項に記載の方法を集合的に実行させる命令を記憶したプロセッサ読み取り可能媒体。