JP2015149084A

JP2015149084A - 潜在的なショット及びシーンの検出情報を自動的に分類する方法及び装置

Info

Publication number: JP2015149084A
Application number: JP2015062744A
Authority: JP
Inventors: カプアアナンド; Kapoor Anad
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2007-01-31
Filing date: 2015-03-25
Publication date: 2015-08-20
Also published as: US20100007793A1; CN101601302B; WO2008127319A3; JP2010517469A; EP2109992A2; US8891020B2; CN101601302A; JP5766915B2; KR20090115132A; KR101426978B1; WO2008127319A2

Abstract

【課題】潜在的なショット及びシーンの検出情報を自動的に分類する。
【解決手段】
ビデオコンテンツを処理する前にビデオコンテンツから導出された前処理ビデオ情報を分類する装置である。後続する処理の間にエラーを生じる可能性を有するビデオコンテンツにおけるシーン及びショットの少なくとも１つを識別し、識別されたシーン及びショットを、少なくとも前処理ビデオ情報に基づいて、２以上のカテゴリに分類するカテゴライザであって、後続する処理はビデオ符号化を含み、識別は、ビデオコンテンツ及び他のビデオコンテンツのうち少なくとも一方に対して実行された一または複数の先行する前処理ステップから得られた過去の結果からの情報に基づき、及び閾値シーン期間の値よりも短いかまたは長いシーンをさらに分類し、前処理ビデオ情報に関して実行された統計分析からの情報に基づき動的に計算される閾値シーン期間の値に基づく、カテゴライザを有する。
【選択図】図１

Description

本発明は、ビデオ処理全般に関し、より詳細には、潜在的なショット及びシーンの検出情報を自動的に分類する方法及び装置に関する。
本出願は、２００７年１月３１日に出願された米国特許仮出願第６０／８９８６６０号の利益を特許請求するものであり、この米国仮出願の内容はその完全な形で引用により本明細書に盛り込まれる。

この節は、以下に記載され及び／又は特許請求される本発明の様々な態様に関連する技術の様々な態様に読者を導くことが意図される。この説明は、本発明の様々な態様の良好な理解を容易にするために背景となる情報を読者に提供することに役立つものと考えられる。したがって、これらの説明は、この観点から読まれるべきであり、従来技術の認識として読まれるべきではない。

デジタルビデオコンテンツの処理は、後続する処理ステップを更に効率的にするため、１以上の前処理ステップを必要とすることがある。処理は、限定されるものではないが符号化を含む場合がある。前処理は、限定されるものではないが、ショットの検出及び／又はシーンの検出を含む場合がある。

上述された処理は、全ての可能性のあるビデオコンテンツで機能しないことがある。任意のイベントにおいて、ショット又はシーンが欠けているかを判定するため、ビデオコンテンツに対する前処理の結果を調べることは時間がかかり、且つ費用が係るものである。したがって、欠けている高い可能性をもつ候補となるシーンを識別及び分類し、これらの候補となるシーンを処理の開始で調べる必要が存在する。

従来技術のこれらの課題及び問題点並びに他の課題及び問題点は、潜在的なショット及びシーンの検出情報を自動的に分類する方法及び装置に向けられる本発明の原理により対処される。

本発明の態様によれば、ビデオコンテンツを処理する前に、ビデオコンテンツから導出された前処理のビデオ情報（pre-processing video information）を分類する装置が提供される。本装置は、少なくとも前処理ビデオ情報に基づいて、後続する処理の間にエラーを生じる可能性を有するビデオコンテンツにおける少なくとも１つのシーン及びショットを識別するカテゴライザを含む。さらに、カテゴライザは、少なくとも前処理ビデオ情報に基づいて１以上のそれぞれのカテゴリに識別されたシーン及びショットを分類する。

本発明の別の態様によれば、ビデオコンテンツを処理する前にビデオコンテンツから導出された前処理ビデオ情報を分類する方法が提供される。本方法は、少なくとも前処理ビデオ情報に基づいて、後続する処理の間にエラーを生じる可能性を有するビデオコンテンツにおける少なくとも１つのシーン及びショットを識別するステップを含む。さらに、本方法は、少なくとも前処理に基づいて１以上のそれぞれのカテゴリに識別されたシーン及びショットを分類するステップを含む。

本発明のこれらの態様、特徴及び利点、並びに他の態様、特徴及び利点は、添付図面と共に読まれることとなる、例示的な実施の形態の以下の詳細な説明から明らかとなるであろう。

本発明の原理は、以下の例示的な図面に従って良好に理解されるであろう。
本発明の実施の形態に係る装置を示す例示的なハイレベルブロック図である。本発明の実施の形態に係るビデオコンテンツを符号化する例示的な方法のフローチャートである。本発明の実施の形態に係るビデオ系列の例示的な分類を示す図である。

本発明の原理は、潜在的なショット及びシーンの検出情報を自動的に分類する方法及び装置に向けられる。
本実施の形態の記載は、本発明の原理を例示するものである。当業者であれば、明示的に本実施の形態で説明及び図示されていないが、本発明を実施し且つ本発明の精神及び範囲に含まれる様々なアレンジメントを考案することができることを理解されたい。

本実施の形態で引用される全ての例及び条件付き言語は、教育的な目的で、当該技術分野を促進するために本発明者により寄与される本発明の原理及び概念を理解することにおいて読者を支援することが意図され、係る特に引用される例及び条件に限定されることがないものとして解釈されるべきである。

さらに、本発明の特別の例と同様に、本発明の原理、態様及び実施の形態を引用する本実施の形態での全ての説明は、本発明に等価な構造及び機能の両者を包含することが意図される。さらに、係る等価な概念は、現在知られている等価な概念及び将来的に開発される等価な概念、すなわち構造に係らず、同じ機能を実行する開発されたエレメントの両者を含むことが意図される。

したがって、たとえば、本実施の形態で与えられるブロック図は本発明の原理を実施する例示的な回路の概念的なビューを表すことが当業者により理解されるであろう。同様に、任意のフローチャート、フローダイアグラム、状態遷移図、擬似コード等は、コンピュータにより読取り可能な記録媒体で実質的に表され、コンピュータ又はプロセッサが明示的に示されるか否かに係らず、係るコンピュータ又はプロセッサにより実行される様々なプロセスを表すことを理解されたい。

図示される様々なエレメントの機能は、専用ハードウェアと同様に、適切なソフトウェアと野関連するソフトウェアを実行可能なハードウェアの使用を通して提供される場合がある。プロセッサにより提供されたとき、機能は、１つの専用プロセッサにより提供されるか、１つの共有プロセッサにより提供されるか、又はそのうちの幾つかが共有される複数の個々のプロセッサにより提供される場合がある。さらに、用語「プロセッサ」又は「コントローラ」の明示的な使用は、ソフトウェアを実行可能なハードウェアを排他的に言及するように解釈されるべきではなく、限定することなしに、デジタルシグナルプロセッサ（ＤＳＰ）、ソフトウェアを記憶するリードオンリメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）及び不揮発性ストレージを暗黙的に含む場合がある。

コンベンショナル及び／又はカスタムといった他のハードウェアも含まれる場合がある。それらの機能は、プログラムロジックの動作を通して実行されるか、専用ロジックを通して実行されるか、プログラム制御と専用ロジックのインタラクションを通して実行されるか、又は手動的に、特定の技術は、コンテクストから更に詳細に理解されるように実現者により選択可能である。

本発明の請求項では、特定の機能を実行する手段として表現されるエレメントは、ａ）その機能を実行する回路エレメントの組み合わせ、又はｂ）その機能を実行するためにそのソフトウェアを実行する適切な回路と結合される、ファームウェア、マイクロコード等を含む任意の形式でのソフトウェア、を含めた機能を実行する任意のやり方を包含することが意図される。係る請求項により定義される本発明の原理は、様々な引用される手段により提供される機能が結合され、請求項が求めるやり方で結合され纏められる事実にある。したがって、それらの機能を提供することができる任意の手段は本明細書で示されるものに等価であるとみなされる。

本発明の原理の「１実施の形態」又は「実施の形態」に対する明細書における参照は、実施の形態と共に記載される特定の特徴、構造、特徴等が本発明の原理の少なくとも１つの実施の形態に含まれることを意味する。したがって、明細書を通して様々な場所に現れる「１実施の形態では」又は「実施の形態では」の出現は、必ずしも、同じ実施の形態を全て参照するものではない。

さらに、たとえば「Ａ及び／又はＢ」及び「Ａ及びＢの少なくとも１つ」の場合における用語「及び／又は」及び「少なくとも１つ」の使用は、最初に列挙されたオプション（Ａ）のみの選択、次に列挙されたオプション（Ｂ）のみの選択、又は両方のオプション（Ａ及びＢ）の選択、を包含することが意図される。更なる例として、「Ａ，Ｂ及び／又はＣ」及び「Ａ、Ｂ及びＣの少なくとも１つ」の場合、係るフレーズは、第一の列挙されたオプション（Ａ）のみの選択、第二の列挙されたオプション（Ｂ）のみの選択、第三の列挙されたオプション（Ｃ）のみの選択、第一及び第二の列挙されたオプション（Ａ及びＢ）のみの選択、第一及び第三の列挙されたオプション（Ａ及びＣ）のみの選択、第二及び第三の列挙されたオプション（Ｂ及びＣ）のみの選択、又は、全ての３つのオプション（Ａ及びＢ及びＣ）の選択を包含することが意図される。これは、当業者により容易に明らかであるように、列挙された多数のアイテムについて拡張される場合がある。さらに、「シーン／ショット」におけるような本実施の形態における“／”の使用は、本実施の形態で直前に記載されたような「シーン及び／又はショット」を包含することが意図される。

さらに、本発明の原理は、本発明の原理の精神を維持しつつ、標準及び／又は勧告の拡張を含めて、任意のビデオ符号化標準及び／又は勧告を使用して符号化されるビデオに適用される場合があることを理解されたい。たとえば、本発明の原理は、限定されるものではないが、以下の何れかにより使用される場合がある。ＩＳＯ／ＩＥＣ（International Organization for Standardization/International Electrotechnical Commission）ＭＰＥＧ−１（Moving Picture Experts Group-1）標準；ＩＳＯ／ＩＥＣＭＰＥＧ−２標準；ＩＴＵ−Ｔ（International Telecommunication Union, Telecommunication Sector）Ｈ．２６３勧告；ＩＳＯ／ＩＥＣＭＰＥＧ−４Ｐａｒｔ１０ＡＶＣ（Advanced Video Coding）標準／ＩＴＵ−ＴＨ．２６４勧告（以下、「ＭＰＥＧ−４ＡＶＣ標準」）等。

さらに、本発明の原理は、パラレルプロセッサを使用して並列に幾つかのシーンにシーン処理が実行されるアプリケーションに関する１実施の形態で記載されるが、本発明はこのアプリケーションにのみ限定されるものではなく、ビデオの処理を含む他のアプリケーションに適用される場合があることを理解されたい。すなわち、本実施の形態で提供される本発明の原理の教示が与えられると、当業者は、本発明の原理の精神を維持しつつ、本発明の原理が適用される様々なアプリケーションを考案されるであろう。

本発明の原理の１以上の実施の形態は、シーン及び／又はショットを含むか、及び／又は、シーン及び／又はショットに関連することを理解されたい。用語「シーン」及び「ショット」は当業者に知られているが、それにもかかわらず、それぞれの用語が含むことを確認することにおいて読者を支援するために以下の説明が与えられる。

たとえば、シーンは曖昧に使用される傾向があり、一般に理解及び関連付けすることが容易である。さらに、フィルム及びフィルムに関連する用語に関して、用語「シーン」は、（一般にストーリを有するか、及び／又はこれらに関連する論理的な内容を有する）多数のショットを言及するために使用される場合がある。さらに、フィルムに関して、シーンは、（直後に記載されるショットよりも）長い期間を有する傾向がある。シーンに適用される前処理アルゴリズムは係るシーンにおける低速のカメラの切換に鈍感である。

対照的に、ショットは、特に使用される傾向があり、（限定されるものではないがハードカットを含む）カメラの切換を含む傾向がある。前処理アルゴリズムは（たとえばシーンに比較して）ショットに典型的に感度が高い。これは、限定されるものではないが、（たとえばアクション映画におけるような）比較的短い期間を有する傾向があるショット、又は（たとえばドラマにおけるような）比較的長い期間を有する傾向があるショットを含むショットに含まれる幾つかの特性によるものであり、この場合、係る期間は、符号化の適切さに関する限りにおいて、実際に最適ではない。

本発明の１以上の実施の形態は、関連する対応するシーン及びショットが、限定されるものではないが符号化及び／又は圧縮のような後処理に更に適するのを可能にするため、係る特性及び不規則性を分類及び示唆することに向けられる。

図１を参照して、本発明の実施の形態に係る装置を示す例示的なハイレベルブロック図は、参照符号１００により示される。装置１００は、ビデオプリプロセッサ１１０、カテゴライザ１２０及びビデオプロセッサ１３０を含む。以下に本実施の形態で更に詳細に記載されるように、ビデオプリプロセッサ１１０は、ビデオデータを受信及び前処理し、対応する前処理情報を出力する。ビデオデータの係る前処理は、限定されるものではないが、シーンの検出、ショットの検出等を含む。シーン検出は、限定されるものではないが、シーンカット、ディゾルブ、フェードイン、フェードアウト、フラッシュ等の何れかを検出するために使用される。前処理情報は、限定されるものではないが、カットの検出、フェードインの検出、フェードアウトの検出、ディゾルブの検出、シーンの長さの決定等の何れかを含む。

カテゴライザ１２０は、ビデオプリプロセッサ１１０により提供される前処理情報を受け、（たとえば所定のタイプのシーン及び／又はショットである等として全体で誤って分類されたこと及び／又は失われたことによる）欠けている高い可能性を有する任意のシーンを識別し、及び任意に分類して、分類情報を提供する。ビデオプロセッサ１３０は、プリプロセッサ１１０からビデオデータを受け、カテゴライザ１２０から分類情報を受ける。ビデオプロセッサ１３０は、プリプロセッサ１１０からのビデオデータ及びカテゴライザ１２０からの分類情報を使用して処理されたビデオを出力する。処理されたビデオは、たとえばビットストリームである場合がある。さらに、ビットストリームは、１以上のビデオ符号化標準及び／又は勧告に従って符号化される。係るケースでは、ビデオプロセッサ１３０は、エンコーダを含む。

シーン及び／又はショットは、たとえば閾値、履歴データ等に基づいて後続の処理の間に（おそらく）エラーを生じる可能性を有するとして識別されることを理解されたい。履歴データは、たとえば、プリプロセッサ１１０（及び／又は別のプリプロセッサ）へのビデオデータ入力及び／又はプリプロセッサ１１０（及び／又は別のプリプロセッサ）への他の前処理されたビデオデータ入力で実行された１以上の前の前処理ステップから取得される過去の結果からのデータを含む場合があることを理解されたい。

先に述べたように、本発明の原理は、潜在的なショット及びシーンの検出の問題を自動的に分類する方法及び装置に向けられる。

さらに、先に述べたように、前処理ステップにおけるシーンの識別が望まれる多数の可能な例のうちの１つは、個別のプロセッサを使用して並列に幾つかのシーンに処理が実行されるときである。欠けているシーンカットが検出され、分類情報が生成される場合、たとえば１つの長いシーンを２つの短いシーンに分割して、結果として符号化の間に更なる並列化を得ることで、改善された性能を得ることができる。全てのショット／シーンの検査により、良好なシーン検出が得られ、この良好なシーン検出により、高品質の符号化、並びに、符号化及び再符号化時の良好な性能が得られる。本発明の原理は、この識別及び分類を達成する方法及び装置を提供する。

この分類を実現する多数の可能性のある方法のうちの１つは、初期のシーン検出アルゴリズムの結果に基づいて、それらの期間に係るショット／シーンを識別及び分類することである。シーンは、昇順又は降順で配列され、全体のビデオコンテンツ内のシーンの実際の位置も記録される。たとえば閾値よりも短いか又は長いシーンを更に分類する閾値が使用される。このように、他の前処理アルゴリズムのうちの１つにより欠ける可能性がある潜在的な問題のシーンが発見される。閾値は、限定されるものではないが、前処理されているビデオのタイプ、発見されたシーン期間での統計分析（running statistics analysis）の何れかに依存する固定された値である。たとえば閾値がシーン期間に基づく場合、アクション映画について短く設定される。これは、アクション映画は、迅速なシーンのカットを有する傾向があるためである。他のタイプの映画は、長いシーンを有する場合があり、したがって、どのシーンが比較的に長いか又は短いかを分類するために閾値は大きく設定される。

他の前処理シーン／ショットの検出アルゴリズムにより係るシーンがエラーの高い確率を有する場合、閾値を超える過剰に長い（extra-long）ビデオシーンは、個別に分類される。同様に、通常フラッシュする過剰に短い（extra-short）シーンは、後続する処理について潜在的に困難なシーンとしてフラグが設定（flag）される。代替的に、シーンの上位Ｎパーセント及び下位Ｍパーセントは、特別の注意を必要とする場合に個別に分離される。

シーンの長さを使用するシーンの分類は、シーンを分類するたった１つの方法である。閾値パラメータは、統計値を導出するために前処理が実行された後に全体のビデオコンテンツに基づいて、圧縮されていないビデオコンテンツ又は統計値の他のパラメータを使用して導出される。これらのケースの何れかにおいて、それらの結果を使用して分類が実行される。

この分類は、たとえば符号化のようなダウンストリーム処理を改善された品質で更に正確にし、性能において更に効率的にする。

図２を参照して、本発明の実施の形態に係るビデオコンテンツを符号化する例示的な方法は、参照符号２００により示される。

方法２００は、開始ブロック２０５を含み、この開始ブロックは、機能ブロック２１０に制御を移す。機能ブロック２１０は、ビデオコンテンツを取り込み、機能ブロック２１５に制御を移す。機能ブロック２１５は、前処理ビデオコンテンツデータを生成し、判定ブロック２２０に制御を写す。判定ブロック２１５に関して、生成された前処理ビデオコンテンツデータは、限定されるものではないが、色、類似のシーン、ビットレート、サムネイル等に基づいたシーン／ショットの検出、フェード／ディゾルブの検出、ヒストグラム、分類を含む場合がある。

判定ブロック２２０は、ショット／シーンが予め設定された閾値を超えるか否かを判定する。ショット／シーンが予め設定された閾値を超える場合、機能ブロックに制御を移す。さもなければ、機能ブロック２３０に制御を移す。機能ブロック２２０に関して、係る予め設定された閾値は、たとえば期間に対応する。

機能ブロック２２５は、期間の長さに基づいて識別及び分類の少なくとも１つを実行し、機能ブロック２３０に制御を移す。機能ブロック２２５に関して、係る分類は、たとえば、任意に、閾値となる期間の値を使用してシーン／ショットを分類し、任意に、それぞれの期間に基づいてシーン／ショットの上位Ｎパーセント及び下位Ｍパーセントを分類し、任意に、（閾値となる期間の値よりも大きい）上側の閾値の値に基づいて１以上のそれぞれのカテゴリに過剰に長いシーン／ショットを分類し、（閾値となる期間の値よりも小さい）下側の閾値の値に基づいて１以上のそれぞれのカテゴリに過剰に短いシーン／ショットを分類し、１つのフレームのシーンを１以上のそれぞれのカテゴリに分類することを含む。勿論、先に述べたように、本発明は、先行する分類に限定されず、本発明の精神を維持しつつ、本発明に従って他の分類が使用される場合がある。

機能ブロック２３０は、シーン／ショットの検出に基づいて識別及び分類の少なくとも１つを実行し、機能ブロック２３２に制御を移す。機能ブロック２３０に関して、係る分類は、たとえば、以下の何れかを１以上のそれぞれのカテゴリに割り当てることを含む。フェードイン、フェードアウト、ディゾルブ、カット等。

機能ブロック２３２は、後続する処理の間にエラーを生じる可能性に関する閾値及び／又は過去のデータに基づいて識別及び分類の少なくとも１つを実行し、機能ブロック２３５に制御を移す。

機能ブロック２３５は、可能性のある後続する処理のエラーを防止するため、分類されたシーン／ショットを固定する。機能ブロック２４０は、予め指定された基準に基づいて潜在的に問題となるシーン／ショットをフラグ設定し、機能ブロック２４５に制御を移す。機能ブロック２４０に関して、フラグが設定された潜在的な問題のシーン／ショットは、たとえば、予め指定された基準に依存して、機能ブロック２３５により固定されない１以上のシーン／ショット、及び機能ブロック２４０により固定された１以上のシーン／ショットを含む場合がある。たとえば、機能ブロック２３５は１以上の分類されたシーン／ショットを固定する一方で、係るアクションは、処理の間に遭遇する問題を全体的に未だ解決しない場合があり、したがって、後続する処理に係るシーン／ショットを意識させるため、係るシーン／ショットにフラグが設定される。

機能ブロック２４５は、取り込まれたビデオコンテンツにおける少なくとも幾つかのシーン／ショット（たとえば、機能ブロック２４０を通してフラグ設定されたシーン／ショット）から全てのシーン／ショットまでのそれぞれの位置を示し、判定ブロック２５０に制御を移す。判定ブロック２５０は、固定すべき更なるシーン／ショットが存在するか否かを判定する。固定すべき更なるシーン／ショットが存在する場合、機能ブロック２３５に制御を移す。さもなければ、機能ブロック２５５に制御を移す。

機能ブロック２５５は、ビデオコンテンツの処理（たとえば符号化）を開始し、終了ブロック２９９に制御を移す。

分類が達成された後、ビデオコンテンツは、限定されるものではないが、シーンの境界を追加又は削除すること、シーンの遷移のタイプを変更すること、又は多数の他の可能性のあるビデオ作用のうちの１つを変更することを含む１以上の方法を使用して、機能ブロック２３５により変更される。

図３を参照して、本発明の実施の形態に係るビデオ系列の例示的な分類は、参照符号３０により全般的に示される。

分類３００は、デフォルトカテゴリ３０５、過剰に長いカテゴリ３１０、過剰に短いカテゴリ３１５、フェードインカテゴリ３２０、フェードアウトカテゴリ３２５、ディゾルブカテゴリ３３０等を含む。

デフォルトカテゴリ３０５は、たとえば、全てのカットを含む場合がある。

過剰に長いカテゴリ３１０は、たとえば、分類に基づいて過剰に長いシーンの上位１パーセントを含む場合がある。

過剰に短いカテゴリ３１５は、たとえば、分類に基づいて全ての１フレームのシーン及び過剰に短いシーンの下位１パーセントを含む場合がある。

フェードインカテゴリ３２０は、たとえば、プリプロセッサ１１０により発見される全てのフェードインのショット／シーンを含む場合がある。

フェードアウトカテゴリ３２５は、たとえば、プリプロセッサ１１０により発見される全てのフェードアウトのショット／シーンを含む。

ディゾルブカテゴリ３３０は、たとえば、プリプロセッサ１１０により発見される全てのディゾルブのショット／シーンを含む。

たとえば過剰な長いカテゴリ３１０の拡張は、過剰な長いカテゴリ３１０内に属する全てのシーンを示す。ユーザは、カテゴリを選択（たとえばクリック）して、選択されたカテゴリの全てのメンバを見る。

上述された例示的なカテゴリは、単に説明するためのものであって、したがって、本発明は、これらのカテゴリのみに限定されるものではない。すなわち、本実施の形態で提供される本発明の教示が与えられると、当業者は、本発明の精神を維持しつつ、本発明に従って使用される様々なカテゴリを考案することができる。

さらに、図３に関して示される例示的な分類３００は、本発明に従って行われる識別及び分類をユーザが見ることができるグラフィカルユーザインタフェース（ＧＵＩ）３９９を使用して示される。さらに、係るＧＵＩ３９９により、ユーザは、潜在的な問題としてフラグ設定されたシーン及び／又はショットを固定するのと同様に、係る分類を変更することができる。別の実施の形態では、係るシーン及びショットの修復は、自動的に実行される。本発明に係るＧＵＩのこれらの変形例及び他の変形例は、本発明の精神を維持しつつ、当業者により容易に考案される。

以下、本発明の多数の付随する利点／特徴の幾つかに関する説明が与えられ、そのうちの幾つかは、先に説明されている。たとえば、１つの利点／特徴は、ビデオコンテンツを処理する前に、ビデオコンテンツから導出された前処理ビデオ情報を分類する装置である。本装置は、少なくとも前処理のビデオ情報に基づいて、後続する処理の間にエラーを生じる可能性を有するビデオコンテンツにおけるシーン及びショットの少なくとも１つを識別するカテゴライザを含む。さらに、カテゴライザは、少なくとも前処理のビデオ情報に基づいて、識別されたシーン及びショットを１以上のそれぞれのカテゴリに分類する。

別の利点／特徴は、上述されたカテゴライザを有する装置であり、前処理ビデオ情報は、処理の前に、ビデオコンテンツのパラメータ及びビデオコンテンツの統計値の少なくとも１つを含む。

更に別の利点／特徴は、上述されたカテゴライザを有する装置であり、前処理ビデオ情報は、シーン期間、ショット期間、シーン検出、ショット検出、フェード検出、ディゾルブ検出、ヒストグラム、色、他のシーンとの類似性、他のショットとの類似性、ビットレート及びサムネイルの少なくとも１つに対応する情報を含む。

更に別の利点／特徴は、上述されたカテゴライザを有する装置であり、カテゴライザは、閾値となる期間の値を使用して、シーン及びショットの少なくとも１つを識別するか、分類する。

さらに、別の利点／特徴は、上述された閾値となる期間の値を使用するカテゴライザを有する装置であり、閾値となる期間の値は、ビデオコンテンツに関して実行される統計分析からの情報に基づいて動的に計算される。

さらに、別の利点／特徴は、上述された閾値となる期間の値を使用するカテゴライザを有する装置であり、カテゴライザは、過剰に長い及び過剰に短いとしてシーン及びショットの少なくとも１つを識別するか又は分類するため、上側の閾値と下側の閾値の少なくとも１つを使用する。上側の閾値は、閾値となる期間の値よりも大きく、下側の閾値は、閾値となる期間の値よりも小さい。

また、別の利点／特徴は、上述された上側の閾値と下側の閾値の少なくとも１つを使用するカテゴライザを有する装置であり、カテゴライザは、後続する処理について潜在的に困難なシーンとして過剰に短いとして分類されるシーンの何れかを指示する。

さらに、別の利点／特徴は、上述されたカテゴライザを有する装置であり、カテゴライザは、それぞれの期間に基づいてシーン及びショットの少なくとも１つの上位Ｎパーセントと下位Ｍパーセントの少なくとも１つを識別又は分類する。

さらに、別の利点／特徴は、上述されたカテゴライザを有する装置であり、カテゴライザは、閾値及び履歴データの少なくとも１つに基づいて、後続する処理の間にエラーを生じる可能性を有するとしてシーン及びショットの少なくとも１つを識別及び分類する。履歴データは、ビデオデータ及び他のビデオデータの少なくとも１つで実行される１以上の前の前処理ステップから得られるかこの結果のデータを含む。

さらに、別の利点／特徴は、上述されたカテゴライザを有する装置であり、カテゴライザは、後続する処理の間にエラーを防止するために識別されたシーン及びショットを固定する。

また、別の利点／特徴は、上述されたカテゴライザを有する装置であり、カテゴライザは、ビデオコンテンツにおけるシーン及びショットの少なくとも１つの位置を示す。

さらに、別の利点／特徴は、上述されたカテゴライザを有する装置であり、１以上のカテゴリは、フェードイン、フェードアウト、ディゾルブ及びカットの少なくとも１つに対応する。

本発明のこれらの特徴及び利点、並びに他の特徴及び利点は、本実施の形態における教示に基づいて当業者により容易に確認される場合がある。本発明の教示は、ハードウェア、ソフトウェア、ファームウェア、特定用途向けプロセッサ又はこれらの組み合わせの様々な形式で実現されることを理解されたい。

最も好ましくは、本発明の教示は、ハードウェア及びソフトウェアの組み合わせとして実現される。さらに、ソフトウェアは、プログラムストレージユニットで実施されるアプリケーションプログラムとして実現される場合がある。アプリケーションプログラムは、適切なアーキテクチャを有するコンピュータにアップロードされ、該コンピュータにより実行される場合がある。好ましくは、コンピュータは、１以上の中央処理装置（ＣＰＵ）、ランダムアクセスメモリ（ＲＡＭ）、及び入力／出力（Ｉ／Ｏ）インタフェースのようなハードウェアを有するコンピュータプラットフォームで実現される。また、コンピュータプラットフォームは、オペレーティングシステム及びマイクロ命令コードを含む場合がある。本実施の形態で記載される様々な処理及び機能は、ＣＰＵにより実行される、マイクロ命令コードの一部又はアプリケーションプログラムの一部、或いはその組み合わせである場合がある。さらに、様々な他の周辺装置は、更なるデータストレージユニット及びプリンティングユニットのようなコンピュータプラットフォームに接続される。

添付図面に示されるシステムコンポーネント及び方法の幾つかはソフトウェアで実現されることが好ましいため、システムコンポーネント間又はプロセス機能ブロック間の実際の接続は、本発明がプログラムされるやり方に依存して異なる場合があることを理解されたい。本実施の形態での教示が与えられると、当業者であれば、本発明のこれらの実現又はコンフィギュレーション及び類似の実現又はコンフィギュレーションを考案することができる。

例示的な実施の形態が添付図面を参照して記載されたが、本発明はこれら正確な実施の形態に限定されず、様々な変形及び変更が本発明の範囲又は精神から逸脱することなしに当業者により実施されることを理解されたい。全ての係る変形及び変更は、特許請求の範囲で述べたように本発明の範囲に含まれることが意図される。
なお、実施形態について次の付記を記す。
（付記１）ビデオコンテンツを処理する前に前記ビデオコンテンツから導出された前処理のビデオ情報を分類する装置であって、
少なくとも前記前処理ビデオ情報に基づいて、後続する処理の間にエラーを生じる可能性を有する前記ビデオコンテンツにおけるシーン及びショットの少なくとも１つを識別し、少なくとも前記前処理ビデオ情報に基づいて、識別されたシーン及びショットを１以上のカテゴリに分類するカテゴライザを有する、ことを特徴とする装置。
（付記２）前記前処理ビデオ情報は、処理の前に、前記ビデオコンテンツのパラメータ及び前記ビデオコンテンツの統計値の少なくとも１つを含む、
付記１記載の装置。
（付記３）前記前処理ビデオ情報は、シーンの期間、ショットの期間、シーンの検出、ショットの検出、フェードの検出、ディゾルブの検出、ヒストグラム、色、他のシーンとの類似性、他のショットとの類似性、ビットレート及びサムネイルの少なくとも１つに対応する情報を含む、
付記１記載の装置。
（付記４）前記カテゴライザは、閾値となる期間の値を使用して、前記シーン及びショットの少なくとも１つを識別又は分類する、
付記１記載の装置。
（付記５）前記閾値となる期間の値は、前記ビデオコンテンツに関して実行される統計分析からの情報に基づいて動的に計算される、
付記４記載の装置。
（付記６）前記カテゴライザは、上側の閾値及び下側の閾値の少なくとも１つを使用して、前記シーン及び前記ショットの少なくとも１つを識別するか、又は前記シーン及び前記ショットの少なくとも１つを過剰に長い及び過剰に短いとして分類し、
前記上側の閾値は、前記閾値となる期間の値よりも大きく、前記下側の閾値は、前記閾値となる期間の値よりも小さい、
付記４記載の装置。
（付記７）前記カテゴライザは、過剰に短いシーンとして分類されたシーンを、前記後続する処理について潜在的に困難なシーンとしてフラグを設定する、付記６記載の装置。
（付記８）前記カテゴライザは、前記シーン及び前記ショットのそれぞれの期間に基づいて、前記シーン及び前記ショットの少なくとも１つの上位Ｎパーセント及び下位Ｍパーセントの少なくとも１つを識別又は分類する、
付記１記載の装置。
（付記９）前記カテゴライザは、閾値及び履歴データの少なくとも１つに基づいて、前記後続する処理の間にエラーを生じる可能性を有するとして前記シーン及び前記ショットの少なくとも１つを識別及び分類し、
前記履歴データは、前記ビデオデータ及び他のビデオデータの少なくとも１つに実行される１以上の前の前処理ステップから得られる過去の結果のデータを有する、
付記１記載の装置。
（付記１０）前記カテゴライザは、前記後続する処理の間にエラーを防止するため、識別されたシーン及びショットを固定する、
付記１記載の装置。
（付記１１）前記カテゴライザは、前記ビデオコンテンツにおける前記シーン及び前記ショットの少なくとも１つの位置を示す、
付記１記載の装置。
（付記１２）前記１以上のカテゴリは、フェードイン、フェードアウト、ディゾルブ及びカットの少なくとも１つに対応する、
付記１記載の装置。
（付記１３）ビデオコンテンツを処理する前に前記ビデオコンテンツから導出された前処理のビデオ情報を分類する方法であって、
少なくとも前記前処理ビデオ情報に基づいて、後続する処理の間にエラーを生じる可能性を有する前記ビデオコンテンツにおけるシーン及びショットの少なくとも１つを識別し、少なくとも前記前処理ビデオ情報に基づいて、識別されたシーン及びショットを１以上のカテゴリに分類するカテゴライザを有する、ことを特徴とする方法。
（付記１４）前記前処理ビデオ情報は、処理の前に、前記ビデオコンテンツのパラメータ及び前記ビデオコンテンツの統計値の少なくとも１つを含む、
付記１３記載の方法。
（付記１５）前記前処理ビデオ情報は、シーンの期間、ショットの期間、シーンの検出、ショットの検出、フェードの検出、ディゾルブの検出、ヒストグラム、色、他のシーンとの類似性、他のショットとの類似性、ビットレート及びサムネイルの少なくとも１つに対応する情報を含む、
付記１３記載の方法。
（付記１６）閾値となる期間の値が使用され、前記シーン及びショットの少なくとも１つが識別又は分類される、
付記１３記載の方法。
（付記１７）前記閾値となる期間の値は、前記ビデオコンテンツに関して実行される統計分析からの情報に基づいて動的に計算される、
付記１６記載の方法。
（付記１８）前記識別するステップ及び前記分類するステップの少なくとも１つは、上側の閾値及び下側の閾値の少なくとも１つを使用して、前記シーン及び前記ショットの少なくとも１つを識別するか、又は前記シーン及び前記ショットの少なくとも１つを過剰に長い及び過剰に短いとして分類し、
前記上側の閾値は、前記閾値となる期間の値よりも大きく、前記下側の閾値は、前記閾値となる期間の値よりも小さい、
付記１６記載の方法。
（付記１９）前記分類するステップは、過剰に短いとして分類されたシーンを、前記後続する処理について潜在的に困難なシーンとしてフラグを設定する、付記１８記載の方法。
（付記２０）前記識別するステップ及び前記分類するステップの少なくとも１つは、前記シーン及び前記ショットのそれぞれの期間に基づいて、前記シーン及び前記ショットの少なくとも１つの上位Ｎパーセント及び下位Ｍパーセントの少なくとも１つを識別又は分類する、
付記１３記載の方法。
（付記２１）前記識別するステップ及び前記分類するステップの少なくとも１つは、閾値及び履歴データの少なくとも１つに基づいて、前記後続する処理の間にエラーを生じる可能性を有するとして前記シーン及び前記ショットの少なくとも１つを識別及び分類し、
前記履歴データは、前記ビデオデータ及び他のビデオデータの少なくとも１つに実行される１以上の前の前処理ステップから得られる過去の結果のデータを有する、
付記１３記載の方法。
（付記２２）前記後続する処理の間にエラーを防止するため、識別されたシーン及びショットを固定するステップを更に含む、
付記１３記載の方法。
（付記２３）前記ビデオコンテンツにおける前記シーン及び前記ショットの少なくとも１つの位置を示すステップを更に含む、
付記１３記載の方法。
（付記２４）前記１以上のカテゴリは、フェードイン、フェードアウト、ディゾルブ及びカットの少なくとも１つに対応する、
付記１３記載の方法。

Claims

ビデオコンテンツを処理する前に前記ビデオコンテンツから導出された前処理ビデオ情報を分類する装置であって、
後続する処理の間にエラーを生じる可能性を有する前記ビデオコンテンツにおけるシーン及びショットの少なくとも１つを識別し、前記識別されたシーン及びショットを、少なくとも前記前処理ビデオ情報に基づいて、２以上のカテゴリに分類するカテゴライザであって、前記後続する処理はビデオ符号化を含み、前記識別は、前記ビデオコンテンツ及び他のビデオコンテンツのうち少なくとも一方に対して実行された一または複数の先行する前処理ステップから得られた過去の結果からの情報に基づき、及び閾値シーン期間の値よりも短いかまたは長いシーンをさらに分類し、前記前処理ビデオ情報に関して実行された統計分析からの情報に基づき動的に計算される閾値シーン期間の値に基づく、カテゴライザ
を有することを特徴とする装置。
前記前処理ビデオ情報は、処理の前に、前記ビデオコンテンツのパラメータ及び前記ビデオコンテンツの統計値の少なくとも１つを含む、
請求項１記載の装置。
前記カテゴライザは、あるシーン期間の値をある閾値と比較し、前記シーンを識別し分類する、請求項１記載の装置。
前記カテゴライザは、上側の閾値及び下側の閾値の少なくとも１つを使用して、前記シーン及び前記ショットの少なくとも１つを、過剰に長い及び過剰に短いとして識別又は分類し、
前記上側の閾値は、前記閾値となるシーン期間の値よりも大きく、前記下側の閾値は、前記閾値となるシーン期間の値よりも小さい、
請求項３記載の装置。
前記カテゴライザは、過剰に短いシーンとして分類されたシーンを、前記後続する処理について潜在的に困難なシーンとしてフラグを設定する、
請求項４記載の装置。
前記カテゴライザは、前記シーン及び前記ショットのそれぞれの期間に基づいて、前記シーン及び前記ショットの少なくとも１つの上位Ｎパーセント及び下位Ｍパーセントの少なくとも１つを識別して分類する、
請求項１記載の装置。
前記１以上のカテゴリは、フェードイン、フェードアウト、ディゾルブ及びカットの少なくとも１つに対応する、請求項１記載の装置。
ビデオコンテンツを処理する前に前記ビデオコンテンツから導出された前処理ビデオ情報を分類する方法であって、
後続する処理の間にエラーを生じる可能性を有する前記ビデオコンテンツにおけるシーン及びショットのうち少なくとも１つを識別するステップであって、前記後続する処理はビデオ符号化を含み、前記識別は、前記ビデオコンテンツ及び他のビデオコンテンツのうち少なくとも一方に対して実行された一または複数の先行する前処理ステップから得られた過去の結果からの情報に基づき、及び閾値シーン期間の値よりも短いかまたは長いシーンをさらに分類し、前記前処理ビデオ情報に関して実行された統計分析からの情報に基づき動的に計算される閾値シーン期間の値に基づく、ステップと、
前記識別されたシーン及びショットを、少なくとも前記前処理ビデオ情報に基づいて、２以上のカテゴリに分類するステップと
を有することを特徴とする方法。
前記前処理ビデオ情報は、処理の前に、前記ビデオコンテンツのパラメータ及び前記ビデオコンテンツの統計値の少なくとも１つを含む、
請求項８記載の方法。
前記シーンを識別又は分類するために閾値の期間の値が使用される、
請求項８記載の方法。
前記識別するステップ及び前記分類するステップの少なくとも１つは、上側の閾値及び下側の閾値の少なくとも１つを使用して、前記シーン及び前記ショットの少なくとも１つを、過剰に長い及び過剰に短いとして識別又は分類し、
前記上側の閾値は、前記閾値となるシーン期間の値よりも大きく、前記下側の閾値は、前記閾値となるシーン期間の値よりも小さい、
請求項１０記載の方法。
前記分類するステップは、過剰に短いとして分類されたシーンを、前記後続する処理について潜在的に困難なシーンとしてフラグを設定する、
請求項１１記載の方法。
前記識別するステップ及び前記分類するステップの少なくとも１つは、前記シーン及び前記ショットのそれぞれの期間に基づいて、前記シーン及び前記ショットの少なくとも１つの上位Ｎパーセント及び下位Ｍパーセントの少なくとも１つを識別又は分類する、請求項８記載の方法。
前記１以上のカテゴリは、フェードイン、フェードアウト、ディゾルブ及びカットの少なくとも１つに対応する、請求項８記載の方法。