JP2015532043A

JP2015532043A - ネットワークにおいて少なくとも１つの映像サービスプロバイダのユーザに対する映像コンテンツを自動的に要約するためのプロセス

Info

Publication number: JP2015532043A
Application number: JP2015527874A
Authority: JP
Inventors: アッターガルツ，アブデルカデル; マリリー，エマニュエル
Original assignee: アルカテル−ルーセント
Priority date: 2012-08-24
Filing date: 2013-08-19
Publication date: 2015-11-05
Also published as: KR20150046221A; EP2701078A1; US20150189402A1; WO2014029714A1; CN104756105A

Abstract

ネットワークにおいて、少なくとも１つの映像サービスプロバイダ１のユーザに対する映像コンテンツＢを自動的に要約するためのプロセスであって、そのような映像サービスプロバイダ１のユーザによって生成された少なくとも２つの映像マッシュアップＡに関する情報を監視するステップであって、前記マッシュアップは、前記映像コンテンツの少なくとも１つのショットＣ、Ｄ、Ｅ、Ｆを含む、監視するステップと、前記情報を分析して、前記映像コンテンツの最もポピュラーなショットＣを識別するステップと、前記識別されたショットの少なくとも１つを備えた映像要約Ｓ１、Ｓ２を編集するステップと、を備えた、プロセス。

Description

本発明は、ネットワークにおいて、少なくとも１つの映像サービスプロバイダのユーザに対する映像コンテンツを自動的に要約するためのプロセス、そのようなプロセスを実装するための手段を備えたアプリケーションおよびアーキテクチャに関する。

映像コンテンツの映像要約は、前記映像コンテンツの一部、すなわち、前記映像コンテンツの縮約版を備えた、映像のシーケンスの形式とすることができる。映像要約はまた、映像コンテンツの選択された画像を備えたハイパメディア文書の形式とすることができ、ユーザは、前記画像と対話して、前記映像コンテンツの内部にアクセスする。

自動的な映像の要約化の分野における多くの研究が、特に、フランスの研究センターＩＮＲＩＡおよびＥＵＲＥＣＯＭ、もしくはアメリカの大学ＭＩＴおよびカーネギーメロンなどの学術研究所によって、またはさらに、マイクロソフト（Ｒ）、ヒューレットパッカード（Ｒ）、ＩＢＭ（Ｒ）、もしくはモトローラ（Ｒ）などの企業によって、なされてきた。

実際に、映像の要約化は、例えば、映像会議、映像メール、または映像ニュースなどを、保管するプロセスおよび他のより複雑な機能の達成を実装することを特に可能にするので、幾つかの応用に対する多くの関心がひかれている。

例えば、マイクロソフト（Ｒ）の研究所は、ｈｔｔｐ：／／ｒｅｓｅａｒｃｈ．ｍｉｃｒｏｓｏｆｔ．ｃｏｍ／ａｐｐｓ／ｐｕｂｓ／ｄｅｆａｕｌｔ．ａｓｐｘ？ｉｄ＝１０１１６７のアドレスで入手可能な「ＳｏｃｃｅｒＶｉｄｅｏＳｕｍｍａｒｉｚａｔｉｏｎＵｓｉｎｇＥｎｈａｎｃｅｄＬｏｇｏＤｅｔｅｃｔｉｏｎ」（Ｍ．ＥＬＤｅｅｂ、Ｂ．ＡｂｏｕＺａｉｄ、Ｈ．Ｚａｗｂａａ、Ｍ．Ｚａｈａａｒ、ａｎｄＭ．Ｅｌ−Ｓａｂａｎ、２００９）の記事などの映像要約についての主要な研究に関する幾つかの論文を公開してきた。この記事は、サッカーの試合の映像を要約するための方法に関し、そこでは、アルゴリズムが、関心のあるイベントを描画するための再生ショットを検出する。一般に、マイクロソフト（Ｒ）の研究は、低レベルの映像アナライザおよびルールエンジンに基づいており、かつパーソナライゼーションされた映像要約をユーザが編集することが可能ではなく、定着していないだけでなくまた、特定のセマンティックの分野のみ（サッカーなど）への専用アルゴリズムを使用する。

三菱（Ｒ）ソサエティの研究所は、特に、ｈｔｔｐ：／／ｗｗｗ．ｍｅｒｌ．ｃｏｍ／ｐｒｏｊｅｃｔｓ／ＶｉｄｅｏＳｕｍｍａｒｉｚａｔｉｏｎで入手可能な記事、特に「ＡＵｎｉｆｉｅｄＦｒａｍｅｗｏｒｋｆｏｒＶｉｄｅｏＳｕｍｍａｒｉｚａｔｉｏｎ、ＢｒｏｗｓｉｎｇａｎｄＲｅｔｒｉｅｖａｌ」（Ｙ．Ｒｕｉ、Ｚ．Ｘｉｏｎｇ、Ｒ．Ｒａｄｈａｋｒｉｓｈｎａｎ、Ａ．Ｄｉｖａｋａｒａｎ、Ｔ．Ｓ．Ｈｕａｎｇ、ＢｅｃｋｍａｎＩｎｓｔｉｔｕｔｅｆｏｒＡｄｖａｎｃｅｄＳｃｉｅｎｃｅａｎｄｔｅｃｈｎｏｌｏｇｙ、ＵｎｉｖｅｒｓｉｔｙｏｆＩｌｌｉｎｏｉｓａｎｄＭｉｔｓｕｂｉｓｈｉＥｌｅｃｔｒｉｃＲｅｓｅａｒｃｈＬａｂｓ）における技術レポートで説明されるような、パーソナル映像レコーダ（ＰＶＲ）に対する映像の要約化についての研究を提案してきた。これらの研究は、自動音声視覚分析および映像スキミングの手法に基づいているが、映像コンテンツの主要となる重要なシーケンスを抽出することを可能にしない。

文献「Ｖｉｄｅｏｓｕｍｍａｒｉｓａｔｉｏｎ：ＡｃｏｎｃｅｐｔｕａｌＦｒａｍｅｗｏｒｋａｎｄＳｕｒｖｅｙｏｆｔｈｅＳｔａｔｅｏｆｔｈｅＡｒｔ」（Ａ．Ｇ．ＭｏｎｅｙａｎｄＨ．Ａｇｉｕｓ、ＪｏｕｒｎａｌｏｆＶｉｓｕａｌＣｏｍｍｕｎｉｃａｔｉｏｎａｎｄＩｍａｇｅＲｅｐｒｅｓｅｎｔａｔｉｏｎ、第１９巻、第２号、１２１−１４３頁、２００８）および「ＡｄｖａｎｃｅｓｉｎＶｉｄｅｏＳｕｍｍａｒｉｚａｔｉｏｎａｎｄＳｋｉｍｍｉｎｇ」（Ｒ．Ｍ．Ｊｉａｎｇ、Ａ．Ｈ．Ｓａｄｋａ、Ｄ．Ｃｒｏｏｋｅｓ、「ＲｅｃｅｎｔＡｄｖａｎｃｅｓｉｎＭｕｌｔｉｍｅｄｉａＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎｓ」、Ｂｅｒｌｉｎ／Ｈｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ、２００９）はそれぞれ、映像の要約化に対する異なる知られている技法の概要、ならびに映像の要約化の静的および動的な手法に関する説明を提供する。

要約すると、映像の要約化のための知られている方法を、３つの主要なグループ、すなわち、音声ストリーム分析に基づく方法、映像ストリーム分析に基づく方法、および前記分析の両方に基づくハイブリッド方法、に分割することができる。そのような方法は、従来から、専用アルゴリズムによる音声からのメタデータ抽出、および／または映像分析に基づいている。

欠点に関して述べると、そのような方法は、音声および映像分析の間のセマンティックギャップ、ならびにそれらの分析アルゴリズムの制約に対処しなければならない。音声ベースの方法は、時に、可聴スピーチが映像のテーマにリンクされるので十分でない。さらに、映像ベースの方法は、その上、映像のコンテキストが、高いセマンティックギャップを引き起こす高レベルのセマンティックを有するとき、前記コンテキストを識別することの困難を経験する。また、ハイブリッド方法は、最終的な要約をレンダリングすることでの困難に直面し、かつ映像のテーマに大きく依存しているままである。

特に、映像の要約化は、映像分析およびセグメンテーションに基づいている。そのような方法は、特に、以下の文献：「ＳｕｒｖｅｉｌｌａｎｃｅＶｉｄｅｏＳｕｍｍａｒｉｓａｔｉｏｎＢａｓｅｄｏｎＭｏｖｉｎｇＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎａｎｄＴｒａｊｅｃｔｏｒｙＥｘｔｒａｃｔｉｏｎ」（Ｚ．Ｊｉ、Ｙ．Ｓｕ、Ｒ．Ｑｉａｎ、Ｊ．Ｍａ、２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ、２０１０）、「ＡｎＩｍｐｒｏｖｅｄＳｕｂ−ＯｐｔｉｍａｌＶｉｄｅｏＳｕｍｍａｒｉｚａｔｉｏｎＡｌｇｏｒｉｔｈｍ」（Ｌ．Ｃｏｅｌｈｏ、Ｌ．Ａ．ＤａＳｉｌｖａＣｒｕｚ、Ｌ．Ｆｅｒｒｅｉｒａ、Ｐ．Ａ．Ａｓｓｕｎｃａｏ、５２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍＥＬＭＡＲ−２０１０）、「ＲａｐｉｄＶｉｄｅｏＳｕｍｍａｒｉｓａｔｉｏｎｏｎＣｏｍｐｒｅｓｓｅｄＶｉｄｅｏ」（Ｊ．Ａｌｍｅｉｄａ、Ｒ．Ｓ．Ｔｏｒｒｅｓ、Ｎ．Ｊ．Ｌｅｉｔｅ、ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＭｕｌｔｉｍｅｄｉａ、２０１０）、「Ｕｓｅｒ−ＳｐｅｃｉｆｉｃＶｉｄｅｏＳｕｍｍａｒｉｓａｔｉｏｎ」（Ｘ．Ｗａｎｇ、Ｊ．Ｃｈｅｎ、Ｃ．Ｚｈｕ、ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｌｔｉｍｅｄｉａａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、２０１１）、「ＡＫｅｙｗｏｒｄＢａｓｅｄＶｉｄｅｏＳｕｍｍａｒｉｓａｔｉｏｎＬｅａｒｎｉｎｇＰｌａｔｆｏｒｍｗｉｔｈＭｕｌｔｉｍｏｄａｌＳｕｒｒｏｇａｔｅｓ」（Ｗ−Ｈ．Ｃｈａｎｇ、Ｊ−Ｃ．Ｙａｎｇ、Ｙ−ＣＷｕ、１１ｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｄｖａｎｃｅｄＬｅａｒｎｉｎｇＴｅｃｈｎｏｌｏｇｉｅｓ、２０１１）、および「ＶｉｓｕａｌＳａｌｉｅｎｃｙＢａｓｅｄＡｅｒｉａｌＶｉｄｅｏＳｕｍｍａｒｉｚａｔｉｏｎｂｙＯｎｌｉｎｅＳｃｅｎｅＣｌａｓｓｉｆｉｃａｔｉｏｎ」（Ｊ．Ｗａｎｇ、Ｙ．Ｗａｎｇ、Ｚ．Ｚｈａｎｇ、６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｍａｇｅａｎｄＧｒａｐｈｉｃｓ、２０１１）においてさらに詳細に説明される。

しかしながら、これらの解決策は、要求される処理が大容量、映像／音声アナライザの制約、およびセマンティック／オントロジの記述および解釈を理由に、非常に多数の映像コンテンツを要約するのに適切でない。さらに、これらの解決策は、インターネットユーザの間で現在ポピュラーであるプロバイダなどの、異種の映像サービスプロバイダ、および種々の映像サービスプロバイダとインタラクトせず、それらは、ユーザのフィードバックに基づいておらず、かつそれらは、動的な映像要約を提案することができない。その上、それらは、映像分析、セグメンテーション、および／または特定のメタデータオントロジ／セマンティックを使用するので、それらの応答時間が非常に長くなり、かつ様々な使用されるセマンティックの記述の間で明確な変換が存在しない。

Ｍ．ＥＬＤｅｅｂ、Ｂ．ＡｂｏｕＺａｉｄ、Ｈ．Ｚａｗｂａａ、Ｍ．Ｚａｈａａｒ、ａｎｄＭ．Ｅｌ−Ｓａｂａｎ、「ＳｏｃｃｅｒＶｉｄｅｏＳｕｍｍａｒｉｚａｔｉｏｎＵｓｉｎｇＥｎｈａｎｃｅｄＬｏｇｏＤｅｔｅｃｔｉｏｎ」（２００９）、Ｍｉｃｒｏｓｏｆｔ（Ｒ）、インターネット（ｈｔｔｐ：／／ｒｅｓｅａｒｃｈ．ｍｉｃｒｏｓｏｆｔ．ｃｏｍ／ａｐｐｓ／ｐｕｂｓ／ｄｅｆａｕｌｔ．ａｓｐｘ？ｉｄ＝１０１１６７）Ｙ．Ｒｕｉ、Ｚ．Ｘｉｏｎｇ、Ｒ．Ｒａｄｈａｋｒｉｓｈｎａｎ、Ａ．Ｄｉｖａｋａｒａｎ、Ｔ．Ｓ．Ｈｕａｎｇ、「ＡＵｎｉｆｉｅｄＦｒａｍｅｗｏｒｋｆｏｒＶｉｄｅｏＳｕｍｍａｒｉｚａｔｉｏｎ、ＢｒｏｗｓｉｎｇａｎｄＲｅｔｒｉｅｖａｌ」、ＢｅｃｋｍａｎＩｎｓｔｉｔｕｔｅｆｏｒＡｄｖａｎｃｅｄＳｃｉｅｎｃｅａｎｄｔｅｃｈｎｏｌｏｇｙ、ＵｎｉｖｅｒｓｉｔｙｏｆＩｌｌｉｎｏｉｓａｎｄＭｉｔｓｕｂｉｓｈｉＥｌｅｃｔｒｉｃＲｅｓｅａｒｃｈＬａｂｓ、インターネット（ｈｔｔｐ：／／ｗｗｗ．ｍｅｒｌ．ｃｏｍ／ｐｒｏｊｅｃｔｓ／ＶｉｄｅｏＳｕｍｍａｒｉｚａｔｉｏｎ）Ａ．Ｇ．ＭｏｎｅｙａｎｄＨ．Ａｇｉｕｓ、「Ｖｉｄｅｏｓｕｍｍａｒｉｓａｔｉｏｎ：ＡｃｏｎｃｅｐｔｕａｌＦｒａｍｅｗｏｒｋａｎｄＳｕｒｖｅｙｏｆｔｈｅＳｔａｔｅｏｆｔｈｅＡｒｔ」、ＪｏｕｒｎａｌｏｆＶｉｓｕａｌＣｏｍｍｕｎｉｃａｔｉｏｎａｎｄＩｍａｇｅＲｅｐｒｅｓｅｎｔａｔｉｏｎ（２００８）、第１９巻、第２号、１２１−１４３頁Ｒ．Ｍ．Ｊｉａｎｇ、Ａ．Ｈ．Ｓａｄｋａ、Ｄ．Ｃｒｏｏｋｅｓ、「ＡｄｖａｎｃｅｓｉｎＶｉｄｅｏＳｕｍｍａｒｉｚａｔｉｏｎａｎｄＳｋｉｍｍｉｎｇ」、「ＲｅｃｅｎｔＡｄｖａｎｃｅｓｉｎＭｕｌｔｉｍｅｄｉａＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎｓ」、Ｂｅｒｌｉｎ／Ｈｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ（２００９）Ｚ．Ｊｉ、Ｙ．Ｓｕ、Ｒ．Ｑｉａｎ、Ｊ．Ｍａ、「ＳｕｒｖｅｉｌｌａｎｃｅＶｉｄｅｏＳｕｍｍａｒｉｓａｔｉｏｎＢａｓｅｄｏｎＭｏｖｉｎｇＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎａｎｄＴｒａｊｅｃｔｏｒｙＥｘｔｒａｃｔｉｏｎ」、２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ（２０１０）Ｌ．Ｃｏｅｌｈｏ、Ｌ．Ａ．ＤａＳｉｌｖａＣｒｕｚ、Ｌ．Ｆｅｒｒｅｉｒａ、Ｐ．Ａ．Ａｓｓｕｎｃａｏ、「ＡｎＩｍｐｒｏｖｅｄＳｕｂ−ＯｐｔｉｍａｌＶｉｄｅｏＳｕｍｍａｒｉｚａｔｉｏｎＡｌｇｏｒｉｔｈｍ」、５２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍＥＬＭＡＲ−２０１０Ｊ．Ａｌｍｅｉｄａ、Ｒ．Ｓ．Ｔｏｒｒｅｓ、Ｎ．Ｊ．Ｌｅｉｔｅ、「ＲａｐｉｄＶｉｄｅｏＳｕｍｍａｒｉｓａｔｉｏｎｏｎＣｏｍｐｒｅｓｓｅｄＶｉｄｅｏ」、ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＭｕｌｔｉｍｅｄｉａ（２０１０）Ｘ．Ｗａｎｇ、Ｊ．Ｃｈｅｎ、Ｃ．Ｚｈｕ、「Ｕｓｅｒ−ＳｐｅｃｉｆｉｃＶｉｄｅｏＳｕｍｍａｒｉｓａｔｉｏｎ」、ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｌｔｉｍｅｄｉａａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（２０１１）Ｗ−Ｈ．Ｃｈａｎｇ、Ｊ−Ｃ．Ｙａｎｇ、Ｙ−ＣＷｕ、「ＡＫｅｙｗｏｒｄＢａｓｅｄＶｉｄｅｏＳｕｍｍａｒｉｓａｔｉｏｎＬｅａｒｎｉｎｇＰｌａｔｆｏｒｍｗｉｔｈＭｕｌｔｉｍｏｄａｌＳｕｒｒｏｇａｔｅｓ」、１１ｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｄｖａｎｃｅｄＬｅａｒｎｉｎｇＴｅｃｈｎｏｌｏｇｉｅｓ（２０１１）Ｊ．Ｗａｎｇ、Ｙ．Ｗａｎｇ、Ｚ．Ｚｈａｎｇ、「ＶｉｓｕａｌＳａｌｉｅｎｃｙＢａｓｅｄＡｅｒｉａｌＶｉｄｅｏＳｕｍｍａｒｉｚａｔｉｏｎｂｙＯｎｌｉｎｅＳｃｅｎｅＣｌａｓｓｉｆｉｃａｔｉｏｎ」、６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｍａｇｅａｎｄＧｒａｐｈｉｃｓ（２０１１）

本発明は、映像コンテンツを自動的に要約するためのプロセスを提案することによって、従来技術を改善することを目的とし、前記プロセスは、特に、ネットワークの異種映像サービスプロバイダから生じる大容量の映像データを要約して、そのような映像サービスプロバイダのユーザに、動的に更新され、かつ豊富な映像要約を提供するのと同時に、従来の要約化の方法が直面していた欠点を限定するのに効率的である。

その目的のために、第１の態様によれば、本発明は、ネットワークにおいて少なくとも１つの映像サービスプロバイダのユーザに対する映像コンテンツを自動的に要約するためのプロセスに関し、前記プロセスは、
そのような映像サービスプロバイダのユーザによって生成された少なくとも２つの映像マッシュアップに関する情報を監視するステップであって、前記マッシュアップは、前記映像コンテンツの少なくとも１つのショットを含む、監視するステップと、
前記情報を分析して、前記映像コンテンツの最もポピュラーなショットを識別するステップと、
前記識別されたショットの少なくとも１つを備えた映像要約を編集するステップと
を備える。

第２の態様によれば、本発明は、ネットワークにおいて映像サービスプロバイダからの映像コンテンツを自動的に要約するためのアプリケーションに関し、前記アプリケーションは、
そのような映像サービスプロバイダのユーザによって生成された少なくとも２つの映像マッシュアップに関する情報を監視するための少なくとも１つのモジュールであって、前記マッシュアップは、前記映像コンテンツの少なくとも１つのショットを含み、前記モジュールは、前記情報を分析して、前記映像コンテンツの最もポピュラーなショットを識別するための手段を備える、監視するための少なくとも１つのモジュールと、
前記識別されたショットの少なくとも１つを備えた映像要約を編集するための、少なくとも１つのモジュールと
を備える。

第３の態様によれば、本発明は、少なくとも１つの映像サービスプロバイダと、ネットワークのユーザが、前記サービスプロバイダの少なくとも１つの映像コンテンツからの映像マッシュアップを生成することを可能にするためのマニュアル映像構成アプリケーションと、を備えた、前記ネットワークに対するアーキテクチャに関し、前記アーキテクチャはさらに、ユーザに対する映像コンテンツを自動的に要約するためのアプリケーションを備え、前記アプリケーションは、
少なくとも２つの映像マッシュアップに関する情報を監視するための少なくとも１つのモジュールであって、前記マッシュアップは、前記映像コンテンツの少なくとも１つのショットを含み、前記モジュールは、前記情報を分析して、前記映像コンテンツの最もポピュラーなショットを識別するための手段を備える、監視するための少なくとも１つのモジュールと、
前記識別されたショットの少なくとも１つを備えた映像要約を編集するための、少なくとも１つのモジュールと
を備える。

本発明の他の態様および利点は、添付図面を参照してなされる以下の説明において明らかになるであろう。

少なくとも１つの映像サービスプロバイダと、本発明によるプロセスを実装するための手段を備えたアプリケーションなどの、マニュアル映像構成アプリケーションと、を備えたネットワークに対するアーキテクチャを概略的に示す図である。本発明によるプロセスのステップの一部の概略的に示す図である。マニュアル映像構成アプリケーション、および要約化アプリケーションのみを有する図１のアーキテクチャを、モジュールを明確にして概略的に示す図である。

これらの図面と関連して、ネットワークにおいて少なくとも１つの映像サービスプロバイダ１のユーザの映像コンテンツを自動的に要約するためのプロセスと、そのようなプロセスを実装するための手段を備えたアプリケーション２と、少なくとも１つの映像サービスプロバイダ１、マニュアル映像構成アプリケーション３、およびそのような要約化アプリケーション２を備えた、ネットワークに対するアーキテクチャとが以下、説明される。

図１に表されるように、映像サービスプロバイダ１は、Ｙｏｕｔｕｂｅ（Ｒ）、Ｔｉｖｉｚｉｏ（Ｒ）、Ｋａｌｔｕｒａ（Ｒ）、またはＦｌｉｃｋｒ（Ｒ）などの、映像共有サービスプロバイダとすることができる。それらはまた、Ｆａｃｅｂｏｏｋ（Ｒ）、Ｇｏｏｇｌｅ（Ｒ）、またはＭｙＳｐａｃｅ（Ｒ）などの、ソーシャルネットワークサービスプロバイダとすることができる。現在、何百もの映像、音声、および画像コンテンツが、ユーザによって、特に、スマートフォンまたはフォトカメラによって作成され、かつそのようなサービスプロバイダ１上で公開されている。

マニュアル映像構成アプリケーション２は、クラウドベースのウェブ２．０アプリケーションとすることができ、かつネットワークのユーザが、映像マッシュアップＡ、すなわち映像セグメントもしくはクリップ、および音声セグメントの構成物を、アーキテクチャの映像サービスプロバイダ１の少なくとも１つの映像コンテンツＢから生成することを可能にする。そのために、マニュアル映像構成アプリケーション３は、映像サービスプロバイダ１と対話して、前記アプリケーションのユーザが、映像マッシュアップＡを生成するのに使用することを望む映像コンテンツＢを取得するための、少なくとも１つの専用アプリケーションプログラミングインタフェース（ＡＰＩ）を備える。特に、ウェブベースのマニュアル映像構成アプリケーション３で、アーキテクチャのユーザは特に、前記アプリケーションの他のユーザと共同して、映像マッシュアップＡを生成することができる。

一般的に言うと、映像コンテンツＢの映像要約、または幾つかの映像コンテンツＢの映像マッシュアップＡを生成することを望むユーザは、前記映像コンテンツを参照、コメント、および／または分割して、最も関連のあるショットを選択しなければならない。とはいえ、ショットの選択は、１つのユーザから別のユーザへ大きく変わるので、種々の映像要約およびマッシュアップＡが一意の映像コンテンツＢから生成されうる。

したがって、ネットワークにおいて、少なくとも１つの映像サービスプロバイダ１のユーザに対する映像コンテンツＢの効率的な要約化を提供するために、プロセスは、そのような映像サービスプロバイダ１のユーザによって生成され、かつ前記映像コンテンツの少なくとも１つのショットを含む、少なくとも２つの映像マッシュアップＡに関する情報を監視するステップを備える。

そのために、アーキテクチャは、ネットワークにおいて、映像サービスプロバイダ１からの映像コンテンツＢを自動的に要約するためのアプリケーション２を備え、前記アプリケーションは、前記映像コンテンツの少なくとも１つのショットを含む、少なくとも２つの映像マッシュアップＡに関するそのような情報を監視するための、少なくとも１つのモジュールを備える。

特に、プロセスは、映像マッシュアップＡに関する情報が、前記映像マッシュアップの記述子から監視されることを規定することができ、前記記述子は、データベースに格納される。映像ファイル、すなわち生の映像コンテンツまたは映像マッシュアップの記述子は、．ｘｍｌファイルなどの特定のフォーマットを有するファイルであり、かつ元の映像コンテンツのＵＲＬアドレス（ユニフォームリソースロケータに対する）、前記映像ファイルの開始および終了、フレームパーセコンド（ＦＰＳ）レート、または前記ファイルの存続時間などの、前記映像ファイルに関する技術情報を含む。

そのために、マニュアル映像構成アプリケーション３は、生成された映像マッシュアップＡの記述子を前記アプリケーションのユーザが格納する、そのようなデータベース４を備え、それによって、前記映像マッシュアップまたは元の映像コンテンツＢにアクセスすることを望むユーザが、単に記述子を抽出し、よって前記映像マッシュアップまたはコンテンツを、対応する映像サービスプロバイダ１からダウンロードする必要がないことになる。

図３と関連して、アプリケーション２は、マニュアル映像構成アプリケーション３と対話して、前記アプリケーションを構成するもののデータベース４から、関連する映像マッシュアップＡの記述子を抽出するための手段を備え、それによって、要約化アプリケーション２の監視のための少なくとも１つのモジュールが、前記記述子から前記マッシュアップに関する情報を監視するようになる。

したがって、プロセスは、監視された情報を分析して、映像コンテンツＢの最もポピュラーなショットを識別するステップを備える。そのために、要約化アプリケーション２の監視のための少なくとも１つのモジュールは、監視された情報を分析して、最もポピュラーなショットを識別するための手段を備える。

特に、監視された情報は、映像マッシュアップＡにおいて現れる映像コンテンツＢのショットを備え、それによって、マッシュアップＡ上に最も現れるショットを、最もポピュラーなものとして識別することができる。

そのために、要約化アプリケーション２は、映像コンテンツＢの少なくとも１つのショット、特に前記映像マッシュアップにおいて現れる前記映像コンテンツのショットを備えた、映像マッシュアップＡの構成物を監視するためのモジュール５を備え、前記モジュールは、前記構成物を分析して、映像コンテンツＢのショットに関する統計データを抽出し、よって前記データから、映像マッシュアップＡ上で最も現れる前記映像コンテンツのショットを、最もポピュラーなものとして識別するための手段を備える。特に、統計データは、マニュアル映像構成アプリケーション３の特定の手段によって算出され、かつ構成アプリケーションのデータベース４に格納され、構成物を監視するためのモジュール５は、前記データベースと対話して、監視されたマッシュアップＡにおいて発生したショットに関する統計データを抽出する。

統計データは特に、映像コンテンツＢの各ショットに対する発生のスコアを備え、前記スコアは、政治、スポーツ、またはビジネスなどの、様々なコンテキストにおいて算出される。それらは、番号、一定期間にわたる頻度、割合、または傾向の形式とすることができ、またそれらを、参照、共有、編集、コメント、またはメタデータの番号にリンクすることができる。要約すると、ショット、マッシュアップＡ、および／または映像コンテンツＢに関する、全ての種類の動作および／または対話を、マニュアル映像構成アプリケーション３によって記録することができ、かつ統計データとして使用することができる。

プロセスは、事前定義されたルールによって、映像コンテンツの最もポピュラーなショットを識別するステップを備えることができる。そのために、要約化アプリケーション２は、事前定義されたルールの少なくとも１つのモジュール６を備え、モジュール５は、事前定義されたルールの前記モジュールと対話する手段を備える。図３と関連して、要約化アプリケーション２は、事前定義されたルールを格納するための専用データベース７を備え、事前定義されたルールのモジュール６は、モジュール５と対話すると、前記データベースと対話して、関連する事前定義されたルールを抽出する。

事前定義されたルールは、最もポピュラーなショットの識別のためのルールを備える。例えば、前記ショットが５分未満の総存続期間である場合のみ、最高の使用頻度の１つを有するショットをポピュラーなものとして選択するためのルールを提供することができる。さらに、総存続期間が５分超であるポピュラーなショットをトリミングするための推論ルールを提供することができる。

特に、要約のより良好なパーソナライゼーションのために、プロセスは、ルールがユーザによって定義されることを提供できる。そのために、図３と関連して、要約化アプリケーション２は、ユーザが、ルールを事前定義することを可能にするためのモジュール８を備え、前記モジュールは、前記要約化アプリケーションのユーザインタフェース上で、ユーザがそのような事前定義を作成することを可能にする、専用サブインタフェースを提供するための手段を備える。

示されていない変形例によれば、ユーザの事前定義のためのモジュール８および／または、事前定義されたルールを格納するためのデータベース７の機能を、事前定義されたルールのモジュール６において実装することができる。

プロセスは、映像要約を編集するステップを備え、前記映像要約は、映像コンテンツＢの識別されたショットの少なくとも１つを備える。そのために、要約化アプリケーション２は、監視および分析するための少なくとも１つのモジュールと協働して、そのような映像要約を編集するための、少なくとも１つのモジュール９を備える。

特に、編集するためのモジュール９は、映像マッシュアップＡの構成物を監視および分析するためのモジュール５と対話して、映像コンテンツＢの識別された最もポピュラーなショットをつなぐことによって、映像要約を編集する手段を備える。

プロセスはまた、事前定義されたルールによって、映像要約を編集するステップを備えることができる。そのために、事前定義されたルールのモジュール６は、映像要約の編集のための専用ルールを備え、編集するためのモジュール９は、事前定義されたルールの前記モジュールと対話する手段を備える。

例えば、事前定義されたルールは、タイトルおよび／または遷移が映像要約のショットの間に追加されなければならないことを示すルールを備えることができる。それらはまた、映像要約の存続期間を、映像コンテンツの総存続期間の最大１０％に制限するためのルール、または可能であれば、サブタイトルを追加するルールをも備えることができる。

図２と関連して、編集された映像要約Ｓ１、Ｓ２は、異なる構成物、特に、適用される事前定義されたルールによって、異なる存続期間を提示する。表示されたマッシュアップＡの構成物を分析して、モジュール５は映像コンテンツＢの最も関連するものとしてショットＣを識別したのだが、そのようにショットＣが４つの前記マッシュアップに現れている。したがって、事前定義された編集ルールによって、編集するためのモジュール９は、最も関連するショットＣのみを備えた短い映像要約Ｓ１、または映像コンテンツＢのよりポピュラーでない他のショットＤ、Ｅ、Ｆをも備えた長い映像要約Ｓ２を編集し、前記ショットは、マッシュアップＡの少なくとも１つにおいて現れる。

映像マッシュアップＡに関する情報はまた、前記マッシュアップの生成の間にユーザによって入力されるテキストデータを備えることができ、前記テキストデータはさらに、映像要約に対するテキスト記述を編集するために分析される。そのために、要約化アプリケーション２は、映像マッシュアップＡのテキストデータを監視および分析するためのモジュール１０を備え、編集するためのモジュール９は、前記分析によって、映像要約に対するテキスト記述を編集するための手段を備える。

映像マッシュアップＡに関する情報はまた、メタデータおよび／または注釈を備えることができ、前記メタデータおよび／または注釈はさらに、映像要約に対する映像の遷移を編集するために分析される。特に、映像マッシュアップＡのメタデータおよび／または注釈は、前記映像マッシュアップの生成のコンテキスト、すなわち前記映像マッシュアップの主要なトピックまたは対象となる視聴者、に関係することができる。そのために、要約化アプリケーション２は、映像マッシュアップＡのメタデータおよび／または注釈を監視および分析するためのモジュール１１を備え、編集するためのモジュール９は、前記分析によって、映像要約に対する適切な映像の遷移を編集するための手段を備える。

プロセスはまた、関連する映像マッシュアップＡの少なくとも１つが少なくとも２つのユーザによって生成されるので、前記マッシュアップの生成の間に、前記ユーザの間で発生する会話を保存するステップを備えることができ、前記会話はさらに、前記マッシュアップに関する情報として監視され、映像要約を編集するために分析される。特に、会話を、映像フォーマット、音声フォーマット、および／またはテキストフォーマットなどの、任意のタイプのフォーマットで提示することができる。

そのために、要約化アプリケーション２は、そのような会話を保存するためのモジュール１２を備え、前記モジュールは、関係する映像マッシュアップＡに関する情報として、前記会話を監視および分析するための手段を備え、それによって、編集するためのモジュール９は、前記分析によって、映像要約を編集する。

特に、プロセスは、ユーザが、今までかつ継続して豊富な映像要約から利益を得るように、継続して、かつ動的に映像要約を更新するステップを備えることができる。したがって、情報はまた、前の映像マッシュアップの更新、および／または、前記マッシュアップを生成したユーザのプロファイルの更新、および／または、映像コンテンツＢの少なくとも１つのショットを備えた、新たに生成された映像マッシュアップに関する情報さえも備えることができる。実際には、そのような更新は、映像コンテンツＢのショットのポピュラリティに特に影響を与えることがある。

そのために、要約化アプリケーション２は、そのような上述した情報の少なくとも１つを監視および分析するための少なくとも１つのモジュールを備える。図３に関連して、要約化アプリケーションは、前の映像マッシュアップの更新と、前記マッシュアップを生成したユーザのプロファイルの更新とをそれぞれ、監視および分析するための２つのモジュール１３、１４を備える。特に、それらのモジュール１３、１４の各々は、編集された映像要約および映像マッシュアップと、それぞれのユーザのプロファイルとの間のリンクを保存するための手段を備え、それによって、編集するための少なくとも１つのモジュールは、そのようなデータの監視および分析によって、映像要約を編集、すなわち更新する。

新たに生成された映像マッシュアップに関して、全ての先述した監視および分析するためのモジュール５、１０、１１、１２は、編集するための少なくとも１つのモジュールが、映像要約を編集、すなわち更新するように、それらを考慮に入れるように構成される。

図３に関連して、要約化アプリケーション２は、新たな映像要約を編集するためのモジュール９と、上述した更新情報の分析によって、前に編集された映像要約を編集、すなわち更新して、新たな統計データ、テキストデータ、メタデータ、および／または注釈を考慮に入れるための専用モジュール１５と、を備える。示されていない変形例によれば、それらの編集するためのモジュール９、１５の両方の機能を、編集するための特有のモジュールにおいて実装することができる。

より良好に映像要約をパーソナライゼーションするために、プロセスは、ユーザが、編集された映像要約についてのフィードバックを与えることを可能にするステップを備えることができ、前記フィードバックはさらに、情報として監視され、前記映像要約を編集するために分析される。さらに、ユーザの介入はまた、映像コンテンツＢの音声および映像ファイルの従来の分析の間で特に観測することができる、セマンティックギャップなどの、映像の要約化の知られている方法の欠点を回避することを可能にすることができる。

そのために、要約化アプリケーション２は、ユーザがそのようなフィードバックを与えることを可能にするためのモジュール１６を備え、前記モジュールは、更新するためのモジュール１５が、前記分析によって、映像要約を再度編集するように、前記フィードバックを監視および分析するための手段を備える。

図１および３に関連して、要約化アプリケーション２は、編集された映像要約の記述子を保存するためのデータベース１７を備え、それによって、対応する元の映像コンテンツＢを映像サービスプロバイダ１からダウンロードすることなしに、前記記述子が、前記要約を見ることを望むユーザに利用可能となる。そのために、要約化アプリケーション２は、異種映像サービスプロバイダ１によって提供される大量のストックの中で、正確に映像コンテンツを検索するために、グローバルなアクセスポイントをネットワークのユーザに提供する、ユーザフレンドリーな映像ポータル検索を、そのユーザインタフェースを通じて（よって前記コンテンツをダウンロードすることなく）提供する手段を備える。

特に、図１および３で表されるように、アーキテクチャは、データベース１７に格納された映像要約記述子を活用して、映像要約に基づいて、ｅラーニングサービス、文化イベント、またはスポーツイベントなどの、専用サービスを提供するための手段を備えた、少なくとも１つのアプリケーションまたはサービス１８を備える。

現在までの映像要約をユーザに提案するために、要約化アプリケーション２はまた、対応する映像コンテンツＢが、アーキテクチャの映像サービスプロバイダ１から削除された映像要約を削除する手段を備えることができる。そのために、要約化アプリケーション２は、映像要約記述子の各々において、元の映像コンテンツＢのＵＲＬアドレスの有効性を継続してチェックするための専用手段を備え、それによって、前記アドレスがもはや有効でない場合、映像要約記述子が削除されるようになる。

プロセスは、ユーザが映像コンテンツＢから映像マッシュアップＡを生成するので、特に統計スコアおよびデータに基づいている、前記コンテンツの暗黙の要約化を提供する。したがって、プロセスは、従来の映像および／または音声アナライザの使用を必要とせず、よってそのようなアナライザで一般的に観測される欠点を回避することを可能にする、映像の要約化を提供する。さらに、元の映像コンテンツＢの代わりに映像記述子を使用することによって、プロセスは、一意かつ正確なアクセスポイントへの大容量の映像ファイルへのアクセスを蓄積することを可能にする。

記述および図面は、本発明の原理を例示しているにすぎない。したがって、当業者は、本明細書で明確に説明および示されていないが、本発明の原理を具体化し、かつその趣旨および範囲に含まれる、種々のアレンジを考案することが可能であることが理解されよう。さらに、本明細書に記載された全ての例は、主に、本発明の原理および本技術分野を促進するために発明者によって提供される概念を、読み手が理解するのを補助するための教授を目的とするものにすぎず、そのように特に記載された例および条件を制限することがないものとして解釈されることを明確に意図している。さらに、本発明の原理、態様、および実施形態とともに、それらの特定の例を本明細書で記載した全ての言及は、それらと均等物を包含することを意図している。

Claims

ネットワークにおいて、少なくとも１つの映像サービスプロバイダ（１）のユーザに対する映像コンテンツ（Ｂ）を自動的に要約するためのプロセスであって、
そのような映像サービスプロバイダ（１）のユーザによって生成された少なくとも２つの映像マッシュアップ（Ａ）に関する情報を監視するステップであって、前記マッシュアップは、前記映像コンテンツの少なくとも１つのショット（Ｃ、Ｄ、Ｅ、Ｆ）を含む、監視するステップと、
前記情報を分析して、前記映像コンテンツの最もポピュラーなショット（Ｃ）を識別するステップと、
前記識別されたショットの少なくとも１つを備えた映像要約（Ｓ１、Ｓ２）を編集するステップと
を備えた、プロセス。
監視された情報が、映像マッシュアップ（Ａ）において現れる映像コンテンツ（Ｂ）のショット（Ｃ、Ｄ、Ｅ、Ｆ）を備え、映像マッシュアップ（Ａ）において最も現れるショット（Ｃ）が、最もポピュラーなショットとして識別されることを特徴とする、請求項１に記載のプロセス。
事前定義されたルールによって、映像コンテンツ（Ｂ）の最もポピュラーなショット（Ｃ）を識別し、および／または、映像要約（Ｓ１、Ｓ２）を編集するステップを備えたことを特徴とする、請求項１または２に記載のプロセス。
ルールが、ユーザによって事前定義されることを特徴とする、請求項３に記載のプロセス。
映像マッシュアップ（Ａ）に関する情報が、前記映像マッシュアップの記述子から監視され、前記記述子が、データベース（４）に格納されることを特徴とする、請求項１から４のいずれか一項に記載のプロセス。
映像マッシュアップ（Ａ）に関する情報が、前記マッシュアップの生成の間に、ユーザによって入力されるテキストデータを備え、前記テキストデータが、映像要約（Ｓ１、Ｓ２）に対するテキスト記述を編集するために分析されることを特徴とする、請求項１から５のいずれか一項に記載のプロセス。
映像マッシュアップ（Ａ）に関する情報が、メタデータおよび／または注釈を備え、前記メタデータおよび／または注釈が、映像要約（Ｓ１、Ｓ２）に対する映像の遷移を編集するために分析されることを特徴とする、請求項１から６のいずれか一項に記載のプロセス。
少なくとも１つの映像マッシュアップ（Ａ）が、少なくとも２つのユーザによって生成され、前記プロセスが、前記マッシュアップの生成の間に、前記ユーザの間で発生する会話を保存するステップを備え、前記会話がさらに、情報として監視され、映像要約（Ｓ１、Ｓ２）を編集するために分析されることを特徴とする、請求項１から７のいずれか一項に記載のプロセス。
情報が、前の映像マッシュアップ（Ａ）の更新、および／または、前記映像マッシュアップを生成したユーザのプロファイルの更新、および／または、映像コンテンツ（Ｂ）の少なくとも１つのショット（Ｃ、Ｄ、Ｅ、Ｆ）を備える、新たに生成された映像マッシュアップ（Ａ）に関する情報を備えたことを特徴とする、請求項１から８のいずれか一項に記載のプロセス。
ユーザが、編集された映像要約（Ｓ１、Ｓ２）についてのフィードバックを与えることを可能にするステップを備え、前記フィードバックがさらに、情報として監視され、前記映像要約（Ｓ１、Ｓ２）を編集するために分析されることを特徴とする、請求項１から９のいずれか一項に記載のプロセス。
ネットワークにおいて、映像サービスプロバイダ（１）からの映像コンテンツ（Ｂ）を自動的に要約するためのアプリケーション（２）であって、
そのような映像サービスプロバイダ（１）のユーザによって生成された少なくとも２つの映像マッシュアップ（Ａ）に関する情報を監視するための少なくとも１つのモジュール（５、１０、１１、１２、１３、１４、１６）であって、前記マッシュアップは、前記映像コンテンツの少なくとも１つのショット（Ｃ、Ｄ、Ｅ、Ｆ）を含み、前記モジュールは、前記情報を分析して、前記映像コンテンツの最もポピュラーなショット（Ｃ）を識別するための手段を備える、監視するための少なくとも１つのモジュール（５、１０、１１、１２、１３、１４、１６）と、
前記識別されたショットの少なくとも１つを備えた映像要約を編集するための少なくとも１つのモジュール（９、１５）と
を備えた、アプリケーション。
映像マッシュアップ（Ａ）において現れる映像コンテンツ（Ｂ）のショット（Ｃ、Ｄ、Ｅ、Ｆ）を監視および分析するためのモジュール（５）を備え、前記モジュールが、映像マッシュアップ（Ａ）において最も現れるショット（Ｃ）を、最もポピュラーなショットとして識別することを特徴とする、請求項１１に記載のアプリケーション（２）。
少なくとも１つの映像サービスプロバイダ（１）と、前記ネットワークのユーザが、前記サービスプロバイダの少なくとも１つの映像コンテンツ（Ｂ）からの映像マッシュアップ（Ａ）を生成することを可能にするためのマニュアル映像構成アプリケーション（３）と、を備えたネットワークのためのアーキテクチャであって、前記アーキテクチャはさらに、ユーザに対する映像コンテンツ（Ｂ）を自動的に要約するためのアプリケーション（２）を備え、前記アプリケーションは、
少なくとも２つの映像マッシュアップ（Ａ）に関する情報を監視するための少なくとも１つのモジュール（５、１０、１１、１２、１３、１４、１６）であって、前記マッシュアップは、前記映像コンテンツの少なくとも１つのショット（Ｃ、Ｄ、Ｅ、Ｆ）を含み、前記モジュールは、前記情報を分析して、前記映像コンテンツの最もポピュラーなショット（Ｃ）を識別するための手段を備える、監視するための少なくとも１つのモジュール（５、１０、１１、１２、１３、１４、１６）と、
前記識別されたショットの少なくとも１つを備えた映像要約（Ｓ１、Ｓ２）を編集するための少なくとも１つのモジュール（９、１５）と
を備えた、アーキテクチャ。