JP2015532043A - ネットワークにおいて少なくとも1つの映像サービスプロバイダのユーザに対する映像コンテンツを自動的に要約するためのプロセス - Google Patents

ネットワークにおいて少なくとも1つの映像サービスプロバイダのユーザに対する映像コンテンツを自動的に要約するためのプロセス Download PDF

Info

Publication number
JP2015532043A
JP2015532043A JP2015527874A JP2015527874A JP2015532043A JP 2015532043 A JP2015532043 A JP 2015532043A JP 2015527874 A JP2015527874 A JP 2015527874A JP 2015527874 A JP2015527874 A JP 2015527874A JP 2015532043 A JP2015532043 A JP 2015532043A
Authority
JP
Japan
Prior art keywords
video
mashup
shot
information
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015527874A
Other languages
English (en)
Inventor
アッターガルツ,アブデルカデル
マリリー,エマニュエル
Original Assignee
アルカテル−ルーセント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アルカテル−ルーセント filed Critical アルカテル−ルーセント
Publication of JP2015532043A publication Critical patent/JP2015532043A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Human Computer Interaction (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

ネットワークにおいて、少なくとも1つの映像サービスプロバイダ1のユーザに対する映像コンテンツBを自動的に要約するためのプロセスであって、そのような映像サービスプロバイダ1のユーザによって生成された少なくとも2つの映像マッシュアップAに関する情報を監視するステップであって、前記マッシュアップは、前記映像コンテンツの少なくとも1つのショットC、D、E、Fを含む、監視するステップと、前記情報を分析して、前記映像コンテンツの最もポピュラーなショットCを識別するステップと、前記識別されたショットの少なくとも1つを備えた映像要約S1、S2を編集するステップと、を備えた、プロセス。

Description

本発明は、ネットワークにおいて、少なくとも1つの映像サービスプロバイダのユーザに対する映像コンテンツを自動的に要約するためのプロセス、そのようなプロセスを実装するための手段を備えたアプリケーションおよびアーキテクチャに関する。
映像コンテンツの映像要約は、前記映像コンテンツの一部、すなわち、前記映像コンテンツの縮約版を備えた、映像のシーケンスの形式とすることができる。映像要約はまた、映像コンテンツの選択された画像を備えたハイパメディア文書の形式とすることができ、ユーザは、前記画像と対話して、前記映像コンテンツの内部にアクセスする。
自動的な映像の要約化の分野における多くの研究が、特に、フランスの研究センターINRIAおよびEURECOM、もしくはアメリカの大学MITおよびカーネギーメロンなどの学術研究所によって、またはさらに、マイクロソフト(R)、ヒューレットパッカード(R)、IBM(R)、もしくはモトローラ(R)などの企業によって、なされてきた。
実際に、映像の要約化は、例えば、映像会議、映像メール、または映像ニュースなどを、保管するプロセスおよび他のより複雑な機能の達成を実装することを特に可能にするので、幾つかの応用に対する多くの関心がひかれている。
例えば、マイクロソフト(R)の研究所は、http://research.microsoft.com/apps/pubs/default.aspx?id=101167のアドレスで入手可能な「Soccer Video Summarization Using Enhanced Logo Detection」(M.EL Deeb、B.Abou Zaid、H.Zawbaa、M.Zahaar、and M.El−Saban、2009)の記事などの映像要約についての主要な研究に関する幾つかの論文を公開してきた。この記事は、サッカーの試合の映像を要約するための方法に関し、そこでは、アルゴリズムが、関心のあるイベントを描画するための再生ショットを検出する。一般に、マイクロソフト(R)の研究は、低レベルの映像アナライザおよびルールエンジンに基づいており、かつパーソナライゼーションされた映像要約をユーザが編集することが可能ではなく、定着していないだけでなくまた、特定のセマンティックの分野のみ(サッカーなど)への専用アルゴリズムを使用する。
三菱(R)ソサエティの研究所は、特に、http://www.merl.com/projects/VideoSummarizationで入手可能な記事、特に「A Unified Framework for Video Summarization、Browsing and Retrieval」(Y.Rui、Z.Xiong、R.Radhakrishnan、A.Divakaran、T.S.Huang、Beckman Institute for Advanced Science and technology、University of Illinois and Mitsubishi Electric Research Labs)における技術レポートで説明されるような、パーソナル映像レコーダ(PVR)に対する映像の要約化についての研究を提案してきた。これらの研究は、自動音声視覚分析および映像スキミングの手法に基づいているが、映像コンテンツの主要となる重要なシーケンスを抽出することを可能にしない。
文献「Video summarisation:A conceptual Framework and Survey of the State of the Art」(A.G.Money and H.Agius、Journal of Visual Communication and Image Representation、第19巻、第2号、121−143頁、2008)および「Advances in Video Summarization and Skimming」(R.M.Jiang、A.H.Sadka、D.Crookes、「Recent Advances in Multimedia Signal Processing and Communications」、Berlin/Heidelberg: Springer、2009)はそれぞれ、映像の要約化に対する異なる知られている技法の概要、ならびに映像の要約化の静的および動的な手法に関する説明を提供する。
要約すると、映像の要約化のための知られている方法を、3つの主要なグループ、すなわち、音声ストリーム分析に基づく方法、映像ストリーム分析に基づく方法、および前記分析の両方に基づくハイブリッド方法、に分割することができる。そのような方法は、従来から、専用アルゴリズムによる音声からのメタデータ抽出、および/または映像分析に基づいている。
欠点に関して述べると、そのような方法は、音声および映像分析の間のセマンティックギャップ、ならびにそれらの分析アルゴリズムの制約に対処しなければならない。音声ベースの方法は、時に、可聴スピーチが映像のテーマにリンクされるので十分でない。さらに、映像ベースの方法は、その上、映像のコンテキストが、高いセマンティックギャップを引き起こす高レベルのセマンティックを有するとき、前記コンテキストを識別することの困難を経験する。また、ハイブリッド方法は、最終的な要約をレンダリングすることでの困難に直面し、かつ映像のテーマに大きく依存しているままである。
特に、映像の要約化は、映像分析およびセグメンテーションに基づいている。そのような方法は、特に、以下の文献:「Surveillance Video Summarisation Based on Moving Object Detection and Trajectory Extraction」(Z.Ji、Y.Su、R.Qian、J.Ma、2nd International Conference on Signal Processing Systems、2010)、「An Improved Sub−Optimal Video Summarization Algorithm」(L.Coelho、L.A.Da Silva Cruz、L.Ferreira、P.A.Assuncao、52nd International Symposium ELMAR−2010)、「Rapid Video Summarisation on Compressed Video」(J.Almeida、R.S.Torres、N.J.Leite、IEEE International Symposium on Multimedia、2010)、「User−Specific Video Summarisation」(X.Wang、J.Chen、C.Zhu、International Conference on Multimedia and Signal Processing、2011)、「A Keyword Based Video Summarisation Learning Platform with Multimodal Surrogates」(W−H.Chang、J−C.Yang、Y−C Wu、11th IEEE International Conference on Advanced Learning Technologies、2011)、および「Visual Saliency Based Aerial Video Summarization by Online Scene Classification」(J.Wang、Y.Wang、Z.Zhang、6th International Conference on Image and Graphics、2011)においてさらに詳細に説明される。
しかしながら、これらの解決策は、要求される処理が大容量、映像/音声アナライザの制約、およびセマンティック/オントロジの記述および解釈を理由に、非常に多数の映像コンテンツを要約するのに適切でない。さらに、これらの解決策は、インターネットユーザの間で現在ポピュラーであるプロバイダなどの、異種の映像サービスプロバイダ、および種々の映像サービスプロバイダとインタラクトせず、それらは、ユーザのフィードバックに基づいておらず、かつそれらは、動的な映像要約を提案することができない。その上、それらは、映像分析、セグメンテーション、および/または特定のメタデータオントロジ/セマンティックを使用するので、それらの応答時間が非常に長くなり、かつ様々な使用されるセマンティックの記述の間で明確な変換が存在しない。
M.EL Deeb、B.Abou Zaid、H.Zawbaa、M.Zahaar、and M.El−Saban、「Soccer Video Summarization Using Enhanced Logo Detection」(2009)、Microsoft(R)、インターネット(http://research.microsoft.com/apps/pubs/default.aspx?id=101167) Y.Rui、Z.Xiong、R.Radhakrishnan、A.Divakaran、T.S.Huang、「A Unified Framework for Video Summarization、Browsing and Retrieval」、Beckman Institute for Advanced Science and technology、University of Illinois and Mitsubishi Electric Research Labs、インターネット(http://www.merl.com/projects/VideoSummarization) A.G.Money and H.Agius、「Video summarisation:A conceptual Framework and Survey of the State of the Art」、Journal of Visual Communication and Image Representation(2008)、第19巻、第2号、121−143頁 R.M.Jiang、A.H.Sadka、D.Crookes、「Advances in Video Summarization and Skimming」、「Recent Advances in Multimedia Signal Processing and Communications」、Berlin/Heidelberg: Springer(2009) Z.Ji、Y.Su、R.Qian、J.Ma、「Surveillance Video Summarisation Based on Moving Object Detection and Trajectory Extraction」、2nd International Conference on Signal Processing Systems(2010) L.Coelho、L.A.Da Silva Cruz、L.Ferreira、P.A.Assuncao、「An Improved Sub−Optimal Video Summarization Algorithm」、52nd International Symposium ELMAR−2010 J.Almeida、R.S.Torres、N.J.Leite、「Rapid Video Summarisation on Compressed Video」、IEEE International Symposium on Multimedia(2010) X.Wang、J.Chen、C.Zhu、「User−Specific Video Summarisation」、International Conference on Multimedia and Signal Processing(2011) W−H.Chang、J−C.Yang、Y−C Wu、「A Keyword Based Video Summarisation Learning Platform with Multimodal Surrogates」、11th IEEE International Conference on Advanced Learning Technologies(2011) J.Wang、Y.Wang、Z.Zhang、「Visual Saliency Based Aerial Video Summarization by Online Scene Classification」、6th International Conference on Image and Graphics(2011)
本発明は、映像コンテンツを自動的に要約するためのプロセスを提案することによって、従来技術を改善することを目的とし、前記プロセスは、特に、ネットワークの異種映像サービスプロバイダから生じる大容量の映像データを要約して、そのような映像サービスプロバイダのユーザに、動的に更新され、かつ豊富な映像要約を提供するのと同時に、従来の要約化の方法が直面していた欠点を限定するのに効率的である。
その目的のために、第1の態様によれば、本発明は、ネットワークにおいて少なくとも1つの映像サービスプロバイダのユーザに対する映像コンテンツを自動的に要約するためのプロセスに関し、前記プロセスは、
そのような映像サービスプロバイダのユーザによって生成された少なくとも2つの映像マッシュアップに関する情報を監視するステップであって、前記マッシュアップは、前記映像コンテンツの少なくとも1つのショットを含む、監視するステップと、
前記情報を分析して、前記映像コンテンツの最もポピュラーなショットを識別するステップと、
前記識別されたショットの少なくとも1つを備えた映像要約を編集するステップと
を備える。
第2の態様によれば、本発明は、ネットワークにおいて映像サービスプロバイダからの映像コンテンツを自動的に要約するためのアプリケーションに関し、前記アプリケーションは、
そのような映像サービスプロバイダのユーザによって生成された少なくとも2つの映像マッシュアップに関する情報を監視するための少なくとも1つのモジュールであって、前記マッシュアップは、前記映像コンテンツの少なくとも1つのショットを含み、前記モジュールは、前記情報を分析して、前記映像コンテンツの最もポピュラーなショットを識別するための手段を備える、監視するための少なくとも1つのモジュールと、
前記識別されたショットの少なくとも1つを備えた映像要約を編集するための、少なくとも1つのモジュールと
を備える。
第3の態様によれば、本発明は、少なくとも1つの映像サービスプロバイダと、ネットワークのユーザが、前記サービスプロバイダの少なくとも1つの映像コンテンツからの映像マッシュアップを生成することを可能にするためのマニュアル映像構成アプリケーションと、を備えた、前記ネットワークに対するアーキテクチャに関し、前記アーキテクチャはさらに、ユーザに対する映像コンテンツを自動的に要約するためのアプリケーションを備え、前記アプリケーションは、
少なくとも2つの映像マッシュアップに関する情報を監視するための少なくとも1つのモジュールであって、前記マッシュアップは、前記映像コンテンツの少なくとも1つのショットを含み、前記モジュールは、前記情報を分析して、前記映像コンテンツの最もポピュラーなショットを識別するための手段を備える、監視するための少なくとも1つのモジュールと、
前記識別されたショットの少なくとも1つを備えた映像要約を編集するための、少なくとも1つのモジュールと
を備える。
本発明の他の態様および利点は、添付図面を参照してなされる以下の説明において明らかになるであろう。
少なくとも1つの映像サービスプロバイダと、本発明によるプロセスを実装するための手段を備えたアプリケーションなどの、マニュアル映像構成アプリケーションと、を備えたネットワークに対するアーキテクチャを概略的に示す図である。 本発明によるプロセスのステップの一部の概略的に示す図である。 マニュアル映像構成アプリケーション、および要約化アプリケーションのみを有する図1のアーキテクチャを、モジュールを明確にして概略的に示す図である。
これらの図面と関連して、ネットワークにおいて少なくとも1つの映像サービスプロバイダ1のユーザの映像コンテンツを自動的に要約するためのプロセスと、そのようなプロセスを実装するための手段を備えたアプリケーション2と、少なくとも1つの映像サービスプロバイダ1、マニュアル映像構成アプリケーション3、およびそのような要約化アプリケーション2を備えた、ネットワークに対するアーキテクチャとが以下、説明される。
図1に表されるように、映像サービスプロバイダ1は、Youtube(R)、Tivizio(R)、Kaltura(R)、またはFlickr(R)などの、映像共有サービスプロバイダとすることができる。それらはまた、Facebook(R)、Google(R)、またはMySpace(R)などの、ソーシャルネットワークサービスプロバイダとすることができる。現在、何百もの映像、音声、および画像コンテンツが、ユーザによって、特に、スマートフォンまたはフォトカメラによって作成され、かつそのようなサービスプロバイダ1上で公開されている。
マニュアル映像構成アプリケーション2は、クラウドベースのウェブ2.0アプリケーションとすることができ、かつネットワークのユーザが、映像マッシュアップA、すなわち映像セグメントもしくはクリップ、および音声セグメントの構成物を、アーキテクチャの映像サービスプロバイダ1の少なくとも1つの映像コンテンツBから生成することを可能にする。そのために、マニュアル映像構成アプリケーション3は、映像サービスプロバイダ1と対話して、前記アプリケーションのユーザが、映像マッシュアップAを生成するのに使用することを望む映像コンテンツBを取得するための、少なくとも1つの専用アプリケーションプログラミングインタフェース(API)を備える。特に、ウェブベースのマニュアル映像構成アプリケーション3で、アーキテクチャのユーザは特に、前記アプリケーションの他のユーザと共同して、映像マッシュアップAを生成することができる。
一般的に言うと、映像コンテンツBの映像要約、または幾つかの映像コンテンツBの映像マッシュアップAを生成することを望むユーザは、前記映像コンテンツを参照、コメント、および/または分割して、最も関連のあるショットを選択しなければならない。とはいえ、ショットの選択は、1つのユーザから別のユーザへ大きく変わるので、種々の映像要約およびマッシュアップAが一意の映像コンテンツBから生成されうる。
したがって、ネットワークにおいて、少なくとも1つの映像サービスプロバイダ1のユーザに対する映像コンテンツBの効率的な要約化を提供するために、プロセスは、そのような映像サービスプロバイダ1のユーザによって生成され、かつ前記映像コンテンツの少なくとも1つのショットを含む、少なくとも2つの映像マッシュアップAに関する情報を監視するステップを備える。
そのために、アーキテクチャは、ネットワークにおいて、映像サービスプロバイダ1からの映像コンテンツBを自動的に要約するためのアプリケーション2を備え、前記アプリケーションは、前記映像コンテンツの少なくとも1つのショットを含む、少なくとも2つの映像マッシュアップAに関するそのような情報を監視するための、少なくとも1つのモジュールを備える。
特に、プロセスは、映像マッシュアップAに関する情報が、前記映像マッシュアップの記述子から監視されることを規定することができ、前記記述子は、データベースに格納される。映像ファイル、すなわち生の映像コンテンツまたは映像マッシュアップの記述子は、.xmlファイルなどの特定のフォーマットを有するファイルであり、かつ元の映像コンテンツのURLアドレス(ユニフォームリソースロケータに対する)、前記映像ファイルの開始および終了、フレームパーセコンド(FPS)レート、または前記ファイルの存続時間などの、前記映像ファイルに関する技術情報を含む。
そのために、マニュアル映像構成アプリケーション3は、生成された映像マッシュアップAの記述子を前記アプリケーションのユーザが格納する、そのようなデータベース4を備え、それによって、前記映像マッシュアップまたは元の映像コンテンツBにアクセスすることを望むユーザが、単に記述子を抽出し、よって前記映像マッシュアップまたはコンテンツを、対応する映像サービスプロバイダ1からダウンロードする必要がないことになる。
図3と関連して、アプリケーション2は、マニュアル映像構成アプリケーション3と対話して、前記アプリケーションを構成するもののデータベース4から、関連する映像マッシュアップAの記述子を抽出するための手段を備え、それによって、要約化アプリケーション2の監視のための少なくとも1つのモジュールが、前記記述子から前記マッシュアップに関する情報を監視するようになる。
したがって、プロセスは、監視された情報を分析して、映像コンテンツBの最もポピュラーなショットを識別するステップを備える。そのために、要約化アプリケーション2の監視のための少なくとも1つのモジュールは、監視された情報を分析して、最もポピュラーなショットを識別するための手段を備える。
特に、監視された情報は、映像マッシュアップAにおいて現れる映像コンテンツBのショットを備え、それによって、マッシュアップA上に最も現れるショットを、最もポピュラーなものとして識別することができる。
そのために、要約化アプリケーション2は、映像コンテンツBの少なくとも1つのショット、特に前記映像マッシュアップにおいて現れる前記映像コンテンツのショットを備えた、映像マッシュアップAの構成物を監視するためのモジュール5を備え、前記モジュールは、前記構成物を分析して、映像コンテンツBのショットに関する統計データを抽出し、よって前記データから、映像マッシュアップA上で最も現れる前記映像コンテンツのショットを、最もポピュラーなものとして識別するための手段を備える。特に、統計データは、マニュアル映像構成アプリケーション3の特定の手段によって算出され、かつ構成アプリケーションのデータベース4に格納され、構成物を監視するためのモジュール5は、前記データベースと対話して、監視されたマッシュアップAにおいて発生したショットに関する統計データを抽出する。
統計データは特に、映像コンテンツBの各ショットに対する発生のスコアを備え、前記スコアは、政治、スポーツ、またはビジネスなどの、様々なコンテキストにおいて算出される。それらは、番号、一定期間にわたる頻度、割合、または傾向の形式とすることができ、またそれらを、参照、共有、編集、コメント、またはメタデータの番号にリンクすることができる。要約すると、ショット、マッシュアップA、および/または映像コンテンツBに関する、全ての種類の動作および/または対話を、マニュアル映像構成アプリケーション3によって記録することができ、かつ統計データとして使用することができる。
プロセスは、事前定義されたルールによって、映像コンテンツの最もポピュラーなショットを識別するステップを備えることができる。そのために、要約化アプリケーション2は、事前定義されたルールの少なくとも1つのモジュール6を備え、モジュール5は、事前定義されたルールの前記モジュールと対話する手段を備える。図3と関連して、要約化アプリケーション2は、事前定義されたルールを格納するための専用データベース7を備え、事前定義されたルールのモジュール6は、モジュール5と対話すると、前記データベースと対話して、関連する事前定義されたルールを抽出する。
事前定義されたルールは、最もポピュラーなショットの識別のためのルールを備える。例えば、前記ショットが5分未満の総存続期間である場合のみ、最高の使用頻度の1つを有するショットをポピュラーなものとして選択するためのルールを提供することができる。さらに、総存続期間が5分超であるポピュラーなショットをトリミングするための推論ルールを提供することができる。
特に、要約のより良好なパーソナライゼーションのために、プロセスは、ルールがユーザによって定義されることを提供できる。そのために、図3と関連して、要約化アプリケーション2は、ユーザが、ルールを事前定義することを可能にするためのモジュール8を備え、前記モジュールは、前記要約化アプリケーションのユーザインタフェース上で、ユーザがそのような事前定義を作成することを可能にする、専用サブインタフェースを提供するための手段を備える。
示されていない変形例によれば、ユーザの事前定義のためのモジュール8および/または、事前定義されたルールを格納するためのデータベース7の機能を、事前定義されたルールのモジュール6において実装することができる。
プロセスは、映像要約を編集するステップを備え、前記映像要約は、映像コンテンツBの識別されたショットの少なくとも1つを備える。そのために、要約化アプリケーション2は、監視および分析するための少なくとも1つのモジュールと協働して、そのような映像要約を編集するための、少なくとも1つのモジュール9を備える。
特に、編集するためのモジュール9は、映像マッシュアップAの構成物を監視および分析するためのモジュール5と対話して、映像コンテンツBの識別された最もポピュラーなショットをつなぐことによって、映像要約を編集する手段を備える。
プロセスはまた、事前定義されたルールによって、映像要約を編集するステップを備えることができる。そのために、事前定義されたルールのモジュール6は、映像要約の編集のための専用ルールを備え、編集するためのモジュール9は、事前定義されたルールの前記モジュールと対話する手段を備える。
例えば、事前定義されたルールは、タイトルおよび/または遷移が映像要約のショットの間に追加されなければならないことを示すルールを備えることができる。それらはまた、映像要約の存続期間を、映像コンテンツの総存続期間の最大10%に制限するためのルール、または可能であれば、サブタイトルを追加するルールをも備えることができる。
図2と関連して、編集された映像要約S1、S2は、異なる構成物、特に、適用される事前定義されたルールによって、異なる存続期間を提示する。表示されたマッシュアップAの構成物を分析して、モジュール5は映像コンテンツBの最も関連するものとしてショットCを識別したのだが、そのようにショットCが4つの前記マッシュアップに現れている。したがって、事前定義された編集ルールによって、編集するためのモジュール9は、最も関連するショットCのみを備えた短い映像要約S1、または映像コンテンツBのよりポピュラーでない他のショットD、E、Fをも備えた長い映像要約S2を編集し、前記ショットは、マッシュアップAの少なくとも1つにおいて現れる。
映像マッシュアップAに関する情報はまた、前記マッシュアップの生成の間にユーザによって入力されるテキストデータを備えることができ、前記テキストデータはさらに、映像要約に対するテキスト記述を編集するために分析される。そのために、要約化アプリケーション2は、映像マッシュアップAのテキストデータを監視および分析するためのモジュール10を備え、編集するためのモジュール9は、前記分析によって、映像要約に対するテキスト記述を編集するための手段を備える。
映像マッシュアップAに関する情報はまた、メタデータおよび/または注釈を備えることができ、前記メタデータおよび/または注釈はさらに、映像要約に対する映像の遷移を編集するために分析される。特に、映像マッシュアップAのメタデータおよび/または注釈は、前記映像マッシュアップの生成のコンテキスト、すなわち前記映像マッシュアップの主要なトピックまたは対象となる視聴者、に関係することができる。そのために、要約化アプリケーション2は、映像マッシュアップAのメタデータおよび/または注釈を監視および分析するためのモジュール11を備え、編集するためのモジュール9は、前記分析によって、映像要約に対する適切な映像の遷移を編集するための手段を備える。
プロセスはまた、関連する映像マッシュアップAの少なくとも1つが少なくとも2つのユーザによって生成されるので、前記マッシュアップの生成の間に、前記ユーザの間で発生する会話を保存するステップを備えることができ、前記会話はさらに、前記マッシュアップに関する情報として監視され、映像要約を編集するために分析される。特に、会話を、映像フォーマット、音声フォーマット、および/またはテキストフォーマットなどの、任意のタイプのフォーマットで提示することができる。
そのために、要約化アプリケーション2は、そのような会話を保存するためのモジュール12を備え、前記モジュールは、関係する映像マッシュアップAに関する情報として、前記会話を監視および分析するための手段を備え、それによって、編集するためのモジュール9は、前記分析によって、映像要約を編集する。
特に、プロセスは、ユーザが、今までかつ継続して豊富な映像要約から利益を得るように、継続して、かつ動的に映像要約を更新するステップを備えることができる。したがって、情報はまた、前の映像マッシュアップの更新、および/または、前記マッシュアップを生成したユーザのプロファイルの更新、および/または、映像コンテンツBの少なくとも1つのショットを備えた、新たに生成された映像マッシュアップに関する情報さえも備えることができる。実際には、そのような更新は、映像コンテンツBのショットのポピュラリティに特に影響を与えることがある。
そのために、要約化アプリケーション2は、そのような上述した情報の少なくとも1つを監視および分析するための少なくとも1つのモジュールを備える。図3に関連して、要約化アプリケーションは、前の映像マッシュアップの更新と、前記マッシュアップを生成したユーザのプロファイルの更新とをそれぞれ、監視および分析するための2つのモジュール13、14を備える。特に、それらのモジュール13、14の各々は、編集された映像要約および映像マッシュアップと、それぞれのユーザのプロファイルとの間のリンクを保存するための手段を備え、それによって、編集するための少なくとも1つのモジュールは、そのようなデータの監視および分析によって、映像要約を編集、すなわち更新する。
新たに生成された映像マッシュアップに関して、全ての先述した監視および分析するためのモジュール5、10、11、12は、編集するための少なくとも1つのモジュールが、映像要約を編集、すなわち更新するように、それらを考慮に入れるように構成される。
図3に関連して、要約化アプリケーション2は、新たな映像要約を編集するためのモジュール9と、上述した更新情報の分析によって、前に編集された映像要約を編集、すなわち更新して、新たな統計データ、テキストデータ、メタデータ、および/または注釈を考慮に入れるための専用モジュール15と、を備える。示されていない変形例によれば、それらの編集するためのモジュール9、15の両方の機能を、編集するための特有のモジュールにおいて実装することができる。
より良好に映像要約をパーソナライゼーションするために、プロセスは、ユーザが、編集された映像要約についてのフィードバックを与えることを可能にするステップを備えることができ、前記フィードバックはさらに、情報として監視され、前記映像要約を編集するために分析される。さらに、ユーザの介入はまた、映像コンテンツBの音声および映像ファイルの従来の分析の間で特に観測することができる、セマンティックギャップなどの、映像の要約化の知られている方法の欠点を回避することを可能にすることができる。
そのために、要約化アプリケーション2は、ユーザがそのようなフィードバックを与えることを可能にするためのモジュール16を備え、前記モジュールは、更新するためのモジュール15が、前記分析によって、映像要約を再度編集するように、前記フィードバックを監視および分析するための手段を備える。
図1および3に関連して、要約化アプリケーション2は、編集された映像要約の記述子を保存するためのデータベース17を備え、それによって、対応する元の映像コンテンツBを映像サービスプロバイダ1からダウンロードすることなしに、前記記述子が、前記要約を見ることを望むユーザに利用可能となる。そのために、要約化アプリケーション2は、異種映像サービスプロバイダ1によって提供される大量のストックの中で、正確に映像コンテンツを検索するために、グローバルなアクセスポイントをネットワークのユーザに提供する、ユーザフレンドリーな映像ポータル検索を、そのユーザインタフェースを通じて(よって前記コンテンツをダウンロードすることなく)提供する手段を備える。
特に、図1および3で表されるように、アーキテクチャは、データベース17に格納された映像要約記述子を活用して、映像要約に基づいて、eラーニングサービス、文化イベント、またはスポーツイベントなどの、専用サービスを提供するための手段を備えた、少なくとも1つのアプリケーションまたはサービス18を備える。
現在までの映像要約をユーザに提案するために、要約化アプリケーション2はまた、対応する映像コンテンツBが、アーキテクチャの映像サービスプロバイダ1から削除された映像要約を削除する手段を備えることができる。そのために、要約化アプリケーション2は、映像要約記述子の各々において、元の映像コンテンツBのURLアドレスの有効性を継続してチェックするための専用手段を備え、それによって、前記アドレスがもはや有効でない場合、映像要約記述子が削除されるようになる。
プロセスは、ユーザが映像コンテンツBから映像マッシュアップAを生成するので、特に統計スコアおよびデータに基づいている、前記コンテンツの暗黙の要約化を提供する。したがって、プロセスは、従来の映像および/または音声アナライザの使用を必要とせず、よってそのようなアナライザで一般的に観測される欠点を回避することを可能にする、映像の要約化を提供する。さらに、元の映像コンテンツBの代わりに映像記述子を使用することによって、プロセスは、一意かつ正確なアクセスポイントへの大容量の映像ファイルへのアクセスを蓄積することを可能にする。
記述および図面は、本発明の原理を例示しているにすぎない。したがって、当業者は、本明細書で明確に説明および示されていないが、本発明の原理を具体化し、かつその趣旨および範囲に含まれる、種々のアレンジを考案することが可能であることが理解されよう。さらに、本明細書に記載された全ての例は、主に、本発明の原理および本技術分野を促進するために発明者によって提供される概念を、読み手が理解するのを補助するための教授を目的とするものにすぎず、そのように特に記載された例および条件を制限することがないものとして解釈されることを明確に意図している。さらに、本発明の原理、態様、および実施形態とともに、それらの特定の例を本明細書で記載した全ての言及は、それらと均等物を包含することを意図している。

Claims (13)

  1. ネットワークにおいて、少なくとも1つの映像サービスプロバイダ(1)のユーザに対する映像コンテンツ(B)を自動的に要約するためのプロセスであって、
    そのような映像サービスプロバイダ(1)のユーザによって生成された少なくとも2つの映像マッシュアップ(A)に関する情報を監視するステップであって、前記マッシュアップは、前記映像コンテンツの少なくとも1つのショット(C、D、E、F)を含む、監視するステップと、
    前記情報を分析して、前記映像コンテンツの最もポピュラーなショット(C)を識別するステップと、
    前記識別されたショットの少なくとも1つを備えた映像要約(S1、S2)を編集するステップと
    を備えた、プロセス。
  2. 監視された情報が、映像マッシュアップ(A)において現れる映像コンテンツ(B)のショット(C、D、E、F)を備え、映像マッシュアップ(A)において最も現れるショット(C)が、最もポピュラーなショットとして識別されることを特徴とする、請求項1に記載のプロセス。
  3. 事前定義されたルールによって、映像コンテンツ(B)の最もポピュラーなショット(C)を識別し、および/または、映像要約(S1、S2)を編集するステップを備えたことを特徴とする、請求項1または2に記載のプロセス。
  4. ルールが、ユーザによって事前定義されることを特徴とする、請求項3に記載のプロセス。
  5. 映像マッシュアップ(A)に関する情報が、前記映像マッシュアップの記述子から監視され、前記記述子が、データベース(4)に格納されることを特徴とする、請求項1から4のいずれか一項に記載のプロセス。
  6. 映像マッシュアップ(A)に関する情報が、前記マッシュアップの生成の間に、ユーザによって入力されるテキストデータを備え、前記テキストデータが、映像要約(S1、S2)に対するテキスト記述を編集するために分析されることを特徴とする、請求項1から5のいずれか一項に記載のプロセス。
  7. 映像マッシュアップ(A)に関する情報が、メタデータおよび/または注釈を備え、前記メタデータおよび/または注釈が、映像要約(S1、S2)に対する映像の遷移を編集するために分析されることを特徴とする、請求項1から6のいずれか一項に記載のプロセス。
  8. 少なくとも1つの映像マッシュアップ(A)が、少なくとも2つのユーザによって生成され、前記プロセスが、前記マッシュアップの生成の間に、前記ユーザの間で発生する会話を保存するステップを備え、前記会話がさらに、情報として監視され、映像要約(S1、S2)を編集するために分析されることを特徴とする、請求項1から7のいずれか一項に記載のプロセス。
  9. 情報が、前の映像マッシュアップ(A)の更新、および/または、前記映像マッシュアップを生成したユーザのプロファイルの更新、および/または、映像コンテンツ(B)の少なくとも1つのショット(C、D、E、F)を備える、新たに生成された映像マッシュアップ(A)に関する情報を備えたことを特徴とする、請求項1から8のいずれか一項に記載のプロセス。
  10. ユーザが、編集された映像要約(S1、S2)についてのフィードバックを与えることを可能にするステップを備え、前記フィードバックがさらに、情報として監視され、前記映像要約(S1、S2)を編集するために分析されることを特徴とする、請求項1から9のいずれか一項に記載のプロセス。
  11. ネットワークにおいて、映像サービスプロバイダ(1)からの映像コンテンツ(B)を自動的に要約するためのアプリケーション(2)であって、
    そのような映像サービスプロバイダ(1)のユーザによって生成された少なくとも2つの映像マッシュアップ(A)に関する情報を監視するための少なくとも1つのモジュール(5、10、11、12、13、14、16)であって、前記マッシュアップは、前記映像コンテンツの少なくとも1つのショット(C、D、E、F)を含み、前記モジュールは、前記情報を分析して、前記映像コンテンツの最もポピュラーなショット(C)を識別するための手段を備える、監視するための少なくとも1つのモジュール(5、10、11、12、13、14、16)と、
    前記識別されたショットの少なくとも1つを備えた映像要約を編集するための少なくとも1つのモジュール(9、15)と
    を備えた、アプリケーション。
  12. 映像マッシュアップ(A)において現れる映像コンテンツ(B)のショット(C、D、E、F)を監視および分析するためのモジュール(5)を備え、前記モジュールが、映像マッシュアップ(A)において最も現れるショット(C)を、最もポピュラーなショットとして識別することを特徴とする、請求項11に記載のアプリケーション(2)。
  13. 少なくとも1つの映像サービスプロバイダ(1)と、前記ネットワークのユーザが、前記サービスプロバイダの少なくとも1つの映像コンテンツ(B)からの映像マッシュアップ(A)を生成することを可能にするためのマニュアル映像構成アプリケーション(3)と、を備えたネットワークのためのアーキテクチャであって、前記アーキテクチャはさらに、ユーザに対する映像コンテンツ(B)を自動的に要約するためのアプリケーション(2)を備え、前記アプリケーションは、
    少なくとも2つの映像マッシュアップ(A)に関する情報を監視するための少なくとも1つのモジュール(5、10、11、12、13、14、16)であって、前記マッシュアップは、前記映像コンテンツの少なくとも1つのショット(C、D、E、F)を含み、前記モジュールは、前記情報を分析して、前記映像コンテンツの最もポピュラーなショット(C)を識別するための手段を備える、監視するための少なくとも1つのモジュール(5、10、11、12、13、14、16)と、
    前記識別されたショットの少なくとも1つを備えた映像要約(S1、S2)を編集するための少なくとも1つのモジュール(9、15)と
    を備えた、アーキテクチャ。
JP2015527874A 2012-08-24 2013-08-19 ネットワークにおいて少なくとも1つの映像サービスプロバイダのユーザに対する映像コンテンツを自動的に要約するためのプロセス Pending JP2015532043A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP12306020.4A EP2701078A1 (en) 2012-08-24 2012-08-24 Process for summarising automatically a video content for a user of at least one video service provider in a network
EP12306020.4 2012-08-24
PCT/EP2013/067208 WO2014029714A1 (en) 2012-08-24 2013-08-19 Process for summarising automatically a video content for a user of at least one video service provider in a network

Publications (1)

Publication Number Publication Date
JP2015532043A true JP2015532043A (ja) 2015-11-05

Family

ID=46801391

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015527874A Pending JP2015532043A (ja) 2012-08-24 2013-08-19 ネットワークにおいて少なくとも1つの映像サービスプロバイダのユーザに対する映像コンテンツを自動的に要約するためのプロセス

Country Status (6)

Country Link
US (1) US20150189402A1 (ja)
EP (1) EP2701078A1 (ja)
JP (1) JP2015532043A (ja)
KR (1) KR20150046221A (ja)
CN (1) CN104756105A (ja)
WO (1) WO2014029714A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10971191B2 (en) * 2012-12-12 2021-04-06 Smule, Inc. Coordinated audiovisual montage from selected crowd-sourced content with alignment to audio baseline
US20150348587A1 (en) * 2014-05-27 2015-12-03 Thomson Licensing Method and apparatus for weighted media content reduction
US10299017B2 (en) 2015-09-14 2019-05-21 Logitech Europe S.A. Video searching for filtered and tagged motion
US9313556B1 (en) 2015-09-14 2016-04-12 Logitech Europe S.A. User interface for video summaries
CN108351965B (zh) 2015-09-14 2022-08-02 罗技欧洲公司 视频摘要的用户界面
US9805567B2 (en) 2015-09-14 2017-10-31 Logitech Europe S.A. Temporal video streaming and summaries
JP6735927B2 (ja) * 2017-05-05 2020-08-05 グーグル エルエルシー ビデオコンテンツの要約処理
US10972655B1 (en) 2020-03-30 2021-04-06 Logitech Europe S.A. Advanced video conferencing systems and methods
US10951858B1 (en) 2020-03-30 2021-03-16 Logitech Europe S.A. Advanced video conferencing systems and methods
US10904446B1 (en) 2020-03-30 2021-01-26 Logitech Europe S.A. Advanced video conferencing systems and methods
US10965908B1 (en) 2020-03-30 2021-03-30 Logitech Europe S.A. Advanced video conferencing systems and methods

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005284392A (ja) * 2004-03-26 2005-10-13 Toshiba Solutions Corp ダイジェスト配信リスト生成サーバ及びダイジェスト配信リスト生成プログラム
US20060140586A1 (en) * 2004-12-27 2006-06-29 Kabushiki Kaisha Toshiba Picture reproducing apparatus, network system, and picture reproducing method
US20080235589A1 (en) * 2007-03-19 2008-09-25 Yahoo! Inc. Identifying popular segments of media objects
JP2008312061A (ja) * 2007-06-15 2008-12-25 Sony Corp 画像処理装置、その処理方法およびプログラム
JP2009169795A (ja) * 2008-01-18 2009-07-30 Sony Corp 情報処理装置および方法、並びにプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002087219A2 (en) * 2001-04-23 2002-10-31 Svod Llc Program guide enhancements
US20070297755A1 (en) * 2006-05-31 2007-12-27 Russell Holt Personalized cutlist creation and sharing system
WO2013001135A1 (en) * 2011-06-28 2013-01-03 Nokia Corporation Video remixing system
US9363488B2 (en) * 2012-01-06 2016-06-07 Nokia Technologies Oy Methods, apparatuses and computer program products for analyzing crowd source sensed data to determine information related to media content of media capturing devices
EP2868112A4 (en) * 2012-06-29 2016-06-29 Nokia Technologies Oy SYSTEM FOR VIDEO MIX

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005284392A (ja) * 2004-03-26 2005-10-13 Toshiba Solutions Corp ダイジェスト配信リスト生成サーバ及びダイジェスト配信リスト生成プログラム
US20060140586A1 (en) * 2004-12-27 2006-06-29 Kabushiki Kaisha Toshiba Picture reproducing apparatus, network system, and picture reproducing method
JP2006186672A (ja) * 2004-12-27 2006-07-13 Toshiba Corp 映像再生装置、ネットワークシステム及び映像再生方法
US20080235589A1 (en) * 2007-03-19 2008-09-25 Yahoo! Inc. Identifying popular segments of media objects
JP2008312061A (ja) * 2007-06-15 2008-12-25 Sony Corp 画像処理装置、その処理方法およびプログラム
JP2009169795A (ja) * 2008-01-18 2009-07-30 Sony Corp 情報処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
KR20150046221A (ko) 2015-04-29
EP2701078A1 (en) 2014-02-26
US20150189402A1 (en) 2015-07-02
WO2014029714A1 (en) 2014-02-27
CN104756105A (zh) 2015-07-01

Similar Documents

Publication Publication Date Title
JP2015532043A (ja) ネットワークにおいて少なくとも1つの映像サービスプロバイダのユーザに対する映像コンテンツを自動的に要約するためのプロセス
US10587920B2 (en) Cognitive digital video filtering based on user preferences
US9936184B2 (en) Code execution in complex audiovisual experiences
KR101863149B1 (ko) 연결된 미디어 장치들에서의 키워드 선택을 통한 채널 네비게이션
US8489600B2 (en) Method and apparatus for segmenting and summarizing media content
US9396763B2 (en) Computer-assisted collaborative tagging of video content for indexing and table of contents generation
US8831403B2 (en) System and method for creating customized on-demand video reports in a network environment
US11190821B2 (en) Methods and apparatus for alerting users to media events of interest using social media analysis
Thorson et al. YouTube, Twitter and the Occupy movement: Connecting content and circulation practices
US8108257B2 (en) Delayed advertisement insertion in videos
JP6122998B2 (ja) ビデオ内ブックマーキングに関する方法、及び非一時的コンピュータ可読記録媒体
WO2019245781A1 (en) Video summarization and collaboration systems and methods
US20100088726A1 (en) Automatic one-click bookmarks and bookmark headings for user-generated videos
CN108471541A (zh) 一种视频弹幕显示的方法及装置
US8700650B2 (en) Search results comparison methods and systems
CN111279709B (zh) 提供视频推荐
US20110119248A1 (en) Topic identification system, topic identification device, client terminal, program, topic identification method, and information processing method
US20110258154A1 (en) Content duration and interaction monitoring to automate presentation of media content in a channel sharing of media content in a channel
US20210173863A1 (en) Frameworks and methodologies configured to enable support and delivery of a multimedia messaging interface, including automated content generation and classification, content search and prioritisation, and data analytics
JP2015536005A (ja) マルチメディアプラットフォームを介して複数のマルチメディアコンテンツを推奨する方法およびシステム
CN109889921B (zh) 一种具备交互功能的音视频创建、播放方法及装置
US10372742B2 (en) Apparatus and method for tagging topic to content
Do et al. Movie indexing and summarization using social network techniques
Yang et al. Serving a video into an image carousel: system design and implementation
Fricke et al. Work Package 5: LinkedTV platform

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160510

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20161206