JP6498674B2 - マルチメディア資産の中のオブジェクトを注釈付けするための方法 - Google Patents

マルチメディア資産の中のオブジェクトを注釈付けするための方法 Download PDF

Info

Publication number
JP6498674B2
JP6498674B2 JP2016540648A JP2016540648A JP6498674B2 JP 6498674 B2 JP6498674 B2 JP 6498674B2 JP 2016540648 A JP2016540648 A JP 2016540648A JP 2016540648 A JP2016540648 A JP 2016540648A JP 6498674 B2 JP6498674 B2 JP 6498674B2
Authority
JP
Japan
Prior art keywords
image
detector model
multimedia
region
multimedia asset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016540648A
Other languages
English (en)
Other versions
JP2016540320A (ja
Inventor
リーベンス,サミー
ティトガット,ドニー
Original Assignee
アルカテル−ルーセント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アルカテル−ルーセント filed Critical アルカテル−ルーセント
Publication of JP2016540320A publication Critical patent/JP2016540320A/ja
Application granted granted Critical
Publication of JP6498674B2 publication Critical patent/JP6498674B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/87Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/858Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot
    • H04N21/8586Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot by using a URL

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、マルチメディア資産の中に存在しているオブジェクトの注釈付けに関する。
現在のところ、画像および映像などのマルチメディア資産の中に、情報価値のある、視覚的に乱すことのないハイパーリンクを置くことは、容易なことではない。今のところは、画像および映像の中のハイパーリンクは、実際の画像または映像コンテンツの上部に浮かぶクリック可能な、方形であることが多い、色付きの領域によって常に表される。コンテンツクリエータは、リンクを保持することになる領域(ほとんど多くの場合、方形の領域)を手動で示す。映像コンテンツの場合には、コンテンツクリエータは、ハイパーリンクを保持する領域がアクティブな状態のままになるように、開始/終了フレームも示さなくてはならなくなる。このことは、結果的に、ハイパーリンクをマルチメディア資産(画像&映像)に加えるという煩雑な工程をもたらし、上記のこの全工程が、結果的に、視覚的に乱す、魅力的でない、情報価値のないハイパーリンクをさらにもたらすことになる。その上、現在のハイパーリンク領域は、視覚コンテンツの中にあまり溶け込まず、マルチメディア資産の中に存在する実際のオブジェクトまたは人にひも付けられていない。
最近では、ハイパーリンクと関連付けられる必要がある(多くの場合、方形の)領域を視覚コンテンツの中にただ示すことによって、マルチメディア資産画像&映像コンテンツにハイパーリンクを加えなくてはならない。映像の場合には、ハイパーリンクが持続する間に時間制限(開始/終了フレーム)を示すことも求められる。
第1の例として、映像コンテンツの場合において、フォローアップムービーにまたは自分自身のフェイスブック/ホームページにリンクを置くことができるYouTube(登録商標)映像について考えてみる。これらのリンクは、常に、適時に固定(動かない)領域に置かれた、映像コンテンツの中の色付けされ、多くの場合に方形である領域によって表される。これらは、主には、あまりコンテンツに溶け込まず、示されたコンテンツにリンク付けされておらず、ただ映像の上部に浮いているという理由で、非常にうっとうしく、視覚的に喜ばしくない場合がある。
第2の例として、現在のところ、HTMLウェブページを構築するとき、画像内部の(映像の中ではない)クリック可能な領域を手動で示すことが可能である。この場合、コンテンツクリエータは、たとえば、すべての隅部場所を挙げることによって、多角形を使用する所定の形(方形、円形など)を使用することによって、領域およびその場所を手動で示さなくてはならない。この場合もやはり、これは、コンテンツクリエータが、通過しなくてはならない煩雑な工程であり、対処しなければ、この場合もやはり、視覚的に喜ばしくなく、情報価値がない結果になる。
本発明の目的は、上記知られているタイプではあるが、従来技術の固有の弱点、および言及された弱点を示さない、マルチメディア資産の中のオブジェクトを注釈付けするための方法を提供することである。
本発明の実施形態によれば、この目的は、
マルチメディア資産の中のオブジェクトを注釈付けするための方法であって、前記マルチメディア資産が、少なくとも1つのフレームを含む、方法によって達成され、前記方法が:
− 前記オブジェクトを分類することにより、前記マルチメディア資産の画像の中の前記オブジェクトのカテゴリを決定するステップと、
− 前記オブジェクトの前記カテゴリに基づいて、前記カテゴリと関連付けられる少なくとも1つのオブジェクト検出器モデルから適切なオブジェクト検出器モデルを選定するステップと、
− 選定された前記オブジェクト検出器モデルに基づいて、前記マルチメディア資産の前記画像の中の前記オブジェクトの場所を決定するステップであって、前記オブジェクト検出器モデルが、前記オブジェクトに対応する、決定するステップと、
− 前記画像内の前記オブジェクトの前記場所に基づいて、および任意選択で、前記オブジェクト検出器に基づいて、前記マルチメディア資産の前記フレームの中の検出された前記オブジェクトをセグメント化するステップと、
− 前記フレームの中のセグメント化されている前記オブジェクトをハイパーリンクで注釈付けするステップと
を含む。
それに対応して、本発明の実施形態は、マルチメディア資産の中のオブジェクトを注釈付けするためのマルチメディア注釈付けデバイスであって、前記マルチメディア資産が、少なくとも1つの画像を含む、マルチメディア注釈付けデバイスに関し、前記マルチメディア注釈付けデバイスが:
− 前記オブジェクトを分類することにより、前記マルチメディア資産の画像の中の前記オブジェクトのカテゴリを決定するように構成されているカテゴリ化手段と、
− 前記オブジェクトの前記カテゴリに基づいて、適切なオブジェクト検出器モデルを選定するように構成されているモデル管理手段と、
− 選定された前記オブジェクト検出器モデルに基づいて、前記マルチメディア資産の前記画像の中の前記オブジェクトの場所を決定するように構成されているオブジェクト検出手段であって、前記オブジェクト検出器モデルが、前記オブジェクトに対応する、オブジェクト検出手段と、
− 前記フレーム内の前記オブジェクトの前記場所に基づいて、および任意選択で、前記オブジェクト検出器に基づいて、前記マルチメディア資産の前記画像の中の前記オブジェクトをセグメント化するように構成されているオブジェクトセグメント化手段と、
− 前記画像内のセグメント化されている前記オブジェクトをハイパーリンクで注釈付けするように構成されているオブジェクト注釈付け手段と
を備える。
このやり方においては、マルチメディア資産の単一の画像またはフレームの中に存在するあるオブジェクトについて、マルチメディア資産の画像の中の選定されるオブジェクトのカテゴリを決定するステップであって、カテゴリの決定はオブジェクト分類の工程に基づく、決定するステップと、続いて、オブジェクトのカテゴリに基づいて、オブジェクトのカテゴリと関連付けられる少なくとも1つのオブジェクト検出器モデルから適切なオブジェクト検出器モデルを選定するステップであって、オブジェクト検出器モデルが、選定されたオブジェクトの特性を記述する、選定するステップと、オブジェクト検出器モデルを選定するステップの後に、マルチメディア資産の画像またはフレーム内のオブジェクトの場所を検出するステップであって、選定される前記オブジェクト検出器モデルが、前記オブジェクトに対応する、検出するステップ、続いて、画像またはフレーム内のオブジェクトの場所に基づいて、および任意選択で、選定されたオブジェクト検出器モデルに基づいて、前記マルチメディア資産の画像またはフレームの中の検出されたオブジェクトをセグメント化するステップが続き、最後に、フレームの中のセグメント化されているオブジェクトをハイパーリンクで事実上、注釈付けするステップとを行うことによる。
まず、注釈付け予定のマルチメディア資産の画像またはフレーム内の注釈付けされることになるあるオブジェクトのカテゴリが決定され、そのカテゴリの選定は、オブジェクトの分類に基づくことができる。オブジェクトのそのような分類は、例として、入力画像またはフレーム全体において適用される(例として、SIFT、SURF、GIST、もしくはその他を用いて実装される)特徴抽出のステップの組合せを含むことができ、そのステップの後には、特徴抽出の結果の統計分析が続き、結果として、局所特性を取り除く表現がもたらされる。したがって、オブジェクトは、画像の中のあらゆるところにある可能性があるが、それでもなお検出できることになる。統計分析のこのステップは、「bag of featuresの手法」を使用するヒストグラム作成を用いて、または「Vector of Locally Aggregated Descriptors(VLAD)を用いて、実装され得る。統計分析のステップの後に、分類のステップが続き、その分類のステップは、特徴抽出の結果の統計分析の結果、すなわち、検出予定のオブジェクトのどんな特定の統計結果が(背景および雑音などの)一般特徴に匹敵しているのかを抽出する工程に基づいている。分類は、Support Vector Machine SVM分類を用いて、またはSVMの代替であるニューラルネットワークを用いて実装され得る)。
Support Vector Machine SVM分類は、(たとえば、bag of features手法を用いて実装される)統計分析から結果として生じるヒストグラムにおいて適用され得、ただし、Support Vector Machine SVM分類は、検出されることになるオブジェクトを分類するために適用可能である。分類は場所を返すのではなく、分類はただ、オブジェクトが画像の中にあるか、それともないかを検出し、それは、分類が(場所を提供しないが)全検出の前に行う対象にしていることであることに留意されたい。
この分類により、オブジェクトクラスは、画像の中で分類されることが可能になる。続いて、オブジェクトの決定されたカテゴリに基づいて、適切なオブジェクト検出器モデルが選定され、そのオブジェクト検出器モデルは、注釈付けされることになるオブジェクトの特性について記述している。
カテゴリ化およびオブジェクト検出のステップは、リンク付けされたエンティティとして見なされるべきである。カテゴリ化ステップは、画像データが適用できるか否かを決定するために、それらに対してテストされることが必要なオブジェクト検出器の数を低減させる。これは、カテゴリ化ステップが、概して、より一般的なオブジェクトクラス(たとえば、人間)を出力することになることを意味する。そのようなオブジェクトクラスは、次いで、オブジェクト検出器モデルとリンク付けされ、そのオブジェクト検出器モデルは、続いて、親子の形で互いにリンク付けされる。より一般的なオブジェクト検出器モデルは、このモデルのより特定の例である「子」を有する。たとえば、モデル「人間」は、子「女」または「男」を有することができ、これらはまた、それぞれ「Angelina Jolie」および「Brad Pitt」などの子を有することができる。このモデルメタデータは、手動手段(人間オペレータ)によって提供され得る、または自動化方式で行われ得る。
自動化方式は、十分な特定のサンプルが与えられたとき、あるモデルのより特定の例を作成することになるが、他のサンプルはやはり、モデルの「一般的な」部分を維持する。
オブジェクト検出器モデルは、オブジェクトの全ての変形について記述している。オブジェクト検出器モデルとオブジェクト検出器との間にnから1のリンクがあり、すなわち、複数のモデルが、同じ検出器を使用することができる。検出器は、入力に関してモデルをいかに使用するか/フィッティングするか/更新するか/などの機構である。検出器は、機構を定義付けし、一方、検出器モデルは、そのような検出器の特定のインスタンス化を定義付けする(たとえば、「Angelina Jolie検出器モデル」、「自転車検出器モデル」など。
オブジェクト検出器モデルの決定後、マルチメディア資産のフレームまたは画像内で注釈付け予定のオブジェクトの場所が決定され、ただし、場所の決定は、選定されたオブジェクト検出器モデルに基づき、そのオブジェクト検出器モデルは、注釈付け予定のオブジェクトに対応する。そのような場所は、マルチメディア資産のフレームまたは画像内の領域とすることができ、ここで、注釈付けされることになるオブジェクトが検出される。
適切なオブジェクト検出器の選定と同時に、オブジェクトの場所は、意味付けされたオブジェクトと関連付けられるオブジェクト検出器モデルに基づいて決定され、前のステップにおいて決定されるその場所は、オブジェクトをセグメント化するために適用される。そのような場所は、マルチメディア資産のフレーム内の領域とすることができ、ここで、注釈付けされることになるオブジェクトが検出される。
そのような場所の決定は、ウィンドウベースの方式で行われ得、ここで、入力フレームまたは画像には、いくつかのテストウィンドウが重ね合わせられ、ただし、そのようなウィンドウは、複数の場所およびスケールで、決定されたカテゴリにより選定されたオブジェクト検出器モデルのインスタンス化を含んでいる。
オブジェクト検出アルゴリズムは、選定されたオブジェクト検出器モデルのインスタンス化を検出するために、これらのウィンドウのそれぞれにおいて実行される。良好な一致が見出される場合、オブジェクトは、認識されたと見なされ、対応するウィンドウが返される。
普通のオブジェクト検出アルゴリズムには、ウィンドウにおけるHistogram of Gradients HOGの構築が伴い、それが、完全なウィンドウからの情報を組み合わせると、これは、SIFTまたはSURFと比較して、より大域的な特徴である。Support Vector Machine SVMは、次いで、オブジェクトの検出を分類するために、再度、適用され得る。オブジェクトが検出される場合、オブジェクトの場所は、したがって、選定されたウィンドウ場所について知ることに起因して知られる。
(ViolaおよびJonesによって提案された)別の普及している手法には、迅速な評価を容易にするために、よく知られているHaar基底関数を使用し、Adaboostを効果的に使用してこれらの特徴を分類し、カスケード手法を採用する、Haar特徴の構築が伴う。
http://en.wikipedia.org/wiki/Viola%E2%80%93Jones_object_detection_framework
注釈付け予定のオブジェクトのオブジェクト検出器モデルと、画像またはフレーム内のオブジェクト場所とを考慮して、オブジェクトは、まず、セグメント化され、それは、オブジェクトが、フレームまたは画像の全コンテンツと、すなわち、マルチメディア資産のフレーム全体の他のオブジェクトと分離されることを意味し、最終的には、このセグメント化されたオブジェクトは、ハイパーリンクが注釈付けされ得る。
この意味付けされたオブジェクトのこのオブジェクトセグメント化は、画像内の意味付けされたオブジェクトの色および/またはテクスチャの類似性に基づいて、すなわち、フレーム内のオブジェクトの決定された場所において行われ得る。等しい色および/またはテクスチャを含む領域は、同じセグメントの一部であると仮定される。したがって、場所、すなわち、例として、フレームまたは画像内の領域において、そのようなセグメンテーションアルゴリズム(普及している選択肢は、「ウォータシェッド(watershed)」手法、およびk平均クラスタリングを含む)を適用することが可能であり、ここで、注釈付けされることになるオブジェクトが検出され、これにより、この領域を跨ぐことがないセグメントが維持される。)
オブジェクトセグメント化の代替の解決策は、オブジェクトをより正確にセグメント化するために、オブジェクト検出器からの追加の情報を使用することができる。たとえば、スケルトン構造(「スティック構造」)が人間一人の検出された領域とともに利用可能である場合、セグメンテーションアルゴリズムの開始点としてこのスケルトンを使用することが可能である。このスケルトンから開始するセグメントを大きくさせ、境界に達するとき、終了させることになる。
加えて、複数のフレームにわたってセグメント化されたデータの一貫した動きを使用して(そのようなオブジェクトが、複数のフレームにわたって検出される場合)、セグメンテーション結果を精緻化することが可能である。
注釈付けは、ハイパーリンクまたはUniformリソースLocator URLが、注釈付けされることになるオブジェクトのセグメント化された範囲に結び付けられていることを意味し得る。
注釈は、テキスト、画像、または他のデータに添付されるメタデータ(たとえば、コメント、説明、提示マークアップ)である。注釈は、元のデータの特定の一部を示すことが多い。任意のタイプのデータ「メタデータ(metadata)」は、この場合には、画像の特定の一部に添付され得る。画像のある一部を、関連のオブジェクト検出器モデルにより、メタデータに結び付ける注釈リンクは、様々な手段によって作成され得る。最も単純な方式においては、人間オペレータが、どんなメタデータがどのオブジェクト検出器モデルにリンク付けされる必要があるかを決める。したがって、この人間オペレータは、(オブジェクト検出器モデルによって知られている画像の中のオブジェクトとメタデータとの間のリンク、たとえば、ブラウザの中に開かれることになるURL、次に再生されることになる異なる映像へのリンク、同じ映像の中の異なるストーリ展開へのリンクなどを作る。
他の実施形態においては、リンクは、より初期の入力データ(たとえば、人間オペレータが、映像シーケンスのより初期の処理の際に入力したデータ)から、またはクラウドソーシングされたデータを採用すること(たとえば、画像データの例によりGoogle画像検索を行う)、および関連のデータを使用することによって、自動化方式で使用されて、俳優のインターネットムービーデータベース(internet Movie database:IMDB)ページ、もしくはWikipediaページなどの興味深いサイド情報を決定することができる。
代替として、いくつかのメタデータを指すリンクが、オブジェクト検出器モデルの中に含められ得、ただし、この含められたリンク情報は、意味付けされたオブジェクトを注釈付けするために適用され得る。
さらには、オブジェクトをセグメント化するステップは、事実上、注釈付けされることになるオブジェクトの形状について描出し、および任意選択で、この境界を作ることである。この方式においては、注釈付けされることになるオブジェクトは、ある条件の下、他のオブジェクトおよびマルチメディア資産のフレームの背景と視覚的に分離され得る。例として、ユーザが、コンテンツを一時停止すると、ハイパーリンクを含んだ領域は、たとえば、セグメント化され追跡(tracking)されたオブジェクトの周囲で白色の縁によってハイライトされ得る。任意選択で、フィードバックが、セグメント化され注釈付けされた領域にわたってホバーリングするとき、ユーザに与えられ得、ただし、白色の縁は、たとえば、オブジェクトの周囲で赤色の縁に置き換えられる。他の可能性および組合せが可能であるが、ここには載せていない。適用例に応じて、ユーザがある行為を実行する(たとえば、ある俳優についてもっと知るためにムービーを一時停止する)とき、ハイパーリンク視覚化を示すことのみの選択が行われ得ることに留意されたい。他の適用例においては、増強されたハイパーリンク視覚化は、それを示すことをコンテンツ作者が望むときのみ、示され得る。
まず、注釈付けされることになるオブジェクトが、注釈付けされることになるオブジェクトを分類することによって、その選択が最適化される最も適切なオブジェクト検出器モデルを使用することによって最適検出されているので、オブジェクトの注釈は、従来技術の解決策に対して、行うことがより良好に管理でき、より簡単である。注釈付けされることになるオブジェクトが最適検出される場合、それぞれのフレーム内のオブジェクトの場所は、最適に決定され得、オブジェクトの形状を描出するための最適入力をセグメンテーションのステップに与え、その描出された形状はさらに、描出されたオブジェクトの最終的な注釈に適用され得る。
本発明による方法の追加の利点は、オブジェクトの注釈が、注釈をコンテンツに溶け込ませること、およびオブジェクトの最適描出された形状の結果として、注釈付けされることになるオブジェクトへの注釈の結果的なリンク付けの改善に起因して、改善された提示を有することである。
本発明の実施形態の追加の利点は、視覚コンテンツの中の検出およびセグメント化されたオブジェクトにハイパーリンクを結び付けることが実現可能になってきていることであり、ここで、このハイパーリンク領域は、視覚コンテンツ内のこのオブジェクトの動き、および変換/変形に基づいて進展し得る。
本発明のさらなる実施形態は、前記オブジェクト(前記オブジェクトは、カテゴリと関連付けられる)の少なくとも1つのフラグメントを含んだ前記フレームまたは画像の領域を選定するステップ、および前記オブジェクトの少なくとも前記フラグメントを含んだ前記フレームまたは画像の前記領域の中の画像情報に基づいて、オブジェクト検出器モデルを抽出するステップであって、前記領域の中の前記画像が、選定された前記オブジェクト検出器モデルに基づいて、前記マルチメディア資産の前記画像の中の前記オブジェクトの場所を決定する前記ステップ中に得られる前記領域の中の前記画像から得られる、抽出するステップである。あるオブジェクトに利用可能なオブジェクト検出器モデルがない場合、新規オブジェクト検出器モデルが作成されるが、これは、オブジェクトの少なくとも1つのフラグメントを含んだ前記フレームまたは画像の領域を選定することであって、ただし、オブジェクトが、カテゴリと関連付けられる、選定することと、続いて、前記オブジェクトの少なくとも1つのフラグメントを含んだ前記フレームまたは画像の領域の中の画像情報に基づいて、オブジェクト検出器モデルを抽出することであって、前記領域の中の前記画像が、前記オブジェクト検出手段から得られる、抽出することとによって作成され、次の類似のオブジェクトの注釈付けに適用され得る新規オブジェクト検出器モデルが作成される。
前記オブジェクトの少なくとも1つのフラグメントを含んだ前記フレームまたは画像の領域は、選定後、カテゴリ化され、すなわち、あるカテゴリは、選定された領域内のオブジェクトに割り当てられる。
続いて、フレームまたは画像の中のオブジェクトの少なくとも1つのフラグメントを含んだ前記領域は、選定され、そのためのオブジェクトの少なくとも1つのフラグメントが、新規検出器モデルを作成するのに使用される。(同じオブジェクトを描写する)複数の入力画像が可能であり、その場合には、複数の付随する領域が選定されるべきである。
− 画像領域は、検出器によって予想されるフォーマットに(たとえば、Histogram of gradientsフォーマット、HOGフォーマットに)変換され得る。
前記領域の中の画像情報に基づいたオブジェクト検出器モデルの抽出は、画像領域のうちの1つまたは複数の中に示されるオブジェクトのあるプロパティの抽出およびモデリングである。これらのモデリングされたプロパティは、オブジェクトが、ある画像領域の中に存在しているかどうかを検出するために、後に使用され得る。より具体的には、オブジェクト検出器モデルは、2つの主なカテゴリに分割され得る。第1のカテゴリは、投影画像表現(2D)における特徴を使用することによって、間接的にオブジェクトをモデリングしようと試みる画像ベースのモデルから成る。このカテゴリにおいては、オブジェクト検出器モデル抽出は、通常、特徴モデリングステップがその後に続く特徴抽出ステップから成り、ここで、その特徴モデリングステップは、統計方法、例ベースの方法、またはその他から成ることができる。第2のカテゴリは、3D空間の中のオブジェクトをモデリングする幾何学認識のあるモデルのうちから成る。これらの技法により、幾何学モデルが、入力データをより良好にマッチングさせるために、フィッティングされ、適合される。したがって、間接測定結果(2D画像データ)をより良好にマッチングさせるために、(非常に一般的であり得る)既存の仮説から新規仮説が作成される。
本発明のなおも別の実施形態は、前記オブジェクトの少なくとも前記フラグメントを含んだ前記フレームまたは画像の前記領域から抽出される画像情報に基づいて、前記オブジェクト検出器に対応する前記オブジェクト検出器モデルをトレーニングするステップである。
このやり方においては、あるカテゴリの中のあるオブジェクトについての既存のオブジェクト検出器モデルが、意味付けされたオブジェクトの少なくとも1つのフラグメントを含んだフレームまたは画像の選定された領域について、オブジェクトの少なくとも1つのフラグメントを含んだフレームまたは画像のこの選定された領域から抽出される画像情報に基づいて、前記オブジェクト検出器に対応する、対応するオブジェクト検出器モデルをトレーニングすることによって改善される。
最初に、選定された領域が、モデル検出器によって検出され、検出器は、そのモデルを精緻化するために更新され得る。検出された領域から得られる入力データと、フィッティングされた検出器モデルとの差を示すスコアであるマッチングスコアが、検出器によって返され、領域が検出器を更新するのに使用されるべきか否かの選択が行われる。
選定された領域内の画像は、オブジェクト検出器に適しているフォーマット(たとえば、HOGフォーマット)に変換される。続いて、現在、トレーニング予定のオブジェクト検出器モデルが、トレーニング情報があらかじめ決定されている(方法に入力されている)か、または前述の方法を使用して次第に作り上げられるかのいずれかであるトレーニングセットに、選定された領域に関しての画像情報を加えることによって更新される。
本発明のさらなる実施形態は、前記マルチメディア資産の複数のフレームのうちのそれぞれのフレームの中の前記オブジェクトの前記場所を追跡するステップである。
このやり方においては、前記マルチメディア資産の中に含まれる複数のフレームまたは画像のうちのそれぞれのフレームまたは画像ごとによって、マルチメディア資産の画像のそれぞれ全体を通して、およびマルチメディア資産の後続の画像のそれぞれの中の場所に基づいて、オブジェクトの場所が決定され、追跡され、これらの場所は、互いに比較され得る。この追跡は、前記マルチメディア資産の前記フレームまたは画像の中の前記オブジェクトの場所の決定を訂正することに適用可能であり得るが、代替として、動くオブジェクトを追うこと、および可能性として、オブジェクトの形状または形式を変更することに適用され得る。
ハイパーリンクは、これらのセグメント化され追跡された領域に結び付けられ得、それにより、オブジェクトと酷似した、たとえば、ムービーの場合には、マルチメディア資産のコンテンツ全体にわたってオブジェクトの変形および動きを追うハイパーリンク領域が生み出される。
万一、複数の画像のうちのある画像内のオブジェクトの場所が、予想された範囲内にない場合、エラーが生じた可能性がある。ある画像内のオブジェクトの場所のこのエラーのある決定は、エラーのある場所決定を含むこのある画像の先行画像および後続画像の中のオブジェクトの場所に基づいて訂正され得る。
その上、前記マルチメディア資産の複数のフレームのうちのそれぞれのフレーム内のオブジェクトの追跡は、動くオブジェクトを追うこと、および可能性として、ムービーのようなマルチメディア資産内の形状または形式を変更すること、ならびに注釈付け予定のオブジェクトがフレーム内に存在している期間中にそのようなオブジェクトを注釈付けし続けることを可能にする。
本発明のさらなる別の実施形態は、前記注釈付けするステップが、セグメント化され前記ハイパーリンクで注釈付けされている前記オブジェクトを提示するための条件を加えることを追加的に含むことである。
この方式においては、注釈付けされることになるオブジェクトは、ある条件の下、他のオブジェクトおよびマルチメディア資産のフレームの背景と視覚的に分離され得る。例として、ユーザが、コンテンツを一時停止すると、ハイパーリンクを含んだ領域は、たとえば、セグメント化されかつ追跡されたオブジェクトの周囲で白色の縁によってハイライトされ得る。任意選択で、フィードバックが、セグメント化され注釈付けされた領域にわたってホバーリングするとき、ユーザに与えられ得、ただし、白色の縁は、たとえば、オブジェクトの周囲で赤色の縁に置き換えられる。
他の可能性および組合せが可能であるが、ここには載せていない。適用例に応じて、ユーザがある行為を実行する(たとえば、ある俳優についてもっと知るためにムービーを一時停止する)とき、ハイパーリンク視覚化を示すことのみの選択が行われ得ることに留意されたい。他の適用例においては、増強されたハイパーリンク視覚化は、それを示すことをコンテンツ作者が望むときのみ、示され得る。
本発明のさらなる別の実施形態においては、前記ハイパーリンクが、Uniform Resource Locator URLであり、または代替として、映像の中の代替のストーリ展開、または(ブラウザなどの外部アプリケーション上のリンクを開くのではなく映像オーバーレイで映像に追加の情報を表示することである。
特許請求の範囲の中で使用される用語「備える、含む(comprising)」が、その後に挙げられる手段に制限されると解釈されるべきでないことに留意されたい。したがって、表現「手段AおよびBを備えるデバイス(a device comprising means A and B)」の範囲は、構成要素AおよびBのみから成るデバイスに限定されるべきでない。それは、本発明に関して、デバイスの単なる関連のある構成要素が、AおよびBであることを意味している。
同様に、特許請求の範囲の中でやはり使用される用語「結び付けられている(coupled)」は、直接的な接続のみに制限されると解釈されるべきでないことに留意されたい。したがって、表現「デバイスBに結び付けられたデバイスA(a device A coupled to a device B)」の範囲は、デバイスAの出力部がデバイスBの入力部に直接接続されているデバイスまたはシステムに限定されるべきでない。それは、Aの出力部とBの入力部との間に経路が存在し、その経路は、他のデバイスまたは手段を含む経路とすることができることを意味している。
添付の図面とともに解釈される実施形態の以下の説明を参照することによって、本発明の上記ならびに他の目的および特徴はより明らかになり、本発明それ自体が最良に理解されよう。
マルチメディア資産の中のオブジェクトを注釈付けするためのシステムの実施形態の機能表現を表す図である。 本発明による、マルチメディア注釈付けデバイスの実施形態の機能表現を表す図である。 マルチメディア資産の単一画像を表示する図である。
説明および図面は、ただ単に、本発明の原理を例示しているにすぎない。したがって、当業者が、本明細書において明示的に説明され、示されていなくても、本発明の原理を具現化し、かつその精神および範囲の中に含まれている様々な構成を考案することができることは認識されよう。さらには、本明細書において列挙される例はすべて、当技術を推進するために、本発明の原理、および本発明者によって寄与される概念を理解する際に読者の助けとなる教育的目的としてのみであるように明確に主に意図されており、そのような具体的に列挙された例および条件に限定するものではないと解釈すべきである。その上、本発明の原理、態様、および実施形態、ならびにそれらの特定の例を列挙する本明細書の記載はすべて、それらの均等物を包含するように意図されている。
本明細書における任意のブロック略図は、本発明の原理を具現化する例示的な回路部の概念的図を表すことは、当業者によって認識されるべきである。同様に、任意のフローチャート、フロー略図、状態遷移略図、および疑似コードなどが、コンピュータ可読媒体において実質的に表され、したがって、コンピュータまたはプロセッサによって、そのようなコンピュータまたはプロセッサが明示的に示されているか否かにかかわらず、実行され得る様々な工程を表することは認識されよう。
以下の段落においては、図1の中の図面を参照して、システムの実装形態が説明される。第2の段落においては、言及される要素間のすべての接続関係が定義付けされる。
続いて、図2の中に提示される言及のシステムのすべての関連のある機能手段が説明され、その後に、すべての相互接続の説明が続く。後続の段落においては、システムの実際の実行が説明される。
システムの第1の基本要素は、結び付けられているユーザ通信デバイス(communication device)CD0・・CD3に映像およびまたは写真などのマルチメディアコンテンツを提供するためのコンテンツ配信ネットワーク(content delivery network)CDNの中のサーバであるコンテンツ配信ネットワークノード(content delivery network node)CDNNである。
さらには、システムは、複数のユーザ通信デバイスCD0・・CD3を含む。そのようなコンテンツ配信ネットワークは、通常、多数のそのようなユーザ通信デバイスCD1を含むが、簡単にするために、この実施形態においては、単に、通信デバイスCD0、…、CD3のみが説明され、図1の中に描写されている。
そのようなユーザ通信デバイスCD0、…、CD3は、パーソナルコンピュータ、セットトップボックスに結び付けられているテレビ画面、たとえばスマートフォンなどのモバイル通信デバイスとすることができ、そのようなデバイスのそれぞれは、映像もしくは写真などのそのようなマルチメディアコンテンツ映像コンテンツを見るためのスピーカ搭載またはスピーカ不搭載の画面、あるいは映像コンテンツおよびまたは写真を見るための機能ならびに手段を備えた画面を有する。加えて、そのような通信デバイスは、そのような映像コンテンツおよび/または写真の中のハイパーリンクを選定するための手段、ならびにハイパーリンクによって指されるこのコンテンツをフェッチし提示するための手段を追加的に有することができる。
コンテンツ配信ネットワークノードCDNNは、ウェブオブジェクト(テキスト、グラフィックス、およびスクリプト)、ダウンロード可能なオブジェクト(メディアファイル、ソフトウェア、文書)、アプリケーション(eコマース、ポータル)、ライブストリーミング媒体、オンデマンドストリーミング媒体、ならびにソーシャルネットを含む、今日のinternetコンテンツの大部分に、中でも特にエンドユーザがアクセスできるようにするネットワークノードとすることができる。
コンテンツ配信ネットワークノードCDNNは、マルチメディア資産の中のオブジェクトを注釈付けするための、本発明によるマルチメディア資産注釈デバイス(multimedia asset annotation device)MADをさらに含む。
さらには、ユーザ通信デバイスCD0、…、CD3のそれぞれは、ブロードバンドネットワークまたは任意の他の適したネットワークを含むコンテンツ配信ネットワークを介してコンテンツ配信ネットワークノードCDNNに結び付けられている。
マルチメディア資産の中のオブジェクトを注釈付けするためのマルチメディア注釈付けデバイス(Multimedia annotating Device)MADは、まず、映像資産または写真などのマルチメディア資産を入力するように構成されたマルチメディア資産入力手段(Multimedia asset input means)MIMを備える。そのようなマルチメディア資産入力手段MIMは、そのようなマルチメディア資産を明示的に注釈付けするためにオペレータによって入力されるマルチメディア資産を受け取り、またはそのようなマルチメディア資産を保持するデータベースに加えられるマルチメディア資産を自動的に受け取ることができる。さらには、マルチメディア注釈付けデバイスMADは、前記オブジェクトを分類することにより、前記マルチメディア資産のフレームまたは画像の中の前記オブジェクトのカテゴリを決定するように構成されているカテゴリ化手段(Categorizing means)CMと、前記オブジェクトの前記カテゴリに基づいて、適切なオブジェクト検出器モデルを選定するように構成されているモデル管理手段(Model management means)MSMと、選定された前記オブジェクト検出器モデルに基づいて、前記マルチメディア資産の前記フレームまたは画像の中の前記オブジェクトの場所を決定するように構成されているオブジェクト検出手段(Object detection means)ODMとを備え、前記オブジェクト検出器モデルは、前記オブジェクトに対応する。
マルチメディア注釈付けデバイスMADは、オブジェクト分類ごとに体系化されるオブジェクト検出器モデルを保持するための、たとえばデータベースであるオブジェクト検出器モデルストレージを追加的に含むことができる。代替案として、このストレージは、このマルチメディア注釈付けデバイスMADの外部に位置付けられていてもよい。
さらには、マルチメディア注釈付けデバイスMADは、前記フレーム内の前記オブジェクトの前記場所に基づいて、および任意選択で、前記オブジェクト検出器に基づいて、前記マルチメディア資産の前記フレームまたは画像の中の前記オブジェクトをセグメント化するように構成されているオブジェクトセグメント化手段(Object Segmenting means)OSMと、セグメント化されている前記フレームまたは画像内の前記オブジェクトをハイパーリンクで注釈付けするように構成されているオブジェクト注釈付け手段(object Annotating Means)OAMとを備える。
マルチメディア注釈付けデバイスMADは、注釈付け予定のオブジェクトに注釈を保持するための、たとえばデータベースであるオブジェクト注釈ストレージ(object annotation storage)OASをさらに含むことができ、ただし、そのような注釈は、テキスト、画像、または他のデータに添付されるべきメタデータ(たとえば、コメント、説明、提示マークアップ)である。注釈は、元のデータの特定の一部を示すことが多い。任意のタイプのデータ「メタデータ」は、この場合には、画像の特定の一部に添付され得る。リンク注釈リンクは、画像のある一部を関連のオブジェクト検出器モデルにより結び付ける。
その上、モデル管理手段MSMが:
− 前記オブジェクトの少なくとも1つのフラグメントを含んだ前記フレームまたは画像の領域を選定することであって、前記オブジェクトが、カテゴリと関連付けられる、選定することと、
− 前記オブジェクトの少なくとも前記フラグメントを含んだ前記画像またはフレームの前記領域の中の前記画像に関する情報に基づいて、オブジェクト検出器モデルを抽出することであって、前記領域の中の前記画像に関する前記情報が、前記オブジェクト検出手段ODMから得られる、抽出することと
を行うようにさらに構成されている。
モデル管理手段MSMが、前記オブジェクトの少なくとも前記フラグメントを含んだ前記フレームまたは画像の領域から抽出される画像情報に基づいて、前記オブジェクト検出器に対応する前記オブジェクト検出器モデルをトレーニングするようにさらに構成されている。マルチメディア注釈付けデバイスMADは、オブジェクト分類ごとに体系化されるオブジェクト検出器モデルを保持するための、たとえばデータベースであるオブジェクト検出器モデルストレージをさらに含むことができる。
マルチメディア注釈付けデバイスMADは、前記マルチメディア資産の複数のフレームのうちのそれぞれのフレームの中の前記オブジェクトの前記場所を追跡するように構成されているオブジェクト追跡手段(object tracking means)OTMを任意選択で含む。
最後に、マルチメディア注釈付けデバイスMADは、映像もしくは写真などの注釈付けされたマルチメディア資産をオペレータに出力するように、または注釈付けされたマルチメディア資産を、マルチメディア資産ストレージ手段(multimedia asset storage means)MSなどの、そのようなマルチメディア資産を保持するデータベースに加えるように構成されたマルチメディア資産出力手段(multimedia asset outputting means MOMを備えることができる。そのようなデータベースによって保持されるそのような注釈付けされたマルチメディア資産は、たとえば、各ユーザ通信デバイスを用いて、エンドユーザによる検索に利用可能である。
本発明の実行を説明するために、YouTube音楽映像、またはミュージシャンx、y、およびzを含むもの、または俳優X、Y、およびZを含むムービーである、あるマルチメディア資産(multimedia asset)MAが各俳優のウェブページにハイパーリンクで注釈付けされることになることを考える。俳優のそれぞれが、マルチメディア資産の単一画像を表示する図3の中に、簡単にする理由で、各オブジェクトX、Y、Zによって表されている。俳優のそれぞれが、いくつかの特性を有し、互いに対して異なっていることは明白である。
以下においては、俳優Xの注釈が説明される。俳優YおよびZである他のオブジェクトの注釈の実行および原理は、俳優Xのものと同様である。
メディア資産MAは、マルチメディア注釈付けデバイスMADのマルチメディア資産入力手段MIMに入力される。
マルチメディア資産MAは、そのようなマルチメディア資産を明示的に注釈付けするためにオペレータによってマルチメディア資産入力手段MIMに提供され、またはマルチメディア資産MAを保持するマルチメディアリポジトリ(multimedia repository)MARによって自動的に提供される。マルチメディア資産入力手段MIMは、前記オブジェクトX、すなわちマルチメディア資産MAの第1の画像とともに女優Xのカテゴリを決定するように構成されているカテゴリ化手段(Categorizing means)CMに向けて、マルチメディア資産MAを転送する。
カテゴリ化手段CMは、女優XであるオブジェクトXを分析し、「検出された特異的な特徴(detected distinct feature)」に基づいて、オブジェクトXが、オブジェクトクラスの人々、女、俳優であることが決定される。カテゴリ化手段CMは、マルチメディア資産の画像またはフレームの中に含まれている全入力画像に適用される、例として、SIFT、SURF、GIST、またはその他)を適用する特徴抽出を用いて、女優XであるオブジェクトXの分類を行う。実行された特徴抽出の結果は、それらを抽出するための関連方法による特徴タイプであるSIFT(Scale−invariant feature transform:スケール不変特徴変換)、SURF(Speeded Up Robust Features:高速化ロバスト特徴)、GISTなどの特徴の組である。したがって、特徴は、「SIFT特徴」、「SURF特徴」、「GIST特徴」などである。
続いて、特徴のこの組は、結果的に局所性不変特徴記述をもたらす「bag of features」手法を使用するヒストグラム作成を用いて、統計的に分析される。
この局所性不変特徴記述に基づいて、分類が、行われ、それは、例として、Support Vector Machine SVM分類を用いて行われ得る。Support Vector Machine SVM分類は、bag of features手法から結果として生じるヒストグラムにおいて適用され、結果的に、オブジェクトXのカテゴリは、女優のカテゴリになる。
続いて、カテゴリ化手段CMは、決定されたオブジェクトクラスととともに、マルチメディア資産MAの第1の画像、および決定された特徴:すなわち、人々、女、俳優を、前記オブジェクトの前記カテゴリに基づいて、適切なオブジェクト検出器モデルを選定するように構成されているモデル管理手段(MSM)に向けて転送する。
オブジェクトXについての決定されたオブジェクトクラスに基づいて、最も適切なオブジェクト検出器モデルが、オブジェクト検出器モデルストレージ(object detector model storage)ODMSから選定され、それは、オブジェクト検出器モデル女優Xである。代替として、複数のオブジェクト検出器モデルが、オブジェクトを検出するために選定され得る。
選定されたオブジェクト検出器モデルは、続いて、選定されたオブジェクト検出器モデルに基づいて、マルチメディア資産MAの前記第1の画像内の前記オブジェクトXの場所を決定するように構成されているオブジェクト検出手段ODMに通知され、転送され、ただし、オブジェクト検出器モデルは、オブジェクトXに対応する。
女優Xオブジェクト選定器モデルである選定されたオブジェクト検出器モデルのインスタンス化に基づいて、テストウィンドウ内に位置付けられたオブジェクト検出器モジュールは、言及のオブジェクトX、すなわち、女優Xを含んだ画像にオーバーレイされる。選定されたオブジェクト検出器モデル女優Xは、画像の中のオブジェクトXとマッチングされるように試行され、良好なマッチングが見出される場合、オブジェクトは、認識されたと見なされ、対応するウィンドウが、返される、すなわち、出力された結果に加えられる。
オブジェクト検出器モデルは、オブジェクトXが存在する場所、たとえば領域を、フィッティングされたオブジェクト検出器モデルと画像情報との間の対応レベルを決定するためにテストされる画像パッチ(すなわち、入力画像部分)を異なるサイズおよびスケールでマッチングさせるように試行することによって決定する。
モデルフィッティングは、2つのやり方で行われることができ、すなわち、前方フィッティングは、オブジェクト検出器モデルパラメータが適合され、視覚化が行われ、この視覚化は、実際の入力データと比較され、その後、パラメータが精緻化される。後方フィッティングは、入力データから開始し、このデータから直接、モデルパラメータを見出すように試みる。両方の技法が、よく使用され、選択は、選択されたモデリング技法によって決まる。返される対応レベルは、ほとんどの場合においては、オブジェクトが検出されるか否かを示す二分決定を得るために、閾値とすることができる値である。
続いて、オブジェクト検出手段ODMは、オブジェクトXの場所とともに第1の画像をオブジェクトセグメント化手段OSMに向けて転送し、このオブジェクトセグメント化手段OSMは、第1の画像内のオブジェクトXの前記場所に基づいて、マルチメディア資産の第1の画像の中のオブジェクトをセグメント化するように構成されている。任意選択で、選定されたオブジェクト検出器モデルからの情報が、オブジェクトセグメント化工程を支援する/精緻化するために適用され得る。たとえば、ピクセル当たりの信頼値が、あるピクセルが検出されたオブジェクトの一部であるのはどれくらいの見込みであるのかを示すオブジェクト検出器モデルによって与えられ得ることになる。これらの見込みは、次いで、セグメント化工程において使用され得る。別の可能性は、スケルトンベースのモデルが、オブジェクト検出器モデルによって提供されることである。このスケルトンは、次いで、増分セグメンテーションアルゴリズムのためのシード(seed)として(たとえば、ウォータシェッドアルゴリズムのためのシード点を選定するために)使用され得る。
この意味付けされたオブジェクトのこのセグメント化は、したがって、フレーム内のオブジェクトの決定された場所において画像内で検出されるオブジェクトXに対応するオブジェクト検出器モデルの色および/またはテクスチャの類似性に基づいて行われ得る。その上、等しい色および/またはテクスチャを含む領域の場合、これが同じセグメントの一部を形成することがセグメント化のこの工程において仮定される。したがって、オブジェクトXのより初期に決定された場所、およびオブジェクト検出器モデルから得られる情報(たとえば、色および/またはテクスチャ情報)に基づくオブジェクトセグメント化手段OSMにおいて、オブジェクト検出器モデルに対応する言及のオブジェクトは、オブジェクト、すなわち、俳優Xの外側境界を色付けすること、および任意選択で、オブジェクトを塗りつぶすことによって、画像の背景から描出される。
さらには、オブジェクトセグメント化手段OSMによって、画像内のオブジェクトXのセグメント化された範囲およびその場所が第1の完全画像とともに、オブジェクト注釈付け手段 OAMに向けて転送され、そのオブジェクト注釈付け手段 OAMは、セグメント化されたこの第1の画像内の前記オブジェクトをハイパーリンクで注釈付けするように構成されている。セグメント化された範囲の転送は、それぞれのピクセルについてそれがオブジェクトの一部を形成するか否かを示すビットマスクの使用によって行われ得る。
注釈は、テキスト、画像、または他のデータに添付されるメタデータ(たとえば、コメント、説明、提示マークアップ)を含む。注釈は、元のデータの特定の一部を示すことが多い。任意のタイプのデータ「メタデータ」は、この場合には、画像の特定の一部に添付され得る。画像のある一部を関連のオブジェクト検出器モデルによりメタデータと結び付けるリンク注釈リンクは、様々な手段によって作成され得る。最も単純な方式においては、人間オペレータが、どんなメタデータがどのオブジェクト検出器モデルにリンク付けされる必要があるかを決める。したがって、この人間オペレータは、(オブジェクト検出器モデルによって知られている画像の中のオブジェクトと、メタデータ、たとえば、ブラウザの中に開かれることになるURL、次の映像が再生されることになる異なる映像へのリンク、同じ映像の中の異なるストーリ展開へのリンクなどとの間のリンクを作る。
他の実施形態においては、リンクは、より初期の入力データ(たとえば、人間オペレータが、映像シーケンスのより初期の処理の際に入力したデータ)から、またはクラウドソーシングされたデータを採用すること(たとえば、画像データの例によりGoogle画像検索を行う)、および関連のデータを使用して、俳優のインターネットムービーデータベース(internet Movie database:IMDB)ページ、もしくはWikipediaページなどの興味深いサイド情報を決定することによって自動化方式で使用され得る。代替として、いくつかのメタデータを指すリンクが、オブジェクト検出器モデルの中に含められ得、ただし、この含められたリンク情報は、意味付けされたオブジェクトを注釈付けするために適用され得る。
選択されたハイパーリンクは、注釈付け予定のオブジェクトに注釈を保持するための、たとえば、データベースであるオブジェクト注釈ストレージ(object annotation storage)OASの中に格納され得ることになり、ただし、そのような注釈は、テキスト、画像、または他のデータに添付されるべきメタデータ(たとえば、コメント、説明、提示マークアップ)である。注釈は、元のデータの特定の一部を示すことが多い。任意のタイプのデータ「メタデータ」は、この場合には、画像の特定の一部に添付され得る。リンク注釈リンクは、画像のある一部を関連のオブジェクト検出器モデルにより結び付ける。
注釈がマルチメディア資産MAの第1の画像について行われるように、これは、完全マルチメディア資産MAのそれぞれの後続の画像について同じ方式で行われ得る。
最後に、完全にまたは部分的に注釈付けされたマルチメディア資産MAは、マルチメディア出力手段に渡され得、そのマルチメディア出力手段は、注釈付けされたマルチメディア資産をエンドユーザに転送すること、または注釈付けされたマルチメディア資産を後に使用するためにマルチメディア資産リポジトリMARの中に格納することができる。
本発明の追加の実施形態は、最初に、あるオブジェクト、たとえば、オブジェクトXについて存在するオブジェクト検出モデルがないことである。
あるオブジェクトに利用可能なオブジェクト検出器モデルがない場合、新規オブジェクト検出器モデルが、オブジェクトXの少なくとも1つのフラグメントを含んだマルチメディア資産MAの第1の画像の領域を選定することによって作成され、ただし、オブジェクトは、まず、カテゴリ、すなわち、人々、女、女優と関連付けられ、続いて、オブジェクト検出器モデルが、オブジェクト、すなわち、オブジェクトXの少なくとも1つのフラグメントを含んだ第1の画像の領域の中の画像情報に基づいて抽出し、前記領域の中の前記画像が、前記オブジェクト検出手段から得られ、次の類似したオブジェクトの注釈付けに適用され得る新規オブジェクト検出器モデルが作成される。
前記オブジェクトの少なくとも1つのフラグメントを含んだ前記フレームまたは画像の領域は、選定後、カテゴリ化され、すなわち、あるカテゴリが、選定された領域内のオブジェクトに割り当てられる。
続いて、フレームまたは画像の中のオブジェクトの少なくとも1つのフラグメントを含んだ前記領域は、選定され、そのためのオブジェクトの少なくとも1つのフラグメントが、新規検出器モデルを作成するのに使用される。(同じオブジェクトを描写する)複数の入力画像が可能であり、その場合には、複数の付随する領域が選定されるべきである。
画像領域は、検出器にとって予想されるフォーマットに(たとえば、Histogram of gradientsフォーマット、HOGフォーマットに)変換され得る。
前記領域の中の画像情報に基づいたオブジェクト検出器モデルの抽出は、画像領域のうちの1つまたは複数の中に示されるオブジェクトのあるプロパティの抽出およびモデリングである。これらのモデリングされたプロパティは、オブジェクトが、ある画像領域の中に存在しているかどうかを検出するために、後に使用され得る。より具体的には、オブジェクト検出器モデルは、2つの主なカテゴリに分割され得る。第1のカテゴリは、投影画像表現(2D)における特徴を使用することによって、間接的にオブジェクトをモデリングしようと試みる画像ベースのモデルから成る。このカテゴリにおいては、オブジェクト検出器モデル抽出は、通常、特徴モデリングステップがその後に続く特徴抽出ステップから成り、ここで、その特徴モデリングステップは、統計方法、例ベースの方法、またはその他から成ることができる。第2のカテゴリは、3D空間の中のオブジェクトをモデリングする幾何学認識のあるモデルのうちから成る。これらの技法により、幾何学モデルが、入力データをより良好にマッチングさせるために、フィッティングされ、適合される。したがって、間接測定結果(2D画像データ)をより良好にマッチングさせるために、(非常に一般的であり得る)既存の仮説から新規仮説が作成される。
オペレータが、分類不可能なオブジェクト(認識されたオブジェクトがない)を手動で示す場合、新規オブジェクト検出器モデルが、トレーニングデータとして手動で注釈付けされたデータを使用して作成され、分類器もまた、このデータにおいてトレーニングされる。任意選択で、可能な分類エラー(すなわち、分類器が、オブジェクトを正確に検出しなかったこと)に対処するために、完全に新規のオブジェクト検出器を作成する前にまず、すべての(一般的な)オブジェクト検出器を試行することができる。しかしながら、これは、コンピュータ的に高価な動作である(分類によるオブジェクト検出器モデルのフィルタリングはない)。
分類中に、オブジェクトクラスは、どのオブジェクトクラスが、オブジェクトモデル検出器の組にリンク付けされるかを検出した。検出器は、一般的から具体的に(たとえば、人間→女性→女優X)実行される。分類と検出器モデルとの間のリンケージ情報は、手動で行うことができるが、種々のモデルの検出を分析することによって自動的に行われ得るだろう。これは、分類が、ただ単に、実行されるべき検出器モデルのサブセットを指定するにすぎないという理由から可能である。したがって、最初に、より大きいサブセットを提供し、検出結果に従って、このサブセットを自動的に精緻化することは問題ではない。しかしながら、すでに述べたように、通常、このリンケージは、手動方式で(たとえば、「人間」分類器を一般的な「人間」検出器モデルとリンク付けする)行われる。
さらには、本発明のさらなる実施形態は、モデル管理手段MSMが、オブジェクトXに対応する選定されたオブジェクト検出器モデルをトレーニングするようにさらに構成されていることであり、ただし、オブジェクト検出器モデルが、オブジェクトXの少なくとも1つのフラグメントを含むマルチメディア資産の第1の画像の領域から抽出される画像情報に基づく。マルチメディア注釈付けデバイスMADは、オブジェクト分類ごとに体系化されるオブジェクト検出器モデルを保持するための、たとえばRepositoryであるオブジェクト検出器モデルストレージODMSをさらに含むことができる。
本発明の別のさらなる代替の実施形態は、マルチメディア注釈付けデバイスMADが、前記マルチメディア資産の複数のフレームのうちのそれぞれのフレームの中の前記オブジェクトの前記場所を追跡するように構成されているオブジェクト追跡手段OTMを任意選択で含むことである。
追跡ステップは、連続的な映像フレームの中のオブジェクトを追跡するのに使用される。このステップは、任意選択であり、連続的なオブジェクト場所(ウィンドウ)に時間的モデルを設けることによって、オブジェクト検出器出力のロバスト性を改善するのに使用され得る。これは、エラーのあるオブジェクト検出の影響を低減させる。検出されたオブジェクトが、まず、追跡器(tracker)によって受け取られるとき、それは、時間とともにこのオブジェクトの動きの進展を表す状態を初期化することになる。この状態は、このオブジェクトの「有効時間(lifetime)」中に保存される。「有効時間」が、必ずしも、オブジェクトが画像の中にある持続期間を意味するわけではないことに留意されたい。オブジェクトは、画像から外に消え、少し経って再度、入ってくることもあり得る。オブジェクトの状態データをいつ削除するかを決めるのは、追跡器の責任である。実践の際には、この振舞いは、タイムアウト、すなわち、隠れたオブジェクトが「忘れられる(forgotten)」のにかかる時間、という概念を表すパラメータによって調整され得る(通常、配置段階において固定される)。基礎追跡アルゴリズムは、単一のオブジェクトを追跡することに焦点を当てるが、拡張は、これらを展開して複数オブジェクトの追跡に利用可能である。概して、追跡は、次のステップを伴う。入力は、現在のフレーム、ならびにオブジェクトが以前のフレームの中にあった場所、および(オブジェクト検出器から出力される)現在のフレームの中のオブジェクトの予想される場所のうちから成る。次いで、追跡されたオブジェクトの視覚特性を記述する外観モデルが使用される。外観モデル、入力フレーム、ならびに以前および現在の推定される場所を考慮して、オブジェクトが新規入力画像の中に存在する新規場所を探す、いわゆるモード探索動作が行われる。
高い頻度で使用される追跡技法は、平均シフト追跡(類似性尺度の反復最適化)、および(追跡されたオブジェクトの今後の場所に関する予測を組み込む)より複雑なKalmanベースの追跡器を含む。これらは、外観ベースのオブジェクト追跡の分野において、よく知られている技法である。
検出されたオブジェクトの位置は、マルチメディア資産MAの複数の画像のうちのそれぞれの画像についての場所、すなわち、オブジェクトXが存在する領域を追跡するように構成されているオブジェクト追跡手段OTMに供給され得る。
安定して追跡されたオブジェクト位置は、次いで、周囲の背景からオブジェクトに対応するピクセルを外にうまくセグメント化するオブジェクトセグメンテーション手段OSMに転送され、それにより、ハイパーリンク注釈をオブジェクトに(およびオブジェクトのピクセルにのみうまく適合させることが可能になる
また、手動の対話なしにハイパーリンクを自動的に加える場合においては(第2の実施形態を参照のこと)、またはオブジェクトが、特定の時間、画面から外に出て行き、後に画面の中に戻ってくる場合においては、オブジェクト検出器モデルは、後に使用するためにいずれかのところに格納される必要がある。
説明された実施形態は、コンテンツ配信ネットワークに対処しているが、任意の種類の配信ネットワークが適用可能であり、または本発明の実施形態が、YouTubeまたは他の等価な映像もしくは写真のサービスにムービーを載せる前に、自身のムービーを注釈付けするあるユーザの、そのようなマルチメディアコンテンツ注釈付けデバイスを含んだパーソナルコンピュータであってよいことに留意されたい。
本発明のさらなる代替の実施形態は、CDNの中のコンテンツが、システムに知られている情報により自動的に拡大される完全自動化ハイパーリンク拡大サービスにおけるシステムの統合とすることもできることになる。俳優は、したがって、自動化方式で、CDNのすべてのコンテンツについての関連のあるハイパーリングで注釈付け可能になる。システムに知られていない俳優の場合、なおも自動化方式で関連のある注釈を提供する(たとえば、Wikipediaまたはimdb.comからの視覚情報を抽出する、および知られていない俳優にそれをマッチングさせる)ために、学習済みの検出器と他の利用可能な情報源との間の相関付けが行われ得る。代替として、新しい俳優がますます人気になってくると、人間オペレータは、新しい俳優を加えるためにシステムにログインすることができる。
最後に、本発明の実施形態が、機能ブロックの観点で上に述べられていることを注記する。上記で与えられたこれらのブロックの機能説明から、これらのブロックの実施形態が、よく知られている電子構成要素により、いかに製造可能であるかは、電子デバイスを設計する当業者には明らかになろう。したがって、機能ブロックの内容の詳細なアーキテクチャは、与えられていない。
本発明の原理は、特定の装置と関係して上に述べられてきたが、この説明は、ただ単に例としてなされているにすぎず、添付の特許請求の範囲の中で定義される本発明の範囲において限定としてなされているのではないことは明確に理解されたい。

Claims (9)

  1. マルチメディア資産の中のオブジェクトを注釈付けするための方法であって、前記マルチメディア資産が、少なくとも1つの画像を含み、前記方法が、
    − 前記オブジェクトを分類することにより、前記マルチメディア資産の画像の中の前記オブジェクトのカテゴリを決定するステップと、
    − 前記オブジェクトの前記カテゴリに基づいて、前記カテゴリと関連付けられる少なくとも1つのオブジェクト検出器モデルから適切なオブジェクト検出器モデルを選定するステップと、
    − 選定された前記オブジェクト検出器モデルに基づいて、前記マルチメディア資産の前記画像の中の前記オブジェクトの場所を決定するステップであって、前記オブジェクト検出器モデルが、前記オブジェクトに対応する、決定するステップと、
    − 前記画像内の前記オブジェクトの前記場所に基づいて、および任意選択で、前記選定されたオブジェクト検出器モデルに基づいて、前記マルチメディア資産の前記画像の中の検出された前記オブジェクトをセグメント化するステップと、
    − 前記画像の中のセグメント化されている前記オブジェクトを、ハイパーリンクにより、かつ、セグメント化されている前記オブジェクトを提示するための条件を加えることにより、注釈付けするステップと
    を含む、方法。
  2. − 前記オブジェクトの少なくともフラグメントを含んだ前記画像の領域を選定するステップと、
    − 前記オブジェクトの少なくとも前記フラグメントを含んだ前記画像の前記領域の中の画像情報に基づいて、オブジェクト検出器モデルを抽出するステップであって、前記領域の中の前記画像が、選定された前記オブジェクト検出器モデルに基づいて、前記マルチメディア資産の前記画像の中の前記オブジェクトの場所を決定する前記ステップ中に得られる、抽出するステップと
    をさらに含む、請求項1に記載の方法。
  3. 前記オブジェクトの少なくともフラグメントを含んだ前記画像の領域を検出するステップと、
    前記オブジェクトの少なくとも前記フラグメントを含んだ前記画像の前記領域から抽出される画像情報に基づいて、前記オブジェクトに対応する前記選定されたオブジェクト検出器モデルをトレーニングするステップとをさらに含む、請求項1または2に記載の方法。
  4. 前記マルチメディア資産の複数の画像のうちのそれぞれの画像の中の前記オブジェクトの前記場所を追跡するステップをさらに含む、請求項1から3のいずれか一項に記載の方法。
  5. 前記ハイパーリンクが、URLであり、代替として、前記画像にオーバーレイで追加の情報を表示することである、請求項1に記載の方法。
  6. マルチメディア資産の中のオブジェクトを注釈付けするためのマルチメディア注釈付けデバイス(MAD)であって、前記マルチメディア資産が、少なくとも1つの画像を含み、前記マルチメディア注釈付けデバイス(MAD)が、
    − 前記オブジェクトを分類することにより、前記マルチメディア資産の画像の中の前記オブジェクトのカテゴリを決定するように構成されたカテゴリ化手段(CM)と、
    − 前記オブジェクトの前記カテゴリに基づいて、適切なオブジェクト検出器モデルを選定するように構成されたモデル管理手段(MSM)と、
    − 選定された前記オブジェクト検出器モデルに基づいて、前記マルチメディア資産の前記画像の中の前記オブジェクトの場所を決定するように構成されたオブジェクト検出手段(ODM)であって、前記オブジェクト検出器モデルが、前記オブジェクトに対応する、オブジェクト検出手段(ODM)と、
    − 前記画像内の前記オブジェクトの前記場所に基づいて、および任意選択で、前記選定されたオブジェクト検出器モデルに基づいて、前記マルチメディア資産の前記画像の中の前記オブジェクトをセグメント化するように構成されたオブジェクトセグメント化手段(OSM)と、
    − 前記画像内のセグメント化されている前記オブジェクトを、ハイパーリンクにより、かつ、セグメント化されている前記オブジェクトを提示するための条件を加えることにより、注釈付けするように構成されたオブジェクト注釈付け手段(OAM)と
    を備える、マルチメディア注釈付けデバイス(MAD)。
  7. 前記モデル管理手段(MSM)が、
    − 前記オブジェクトの少なくとも1つのフラグメントを含んだ前記画像の領域を選定することであって、前記オブジェクトが、カテゴリと関連付けられる、選定することと、
    − 前記オブジェクトの少なくとも前記フラグメントを含んだ前記画像の前記領域の中の前記画像に関する情報に基づいて、オブジェクト検出器モデルを抽出することであって、前記領域の中の前記画像に関する前記情報が、前記オブジェクト検出手段(ODM)から得られる、抽出することと
    を行うようにさらに構成されている、請求項6に記載のマルチメディア注釈付けデバイス(MAD)。
  8. 前記モデル管理手段(MSM)が、
    − 前記オブジェクトの少なくとも1つのフラグメントを含んだ前記画像の領域を検出し、
    − 前記オブジェクトの少なくとも前記フラグメントを含んだ前記画像の前記領域から抽出される画像情報に基づいて、前記オブジェクトに対応する前記選定されたオブジェクト検出器モデルをトレーニングする
    ようにさらに構成されている、請求項6または7に記載のマルチメディア注釈付けデバイス(MAD)。
  9. 請求項6から8のいずれか一項に記載のマルチメディア注釈付けデバイス(MAD)を備えるデバイス
JP2016540648A 2013-12-17 2014-12-11 マルチメディア資産の中のオブジェクトを注釈付けするための方法 Expired - Fee Related JP6498674B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13306744.7A EP2887259A1 (en) 2013-12-17 2013-12-17 Method for annotating an object in a multimedia asset
EP13306744.7 2013-12-17
PCT/EP2014/077333 WO2015091192A1 (en) 2013-12-17 2014-12-11 Method for annotating an object in a multimedia asset

Publications (2)

Publication Number Publication Date
JP2016540320A JP2016540320A (ja) 2016-12-22
JP6498674B2 true JP6498674B2 (ja) 2019-04-10

Family

ID=50031119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016540648A Expired - Fee Related JP6498674B2 (ja) 2013-12-17 2014-12-11 マルチメディア資産の中のオブジェクトを注釈付けするための方法

Country Status (4)

Country Link
US (1) US9866894B2 (ja)
EP (1) EP2887259A1 (ja)
JP (1) JP6498674B2 (ja)
WO (1) WO2015091192A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180011828A1 (en) * 2016-07-08 2018-01-11 Yen4Ken, Inc Method and system for recommending multimedia segments in multimedia content for annotation
US10691969B2 (en) * 2017-11-06 2020-06-23 EagleSens Systems Corporation Asynchronous object ROI detection in video mode
KR101866363B1 (ko) * 2017-11-24 2018-06-12 공간정보기술 주식회사 사용자 기반 조건에 따른 3차원(3d) 모델링 생성과 제공 시스템
CN108446722B (zh) * 2018-03-06 2021-04-30 中国船舶重工集团公司第七二四研究所 一种基于雷达视频数据分布特征的目标长效稳定跟踪方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008067139A (ja) 2006-09-08 2008-03-21 Softbank Telecom Corp 映像コンテンツ配信システム、配信方法、および、コンテンツ供給サーバ
US8170392B2 (en) * 2007-11-21 2012-05-01 Shlomo Selim Rakib Method and apparatus for generation, distribution and display of interactive video content
US9195898B2 (en) * 2009-04-14 2015-11-24 Qualcomm Incorporated Systems and methods for image recognition using mobile devices
JP2011059898A (ja) * 2009-09-08 2011-03-24 Fujifilm Corp 画像解析装置、画像解析方法およびプログラム
US9158971B2 (en) * 2014-03-03 2015-10-13 Xerox Corporation Self-learning object detectors for unlabeled videos using multi-task learning

Also Published As

Publication number Publication date
US9866894B2 (en) 2018-01-09
WO2015091192A1 (en) 2015-06-25
EP2887259A1 (en) 2015-06-24
US20160323627A1 (en) 2016-11-03
JP2016540320A (ja) 2016-12-22

Similar Documents

Publication Publication Date Title
US10642892B2 (en) Video search method and apparatus
EP3267362B1 (en) Machine learning image processing
US10742340B2 (en) System and method for identifying the context of multimedia content elements displayed in a web-page and providing contextual filters respective thereto
US10621755B1 (en) Image file compression using dummy data for non-salient portions of images
CN113010703B (zh) 一种信息推荐方法、装置、电子设备和存储介质
US10311913B1 (en) Summarizing video content based on memorability of the video content
US9087242B2 (en) Video synthesis using video volumes
CN110446063B (zh) 视频封面的生成方法、装置及电子设备
EP2568429A1 (en) Method and system for pushing individual advertisement based on user interest learning
JP6498674B2 (ja) マルチメディア資産の中のオブジェクトを注釈付けするための方法
Wong et al. Smartannotator an interactive tool for annotating indoor rgbd images
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
JP6787831B2 (ja) 検索結果による学習が可能な対象検出装置、検出モデル生成装置、プログラム及び方法
KR20220000758A (ko) 영상 검출 장치 및 그 동작 방법
US10163036B2 (en) System and method of analyzing images using a hierarchical set of models
CN114064974A (zh) 信息处理方法、装置、电子设备、存储介质及程序产品
de Abreu et al. Toward content-driven intelligent authoring of mulsemedia applications
CN105324787A (zh) 用户的基于手势的广告简档
CN115935049A (zh) 基于人工智能的推荐处理方法、装置及电子设备
CN117112814A (zh) 虚假媒体内容挖掘及识别系统及其识别方法
CN112052352A (zh) 视频排序方法、装置、服务器及存储介质
CN111739649A (zh) 一种用户画像捕捉方法、装置及系统
CN112233054B (zh) 基于关系三元组的人-物交互图像生成方法
KR20230051995A (ko) 실감형 확장현실 콘텐츠 관리 플랫폼
CN113705154A (zh) 基于视频的内容交互方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160815

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190313

R150 Certificate of patent or registration of utility model

Ref document number: 6498674

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees