JP6498674B2

JP6498674B2 - マルチメディア資産の中のオブジェクトを注釈付けするための方法

Info

Publication number: JP6498674B2
Application number: JP2016540648A
Authority: JP
Inventors: リーベンス，サミー; ティトガット，ドニー
Original assignee: アルカテル−ルーセント
Priority date: 2013-12-17
Filing date: 2014-12-11
Publication date: 2019-04-10
Anticipated expiration: 2034-12-11
Also published as: US9866894B2; WO2015091192A1; EP2887259A1; US20160323627A1; JP2016540320A

Description

本発明は、マルチメディア資産の中に存在しているオブジェクトの注釈付けに関する。

現在のところ、画像および映像などのマルチメディア資産の中に、情報価値のある、視覚的に乱すことのないハイパーリンクを置くことは、容易なことではない。今のところは、画像および映像の中のハイパーリンクは、実際の画像または映像コンテンツの上部に浮かぶクリック可能な、方形であることが多い、色付きの領域によって常に表される。コンテンツクリエータは、リンクを保持することになる領域（ほとんど多くの場合、方形の領域）を手動で示す。映像コンテンツの場合には、コンテンツクリエータは、ハイパーリンクを保持する領域がアクティブな状態のままになるように、開始／終了フレームも示さなくてはならなくなる。このことは、結果的に、ハイパーリンクをマルチメディア資産（画像＆映像）に加えるという煩雑な工程をもたらし、上記のこの全工程が、結果的に、視覚的に乱す、魅力的でない、情報価値のないハイパーリンクをさらにもたらすことになる。その上、現在のハイパーリンク領域は、視覚コンテンツの中にあまり溶け込まず、マルチメディア資産の中に存在する実際のオブジェクトまたは人にひも付けられていない。

最近では、ハイパーリンクと関連付けられる必要がある（多くの場合、方形の）領域を視覚コンテンツの中にただ示すことによって、マルチメディア資産画像＆映像コンテンツにハイパーリンクを加えなくてはならない。映像の場合には、ハイパーリンクが持続する間に時間制限（開始／終了フレーム）を示すことも求められる。

第１の例として、映像コンテンツの場合において、フォローアップムービーにまたは自分自身のフェイスブック／ホームページにリンクを置くことができるＹｏｕＴｕｂｅ（登録商標）映像について考えてみる。これらのリンクは、常に、適時に固定（動かない）領域に置かれた、映像コンテンツの中の色付けされ、多くの場合に方形である領域によって表される。これらは、主には、あまりコンテンツに溶け込まず、示されたコンテンツにリンク付けされておらず、ただ映像の上部に浮いているという理由で、非常にうっとうしく、視覚的に喜ばしくない場合がある。

第２の例として、現在のところ、ＨＴＭＬウェブページを構築するとき、画像内部の（映像の中ではない）クリック可能な領域を手動で示すことが可能である。この場合、コンテンツクリエータは、たとえば、すべての隅部場所を挙げることによって、多角形を使用する所定の形（方形、円形など）を使用することによって、領域およびその場所を手動で示さなくてはならない。この場合もやはり、これは、コンテンツクリエータが、通過しなくてはならない煩雑な工程であり、対処しなければ、この場合もやはり、視覚的に喜ばしくなく、情報価値がない結果になる。

本発明の目的は、上記知られているタイプではあるが、従来技術の固有の弱点、および言及された弱点を示さない、マルチメディア資産の中のオブジェクトを注釈付けするための方法を提供することである。

本発明の実施形態によれば、この目的は、
マルチメディア資産の中のオブジェクトを注釈付けするための方法であって、前記マルチメディア資産が、少なくとも１つのフレームを含む、方法によって達成され、前記方法が：
− 前記オブジェクトを分類することにより、前記マルチメディア資産の画像の中の前記オブジェクトのカテゴリを決定するステップと、
− 前記オブジェクトの前記カテゴリに基づいて、前記カテゴリと関連付けられる少なくとも１つのオブジェクト検出器モデルから適切なオブジェクト検出器モデルを選定するステップと、
− 選定された前記オブジェクト検出器モデルに基づいて、前記マルチメディア資産の前記画像の中の前記オブジェクトの場所を決定するステップであって、前記オブジェクト検出器モデルが、前記オブジェクトに対応する、決定するステップと、
− 前記画像内の前記オブジェクトの前記場所に基づいて、および任意選択で、前記オブジェクト検出器に基づいて、前記マルチメディア資産の前記フレームの中の検出された前記オブジェクトをセグメント化するステップと、
− 前記フレームの中のセグメント化されている前記オブジェクトをハイパーリンクで注釈付けするステップと
を含む。

それに対応して、本発明の実施形態は、マルチメディア資産の中のオブジェクトを注釈付けするためのマルチメディア注釈付けデバイスであって、前記マルチメディア資産が、少なくとも１つの画像を含む、マルチメディア注釈付けデバイスに関し、前記マルチメディア注釈付けデバイスが：
− 前記オブジェクトを分類することにより、前記マルチメディア資産の画像の中の前記オブジェクトのカテゴリを決定するように構成されているカテゴリ化手段と、
− 前記オブジェクトの前記カテゴリに基づいて、適切なオブジェクト検出器モデルを選定するように構成されているモデル管理手段と、
− 選定された前記オブジェクト検出器モデルに基づいて、前記マルチメディア資産の前記画像の中の前記オブジェクトの場所を決定するように構成されているオブジェクト検出手段であって、前記オブジェクト検出器モデルが、前記オブジェクトに対応する、オブジェクト検出手段と、
− 前記フレーム内の前記オブジェクトの前記場所に基づいて、および任意選択で、前記オブジェクト検出器に基づいて、前記マルチメディア資産の前記画像の中の前記オブジェクトをセグメント化するように構成されているオブジェクトセグメント化手段と、
− 前記画像内のセグメント化されている前記オブジェクトをハイパーリンクで注釈付けするように構成されているオブジェクト注釈付け手段と
を備える。

このやり方においては、マルチメディア資産の単一の画像またはフレームの中に存在するあるオブジェクトについて、マルチメディア資産の画像の中の選定されるオブジェクトのカテゴリを決定するステップであって、カテゴリの決定はオブジェクト分類の工程に基づく、決定するステップと、続いて、オブジェクトのカテゴリに基づいて、オブジェクトのカテゴリと関連付けられる少なくとも１つのオブジェクト検出器モデルから適切なオブジェクト検出器モデルを選定するステップであって、オブジェクト検出器モデルが、選定されたオブジェクトの特性を記述する、選定するステップと、オブジェクト検出器モデルを選定するステップの後に、マルチメディア資産の画像またはフレーム内のオブジェクトの場所を検出するステップであって、選定される前記オブジェクト検出器モデルが、前記オブジェクトに対応する、検出するステップ、続いて、画像またはフレーム内のオブジェクトの場所に基づいて、および任意選択で、選定されたオブジェクト検出器モデルに基づいて、前記マルチメディア資産の画像またはフレームの中の検出されたオブジェクトをセグメント化するステップが続き、最後に、フレームの中のセグメント化されているオブジェクトをハイパーリンクで事実上、注釈付けするステップとを行うことによる。

まず、注釈付け予定のマルチメディア資産の画像またはフレーム内の注釈付けされることになるあるオブジェクトのカテゴリが決定され、そのカテゴリの選定は、オブジェクトの分類に基づくことができる。オブジェクトのそのような分類は、例として、入力画像またはフレーム全体において適用される（例として、ＳＩＦＴ、ＳＵＲＦ、ＧＩＳＴ、もしくはその他を用いて実装される）特徴抽出のステップの組合せを含むことができ、そのステップの後には、特徴抽出の結果の統計分析が続き、結果として、局所特性を取り除く表現がもたらされる。したがって、オブジェクトは、画像の中のあらゆるところにある可能性があるが、それでもなお検出できることになる。統計分析のこのステップは、「ｂａｇｏｆｆｅａｔｕｒｅｓの手法」を使用するヒストグラム作成を用いて、または「ＶｅｃｔｏｒｏｆＬｏｃａｌｌｙＡｇｇｒｅｇａｔｅｄＤｅｓｃｒｉｐｔｏｒｓ（ＶＬＡＤ）を用いて、実装され得る。統計分析のステップの後に、分類のステップが続き、その分類のステップは、特徴抽出の結果の統計分析の結果、すなわち、検出予定のオブジェクトのどんな特定の統計結果が（背景および雑音などの）一般特徴に匹敵しているのかを抽出する工程に基づいている。分類は、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅＳＶＭ分類を用いて、またはＳＶＭの代替であるニューラルネットワークを用いて実装され得る）。

ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅＳＶＭ分類は、（たとえば、ｂａｇｏｆｆｅａｔｕｒｅｓ手法を用いて実装される）統計分析から結果として生じるヒストグラムにおいて適用され得、ただし、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅＳＶＭ分類は、検出されることになるオブジェクトを分類するために適用可能である。分類は場所を返すのではなく、分類はただ、オブジェクトが画像の中にあるか、それともないかを検出し、それは、分類が（場所を提供しないが）全検出の前に行う対象にしていることであることに留意されたい。

この分類により、オブジェクトクラスは、画像の中で分類されることが可能になる。続いて、オブジェクトの決定されたカテゴリに基づいて、適切なオブジェクト検出器モデルが選定され、そのオブジェクト検出器モデルは、注釈付けされることになるオブジェクトの特性について記述している。

カテゴリ化およびオブジェクト検出のステップは、リンク付けされたエンティティとして見なされるべきである。カテゴリ化ステップは、画像データが適用できるか否かを決定するために、それらに対してテストされることが必要なオブジェクト検出器の数を低減させる。これは、カテゴリ化ステップが、概して、より一般的なオブジェクトクラス（たとえば、人間）を出力することになることを意味する。そのようなオブジェクトクラスは、次いで、オブジェクト検出器モデルとリンク付けされ、そのオブジェクト検出器モデルは、続いて、親子の形で互いにリンク付けされる。より一般的なオブジェクト検出器モデルは、このモデルのより特定の例である「子」を有する。たとえば、モデル「人間」は、子「女」または「男」を有することができ、これらはまた、それぞれ「ＡｎｇｅｌｉｎａＪｏｌｉｅ」および「ＢｒａｄＰｉｔｔ」などの子を有することができる。このモデルメタデータは、手動手段（人間オペレータ）によって提供され得る、または自動化方式で行われ得る。

自動化方式は、十分な特定のサンプルが与えられたとき、あるモデルのより特定の例を作成することになるが、他のサンプルはやはり、モデルの「一般的な」部分を維持する。

オブジェクト検出器モデルは、オブジェクトの全ての変形について記述している。オブジェクト検出器モデルとオブジェクト検出器との間にｎから１のリンクがあり、すなわち、複数のモデルが、同じ検出器を使用することができる。検出器は、入力に関してモデルをいかに使用するか／フィッティングするか／更新するか／などの機構である。検出器は、機構を定義付けし、一方、検出器モデルは、そのような検出器の特定のインスタンス化を定義付けする（たとえば、「ＡｎｇｅｌｉｎａＪｏｌｉｅ検出器モデル」、「自転車検出器モデル」など。

オブジェクト検出器モデルの決定後、マルチメディア資産のフレームまたは画像内で注釈付け予定のオブジェクトの場所が決定され、ただし、場所の決定は、選定されたオブジェクト検出器モデルに基づき、そのオブジェクト検出器モデルは、注釈付け予定のオブジェクトに対応する。そのような場所は、マルチメディア資産のフレームまたは画像内の領域とすることができ、ここで、注釈付けされることになるオブジェクトが検出される。

適切なオブジェクト検出器の選定と同時に、オブジェクトの場所は、意味付けされたオブジェクトと関連付けられるオブジェクト検出器モデルに基づいて決定され、前のステップにおいて決定されるその場所は、オブジェクトをセグメント化するために適用される。そのような場所は、マルチメディア資産のフレーム内の領域とすることができ、ここで、注釈付けされることになるオブジェクトが検出される。

そのような場所の決定は、ウィンドウベースの方式で行われ得、ここで、入力フレームまたは画像には、いくつかのテストウィンドウが重ね合わせられ、ただし、そのようなウィンドウは、複数の場所およびスケールで、決定されたカテゴリにより選定されたオブジェクト検出器モデルのインスタンス化を含んでいる。

オブジェクト検出アルゴリズムは、選定されたオブジェクト検出器モデルのインスタンス化を検出するために、これらのウィンドウのそれぞれにおいて実行される。良好な一致が見出される場合、オブジェクトは、認識されたと見なされ、対応するウィンドウが返される。

普通のオブジェクト検出アルゴリズムには、ウィンドウにおけるＨｉｓｔｏｇｒａｍｏｆＧｒａｄｉｅｎｔｓＨＯＧの構築が伴い、それが、完全なウィンドウからの情報を組み合わせると、これは、ＳＩＦＴまたはＳＵＲＦと比較して、より大域的な特徴である。ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅＳＶＭは、次いで、オブジェクトの検出を分類するために、再度、適用され得る。オブジェクトが検出される場合、オブジェクトの場所は、したがって、選定されたウィンドウ場所について知ることに起因して知られる。

（ＶｉｏｌａおよびＪｏｎｅｓによって提案された）別の普及している手法には、迅速な評価を容易にするために、よく知られているＨａａｒ基底関数を使用し、Ａｄａｂｏｏｓｔを効果的に使用してこれらの特徴を分類し、カスケード手法を採用する、Ｈａａｒ特徴の構築が伴う。
ｈｔｔｐ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｖｉｏｌａ％Ｅ２％８０％９３Ｊｏｎｅｓ＿ｏｂｊｅｃｔ＿ｄｅｔｅｃｔｉｏｎ＿ｆｒａｍｅｗｏｒｋ

注釈付け予定のオブジェクトのオブジェクト検出器モデルと、画像またはフレーム内のオブジェクト場所とを考慮して、オブジェクトは、まず、セグメント化され、それは、オブジェクトが、フレームまたは画像の全コンテンツと、すなわち、マルチメディア資産のフレーム全体の他のオブジェクトと分離されることを意味し、最終的には、このセグメント化されたオブジェクトは、ハイパーリンクが注釈付けされ得る。

この意味付けされたオブジェクトのこのオブジェクトセグメント化は、画像内の意味付けされたオブジェクトの色および／またはテクスチャの類似性に基づいて、すなわち、フレーム内のオブジェクトの決定された場所において行われ得る。等しい色および／またはテクスチャを含む領域は、同じセグメントの一部であると仮定される。したがって、場所、すなわち、例として、フレームまたは画像内の領域において、そのようなセグメンテーションアルゴリズム（普及している選択肢は、「ウォータシェッド（ｗａｔｅｒｓｈｅｄ）」手法、およびｋ平均クラスタリングを含む）を適用することが可能であり、ここで、注釈付けされることになるオブジェクトが検出され、これにより、この領域を跨ぐことがないセグメントが維持される。）

オブジェクトセグメント化の代替の解決策は、オブジェクトをより正確にセグメント化するために、オブジェクト検出器からの追加の情報を使用することができる。たとえば、スケルトン構造（「スティック構造」）が人間一人の検出された領域とともに利用可能である場合、セグメンテーションアルゴリズムの開始点としてこのスケルトンを使用することが可能である。このスケルトンから開始するセグメントを大きくさせ、境界に達するとき、終了させることになる。

加えて、複数のフレームにわたってセグメント化されたデータの一貫した動きを使用して（そのようなオブジェクトが、複数のフレームにわたって検出される場合）、セグメンテーション結果を精緻化することが可能である。

注釈付けは、ハイパーリンクまたはＵｎｉｆｏｒｍリソースＬｏｃａｔｏｒＵＲＬが、注釈付けされることになるオブジェクトのセグメント化された範囲に結び付けられていることを意味し得る。

注釈は、テキスト、画像、または他のデータに添付されるメタデータ（たとえば、コメント、説明、提示マークアップ）である。注釈は、元のデータの特定の一部を示すことが多い。任意のタイプのデータ「メタデータ（ｍｅｔａｄａｔａ）」は、この場合には、画像の特定の一部に添付され得る。画像のある一部を、関連のオブジェクト検出器モデルにより、メタデータに結び付ける注釈リンクは、様々な手段によって作成され得る。最も単純な方式においては、人間オペレータが、どんなメタデータがどのオブジェクト検出器モデルにリンク付けされる必要があるかを決める。したがって、この人間オペレータは、（オブジェクト検出器モデルによって知られている画像の中のオブジェクトとメタデータとの間のリンク、たとえば、ブラウザの中に開かれることになるＵＲＬ、次に再生されることになる異なる映像へのリンク、同じ映像の中の異なるストーリ展開へのリンクなどを作る。

他の実施形態においては、リンクは、より初期の入力データ（たとえば、人間オペレータが、映像シーケンスのより初期の処理の際に入力したデータ）から、またはクラウドソーシングされたデータを採用すること（たとえば、画像データの例によりＧｏｏｇｌｅ画像検索を行う）、および関連のデータを使用することによって、自動化方式で使用されて、俳優のインターネットムービーデータベース（ｉｎｔｅｒｎｅｔＭｏｖｉｅｄａｔａｂａｓｅ：ＩＭＤＢ）ページ、もしくはＷｉｋｉｐｅｄｉａページなどの興味深いサイド情報を決定することができる。

代替として、いくつかのメタデータを指すリンクが、オブジェクト検出器モデルの中に含められ得、ただし、この含められたリンク情報は、意味付けされたオブジェクトを注釈付けするために適用され得る。

さらには、オブジェクトをセグメント化するステップは、事実上、注釈付けされることになるオブジェクトの形状について描出し、および任意選択で、この境界を作ることである。この方式においては、注釈付けされることになるオブジェクトは、ある条件の下、他のオブジェクトおよびマルチメディア資産のフレームの背景と視覚的に分離され得る。例として、ユーザが、コンテンツを一時停止すると、ハイパーリンクを含んだ領域は、たとえば、セグメント化され追跡（ｔｒａｃｋｉｎｇ）されたオブジェクトの周囲で白色の縁によってハイライトされ得る。任意選択で、フィードバックが、セグメント化され注釈付けされた領域にわたってホバーリングするとき、ユーザに与えられ得、ただし、白色の縁は、たとえば、オブジェクトの周囲で赤色の縁に置き換えられる。他の可能性および組合せが可能であるが、ここには載せていない。適用例に応じて、ユーザがある行為を実行する（たとえば、ある俳優についてもっと知るためにムービーを一時停止する）とき、ハイパーリンク視覚化を示すことのみの選択が行われ得ることに留意されたい。他の適用例においては、増強されたハイパーリンク視覚化は、それを示すことをコンテンツ作者が望むときのみ、示され得る。

まず、注釈付けされることになるオブジェクトが、注釈付けされることになるオブジェクトを分類することによって、その選択が最適化される最も適切なオブジェクト検出器モデルを使用することによって最適検出されているので、オブジェクトの注釈は、従来技術の解決策に対して、行うことがより良好に管理でき、より簡単である。注釈付けされることになるオブジェクトが最適検出される場合、それぞれのフレーム内のオブジェクトの場所は、最適に決定され得、オブジェクトの形状を描出するための最適入力をセグメンテーションのステップに与え、その描出された形状はさらに、描出されたオブジェクトの最終的な注釈に適用され得る。

本発明による方法の追加の利点は、オブジェクトの注釈が、注釈をコンテンツに溶け込ませること、およびオブジェクトの最適描出された形状の結果として、注釈付けされることになるオブジェクトへの注釈の結果的なリンク付けの改善に起因して、改善された提示を有することである。

本発明の実施形態の追加の利点は、視覚コンテンツの中の検出およびセグメント化されたオブジェクトにハイパーリンクを結び付けることが実現可能になってきていることであり、ここで、このハイパーリンク領域は、視覚コンテンツ内のこのオブジェクトの動き、および変換／変形に基づいて進展し得る。

本発明のさらなる実施形態は、前記オブジェクト（前記オブジェクトは、カテゴリと関連付けられる）の少なくとも１つのフラグメントを含んだ前記フレームまたは画像の領域を選定するステップ、および前記オブジェクトの少なくとも前記フラグメントを含んだ前記フレームまたは画像の前記領域の中の画像情報に基づいて、オブジェクト検出器モデルを抽出するステップであって、前記領域の中の前記画像が、選定された前記オブジェクト検出器モデルに基づいて、前記マルチメディア資産の前記画像の中の前記オブジェクトの場所を決定する前記ステップ中に得られる前記領域の中の前記画像から得られる、抽出するステップである。あるオブジェクトに利用可能なオブジェクト検出器モデルがない場合、新規オブジェクト検出器モデルが作成されるが、これは、オブジェクトの少なくとも１つのフラグメントを含んだ前記フレームまたは画像の領域を選定することであって、ただし、オブジェクトが、カテゴリと関連付けられる、選定することと、続いて、前記オブジェクトの少なくとも１つのフラグメントを含んだ前記フレームまたは画像の領域の中の画像情報に基づいて、オブジェクト検出器モデルを抽出することであって、前記領域の中の前記画像が、前記オブジェクト検出手段から得られる、抽出することとによって作成され、次の類似のオブジェクトの注釈付けに適用され得る新規オブジェクト検出器モデルが作成される。

前記オブジェクトの少なくとも１つのフラグメントを含んだ前記フレームまたは画像の領域は、選定後、カテゴリ化され、すなわち、あるカテゴリは、選定された領域内のオブジェクトに割り当てられる。

続いて、フレームまたは画像の中のオブジェクトの少なくとも１つのフラグメントを含んだ前記領域は、選定され、そのためのオブジェクトの少なくとも１つのフラグメントが、新規検出器モデルを作成するのに使用される。（同じオブジェクトを描写する）複数の入力画像が可能であり、その場合には、複数の付随する領域が選定されるべきである。

− 画像領域は、検出器によって予想されるフォーマットに（たとえば、Ｈｉｓｔｏｇｒａｍｏｆｇｒａｄｉｅｎｔｓフォーマット、ＨＯＧフォーマットに）変換され得る。

前記領域の中の画像情報に基づいたオブジェクト検出器モデルの抽出は、画像領域のうちの１つまたは複数の中に示されるオブジェクトのあるプロパティの抽出およびモデリングである。これらのモデリングされたプロパティは、オブジェクトが、ある画像領域の中に存在しているかどうかを検出するために、後に使用され得る。より具体的には、オブジェクト検出器モデルは、２つの主なカテゴリに分割され得る。第１のカテゴリは、投影画像表現（２Ｄ）における特徴を使用することによって、間接的にオブジェクトをモデリングしようと試みる画像ベースのモデルから成る。このカテゴリにおいては、オブジェクト検出器モデル抽出は、通常、特徴モデリングステップがその後に続く特徴抽出ステップから成り、ここで、その特徴モデリングステップは、統計方法、例ベースの方法、またはその他から成ることができる。第２のカテゴリは、３Ｄ空間の中のオブジェクトをモデリングする幾何学認識のあるモデルのうちから成る。これらの技法により、幾何学モデルが、入力データをより良好にマッチングさせるために、フィッティングされ、適合される。したがって、間接測定結果（２Ｄ画像データ）をより良好にマッチングさせるために、（非常に一般的であり得る）既存の仮説から新規仮説が作成される。

本発明のなおも別の実施形態は、前記オブジェクトの少なくとも前記フラグメントを含んだ前記フレームまたは画像の前記領域から抽出される画像情報に基づいて、前記オブジェクト検出器に対応する前記オブジェクト検出器モデルをトレーニングするステップである。

このやり方においては、あるカテゴリの中のあるオブジェクトについての既存のオブジェクト検出器モデルが、意味付けされたオブジェクトの少なくとも１つのフラグメントを含んだフレームまたは画像の選定された領域について、オブジェクトの少なくとも１つのフラグメントを含んだフレームまたは画像のこの選定された領域から抽出される画像情報に基づいて、前記オブジェクト検出器に対応する、対応するオブジェクト検出器モデルをトレーニングすることによって改善される。

最初に、選定された領域が、モデル検出器によって検出され、検出器は、そのモデルを精緻化するために更新され得る。検出された領域から得られる入力データと、フィッティングされた検出器モデルとの差を示すスコアであるマッチングスコアが、検出器によって返され、領域が検出器を更新するのに使用されるべきか否かの選択が行われる。

選定された領域内の画像は、オブジェクト検出器に適しているフォーマット（たとえば、ＨＯＧフォーマット）に変換される。続いて、現在、トレーニング予定のオブジェクト検出器モデルが、トレーニング情報があらかじめ決定されている（方法に入力されている）か、または前述の方法を使用して次第に作り上げられるかのいずれかであるトレーニングセットに、選定された領域に関しての画像情報を加えることによって更新される。

本発明のさらなる実施形態は、前記マルチメディア資産の複数のフレームのうちのそれぞれのフレームの中の前記オブジェクトの前記場所を追跡するステップである。

このやり方においては、前記マルチメディア資産の中に含まれる複数のフレームまたは画像のうちのそれぞれのフレームまたは画像ごとによって、マルチメディア資産の画像のそれぞれ全体を通して、およびマルチメディア資産の後続の画像のそれぞれの中の場所に基づいて、オブジェクトの場所が決定され、追跡され、これらの場所は、互いに比較され得る。この追跡は、前記マルチメディア資産の前記フレームまたは画像の中の前記オブジェクトの場所の決定を訂正することに適用可能であり得るが、代替として、動くオブジェクトを追うこと、および可能性として、オブジェクトの形状または形式を変更することに適用され得る。

ハイパーリンクは、これらのセグメント化され追跡された領域に結び付けられ得、それにより、オブジェクトと酷似した、たとえば、ムービーの場合には、マルチメディア資産のコンテンツ全体にわたってオブジェクトの変形および動きを追うハイパーリンク領域が生み出される。

万一、複数の画像のうちのある画像内のオブジェクトの場所が、予想された範囲内にない場合、エラーが生じた可能性がある。ある画像内のオブジェクトの場所のこのエラーのある決定は、エラーのある場所決定を含むこのある画像の先行画像および後続画像の中のオブジェクトの場所に基づいて訂正され得る。

その上、前記マルチメディア資産の複数のフレームのうちのそれぞれのフレーム内のオブジェクトの追跡は、動くオブジェクトを追うこと、および可能性として、ムービーのようなマルチメディア資産内の形状または形式を変更すること、ならびに注釈付け予定のオブジェクトがフレーム内に存在している期間中にそのようなオブジェクトを注釈付けし続けることを可能にする。

本発明のさらなる別の実施形態は、前記注釈付けするステップが、セグメント化され前記ハイパーリンクで注釈付けされている前記オブジェクトを提示するための条件を加えることを追加的に含むことである。

この方式においては、注釈付けされることになるオブジェクトは、ある条件の下、他のオブジェクトおよびマルチメディア資産のフレームの背景と視覚的に分離され得る。例として、ユーザが、コンテンツを一時停止すると、ハイパーリンクを含んだ領域は、たとえば、セグメント化されかつ追跡されたオブジェクトの周囲で白色の縁によってハイライトされ得る。任意選択で、フィードバックが、セグメント化され注釈付けされた領域にわたってホバーリングするとき、ユーザに与えられ得、ただし、白色の縁は、たとえば、オブジェクトの周囲で赤色の縁に置き換えられる。

他の可能性および組合せが可能であるが、ここには載せていない。適用例に応じて、ユーザがある行為を実行する（たとえば、ある俳優についてもっと知るためにムービーを一時停止する）とき、ハイパーリンク視覚化を示すことのみの選択が行われ得ることに留意されたい。他の適用例においては、増強されたハイパーリンク視覚化は、それを示すことをコンテンツ作者が望むときのみ、示され得る。

本発明のさらなる別の実施形態においては、前記ハイパーリンクが、ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒＵＲＬであり、または代替として、映像の中の代替のストーリ展開、または（ブラウザなどの外部アプリケーション上のリンクを開くのではなく映像オーバーレイで映像に追加の情報を表示することである。

特許請求の範囲の中で使用される用語「備える、含む（ｃｏｍｐｒｉｓｉｎｇ）」が、その後に挙げられる手段に制限されると解釈されるべきでないことに留意されたい。したがって、表現「手段ＡおよびＢを備えるデバイス（ａｄｅｖｉｃｅｃｏｍｐｒｉｓｉｎｇｍｅａｎｓＡａｎｄＢ）」の範囲は、構成要素ＡおよびＢのみから成るデバイスに限定されるべきでない。それは、本発明に関して、デバイスの単なる関連のある構成要素が、ＡおよびＢであることを意味している。

同様に、特許請求の範囲の中でやはり使用される用語「結び付けられている（ｃｏｕｐｌｅｄ）」は、直接的な接続のみに制限されると解釈されるべきでないことに留意されたい。したがって、表現「デバイスＢに結び付けられたデバイスＡ（ａｄｅｖｉｃｅＡｃｏｕｐｌｅｄｔｏａｄｅｖｉｃｅＢ）」の範囲は、デバイスＡの出力部がデバイスＢの入力部に直接接続されているデバイスまたはシステムに限定されるべきでない。それは、Ａの出力部とＢの入力部との間に経路が存在し、その経路は、他のデバイスまたは手段を含む経路とすることができることを意味している。

添付の図面とともに解釈される実施形態の以下の説明を参照することによって、本発明の上記ならびに他の目的および特徴はより明らかになり、本発明それ自体が最良に理解されよう。

マルチメディア資産の中のオブジェクトを注釈付けするためのシステムの実施形態の機能表現を表す図である。本発明による、マルチメディア注釈付けデバイスの実施形態の機能表現を表す図である。マルチメディア資産の単一画像を表示する図である。

説明および図面は、ただ単に、本発明の原理を例示しているにすぎない。したがって、当業者が、本明細書において明示的に説明され、示されていなくても、本発明の原理を具現化し、かつその精神および範囲の中に含まれている様々な構成を考案することができることは認識されよう。さらには、本明細書において列挙される例はすべて、当技術を推進するために、本発明の原理、および本発明者によって寄与される概念を理解する際に読者の助けとなる教育的目的としてのみであるように明確に主に意図されており、そのような具体的に列挙された例および条件に限定するものではないと解釈すべきである。その上、本発明の原理、態様、および実施形態、ならびにそれらの特定の例を列挙する本明細書の記載はすべて、それらの均等物を包含するように意図されている。

本明細書における任意のブロック略図は、本発明の原理を具現化する例示的な回路部の概念的図を表すことは、当業者によって認識されるべきである。同様に、任意のフローチャート、フロー略図、状態遷移略図、および疑似コードなどが、コンピュータ可読媒体において実質的に表され、したがって、コンピュータまたはプロセッサによって、そのようなコンピュータまたはプロセッサが明示的に示されているか否かにかかわらず、実行され得る様々な工程を表することは認識されよう。

以下の段落においては、図１の中の図面を参照して、システムの実装形態が説明される。第２の段落においては、言及される要素間のすべての接続関係が定義付けされる。

続いて、図２の中に提示される言及のシステムのすべての関連のある機能手段が説明され、その後に、すべての相互接続の説明が続く。後続の段落においては、システムの実際の実行が説明される。

システムの第１の基本要素は、結び付けられているユーザ通信デバイス（ｃｏｍｍｕｎｉｃａｔｉｏｎｄｅｖｉｃｅ）ＣＤ０・・ＣＤ３に映像およびまたは写真などのマルチメディアコンテンツを提供するためのコンテンツ配信ネットワーク（ｃｏｎｔｅｎｔｄｅｌｉｖｅｒｙｎｅｔｗｏｒｋ）ＣＤＮの中のサーバであるコンテンツ配信ネットワークノード（ｃｏｎｔｅｎｔｄｅｌｉｖｅｒｙｎｅｔｗｏｒｋｎｏｄｅ）ＣＤＮＮである。

さらには、システムは、複数のユーザ通信デバイスＣＤ０・・ＣＤ３を含む。そのようなコンテンツ配信ネットワークは、通常、多数のそのようなユーザ通信デバイスＣＤ１を含むが、簡単にするために、この実施形態においては、単に、通信デバイスＣＤ０、…、ＣＤ３のみが説明され、図１の中に描写されている。

そのようなユーザ通信デバイスＣＤ０、…、ＣＤ３は、パーソナルコンピュータ、セットトップボックスに結び付けられているテレビ画面、たとえばスマートフォンなどのモバイル通信デバイスとすることができ、そのようなデバイスのそれぞれは、映像もしくは写真などのそのようなマルチメディアコンテンツ映像コンテンツを見るためのスピーカ搭載またはスピーカ不搭載の画面、あるいは映像コンテンツおよびまたは写真を見るための機能ならびに手段を備えた画面を有する。加えて、そのような通信デバイスは、そのような映像コンテンツおよび／または写真の中のハイパーリンクを選定するための手段、ならびにハイパーリンクによって指されるこのコンテンツをフェッチし提示するための手段を追加的に有することができる。

コンテンツ配信ネットワークノードＣＤＮＮは、ウェブオブジェクト（テキスト、グラフィックス、およびスクリプト）、ダウンロード可能なオブジェクト（メディアファイル、ソフトウェア、文書）、アプリケーション（ｅコマース、ポータル）、ライブストリーミング媒体、オンデマンドストリーミング媒体、ならびにソーシャルネットを含む、今日のｉｎｔｅｒｎｅｔコンテンツの大部分に、中でも特にエンドユーザがアクセスできるようにするネットワークノードとすることができる。

コンテンツ配信ネットワークノードＣＤＮＮは、マルチメディア資産の中のオブジェクトを注釈付けするための、本発明によるマルチメディア資産注釈デバイス（ｍｕｌｔｉｍｅｄｉａａｓｓｅｔａｎｎｏｔａｔｉｏｎｄｅｖｉｃｅ）ＭＡＤをさらに含む。

さらには、ユーザ通信デバイスＣＤ０、…、ＣＤ３のそれぞれは、ブロードバンドネットワークまたは任意の他の適したネットワークを含むコンテンツ配信ネットワークを介してコンテンツ配信ネットワークノードＣＤＮＮに結び付けられている。

マルチメディア資産の中のオブジェクトを注釈付けするためのマルチメディア注釈付けデバイス（ＭｕｌｔｉｍｅｄｉａａｎｎｏｔａｔｉｎｇＤｅｖｉｃｅ）ＭＡＤは、まず、映像資産または写真などのマルチメディア資産を入力するように構成されたマルチメディア資産入力手段（Ｍｕｌｔｉｍｅｄｉａａｓｓｅｔｉｎｐｕｔｍｅａｎｓ）ＭＩＭを備える。そのようなマルチメディア資産入力手段ＭＩＭは、そのようなマルチメディア資産を明示的に注釈付けするためにオペレータによって入力されるマルチメディア資産を受け取り、またはそのようなマルチメディア資産を保持するデータベースに加えられるマルチメディア資産を自動的に受け取ることができる。さらには、マルチメディア注釈付けデバイスＭＡＤは、前記オブジェクトを分類することにより、前記マルチメディア資産のフレームまたは画像の中の前記オブジェクトのカテゴリを決定するように構成されているカテゴリ化手段（Ｃａｔｅｇｏｒｉｚｉｎｇｍｅａｎｓ）ＣＭと、前記オブジェクトの前記カテゴリに基づいて、適切なオブジェクト検出器モデルを選定するように構成されているモデル管理手段（Ｍｏｄｅｌｍａｎａｇｅｍｅｎｔｍｅａｎｓ）ＭＳＭと、選定された前記オブジェクト検出器モデルに基づいて、前記マルチメディア資産の前記フレームまたは画像の中の前記オブジェクトの場所を決定するように構成されているオブジェクト検出手段（Ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｍｅａｎｓ）ＯＤＭとを備え、前記オブジェクト検出器モデルは、前記オブジェクトに対応する。

マルチメディア注釈付けデバイスＭＡＤは、オブジェクト分類ごとに体系化されるオブジェクト検出器モデルを保持するための、たとえばデータベースであるオブジェクト検出器モデルストレージを追加的に含むことができる。代替案として、このストレージは、このマルチメディア注釈付けデバイスＭＡＤの外部に位置付けられていてもよい。

さらには、マルチメディア注釈付けデバイスＭＡＤは、前記フレーム内の前記オブジェクトの前記場所に基づいて、および任意選択で、前記オブジェクト検出器に基づいて、前記マルチメディア資産の前記フレームまたは画像の中の前記オブジェクトをセグメント化するように構成されているオブジェクトセグメント化手段（ＯｂｊｅｃｔＳｅｇｍｅｎｔｉｎｇｍｅａｎｓ）ＯＳＭと、セグメント化されている前記フレームまたは画像内の前記オブジェクトをハイパーリンクで注釈付けするように構成されているオブジェクト注釈付け手段（ｏｂｊｅｃｔＡｎｎｏｔａｔｉｎｇＭｅａｎｓ）ＯＡＭとを備える。

マルチメディア注釈付けデバイスＭＡＤは、注釈付け予定のオブジェクトに注釈を保持するための、たとえばデータベースであるオブジェクト注釈ストレージ（ｏｂｊｅｃｔａｎｎｏｔａｔｉｏｎｓｔｏｒａｇｅ）ＯＡＳをさらに含むことができ、ただし、そのような注釈は、テキスト、画像、または他のデータに添付されるべきメタデータ（たとえば、コメント、説明、提示マークアップ）である。注釈は、元のデータの特定の一部を示すことが多い。任意のタイプのデータ「メタデータ」は、この場合には、画像の特定の一部に添付され得る。リンク注釈リンクは、画像のある一部を関連のオブジェクト検出器モデルにより結び付ける。

その上、モデル管理手段ＭＳＭが：
− 前記オブジェクトの少なくとも１つのフラグメントを含んだ前記フレームまたは画像の領域を選定することであって、前記オブジェクトが、カテゴリと関連付けられる、選定することと、
− 前記オブジェクトの少なくとも前記フラグメントを含んだ前記画像またはフレームの前記領域の中の前記画像に関する情報に基づいて、オブジェクト検出器モデルを抽出することであって、前記領域の中の前記画像に関する前記情報が、前記オブジェクト検出手段ＯＤＭから得られる、抽出することと
を行うようにさらに構成されている。

モデル管理手段ＭＳＭが、前記オブジェクトの少なくとも前記フラグメントを含んだ前記フレームまたは画像の領域から抽出される画像情報に基づいて、前記オブジェクト検出器に対応する前記オブジェクト検出器モデルをトレーニングするようにさらに構成されている。マルチメディア注釈付けデバイスＭＡＤは、オブジェクト分類ごとに体系化されるオブジェクト検出器モデルを保持するための、たとえばデータベースであるオブジェクト検出器モデルストレージをさらに含むことができる。

マルチメディア注釈付けデバイスＭＡＤは、前記マルチメディア資産の複数のフレームのうちのそれぞれのフレームの中の前記オブジェクトの前記場所を追跡するように構成されているオブジェクト追跡手段（ｏｂｊｅｃｔｔｒａｃｋｉｎｇｍｅａｎｓ）ＯＴＭを任意選択で含む。

最後に、マルチメディア注釈付けデバイスＭＡＤは、映像もしくは写真などの注釈付けされたマルチメディア資産をオペレータに出力するように、または注釈付けされたマルチメディア資産を、マルチメディア資産ストレージ手段（ｍｕｌｔｉｍｅｄｉａａｓｓｅｔｓｔｏｒａｇｅｍｅａｎｓ）ＭＳなどの、そのようなマルチメディア資産を保持するデータベースに加えるように構成されたマルチメディア資産出力手段（ｍｕｌｔｉｍｅｄｉａａｓｓｅｔｏｕｔｐｕｔｔｉｎｇｍｅａｎｓＭＯＭを備えることができる。そのようなデータベースによって保持されるそのような注釈付けされたマルチメディア資産は、たとえば、各ユーザ通信デバイスを用いて、エンドユーザによる検索に利用可能である。

本発明の実行を説明するために、ＹｏｕＴｕｂｅ音楽映像、またはミュージシャンｘ、ｙ、およびｚを含むもの、または俳優Ｘ、Ｙ、およびＺを含むムービーである、あるマルチメディア資産（ｍｕｌｔｉｍｅｄｉａａｓｓｅｔ）ＭＡが各俳優のウェブページにハイパーリンクで注釈付けされることになることを考える。俳優のそれぞれが、マルチメディア資産の単一画像を表示する図３の中に、簡単にする理由で、各オブジェクトＸ、Ｙ、Ｚによって表されている。俳優のそれぞれが、いくつかの特性を有し、互いに対して異なっていることは明白である。

以下においては、俳優Ｘの注釈が説明される。俳優ＹおよびＺである他のオブジェクトの注釈の実行および原理は、俳優Ｘのものと同様である。

メディア資産ＭＡは、マルチメディア注釈付けデバイスＭＡＤのマルチメディア資産入力手段ＭＩＭに入力される。

マルチメディア資産ＭＡは、そのようなマルチメディア資産を明示的に注釈付けするためにオペレータによってマルチメディア資産入力手段ＭＩＭに提供され、またはマルチメディア資産ＭＡを保持するマルチメディアリポジトリ（ｍｕｌｔｉｍｅｄｉａｒｅｐｏｓｉｔｏｒｙ）ＭＡＲによって自動的に提供される。マルチメディア資産入力手段ＭＩＭは、前記オブジェクトＸ、すなわちマルチメディア資産ＭＡの第１の画像とともに女優Ｘのカテゴリを決定するように構成されているカテゴリ化手段（Ｃａｔｅｇｏｒｉｚｉｎｇｍｅａｎｓ）ＣＭに向けて、マルチメディア資産ＭＡを転送する。

カテゴリ化手段ＣＭは、女優ＸであるオブジェクトＸを分析し、「検出された特異的な特徴（ｄｅｔｅｃｔｅｄｄｉｓｔｉｎｃｔｆｅａｔｕｒｅ）」に基づいて、オブジェクトＸが、オブジェクトクラスの人々、女、俳優であることが決定される。カテゴリ化手段ＣＭは、マルチメディア資産の画像またはフレームの中に含まれている全入力画像に適用される、例として、ＳＩＦＴ、ＳＵＲＦ、ＧＩＳＴ、またはその他）を適用する特徴抽出を用いて、女優ＸであるオブジェクトＸの分類を行う。実行された特徴抽出の結果は、それらを抽出するための関連方法による特徴タイプであるＳＩＦＴ（Ｓｃａｌｅ−ｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｔｒａｎｓｆｏｒｍ：スケール不変特徴変換）、ＳＵＲＦ（ＳｐｅｅｄｅｄＵｐＲｏｂｕｓｔＦｅａｔｕｒｅｓ：高速化ロバスト特徴）、ＧＩＳＴなどの特徴の組である。したがって、特徴は、「ＳＩＦＴ特徴」、「ＳＵＲＦ特徴」、「ＧＩＳＴ特徴」などである。

続いて、特徴のこの組は、結果的に局所性不変特徴記述をもたらす「ｂａｇｏｆｆｅａｔｕｒｅｓ」手法を使用するヒストグラム作成を用いて、統計的に分析される。

この局所性不変特徴記述に基づいて、分類が、行われ、それは、例として、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅＳＶＭ分類を用いて行われ得る。ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅＳＶＭ分類は、ｂａｇｏｆｆｅａｔｕｒｅｓ手法から結果として生じるヒストグラムにおいて適用され、結果的に、オブジェクトＸのカテゴリは、女優のカテゴリになる。

続いて、カテゴリ化手段ＣＭは、決定されたオブジェクトクラスととともに、マルチメディア資産ＭＡの第１の画像、および決定された特徴：すなわち、人々、女、俳優を、前記オブジェクトの前記カテゴリに基づいて、適切なオブジェクト検出器モデルを選定するように構成されているモデル管理手段（ＭＳＭ）に向けて転送する。

オブジェクトＸについての決定されたオブジェクトクラスに基づいて、最も適切なオブジェクト検出器モデルが、オブジェクト検出器モデルストレージ（ｏｂｊｅｃｔｄｅｔｅｃｔｏｒｍｏｄｅｌｓｔｏｒａｇｅ）ＯＤＭＳから選定され、それは、オブジェクト検出器モデル女優Ｘである。代替として、複数のオブジェクト検出器モデルが、オブジェクトを検出するために選定され得る。

選定されたオブジェクト検出器モデルは、続いて、選定されたオブジェクト検出器モデルに基づいて、マルチメディア資産ＭＡの前記第１の画像内の前記オブジェクトＸの場所を決定するように構成されているオブジェクト検出手段ＯＤＭに通知され、転送され、ただし、オブジェクト検出器モデルは、オブジェクトＸに対応する。

女優Ｘオブジェクト選定器モデルである選定されたオブジェクト検出器モデルのインスタンス化に基づいて、テストウィンドウ内に位置付けられたオブジェクト検出器モジュールは、言及のオブジェクトＸ、すなわち、女優Ｘを含んだ画像にオーバーレイされる。選定されたオブジェクト検出器モデル女優Ｘは、画像の中のオブジェクトＸとマッチングされるように試行され、良好なマッチングが見出される場合、オブジェクトは、認識されたと見なされ、対応するウィンドウが、返される、すなわち、出力された結果に加えられる。

オブジェクト検出器モデルは、オブジェクトＸが存在する場所、たとえば領域を、フィッティングされたオブジェクト検出器モデルと画像情報との間の対応レベルを決定するためにテストされる画像パッチ（すなわち、入力画像部分）を異なるサイズおよびスケールでマッチングさせるように試行することによって決定する。

モデルフィッティングは、２つのやり方で行われることができ、すなわち、前方フィッティングは、オブジェクト検出器モデルパラメータが適合され、視覚化が行われ、この視覚化は、実際の入力データと比較され、その後、パラメータが精緻化される。後方フィッティングは、入力データから開始し、このデータから直接、モデルパラメータを見出すように試みる。両方の技法が、よく使用され、選択は、選択されたモデリング技法によって決まる。返される対応レベルは、ほとんどの場合においては、オブジェクトが検出されるか否かを示す二分決定を得るために、閾値とすることができる値である。

続いて、オブジェクト検出手段ＯＤＭは、オブジェクトＸの場所とともに第１の画像をオブジェクトセグメント化手段ＯＳＭに向けて転送し、このオブジェクトセグメント化手段ＯＳＭは、第１の画像内のオブジェクトＸの前記場所に基づいて、マルチメディア資産の第１の画像の中のオブジェクトをセグメント化するように構成されている。任意選択で、選定されたオブジェクト検出器モデルからの情報が、オブジェクトセグメント化工程を支援する／精緻化するために適用され得る。たとえば、ピクセル当たりの信頼値が、あるピクセルが検出されたオブジェクトの一部であるのはどれくらいの見込みであるのかを示すオブジェクト検出器モデルによって与えられ得ることになる。これらの見込みは、次いで、セグメント化工程において使用され得る。別の可能性は、スケルトンベースのモデルが、オブジェクト検出器モデルによって提供されることである。このスケルトンは、次いで、増分セグメンテーションアルゴリズムのためのシード（ｓｅｅｄ）として（たとえば、ウォータシェッドアルゴリズムのためのシード点を選定するために）使用され得る。

この意味付けされたオブジェクトのこのセグメント化は、したがって、フレーム内のオブジェクトの決定された場所において画像内で検出されるオブジェクトＸに対応するオブジェクト検出器モデルの色および／またはテクスチャの類似性に基づいて行われ得る。その上、等しい色および／またはテクスチャを含む領域の場合、これが同じセグメントの一部を形成することがセグメント化のこの工程において仮定される。したがって、オブジェクトＸのより初期に決定された場所、およびオブジェクト検出器モデルから得られる情報（たとえば、色および／またはテクスチャ情報）に基づくオブジェクトセグメント化手段ＯＳＭにおいて、オブジェクト検出器モデルに対応する言及のオブジェクトは、オブジェクト、すなわち、俳優Ｘの外側境界を色付けすること、および任意選択で、オブジェクトを塗りつぶすことによって、画像の背景から描出される。

さらには、オブジェクトセグメント化手段ＯＳＭによって、画像内のオブジェクトＸのセグメント化された範囲およびその場所が第１の完全画像とともに、オブジェクト注釈付け手段ＯＡＭに向けて転送され、そのオブジェクト注釈付け手段ＯＡＭは、セグメント化されたこの第１の画像内の前記オブジェクトをハイパーリンクで注釈付けするように構成されている。セグメント化された範囲の転送は、それぞれのピクセルについてそれがオブジェクトの一部を形成するか否かを示すビットマスクの使用によって行われ得る。

注釈は、テキスト、画像、または他のデータに添付されるメタデータ（たとえば、コメント、説明、提示マークアップ）を含む。注釈は、元のデータの特定の一部を示すことが多い。任意のタイプのデータ「メタデータ」は、この場合には、画像の特定の一部に添付され得る。画像のある一部を関連のオブジェクト検出器モデルによりメタデータと結び付けるリンク注釈リンクは、様々な手段によって作成され得る。最も単純な方式においては、人間オペレータが、どんなメタデータがどのオブジェクト検出器モデルにリンク付けされる必要があるかを決める。したがって、この人間オペレータは、（オブジェクト検出器モデルによって知られている画像の中のオブジェクトと、メタデータ、たとえば、ブラウザの中に開かれることになるＵＲＬ、次の映像が再生されることになる異なる映像へのリンク、同じ映像の中の異なるストーリ展開へのリンクなどとの間のリンクを作る。

他の実施形態においては、リンクは、より初期の入力データ（たとえば、人間オペレータが、映像シーケンスのより初期の処理の際に入力したデータ）から、またはクラウドソーシングされたデータを採用すること（たとえば、画像データの例によりＧｏｏｇｌｅ画像検索を行う）、および関連のデータを使用して、俳優のインターネットムービーデータベース（ｉｎｔｅｒｎｅｔＭｏｖｉｅｄａｔａｂａｓｅ：ＩＭＤＢ）ページ、もしくはＷｉｋｉｐｅｄｉａページなどの興味深いサイド情報を決定することによって自動化方式で使用され得る。代替として、いくつかのメタデータを指すリンクが、オブジェクト検出器モデルの中に含められ得、ただし、この含められたリンク情報は、意味付けされたオブジェクトを注釈付けするために適用され得る。

選択されたハイパーリンクは、注釈付け予定のオブジェクトに注釈を保持するための、たとえば、データベースであるオブジェクト注釈ストレージ（ｏｂｊｅｃｔａｎｎｏｔａｔｉｏｎｓｔｏｒａｇｅ）ＯＡＳの中に格納され得ることになり、ただし、そのような注釈は、テキスト、画像、または他のデータに添付されるべきメタデータ（たとえば、コメント、説明、提示マークアップ）である。注釈は、元のデータの特定の一部を示すことが多い。任意のタイプのデータ「メタデータ」は、この場合には、画像の特定の一部に添付され得る。リンク注釈リンクは、画像のある一部を関連のオブジェクト検出器モデルにより結び付ける。

注釈がマルチメディア資産ＭＡの第１の画像について行われるように、これは、完全マルチメディア資産ＭＡのそれぞれの後続の画像について同じ方式で行われ得る。

最後に、完全にまたは部分的に注釈付けされたマルチメディア資産ＭＡは、マルチメディア出力手段に渡され得、そのマルチメディア出力手段は、注釈付けされたマルチメディア資産をエンドユーザに転送すること、または注釈付けされたマルチメディア資産を後に使用するためにマルチメディア資産リポジトリＭＡＲの中に格納することができる。

本発明の追加の実施形態は、最初に、あるオブジェクト、たとえば、オブジェクトＸについて存在するオブジェクト検出モデルがないことである。

あるオブジェクトに利用可能なオブジェクト検出器モデルがない場合、新規オブジェクト検出器モデルが、オブジェクトＸの少なくとも１つのフラグメントを含んだマルチメディア資産ＭＡの第１の画像の領域を選定することによって作成され、ただし、オブジェクトは、まず、カテゴリ、すなわち、人々、女、女優と関連付けられ、続いて、オブジェクト検出器モデルが、オブジェクト、すなわち、オブジェクトＸの少なくとも１つのフラグメントを含んだ第１の画像の領域の中の画像情報に基づいて抽出し、前記領域の中の前記画像が、前記オブジェクト検出手段から得られ、次の類似したオブジェクトの注釈付けに適用され得る新規オブジェクト検出器モデルが作成される。

前記オブジェクトの少なくとも１つのフラグメントを含んだ前記フレームまたは画像の領域は、選定後、カテゴリ化され、すなわち、あるカテゴリが、選定された領域内のオブジェクトに割り当てられる。

画像領域は、検出器にとって予想されるフォーマットに（たとえば、Ｈｉｓｔｏｇｒａｍｏｆｇｒａｄｉｅｎｔｓフォーマット、ＨＯＧフォーマットに）変換され得る。

オペレータが、分類不可能なオブジェクト（認識されたオブジェクトがない）を手動で示す場合、新規オブジェクト検出器モデルが、トレーニングデータとして手動で注釈付けされたデータを使用して作成され、分類器もまた、このデータにおいてトレーニングされる。任意選択で、可能な分類エラー（すなわち、分類器が、オブジェクトを正確に検出しなかったこと）に対処するために、完全に新規のオブジェクト検出器を作成する前にまず、すべての（一般的な）オブジェクト検出器を試行することができる。しかしながら、これは、コンピュータ的に高価な動作である（分類によるオブジェクト検出器モデルのフィルタリングはない）。

分類中に、オブジェクトクラスは、どのオブジェクトクラスが、オブジェクトモデル検出器の組にリンク付けされるかを検出した。検出器は、一般的から具体的に（たとえば、人間→女性→女優Ｘ）実行される。分類と検出器モデルとの間のリンケージ情報は、手動で行うことができるが、種々のモデルの検出を分析することによって自動的に行われ得るだろう。これは、分類が、ただ単に、実行されるべき検出器モデルのサブセットを指定するにすぎないという理由から可能である。したがって、最初に、より大きいサブセットを提供し、検出結果に従って、このサブセットを自動的に精緻化することは問題ではない。しかしながら、すでに述べたように、通常、このリンケージは、手動方式で（たとえば、「人間」分類器を一般的な「人間」検出器モデルとリンク付けする）行われる。

さらには、本発明のさらなる実施形態は、モデル管理手段ＭＳＭが、オブジェクトＸに対応する選定されたオブジェクト検出器モデルをトレーニングするようにさらに構成されていることであり、ただし、オブジェクト検出器モデルが、オブジェクトＸの少なくとも１つのフラグメントを含むマルチメディア資産の第１の画像の領域から抽出される画像情報に基づく。マルチメディア注釈付けデバイスＭＡＤは、オブジェクト分類ごとに体系化されるオブジェクト検出器モデルを保持するための、たとえばＲｅｐｏｓｉｔｏｒｙであるオブジェクト検出器モデルストレージＯＤＭＳをさらに含むことができる。

本発明の別のさらなる代替の実施形態は、マルチメディア注釈付けデバイスＭＡＤが、前記マルチメディア資産の複数のフレームのうちのそれぞれのフレームの中の前記オブジェクトの前記場所を追跡するように構成されているオブジェクト追跡手段ＯＴＭを任意選択で含むことである。

追跡ステップは、連続的な映像フレームの中のオブジェクトを追跡するのに使用される。このステップは、任意選択であり、連続的なオブジェクト場所（ウィンドウ）に時間的モデルを設けることによって、オブジェクト検出器出力のロバスト性を改善するのに使用され得る。これは、エラーのあるオブジェクト検出の影響を低減させる。検出されたオブジェクトが、まず、追跡器（ｔｒａｃｋｅｒ）によって受け取られるとき、それは、時間とともにこのオブジェクトの動きの進展を表す状態を初期化することになる。この状態は、このオブジェクトの「有効時間（ｌｉｆｅｔｉｍｅ）」中に保存される。「有効時間」が、必ずしも、オブジェクトが画像の中にある持続期間を意味するわけではないことに留意されたい。オブジェクトは、画像から外に消え、少し経って再度、入ってくることもあり得る。オブジェクトの状態データをいつ削除するかを決めるのは、追跡器の責任である。実践の際には、この振舞いは、タイムアウト、すなわち、隠れたオブジェクトが「忘れられる（ｆｏｒｇｏｔｔｅｎ）」のにかかる時間、という概念を表すパラメータによって調整され得る（通常、配置段階において固定される）。基礎追跡アルゴリズムは、単一のオブジェクトを追跡することに焦点を当てるが、拡張は、これらを展開して複数オブジェクトの追跡に利用可能である。概して、追跡は、次のステップを伴う。入力は、現在のフレーム、ならびにオブジェクトが以前のフレームの中にあった場所、および（オブジェクト検出器から出力される）現在のフレームの中のオブジェクトの予想される場所のうちから成る。次いで、追跡されたオブジェクトの視覚特性を記述する外観モデルが使用される。外観モデル、入力フレーム、ならびに以前および現在の推定される場所を考慮して、オブジェクトが新規入力画像の中に存在する新規場所を探す、いわゆるモード探索動作が行われる。

高い頻度で使用される追跡技法は、平均シフト追跡（類似性尺度の反復最適化）、および（追跡されたオブジェクトの今後の場所に関する予測を組み込む）より複雑なＫａｌｍａｎベースの追跡器を含む。これらは、外観ベースのオブジェクト追跡の分野において、よく知られている技法である。

検出されたオブジェクトの位置は、マルチメディア資産ＭＡの複数の画像のうちのそれぞれの画像についての場所、すなわち、オブジェクトＸが存在する領域を追跡するように構成されているオブジェクト追跡手段ＯＴＭに供給され得る。

安定して追跡されたオブジェクト位置は、次いで、周囲の背景からオブジェクトに対応するピクセルを外にうまくセグメント化するオブジェクトセグメンテーション手段ＯＳＭに転送され、それにより、ハイパーリンク注釈をオブジェクトに（およびオブジェクトのピクセルにのみうまく適合させることが可能になる

また、手動の対話なしにハイパーリンクを自動的に加える場合においては（第２の実施形態を参照のこと）、またはオブジェクトが、特定の時間、画面から外に出て行き、後に画面の中に戻ってくる場合においては、オブジェクト検出器モデルは、後に使用するためにいずれかのところに格納される必要がある。

説明された実施形態は、コンテンツ配信ネットワークに対処しているが、任意の種類の配信ネットワークが適用可能であり、または本発明の実施形態が、ＹｏｕＴｕｂｅまたは他の等価な映像もしくは写真のサービスにムービーを載せる前に、自身のムービーを注釈付けするあるユーザの、そのようなマルチメディアコンテンツ注釈付けデバイスを含んだパーソナルコンピュータであってよいことに留意されたい。

本発明のさらなる代替の実施形態は、ＣＤＮの中のコンテンツが、システムに知られている情報により自動的に拡大される完全自動化ハイパーリンク拡大サービスにおけるシステムの統合とすることもできることになる。俳優は、したがって、自動化方式で、ＣＤＮのすべてのコンテンツについての関連のあるハイパーリングで注釈付け可能になる。システムに知られていない俳優の場合、なおも自動化方式で関連のある注釈を提供する（たとえば、Ｗｉｋｉｐｅｄｉａまたはｉｍｄｂ．ｃｏｍからの視覚情報を抽出する、および知られていない俳優にそれをマッチングさせる）ために、学習済みの検出器と他の利用可能な情報源との間の相関付けが行われ得る。代替として、新しい俳優がますます人気になってくると、人間オペレータは、新しい俳優を加えるためにシステムにログインすることができる。

最後に、本発明の実施形態が、機能ブロックの観点で上に述べられていることを注記する。上記で与えられたこれらのブロックの機能説明から、これらのブロックの実施形態が、よく知られている電子構成要素により、いかに製造可能であるかは、電子デバイスを設計する当業者には明らかになろう。したがって、機能ブロックの内容の詳細なアーキテクチャは、与えられていない。

本発明の原理は、特定の装置と関係して上に述べられてきたが、この説明は、ただ単に例としてなされているにすぎず、添付の特許請求の範囲の中で定義される本発明の範囲において限定としてなされているのではないことは明確に理解されたい。

Claims

マルチメディア資産の中のオブジェクトを注釈付けするための方法であって、前記マルチメディア資産が、少なくとも１つの画像を含み、前記方法が、
− 前記オブジェクトを分類することにより、前記マルチメディア資産の画像の中の前記オブジェクトのカテゴリを決定するステップと、
− 前記オブジェクトの前記カテゴリに基づいて、前記カテゴリと関連付けられる少なくとも１つのオブジェクト検出器モデルから適切なオブジェクト検出器モデルを選定するステップと、
− 選定された前記オブジェクト検出器モデルに基づいて、前記マルチメディア資産の前記画像の中の前記オブジェクトの場所を決定するステップであって、前記オブジェクト検出器モデルが、前記オブジェクトに対応する、決定するステップと、
− 前記画像内の前記オブジェクトの前記場所に基づいて、および任意選択で、前記選定されたオブジェクト検出器モデルに基づいて、前記マルチメディア資産の前記画像の中の検出された前記オブジェクトをセグメント化するステップと、
− 前記画像の中のセグメント化されている前記オブジェクトを、ハイパーリンクにより、かつ、セグメント化されている前記オブジェクトを提示するための条件を加えることにより、注釈付けするステップと
を含む、方法。
− 前記オブジェクトの少なくともフラグメントを含んだ前記画像の領域を選定するステップと、
− 前記オブジェクトの少なくとも前記フラグメントを含んだ前記画像の前記領域の中の画像情報に基づいて、オブジェクト検出器モデルを抽出するステップであって、前記領域の中の前記画像が、選定された前記オブジェクト検出器モデルに基づいて、前記マルチメディア資産の前記画像の中の前記オブジェクトの場所を決定する前記ステップ中に得られる、抽出するステップと
をさらに含む、請求項１に記載の方法。
前記オブジェクトの少なくともフラグメントを含んだ前記画像の領域を検出するステップと、
前記オブジェクトの少なくとも前記フラグメントを含んだ前記画像の前記領域から抽出される画像情報に基づいて、前記オブジェクトに対応する前記選定されたオブジェクト検出器モデルをトレーニングするステップとをさらに含む、請求項１または２に記載の方法。
前記マルチメディア資産の複数の画像のうちのそれぞれの画像の中の前記オブジェクトの前記場所を追跡するステップをさらに含む、請求項１から３のいずれか一項に記載の方法。
前記ハイパーリンクが、ＵＲＬであり、代替として、前記画像にオーバーレイで追加の情報を表示することである、請求項１に記載の方法。
マルチメディア資産の中のオブジェクトを注釈付けするためのマルチメディア注釈付けデバイス（ＭＡＤ）であって、前記マルチメディア資産が、少なくとも１つの画像を含み、前記マルチメディア注釈付けデバイス（ＭＡＤ）が、
− 前記オブジェクトを分類することにより、前記マルチメディア資産の画像の中の前記オブジェクトのカテゴリを決定するように構成されたカテゴリ化手段（ＣＭ）と、
− 前記オブジェクトの前記カテゴリに基づいて、適切なオブジェクト検出器モデルを選定するように構成されたモデル管理手段（ＭＳＭ）と、
− 選定された前記オブジェクト検出器モデルに基づいて、前記マルチメディア資産の前記画像の中の前記オブジェクトの場所を決定するように構成されたオブジェクト検出手段（ＯＤＭ）であって、前記オブジェクト検出器モデルが、前記オブジェクトに対応する、オブジェクト検出手段（ＯＤＭ）と、
− 前記画像内の前記オブジェクトの前記場所に基づいて、および任意選択で、前記選定されたオブジェクト検出器モデルに基づいて、前記マルチメディア資産の前記画像の中の前記オブジェクトをセグメント化するように構成されたオブジェクトセグメント化手段（ＯＳＭ）と、
− 前記画像内のセグメント化されている前記オブジェクトを、ハイパーリンクにより、かつ、セグメント化されている前記オブジェクトを提示するための条件を加えることにより、注釈付けするように構成されたオブジェクト注釈付け手段（ＯＡＭ）と
を備える、マルチメディア注釈付けデバイス（ＭＡＤ）。
前記モデル管理手段（ＭＳＭ）が、
− 前記オブジェクトの少なくとも１つのフラグメントを含んだ前記画像の領域を選定することであって、前記オブジェクトが、カテゴリと関連付けられる、選定することと、
− 前記オブジェクトの少なくとも前記フラグメントを含んだ前記画像の前記領域の中の前記画像に関する情報に基づいて、オブジェクト検出器モデルを抽出することであって、前記領域の中の前記画像に関する前記情報が、前記オブジェクト検出手段（ＯＤＭ）から得られる、抽出することと
を行うようにさらに構成されている、請求項６に記載のマルチメディア注釈付けデバイス（ＭＡＤ）。
前記モデル管理手段（ＭＳＭ）が、
− 前記オブジェクトの少なくとも１つのフラグメントを含んだ前記画像の領域を検出し、
− 前記オブジェクトの少なくとも前記フラグメントを含んだ前記画像の前記領域から抽出される画像情報に基づいて、前記オブジェクトに対応する前記選定されたオブジェクト検出器モデルをトレーニングする
ようにさらに構成されている、請求項６または７に記載のマルチメディア注釈付けデバイス（ＭＡＤ）。
請求項６から８のいずれか一項に記載のマルチメディア注釈付けデバイス（ＭＡＤ）を備えるデバイス。