JP6273386B2

JP6273386B2 - 関連するメディアコンテントを識別するための方法及びシステム

Info

Publication number: JP6273386B2
Application number: JP2016574896A
Authority: JP
Inventors: リ、ガンダ; ソン、チェン; シュ、ファン
Original assignee: ビセンゼ・ピーティーイー・リミテッド
Priority date: 2015-02-24
Filing date: 2015-02-24
Publication date: 2018-01-31
Anticipated expiration: 2035-02-24
Also published as: CN107431828B; US20180249205A1; GB2544237A; WO2016137389A1; US10715862B2; SG11201700848WA; US20190166397A1; US10779037B2; JP2017525245A; CN107431828A; GB201703652D0; CN108282702A; GB2544237B

Description

本発明は、概して、関連するメディアコンテントを識別するための方法及びシステムに、より具体的にはビデオの視覚的な内容に基づく識別に関する。

広告は、ビデオコンテントのプロバイダーのための重要な役割を果たす。例えば、ＹｏｕＴｕｂｅ（登録商標）やＨｕｌｕ（登録商標）のようなビデオストリーミングウェブサイトの場合、ビデオコンテントは、それらのユーザーの内の少なくとも何人かに無料でストリーミングされることが多い。コンテントプロバイダーの収益の大部分は、したがって広告に由来する。たとえビデオコンテントが無料で提供されない場合でも、広告収益は、ビデオコンテントを提供し、ホストとして働くコストに補助金を支給する足しにもなり得、したがって加入料を低く維持できる。ビデオストリーミングウェブサイトのユーザーは、表示されている広告を閉じるオプションを有していることが多く、したがって、視聴者に関心をもたせるであろう広告を表示するための機能は、ビデオコンテントプロバイダーにとって、それが広告主を呼び込むための能力に、したがって収益に、強い影響を与えるので重要である。

ビデオ再生の間の表示用の広告を識別する、現在知られている方法は、ユーザーのプロファイル又は行動のような基準と、タイトル及びジャンルのようなビデオのメタデータとに基づく。しかしながら、そのようなマッチングの方法は、ユーザーの興味を起こさせる広告を識別しないかもしれない。同様に、教育環境のような他の状況においても、視聴者の興味を起こさせる、関連するメディアコンテントを識別することが望ましいだろう。

概括的に言うと、本発明は、ビデオ内で示されるオブジェクトと、広告のようなメディアコンテントに関連付けられた視覚的なイメージとの間の視覚的な類似性に基づいて、メディアコンテントを識別するための方法及びシステムを提供する。関連するメディアコンテントをビデオにマッチングさせるこのメカニズムは、視聴者がそのビデオ内で見るオブジェクトとの視覚的な類似性によって、ユーザーの興味を起こさせるであろうメディアコンテントを有利に提供する。それに対して、現在よく知られている方法は、ビデオの視覚的な内容に基づいてメディアコンテントを識別せず、その結果、ユーザーの興味を起こさせるであろう関連広告を逃すかもしれない。

発明の一態様によれば、複数のビデオフレームを含む入力ビデオのために関連するメディアコンテントを識別するための方法が提供される。この方法は、複数のビデオフレームのいずれかが対象製品を含むかどうかを検出するために、複数のビデオフレームの少なくとも一つを分析し、検出された対象製品を含んでいる少なくとも一つのビデオフレームを選択し、選択されたビデオフレームの各々のために、検出された対象製品を含む製品サムネイルを生成することを含む。製品サムネイルの少なくとも一つが選択され、その選択された製品サムネイルの各々のためにビデオ製品視覚インデックスが生成される。この方法は、選択された製品サムネイルの各々のビデオ製品視覚インデックスを、メディアコンテントデータベース内の、各々がメディアコンテント製品データベース内の一つのメディアコンテントに関連付けられている、複数のメディアコンテント視覚インデックスと比較することによって、選択された製品サムネイルの少なくとも一つのために、メディアコンテントデータベースから関連するメディアコンテントを識別することをさらに含む。

様々な実施形態によれば、この方法は、その比較に基づいて、少なくとも一つのメディアコンテントを、選択された製品サムネイルに関連付けることをさらに含み得る。

様々な実施形態によれば、この方法は、少なくとも一つのビデオ製品メタデータを含むビデオ製品インデックスを生成することをさらに含んでいてもよく、ビデオ製品メタデータの各々は選択された製品サムネイルの一つに関連付けられている。

様々な実施形態によれば、ビデオ製品メタデータの各々は、選択された製品サムネイルに関連付けられた少なくとも一つのメディアコンテントを含んでいてもよく、その少なくとも一つのメディアコンテントはビデオディスプレイ上に表示されるために取得可能である。

様々な実施形態によれば、この方法は、選択された製品サムネイルの各々のための製品関連スコアを算出することをさらに含んでいてもよく、この製品関連スコアは、選択された製品サムネイルに関連付けられたメディアコンテントの各々と、製品サムネイルに含まれる検出された対象製品との間の関連の度合いを示す。

様々な実施形態によれば、少なくとも一つのビデオ製品メタデータを含むビデオ製品インデックスを生成するステップは、複数の選択された製品サムネイルのいずれが、少なくとも一つの製品メタデータを生成するべきかを、選択された製品サムネイルの製品関連スコアに基づいて決めることを含み得る。

様々な実施形態によれば、ビデオ製品メタデータの各々は、選択された製品サムネイルの製品関連スコアをさらに含み得る。

様々な実施形態によれば、ビデオ製品メタデータの各々は、選択された製品サムネイルに関連付けられた時間タグ情報をさらに含んでいてもよく、この時間タグ情報は、選択された製品サムネイルが抽出されたビデオフレームの入力ビデオ内での時間位置を示す。

様々な実施形態によれば、ビデオ製品メタデータの各々は、選択された製品サムネイルの視覚的なイメージをさらに含んでいてもよく、この視覚的なイメージは、ビデオディスプレイ上に表示されるために取得可能である。

様々な実施形態によれば、複数のビデオフレームのいずれかが対象製品を含むかどうかを検出するために、複数のビデオフレームの少なくとも一つを分析することは、全体画像視覚分類アルゴリズムとオブジェクト位置特定アルゴリズムとを含む視覚分析アルゴリズムを使用することを含み得る。

様々な実施形態によれば、この方法は、少なくとも一つのビデオ製品メタデータを含むビデオ製品インデックスを生成することをさらに含んでいてもよく、ビデオ製品メタデータの各々は、選択された製品サムネイルの一つに関連付けられ、ビデオ製品メタデータに関連付けられた、選択された製品サムネイルのビデオ製品視覚インデックスを含む。

様々な実施形態によれば、選択された製品サムネイルの少なくとも一つのために関連するメディアコンテントを識別するステップは、ビデオ製品インデックスを生成することの後に行われてもよく、この識別は、選択された製品サムネイルに関連付けられたビデオ製品メタデータ内のビデオ製品視覚インデックスを用いることであってもよい。

様々な実施形態によれば、この方法は、関連するメディアコンテントを識別するステップの後に、少なくとも一つのメディアコンテントを選択された製品サムネイルに関連付けることをさらに含み得る。

様々な実施形態によれば、この方法は、ビデオ製品メタデータの内の一つに関連付けられた、選択された製品サムネイルの各々のための製品関連スコアを算出することをさらに含んでいてもよく、製品関連スコアは、選択された製品サムネイルに関連付けられた各メディアコンテントと、選択された製品サムネイル内の検出された対象製品との間の関連の度合いを示す。

様々な実施形態によれば、ビデオ製品メタデータの各々は、ビデオ製品メタデータに関連付けられた、選択された製品サムネイルに関連付けられた時間タグ情報をさらに含んでいてもよく、この時間タグ情報は、選択された製品サムネイルが抽出されたビデオフレームの入力ビデオ内での時間位置を示す。

様々な実施形態によれば、メディアコンテントは広告の形態であってもよい。

本発明の別の態様では、複数のビデオフレームを含む入力ビデオのために関連するメディアコンテントを識別するためのシステムが提供され、このシステムは、複数のビデオフレームのいずれかが対象製品を含むかどうかを検出するために、複数のビデオフレームの少なくとも一つを分析するステップと、検出された対象製品を含んでいる少なくとも一つのビデオフレームを選択するステップと、選択されたビデオフレームの各々のために、検出された対象製品を含む製品サムネイルを生成するステップと、製品サムネイルの少なくとも一つを選択して、その選択された製品サムネイルの各々のためのビデオ製品視覚インデックスを生成するステップと、選択された製品サムネイルの各々のビデオ製品視覚インデックスを、メディアコンテントデータベース内の、各々がメディアコンテント製品データベース内の一つのメディアコンテントに関連付けられている、複数のメディアコンテント視覚インデックスと比較することを含み、選択された製品サムネイルの少なくとも一つのためにメディアコンテントデータベースから関連するメディアコンテントを識別するステップとを実行するように構成される少なくとも一つのプロセッサを具備する。

本発明のさらに別の態様では、複数のビデオフレームを含む入力ビデオのために関連するメディアコンテントを識別するためのシステムが提供され、このシステムは、複数のメディアコンテントと、メディアコンテントの一つにそれぞれ関連付けられた複数のメディアコンテント視覚インデックスとを含むメディアコンテントデータベースを具備する。このシステムは、複数の入力ビデオの一つにそれぞれ関連付けられた複数のビデオ製品インデックスを含むビデオ製品インデックスデータベースも具備し、ビデオ製品インデックスの各々は、少なくとも一つのビデオ製品メタデータを含み、ビデオ製品メタデータの各々は、製品サムネイルのビデオ製品視覚インデックスを含み、製品サムネイルは入力ビデオ内で見つかった、検出された対象製品を表す。マッチングしている入力ビデオのビデオ製品インデックス内の少なくとも一つのビデオ製品メタデータの各々のビデオ製品視覚インデックスを、メディアコンテントデータベース内の複数のメディアコンテント視覚インデックスと比較することによって、ビデオデータベース内の入力ビデオの一つのために関連するメディアコンテントを識別するように構成された製品−メディアコンテント検索サーバーもある。このシステムは、ユーザーが入力ビデオが再生されることを要求した後、入力ビデオのための関連するメディアコンテントの識別を有利に提供する。

様々な実施形態によれば、製品−メディアコンテント検索サーバーは、その比較に基づいて、少なくとも一つのメディアコンテントを、ビデオ製品視覚インデックスの各々に関連付けるようにさらに構成され得る。

様々な実施形態によれば、製品−メディアコンテント検索サーバーは、ビデオプレーヤーに通信でつながれたメディアコンテントモジュールに、関連付けられたメディアコンテントを送るようにさらに構成され、広告モジュールは、関連付けられたメディアコンテントの表示をビデオディスプレイ上に引き起こすように構成される。

様々な実施形態によれば、メディアコンテントモジュールは、ビデオプレーヤーの一部を構成し得る。

様々な実施形態によれば、入力ビデオは、ビデオ製品インデックスデータベースと共に設置されるデータベースに格納される。

本発明は、一つ以上の様々な実施形態に従って、後続する図を参照して詳細に記載される。これらの図は、読み手の発明についての理解を促進することのみが意図された図解の目的のために提供される。それらは発明の範囲又は応用性を限定するものとして解釈されるべきではない。同一の参照数字は、二つ以上の図に現れる類似の要素を示すために使用され得る。
図１は、関連広告のオフライン識別のための例示的な機構を示すブロック図である。図２は、図１の実施形態に従って、ビデオフレーム選択モジュールによって行われる動作の例示的なモジュールの概観を示す図である。図３は、図１の実施形態に従って、製品サムネイル生成モジュールによって行われる動作の例示的なモジュールの概観を示す図である。図４は、図１の実施形態によって生成されたビデオ製品インデックスが供給され得る例示的なコンピューティング環境を示す概略図である。図５は、発明の一実施形態に従って、ビデオ再生の間の関連広告の表示を示す、例示的なビデオプレーヤーのグラフィカルユーザーインターフェースである。図６は、関連広告のオンライン識別のためのビデオ製品インデックスの生成に関する例示的な機構を示すブロック図である。図７は、一実施形態に従うビデオ製品インデックスの例示的な図である。図８は、関連広告のオンライン識別のための例示的な機構を示すブロック図である。図９は、ビデオ再生の間のポップアップウィンドウ内の関連広告の表示を示す、例示的なビデオプレーヤーのグラフィカルユーザーインターフェースである。

概括的に言うと、本発明は、関連するメディアコンテントを、例えば、ビデオ内で示されるオブジェクトとそのメディアコンテントに関連付けられた視覚的なイメージとの間の視覚的な類似性に基づく広告を、識別する方法及びシステムを提供する。関連するメディアコンテントの識別は、ビデオを再生するリクエストがなされる前にオフラインで、あるいはビデオを再生するリクエストがなされた後にリアルタイムで、行われてもよい。以下に記載される実施形態は、ビデオに関連する広告を識別して表示する状況における発明を示す。しかしながら、本発明が、広告する環境に適用されるのみに限定されないことは理解されるべきである。例えば、本発明は、ビデオを視聴している子どもを教育するために、ビデオに現れるあるオブジェクトの名称に関して、視覚的なイメージやビデオのようなメディアコンテントが示される教育環境でも使用され得る。これを考慮して、以降の段落に記載されるモジュール及び属性内の広告という用語の使用は、発明の範囲の限定であることを意味しないと理解されるべきである。例えば、以下のモジュールは、教育的な目的を有する画像及びビデオのような他の形態のメディアコンテントを含む、あるいは処理するモジュールと置き換えられ得る。したがって、広告製品データベースはメディアコンテントデータベースと置き換えられてもよく、広告格納データベースはメディアコンテント格納データベースと置き換えられてもよく、広告製品視覚インデキシングモジュールはメディアコンテント視覚インデキシングモジュールと置き換えられてもよく、製品−広告マッチングモジュールは製品−メディアコンテントマッチングモジュールと置き換えられてもよく、製品−広告検索サーバーは製品−メディアコンテント検索サーバーと置き換えられてもよく、そして広告モジュールはメディアコンテントモジュールと置き換えられてもよい。広告製品視覚インデックスという属性は、メディアコンテント視覚インデックスとも称され得る。さらに、以下の記載においては、多数の詳細が、様々な実施形態のより完全な説明を提供するために示されていると理解されるべきである。これらの詳細は限定することは意図されず、本発明はこれらの特定の詳細なしに行われてもよい。

図１は、本発明の一実施形態に基づく、関連広告のオフライン識別のための機構１００のブロック図である。この機構１００は、ビデオデータベース１０２、ビデオフレーム選択モジュール１１０、対象製品イメージデータベース２１０と通信する製品検出モジュール２００、製品サムネイル生成モジュール２２０、ビデオ製品視覚インデキシングモジュール３００、製品−広告マッチングモジュール３１０、ビデオ製品メタデータモジュール３５０及び広告製品データベース４００を備える。処理用の入力ビデオは、ビデオデータベース１０２から、入力ビデオを各々が複数のフレームを含む複数のショットに分割して、低い画像解像度のビデオフレームを取り除くビデオフレーム選択モジュール１１０に供給される。そして、製品検出モジュール２００は、ビデオフレーム選択モジュール１１０から入ってくるビデオフレームを分析し、どのフレームが対象製品イメージデータベース２１０によって識別される対象製品を含むかを識別する。対象製品は、この例示的な実例において、広告製品データベース４００に格納されたメディアコンテントに関連するオブジェクトを指す。例えば、それは、バッグ、携帯電話、カップヌードル及び自動車のような、広告主が宣伝したいあらゆる消費財を含み得る。しかしながら、対象製品は、物に限定されず、例えばＢＭＷ（登録商標）のブランドロゴのような特徴を識別する形態であってもよい。対象製品は、さらに、広告主が宣伝したい製品又はサービスに関連するオブジェクトであってもよい。例えば、対象製品はホテルの建物の形状であってもよく、宣伝されているサービスはホテルを予約するサービスである。対象製品イメージデータベース２１０は、対象製品の視覚的な表現を含み、各対象製品はそれに関連付けられた対象製品名を有している。対象製品を含んでいると識別された少なくとも一つのビデオフレームが選択され、製品サムネイル生成モジュール２２０は、そのフレーム内で検出された対象製品の製品サムネイルを生成する。そして、ビデオ製品視覚インデキシングモジュール３００は、製品サムネイル生成モジュールから入ってくる各製品サムネイルのための製品視覚インデックスを、サムネイル内の検出された対象製品の視覚的な表現を抽出するための視覚分析アルゴリズムを用いることによって生成する。製品−広告視覚マッチングモジュール３１０は、製品サムネイルのビデオ製品視覚インデックスを、広告格納データベース４１０内に存在する広告製品視覚インデックスとも称される広告の視覚的な表現と比較することによって、製品サムネイル内の検出された対象製品と視覚的に類似する製品に引き寄せる広告を識別する。少なくとも一つの関連広告は、その比較に基づいて、各製品サムネイルに関連付けられてもよい。最後に、ビデオ製品メタデータモジュール３５０は、ビデオ再生の間の関連広告の表示を促進するように構成されるビデオ製品インデックスを生成する。ビデオ製品インデックスは、各々が製品サムネイルに関連付けられた一つ以上のビデオ製品メタデータを含む。各ビデオ製品メタデータは、その関連付けられたサムネイルに関連する少なくとも一つの関連広告を含む。製品サムネイルが抽出されたフレームの時間位置を示す時間タグ情報は、ビデオ製品メタデータに含まれていてもよい。

図２は、本発明の一実施形態に基づくビデオフレーム選択モジュール１１０を示す。フレーム選択モジュール１１０は、ショット分割モジュール１１２とフレーム品質フィルタリングモジュール１１４とを含む。ビデオデータベース１０２からの入力ビデオは、入力ビデオを、各々が複数のフレームを含む複数のビデオショットに分割するショット分割モジュール２１２に供給される。各ビデオショットは、典型的には数秒間続く。好ましくは、入力ビデオは、ショット内に重要な場面変更がないように分割される。一実施形態では、入力ビデオは、連続するフレーム間の視覚的なピクセルの変化に基づいてショットに分割される。連続するフレーム間でのピクセル毎の色のヒストグラムの差が算出され、その差が予め決められたしきい値を超える場合、それらフレームは二つの別のショットに分けられる。そして、分割されたビデオは、製品検出モジュール２００が対象製品の存在に関して入力ビデオ内のビデオフレームを分析する前に、低い画像解像度を有するフレームを取り除くフレーム品質フィルタリングモジュール１１４に供給される。フレーム品質フィルタリングモジュール１１４によってビデオフレームをフィルタリングすることは、入力ビデオ内のフレームの画像の鮮明度及びコントラストを評価することと、（例えば、モーションブラーの度合い又はシーン遷移のため）最小解像度のしきい値要件を満たさないフレームを破棄することとを含む。あるいは、フレーム品質フィルタリングのステップすべてを省略し、対象製品の検出に直接進むことも可能かもしれない。入力ビデオの分割は任意であってもよい。

そして、入力ビデオからのフレームは、ビデオフレーム選択モジュール１１０から、それらがいずれかの対象製品を含むかどうかを決定するために、入ってくるビデオフレームを分析する製品検出モジュール２００に供給される。製品検出モジュール２００は、まず、フレームの視覚的な表現を作成するために、フレームから視覚的な特徴を抽出し、抽出された特徴を量子化することによって、各フレームの視覚的な表現を生成する。視覚的な特徴は、色ヒストグラムと、勾配方向及び畳み込みニューラルネットワークのヒストグラムとを含んでいてもよい。他の視覚的な特徴が、追加で、あるいは代わりに使用されてもよい。フレームがいずれかの対象製品を含むかどうかを評価するために、フレームの視覚的な表現は、対象製品イメージデータベース２１０に含まれる対象製品の視覚的な表現と比較される。対象製品の視覚的な表現は、ビデオフレームと同様に、対象製品の少なくとも一つの代表的な画像から視覚的な特徴を抽出し、抽出された特徴を量子化することによって作成されてもよい。関連する製品の画像だけでなく、（例えば、前面、透視図のような異なる視野の）対象製品の二つ以上の代表的な画像も同様に、対象製品をモデル化し、その視覚的な表現を作成するために使用され得る。

製品検出モジュール２００は、ビデオフレームを解析するために、全体画像視覚分類アルゴリズムとオブジェクト位置特定アルゴリズムとを含む視覚分析アルゴリズムを使用してもよい。あるいは、他の視覚分析アルゴリズムがさらに適しているかもしれない。全体画像視覚分類アルゴリズムは、フレームの視覚的な表現を、それが対象製品イメージデータベース２１０内で見つかった対象製品の視覚的な表現に似ている視覚的な特性を含むかどうかを判定するために、検索する。いずれかの対象製品がフレーム内に存在する確率を示す対象製品確率指標が算出されてもよい。それらが最小の製品確率指標のしきい値を満たすかどうかによって決定される、対象製品を含んでいる十分に高い確率を有するフレームだけが、製品サムネイル生成モジュール２２０によるさらなる処理のために選択される。一実施形態では、対象製品の存在を検出する際、オブジェクト位置特定アルゴリズムは、フレーム内の検出された対象製品の位置を特定し、フレーム内の検出された対象製品の座標を示す位置ベクトルを生成する。特徴形状に基づいてオブジェクトを検出する、形状に基づく視覚的なモデルが、検出された対象製品の位置を特定するために使用されてもよい。そのようなアルゴリズムの例は、限定されないが、ハール・カスケード（ＨａａｒＣａｓｃａｄｅ）検出器やＨＯＧ検出器を含む。あるいは、他のオブジェクト検出アルゴリズムも適しているかもしれない。位置ベクトルは、その後、検出された対象製品を含む製品サムネイルを生成する前に、検出された対象製品の位置を特定するために、製品サムネイル生成モジュール２２０によって使用され得る。先に述べたように、各対象製品は、それに関連付けられた対象製品名を有する。

そして、製品検出モジュール２００によって選択されたビデオフレームは、好ましくは、選択されたビデオフレーム内で見つかった、検出された対象製品の対象製品名と共に、製品サムネイル生成モジュール２２０に供給される。図３に示されるように、製品サムネイル生成モジュール２２０は、サムネイルイメージングモジュール２２２、サムネイルフィルタリングモジュール２２４及びビデオ製品サムネイルデータベース２２８を含む。サムネイルイメージングモジュール２２２は、入ってくるビデオフレーム内で、検出された対象製品の位置を特定し、その位置が特定された、検出された対象製品のイメージに基づいて、検出された製品のサムネイル画像を生成する。我々はサムネイル画像を製品サムネイルと称する。フレーム内の対象製品の位置は、ビデオフレーム内で検出された対象製品の座標を示す位置ベクトルが助けとなってもよい。代わりの実施形態では、サムネイルイメージングモジュール２２２は、初めに、検出された対象製品の位置を特定して、その製品自体を囲む局所的な領域に基づく製品サムネイルを生成する代わりに、フレーム全体の視覚的なイメージに基づく対象製品のサムネイルを生成する。製品サムネイルを作成する前に、フレーム内で対象製品の位置を特定し、検出された対象製品自体を拡大することの利点は、フレーム内で、他の特徴からのバックグラウンドノイズが十分に除去されることである。これは、検出された対象製品のより正確な視覚的な表現を可能にし、したがって、検出された対象製品に関連する広告の識別を改善する。

製品サムネイルイメージングモジュール２２２によって生成された製品サムネイルは、製品グループ化モジュール２２６及び／又はフィルタリングモジュール２２７を含み得るサムネイルフィルタリングモジュール２２４に供給される。製品グループ化モジュール２２６は、製品サムネイルを評価し、必要であればそれらをグループ化する。そして、サムネイルは、フィルタリングモジュール２２７によってフィルタリングされてもよい。一実施形態では、製品グループ化モジュール２２６は、フレーム内の位置と製品の視覚的な特徴のような、検出された対象製品の類似度によって示される通りに、同一のショット内での二つ以上の製品サムネイルが同一の対象製品を含むかどうかを判定する。二つ以上の製品サムネイルが同一の対象製品を含むと分かった場合、それらは一緒にグループ化される。そして、フィルタリングモジュール２２７は、二つのステップの処理で製品サムネイルをフィルタリングする。第１ステップにおいて、製品サムネイルは、各サムネイルグループのサイズ及び画質のような基準に基づいてフィルタリングされる。画質は、画像解像度及びコントラストの点で評価されてもよい。より大きなサイズのサムネイルグループは、同一の対象製品がショット内のより長い継続期間に現れ、そのような対象製品は、たった一度だけ現れる製品と比較して正確に識別された可能性がより高いことを意味するので、より望ましいものとして考慮されてもよい。各基準に異なる優先度を割り当てるために、フィルタリングアルゴリズムは重み付けされてもよい。（グループの一部ではない）個別の製品サムネイルは、あるいは同じグループのすべてのメンバーがフィルタリング基準を満たさない場合、それらは破棄される。第２ステップにおいて、残っている製品サムネイルが、一つ以上のグループを含む場合、フィルタリングモジュールは、各グループを表すための一つの製品サムネイルを選択し、グループ内の残りのサムネイルを削除する。代表的な製品サムネイルを選択するのに有用な基準は、画像解像度、コントラスト及び対象製品確率指標のような、フレームの品質のフィルタリングに使用されるものを含む。製品確率指標及びサムネイル画像解像度のような、より製品特有である他の基準が、追加で、あるいは代わりに用いられてもよい。フィルタリングモジュール２２７によって保持される製品サムネイルは、ビデオ製品サムネイルデータベース２２８に保存される。製品サムネイル内の検出された対象製品の対象製品名と、その製品サムネイルに関連付けられた時間タグ情報も、製品サムネイルと共にビデオ製品サムネイルデータベース内に保存されてもよい。時間タグ情報は、サムネイルが抽出されたビデオフレームの入力ビデオ内での時間位置を示す。

図１に示されるように、製品サムネイル生成モジュール２２０のビデオ製品サムネイルデータベース２２８に格納されたビデオ製品サムネイルは、各製品サムネイル内の検出された対象製品の視覚的な表現を生成するビデオ製品視覚インデキシングモジュール３００に入力される。我々は、この視覚的な表現をビデオ製品視覚インデックスと称する。検出された対象製品の視覚的な表現を作成するために、製品サムネイル内の視覚的な特徴を抽出して、抽出された特徴を量子化することによって、ビデオ製品視覚インデックスが生成される。視覚的な特徴は、色ヒストグラムと、勾配方向及び畳み込みニューラルネットワークのヒストグラムとを含んでいてもよい。他の視覚的な特徴が、追加で、あるいは代わりに使用されてもよい。そして、製品サムネイルのビデオ製品視覚インデックスは、この場合、サムネイル内の検出された対象製品に視覚的に類似する製品に引き寄せる広告であるメディアコンテントを識別するためにそれを用いる製品−広告マッチングモジュール３１０に入力される。

図１に示されるように、製品−広告マッチングモジュール３１０は、広告格納データベース４１０と広告製品視覚インデキシングモジュール４２０とを含む広告製品データベース４００と通信する。広告格納データベース４１０は、視覚的なイメージ又はビデオの形態であり得る広告を格納する。例えば、ビデオの場合には、広告されている製品を表す少なくとも一つの視覚的なイメージが、そのビデオと一緒に格納される。広告製品視覚インデキシングモジュール４２０は、各広告によって宣伝されている製品の視覚的な表現を生成する。我々が広告製品視覚インデックスと称するその視覚的な表現は、広告が視覚的なイメージの形態を取る場合、その広告自体に基づくことができる。広告製品イメージは、広告内で宣伝されている製品の一つ以上の視覚的なイメージに基づくこともできる。ビデオ製品視覚インデックスでのように、広告製品視覚インデックスも、視覚的なイメージ内の視覚的な特徴を抽出するための視覚分析アルゴリズムを使用して生成される。視覚的な特徴は、色ヒストグラムと、勾配方向及び畳み込みニューラルネットワークのヒストグラムとを含んでいてもよい。他の視覚的な特徴が、追加で、あるいは代わりに使用されてもよい。広告製品視覚インデックスは、その関連付けられた広告の広告製品インデックスの一部として、広告格納データベースに格納される。広告格納データベース内の広告にも、好ましくは、対象製品イメージデータベース内に格納された対象製品の対象製品名に対応する対象製品名が割り当てられる。広告に関連付けられた対象製品名は、広告製品インデックスに格納されてもよい。

製品−広告マッチングモジュール３１０は、検出された対象製品に視覚的に類似する製品に結び付けられた広告を求めて、広告格納データベース４１０を検索することによって、各ビデオ製品サムネイル内の検出された対象製品に関連する広告を識別する。視覚的な類似度は、製品サムネイルのビデオ製品視覚インデックスと、広告の広告製品視覚インデックスとの間のマッチングの近さを判定することによって評価される。上述したように、広告の広告製品視覚インデックスは、広告内で宣伝されている製品の視覚的な表現である。関連広告の検索は、検出された対象製品と同じ対象製品名を有する広告に検索を限定することによって促進され得る。製品−広告視覚マッチングモジュール３１０は、検索結果に基づいて各サムネイルのための製品関連スコアを算出してもよい。製品関連スコアは、少なくとも広告格納データベース上の最も密接にマッチした広告と、検出された対象製品との間の、それら各々の製品視覚インデックスに関する類似性の度合いを示す。製品関連スコアに含まれる広告の数は、サムネイルに関連付けられた関連広告の数に対応する。関連付けられた広告の数の次には、グラフィカルユーザーインターフェース（ＧＵＩ）のようなビデオディスプレイ上に同時に表示され得る広告の望ましい数に依存する。したがって、製品関連スコアは、最も密接にマッチした広告だけに限らず、上位のいくつかの最も関連する広告にも関する情報である。一実施形態では、製品関連スコアとして示される、最も密接にマッチした広告とサムネイル内の検出された対象製品との類似性の度合いが、最小しきい値を満たさない場合、製品サムネイルは破棄されてもよく、ビデオ製品メタデータモジュール３５０に供給されなくてもよい。

ビデオ製品メタデータモジュール３５０は、製品−広告マッチングモジュール３１０によって破棄されていない各製品サムネイルのために、ビデオ製品メタデータを作成する。製品サムネイルに関する他の情報だけでなく、製品サムネイルに関連する広告も同様に、ビデオ製品メタデータの生成を可能にするためにビデオ製品メタデータモジュール３５０に入力される。各ビデオ製品メタデータは、製品サムネイルに関連する少なくとも一つの広告を含む。それは、製品サムネイルが抽出されたフレームの時間位置に関する時間タグ情報を含む、製品サムネイルに関連付けられた属性も含み得る。製品関連スコア、製品サムネイルの画像のような他の属性も、ビデオ製品メタデータに含まれ得る。時間タグ情報、製品サムネイル画像及び製品関連スコアを含むことが不可欠ではないことは理解されるべきである。しかしながら、製品関連スコアに依存して広告が選択的に表示されることが意図される場合に、製品関連スコアが必要である間、入力ビデオが再生されるときにイメージが表示されるならば製品サムネイル画像が要求され得る。各サムネイルのためのビデオ製品メタデータは、ビデオ製品メタデータモジュール３５０による、その後の検索のために、ビデオ製品メタデータモジュール３５０内にあるバッファに格納されてもよい。入力ビデオが再生されるときに、関連広告の表示を可能にするために、ビデオ製品メタデータモジュール３５０は、入力ビデオに関連付けられたビデオ製品メタデータすべてを含むビデオ製品インデックスを生成する。ビデオ製品インデックスは、データパケットの形態であってもよく、ビデオ製品メタデータ内の関連広告がビデオディスプレイ上での表示のために取得できるように構成される。

図４に示される一実施形態では、入力ビデオ及びその関連するビデオ製品インデックスは、クライアントにあるビデオプレーヤー５１０から遠隔にホストとして働くビデオストリーミングサーバー５００上に保存される。ビデオストリーミングサーバーは、インターネットのようなネットワークを介してビデオプレーヤーと通信する。ビデオプレーヤー５１０は、ビデオ製品インデックスを読み出し、ビデオプレーヤーがビデオを表示するビデオディスプレイ上に、関連広告の表示を引き起こすように構成される広告モジュール５１２を含む。広告モジュールはビデオプレーヤー５１０の構成要素として図４に示されるが、これが不可欠ではなく、広告モジュールがスタンドアロンのモジュールとしても具体化され得ることは理解されるべきである。ビデオストリーミングサーバー５００上に格納される特定のビデオを再生することをユーザーがビデオプレーヤー５１０に要求するとき、ビデオプレーヤー５１０は、検索されるべきビデオのビデオＩＤと一緒に、サーバー５００にリクエストを送る。ビデオリクエストを受け取ったことに応じて、サーバーは、要求されたビデオのビデオコンテントを、それに関連付けられたビデオ製品インデックスと同様にストリーミングする。関連付けられたビデオ製品インデックスは、広告モジュール５１２内に格納される。広告モジュールは、ビデオ製品インデックスを読み出し、ビデオプレーヤーのグラフィカルユーザーインターフェース（ＧＵＩ）上の関連広告の表示を描画するだろう。一実施形態では、時間タグ時のビデオを再生するときのように、ビデオが再生されるときにはいつでも、広告モジュール５１２は、ビデオプレーヤーのＧＵＩ上の関連広告の表示を自動的に描画し得る。先に論じられたように、時間タグは、検出された製品を伴うフレームが現れるビデオ内のポイントを指す。入力ビデオが再生される前、あるいは後に、関連広告が表示されてもよい。代わりに、あるいは追加して、広告モジュールが各広告の製品関連スコアを特定のしきい値と比較し、特定のしきい値を超える製品関連スコアを有する広告の表示だけを描画するケースにおいては、広告の表示が選択的であってもよい。その特定のしきい値は、入力ビデオを要求するユーザーの身分（ｉｄｅｎｔｉｔｙ）に依存して変化してもよい。例えば、ビデオコンテントの供給元は、支払っている又は支払っていないユーザーのような、異なるクラスのユーザーを有していてもよい。そして、広告モジュールは、支払わないユーザーに、通常、より多くの広告が表示されるように、支払わないユーザーに対してよりも支払うユーザーに対して、その特定のしきい値がより高くなるように構成されてもよい。図５に示される一実施形態では、二つ以上の関連広告が同時に表示され、例えば、最も高い及び二番目に高い製品関連スコアを有する広告が表示され得る。図５の広告は視覚的なイメージとして示されるが、広告がビデオの形態であってもよい。検出された対象製品を含む製品サムネイルが、広告として同時に表示されてもよい。さらに、ＧＵＩは、広告画像及び製品サムネイル画像を拡大することが可能であるように構成されてもよい。ＧＵＩは、もっと見るかあるいは閉じるために移動可能なコントロールバー５２０を有していてもよい。ビデオストリーミングサーバー５００は、一つのビデオプレーヤークライアントだけに役立つものとして図４に示されるが、このサーバーは、そのビデオ及びビデオ製品インデックスがビデオストリーミングサーバー上で同様にホストされる多数のクライアントにさらに役立ってもよいことが理解されるべきである。さらに、別のオフラインの実施形態では、入力ビデオ及びその関連付けられたビデオ製品インデックスは一緒に、ビデオプレーヤー内にあるか、あるいはビデオプレーヤーにつながれた記憶装置のようなクライアント領域に格納され、遠隔のサーバーに接続する必要なく検索されてもよい。

図６は、ビデオが再生されるときに関連広告のオンライン識別で使用されるビデオ製品インデックスの生成のための例示的な機構６００のブロック図を示す。この機構６００は、ビデオデータベース１０２、ビデオフレーム選択モジュール１１０、対象製品イメージデータベース２１０と通信する製品検出モジュール２００、製品サムネイル生成モジュール２２０、ビデオ製品視覚インデキシングモジュール３００、ビデオ製品メタデータモジュール３５０及びビデオ製品インデックスデータベース６２０を備える。一実施形態において、ビデオフレーム選択モジュール１１０、製品検出モジュール２００、対象製品イメージデータベース２１０、製品サムネイル生成モジュール２２０、ビデオ製品視覚インデキシングモジュール３００は、図１のオフラインの実施形態にあるものと同様である。それらも、入力ビデオストリーム内の対象製品を識別し、検出された対象製品を含む一つ以上のフレームを選択し、検出された製品を含む製品サムネイルを生成し、製品サムネイル内の検出された対象製品の視覚製品インデックスを生成するために、同様に動作する。

具体的には、処理用の入力ビデオは、ビデオデータベース１０２から、入力ビデオを各々が複数のフレームを含む複数のショットに分割し、低い画像解像度を有するビデオフレームを取り除くビデオフレーム選択モジュール１１０に供給される。図２に記載されたビデオフレーム選択モジュール１１０が使用されてもよい。そして、製品検出モジュール２００は、ビデオフレーム選択モジュール１１０から入ってくるビデオフレームを分析し、どのフレームが対象製品イメージデータベース２１０によって識別される対象製品を含むかを識別する。対象製品は、広告製品データベース４００内に格納される広告であって、ビデオが再生されるときに、表示のために入力ビデオとマッチングされる広告に関連するオブジェクトを示す。図１に関して記載された製品検出モジュール２００が使用されてもよい。対象製品の検出は、視覚分析アルゴリズムを使用して、各フレームの視覚的な表現を、対象製品イメージデータベース２１０内の対象製品の視覚的な表現と比較することによって行われる。視覚分析アルゴリズムは、フレームの視覚的な表現を、それが対象製品イメージデータベース２１０内で見つかった対象製品の視覚的な表現に似ている何らかの視覚的な特徴を含むかどうかを判定するために検索する全体画像視覚分類アルゴリズムを含んでいてもよい。いずれかの対象製品がフレーム内に存在する確率を示す対象製品確率指標が算出されてもよい。一実施形態では、視覚分析アルゴリズムは、フレーム内の対象製品の検出に応じて、フレーム内の検出された対象製品の座標を示す位置ベクトルを生成するオブジェクト位置特定アルゴリズムをさらに含んでいてもよい。特徴形状に基づいてオブジェクトを検出する、形状に基づく視覚モデルが、検出された対象製品の位置を特定するために使用されてもよい。位置ベクトルは、その後、検出された対象製品を含む製品サムネイルを生成する前に、その検出された対象製品の位置を特定するために、製品サムネイル生成モジュール２２０によって使用されてもよい。製品確率指標に関する予め設定されたしきい値目標値を満たすフレームだけが、製品サムネイル生成モジュール２２０によるさらなる処理のために選択される。そして、製品検出モジュールによって選択されたビデオフレームは、ビデオフレーム内で検出された対象製品のサムネイルを生成する製品サムネイル生成モジュール２２０に供給される。図３に記載された製品サムネイル生成モジュール２２０が使用されてもよい。図３に関して記載されたように、製品サムネイル生成モジュール２２０は、サムネイルイメージングモジュール２２２、サムネイルフィルタリングモジュール２２４及びビデオ製品サムネイルデータベース２２８を含む。サムネイルイメージングモジュール２２２は、ビデオフレーム内の、検出された対象製品の視覚的なイメージである製品サムネイルを生成してもよい。好ましくは、サムネイルイメージングモジュール２２２は、製品検出モジュール２００によって生成された位置ベクトルを使用して、ビデオフレーム内で、検出された対象製品の位置を特定し、位置が特定された、検出された対象製品のイメージに基づいて製品のサムネイル画像を生成する。製品サムネイルは、その代わりとして、フレーム全体の視覚的なイメージに基づいて生成されてもよい。一つのフレーム内で二つ以上の対象製品が検出された例では、サムネイルイメージングモジュールは、対象製品確率指標によって評価される通りに、最も高い存在の可能性がある対象製品の製品サムネイルだけを生成する。製品サムネイルイメージングモジュール２２２によって生成された製品サムネイルは、製品グループ化モジュール２２６とフィルタリングモジュール２２７とを含むサムネイルフィルタリングモジュール２２４に供給される。製品グループ化モジュール２２６は、製品サムネイルを評価し、必要であればそれらをグループ化する。そして、フィルタリングモジュール２２７は、二つのステップの処理で製品サムネイルをフィルタリングしてもよい。第１ステップにおいて、製品サムネイルは、各サムネイルグループのサイズ及び画質のような基準に基づいてフィルタリングされる。第２ステップにおいて、残りの製品サムネイルが一つ以上のグループを含んでいる場合、フィルタリングモジュールは、各グループを表すための一つの製品サムネイルを選択し、グループ内の残りのサムネイルを削除する。フィルタリングモジュール２２７によって保持される製品サムネイルは、好ましくは、サムネイル内の検出された対象製品の対象製品名と、サムネイルに関連付けられた時間タグ情報と共に、ビデオ製品サムネイルデータベース２２８に保存される。時間タグ情報は、サムネイルが抽出されたビデオフレームの入力ビデオ内での時間位置を示す。図６に示されるように、製品サムネイル生成モジュール２２０のビデオ製品サムネイルデータベース２２８に格納されたビデオ製品サムネイルは、各サムネイル内の検出された対象製品の視覚的な表現を生成するビデオ製品視覚インデキシングモジュール３００に入力される。ビデオ製品視覚インデックスは、製品の視覚的な表現を作成するために、サムネイル内の視覚的な特徴を抽出して、抽出された特徴を量子化することによって生成される。

そして、製品サムネイルのビデオ製品視覚インデックスは、各製品サムネイルのビデオ製品メタデータを作成するビデオ製品メタデータモジュール３５０に入力される。各ビデオ製品メタデータは、それが関連付けられている製品サムネイルのビデオ製品視覚インデックスを少なくとも含む。それは、製品サムネイルの画像、時間タグ情報、及び対象製品名を含む、関連付けられた製品サムネイルに関連する他の属性を任意で含んでいてもよい。検出された対象製品がビデオ内に現れる時間前後に広告が表示されるべきである場合、時間タグは、ビデオ製品メタデータ内に含まれ、製品サムネイルが検出されたフレームの時間位置に関する情報を示す。製品サムネイル画像に関しては、入力ビデオが再生されるときに、製品サムネイルの画像が表示されるべきであれば必要とされる。各サムネイルのビデオ製品メタデータは、ビデオ製品メタデータモジュール３５０による、その後の検索のために、ビデオ製品メタデータモジュール３５０内にあるバッファに格納されてもよい。入力ビデオが再生されるときに、関連広告の表示を可能にするために、ビデオ製品メタデータモジュール３５０は、入力ビデオに関連付けられたビデオ製品メタデータすべてを含むビデオ製品インデックスを生成する。ビデオ製品インデックスは、データパケットの形態であり、ビデオ製品メタデータ内に存在する情報が検索でき、関連広告の識別のような目的に使用できるように構成される。図７は、複数のビデオ製品メタデータ１〜Ｎを含み、各々が製品サムネイルに関連付けられる、例示的なビデオ製品インデックス７００を示す。先に論じられたように、各ビデオ製品メタデータは、少なくとも、製品サムネイル内に示される、検出された対象製品に関連する広告の識別に必要な情報を含むべきである。ビデオ製品インデックスは、各ビデオ製品メタデータ内の情報が検索でき、関連広告を検索するために使用できるように構成される。ビデオ製品メタデータ内に存在する時間タグ情報の存在によって証拠づけされる通りに、情報が入力ビデオのタイムラインに結び付けられるように、図７に示されるビデオ製品インデックス７００は時間に基づく。

図８は、ビデオ製品インデックスを用いる、関連広告のオンライン識別のためのシステム８００の実施形態を示す。このシステムは、サーバー領域で、複数のビデオを含むビデオサーバー８１０を含む。ビデオサーバーは、図１及び６に示されるビデオデータベース１０２と同一であってもよい。サーバー領域は、ビデオ製品インデックスデータベース６２０と、広告格納データベースを含む広告製品データベース８２０とにつながれた製品−広告検索サーバー８２０も含む。製品−広告検索サーバー８２０は、広告モジュール８４２を含むビデオプレーヤー８４０を含んでいるクライアントと、インターネットのようなネットワークを介して通信する。広告モジュール８４２は、ビデオが再生されるときに、関連広告の表示を引き起こすだけでなく、ビデオに関連付けられたビデオ製品インデックスと座標とを読み出すように構成される。広告モジュール８４２は、ユーザーの行動に応じてある動作を行うように構成されていてもよい。広告モジュール８４２は、ビデオプレーヤー自体の構成部として図８に示されるが、広告モジュール８４２が、アドオンモジュールの形態で、スタンドアロンの実施形態でもよいことは理解されるべきである。

特定のビデオファイルを再生するためのユーザーリクエストに応じて、ビデオＩＤによって識別される、要求されたビデオファイルを送るために、ビデオプレーヤーはビデオサーバー８１０にリクエストを送信する。そのリクエストを受け取り次第、ビデオサーバー８１０は、ビデオプレーヤーにビデオファイルを送る。ビデオファイルに関連する広告の識別を可能にするために、広告モジュール８４２は、製品−広告検索サーバー８２０に、要求されたビデオに対応するビデオ製品インデックスのリクエストを送る。対応するビデオ製品インデックスは、ビデオ自体と同じビデオＩＤによって識別される。そのリクエストを受け取り次第、製品−広告検索サーバー８２０は、ビデオＩＤを使用して、ビデオ製品インデックスデータベース６２０から対応するビデオ製品インデックスを検索し、それを広告モジュール８４２に送る。図に示されない別の実施形態では、ビデオ製品インデックスは、ビデオサーバー８１０内のように、ビデオファイルと一緒に格納され、ビデオファイルと一緒に検索されてもよい。ビデオ製品インデックスは、ビデオファイルと一緒に、クライアント側にある位置に格納されてもよい。ビデオ製品インデックスがその関連付けられたビデオファイルと一緒に格納される場合、別のビデオ製品インデックスデータベースは必要でないかもしれない。先に述べたように、ビデオ製品インデックスは、製品サムネイルに関連付けられた一つ以上のビデオ製品メタデータを含んでいる。各ビデオ製品メタデータは、少なくとも、サムネイル内の検出された対象製品に関連する広告の識別を促進するであろう情報を含んでいる。したがって、各ビデオ製品メタデータは、ビデオ製品視覚インデックスを少なくとも含むであろう。それは、関連する広告の識別を促進する対象製品名もさらに含み得る。さらに、製品が見つかったフレームのタイミングを示す時間タグ及び／又は製品サムネイルの視覚的なイメージも、ビデオメタデータに含まれ得る。

製品サムネイル内で見つかった、検出された対象製品に関連する広告を識別するために、広告モジュール８４２は、ビデオ製品インデックス内のその対応するビデオ製品メタデータから、製品サムネイルのビデオ製品視覚インデックスを検索する。そして、広告モジュール８４２は、製品広告検索サーバー９１０に、ビデオ製品視覚インデックスに基づいて関連広告を識別することを要求する推薦信号を送る。広告モジュール８４２は、ビデオ製品インデックスが受け取られた後はいつでも、推薦信号を送ってよい。検出された対象製品に関連する広告が、検出された対象製品がビデオに現れるのと同時に表示される状況において、その検出された製品のための推薦信号は、ビデオ再生が時間タグ時に達する前に、すなわち、検出された対象製品がビデオ内に現れる時間位置の前に、トリガされなければならないだろう。広告モジュール８４２は、視覚製品インデックスに含まれるビデオ製品メタデータから時間タグ情報を取得し、時間に遅れずに関連広告が受信され、表示され得るように、推薦信号のトリガを調整してもよい。好ましくは、検出された製品に関連付けられた対象製品名は、広告モジュール８４２によって検索でき、以下に記載されるように、同一の対象製品名を有する広告だけが分析されるように、製品−広告検索サーバーに送ることができるように、ビデオメタデータ内でも見つけられる。さらに、広告モジュールは、検索を促進するために、ビデオメタデータ内で見つからない他の情報を送ってもよい。推薦信号を送り、関連広告を識別し、関連広告を送る処理は、関連付けられたビデオが再生されている間でさえも実行され得ることは理解されるべきである。

図８に示されるように、製品−広告検索サーバー８２０は、視覚的なイメージ又はビデオの形態で複数の広告を格納する広告製品データベース８３０と通信する。各広告は、各広告によって宣伝される製品の視覚的な表現である、対応する広告製品視覚インデックスを有する。図１の実施形態と同様に、広告が視覚的なイメージの形態をとる場合、その広告自体に基づくことができ、あるいは広告内で宣伝されている製品の一つ以上の視覚的なイメージに基づくことができる。広告製品視覚インデックスは、視覚的なイメージ内の視覚的な特徴を抽出することによって生成される。視覚的な特徴は、色ヒストグラムと、勾配方向及び畳み込みニューラルネットワークのヒストグラムとを含んでいてもよい。他の視覚的な特徴も、追加で、あるいは代わりに使用され得る。広告製品データベース８３０は、広告がどの製品カテゴリに属するかのような、広告に関する他の情報をさらに含んでいてもよい。製品−広告検索サーバー８１０は、検出された対象製品に視覚的に類似する製品に引き寄せる広告を求めて、広告格納データベース８３０を検索することによって、検出された対象製品に関連する広告を識別する。視覚的な類似性は、製品サムネイルのビデオ製品視覚インデックスと、広告の広告製品視覚インデックスとの間のマッチングの近さによって評価される。好ましくは、広告格納データベース内の広告にも、対象製品イメージデータベース内の対象製品に割り当てられた対象製品名に対応する対象製品名が割り当てられる。そして、関連広告の検索は、マッチングしている検出された製品と同じ対象製品名を有する広告を検索することによって促進されるだろう。関連広告の検索も、ビデオを検索するときにその検索を導くためにユーザーによって入力され得た何らかのテキストのクエリ及びユーザー情報のような、広告モジュールによって送られた他の追加情報によって導かれてもよい。製品−広告検索サーバー８２０は、検索結果に基づいて、各サムネイルの製品関連スコアを算出してもよい。製品関連スコアは、少なくとも広告製品データベース８３０上の最も密接にマッチした広告と、マッチングしている検出された対象製品との間の、それら各々の製品視覚インデックスに関する視覚的な類似性の度合いを示す。製品関連スコアに含まれる広告の数は、製品サムネイルに関連付けられた関連広告の数に対応する。関連付けられた広告の数の次には、ビデオプレーヤーＧＵＩ上に同時に表示されてもよい広告の望ましい数に依存する。したがって、製品関連スコアは、最も密接にマッチした広告だけに限定されず、上位のいくつかの最も関連する広告にも関する情報である。

製品−広告検索サーバー８２０は、広告製品データベース８３０から関連する広告を検索し、それらを広告モジュール８４２に送る。広告モジュール８４２は、それらがビデオプレーヤーＧＵＩ上に表示される前に、関連する広告をバッファ内に格納してもよい。一実施形態では、広告モジュール８４２は、ビデオが再生されているとき、ビデオプレーヤーのグラフィカルユーザーインターフェース（ＧＵＩ）上に、関連する広告の表示を自動的に描画する。好ましくは、時間タグ時の、すなわち、その対応する検出された対象製品がビデオ上に現れるときと同時の、映像を再生するとき、関連広告が表示される。製品サムネイルは、図５のように、広告のそばに表示されてもよい。しかしながら、これは不可欠ではない。例えば、関連広告は、ビデオが再生される前、あるいは後に表示されてもよい。別の実施形態では、関連する広告の表示は、広告モジュール８４２が、関連する広告それぞれの製品関連スコアを、指定されたしきい値と比較し、その指定されたしきい値を超える製品関連スコアを有する広告の表示だけを描画する場合において、選択的である。しきい値の設定は、ビデオを要求するユーザーの身分によって変わる変数であってもよい。例えば、支払っているユーザーは、支払っていないユーザーよりもより少ない広告が表示されるように、より高いしきい値設定を有していてもよい。しきい値設定が製品−広告検索サーバー上に格納される場合、しきい値より高い製品関連スコアを有する広告だけが、広告モジュール８４２に送られるだろう。さらに、広告モジュール８４２は、ユーザーが表示された広告に応答するときに、ある動作を行うように構成されてもよい。

図９のシステムの別の応用では、関連広告の検索は、自動的に始動されず、ユーザーの要求に基づく。図９に示された一例において、検出された製品の製品サムネイルがビデオ再生の間にビデオプレーヤーＧＵＩ上に示され、ユーザーはそのサムネイルをクリックすることにより検索を始動させる。そのような実例では、ビデオ製品インデックスで見つかったビデオ製品メタデータは、製品サムネイルの画像と時間タグ情報とを含まなければならないだろう。そのようなユーザーの行動に応じて、図８の広告モジュール８４２は、ビデオが時間タグの近くを再生するとき、自動的に始動されたものと同様の推薦信号をトリガする。推薦信号の受け取りに応じて、製品−広告検索サーバー８２０は、サムネイル内で見つかった、検出された対象製品のための関連広告を識別する。関連広告の検索を促進するために、検出された製品のビデオ製品視覚インデックスが、再生されているビデオに関連付けられたビデオ製品インデックス内のそのビデオメタデータから検索され、製品−広告検索サーバー８２０に送られる。好ましくは、検出された製品の対象製品名もビデオ製品メタデータから検索され、製品−広告検索サーバー８２０に送られてもよい。検索が自動的に始動される例のように、製品−広告検索サーバー８２０は、検出された対象製品に視覚的に類似する製品の広告を求めて広告格納データベース８３０を検索する。検出された対象製品のビデオ製品視覚インデックスと、広告の広告製品視覚インデックスとの間のマッチングの近さによって評価される視覚的な類似性。一実施形態では、関連広告の検索は、マッチングしている検出された製品と同じ対象製品名がある広告を検索することにより促進される。他の情報もその検索を促進するために、広告モジュール８４２によって製品−広告検索サーバー８２０に送信されてもよい。例えば、図９に示されるビデオプレーヤーＧＵＩは、ユーザーが検索オプションを選択することを可能にする。ビデオを検索するときにユーザーによって入力され得たテキストのクエリ、ユーザーの行動及び優先情報のような他の情報だけでなく、ユーザーによって選択されたオプションも同様に、製品−広告検索サーバー８２０に送られ、関連広告の識別に使用されてもよい。製品−広告検索サーバー８２０は、マッチングしている検出された対象製品に、少なくとも一つの最も密接にマッチした広告がどれくらい関連しているかを示す製品関連スコアを算出する。それは、第一に、視覚的な類似性の度合いに基づく。製品関連スコアに反映されている関連広告の数は、ビデオプレーヤーＧＵＩ上に同時に表示されてもよい、したがって各製品サムネイルに関連していてもよい、広告の望ましい数による。最も高い製品関連スコアを有する一つ以上の広告は、ビデオプレーヤーＧＵＩ上の表示のために、製品−広告検索サーバー８２０によって広告モジュール８４２に送られる。図９の例では、関連広告は、製品サムネイル及び検索オプションと並べて、ポップアップウィンドウ内に表示される。

Claims

複数のビデオフレームを含む入力ビデオのために関連するメディアコンテントを識別するための方法であって、前記方法は、
前記入力ビデオを、各々が複数のビデオフレームを含む複数のショットに分割することと、
各ショット内の前記複数のビデオフレームのいずれかが対象製品を含むかどうかを検出するために、当該複数のビデオフレームを分析することと、
前記複数のビデオフレームから、各々が検出された対象製品を含んでいる複数のビデオフレームを選択することと、
前記選択されたビデオフレームの各々のために、前記検出された対象製品を含む製品サムネイルを生成することと、
同一のショット内での二つ以上の製品サムネイルが、同一の検出された対象製品を含むかどうかを検出することと、
前記同一のショットから得られる前記同一の検出された対象製品を含む前記製品サムネイルを、それぞれのグループにグループ化することと、
前記グループの少なくとも一つから、当該グループ内で見つかった前記検出された対象製品を表すために、前記製品サムネイルの一つを選択することを含む、前記製品サムネイルの少なくとも一つを選択すること、及び前記選択された製品サムネイルの各々のためのビデオ製品視覚インデックスを生成することと、
前記選択された製品サムネイルの各々のビデオ製品視覚インデックスと、メディアコンテントデータベース内の、各々が前記メディアコンテントデータベース内の一つのメディアコンテントに関連付けられている、複数のメディアコンテント視覚インデックスとを比較することを含む、前記選択された製品サムネイルの少なくとも一つのために前記メディアコンテントデータベースから関連するメディアコンテントを識別することとを含む方法。
前記同一のショット内での二つ以上の製品サムネイルが、同一の検出された対象製品を含むかどうかを検出することは、前記選択されたビデオフレーム内での前記検出された対象製品の位置又は製品の視覚的な特徴の内の一つ以上の類似性を比較することによって、前記検出された対象製品が同一であるかどうかを分析することを含む請求項１記載の方法。
前記グループの少なくとも一つから、当該グループ内で見つかった前記検出された対象製品を表すために、前記製品サムネイルの一つを選択することは、前記製品サムネイルの画質に基づいて選択することを含む請求項１又は２記載の方法。
前記製品サムネイルの少なくとも一つを選択する前に、前記製品サムネイルの一部を取り除くことをさらに含む請求項１乃至３のいずれか一項に記載の方法。
前記製品サムネイルの一部は、前記製品サムネイルに関連付けられたグループのサイズに基づいて取り除かれる請求項４記載の方法。
前記製品サムネイルの一部は、前記製品サムネイルの画質に基づいて取り除かれる請求項４又は５記載の方法。
前記比較に基づいて、少なくとも一つのメディアコンテントを、前記選択された製品サムネイルに関連付けることをさらに含む請求項１乃至６のいずれか一項に記載の方法。
少なくとも一つのビデオ製品メタデータを含むビデオ製品インデックスを生成することをさらに含み、前記ビデオ製品メタデータの各々は、前記選択された製品サムネイルの内の一つに関連付けられている、請求項１乃至７のいずれか一項に記載の方法。
前記ビデオ製品メタデータの各々は、前記選択された製品サムネイルに関連付けられた少なくとも一つのメディアコンテントを含み、前記少なくとも一つのメディアコンテントは、ビデオディスプレイ上に表示されるために取得可能である請求項８記載の方法。
前記選択された製品サムネイルの各々のための製品関連スコアを算出することをさらに含み、前記製品関連スコアは、前記選択された製品サムネイルに関連付けられた前記メディアコンテントの各々と、前記製品サムネイルに含まれる前記検出された対象製品との間の関連の度合いを示す請求項９記載の方法。
前記少なくとも一つのビデオ製品メタデータを含むビデオ製品インデックスを生成するステップは、前記複数の選択された製品サムネイルのいずれが、前記少なくとも一つのビデオ製品メタデータを生成するべきかを、前記選択された製品サムネイルの前記製品関連スコアに基づいて決めることを含む請求項１０記載の方法。
前記ビデオ製品メタデータの各々は、前記選択された製品サムネイルの前記製品関連スコアをさらに含む請求項１０又は１１記載の方法。
前記ビデオ製品メタデータの各々は、前記選択された製品サムネイルに関連付けられた時間タグ情報をさらに含み、前記時間タグ情報は、前記選択された製品サムネイルが抽出されたビデオフレームの前記入力ビデオ内での時間位置を示す請求項８乃至１２のいずれか一項に記載の方法。
前記ビデオ製品メタデータの各々は、前記選択された製品サムネイルの視覚的なイメージをさらに含み、前記視覚的なイメージは、ビデオディスプレイ上に表示されるために取得可能である請求項８乃至１３のいずれか一項に記載の方法。
各ショット内の前記複数のビデオフレームのいずれかが対象製品を含むかどうかを検出するために、当該複数のビデオフレームを分析することは、全体画像視覚分類アルゴリズムとオブジェクト位置特定アルゴリズムとを含む視覚分析アルゴリズムを用いることを含む、請求項１乃至１４のいずれか一項に記載の方法。
少なくとも一つのビデオ製品メタデータを含むビデオ製品インデックスを生成することをさらに含み、前記ビデオ製品メタデータの各々は、前記選択された製品サムネイルの内の一つに関連付けられ、前記ビデオ製品メタデータに関連付けられた前記選択された製品サムネイルの前記ビデオ製品視覚インデックスを含む請求項１乃至７のいずれか一項に記載の方法。
前記選択された製品サムネイルの少なくとも一つのために、関連するメディアコンテントを識別するステップは、前記ビデオ製品インデックスを生成した後に行われ、前記識別することは、前記選択された製品サムネイルに関連付けられた前記ビデオ製品メタデータ内の前記ビデオ製品視覚インデックスを用いることである請求項１６記載の方法。
前記関連するメディアコンテントを識別するステップの後に、少なくとも一つのメディアコンテントを前記選択された製品サムネイルに関連付けることをさらに含む請求項１７記載の方法。
前記ビデオ製品メタデータの内の一つに関連付けられた、前記選択された製品サムネイルの各々のための製品関連スコアを算出することをさらに含み、前記製品関連スコアは、前記選択された製品サムネイルに関連付けられた各メディアコンテントと、前記選択された製品サムネイル内の前記検出された対象製品との間の関連の度合いを示す請求項１８記載の方法。
前記ビデオ製品メタデータの各々は、前記ビデオ製品メタデータに関連付けられた、前記選択された製品サムネイルに関連付けられた時間タグ情報をさらに含み、前記時間タグ情報は、前記選択された製品サムネイルが抽出されたビデオフレームの前記入力ビデオ内での時間位置を示す請求項１６乃至１９のいずれか一項に記載の方法。
前記メディアコンテントは広告の形態である、請求項１乃至２０のいずれか一項に記載の方法。
複数のビデオフレームを含む入力ビデオのために関連するメディアコンテントを識別するためのシステムであって、前記システムは、
前記入力ビデオを、各々が複数のビデオフレームを含む複数のショットに分割し、
各ショット内の前記複数のビデオフレームのいずれかが対象製品を含むかどうかを検出するために、当該複数のビデオフレームを分析し、
前記複数のビデオフレームから、各々が検出された対象製品を含んでいる複数のビデオフレームを選択し、
前記選択されたビデオフレームの各々のために、前記検出された対象製品を含む製品サムネイルを生成し、
同一のショット内での二つ以上の製品サムネイルが、同一の検出された対象製品を含むかどうかを検出し、
前記同一のショットから得られる前記同一の検出された対象製品を含む前記製品サムネイルを、それぞれのグループにグループ化し、
前記製品サムネイルの少なくとも一つを選択し、前記選択された製品サムネイルの各々のためのビデオ製品視覚インデックスを生成し、前記製品サムネイルの少なくとも一つを選択することは、前記グループの少なくとも一つから、当該グループ内で見つかった前記検出された対象製品を表すために、前記製品サムネイルの一つを選択することを含み、
前記選択された製品サムネイルの各々のビデオ製品視覚インデックスを、メディアコンテントデータベース内の、各々が前記メディアコンテントデータベース内の一つのメディアコンテントに関連付けられている、複数のメディアコンテント視覚インデックスと比較することを含み、前記選択された製品サムネイルの少なくとも一つのために前記メディアコンテントデータベースから関連するメディアコンテントを識別するように構成された少なくとも一つのプロセッサを具備するシステム。
前記同一のショット内での二つ以上の製品サムネイルが、同一の検出された対象製品を含むかどうかを検出するステップのために、前記少なくとも一つのプロセッサは、前記選択されたビデオフレーム内での前記検出された対象製品の位置又は製品の視覚的な特徴の内の一つ以上の類似性を比較することによって、前記検出された対象製品が同一であるかどうかを分析するように構成される請求項２２記載のシステム。
前記グループの少なくとも一つから、当該グループ内で見つかった前記検出された対象製品を表すために、前記製品サムネイルの一つを選択するステップは、前記製品サムネイルの画質に基づく請求項２２又は２３記載のシステム。
前記少なくとも一つのプロセッサは、前記製品サムネイルの少なくとも一つを選択する前に、前記製品サムネイルの一部を取り除くようにさらに構成される請求項２２乃至２４のいずれか一項に記載のシステム。
前記製品サムネイルの一部は、前記製品サムネイルに関連付けられたグループのサイズに基づいて取り除かれる請求項２５記載のシステム。
前記製品サムネイルの一部は、前記製品サムネイルの画質に基づいて取り除かれる請求項２５又は２６記載のシステム。
前記少なくとも一つのプロセッサは、前記比較に基づいて、少なくとも一つのメディアコンテントを、前記選択された製品サムネイルに関連付けるようにさらに構成される請求項２２記載のシステム。
前記少なくとも一つのプロセッサは、少なくとも一つのビデオ製品メタデータを含むビデオ製品インデックスを生成するようにさらに構成され、前記ビデオ製品メタデータの各々は、前記選択された製品サムネイルの内の一つに関連付けられている請求項２８記載のシステム。
前記ビデオ製品メタデータの各々は、前記ビデオ製品メタデータに関連付けられた、前記選択された製品サムネイルに関連付けられた少なくとも一つのメディアコンテントを含み、前記メディアコンテントは、ビデオディスプレイ上に表示されるために取得可能である請求項２９記載のシステム。
前記少なくとも一つのプロセッサは、少なくとも一つのビデオ製品メタデータを含むビデオ製品インデックスを生成するようにさらに構成され、前記ビデオ製品メタデータの各々は、前記選択された製品サムネイルの内の一つに関連付けられ、前記選択された製品サムネイルの前記ビデオ製品視覚インデックスを含む請求項２２記載のシステム。
前記選択された製品サムネイルの少なくとも一つのために、関連するメディアコンテントを識別するステップは、前記ビデオ製品インデックスを生成した後に行われ、前記識別することは、前記選択された製品サムネイルに関連付けられた前記ビデオ製品メタデータから検索されたビデオ製品視覚インデックスを用いることである請求項３１記載のシステム。
前記メディアコンテントは広告の形態である、請求項２２乃至３２のいずれか一項に記載のシステム。
複数のビデオフレームを含む入力ビデオのために関連するメディアコンテントを識別するためのシステムであって、前記システムは、
複数のメディアコンテントと、前記メディアコンテントの一つにそれぞれ関連付けられた複数のメディアコンテント視覚インデックスとを含むメディアコンテントデータベースと、
複数の入力ビデオの一つにそれぞれ関連付けられた複数のビデオ製品インデックスを含むビデオ製品インデックスデータベースであって、前記ビデオ製品インデックスの各々は、ビデオ製品メタデータの少なくとも一つを含み、前記ビデオ製品メタデータの各々は、製品サムネイルのビデオ製品視覚インデックスを含み、前記製品サムネイルは、前記入力ビデオ内で見つかった、検出された対象製品を表す、ビデオ製品インデックスデータベースと、
製品−メディアコンテント検索サーバーであって、
前記入力ビデオを、各々が複数のビデオフレームを含む複数のショットに分割することと、
各ショット内の前記複数のビデオフレームのいずれかが対象製品を含むかどうかを検出するために、当該複数のビデオフレームを分析することと、
前記複数のビデオフレームから、各々が検出された対象製品を含んでいる複数のビデオフレームを選択することと、
前記選択されたビデオフレームの各々のために、前記検出された対象製品を含む製品サムネイルを生成することと、
同一のショット内での二つ以上の製品サムネイルが、同一の検出された対象製品を含むかどうかを検出することと、
前記同一のショットから得られる前記同一の検出された対象製品を含む前記製品サムネイルを、それぞれのグループにグループ化することと、
前記グループの少なくとも一つから、当該グループ内で見つかった前記検出された対象製品を表すために、前記製品サムネイルの一つを選択することを含む、前記製品サムネイルの少なくとも一つを選択すること、及び前記選択された製品サムネイルの各々のためのビデオ製品視覚インデックスを生成することと、
マッチングしている前記入力ビデオの前記ビデオ製品インデックスの前記少なくとも一つのビデオ製品メタデータの各々のビデオ製品視覚インデックスを、前記メディアコンテントデータベース内の複数のメディアコンテント視覚インデックスと比較することとによって、
ビデオデータベース内の入力ビデオの一つのために、関連するメディアコンテントを識別するように構成される製品−メディアコンテント検索サーバーとを具備するシステム。
前記製品−メディアコンテント検索サーバーは、前記比較に基づいて、少なくとも一つのメディアコンテントを、前記ビデオ製品視覚インデックスの各々と関連付けるようにさらに構成される請求項３４記載のシステム。
前記製品−メディアコンテント検索サーバーは、ビデオプレーヤーと通信でつながれたメディアコンテントモジュールに、前記関連付けられたメディアコンテントを送るようにさらに構成され、前記メディアコンテントモジュールは、前記関連付けられたメディアコンテントの表示をビデオディスプレイ上に引き起こすように構成される請求項３５記載のシステム。
前記メディアコンテントモジュールは、前記ビデオプレーヤーの一部を構成する請求項３６記載のシステム。
前記入力ビデオは、前記ビデオ製品インデックスデータベースと共に設置されるデータベース内に格納される請求項３４乃至３７のいずれか一項に記載のシステム。
前記メディアコンテントは広告の形態である請求項３４乃至３８のいずれか一項に記載のシステム。