JP2023162251A

JP2023162251A - 製品ソースリンクを使用したメディア注釈

Info

Publication number: JP2023162251A
Application number: JP2023131213A
Authority: JP
Inventors: ヘンリー・スコット－グリーン; Scott-Green Henry; アンジャリ・マリク; Malik Anjali
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-04-08
Filing date: 2023-08-10
Publication date: 2023-11-08
Also published as: WO2020209835A1; US20220027624A1; JP2022529320A; JP7386890B2; US11727681B2; EP3948645A1; US20230377331A1; KR20210142746A; BR112021019461A2; CN113661492A

Abstract

【課題】製品ソースリンクを使用したメディア注釈を提供すること。【解決手段】画像に表示されたオブジェクトに注釈を付け、ソースをリンクするための技術が開示される。例示的な方法は、処理デバイスによって、画像内のオブジェクトを検出するステップと、画像内のオブジェクトをソースインジケータに関連付けるステップと、処理デバイスによって、オブジェクトがソースインジケータに関連付けられていることを示すために画像に注釈を付けるステップと、画像内のオブジェクトのユーザ選択を受信するステップと、ソースインジケータおよびユーザ選択に関連付けられるコンテキストデータに基づいてソースを識別するステップであって、ソースがオブジェクトに関する情報を備える、ステップとを含む。【選択図】図１

Description

本開示は、画像分析に関し、特に、画像コンテンツに表示されるオブジェクトに関する情報を提供するソースで画像コンテンツを補足することに関する。

多くのコンピューティングデバイスは、ユーザがメディアコンテンツをキャプチャ、閲覧、および共有することを可能にするコンテンツ共有の態様を含む。メディアコンテンツは、オブジェクトの機能を表示するビデオまたは静止画像であり得る。オブジェクトは、メディアコンテンツの焦点である製品(たとえば、一次製品)であってもよく、バックグラウンドにある補助製品であってもよい。閲覧者は、メディアアイテム内のオブジェクトを見て、オブジェクトに関するより多くの情報を取得することに関心がある場合がある。

以下は、そのような態様の基本的な理解を提供するために、本開示の様々な態様の簡略化された概要を提示する。この概要は、本開示の広範な概観ではない。この概要は、本開示の主要な要素または重要な要素を識別することも、本開示の特定の実装形態の範囲または特許請求の範囲を描写することも意図されていない。この概要の唯一の目的は、後で提示されるより詳細な説明の前置きとして、本開示のいくつかの概念を簡略化された形で提示することである。

本開示の第1の態様によれば、画像内のオブジェクトを検出するステップと、画像内のオブジェクトをソースインジケータに関連付けるステップと、オブジェクトがソースインジケータに関連付けられていることを示すために画像に注釈を付けるステップと、画像内のオブジェクトのユーザ選択を受信するステップと、ソースインジケータおよびユーザ選択に関連付けられるコンテキストデータに基づいてソースを識別するステップであって、ソースがオブジェクトに関する情報を備える、ステップとを備える方法が提供される。

本開示の別の態様では、画像はビデオの1つまたは複数のフレームを備え、オブジェクトは、たとえば製品であり、1つまたは複数のフレームに表示される。検出するステップは、ビデオの1つまたは複数のフレーム内のオブジェクトのセット(たとえば、製品のセット)を検出するステップを含み得る。処理デバイスは、ビデオの閲覧者選好に基づく閲覧者数データをさらに決定し、閲覧者選好に基づいてオブジェクトのセットからオブジェクトを選択し得る。閲覧者数データは、画像の1人または複数の現在の閲覧者、将来の閲覧者、または過去の閲覧者の選好を示し得る。

さらに別の態様では、本方法は、ソースインジケータに基づいてオブジェクトに関連付けられる複数のソースを決定するステップと、ユーザ選択に関連付けられるコンテキストデータに基づいて複数のソースからソースを選択するステップとによってソースを識別し得る。コンテキストデータは、たとえば、画像を閲覧しているユーザの地理的位置、ユーザのソース選好、またはユーザ選択時のオブジェクトの可用性を備え得る。処理デバイスはさらに、画像の閲覧者にソースのソース識別子を提供し得る。

さらなる態様では、画像内のオブジェクトを検出するステップは、画像の画像データに対してデジタル画像処理を実行するステップと、デジタル画像処理に基づいて画像内のオブジェクトを認識するステップとを含み得る。次いで、検出されたオブジェクトは、オブジェクトを強調するために画像の提示を更新することによって注釈を付けられ得る。一例では、更新するステップは、画像の一部の輪郭を描くステップ、ハイライトするステップ、色を変えるステップ、または明るくするステップのうちの少なくとも1つを含み得る。

さらなる態様では、画像内のオブジェクトのユーザ選択を受信するステップは、ユーザがオブジェクトを備える画像の一部を選択したという表示を受信するステップを備え得る。

本開示の第2の態様によれば、本開示は、画像内のオブジェクトを検出することと、画像内のオブジェクトをソースインジケータに関連付けることと、オブジェクトがソースインジケータに関連付けられていることを示すために画像に注釈を付けることと、画像内のオブジェクトのユーザ選択を受信することと、ソースインジケータおよびユーザ選択に関連付けられるコンテキストデータに基づいてソースを識別することであって、ソースがオブジェクトに関する情報を備える、識別することとを行うように構成された処理デバイスを備えるシステムである。

本開示の第3の態様によれば、本開示は、処理デバイスによって処理されると、コンピュータプログラム製品が処理デバイスに、画像内のオブジェクトを検出することと、画像内のオブジェクトをソースインジケータに関連付けることと、オブジェクトがソースインジケータに関連付けられていることを示すために画像に注釈を付けることと、画像内のオブジェクトのユーザ選択を受信することと、ソースインジケータおよびユーザ選択に関連付けられるコンテキストデータに基づいてソースを識別することであって、ソースがオブジェクトに関する情報を備える、識別することとを行うように構成されたコンピュータプログラム製品である。

本開示の任意の態様に従って上で定義された、または任意の特定の実施形態に関して以下で定義された個々の機能および/または機能の組合せは、別々におよび個別に、単独で、または他の任意の定義された機能と組み合わせて、他の任意の態様または実施形態において利用され得る。さらに、本開示は、本明細書に記載の任意の装置機能を使用または生産、使用または製造する方法に関連して本明細書に記載の任意の機能を実行するように構成された装置を含めることが意図される。

本開示は、限定ではなく例として、添付の図面の図に示されている。

本開示の実装形態による、例示的なシステムアーキテクチャを示す図である。本開示の実装形態による、画像コンポーネントおよびソースコンポーネントを備えたコンピューティングデバイスを示すブロック図である。本開示の実装形態による、注釈付きオブジェクトを備えた画像を表示する例示的なユーザインターフェースを示す図である。本開示の実装形態による、オブジェクトを強調し、オブジェクトを特定の情報のソースにリンクするために画像に注釈を付けるための方法を示す流れ図である。本開示の実装形態による、例示的なコンピュータシステムを示すブロック図である。

最近のコンピュータシステムでは、コンテンツ作成者が、画像コンテンツを変更し、メディアアイテムに表示されるオブジェクト(たとえば、製品)に関する詳細を含めるために、メディアアイテムを手動で修正することがしばしば可能である。多くの場合、修正には専用の画像編集ソフトウェアが必要であり、オブジェクトへの参照(矢印およびテキストラベル)を追加するために、コンテンツ作成者が画像コンテンツを手動で編集する必要がある。作成者によって行われた画像の修正は永続的であり得、たとえ一部のユーザは画像内の他のオブジェクトのうちの1つにより関心を持っていても、すべてのユーザに表示され得る。参照を追加するために画像コンテンツを編集することは、時間のかかるプロセスであり得、閲覧体験を妨げるコンテンツを追加する可能性がある。コンテンツ作成者は、代わりにメディアアイテムの説明においてオブジェクトの参照を追加し得るが、ユーザが説明の拡張バージョンを閲覧しない場合、これらは非表示のままになることがよくある。さらに、追加される参照は、特定のソースへの静的ウェブアドレスを含み得、たとえば、小売業者は、製品が利用できなくなった場合に(たとえば、新しい製品がリリースされた、在庫がない、地理的に制限されている)オブジェクトの情報の提供を停止し得る。

本開示の態様は、特定のオブジェクトを強調し、オブジェクトのソースを示すために画像コンテンツを強化することができる技術を提供することによって、上記および他の欠陥に対処する。すなわち、本開示の態様は、ユーザが技術的タスクを実行することを支援するためのガイド付きヒューマン-マシン対話プロセスを提供する。ソースは、オブジェクトの作成、使用、または販売に関する追加情報を提供し得る。一例では、本技術は、オブジェクト認識技法を使用して画像内のオブジェクトを検出することを含み得る。画像は静止画像であってもビデオフレームであってもよく、認識されたオブジェクトは、オブジェクトに関するより多くの情報を提供するソース(たとえば、ウェブサーバ)にリンクされ得る。本技術は、オブジェクトが特定のソースを識別するために使用することができるソースインジケータに関連付けられていることを閲覧者に示すために、画像に注釈を付けることができる。注釈は、画像の輪郭を描いたり、ハイライト表示したり、他の種類の修正を加えたりすることによって、オブジェクトを強調し得る。閲覧者が強調されたオブジェクトを選択すると、本技術は、時間データ、位置データ、または可用性データ(たとえば、言語の可用性または製品の可用性)を含む可能性があるユーザ選択のコンテキストデータに基づいて、特定の閲覧者に提供するための最良のソースを決定し得る。1つまたは複数の画像(たとえば、ビデオ)が複数のオブジェクトのセットを含む場合、本技術は、閲覧者数データに基づいて認識されたオブジェクトのサブセットを選択し得る。閲覧者数データは、過去、現在、または将来の閲覧者の選好を示し得、本技術が閲覧者にとってより興味深いオブジェクトを選択することを可能にし得る。

本明細書に記載のシステムおよび方法は、画像に表示される特定のオブジェクトに関する情報を提供するソースを閲覧者がより効率的に識別できるようにするために、グラフィカルユーザインターフェースを強化するための技術を含む。特に、本技術の態様は、より最適化された方法でオブジェクトのソースの表示を閲覧者に提供し得る。より最適化された方法は、ラベルやポインタを追加するよりも目立たず、説明またはコメントフィールドに静的ウェブアドレスのリストを含めるよりもわかりやすい場合がある。本技術の態様は、現在または予想される閲覧者数に基づいて、ソースに自動的に(ユーザ入力なしで)注釈を付けて識別することもできる。これは、特定の閲覧者または閲覧者のセットに対して実行でき、コンテンツ作成者がメディアアイテムを共有した後であるが、閲覧者がメディアアイテムの消費を要求する前、最中、または後に実行され得る。たとえば、本技術は、ユーザが特定のタイプのオブジェクトに関心を持っていると決定し得、ユーザがメディアアイテムを要求した後、メディアアイテム(たとえば、ビデオ)内のそのタイプのオブジェクトに注釈を付けることができる。

上記で参照された方法およびシステムの様々な態様は、限定ではなく例として、本明細書で以下に詳細に説明される。以下に示す例では、エンドユーザがメディアアイテムをアップロードしてメディアアイテムを共有できるようにするコンテンツ共有プラットフォームのコンテキストにおける技術について説明する。他の例では、本技術は、エンドユーザにメディアを提供するための既存のブロードキャストメカニズムを強化するために適用され得る。以下で説明するメディアアイテムは画像データを含むが、本開示の教示は、画像が存在しない形式のメディア(たとえば、音声、実行可能命令、テキスト)に適用され得、注釈は、人間が知覚できる任意の形式の信号を介して提供され得る。

図1は、本開示の実装形態による、例示的なシステムアーキテクチャ100を示す図である。システムアーキテクチャ100は、コンテンツ共有プラットフォーム110、コンピューティングデバイス120A～Z、ソース130A～Z、およびネットワーク140を含み得る。

コンテンツ共有プラットフォーム110は、1つまたは複数のコンピューティングデバイス(ラックマウントサーバ、ルータコンピュータ、サーバコンピュータ、パーソナルコンピュータ、メインフレームコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、デスクトップコンピュータなど)、データストア(たとえば、ハードディスク、メモリ、データベース)、ネットワーク、ソフトウェアコンポーネント、ハードウェアコンポーネント、または本明細書に記載の様々な機能を実装するために適し得るそれらの組合せを含み得る。いくつかの実装形態では、コンテンツ共有プラットフォーム110は、ユーザが、アップロードされたメディアアイテム112を編集することを可能にし得、これは、1つまたは複数のチャネル(たとえば、チャネルA、チャネルB～Z)またはプレイリスト(図示せず)に関連付けられてもよく、独立したメディアアイテムであってもよい。メディアアイテム112は、画像データ114としてコンピューティングデバイス120A～Zに送信(たとえば、ダウンロードまたはストリーミング)され得る画像を含み得る。

コンピューティングデバイス120Aは、コンテンツ共有プラットフォーム110から画像データ114にアクセスし得、1つまたは複数の情報ソースへのリンクに注釈を付けて埋め込むために、画像データ114を補足し得る。コンピューティングデバイス120Aは、コンテンツ共有プラットフォーム110または別個のサーバの一部であり、クライアントとして機能しているコンピューティングデバイス120B～Zに注釈およびソースリンクサービスを提供し得る。図1に示される例では、コンピューティングデバイス120Aは、画像コンポーネント122およびソースコンポーネント124を含み得る。画像コンポーネント122は、画像データ114を分析し、画像データ114によって表されるオブジェクトを認識するために使用され得る。画像データ114は、静止画像あるいはビデオの1つまたは複数のフレームのデータを含み得、オブジェクトに注釈を付けるように拡張され得る。ソースコンポーネント124は、コンピューティングデバイス120Aが、認識されたオブジェクトのうちの1つに対応するソースインジケータで画像データ114を補足することを可能にし得る。ソースインジケータは、コンピューティングデバイス120B～Zが、オブジェクトに関する情報を提供するソースを決定することを可能にし得る。以下でより詳細に論じられるように、多くの利用可能なソースがあり得、ソースコンポーネント124は、コンピューティングデバイス120Aが特定の閲覧者に最適なソースを提供することを可能にし得る。

ソース130A～Zは、認識されたオブジェクトのうちの少なくとも1つに関する情報を記憶するデバイスであり得る。デバイスは、1つまたは複数のコンピューティングデバイス、ストレージデバイス、他のデバイス、あるいはそれらの組合せを含み得る。ソースは、外部ネットワーク(たとえば、インターネット)を介してコンピューティングデバイス120A～Zのうちの1つにリモートアクセス可能であってもよく、内部ネットワーク(たとえば、ローカルエリアネットワーク(LAN)、エンタープライズバス)を介してコンピューティングデバイス120A～Zのうちの1つにローカルにアクセス可能であってもよい。ソース130A～Zは、コンピューティングデバイス120Aを動作する同じエンティティ(たとえば、コンテンツ共有エンティティ)によって動作されてもよく、異なるエンティティ(たとえば、サードパーティ)によって動作されてもよい。異なるエンティティが、オブジェクトの作成、配布、設計、マーケティング、製造、保守、サポート、または販売に関与している場合がある。一例では、ソース130は、オブジェクトを提供するエンティティによって動作されるウェブサーバであり得、オブジェクト情報132を含み得る。

オブジェクト情報132は、オブジェクトの態様を説明するデータであり得る。オブジェクトは、有形または無形の製品であり得、オブジェクト情報132は、ユーザに提示され得るオブジェクトに関する情報を含み得る。オブジェクトに関する情報は、オブジェクトまたは関連オブジェクトに関する詳細を提供し得、説明情報(たとえば、製品の概要、技術仕様、モデル、バージョンなど)、入手可能性情報(たとえば、リリース日、小売業者、在庫、類似製品など)、位置情報(たとえば、オブジェクトが利用可能または出荷可能な地域/国)、価格情報(たとえば、購入コスト、サブスクリプションコスト、広告主の入札)、他の情報、あるいはそれらの組合せを含み得る。

コンピューティングデバイス120B～Zは、クライアントとして機能し、コンピューティングデバイス120A、コンテンツ共有プラットフォーム110、またはそれらの組合せによって提供されるサービスを消費し得る1つまたは複数のコンピューティングデバイスを含み得る。コンピューティングデバイス120B～Zは、「クライアントデバイス」または「ユーザデバイス」と呼ばれ得、パーソナルコンピュータ(PC)、ラップトップ、スマートフォン、タブレットコンピュータ、ネットブックコンピュータなどを含み得る。コンピューティングデバイス120B～Zはそれぞれ、コンピューティングデバイスを使用して画像データ114にアクセスし得る個々のユーザ(たとえば、閲覧者、所有者、オペレータ)に関連付けられ得る。コンピューティングデバイス120B～Zはそれぞれ、異なるユーザによって、異なる地理的場所において所有および利用され得る。

コンピューティングデバイス120B～Zは、画像データ114の部分を消費および選択するためのユーザインターフェースを閲覧者に提供するメディアビューア126B～Zを含み得る。メディアビューアは、コンピューティングデバイスが、画像をユーザに提示し、ユーザが画像内の関心領域を選択することを可能にする任意のプログラムであり得る。画像は、1つまたは複数のビデオ、ウェブページ、ドキュメント、書籍、他のメディア、あるいはそれらの組合せの一部として表示され得る。メディアビューアは、1つまたは複数の他のプログラムと統合され得、コンテンツ(たとえば、ハイパーテキストマークアップ言語(HTML)ページ、デジタルメディアアイテムなどのウェブページ)にアクセス、検索、提示、および/またはナビゲートし得る。メディアビューアは、コンテンツを閲覧ユーザにレンダリング、表示、および/または提示し得る。一例では、メディアビューアはインターネットブラウザ内に埋め込まれ得、画像はウェブページ(たとえば、オンライン業者によって販売された製品に関する情報を提供し得るウェブページ)に埋め込まれ得る。別の例では、メディアビューア126Aは、ユーザがメディアアイテム(たとえば、デジタルビデオ、デジタル写真、電子書籍など)を閲覧することを可能にする、スタンドアロンアプリケーション(たとえば、モバイルアプリ)であり得る。

ネットワーク140は、パブリックネットワーク(たとえば、インターネット)、プライベートネットワーク(たとえば、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN))、有線ネットワーク(たとえば、イーサネットネットワーク)、無線ネットワーク(たとえば、802.11ネットワークまたはWi-Fiネットワーク)、セルラーネットワーク(たとえば、ロングタームエボリューション(LTE)ネットワーク)、ルータ、ハブ、スイッチ、サーバコンピュータ、および/またはそれらの組合せを含み得る。

図2は、画像内の1つまたは複数のオブジェクトのソースインジケータで画像を補足するための技術を含む例示的なコンピューティングデバイス120を示すブロック図である。コンピューティングデバイス120は、図1のコンピューティングデバイス120A～Zのうちの1つまたは複数と同じであり得る。図示されているコンポーネントは、一般性を失うことなく、多かれ少なかれコンポーネントまたはモジュールを含み得る。たとえば、2つ以上のコンポーネントを1つのコンポーネントに結合したり、コンポーネントまたはモジュールの機能を2つ以上のコンポーネントに分割したりし得る。一実装形態では、コンポーネントのうちの1つまたは複数は、異なるコンピューティングデバイス(たとえば、サーバデバイスおよびクライアントデバイス)上に存在し得る。

一般に、コンピューティングデバイス120によって実行されるものとして一実装形態において説明される機能は、他の実装形態では、複数の異なるコンピューティングデバイス120A～Zによって実行され得る。たとえば、コンピューティングデバイス120は、画像コンポーネント122の機能のうちの1つまたは複数を実行するプログラムを実行し得、異なるデバイスは、ソースコンポーネント124の機能のうちの1つまたは複数を実行し得る。特定のコンポーネントに起因する機能は、一緒に動作する異なるコンポーネントまたは複数のコンポーネントによって実行することができる。図2に示される例では、コンピューティングデバイス120は、画像コンポーネント122およびソースコンポーネント124を含み得る。

画像コンポーネント122は、コンピューティングデバイス120が、画像を分析し、画像内に表される1つまたは複数のオブジェクトを認識することを可能にし得る。画像は、オブジェクトの視覚的知覚を描写するアーティファクトであり得、静止画像(写真、絵、描画、レンダリング、絵画)、ビデオの1つまたは複数のフレーム(たとえば、映画)、他の画像、またはそれらの組合せと同じまたは類似し得る。画像は、カメラデバイスによってキャプチャされ、メディアアイテム(たとえば、ウェブページ、ビデオ、実行可能ファイル)の一部であり得る。画像は、コンテンツ共有プラットフォーム110、デジタルストレージデバイス、他のデジタル転送メカニズム、またはそれらの組合せを介して、コンピューティングデバイス120に共有または転送され得る。コンピューティングデバイス120は、複数の画像を受信し、それらを画像データ114としてデータストア230に記憶し得る。

画像データ114は、画像の詳細および画像コンテンツを含み得る。画像の詳細は、タイトル、説明、コメント、ストレージ場所、ファイル名、作成者、ソース、ファイルサイズ、期間、フォーマット、解像度、画像のサイズ、編集時間または作成時間、他の詳細、あるいはそれらの組合せなどの、画像に関する情報を含み得る。画像の画像コンテンツは、ピクセル値またはピクセル値への変更を表すピクセルデータを含み得、画像をレンダリングするために使用され得る。画像コンテンツと画像データの両方は、画像に描かれているオブジェクトを示している可能性がある。

画像内のオブジェクトは、人間が知覚できる任意のオブジェクトであり得、有形または無形の製品、グッズ、サービス、他の成果物、あるいはそれらの組合せを含み得る。有形のオブジェクトは人間によって触れることができ、物理的な製品、商品、グッズ、または他のオブジェクトを含み得る。無形のオブジェクトは、触れられることなく人間によって直接的または間接的に知覚され得、音楽、コンピュータプログラム、サービス、他の無形の要素、あるいはそれらの組合せを含み得る。

一例では、画像コンポーネント122は、オブジェクト検出モジュール210、閲覧者選好モジュール212、画像注釈モジュール214、およびユーザ選択モジュール216を含み得る。オブジェクト検出モジュール210は、画像内のオブジェクトを検出するために、画像データを分析し得る。オブジェクト検出モジュール210は、画像内のオブジェクトを決定するために、画像の詳細(たとえば、タイトル、説明、コメント)、画像コンテンツ(たとえば、ピクセル値)、またはそれらの組合せを使用し得る。画像コンテンツを使用する場合、オブジェクト検出モジュール210は、画像の画像コンテンツに対してデジタル画像処理を実行し得る。デジタル画像処理は、画像コンテンツを1つまたは複数のセグメントにセグメント化し、画像の1つまたは複数のセグメント内のオブジェクトを検出するために1つまたは複数のオブジェクト認識技法(たとえば、オブジェクト分類器)を適用することを含み得る。オブジェクト検出モジュール210は、画像に対して個別に(たとえば、特定のフレーム上で)または一連の画像に対して実行され得、フレーム間のオブジェクトの動きを考慮に入れてもよく、考慮に入れなくてもよい。オブジェクト検出モジュール210は、ユーザからの入力を使用して、または使用せずに、オブジェクトを識別し得る。ユーザは、オブジェクトが認識される(たとえば、作成者がオブジェクトを有する領域を示す)前、またはオブジェクトが認識された(たとえば、リストからオブジェクトのサブセットを選択する)後に入力を提供し得る。

閲覧者選好モジュール212は、画像に関連付けられる閲覧者数に基づいて、1人または複数の閲覧者の選好を決定し得る。閲覧者数は、画像または他の同様の画像の過去、現在、または将来の閲覧者に基づく場合がある。過去の閲覧者は、画像を閲覧したが、もはや画像を閲覧しなくなっている可能性があり、現在の閲覧者は、画像の閲覧を開始しており、依然として画像を閲覧している可能性がある。たとえば、画像がビデオの場合、ユーザはビデオの視聴を開始し、依然としてビデオを視聴している可能性がある。将来の閲覧者は、画像を見たことがないが、将来画像を見る可能性がある閲覧者であり得る。将来の閲覧者は、予想される閲覧者または潜在的な閲覧者と呼ばれることもある。将来の閲覧者は、その閲覧者の過去の行動または1人または複数の同様の閲覧者の行動に基づいて決定され得る。たとえば、将来の閲覧者は、チャンネルまたはプレイリストのコンテンツを消費またはサブスクライブしている可能性や、画像を受信していない可能性があるが、将来的に画像を受信および消費することが予想される。画像の閲覧者数は、閲覧者数データ232としてデータストア230に記憶され得る。

閲覧者数データ232は、閲覧者に関するデータおよび閲覧されている画像コンテンツに関するデータを含み得る。データは、特定の閲覧者(たとえば、現在の閲覧者)または複数の閲覧者(たとえば、聴衆)のための1つまたは複数の測定値を含み得る。一例では、閲覧者数データ232は、閲覧者のグループの特性、消費データ、他のデータ、またはそれらの組合せを含み得る。閲覧者のグループの特性は、閲覧者のグループに関する詳細を提供し得、たとえば、閲覧者の場所、言語、および/または他の同様の情報を含み得る。消費データは、閲覧者に固有または画像コンテンツに固有であり得、消費の期間、閲覧者の数、ドロップオフ率、再視聴された部分、一時停止またはズームインされた部分、他の測定値、またはそれらの組合せを含み得る。

閲覧者選好モジュール212は、閲覧者数データ232、画像データ114、オブジェクトデータ、他のデータ、またはそれらの組合せに基づいて、1人または複数の閲覧者の選好を決定し得る。選好は、閲覧者のうちの1人または複数が関心を持っているオブジェクトのタイプを示し得、注釈を付けてソースインジケータを提供するオブジェクトを決定するために使用され得る。一例では、特定のオブジェクトまたはオブジェクトのタイプの選好を識別するために、閲覧者または聴衆の特性(たとえば、場所、言語など)および過去のメディア消費が使用され得る。ことができる。別の例では、特定のユーザによるビデオの消費は選好を示し得る。たとえば、ユーザがオブジェクトの態様を表示するビデオの一部を再視聴するか、またはオブジェクトをよりよく閲覧するためにズームインする場合、閲覧者選好モジュール212は、閲覧者または同様の閲覧者がオブジェクトに関心を持っていると判定し得る。これは、定量化および重み付けされ、ビデオの後続の部分において、またはこの閲覧者によって消費される可能性のある別のビデオにおいて、認識されたオブジェクトのどれに画像注釈モジュール214によって注釈を付けるかを選択するために使用され得る。

画像注釈モジュール214は、コンピューティングデバイス120が、検出されたオブジェクトのうちの1つまたは複数を強調するために画像に注釈を付けることを可能にし得る。画像注釈は、オブジェクトがグラフィカルユーザインターフェースを介してアクセスすることができる追加情報に関連付けられていることを閲覧者に示し得る。画像に注釈を付けることは、オブジェクトの画像コンテンツ、オブジェクトを囲む画像コンテンツ、またはそれらの組合せのいずれかを変更することによって、画像の提示を更新することを含み得る。画像注釈モジュール214は、オブジェクトを強調するために、画像にコンテンツを追加したり、画像からコンテンツを削除したりすることができる。一例では、画像に注釈を付けることは、輪郭を描くこと、ハイライトすること、明るくすること、暗くすること、色を変えること、ズームインまたはズームアウト、トリミング、あるいはそれらの組合せを含み得る。注釈によって占められる領域は、画面サイズなどの個々のコンピューティングデバイス120B～Zの特性、またはウィンドウサイズなどの画像を閲覧するために使用されるソフトウェアの特性に依存し得る。注釈付き部分は、画像内のオブジェクトに対応する画面座標を備え得る。ビデオの例では、ビデオの再生中にオブジェクトが移動すると、注釈付き部分もオブジェクトとともに移動し得る。

画像注釈モジュール214は、画像内で強調するオブジェクトを選択するために、オブジェクト検出モジュール210および閲覧者選好モジュール212のデータを利用し得る。上で論じたように、画像(たとえば、静止画像またはビデオ)は多くのオブジェクトを含み得、オブジェクトのうちのいくつかは、画像の焦点である一次オブジェクト(たとえば、レビューされている製品)であり得、他のオブジェクトは、背景または前景にある補助オブジェクト(たとえば、ビデオ内の他の製品)であり得る。複数のオブジェクトのセットが認識されると、画像注釈モジュール214は、セット内のすべてのオブジェクト、またはオブジェクトのサブセット(たとえば、認識されたすべてのオブジェクトではない)に注釈を付けることを選択し得る。後者は、すべてのオブジェクトに注釈を付けると邪魔になったり気が散ったりする場合があり、閲覧体験に悪影響を与える可能性があるため、有利な場合がある。さらに、すべてのオブジェクトに注釈を付けると、処理の負担が増える可能性がある。したがって、改善されたユーザインターフェースを提供するために十分な数のオブジェクトに注釈を付けることと、前記注釈に関連付けられる処理の負担を減らすこととの間にはトレードオフがあり得る。どのオブジェクトに注釈を付けるかを決定することは、上で論じた選好に基づき得、選好、閲覧者数、画像、オブジェクト、他のデータ、またはそれらの組合せのデータを分析することを含み得る。さらに、または代わりに、どのオブジェクトに注釈を付けるかを決定することは、処理能力に基づき得る。たとえば、画像注釈モジュール214は、個々のコンピューティングデバイス120B～Zの処理能力を決定し、コンピューティングデバイス120B～Zの処理能力に基づいて画像に選択的に注釈を付けることができる。このようにして、より計算能力の高いコンピューティングデバイスは、それほど強力でないコンピューティングデバイスよりも多くの注釈を受信し得る。画面サイズまたは解像度、あるいは画像を表示するメディアプレーヤのウィンドウサイズなど、コンピューティングデバイスの他の任意の特性が使用され得る。たとえば、より大きいウィンドウサイズは、より小さいウィンドウサイズよりも多くの注釈を収容できる場合がある。データ(たとえば、測定値)の一部またはすべては、スコア(たとえば、オブジェクト選好スコア)を生成するために重み付けおよび使用され得、オブジェクトのスコアは、しきい値と比較され得る。しきい値を満たす(しきい値より上または下)スコアを有するオブジェクトのうちの1つまたは複数が、注釈およびソースのリンク用に選択され得る。

オブジェクトは、画像が閲覧者に提示される前であればいつでも選択および強調され得る。たとえば、画像は、カメラによってキャプチャされ、作者によって編集され、コンテンツ配信者(たとえば、コンテンツ共有プラットフォーム、広告主、放送局)に提供され、ビューアデバイスによって要求され、ビューアデバイスに送信され、メディアビューアによってロードされ、メディアビューアによってレンダリングされ、メディアビューアによって表示される前、最中、もしくは後、他の時間、またはそれらの組合せに注釈が付けられる。一例では、画像は、元の画像の画像コンテンツ(たとえば、ピクセル値)を修正することによって注釈を付けられ得る。別の例では、元の画像を修正せずに元の画像に1つまたは複数の層を適用することによって、画像に注釈が付けられ得る。1つまたは複数の層は、注釈が付けられている1つまたは複数のオブジェクト(たとえば、1対1、または1対多)に対応し得、層のうちのいくつかまたはすべては、閲覧者のコンピューティングデバイスに送信され得る。いずれの例においても、サーバまたはクライアントは、現在の閲覧者によって使用されるハードウェアおよび/もしくはソフトウェア、または現在の閲覧者の場所、および/または認識されたオブジェクトのサブセットであり得る現在の閲覧者が最も関心を有するであろうものに基づいて、オブジェクトに注釈を提供することを選択し得る。

ユーザ選択モジュール216は、コンピューティングデバイス120が、注釈付き画像内の強調されたオブジェクトのうちの1つまたは複数のユーザ選択を検出することを可能にし得る。ユーザ選択は、ユーザ(たとえば、閲覧者)によって提供され、ユーザ入力の形でコンピューティングデバイス120によって受信され得る。ユーザ入力は、画像の領域に対応し得、ジェスチャ(たとえば、タッチまたはタッチレスジェスチャ)、マウス入力、キーボード入力、視線追跡、デバイスの動き(たとえば、振ること)、他のユーザ入力、またはそれらの組合せを含み得る。ユーザ入力に応答して、ユーザ選択モジュール216は、ユーザによって選択されているオブジェクトを決定し、コンテキストデータ234を記憶し得る。実装形態において、ユーザ選択は、注釈付き部分を備える領域を選択するユーザに対応する。注釈が付けられたオブジェクトに関するより多くの情報が必要なユーザは、たとえば、注釈付きオブジェクトの場所でマウスをクリックするか画面にタッチすることによって、オブジェクトを選択し得る。ビデオの例では、上記のように、ビデオの再生中にオブジェクトが画面に対して移動すると、注釈付き部分もオブジェクトとともに移動し得る。したがって、開示された主題の実装形態は、改善されたユーザインターフェースを提供し、これは、ユーザが技術的タスクを実行するのを支援する。

コンテキストデータ234は、ユーザ選択のコンテキストを示し得、ユーザ選択の前、最中、または後にキャプチャされたデータに基づき得る。コンテキストデータ234は、ユーザの地理的位置、またはユーザ選択時のオブジェクトの可用性、ユーザのソース選好、他の機能、またはそれらの組合せに対応し得る。コンテキストデータ234は、閲覧者のための特定のソースを決定するために、ソースコンポーネント124によって使用され得る。

ソースコンポーネント124は、コンピューティングデバイス120が、画像内のオブジェクトに関する追加情報を提供することができるソースで画像を補足することを可能にし得る。ソースは、ユーザがオブジェクトを選択する前、最中、または後に、ソースデータ236を使用して識別され得る。ソースデータ236は、ソースインジケータ、ソース識別子、他のデータ、またはそれらの組合せを含み得る。図2に示される例では、ソースコンポーネント124は、インジケータモジュール220、ソース解決モジュール222、および提供モジュール224を含み得る。

インジケータモジュール220は、認識されたオブジェクトをソースインジケータに関連付けることができる。一例では、インジケータモジュール220は、ソースインジケータを画像の特定の注釈にリンクすることによって、画像内にあるオブジェクトをソースインジケータに関連付けることができる(たとえば、オブジェクトの輪郭Xは、ソースインジケータYに対応する)。次に、ソースインジケータのデータは、画像内に埋め込まれてもよく、画像を含むメディアアイテムに含まれてもよく、画像またはメディアアイテムを提供するサービスによって送信されてもよい。ソースインジケータのデータは、閲覧者から非表示にすることも、閲覧者に表示することもできる(たとえば、説明やコメントにおけるURLなど)。

ソースインジケータは、後でソースを識別するために使用できるデータを含み得る。ソースインジケータは、ソースが存在することを示し得るが、特定のソースを指定しない場合がある一般的なソースインジケータであり得る。ソースインジケータは、画像内の特定のオブジェクトに対応し得るオブジェクト識別データを含み得る。オブジェクト識別データは、画像内の特定のオブジェクトに対応するリンク、一意の識別子、シンボル、またはコーダであり得、数値または非数値データを含み得る。オブジェクト識別データは、任意のレベルの特異性でオブジェクトを識別し得、たとえば、オブジェクトのカテゴリ(たとえば、電話、飲料、自動車)、タイプ(たとえば、スマートフォン、炭酸飲料の容器、シリアルの箱、車)、ブランド(たとえば、Apple(登録商標)、CocaCola(登録商標)、GeneralMills(登録商標)、BMW(登録商標))、モデル(たとえば、iphone X、Coke Zero、Cheerios、X7)、ライン(たとえば、X plus、16オンスのガラスボトル、Honey Nut、スポーツパッケージ)、他のレベルの特異性、またはそれらの組合せのうちの1つまたは複数を示し得る。一例では、オブジェクト識別データは、人間が読める形式またはマシンが読める形式であり得、ユニバーサルリソースロケータ(URL)、ユニバーサル製品コード(UPC)、ストックキーピングユニット(SKU)、バーコード(クイックレスポンス(QR)コード)、グローバルトレードアイテム番号(GTIN)、国際商品番号(EAN)、車両識別番号(VIN)、国際標準図書番号(ISBN)、他のデータ、またはそれらの組合せに基づき得る。一例では、ソースインジケータは、特定の製品を識別し得るが、製品の特定のソース(たとえば、特定の小売業者)を識別しない場合がある。特定のソースは、ユーザ選択が検出される前、最中、または後に、ソース解決モジュール222を使用することによって、ソースインジケータのデータに基づいて決定され得る。

ソース解決モジュール222は、特定のソースを識別するために、ユーザ選択に関連付けられるソースインジケータおよびコンテキストデータを分析し得る。上で論じたように、複数のソースは、選択されたオブジェクトに関する情報を有し得、ソース解決モジュール222は、閲覧者に提供するソースのうちの1つを選択し得る。ソースインジケータを解決することは、候補ソースのセットを決定し、ユーザに提供するソースのうちのサブセット(たとえば、1つまたは複数)を選択することを含み得る。一例では、ソースインジケータは、候補ソースを提供する内部または外部サービス(たとえば、ソースアグリゲータ、マーケットプレイス)へのリンクを含み得る。ソース解決モジュール222は、候補ソースのセットを識別し、ソースのうちの1つを選択するために、リンク、オブジェクト識別データ、およびコンテキストデータを使用し得る。一例では、候補ソースのセットは、ソースに関する情報を提供し、閲覧者がオブジェクトを購入することを可能にする複数の小売業者を含み得る。次いで、ソース解決モジュール222は、閲覧者に最適なソースを選択するために、コンテキストデータ234を使用し得る。これには、価格、在庫、配達日、場所、返品ポリシ、小売業者の選好、他の情報、またはそれらの組合せなどの、重み付けされたまたは重み付けされない要因のうちの1つまたは複数に基づいて、ソースのうちの1つを選択することを含み得る。

モジュール224を提供することにより、コンピューティングデバイス120が、閲覧者のコンピューティングデバイスにソースを提供することを可能にし得る。これは、1つまたは複数のレベルの抽象化またはリダイレクトを含み得る。一例では、ウェブサーバは、一般的なソースインジケータを介して閲覧者のコンピューティングデバイスによってアクセスされ得、特定のソースのソース識別子を返し得る。閲覧者のコンピューティングデバイスは、オブジェクト情報を取得および提示するために、ソース識別子(たとえば、URL)を使用してソースにアクセスし得る。別の例では、提供モジュール224は、ソースからオブジェクト情報を検索するためにソース識別子を使用し得、オブジェクト情報を閲覧者のコンピューティングデバイス(たとえば、ソースに直接アクセスしないビューアデバイス)に送信し得る。いずれの例においても、オブジェクト情報は、閲覧者のコンピューティングデバイスにアクセス可能であり、閲覧者に提示され得る。

データストア230は、メモリ(たとえば、ランダムアクセスメモリ)、ドライブ(たとえば、ハードドライブ、ソリッドステートドライブ)、データベースシステム、キャッシュメカニズム、あるいはデータを記憶することができる他のタイプのコンポーネントまたはデバイスを含み得る。データストア230はまた、複数のコンピューティングデバイス(たとえば、複数のサーバコンピュータ)にわたり得る複数のストレージコンポーネント(たとえば、複数のドライブまたは複数のデータベース)を含み得る。いくつかの実装形態では、データストア230はクラウドベースであり得る。コンポーネントのうちの1つまたは複数は、パブリックおよびプライベートデータを記憶するためにデータストア230を利用し得、データストア230は、プライベートデータのための安全なストレージを提供するように構成され得る。

本明細書で説明するシステムがユーザ(たとえば、閲覧者)に関する個人情報を収集する状況、または個人情報を利用する可能性がある状況では、ユーザには、プログラムまたは機能がユーザ情報(たとえば、ユーザのソーシャルネットワーク、ソーシャルアクションまたはアクティビティ、職業、ユーザの選好、あるいはユーザの現在地に関する情報)を収集するかどうかを制御する、あるいは、ユーザにより関連性のあるコンテンツをコンテンツサーバから受信するかどうか、および/または受信する方法を制御する機会が提供される場合がある。さらに、特定のデータは、記憶または使用される前に1つまたは複数の方法で処理される場合があるため、個人を特定できる情報は削除される。たとえば、ユーザのIDを処理して、ユーザの個人を特定できる情報を特定できないようにしたり、ユーザの地理的位置を、位置情報が取得される場所(都市、郵便番号、州レベルなど)で一般化して、ユーザの特定の位置をできないようにしたりし得る。したがって、ユーザは、どのようにユーザに関する情報が収集され、コンテンツサーバによって使用されるかを制御することができる。

図3は、技術がどのように画像注釈を閲覧者に提示し得るかを示す例示的なユーザインターフェース300を示している。ユーザインターフェースは、1つまたは複数の画像注釈314A～Cを備えた画像310を表示し得る。画像注釈314A～Cは、オブジェクト312A(たとえば、スマートフォン)およびオブジェクト312B(たとえば、飲料容器)などの、画像310内の1つまたは複数のオブジェクトを強調し得る。画像注釈314A～Cは、元の画像310内に含まれてもよく、画像310上に表示される1つまたは複数の層であってもよい。画像注釈314A～Cは、特定のオブジェクト312A～Bに対応し得、オブジェクトの輪郭を描くこと(たとえば、画像注釈314A)、オブジェクトを囲むこと(たとえば、画像注釈314B)、オブジェクトを埋めること(たとえば、画像注釈314C)、オブジェクトを強調するための他の注釈、またはそれらの組合せを含み得る。

図4は、本開示の1つまたは複数の態様による、画像内の1つまたは複数のオブジェクトに注釈を付け、ソースをリンクするための例示的な方法400の流れ図を示している。方法400およびその個々の機能、ルーチン、サブルーチン、または動作のそれぞれは、本方法を実行するコンピュータデバイスの1つまたは複数のプロセッサによって実行され得る。特定の実装形態では、方法400は、単一のコンピューティングデバイスによって実行され得る。あるいは、方法400は、2つ以上のコンピューティングデバイスによって実行され得、各コンピューティングデバイスは、本方法の1つまたは複数の個別の機能、ルーチン、サブルーチン、または動作を実行する。

説明を簡単にするために、本開示の方法は、一連の行為として描写および説明されている。しかしながら、本開示による行為は、様々な順序でおよび/または同時に、ならびに本明細書に提示および記載されていない他の行為とともに発生する可能性がある。さらに、開示された主題に従って方法を実装するために、図示されたすべての行為が必要とされるわけではない。さらに、当業者は、本方法が、状態図を介して一連の相互に関連する状態またはイベントとして代替的に表すことができることを理解し、認識するであろう。さらに、本明細書に開示された方法は、そのような方法をコンピューティングデバイスに移送および転送することを容易にするために、製造品に記憶することができることを理解されたい。本明細書で使用される「製造品」という用語は、任意のコンピュータ可読デバイスまたはストレージメディアからアクセス可能なコンピュータプログラムを包含することを意図している。一実装形態では、方法400は、図1および図2の画像コンポーネント122およびソースコンポーネント124によって実行され得る。

方法400は、サーバデバイスまたはクライアントデバイスの処理デバイスによって実行され得、ブロック402において開始され得る。ブロック402において、処理デバイスは、画像内のオブジェクトを検出し得る。オブジェクトは製品であり得、ユーザが生成したビデオ(たとえば、製品レビュー)の複数の画像(たとえば、フレーム)内に表示され得る。一例では、オブジェクトを検出することは、画像内のオブジェクトを認識するために、画像データに対してデジタル画像処理を実行することを含み得る。別の例では、オブジェクトを検出することは、オブジェクトに対応する画像内の1つまたは複数の場所または領域を識別するユーザ入力(たとえば、コンテンツ作成者ジェスチャ)を受信することを含み得る。画像は、メディアアイテム(たとえば、ビデオ、ウェブページ、モバイルアプリ、電子書籍)の一部であり得、静止画像あるいはビデオの1つまたは複数のフレームであり得る。

一例では、ビデオのフレームは複数のオブジェクトを含み得、処理デバイスは、閲覧者にとって最も興味深いオブジェクトに注釈を付け得る。これは、オブジェクトのセットを検出し、ビデオの閲覧者数データに基づいて閲覧者の選好を決定する処理デバイスを含み得る。処理デバイスは、閲覧者数データに基づいて、興味深い可能性が高い1つまたは複数のオブジェクトを選択し得る。閲覧者数データは、画像または関連画像(たとえば、同じソースからの異なる画像/ビデオ)の1人または複数の現在の閲覧者、将来の閲覧者、または過去の閲覧者の選好を示し得る。

ブロック404において、処理デバイスは、画像内のオブジェクトをソースインジケータに関連付けることができる。ソースインジケータは、ソースが存在することを示し得るが、特定のソースを識別し得ない、高レベルのソースインジケータであり得る。ソースインジケータは、特定のソースを識別するためにサーバデバイスまたはクライアントデバイスによって使用することができるデータを含み得る。

ブロック406において、処理デバイスは、オブジェクトがソースインジケータに関連付けられていることを示すために画像に注釈を付けることができる。画像に注釈を付けるステップは、セットから選ばれた1つまたは複数のオブジェクトを強調するために、ユーザインターフェースにおける画像の提示を更新するステップを含み得る。更新するステップは、画像の一部の輪郭を描くステップ、ハイライトするステップ、色を変えるステップ、または明るくするステップのうちの少なくとも1つを含み得る。

ブロック408において、処理デバイスは、ユーザインターフェースを介して画像内のオブジェクトのユーザ選択を受信し得る。ユーザ選択は、オブジェクトのうちの1つを識別するユーザの入力(たとえば、ジェスチャ)に基づき得る。たとえば、ユーザは画像内のオブジェクトをクリックしたり、タッチしたりすることができる。ユーザ選択に応答して、処理デバイスは、画像を閲覧しているユーザの地理的位置、ユーザのソース選好、ユーザ選択時のオブジェクトの可用性、他のデータ、またはそれらの組合せを含むコンテキストデータをキャプチャし得る。

ブロック410において、処理デバイスは、ソースインジケータおよびユーザ選択に関連付けられるコンテキストデータに基づいてソースを識別し得る。ソースは、オブジェクトに関する情報を含み得、ユーザインターフェースにおいて画像の閲覧者に提示されるためにコンピューティングデバイスに情報を提供し得る。一例では、ソースを識別することは、ソースインジケータに基づいてオブジェクトに関連付けられるソースのセットを決定することを含み得る。処理デバイスは、ユーザ選択に関連付けられるコンテキストデータに基づいて、セットから1つまたは複数のソースをさらに選択し得る。処理デバイスはまた、ユーザインターフェースにおける画像の閲覧者に提示するために、選択された1つまたは複数のソースのソース識別子を提供し得る。ブロック410を参照して本明細書で説明した動作を完了することに応答して、方法は終了し得る。

図5は、本明細書で論じられる方法論のうちの1つまたは複数をマシンに実行させるための命令のセットが実行され得るコンピュータシステム500の例示的な形態のマシンの概略図を示している。代替の実装形態では、マシンは、LAN、イントラネット、エクストラネット、またはインターネット内の他のマシンに接続(たとえば、ネットワーク化)され得る。マシンは、クライアント/サーバーネットワーク環境においてはサーバまたはクライアントマシンの容量で動作し得、ピアツーピア(または、分散)ネットワーク環境においてはピアマシンとして動作し得る。マシンは、パーソナルコンピュータ(PC)、タブレットPC、セットトップボックス(STB)、携帯情報端末(PDA)、セルラー電話、Webアプライアンス、サーバ、ネットワークルータ、スイッチまたはブリッジ、あるいはそのマシンによって実行されるアクションを指定する命令のセット(シーケンシャルまたはその他)を実行できる任意のマシンであり得る。さらに、単一のマシンのみが示されているが、「マシン」という用語はまた、本明細書で論じられる方法論のうちの1つまたは複数を実行するために、命令のセット(または、複数のセット)を個別にまたは共同で実行するマシンの任意の集合を含むと解釈されるべきである。コンピュータシステム500のコンポーネントのいくつかまたはすべては、コンピューティングデバイス120A～Zのうちの1つまたは複数によって利用されてもよく、それらを例示してもよい。

例示的なコンピュータシステム500は、バス508を介して互いに通信する、処理デバイス(プロセッサ)502、メインメモリ504(たとえば、読取り専用メモリ(ROM)、フラッシュメモリ、同期DRAM(SDRAM)またはRambus DRAM(RDRAM)などのダイナミックランダムアクセスメモリ(DRAM)など)、静的メモリ506(たとえば、フラッシュメモリ、静的ランダムアクセスメモリ(SRAM)など)、およびデータストレージデバイス518を含む。

プロセッサ502は、マイクロプロセッサ、中央処理装置などのような1つまたは複数の汎用処理デバイスを表す。より具体的には、プロセッサ502は、複合命令セットコンピューティング(CISC)マイクロプロセッサ、縮小命令セットコンピューティング(RISC)マイクロプロセッサ、超長命令語(VLIW)マイクロプロセッサ、または他の命令セットを実装するプロセッサもしくは命令セットの組合せを実装するプロセッサであり得る。プロセッサ502はまた、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、DSP、ネットワークプロセッサなどのような1つまたは複数の専用処理デバイスであり得る。プロセッサ502は、本明細書で論じられる動作およびステップを実行するための命令526を実行するように構成される。

コンピュータシステム500は、ネットワークインターフェースデバイス522をさらに含み得る。コンピュータシステム500はまた、ビデオディスプレイユニット510(たとえば、液晶ディスプレイ(LDC)、ブラウン管(CRT)、またはタッチスクリーン)、英数字入力デバイス512(たとえば、キーボード)、カーソル制御デバイス514(たとえば、マウス)、および信号生成デバイス520(たとえば、スピーカ)を含み得る。

データストレージデバイス518は、本明細書に記載の方法論または機能のうちの1つまたは複数を具体化する命令526(たとえば、ソフトウェア)の1つまたは複数のセットが記憶されるコンピュータ可読ストレージメディア524を含み得る。命令526はまた、コンピュータシステム500によるその実行中に、メインメモリ504内および/またはプロセッサ502内に完全にまたは少なくとも部分的に存在し得、メインメモリ504およびプロセッサ502はまた、コンピュータ可読ストレージメディアを構成する。命令526はさらに、ネットワークインターフェースデバイス522を介してネットワーク574(たとえば、ネットワーク140)上で送信または受信され得る。

一実装形態では、命令526は、1つまたは複数のソースコンポーネント124の命令を含み、これは、図1および図2に関して説明した同じ名前の対応物に対応し得る。コンピュータ可読ストレージメディア524は、例示的な実装形態では単一のメディアであることが示されているが、「コンピュータ可読ストレージメディア」または「機械可読ストレージメディア」という用語は、命令の1つまたは複数のセットを記憶する単一のメディアまたは複数のメディア(たとえば、集中型または分散型データベース、および/あるいは関連付けられるキャッシュおよびサーバ)を含むと解釈されるべきである。「コンピュータ可読ストレージメディア」または「機械可読ストレージメディア」という用語はまた、マシンによって実行するための命令のセットを記憶、符号化、または運ぶことができ、本開示の方法論のうちの任意の1つまたは複数をマシンに実行させる、任意の一時的または非一時的コンピュータ可読ストレージメディアを含むと解釈されるべきである。したがって、「コンピュータ可読ストレージメディア」という用語は、これらに限定されないが、固体メモリ、光学メディア、および磁気メディアを含むと解釈されるべきである。

前述の説明では、多くの詳細が示されている。しかしながら、本開示の利益を有する当業者には、本開示がこれらの特定の詳細なしで実施され得ることが明らかであろう。場合によっては、本開示を曖昧にすることを回避するために、よく知られている構造およびデバイスが詳細ではなくブロック図の形で示されている。

詳細な説明の一部は、コンピュータメモリ内のデータビットに対する動作のアルゴリズムおよび記号表現の観点から提示されている場合がある。これらのアルゴリズムの説明および表現は、データ処理技術の当業者によって、彼らの仕事の実体を他の当業者に最も効果的に伝えるために使用される手段である。アルゴリズムは、本明細書において、および一般に、所望の結果につながる自己矛盾のない一連のステップであると考えられている。ステップは、物理量の物理的な操作を必要とするステップである。通常、必ずしもそうとは限らないが、これらの量は、記憶、転送、結合、比較、および他の方法で操作することができる電気信号または磁気信号の形をとる。主に一般的な使用法の理由から、これらの信号をビット、値、要素、記号、文字、用語、数値などと呼ぶと便利な場合がある。

しかしながら、これらおよび類似の用語はすべて、適切な物理量に関連付けられており、これらの量に適用される便利なラベルにすぎないことを念頭に置かれたい。以下の議論から明らかなように、特に明記しない限り、説明全体を通して、「受信する(receiving)」、「送信する(transmitting)」、「生成する(generating)」、「～させる(causing)」、「追加する(adding)」、「減算する(subtracting)」、「挿入する(inserting)」、「を含む(including)」、「削除する(removing)」、「抽出する(extracting)」、「分析する(analyzing)」、「決定する(determining)」、「～を可能にする(enabling)」、「識別する(identifying)」、「修正する(modifying)」などの用語を利用した議論は、コンピュータシステムのレジスタおよびメモリ内の物理的(たとえば、電子的)量として表されるデータを操作し、コンピュータシステムメモリ、またはレジスタ、または他のそのような情報ストレージ、送信、または表示デバイス内の物理的量として同様に表される他のデータに変換する、コンピュータシステムまたは同様の電子コンピューティングデバイスのアクションおよびプロセスを指す。

本開示はまた、本明細書の動作を実行するための装置、デバイス、またはシステムに関する。この装置、デバイス、またはシステムは、必要な目的のために特別に構築され得るか、またはコンピュータに記憶されたコンピュータプログラムによって選択的に起動または再構成される汎用コンピュータを含み得る。そのようなコンピュータプログラムは、これらに限定されないが、フロッピーディスク、光ディスク、コンパクトディスク読取り専用メモリ(CD-ROM)、磁気光学ディスクを含む任意のタイプのディスク、読取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気または光カード、あるいは電子命令を記憶するために適した任意のタイプのメディアなどのコンピュータ可読ストレージメディア、または機械可読ストレージメディアに記憶され得る。

「例(example)」または「例示的(exemplary)」という用語は、本明細書では、例、インスタンス、または例示として機能することを意味するために使用される。本明細書で「例」または「例示的」として説明される任意の態様または設計は、必ずしも他の態様または設計よりも好ましいまたは有利であると解釈されるべきではない。むしろ、「例」または「例示」という用語の使用は、概念を具体的に提示することを目的としている。本出願で使用される場合、「または(or)」という用語は、排他的「または」ではなく、包括的「または」を意味することを意図している。すなわち、特に明記されていない限り、または文脈から明らかでない限り、「XはAまたはBを含む(X includes A or B)」は、自然な包括的順列のいずれかを意味することを意図している。すなわち、XがAを含む場合、XがBを含む場合、またはXがAとBの両方を含む場合、前述の例のうちのいずれかの場合に「XはAまたはBを含む」が満たされる。さらに、本出願および添付の特許請求の範囲において使用される冠詞「a」および「an」は、特に明記されていない限り、または文脈から明らかに単数形に向けられない限り、一般に「1つまたは複数(one or more)」を意味すると解釈されるべきである。本明細書全体を通して「実装形態(an implementation)」または「一実装形態(one implementation)」への言及は、その実装形態に関連して説明される特定の機能、構造、または特性が少なくとも1つの実装形態に含まれることを意味する。したがって、本明細書全体の様々な場所における「実装形態」または「一実装形態」という句の出現は、必ずしもすべてが同じ実装形態を指すとは限らない。さらに、図面の特定の要素に関して使用される「A～Z」表記は、特定の数の要素に限定することを意図するものではない点に留意されたい。したがって、「A～Z」は、特定の実装形態に存在する要素のうちの1つまたは複数を有すると解釈されるべきである。

上記の説明は、例示を意図するものであり、限定的なものではないことを理解されたい。上記の説明を読んで理解すると、他の多くの実装形態が当業者に明らかになるであろう。したがって、本開示の範囲は、添付の特許請求の範囲を参照して、そのような特許請求の範囲が権利を与えられている等価物の全範囲とともに決定されるべきである。

100 システムアーキテクチャ
110 コンテンツ共有プラットフォーム
112 メディアアイテム
114 画像データ
120 コンピューティングデバイス
120A～Z コンピューティングデバイス
122 画像コンポーネント
124 ソースコンポーネント
126A メディアビューア
126B～Z メディアビューア
130 ソース
130A～Z ソース
132 オブジェクト情報
140 ネットワーク
210 オブジェクト検出モジュール
212 閲覧者選好モジュール
214 画像注釈モジュール
216 ユーザ選択モジュール
220 インジケータモジュール
222 ソース解決モジュール
224 提供モジュール
230 データストア
232 閲覧者数データ
234 コンテキストデータ
236 ソースデータ
300 ユーザインターフェース
310 画像
312A オブジェクト
312B オブジェクト
314A～C 画像注釈
400 方法
500 コンピュータシステム
502 処理デバイス(プロセッサ)
504 メインメモリ
506 静的メモリ
508 バス
510 ビデオディスプレイユニット
512 英数字入力デバイス
514 カーソル制御デバイス
518 データストレージデバイス
520 信号生成デバイス
522 ネットワークインターフェースデバイス
524 コンピュータ可読ストレージメディア
526 命令
574 ネットワーク

Claims

処理デバイスによって、画像内のオブジェクトを検出するステップと、
前記画像内の前記オブジェクトをソースインジケータに関連付けるステップと、
前記処理デバイスによって、前記オブジェクトが前記ソースインジケータに関連付けられていることを示すために前記画像に注釈を付けるステップと、
前記画像内の前記オブジェクトのユーザ選択を受信するステップと、
前記ソースインジケータおよび前記ユーザ選択に関連付けられるコンテキストデータに基づいてソースを識別するステップであって、前記ソースが前記オブジェクトに関する情報を備える、ステップと
を備える、方法。
前記画像がビデオの1つまたは複数のフレームを備え、
前記オブジェクトが前記1つまたは複数のフレームに表示される、請求項1に記載の方法。
前記ビデオの前記1つまたは複数のフレーム内のオブジェクトのセットを検出するステップと、
前記ビデオの閲覧者数データに基づいて、オブジェクトの前記セットから前記オブジェクトを選択するステップと
をさらに備える、請求項2に記載の方法。
前記閲覧者数データが、前記画像の1人または複数の現在の閲覧者、将来の閲覧者、または過去の閲覧者の選好を示す、請求項3に記載の方法。
前記ソースを識別するステップが、
前記ソースインジケータに基づいて前記オブジェクトに関連付けられる複数のソースを決定するステップと、
前記ユーザ選択に関連付けられる前記コンテキストデータに基づいて前記複数のソースから前記ソースを選択するステップと、
前記画像の閲覧者に前記ソースを提示するためのソース識別子を提供するステップと
を備える、請求項1から4のいずれか一項に記載の方法。
前記コンテキストデータが、前記画像を閲覧しているユーザの地理的位置、前記ユーザのソース選好、または前記ユーザ選択時の前記オブジェクトの可用性を備える、請求項1から5のいずれか一項に記載の方法。
前記画像に注釈を付けるステップが、前記オブジェクトを強調するためにユーザインターフェースにおける前記画像の提示を更新するステップであって、前記更新するステップが、前記画像の一部に対し輪郭を描くステップ、強調するステップ、色を変えるステップ、または明るくするステップのうちの少なくとも1つを備える、請求項1から6のいずれか一項に記載の方法。
前記画像内の前記オブジェクトのユーザ選択を受信するステップが、ユーザがユーザインターフェース内の前記オブジェクトを備える前記画像の一部を選択したという表示を受信するステップを備える、請求項1から7のいずれか一項に記載の方法。
前記画像内の前記オブジェクトを検出するステップが、
前記画像の画像データに対してデジタル画像処理を実行するステップと、
前記デジタル画像処理に基づいて前記画像内の前記オブジェクトを認識するステップと
を備える、請求項1から8のいずれか一項に記載の方法。
メモリと、
前記メモリに通信可能に結合された処理デバイスであって、請求項1から9のいずれか一項に記載の方法を実行するための命令を実行するための、処理デバイスと
を備える、システム。
処理デバイスによって実行されると、前記処理デバイスに、請求項1から9のいずれか一項に記載の方法を備える動作を実行させる命令が記憶された非一時的コンピュータ可読ストレージメディア。