JP2023179583A

JP2023179583A - 検索／作成されたデジタルメディアファイルに基づく潜在的関連のあるトピックの予測

Info

Publication number: JP2023179583A
Application number: JP2023167815A
Authority: JP
Inventors: ロバート・ローズ; Rose Robert; クン・チャオ; Qun Cao
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-06-21
Filing date: 2023-09-28
Publication date: 2023-12-19
Also published as: KR102574279B1; JP2021525433A; US20210064653A1; US11971925B2; JP6930041B1; US10860642B2; JP2021192241A; US20190392055A1; KR20210005733A; WO2019246348A1; KR102457665B1; KR20230132601A; KR20220145424A; CN112313643A; US20230153346A1; US11580157B2

Abstract

【課題】ユーザによって検索および/または作成されたデジタルメディアファイルを活用する方法、システム及び非一時的コンピュータ可読媒体を提供する。【解決手段】クライアントデバイスを用いてユーザによって作成および/または検索されたデジタルメディアファイルを、クライアントデバイスにとってローカルなトレーニング済み機械学習モデルに亘る入力として適用し、デジタルメディアファイル中で検出されたオブジェクトを示す出力を生成する。示されたオブジェクトを示すデータは、デジタルメディアファイル自体を提供することなく、リモートコンピューティングシステムに提供される。示されたオブジェクトに関連付けられた情報は検索され、ユーザに対して先を見越して出力される。デジタルメディアファイルのコーパスにわたってオブジェクトが発現する頻度は、検出されたオブジェクトがユーザに潜在的に関連する可能性を決定するときに検討される。【選択図】図７

Description

本開示は、検索／作成されたデジタルメディアファイルに基づく潜在的関連のあるトピックの予測に関する。

デバイスに送信されるデータを制御するのに有用な情報が、ドキュメント(特にクラウドベースドキュメント)、カレンダ、明示的なユーザ選好などのような、様々な異なるソースから決定され得る。ただし、情報のソースへのアクセスを制御することが望ましい場合がある。

本開示は概して、ユーザによって検索および/または作成されたデジタルメディアファイルを活用するための方法、装置ならびにコンピュータ可読媒体(一時的および非一時的)を対象とする。様々な実施形態では、デジタル写真、デジタルビデオ、デジタルオーディオファイルなどのような、ユーザによって作成/検索されたデジタルメディアファイルが、それらのデジタルメディアファイル中で表される1つまたは複数のオブジェクトを検出するために、様々な技法を使用して分析され得る。「オブジェクト」とは、いかなる人、場所、または物も含み得る。特定の人(たとえば、有名人)、固有のオブジェクト(たとえば、ホープダイヤモンドなどの悪名高いオブジェクト)などのような、いくつかの固有のオブジェクトは、代替として、本明細書において、および/または他の箇所で、特に知識グラフのコンテキストにおいて、「エンティティ」と呼ばれる場合がある。代替可能オブジェクトなど、ほとんどのオブジェクトが、タイプもしくはクラスを有することができ、かつ/または様々な階層のメンバーであってよい(たとえば、グラニースミスのアップル→りんご→果物→植物→生物)。これらの検出されたオブジェクトに基づいて、単独で、または他のユーザ興味シグナルとの組合せで、潜在的関連(たとえば、ユーザ興味)のあるトピックが決定され、関連情報をユーザに提示するのに使われ得る。

様々な技法が、デジタルメディアファイル中で表されるオブジェクトを検出するために、ユーザによって操作されるクライアントデバイスにおいてローカルに実装されてよい。これらの検出されたオブジェクトを示すデータが、基底デジタルメディアファイルを提供することなく、クライアントデバイスによって、リモートコンピューティングサーバ(たとえば、クラウド)に提供されてよく、そうすることによって、リモートコンピューティングシステムは、それらの検出されたオブジェクトが、ユーザに関連する可能性があるトピックを証明するかどうかを決定することができる。たとえば、いくつかの実施形態では、1つまたは複数のトレーニング済み機械学習モデルが、クライアントデバイス上でローカルに記憶され得る。クライアントデバイスにおいて作成され/取り込まれたデジタルメディアを示すデータが、トレーニング済み機械学習モデルにわたる入力として、(クライアントデバイスにおいてローカルに)適用されて、1つまたは複数のオブジェクトを示す出力を生成することができる。この出力は、上述したように、たとえば、ユーザに潜在的関連のあるコンテンツを1つまたは複数のクライアントデバイスにおいて先を見越して提示するのに使うことができる。

本明細書に記載する技法は、様々な技術的利点を生み出す。例として、ユーザによって作成および/または検索されたデジタルメディアファイル中のオブジェクトを検出するのに、ローカルなオンデバイスモデルを利用すると、リモートサーバが、ユーザのデジタルメディアファイル(特に、ユーザによって作成されたものであって、これは、かなり私的であると見なされ得る)をクラウドに公表することなく、ユーザのデジタルメディアファイルに関連付けられた情報を使うことが可能になる。さらに、ローカルなオンデバイスモデルを利用すると、データが、クライアントデバイスによって、潜在的関連のあるトピックに関連した情報を提供する際の使用のために送信されることが可能になり、ここで、データは、デジタルメディアファイルが代わりに送信された場合よりも少ないネットワーク帯域幅を消費する。これは、たとえば、クライアントデバイスが限られた帯域幅ネットワーク接続を使用している状況において有益な場合があり、関連情報がより素早く(たとえば、クライアントデバイスが、より高い帯域幅ネットワーク接続を使用するのを待ち受ける必要なく)クライアントデバイスに提供されることを可能にし得る。

別の例として、ユーザに潜在的に関連のあるトピックを識別し、これらのトピックを、ユーザに提示されるコンテンツを取得する/生成する/取りまとめるのに使うと、それらのユーザによって、ユーザが望むコンテンツに到達するのに必要とされる入力を削減することができる。たとえば、本明細書に記載する技法を使用して識別されたトピックに基づいて、サーチ結果をランク付けすることにより、ユーザが、より少ない入力で、探しているものをより素早く見つけることを可能にし得、ネットワーク帯域幅、メモリ、バッテリー電力などのようなコンピューティングリソースを節約する。この目的のために、様々な実施形態では、ユーザに潜在的関連のあるトピックが、たとえば、ユーザによって操作される1つもしくは複数のクライアントデバイスにおいて、および/またはクラウド中で、ユーザとの関連付けで(たとえば、ユーザのプロファイルに関連付けられることによって)、将来の使用のためにメモリ中で維持され得る。別の例として、ユーザによって作成または少なくとも編集されたデジタルメディアファイルは、たとえば、ユーザによって受動的に単に検索される(たとえば、閲覧される、再生される、など)デジタルメディアファイル、他のユーザと共有されるファイル、またはサーチ履歴(より根本的な興味よりもむしろ、一時的興味を示し得る)など、他のシグナルよりもユーザの興味を示すことができる。したがって、本明細書に記載する技法は、ユーザに関連する可能性が高いトピックを識別することができ、ユーザエクスペリエンスを向上する。

一態様では、1つまたは複数のプロセッサによって実施される方法は、ユーザによってクライアントデバイスを用いて作成された1つまたは複数のデジタルメディアファイルを取得するステップと、クライアントデバイスにとってのローカルにある1つまたは複数のトレーニング済み機械学習モデルにわたる入力として1つまたは複数のデジタルメディアファイルを適用するステップであって、1つまたは複数のトレーニング済み機械学習モデルは、1つまたは複数のデジタルメディアファイルの各々の中で検出された1つまたは複数のオブジェクトを示す出力を生成する、ステップと、1つまたは複数のデジタルメディアファイルを提供することなく、リモートコンピューティングシステムに、示された1つまたは複数のオブジェクトを示すデータを提供するステップと、同じリモートコンピューティングシステムまたは異なるリモートコンピューティングシステムから、示された1つまたは複数のオブジェクトに関連付けられた情報を受信するステップと、示された1つまたは複数のオブジェクトに関連付けられた情報を、ユーザによって操作される同じクライアントデバイスまたは異なるクライアントデバイスにおいて、ユーザに対して先を見越して出力するステップとを含み得る。

様々な実施形態では、提供するステップは、リモートコンピューティングシステムに、識別された1つまたは複数のオブジェクトに基づいてサーチクエリを定式化させることができ、示された1つまたは複数のオブジェクトに関連付けられた情報は、定式化されたサーチクエリに応じた情報を含む。

様々な実施形態では、方法は、リモートコンピューティングシステムから、サーチクエリを受信するステップと、発行に応答してサーチクエリに応じた情報を受信するために、サーチクエリを発行するステップとをさらに含み得る。様々な実施形態では、リモートコンピューティングシステムは、定式化されたサーチクエリそれ自体を使用して、定式化されたサーチクエリに応じた情報を取得し得る。

様々な実施形態では、リモートコンピューティングシステムは、示された1つまたは複数のオブジェクトを示すデータに基づいて、ユーザに潜在的に関連する1つまたは複数のトピックを決定することができ、示された1つまたは複数のオブジェクトに関連付けられた情報は、データベース中の、1つまたは複数の興味に関連付けられた情報を含み得る。

別の態様では、ユーザによって操作される1つまたは複数のクライアントデバイスから、1つまたは複数のデジタルメディアファイルを示すデータを受信するステップと、1つまたは複数のデジタルメディアファイルを示すデータに基づいて、1つまたは複数のデジタルメディアファイルの各々の中で検出された1つまたは複数のオブジェクトを識別するステップと、ユーザの集団によって提供されたデジタルメディアファイルのコーパスにわたる1つまたは複数のオブジェクトの各々の頻度を決定するステップと、対応する頻度に基づいて、オブジェクトのうちの1つまたは複数を選択するステップと、選択された1つまたは複数のオブジェクトに基づいて、ユーザに潜在的に関連する1つまたは複数のトピックを識別するステップと、識別された1つまたは複数のトピックに基づいて、サーチクエリを定式化するステップと、定式化されたサーチクエリに応じた情報を、ユーザによって操作されるクライアントデバイスのうちの1つまたは複数において先を見越して出力させるステップとを含むコンピュータ実施方法が提供され得る。

様々な実施形態では、1つまたは複数のデジタルメディアファイルを示すデータは、1つまたは複数のデジタル画像を含んでよく、1つまたは複数のオブジェクトを識別することは、1つまたは複数のデジタル画像に対して画像認識を実施して、1つまたは複数のオブジェクトを識別することを含み得る。様々な実施形態では、1つまたは複数のデジタルメディアファイルを示すデータは、1つまたは複数のオーディオファイルを含んでよく、1つまたは複数のオブジェクトを識別することは、1つまたは複数のオーディオファイルにおいてオーディオ分析を実施して、1つまたは複数のオブジェクトを識別することを含み得る。

様々な実施形態では、1つまたは複数のデジタルメディアファイルを示すデータは、1つまたは複数のデジタルメディアファイルから抽出された1つまたは複数の特徴ベクトルまたは次元削減埋め込み(reduced dimensionality embedding)を含み得る。様々な実施形態では、選択することは、1つまたは複数のデジタルメディアファイル中での1つまたは複数のオブジェクトの位置にさらに基づき得る。

様々な実施形態では、選択することは、1つまたは複数のデジタルメディアファイル中での1つまたは複数のオブジェクトの焦点の度合いにさらに基づき得る。様々な実施形態では、選択することは、1つまたは複数のクライアントデバイスから受信された1つまたは複数のデジタルメディアファイルに関連付けられた位置座標にさらに基づき得る。様々な実施形態では、選択することは、ユーザが、1つまたは複数のクライアントデバイスから受信された1つまたは複数のデジタルメディアファイルを作成または検索していたかどうかにさらに基づき得る。

実施形態は、ユーザに潜在的関連のあるトピック(たとえば、ユーザの興味またはユーザに近い他者の興味、ユーザ選好など)を予測/決定するのに、ユーザによって検索および/または作成されたデジタルメディアファイルを活用することができる。様々な実施形態では、それらのトピックに関連した情報および/またはデータは次いで、ユーザに先を見越して提供されてよい。一態様では、ユーザによって作成/検索されたデジタルメディアファイル中で検出されたオブジェクトが、ユーザに潜在的関連のあるトピックを識別するために、様々な程度まで活用され得る。たとえば、家具、木、風景などのような、ユーザの集団によって取得されたデジタル写真のコーパスの中でありふれた、ユーザのデジタル写真(および/またはデジタルビデオ)の中で検出された背景および/または付随的オブジェクトは、ユーザの興味を高く示すわけではない場合がある。対照的に、デジタル写真のコーパス中の、比較的頻繁には遭遇されない、比較的ありふれていないオブジェクトは、ユーザの興味をより高く示し得る。このことは、これらの比較的ありふれていないオブジェクトが、ユーザによって撮られた複数のデジタル写真にわたって検出される場合に特に当てはまる。たとえば、バーボンの瓶が、ユーザの集団によって取得されたデジタル写真のコーパスにわたって特に普通でない場合、バーボンの瓶が特定のユーザのデジタル写真の中で重く特徴をなすという事実は、バーボンへの、または少なくともバーボンの瓶へのユーザの興味を示す可能性がある。代替として、このことは、装飾瓶またはそうでなければ独特な瓶へのユーザの興味を示す場合がある。また、異なるタイプの瓶(たとえば、バーボンの瓶、スコッチの瓶、ワインの瓶、薬瓶など)の複数のピクチャがある場合、そのことは、瓶への全般的興味を示し得る。別の例として、1つまたは複数のバーボンの瓶がユーザの写真に表れるが、ユーザはまた、たとえば、蒸留所巡りの間に、蒸留所のピクチャを閲覧および/もしくは作成し、かつ/またはバーボンラベルのピクチャを閲覧および/もしくは作成する場合、これらは、まとまって、バーボンへの全般的興味の強力なシグナルとなり得る。

ユーザに潜在的関連のあるトピックが、本明細書に記載する技法を使用して識別されると、これらの識別されたトピックは、様々な目的に使うことができる。いくつかの実施形態では、識別されたトピックに関連付けられた情報が取得され、たとえば、スマートフォンのタッチスクリーン上で提示される通知「カード」または「タイル」として、人間-コンピュータダイアログセッション、着信テキストメッセージなどにユーザが関与するための自動化アシスタントからの出力として、ユーザに先を見越して提示され、または「プッシュされ」てよい。いくつかの実施形態では、ユーザに潜在的関連のあるトピックは、たとえば、ユーザによって操作されるクライアントデバイスによって、または、しばしば「クラウド」と呼ばれるものを形成するリモートコンピューティングサーバによって、サーチクエリを定式化するのに使われ得る。このサーチクエリに応じた情報が取得され、ユーザにプッシュされ得る。追加または代替として、いくつかの実施形態では、1つまたは複数のユーザトピックは、トピックがユーザに潜在的に関連すると決定されると、ユーザに自動的に提示される、様々な所定のコンテンツ、たとえば、取りまとめられたコンテンツに、データベース中で関連付けられてよい。

これらのような実施形態は、ユーザ自身が気づいていない可能性がある、ユーザに潜在的関連のあるトピックの識別を可能にし得る。例として、父親が、自分の家族のいくつかのデジタル写真および/またはデジタルビデオを取得すると仮定する。さらに、自分の子供のうちの1人が、これらのデジタルメディアファイルに、特定のタイプのオブジェクトと関わり合いながら常に写っていると仮定する。たとえば、ある写真では、自分の息子がおもちゃのバイクで遊んでおり、別の写真では、自分の息子が、バイクを描いたシャツを着ており、別の例では、自分の息子が、おじさんのバイクの上でポーズをとっている、などである。何らかの理由で、父親が、バイクへの自分の息子の興味を意識的に気づいていない場合であっても、本明細書に記載する技法は、息子の興味により、父親に関連するものとしての、「バイク」というトピックの識別を可能にし得る(父親自身が明らかにバイクに興味がない場合であっても、バイクへの自分の息子の興味が、そのトピックを、少なくとも父親に関連させ得る)。したがって、バイクに関連する情報が、父親にプッシュされ得る。たとえば、息子の誕生日が近づくと、父親には、息子のための潜在的なバイク関係のプレゼントについての情報が提示され得る。

他の実施形態は、上述した方法のうちの1つまたは複数などの方法を実施するように、プロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含み得る。さらに別の実施形態は、メモリと、上述した方法のうちの1つまたは複数などの方法を実施するように、メモリに記憶された命令を実行するように動作可能な1つまたは複数のプロセッサとを含むシステムを含み得る。

本明細書でより詳細に記載する、上記概念と追加概念のすべての組合せは、本明細書で開示する主題の一部であることを企図されることを諒解されたい。たとえば、本開示の最後に著される、特許請求する主題のすべての組合せが、本明細書で開示する主題の一部であることを企図される。

本開示の選択された態様が実施され得る例示的環境を示す図である。様々な実施形態による、本明細書に記載する技法が利用され得る例示的シナリオを示す図である。様々な実施形態による、本明細書に記載する技法が利用され得る例示的シナリオを示す図である。様々な実施形態による、本明細書に記載する技法が利用され得る例示的シナリオを示す図である。本明細書に記載する技法の実施の後で、どのようにコンテンツが先を見越して出力され得るかという例を概略的に示す図である。本開示の選択された態様を実施する例示的方法を示すフローチャートである。本開示の選択された態様を実施する例示的方法を示す別のフローチャートである。コンピュータシステムの例示的アーキテクチャを概略的に示す図である。

図1は、デジタルメディアファイルの、ユーザの作成および/または検索(たとえば、消費)から情報が決定され得る例示的環境を示す。例示的環境は、クライアントデバイス106およびクラウドベースシステム102を含む。クラウドベースシステム102は、たとえば、ネットワーク(図示せず)を通して通信する1つまたは複数のコンピュータ中に実装され得る。クラウドベースシステム102は、本明細書に記載するシステム、構成要素、および技法がその中で実装され得る、かつ/または本明細書に記載するシステム、構成要素、および技法がインターフェースし得るシステムの例であってよい。本明細書では、大部分が「クラウドベースシステム」上で実施されるものとして記載されるが、開示する技法は実際には、eメールシステム、テキストメッセージングシステム、ソーシャルネットワーキングシステム、ボイスメールシステム、生産性システム、企業ソフトウェア、サーチエンジンなどのような、様々な目的にかなうシステム上で実施されてよい。

ユーザは、クライアントデバイス106を介して、クラウドベースシステム102と対話することができる。追加クライアントデバイスおよび/またはクラウドベースシステム102のプロバイダと組んでいるウェブサイト向けのサービスを実施する1つもしくは複数のサーバを含むが、それに限定されない他のコンピュータデバイスが、クラウドベースシステム102と通信する場合がある。ただし、簡潔のために、クライアントデバイス106のコンテキストにおいて、例が記載される。

クライアントデバイス106は、ローカルエリアネットワーク(LAN)またはインターネットなどのワイドエリアネットワーク(WAN)などのネットワーク(概して112で示される、1つまたは複数のそのようなネットワーク)を通してクラウドベースシステム102と通信するコンピュータであってよい。クライアントデバイス106は、たとえば、デスクトップコンピューティングデバイス、ラップトップコンピューティングデバイス、タブレットコンピューティングデバイス、モバイルフォンコンピューティングデバイス、ユーザの車両のコンピューティングデバイス(たとえば、車両内通信システム、車両内娯楽システム、車両内ナビゲーションシステム)、ボイス対話型携帯情報端末を操作するスタンドアロン対話型スピーカ(「自動化アシスタント」とも呼ばれる)、またはコンピューティングデバイスを含む、ユーザのウェアラブル装置(たとえば、コンピューティングデバイスを有するユーザの時計、コンピューティングデバイスを有するユーザの眼鏡、ウェアラブル音楽プレーヤ)であってよい。追加および/または代替クライアントデバイスが提供されてよい。

クライアントデバイス106は、様々なソフトウェアおよび/またはハードウェア構成要素を含み得る。たとえば、図1では、クライアントデバイス106は、視覚センサ107およびマイクロフォン108を含む。視覚センサ107は、デジタルカメラ、受動赤外線(「PIR」)センサ、RGBdセンサ、立体カメラなどのような様々な形をとり得る。視覚センサ107は、たとえば、ユーザ(図示せず)によって、1つまたは複数のデジタル画像を、たとえば、スタンドアロンデジタル画像として、および/またはデジタルビデオを形成するデジタル画像フレームのシーケンスとして取り込むように操作され得る。マイクロフォン108は、たとえば、ユーザによって、ユーザによる発声など、様々な音を取り込むように操作され得る。いくつかのシナリオでは、視覚センサ107およびマイクロフォン108は、たとえば、ビデオ録画などのマルチメディアオーディオ/ビジュアルデジタルメディアファイルを取り込むように、一緒に使われ得る。

クライアントデバイス106は、様々なソフトウェアを実行することもできる。たとえば、図1に示される実施形態では、クライアントデバイス106は、メディアクライアント109およびオブジェクト認識クライアント110を実行する。様々な実施形態では、メディアクライアント109は、たとえば、ユーザによって、デジタルメディアファイルを(たとえば、消費のために)作成および/または検索するように動作可能であり得る。本明細書で使用するように、「デジタルメディアファイル」は、デジタル画像(たとえば、写真)、デジタルビデオ(音ありまたはなし)、コンピュータ支援設計(「CAD」)ファイル、オーディオファイル(たとえば、歌、ポッドキャストなど)などを含み得る。いくつかの実施形態では、クライアントデバイス106は、複数のメディアクライアント109を、たとえば、複数の異なるタイプのデジタルメディアファイル用に実行し得る。ただし、簡潔および簡単のために、本明細書において参照される実施形態は、単一のメディアクライアント109をインストールしているものとして記載される。いくつかの実施形態では、メディアクライアント109を使用して作成されたデジタルメディアファイルは、たとえば、オンライン記憶エンジン120による、1つまたは複数のクラウド記憶データベース122中での安全および/またはセキュアな記憶のために、クラウドベースシステム102にアップロードされ(たとえば、バックアップされ、転送され)得る。追加または代替として、オンライン記憶エンジン120は、ユーザが自分のソーシャルネットワークアカウントにおいてアップロードまたは共有するデジタルメディアファイルが、本明細書に記載する技法を使用して分析され得るように、ソーシャルネットワークの一部を形成し得る。

オブジェクト認識クライアント110は、メディアクライアント109を使用して検索および/または作成されるデジタルメディアファイル中で表されるオブジェクトを認識するように構成され得る。いくつかの実施形態では、すべてのオブジェクト認識が、クラウドベースシステム102において実施されてよく、このケースでは、オブジェクト認識クライアント110はクライアントデバイス106上にインストールされてよい。ただし、いくつかの実施形態では、オブジェクト認識クライアント110は、ユーザのプライバシーを保つために、クライアントデバイス106上にインストールされてよい。たとえば、いくつかの実施形態では、オブジェクト認識クライアント110は、「オンデバイス」オブジェクト認識モデルデータベース111へのアクセスを有し得る(「インデックス」および「データベース」という用語は、本明細書では互換的に使われる)。オンデバイスモデルデータベース111は、たとえば、オブジェクト認識クライアント110によって、デジタルメディアファイル中で表されるオブジェクトを検出するのに、および/または1つもしくは複数の検出されたオブジェクトを示す出力を提供するのに使用可能であり得る1つまたは複数のオブジェクト認識モジュールおよび/またはモデルを記憶し得る。したがって、これらのモデルによって生成されたデータが、オブジェクトが検出されたデジタルメディアファイルの生のデータよりもむしろ、クラウドベースシステム102に提供されてよい。オブジェクト認識がどのように実施され得るかの例について、以下で説明する。

いくつかの実施形態では、クライアントデバイス106およびクラウドベースシステム102は各々、データおよびソフトウェアアプリケーションの記憶のためのメモリと、データにアクセスし、アプリケーションを実行するためのプロセッサと、ネットワーク112を介しての通信を容易にする構成要素とを含む。クライアントデバイス106および/またはクラウドベースシステム102によって実施される動作は、複数のコンピュータシステムに分散されてよい。クラウドベースシステム102は、たとえば、ネットワークを通して互いと結合される、1つまたは複数のロケーションにある1つまたは複数のコンピュータ上で稼動するコンピュータプログラムとして実装され得る。

様々な実施形態では、クラウドベースシステム102は、オンライン記憶エンジン120、オブジェクト認識エンジン124、オブジェクト頻度エンジン128、トピック識別エンジン132、および/または知識グラフエンジン136を含み得る。いくつかの実施形態では、エンジン120、124、128、132および/または136のうちの1つまたは複数は、組み合わされ、かつ/または省かれてよい。いくつかの実施形態では、エンジン120、124、128、132、および/または136のうちの1つまたは複数は、クラウドベースシステム102とは別個の構成要素中で実装されてよい。いくつかの実施形態では、エンジン120、124、128、132および/もしくは136のうちの1つもしくは複数、またはそれらの任意の動作部は、クライアントデバイス106によって実行される構成要素中で実装されてよい。

本明細書では、「データベース」および「インデックス」という用語は、互換的に、およびデータのいかなる集合体も指すように広く使われる。データベースおよび/またはインデックスのデータは、どの特定のやり方でも構造化される必要がなく、1つまたは複数の地理的ロケーションにある記憶デバイス上に記憶することができる。したがって、たとえば、インデックス111、122、126、130、134、138は、異なるやり方で各々が編成されアクセスされ得る、データの複数の集合体を含み得る。

ここで、クラウドベースシステム102に移ると、様々な実施形態では、オンライン記憶エンジン120は、デジタルメディアファイルなど、ユーザの様々なタイプのデジタルコンテンツを、しばしば「クラウドストレージ」と呼ばれるクラウドストレージ122中に記憶するように構成され得る。たとえば、ユーザが、ユーザによって操作される複数のクライアントデバイス106の間でデータを同期させるオンラインプロファイルを有する場合がある。この同期は、オンライン記憶エンジン120によって、たとえば、同期されるべき、ユーザのデジタルコンテンツすべての、コピーをクラウドストレージ122中に記憶することによって容易にされ得る。ユーザが、オンライン記憶エンジン120に、たとえば、そのコンテンツを直接アップロードすることによって、および/またはそのコンテンツを、クラウドストレージ用に指定される1つもしくは複数のクライアントデバイス106上の記憶フォルダ中に記憶することによって、クラウドストレージ122中にデジタルコンテンツを故意に記憶させる場合がある。追加または代替として、いくつかの実施形態では、ユーザの様々なデジタルコンテンツは、たとえば、オンライン記憶エンジン120によって、自動化バックアッププロセスの一部として、インデックス122に自動的に記憶され得る。たとえば、いくつかのクラウドコンピューティングサービスプロバイダは、そのユーザに、デジタル写真、ビデオ、または他のデジタルメディアファイルの無料または有料自動バックアップを申し出る。

オブジェクト認識クライアント110のように、オブジェクト認識エンジン124は、デジタルメディアファイル中で表されるオブジェクトを識別するように構成され得る。ただし、オブジェクト認識クライアント110は、リソースが制約されたクライアントデバイス106上で動作し、したがって、限られた能力を有する場合がある。たとえば、いくつかの実施形態では、限られた数のオンデバイスオブジェクト認識モデルが、オンデバイスモデルインデックス111に記憶され得る。対照的に、オブジェクト認識エンジン124は、オブジェクト認識を実施するのに、クラウドのほぼ無限のリソースを活用することが可能であってよく、したがって、オブジェクト認識クライアント110よりもはるかに有能、堅牢などであってよい。たとえば、オブジェクト認識エンジン124は、オブジェクト認識クライアント110にとって利用可能なオンデバイスインデックス111よりもはるかに大きい、オブジェクト認識モジュールおよび/またはモデルのインデックス126へのアクセスを有し得る。いくつかの実施形態では、オブジェクト認識クライアント110が、デジタルメディアファイル中で1つもしくは複数のオブジェクトを検出/認識することができないか、または少なくとも、十分な信頼性で認識することができない場合、デジタルメディアファイル(またはそれを示す、データの何らかの変形)は、オブジェクト認識分析を実施するために、オブジェクト認識エンジン124に提供されてよい。

オブジェクト認識および/または検出は、たとえば、オブジェクト認識クライアント110および/またはオブジェクト認識エンジン124によって、異なる様々な技法を使用して実施され得る。いくつかの実施形態では、オンデバイスモデルインデックス111および/またはクラウドベースモデルインデックス126は、たとえば、1つまたは複数の視覚センサ(たとえば、107)によって取得された視覚および/または深さデータを使用して、オブジェクトタイプについての推論を提供するために使われ、かつ/またはトリガされ得るオブジェクトモデル(たとえば、コンピュータ支援設計、または「CAD」、ベース)を含み得る。追加または代替として、オンデバイスモデルインデックス111および/またはクラウドベースモデルインデックス126は、1つまたは複数の視覚センサ(たとえば、107)によって取り込まれた2D画像データの部分(たとえば、ビデオフレーム)にマッチングされ得る、オブジェクトの2Dパターンまたはプロファイルを含み得る。さらに他の実施形態では、オンデバイスモデルインデックス111および/またはクラウドベースモデルインデックス126は、オブジェクト認識クライアント110および/またはオブジェクト認識エンジン124によって、オブジェクトタイプについての推論を提供するために実施/トリガされ得るルーチン(たとえば、状態機械)を含み得る。いくつかの実施形態では、オブジェクト認識クライアント110および/またはオブジェクト認識エンジン124は、たとえば、画像の背景(たとえば、道路標識または店頭)中、画像中に示される衣類の上、などに含まれるテキストを認識するために光学式文字認識(「OCR」)をたとえば使うことによって、デジタル画像中のテキストコンテンツを検出することができる。

いくつかの実施形態では、1つまたは複数の機械学習モデルが、デジタルメディアファイル中で検出された1つまたは複数のオブジェクトを示す出力を生成するようにトレーニングされ得る。たとえば、1つまたは複数の畳み込みニューラルネットワーク(「CNN」)が、デジタル画像ファイル(個々の写真またはビデオフレーム)に基づいて、デジタルメディアファイル中で検出された1つまたは複数のオブジェクトと、いくつかのケースでは、それらの検出されたオブジェクトに関連付けられた信頼とを示す出力を生成するようにトレーニングされ得る。

非限定的例として、CNNは、デジタル画像中に表される1つまたは複数のオブジェクトで各々がラベル付けされたデジタル画像のコーパスを使用してトレーニングされ得る。各トレーニング例は、入力としてCNNにわたって適用されて、出力を生成し得る。出力は次いで、トレーニング例に関連付けられたラベルと比較されて、違い、または誤りを決定することができる。この誤りに基づいて、逆伝搬、勾配降下などのような、様々な技法が、CNNをトレーニングするのに利用されてよい。トレーニングされる(たとえば、数百、または数千のトレーニング例を使用して)と、ラベルなしデジタル画像が、入力としてCNNにわたって適用されて、デジタル画像中で検出された1つまたは複数のオブジェクトを示す出力と、いくつかのケースでは、出力の信頼性尺度とを生成することができる。

デジタル画像(個々のデジタル写真からかデジタルビデオフレームからかにかかわらず)中のオブジェクトを認識するのに加え、いくつかの実施形態では、オブジェクト認識クライアント110および/またはオブジェクト認識エンジン124は、デジタルオーディオコンテンツ(スタンドアロンか付随デジタルビデオかにかかわらず)中のオブジェクト(またはより全般的には、トピック)を検出するように構成され得る。たとえば、いくつかの実施形態では、オブジェクト認識クライアント110および/またはオブジェクト認識エンジン124は、オーディオデータ中でのオブジェクトの言及を検出するのに、音声認識などの技法を利用することができる。いくつかの実施形態では、オンデバイスモデルインデックス111および/またはクラウドベースモデルインデックス126は、オーディオデータ中での様々なオブジェクトの言及を検出するようにトレーニングされる、1つまたは複数の機械学習モデルなど、1つまたは複数のモデルを記憶することができる。追加または代替として、いくつかの実施形態では、オブジェクト認識クライアント110および/またはオブジェクト認識エンジン124は、音声テキスト処理を利用して、オーディオデータから音声認識出力(すなわちテキスト)を生成し、次いで、自然言語処理、エンティティタグ付けなどのような技法を使用して、テキストを分析して、言及されるオブジェクト、またはより全般的には、ユーザにとって潜在的興味があるトピックを識別することができる。

トピック識別エンジン132は、様々なシグナルに基づいて、1人または複数のユーザに潜在的関連のある1つまたは複数のトピックを識別するように構成され得る。いくつかの実施形態では、これらのトピックは、たとえば、適用可能なユーザと関連付けて、ユーザ興味インデックス134に記憶されてよく、そうすることによって、後で、たとえば、クライアントデバイスが高帯域幅データ接続に接続されたときにクライアントデバイスにおいて情報をキャッシュすること、サーチ結果をランク付けすること、代替クエリ提案を生成すること、デジタルコンテンツを選択および提示すること、メディア/レストラン/などを推薦することなどを含むが、それに限定されない様々な目的に使うことができる。これらのシグナルは、様々な異なる形をとってよく、様々な異なるソースに由来し得る。いくつかの実施形態では、トピック識別エンジン132は、ユーザによって作成および/または検索されたデジタルメディアファイルに対してオブジェクト認識クライアント110および/またはオブジェクト認識エンジン124によって実施された分析に基づいて、ユーザにとって潜在的興味または関連のあるトピックを識別することができる。たとえば、オブジェクト認識エンジン124が、ユーザによって取り込まれた複数のデジタル写真の中で、クラッシックカーの複数の表現を検出すると仮定する。ユーザが、クラッシックカーに明示的に興味を示していない場合であっても、これらの検出は、たとえば、トピック識別エンジン132によって、ユーザがクラッシックカーに潜在的に興味があり得ると決定するのに使うことができる。

デジタルメディアファイル中でオブジェクトが検出されるというありのままの事実に加え、デジタルメディアファイルの他の様々な属性、およびそのファイル中での、検出されたオブジェクトの役割または卓越性も、トピック識別エンジン132によって検討されてよい。いくつかの実施形態では、デジタル画像内での検出されたオブジェクトの卓越性は、(たとえば、110/124において)決定され、ユーザに関連のあるトピックとしての、オブジェクトの潜在性を重み付けするのに使われ得る。たとえば、画像内での検出されたオブジェクトの位置、画像全体に相対した、検出されたオブジェクトのサイズ、画像中で検出された他のオブジェクトに相対した、検出されたオブジェクトのサイズ、他の検出されたオブジェクトに相対した、オブジェクトの焦点の度合い(たとえば、他の検出されたオブジェクトと比較して、オブジェクトがどれだけ曖昧であるか)、1つまたは複数の画像中の特定のタイプのオブジェクトの数(たとえば、ピクチャ中に示される3つのりんごは、1つのりんごよりも、関連の証拠となり得る)、および他の同様のデータ点が、たとえば、オブジェクト認識クライアント110および/またはオブジェクト認識エンジン124によって与えられ、検出されたオブジェクトの卓越性尺度を決定するとき、(たとえば、トピック識別エンジン132によって)検討されてよい。いくつかの実施形態では、特定の検出されたオブジェクトの卓越性尺度は、たとえば、トピック識別エンジン132によって、1つもしくは複数の閾値と、および/または他の検出されたオブジェクトに関連付けられた1つもしくは複数の他の卓越性尺度と比較されて、オブジェクト(および、より全般的には、オブジェクトから決定されたトピック)がユーザに潜在的関連があると見なされるべきかどうか(またはどれだけ関連があるか)を決定することができる。

たとえば、特定のタイプの車が、1つまたは複数のデジタル画像中で、前景、画像の中央にある、などのように、卓越して取り上げられる場合、そのことは、検出された車(および、より全般的には、そこから導出されたトピック)が、ユーザにとって興味がある可能性があるということを大いに証明し得る。対照的に、オブジェクトが、デジタル画像の背景において、脇に寄って、検出されるか、または画像に全体が示されているわけではない(たとえば、上、脇などが切り取られている)場合、そのことは、オブジェクトへの潜在的ユーザ興味をあまり証明することができないが、それは、デジタルメディアファイル中でのオブジェクトの表現が、単に偶発的および/または付随的であり得るからである。いくつかの実施形態では、トピック識別エンジン132は、デジタル画像中で検出された、どの個々のオブジェクトも、あまり重くは重み付けされないように、特定のデジタルメディアファイル中で何個のオブジェクトが検出されるかを検討すればよい。いくつかのそのような実施形態では、デジタル画像中の、検出されたオブジェクトの傑出が、たとえば、トピック識別エンジン132によって、画像中のオブジェクトの総数とともに考慮に入れられてよい。たとえば、所与のデジタル画像中で多数のオブジェクトが検出されるが、特定のオブジェクトが、他の検出されたオブジェクトよりもはるかに卓越して取り上げられる場合、その特定のオブジェクトが、トピック識別エンジン132によってより重く重み付けされてよい。

追加または代替として、いくつかの実施形態では、トピック識別エンジン132は、デジタルメディアコンテンツに関連付けられたメタデータに基づいて識別することができる。たとえば、ユーザが、特定のデジタル写真に、デジタル写真中で表されるオブジェクトを記述するファイル名をつけると仮定する。このメタデータは、たとえば、トピック識別エンジン132によって、1つまたは複数のトピックへのユーザ興味を(単独で、または他のシグナルとの組合せで)示唆し得るシグナルとして使うことができる。いくつかの実施形態では、ユーザが、1つまたは複数のトピックを識別するメタデータを明示的に定義するのに時間をかけるということは、それらのトピックへのユーザの潜在的興味を大いに証明することができる。他の使用可能メタデータは、たとえば、クライアントデバイス106上および/またはクラウドストレージ122中で、デジタルメディアファイルが記憶されるフォルダを含み得る。たとえば、「鳥のピクチャ」と題するフォルダに多数の画像が記憶されている場合、トピック識別エンジン132は、鳥というトピックへのユーザ興味を推定し得る。別の例として、いくつかの実施形態では、ユーザによって消費される(たとえば、ストリーミングされる)メディアに関連付けられたメタデータが、トピック識別エンジン132によって検討され得る。たとえば、ユーザが見るオンラインストリーミングビデオに関連付けられたタイトル、推薦文、記述、キャスト、クルー、または他のメタデータが、ユーザに潜在的関連のあるトピックを識別するのに使われてよい。

追加または代替として、いくつかの実施形態では、トピック識別エンジン132は、時間をかけた、1つまたは複数のデジタルメディアファイルとのユーザの対話の性質に基づいて、トピックを識別することができる。たとえば、ユーザが、自分のライブラリ中の特定のデジタル画像を(自分のライブラリ中の他の画像よりも)繰り返し開く傾向がある場合、トピック識別エンジン132は、それらの特定の画像中で表されるオブジェクトが、特に、他のより閲覧されない画像が、それらの同じオブジェクトを示す傾向がない場合は、ユーザに潜在的に関連すると決定してよい。これは、アプリケーションキャッシュに記憶されたデジタル画像を含み得る。たとえば、ユーザが、販売されている車を列挙する特定のウェブページを繰り返し再訪すると、およびウェブページが車の写真を含むと仮定する。その写真が、(写真を再ダウンロードするのではなく)キャッシュからウェブブラウザにロードされると、そのことは、ユーザが写真をもう一度閲覧したものとしてカウントしてよく、このことが、写真中のオブジェクトが潜在的関連として識別されることにつながり得る。

ユーザによって作成/検索されたデジタルメディアファイル中で検出されたオブジェクトに加え、またはその代わりに、他の様々なシグナルが、様々な実施形態では、トピック識別エンジン132によって利用されてよい。いくつかの実施形態では、ユーザのサーチクエリ履歴、履歴のブラウズ、明示的に与えられた個人的選好などのようなシグナルが、たとえば、トピック識別エンジン132によって、ユーザにとって潜在的興味がある1つまたは複数のトピックを識別するのに使われてよい。追加または代替として、いくつかの実施形態では、ユーザのeメール/テキストメッセージの内容、ユーザのソーシャルメディアプロファイルの内容、ユーザのカレンダの内容、および他の様々なアプリケーションデータなどのシグナルが、たとえば、トピック識別エンジン132によって、ユーザに潜在的関連のあるトピックを識別するのに使われてよい。様々な実施形態では、ユーザに潜在的関連のあるあらかじめ識別されたトピックは、それら自体が、関連のある新たな潜在的トピックを識別するのに使われてよい。たとえば、ユーザが、スキー、冠雪山頂、アイススケートの写真を撮り、冬用装備の画像を(たとえば、オンラインショッピングの間に)閲覧すると仮定する。これらは、ユーザが、「スキー」、「登山」、「アイススケート」、および「冬用装備」という、比較的狭いトピックに関連付けられることにつながり得る。いくつかの実施形態では、これらのトピックは、たとえば、トピック識別エンジン132によってまとめて検討されて、「ウィンタースポーツ」など、トピック階層のより上位にある他のトピックを(たとえば、知識グラフエンジン136から決定されるように)識別することができる。

様々な実施形態では、ユーザが、本明細書に記載する技法で、シグナルとして使われる様々なデータをオプトインおよび/またはオプトアウトする能力を有し得ることを理解されたい。たとえば、いくつかの実施形態では、デフォルトのユーザプロファイル設定は、トピック識別エンジン132にとって、わずかなシグナルが利用可能であるか、またはどのシグナルも利用可能でないというものであってよい。ユーザが各シグナル(またはシグナルのグループ)に明示的に認可を与えたときのみ、トピック識別エンジン132は、これらのシグナルへのアクセスを、トピック識別目的で得ることができる。

様々なタイプのシグナルが、トピック識別エンジン132によって異なるように重み付けされてよい。たとえば、ユーザによって作成されたデジタルメディアファイル中で検出されたオブジェクトが、たとえば、ユーザが単に消費(たとえば、閲覧、再生など)のために検索するデジタルメディアファイル中で検出されたオブジェクトよりも、それらのオブジェクトに関するトピックへの潜在的ユーザ興味を証明し得る。同様に、いくつかの実施形態では、ユーザによって対話されるデジタルメディアファイル中で検出されたオブジェクトに割り当てられた重みの階層があり得る。たとえば、ユーザによって作成されたデジタルメディアファイル中で検出されたオブジェクトには、最大の重みが割り当てられ得る。ユーザと、たとえば、別のユーザによって共有されるデジタルメディアファイル中で検出されたオブジェクトには、中位の量の重みが割り当てられ得る。ユーザが、たとえば、ウェブサーチの一部として、インターネットを介して検索するデジタルメディアファイル中で検出されたオブジェクトには、最少量の重みが割り当てられ得る。この重みの「階層」の一部と見なされ得る他の因子は、ユーザが特定のデジタルメディアファイルをどれだけ長く消費したか、ユーザがデジタルメディアファイルの消費を「完了」した(たとえば、歌またはビデオ全体を再生した)かどうか、ユーザがデジタルメディアファイルを編集したかどうか、ユーザがデジタルメディアファイルを共有したかどうかなどを含むが、それに限定されない。

いくつかの実施形態では、様々なシグナルが、組合せとして分析されて、特定のトピックがユーザに関連し得るかどうか/どれだけ関連し得るかを決定することができる。たとえば、いくつかの実施形態では、ユーザ作成デジタルメディアファイル中でのオブジェクトの検出は、それだけでは、ユーザにとって潜在的興味のあるトピックを識別するための、検出されたオブジェクトの使用を保証するのに十分でない場合がある。ただし、他のシグナルが、初期ユーザ作成デジタルメディアファイルシグナルを確証する場合、その検出されたオブジェクトは、ユーザにとって潜在的興味のある1つまたは複数のトピックを識別するのに使うことができる。

いくつかの実施形態では、トピックへの潜在的ユーザ興味のシグナルは、そのトピックに関連付けられたオブジェクトが、ユーザの集団によって作成/検索されたデジタルメディアコンテンツにありふれているかどうかに部分的に基づいて重み付けされ得る。図1では、たとえば、オブジェクト頻度エンジン128が、ユーザの集団によって検索および/または作成された、(たとえば、インデックス130に、またはインデックス122にさえも記憶された)デジタルメディアファイルのコーパスにわたる1つまたは複数のオブジェクトの頻度を決定するように構成され得る。いくつかのそのような実施形態では、オブジェクトがコーパスにわたって発現する頻度は、潜在的興味のあるトピックを識別するとき、どれだけ重くオブジェクトが重み付けされるかとは、反比例し得る。たとえば、机やテーブルなどの家具は、画像のコーパスにわたって、極度にありふれていてよい。したがって、特定のユーザが、テーブルまたは机を取り込む1つまたは複数のデジタル写真を撮る場合、このことは、ユーザが「机」または「テーブル」というトピックに興味があることを必ずしも示唆しない。そうではなく、それらのありふれた家具の存在は、単にデジタル写真に対して付随的であり得る。

いくつかの実施形態では、単語の出現頻度-逆文書頻度、すなわち「TF-IDF(term frequency-inverse document frequency)」など、様々な数値統計が、トピック識別エンジン132によって、および/またはオブジェクト頻度エンジン128によって、検出されたオブジェクトがトピック識別に影響するべきかどうかを、および/またはどれだけ影響するべきかを決定するのに利用され得る。たとえば、いくつかの実施形態では、TD-IDFは、たとえば、オブジェクト頻度エンジン128によって、特定の検出されたオブジェクト(「TF-IDF」の「単語」として使われ得る)が、特定のトピックがユーザに潜在的関連のあるものとして識別されるかどうかにどれだけ影響を与えるべきかを決定するのに使われ得る。

知識グラフエンジン136は、知識グラフ138へのアクセスを提供するように構成され得る。様々な実施形態では、知識グラフ138は、既知のエンティティ(および、いくつかのケースでは、エンティティ属性)を表すノード、ならびにノードを接続し、エンティティの間の関係を表すエッジを含み得る。たとえば、「バナナ」ノードは、「果物」ノードに(たとえば、子として)接続されてよく、このノードは、「農産物」および/または「食物」ノードに(たとえば、子として)接続されてよい。別の例として、「Hypothetical Cafe」と呼ばれるレストランは、その住所、提供される食物のタイプ、営業時間、連絡先情報などのような属性も含むノードによって表され得る。「Hypothetical Cafe」ノードは、いくつかの実施形態では、(たとえば、子と親の関係を表す)エッジによって、「レストラン」ノード、「ビジネス」ノード、レストランが位置する市および/または州を表すノードなどのような、1つまたは複数の他のノードに接続されてよい。

様々な実施形態では、トピック識別エンジン132は、前に言及されたシグナルのうちの1つまたは複数を、知識グラフエンジン136から取得された情報とともに、ユーザにとって潜在的興味のある1つまたは複数のトピックを識別するのに使用してよい。たとえば、様々な種のオブジェクトが、ユーザによって取り込まれ、かつ/または検索される複数のデジタル写真にわたって検出されると仮定する。様々な実施形態では、知識グラフエンジン136は、それらの種がすべて、特定の属の階層下に入ると、および複数の異なる種の出現が、属への潜在的興味を立証すると決定してよい。

別の例として、ユーザが、複数のデジタルビデオを見ると仮定する。これらのデジタルビデオの各々は、知識グラフ138中で表すことができ、関係エンティティ(たとえば、俳優、プロデューサー、キャストメンバーなど)に接続されてよい。様々な実施形態では、知識グラフエンジン136は、知識グラフ138中の様々なエンティティ関係を、ユーザが複数のデジタルビデオを見ることに基づいて、ユーザにとって潜在的興味のある1つまたは複数のトピック(たとえば、ユーザが興味のあり得る映画および/またはジャンル、ユーザが興味があるかもしれない場所など)を予測するのに使用することができる。

さらに別の例として、ユーザがある晩、サッカーの試合を、次いで、別の晩は野球の試合を見て、次いで、3日目の晩にはバスケットボールの試合においてデジタル写真を撮ると仮定する。様々な実施形態では、トピック識別エンジン132は、たとえば、これらのイベントの各々に関連付けられたチームなどのエンティティ、またはイベント自体に基づいて、ユーザが、たとえば、プロスポーツに、広い興味をもっていると決定してよい。チームがすべて同じ市にある場合、いくつかの実施形態では、トピック識別エンジン132は、その市を、ユーザにとって潜在的興味のあるトピックとして識別してよい。

図2は、様々なシグナル250_1-Nに基づいて、ユーザにとって潜在的関連または興味のある1つまたは複数のトピックを識別するのに技法が利用され得る1つの例示的シナリオを示す。図2では、第1のシグナル250₁が、クライアントデバイス106の視覚センサ107を使用してユーザによって取り込まれたデジタル画像の形をとる。このデジタル画像は、たとえば、オンライン記憶エンジン120によって、クラウドベースストレージ122に記憶され得る。アップロードプロセスの一部として、デジタル画像は、たとえば、オブジェクト認識クライアント110および/またはオブジェクト認識エンジン124によって、1つまたは複数のオブジェクトを検出するように分析され得る。図2の例では、第1のデジタル画像中で鷺鳥のペアが検出される。いくつかの実施形態では、このことは、それだけで、トピック識別エンジン132が、「鳥」、「水鳥」、「鷺」などのようなトピックを、ユーザに潜在的に関連するものとして識別するのに十分であり得る。ただし、他の実施形態では、さらなる確証が必要とされる場合がある。

ユーザは、後で白頭鷲についてのデジタルビデオを見ると仮定する。様々な実施形態では、この事実および/またはデジタルビデオの態様は、たとえば、トピック識別エンジン132によって、ユーザに潜在的関連のあるトピックを識別するための別のシグナル250_N-1として使われ得る。たとえば、鷲と鷺は両方とも「鳥」であり、したがって「鳥」が、ユーザにとって潜在的興味のあるトピックとして識別されてよい。追加または代替として、ユーザが鳥関係のサーチ(「鳥小屋用品」)を実施するという形をとる、さらに別のシグナル250_Nが分析されて、鳥へのユーザの興味をさらに確証することができる。

図3は、本明細書に記載する技法が、ユーザに潜在的関連のあるトピックを識別するのに利用され得る別の例示的シナリオを示す。図3は、たとえば、スマートフォンの形のクライアントデバイス106を使用して、ユーザによって取り込まれたデジタル写真350を示す。この例では、デジタル写真350は、電子レンジ356₁、オーブン356₂、テーブル356₃、およびテーブル356₃の上に、航空ドローン356₄を含む台所を取り込む。これらの4つのオブジェクトおよびそれらそれぞれの、デジタル写真350内でのロケーションは、たとえば、オブジェクト認識クライアント110および/またはオブジェクト認識エンジン124によって検出され得る。このデータは、たとえば、トピック識別エンジン132によって、ユーザに潜在的に関連する1つまたは複数のトピックを識別するのに使われ得る。

いくつかの実施形態では、トピック識別エンジン132は、オブジェクトが例外的である(したがって、潜在的関連のあるトピックを識別するのに使われるべきである)か、それとも単にデジタルメディアファイルに付随的であるかを決定する際に、デジタルメディアファイル中で検出された各オブジェクトが特定のテーマまたは属に入るかどうかを検討すればよい。たとえば、図3では、トピック識別エンジン132は、たとえば、知識グラフエンジン136および/またはオブジェクト頻度エンジン128の助けにより、検出されたオブジェクトのうちの3つ、すなわち356₁、356₂、および356₃が、台所では比較的普通であると決定してよい。したがって、これらのオブジェクトの存在は、これらのオブジェクトのうちのいずれかへのユーザの潜在的興味よりもむしろ、デジタル写真350が台所で取り込まれたことを単に示唆する。ただし、航空ドローン356₄は、他の検出されたオブジェクト356_1-3とは異なる(すなわち、それらには関連しない)。その上、航空ドローンは、デジタル写真350の中で、比較的卓越して取り上げられている。ドローンは、オーブン356₂とテーブル356₃の両方「の前に」(または、それらに相対して前景に)ある。ドローンは、デジタル写真350の中心領域にも比較的近く、焦点が合っている。したがって、いくつかの実施形態では、トピック識別エンジン132は、航空ドローン356₄が、航空ドローンなどのトピックへのユーザ興味を証明すると決定してよい。この潜在的興味は、航空ドローンに関する、ユーザからのサーチクエリ、航空ドローンに関する、ユーザが見ていたビデオなどのような、他のシグナルによってさらに確証され得る。

図4は、本明細書に記載する技法が、この例では、ユーザが気づいていない可能性がある、ユーザに潜在的関連のある1つまたは複数のトピックを識別するのに利用され得るさらに別のシナリオを示す。この例では、ユーザは、たとえば、クライアントデバイス106の視覚センサ107を使用して、ユーザの息子の第1のデジタル写真450₁を取得する。息子が、記号「Ω」を描いたTシャツを着ているのがわかり得る。この記号は、たとえば、息子が楽しんでいるミュージシャンによって使われる記号であり得る。記号、およびいくつかのケースでは息子のアイデンティティが、たとえば、オブジェクト認識クライアント110および/またはオブジェクト認識エンジン124によって検出され得る。これらのデータは、たとえば、知識グラフエンジン136の助けを受けて、トピック識別エンジン132によって、記号が特定のミュージシャンに対応すると決定するのに使うことができる。

後になって、ユーザは、今回も息子を写している別のデジタル画像450₂を取得する。このとき、息子は、同じ記号を描写していない、異なるTシャツを着ている。ただし、息子のコンピュータスクリーンは現在、同じ記号を表示しており、これは上述したように検出され得る。ユーザの息子の複数の画像にわたる記号「Ω」の存在は、たとえば、トピック識別エンジン132によって、記号「Ω」に関連付けられたミュージシャンのトピックが、ユーザに潜在的に関連すると決定するのに使われ得る。たとえば、息子の誕生日が近づくと、父親は、ミュージシャンの来るべきツアー日付を先を見越して通知され得る。

トピックは、ユーザに潜在的に関連するものとして識別されると、様々な異なる目的に使うことができる。いくつかの実施形態では、ユーザに潜在的関連のあるトピックが、ユーザに提示されるサーチ結果をランク付けするのに、および/またはユーザに提示される代替クエリ提案を定式化するのに使われ得る。追加または代替として、いくつかの実施形態では、ユーザに潜在的関連のあるトピックは、ユーザ入力を明確にするのに使うことができる。ユーザが、特定のクライアントデバイス106上で実行する携帯情報端末に、「ジョン」という名前の連絡先に電話するよう頼むと仮定する。ユーザの連絡先リストには、複数の「ジョン」がいる場合がある。ユーザに対して入力を明確にすることを求めるよりもむしろ、様々な実施形態では、ユーザによって作成および/または検索された1つまたは複数のデジタルメディアファイル(たとえば、写真、ボイスメール、ビデオなど)が、本明細書に記載するように分析されて、ユーザに潜在的関連のあるトピックとして、ユーザが言及している可能性が最もある「ジョン」を識別することができる。追加または代替として、本明細書に記載する技法を使用して決定されたトピックが、ユーザによる消費のためのメディアを推薦するのに使われ得る。

いくつかの実施形態では、本明細書に記載する技法を使用して決定されたトピックが、ユーザにコンテンツを先を見越して提示するのに使われ得る。たとえば、図5では、スマートウォッチの形をとるクライアントデバイス506が、ユーザにコンテンツを先を見越して(すなわち、ユーザによって要求されることなく)提示するのに使われている。この例では、本明細書に記載する技法が、ユーザによって作成および/または検索されたデジタルメディアコンテンツから、ユーザは鳥に興味があると決定するのに使われている。したがって、ユーザには、付近でのバードウォッチャーの展示会を推薦する第1の「カード」または「タイル」、および鳥に関連した、付近の映画を推薦する第2の「カード」または「タイル」が提示される。様々な実施形態では、これらのカード/タイルは、選択された場合、ユーザがより多くの情報を取得し、予約をすることなどを可能にする適切なユーザインターフェースを起動する、選択可能なディープリンクであってよい。

様々な実施形態では、本明細書に記載する技法を使用して提示されるコンテンツとのユーザの関与は、本明細書に記載する技法を使用して識別されたトピックを確証および/または反証するのに使われ得る。たとえば、ユーザが、図5において、カードをスワイプして消すか、またはそうでなければ無視すると仮定する。そのことは、本明細書に記載する技法が、鳥への潜在的ユーザ興味を示唆しているにもかかわらず、ユーザが、実際には鳥に興味がないことを示唆し得る。したがって、トピック識別エンジン132は、たとえば、ユーザ興味データベース134から、「鳥」というトピックを削除するか、または降格すればよい。

ここで図6を参照すると、本開示の選択された態様を実施するための例示的方法600が記載される。便宜上、フローチャートの動作は、動作を実施するシステムを参照して記載される。このシステムは、様々なコンピュータシステムの様々な構成要素を含み得る。たとえば、いくつかの動作はクライアントデバイス106において実施されてよく、他の動作は、クラウドベースシステム102の1つまたは複数の構成要素によって実施されてよい。その上、方法600の動作は特定の順序で示されているが、これは限定的であることは意図していない。1つまたは複数の動作が、並べ替えられ、省かれ、または追加されてよい。

ブロック602において、システムは、たとえば、オンライン記憶エンジン120を手段として、ユーザによって操作される1つまたは複数のクライアントデバイス(たとえば、106)から、1つまたは複数のデジタルメディアファイルを示すデータを受信し得る。いくつかの実施形態では、このデータは、たとえば、ユーザがバックアップ目的で(意識的または自動的に)アップロード中である、生のデジタルメディアファイル自体であってよい。追加または代替として、いくつかの実施形態では、これは、次元削減埋め込みなどのような、検出されたオブジェクトを示す、クライアントデバイスにおいてローカルに生成されたデータを含み得る。これらのデジタルメディアファイルは、ユーザによる消費用に作成および/または検索されている。

ブロック604において、システムは、たとえば、オブジェクト認識クライアント110および/またはオブジェクト認識エンジン124を手段として、1つまたは複数のデジタルメディアファイルを示すデータに基づいて、1つまたは複数のデジタルメディアファイルの各々の中で検出された1つまたは複数のオブジェクトを識別し得る。たとえば、オブジェクト認識エンジン124は、様々なタイプのオブジェクト認識(前に記載された)をデジタルメディアファイルに対して実施して、1つまたは複数の表されるオブジェクトを検出し得る。

ブロック606において、システムは、たとえば、オブジェクト頻度エンジン128を手段として、ユーザの集団によって提供されたデジタルメディアファイルのコーパス(たとえば、130)にわたって、ブロック604において検出された1つまたは複数のオブジェクトの各々の頻度を決定し得る。上述したように、TF-IDFなど、様々な統計が、検出されたオブジェクトがどれだけありふれているか、したがって、ユーザに潜在的関連のあるトピックを識別するのに使われるべきかどうか、および/またはどれだけ使われるべきかを決定するのに利用されてよい。かなりありふれたオブジェクトは、ユーザ興味の有用なシグナルというよりもむしろ、事実上、ノイズであり得る。

ブロック608において、システムは、ブロック606において決定された対応する頻度に基づいて、潜在的興味のあるトピックを識別するのに使われるべきである、オブジェクトのうちの1つまたは複数を選択し得る。たとえば、家具、木などのような、ありふれたオブジェクトが、たとえば、それらのありふれたオブジェクトがユーザのデジタルメディアコンテンツの中で頻繁に発現せず、かつ/または他の、比較的ありふれていないオブジェクトがないデジタルメディアファイル中で卓越して取り上げられない(たとえば、ユーザは、木の写真をたくさん撮り、他のオブジェクトが存在しない)限り、ユーザにとって興味のあるトピックを識別するのに使われてもよい。

ブロック610において、システムは、たとえば、トピック識別エンジン132を手段として、ブロック608において選択された1つまたは複数のオブジェクトに基づいて、ユーザに潜在的に関連する1つまたは複数のトピックを識別し得る。ブロック612において、システムは、識別された1つまたは複数のトピックに基づいて、サーチクエリを定式化し得る。たとえば、「鳥」および「水禽」というトピックがユーザのデジタル写真から識別された場合、「鳥水禽」などのサーチクエリが定式化され、応答性コンテンツを取得するために、サーチエンジンに提出されてよい。いくつかの実施形態では、応答性コンテンツは、それらのトピックおよび/または本明細書に記載する技法を使用して識別された他のトピックに基づいてランク付けされてよい。

ブロック614において、システムは、定式化されたサーチクエリに応じた情報を、ユーザによって操作されるクライアントデバイスのうちの1つまたは複数において先を見越して出力させてよい。そのような先を見越したコンテンツの非限定的例を、図5に示してある。先を見越したコンテンツの追加の例は、テキストメッセージ(たとえば、SMSまたはMMS)、ソーシャルメディアメッセージ(たとえば、ユーザのフィード上)、たとえば、ユーザと携帯情報端末との間の、既存の人間コンピュータダイアログ中の、携帯情報端末からの自然言語出力、またはそうでなければ、eメールメッセージ、ポップアップウィンドウ(たとえば、Android Toast)、レストラン推薦(たとえば、レストラン予約および/もしくはレビューアプリ中で与えられた)、デジタルメディア推薦(たとえば、デジタルメディアアプリの一部として提示される)などを含むが、それに限定されない。

ここで図7を参照すると、様々な実施形態による、クライアントデバイス106において全体または一部が実施され得る別の例示的方法700が示されている。便宜上、フローチャートの動作は、動作を実施するシステムを参照して記載される。このシステムは、様々なコンピュータシステムの様々な構成要素、特にクライアントデバイス106を含み得るが、1つまたは複数の動作が、追加または代替として、クラウドベースシステム102の1つまたは複数の構成要素によって実施されてよい。その上、方法700の動作は特定の順序で示されているが、これは限定的であることは意図していない。1つまたは複数の動作が、並べ替えられ、省かれ、または追加されてよい。

ブロック702において、システムは、ユーザによってクライアントデバイスを用いて作成された1つまたは複数のデジタルメディアファイルを取得し得る。たとえば、いくつかの実施形態では、ユーザがデジタル写真を撮る瞬間、そのデジタル写真を表すデータが、揮発性および/または不揮発性メモリに記憶されてよい。ブロック704において、システムは、たとえば、オブジェクト認識クライアント110を手段として、クライアントデバイスにとってのローカルにある1つまたは複数のトレーニング済み機械学習モデルにわたる入力として1つまたは複数のデジタルメディアファイルを適用し得る。たとえば、オブジェクト認識クライアント110は、1つまたは複数のデジタルメディアファイルを、オンデバイスモデルインデックス111に記憶される1つまたは複数のトレーニング済み機械学習モデル(たとえば、CNN)にわたって適用してよい。様々な実施形態では、1つまたは複数のトレーニング済み機械学習モデルは、1つまたは複数のデジタルメディアファイルの各々の中で検出された1つまたは複数のオブジェクトを示す出力を生成し得る。

ブロック706において、システム(たとえば、クライアントデバイス106)は、示された1つまたは複数のオブジェクトを示すデータを、1つまたは複数のデジタルメディアファイル自体を提供することなく、クラウドベースシステム102などのリモートコンピューティングシステムに提供してよい。ブロック706において提供されたデータはしたがって、デジタルメディアファイル自体とは異なってよく、たとえば、デジタルメディアファイルから抽出された特徴のベクトル、デジタルメディアファイルに基づいて生成された、次元削減埋め込みなどの形をとる。たとえば、クラウドベースシステム102に生のデジタル写真データを提供するよりもむしろ、クライアントデバイス106は、1つまたは複数のCNNから生成された出力をクラウドベースシステム102に提供すればよい。この出力は、たとえば、1つまたは複数のオブジェクト予測と、対応する信頼性尺度(たとえば、オブジェクトが猫である70%の確率、オブジェクトが犬である10%の確率、オブジェクトが猿である5%の確率、など)とを含み得る。特に、これらのデータをクラウドベースシステム102に提供することは、ユーザのデジタルメディアファイルを含む生のデータをクラウドベースシステム102に公表することよりもむしろ、ユーザのプライバシーを、ユーザが私的または機密と見なす情報をデジタルメディアファイルが含む程度まで保つことができる。

ブロック708において、システムは、同じリモートコンピューティングシステムまたは異なるリモートコンピューティングシステムから、示された1つまたは複数のオブジェクトに関連付けられた情報を受信し得る。たとえば、クライアントデバイス106は、クラウドベースシステム102または別のリモートコンピューティングシステム(図6のブロック612において定式化されたサーチクエリに応じたサーチ結果を戻すサーチエンジンなど)から、1つもしくは複数のオブジェクトおよび/または1つもしくは複数のトピックから推論されるトピックに関連付けられた情報を受信し得る。様々な実施形態では、オブジェクト自体(たとえば、オブジェクトのクラスまたはタイプ)が、たとえば、トピック識別エンジン132によって、ユーザに潜在的に関連すると見なされる「トピック」を形成する場合がある。

ブロック710において、システムは、示された1つまたは複数のオブジェクトに関連付けられた情報を、たとえば、デジタルメディアファイルを作成するのに使われた同じクライアントデバイス106またはユーザによって操作されるクライアントデバイスの協調「エコシステム」の別のクライアントデバイスなど、ユーザによって操作される、異なるクライアントデバイスにおいて、ユーザに対して先を見越して出力し得る。たとえば、ユーザが、自分のスマートフォンを使用して写真を取り込んだと仮定する。ユーザにとって潜在的興味のある1つまたは複数のトピックが、本明細書に記載する技法を使用して写真から識別された後、潜在的興味のあるそれらのトピックに関連した出力が、ユーザの別のクライアントデバイスにおいて、たとえば、カードまたはタイルとしてスマートウォッチまたはスマートテレビジョンに提示されてよい。先を見越した出力のいくつかの例が、図5に挙げられ、図6のブロック614に関して記載された。

先を見越した出力の別の例として、ユーザが、ソーシャルメディアに、ユーザが用意および/または消費した食事のいくつかのデジタル写真をあらかじめ投稿していると仮定する。本明細書に記載する技法が、ソーシャルメディアに投稿されたデジタル写真から、料理へのユーザの潜在的興味を識別するのに利用されてよい。ここで、ユーザが後で、自動化アシスタントとのボイスベースの人間コンピュータダイアログに、たとえば、スタンドアロン対話型スピーカを手段として関与すると仮定する。ユーザが自動化アシスタントを介して関わることができるが、ユーザが気づいていない、料理関係のサードパーティアプリケーションまたは「エージェント」が存在すると、さらに仮定する。料理へのユーザの把握された興味に基づいて、自動化アシスタントは、サードパーティエージェントにユーザを先を見越して紹介し得る。たとえば、自動化アシスタントは、「ソーシャルメディアアカウントに、食事の写真を何枚か投稿していましたね。私の友人が、いくつかのレシピをお勧めしますよ」などの可聴自然言語出力を与えることができる。いくつかのケースでは、サードパーティエージェントは次いで、「では、どんな材料があるか、何を食べたい気分か教えてください。それからレシピを提案します」のようなことで話しに加わることができる。

図8は、例示的コンピュータシステム810のブロック図である。コンピュータシステム810は通常、バスサブシステム812を介していくつかの周辺デバイスと通信する少なくとも1つのプロセッサ814を含む。これらの周辺デバイスは、たとえば、メモリサブシステム825およびファイル記憶サブシステム826を含む記憶サブシステム824と、ユーザインターフェース出力デバイス820と、ユーザインターフェース入力デバイス822と、ネットワークインターフェースサブシステム816とを含み得る。入力および出力デバイスは、コンピュータシステム810とのユーザ対話を可能にする。ネットワークインターフェースサブシステム816は、外側ネットワークへのインターフェースを提供し、他のコンピュータシステム中の対応するインターフェースデバイスに結合される。

ユーザインターフェース入力デバイス822は、キーボード、マウス、トラックボールなどのポインティングデバイス、タッチパッド、もしくはグラフィックスタブレット、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システム、マイクロフォンなどのオーディオ入力デバイス、および/または他のタイプの入力デバイスを含み得る。概して、「入力デバイス」という用語の使用は、すべての可能なタイプのデバイスと、コンピュータシステム810中に、または通信ネットワーク上に情報を入力する方法とを含むことを意図している。

ユーザインターフェース出力デバイス820は、ディスプレイサブシステム、プリンタ、ファックスマシン、またはオーディオ出力デバイスなどの非視覚的ディスプレイを含み得る。ディスプレイサブシステムは、ブラウン管(CRT)、液晶ディスプレイ(LCD)などのフラットパネルデバイス、投影デバイス、または可視画像を作成するための何らかの他の機構を含み得る。ディスプレイサブシステムは、オーディオ出力デバイスを介するなどして、非視覚的ディスプレイも提供し得る。概して、「出力デバイス」という用語の使用は、すべての可能なタイプのデバイスと、コンピュータシステム810からユーザに、または別の機械もしくはコンピュータシステムに情報を出力する方法とを含むことを意図している。

記憶サブシステム824は、本明細書に記載するモジュールの一部または全部の、機能性を提供するプログラミングおよびデータ構造体を記憶する。たとえば、記憶サブシステム824は、方法600、700の選択された態様を実施するための、ならびに/またはオブジェクト認識クライアント110、オンライン記憶エンジン120、オブジェクト認識エンジン124、オブジェクト頻度エンジン128、トピック識別エンジン132、および/もしくは知識グラフエンジン136のうちの1つもしくは複数を実施するための論理を含み得る。

これらのソフトウェアモジュールは概して、プロセッサ814によって単独で、または他のプロセッサとの組合せで実行される。記憶サブシステムにおいて使われるメモリ825は、プログラム実行中の命令およびデータの記憶のためのメインランダムアクセスメモリ(RAM)830と、固定命令が記憶される読出し専用メモリ(ROM)832とを含むいくつかのメモリを含み得る。ファイル記憶サブシステム826が、プログラムおよびデータファイルのための永続記憶をもたらすことができ、ハードディスクドライブ、フロッピーディスクドライブを、関連付けられた取り外し可能媒体、CD-ROMドライブ、光ドライブ、または取り外し可能メディアカートリッジとともに含み得る。いくつかの実施形態の機能性を実施するモジュールは、ファイル記憶サブシステム826によって記憶サブシステム824に、またはプロセッサ814によってアクセス可能な他の機械に記憶され得る。

バスサブシステム812は、コンピュータシステム810の様々な構成要素およびサブシステムを、意図したように互いと通信させるための機構を提供する。バスサブシステム812は、単一のバスとして概略的に示されているが、バスサブシステムの代替実施形態は複数のバスを使うことができる。

コンピュータシステム810は、ワークステーション、サーバ、コンピューティングクラスタ、ブレードサーバ、サーバファーム、またはどの他のデータ処理システムもしくはコンピューティングデバイスを含む様々なタイプであってもよい。コンピュータおよびネットワークの絶えず変わる性質により、図8に示すコンピュータシステム810の記述は、いくつかの実施形態を示す目的のための具体例としてのみ意図している。コンピュータシステム810の多くの他の構成は、図8に示すコンピュータシステムよりも多いか、またはそれよりも少ない構成要素を有することが可能である。

本明細書に記載するシステムがユーザについての個人情報を収集するか、もしくは個人情報を利用する場合がある状況では、ユーザには、プログラムもしくは特徴がユーザ情報(たとえば、ユーザのソーシャルネットワーク、ソーシャルアクションもしくはアクティビティ、職業、ユーザの嗜好、もしくはユーザの現在の地理的ロケーションについての情報)を収集するかどうかを制御するための、またはユーザにより関連する場合があるコンテンツをコンテンツサーバから受信するかどうか、および/もしくはどのようにして受信するかを制御するための機会が与えられ得る。また、特定のデータが、記憶され、または使われる前に、個人識別情報が削除されるように1つまたは複数のやり方で扱われ得る。たとえば、ユーザのアイデンティティが、ユーザについての個人識別情報が決定され得ないように扱われてよく、またはユーザの特定の地理的ロケーションを決定することができないように、地理的ロケーション情報が取得されるユーザの地理的ロケーションが、(たとえば、市、郵便番号、または州レベルに)一般化されてよい。したがって、ユーザは、情報がどのように、ユーザについて収集され、かつ/または使われるかに対する制御を有することができる。

いくつかの実施形態を、本明細書に記載し、示したが、機能を実施し、かつ/または本明細書に記載する結果および/もしくは利点のうちの1つもしくは複数を取得するための様々な他の手段および/または構造が使用されてよく、そのような変更および/または修正の各々は、本明細書に記載する実施形態の範囲内であると見なされる。より全般的には、本明細書に記載するすべてのパラメータ、寸法、材料、および構成は、例示的であることを意図しており、実際のパラメータ、寸法、材料、および/または構成は、本教示が使われる具体的な1つのアプリケーションまたは複数のアプリケーションに依存する。ルーチン実験のみを使用して、本明細書に記載する具体的な実施形態に対する多くの等価物を、当業者は理解し、または確かめることができよう。したがって、上記の実施形態は例示の目的でのみ提示されていること、ならびに添付の請求項およびその等価物の範囲内において、具体的に記載し、特許請求するのとは違うように実施形態が実践され得ることが理解されよう。本開示の実施形態は、本明細書に記載する各個々の特徴、システム、物品、材料、キット、および/または方法を対象とする。さらに、2つ以上のそのような特徴、システム、物品、材料、キット、および/または方法のどの組合せも、そのような特徴、システム、物品、材料、キット、および/または方法が互いに矛盾しない場合は、本開示の範囲に含まれる。

102 クラウドベースシステム
106 クライアントデバイス
107 視覚センサ
108 マイクロフォン
109 メディアクライアント
110 オブジェクト認識クライアント
111 オブジェクト認識モデルデータベース、オンデバイスモデルデータベース、インデックス、オンデバイスモデルインデックス、オンデバイスインデックス
112 ネットワーク
120 オンライン記憶エンジン、エンジン
122 クラウド記憶データベース、インデックス、クラウドストレージ、クラウドベースストレージ
124 オブジェクト認識エンジン、エンジン
126 インデックス、クラウドベースモデルインデックス
128 オブジェクト頻度エンジン、エンジン
130 インデックス
132 トピック識別エンジン、エンジン
134 インデックス、ユーザ興味インデックス、ユーザ興味データベース
136 知識グラフエンジン、エンジン
138 インデックス、知識グラフ
506 クライアントデバイス
810 コンピュータシステム
812 バスサブシステム
814 プロセッサ
816 ネットワークインターフェースサブシステム
820 ユーザインターフェース出力デバイス
822 ユーザインターフェース入力デバイス
824 記憶サブシステム
825 メモリサブシステム、メモリ
826 ファイル記憶サブシステム
830 メインランダムアクセスメモリ(RAM)
832 読出し専用メモリ(ROM)

Claims

ユーザによって操作されるクライアントデバイスの1つまたは複数のプロセッサを使用して実施される方法であって、
前記クライアントデバイスを用いて前記ユーザによって作成された1つまたは複数のデジタルメディアファイルを取得するステップと、
前記クライアントデバイスにとってのローカルにある1つまたは複数のトレーニング済み機械学習モデルにわたる入力として前記1つまたは複数のデジタルメディアファイルを適用するステップであって、前記1つまたは複数のトレーニング済み機械学習モデルは、前記1つまたは複数のデジタルメディアファイルの各々の中で検出された1つまたは複数のオブジェクトを示す出力を生成する、ステップと、
前記1つまたは複数のデジタルメディアファイルを提供することなく、リモートコンピューティングシステムに、前記示された1つまたは複数のオブジェクトを示すデータを提供するステップと、
同じリモートコンピューティングシステムまたは異なるリモートコンピューティングシステムから、前記示された1つまたは複数のオブジェクトに関連付けられた情報を受信するステップと、
前記示された1つまたは複数のオブジェクトに関連付けられた前記情報を、前記ユーザによって操作される同じクライアントデバイスまたは異なるクライアントデバイスにおいて、前記ユーザに対して出力するステップと
を含む方法。
前記提供するステップは、前記リモートコンピューティングシステムに、前記識別された1つまたは複数のオブジェクトに基づいてサーチクエリを定式化させ、前記示された1つまたは複数のオブジェクトに関連付けられた前記情報は、前記定式化されたサーチクエリに応じた情報を含む、請求項1に記載の方法。
前記リモートコンピューティングシステムから、前記サーチクエリを受信するステップと、
発行に応答して前記サーチクエリに応じた前記情報を受信するために、前記サーチクエリを発行するステップと
をさらに含む、請求項2に記載のコンピュータ実施方法。
前記リモートコンピューティングシステムは、前記定式化されたサーチクエリそれ自体を使用して、前記定式化されたサーチクエリに応じた前記情報を取得する、請求項2または3に記載のコンピュータ実施方法。
サーチクエリを定式化することは、
ユーザの集団によって提供されたデジタルメディアファイルのコーパスにわたる前記1つまたは複数のオブジェクトの各々の頻度を決定するステップと、
対応する頻度に基づいて、前記オブジェクトのうちの1つまたは複数を選択するステップと、
前記選択された1つまたは複数のオブジェクトに基づいて、前記ユーザに潜在的に関連する1つまたは複数のトピックを識別するステップと、
前記識別された1つまたは複数のトピックに基づいて、前記サーチクエリを定式化するステップと
を含む、請求項2から4のいずれか一項に記載のコンピュータ実施方法。
前記選択するステップは、前記1つまたは複数のデジタルメディアファイル中での前記1つまたは複数のオブジェクトの位置にさらに基づく、請求項1から5のいずれか一項に記載の方法。
前記選択するステップは、前記1つまたは複数のデジタルメディアファイル中での前記1つまたは複数のオブジェクトの焦点の度合いにさらに基づく、請求項1から6のいずれか一項に記載の方法。
前記選択するステップは、前記ユーザが、前記1つまたは複数のクライアントデバイスから受信された前記1つまたは複数のデジタルメディアファイルを作成または検索していたかどうかにさらに基づく、請求項1から7のいずれか一項に記載の方法。
前記リモートコンピューティングシステムは、前記示された1つまたは複数のオブジェクトを示す前記データに基づいて、前記ユーザに潜在的に関連する1つまたは複数のトピックを決定し、前記示された1つまたは複数のオブジェクトに関連付けられた前記情報は、データベース中の、前記1つまたは複数の興味に関連付けられた情報を含む、請求項1から8のいずれか一項に記載のコンピュータ実施方法。
前記1つまたは複数のデジタルメディアファイルは、1つまたは複数のデジタル画像を含む、請求項1から9のいずれか一項に記載のコンピュータ実施方法。
前記1つまたは複数のデジタルメディアファイルを示す前記データは、1つまたは複数のオーディオファイルを含む、請求項1から10のいずれか一項に記載の方法。
前記1つまたは複数のデジタルメディアファイルを示す前記データは、前記1つまたは複数のデジタルメディアファイルから抽出された1つまたは複数の特徴ベクトルまたは次元削減埋め込みを含む、請求項1から11のいずれか一項に記載の方法。
1つまたは複数のプロセッサと、前記1つまたは複数のプロセッサと動作可能に結合されたメモリとを備えるシステムであって、前記メモリは命令を記憶し、前記命令は、1つまたは複数のプロセッサによる前記命令の実行に応答して、前記1つまたは複数のプロセッサに、請求項1から12のいずれか一項に記載の方法を実施させる、システム。
命令を含む少なくとも1つの非一時的コンピュータ可読媒体であって、前記命令は、1つまたは複数のプロセッサによる前記命令の実行に応答して、前記1つまたは複数のプロセッサに、請求項1から12のいずれか一項に記載の方法を実施させる、非一時的コンピュータ可読媒体。