JP5749279B2

JP5749279B2 - アイテム関連付けのための結合埋込

Info

Publication number: JP5749279B2
Application number: JP2012551391A
Authority: JP
Inventors: サミーベンジオ，; ジェイソンウェストン，
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2010-02-01
Filing date: 2011-02-01
Publication date: 2015-07-15
Anticipated expiration: 2031-02-01
Also published as: CA2786727A1; EP2531936A1; WO2011094757A1; CN102782678B; AU2011210535B2; US20110191374A1; US9110922B2; CN102782678A; AU2011210535A1; CA2786727C; JP2013519138A

Description

本発明の実施形態は、メモリ内に記憶された種々のタイプのアイテムを関連付けることに関する。

画像、オーディオ記録、ビデオ記録、およびテキスト等の種々のタイプのアイテムは、デジタル的に記憶され、コンピュータネットワークならびにインターネットおよびＷｏｒｌｄＷｉｄｅＷｅｂ（「ウェブ」）等のサービスを通して、アクセス可能である。ある場合には、これらのアイテムは、その発信源に基づいて、またはそれらにおいて検出された具体的特徴に基づいて、相互と関連付けることができる。例えば、画像は、その画像が表出する、記事内の具体的テキストに関連することができ、同一または類似テキストを有する記事は、相互に関連することができ、特定のオブジェクトが検出される画像は、そのオブジェクト名のテキスト表現と関連することができる。着目の特定のサブジェクトに関連する、種々のタイプのアイテムを関連付ける能力は、インターネットおよびウェブ等を通してアクセス可能な情報の広大な記憶を完全に利用するために重要である。

種々のタイプのアイテムを相互に関連付けることができる、多数の従来の方法が、利用可能である。従来の方法は、意味的コンテンツに基づいて、アイテムを関連付けてもよい。しかしながら、従来の方法は、ウェブを通して利用可能な非常に大量のデータを利用するために適切にスケーラブルではない。さらに、従来の方法は、非常に大量のアイテム集合内の種々のアイテム間の全ての有用な意味的関係を適切に決定しない場合がある。

画像注釈は、種々のタイプのアイテムを意味的に関連付けるステップに基づく、用途である。意味的関係に基づく、画像注釈のための既知の従来の方法は、非常に大量のデータセットにスケーラブルではなく、そのような非常に大量のデータセットから恩恵を受けるために、意味的関係を適切に決定しない場合がある。多くの従来の方法は、種々の画像特徴を抽出し、次いで、画像の各カテゴリに対して、線形サポートベクトルマシン（ＳＶＭ）等の独立した単純分類子をトレーニングすることに基づく。画像の各カテゴリに対して、独立分類子をトレーニングすることは、大量のデータセットの場合、非効率的であり得る。独立分類子の性能もまた、注釈の数に伴って、急速に劣化し得る。

代替となる非パラメータ式の従来のアプローチは、Ｋ最近隣法を使用して、トレーニングセットから、画像特徴空間内の新しい画像に最も近隣の画像を選択し、最近隣画像の注釈に基づいて、新しい画像に注釈を付けるものである。しかしながら、高度な精度を伴って、最近隣を見つけることは、トレーニングデータセットが、非常に大量である時、非常に非効率的である場合がある。

他の従来のアプローチは、画像特徴および各トレーニング画像に対して関連付けられたテキストラベルを連鎖させ、次いで、新しい画像をトレーニング画像に確率的に関連させるステップを含む。いくつかの従来のアプローチは、画像特徴に基づいて、事前に注釈が付けられたトレーニング画像をクラスタ化し、次いで、新しい画像の特徴とトレーニング画像のクラスタのうちの１つ以上との間の類似性に基づいて、新しい画像に対する注釈を決定する。例えば、新しい画像の注釈は、トレーニング画像の最近隣クラスタからの注釈であってもよい。主に、手動で注釈が付けられた画像に基づいて、新しい画像注釈を生成することは、非常に大量のデータセットにスケーラブルではない場合がある。また、確率的アプローチは、例えば、１つの関係の確率が変更されると、多数の他の関係の確率を再較正する必要があるため、大量のデータセットに対して、非常に非効率的であり得る。

結合埋込空間を使用して、複数のアイテムタイプの意味的に関連したアイテムを関連付けるための方法およびシステムが、開示される。開示される方法およびシステムは、大量のウェブスケールのトレーニングデータセットにスケーラブルである。ある実施形態によると、複数のアイテムタイプの意味的に関連したアイテムを関連付けるための方法は、少なくとも１つのプロセッサに連結されたメモリ内に構成される結合埋込空間内に、複数のアイテムタイプのトレーニングアイテムを埋め込むステップと、アイテムタイプのそれぞれに対して、結合埋込空間内への１つ以上のマッピングを学習し、トレーニングされた結合埋込空間および１つ以上の学習されたマッピングを生成するステップと、第１のアイテムから各関連付けられた埋め込まれたトレーニングアイテムまでのトレーニングされた結合埋込空間内の距離に基づいて、１つ以上の埋め込まれたトレーニングアイテムを第１のアイテムと関連付けるステップと、を含む。結合埋込空間内に埋め込まれ得る、例示的アイテムタイプは、画像、注釈、オーディオ、およびビデオを含む。ある実施形態では、方法はさらに、複数のアイテムタイプの第１のアイテムタイプに対して、学習されたマッピングを適用することによって決定された、第１の場所に、第１のアイテムを埋め込むステップと、１つ以上の関連付けられた埋め込まれたトレーニングアイテムに基づいて、第１のアイテムに注釈を付けるステップと、を含むことができる。

別の実施形態によると、複数のアイテムタイプの意味的に関連したアイテムを関連付けるためのシステムは、プロセッサと、プロセッサに連結されたメモリと、結合埋込空間コンフィギュレータと、マッパと、アイテムアソシエータと、を含む。結合埋込空間コンフィギュレータは、メモリ内の結合埋込空間内に、複数のアイテムタイプのトレーニングアイテムを埋め込むように構成される。マッパは、アイテムタイプのそれぞれに対して、結合埋込空間内への１つ以上のマッピングを学習し、トレーニングされた結合埋込空間および１つ以上の学習されたマッピングを生成するように構成される。アイテムアソシエータは、第１のアイテムから各関連付けられた埋め込まれたトレーニングアイテムまでのトレーニングされた結合埋込空間内の距離に基づいて、１つ以上の埋め込まれたトレーニングアイテムを第１のアイテムと関連付けるように構成される。

さらに別の実施形態は、命令を記憶するコンピュータ可読媒体であって、命令は、実行されると、少なくとも１つのプロセッサに、ある方法を使用して、複数のアイテムタイプの意味的に関連したアイテムを関連付けさせる。方法は、少なくとも１つのプロセッサに連結されたメモリ内に構成される結合埋込空間内に、複数のアイテムタイプのトレーニングアイテムを埋め込むステップと、アイテムタイプのそれぞれに対して、結合埋込空間内への１つ以上のマッピングを学習し、トレーニングされた結合埋込空間および１つ以上の学習されたマッピングを生成するステップと、第１のアイテムから各関連付けられた埋め込まれたトレーニングアイテムまでのトレーニングされた結合埋込空間内の距離に基づいて、１つ以上の埋め込まれたトレーニングアイテムを第１のアイテムと関連付けるステップと、を含む。

クエリに応答するための方法の実施形態は、クエリを受信するステップと、少なくとも１つのプロセッサに連結されたメモリ内に構成される結合埋込空間内の場所を決定するステップであって、結合埋込空間内に埋め込まれた第１のアイテムと第２のアイテムとの間の距離は、第１のアイテムと第２のアイテムとの間の意味的関係に対応する、ステップと、その場所に最も近接する、結合埋込空間内に埋め込まれた１つ以上のアイテムに基づいて、１つ以上の結果を識別するステップと、クエリへの応答として、１つ以上の結果を返すステップと、を含む。複数のアイテムタイプのアイテムは、結合埋込空間内に埋め込まれる。

クエリを行う方法は、クエリをサーバに伝送するステップと、サーバから応答を受信するステップと、を含み、応答は、結合埋込空間内における、クエリに対応する場所を識別し、識別された場所に最も近い１つ以上の結果アイテムを識別することによって、サーバによって形成される。サーバは、少なくとも１つのプロセッサに連結されたメモリ内に構成される結合埋込空間を含み、結合埋込空間内に埋め込まれた第１のアイテムと第２のアイテムとの間の距離は、第１のアイテムと第２のアイテムとの間の意味的関係に対応し、複数のアイテムタイプのアイテムは、結合埋込空間内に埋め込まれる。
例えば、本願発明は以下の項目を提供する。
（項目１）
複数のアイテムタイプの意味的に関連したアイテムを関連付けるための方法であって、
（ａ）少なくとも１つのプロセッサに連結されたメモリ内に構成される結合埋込空間内に、前記複数のアイテムタイプのトレーニングアイテムを埋め込むステップと、
（ｂ）前記アイテムタイプのそれぞれに対して、前記結合埋込空間内への１つ以上のマッピングを学習し、トレーニングされた結合埋込空間および１つ以上の学習されたマッピングを生成するステップと、
（ｃ）前記第１のアイテムから各関連付けられた埋め込まれたトレーニングアイテムまでの前記トレーニングされた結合埋込空間内の距離に基づいて、１つ以上の埋め込まれたトレーニングアイテムを第１のアイテムと関連付けるステップと
を含む、方法。
（項目２）
（ｄ）前記トレーニングされた結合埋込空間内の前記複数のアイテムタイプの第１のアイテムタイプに対して、前記１つ以上の学習されたマッピングを適用することによって決定された第１の場所に、前記第１のアイテムを埋め込むステップ
をさらに含む、項目１に記載の方法。
（項目３）
（ｅ）前記１つ以上の関連付けられた埋め込まれたトレーニングアイテムに基づいて、前記第１のアイテムに注釈を付けるステップ
をさらに含む、項目２に記載の方法。
（項目４）
前記学習ステップ（ｂ）は、
（ｉ）前記埋め込まれたトレーニングアイテムから、第２のアイテム、第３のアイテム、および第４のアイテムを選択するステップであって、前記第２のアイテムおよび前記第３のアイテムは、関連し、前記第２のアイテムおよび前記第４のアイテムは、関連しない、ステップと、
（ｉｉ）第１の距離が、第２の距離未満であることを決定するステップであって、前記第１の距離は、前記結合埋込空間内における、前記第２のアイテムと前記第３のアイテムとの間の距離であり、前記第２の距離は、前記結合埋込空間内における、前記第２のアイテムと前記第４のアイテムとの間の距離である、ステップと、
（ｉｉｉ）前記決定に基づいて、前記１つ以上の学習されたマッピングを調節するステップと
を含む、項目２に記載の方法。
（項目５）
前記調節ステップ（ｉｉｉ）はさらに、前記第２、第３、および第４のアイテムのうちの少なくとも１つの前記結合埋込空間内の場所を変更するステップを含む、項目４に記載の方法。
（項目６）
前記場所変更ステップは、
前記第２のアイテムと第３のアイテムとの間の距離が、前記第２のアイテムから前記第４のアイテムまでの距離未満であるように、前記結合埋込空間内において、前記第２、第３、または第４のアイテムのうちの少なくとも１つを移動させるステップを含む、項目５に記載の方法。
（項目７）
前記移動ステップは、確率的勾配降下法に基づく、項目６に記載の方法。
（項目８）
前記調節ステップは、確率的勾配降下法に基づく、項目４に記載の方法。
（項目９）
前記選択ステップ（ｉ）は、
前記第２のアイテムから前記選択されたアイテムまでの距離が、前記第２のアイテムと第３のアイテムとの間の距離未満となるまで、前記第４のアイテムとして、アイテムを反復的に選択するステップと、
前記第４のアイテムを選択するために必要とされる反復数に基づいて、前記第２のアイテムに関連する前記第３のアイテムのランクを予測するステップと
を含む、項目４に記載の方法。
（項目１０）
前記場所変更ステップは、
前記第２のアイテムと第３のアイテムとの間の距離が、前記第２のアイテムから前記第４のアイテムまでの距離未満であるように、前記結合埋込空間内において、前記第２、第３、または第４のアイテムのうちの少なくとも１つを移動させるステップを含む、項目９に記載の方法。
（項目１１）
前記移動ステップは、前記予測されたランクに基づいて加重された、確率的勾配降下法に基づく、項目１０に記載の方法。
（項目１２）
前記学習ステップ（ｂ）はさらに、
（ｉｖ）所定の終了基準が充足されるまで、少なくともステップ（ｉ）-（ｉｉｉ）を
繰り返すステップ
を含む、項目４に記載の方法。
（項目１３）
前記学習ステップ（ｂ）はさらに、
前記第１のアイテムタイプの全アイテムに対する第１のマッピング関数を学習するステップと、
第２のアイテムタイプの複数のアイテムのそれぞれに対して、それぞれのマッピング関数を学習するステップと
を含む、項目４に記載の方法。
（項目１４）
前記トレーニングされた結合埋込空間内において、クエリサブジェクトを識別するステップであって、前記クエリサブジェクトは、埋め込まれたトレーニングアイテムである、ステップと、
結果アイテムとして、前記クエリサブジェクトの所定の距離内に位置する、１つ以上のトレーニングされた埋め込まれたアイテムを決定するステップと、
前記結果アイテムを出力するステップと
をさらに含む、項目１に記載の方法。
（項目１５）
複数のアイテムタイプの意味的に関連したアイテムを関連付けるためのシステムであって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに連結されたメモリと、
前記メモリ内の結合埋込空間内に、前記複数のアイテムタイプのトレーニングアイテムを埋め込むように構成される、結合埋込空間コンフィギュレータと、
前記アイテムタイプのそれぞれに対して、前記結合埋込空間内への１つ以上のマッピングを学習し、トレーニングされた結合埋込空間および１つ以上の学習されたマッピングを生成するように構成される、マッパと、
前記第１のアイテムから各関連付けられた埋め込まれたトレーニングアイテムまでの前記トレーニングされた結合埋込空間内の距離に基づいて、１つ以上の埋め込まれたトレーニングアイテムを第１のアイテムと関連付けるように構成される、アイテムアソシエータと
を含む、システム。
（項目１６）
前記結合埋込空間内の第１の場所に、第１のアイテムを埋め込むように構成される、新しいアイテムエンベッダをさらに含み、前記第１の場所は、前記複数のアイテムタイプの第１のアイテムタイプに対して、学習されたマッピングを適用することによって決定される、項目１５に記載のシステム。
（項目１７）
前記１つ以上の関連付けられた埋め込まれたトレーニングアイテムに基づいて、前記第１のアイテムに注釈を付けるように構成されるアノテータをさらに含む、項目１６に記載のシステム。
（項目１８）
前記マッパはさらに、確率勾配法を使用して、１つ以上のアイテムタイプに対して、前記マッピングを学習するように構成される、項目１６に記載のシステム。
（項目１９）
前記アイテムアソシエータはさらに、
前記第２のアイテムから前記選択されたアイテムまでの距離が、前記第２のアイテムと第３のアイテムとの間の距離未満となるまで、前記第４のアイテムとして、アイテムを反復的に選択することと、
前記第４のアイテムを選択するために必要とされる反復数に基づいて、前記第２のアイテムに関連する前記第３のアイテムのランクを予測することと、
前記第２のアイテムと第３のアイテムとの間の距離が、前記第２のアイテムから前記第４のアイテムまでの距離未満であるように、前記結合埋込空間内において、前記第２、第３、または第４のアイテムのうちの少なくとも１つを移動させることであって、前記移動は、前記予測されたランクに基づいて加重された確率勾配法に基づく、ことと
を行うように構成される、項目１８に記載のシステム。
（項目２０）
前記結合埋込空間は、所定の数の実数値軸を含む、項目１５に記載のシステム。
（項目２１）
前記トレーニングされた結合埋込空間内において、クエリサブジェクトを識別することであって、前記クエリサブジェクトは、埋め込まれたトレーニングアイテムである、ことと、
結果アイテムとして、前記クエリサブジェクトの所定の距離内に位置する、１つ以上のトレーニングされた埋め込まれたアイテムを決定することと
を行うように構成される、意味的クエリモジュールをさらに含む、項目１５に記載のシステム。
（項目２２）
命令を記憶するコンピュータ可読媒体であって、前記命令は、実行されると、少なくとも１つのプロセッサに、
少なくとも１つのプロセッサに連結されたメモリ内に構成される結合埋込空間内に、前記複数のアイテムタイプのトレーニングアイテムを埋め込むステップと、
前記アイテムタイプのそれぞれに対して、前記結合埋込空間内への１つ以上のマッピングを学習し、トレーニングされた結合埋込空間および１つ以上の学習されたマッピングを生成するステップと、
前記第１のアイテムから各関連付けられた埋め込まれたトレーニングアイテムまでの前記トレーニングされた結合埋込空間内の距離に基づいて、１つ以上の埋め込まれたトレーニングアイテムを第１のアイテムと関連付けるステップと
を含む方法を使用して、複数のアイテムタイプの意味的に関連したアイテムを関連付けさせる、コンピュータ可読媒体。
（項目２３）
クエリに応答するための方法であって、
前記クエリを受信するステップと、
前記クエリに応答して、少なくとも１つのプロセッサに連結されたメモリ内に構成される結合埋込空間内の場所を決定するステップであって、前記結合埋込空間内に埋め込まれた第１のアイテムと第２のアイテムとの間の距離は、前記第１のアイテムと第２のアイテムとの間の意味的関係に対応し、複数のアイテムタイプのアイテムは、前記結合埋込空間内に埋め込まれる、ステップと、
前記場所に最も近接する、前記結合埋込空間内に埋め込まれた１つ以上のアイテムに基づいて、１つ以上の結果を識別するステップと、
前記クエリへの応答として、前記１つ以上の結果を返すステップと
を含む、方法。
（項目２４）
前記場所の決定は、
前記受信したクエリに基づいて、クエリアイテムを決定するステップと、
前記クエリアイテムを前記場所に埋め込むステップであって、前記場所は、前記クエリアイテムのアイテムタイプに対して、少なくとも１つの学習されたマッピングを適用することによって、決定される、ステップと
を含む、項目２３に記載の方法。
（項目２５）
前記クエリは、アーティスト名または歌を含み、前記１つ以上の結果は、第２のアーティスト名および第２の歌のうちの少なくとも１つを含み、前記第２のアーティスト名および第２の歌のうちの少なくとも１つは、前記アーティスト名または前記歌と関連付けられる、項目２３に記載の方法。
（項目２６）
前記クエリは、タグを含み、前記１つ以上の結果は、少なくとも１つの画像を含み、前記画像は、前記タグと関連付けられる、項目２３に記載の方法。
（項目２７）
クエリを行う方法であって、
クエリをサーバに伝送するステップであって、前記サーバは、少なくとも１つのプロセッサに連結されたメモリ内に構成される結合埋込空間を含み、前記結合埋込空間内に埋め込まれた第１のアイテムと第２のアイテムとの間の距離は、前記第１のアイテムと前記第２のアイテムとの間の意味的関係に対応し、複数のアイテムタイプのアイテムは、前記結合埋込空間内に埋め込まれる、ステップと、
前記サーバから応答を受信するステップであって、前記応答は、前記結合埋込空間内における、前記クエリに対応する場所を識別し、前記識別された場所に最も近い１つ以上の結果アイテムを識別することによって、前記サーバから形成される、ステップと
を含む、方法。

本発明のさらなる特徴および利点、ならびにその種々の実施形態の構造および動作は、付随の図面を参照して、以下に詳述される。

本発明の実施形態を参照して、その実施例が、付随の図面に例証され得る。これらの図は、限定ではなく、例証であることが意図される。本発明は、概して、これらの実施形態に照らして説明されるが、発明の範囲をこれらの特定の実施形態に限定されることを意図するものではないことを理解されたい。
図１は、ある実施形態による、複数のアイテムタイプの意味的に関連したアイテムを関連付けるためのシステムを例証する。図２は、ある実施形態による、複数のアイテムタイプの意味的に関連したアイテムを関連付けるための方法を例証する。図３は、ある実施形態による、結合埋込空間を構成するための方法を例証する。図４は、ある実施形態による、結合埋込空間内への１つ以上のマッピングを学習するための方法を例証する。図５は、ある実施形態による、結合埋込空間内に埋め込まれたアイテムのトリプレットを選択するための方法を例証する。図６は、ある実施形態による、複数のアイテムタイプの意味的に関連したアイテムを関連付けるための方法を例証する。図７は、ある実施形態による、複数の音楽関連アイテムタイプの意味的に関連したアイテムを関連付けるためのシステムの構成要素を例証する。図８は、ある実施形態による、クライアント-サーバ環境を例証する。図９は、ある実施形態による、クエリ情報を提供する方法を例証する。

本発明は、特定の用途に対する例証的実施形態を参照して、本明細書に説明されるが、本発明は、それらに限定されないことを理解されたい。本明細書の教示へのアクセスを伴う当業者は、本明細書の範囲内の付加的修正、用途、および実施形態、ならびに本発明が有意に有用と成るであろう付加的分野を認識するであろう。

（概要）
種々のタイプの非常に大量のアイテム集合が、アイテムの意味的コンテンツに基づいて、アイテム間の関係を見つけるために利用されることが望ましい。例えば、新しい画像に対して、大量のアイテム集合内の関係に基づく注釈は、少量のアイテム集合に基づく注釈より記述的であり得る。したがって、非常に大量の情報集合にスケーラブルであって、アイテム間の種々の関係を考慮する、アイテムを意味的に関連付ける方法およびシステムが、所望される。

本発明の実施形態は、トレーニングデータセットのアイテムと１つ以上の他のトレーニングアイテムまたは新しく埋め込まれたアイテムとの間の関連付け（また、「関係」とも称される）を決定するために、トレーニングデータセット内で利用可能な種々のデータタイプのアイテム間の関係の範囲を利用するための方法およびシステムを含む。本発明の実施形態は、ウェブを通して収集することができるもの等、大量のトレーニングデータアイテムのコーパスにスケーラブルである。例えば、ウェブを介してアクセス可能なリソース内に記憶された画像、オーディオ、ビデオ、およびテキストは、潜在的に無限数のトレーニングデータ記録を有する、非常に大量のトレーニングデータセットの生成を可能にする。種々のアイテム間の関連付けを決定するために、スケーラブルかつ効率的方法は、画像注釈、画像読み出し、コンテンツベースのデータ読み出し等の多くの目的のために有用である。簡潔さおよび便宜上、本発明の実施形態は、主に、画像注釈の用途を使用して、後述される。しかしながら、アイテム間の関係を利用する、他の用途も、本発明の実施形態の範囲内であると想定されることを理解されたい。例えば、画像アイテムと注釈アイテムとの間で発見された関連付けは、意味的コンテンツ等に基づいて、オーディオおよびビデオ注釈、画像読み出し、オーディオおよびビデオの読み出し等の他の用途のために利用することができる。

本発明の実施形態は、非常に大量のトレーニングデータベースにスケーラブルである。加えて、本発明の実施形態は、トレーニングデータとして、手動で注釈が付けられた画像を必要とせず、実質的雑音を伴う、注釈を利用すことができる。本発明の実施形態による、非常に大量のトレーニングコーパスの使用は、雑音のある注釈を利用するための能力によって、補助される。例えば、本発明の実施形態は、Ｇｏｏｇｌｅの画像検索サービスを使用して実行される、ユーザクエリからのクリックデータに基づいて、トレーニングデータを生成することができる。本発明の実施形態のスケーラビリティはまた、利用可能となるのに伴って、新しいトレーニング情報を組み込むことによって、システムの効率的な継続的改良を可能にする。本書では、「注釈」は、テキスト注釈であって、１つ以上のキーワード、クエリ、文、または他のテキストコンテンツを含んでもよい。

さらに、結合埋込空間内に全アイテムタイプを埋め込むことによって、本発明の実施形態は、それぞれのアイテムの相対的意味的コンテンツに基づく、関連付けを生成する。「結合埋込空間」は、本明細書で使用されるように、画像、注釈、オーディオおよび／またはビデオ等であるが、それらに限定されない、複数のタイプのアイテムが、その場所が、埋め込まれた近傍アイテムに基づいて、その意味的コンテンツを反映するように、埋め込むことができる、多次元埋込空間である。

また、結合埋込空間内に、異なるタイプのアイテムを分離して埋め込むことによって、アイテム間により柔軟な組み合わせを可能にする。例えば、本発明のある実施形態では、新しい画像は、注釈が基づく、トレーニング画像の任意の特色に関わらず、注釈と関連付けることができる。

（アイテムを意味的に関連付けるためのシステム）
図１は、本発明のある実施形態による、複数のアイテムタイプのアイテムを関連付けるためのシステム１００を例証する。システム１００は、画像アイテムを注釈アイテムと関連付け、自動的に、画像に注釈を付けるように構成される。本発明の他の実施形態は、ビデオ、オーディオ、画像、および注釈等であるが、それらに限定されない、アイテムタイプのアイテム間の関連付けを確立するように構成することができる。

システム１００は、少なくとも１つのプロセッサ１０２と、メモリ１０４と、ストレージ１０６と、ネットワークインターフェース１０８と、ユーザ入力／出力デバイス１１０と、通信インフラストラクチャ１１２と、トレーニングデータベース１１４と、結合埋込空間モジュール１３０と、を備える。システム１００は、サーバコンピュータ、通信ネットワークと相互接続された１つ以上のコンピュータ、サーバファーム、クラウドコンピューティングプラットフォーム等上に実装することができる。プロセッサ１０２は、結合埋込空間モジュール１３０等のアプリケーションを実行するように構成される、１つ以上のプロセッサを備える。メモリ１０４は、単一メモリまたは１つ以上のコンピュータ内に位置する複数の相互接続されたメモリを備えることができる。ある実施形態では、メモリ１０４は、動的ランダムアクセスメモリメモリ（ＤＲＡＭ）を備える。ストレージ１０６は、１つ以上の相互接続された不揮発性コンピュータ可読媒体を備え、ハードディスク、フラッシュメモリ、光学ストレージデバイス等を含んでもよい。ネットワークインターフェース１０８は、システム１００が接続され得る、イーサネット（登録商標）および無線ローカルエリアネットワーク（ＬＡＮ）等であるが、それらに限定されない、任意のタイプのネットワークへのインターフェースを含む。ユーザ入力／出力デバイス１１０は、ヒトオペレータ等のユーザまたはアプリケーションが、システム１００の動作を制御する、および／またはシステム１００からの出力を表示することができる、キーボード、マウス、およびディスプレイデバイスの１つ以上へのインターフェースを備える。通信インフラストラクチャ１１２は、システムバス、周辺機器相互接続（ＰＣＩ）バス、ユニバーサルシリアルバス（ＵＳＢ）、ファイヤワイヤ、またはイーサネット（登録商標）等であるが、それらに限定されない、１つ以上の通信バスを含んでもよい。通信インフラストラクチャ１１２は、システム１００の構成要素を通信可能に連結するための相互接続手段を提供する。

トレーニングデータベース１１４は、種々のアイテムタイプのトレーニングアイテム集合を備える。本書で使用されるように、用語「データベース」は、任意のデータ集合およびデータ集合にアクセスするための方法を含意し、必ずしも、市販のデータベース管理システム（ＤＢＭＳ）を含意するわけではない。ある実施形態によると、トレーニングデータベース１１４は、既知の画像データベース１１６、既知の注釈データベース１１８、および既知の関係データベース１２０の１つ以上を含む。トレーニングデータベース１１４は、任意のサイズであってもよい。本発明の実施形態は、従来の方法と比較して、特に有利であり得、トレーニングデータベースは、非常に大量、すなわち、数百万のトレーニングアイテムまたはそれ以上のウェブスケールである。トレーニングデータベース１１４は、システム１００に直接接続される、またはシステム１００に通信可能に連結されたデータベースに分散される、単一データベースを備えることができる。ある実施形態では、トレーニングデータベースは、ストレージ１１４内に常駐する。別の実施形態では、トレーニングデータベースは、例えば、ネットワークインターフェース１０８を通して、システム１００に通信可能に連結される、１つ以上の遠隔コンピュータ内に常駐する。さらに別の実施形態では、トレーニングデータベース１１４は、システム１００の内部ならびに遠隔コンピュータ内に常駐することができる。

ある実施形態によると、トレーニングデータベース１１４は、Ｇｏｏｇｌｅ，Ｉｎｃ．からのウェブベースの画像検索サービスに提出されるクエリと、それらのクエリに応答して、返される画像に関する情報と、を備える。例えば、各クエリは、既知の注釈データベース１１８内に記憶されてもよく、クエリに応答して返される画像のシーケンスまたはセットは、既知の画像データベース１１６内に記憶することができる。各クエリに対して、各画像が、ユーザによってクリックされた回数（「クエリクリックデータ」）もまた、記憶されてもよい。ある実施形態では、既知の画像データベース１１６内に記憶された各画像に対して、その画像に関して選択またはクリックされた最大ユーザ数に基づく、１つ以上のクエリが、既知の注釈データベース１１８内に記憶されてもよい。既知の関係データベース１２０は、トレーニングデータベース内のアイテム間の関係を含む。ある実施形態では、既知の関係データベース１２０は、既知の画像データベース１１６内のトレーニング画像と既知の注釈データベース１１８内のトレーニング注釈との間の関係、２つ以上のトレーニング画像間の関係、および２つ以上のトレーニング注釈間の関係を含む。トレーニングデータは、多数の付加的方法を使用して、生成されてもよい。画像注釈のためのトレーニングデータを取得する他の手段は、画像の手動注釈、およびユーザによって事前に注釈が付けられた画像の収集を含むが、それらに限定されない。

メモリ１０４は、多次元結合埋込空間１５０を含む。ある実施形態によると、結合埋込空間１５０の各次元は、実数値軸によって、画定される。結合埋込空間は、自動的に、意味的に関連したアイテムを相互に近接して位置するように意図される。結合埋込空間内では、意味的に類似するアイテムは、自動的に、各アイテムのタイプに関わらず、相互に近接して位置する。ある実施形態では、結合埋込空間内のアイテムｘの場所は、＜ｘ_１，ｘ_２，．．．，ｘ_Ｄ＞として規定されてもよく、式中、ｘ_ｉｉ＝１．．．Ｄは、Ｄ次元の結合埋込空間内の次元ｉにおけるアイテムｘの場所を規定する実数である。結合埋込空間１５０の次元の増加は、多くの場合、埋め込まれたアイテム間の関連付けの精度を改善する。高次元結合埋込空間は、低次元結合埋込空間より高い精度を伴って、ウェブアクセス可能ソースから取得されたトレーニングデータベース等の大量のトレーニングデータベースを表すことができる。しかしながら、より高い次元はまた、算出の複雑性を増加させる。したがって、次元数は、利用可能なトレーニングデータベースのサイズ、必要とされる精度レベル、および算出時間等の要因に基づいて、決定することができる。実質的に連続的マッピング空間を維持することができるため、実数値軸に基づいて、結合埋込空間１５０を画定することは、関連付けの精度レベルを増加させる。メモリ１０４はまた、結合埋込空間１５０内に埋め込まれたそれぞれのアイテムに対応する、複数のアイテムベクトル１５４と、アイテムタイプのそれぞれを結合埋込空間１５０にマップする、複数のマッピング１５２と、を含むことができる。

結合埋込空間モジュール１３０は、結合埋込空間１５０を生成し、結合埋込空間１５０内への１つ以上のアイテムタイプに対するマッピングを学習し、新しく埋め込まれたアイテムから結合埋込空間１５０内に既に埋め込まれたトレーニングアイテムへの関連付けを決定する、機能を含む。結合埋込空間モジュール１３０の論理命令は、ソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせを使用して、実装することができる。ある実施形態によると、結合埋込空間モジュール１３０は、自動的に、結合埋込空間１５０を使用して、画像に注釈を付け、既知の画像データベース１１６内のトレーニングデータ、既知の注釈データベース１１８、および既知の関係データベース１２０を使用して、結合埋込空間１５０内へのマッピングまたは画像および注釈を学習するための論理命令を含む。ある実施形態では、結合埋込空間モジュール１３０は、トレーニングデータコレクタ１３２と、注釈アナライザ１３４と、画像アナライザ１３６と、アノテータ１３８と、結合埋込空間コンフィギュレータ１４０と、マッパ１４２と、新画像エンベッダ１４４と、アイテムアソシエータ１４６と、意味的クエリモジュール１４８と、を備える。

トレーニングデータコレクタ１３２は、トレーニングデータベース１１４内に記憶され得る、トレーニングデータを取得するための機能を含む。例えば、ある実施形態では、トレーニングデータコレクタ１３２は、クエリを含む、画像クエリデータ、各クエリに応答して返された画像の応答セット、および各応答セットにおいて、ユーザによってクリックされた画像を収集および処理することができる。次いで、取得したデータは、画像と、各画像に対して、対応するクエリに応答して、画像をクリックしたユーザ数によって示される、画像が関連する、１つ以上のクエリと、を記憶するために処理されてもよい。画像は、既知の画像データベース１１６内に記憶することができ、クエリは、既知の注釈データベース１１８内に記憶することができる。ある実施形態では、記憶された画像と記憶された注釈との間の既知の関係は、既知の関係データベース１２０内に記憶することができる。いくつかの実施形態では、クエリクリックデータはまた、例えば、同一クエリに関してクリックされた画像を関連するように考慮することによって、画像間の関係を決定するために使用することができる。また、いくつかの実施形態では、関係は、例えば、ともに頻繁に表出する単語または用語を関連するように考慮することによって、１つ以上の記憶された注釈間で決定されてもよい。種々の実施形態では、トレーニングデータコレクタ１３２はまた、注釈が付けられた画像および／または他の事前に注釈が付けられた画像を手動で取得することができる。ウェブクローリングによって、注釈が付けられた画像を直接取得する、または事前に調製された注釈が付けられたデータ集合を組み込むことによって等、トレーニングデータを取得する他の手段も可能であって、本発明の実施形態の範囲内と想定される。

注釈アナライザ１３４は、注釈を分析および処理するための機能を含む。ある実施形態では、注釈アナライザ１３４は、トレーニング注釈として使用される、注釈を処理するための機能を含む。例えば、注釈アナライザ１３４は、注釈データベース１１８内に記憶されたクエリ等のクエリを処理して、誤植を修正し、スペリングエラーを補正し、キーワードのシーケンスを一様に順序付ける、１つの言語から別の言語に翻訳する、および類似目的を行ってもよい。種々の実施形態では、各注釈は、文字列、キーワードのベクトル、または同様なものとして、表すことができる。

画像アナライザ１３６は、例えば、画像特徴を抽出することによって、画像を分析するための機能を含む。画像特徴は、エッジ、コーナー、リッジ、着目点、および色ヒストグラムの１つ以上を含むことができるが、それらに限定されない。特徴抽出は、スケール不変特徴量変換（ＳＩＦＴ）および主成分分析（ＰＣＡ）等であるが、それらに限定されない、１つ以上の既知の方法に基づいてもよい。

ある実施形態では、画像は、特徴の非常にまばらなベクトルによって、表される。各画像は、最初に、種々のスケールにおいて、いくつかの重複する正方形ブロックにセグメント化される。次いで、各ブロックは、色およびエッジ特徴の連鎖によって、表される。次いで、以前にトレーニングされた典型的にはそのようなブロックの辞書を使用して、視覚ワードのバッグ、または各辞書視覚ワードが画像内に提示された回数のヒストグラムとして、各画像を表し、平均２００を超える非ゼロ値を有するベクトルをもたらす。画像の例示的表現は、Ｇｒａｎｇｉｅｒ，Ｄ．，＆Ｂｅｎｇｉｏ，Ｓ．，“Ａｄｉｓｃｒｉｍｉｎａｔｉｖｅｋｅｒｎｅｌ-ｂａｓｅｄｍｏｄｅｌｔｏｒａｎｋｉｍａｇｅｓｆｒｏｍｔｅｘｔｑｕｅｒｉｅｓ，”ＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ｖｏｌ．３０，Ｉｓｓｕｅ８，２００８，ｐｐ．１３７１-１３８４に説明される。

アノテータ１３８は、新しい画像のための注釈を構築するための機能を含む。ある実施形態では、例えば、アノテータ１３８は、結合埋込空間１５０内に新しく埋め込まれた画像に最も近い、１つ以上の注釈に基づいて、新しく埋め込まれた画像のための注釈を構築する。

結合埋込空間コンフィギュレータ１４０は、結合埋込空間１５０内にトレーニングアイテムを生成および埋め込むための機能を含む。ある実施形態では、例えば、結合埋込空間コンフィギュレータ１４０は、結合埋込空間内に、トレーニングデータベース１１４からの画像および注釈を埋め込む。既知の画像データベース１１６からのトレーニング画像および既知の注釈データベース１１８からのトレーニング注釈は、結合埋込空間１５０内に埋め込むことができる。

マッパ１４２は、結合埋込空間１５０内への各アイテムタイプに対する１つ以上のマッピング１５２を学習するための機能を含む。マッピング１５２は、各アイテムベクトル１５４が、結合埋込空間１５０内に、どのように位置するかを規定する。ある実施形態では、マッパ１４２は、画像空間および注釈空間から結合埋込空間１５０へのマッピングを学習するように構成される。例えば、結合埋込空間１５０内に埋め込まれたトレーニング画像および注釈に基づく学習のプロセスを通して、マッパ１４２は、画像空間から結合埋込空間１５０内へのマッピング関数と、また、結合埋込空間１５０内への注釈のマッピングと、を決定する。ある実施形態では、各画像に対して決定される、一式の画像特徴が画定され、各画像は、それらの画像特徴のベクトルとして、表される。画像に対するマッピング関数は、画像特徴のベクトルから結合埋込空間へのマッピングを規定することができる。本発明の種々の実施形態では、マッピング関数は、線形または非線形であることができる。

新画像エンベッダ１４４は、学習されたマッピングに基づいて、結合埋込空間１５０内に画像を埋め込むための機能を含む。例えば、新画像エンベッダ１４４は、マッパ１４２を使用して学習されたマッピング関数に基づいて、新しい画像が埋め込まれるべき場所を決定することができる。ある実施形態では、新画像エンベッダ１４４は、新しい画像の一式の特徴を決定し、一式の特徴から結合埋込空間１５０内の場所へのマッピングを使用する。

アイテムアソシエータ１４６は、結合埋込空間１５０内において、新しく埋め込まれたアイテムと既に埋め込まれたアイテムとの間の関連付けを決定するための機能を含む。ある実施形態では、アイテムアソシエータ１４６は、結合埋込空間１５０内における、新しく埋め込まれた画像と１つ以上の注釈との間の関係を決定する。例えば、アイテムアソシエータ１４６は、新しく埋め込まれた画像に最も近い、注釈のランク付けされたリストを決定することができる。アノテータ１３８は、アイテムアソシエータ１４６によって決定された注釈のランク付けされたリストに基づいて、新しく埋め込まれた画像に注釈を付けてもよい。

意味的クエリモジュール１４８は、別の規定されたアイテムと関連付けられる、任意のアイテムタイプの１つ以上のアイテムを出力するために、結合埋込空間１５０内における関連付けを分析するための機能を含む。例えば、意味的クエリモジュール１４８は、結合埋込空間１５０内のクエリ用語を識別し、次いで、そのクエリ用語と関連付けられた全画像を識別することによって、特定のクエリ用語と関連付けられる、全画像を出力してもよい。

（アイテムを意味的に関連付けるための方法）
図２は、本発明のある実施形態による、複数のアイテムタイプの意味的に関連したアイテムを相互に関連付けるための方法２００（ステップ２０２-２１０）を例証する。ある実施形態によると、関連付けは、新しいアイテムに注釈を付けるために使用することができる。

ステップ２０２では、結合埋込空間が、構成される。ある実施形態では、ステップ２０２は、結合埋込空間コンフィギュレータ１４０によって実装され、メモリ１０４内に結合埋込空間１５０を生成してもよい。結合埋込空間の次元数は、事前に決定されてもよい。前述のように、次元数は、必要とされる精度、利用可能な算出リソース、およびトレーニングデータベースのサイズ等であるが、それらに限定されない、１つ以上の要因に基づいて、決定することができる。結合埋込空間の各次元は、実数値軸によって、画定されてもよい。

ある実施形態による、結合埋込空間は、画像および対応する注釈を含む、データアイテムを埋め込むように構成される。例えば、ある実施形態では、事前に注釈が付けられた画像のコーパスを使用して、トレーニング画像および対応するトレーニング注釈を取得することができる。別の実施形態では、前述のように、ウェブベースの画像検索サービスからのクエリクリックデータを、トレーニング画像およびトレーニング注釈として、使用することができる。結合埋込空間を構成するステップは、図３に関連して、以下にさらに詳述される。

ステップ２０４では、各タイプのアイテムを結合埋込空間にマップするためのマッピング関数が、学習される。ある実施形態によると、学習プロセスは、一式の埋め込まれたトレーニングアイテムを反復的に選択し、その現在の結合埋込空間内の場所に基づいて選択されたそれぞれのアイテム間の距離が、それらの間の既知の関係に対応するかどうかを決定する。例えば、埋め込まれたトレーニング画像、その対応する埋め込まれたトレーニング注釈、および非関連の埋め込まれたトレーニング注釈を検討する。次いで、その現在の結合埋込空間内の場所が、画像から対応する注釈までの距離が、画像から非関連注釈および少なくとも所定のマージンまでの距離未満であるような場合、アイテムは、選択された関係と一貫して、既に位置しており、したがって、マッピングまたはその現在の場所に変更は、必要ないと見なすことができる。そうでなければ、アイテムのマッピングおよび場所は、相互に対するその場所が改善されるように調節される。

結合埋込空間内における任意のアイテムの場所を調節することは、加えて、現在のマッピング関数の変化のため、マッピング関数の調節および／または他のアイテムの場所の調節をトリガすることができる。例えば、埋め込まれた注釈の場所の変更は、画像空間から結合埋込空間までの現在のマッピング関数を変化させ、注釈に対する画像の場所の一貫性を維持することができる。

反復的である、学習プロセスは、所定の反復数の学習が、例えば、アイテムの場所の調節の相対的規模によって決定されるように、マッピングへの実質的変化を伴わずに生じる時等、所定の終了基準に基づいて、終了されてもよい。学習プロセスの終了時、結合埋込空間内のアイテムの場所は、アイテム間の意味的関係を反映する。いくつかの実施形態では、学習プロセス（ステップ２０４）は、例えば、新しいトレーニングデータを埋め込む、または終了基準を調節し、学習プロセスを継続させ、結合埋込空間および学習されたマッピングを精緻化することによって、結合埋込空間および学習されたマッピングを漸次的に改善する必要に応じて、時々、行うことができる。

また、学習プロセスの終了時、マッピング関数は、安定していると見なすことができる。アイテムのタイプに応じて、マッピング関数は、形式が異なることができる。ある実施形態では、画像のためのマッピング関数は、任意の画像を、その特徴に基づいて、結合埋込空間にマップするために使用される一方、各注釈は、一意的にマップされる。以下では、用語「トレーニングされた結合埋込空間」は、文脈から明白ではない時、学習プロセスが行われた後の結合埋込空間を指すために使用される。学習プロセス２０４はさらに、図４-５に関連して後述される。

ステップ２０６では、新しいアイテムが、結合埋込空間内に埋め込まれる。新しいアイテムの埋込に先立って、ある実施形態にると、トレーニングデータの埋込が完了され、マッピングのための学習プロセスが完了される。新しいアイテムは、対応するアイテムタイプのための学習されたマッピング関数に基づいて決定された場所内のトレーニングされた結合埋込空間内に埋め込まれる。ある実施形態では、新しい画像は、画像のための学習されたマッピング関数に基づいて決定された場所内のトレーニングされた結合埋込空間内に埋め込むことができる。新しい画像の所定の一式の特徴が計算され、学習された画像マッピング関数が、計算された一式の特徴に適用され、結合埋込空間内の埋込場所を決定する。画像特徴ベクトルおよび注釈表現は、図１に関連して前述されている。

ステップ２０８では、新しく埋め込まれたアイテムと以前に埋め込まれたアイテムとの間の１つ以上の関連付けが、決定される。ある実施形態では、新しく埋め込まれた画像と以前に埋め込まれた注釈との間の関連付けが、決定される。関連付けは、新しく埋め込まれたアイテムの場所からそれぞれの以前に埋め込まれたアイテムの場所までのユークリッド距離等の距離に基づく。新しい画像への関連付けを有する、注釈を使用する種々の方法を使用することができる。一実施形態では、新しい画像からの所定の閾値距離内にある全注釈を考慮することができる。別の実施形態では、新しい画像からの最短距離を伴う注釈が考慮される。

ステップ２１０では、新しく埋め込まれたアイテムは、ステップ２０８で決定された関連付けに基づいて、注釈が付けられる。ある実施形態では、新しく埋め込まれた画像は、その画像に最も近い、注釈に基づいて、注釈が付けられる。別の実施形態では、新しく埋め込まれた画像は、画像からの所定の距離内の全注釈に基づいて、注釈を付けることができる。さらに別の実施形態では、新しく埋め込まれた画像からの所定の距離内の１つ以上の注釈が、新しく埋め込まれた画像に割り当てられるべき注釈を生成するために、埋め込まれ、さらに処理されてもよい。

（結合埋込空間の構成）
図３は、本発明のある実施形態による、結合埋込空間を構成するための方法（ステップ３０２-３０８）を例証する。例えば、ある実施形態では、ステップ３０２-３０８は、ステップ２０２の処理を行う。

ステップ３０２では、結合埋込空間が、メモリ内に生成される。ある実施形態では、Ｘ×Ｄサイズアレイまたはマトリクスを画定することができ、式中、Ｘは、埋め込まれるべきトレーニングアイテムの数であって、Ｄは、結合埋込空間の次元数である。他の構造も、メモリ内の結合埋込空間の表現のために可能であって、実施形態の範囲内と想定される。当業者は、結合埋込空間を、揮発性メモリと仮想メモリ等の他のメモリリソースとの間に分散することができることを理解するであろう。前述のように、結合埋込空間の次元は、種々の要因に基づいて、決定されるべきである。また、前述のように、ある実施形態によると、結合埋込空間内の場所は、各次元に対して画定された実数値軸に基づいて、決定することができる。

ステップ３０４では、マッピング関数は、結合埋込空間内に埋め込まれる、各アイテムタイプに対して、初期化される。結合埋込空間が、画像および注釈のために構成される、ある実施形態によると、画像空間から結合埋込空間までの１つのマッピング関数が、初期化され、別個のマッピング関数が、各埋め込まれた注釈のために初期化される。画像のためのマッピング関数は、所定の一式の特徴に基づき、したがって、任意の新しい画像に適用することができる。ある実施形態では、画像のためのマッピングは、線形マッピングとして規定され、マトリクスとして表すことができる。各注釈のためのマッピングは、その注釈に一意的であって、他の注釈に一般化することができない。ある実施形態では、各注釈のためのマッピングは、その注釈を結合埋込空間内の場所に線形にマップする。

ステップ３０６および３０８は、それぞれ、ある実施形態による、トレーニング注釈およびトレーニング画像の埋込を含む。トレーニング注釈およびトレーニング画像を備える、トレーニングデータは、例えば、トレーニングデータベース１１４からであってもよい。トレーニングデータは、図１に関連して、前述されている。ある実施形態では、トレーニングデータは、Ｇｏｏｇｌｅ画像検索サービスからのクエリクリックデータを備える。トレーニング画像は、画像へのリンクまたはサムネイルがクリックされた、画像検索クエリに応答して返された画像を備える。トレーニング注釈は、画像検索に入力されたクエリを備える。

ステップ３０６および３０８では、トレーニング注釈およびトレーニング画像を、結合埋込空間内に埋め込むことができる。結合埋込空間内にアイテムを埋め込むことは、ある実施形態によると、そのアイテムに場所を割り当てることによって、行うことができる。ある実施形態によると、初期マッピングは、ランダムであって、したがって、各アイテムのための初期場所も、ランダムである。ある実施形態によると、全画像のための線形マッピングおよびｉ番目の注釈のためのマッピングは、それぞれ、以下の（１）および（２）に示されるように、規定される。

Φ_Ｉ（ｘ）＝Ｖｘ（１）
Φ_Ｗ（ｉ）＝Ｗ_ｉ（２）
式中、ｘは、画像特徴ベクトルであって、Ｖは、初期値がランダムであり得る、マトリクスであって、Ｗ_ｉは、Ｙ×Ｄマトリクスのｉ番目の行を示す。Ｙは、注釈数であって、Ｄは、結合埋込空間内の次元数である。

後述される、後続トレーニングプロセスは、アイテムがトレーニングされた結合埋込空間内に埋め込まれた最終場所が、近傍に位置する他のアイテムに関連して、アイテムの意味的コンテンツを反映するように、各画像および注釈の場所を精緻化するように意図される。

（結合埋込空間へのマッピングのトレーニングおよび学習）
図４は、本発明のある実施形態による、学習の方法（ステップ４０２-４０８）を例証する。ある実施形態では、ステップ２０４の処理は、ステップ４０２-４０８によって、行うことができる。ステップ４０２-４０８は、結合埋込空間をスケーラブルにトレーニングし、非常に大量のトレーニングセットの比較的に少量のサンプリングに基づいて、各アイテムタイプに対するマッピングを学習することができる、確率的プロセスを例証する。ステップ４０２-４０８は、所定の終了基準が充足されるまで、反復的に行われる。

ステップ４０２では、アイテムのトリプレットは、トリプレットの第１の対のアイテム間の関係の強度が、第２の対の関係の強度より大きくなるように、選択される。ある実施形態では１つの埋め込まれた画像および２つの埋め込まれた注釈、または２つの埋め込まれた画像および１つの埋め込まれた注釈を有する、アイテムのトリプレットは、少なくとも１つの対のアイテムが、別の対のアイテムよりより強く関連することが既知であるように選択される。例えば、トリプレットは、画像、画像に関連する注釈、および画像に非関連の注釈であることができる。トリプレット内では、関連対は、画像および関連注釈を含み、非関連対は、画像および非関連注釈を含む。トリプレットは、例えば、既知の関係データベース１２０内で利用可能な情報に基づいて、選択することができる。他の実施形態では、アイテムの異なる組み合わせが、選択されてもよい。

ステップ４０４では、結合埋込空間内における、既知の関連対間の距離および非関連対間の距離が決定され、距離は、第１と第２の対のトリプレットとの間の関係の相対的強度と比較される。結合埋込空間内の各対のトリプレット中のアイテム間の距離が、既知の関係と一致する場合、マッピングおよび結合埋込空間の変更は、必要とされず、処理は、ステップ４０６に直接進むことができる。しかしながら、結合埋込空間内にの各対のトリプレット中のアイテム間の距離が、既知の関係と一致しない場合、処理は、ステップ４０６に進む。例えば、関連対間の距離が、所定の安全マージンだけ、非関連対間の距離を上回るかどうかを決定してもよい。ある実施形態では、距離は、ユークリッド距離である。

ステップ４０６では、結合埋込空間内の選択されたアイテムの１つ以上のマッピングおよび／または場所が、選択されたアイテム間の関連距離をアイテムの選択されたトリプレット間の既知の関係の関連強度に結び付けるために、調節される。例えば、画像、関連注釈、および関連注釈から成る、前述のトリプレットが選択される場合、そのトリプレット内の任意または全アイテムの場所は、それらの既知の関係に結び付けるように変更することができる。場所は、関連対間の距離が、非関連対プラス事前に決定することができる安全マージン間の距離未満となるように変更されてもよい。ある実施形態では、選択されたアイテムの場所の変化は、勾配降下法に基づいて、決定される。勾配降下法、および特に、確率勾配法は、非常に大量のトレーニングデータセットの比較的に少量のサンプリングに基づいて、結合埋込空間を効率的にトレーニングするために使用される。ある実施形態では、後述のように、費用関数が、確率的勾配降下法を使用して、非常に大量のデータセットに正確な縮尺で最適化される。Ｕｓｕｎｉｅｒ，Ｎ．，Ｂｕｆｆｏｎｉ，Ｄ．，＆Ｇａｌｌｉｎａｒｉ，Ｐ．，“Ｒａｎｋｉｎｇｗｉｔｈｏｒｄｅｒｅｄｗｅｉｇｈｔｅｄｐａｉｒｗｉｓｅｃｌａｓｓｉｆｉｃａｔｉｏｎ，”Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，２００９は、例示的費用関数について説明している。

勾配降下法を適用する際、選択されたトリプレットのアイテムの場所に成される調節は、アイテムの現在の場所と、相互に関連するアイテムのランク、所望のレベルの精度、および所望の速度の収束等であるが、それらに限定されない、１つ以上の要因と、に基づいてもよい。例示的実施形態では、トリプレットのアイテムのための新しい場所は、関連対合のランクに基づく距離量だけ、その現在の場所を調節することによって、決定される。選択されたトリプレット内の第１のアイテム、例えば、画像に関して、関連注釈の「ランク」とは、画像からの最小から最大距離の順序で配設される、全注釈のシーケンス内の関連注釈の位置を指す。トレーニングプロセスの目標は、画像に最も近い最関連注釈が、すなわち、画像に関して、最も高いランクを有するように、結合埋込空間内において、アイテムを調節することである。ある実施形態では、アイテムｘのランクは、（３）におけるように定義することができる。

式中、ｒａｎｋ_ｙ（ｆ（ｘ））は、距離関数ｆ_ｉ（ｘ）によって求められる、関連アイテムｙ（例えば、例示的トリプレット内の関連注釈）のランクである。ｆ_ｉ（ｘ）は、類似関数であって、高類似性に対して、高値を返す。ｆ_ｉ（ｘ）は、アイテムｉとｘとの間の関係を測定する。したがって、ある実施形態では、ｆ（ｘ）は、結合埋込空間内のアイテムｘまでのユークリッド距離の逆数である。マージンを追加することによって、ランク（３）は、（４）におけるように規定することができる。

式中、ｒａｎｋ^１ _ｙ（ｆ（ｘ））は、ｙのマージンがペナライズされたランクと見なすことができる。したがって、ｒａｎｋ^１ _ｙ（ｆ（ｘ））は、各注釈ｉに対するｆ_ｉ（ｘ）の値を関連注釈ｙに対する対応する値と比較する。図５は、アイテムに関して、全注釈の順序を決定することなく、ランクを予測する方法を例証する。

実施形態は、トリプレット内の関連対のランクに基づいて、調節に加重することによって、勾配降下法に適用される、ステップサイズを調節してもよい。ある実施形態によると、ランキングの上端におけるランク位置の損失は、下端より高い費用を被る。例えば、勾配降下法が最小限にするよう操作する費用関数は、関連注釈が、より低いランキングにランク付けられる時より、関連注釈が、最高ランク近傍（但し、最高ランクではない）にランク付けられる時、増加される。アイテムのランクに基づいて、勾配降下法のステップサイズを調節することは、学習プロセスが、速度に対して、かつ画像のための最も可能性の高い注釈に関して、高精度レベルを達成するように最適化される、技法である。

各選択されたトリプレット

（（ｘ、ｙ）は、関連対であって、

は、非関連対である）による、費用関数全体への寄与は、（５）におけるように、定義することができる。

Ｌ（ｒａｎｋ^１ _ｙ（ｆ（ｘ）））は、前述のように、ランクに基づく加重である。トレーニングの各反復では、ある実施形態によると、選択されたトリプレットの場所およびマッピングは、（対応する距離が、既知の関係と一致しない場合）調節後、（５）の値が、現在の反復におけるより低くなるように、調節される。ある実施形態では、マッピングおよび場所の調節は、（６）によって、決定される。

β（ｔ）は、時間ｔにおいて調節されるべき、マッピング等のパラメータであって、γ_ｔは、時間ｔにおける学習率である。（６）における偏導関数項は、本実施形態では、調節されるパラメータβ（ｔ）に関して選択されたトリプレットの近似誤差である、勾配を表す。

ステップ４０６において、ある実施形態では、アイテムの場所は、（６）によって決定される勾配ステップに基づいて、調節することができる。ある実施形態では、注釈の場所は、例えば、選択されたトリプレット内の注釈のためのマッピングを調節することによって、調節することができる。画像の場所は、画像マッピング関数を調節することによって、調節されてもよい。ある実施形態では、マッピングは、注釈が、関連画像に関して移動されるように、調節される。画像マッピング関数は、例えば、新しく移動された関連注釈と一致するように、（６）に基づいて、適宜、調節することができる。

ステップ４０８では、１つ以上の終了基準が、評価される。終了基準が、充足される場合、学習プロセスは、終了される。終了基準が、充足されない場合、プロセスは、ステップ４０２-４０８を反復する。終了基準は、ステップ４０２-４０８の１回以上の反復にわたって、選択されたアイテムの場所の変化の規模に基づくことができる。別の実施形態では、終了基準は、一式のランダムに選択された埋め込まれたアイテムが、実質的に、既知の関係に準拠するかどうかの評価に基づくことができる。種々の他の終了基準も可能であって、本発明の実施形態内と想定される。結合埋込空間内の関係の精度は、学習プロセスを実行する反復の増加に伴って、改善する可能性が高いが、ある点を超えて得られる改良は、有意でなくてもよいことに留意されたい。したがって、終了基準は、トレーニングデータセットのサイズおよび性質、所望される精度のレベル、ならびに利用可能な算出能力等の要因に基づいて、決定することができる。

（非常に大量のトレーニングデータセットに対する関係のランク付け）
図５は、ある実施形態による、アイテムのトリプレットを選択する方法（ステップ５０２-５０６）を例証する。ある実施形態では、ステップ４０２の処理は、ステップ５０２-５０６によって、行うことができる。

ステップ５０２では、アイテムのトリプレットの第１および第２のアイテムは、相互に関連するように選択される。例えば、第１のアイテムは、埋め込まれたトレーニング画像であることができ、第２のアイテムは、第１のアイテムと関連するクエリである、埋め込まれたトレーニング注釈であることができる。

ステップ５０４では、第３のアイテムは、第３のアイテムと第１のアイテムとの間の関係が、存在しない、または第１と第２のアイテムとの間の関係より弱いが、結合埋込空間内における第１のアイテムから第３のアイテムまでの距離が、第１のアイテムから第２のアイテムまでの距離未満であるように、選択される。アイテムのトリプレット間の距離条件に違反する、第３のアイテムを意図的に選択することは、多くの場合、例えば、第１のアイテムに関連しないアイテムから、第３のアイテムをランダムに選択する時より、より速い学習プロセスの収束につながる。したがって、第３のアイテムは、本段落に前述の両条件が、選択された第３のアイテムによって充足されるまで、第１のアイテムに関連しないアイテムから、繰り返しピックアップすることができる。

ステップ５０６では、第１のアイテムと関連する第２のアイテムのランクが、決定される。ある実施形態では、第１のアイテムに関連する第２のアイテムのランクは、ステップ５０４に関連して記載された２つの条件を満たす、第３のアイテムを選択するために必要とされた反復数に基づいて、予測される。ステップ５０６に従って決定されたランクは、（７）におけるように示すことができる。

Ｎは、第３のアイテムを選択するために必要とされた反復数であって、Ｙは、埋め込まれた注釈の総数である。（７）におけるように、高速かつ効率的にランクを予測することによって、本発明の実施形態は、実質的に、学習プロセスの速度を加速し、非常に大量のトレーニングデータセットに対するスケーラビリティを増加させることができる。例えば、（７）を使用して、ランクを予測することは、費用（５）に対する確率的勾配降下法の使用の、（４）の使用等、他の技法と比較して、非常に大量のデータセットに拡張することができる。

（他の実施形態）
結合埋込空間は、前述のように、種々のデータタイプのアイテムを埋め込むために使用することができる。前述の画像注釈用途に加え、他の用途も、非常に大量のトレーニングデータによって構成される、結合埋込空間を使用して、実装することができる。

ある実施形態では、オーディオおよび／またはビデオ記録が、結合埋込空間を使用して、注釈を付けることができる。別の実施形態では、１つ以上のアイテムタイプのオーディオ、ビデオ、画像、およびテキストは、相互に関連することができる。例えば、注釈「イルカ」と意味的に関連する、全アイテムが、タイプに関わらず、結合埋込空間内における注釈「イルカ」までのそれらのアイテムの距離に基づいて、読み出すことができる。

図６は、ある実施形態による、複数のアイテムタイプの意味的に関連したアイテムを関連付けるための別の方法６００を例証する。方法６００は、記憶されたアイテム間の意味的関連付けに基づいて、アイテムを読み出すために使用することができる。ある実施形態では、方法６００は、意味的クエリモジュール１４８内に実装することができる。例えば、方法６００は、アイテムタイプに関わらず、クエリアイテムと意味的に関連付けられた結合埋込空間内の全アイテムを読み出すために使用することができる。

ステップ６０２および６０４は、前述のステップ２０２ならびに２０４に類似する。前述のように、ステップ２０４に続いて、結合埋込空間は、現在利用可能なトレーニングデータセットによって、トレーニングを完了し、トレーニングされた結合埋込空間と称することができる。

ステップ６０６では、埋め込まれたアイテムは、トレーニングされた結合埋込空間内で識別される。識別ステップは、特定のキーワードを指定するクエリ要求の受信によって、トリガされてもよい。次いで、受信したクエリキーワードは、トレーニングされた結合埋込空間内で識別することができる。

ステップ６０８では、識別されたアイテムと関連付けられた他の埋め込まれたアイテムが、選択される。ある実施形態では、所定の閾値未満である、識別されたアイテムからの距離を有する、全アイテムが、関連付けられたアイテムとして見なすことができる。

ステップ６１０では、関連付けられたアイテムが、出力される。例えば、クエリアイテムに関連する、アイテムのリストが、返されてもよい。

別の実施形態によると、結合埋込空間は、音楽情報クエリシステム内で利用することができる。例えば、図７に示されるように、音楽情報クエリシステム７００は、少なくとも１つのサーバシステム１００と、サーバシステム１００と通信する、１つ以上のクライアント７８０と、を含むことができる。ある実施形態によると、クライアント７８０からのクエリに応答して、サーバシステム１００は、結合埋込空間を使用して、特定のアーティストに属する歌のリストまたは歌を返す、所与のオーディオトラックに最も類似する歌を返す、規定された注釈と最も関連付けられた歌のリストを返す、および同様のタスク等のタスクを行うように構成される。例えば、意味的クライアントクエリモジュール７８２は、クライアント７８０が、サーバシステム１００にクエリを行うための論理を含んでもよい。

図８に示されるように、ある実施形態では、音楽情報クエリシステム７００は、図１に示されるサーバ１００のモジュールのいくつかに加え、またはその代わりに、いくつかのモジュール８７２-８７８を含むことができる。ある実施形態によると、システム７００では、トレーニングデータ１１４は、既知のオーディオトラックアーティスト８７４（例えば、音楽家名、アーティスト名）、既知のオーディオトラック特色８７２、既知のオーディオトラック８７６、および既知のオーディオ注釈８７８のアイテムタイプの１つ以上に属する、アイテムを含んでもよい。既知のオーディオトラック特色８７２タイプのアイテムは、例えば、音楽のタイプ、楽器等、オーディオトラックの特色をを記述している、タグまたは他の注釈を含むことができるが、それらに限定されない。タグまたは注釈の実施例はまた、声、声無し、クラッシック、非クラッシック、ドラム、ドラム無し等の記述を含むことができる。タグは、特定のオーディオトラックに対して、ユーザが割り当てたタグを含んでもよい。オーディオトラックアナライザ８８２は、オーディオトラックを分析し、オーディオトラックを記述している、１つ以上の特色を決定するための論理を含んでもよい。

ある実施形態では、オーディオトラック特色は、メル周波数ケプストラム係数（ＭＦＣＣ）表現に従って、決定されるものを含む。各オーディオトラックに対して、ＭＦＣＣのサブセットが、オーディオトラックの特徴として、決定することができる。別の実施形態では、これらのＭＦＣＣは、付加的特徴として、その第１および第２の派生物と組み合わせることができる。さらに別の実施形態では、一式の典型的ＭＦＣＣが、トレーニングデータセットに対して決定され、各オーディオトラックの特色は、決定された典型的ＭＦＣＣに対応する、オーディオトラック内のフレーム数のカウントのベクトルによって、表される。他の例示的オーディオトラック特色または特徴は、スペクトル特徴、時間特徴、および安定化聴覚イメージ（ＳＡＩ）特徴を含む。ＳＡＩ特徴は、適応極零点フィルタカスケード聴覚フィルタバンクに基づく。オーディオトラックの特徴は、特徴ベクトルとして、表すことができる。

前述のように、トレーニングデータ１１４からのデータは、結合埋込空間１５０を埋め込むために使用される。新しいオーディオアイテムエンベッダ８８０は、結合埋込空間１５０内に、オーディオアイテムを埋め込むための論理を含んでもよい。例えば、ある実施形態では、新しいオーディオアイテムエンベッダ８８０は、新しい歌が、マッパ１４２を使用して、学習されたマッピング関数に基づいて、埋め込まれるべき場所を決定することができる。ある実施形態では、新しいオーディオアイテムエンベッダ８８０は、新しい歌の一式の特徴を決定し、一式の特徴から結合埋込空間１５０内の場所までのマッピングを使用する。オーディオアノテータ８８４は、結合埋込空間１５０内のオーディオアイテムの関連付けに基づいて、注釈を決定するための論理を含んでもよい。

図９は、サーバシステム１００が、ある実施形態による、クライアント７８０からのクエリに応答するための方法９００を例証する。ステップ９０２では、サーバシステム１００は、クライアント７８０からクエリを受信する。クエリは、例えば、アーティスト名を含むことができる。ステップ９０４では、サーバシステム１００は、結合埋込空間１５０内に、１つ以上のアイテム（例えば、受信したアーティスト名）を埋め込む。埋め込まれたクエリからの所定の距離内の結合埋込空間１５０内のアイテム、またはそれに最も近い、アイテムが、見つけられる。次いで、決定されたアイテムを使用して、クエリへの応答を形成する。前述の方法２００を使用して、例えば、ステップ９０４の関数を行うことができる。ステップ９０６では、クエリへの結果が、クエリを行うクライアントに返される。

ある実施形態によると、音楽クエリ情報システム７００は、結合埋込空間１５０を含み、それを使用して、音楽に帰属する歌、アーティスト、およびタグがすべて、これらの音楽概念のそれぞれの意味、ひいては、それらの間の関係を捕捉するための単一モデルを結合して学習することによって、推測することができる。結合埋込空間１５０を使用することによって、これらの意味的関係は、次元ｄの特徴空間内にモデル化され、音楽概念（歌、アーティスト、またはタグ）が、座標ベクトルとして、表される。２つの概念間の類似性は、その２つのベクトル表現間のドット積を使用して、測定することができる。他の可能性として考えられるインスタンス化は、代わりに、２つのベクトル表現間の余弦類似性メトリック、またはユークリッド距離、またはｐノルム距離を使用して、類似性を測定することを含む。ベクトルは、（例えば、精度メトリックを最適化することによって）アーティスト予測（例えば、歌またはオーディオクリップを前提として、それを行った可能性のあるアーティストのランク付けされたリストを返す）、歌予測（例えば、アーティスト名を前提として、そのアーティストによって行われた可能性がある歌のランク付けされたリストを返す）、類似アーティスト（例えば、アーティスト名を前提として、そのアーティストに類似するアーティストのランク付けされたリストを返す）、類似の歌（例えば、歌またはオーディオクリップを前提として、それに類似する歌のランク付けされたリストを返す）、およびタグ予測（例えば、歌またはオーディオクリップを前提として、歌を最も説明し得る、タグのランク付けされたリストを返す）等のタスクの類似性の関連を誘発するように学習されてもよい。精度メトリックは、いくつかの所定の値ｋに対して、最初のｋが返した結果内の真陽性の数を含むことができる。

ある実施形態によると、トレーニングデータベース１１４は、アーティスト名、歌（そのオーディオコンテンツに対応する特徴の形式において）、および歌と関連付けられたタグを含むことができる。データベース内の情報は、（８）におけるように表すことができる。

式中、各トリプレットは、ｉによって示される歌を表し、α_ｉは、アーティスト特徴であって、ｔ_ｉは、タグ特徴、ｓ_ｉは、オーディオ（音）特徴である。各歌は、その一式のアーティストα_ｉおよび／または対応する一式のタグｔ_ｉに帰属してもよい。歌自体のオーディオは、｜Ｓ｜-次元実数値特徴ベクトルｓ_ｉとして、表される。

所与のアーティストの場合、ｉ＝１…｜Ａ｜、その座標ベクトルは、（９）におけるように表される。

Φ_{Ａｒｔｉｓｔ}（ｉ）：｛１，．．．，｜Ａ｜｝→Ｒ^ｄ＝Ａ_ｉ（９）
式中、Ａ＝［Ａ_１．．．Ａ_｜Ａ｜］は、データベース内の全アーティストのパラメータ（ベクトル）のｄ´｜Ａ｜マトリクスである。本マトリクス全体は、アルゴリズムのトレーニング相の間、学習されることができる。

同様に、所与のタグｉ＝１…｜Ｔ｜の場合、その座標ベクトルは、（１０）におけるように表すことができる。

Φ_Ｔａｇ（ｉ）：｛１，…，｜Ｔ｜｝→Ｒ^ｄ＝Ｔ_ｉ（１０）
式中、Ｔ＝［Ｔ_１．．．Ｔ_｜Ｔ｜］は、データベース内の全タグのパラメータ（ベクトル）のｄ´｜Ｔ｜マトリクスである。本マトリクスも、アルゴリズムのトレーニングフェーズの間、学習されることができる。

歌またはオーディオクリップの場合、以下の関数は、（１１）におけるように、線形変換Ｖを使用して、そのオーディオ特徴をｄ-次元ベクトルにマップする。

Φ_Ｓｏｎｇ（ｓ’）：Ｒ^｜Ｓ｜→Ｒ^ｄ＝Ｖｓ’（１１）
ｄ´｜Ｓ｜マトリクスＶもまた、トレーニングフェーズの間、学習されることができる。アイテムタイプに対するマッピング関数はまた、図３のステップ３０４に関連して前述される。

ある実施形態によると、音楽クエリ情報システム７００内の結合埋込空間の目標は、所与の入力またはクエリに対して、タスク（例えば、アーティスト予測、歌予測等）に応じて、最も高くランク付けされた出力が、その入力に対して、最も意味的に一致するように、着目の可能性として考えられる出力をランク付けすることである。例えば、アーティスト予測タスクの場合、（１２）等の最適化またはランク付けとなる。

類似ランク付け関数は、全ての他のタスク（例えば、アーティスト予測、歌予測等）のために定義することができる。実施形態によると、これらのタスクの多くは、同一パラメータを共有し、例えば、歌予測および類似アーティストタスクは、マトリクスＡを共有する一方、タグ予測および歌予測タスクは、マトリクスＶを共有する。そのような共有は、２つ以上のタスクを結合して行うように、結合埋込空間１５０の上述のパラメータＡ、Ｔ、およびＶを学習することを可能にする。タスクを結合して行うことは、多重タスク学習と称されてもよい。

ある実施形態によると、タスクのために最適化されるべき目的関数は、Σ_ｉｅｒｒ’（ｆ（ｘ_ｉ），ｙ_ｉ）として定義することができ、式中、ｘは、一式の入力例（例えば、トレーニングデータからの）であって、ｙは、一式の対応するトレーニングされた標的例であって、ｅｒｒ’は、現在のランク付けの質を測定する、損失関数である。ある実施形態によると、Σ_ｉｅｒｒ’（ｆ^ＴＰ（ｓ_ｉ），ｔ_ｉ）は、タグ予測タスクのために最小化することができ、Σ_ｉｅｒｒ’（ｆ^ＡＰ（ｓ_ｉ），α_ｉ）は、アーティスト予測タスクのために最小化することができる。前述の（５）に関連して説明されるものと同様の実施形態では、タスク関数はそれぞれ、別個に最小化することができる。別の実施形態によると、タスク関数は、多重タスク化、またはより具体的には、（１３）におけるように、ともに最小化することができる。

（１３）に示されるように、これらの２つのタスクを多重タスク化するために、（加重されていない）２つの目的関数の和を考慮することができる。多重タスク化は、（１３）に示されるように、２つを超えるタスクに拡張することができる。例えば、（１３）におけるもの等、種々のタスクのための結合埋込空間の最適化は、別の実施形態に関連して前述のように、確率的勾配降下法アプローチを使用して、行うことができる。これは、以下の手順を反復的に繰り返すことになり得る。タスクの１つをランダムにピックアップする、本タスクのためのトレーニング入力-出力対の１つをピックアップする、および本タスクおよび入力-出力対のための勾配ステップを作成する。反復は、誤差の規模（例えば、前述からのｅｒｒ'）等の終了基準が、閾値を下回るまで、継続する。手順は、２つを超えるタスクを考慮する時と同一である。結合埋込空間を最適化するための勾配降下法の適用は、図４-５に関連して前述されている。

（結論）
発明の開示および要約は、発明者によって熟考された、全部ではないが、本発明の例示的実施形態の１つ以上を説明し得、したがって、本発明および添付の請求項をいかようにも限定することを意図するものではない。

本発明は、規定された関数およびその関係の実装を例証する、機能的構築ブロックを用いて、前述されている。これらの関数構築ブロックの境界は、説明の便宜上、本明細書では、任意に画定されている。代替境界も、規定された関数およびその関係が、適切に行われる限り、画定することができる。

具体的実施形態の前述の説明は、他者が、当技術分野内の知識を適用することによって、本発明の一般的概念から逸脱することなく、必要以上の実験を伴うことなく、種々の用途のために、そのような具体的実施形態を容易に修正および／または適応することができるように、本発明の一般的性質を完全に明らかにするであろう。したがって、そのような適応および修正は、本明細書に提示される教示および指針に基づいて、開示される実施形態の意味および均等物の範囲内であると意図される。本明細書の表現または用語は、本明細書の用語または表現が、教示および指針に照らして、当業者によって解釈されるべきように、限定ではなく、説明の目的のためのものであることを理解されたい。

本発明の幅および範囲は、前述の例示的実施形態のいずれかによっても限定されるべきではなく、以下の請求項およびその均等物に従ってのみ、定義されるべきである。

Claims

複数のアイテムタイプの意味的に関連したアイテムを関連付けるための方法であって、前記方法は、少なくとも１つのプロセッサによって実行され、前記方法は、
（ａ）前記少なくとも１つのプロセッサが、前記少なくとも１つのプロセッサに結合されたメモリ内に構成されている２次元よりも大きい次元を有する結合埋込空間内に、前記複数のアイテムタイプの複数のトレーニングアイテムを埋め込むことであって、前記次元の各々は、実数値軸によって画定され、各埋め込まれたトレーニングアイテムは、前記結合埋込空間内のそれぞれの場所に対応し、前記各埋め込まれたトレーニングアイテムは、前記それぞれの場所に対応するそれぞれの実数のベクトルによって表され、前記ベクトルの実数の各々は、前記それぞれの場所を前記次元のうちの１つにマッピングすることに対応する、ことと、
（ｂ）前記少なくとも１つのプロセッサが、前記複数のアイテムタイプの各々に対して、前記結合埋込空間内への１つ以上のマッピングを学習することにより、トレーニングされた結合埋込空間と１つ以上の学習されたマッピングとを生成することと、
（ｃ）前記少なくとも１つのプロセッサが、前記複数の埋め込まれたトレーニングアイテムのうちの１つ以上を第１のアイテムと関連付けることであって、前記関連付けることは、前記第１のアイテムから各関連付けられた埋め込まれたトレーニングアイテムまでの前記トレーニングされた結合埋込空間内の距離に基づいて行われ、各距離は、前記第１のアイテムに対応する実数の第１のベクトルと、前記関連付けられた埋め込まれたトレーニングアイテムのうちのそれぞれのアイテムに対応する実数の第２のベクトルとに基づいて決定される、ことと
を含む、方法。
（ｄ）前記少なくとも１つのプロセッサが、前記トレーニングされた結合埋込空間内の前記複数のアイテムタイプの第１のアイテムタイプに対して、前記１つ以上の学習されたマッピングを適用することによって決定された第１の場所に、前記第１のアイテムを埋め込むこと
をさらに含む、請求項１に記載の方法。
（ｅ）前記少なくとも１つのプロセッサが、前記１つ以上の関連付けられた埋め込まれたトレーニングアイテムに基づいて、前記第１のアイテムに注釈を付けること
をさらに含む、請求項２に記載の方法。
前記学習するステップ（ｂ）は、
（ｉ）前記少なくとも１つのプロセッサが、前記複数の埋め込まれたトレーニングアイテムから、第２のアイテム、第３のアイテム、第４のアイテムを選択することであって、前記第２のアイテムと前記第３のアイテムとは関連し、前記第２のアイテムと前記第４のアイテムとは関連しない、ことと、
（ｉｉ）前記少なくとも１つのプロセッサが、第１の距離が第２の距離未満であることを決定することであって、前記第１の距離は、前記結合埋込空間内での前記第２のアイテムと前記第３のアイテムとの間の距離であり、前記第２の距離は、前記結合埋込空間内での前記第２のアイテムと前記第４のアイテムとの間の距離である、ことと、
（ｉｉｉ）前記少なくとも１つのプロセッサが、前記決定に基づいて、前記１つ以上の学習されたマッピングを調節することと
を含む、請求項２に記載の方法。
前記調節するステップ（ｉｉｉ）は、前記少なくとも１つのプロセッサが、前記第２のアイテム、前記第３のアイテムおよび前記第４のアイテムのうちの少なくとも１つの前記結合埋込空間内の場所を変更することをさらに含む、請求項４に記載の方法。
前記場所を変更するステップは、
前記少なくとも１つのプロセッサが、前記第２のアイテムと前記第３のアイテムとの間の距離が前記第２のアイテムから前記第４のアイテムまでの距離未満であるように、前記結合埋込空間内で前記第２のアイテム、前記第３のアイテムまたは前記第４のアイテムのうちの少なくとも１つを移動させることを含む、請求項５に記載の方法。
前記移動させることは、確率的勾配降下法に基づく、請求項６に記載の方法。
前記調節することは、確率的勾配降下法に基づく、請求項４に記載の方法。
前記選択するステップ（ｉ）は、
前記少なくとも１つのプロセッサが、前記第２のアイテムから選択されたアイテムまでの距離が前記第２のアイテムと前記第３のアイテムとの間の距離未満となるまで、前記第４のアイテムとしてアイテムを反復的に選択することと、
前記少なくとも１つのプロセッサが、前記第４のアイテムを選択するために必要とされる反復数に基づいて、前記第２のアイテムに関連する前記第３のアイテムのランクを予測することと
を含む、請求項４に記載の方法。
前記場所を変更するステップは、
前記少なくとも１つのプロセッサが、前記第２のアイテムと前記第３のアイテムとの間の距離が前記第２のアイテムから前記第４のアイテムまでの距離未満であるように、前記結合埋込空間内で前記第２のアイテム、前記第３のアイテムまたは前記第４のアイテムのうちの少なくとも１つを移動させることを含む、請求項９に記載の方法。
前記移動させることは、前記予測されたランクに基づいて加重された、確率的勾配降下法に基づく、請求項１０に記載の方法。
前記学習するステップ（ｂ）は、
（ｉｖ）所定の終了基準が充足されるまで、少なくともステップ（ｉ）-（ｉｉｉ）を繰り返すこと
をさらに含む、請求項４に記載の方法。
前記学習するステップ（ｂ）は、
前記少なくとも１つのプロセッサが、前記第１のアイテムタイプの全アイテムに対する第１のマッピング関数を学習することと、
前記少なくとも１つのプロセッサが、第２のアイテムタイプの複数のアイテムのそれぞれに対して、それぞれのマッピング関数を学習することと
をさらに含む、請求項４に記載の方法。
前記少なくとも１つのプロセッサが、前記トレーニングされた結合埋込空間内でクエリサブジェクトを識別することであって、前記クエリサブジェクトは、埋め込まれたトレーニングアイテムである、ことと、
前記少なくとも１つのプロセッサが、結果アイテムとして、前記クエリサブジェクトの所定の距離内に位置する、１つ以上のトレーニングされた埋め込まれたアイテムを決定することと、
前記少なくとも１つのプロセッサが、前記結果アイテムを出力することと
をさらに含む、請求項１に記載の方法。
複数のアイテムタイプの意味的に関連したアイテムを関連付けるためのシステムであって、前記システムは、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに結合されたメモリと、
前記メモリ内の結合埋込空間内に、前記複数のアイテムタイプの複数のトレーニングアイテムを埋め込むように構成されている結合埋込空間コンフィギュレータであって、前記結合埋込空間は、２次元よりも大きい次元を有し、前記次元の各々は、実数値軸によって画定され、各埋め込まれたトレーニングアイテムは、前記結合埋込空間内のそれぞれの場所に対応し、前記各埋め込まれたトレーニングアイテムは、前記それぞれの場所に対応するそれぞれの実数のベクトルによって表され、前記ベクトルの実数の各々は、前記それぞれの場所を前記次元のうちの１つにマッピングすることに対応する、結合埋込空間コンフィギュレータと、
前記複数のアイテムタイプの各々に対して、前記結合埋込空間内への１つ以上のマッピングを学習することにより、トレーニングされた結合埋込空間と１つ以上の学習されたマッピングとを生成するように構成されているマッパと、
前記複数の埋め込まれたトレーニングアイテムのうちの１つ以上を第１のアイテムと関連付けるように構成されているアイテムアソシエータであって、前記関連付けることは、前記第１のアイテムから各関連付けられた埋め込まれたトレーニングアイテムまでの前記トレーニングされた結合埋込空間内の距離に基づいて行われ、各距離は、前記第１のアイテムに対応する実数の第１のベクトルと、前記関連付けられた埋め込まれたトレーニングアイテムのうちのそれぞれのアイテムに対応する実数の第２のベクトルとに基づいて決定される、アイテムアソシエータと
を含む、システム。
前記トレーニングされた結合埋込空間内の第１の場所に、第１のアイテムを埋め込むように構成されている新しいアイテムエンベッダをさらに含み、前記第１の場所は、前記複数のアイテムタイプの第１のアイテムタイプに対して、学習されたマッピングを適用することによって決定される、請求項１５に記載のシステム。
前記１つ以上の関連付けられた埋め込まれたトレーニングアイテムに基づいて、前記第１のアイテムに注釈を付けるように構成されているアノテータをさらに含む、請求項１６に記載のシステム。
前記マッパは、確率勾配法を使用して、１つ以上のアイテムタイプに対して、前記マッピングを学習するようにさらに構成されている、請求項１６に記載のシステム。
前記アイテムアソシエータは、
前記第２のアイテムから選択されたアイテムまでの距離が前記第２のアイテムと第３のアイテムとの間の距離未満となるまで、前記第４のアイテムとしてアイテムを反復的に選択することと、
前記第４のアイテムを選択するために必要とされる反復数に基づいて、前記第２のアイテムに関連する前記第３のアイテムのランクを予測することと、
前記第２のアイテムと第３のアイテムとの間の距離が前記第２のアイテムから前記第４のアイテムまでの距離未満であるように、前記結合埋込空間内で前記第２のアイテム、前記第３のアイテムまたは前記第４のアイテムのうちの少なくとも１つを移動させることであって、前記移動させることは、前記予測されたランクに基づいて加重された確率勾配法に基づく、ことと
を行うようにさらに構成されている、請求項１８に記載のシステム。
前記結合埋込空間は、所定の数の実数値軸を含む、請求項１５に記載のシステム。
前記トレーニングされた結合埋込空間内でクエリサブジェクトを識別することであって、前記クエリサブジェクトは、埋め込まれたトレーニングアイテムである、ことと、
結果アイテムとして、前記クエリサブジェクトの所定の距離内に位置する、１つ以上のトレーニングされた埋め込まれたアイテムを決定することと
を行うように構成されている意味的クエリモジュールをさらに含む、請求項１５に記載のシステム。
命令を格納したコンピュータ読み取り可能な媒体であって、前記命令は、実行されると、方法を用いて複数のアイテムタイプの意味的に関連したアイテムを関連付けることを少なくとも１つのプロセッサに行わせ、前記方法は、
少なくとも１つのプロセッサに結合されたメモリ内に構成されている結合埋込空間内に、前記複数のアイテムタイプの複数のトレーニングアイテムを埋め込むことであって、前記結合埋込空間は、２次元よりも大きい次元を有し、前記次元の各々は、実数値軸によって画定され、各埋め込まれたトレーニングアイテムは、前記結合埋込空間内のそれぞれの場所に対応し、前記各埋め込まれたトレーニングアイテムは、前記それぞれの場所に対応するそれぞれの実数のベクトルによって表され、前記ベクトルの実数の各々は、前記それぞれの場所を前記次元のうちの１つにマッピングすることに対応する、ことと、
前記複数のアイテムタイプの各々に対して、前記結合埋込空間内への１つ以上のマッピングを学習することにより、トレーニングされた結合埋込空間と１つ以上の学習されたマッピングとを生成することと、
前記複数の埋め込まれたトレーニングアイテムのうちの１つ以上を第１のアイテムと関連付けることであって、前記関連付けることは、前記第１のアイテムから各関連付けられた埋め込まれたトレーニングアイテムまでの前記トレーニングされた結合埋込空間内の距離に基づいて行われ、各距離は、前記第１のアイテムに対応する実数の第１のベクトルと、前記関連付けられた埋め込まれたトレーニングアイテムのうちのそれぞれのアイテムに対応する実数の第２のベクトルとに基づいて決定される、ことと
を含む、コンピュータ読み取り可能な媒体。
クエリに応答するための方法であって、前記方法は、少なくとも１つのプロセッサによって実行され、前記方法は、
前記少なくとも１つのプロセッサが、前記クエリを受信することと、
前記少なくとも１つのプロセッサが、前記クエリに応答して、前記少なくとも１つのプロセッサに結合されたメモリ内に構成されている２次元よりも大きい次元を有する結合埋込空間内の場所を決定することであって、前記次元の各々は、実数値軸によって画定され、各埋め込まれたトレーニングアイテムは、前記それぞれの場所に対応するそれぞれの実数のベクトルによって表され、前記ベクトルの実数の各々は、前記それぞれの場所を前記次元のうちの１つにマッピングすることに対応し、前記結合埋込空間内に埋め込まれた第１のアイテムと第２のアイテムとの間の距離は、前記第１のアイテムと前記第２のアイテムとの間の意味的関係に対応し、前記距離は、前記第１のアイテムに対応する実数の第１のベクトルと、前記第２のアイテムに対応する実数の第２のベクトルとに基づいて決定され、複数のアイテムタイプの複数のアイテムは、前記結合埋込空間内に埋め込まれる、ことと、
前記少なくとも１つのプロセッサが、前記場所に最も近接する、前記結合埋込空間内に埋め込まれた１つ以上のアイテムに基づいて、１つ以上の結果を識別することと、
前記少なくとも１つのプロセッサが、前記クエリへの応答として、前記１つ以上の結果を返すことと
を含む、方法。
前記場所を決定することは、
前記少なくとも１つのプロセッサが、前記受信したクエリに基づいて、クエリアイテムを決定することと、
前記少なくとも１つのプロセッサが、前記クエリアイテムを前記場所に埋め込むことであって、前記場所は、前記クエリアイテムのアイテムタイプに対して、少なくとも１つの学習されたマッピングを適用することによって、決定される、ことと
を含む、請求項２３に記載の方法。
前記クエリは、アーティスト名または歌を含み、前記１つ以上の結果は、第２のアーティスト名および第２の歌のうちの少なくとも１つを含み、前記第２のアーティスト名および第２の歌のうちの少なくとも１つは、前記アーティスト名または前記歌と関連付けられている、請求項２３に記載の方法。
前記クエリは、タグを含み、前記１つ以上の結果は、少なくとも１つの画像を含み、前記画像は、前記タグと関連付けられている、請求項２３に記載の方法。
クエリを行う方法であって、前記方法は、少なくとも１つのプロセッサによって実行され、前記方法は、
前記少なくとも１つのプロセッサが、クエリをサーバに伝送することであって、前記サーバは、前記少なくとも１つのプロセッサに結合されたメモリ内に構成されている２次元よりも大きい次元を有する結合埋込空間を含み、前記次元の各々は、実数値軸によって画定され、各埋め込まれたトレーニングアイテムは、前記それぞれの場所に対応するそれぞれの実数のベクトルによって表され、前記ベクトルの実数の各々は、前記それぞれの場所を前記次元のうちの１つにマッピングすることに対応し、前記結合埋込空間内に埋め込まれた第１のアイテムと第２のアイテムとの間の距離は、前記第１のアイテムと前記第２のアイテムとの間の意味的関係に対応し、前記距離は、前記第１のアイテムに対応する実数の第１のベクトルと、前記関連付けられた埋め込まれたトレーニングアイテムのうちのそれぞれのアイテムに対応する実数の第２のベクトルとに基づいて決定され、複数のアイテムタイプのアイテムは、前記結合埋込空間内に埋め込まれる、ことと、
前記少なくとも１つのプロセッサが、前記サーバから応答を受信することであって、前記応答は、前記結合埋込空間内における、前記クエリに対応する場所を識別し、前記識別された場所に最も近い１つ以上の結果アイテムを識別することによって、前記サーバによって形成される、ことと
を含む、方法。