JP2023024950A

JP2023024950A - 共有されたニューラルアイテム表現をコールドスタート推薦に用いる改良型のレコメンダシステム及び方法

Info

Publication number: JP2023024950A
Application number: JP2022124085A
Authority: JP
Inventors: ラミン・ラジパーチコライ; Raziperchikolaei Ramin
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2021-08-06
Filing date: 2022-08-03
Publication date: 2023-02-21
Anticipated expiration: 2042-08-03
Also published as: TW202314558A; JP7460703B2; US20230055699A1; EP4131122A1

Abstract

【課題】電子商取引プラットフォームでのコールドスタート予測において、より少ないトレーニング反復数で良好な性能を達成するレコメンダシステム及び方法を提供する。【解決手段】レコメンダシステムは、サイド情報しか利用可能でないコールドスタートアイテムに関するユーザ・アイテムのインタラクションを予測し、アイテムニューラルネットワークエンコーダによってアイテムサイド情報から生成されたアイテム表現を、ユーザニューラルネットワークと共有し、これらのアイテム表現を、ユーザフィードバック履歴とともに使用して、ユーザ表現を生成する。特に、ユーザニューラルネットワークエンコーダの第１層における重み行列を、共有されたアイテムの埋込みにより固定する。これにより、ユーザニューラルネットワークエンコーダの第１層の出力が、ユーザがポジティブなフィードバックを提供したアイテムのアイテム表現の関数になる。【選択図】図３

Description

本発明は概して、機械学習に基づくレコメンダシステムに関し、より具体的には、共有されたニューラルアイテム表現をコールドスタート推薦に使用するレコメンダシステムに関する。

［関連出願］
本出願は、発明の名称が「Shared Neural Item Representations for Completely Cold Start Problem」である２０２１年８月６日出願の米国仮出願第６３／２３０，６７６号の利益を主張するものである。この米国仮出願の内容は、引用することにより本明細書に完全に開示されているかの如く本明細書の一部をなすものとする。

本出願は、発明の名称が「Shared Neural Item Representations for Completely Cold Start Problem」である２０２１年８月１８日出願の米国仮出願第６３／２３４，６５１号の利益をも主張するものである。この米国仮出願の内容は、引用することにより本明細書に完全に開示されているかの如く本明細書の一部をなすものとする。

多くのショッピングプラットフォームでレコメンダシステムが用いられている。レコメンダシステムの目標は、或るアイテムに関する既知のユーザのフィードバックを利用し、未知のユーザのフィードバックを予測することである。ユーザとアイテムのインタラクションと呼ばれることの多いこのフィードバックは、暗示的なもの（例えば、購入した、あるいは購入する可能性がある）とすることができ、又は明示的なもの（例えば、１～５のレーティング）とすることができる。予測されたフィードバックは、ショッピングプラットフォームにおいてアイテムをユーザに推薦するために使用することもできるし、ターゲティングされたアイテムの広告を提供するために使用することもできる。

多くのレコメンダシステムは、機械学習モデルを使用して予測を行う。例えば、ニューラル協調フィルタリング（ＮＣＦ：neural collaborative filtering）システムが、ニューラルネットワークエンコーダをユーザデータ及びアイテムデータに適用してユーザデータ及びアイテムデータの表現を生成し、次に、これらのユーザ表現及びアイテム表現を用いてアイテムのユーザフィードバックを予測する。

レコメンダシステムは、入力される様々なソースを用いて、当該システムのタスクを実行することができる。１つの重要な情報ソースは、アイテムに関するユーザの過去のフィードバックである。プラットフォーム上で高い売上高を有するアイテムについては、最良の予測結果は大抵、ユーザニューラルネットワークへの入力とアイテムニューラルネットワークへの入力との双方がフィードバックデータを含んでいるときに得られる。しかし、このことは「コールドスタートアイテム」には当てはまらない。コールドスタートアイテムとは、当該アイテムに関連した予測を行うためのフィードバック履歴が存在しないか又は履歴が不十分なアイテムのことである。

コールドスタートアイテムのユーザ・アイテムのインタラクションを予測するために、既知の解決策の１つは、ユーザニューラルネットワークエンコーダへの入力にユーザフィードバックを使用し、アイテムニューラルネットワークエンコーダへの入力としてアイテムのサイド情報を使用することである。ニューラルネットワークエンコーダが、既知のポジティブなインタラクションを有するユーザ及びアイテムのペアについては類似のユーザ表現及びアイテム表現を生成し、それ以外については非類似の表現を生成できるように、エンコーダのパラメータがトレーニング時に学習される。

ニューラルネットワークのトレーニングは計算量が多い。トレーニングデータが多いほど、予測はより良好なものとなる。しかし、上述したシステムでは、トレーニング時に学習が必要なエンコーダのパラメータ数は、ユーザ及びアイテムの数が増加するにつれてほぼ線形に増加する。エンティティがレコメンダシステムにますます依拠するにつれて、より少ないトレーニング反復数であってもそのようなシステムの性能向上が絶えず続くことが求められている。

本開示は、電子商取引プラットフォーム上でのコールドスタート予測の改良された機械学習ベースのレコメンダシステム及び方法に関する。この改良されたシステムは、サイド情報しか利用できないコールドスタートアイテムに関してユーザ・アイテムのインタラクションを予測する。既知の解決策と同様に、システムは、ユーザニューラルネットワークエンコーダ及びアイテムニューラルネットワークエンコーダによってそれぞれ生成されたユーザ表現及びアイテム表現に基づいて、ユーザ・アイテムのインタラクション値を予測する。他方、既知の解決策とは異なり、アイテムニューラルネットワークエンコーダによりアイテムのサイド情報から生成されたアイテム表現は、ユーザニューラルネットワークエンコーダと共有される。特に、ユーザニューラルネットワークエンコーダの第１層における重み行列をランダムに生成された埋込みを用いて初期化したのちトレーニング時に最適な重みを学習するのではなく、アイテムニューラルネットワークエンコーダによって生成されユーザニューラルネットワークエンコーダと共有されるアイテムの埋込みを用いて重み行列が固定される。

ユーザ表現を生成するために、ユーザニューラルネットワークは、入力されるユーザ・アイテムのインタラクションベクトルに適用される。この入力ベクトルは、ユーザがポジティブなインタラクションを有したことがある各アイテムについては「１」の値を有し、それ以外の全てのアイテムについては「０」の値を有する。ユーザ・アイテムのインタラクションベクトルを入力として使用することと、共有されたアイテム表現をユーザニューラルネットワークエンコーダの第１層における重みとして使用することとを組み合わせることにより、ユーザニューラルネットワークエンコーダの第１層の出力が、ユーザがポジティブなフィードバックを提供したアイテムのアイテム表現に応じたものとなるという効果が得られる。これは、第１層の出力が、トレーニング時に学習されなければならないランダムに初期化された重みに応じて決まる既知のシステムとは異なる。これらの改良の結果、より少ないトレーニング反復数でより良好な性能が得られる。

一実施形態において、ユーザとアイテムのインタラクション値を予測する方法は、
トレーニングフェーズに関して、
（ａ）トレーニング用のユーザ及びアイテムのトレーニング用データセットを取得するステップであって、トレーニング用データセットは、データセット内の各アイテムのアイテムデータと、各トレーニング用ユーザのユーザインタラクションベクトルとを有し、ユーザインタラクションベクトルは、トレーニング用データセット内のユーザとアイテムの各ペアのインタラクション値を有するインタラクション行列から取得される、ステップと、
（ｂ）アイテムニューラルネットワークエンコーダを使用して、少なくとも１人のトレーニング用ユーザがポジティブなインタラクション値を有するトレーニング用データセット内の各アイテムのアイテムベクトル表現を計算するステップと、
（ｃ）上記アイテムベクトル表現を使用して、ユーザニューラルネットワークエンコーダの第１層の重み行列を設定するステップと、
（ｄ）トレーニング用データセット内のユーザとアイテムの各ペアにつき、
トレーニング用ユーザのユーザインタラクションベクトルにユーザニューラルネットワークエンコーダを適用することによって、ユーザベクトル表現を計算し、ここで、トレーニング用ユーザのユーザベクトル表現の計算において、ユーザニューラルネットワークエンコーダの第１層の出力は、トレーニング用ユーザがポジティブなインタラクション値を有するアイテムのアイテムベクトル表現の関数であり、
ペア内のアイテムのアイテムデータにアイテムニューラルネットワークエンコーダを適用することによって、アイテムベクトル表現を計算し、
ペアについて生成されたユーザベクトル表現及びアイテムベクトル表現に基づいて、ユーザとアイテムのペアの予測インタラクション値を計算するステップと、
（ｅ）トレーニング用セット内のユーザとアイテムのペアの予測インタラクション値と実際のインタラクション値との間の損失を算出するステップと、
（ｆ）アイテムニューラルネットワークエンコーダ及びユーザニューラルネットワークエンコーダのトレーニング可能なパラメータを、損失が最小となるように調整するステップと、
（ｇ）複数回の反復にわたってステップ（ｂ）～（ｆ）を繰り返すステップと
を行い、
予測フェーズに関して、
（ｈ）複数のアイテムのアイテムベクトル表現を計算するステップであって、アイテムベクトル表現は、アイテムのアイテムデータにアイテムニューラルネットワークエンコーダを適用することによって生成される、ステップと、
（ｉ）上記アイテムベクトル表現を使用して、ユーザニューラルネットワークエンコーダの第１層の重み行列を設定するステップと、
（ｊ）テストユーザに関して、
テストユーザのユーザインタラクションベクトルを取得し、
テストユーザとの既知のインタラクション値が存在しないアイテムｋのアイテムデータを取得し、
ユーザインタラクションベクトルにユーザニューラルネットワークエンコーダを適用することによって、テストユーザのユーザベクトル表現を計算し、ここで、ユーザニューラルネットワークエンコーダの第１層の出力は、テストユーザがポジティブなインタラクション値を有するアイテムのアイテムベクトル表現の関数であり、
アイテムｋのアイテムデータにアイテムニューラルネットワークエンコーダを適用することによって、アイテムｋのアイテムベクトル表現を計算し、
テストユーザ及びアイテムについて計算されたユーザベクトル表現及びアイテムベクトル表現に基づいて、テストユーザとアイテムｋの予測インタラクション値を計算するステップと
を行う。

１つの実施形態による、ユーザ・アイテムのインタラクション値を予測できるように機械学習モデルをトレーニングする方法を示すフローチャートである。１つの実施形態による、ユーザ・アイテムのインタラクション値を予測できるように機械学習モデルをトレーニングする方法を示すフローチャートである。１つの実施形態による、テストユーザ及びアイテムのインタラクション値を予測する方法を示すフローチャートである。１つの実施形態による、ユーザ・アイテムのインタラクション値を予測する機械学習モデルを示すブロック図である。１つの実施形態によるユーザニューラルネットワークエンコーダのアーキテクチャを示すブロック図である。１つの実施形態によるレコメンダシステムアーキテクチャの一例を示すブロック図である。

本開示は、電子商取引プラットフォーム上でのコールドスタート予測の改良された機械学習ベースのレコメンダシステム及び方法に関する。この改良されたシステムは、サイド情報しか利用できないコールドスタートアイテムに関してユーザ・アイテムのインタラクションを予測する。改良されたシステムでは、アイテムニューラルネットワークエンコーダによってアイテムのサイド情報から生成されたアイテム表現が、ユーザニューラルネットワークと共有され、ユーザフィードバック履歴とともに使用されてユーザ表現が生成される。その結果、より少ないトレーニング反復数でコールドスタートアイテムのより良好な性能（例えば、より良好な再現率（recall））を達成するレコメンダシステムが得られる。

本明細書に説明する方法は、コンピュータシステム（「システム」又は「レコメンダシステム」）によって実行される。このレコメンダシステムのトレーニングフェーズ及び予測フェーズの双方を以下に説明する。トレーニングフェーズにおいて、レコメンダシステムによって使用される機械学習型予測モデルが、ユーザ・アイテムのインタラクションを予測できるようにトレーニングされる。当該モデルが予測フェーズにおいて使用され、コールドスタートアイテムに関するユーザ・アイテムのインタラクションが予測される。

１．数学的表記
本明細書における数学的表記に関して、ユーザ・アイテムのインタラクション行列を

によって表すことにする。ただし、ｍ及びｎはそれぞれユーザ数及びアイテム数である。Ｒ_ｊｋは、ユーザｊとアイテムｋのインタラクション値である。Ｒ_ｊｋ＝１は、ユーザｊがアイテムｋとインタラクトした（例えば、アイテムｋを購入した）ことを意味し、Ｒ_ｊｋ＝０はインタラクションが不明であることを意味する。ｎ個の全てのアイテムのｓ次元サイド情報は、

により示す。行列Ｈの第ｉ行をＨ_ｉ，：により示し、第ｊ列をＨ_，ｊ：により示す。

ユーザのアイテムサポートセットは、ユーザがポジティブなインタラクション値を有するアイテムのセットである。Ｉ^ｊは、ユーザｊのアイテムサポートセット内のアイテムを示す。ただし、Ｎ_ｊはそのセットのサイズである。ユーザｊのアイテムサポートセットは、

により表される。

２．予測用モデル
レコメンダシステムは、機械学習モデル（「モデル」又は「予測用モデル」）を使用して、ユーザ・アイテムのインタラクション値を予測する。図３に、一実施形態によるモデルを示す。このモデルは、ユーザ入力データ３０５からユーザベクトル表現３６０を生成するユーザニューラルネットワークエンコーダ３４０と、入力アイテムデータ３１５からアイテムベクトル表現３５０を生成するアイテムニューラルネットワークエンコーダ３２０とを有する。以下で説明するように、ユーザ表現３６０は、ユーザがポジティブなインタラクション値を有するアイテム３１０（例えば、ユーザが過去に購入したアイテム）について、アイテムニューラルネットワークエンコーダ３２０によって生成されたアイテム表現３３０ａ～３３０ｂの関数でもある。或る実施形態において、ユーザ及びアイテムの予測されたインタラクション値は、ユーザ表現及びアイテム表現のドット積３７０である。モデルのトレーニングは、最も正確な予測を提供するユーザニューラルネットワークエンコーダ及びアイテムニューラルネットワークエンコーダのパラメータの学習を含む。

３．トレーニングフェーズ
図１に、ユーザとアイテムのインタラクションの予測を行うべく、レコメンダシステムによって使用される予測モデルをトレーニングする方法を示す。

２．１トレーニングデータの取得
システムは、アイテムデータとユーザデータとを有するトレーニング用データセットを取得する（ステップ１１０）。アイテムデータは、アイテムの特性を記載したデータである「サイドアイテムデータ」である。サイドアイテムデータの例は、商品のカテゴリ及びサブカテゴリである。

ユーザデータは、トレーニング用ユーザ毎にユーザ・アイテムのインタラクションベクトルを含む。ユーザ・アイテムのインタラクションベクトルは、ユーザがポジティブなインタラクションを示したことのある各アイテムについては「１」という値を有し、その他の全てのアイテムについては「０」という値を有する。ユーザインタラクションベクトルは、トレーニング用データセット内のユーザとアイテムの各ペアについてのインタラクション値を有するユーザ・アイテムのインタラクション行列から得られる。例として、ｍ人のユーザ及びｎ個のアイテムに関するユーザ・アイテムのインタラクション行列を以下に挙げる。

ユーザ・アイテム行列では、「１」は、ポジティブなインタラクション値を意味し、「０」は、インタラクション値が未知であることを意味する。例えば、或る実施形態において、「１」は、ユーザが当該アイテムを購入したことがあるということを意味する。別の実施形態において、「１」は、ユーザが、或る閾値を上回るアイテムの評価（例えば、５つ星評価において星３つ以上の評価）を行ったということを意味する。

ユーザｍについて入力されるユーザ・アイテムのインタラクションベクトルは、行列における第ｍ行であり、以下のとおりである。

２．２ユーザエンコーダと共有されるアイテム表現の生成
システムは、アイテムニューラルネットワークエンコーダ（３２０）を用いて、少なくとも１人のトレーニング用ユーザがポジティブなインタラクション値を有するトレーニング用データセット内の各アイテムのアイテムベクトル表現を計算する（ステップ１２０）。ステップ１２０において生成されたアイテム表現は、後述するように、ユーザニューラルネットワークエンコーダと共有される。

２．３アイテム表現とともに用いるユーザエンコーダ内の重み行列の設定
システムは、ステップ１２０にて生成されたアイテムベクトル表現を用いて、ユーザニューラルネットワークエンコーダの第１層における重み行列を設定する（ステップ１３０）。ユーザニューラルネットワークエンコーダの第１層の重み行列内の各重みベクトルは、トレーニング用データセット内のアイテムに対応する。アイテム表現が生成された各アイテムについて（少なくとも１人のユーザが当該アイテムとのポジティブなインタラクションを有するため）、それらのアイテムに対応する重みベクトルが、生成されたアイテム表現である。これによって、以下でより詳細に述べるように、各ユーザについて、ユーザニューラルネットワークエンコーダの第１層の出力が、ユーザがポジティブなインタラクション値を有するアイテムのアイテム表現の関数になるという効果が得られる。

２．４トレーニング用データセット内のユーザとアイテムの各ペアの予測インタラクション値の計算
システムは、トレーニング用データセット内のユーザとアイテムの各ペアの予測インタラクション値を計算する。これを、図１のステップ１４０～１６０に示す。ユーザとアイテムの各ペアについて、システムは、そのペア内のアイテムデータにアイテムニューラルネットワークエンコーダを適用することにより、アイテムベクトル表現を計算する（ステップ１４０）。同様に、システムは、トレーニング用ユーザのユーザ・アイテムのインタラクションベクトルにユーザニューラルネットワークエンコーダを適用することにより、そのペアにおけるトレーニング用ユーザのユーザベクトル表現を計算する（ステップ１４０）。ユーザニューラルネットワークエンコーダの第１層における重み行列は、トレーニング用データセット内のアイテムベクトル表現から構成されているため、ユーザニューラルネットワークの第１層の出力は、トレーニング用ユーザがポジティブなインタラクション値を有するアイテムのアイテムベクトル表現の関数となる。一実施形態において、ユーザニューラルネットワークエンコーダの第１層の出力を計算することは、ユーザがポジティブなインタラクション値を有するアイテムのアイテムベクトル表現に統合関数（fusion function）を適用することを含む。この統合関数は、複数の入力アイテムベクトル表現に基づいて単一のベクトルを生成する。統合関数により得られたこの単一のベクトルが、ユーザニューラルネットワークエンコーダの第１層の出力である。一例として、統合関数は、アイテムベクトル表現を平均する平均関数とすることができる。さらに、セクション２．７でより詳細に説明するように、統合関数は、上記アイテムベクトル表現と、インタラクション値が予測されているアイテムのアイテムベクトル表現との類似度に基づいて、上記アイテムベクトル表現の加重平均を計算する加重平均関数とすることができる。

システムは、ユーザとアイテムのペアの予測インタラクション値を、そのペアのユーザベクトル表現及びアイテムベクトル表現に基づいて計算する（ステップ１６０）。一実施形態において、予測インタラクション値は、ユーザ表現とアイテム表現とのドット積である。

２．５損失の計算とモデルパラメータの調整
システムは、トレーニング用データセット内のユーザとアイテムのペアの予測インタラクション値と実際のインタラクション値との間の損失を計算する（ステップ１７０）。システムは、損失が最小となるように、ユーザニューラルネットワークエンコーダ及びアイテムニューラルネットワークエンコーダのトレーニング可能なパラメータを調整する（ステップ１８０）。１つの実施形態において、ユーザニューラルネットワークエンコーダ及びアイテムニューラルネットワークエンコーダのそれぞれは、複数の層を有し、各層には重み行列が関連付けられている。これらの重み行列は、ユーザニューラルネットワークエンコーダの第１層における重み行列を除いて、調整可能なパラメータである。第１層の重み行列は固定され、トレーニング用データセット内のアイテム表現がその後の反復において変化したことに応じてのみ変化する。システムは、複数の反復にわたってステップ１２０～１８０を繰り返す。

モデルの目的関数は、数学的に以下のように表される。

ここで、
ｚ_ｊ ^ｕは、第ｊ番目のユーザ表現を示し、
ｚ_ｋ ^ｉは、第ｋ番目のアイテム表現を示し、
Ｒ_ｊｋは、ユーザとアイテムの実際のインタラクション値を示し、
ｇ^ｕは、ユーザニューラルネットワークエンコーダであり、
ｇ^ｉは、アイテムニューラルネットワークエンコーダであり、
σは、活性化関数であり、
Ｘは、トレーニング用データセット内の全てのアイテムについてのｓ次元のサイド情報行列（ｓは正の整数）であり、
Ｘ_ｋは、第ｋ番目のアイテムのサイド情報であり、
Ｗ_Ｌ ^ｕは、ユーザニューラルネットワークエンコーダの第Ｌ層（Ｌは正の整数）の重み行列である。

上記目的（損失）関数は、アイテムニューラルネットワークエンコーダｇ^ｉ及びユーザニューラルネットワークエンコーダｇ^ｕのパラメータにわたって最小化される。ただし、ｇ^ｕのパラメータは［Ｗ_２ ^ｕ．．．，Ｗ_Ｌ ^ｕ］である。Ｗ_１ ^ｕは、ユーザニューラルネットワークエンコーダの調整可能なパラメータではない。その理由は、Ｗ_１ ^ｕがステップ１２０にて生成されたアイテム表現を用いて定められるためである。

２．６ミニバッチを使用したより高速なトレーニング
一実施形態において、ユーザニューラルネットワークエンコーダ及びアイテムニューラルネットワークエンコーダは、ミニバッチ勾配降下法を用いてトレーニングされる。この実施形態において、トレーニング用データセットは複数のミニバッチに分割される。各ミニバッチについて、ユーザニューラルネットワークエンコーダの第１層における重み行列は、当該ミニバッチのユーザがインタラクトしたことのあるトレーニング用データセット全体におけるアイテムに基づいて設定される。各ミニバッチについて図１のステップ１４０及び１５０が実行される。

実世界のデータセットにおいて、各ユーザは少数のアイテムに対してポジティブなインタラクション値を有する。したがって、トレーニング用セットを複数のミニバッチに分割することは、システムがそのミニバッチにおいて表現を計算する必要のあるアイテムの数が、トレーニング用データセット内のアイテムの総数に比べて少なくなることを意味する。これにより、モデルの全体的なトレーニングがより高速になる。

２．７表現の学習におけるアテンション機構
前述のとおり、ユーザニューラルネットワークエンコーダの第１層の出力は、ユーザがポジティブなインタラクション値を有するアイテムの表現の関数である。ユーザがポジティブなインタラクションを有するアイテムのセットを、本明細書では、ユーザの「近傍アイテムセット（neighbor set of items）」又は「近傍セット（neighbor set）」と呼ぶ。或る実施形態において、ユーザの近傍アイテムセットのそれぞれの表現は、ユーザニューラルネットワークエンコーダの第１層の出力を算出する際に均等に加重される。他の実施形態では、ユーザｊ及びアイテムｋのインタラクションスコアを算出する際に、第１層の出力は、ユーザｊの近傍セットの表現の加重和であり、重みは、ユーザｊの近傍セット内のそれぞれとアイテムｋとの類似度に基づいて計算される。そのような実施形態において、目的関数を以下のように表すことができる。

ただし、α_ｐｋは、第ｐ番目のアイテムと第ｋ番目のアイテムとの類似度に基づいて第ｐ番目のアイテムに重みを与える。

コサイン、ドット積、又は一般のアテンション機構を使用して、重みを学習することができる。重みα_ｐｋは、以下のうちの１つを使用して計算することができる。

ここで、Ｗ_αは、一般のアテンションにおける学習可能な行列である。最終的な重みは、以下のように、ソフトマックス関数を適用することによって得られる。

２．８性能向上を示す実験
関連出願のセクションにおいて引用したことにより本明細書の一部をなすものとなっている上記仮出願は、共有ニューラルアイテム表現を使用する（及び本明細書に説明の方法に従ってトレーニングされた）レコメンダシステムと、共有ニューラルアイテム表現を使用しないレコメンダシステムとの性能を比較した実験の結果を記載している。本明細書に説明されるような共有ニューラルアイテム表現を使用するレコメンダシステムは、コールドスタート推薦に関してより少ない反復数でより良好な再現率を達成している。非共有モデルのトレーニング時に学習しなければならないパラメータの数は、ユーザ及びアイテムの数とともにほぼ線形で増加する。これとは対照的に、本明細書に説明されるモデルにおいて、アイテム表現は、ユーザニューラルネットワークエンコーダにて重みとして共有及び使用されるため、トレーニング時に学習する必要のあるパラメータの数は大幅に少なくなる。これにより、共有モデルは、より大きなデータセットに対してより高速な最適化及びより良好な一般化を有することが可能になる。

３．０予測フェーズ
予測フェーズでは、トレーニングされたモデルを使用して、ターゲティング広告用のコールドスタートアイテムを有するショップにユーザを推薦することもできるし、電子商取引プラットフォームにてコールドスタートアイテムをユーザに推薦することもできる。これらのいずれを行うにも、システムは、電子商取引プラットフォームのユーザとコールドスタートアイテムとのインタラクション値を予測する必要がある。

図２に、テストユーザとコールドスタートアイテムとのインタラクション値を予測する方法を示す。システムは、電子商取引プラットフォーム上のアイテムのアイテムベクトル表現を計算する（ステップ２１０）。一実施形態において、これは、電子商取引プラットフォームにて販売される全てのアイテム又はほぼ全てのアイテムについて行われる。システムは、アイテムベクトル表現を使用してユーザニューラルネットワークエンコーダの第１層に重み行列を設定する（ステップ２２０）。システムは、テストユーザのユーザ・アイテム・インタラクションベクトルを取得する（ステップ２３０）。システムは、コールドスタートアイテムｋのサイドアイテムデータを取得する（ステップ２４０）。システムは、テストユーザのユーザ・アイテム・インタラクションベクトルにユーザニューラルネットワークエンコーダを適用することによって、テストユーザのユーザベクトル表現を計算する（ステップ２５０）。ユーザニューラルネットワークエンコーダの第１層の出力は、テストユーザがポジティブなインタラクションを有したことのあるアイテムのアイテム表現の関数である。システムは、ステップ２４０において取得されたサイドアイテムデータにアイテムニューラルネットワークエンコーダを適用することによって、コールドスタートアイテムｋのアイテムベクトル表現を計算する（ステップ２６０）。システムは、テストユーザ及びアイテムについて計算されたユーザベクトル表現及びアイテムベクトル表現に基づいて、テストユーザとコールドスタートアイテムｋとの予測インタラクション値を計算する（ステップ２７０）。

ショップがコールドスタートアイテムに関する広告のターゲットとすべきユーザを特定できるようにするために、システムは、アイテムと複数のユーザのそれぞれとの予測インタラクション値を計算する。次に、システムは、そのアイテムについてポジティブなインタラクション値を有する確率が高い或る特定の数のユーザ又は或る特定の割合のユーザをショップに推薦する。

特定のユーザに推薦する商品を特定すべく、システムは、そのユーザと電子商取引プラットフォームにて販売される複数のアイテムのそれぞれとの予測インタラクション値を計算する。次に、システムは、そのユーザがポジティブなインタラクションを有する可能性の高い或る特定の数のアイテムをそのユーザに推薦する。

４．０ユーザニューラルネットワークアーキテクチャ
図４に、一実施形態によるユーザニューラルネットワークエンコーダのアーキテクチャを示す。ユーザニューラルネットワークエンコーダは、Ｌ個の層（４１０、４２０、．．．、４３０）を有する。ここで、Ｌは１よりも大きい整数である。各層は、重み行列及び非線形活性化関数を有する。第２層から第Ｌ層における重み行列は、調整可能なパラメータである。第１層における重み行列は、アイテムニューラルネットワークエンコーダによって生成されたアイテム表現を使用して設定される。

５．０システムアーキテクチャの例
図５に、レコメンダシステムのシステムアーキテクチャの一例を示す。前述のとおり、レコメンダシステムは、ユーザとアイテムのペアのユーザ・アイテム・インタラクションを予測する予測モデル５５０を有する。このモデルへの入力は、サイドアイテムデータ５２０及びユーザインタラクションベクトル５１０である。モデルの予測は、ユーザ・アイテム・インタラクション・スコア５６０（例えば、ユーザ表現とアイテム表現との間の類似度スコア）の形態で出力される。モデルは、アイテムニューラルネットワークエンコーダ５３０及びユーザニューラルネットワークエンコーダ５４０を有する。或る実施形態において、ユーザニューラルネットワークエンコーダ及びアイテムニューラルネットワークエンコーダは、多層パーセプトロンである。モデルは、ユーザ表現及びアイテム表現のドット積を計算するドット積モジュール５５５をも有する。

推薦モジュール５４０は、セクション３．０において述べたように、予測モデル５５０からユーザ・アイテム・インタラクション・スコアを受け付け、それらのスコアを用いて、ユーザをショップに推薦するか又はアイテムをユーザに推薦する。

トレーニングモジュール５８０は、図１Ａ及び図１Ｂの方法に従って予測モデルのトレーニングを行う。

６．０．総論
図１～図５に関して説明した方法は、ソフトウェアにより具現化され、ソフトウェアを実行する（１つ以上の計算デバイスを備えた）コンピュータシステムによって実行される。当業者であれば、コンピュータシステムが、ソフトウェア命令を記憶する１つ以上の物理メモリユニット、ディスク、又は他の物理的なコンピュータ可読記憶媒体と、これらのソフトウェア命令を実行する１つ以上のプロセッサとを有することを理解しているであろう。当業者であれば、コンピュータシステムはスタンドアローンコンピュータとすることもできるし、クライアントサーバアーキテクチャ等において協働するコンピュータのネットワークとすることもできることを理解しているであろう。

本発明の趣旨又は不可欠な特徴から逸脱することなく、本発明が他の具体的な形態で具現化される場合があることは当業者には理解されよう。したがって、上記の開示は、本発明の範囲を例示したものであり、限定するものではないことが意図される。

Claims

コンピュータシステムによって実行され、ユーザとアイテムについてのインタラクション値を予測する方法であって、
トレーニングフェーズに関して、
（ａ）トレーニング用のユーザ及びアイテムのトレーニング用データセットを取得するステップであって、前記トレーニング用データセットは、前記データセット内の各アイテムのアイテムデータと、各トレーニング用ユーザのユーザインタラクションベクトルとを含み、前記ユーザインタラクションベクトルは、前記トレーニング用データセット内のユーザとアイテムの各ペアのインタラクション値を有するインタラクション行列から得られる、ステップと、
（ｂ）アイテムニューラルネットワークエンコーダを用いて、少なくとも１人のトレーニング用ユーザがポジティブなインタラクション値を有する前記トレーニング用データセット内の各アイテムのアイテムベクトル表現を計算するステップと、
（ｃ）前記アイテムベクトル表現を用いて、ユーザニューラルネットワークエンコーダの第１層における重み行列を設定するステップと、
（ｄ）前記トレーニング用データセット内のユーザとアイテムの各ペアにつき、
前記トレーニング用ユーザのユーザインタラクションベクトルに前記ユーザニューラルネットワークエンコーダを適用することによりユーザベクトル表現を計算し、ここで、前記トレーニング用ユーザのユーザベクトル表現の計算において、ユーザニューラルネットワークエンコーダの第１層の出力は、前記トレーニング用ユーザがポジティブなインタラクション値を有するアイテムのアイテムベクトル表現の関数であり、
前記ペアにおける前記アイテムのアイテムデータに前記アイテムニューラルネットワークエンコーダを適用することにより、アイテムベクトル表現を計算し、
前記ペアについて生成された前記ユーザベクトル表現及び前記アイテムベクトル表現に基づいて、前記ユーザとアイテムのペアについての予測インタラクション値を計算するステップと、
（ｅ）前記トレーニング用セット内の前記ユーザとアイテムのペアについての予測インタラクション値と実際のインタラクション値との間の損失を算出するステップと、
（ｆ）前記アイテムニューラルネットワークエンコーダ及び前記ユーザニューラルネットワークエンコーダのトレーニング可能なパラメータを、前記損失が最小となるように調整するステップと、
（ｇ）複数回の反復にわたりステップ（ｂ）～（ｆ）を繰り返すステップと
を行い、
予測フェーズに関して、
（ｈ）複数のアイテムのアイテムベクトル表現を計算するステップであって、前記アイテムベクトル表現は、前記アイテムのアイテムデータに前記アイテムニューラルネットワークエンコーダを適用することにより生成される、ステップと、
（ｉ）前記アイテムベクトル表現を用いて、前記ユーザニューラルネットワークエンコーダの第１層における前記重み行列を設定するステップと、
（ｊ）テストユーザについて、
前記テストユーザのユーザインタラクションベクトルを取得し、
前記テストユーザとの既知のインタラクション値が存在しないアイテムｋのアイテムデータを取得し、
前記ユーザインタラクションベクトルに前記ユーザニューラルネットワークエンコーダを適用することにより、前記テストユーザのユーザベクトル表現を計算し、ここで、前記ユーザニューラルネットワークエンコーダの第１層の出力は、前記テストユーザがポジティブなインタラクション値を有するアイテムのアイテムベクトル表現の関数であり、
アイテムｋのアイテムデータに前記アイテムニューラルネットワークエンコーダを適用することにより、アイテムｋのアイテムベクトル表現を計算し、
前記テストユーザ及び前記アイテムについて計算された前記ユーザベクトル表現及び前記アイテムベクトル表現に基づいて、前記テストユーザとアイテムｋについての予測インタラクション値を計算するステップと
を行う、
方法。
前記テストユーザについての既知のインタラクション値が存在しない複数のアイテムに関してステップ（ｊ）を繰り返すステップと、
前記テストユーザ及び前記複数のアイテムについて計算された前記予測インタラクション値に基づいて、１つ以上のアイテムを前記テストユーザに推薦するステップと
を更に含む請求項１に記載の方法。
複数のテストユーザについてステップ（ｊ）を繰り返すステップと、
テストユーザ及びアイテムｋについての前記予測インタラクション値に基づいて、前記複数のテストユーザのうちの１人以上にアイテムｋを推薦するステップと
を更に含む請求項１に記載の方法。
前記ユーザニューラルネットワークエンコーダにおける第１層の出力の計算は、
前記ユーザがポジティブなインタラクション値を有する複数のアイテムのアイテムベクトル表現に統合関数を適用して、複数の前記アイテムベクトル表現を単一のベクトルへとマッピングするステップと、
前記単一のベクトルを、前記ユーザニューラルネットワークエンコーダにおける第１層の出力として用いるステップと
を含む、請求項１に記載の方法。
前記統合関数が、複数の前記アイテムベクトル表現を平均する平均関数である、請求項４に記載の方法。
前記統合関数が、複数の前記アイテムベクトル表現の加重平均を、複数の前記アイテムベクトル表現と、インタラクション値が予測されているアイテムのアイテムベクトル表現との類似度に基づいて計算する加重平均関数である、請求項４に記載の方法。
前記ユーザニューラルネットワークエンコーダが複数の層を有し、
各層は重み行列と関連付けられ、
前記トレーニング可能なパラメータは、前記第１層の重み行列以外の重み行列を含み、
前記第１層の重み行列は、固定され、ステップ（ｂ）における前記アイテム表現が後続の反復にて変化したことに応じてのみ変化する、
請求項１に記載の方法。
前記トレーニング用データセットは複数のミニバッチに分割され、
前記ユーザニューラルネットワークエンコーダ及び前記アイテムニューラルネットワークエンコーダは、ミニバッチ勾配降下法を用いてトレーニングされ、
各ミニバッチにつき、前記ユーザニューラルネットワークエンコーダの第１層における重み行列は、前記ミニバッチのユーザがインタラクトしたことのあるトレーニング用データセット全体におけるアイテムに基づいて設定され、
ステップ（ｄ）～（ｇ）は、各ミニバッチについて実行される、
請求項１に記載の方法。
ステップ（ｈ）における前記複数のアイテムは、電子商取引プラットフォームにて販売されるアイテムである、請求項１に記載の方法。
アイテムｋがコールドスタートアイテムである、請求項１に記載の方法。
ユーザとアイテムのペアについての前記予測インタラクション値は、前記ペアについてのユーザベクトル表現とアイテムベクトル表現とのドット積に基づいたものである、請求項１に記載の方法。
コンピュータプログラムを有する非一時的なコンピュータ可読媒体であって、
前記コンピュータプログラムは、コンピュータシステムによって実行されると、前記コンピュータシステムが、ユーザとアイテムのインタラクション値を予測できるよう機械学習モデルをトレーニングする方法を実行できるようにするものであり、
前記方法は、
（ａ）トレーニング用のユーザ及びアイテムのトレーニング用データセットを取得するステップであって、前記トレーニング用データセットは、前記データセット内の各アイテムのアイテムデータと、各トレーニング用ユーザのユーザインタラクションベクトルとを含み、前記ユーザインタラクションベクトルは、前記トレーニング用データセット内のユーザとアイテムの各ペアのインタラクション値を有するインタラクション行列から得られる、ステップと、
（ｂ）アイテムニューラルネットワークエンコーダを用いて、少なくとも１人のトレーニング用ユーザがポジティブなインタラクション値を有する前記トレーニング用データセット内の各アイテムのアイテムベクトル表現を計算するステップと、
（ｃ）前記アイテムベクトル表現を用いて、ユーザニューラルネットワークエンコーダの第１層における重み行列を設定するステップと、
（ｄ）前記トレーニング用データセット内のユーザとアイテムの各ペアにつき、
前記トレーニング用ユーザのユーザインタラクションベクトルに前記ユーザニューラルネットワークエンコーダを適用することによりユーザベクトル表現を計算し、ここで、前記トレーニング用ユーザのユーザベクトル表現の計算において、ユーザニューラルネットワークエンコーダの第１層の出力は、前記トレーニング用ユーザがポジティブなインタラクション値を有するアイテムのアイテムベクトル表現の関数であり、
前記ペアにおける前記アイテムのアイテムデータに前記アイテムニューラルネットワークエンコーダを適用することにより、アイテムベクトル表現を計算し、
前記ペアについて生成された前記ユーザベクトル表現及び前記アイテムベクトル表現に基づいて、前記ユーザとアイテムのペアについての予測インタラクション値を計算するステップと、
（ｅ）前記トレーニング用セット内の前記ユーザとアイテムのペアについての予測インタラクション値と実際のインタラクション値との間の損失を算出するステップと、
（ｆ）前記アイテムニューラルネットワークエンコーダ及び前記ユーザニューラルネットワークエンコーダのトレーニング可能なパラメータを、前記損失が最小となるように調整するステップと、
（ｇ）複数回の反復にわたりステップ（ｂ）～（ｆ）を繰り返すステップと
を含む、非一時的なコンピュータ可読媒体。
前記ユーザニューラルネットワークエンコーダにおける第１層の出力の計算は、
前記ユーザがポジティブなインタラクション値を有する複数のアイテムのアイテムベクトル表現に統合関数を適用して、複数の前記アイテムベクトル表現を単一のベクトルへとマッピングするステップと、
前記単一のベクトルを、前記ユーザニューラルネットワークエンコーダにおける第１層の出力として用いるステップと
を含む、請求項１２に記載の非一時的なコンピュータ可読媒体。
前記統合関数が、複数の前記アイテムベクトル表現を平均する平均関数である、請求項１３に記載の非一時的なコンピュータ可読媒体。
前記統合関数が、複数の前記アイテムベクトル表現の加重平均を、複数の前記アイテムベクトル表現と、インタラクション値が予測されているアイテムのアイテムベクトル表現との類似度に基づいて計算する加重平均関数である、請求項１３に記載の非一時的なコンピュータ可読媒体。
コンピュータプログラムを有する非一時的なコンピュータ可読媒体であって、
前記コンピュータプログラムは、コンピュータシステムによって実行されると、前記コンピュータシステムが、ユーザとアイテムのインタラクション値を予測する方法を実行できるようにするものであり、
前記方法は、
（ａ）複数のアイテムのアイテムベクトル表現を計算するステップであって、前記アイテムベクトル表現は、前記アイテムのアイテムデータにアイテムニューラルネットワークエンコーダを適用することにより生成される、ステップと、
（ｂ）前記アイテムベクトル表現を用いて、ユーザニューラルネットワークエンコーダの第１層における重み行列を設定するステップと、
（ｃ）テストユーザについて、
前記テストユーザのユーザインタラクションベクトルを取得し、
前記テストユーザとの既知のインタラクション値が存在しないアイテムｋのアイテムデータを取得し、
前記ユーザインタラクションベクトルに前記ユーザニューラルネットワークエンコーダを適用することにより、前記テストユーザのユーザベクトル表現を計算し、ここで、前記ユーザニューラルネットワークエンコーダの第１層の出力は、前記テストユーザがポジティブなインタラクション値を有するアイテムのアイテムベクトル表現の関数であり、
アイテムｋのアイテムデータに前記アイテムニューラルネットワークエンコーダを適用することにより、アイテムｋのアイテムベクトル表現を計算し、
前記テストユーザ及び前記アイテムについて計算された前記ユーザベクトル表現及び前記アイテムベクトル表現に基づいて、前記テストユーザとアイテムｋについての予測インタラクション値を計算するステップと
を含む、非一時的なコンピュータ可読媒体。
前記テストユーザについての既知のインタラクション値が存在しない複数のアイテムに関してステップ（ｃ）を繰り返すステップと、
前記テストユーザ及び前記複数のアイテムについて計算された前記予測インタラクション値に基づいて、１つ以上のアイテムを前記テストユーザに推薦するステップと
を更に含む、請求項１６に記載の非一時的なコンピュータ可読媒体。
複数のテストユーザについてステップ（ｃ）を繰り返すステップと、
テストユーザ及びアイテムｋについての前記予測インタラクション値に基づいて、前記複数のテストユーザのうちの１人以上にアイテムｋを推薦するステップと
を更に含む、請求項１６に記載の非一時的なコンピュータ可読媒体。
電子商取引プラットフォームにおけるユーザとアイテムのインタラクション値を予測するためのシステムであって、
一組の機械コードを用いてプログラミングされた命令を実行するプロセッサと、
前記プロセッサに接続された１つ以上のメモリユニットと、
前記システムの前記１つ以上のメモリユニットに記憶され、ユーザの入力及びアイテムの入力を受け付け、前記電子商取引プラットフォームにおけるユーザとアイテムとの予測ユーザインタラクション値を出力する機械学習モデルと
を備え、
前記モデルは、前記出力を生成するために前記機械コードで組まれた計算命令を含み、
前記モデルは或る方法によりトレーニングがなされ、
前記方法は、
（ａ）トレーニング用のユーザ及びアイテムのトレーニング用データセットを取得するステップであって、前記トレーニング用データセットは、前記データセット内の各アイテムのアイテムデータと、各トレーニング用ユーザのユーザインタラクションベクトルとを含み、前記ユーザインタラクションベクトルは、前記トレーニング用データセット内のユーザとアイテムの各ペアのインタラクション値を有するインタラクション行列から得られる、ステップと、
（ｂ）アイテムニューラルネットワークエンコーダを用いて、少なくとも１人のトレーニング用ユーザがポジティブなインタラクション値を有する前記トレーニング用データセット内の各アイテムのアイテムベクトル表現を計算するステップと、
（ｃ）前記アイテムベクトル表現を用いて、ユーザニューラルネットワークエンコーダの第１層における重み行列を設定するステップと、
（ｄ）前記トレーニング用データセット内のユーザとアイテムの各ペアにつき、
前記トレーニング用ユーザのユーザインタラクションベクトルに前記ユーザニューラルネットワークエンコーダを適用することによりユーザベクトル表現を計算し、ここで、前記トレーニング用ユーザのユーザベクトル表現の計算において、ユーザニューラルネットワークエンコーダの第１層の出力は、前記トレーニング用ユーザがポジティブなインタラクション値を有するアイテムのアイテムベクトル表現の関数であり、
前記ペアにおける前記アイテムのアイテムデータに前記アイテムニューラルネットワークエンコーダを適用することにより、アイテムベクトル表現を計算し、
前記ペアについて生成された前記ユーザベクトル表現及び前記アイテムベクトル表現に基づいて、前記ユーザとアイテムのペアについての予測インタラクション値を計算するステップと、
（ｅ）前記トレーニング用セット内の前記ユーザとアイテムのペアについての予測インタラクション値と実際のインタラクション値との間の損失を算出するステップと、
（ｆ）前記アイテムニューラルネットワークエンコーダ及び前記ユーザニューラルネットワークエンコーダのトレーニング可能なパラメータを、前記損失が最小となるように調整するステップと、
（ｇ）複数回の反復にわたりステップ（ｂ）～（ｆ）を繰り返すステップと
を含む、
システム。
前記ユーザニューラルネットワークエンコーダにおける第１層の出力の計算は、
前記ユーザがポジティブなインタラクション値を有する複数のアイテムのアイテムベクトル表現に統合関数を適用して、複数の前記アイテムベクトル表現を単一のベクトルへとマッピングするステップと、
前記単一のベクトルを、前記ユーザニューラルネットワークエンコーダにおける第１層の出力として用いるステップと
を含む、請求項１９に記載のシステム。