JP2023550510A

JP2023550510A - 推薦方法、装置、電子機器及び記憶媒体

Info

Publication number: JP2023550510A
Application number: JP2023531066A
Authority: JP
Inventors: 屠要峰; 徐進; 王徳政; 樊森
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2020-11-23
Filing date: 2021-11-17
Publication date: 2023-12-01
Also published as: CN114528469A; WO2022105780A1; US20240005170A1

Abstract

本願はコンピュータ技術の分野に関し、推薦方法、装置、電子機器及び記憶媒体を開示する。この推薦方法は、時刻tのユーザ要求に応答して、ポリシーネットワークに基づいてユーザのためにアイテム推薦ランキングを生成するステップ（201）と、アイテム推薦ランキングに対するユーザのフィードバック結果に基づいて、時刻tの経験を取得するステップ（202）と、各ユーザの時刻tの経験をグローバル経験プールに集約するステップ（203）と、グローバル経験プール内の経験に基づいて、更新されたポリシーネットワークを取得するステップ（204）と、を含む。【選択図】図２

Description

本願は、出願番号が「202011321668.8」で、出願日が2020年11月23日である中国特許出願に基づいて提出され、その中国特許出願の優先権を主張し、その中国特許出願の全文を援用により本願に組み入れる。

本願の実施例はコンピュータの技術分野に関するものであり、特に推薦方法、装置、電子機器及び記憶媒体に関するものである。

推薦システムとは、主に「ユーザ知識」と「アイテム知識」を獲得した上で、あるアイテムに対するユーザの嗜好度を予測し、その嗜好度に応じてアイテムをランキングし、最終的にランキングの結果をユーザに返すものである。

しかしながら、従来の推薦システムでは、単一のポリシーネットワークactorを使用して経験を生成し、これを持ってポリシー関数を訓練するので、ポリシー関数の訓練効率が低い。

本願の実施例によれば、推薦方法が提供される。前記推薦方法は、時刻tのユーザ要求に応答して、ポリシーネットワークに基づいてユーザのためにアイテム推薦ランキングを生成するステップと、前記アイテム推薦ランキングに対するユーザのフィードバック結果に基づいて、時刻tの経験を取得するステップと、各ユーザの前記時刻tの経験をグローバル経験プールに集約するステップと、前記グローバル経験プール内の経験に基づいて、更新されたポリシーネットワークを取得するステップと、を含む。

本願の実施例によれば、推薦装置が提供される。前記推薦装置は、時刻tのユーザ要求に応答して、ポリシーネットワークに基づいてユーザのためにアイテム推薦ランキングを生成するアイテム推薦ランキング生成モジュールと、前記アイテム推薦ランキングに対するユーザのフィードバック結果に基づいて、時刻tの経験を取得する経験取得モジュールと、各ユーザの前記時刻tの経験をグローバル経験プールに集約する経験プール取得モジュールと、前記グローバル経験プール内の経験に基づいて、更新されたポリシーネットワークを取得するポリシーネットワーク更新モジュールと、を含む。

本願の実施例によれば、電子機器がさらに提供される。前記電子機器は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリと、を備え、前記メモリには前記少なくとも1つのプロセッサにより実行できる命令が記憶されており、前記命令が前記少なくとも1つのプロセッサにより実行されることで、前記少なくとも1つのプロセッサが上記の推薦方法を実行できる。

本願の実施例によれば、コンピュータ可読記憶媒体がさらに提供される。前記コンピュータ可読記憶媒体は、プロセッサにより実行された場合上記の推薦方法を実現するコンピュータプログラムを記憶している。

本願の第１の実施例にかかる、ユーザ文書知識グラフの模式図である。本願の第１の実施例にかかる推薦方法のフローチャートである。本願の第１の実施例にかかる、推薦方法におけるアイテム推薦ランキング生成のフローチャートである。本願の第１の実施例にかかる、時刻tの環境状態を取得するフローチャートである。本願の第１の実施例にかかる、知識グラフにおいてエンティティ特徴ベクトルを構成する模式図である。本願の第１の実施例にかかる、知識グラフにおける関係ネットワーク図である。本願の第２の実施例にかかる推薦方法のフローチャートである。本願の第２の実施例にかかる、Ape-xアルゴリズムを使用してポリシーネットワークを訓練する模式図である。本願の第３の実施例における推薦装置の模式図である。本願の第４の実施例における電子機器の模式図である。

本願実施例の目的、技術案及び利点をより明らかにするために、以下では、添付図面を組み合わせて本願の各実施例を詳しく説明する。しかしながら、当業者であれば、本願の各実施例において、読み手に本願をよりよく理解してもらうために多くの技術的詳細が提示されていることを理解することができる。しかしながら、これらの技術的詳細及び以下の各実施例に基づく様々な変更及び修正がなくとも、本願の保護を求める技術案を実現することができる。以下の各実施例の区分は、説明の便宜のためになされており、本願の具体的な実施形態にいかなる限定を構成すべきではなく、各実施例は、矛盾しない限り、組み合わせたり互いに引用したりすることができる。

本願の第１の実施例は、サーバ等の電子機器に適用可能な推薦方法に関するものである。本実施例の推薦方法は、時刻tのユーザ要求に応答して、ポリシーネットワークに基づいてユーザのためにアイテム推薦ランキングを生成するステップと、前記アイテム推薦ランキングに対するユーザのフィードバック結果に基づいて、時刻tの経験を取得するステップと、各ユーザの前記時刻tの経験をグローバル経験プールに集約するステップと、前記グローバル経験プール内の経験に基づいて、更新されたポリシーネットワークを取得するステップと、を含む。単一のポリシーネットワークを用いて経験を取得するのに比べて、本実施例によれば、複数のユーザの生成された経験を並行して得て経験プールに集約し、集約されたグローバル経験プールに基づいて、更新されたポリシーネットワークを取得することができ、ポリシーネットワークの訓練を加速させることができるだけでなく、探索の能力を向上させて、アイテム推薦ランキングがユーザのニーズを満たせるものにすることができる。ポリシーネットワークの訓練速度は更に速く、訓練効率は更に高くなる。さらに、探索能力を大幅に向上させて、ユーザに与えるアイテム推薦ランキングはユーザの需要をより早く満たすことができる。以下では、本実施例の推薦方法の実現の詳細について具体的に説明するが、以下の内容は、提供される実現の詳細への理解を容易にするためのものであり、本案を実施するための必須条件ではない。本願の第１の実施例にかかる推薦方法のフローチャートを図２に示す。

一例において、ポリシーネットワークに基づいてユーザのためにアイテム推薦ランキングを生成する前に、ユーザ情報とアイテム情報とに基づいて知識グラフを作成する。

例示的には、文書を例として、知識グラフを作成する。まず、エンティティクラスを作成する。図１に示すように、ユーザ情報とアイテム情報とに基づいて知識グラフを作成する。例えば、ユーザ情報に基づいて人員情報クラスを作成し、アイテム情報に基づいて組織情報クラス、タグ体系クラス、文書クラスを作成する。個人情報：各ユーザは、ユーザの名前、性別、職位などのプロパティ、例えば、図示の張明、王涛及びそれらの従業員番号などを含む一つのエンティティとして扱ってもよい。組織情報：1つの機関又は団体を表す。文書ライブラリ：主に各分野の文書で構成され、各文書は一つのエンティティとして扱ってもよく、各エンティティは、タイトル、コンテンツ、作成者及びその他のプロパティで構成される。タグ体系：主に個人や文書を分類し、タグ付けする。例えば、図示の集合、C++、マルチスレッド、Java（登録商標）である。エンティティクラスを作成した後、知識グラフを使用してユーザ-ユーザ、ユーザ-文書の関係ネットワークを構築することができる。

一例において、知識グラフと知識グラフ埋め込みモデルとに基づいて、エンティティ特徴ベクトルを取得する。例えば、アイテムエンティティ特徴ベクトル、ユーザエンティティ特徴ベクトルである。知識グラフを推薦システムに導入することにより、知識グラフは、構築エンティティ間の関係ネットワークとして、特徴の学習が可能なだけでなく、ユーザ間の関連ネットワークを提供するため、生成されたアイテムランキングがユーザの実際のニーズにより適合する。

例として、TransE、TransH、TransRなどの知識グラフ埋め込みモデルを使用して、上記知識グラフ内のユーザ、文書などのエンティティ特徴ベクトルを生成する。

知識グラフは本質的に、構築エンティティ間の関係ネットワークであり、知識グラフのセマンティック検索に基づいて、文の表面的な意味そのものに囚われず、文自体の構造を解析して、ユーザが入力した文の内在的な関連情報を正確にとらえて、ユーザがデータ間の内在的な構造とセマンティック関連を利用して複雑な問い合わせを行って、最終的に正確に一致した問い合わせ結果を返すことを容易にすることができる。

ステップ２０１において、時刻tのユーザ要求に応答して、ポリシーネットワークに基づいてユーザのためにアイテム推薦ランキングを生成する。

一例において、前記ユーザの時刻tの状態を取得し、前記時刻tの状態と前記ポリシーネットワークとに基づいて、前記時刻tのアイテム初期スコアを取得し、前記ユーザと前記アイテムとのマッチング度とに基づいて、前記アイテムの重みを取得し、前記時刻tのアイテム初期スコアと前記アイテムの重みとに基づいて、アイテム推薦ランキングを生成する。

一例において、ユーザの時刻tの状態は、ユーザ特徴ベクトルと、アイテム特徴ベクトルと、ユーザコンテキスト特徴ベクトルとを含む。

一例において、エンティティ特徴ベクトルに基づいて、時刻tの、ユーザ特徴ベクトルと、アイテム特徴ベクトルと、ユーザコンテキスト特徴ベクトルとを取得する。推薦には、ユーザ知識やアイテム知識だけでなく、ユーザコンテキスト、すなわち友人も考慮し、近い関係にある人がある種類の文書に対する嗜好度が近い可能性があることを考慮して、推薦される文書をユーザのニーズにより適合させる。

例示的には、ユーザが、時刻tのユーザ要求に応答して、ポリシーネットワークに基づいてユーザのためにアイテム推薦ランキングを生成するフローチャートを図３に示す。

ステップ３０１において、前記ユーザの時刻tの状態を取得する。ユーザが時刻tの状態を取得するフローチャートを図４に示す。

ステップ４０１において、ユーザエンティティ特徴ベクトルとユーザタグ特徴ベクトルとに基づいて、ユーザ特徴ベクトルを取得する。

例示的には、ユーザ特徴ベクトルは、ユーザエンティティ特徴ベクトルと、ユーザタグ特徴ベクトルとを含む。図５に示すように、図５中のエンティティと点線で結ばれたブロックはそのエンティティのエンティティ特徴ベクトルを表す。例えば、組織エンティティに結ばれたブロックは、組織エンティティ特徴ベクトルを表す。図５に示す知識グラフにおいてユーザエンティティと点線で結ばれたブロックは、ユーザエンティティ特徴ベクトルに対応しており、ユーザタグ特徴ベクトルに対応するユーザタグは主にユーザの嗜好タグを指し、ユーザタグは、明示的タグと暗黙的タグとを含む。明示的タグは、ユーザ自身が設定するタグプロパティであり、暗黙的タグは主に、ユーザの行動イベントトラッキングデータから取得され、主に2つのルートに分けられる。1つ目は、ユーザがアップロードしたアイテムのタグ、例えばユーザが投稿した記事に基づいて（ユーザが投稿した全ての記事のタグは、図６中601に示されている）、タグ数を統計し、タグを数の昇順に並べ替え、数が上位m個のタグを選択し、その上位m個のタグをタグベクトルに変換することである。2つ目は、ユーザが過去に閲覧したアイテムに基づいて、ユーザのタグを取得することである。例えば文書の場合、ユーザが過去に閲覧した文書からユーザの趣味の変化をシミュレーションし、ユーザの一定期間内に閲覧した過去の文書に対応する文書タグの出現頻度を抽出し、頻度が上位n個のタグをユーザの趣味タグとし、趣味タグを特徴ベクトルに変換する。

ステップ４０２において、再現されたK個のアイテムのエンティティ特徴ベクトルに基づいて、アイテム特徴ベクトルを取得する。

ステップ４０３において、ユーザ-ユーザ関係ネットワークとユーザエンティティ特徴ベクトルとに基づいて、ユーザコンテキスト特徴ベクトルを取得する。本実施例によれば、単にユーザの行動を考慮するだけでなく、さらに関係ネットワークを介して「友人」特徴ベクトル、すなわちユーザコンテキスト特徴ベクトルを導入する。

例示的には、図６に示す602は、現在のユーザの次のホップに隣接するユーザエンティティに対応し、現在のユーザをe_uとすると、E（e_u）はe_uのエンティティ特徴ベクトルであり、Neigh（e_u）はe_uの次のホップの接続ノードを表す。ユーザコンテキスト特徴ベクトルを取得する2つの方法を以下に示す。

別の例において、実際に友人のエンティティ特徴と現在のユーザのエンティティ特徴との類似度が異なり、類似度が高いほど、現在の友人がユーザのタイプに近いことを示していることが考えられるため、ユーザのコンテキスト特性において、重点的に考慮する必要がある。本例において、友人類似度に基づいて重みを設定するが、友人類似度は、2つの側面から考えられる。第1に、友人のエンティティ特徴ベクトルと現在のユーザのエンティティ特徴ベクトルの類似度の違いに基づいて重みを設定し、類似度が高いほど、現在の友人がユーザに近く、重みが大きいことを示しているため、ユーザのコンテキスト特徴ベクトルの設定では、重点的に考慮する必要がある。第2に、ユーザ間のタグ類似度に応じて、タグ類似度が高いほど、重みを高く設定する。本例において、主にコサイン類似度でユーザの類似度を算出し、最終的なユーザコンテキスト特徴ベクトルは「友人」特徴ベクトルの重み付き平均である。

ここで、（α，β＞0）である。

なお、ユーザ特徴ベクトル、アイテム特徴ベクトル、ユーザコンテキスト特徴ベクトルの取得の順番は任意であり、上記フローチャートは、ユーザ特徴ベクトル、アイテム特徴ベクトル、ユーザコンテキスト特徴ベクトルの取得のステップを限定するものではない。

ステップ３０２において、前記時刻tの状態と前記ポリシーネットワークとに基づいて、前記時刻tのアイテム初期スコアを取得する。

例示的には、深層Qネットワーク（DQN：Deep Q Network）アルゴリズムを使用して、文書のランキングをリアルタイムに最適化する。このアルゴリズムでは、Actorの出力は1つの確定的なポリシーであり、すなわち、ある動作は、Actorを用いて、状態空間s、すなわち時刻tの状態環境を入力とし、最終的には、初期の文書ランキングスコアベクトルaを出力し、その式は次の通りである。

ここで、aはK次元のベクトルであり、K個の文書の初期ランキングスコアatを出力することを意味し、θ^μはポリシーネットワークの訓練パラメータである。

ステップ３０３において、前記ユーザと前記アイテムとのマッチング度とに基づいて、前記アイテムの重みを取得する。

コサイン類似度を用いて得られた上記のマッチング度をアイテムの重みとする。

ステップ３０４において、前記時刻tのアイテム初期スコアと前記アイテムの重みとに基づいて、アイテム推薦ランキングを生成する。ポリシーネットワークにより得られた初期スコアと重みとを組み合わせて、アイテム推薦ランキングを得るため、アイテム推薦ランキングがユーザの実際のニーズにより合致するようになる。

上記の例を受け継いで、λ_U,dはユーザu文書D_dについての最終スコアを表し、λ_U,dの式は以下の通りである。

{λ_u,1,λ_u,2,…,λ_u,k}により、最終的なk個の文書のランキング結果を生成する。

ステップ２０２において、前記アイテム推薦ランキングに対するユーザのフィードバック結果に基づいて、時刻tの経験を取得する。

一例において、時刻tの経験は、時刻tの状態と、時刻tのアイテム初期スコアと、時刻tの報酬と、時刻t+1の状態とを含む。時刻tのアイテム初期スコアは、時刻tの状態とポリシーネットワークとに基づいて取得され、時刻tの報酬は、前記アイテム推薦ランキングに対するユーザのフィードバック結果に基づいて取得される。

一例において、フィードバック結果は、一次クリックと、二次クリックと、推薦ページにおける前記アイテムのページ番号とを含む。前記一次クリックと、前記二次クリックと、前記既定関数とに基づいて、時刻tの報酬を取得し、前記既定関数の引数は、推薦ページにおける前記アイテムのページ番号であり、前記既定関数は、時刻tの報酬が前記推薦ページにおけるページ番号に応じて変化する傾向を表す。時刻tの報酬を生成する場合、ユーザが文書をクリックしたか否かだけでなく、ユーザの二次クリックも考慮することで、より正確に報酬を生成するようになる。また、設計された既定関数は、時刻tの報酬がアイテムの位置するページ番号に応じて変化する傾向を表し、ページ番号に応じた実際のユーザの操作の変化の様子をシミュレーションするため、生成される報酬の正確度をさらに向上させた。

上記k個の文書の和をrtとし、rtはすなわち時刻tの報酬であり、ユーザ操作が完了した後に、時刻t+1の状態を取得し、st+1と表記する。

以上より、時刻tの状態st、時刻tのアイテム初期得点at、時刻tの報酬rt、時刻t+1の状態st+1を得て、時刻tの経験（st，at，rt，st+1）を得る。

ステップ２０３において、各ユーザの前記時刻tの経験をグローバル経験プールに集約する。

上記の例を受け継いで、複数のユーザが同時にオンラインで文書を問い合わせる場合、各ユーザには、一つのactorが割り当てられ、actorは、ユーザのために文書のランキングを生成し、ユーザからのフィードバック情報を収集し、（st，at，rt，st+1）を経験としてローカルの経験プールに格納する。各actorの経験プールをグローバル経験プールに集約する。

ステップ２０４において、前記グローバル経験プール内の経験に基づいて、更新されたポリシーネットワークを取得する。

一例において、グローバル経験プールから経験セットをサンプリングして取得し、経験セットに基づいて、更新されたポリシーネットワークを取得する。この実現において、ポリシーネットワークの訓練速度を向上させることができる。

本実施例の推薦方法によれば、強化学習（RL、Reinforcement Learning）が組み入れられる。強化学習（レインフォースメントラーニングとも呼ばれる）は、エージェント（agent）が環境とのインタラクション中に学習ポリシーを通じて報酬を最大化する、又は特定の目標を達成する問題を記述し、解決するために利用される。従来の機械学習と比較して、RLは、オンラインでインクリメンタル学習を実現することができ、その主な実行流れは以下の通りである。現在の環境状態(state)に基づいて決定を生成してアクション(action)に変換し、現在の環境状態を変更して利得(Reward)を収集し、自身の状態に応じて次のアクションの決定を行い、以上のプロセスを同様に繰り返す。このようなパターンは略して「状態-行動-フィードバック-状態更新」というサイクルと称され、このサイクルにおいて、エージェントの決定能力を絶え間なく向上させることで、利得を最大化する特定の目標を達成していく。本実施例によれば、ポリシーネットワークの更新において、アイテム推薦ランキングとユーザ自身のニーズとの合致度を向上させ続けることができる。

単一のポリシーネットワークを利用して経験を取得する案において、一部の推薦システムは深層残差ネットワーク（DRN：Deep Residual Network）アルゴリズムを利用して、推薦モデルに対してオンラインでリアルタイムの学習と更新を行い、他の「静的」深層学習モデルに比べて、データのリアルタイム利用の能力が大幅に強化される。しかしながら、本実施例によれば、ある種類のアイテムに対して関係が近い人の嗜好度が近い可能性があることを考慮して、DRNアルゴリズムでは環境状態の設定プロセスにおいてユーザ「友人」の特徴を取り入れず、DQNアルゴリズムでは、ユーザ「友人」の特徴を取り入れてもよい。したがって、本実施例では、DQNアルゴリズムを使用して、アイテムのランキングをリアルタイムに最適化する。

本実施例で提案される推薦方法によれば、時刻tのユーザ要求に応答して、ポリシーネットワークに基づいてユーザのためにアイテム推薦ランキングを生成し、アイテム推薦ランキングに対するユーザのフィードバック結果に基づいて、時刻tの経験を取得し、各ユーザの時刻tの経験をグローバル経験プールに集約する。すなわち、複数のユーザにより生成された経験を並行して取得して経験プールに集約し、グローバル経験プール内の経験に基づいてポリシーネットワークを更新するため、単一のポリシーネットワークの経験に基づいてポリシーネットワークを訓練するのと比べて、本実施例によれば、コンピューティングリソースを十分に利用して、複数のポリシーネットワークを並行して使用して経験を取得するため、ポリシーネットワークの訓練速度は更に速く、訓練効率は更に高くなる。さらに、探索能力を大幅に向上させて、ユーザに与えるアイテム推薦ランキングはユーザの需要をより早く満たすことができる。

本願の第２の実施例は、推薦方法に関し、本実施例は、第１の実施例とほぼ同じであるが、相違点は以下の通りである。グローバル経験プールから経験セットをサンプリングして取得するには、グローバル経験プール内の各経験の時間的差分誤差を取得して、時間的差分誤差に基づいて経験セットを取得する必要がある。時間的差分誤差は、前記アイテム推薦ランキングに対する前記ユーザのフィードバック結果に基づいて得られる時刻tの報酬と、前記ユーザの時刻tの状態に基づいて得られる期待報酬とに基づいて決定される。

本実施例によれば、分散優先順位付き経験再生方法Ape-xを使用する。Ape-xアルゴリズムは、複数のポリシーネットワークを採用して、replaymemoryデータ、すなわち経験を取得し、TD-error、すなわち時間的差分誤差の大きさに基づいて、replaymemoryデータのランキング優先順位を設定し、各ポリシーネットワークのreplaymemoryデータをグローバルデータに統合し、グローバルデータから経験を抽出してモデルの訓練を行うため、explore探索能力を大幅に向上させるだけでなく、過剰適合も防止する。本願の第２の実施例のフローチャートを図７に示す。

ステップ７０１において、時刻tのユーザ要求に応答して、ポリシーネットワークに基づいてユーザのためにアイテム推薦ランキングを生成する。

ステップ７０２において、前記アイテム推薦ランキングに対するユーザのフィードバック結果に基づいて、時刻tの経験を取得する。

ステップ７０３において、各ユーザの前記時刻tの経験をグローバル経験プールに集約する。

ステップ７０１からステップ７０３は第１の実施例と実質的に同じであり、ここでは重複した説明を省略する。

ステップ７０４において、グローバル経験プール内の各経験の時間的差分誤差を取得する。

例示的には、グローバル経験プール内の各経験の時間的差分誤差、すなわちTD-errorを取得する。時間的差分誤差は、前記アイテム推薦ランキングに対する前記ユーザのフィードバック結果に基づいて得られる時刻tの報酬と、前記ユーザの時刻tの状態に基づいて得られる期待報酬とに基づいて決定される。

ステップ７０５において、各経験の時間的差分誤差に基づいて、各経験の優先順位を取得する。

例示的には、経験プールにおいて、TD-errorの大きさに基づいて優先順位を設定し、ランキングする。

ステップ７０６において、各経験の優先順次に基づいて経験セットをサンプリングして取得する。

例示的には、優先順位のランキング結果に基づいて、経験セットをサンプリングして取得する。

ステップ７０７において、経験セットに基づいて、更新されたポリシーネットワークを取得する。

例示的には、経験プールデータをサンプリングしてモデルを訓練し、Actor-Criticネットワークパラメータを調整及び更新し、各ポリシー関数へ同期させ、エージェントの探索をさらに増すために、パラメータの訓練にノイズを加えてもよい。

図８は推薦方法のApe-xを用いた訓練の流れであり、各ユーザにより生成された環境状態を各ポリシーネットワークに入力し、ポリシーネットワークに基づいてアイテム推薦ランキングを得て、ユーザがアイテム推薦ランキングについてフィードバックし、フィードバック結果を得て、フィードバック結果に基づいて経験を生成し、各ポリシー関数の経験プールに格納し、そして、経験プールの経験をグローバル経験プールに集約し、ランキング重み、すなわち優先順位に従って、グローバル経験プールから経験をサンプリングしてActor-Criticネットワークを訓練し、各ポリシーネットワークへ同期して更新し、次回の文書ランキングのポリシーするため、探索能力を大幅に向上させ、過剰適合を防止する。

なお、ユーザが最初に検索要求を出した時点では、イベントトラッキングデータに基づいてユーザのタグを取得することはできず、この場合、ユーザにタグを提供してもよい。ユーザ設定タグを取得し、ユーザが検索を行った場合、ユーザタグと商品タグとのマッチング度を算出し、ユーザのためにアイテム推薦ランキングを生成する。この方法に従って、ポリシーネットワークを初期化することができ、訓練が開始していないポリシーネットワークについては、デフォルトのアイテム初期ランキングは同じであり、この場合、ランキングの順番はユーザタグとアイテムタグとのマッチング度のみに関係する。

本実施例によれば、アイテム推薦ランキングに対するユーザのフィードバック結果に基づいて得られる時刻tの報酬と、前記ユーザの時刻tの状態に基づいて得られる期待報酬とに基づいてTD_errorを得ることにより、優先順位を得る。優先順位に基づいて経験セットを取得し、ポリシーネットワークを更新することで、ポリシーネットワークの訓練効率を高め、ポリシーネットワークのパラメータを速くに収束させることが可能になる。

上記の各種方法のステップ分けは、単に明確に説明するためになされたものであり、実装時に１つのステップに統合するか、又は一部のステップを複数のステップに再分割することができ、同一の論理的関係が含まれていれば、いずれも本願の保護範囲内に含まれること、アルゴリズム及びプロセスの中核となる設計を変更せずに、そのアルゴリズム又はプロセスに重要でない修正を加えたり、又は重要でない設計を導入したりしたものであれば、いずれも本願の保護範囲内に含まれることは、理解できるであろう。

本願の第3の実施形態は推薦装置に関し、前記推薦装置は、時刻tのユーザ要求に応答して、ポリシーネットワークに基づいてユーザのためにアイテム推薦ランキングを生成するアイテム推薦ランキング生成モジュール901と、前記アイテム推薦ランキングに対するユーザのフィードバック結果に基づいて、時刻tの経験を取得する経験取得モジュール902と、各ユーザの前記時刻tの経験をグローバル経験プールに集約する経験プール取得モジュール903と、前記グローバル経験プール内の経験に基づいて、更新されたポリシーネットワークを取得するポリシーネットワーク更新モジュール904と、を含む。

一例において、経験取得モジュール902における経験は、時刻tの状態と、時刻tのアイテム初期スコアと、時刻tの報酬と、時刻t+1の状態とを含み、ここで、前記時刻tのアイテム初期スコアは、前記時刻tの状態と前記ポリシーネットワークとに基づいて取得され、前記時刻tの経験は、前記アイテム推薦ランキングに対する前記ユーザのフィードバック結果に基づいて取得される。

一例において、アイテム推薦ランキング生成モジュール901はさらに、前記ユーザの時刻tの状態を取得し、前記時刻tの状態と前記ポリシーネットワークとに基づいて、前記時刻tのアイテム初期スコアを取得し、前記ユーザと前記アイテムとのマッチング度とに基づいて、前記アイテムの重みを取得し、前記時刻tのアイテム初期スコアと前記アイテムの重みとに基づいて、アイテム推薦ランキングを生成する。

一例において、経験取得モジュール902はさらに、前記一次クリックと、前記二次クリックと、前記既定関数とに基づいて、時刻tの報酬を取得し、前記既定関数の引数は、推薦ページにおける前記アイテムのページ番号であり、前記既定関数は、時刻tの報酬が前記推薦ページにおけるページ番号に応じて変化する傾向を表し、フィードバック結果は、一次クリックと、二次クリックと、推薦ページにおけるアイテムのページ番号とを含む。

一例において、経験取得モジュール902はさらに、前記エンティティ特徴ベクトルに基づいて、前記時刻tの、前記ユーザ特徴ベクトルと、前記アイテム特徴ベクトルと、前記ユーザコンテキスト特徴ベクトルとを取得し、前記エンティティ特徴ベクトルは、知識グラフと知識グラフ埋め込みモデルとに基づいて取得され、前記知識グラフは、ユーザ情報とアイテム情報とに基づいて取得される。

一例において、ポリシーネットワーク更新モジュール904はさらに、グローバル経験プールから経験セットをサンプリングして取得し、経験セットに基づいて、更新されたポリシーネットワークを取得する。

一例において、ポリシーネットワーク更新モジュール904はさらに、前記グローバル経験プール内の各経験の時間的差分誤差を取得し、前記各経験の時間的差分誤差に基づいて、前記各経験の優先順位を取得し、前記各経験の優先順次に基づいて経験セットをサンプリングして取得し、ここで、前記時間的差分誤差は、前記アイテム推薦ランキングに対する前記ユーザのフィードバック結果に基づいて得られる時刻tの報酬と、前記ユーザの時刻tの状態に基づいて得られる期待報酬とに基づいて決定される。

本実施形態は、第1の実施形態に対応するシステム実施形態であり、本実施形態は第1の実施形態と組み合わせて実施できることは、容易に理解できる。第1の実施形態で言及された関連する技術的詳細は、本実施形態においても有効であるため、重複を減らすためにここでは説明を省く。したがって、本実施形態で記載された関連する技術的詳細は、第1の実施形態にも適用可能である。

なお、本実施形態に係る各モジュールはいずれも論理モジュールであり、実際の応用において、1つの論理ユニットは1つの物理ユニットであってもよく、1つの物理ユニットの一部であってもよく、さらに、複数の物理ユニットの組み合わせで実現してもよい。また、本願の創造的な部分を強調するために、本願で提起された技術的課題の解決にあまり関係のない手段は本実施形態には導入されていないが、これは本実施形態に他の手段が存在しないことを示しているわけではない。

本願の第4の実施形態は電子機器に関する。図１０に示すように、電子機器は、少なくとも1つのプロセッサ1001と、前記少なくとも1つのプロセッサと通信可能に接続されたメモリ1002とを含み、前記メモリには前記少なくとも1つのプロセッサにより実行できる命令が記憶されており、前記命令が前記少なくとも1つのプロセッサにより実行されることで、前記少なくとも1つのプロセッサが上記の推薦方法を実行できる。

ここで、メモリとプロセッサとはバス方式で接続され、バスは任意の数の相互接続されたバス及びブリッジを含んでもよく、バスにより、1つ又は複数のプロセッサとメモリの様々な回路が一つに接続される。バスはまた、周辺機器、電圧安定器、およびパワーマネジメント回路などの様々な他の回路を一つに接続することができるが、これらは当分野で周知なことであるので、本文ではこれ以上説明しない。バスインターフェースは、バスとトランシーバとの間のインターフェースを提供する。トランシーバは、1つの素子であってもよく、複数の受信機および送信機のような複数の素子であってもよく、伝送媒体上で様々な他の装置と通信するための手段を提供する。プロセッサによって処理されたデータはアンテナを介して無線媒体で伝送され、さらに、アンテナはまたデータを受信して、プロセッサにデータを伝送する。

プロセッサは、バスの管理および通常の処理を担う以外にも、さらにタイミング、周辺インターフェース、電圧調整、電源管理及びその他の制御機能を含む様々な機能を提供することができる。一方、メモリは、プロセッサによりオペレーションを実行するときに使用されるデータを記憶するために使用されてもよい。

本願の第５の実施形態は、コンピュータプログラムを記憶しているコンピュータ可読記憶媒体に関する。コンピュータプログラムがプロセッサにより実行された時、上記の方法実施例を実現する。

すなわち、当業者であれば、上記の実施形態の方法における全部又は一部のステップを実施することは、プログラムによって関連するハードウェアに命令することによって実現できることは、理解できるであろう。このプログラムは1つの記憶媒体に記憶され、1つの装置（ワンチップコンピュータ、チップなどであってもよい）又はプロセッサ（processor）に本願の各実施形態に記載の方法の全部又は一部のステップを実行させるためのいくつかの命令を含む。一方、上記記憶媒体は、USBメモリ、リムーバブルハードディスク、リードオンリーメモリ（ROM：Read-Only Memory）、ランダムアクセスメモリ（RAM：Random Access Memory）、磁気ディスク又は光ディスク等、プログラムコードを記憶可能な種々の媒体を含む。

当業者であれば、上記の各実施例は、本出願を実施するための具体的な実施形態であり、実際の応用においては、本願の精神及び範囲を逸脱することなく、形式的に及び細部に様々な変更を加えることができることを理解することができる。

Claims

推薦方法であって、時刻tのユーザ要求に応答して、ポリシーネットワークによってユーザのためにアイテム推薦ランキングを生成するステップと、前記アイテム推薦ランキングに対するユーザのフィードバック結果に基づいて、時刻tの経験を得るステップと、各ユーザの前記時刻tの経験をグローバル経験プールに集約するステップと、前記グローバル経験プール内の経験に基づいて、更新されたポリシーネットワークを得るステップと、
を含む推薦方法。
前記経験は、時刻tの状態と、時刻tのアイテム初期スコアと、時刻tの報酬と、時刻t+1の状態とを含み、前記時刻tのアイテム初期スコアは、前記時刻tの状態と前記ポリシーネットワークとに基づいて取得され、前記時刻tの報酬は、前記アイテム推薦ランキングに対するユーザのフィードバック結果に基づいて取得される
請求項１に記載の推薦方法。
時刻tのユーザ要求に応答して、ポリシーネットワークに基づいてユーザのためにアイテム推薦ランキングを生成する前記ステップは、前記ユーザの時刻tの状態を取得するステップと、前記時刻tの状態と前記ポリシーネットワークとに基づいて、前記時刻tのアイテム初期スコアを取得するステップと、前記ユーザと前記アイテムとのマッチング度とに基づいて、前記アイテムの重みを取得するステップと、前記時刻tのアイテム初期スコアと前記アイテムの重みとに基づいて、アイテム推薦ランキングを生成するステップと、
を含む請求項２に記載の推薦方法。
前記フィードバック結果は、一次クリックと、二次クリックと、推薦ページにおける前記アイテムのページ番号とを含み、前記アイテム推薦ランキングに対する前記ユーザのフィードバック結果に基づいて前記時刻tの経験を取得するステップは、前記一次クリックと、前記二次クリックと、前記既定関数とに基づいて、時刻tの報酬を取得するステップを含み、前記既定関数の引数は、推薦ページにおける前記アイテムのページ番号であり、前記既定関数は、時刻tの報酬が前記推薦ページにおけるページ番号に応じて変化する傾向を表す
請求項２に記載の推薦方法。
時刻tのユーザ要求に応答して、ポリシーネットワークに基づいてユーザのためにアイテム推薦ランキングを生成する前記ステップの前に、知識グラフと知識グラフ埋め込みモデルとに基づいてエンティティ特徴ベクトルを取得するステップをさらに含み、前記知識グラフは、ユーザ情報とアイテム情報とに基づいて取得され、前記ユーザの時刻tの状態は、ユーザ特徴ベクトルと、アイテム特徴ベクトルと、ユーザコンテキスト特徴ベクトルとを含み、前記ユーザの時刻tの状態を取得する前記ステップは、前記エンティティ特徴ベクトルに基づいて、前記時刻tの、前記ユーザ特徴ベクトルと、前記アイテム特徴ベクトルと、前記ユーザコンテキスト特徴ベクトルとを取得するステップを含む
請求項３に記載の推薦方法。
前記グローバル経験プール内の経験に基づいて、更新されたポリシーネットワークを取得する前記ステップは、グローバル経験プールから経験セットをサンプリングして取得するステップと、前記経験セットに基づいて、更新されたポリシーネットワークを取得するステップと、
を含む請求項１から５の何れか一項に記載の推薦方法。
前記グローバル経験プールから経験セットをサンプリングして取得するステップは、前記グローバル経験プール内の各経験の時間的差分誤差を取得するステップと、前記各経験の時間的差分誤差に基づいて、前記各経験の優先順位を取得するステップと、前記各経験の優先順次に基づいて経験セットをサンプリングして取得するステップと、を含み、前記時間的差分誤差は、前記アイテム推薦ランキングに対する前記ユーザのフィードバック結果に基づいて得られる時刻tの報酬と、前記ユーザの時刻tの状態に基づいて得られる期待報酬とに基づいて決定される
請求項６に記載の推薦方法。
推薦装置であって、時刻tのユーザ要求に応答して、ポリシーネットワークに基づいてユーザのためにアイテム推薦ランキングを生成するアイテム推薦ランキング生成モジュールと、前記アイテム推薦ランキングに対するユーザのフィードバック結果に基づいて、時刻tの経験を取得する経験取得モジュールと、各ユーザの前記時刻tの経験をグローバル経験プールに集約する経験プール取得モジュールと、前記グローバル経験プール内の経験に基づいて、更新されたポリシーネットワークを取得するポリシーネットワーク更新モジュールと、
を含む推薦装置。
電子機器であって、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリと、を備え、前記メモリには前記少なくとも1つのプロセッサにより実行できる命令が記憶され、前記命令が前記少なくとも1つのプロセッサにより実行されることで、前記少なくとも1つのプロセッサが請求項１から７の何れか一項に記載の推薦方法を実行できる
電子機器。
コンピュータプログラムを記憶したコンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサにより実行された場合、請求項１から７の何れか一項に記載の推薦方法を実現する
コンピュータ可読記憶媒体。