JP7224395B2

JP7224395B2 - 推薦システムの最適化方法、装置、デバイス及びコンピュータ記憶媒体

Info

Publication number: JP7224395B2
Application number: JP2021100020A
Authority: JP
Inventors: リウ，リーハン; ファン，シァオミン; ワン，ファン; ヘ，ジンジョウ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-18
Filing date: 2021-06-16
Publication date: 2023-02-17
Anticipated expiration: 2041-06-16
Also published as: CN111859114A; EP3926554A1; US11836222B2; US20210397901A1; JP2022000755A; KR20210157337A

Description

本開示は、コンピュータ応用技術分野に関し、特に人工知能におけるディープラーニング及びスマート検索技術分野に関する。

推薦システムは、検索プラットフォーム、情報プラットフォーム、ショッピングプラットフォーム、音楽プラットフォームなど、様々な分野で広く利用されている。プラットフォームサービスでは、ユーザの好みに合ったコンテンツをユーザにどのように推薦するかは、ユーザエクスペリエンスとユーザの存続にとって重要である。

ユーザにとってもサービス提供者（プラットフォーム）にとっても、ユーザがサービスを使用する総時間、ユーザのプラットフォームでの総クリック数、ユーザのプラットフォームでの普及転化率などのユーザの長期行動収益は非常に重要であるが、現在の推薦システムはユーザの長期行動収益に対して効果的に最適化することができない。

これに鑑みて、本開示は、ユーザの長期行動利益のための推薦システムの最適化方法、装置、デバイス、及びコンピュータ記憶媒体を提供する。

第1の態様では、本開示は、推薦システムを意思決定主体とし、ユーザを環境とし、前記推薦システムの1回ごとの推薦内容を前記意思決定主体の行動とし、ユーザの長期行動収益を前記環境の報酬とすることと、強化学習の方式により前記推薦システムにおける最適化すべきパラメータを最適化して前記環境の報酬を最大化することと、を含む推薦システムの最適化方法を提供する。

第2の態様では、本開示は、推薦システムを意思決定主体とし、ユーザを環境とし、前記推薦システムの1回ごとの推薦内容を意思決定主体の行動とし、前記ユーザの長期行動収益を環境の報酬とするモデリングユニットと、強化学習の方式により前記推薦システムにおける最適化すべきパラメータを最適化して前記環境の報酬を最大化する最適化ユニットとを備える推薦システムの最適化装置を提供する。

第3の態様では、本開示は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに上記方法を実行させる電子デバイスを提供する。

第4の態様では、本開示は、コンピュータに上記の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体を提供する。

以上の技術案から分かるように、本開示は強化学習の方式により、ユーザの長期収益行動に対して効果的に最適化することができる。

上記の選択可能な方法が有する他の効果は、以下で具体的な実施形態と合わせて説明する。

図面は、本開示をより良く理解するためのものであり、本開示を限定しない。ここで、
典型的な強化学習システムの概略図である。本開示の実施形態により提供される推薦システムの最適化方法のフローチャートである。本開示の実施形態により提供される進化的学習プロセスにおける反復的更新のための方法のフローチャートである。本発明の実施形態により提供される推薦システムの最適化装置の構成図である。本発明の実施形態を実現するための電子デバイスのブロック図である。

以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

従来の推薦システムは一般的に教師付きアルゴリズムを採用しているか、教師付きアルゴリズムと人工規則を組み合わせた方式を採用している。

教師付きアルゴリズムにより訓練された後、推薦システムはユーザの現在の利益をよく予測して最大化することができる。例えば、ユーザが好きなコンテンツを推薦することにより、現在推薦されているコンテンツに対するユーザの「いいね」率、クリック率、閲覧時間などを向上させることができる。しかし、教師付きアルゴリズムはユーザの好きなコンテンツを貪欲に推薦するため、推薦コンテンツが単一になりやすく、ユーザが飽きやすくなるため、ユーザの長期行動収益の向上に不利である。

一方、人工規則は、教師付きアルゴリズムが直接に最適化できない目標をカバーしたり、アルゴリズムの不足を補ったりするために用いられ、より制御可能である。例えば人工規則には、カテゴリ別のコンテンツの割合を加えることで、推薦コンテンツの多様性を保証している。そして、人工規則は訓練を必要とせず、より迅速にオンラインにすることができる。また、推薦場面では、一般的に百万、千万レベルのコンテンツが存在し、人工規則の方が高速に実行される。しかし、人工規則は一面的で非効率的であり、一方では推薦システムのアップグレードに従って、人工規則はますます責任を負い、ますます分析しにくくなり、他方では人工規則は、オンラインのA/Bテストを使用して継続的にスーパーパラメータを選択する必要があるため、コストが膨大であり、且つユーザやシステムの更新に伴って期限切れになる可能性があり、自動的に更新することもできない。

これに鑑み、本開示の核心的な考え方は、ユーザの長期行動収益を最大化するために、強化学習の方式により推薦システムにおけるパラメータを最適化することにある。

図1は典型的な強化学習システムの概略図である。図1に示すように、一般に強化学習システムは意思決定体（Agent）と環境（Environment）を含む。意思決定体は環境とのインタラクションとフィードバックにより継続的に学習を行ってその戦略を最適化する。具体的には、意思決定体は環境の状態（state）を観察して取得し、あるポリシに従って現在の環境の状態に対して採用すべきアクション（action）を決定する。このような行動は環境に作用すると、環境の状態を変化させると同時に、報酬（reward）とも呼ばれるフィードバックを生成して意思決定体へ返却する。意思決定体は、取得された報酬に基づいて、それまでの行動が正しいか否か、ポリシの調整が必要か否かを判断した上で、そのポリシを更新する。行動を決定して報酬を受け取ることを繰り返すことにより、意思決定体はポリシを継続的に更新することができる。最終的な目標は、取得した報酬の累積を最大化するようにポリシを学習することにある。

図2は、本開示の実施形態により提供される推薦システムの最適化方法のフローチャートである。この方法の実行主体は、推薦システムの最適化装置であって良い。当該装置は、サーバ側をメンテナンスするアプリケーションであってもよく、サーバ側のアプリケーションに配置されたプラグイン又はソフトウェア開発キット（Software Development Kit、SDK）などの機能ユニットであってもよく、より強力な計算能力を有するコンピュータ端末に配置されてもよく、本発明の実施形態で特に限定されていない。図2に示すように、当該方法は以下のステップを含むことができる。

201では、推薦システムの場面に対して強化学習のモデリングが行われる。

具体的には、推薦システムを意思決定体（Agent）、ユーザを環境（Environment）、推薦システムの1回ごとの推薦内容を意思決定体の動作（Action）、ユーザの長期行動収益を環境の報酬（Reward）とする。

本開示の実施形態では、ユーザの長期行動利益は、ユーザの長期的な好みを具現化するものであり、以下のものを含んで良いが、これらに限定されない。

第１種は、ユーザが推薦システムに所属するサービスを利用した総時間である。例えば、ビデオサービスプラットフォームの場合、推薦システムを介してユーザにビデオを推薦すれば、ユーザがビデオサービスを使用する総時間がユーザの長期行動収益を反映することができる。

第２種は、推薦システムが推薦したコンテンツに対するユーザの総クリック数又は総クリック率である。たとえば、情報系サービスプラットフォームでは、推薦システムを介してユーザにコンサルティングを推薦すると、推薦されたコンサルティングに対するユーザのクリック回数やクリック率がユーザの長期行動収益を反映することができる。

第３種は、推薦システムにおけるユーザの普及転化率である。例えば、ビデオサービスプラットフォームの場合、推薦システムを介してユーザにビデオを推薦すると、ビデオ推薦の過程でいくつかのプロモーションコンテンツ（例えば広告など）が挿入されることになる。そのプロモーションコンテンツをクリックして対応するプロモーションページにジャンプすると、プロモーション転化が生成され、それに基づいて生成されるプロモーション転化率がある程度でユーザの長期行動収益を反映している。

第４種は、推薦システムに所属するサービスのユーザリテンション率である。例えば、ビデオサービスプラットフォームの場合、前の時間帯にそのビデオサービスプラットフォームを利用したユーザが1万人であったのに対し、その1万人のうち現在の時間帯にもそのビデオサービスプラットフォームを利用したユーザが5千人しか残っていないとすると、リテンション率は0.5となる。ここで、時間帯の長さは、日レベル、週レベル、月レベルなどであって良い。また、ユーザのリテンション率は、ユーザの長期行動収益を反映することもできる。

本開示では、最適化すべき推薦システムが採用するモデルの種類に限定されるものではなく、ほとんどの推薦システムは教師付き学習で訓練されたランキングモデルを採用し、ランキングモデルによる各候補コンテンツのランキングスコアに基づいてユーザに推薦するコンテンツを決定する。あるいは、教師付き学習で訓練され且つ人工規則を組み合わせたランキングモデルを採用しても良い。このような方法に基づいて訓練された推薦システムは、さらに強化学習を利用して最適化されるため、推薦システムがコールドスタートのコストに耐える必要がなく、ユーザ体験へのダメージも低減される。

202では、強化学習の方式により推薦システムにおける最適化すべきパラメータを最適化して環境の報酬を最大化する。

本発明の実施形態では、推薦システムにおけるすべてのモデルパラメータ及び/又はスーパーパラメータを最適化することができる。推薦システムに例えばリコール層、ソート層などの多層構造が含まれ、更により細かい粒度の階層が含まれてよいため、推薦システムの結果に対して大きな影響を与えるパラメータを持つ層もあり、小さな影響を与えるパラメータを持つ層もある。また、重要度に応じて一部のモデルパラメータ及び/又はスーパーパラメータを最適化し、例えば推薦システムの結果に大きな影響を与える一部のモデルパラメータ及び/又はスーパーパラメータを選択して最適化することにより、最適化効果を保証した上で、最適化の過程における計算量を低減することができる。

本開示における強化学習の方式は、進化学習、DQN（Deep Q-learning、ディープQ学習）、ポリシグラディエント（Policy Gradient）等を採用して良いが、これらに限定されない。

このうち、進化学習はブラックボックス最適化（Black Box Optimization）における技術の1つであり、強化学習の1つの分岐に属する。ここでは、進化学習を例として本ステップの実現方式を詳細に説明する。進化学習の過程では、一回以上の反復更新、すなわち複数の反復更新を繰り返し実行することになる。図3に示すように、毎回の反復更新は、以下のステップを含むことができる。

301では、ユーザごとに不規則外乱のセットをそれぞれ生成する。

302では、生成された不規則外乱のセットを最適化すべきパラメータに増加する。

303では、不規則外乱が増加された推薦システムに基づいてユーザにコンテンツを推薦した後の各ユーザの長期行動報酬を統計する。

上記の反復更新は、実際にはオンラインでの「試行錯誤」プロセスであり、不規則外乱が増加された後の推薦システムに基づいてオンラインでユーザにコンテンツを推薦し、ユーザの状態により生成される報酬に基づいてパラメータをどのように最適化するかを決定する。したがって、不規則外乱が増加された後、各ユーザ、たとえばm人のユーザの長期行動報酬、及び当該m人のユーザに対して生成された不規則外乱を収集する。i人目のユーザの長期行動報酬はr_iとして示されると仮定する。

304では、統計された各ユーザの長期行動報酬に基づいて、各セットの不規則外乱から最適化すべきパラメータの進化方向を決定し、決定された進化方向に基づいて最適化すべきパラメータを更新する。次に、301へ進んで実行するように反復を繰り返す。

このステップは、実際には、様々な方向の外乱を試みることにより、ユーザの長期行動収益を最大化するための最適な進化方向を決定することである。

例えば、以下の式で最適化すべきパラメータを更新する。

ここで、αは更新ステップ幅を示す。このステップ幅の値は、例えば、実験値や経験値などの所定値を採用することができる。

上記の反復更新は繰り返し実行されてよい。当該繰り返し実行は継続的なプロセスであってもよい。すなわち、推薦システムがオンライン上でユーザにコンテンツを推薦する過程に伴って、最適化が継続的に反復される。しかし、最適化の反復を繰り返した後、パラメータは実際には徐々に最適化されるため、最適化可能な程度は低くなっている。一部のユーザ状態、社会状態などが変化するだけで、パラメータの継続的な最適化が必要となるため、進化学習の学習率を低くすることができる。ここで、学習率の具体的な値は、試験値や経験値を用いることができる。

また、反復更新がある程度まで行われた後に反復更新を停止し、次回の反復更新が開始されたときにある程度まで反復更新を繰り返し実行することもできる。ここで、前記のある程度は、推薦システムが収束条件を満たしており、例えば、ユーザの長期行動利益が徐々に収束していることであってもよく、反復回数が予め設定された回数閾値に達したことであっても良い。

上述した実施形態により提供される方法によれば、以下の利点を有する。

1）強化学習の方式によりユーザの長期行動収益に対して推薦システムの最適化を行うことができる。つまり、直接にユーザの長期行動収益を最適化の目標とし、推薦システムがユーザの長期行動収益の増加方向に沿って進化していくことを保証する。

2）教師付き学習が成熟したディープラーニングフレームワークを必要とする方式と比較して、強化学習は学習コストが低く、簡単なデータ処理と数学的計算しか必要としない。

3）強化学習は、推薦システム内部の具体的なモデル構造を知る必要がなく、推薦システムを「ブラックボックス」として扱うことで、オンライン化の難しさを大幅に低減する。

4）進化学習は、現在のパラメータの周囲のパラメータ空間を毎回に探索し、それに基づいて進化方向の選択を行うことで、ユーザの体験に大きな影響を与えることはない。

5）現在の推薦システムの多くは教師付き学習モデルと人工規則を組み合わせた方式を採用している一方、強化学習に基づいて、元の教師付き学習モデルの構造を他のモデル構造に置き換えることなく、元のモデル構造をそのまま保留し、そのパラメータを強化学習の最適化パラメータに加えることで、短期的な報酬を重視した推薦システムから長期的な報酬を重視した推薦システムへと徐々に進化させる。

以上は、本開示で提供される方法の詳細な説明である。以下で実施形態と合わせて本開示で提供される装置を詳細に説明する。

図4は、本開示の実施形態により提供される推薦システムの最適化装置の構成図である。図4に示されるように、当該装置は、モデリングユニット00と最適化ユニット10とを含むことができる。これらの各構成ユニットの主な機能は次のとおりである。

モデリングユニット00は、推薦システムを意思決定主体とし、ユーザを環境とし、推薦システムの1回ごとの推薦内容を意思決定主体の行動とし、ユーザの長期行動収益を環境の報酬とする。

ここで、ユーザの長期行動利益は、ユーザが推薦システムに属するサービスを使用した総時間、推薦システムにより推薦されたコンテンツに対するユーザの総クリック回数又は総クリック率、推薦システムにおけるユーザのプロモーション転化率、又は推薦システムに属するサービスのユーザのリテンション率を含んで良いが、これらに限定されない。

最適化ユニット10は、強化学習の方式により推薦システムにおける最適化すべきパラメータを最適化して環境の報酬を最大化する。

強化学習の方式が進化学習を採用する場合に、最適化ユニット10は、一回以上の反復更新を実行するために、外乱生成サブユニット11と、外乱増加サブユニット12と、収益統計サブユニット13と、パラメータ進化サブユニット14とを具体的に含むことができる。

毎回の反復更新において、外乱生成サブユニット11は、ユーザごとに不規則外乱のセットをそれぞれ生成する。

外乱増加サブユニット12は、最適化すべきパラメータと同じ次元の不規則外乱のセットを最適化すべきパラメータに増加する。

収益統計サブユニット13は、不規則外乱が増加されたた推薦システムに基づいてユーザにコンテンツを推薦した後の各ユーザの長期行動報酬を統計する。

パラメータ進化サブユニット14は、収益統計サブユニットにより統計された各ユーザの長期行動収益に基づいて、各セットの不規則外乱から最適化すべきパラメータの進化方向を決定し、決定された進化方向に基づいて最適化すべきパラメータを更新する。実際には、様々な方向の外乱を試みることにより、ユーザの長期行動収益を最大化するために最適な進化方向を決定する。

ここで、上記の推薦システムは、教師付き学習方式を用いて、あるいは教師付き学習と人工規則を組み合わせた方式を用いて事前に得られた推薦システムであってよい。

本開示の実施形態によれば、本開示は更に、電子デバイス及び可読記憶媒体を提供する。

図5は、本発明の実施形態に係る推薦システムの最適化方法のための電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、PDA、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び／又は請求される本開示の実現を限定することが意図されない。

図5に示すように、この電子デバイスは、一つ又は複数のプロセッサ501、メモリ502、及び各構成要素に接続するための高速インターフェース及び低速インターフェースを含むインターフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力/出力装置（例えば、インターフェースに結合される表示装置）にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び／又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する（例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする）。図5において、一つのプロセッサ501を例とする。

メモリ502は、本開示で提供される非一時的コンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも１つのプロセッサが本願に提供された推薦システムの最適化方法を実行するように、前記少なくとも１つのプロセッサに実行可能なコマンドが記憶されている。本開示の非一時的コンピュータ可読記憶媒体は、本願に提供された推薦システムの最適化方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。

メモリ502は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム、モジュール、例えば、本開示の実施例における推薦システムの最適化方法に対応するプログラムコマンド/モジュールを記憶するために用いられる。プロセッサ501は、メモリ502に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例における推薦システムの最適化方法を実現する。

メモリ502は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域は当該電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリ502は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリ502は、プロセッサ501に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介して当該電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。

当該電子デバイスは、更に、入力装置503と出力装置504とを備えても良い。プロセッサ501、メモリ502、入力装置503及び出力装置504は、バス又は他の手段により接続されても良く、図5においてバスによる接続を例とする。

入力装置503は、入力された数字又はキャラクタ情報を受信し、電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置504は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含むことができる。当該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオードディスプレイ（ＬＥＤ）、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。

本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、当該記憶システム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び／又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される）は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び／又はオブジェクト向けプログラミング言語、及び／又はアセンブリ／機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び／又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス）を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び／又はデータを提供するために用いられる任意の信号を指す。

ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置（例えば、ＣＲＴ（ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニタ）、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス（例えば、マウスや、トラックボール）を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック）であり得、ユーザからの入力は、任意の形態で（音響、音声又は触覚による入力を含む）受信され得る。

本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる）、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、ワイド・エリア・ネットワーク（「ＷＡＮ」）、インターネットワークを含む。

コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。

前記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。

Claims

コンピュータによって実施される、推薦システムの最適化方法であって、
前記推薦システムを意思決定主体とし、ユーザを環境とし、前記推薦システムの1回ごとの推薦内容を前記意思決定主体の行動とし、ユーザの長期行動収益を前記環境の報酬とすることと、
強化学習の方式により前記推薦システムにおける最適化すべきパラメータを最適化して前記環境の報酬を最大化することと、を含み、
前記強化学習の方式は進化学習を含み、
前記推薦システムにおける最適化すべきパラメータを最適化することは、一回以上の反復更新を含み、
毎回の反復更新は、
各ユーザに対して不規則外乱のセットをそれぞれ生成することと、
最適化すべきパラメータと同じ次元の前記不規則外乱のセットを前記最適化すべきパラメータに増加することと、
不規則外乱が増加された推薦システムに基づいてユーザにコンテンツを推薦した後の各ユーザの長期行動収益を統計することと、
統計された各ユーザの長期行動収益に基づいて、各セットの不規則外乱から前記最適化すべきパラメータの進化方向を決定し、決定された進化方向に基づいて前記最適化すべきパラメータを更新することと、を含む、
方法。
前記最適化すべきパラメータは、前記推薦システムにおけるモデルパラメータ及び/又はスーパーパラメータの少なくとも一部を含む、
請求項1に記載の方法。
前記反復更新は繰り返し実行され、或いは、
前記反復更新は、前記推薦システムが収束条件を満たすまで実行され、或いは、
前記反復更新は、反復回数が予め設定された回数閾値に達するまで実行される、
請求項1に記載の方法。
前記推薦システムは、教師付き学習方式、又は教師付き学習と人工規則とを組み合わせた方式で予め得られた推薦システムである請求項1に記載の方法。
前記ユーザの長期行動利益は、
ユーザが前記推薦システムに属するサービスを利用した総時間、前記推薦システムが推薦したコンテンツに対するユーザの総クリック回数又は総クリック率、前記推薦システムにおけるユーザのプロモーション転化率、又は前記推薦システムに属するサービスのユーザのリテンション率を含む、
請求項1～4のいずれか一項に記載の方法。
推薦システムの最適化装置であって、
前記推薦システムを意思決定主体とし、ユーザを環境とし、前記推薦システムの1回ごとの推薦内容を意思決定主体の行動とし、ユーザの長期行動収益を前記環境の報酬とするモデリングユニットと、
強化学習の方式により前記推薦システムにおける最適化すべきパラメータを最適化して前記環境の報酬を最大化する最適化ユニットと、
を備え、
前記強化学習の方式は進化学習を含み、
前記最適化ユニットは、一回以上の反復更新を実行するために、具体的に、
各ユーザに対して不規則外乱のセットをそれぞれ生成する外乱生成サブユニットと、
最適化すべきパラメータと同じ次元の前記不規則外乱のセットを前記最適化すべきパラメータに増加する外乱増加サブユニットと、
不規則外乱が増加された推薦システムに基づいてユーザにコンテンツを推薦した後の各ユーザの長期行動収益を統計する収益統計サブユニットと、
前記収益統計サブユニットにより統計された各ユーザの長期行動収益に基づいて、各セットの不規則外乱から前記最適化すべきパラメータの進化方向を決定し、決定された進化方向に基づいて前記最適化すべきパラメータを更新するパラメータ進化サブユニットと、を備える、
装置。
前記最適化すべきパラメータは、前記推薦システムにおけるモデルパラメータ及び/又はスーパーパラメータの少なくとも一部を含む、請求項6に記載の装置。
前記推薦システムは、教師付き学習方式、又は教師付き学習と人工規則とを組み合わせた方式で予め得られた推薦システムである、請求項6に記載の装置。
前記ユーザの長期行動利益は、
ユーザが前記推薦システムに属するサービスを利用した総時間、前記推薦システムが推薦したコンテンツに対するユーザの総クリック回数又は総クリック率、前記推薦システムにおけるユーザのプロモーション転化率、又は前記推薦システムに属するサービスのユーザのリテンション率を含む、
請求項6～8のいずれか一項に記載の装置。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリと、を備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1～5のいずれか一項に記載の方法を実行させる電子デバイス。
コンピュータに請求項1～5のいずれか一項に記載の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体。
コンピュータに請求項1～5のいずれか一項に記載の方法を実行させるためのプログラム。