JP7026032B2

JP7026032B2 - レコメンドシステム及びレコメンド方法

Info

Publication number: JP7026032B2
Application number: JP2018197228A
Authority: JP
Inventors: シャイマダヒリ; 啓一郎帆足
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2022-02-25
Anticipated expiration: 2038-10-19
Also published as: JP2020064537A

Description

本発明は、推奨する行動をレコメンドするレコメンドシステム及びレコメンド方法に関する。

ＧＡＮ（Generative Adversarial Network）を用いてユーザの嗜好を推定し、推定した結果に基づいてユーザが取るべき行動をレコメンドする方法が知られている（例えば、非特許文献１を参照）。

ジャエユーンユー他「レコメンドのためのエネルギーベースシーケンスＧＡＮと模倣学習との関係（Energy-Based Sequence GANs for Recommendation and Their Connection to Imitation Learning）」、２０１７年７月

ＧＡＮを用いることにより、柔軟な学習環境を提供することができる。例えば多数の人の行動内容と気分との関係を示す大量の教師データを用いることにより、人の気分を示すデータを入力することにより推奨する行動を出力できる機械学習モデルを作成することができる。

しかしながら、行動内容と気分との関係は人によって異なるので、特定の個人に合った推奨行動をレコメンドするためには、特定の個人の行動内容と気分との関係を示す教師データが必要である。しかしながら、このような特定の個人に関する教師データを大量に取得することは困難である。そこで、散発的で少量の教師データを用いて、効果的に特定の個人の状態を推定し、特定の個人に推奨される行動をレコメンドすることが求められている。

そこで、本発明はこれらの点に鑑みてなされたものであり、特定の個人に推奨される行動をレコメンドすることができるレコメンドシステム及びレコメンド方法を提供することを目的とする。

本発明の第１の態様のレコメンドシステムは、複数の人の行動内容と気分との関係を示すデータセットに基づいて、ユーザに推奨する行動内容を提示する汎用機械学習モデルを作成する汎用モデル作成部と、前記汎用機械学習モデルに基づいて、特定ユーザ用の個人機械学習モデルを作成する個人モデル作成部と、前記特定ユーザの気分を特定する気分特定部と、前記気分特定部が特定した前記特定ユーザの気分を示す気分情報を前記個人機械学習モデルに入力することにより前記個人機械学習モデルから出力される推奨行動をレコメンドするレコメンド部と、を有し、前記気分特定部は、前記レコメンド部が前記特定ユーザに前記推奨行動をレコメンドした後の前記特定ユーザの満足度を示すフィードバック情報を前記個人モデル作成部に入力し、前記個人モデル作成部は、前記フィードバック情報に基づいて前記個人機械学習モデルを更新する。

前記個人モデル作成部は、前記気分特定部が所定の数の前記フィードバック情報を生成するたびに前記個人機械学習モデルを更新してもよい。

前記個人モデル作成部は、前記ユーザの気分が変化したことを示す前記フィードバック情報に基づいて前記個人機械学習モデルを更新してもよい。

前記フィードバック情報は、前記特定ユーザが前記推奨行動を実行する前の前記特定ユーザの気分と、前記レコメンド部が前記特定ユーザにレコメンドした前記推奨行動の内容と、前記特定ユーザが前記推奨行動を実行した後の前記特定ユーザの気分と、を示す情報を含み、前記個人モデル作成部は、前記フィードバック情報が示す前記推奨行動を前記レコメンド部がレコメンドする前の前記特定ユーザの気分と、前記レコメンド部がレコメンドした前記推奨行動の内容と、前記特定ユーザが前記推奨行動を実行した後の前記特定ユーザの気分との関係とに基づいて、前記個人機械学習モデルを更新してもよい。

前記ユーザが前記推奨行動を実行したことによる気分の変化内容の期待値と、実際の前記ユーザの気分の変化内容との差分の大きさに対して前記個人機械学習モデルを変化させる度合を示す指標である更新感度の設定を受け付ける設定受付部をさらに有し、前記個人モデル作成部は、前記差分に前記更新感度を乗算した値の大きさに基づいて、前記個人機械学習モデルを更新してもよい。

前記気分特定部は、前記特定ユーザの行動履歴に基づいて前記特定ユーザの気分を推定することにより前記気分情報を特定してもよい。

前記汎用モデル作成部は、ＧＡＩＬを用いることにより前記汎用機械学習モデルを作成し、前記個人モデル作成部は、ＧＡＩＬを用いることなく前記個人機械学習モデルを作成してもよい。

本発明の第２の態様のレコメンド方法は、複数の人の行動内容と気分との関係を示すデータセットに基づいて、ユーザに推奨する行動内容を提示する汎用機械学習モデルを作成するステップと、前記汎用機械学習モデルに基づいて、特定ユーザ用の個人機械学習モデルを作成するステップと、前記特定ユーザの気分を示す気分情報を取得するステップと、取得した前記特定ユーザの気分情報を前記個人機械学習モデルに入力することにより前記個人機械学習モデルから出力される推奨行動をレコメンドするステップと、前記特定ユーザに前記推奨行動をレコメンドした後に取得した前記特定ユーザの満足度を示すフィードバック情報に基づいて前記個人機械学習モデルを更新するステップと、を有する。

本発明によれば、特定の個人に推奨される行動をレコメンドすることができるレコメンドシステム及びレコメンド方法を提供することができるという効果を奏する。

本実施形態に係るレコメンドシステムの概要を示す図である。レコメンドシステムの機能構成を示すブロック図である。ユーザ端末に表示されるメッセージ送受信用の画面の一例を示す図である。汎用機械学習システムの構成例を示す図である。個人機械学習システムの構成例を示す図である。メタ学習アルゴリズムの概要を示す図である。ユーザの行動履歴データを概念的に示す図である。

［レコメンドシステムＳの概要］
図１は、本実施形態に係るレコメンドシステムＳの概要を示す図である。レコメンドシステムＳは、ユーザの気分を推定し、推定した気分の内容に基づいて、ユーザに推奨する行動をレコメンドすることができるシステムである。レコメンドシステムＳは、例えば美味しい料理を食べることで元気になる傾向にあるユーザの気分が悪い状態であると推定した場合に、仲の良い友人と一緒にレストランに行くことをユーザに推奨する。

レコメンドシステムＳは、汎用機械学習システムＳ１と、個人機械学習システムＳ２とを備える。汎用機械学習システムＳ１は、複数の人の行動内容と気分との関係を示すデータセットに基づいて、ユーザに推奨する行動内容を提示する汎用機械学習モデルを作成する。汎用機械学習システムＳ１は、例えば、多数の人から取得したデータセットに基づいてＧＡＩＬ（Generative Adversarial Imitation Learning）を用いて学習することにより、一般的なユーザの気分を推定し、推定した結果に基づいて推奨行動を決定する。

個人機械学習システムＳ２は、汎用機械学習システムＳ１が作成した汎用機械学習モデルに基づいて、例えばＧＡＩＬを用いることなく、特定のユーザ用の個人機械学習モデルを作成する。以下の説明において、個人機械学習システムＳ２が個人機械学習モデルを作成した対象の特定のユーザをユーザＵとする。

個人機械学習システムＳ２は、汎用機械学習システムＳ１から取得した汎用機械学習モデルを初期の個人機械学習モデルとする。その後、個人機械学習システムＳ２は、ユーザＵが実行した行動と、行動を実行した後の満足度との関係を示す情報を教師データとして用いて学習することにより、個人機械学習モデルを更新する。

以下、図１を参照しながら、レコメンドシステムＳにおける処理の流れを説明する。まず、汎用機械学習システムＳ１は、多数のユーザに関するデータセット（例えば、多数のユーザの行動内容と気分との関係を示すデータセット）に基づいて作成した汎用機械学習モデルを個人機械学習システムＳ２に通知する（図１における（１））。汎用機械学習システムＳ１は、定期的に汎用機械学習モデルを個人機械学習システムＳ２に通知してもよく、汎用機械学習モデルを更新するたびに、更新後の汎用機械学習モデルを個人機械学習システムＳ２に通知してもよい。

続いて、個人機械学習システムＳ２は、ユーザＵが使用するユーザ端末１５（例えばスマートフォン、タブレット又はコンピュータ）から、ユーザＵの場所等を示すユーザ状態情報とユーザＵの気分を示す気分情報とを関連付けて取得する（図１における（２））。個人機械学習システムＳ２は、取得したユーザＵに関する情報に基づいて、初期の個人機械学習モデルを作成する（図１における（３））。

その後、個人機械学習システムＳ２は、ユーザＵの気分情報を取得すると、取得した気分情報を個人機械学習モデルに入力し、個人機械学習モデルから出力される推奨行動の内容をユーザＵにレコメンドする（図１における（４））。個人機械学習システムＳ２は、ユーザＵの気分情報を取得せず、ユーザＵのユーザ状態情報に基づいてユーザＵの気分を推定してもよい。

続いて、個人機械学習システムＳ２は、推奨行動をレコメンドした後に、ユーザＵの状態を示すユーザ状態情報又はユーザＵの気分を示す気分情報をユーザＵのユーザ端末から取得する（図１における（５））。個人機械学習システムＳ２は、ユーザ状態情報又は気分情報に基づいて、ユーザＵの満足度を特定する。個人機械学習システムＳ２は、ユーザＵに推奨行動をレコメンドする前のユーザＵの気分と、レコメンドした推奨行動と、特定した満足度とを教師データとして個人機械学習モデルに入力することにより、個人機械学習モデルを更新する（図１における（６））。

以上説明したように、個人機械学習システムＳ２は、汎用機械学習システムＳ１から提供された汎用機械学習モデルに基づいて作成した個人機械学習モデルを用いて、ユーザＵの気分に応じた推奨行動をレコメンドする。そして、ユーザＵにレコメンドした推奨行動の内容と、ユーザＵに推奨行動をレコメンドした後のユーザＵの満足度とに基づいて、個人機械学習モデルを更新する。個人機械学習システムＳ２は、ユーザＵの満足度に基づいて、レコメンド前後のユーザの気分の変化を特定し、気分の変化に基づいて個人機械学習モデルを更新してもよい。

個人機械学習システムＳ２は、例えば、推奨行動をレコメンドした後にユーザＵの気分が改善した度合いが第１閾値よりも大きい場合、又は推奨行動をレコメンドした後にユーザＵの気分が改善した度合いが第１閾値以下の第２閾値よりも小さい場合に、個人機械学習モデルを更新する。個人機械学習システムＳ２は、推奨行動をレコメンドした後にユーザＵの気分が改善した度合いが想定範囲内（例えば第２閾値以上第１閾値以下の範囲内）である場合に、個人機械学習モデルを更新しない。レコメンドシステムＳがこのような構成を有することで、特定の個人における推奨行動と気分との関係を示す教師データが大量にない場合であっても、短期間で精度の高い個人機械学習モデルを作成することができる。

［レコメンドシステムＳの構成］
図２は、レコメンドシステムＳの機能構成を示すブロック図である。レコメンドシステムＳは、汎用モデル作成部１１と、個人モデル作成部１２と、気分特定部１３と、レコメンド部１４と、ユーザ端末１５と、設定受付部１６とを有する。汎用モデル作成部１１は、例えば図１における汎用機械学習システムＳ１に含まれている。個人モデル作成部１２、気分特定部１３及びレコメンド部１４は、例えば図１における個人機械学習システムＳ２に含まれている。

汎用モデル作成部１１は、複数の人の行動内容と気分との関係を示すデータセットに基づいて、ユーザに推奨する行動内容を提示する汎用機械学習モデルを作成するとともに、作成した汎用機能学習モデルを記憶するユニットである。汎用モデル作成部１１は、例えばＧＡＩＬを用いることにより汎用機械学習モデルを作成する。汎用モデル作成部１１は、記憶している汎用機械学習モデルを個人モデル作成部１２に提供する。

個人モデル作成部１２は、汎用機械学習モデルに基づいて、ユーザＵ用の個人機械学習モデルを作成するとともに、作成した個人機械学習モデルを記憶するユニットである。個人モデル作成部１２は、汎用モデル作成部１１から提供された汎用機械学習モデルを更新することにより個人機械学習モデルを作成する。個人モデル作成部１２は、例えばＧＡＩＬを用いることなく個人機械学習モデルを作成する。個人モデル作成部１２は、例えばＬＳＴＭ（Long Short-term Memory）を用いたメタ学習により、汎用機械学習システムＳ１が作成した汎用機械学習モデルをユーザＵに最適化して個人機械学習モデルを作成する。

気分特定部１３は、特定のユーザであるユーザＵの気分を特定する。気分特定部１３は、例えばユーザＵが使用するユーザ端末１５においてユーザＵが入力した気分情報に基づいて、ユーザＵの気分を特定する。気分特定部１３は、ユーザ端末１５から送信されたユーザ端末１５の位置を示す情報、ユーザ端末１５の周囲の天候を示す情報、及びユーザ端末１５により撮影された画像等のように、ユーザＵの行動履歴を示す情報に基づいてユーザＵの気分を推定することにより、ユーザＵの気分を特定してもよい。

気分特定部１３は、特定したユーザＵの気分を個人モデル作成部１２に入力する。気分特定部１３は、例えば、レコメンド部１４がユーザＵに推奨行動をレコメンドした後に特定したユーザＵの気分を示すフィードバック情報を個人モデル作成部１２に入力する。

なお、気分特定部１３がユーザＵの気分を特定するための方法としては、各種の方法を適用することができる。気分特定部１３は、例えば、ワンホットエンコーダーモデル（ＯＨＥ：One-Hot Encoder）又はカテゴリーベクターモデル（Cat2Vec）を使用して、ユーザＵの行動の内容を数値化する。気分特定部１３は、数値化した内容を、予めユーザの行動と感情との関係を学習した再帰型ニューラルネットワークにより構成される機械学習モデルに入力することにより、ユーザＵの気分を特定することができる。

レコメンド部１４は、気分特定部１３が特定したユーザＵの気分を示す気分情報を個人機械学習モデルに入力することにより個人機械学習モデルから出力される推奨行動の内容をユーザＵにレコメンドする。レコメンド部１４は、例えばＡＩエージェントを含んでいる。レコメンド部１４は、ユーザＵの場所及びユーザＵがいる場所の天候等のようにユーザＵの状態を示すユーザ状態情報をさらに取得し、ユーザ状態情報及び気分情報を個人機械学習モデルに入力してもよい。レコメンド部１４は、個人機械学習モデルから出力された推奨行動の内容をユーザ端末１５に通知する。

ユーザ端末１５は、ユーザＵが用いる情報端末であり、情報を表示するディスプレイ、情報を入力するための操作デバイス（例えばタッチパネル）、及び情報を送信するための通信デバイスを有する。ユーザ端末１５は、ユーザＵが気分を示す気分情報を入力するための画面を表示し、ユーザＵが入力した気分情報をレコメンド部１４に送信する。ユーザ端末１５は、レコメンド部１４との間で、チャット形式でメッセージをやり取りするメッセージ送受信アプリケーションソフトウェアにより気分情報の入力を受け付けて、入力された気分情報を送信してもよい。

図３は、ユーザ端末１５に表示されるメッセージ送受信用の画面の一例を示す図である。図３に示す例においては、レコメンド部１４がチャットボット機能を有していることが想定されており、レコメンド部１４がユーザ端末１５に送信したメッセージと、ユーザＵが入力したメッセージとが交互に表示されている。レコメンド部１４は、ユーザＵの気分が悪いことを気分特定部１３が特定した場合に、気分を良くするための推奨行動の内容をユーザ端末１５に送信する。図３に示す例においては、レコメンド部１４は、ユーザＵがたくさん働いて疲れていると推定したことにより、疲れを癒やすことにつながる推奨行動として、レストランＸにＡさんと行くことを推奨している。

設定受付部１６は、個人機械学習モデルの更新感度の設定を受け付ける。更新感度は、ユーザＵが推奨行動を実行したことによる気分の変化内容の期待値と、実際のユーザＵの気分の変化内容との差分の大きさに対して個人機械学習モデルを変化させる度合を示す指標である。設定受付部１６は、受け付けた更新感度を個人モデル作成部１２に通知する。個人モデル作成部１２は、例えば、差分に更新感度を乗算した値の大きさに基づいて、個人機械学習モデルを更新する。

更新感度が大きい場合、個人モデル作成部１２は、上記の差分が小さくても個人機械学習モデルを更新するので、個人モデル作成部１２は、個人機械学習モデルを頻繁に更新することができる。更新感度が小さい場合、個人モデル作成部１２は個人機械学習モデルを頻繁に更新しないので、例外的な事象が発生したことにより個人機械学習モデルが不適切に更新されてしまうことを防止できる。

［個人機械学習モデルの更新］
個人モデル作成部１２は、気分特定部１３から入力されるフィードバック情報に基づいて個人機械学習モデルを更新する。個人モデル作成部１２は、例えば、気分特定部１３が所定の数のフィードバック情報を生成するたびに個人機械学習モデルを更新する。フィードバック情報は、例えばユーザＵが推奨行動を実行した後のユーザＵの満足度を示す情報を含む。フィードバック情報は、ユーザＵが推奨行動を実行する前のユーザＵの気分と、レコメンド部１４がユーザＵにレコメンドした推奨行動の内容と、ユーザＵが推奨行動を実行した後のユーザＵの気分と、を示す情報を含んでもよい。フィードバック情報は、ユーザＵが推奨行動を実行する前後のユーザＵの気分の変化量を示す情報を含んでもよい。

個人モデル作成部１２は、推奨行動をレコメンド部１４がレコメンドする前のユーザＵの気分と、レコメンド部１４がレコメンドした推奨行動の内容と、ユーザＵが推奨行動を実行した後のユーザＵの満足度との関係とに基づいて、個人機械学習モデルを更新する。個人モデル作成部１２は、推奨行動をレコメンド部１４がレコメンドする前のユーザＵの気分と、ユーザＵが実行した推奨行動の内容と、ユーザＵが推奨行動を実行した後のユーザＵの満足度との関係とに基づいて、個人機械学習モデルを更新してもよい。

また、個人モデル作成部１２は、ユーザＵの気分が変化したことを示すフィードバック情報に基づいて個人機械学習モデルを更新してもよい。気分特定部１３は、例えば、レコメンド部１４が推奨行動をユーザ端末１５に送信してから、推奨行動を実行するために要すると推定される時間が経過した後にユーザＵの気分が変化したことを検出した場合、推奨行動を送信する前のユーザＵの気分、推奨行動を送信した後のユーザＵの気分、及び推奨行動の内容を教師データとして個人モデル作成部１２に入力する。個人モデル作成部１２は、入力された教師データに基づいて再学習することにより、個人機械学習モデルを更新する。

個人モデル作成部１２は、レコメンド部１４が推奨行動をユーザ端末１５に送信してから、推奨行動を実行するために要すると推定される時間が経過した後にユーザＵの気分が変化した量が、予め想定される変化量よりも小さい場合に、個人機械学習モデルを更新してもよい。このようにするために、気分特定部１３は、レコメンド部１４が推奨行動を送信する前のユーザＵの気分と推奨行動を送信した後のユーザＵの気分との差が所定の量よりも小さい場合に、推奨行動を送信する前のユーザＵの気分、推奨行動を送信した後のユーザＵの気分、及び推奨行動の内容を教師データとして個人モデル作成部１２に入力する。このようにすることで、ユーザＵの気分を改善するために効果が大きい推奨行動を出力するように個人機械学習モデルを改善することができる。

［汎用機械学習システムＳ１及び個人機械学習システムＳ２の構成例］
図４は、汎用機械学習システムＳ１の構成例を示す図である。図５は、個人機械学習システムＳ２の構成例を示す図である。汎用機械学習システムＳ１は、ＧＡＩＬアルゴリズムを使用する。一方、個人機械学習システムＳ２は、強化学習（ＲＬ：Reinforcement Learning）フレームワークにおいて、模倣学習（Imitation Learning）アルゴリズムを使用する。

汎用機械学習システムＳ１は、一般的なユーザの気分（嬉しい、悲しい、普通）を特定のファクターとマッチングさせるための汎用ポリシーを学習することを目的としている。特定のファクターは、例えば、場所、社会環境、日時及び行動内容の少なくともいずれかである。汎用機械学習システムＳ１におけるポリシーは、ＧＡＩＬアルゴリズムを用いて、全てのユーザのデータ（Ｃ３）に基づいて学習される。

汎用機械学習システムＳ１は、敵対的ゲーム（Adversarial Game）の判別器（Discriminator）（Ｃ５）及び汎用機械学習モデル（Ｃ４）という２つの主要な機能ブロックを有する。ＧＡＩＬの目標は、エキスパートのデモンストレーションを模倣することにより学習することである。デモンストレーションは、多数のユーザから集められた履歴データにより表される。履歴データは、例えば、過去の行動内容と気分との関係を示すデータセットである。ＧＡＩＬは、モデルが不要な模倣学習アルゴリズムであり、高次元環境における複雑なふるまいを模倣する従来のモデルが不要な方法に比べて、顕著にパフォーマンスが高い。

個人機械学習システムＳ２の目的は、汎用機械学習システムＳ１から取得した汎用機械学習モデルを、特定のユーザＵから得られる少数のサンプルに基づいて更新することである。個人機械学習システムＳ２は、主に４つの要素により構成されている。ユーザの少数の行動履歴データ（Ｃ８）は、汎用機械学習システムＳ１で学習されたネットワークを更新するために用いられる。個人機械学習モデル（Ｃ６）は、メタ学習を実行する模倣学習器（Ｃ７）を用いて、順次更新される。個人機械学習モデル（Ｃ６）及び模倣学習器（Ｃ７）は、図２に示した個人モデル作成部１２に対応する。

図６は、メタ学習アルゴリズムの概要を示す図である。図７は、ユーザの行動履歴データを概念的に示す図である。メタ学習モデルは、行動履歴データの微分と損失関数（Loss）により規定される。個人機械学習モデル（Ｃ６）が使用する深層ニューラルネットワークの学習に用いられる標準的な最適化アルゴリズムは、以下の式により表される。
θ_ｔ＝θ_ｔ－１－α_ｔ（∇θ_ｔ－１）Ｌ_ｔ－１
ここで、α_ｔは、上述の更新感度に対応する係数である。図６における白い四角は、上記の最適化処理をするオプティマイザである。

ここで、行動履歴データ（Ｃ８）は、異なるコンテキストにおけるユーザＵの履歴データである。ユーザＵの気分をコンテキストだとすると、ユーザＵの履歴データは、図７に示す構造を有する。それぞれの気分に対して、ユーザＵがいる場所、ユーザＵの行動内容、周囲の人々及び日時といった異なる項目に関係する少数のサンプルが関連付けられている。

ＡＩエージェント（Ｃ９）は、図２に示したレコメンド部１４に対応しており、推奨行動を生成する。ＡＩエージェント（Ｃ９）は、例えば、ユーザＵの履歴データに含まれる一以上の項目（すなわち、場所、行動内容、周囲の人々及び日時）に関連付けられた複数の推奨行動候補のリストＬから、レコメンドする推奨行動を選択する。複数の推奨行動候補のリストＬは、個人機械学習モデル（Ｃ６）から送信される更新されたポリシーに基づいて決定される。ＡＩエージェント（Ｃ９）は、ユーザＵの気分が悪い状態であると予測した場合に、気分を改善することができる推奨行動候補を選択する。

［レコメンドシステムＳによる効果］
以上説明したように、レコメンドシステムＳは、複数のユーザの気分に基づいて、取得した気分に基づいて推奨する行動内容を提示する汎用機械学習モデルを作成する汎用モデル作成部１１と、汎用機械学習モデルに基づいて、特定ユーザ用の個人機械学習モデルを作成する個人モデル作成部１２と、を有する。

レコメンド部１４は、気分特定部１３が特定した特定ユーザの気分を示す気分情報を個人機械学習モデルに入力することにより個人機械学習モデルから出力される推奨行動をレコメンドする。個人モデル作成部１２は、特定ユーザの満足度を示すフィードバック情報に基づいて個人機械学習モデルを更新する。レコメンドシステムＳがこのように構成されていることにより、特定のユーザＵの行動履歴を示すデータが大量にない場合であっても、個人に推奨される行動をレコメンドするために使用可能な個人機械学習モデルを作成することができる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。

１１汎用モデル作成部
１２個人モデル作成部
１３気分特定部
１４レコメンド部
１５ユーザ端末
１６設定受付部

Claims

複数の人の行動内容と気分との関係を示すデータセットに基づいて、ユーザに推奨する行動内容を提示する汎用機械学習モデルを作成する汎用モデル作成部と、
前記汎用機械学習モデルに基づいて、特定ユーザ用の個人機械学習モデルを作成する個人モデル作成部と、
前記特定ユーザの気分を特定する気分特定部と、
前記気分特定部が特定した前記特定ユーザの気分を示す気分情報を前記個人機械学習モデルに入力することにより前記個人機械学習モデルから出力される推奨行動をレコメンドするレコメンド部と、
前記特定ユーザが前記推奨行動を実行したことによる気分の変化内容の期待値と、実際の前記特定ユーザの気分の変化内容との差分の大きさに対して前記個人機械学習モデルを変化させる度合を示す指標である更新感度の設定を受け付ける設定受付部と、
を有し、
前記気分特定部は、前記特定ユーザが前記推奨行動を実行する前の前記特定ユーザの気分と、前記レコメンド部が前記特定ユーザにレコメンドした前記推奨行動の内容と、前記特定ユーザが前記推奨行動を実行した後の前記特定ユーザの気分とを示すフィードバック情報を前記個人モデル作成部に入力し、
前記個人モデル作成部は、前記フィードバック情報が示す、前記特定ユーザが前記推奨行動を実行する前の前記特定ユーザの気分と、前記レコメンド部がレコメンドした前記推奨行動の内容と、前記特定ユーザが前記推奨行動を実行した後の前記特定ユーザの気分との関係、及び前記特定ユーザが前記推奨行動を実行する前と後の前記特定ユーザの気分の差分に前記更新感度を乗算した値の大きさ、に基づいて、前記個人機械学習モデルを更新する、
レコメンドシステム。
前記個人モデル作成部は、前記気分特定部が所定の数の前記フィードバック情報を生成するたびに前記個人機械学習モデルを更新する、
請求項１に記載のレコメンドシステム。
前記個人モデル作成部は、前記特定ユーザの気分が変化したことを示す前記フィードバック情報に基づいて前記個人機械学習モデルを更新する、
請求項１又は２に記載のレコメンドシステム。
前記気分特定部は、前記特定ユーザの行動履歴に基づいて前記特定ユーザの気分を推定することにより前記気分情報を特定する、
請求項１から３のいずれか一項に記載のレコメンドシステム。
前記汎用モデル作成部は、ＧＡＩＬを用いることにより前記汎用機械学習モデルを作成し、
前記個人モデル作成部は、ＧＡＩＬを用いることなく前記個人機械学習モデルを作成する、
請求項１から４のいずれか一項に記載のレコメンドシステム。
コンピュータが実行する、
複数の人の行動内容と気分との関係を示すデータセットに基づいて、ユーザに推奨する行動内容を提示する汎用機械学習モデルを作成するステップと、
前記汎用機械学習モデルに基づいて、特定ユーザ用の個人機械学習モデルを作成するステップと、
前記特定ユーザの気分を示す気分情報を取得するステップと、
取得した前記特定ユーザの気分情報を前記個人機械学習モデルに入力することにより前記個人機械学習モデルから出力される推奨行動をレコメンドするステップと、
前記特定ユーザが前記推奨行動を実行したことによる気分の変化内容の期待値と、実際の前記特定ユーザの気分の変化内容との差分の大きさに対して前記個人機械学習モデルを変化させる度合を示す指標である更新感度の設定を受け付けるステップと、
前記特定ユーザが前記推奨行動を実行する前の前記特定ユーザの気分と、前記特定ユーザにレコメンドした前記推奨行動の内容と、前記特定ユーザが前記推奨行動を実行した後の前記特定ユーザの気分とを示すフィードバック情報が示す、前記特定ユーザが前記推奨行動を実行する前の前記特定ユーザの気分と、レコメンドした前記推奨行動の内容と、前記特定ユーザが前記推奨行動を実行した後の前記特定ユーザの気分との関係、及び前記特定ユーザが前記推奨行動を実行する前と後の前記特定ユーザの気分の差分に前記更新感度を乗算した値の大きさに基づいて前記個人機械学習モデルを更新するステップと、
を有するレコメンド方法。