JP4581446B2 - 情報処理装置および方法、並びにプログラム - Google Patents
情報処理装置および方法、並びにプログラム Download PDFInfo
- Publication number
- JP4581446B2 JP4581446B2 JP2004081917A JP2004081917A JP4581446B2 JP 4581446 B2 JP4581446 B2 JP 4581446B2 JP 2004081917 A JP2004081917 A JP 2004081917A JP 2004081917 A JP2004081917 A JP 2004081917A JP 4581446 B2 JP4581446 B2 JP 4581446B2
- Authority
- JP
- Japan
- Prior art keywords
- state
- information
- value
- content
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
の3つの情報が並べられて記述される。
V(S4) = V + R ・・・(3)
V(S3) → V(S3) + α { R−△(S31)+ γV(S4) - V(S) } ・・・(5)
V(s2)=V(s2)+α×{R2+γ×V(S3)-V(S2)}=0+0.5×{1+0.9×0-0}=0.5 ・・・(7)
V(s3)=V(s3)+α×{R3-V(s3)}=0+0×{0-0}=0.0 ・・・(8)
V(S5)=V(S5)+α×{R5+γ×V(S6)-V(S5)}=0+0.5×{-1+0.9×0-0}=-0.25・・・(10)
V(S6)=V(S6)+α×{R6-V(S6)}=0+0×{0-0}=0.0 ・・・(11)
・・・(14)
Q(S3, A) → Q(S3, A) + α { R-△(S31,A)+ γmaxAQ(S4, A) - Q(S3, A) }
・・・(15)
・・・(16)
Q(S2,D)=Q(S2,D)+α×{R2+γ×maxQ(S3,A)-Q(S2,D)}=0+0.5×{1+0.9×0-0}=0.5
・・・(17)
・・・(18)
Q(S5,C)=Q(S5,C)+α×{R5+γ×maxQ(S6,A)-Q(S5,C)}=0+0.5×{-1+0.9×0-0}=-0.25
・・・(19)
Claims (15)
- 状態遷移グラフを更新して学習し、学習した前記状態遷移グラフを利用してコンテンツを推薦する場合の前記状態遷移グラフを生成する情報処理装置であって、
ユーザの各操作のそれぞれに応じて、対応する処理を前記コンテンツに対して施すコンテンツ処理手段と、
前記コンテンツ処理手段により前記ユーザの操作に対応する処理が前記コンテンツに対して施される毎に、前記ユーザの操作対象の前記コンテンツに関する1以上の情報、前記ユーザの操作内容を示す1以上の情報、並びに、前記ユーザの操作時点の時刻、場所、状況、および前記ユーザの感情の情報を含むコンテクストを示す1以上の情報のそれぞれを要素情報として含む履歴情報を順次生成する履歴情報生成手段と、
前記履歴情報生成手段により生成された複数の前記履歴情報のそれぞれに対して、前記要素情報のうちの少なくとも一部を含む情報として構成される1つの状態を対応付けるとともに、対応付けられた前記状態で前記ユーザが前記コンテンツに対して行う操作の内容を示す行動を対応付けることで、複数の前記状態のそれぞれの時間的な遷移を示す状態遷移グラフを生成する状態遷移生成手段と、
予め設定されたN(Nは、2以上の整数値)種類の軸から定義される仮想N次元空間を構築し、前記状態遷移生成手段により生成された前記状態遷移グラフに含まれる複数の前記状態の前記要素情報を、前記N個の軸のそれぞれにおける座標に割り当てることで分類する分類手段と、
前記ユーザの現時点の状態を取得する状態取得手段と、
前記状態取得手段により取得された前記状態に含まれる前記N種類の前記軸のうちの所定のM種類(Mは、N未満の整数値)の前記軸を推薦キーとして設定するとともに、前記推薦キーとは異なる推薦の対象としての前記軸を設定する設定手段と、
前記推薦キーとしての前記軸に着目して、前記状態遷移生成手段により生成された前記状態遷移グラフに含まれる複数の前記状態の中から、前記状態取得手段により取得された前記状態と同一または類似する前記状態を決定する状態決定手段と、
前記状態決定手段により決定された前記状態のうち、前記推薦の対象としての前記軸の座標の状態価値とそれに対応する行動価値を取得するとともに、前記状態価値が最も高く、前記行動価値が最も高い前記コンテンツを推薦する推薦手段と
を備えることを特徴とする情報処理装置。 - 前記状態遷移生成手段により生成された前記状態遷移グラフに含まれる第1の状態に対応する前記履歴情報を構成する前記要素情報のうちの、前記分類手段により前記N種類のうちの所定のM種類(Mは、N以下の整数値)のそれぞれとして分類された前記要素情報の特徴と、
前記第1の状態の次に配置される第2の状態に対応する前記履歴情報を構成する前記要素情報のうちの、前記分類手段により前記M種類のそれぞれとして分類された前記要素情報の特徴とを比較し、
その比較結果と予め定められた連続性のルールに基づいて、前記ルールに違反しないと判定された場合、前記第1の状態と前記第2の状態との間に連続性が存在すると判定し、前記ルールに違反すると判定された場合、前記第1の状態と前記第2の状態との間に連続性が存在しないと判定するとともに、前記第1の状態と前記第2の状態とを異なる時系列情報群として分類する連続性判断手段
をさらに備えることを特徴とする請求項1に記載の情報処理装置。 - 状態遷移グラフを更新して学習し、学習した前記状態遷移グラフを利用してコンテンツを推薦する場合の前記状態遷移グラフを生成するとともに、ユーザの各操作のそれぞれに応じて、対応する処理を前記コンテンツに対して施す情報処理装置の情報処理方法であって、
前記情報処理装置により前記ユーザの操作に対応する処理が前記コンテンツに対して施される毎に、前記ユーザの操作対象の前記コンテンツに関する1以上の情報、前記ユーザの操作内容を示す1以上の情報、並びに、前記ユーザの操作時点の時刻、場所、状況、および前記ユーザの感情の情報を含むコンテクストを示す1以上の情報のそれぞれを要素情報として含む履歴情報を順次生成する履歴情報生成ステップと、
前記履歴情報生成ステップの処理により生成された複数の前記履歴情報のそれぞれに対して、前記要素情報のうちの少なくとも一部を含む情報として構成される1つの状態を対応付けるとともに、対応付けられた前記状態で前記ユーザが前記コンテンツに対して行う操作の内容を示す行動を対応付けることで、複数の前記状態のそれぞれの時間的な遷移を示す状態遷移グラフを生成する状態遷移生成ステップと、
予め設定されたN(Nは、2以上の整数値)種類の軸から定義される仮想N次元空間を構築し、前記状態遷移生成ステップの処理により生成された前記状態遷移グラフに含まれる複数の前記状態の前記要素情報を、前記N個の軸のそれぞれにおける座標に割り当てることで分類する分類ステップと、
前記ユーザの現時点の状態を取得する状態取得ステップと、
前記状態取得ステップの処理により取得された前記状態に含まれる前記N種類の前記軸のうちの所定のM種類(Mは、N未満の整数値)の前記軸を推薦キーとして設定するとともに、前記推薦キーとは異なる推薦の対象としての前記軸を設定する設定ステップと、
前記推薦キーとしての前記軸に着目して、前記状態遷移生成ステップの処理により生成された前記状態遷移グラフに含まれる複数の前記状態の中から、前記状態取得ステップの処理により取得された前記状態と同一または類似する前記状態を決定する状態決定ステップと、
前記状態決定ステップの処理により決定された前記状態のうち、前記推薦の対象としての前記軸の座標の状態価値とそれに対応する行動価値を取得するとともに、前記状態価値が最も高く、前記行動価値が最も高い前記コンテンツを推薦する推薦ステップと
を含むことを特徴とする情報処理方法。 - 状態遷移グラフを更新して学習し、学習した前記状態遷移グラフを利用してコンテンツを推薦する場合の前記状態遷移グラフを生成するとともに、ユーザの各操作のそれぞれに応じて、対応する処理をコンテンツに対して施すコンテンツ処理装置を制御するコンピュータに実行させるプログラムであって、
前記情報処理装置により前記ユーザの操作に対応する処理が前記コンテンツに対して施される毎に、前記ユーザの操作対象の前記コンテンツに関する1以上の情報、前記ユーザの操作内容を示す1以上の情報、並びに、前記ユーザの操作時点の時刻、場所、状況、および前記ユーザの感情の情報を含むコンテクストを示す1以上の情報のそれぞれを要素情報として含む履歴情報を順次生成する履歴情報生成ステップと、
前記履歴情報生成ステップの処理により生成された複数の前記履歴情報のそれぞれに対して、前記要素情報のうちの少なくとも一部を含む情報として構成される1つの状態を対応付けるとともに、対応付けられた前記状態で前記ユーザが前記コンテンツに対して行う操作の内容を示す行動を対応付けることで、複数の前記状態のそれぞれの時間的な遷移を示す状態遷移グラフを生成する状態遷移生成ステップと、
予め設定されたN(Nは、2以上の整数値)種類の軸から定義される仮想N次元空間を構築し、前記状態遷移生成ステップの処理により生成された前記状態遷移グラフに含まれる複数の前記状態の前記要素情報を、前記N個の軸のそれぞれにおける座標に割り当てることで分類する分類ステップと、
前記ユーザの現時点の状態を取得する状態取得ステップと、
前記状態取得ステップの処理により取得された前記状態に含まれる前記N種類の前記軸のうちの所定のM種類(Mは、N未満の整数値)の前記軸を推薦キーとして設定するとともに、前記推薦キーとは異なる推薦の対象としての前記軸を設定する設定ステップと、
前記推薦キーとしての前記軸に着目して、前記状態遷移生成ステップの処理により生成された前記状態遷移グラフに含まれる複数の前記状態の中から、前記状態取得ステップの処理により取得された前記状態と同一または類似する前記状態を決定する状態決定ステップと、
前記状態決定ステップの処理により決定された前記状態のうち、前記推薦の対象としての前記軸の座標の状態価値とそれに対応する行動価値を取得するとともに、前記状態価値が最も高く、前記行動価値が最も高い前記コンテンツを推薦する推薦ステップと
を含むことを特徴とするプログラム。 - 他の情報処理装置が、
ユーザの各操作のそれぞれに応じて、対応する処理をコンテンツに対して施す毎に、前記ユーザの操作対象の前記コンテンツに関する1以上の情報、前記ユーザの操作内容を示す1以上の情報、並びに、前記ユーザの操作時点の時刻、場所、状況、および前記ユーザの感情の情報を含むコンテクストを示す1以上の情報のそれぞれを要素情報として含む履歴情報を順次生成し、
生成された複数の前記履歴情報のそれぞれに対して、前記要素情報のうちの少なくとも一部を含む情報として構成される1つの状態を対応付けるとともに、対応付けられた前記状態で前記ユーザが前記コンテンツに対して行う操作の内容を示す行動を対応付けることで、複数の前記状態のそれぞれの時間的な遷移を示す状態遷移グラフを生成し、
予め設定されたN(Nは、2以上の整数値)種類の軸から定義される仮想N次元空間を構築し、生成された前記状態遷移グラフに含まれる複数の前記状態の前記要素情報を、前記N個の軸のそれぞれにおける座標に割り当てることで分類した場合、
前記他の情報処理装置により生成された前記状態遷移グラフを利用して前記コンテンツを推薦する処理を実行する情報処理装置であって、
前記ユーザの現時点の状態を取得する状態取得手段と、
前記状態取得手段により取得された前記状態に含まれる前記N種類の前記軸のうちの所定のM種類(Mは、N未満の整数値)の前記軸を推薦キーとして設定するとともに、前記推薦キーとは異なる推薦の対象としての前記軸を設定する設定手段と、
前記推薦キーとしての前記軸に着目して、前記他の情報処理装置により生成された前記状態遷移グラフに含まれる複数の前記状態の中から、前記状態取得手段により取得された前記状態と同一または類似する前記状態を決定する状態決定手段と、
前記状態決定手段により決定された前記状態のうち、前記推薦の対象としての前記軸の座標の状態価値とそれに対応する行動価値を取得するとともに、前記状態価値が最も高く、前記行動価値が最も高い前記コンテンツを推薦する推薦手段と
を備えることを特徴とする情報処理装置。 - 他の情報処理装置が、
ユーザの各操作のそれぞれに応じて、対応する処理をコンテンツに対して施す毎に、前記ユーザの操作対象の前記コンテンツに関する1以上の情報、前記ユーザの操作内容を示す1以上の情報、並びに、前記ユーザの操作時点の時刻、場所、状況、および前記ユーザの感情の情報を含むコンテクストを示す1以上の情報のそれぞれを要素情報として含む履歴情報を順次生成し、
生成された複数の前記履歴情報のそれぞれに対して、前記要素情報のうちの少なくとも一部を含む情報として構成される1つの状態を対応付けるとともに、対応付けられた前記状態で前記ユーザが前記コンテンツに対して行う操作の内容を示す行動を対応付けることで、複数の前記状態のそれぞれの時間的な遷移を示す状態遷移グラフを生成し、
予め設定されたN(Nは、2以上の整数値)種類の軸から定義される仮想N次元空間を構築し、生成された前記状態遷移グラフに含まれる複数の前記状態の前記要素情報を、前記N個の軸のそれぞれにおける座標に割り当てることで分類した場合、
前記他の情報処理装置により生成された前記状態遷移グラフを利用して前記コンテンツを推薦する処理を実行する情報処理装置の情報処理方法であって、
前記ユーザの現時点の状態を取得する状態取得ステップと、
前記状態取得ステップの処理により取得された前記状態に含まれる前記N種類の前記軸のうちの所定のM種類(Mは、N未満の整数値)の前記軸を推薦キーとして設定するとともに、前記推薦キーとは異なる推薦の対象としての前記軸を設定する設定ステップと、
前記推薦キーとしての前記軸に着目して、前記他の情報処理装置により生成された前記状態遷移グラフに含まれる複数の前記状態の中から、前記状態取得ステップにより取得された前記状態と同一または類似する前記状態を決定する状態決定ステップと、
前記状態決定ステップの処理により決定された前記状態のうち、前記推薦の対象としての前記軸の座標の状態価値とそれに対応する行動価値を取得するとともに、前記状態価値が最も高く、前記行動価値が最も高い前記コンテンツを推薦する推薦ステップと
を含むことを特徴とする情報処理方法。 - コンテンツ処理装置が、
ユーザの各操作のそれぞれに応じて、対応する処理をコンテンツに対して施す毎に、前記ユーザの操作対象の前記コンテンツに関する1以上の情報、前記ユーザの操作内容を示す1以上の情報、並びに、前記ユーザの操作時点の時刻、場所、状況、および前記ユーザの感情の情報を含むコンテクストを示す1以上の情報のそれぞれを要素情報として含む履歴情報を順次生成し、
生成された複数の前記履歴情報のそれぞれに対して、前記要素情報のうちの少なくとも一部を含む情報として構成される1つの状態を対応付けるとともに、対応付けられた前記状態で前記ユーザが前記コンテンツに対して行う操作の内容を示す行動を対応付けることで、複数の前記状態のそれぞれの時間的な遷移を示す状態遷移グラフを生成し、
予め設定されたN(Nは、2以上の整数値)種類の軸から定義される仮想N次元空間を構築し、生成された前記状態遷移グラフに含まれる複数の前記状態の前記要素情報を、前記N個の軸のそれぞれにおける座標に割り当てることで分類した場合、
前記コンテンツ処理装置により生成された前記状態遷移グラフを利用して前記コンテンツを推薦する処理を制御するコンピュータに実行させるプログラムであって、
前記ユーザの現時点の状態を取得する状態取得ステップと、
前記状態取得ステップの処理により取得された前記状態に含まれる前記N種類の前記軸のうちの所定のM種類(Mは、N未満の整数値)の前記軸を推薦キーとして設定するとともに、前記推薦キーとは異なる推薦の対象としての前記軸を設定する設定ステップと、
前記推薦キーとしての前記軸に着目して、前記コンテンツ処理装置により生成された前記状態遷移グラフに含まれる複数の前記状態の中から、前記状態取得ステップにより取得された前記状態と同一または類似する前記状態を決定する状態決定ステップと、
前記状態決定ステップの処理により決定された前記状態のうち、前記推薦の対象としての前記軸の座標の状態価値とそれに対応する行動価値を取得するとともに、前記状態価値が最も高く、前記行動価値が最も高い前記コンテンツを推薦する推薦ステップと
を含むことを特徴とするプログラム。 - 他の情報処理装置が、
ユーザの各操作のそれぞれに応じて、対応する処理をコンテンツに対して施す毎に、前記ユーザの操作対象の前記コンテンツに関する情報、前記ユーザの操作内容を示す情報、並びに、前記ユーザの操作時点の時刻、場所、状況、および前記ユーザの感情の情報を含むコンテクストを示す情報のそれぞれを要素情報として含む履歴情報を順次生成し、
生成された複数の前記履歴情報のそれぞれに対して、前記要素情報のうちの少なくとも一部を含む情報として構成される1つの状態を対応付けるとともに、対応付けられた前記状態で前記ユーザが前記コンテンツに対して行う操作の内容を示す行動を対応付けることで、複数の前記状態のそれぞれの時間的な遷移を示す状態遷移グラフを生成し、
生成された前記状態遷移グラフに含まれる複数の前記状態のそれぞれに対して、前記ユーザの評価値としての状態価値を示す予め定められた1以上の重み値を与え、複数の前記状態のそれぞれに対応する前記行動のそれぞれに対して、前記ユーザの評価値としての行動価値を示す予め定められた1以上の重み値を与え、実際に行動して得られた前記行動またはその行動と対応する状態との組み合わせに対する前記状態価値および前記行動価値を報酬として与えた場合、
前記他の情報処理装置により生成された、前記状態価値が最も高く、前記行動価値が最も高い前記コンテンツを推薦する処理を実行するための前記状態遷移グラフを学習する情報処理装置であって、
前記コンテンツを取り扱うアプリケーションを指定する指定手段と、
前記指定手段により指定された前記アプリケーションに関する前記状態遷移グラフを取得する取得手段と、
予め設定されたN(Nは、2以上の整数値)種類の軸から定義される仮想N次元空間を構築し、前記他の情報処理装置により生成された前記状態遷移グラフに含まれる複数の前記状態の前記要素情報を、前記N個の軸のそれぞれにおける座標に割り当てることで分類する分類手段と、
前記分類手段により分類された前記状態遷移グラフに含まれる第1の状態と、前記第1の状態の次に配置される第2の状態に対応する前記履歴情報を構成する前記要素情報を比較し、比較結果と予め定められた連続性のルールに基づいて、前記ルールに違反しないと判定された場合、前記第1の状態と前記第2の状態との間に連続性が存在すると判定し、前記ルールに違反すると判定された場合、前記第1の状態と前記第2の状態との間に連続性が存在しないと判定するとともに、前記第1の状態と前記第2の状態とを異なる時系列情報群として分類する連続性判断手段と、
前記連続性判断手段により、連続性が存在すると判定された複数の前記状態のそれぞれについて前記状態価値と前記報酬との誤差、および、前記行動価値と前記報酬との誤差に基づいて所定の学習アルゴリズムに従った学習を行うことで、前記状態遷移グラフに含まれる、複数の前記状態のそれぞれに対する前記状態価値と、複数の前記行動のそれぞれに対する前記行動価値とを更新する学習手段と
を備えることを特徴とする情報処理装置。 - 前記学習手段は、前記学習を複数回繰り返した場合、さらに、所定の前記状態価値の前記複数回の更新結果の時間推移と確率分布に基づいて、最新に更新された前記状態価値の信頼度として分散値を演算するとともに、所定の前記行動価値の前記複数回の更新結果の時間推移と確率分布に基づいて、最新に更新された前記行動価値の信頼度として分散値を演算する
ことを特徴とする請求項8に記載の情報処理装置。 - 他の情報処理装置が、
ユーザの各操作のそれぞれに応じて、対応する処理をコンテンツに対して施す毎に、前記ユーザの操作対象の前記コンテンツに関する情報、前記ユーザの操作内容を示す情報
、並びに、前記ユーザの操作時点の時刻、場所、状況、および前記ユーザの感情の情報を含むコンテクストを示す情報のそれぞれを要素情報として含む履歴情報を順次生成し、
生成された複数の前記履歴情報のそれぞれに対して、前記要素情報のうちの少なくとも一部を含む情報として構成される1つの状態を対応付けるとともに、対応付けられた前記状態で前記ユーザが前記コンテンツに対して行う操作の内容を示す行動を対応付けることで、複数の前記状態のそれぞれの時間的な遷移を示す状態遷移グラフを生成し、
生成された前記状態遷移グラフに含まれる複数の前記状態のそれぞれに対して、前記ユーザの評価値としての状態価値を示す予め定められた1以上の重み値を与え、複数の前記状態のそれぞれに対応する前記行動のそれぞれに対して、前記ユーザの評価値としての行動価値を示す予め定められた1以上の重み値を与え、実際に行動して得られた前記行動またはその行動と対応する状態との組み合わせに対する前記状態価値および前記行動価値を報酬として与えた場合、
前記他の情報処理装置により生成された、前記状態価値が最も高く、前記行動価値が最も高い前記コンテンツを推薦する処理を実行するための前記状態遷移グラフを学習する情報処理装置の情報処理方法であって、
前記コンテンツを取り扱うアプリケーションを指定する指定ステップと、
前記指定ステップの処理により指定された前記アプリケーションに関する前記状態遷移グラフを取得する取得ステップと、
予め設定されたN(Nは、2以上の整数値)種類の軸から定義される仮想N次元空間を構築し、前記他の情報処理装置により生成された前記状態遷移グラフに含まれる複数の前記状態の前記要素情報を、前記N個の軸のそれぞれにおける座標に割り当てることで分類する分類ステップと、
前記分類ステップの処理により分類された前記状態遷移グラフに含まれる第1の状態と、前記第1の状態の次に配置される第2の状態に対応する前記履歴情報を構成する前記要素情報を比較し、比較結果と予め定められた連続性のルールに基づいて、前記ルールに違反しないと判定された場合、前記第1の状態と前記第2の状態との間に連続性が存在すると判定し、前記ルールに違反すると判定された場合、前記第1の状態と前記第2の状態との間に連続性が存在しないと判定するとともに、前記第1の状態と前記第2の状態とを異なる時系列情報群として分類する連続性判断ステップと、
前記連続性判断ステップの処理により、連続性が存在すると判定された複数の前記状態のそれぞれについて前記状態価値と前記報酬との誤差、および、前記行動価値と前記報酬との誤差に基づいて所定の学習アルゴリズムに従った学習を行うことで、前記状態遷移グラフに含まれる、複数の前記状態のそれぞれに対する前記状態価値と、複数の前記行動のそれぞれに対する前記行動価値とを更新する学習ステップと
を含むことを特徴とする情報処理方法。 - コンテンツ処理装置が、
ユーザの各操作のそれぞれに応じて、対応する処理をコンテンツに対して施す毎に、前記ユーザの操作対象の前記コンテンツに関する情報、前記ユーザの操作内容を示す情報
、並びに、前記ユーザの操作時点の時刻、場所、状況、および前記ユーザの感情の情報を含むコンテクストを示す情報のそれぞれを要素情報として含む履歴情報を順次生成し、
生成された複数の前記履歴情報のそれぞれに対して、前記要素情報のうちの少なくとも一部を含む情報として構成される1つの状態を対応付けるとともに、対応付けられた前記状態で前記ユーザが前記コンテンツに対して行う操作の内容を示す行動を対応付けることで、複数の前記状態のそれぞれの時間的な遷移を示す状態遷移グラフを生成し、
生成された前記状態遷移グラフに含まれる複数の前記状態のそれぞれに対して、前記ユーザの評価値としての状態価値を示す予め定められた1以上の重み値を与え、複数の前記状態のそれぞれに対応する前記行動のそれぞれに対して、前記ユーザの評価値としての行動価値を示す予め定められた1以上の重み値を与え、実際に行動して得られた前記行動またはその行動と対応する状態との組み合わせに対する前記状態価値および前記行動価値を報酬として与えた場合、
前記コンテンツ処理装置により生成された、前記状態価値が最も高く、前記行動価値が最も高い前記コンテンツを推薦する処理を制御するための前記状態遷移グラフを学習するコンピュータに実行させるプログラムであって、
前記コンテンツを取り扱うアプリケーションを指定する指定ステップと、
前記指定ステップの処理により指定された前記アプリケーションに関する前記状態遷移グラフを取得する取得ステップと、
予め設定されたN(Nは、2以上の整数値)種類の軸から定義される仮想N次元空間を構築し、前記コンテンツ処理装置により生成された前記状態遷移グラフに含まれる複数の前記状態の前記要素情報を、前記N個の軸のそれぞれにおける座標に割り当てることで分類する分類ステップと、
前記分類ステップの処理により分類された前記状態遷移グラフに含まれる第1の状態と、前記第1の状態の次に配置される第2の状態に対応する前記履歴情報を構成する前記要素情報を比較し、比較結果と予め定められた連続性のルールに基づいて、前記ルールに違反しないと判定された場合、前記第1の状態と前記第2の状態との間に連続性が存在すると判定し、前記ルールに違反すると判定された場合、前記第1の状態と前記第2の状態との間に連続性が存在しないと判定するとともに、前記第1の状態と前記第2の状態とを異なる時系列情報群として分類する連続性判断ステップと、
前記連続性判断ステップの処理により、連続性が存在すると判定された複数の前記状態のそれぞれについて前記状態価値と前記報酬との誤差、および、前記行動価値と前記報酬との誤差に基づいて所定の学習アルゴリズムに従った学習を行うことで、前記状態遷移グラフに含まれる、複数の前記状態のそれぞれに対する前記状態価値と、複数の前記行動のそれぞれに対する前記行動価値とを更新する学習ステップと
を含むことを特徴とするプログラム。 - 第1の情報処理装置が、
ユーザの各操作のそれぞれに応じて、対応する処理をコンテンツに対して施す毎に、前記ユーザの操作対象の前記コンテンツに関する情報、前記ユーザの操作内容を示す情報、並びに、前記ユーザの操作時点の時刻、場所、状況、および前記ユーザの感情の情報を含むコンテクストを示す情報のそれぞれを要素情報として含む履歴情報を順次生成し、
生成された複数の前記履歴情報のそれぞれに対して、前記要素情報のうちの少なくとも一部を含む情報として構成される1つの状態を対応付けるとともに、対応付けられた前記状態で前記ユーザが前記コンテンツに対して行う操作の内容を示す行動を対応付けることで、複数の前記状態のそれぞれの時間的な遷移を示す状態遷移グラフを生成し、
生成された前記状態遷移グラフに含まれる複数の前記状態のそれぞれに対して、前記ユーザの評価値としての状態価値を示す予め定められた1以上の重み値を与え、複数の前記状態のそれぞれに対応する前記行動のそれぞれに対して、前記ユーザの評価値としての行動価値を示す予め定められた1以上の重み値を与え、実際に行動して得られた前記行動またはその行動と対応する状態との組み合わせに対する前記状態価値および前記行動価値を報酬として与え、
第2の情報処理装置が、
前記コンテンツを取り扱うアプリケーションを指定し、
指定された前記アプリケーションに関する前記状態遷移グラフを取得し、
予め設定されたN(Nは、2以上の整数値)種類の軸から定義される仮想N次元空間を構築し、前記第1の情報処理装置により生成された前記状態遷移グラフに含まれる複数の前記状態の前記要素情報を、前記N個の軸のそれぞれにおける座標に割り当てることで分類し、
前記状態遷移グラフに含まれる第1の状態と、前記第1の状態の次に配置される第2の状態に対応する前記履歴情報を構成する前記要素情報を比較し、比較結果と予め定められた連続性のルールに基づいて、前記ルールに違反しないと判定された場合、前記第1の状態と前記第2の状態との間に連続性が存在すると判定し、前記ルールに違反すると判定された場合、前記第1の状態と前記第2の状態との間に連続性が存在しないと判定するとともに、前記第1の状態と前記第2の状態とを異なる時系列情報群として分類し、
連続性が存在すると判定された複数の前記状態のそれぞれについて、前記状態価値と前記報酬との誤差、および、前記行動価値と前記報酬との誤差に基づいて所定の学習アルゴリズムに従った学習を行うことで、前記状態遷移グラフに含まれる、複数の前記状態のそれぞれに対する前記状態価値と、複数の前記行動のそれぞれに対する前記行動価値とを更新した場合、
前記第1の情報処理装置により生成され、前記第2の情報処理装置によりその内容が更新された前記状態遷移グラフを利用して前記コンテンツを推薦する処理を実行する情報処理装置であって、
前記ユーザの現時点の状態を取得する状態取得手段と、
前記状態取得手段により取得された前記状態に含まれる前記N種類の前記軸のうちの所定のM種類(Mは、N未満の整数値)の前記軸を推薦キーとして設定するとともに、前記推薦キーとは異なる推薦の対象としての前記軸を設定する設定手段と、
前記推薦キーとしての前記軸に着目して、前記第1の情報処理装置により生成された前記状態遷移グラフに含まれる複数の前記状態の中から、前記状態取得手段により取得された前記状態と同一または類似する前記状態を決定する状態決定手段と、
前記状態決定手段により決定された前記状態のうち、前記推薦の対象としての前記軸の座標の前記状態価値とそれに対応する前記行動価値を取得するとともに前記状態価値が最も高く、前記行動価値が最も高い前記コンテンツを推薦する推薦手段と
を備えることを特徴とする情報処理装置。 - 前記推薦手段は、
前記第2の情報処理装置が、前記学習を複数回繰り返して、所定の前記状態価値の前記複数回の更新結果の時間推移と確率分布に基づいて、最新に更新された前記状態価値の信頼度として分散値を演算するとともに、所定の前記行動価値の前記複数回の更新結果の時間推移と確率分布に基づいて、最新に更新された前記行動価値の信頼度として分散値を演算した場合、
前記状態決定手段により決定された前記状態に対する前記状態価値と、その状態に対応する前記行動に対する行動価値とに加えてさらに、前記第2の情報処理装置により演算された、その状態価値の信頼度と、その行動価値の信頼度とに基づいて、信頼度としての分散値が所定の値より低い前記状態価値および前記行動価値を現時点の前記ユーザにとって相応しいと判断されるコンテンツを推薦する
ことを特徴とする請求項12に記載の情報処理装置。 - 第1の情報処理装置が、
ユーザの各操作のそれぞれに応じて、対応する処理をコンテンツに対して施す毎に、前記ユーザの操作対象の前記コンテンツに関する情報、前記ユーザの操作内容を示す情報、並びに、前記ユーザの操作時点の時刻、場所、状況、および前記ユーザの感情の情報を含むコンテクストを示す情報のそれぞれを要素情報として含む履歴情報を順次生成し、
生成された複数の前記履歴情報のそれぞれに対して、前記要素情報のうちの少なくとも一部を含む情報として構成される1つの状態を対応付けるとともに、対応付けられた前記状態で前記ユーザが前記コンテンツに対して行う操作の内容を示す行動を対応付けることで、複数の前記状態のそれぞれの時間的な遷移を示す状態遷移グラフを生成し、
生成された前記状態遷移グラフに含まれる複数の前記状態のそれぞれに対して、前記ユーザの評価値としての状態価値を示す予め定められた1以上の重み値を与え、複数の前記状態のそれぞれに対応する前記行動のそれぞれに対して、前記ユーザの評価値としての行動価値を示す予め定められた1以上の重み値を与え、実際に行動して得られた前記行動またはその行動と対応する状態との組み合わせに対する前記状態価値および前記行動価値を報酬として与え、
第2の情報処理装置が、
前記コンテンツを取り扱うアプリケーションを指定し、
指定された前記アプリケーションに関する前記状態遷移グラフを取得し、
予め設定されたN(Nは、2以上の整数値)種類の軸から定義される仮想N次元空間を構築し、前記第1の情報処理装置により生成された前記状態遷移グラフに含まれる複数の前記状態の前記要素情報を、前記N個の軸のそれぞれにおける座標に割り当てることで分類し、
前記状態遷移グラフに含まれる第1の状態と、前記第1の状態の次に配置される第2の状態に対応する前記履歴情報を構成する前記要素情報を比較し、比較結果と予め定められた連続性のルールに基づいて、前記ルールに違反しないと判定された場合、前記第1の状態と前記第2の状態との間に連続性が存在すると判定し、前記ルールに違反すると判定された場合、前記第1の状態と前記第2の状態との間に連続性が存在しないと判定するとともに、前記第1の状態と前記第2の状態とを異なる時系列情報群として分類し、
連続性が存在すると判定された複数の前記状態のそれぞれについて、前記状態価値と前記報酬との誤差、および、前記行動価値と前記報酬との誤差に基づいて所定の学習アルゴリズムに従った学習を行うことで、前記状態遷移グラフに含まれる、複数の前記状態のそれぞれに対する前記状態価値と、複数の前記行動のそれぞれに対する前記行動価値とを更新した場合、
前記第1の情報処理装置により生成され、前記第2の情報処理装置によりその内容が更新された前記状態遷移グラフを利用して前記コンテンツを推薦する処理を実行する情報処理装置の情報処理方法であって、
前記ユーザの現時点の状態を取得する状態取得ステップと、
前記状態取得ステップの処理により取得された前記状態に含まれる前記N種類の前記軸のうちの所定のM種類(Mは、N未満の整数値)の前記軸を推薦キーとして設定するとともに、前記推薦キーとは異なる推薦の対象としての前記軸を設定する設定ステップと、
前記推薦キーとしての前記軸に着目して、前記第1の情報処理装置により生成された前記状態遷移グラフに含まれる複数の前記状態の中から、前記状態取得ステップの処理により取得された前記状態と同一または類似する前記状態を決定する状態決定ステップと、
前記状態決定ステップの処理により決定された前記状態のうち、前記推薦の対象としての前記軸の座標の前記状態価値とそれに対応する前記行動価値を取得するとともに、前記状態価値が最も高く、前記行動価値が最も高い前記コンテンツを推薦する推薦ステップと
を含むことを特徴とする情報処理方法。 - コンテンツ処理装置が、
ユーザの各操作のそれぞれに応じて、対応する処理をコンテンツに対して施す毎に、前記ユーザの操作対象の前記コンテンツに関する情報、前記ユーザの操作内容を示す情報、並びに、前記ユーザの操作時点の時刻、場所、状況、および前記ユーザの感情の情報を含むコンテクストを示す情報のそれぞれを要素情報として含む履歴情報を順次生成し、
生成された複数の前記履歴情報のそれぞれに対して、前記要素情報のうちの少なくとも一部を含む情報として構成される1つの状態を対応付けるとともに、対応付けられた前記状態で前記ユーザが前記コンテンツに対して行う操作の内容を示す行動を対応付けることで、複数の前記状態のそれぞれの時間的な遷移を示す状態遷移グラフを生成し、
生成された前記状態遷移グラフに含まれる複数の前記状態のそれぞれに対して、前記ユーザの評価値としての状態価値を示す予め定められた1以上の重み値を与え、複数の前記状態のそれぞれに対応する前記行動のそれぞれに対して、前記ユーザの評価値としての行動価値を示す予め定められた1以上の重み値を与え、実際に行動して得られた前記行動またはその行動と対応する状態との組み合わせに対する前記状態価値および前記行動価値を報酬として与え、
学習装置が、
前記コンテンツを取り扱うアプリケーションを指定し、
指定された前記アプリケーションに関する前記状態遷移グラフを取得し、
予め設定されたN(Nは、2以上の整数値)種類の軸から定義される仮想N次元空間を構築し、前記第1の情報処理装置により生成された前記状態遷移グラフに含まれる複数の前記状態の前記要素情報を、前記N個の軸のそれぞれにおける座標に割り当てることで分類し、
前記状態遷移グラフに含まれる第1の状態と、前記第1の状態の次に配置される第2の状態に対応する前記履歴情報を構成する前記要素情報を比較し、比較結果と予め定められた連続性のルールに基づいて、前記ルールに違反しないと判定された場合、前記第1の状態と前記第2の状態との間に連続性が存在すると判定し、前記ルールに違反すると判定された場合、前記第1の状態と前記第2の状態との間に連続性が存在しないと判定するとともに、前記第1の状態と前記第2の状態とを異なる時系列情報群として分類し、
連続性が存在すると判定された複数の前記状態のそれぞれについて、前記状態価値と前記報酬との誤差、および、前記行動価値と前記報酬との誤差に基づいて所定の学習アルゴリズムに従った学習を行うことで、前記状態遷移グラフに含まれる、複数の前記状態のそれぞれに対する前記状態価値と、複数の前記行動のそれぞれに対する前記行動価値とを更新した場合、
前記第1の情報処理装置により生成され、前記第2の情報処理装置によりその内容が更新された前記状態遷移グラフを利用して前記コンテンツを推薦する処理を制御するコンピュータに実行させるプログラムであって、
前記ユーザの現時点の状態を取得する状態取得ステップと、
前記状態取得ステップの処理により取得された前記状態に含まれる前記N種類の前記軸のうちの所定のM種類(Mは、N未満の整数値)の前記軸を推薦キーとして設定するとともに、前記推薦キーとは異なる推薦の対象としての前記軸を設定する設定ステップと、
前記推薦キーとしての前記軸に着目して、前記第1の情報処理装置により生成された前記状態遷移グラフに含まれる複数の前記状態の中から、前記状態取得ステップの処理により取得された前記状態と同一または類似する前記状態を決定する状態決定ステップと、
前記状態決定ステップの処理により決定された前記状態のうち、前記推薦の対象としての前記軸の座標の前記状態価値とそれに対応する前記行動価値を取得するとともに、前記状態価値が最も高く、前記行動価値が最も高い前記コンテンツを推薦する推薦ステップと
を含むことを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004081917A JP4581446B2 (ja) | 2004-03-22 | 2004-03-22 | 情報処理装置および方法、並びにプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004081917A JP4581446B2 (ja) | 2004-03-22 | 2004-03-22 | 情報処理装置および方法、並びにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005267483A JP2005267483A (ja) | 2005-09-29 |
JP4581446B2 true JP4581446B2 (ja) | 2010-11-17 |
Family
ID=35091944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004081917A Expired - Fee Related JP4581446B2 (ja) | 2004-03-22 | 2004-03-22 | 情報処理装置および方法、並びにプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4581446B2 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009080580A (ja) * | 2007-09-25 | 2009-04-16 | Toshiba Corp | 映像表示装置及び方法 |
JP5098723B2 (ja) | 2008-03-17 | 2012-12-12 | 富士通株式会社 | コンテンツ送信システム、サーバコンピュータ及びプログラム |
JP5150341B2 (ja) * | 2008-04-10 | 2013-02-20 | 株式会社東芝 | データ作成装置及び方法 |
WO2010010653A1 (ja) * | 2008-07-24 | 2010-01-28 | 日本電気株式会社 | ユーザモデル処理装置 |
JP5318190B2 (ja) * | 2009-02-27 | 2013-10-16 | 三菱電機株式会社 | 情報処理装置及び情報処理方法及びプログラム |
EP2312515A1 (en) * | 2009-10-16 | 2011-04-20 | Alcatel Lucent | Device for determining potential future interests to be introduced into profile(s) of user(s) of communication equipment(s) |
JP5777715B2 (ja) * | 2010-09-17 | 2015-09-09 | ノキア コーポレイション | コンテキスト情報を分類する方法および装置 |
US9317834B2 (en) * | 2011-06-30 | 2016-04-19 | Microsoft Technology Licensing, Llc | User computing device with personal agent program for recommending meeting a friend at a service location based on current location, travel direction, and calendar activity |
JP6178800B2 (ja) * | 2011-12-16 | 2017-08-09 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | ユーザの行動及び関連する感情状態の履歴記録 |
JP5668010B2 (ja) * | 2012-03-29 | 2015-02-12 | 日本電信電話株式会社 | 情報推薦方法、装置及びプログラム |
US20160055418A1 (en) | 2013-04-17 | 2016-02-25 | Sony Corporation | Information processing apparatus, information processing method, and program |
JP6022499B2 (ja) * | 2014-03-20 | 2016-11-09 | ヤフー株式会社 | 行動予測装置、行動予測方法、及び行動予測プログラム |
JP6352357B2 (ja) * | 2016-10-05 | 2018-07-04 | ヤフー株式会社 | モデル生成装置、モデル生成方法、及びモデル生成プログラム |
CN111767455A (zh) * | 2019-05-09 | 2020-10-13 | 北京京东尚科信息技术有限公司 | 一种信息推送的方法和装置 |
KR102435408B1 (ko) * | 2020-04-07 | 2022-08-24 | 홍석우 | 안구 운동 및 감정 기반 hmd |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999040524A1 (fr) * | 1998-02-05 | 1999-08-12 | Fujitsu Limited | Dispositif proposant des actions a entreprendre |
JP2001290727A (ja) * | 2000-04-06 | 2001-10-19 | Nec Corp | 情報提供システムおよび情報提供方法 |
JP2003111157A (ja) * | 2001-09-28 | 2003-04-11 | Toshiba Corp | 統合コントローラ、機器制御方法及び機器制御プログラム |
JP2004070390A (ja) * | 2002-08-01 | 2004-03-04 | Nippon Telegr & Teleph Corp <Ntt> | メッセージ再利用支援装置、メッセージ再利用支援プログラム及びそのプログラムを記録した媒体 |
-
2004
- 2004-03-22 JP JP2004081917A patent/JP4581446B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999040524A1 (fr) * | 1998-02-05 | 1999-08-12 | Fujitsu Limited | Dispositif proposant des actions a entreprendre |
JP2001290727A (ja) * | 2000-04-06 | 2001-10-19 | Nec Corp | 情報提供システムおよび情報提供方法 |
JP2003111157A (ja) * | 2001-09-28 | 2003-04-11 | Toshiba Corp | 統合コントローラ、機器制御方法及び機器制御プログラム |
JP2004070390A (ja) * | 2002-08-01 | 2004-03-04 | Nippon Telegr & Teleph Corp <Ntt> | メッセージ再利用支援装置、メッセージ再利用支援プログラム及びそのプログラムを記録した媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2005267483A (ja) | 2005-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4581446B2 (ja) | 情報処理装置および方法、並びにプログラム | |
US10817667B2 (en) | Method and system for a chat box eco-system in a federated architecture | |
JP4433326B2 (ja) | 情報処理装置および方法、並びにプログラム | |
US7797266B2 (en) | Vehicle information processing system for content recommendation using Bayesian network models | |
JP5454357B2 (ja) | 情報処理装置および方法、並びに、プログラム | |
TWI402702B (zh) | 呈現網頁查詢結果的方法及其電腦可讀儲存媒體與電腦系統 | |
JP6523498B1 (ja) | 学習装置、学習方法および学習プログラム | |
US8442849B2 (en) | Emotional mapping | |
US10216808B1 (en) | Multi sender and source recommendation aggregation and prompting system | |
EP1484692A1 (en) | Content recommendation device with user feedback | |
EP1484693A1 (en) | Content recommendation device with an arrangement engine | |
US20110225043A1 (en) | Emotional targeting | |
JP2009070364A (ja) | 特別な動的モデル合成を備える推薦システム | |
US8888497B2 (en) | Emotional web | |
Yang et al. | Local implicit feedback mining for music recommendation | |
JP2009545810A (ja) | 検索結果の時間的ランク付け | |
WO2009117582A2 (en) | Method and apparatus for detecting patterns of behavior | |
TW200817946A (en) | Presenting information related to topics extracted from event classes | |
Deldjoo et al. | Towards multi-modal conversational information seeking | |
WO2007032003A2 (en) | Device, system and method of handling user requests | |
US20030234812A1 (en) | Visual decision maker | |
KR102628042B1 (ko) | 연락처 정보를 추천하는 방법 및 디바이스 | |
Shao et al. | Personalized travel recommendation based on sentiment-aware multimodal topic model | |
JP2003167901A (ja) | 協調フィルタリング方法、協調フィルタリング装置及び協調フィルタリングプログラム | |
CN114282077A (zh) | 一种基于会话数据的会话推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091023 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091027 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100218 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100412 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100803 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100816 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130910 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |