JP2013257668A - 興味分析方法、興味分析装置及びそのプログラム - Google Patents

興味分析方法、興味分析装置及びそのプログラム Download PDF

Info

Publication number
JP2013257668A
JP2013257668A JP2012132387A JP2012132387A JP2013257668A JP 2013257668 A JP2013257668 A JP 2013257668A JP 2012132387 A JP2012132387 A JP 2012132387A JP 2012132387 A JP2012132387 A JP 2012132387A JP 2013257668 A JP2013257668 A JP 2013257668A
Authority
JP
Japan
Prior art keywords
content
context
list
interest
concept
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012132387A
Other languages
English (en)
Other versions
JP5723835B2 (ja
Inventor
Masanari Fujita
将成 藤田
Tae Sato
妙 佐藤
Koji Ito
浩二 伊藤
Minoru Kobayashi
稔 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012132387A priority Critical patent/JP5723835B2/ja
Publication of JP2013257668A publication Critical patent/JP2013257668A/ja
Application granted granted Critical
Publication of JP5723835B2 publication Critical patent/JP5723835B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】最適なコンテキスト条件を自動的に抽出し、情報推薦精度の高度化を可能にする。
【解決手段】大域コンテキスト/コンテキストID設定部117は、コンテンツの閲覧に関するコンテキスト条件を収集する。分割コンテキスト抽出処理部116は、収集されたコンテキスト条件の組合せに基づいて、興味モデルを前記組合せ毎のテーブルに分割し、組合せに含まれるコンテキスト条件間の関連性に基づいて、前記組合せ毎のテーブルから更新対象テーブルを抽出し、更新対象テーブルに対して前記関連性をもとに重みを算出する。興味モデル更新処理部130は、コンテンツ閲覧履歴から算出される特徴スコアと前記重みとを用いて前記更新対象テーブルにおける前記概念に対する前記ユーザ興味スコアを更新する。
【選択図】図2

Description

この発明は、ユーザのコンテンツ閲覧履歴と、閲覧対象コンテンツを代表する概念を示すメタ情報を利用してコンテキストを考慮してユーザの興味を分析する興味分析方法、興味分析装置及びそのプログラムに関する。
ユーザの行動や状況に合わせて適切なサービス・コンテンツをリコメンドする技術が望まれている。このため、書籍通販サイトにて、サイト内での書籍情報閲覧履歴からユーザの興味を推定して書籍をリコメンドする等、履歴情報からユーザの趣味嗜好等を推定する技術が提案されている。このような方法において、各コンテンツに内容をサマライズするメタ情報が付与されていることを前提として、ユーザ履歴において出現する概念等の頻度からユーザの興味等を推定する方法は、内容ベースフィルタリング手法(Content Based Filtering: CBF)で、特にメモリベース手法として研究が進められている。
具体的に、内容ベースフィルタリング技術とは、例えば特定ブランド(ブランドを示す情報を概念タグを保持)の商品を閲覧した場合に、同じブランドの商品(同じ概念タグを保持)を提示する。この場合の、メモリベース手法は、過去に閲覧した履歴から、特定ブランドを頻繁に閲覧していれば、特定ブランドの商品を提示することとなる。このような技術において、履歴を候補アイテムからの選択と見なして分析する手法が存在する。また、このような手法では、コンテキストの変化を学習時の重み、及び学習モデルの切り替えとして扱うことが可能である(例えば、非特許文献1又は2を参照。)。
奥 健太,中島 伸介,宮崎 純,植村 俊亮,「Context-Aware SVMに基づく状況依存型情報推薦方式の提案」,日本データベース学会,DBSJ Letters Vol.5,No.1,pp.1-4,2006年6月 Alexandros Karatzoglou,Xavier Amatriain,Linas Baltrunas,Nuria Oliver,Multiverse Recommendation: N-dimensional Tensor Factorization for Context-aware Collaborative Filtering,RecSys 2010: 79-86
ところが、従来技術においては、コンテキストの定義について、人手で適切な分類を事前に決定する必要があった。このため、適切なコンテキストを設定することは稼働がかかり困難であった。また、コンテキストを設定した場合も、適切な設定でなければ、コンテキストに当てはまる履歴が十分に収集出来ず、適切な推薦結果を得られないという問題があった。
この発明は上記事情に着目してなされたもので、その目的とするところは、最適なコンテキスト条件を自動的に抽出し、情報推薦精度の高度化を可能にする興味分析方法、興味分析装置及びそのプログラムを提供することにある。
上記目的を達成するためにこの発明の第1の態様は、複数の概念のそれぞれに対してユーザ興味スコアを有する興味モデルを用いて、前記概念を含むコンテンツの閲覧履歴からユーザの興味を分析する方法、装置及びプログラムであって、複数のコンテンツを一覧として閲覧した第1のコンテンツリストと、前記第1のコンテンツリストからコンテンツの本体を閲覧した第2のコンテンツリストとをクラスタ化し、前記クラスタ毎に、前記第1のコンテンツリストのコンテンツの総数を第1の総数と、前記第1のコンテンツリストにおいて前記概念が出現するコンテンツの数を第1の出現数と、前記第2のコンテンツリストのコンテンツの総数を第2の総数と、前記第2のコンテンツリストにおいて前記概念が出現するコンテンツの数を第2の出現数としたとき、前記第1の総数、前記第1の出現数、及び前記第2の総数の条件下で、前記第2のコンテンツリストに前記概念が出現するコンテンツの数が、前記第2の出現数以上となる第1の確率及び前記第2の出現数以下となる第2の確率を算出し、前記第1の確率及び前記第2の確率をもとに標準正規分布の累積分布関数の逆関数により特徴スコアを算出し、前記コンテンツの閲覧に関するコンテキスト条件を収集し、前記収集されたコンテキスト条件の組合せに基づいて、前記興味モデルを前記組合せ毎のテーブルに分割し、前記組合せに含まれるコンテキスト条件間の関連性に基づいて、前記組合せ毎のテーブルから更新対象テーブルを抽出し、前記更新対象テーブルに対して前記関連性をもとに重みを算出し、前記特徴スコアと前記重みとを用いて前記更新対象テーブルにおける前記概念に対する前記ユーザ興味スコアを更新するものである。
上記第1の態様によれば、履歴データの集まり方から、コンテキスト条件を自動抽出し、自動抽出したコンテキスト条件について、自動で学習時のコンテキスト適合度(重み)を決定することが可能となる。これにより、コンテキスト条件自動判別機能により処理コストや運用コストが削減でき、多様なコンテキストを考慮した、適切なコンテキスト条件による分析により情報推薦を高精度化できる。
この発明の第2の態様は、前記第1の態様において、前記コンテキスト条件に適合する閲覧履歴の量に基づいて、前記興味モデルを前記組合せ毎のテーブルに分割するものである。
上記第2の態様によれば、コンテキスト条件を履歴量と相関させることで、対応する履歴が少ないコンテキスト条件による興味モデルの分割を避けることが出来るため、最小限のコンピューターリソースでの情報推薦の高精度化が実現できる。
この発明の第3の態様は、前記第1又は第2の態様において、コンテンツ要求時のコンテキスト条件を収集し、当該コンテキスト条件に適合するテーブルを用いて、コンテンツに対する評価スコアを算出するものである。
上記第3の態様によれば、コンテンツ要求時のユーザ状況に適合するユーザ興味モデルを用いてコンテンツの評価スコアを算出することで、ユーザの興味に合ったコンテンツを精度良く推薦することが可能となる。
すなわちこの発明によれば、最適なコンテキスト条件を自動的に抽出し、情報推薦精度の高度化を可能にする興味分析方法、興味分析装置及びそのプログラムを提供することができる。
本実施形態に係る興味分析装置を用いたシステム全体図。 図1の各装置の機能構成を示すブロック図。 閲覧履歴を用いた興味分析処理の概要を示す図。 コンテキスト条件を設定する場合の興味分析処理の概要を示す図。 コンテンツ要求データの一例を示す図。 クライアント端末上でのコンテンツ閲覧操作の一例を示す図。 一覧閲覧コンテンツリストのデータ構成例を示す図。 詳細閲覧コンテンツのデータ構成例を示す図。 提示コンテンツリストのデータ構成例を示す図。 コンテンツデータベースの一例を示す図。 ユーザ興味スコアデータベースの一例を示す図。 コンテキスト別履歴量データベースの一例を示す図。 コンテキスト/関連性定義データベースの一例を示す図。 履歴情報受信部の処理フローを示す図。 学習対象の興味テーブル選択処理部の処理フローを示す図。 大域コンテキスト/コンテキスID設定部の処理フローを示す図。 興味モデル更新処理部の処理フローを示す図。 分析パラメータリストのデータ構成例を示す図。 特徴スコア算出部の動作を説明するための模式図。 特徴スコア算出処理の詳細を示す図。 興味モデル更新処理の詳細を示す図。 コンテキスト履歴追記処理部の処理フローを示す図。 分割コンテキスト抽出の処理フローを示す図。 コンテキスト分割方法の処理概要を示す図。 コンテキスト条件に基づく重み算出処理の具体例を示す図。 コンテンツ要求受信部の処理フローを示す図。 利用興味テーブル選択処理部の処理フローを示す図。 コンテンツ評価処理部の処理フローを示す図。 コンテンツスコアリストの一例を示す図。 コンテンツ評価処理の詳細を示す図。
以下、図面を参照してこの発明の実施の形態について詳細に説明する。
図1は、本実施形態に係る興味分析装置を用いたシステム全体図である。このシステムは、クライアント端末200と、コンテンツサーバ300と、興味分析装置100を備える。クライアント端末200とコンテンツサーバ300との間、及びコンテンツサーバ300と興味分析装置100との間はそれぞれ通信ネットワークで接続される。ユーザは、クライアント端末200上での閲覧操作により、所望のコンテンツをコンテンツサーバ300から取得し、取得したコンテンツをクライアント端末200の画面に提示して閲覧する。
クライアント端末200は、ユーザ操作によるコンテンツ閲覧履歴を収集し、複数のコンテンツを一覧として閲覧した一覧閲覧コンテンツリスト(第1のコンテンツリスト)と、コンテンツの一覧からコンテンツの本体を閲覧した詳細閲覧コンテンツリスト(第2のコンテンツリスト)を閲覧時の端末コンテキスト情報と共にコンテンツサーバ300に送信する。なお、端末コンテキスト情報とは、例えば、位置情報、加速度、地軸センサ、温度計など、その他端末保有のセンサの測定時刻及び測定結果を含む。コンテンツサーバ300は、この端末コンテキスト情報と共に、一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストを、通信ネットワークを介して興味分析装置100に転送する。
興味分析装置100は、複数の概念のそれぞれに対してユーザ興味スコアを有する興味モデルを用いて、概念をメタ情報として含むコンテンツの閲覧履歴からユーザの興味を分析する。具体的には、上記一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストとを利用して、コンテンツに出現する各概念に対する特徴スコア及びユーザ興味スコアを算出し、ユーザの興味を推定する。興味分析装置100は、このユーザ興味スコアに基づいて、コンテンツサーバ300から受け取った「提示コンテンツリスト」から、ユーザの興味に合わせてソートを行ったコンテンツのリスト(ソート済み提示コンテンツリスト)を生成し、コンテンツサーバ300に送信する。
図2は、図1の各装置の機能構成を示すブロック図である。図2中の各部は、例えば、各装置のCPU(Central Processing Unit)とメモリ上で実行される制御プログラムにより実現することができる。
興味分析装置100は、履歴情報受信部110、学習対象の興味テーブル選択処理部113、コンテキスト履歴追記処理部115、分割コンテキスト抽出処理部116、大域コンテキスト/コンテキストID設定部117、コンテンツ要求受信部121、利用興味テーブル選択処理部124、興味モデル更新処理部130、コンテキスト/関連性定義データベース131、コンテキスト別履歴量データベース132、興味スコアデータベース140、提示コンテンツリスト受信部150、コンテンツデータベース160、コンテンツ評価処理部170、及びソート済みコンテンツスコアリスト送信部180を備える。
図3に、興味分析装置100の閲覧履歴を用いた興味分析処理の概要を示す。
履歴情報受信部110は、クライアント端末200から一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストをコンテンツサーバ300を介して受信する。一覧閲覧コンテンツリストとは、例えば、ユーザがコンテンツのタイトルのみを一覧で閲覧したコンテンツのリストである。詳細閲覧コンテンツリストとは、ユーザがコンテンツ本体の内容(詳細)を閲覧したコンテンツのリストである。例えば、図3において、一覧閲覧コンテンツリストには、コンテンツ1〜8が含まれ、詳細閲覧コンテンツリストには、コンテンツ1,3,4が含まれる。また、図3において、斜線パターンで示すコンテンツは、概念Bがコンテンツ1,6,7,8に出現することを示す。
興味モデル更新処理部130は、一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストを利用して、概念選択の統計モデルにより各概念の特徴スコア(後述するZ値)を算出する。さらに、後述するコンテキストセットID毎に分割される興味モデル(コンテキストセットID毎のユーザ興味テーブル)について、上記特徴スコアを用いてユーザ興味スコアを更新する。
コンテンツ評価処理部170は、評価コンテンツに出現する各概念のユーザ興味スコアを利用して確率結合によってコンテンツに対するユーザの評価スコアを算出する。図3の例では、コンテンツ1に出現する概念E,F,Dのユーザ興味スコアを用いて評価コンテンツ1の評価スコアを求めている。
図4は、コンテキスト条件を設定する場合の興味分析処理の概要を示す図である。興味モデル更新処理部130は、分析対象とすべきコンテキスト条件(コンテキストID)のセットを示すコンテキストセットIDと、そのコンテキストセットID向けの学習重みを自動抽出する。この例では、単純な例を示す。具体的には、コンテキストセットID(簡単化のためセットと呼称しても実際は時間帯のコンテキストIDのみを持つ)を1時間毎(24個)用意し、閲覧時刻をもとに重み付きで学習する。例えば、10:35に閲覧履歴が発生したとすると、この時刻に該当する興味テーブル(MODEL10)と、その時間的に近傍の興味テーブル(例えば、MODEL9,11)も同時に更新する。興味テーブルは、コンテキストセットIDが共通のレコードの集合を示す。
コンテンツ評価処理部170は、コンテンツ要求時刻に適合する興味テーブルを用いてコンテンツを評価する。例えば、図4に示すように12:10にレコメンドする場合は、興味テーブル(MODEL12)を用いてコンテンツ評価を行う。
しかしながら、分析対象となり得る多数のコンテキストの切り口(時刻、場所、気温、曜日、季節等)が有る場合には、全ての組合せで興味モデルを分割することは計算量及び必要なコンピュータリソースが莫大となる。また、全ての組合せについて運用者が「重み」を設定することは非常に困難である。そこで、履歴データの集まり方から、最適なコンテキスト条件を自動抽出し、コンテキスト条件の組合せからなるコンテキストセットID毎に自動で学習時のコンテキスト適合度(重み)を決定する手法を後述する。
(クライアント端末)
図2において、クライアント端末200は、履歴収集部210、履歴情報送信部220、コンテンツ提示部230、コンテンツ要求送信部240、及び端末情報収集部250を備える。
コンテンツ要求送信部240は、ユーザの指示(入力)によりコンテンツサーバ300に対して、コンテンツの提示要求を行う。具体的には図5のようなコンテンツ要求データをコンテンツサーバ300に送信する。例えば、コンテンツ要求データは、クライアント端末ID(もしくはユーザID)、要求時刻及び端末コンテキスト情報を有する。なお、要求時刻は、コンテンツサーバ300において追加するようにしてもよい。クライアント端末ID(もしくはユーザID)は、端末(もしくはユーザ)毎に一意に付与される数字等であって、後述する興味スコアデータベース140のユーザ興味テーブルのユーザIDと一致するIDである。
図6は、クライアント端末200上でのユーザによるコンテンツ閲覧操作の一例を示したものである。
コンテンツ提示部230は、コンテンツサーバ300から受信したソート済み提示コンテンツリストをもとに、クライアント端末200の表示画面サイズが許容する範囲でソート順の上位から一覧として表示を行う。
図6の例では、10個のコンテンツ(コンテンツ1〜10)が一覧表示されている。ユーザのフリック、スクロールバーの操作等で一覧によりソート順下位のコンテンツが表示することができる。このように実際にクライアント端末200に表示されたコンテンツのリストを一覧閲覧コンテンツリストとする。つまり、ソート済み提示コンテンツリスト内のすべてのコンテンツがクライアント端末200で表示されるとは限らないため、一覧閲覧コンテンツリストに含まれるとは限らない。ユーザがこの一覧から各コンテンツのタイトルをクリック操作等で選択すると、選択されたタイトルのコンテンツ(図6のコンテンツ3,5,6)の本体(詳細)を閲覧することができる。この詳細を閲覧したコンテンツを、詳細閲覧コンテンツリストに含む。
履歴収集部210は、上述したように、ユーザの操作履歴を収集して一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストを作成する。履歴情報送信部220は、履歴収集部210により作成された一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストをコンテンツサーバ300に送信する。
図7に、上記図6の場合の一覧閲覧コンテンツリストのデータ構成例を示す。一覧閲覧コンテンツリストは、クラスタID、コンテンツID、及び閲覧時刻を有する。クラスタとは、一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストに一意に付与される識別子(図7では“1”)である。別の時刻(時間帯)に表示した一覧閲覧コンテンツをユーザが閲覧した場合は、別のクラスタIDが付与される。なお、時刻以外の条件でクラスタIDを新たに付与する条件としては、一覧閲覧コンテンツリスト表示中に一定時間操作が無かった場合や、閲覧するユーザ(ユーザID)を切り替えた場合、一覧閲覧コンテンツリストに対して、コンテンツジャンル等を観点に絞り込み検索を掛けた場合、その他閲覧アプリケーションにおいて閲覧モードを切り替えた場合がある。コンテンツIDは、一覧閲覧コンテンツの各コンテンツに一意に付与された識別子であり、後述するコンテンツデータベース160が保持する値と一致するものとする。
図8は、上記図6の場合の詳細閲覧コンテンツリストのデータ構成例を示したものである。詳細閲覧コンテンツリストは、上記一覧閲覧コンテンツリストと同様に、クラスタID、コンテンツID、及び閲覧時刻を有する。クラスタIDは、一覧閲覧コンテンツリストと同一の値とする(図8では“1”)。コンテンツID及び閲覧時刻は、詳細閲覧コンテンツリストでは、ユーザが一覧閲覧コンテンツから選択して詳細を閲覧したコンテンツ(図8ではコンテンツ3,5,6)の識別子及び当該コンテンツを閲覧した時刻となる。
(コンテンツサーバ)
上記図2において、コンテンツサーバ300は、コンテンツ送信処理部310、ソート済み提示コンテンツリスト受信部320、提示コンテンツリスト送信部330、提示コンテンツリスト入力部340、履歴情報転送部350、及びコンテンツ要求転送部360を備える。
履歴情報転送部350は、クライアント端末200から受信した一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストを通信ネットワークを介して興味分析装置100に転送する。
提示コンテンツリスト入力部340には、サービス運用者により、ユーザの利用するクライアント端末200に提示するコンテンツを一覧にした提示コンテンツリストが入力される。提示コンテンツリスト送信部330は、上記入力された提示コンテンツリストを興味分析装置100へ通信ネットワークを介して送信する。
図9に、提示コンテンツリストのデータ構成例を示す。提示コンテンツリストは、コンテンツID、概念ID/関連度リスト、コンテンツ本体、及びコンテンツ登録時刻を有する。コンテンツIDは、各コンテンツに対してコンテンツサーバ300にて付与される一意のIDである。概念ID/関連度リストは、コンテンツに出現する概念の概念ID及び当該概念とコンテンツと関連性の程度を示す関連度Wのセットが格納される。概念ID/関連度リストは、コンテンツ毎に予め設定されており、具体例としては、コンテンツ1(スポーツ記事)には、{“野球”の概念ID=1,関連度=0.5}、{“サッカー”の概念ID=2,関連度=0.8}、{“ゴルフ”の概念ID=3、関連度=0.6}…のように設定される。
なお、概念IDは、興味スコアデータベース140に格納される値と一致する。関連度は、例えば、0から1までの値とし、大きいほど関連性が強いものとする。関連度は、サービス運用者がコンテンツ登録時に設定する値、若しくは別システムにより算出される値を利用する。
ソート済み提示コンテンツリスト受信部320は、興味分析装置100から提示コンテンツリストの一部又は全部をソートしたソート済み提示コンテンツリストとクライアント端末ID(もしくはユーザID)を受信する。コンテンツ送信処理部310は、ソート済み提示コンテンツリストをクライアント端末ID(もしくはユーザID)に該当するクライアント端末200に送信する。
コンテンツ要求転送部360は、クライアント端末200のコンテンツ要求送信部240からのコンテンツ提示要求であるコンテンツ要求データ(図5)を興味分析装置100に転送する。
(興味分析装置)
次に、興味分析装置100の各部の詳細について説明する。
[コンテンツデータベース160]
図10にコンテンツデータベース160のデータ構造の一例を示す。コンテンツデータベース160は、コンテンツテーブルを有する。
コンテンツテーブルは、コンテンツID、概念ID/関連度リスト、コンテンツ本体、及びコンテンツ登録時刻を格納する。提示コンテンツリスト受信部150で受信した値が格納される。
[興味スコアデータベース140]
図11に興味スコアデータベース140のデータ構造の一例を示す。興味スコアデータベース140は、ユーザ興味テーブルを有する。
ユーザ興味テーブルは、概念ID、コンテキストセットID、ユーザID(クライアント端末ID)、TotalZ(ユーザ興味スコア)、X、及びYの値を格納する。TotalZ、X、及びYの定義及び算出方法は後述する。つまり、ユーザ興味テーブルのコンテキストセットID毎のデータは、は、各ユーザ(端末)について、コンテキスト条件の組合せ(セット)毎に作成される。これは、このコンテキストの組合せの時にユーザが特徴的な行動を取ることを想定した分析を行うためである。
[コンテキスト別履歴量データベース132]
図12に、コンテキスト別履歴量データベース132のデータ構造の一例を示す。コンテキスト別履歴量データベース132は、コンテキスト別ユーザ履歴量テーブルと、分析対象コンテキストセットテーブルとを有する。
コンテキスト別ユーザ履歴量テーブルは、クライアント端末ID(ユーザID)、コンテキストID、及び適合クラスタIDリストを含む。適合クラスタIDリストは、上記図7の一覧閲覧コンテンツリストのクラスタIDと同一の値であり、後述する履歴情報受信部110で付与される。適合クラスタIDリストは、このコンテキストID(コンテキスト条件)に適合する閲覧履歴のクラスタIDの群を示す。
分析対象コンテキストセットテーブルは、ユーザID(クライアント端末ID)、コンテキストセットID、適合コンテキストIDリスト、及び隣接コンテキストセットIDリストを含む。適合コンテキストIDリストは、このコンテキストセットが満たすべきコンテキスト条件のコンテキストIDの群を示す。隣接コンテキストセットIDリストは、このコンテキストセットの履歴により学習する場合に、同時に学習すべきコンテキストセットIDの群と、その時の重みwを示す。例えば、{コンテキストセットID1、0.1},{コンテキストセットID2、0.5},…とする。
[分割コンテキスト/関連性定義データベース131]
図13に、分割コンテキスト/関連性定義データベース131のデータ構造の一例を示す。分割コンテキスト/関連性定義データベース131は、コンテキストIDテーブルと、コンテキスト関連性テーブルとを有する。
コンテキストIDテーブルは、コンテキストIDと、コンテキスト条件とを含む。コンテキスト条件は、例えば、24時間を8分割して、0時〜3時、3時〜6時等の条件、気温を10分割して、0度以下、0〜5度、...30度以上などの条件、月曜、火曜、...、日曜の曜日の条件、あるいは、春夏秋冬、晴れ、雨、曇りなどの季節や天気の条件を含む。
コンテキスト関連性テーブルは、コンテキストIDと、関連コンテキストIDと、関連コンテキストIDとの距離とを含む。コンテキストIDは、後述する大域コンテキスト/コンテキストID設定部117により一意に付与される数字等である。関連コンテキストIDは、このコンテキストIDと関連性を持つコンテキストIDの群である。関連コンテキストIDとの距離は、当該コンテキストIDと各関連コンテキストIDとの間の距離を示す数値が、コンテキストID、距離の値の組として、それぞれ格納され、数が大きいほど当該コンテキストIDとの関係性が少ないことを示す。
[提示コンテンツリスト受信部150]
提示コンテンツリスト受信部150は、コンテンツサーバ300から上記図9のような提示コンテンツリストを受信し、上記図10に示すコンテンツデータベース160に保存する。
[履歴情報受信部110]
図14に、履歴情報受信部110の処理フローを示す。
(履歴データ受信)
履歴情報受信部110は、コンテンツサーバ300の履歴情報転送部350から通信ネットワークを介してクライアント端末ID(もしくはユーザID)、一覧閲覧コンテンツリスト、詳細閲覧コンテンツリスト、閲覧時刻情報、及び、各測定時刻情報と組とした端末コンテキスト情報(位置情報、加速度、地軸センサ、温度計など、その他端末保有のセンサの検出結果)、を受信する。そして、クラスタID(ユニークな値)を付与して、学習対象の興味テーブル選択処理113へ出力する(A−1)。
[学習対象の興味テーブル選択処理部113]
図15に、学習対象の興味テーブル選択処理部113の処理フローを示す。学習対象の興味テーブル選択処理部113は、履歴情報受信部110からクラスタID、クライアント端末ID(もしくはユーザID)、一覧閲覧コンテンツリスト、詳細閲覧コンテンツリスト、閲覧時刻情報、及び端末コンテキスト情報を受信する(A−1)。
(学習対象のユーザ興味テーブル選択)
先ず、この履歴受信時のユーザのコンテキスト(状況)を取得するために、学習対象の興味テーブル選択処理部113は、クラスタID、クライアント端末ID(もしくはユーザID)、閲覧時刻情報、及び端末コンテキスト情報を大域コンテキスト/コンテキストID設定部117へ出力し(A−2)、大域コンテキスト/コンテキストID設定部117からクライアント端末ID(もしくはユーザID)と、履歴収集時点のユーザ状況や大域コンテキストに適合するコンテキストID群とを受信する(A−3)。このとき、サーバの現時点への適合を利用する方法もある。
学習対象の興味テーブル選択処理部113は、コンテキストIDがそろった時点で、コンテキスト別履歴量データベース132の分析対象コンテキストセットテーブルからコンテキスト条件が合致するコンテキストセットIDのリストとw値を取得する。また、常に「その他」コンテキスト条件を分析対象とし、この重みは初期値w=1とする。なお、w値は、事前計算のデータベースから読み出す方法以外に、入力コンテキスト条件を起点として、分割コンテキスト抽出処理部116の「関係性重み算出」の処理にて算出する方法もある。
学習対象の興味テーブル選択処理部113は、クライアント端末ID(もしくはユーザID)、一覧閲覧コンテンツリスト、詳細閲覧コンテンツリスト、学習対象ユーザ興味テーブルのコンテキストセットID、及び学習対象ユーザ興味テーブルのコンテキストセットID毎のw値を出力する(A−4)。
[大域コンテキスト/コンテキストID設定部117]
大域コンテキスト/コンテキストID設定部117は、学習対象の興味テーブル選択処理部113からの入力(A−2)又は利用興味テーブル選択処理部124からの入力(C−2)を処理起動トリガとする。
(大域コンテキスト収集)
大域コンテキスト/コンテキストID設定部117は、クライアント端末ID(もしくはユーザID)、閲覧時刻情報(C−2の場合は時刻情報)、端末コンテキスト情報、及びクラスタID(C−2の場合は省略)を受信すると、大域コンテキストを収集する。例えば、端末コンテキスト情報がGPS履歴等の位置情報を含んでいる場合は、位置情報と時刻情報に対応する気温、湿度、天気等の情報をインターネットから収集する。または、世の中で話題になっているイベント情報をインターネット等から収集、もしくは運営者が適時設定した情報を収集する。端末コンテキスト情報がGPS履歴等の位置情報を含んでいる場合は、ユーザ位置の近隣のイベント情報をインターネット等から収集、もしくは運営者が適時設定した情報を収集する。あるいは、各ユーザのツイッターやブログ等の更新情報、季節/曜日/祝日などの情報、その他、事前設定などによる、ユーザの年齢、性別、職業等のユーザプロファイル情報を収集する。
(DB読み出し)
大域コンテキスト/コンテキストID設定部117は、上記収集されたコンテキスト情報群をもとに、履歴収集時点(もしくはサーバ現時点)に適合するコンテキストID群をコンテキスト/関連性定義データベース131から読み出す。そして、A−2の場合は、クラスタID、及び上記履歴収集時点(もしくはサーバ現時点)に適合するコンテキストID群とを学習対象の興味テーブル選択処理部113へ出力する(A−3)。C−2の場合は、上記履歴収集時点(もしくはサーバ現時点)に適合するコンテキストID群を利用興味テーブル選択処理部124へ出力する。
[ユーザ興味モデル更新部130]
図17に、ユーザ興味モデル更新部130の処理フローを示す。ユーザ興味モデル更新部130には、学習対象の興味テーブル選択処理部113からクライアント端末ID(もしくはユーザID)、一覧閲覧コンテンツリスト、詳細閲覧コンテンツリスト、学習対象ユーザ興味テーブルのコンテキストセットID、及び学習対象ユーザ興味テーブルのコンテキストセット毎のw値が入力される(A−4)。
(出現概念抽出)
ユーザ興味モデル更新部130は、クラスタIDの一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリスト内の各コンテンツに出現する概念IDをコンテンツデータベース160から抽出する。具体的には、図7、図8において、各コンテンツIDに紐付けされている「概念ID」を図10のコンテンツデータベース160のコンテンツテーブルから検索する。ユーザ興味モデル更新部130は、クラスタデータ{クラスタID,一覧閲覧コンテンツリスト,詳細閲覧コンテンツリスト}と、コンテンツID/概念ID関連づけリスト{{コンテンツID,{関連づいている概念ID,…}},…}と、出現概念リスト{概念ID}とを生成する。「コンテンツID/概念ID関連付けリスト」とは、コンテンツIDをもとに検索された概念IDのリストである。「出現概念リスト」とは、一覧閲覧コンテンツリスト、及び詳細閲覧コンテンツリストに含まれる各コンテンツに出現する概念の概念IDを全て列挙したものである。
(分析パラメータ抽出)
ユーザ興味モデル更新部130は、「出現概念リスト」の各概念について出現数を算出し、特徴スコアの算出に必要な分析パラメータを抽出し、分析パラメータリストを生成する。
図18に、分析パラメータリストのデータ構成例を示す。分析パラメータリストは、クラスタID毎に、一覧閲覧コンテンツリストのコンテンツ総数S(第1の総数)、詳細閲覧コンテンツリストのコンテンツ総数a(第2の総数)、クラスタIDに紐づいた出現概念リスト内の概念ID毎に算出するNとnがある。N(第1の出現数)は、一覧閲覧コンテンツリストにおいて当該概念IDが付与されているコンテンツ数とする。n(第2の出現数)は詳細閲覧コンテンツリストにおける当該概念IDが付与されているコンテンツ数とする。なお、上記追加した上位概念も含めて出現概念リスト内の概念IDすべてについて、Nとnを算出する。
図19(a)に分析パラメータ抽出処理の模式図を示す。例えば、50個(=S)のコンテンツが一覧表示されている中から、ユーザが10個(=a)のコンテンツの詳細を閲覧した場合を示す。ここで、一覧表示されている50個のコンテンツのうち「野球」という概念が含まれている記事が15個(=N)あり、ユーザが閲覧した10個のコンテンツのうち、「野球」という概念が含まれているコンテンツが5個(=n)あったことを示す。
(特徴スコア算出)
ユーザ興味モデル更新部130は、上記分析パラメータS,a,N,nを利用して概念ID毎に特徴スコアZを算出する。図20に特徴スコア算出処理の詳細を示す。図20において、iは概念の識別子、jは、クラスタIDを示す。H1(第1の確率)は、一覧閲覧コンテンツリストに含まれる一覧閲覧コンテンツの総数S、一覧閲覧コンテンツのうち概念iが出現するコンテンツ数Nのとき、詳細閲覧コンテンツをa個ランダム選択して閲覧した場合に、概念iが出現する詳細閲覧コンテンツの数がn以上となる累積確率である。H2(第2の確率)は、一覧閲覧コンテンツリストに含まれる一覧閲覧コンテンツの総数S、一覧閲覧コンテンツのうち概念iが出現するコンテンツ数Nのとき、詳細閲覧コンテンツをa個ランダム選択して閲覧した場合に、概念iが出現する詳細閲覧コンテンツの数がn以下となる累積確率である。なお、本実施形態では、累積確率H1及びH2は、超幾何分布により求めるが、この手法に限定するものではない。他の分布の例としては、二項分布、正規分布が存在する。
図19(b)に示すように、例えば、上記の分析パラメータS、N、a、nを用いて、ユーザが閲覧した10個のコンテンツのうち、「野球」という概念が含まれるコンテンツが5以上である確率が、「0.12」であることを示す。ここで、「0.12」は、累積確率H1の値に相当する。
なお、H2の値を使う例として、上記の分析パラメータでnが0である場合を考える。この場合は、出現数が0以下の場合の確率を算出する。具体的には、図19(b)において横軸が0の項目の値となるため「0.02」となる。
そして、ユーザ興味モデル更新部130は、図20に示すように、上記算出した累積確率H1及びH2を用いて、標準正規分布の累積分布関数の逆関数により特徴スコアZを算出する。図19(c)に示すように、上記H1を累積確率とする標準正規分布の累積分布関数の逆関数により特徴スコアZを求める。なお、累積確率としてH2を利用する場合には、標準正規分布の累積分布関数の逆関数の返値の符号を負にして特徴スコアZを求める。ユーザ興味モデル更新部130は、更新対象概念リスト{クラスタID,{概念ID,特徴スコア=Z,重み=w},…}を出力する。重みwは、更新対象興味テーブルID毎のw値である。
(DB更新)
興味モデル更新処理部130は、「更新対象概念リスト」の各概念IDのユーザ興味スコア(TotalZ)を更新する。図21に興味モデル更新処理部130の処理の詳細を示す。興味モデル更新処理部130は、コンテンツに出現した概念(出現概念)について、図21に示す各概念iに対するユーザ興味スコア更新式を用いて、ユーザ興味スコアTotalZin,及びXi(n−1),Yi(n−1)の値を求める。そして、図11の興味スコアデータベース140のユーザ興味テーブルのコンテキストセットIDに対応するレコードについて、概念ID及びクライアント端末ID(ユーザID)に対応するカラムに格納されている各値(TotalZ,X,Y)を更新する。
ここで、Xi(n−1)は、各概念ID(ここでは識別子iで表現)に対する、過去の(前回までの)前記更新対象概念リストの重みwの二乗の合計である。Yi(n−1)は、同様に各概念ID(ここでは識別子iで表現)に対する、過去の前記更新対象概念リストの重みwと特徴スコアZの乗算の合計である。
この、X,Yはユーザ興味スコア(TotalZ)計算過程における中間結果を保持することとなり、省メモリ/ストレージを優先させる場合、最低限としては各概念の変数としてTotalZ,X,Yの3つの実数値を保持することで実現可能である。省メモリ/ストレージを優先させない場合は、算出した各概念、各クラスタの特徴スコアZをすべて保存することとなる。この場合は、X,Yの保存は不要となる。
図21において、nは、更新処理が何度目かを示す識別子である。ユーザ興味スコアTotalZを求める一連の処理は、クラスタID単位で行なわれ、この一連の処理が行なわれる単位を1度と数えるとき、nはこの一連の処理が何度目に行なわれたものであるかを示す識別子である。iは、概念IDの識別子である。Zinは、概念iの各更新処理に利用するZ値である。なお、上記Zijは一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリスト毎のZ値であり、Zij∈Zinの関係である。重みwinは、概念iの各更新処理に利用する重みであり、更新対象概念リストで設定される値である。
[コンテキスト履歴追記処理部115]
図22にコンテキスト履歴追記処理部115の処理フローを示す。コンテキスト履歴追記処理部115には、学習対象の興味テーブル選択処理部113からクライアント端末ID(もしくはユーザID)、上記履歴収集時点(もしくはサーバでの現時点)に適合するコンテキストID群、及びクラスタIDが入力される(B−1)。
(DB更新)
コンテキスト履歴追記処理部115は、上記入力された情報をもとに、コンテキスト別履歴量データベース132のコンテキスト別ユーザ履歴量テーブルを更新する。具体的には、クライアント端末ID(もしくはユーザID)及びコンテキストIDに対応する適合クラスタIDリストのカラムに上記入力されたクラスタIDを追記する。
コンテキスト履歴追記処理部115は、クライアント端末ID(もしくはユーザID)、及び上記履歴収集時点(もしくはサーバでの現時点)に適合するコンテキストID群を分割コンテキスト抽出処理部116へ出力する(B−2)。
[分割コンテキスト抽出処理部116]
図23に分割コンテキスト抽出処理部116の処理フローを示す。分割コンテキスト抽出処理部116には、コンテキスト履歴追記処理部115からクライアント端末ID(もしくはユーザID)、上記履歴収集時点(もしくはサーバでの現時点)に適合するコンテキストID群が入力される(B−2)。
(コンテキスト条件組合せ毎の履歴量閾値判定)
分割コンテキスト抽出処理部116は、各クライアント端末ID(もしくはユーザID)について、コンテキスト別履歴量データベース132のコンテキスト別ユーザ履歴量テーブルを参照し、更新対象となったコンテキストID毎に他のコンテキストと組み合わせた場合の履歴量が所定の閾値を超えているかを判定し、履歴量が閾値を超えている組合せを抽出する。ここで、図12のコンテキスト別ユーザ履歴量テーブルはコンテキストID毎の適合クラスタIDリストを保存しているため、コンテキストの組合せ毎の履歴量の算出には、この組み合わされたコンテキストIDに共通して関連づけられているクラスタIDの数を数えることで実現する。
例えば、「8時〜10時」、「駅近く」、AND「平日」のコンテキストの組合せの場合に、履歴量(閲覧回数など)が閾値である10回を超えるものを抽出する。抽出した組合せが、コンテキスト別ユーザ履歴量データベース132の分析対象コンテキストセットテーブルに無い場合は、新規コンテキストセットとして、コンテキストセットIDを割り振る。
図24にコンテキスト分割方法の処理概要を示す。ここでは、2次元のコンテキスト条件を設定するものとし、時間を2時間毎に12個用意し、位置情報IDを日本全地域をグリッドで分けたエリア通し番号として用意する。既存のコンテキスト条件が、「4時〜6時」AND「場所x」と、「18時〜20時」AND「場所y」と、「その他」(初期コンテキスト条件)との3つ存在する状態で、「6時〜8時」AND「場所x」のログ(履歴量、閲覧回数など)が追加発生したものとする。「6時〜8時」AND「場所x」のログが閾値である5以上になった時点で、「6時〜8時」AND「場所x」のコンテキスト条件を分割する。その結果、コンテキスト条件は、「4時〜6時」AND「場所x」と、「18時〜20時」AND「場所y」と、「6時〜8時」AND「場所x」と、「その他」(初期コンテキスト条件)との4つになる。なお、図24では説明を簡単にするため2次元ベクトルの例を示したが、実際は多次元ベクトル(時刻、場所、気温、天気、曜日、季節など)で処理を行う。
(関連コンテキストセットID抽出)
分割コンテキスト抽出処理部116は、上記履歴量閾値判定処理により、新規のコンテキストセットIDと、そのコンテキストIDが入力されると、コンテキスト/関連性定義データベース131のコンテキスト関連性テーブルを参照し、新規コンテキストセット内のコンテキストIDと、関係を持つコンテキストIDをそれぞれ抽出し、抽出されたコンテキストIDを持つコンテキストセットIDを抽出する。なお、この関係を持つコンテキストIDの抽出処理では、コンテキスト/関連性定義データベース131のコンテキスト関連性テーブルをグラフとみなし、抽出対象のコンテキストIDを起点に、複数ホップを行う。ホップ回数は「2回や3回」、もしくは「関連コンテキストIDとの距離のホップ毎の積算値」を閾値として設定する。
抽出したコンテキストセットIDと新規コンテキストセットIDとの距離を、上記で算出した「関連コンテキストIDとの距離のホップ毎の積算値」の全コンテキストセットID内のコンテキストIDでの「合計」、「算術平均値」、「ベクトルと見なした場合のコサイン類似度や、ピアソン距離の逆数」によって算出する。
(関係性重み算出)
分割コンテキスト抽出処理部116は、上記関連コンテキストセットID抽出処理により、新規のコンテキストセットIDと、そのコンテキストID、関連するコンテキストセットID群、及びそれぞれのコンテキストセットIDとの距離が入力されると、新規のコンテキストIDと関連するコンテキストID間で相互に関係性重みを、「関連コンテキストセットID抽出」で計算したセット間の距離から算出する。このとき、距離を重みとして、0〜1の値に正規化する。正規化の方法として、平均0、分散が運営者設定値の標準正規分布関数における確率値、累積確率値において距離をZ値とした場合の結果などの方法がある。その他、ロジスティック関数を利用する方法、十分大きい数値で除す方法がある。
(DB更新)
分割コンテキスト抽出処理部116は、新規のコンテキストセットIDと、そのコンテキストID、と上記算出された関係性重みをもとに、コンテキスト別履歴量データベース132の分析対象コンテキストセットテーブルを更新する。
図25に、コンテキスト条件に基づく重み算出処理の具体例を示す。図25では、学習時のコンテキスト条件「6時〜8時」AND[場所x」の適合度(重み)算出イメージを示す。CASE1として、「2時〜4時」AND[場所x」のデータが発生した場合は、「6時〜8時」AND[場所x」のコンテキスト条件との距離は2であるため、重み関数w=f(2)の結果を重みとして追加された履歴クラスタにて学習処理を実行する。CASE2として、「10時〜12時」AND[場所4」のデータが発生した場合は、「6時〜8時」AND[場所x」のコンテキスト条件との距離は3であるため、重み関数w=f(3)の結果を重みとして追加された履歴クラスタにて学習処理を実行する。さらに、CASE3として、「6時〜8時」AND[場所y」のデータが発生した場合は、「6時〜8時」AND[場所x」のコンテキスト条件との距離は閾値を超えているため(この例では閾値は3)、学習処理は実行しない。
つまり、コンテキストを自動抽出することで、どのような状況(状況の組合せ)に着目して分析するかというコンテキスト定義の最適化及び定義作業の省力化でき、コンテキスト定義を履歴量と相関させることで対応する履歴が少ないコンテキスト分解を避けることが出来るため、最小限のコンピューターリソースでの情報推薦の高精度化が実現できる。
[コンテンツ要求受信部121]
図26にコンテンツ評価処理部170の処理フローを示す。コンテンツ要求受信部121は、コンテンツ要求転送部360からクライアント端末ID(もしくはユーザID)を含む、図5に示すようなコンテンツ要求データを受信する。
(コンテンツ要求履歴データ受信)
コンテンツ要求受信部121は、コンテンツサーバ300のコンテンツ要求転送部360から通信ネットワークを介してクライアント端末ID(もしくはユーザID)、時刻情報、及び端末コンテキスト情報(位置情報、加速度、地軸センサ、温度計など、その他端末保有のセンサの測定時刻及び測定結果)を受信する。そして、クライアント端末ID(もしくはユーザID)、時刻情報、及び端末コンテキスト情報を利用興味テーブル選択処理部124へ出力する(C−1)。なお、これらの情報を履歴情報受信部110にさらに転送し、学習に利用する方法もある。また、このコンテンツ要求の履歴について、クライアント端末側で履歴収集し、コンテンツ要求送信部240から履歴情報収集部210に情報を通知し、興味分析装置100に送信する方法もある。
[利用興味テーブル選択処理部124]
図27に、利用興味テーブル選択処理部124の処理フローを示す。利用興味テーブル選択処理部124は、コンテンツ要求受信部121からクライアント端末ID(もしくはユーザID)、時刻情報、及び端末コンテキスト情報を受信する(C−1)。
(適合コンテキストIDの読み出し)
利用興味テーブル選択処理部124は、クライアント端末ID(もしくはユーザID)、時刻情報、及び端末コンテキスト情報を大域コンテキスト/コンテキストID設定部117へ出力し(C−2)、大域コンテキスト/コンテキストID設定部117からクライアント端末ID(もしくはユーザID)及び履歴収集時点(もしくはサーバでの現時点)に適合するコンテキストID群を受信する(C−3)。
(利用するコンテキストセットID決定(ユーザ興味テーブル選択))
上記適合コンテキストIDの読み出し処理により、大域コンテキスト/コンテキストID設定部117から、クライアント端末ID(もしくはユーザID)、履歴収集時点(もしくはサーバでの現時点)に適合するコンテキストID群が入力される。と、利用興味テーブル選択処理部124は、コンテキストIDがそろった時点で、コンテキスト別履歴量DB132の分析対象コンテキストセットテーブルからコンテキスト条件が適合するコンテキストセットIDを取得する。なお、複数のコンテキストセットIDが取得される場合は、コンテキストセットにおいて、もっともコンテキスト条件数が多いものを選択する。そして、利用興味テーブル選択処理部124は、クライアント端末ID(もしくはユーザID)、利用するユーザ興味テーブルに対応するコンテキストセットIDを出力する(C−4)。
[コンテンツ評価処理部170]
図28にコンテンツ評価処理部170の処理フローを示す。コンテンツ評価処理部170には、コンテンツデータベース160のコンテンツテーブルから読み出した図7のような形式の提示コンテンツリストと、利用興味テーブル選択処理部124からクライアント端末ID(もしくはユーザID)、利用するユーザ興味テーブルのレコードを決定するためのコンテキストセットIDが入力される。
(スコア評価)
コンテンツ評価処理部170は、提示コンテンツリストから、利用するコンテキストセットIDが合致するユーザ興味テーブルのレコードを用いてコンテンツの評価を行う。そして、コンテンツ評価処理部170は、評価対象のコンテンツについて、評価スコアを算出し、図29に示すようなコンテンツスコアリストを生成する。コンテンツスコアリストは、コンテンツID、評価スコア、コンテンツ本体、及びコンテンツ登録時刻を有する。
図30に評価スコアの算出方法の一例を示す。例えば、図30に示すコンテンツ評価式により、評価コンテンツxに対する評価スコアEntityZを概念iのユーザ興味スコアTotalZ、コンテンツxと概念iとの関連度W(もしくは、概念iの重要度)、及びコンテンツxに出現する概念IDの集合pを用いて算出することができる。なお、概念の識別子iは集合p内の概念IDに対応する。
図30の算出で利用するユーザ興味スコア(TotalZ)は、各コンテンツに関連した概念IDについて、興味スコアデータベース140のユーザ興味テーブル(図11)から、クライアント端末ID(もしくは、ユーザID)をもとに読み出し利用する。図30において、概念K、概念B及び概念Dが出現するコンテンツ1を評価コンテンツとした場合、概念K、概念B及び概念DのTotalZ,関連度Wを利用して評価スコアEntityZ=0.18と算出できる。一方、概念Bのみが出現するコンテンツ2を評価コンテンツとした場合、概念BのTotalZ,Wを利用して評価スコアEntityZ=−0.3と算出できる。評価スコアEntityZの値が大きいコンテンツ1が優先して表示される。
その他にも、評価スコアEntityZは、以下の変形例1〜3の方法により求めることができる。
変形例1としては、EntityZ=MAX(TotalZ*W)により求める。MAX(TotalZ*W)は、i∈pのTotalZ*Wの最大値を返す関数とする。
変形例2としては、EntityZの値は、MAX(TotalZ*W)の値が閾値を超えた場合には、MAX(TotalZ*W)の返り値とする。MAX(TotalZ*W)はi∈pのTotalZ*Wの最大値を返す関数とする。閾値を超えない場合は、図30のコンテンツ評価式の結果をEntityZとする。MAX()は、はi∈pのTotalZ*Wで最大値を返す関数とする。閾値はサービス運用者が設定する値とする。
変形例3としては、TotalZが正の値のi∈pについてのみ取り出し、図30のコンテンツ評価式で統合した値をEntityZとする。
(コンテンツをスコア順にソート)
コンテンツ評価処理部170は、コンテンツスコアリストに含まれるコンテンツを評価スコアEntityZの降順にソートし、ソート済みコンテンツスコアリストをコンテンツスコアリスト送信部180に出力する。
[ソート済みコンテンツスコアリスト送信部180]
ソート済みコンテンツスコアリスト送信部180は、コンテンツ評価処理部170から入力されるソート済みコンテンツスコアリストとクライアント端末ID(もしくはユーザID)を通信ネットワークを介してコンテンツサーバ300に送信する。
以上述べたように、上記実施形態によれば、ユーザの選択候補となる一覧リストを定義し、そこからのコンテンツ選択における概念の出現数を分析することで、各概念の出現の希少性を考慮し、且つ一覧から選ばれない概念の履歴特徴を利用することができるため、ユーザの興味を高精度に推定することが可能となる。
また、履歴データの集まり方から、コンテキスト条件(その条件限定で傾向を分析するもの)を自動抽出し、自動抽出したコンテキスト条件について、自動で学習時のコンテキスト適合度(重み)を決定することが可能となる。
分析対象となり得る多数のコンテキストの切り口(時刻、場所、気温、曜日、季節等)が有る場合には、全ての組合せで計算することは計算量が莫大となる。また、全ての組合せについて運用者が「重み」を設定することは非常に困難である。本実施形態の手法によれば、コンテキスト条件自動判別機能により処理コストや運用コストが削減でき、多様なコンテキストを考慮した、適切なコンテキスト条件による分析により情報推薦を高精度化できる。
さらに、コンテンツ要求時のユーザ状況に適合するユーザ興味テーブルを用いてコンテンツの評価スコアを算出することで、ユーザの興味に合ったコンテンツを精度良く推薦することが可能となる。
なお、この発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
100…興味分析装置、200…クライアント端末、300…コンテンツサーバ、110…履歴情報受信部、113…学習対象の興味テーブル選択処理部、115…コンテキスト履歴追記処理部、116…分割コンテキスト抽出処理部、117…大域コンテキスト/コンテキストID設定部、121…コンテンツ要求受信部、124…利用興味テーブル選択処理部、130…興味モデル更新処理部、131…コンテキスト/関連性定義データベース、132…コンテキスト別履歴量データベース、140…興味スコアデータベース、150…提示コンテンツリスト受信部、160…コンテンツデータベース、170…コンテンツ評価処理部、180…ソート済みコンテンツスコアリスト送信部、210…履歴情報送信部、220…履歴収集部、230…コンテンツ提示部、240…コンテンツ要求送信部、250…端末情報収集部、310…コンテンツ送信処理部、320…ソート済み提示コンテンツリスト受信部、330…提示コンテンツリスト送信部、340…提示コンテンツリスト入力部、350…履歴情報転送部、360…コンテンツ要求転送部。

Claims (7)

  1. 複数の概念のそれぞれに対してユーザ興味スコアを有する興味モデルを用いて、前記概念を含むコンテンツの閲覧履歴からユーザの興味を分析する方法であって、
    複数のコンテンツを一覧として閲覧した第1のコンテンツリストと、前記第1のコンテンツリストからコンテンツの本体を閲覧した第2のコンテンツリストとをクラスタ化するステップと、
    前記クラスタ毎に、前記第1のコンテンツリストのコンテンツの総数を第1の総数と、前記第1のコンテンツリストにおいて前記概念が出現するコンテンツの数を第1の出現数と、前記第2のコンテンツリストのコンテンツの総数を第2の総数と、前記第2のコンテンツリストにおいて前記概念が出現するコンテンツの数を第2の出現数としたとき、前記第1の総数、前記第1の出現数、及び前記第2の総数の条件下で、前記第2のコンテンツリストに前記概念が出現するコンテンツの数が、前記第2の出現数以上となる第1の確率及び前記第2の出現数以下となる第2の確率を算出し、前記第1の確率及び前記第2の確率をもとに標準正規分布の累積分布関数の逆関数により特徴スコアを算出する算出ステップと、
    前記コンテンツの閲覧に関するコンテキスト条件を収集するステップと、
    前記収集されたコンテキスト条件の組合せに基づいて、前記興味モデルを前記組合せ毎のテーブルに分割するステップと、
    前記組合せに含まれるコンテキスト条件間の関連性に基づいて、前記組合せ毎のテーブルから更新対象テーブルを抽出するステップと、
    前記更新対象テーブルに対して前記関連性をもとに重みを算出するステップと、
    前記特徴スコアと前記重みとを用いて前記更新対象テーブルにおける前記概念に対する前記ユーザ興味スコアを更新するステップと
    を有することを特徴とする興味分析方法。
  2. 前記コンテキスト条件に適合する閲覧履歴の量に基づいて、前記興味モデルを前記組合せ毎のテーブルに分割することを特徴とする請求項1に記載の興味分析方法。
  3. コンテンツ要求時のコンテキスト条件を収集し、当該コンテキスト条件に適合するテーブルを用いて、コンテンツに対する評価スコアを算出するステップをさらに有することを特徴とする請求項1又は2に記載の興味分析方法。
  4. 複数の概念のそれぞれに対してユーザ興味スコアを有する興味モデルを用いて、前記概念を含むコンテンツの閲覧履歴からユーザの興味を分析する装置であって、
    複数のコンテンツを一覧として閲覧した第1のコンテンツリストと、前記第1のコンテンツリストからコンテンツの本体を閲覧した第2のコンテンツリストとをクラスタ化する手段と、
    前記クラスタ毎に、前記第1のコンテンツリストのコンテンツの総数を第1の総数と、前記第1のコンテンツリストにおいて前記概念が出現するコンテンツの数を第1の出現数と、前記第2のコンテンツリストのコンテンツの総数を第2の総数と、前記第2のコンテンツリストにおいて前記概念が出現するコンテンツの数を第2の出現数としたとき、前記第1の総数、前記第1の出現数、及び前記第2の総数の条件下で、前記第2のコンテンツリストに前記概念が出現するコンテンツの数が、前記第2の出現数以上となる第1の確率及び前記第2の出現数以下となる第2の確率を算出し、前記第1の確率及び前記第2の確率をもとに標準正規分布の累積分布関数の逆関数により特徴スコアを算出する算出手段と、
    前記コンテンツの閲覧に関するコンテキスト条件を収集する手段と、
    前記収集されたコンテキスト条件の組合せに基づいて、前記興味モデルを前記組合せ毎のテーブルに分割する手段と、
    前記組合せに含まれるコンテキスト条件間の関連性に基づいて、前記組合せ毎のテーブルから更新対象テーブルを抽出する手段と、
    前記更新対象テーブルに対して前記関連性をもとに重みを算出する手段と、
    前記特徴スコアと前記重みとを用いて前記更新対象テーブルにおける前記概念に対する前記ユーザ興味スコアを更新する手段と
    を有することを特徴とする興味分析装置。
  5. 前記コンテキスト条件に適合する閲覧履歴の量に基づいて、前記興味モデルを前記組合せ毎のテーブルに分割することを特徴とする請求項4に記載の興味分析装置。
  6. コンテンツ要求時のコンテキスト条件を収集し、当該コンテキスト条件に適合するテーブルを用いて、コンテンツに対する評価スコアを算出する手段をさらに有することを特徴とする請求項4又は5に記載の興味分析装置。
  7. 請求項4乃至6のいずれか1項に記載の興味分析装置を構成する各手段としてコンピュータを機能させる興味分析装置プログラム。
JP2012132387A 2012-06-11 2012-06-11 興味分析方法、興味分析装置及びそのプログラム Expired - Fee Related JP5723835B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012132387A JP5723835B2 (ja) 2012-06-11 2012-06-11 興味分析方法、興味分析装置及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012132387A JP5723835B2 (ja) 2012-06-11 2012-06-11 興味分析方法、興味分析装置及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2013257668A true JP2013257668A (ja) 2013-12-26
JP5723835B2 JP5723835B2 (ja) 2015-05-27

Family

ID=49954073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012132387A Expired - Fee Related JP5723835B2 (ja) 2012-06-11 2012-06-11 興味分析方法、興味分析装置及びそのプログラム

Country Status (1)

Country Link
JP (1) JP5723835B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017146683A (ja) * 2016-02-16 2017-08-24 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
JP2017151867A (ja) * 2016-02-26 2017-08-31 ヤフー株式会社 更新装置、更新方法、及び更新プログラム
CN107483613A (zh) * 2017-08-31 2017-12-15 江西博瑞彤芸科技有限公司 一种信息推送方法
JP2020129409A (ja) * 2016-02-16 2020-08-27 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
JP2021149553A (ja) * 2020-03-19 2021-09-27 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
CN113592589A (zh) * 2021-07-27 2021-11-02 上海致景信息科技有限公司 纺织原料推荐方法、装置及处理器

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237916A (ja) * 2009-03-31 2010-10-21 Denso It Laboratory Inc コンテンツ検索装置、方法及びプログラム
JP2012053863A (ja) * 2010-08-06 2012-03-15 Nippon Telegr & Teleph Corp <Ntt> 情報推薦処理装置とそのプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237916A (ja) * 2009-03-31 2010-10-21 Denso It Laboratory Inc コンテンツ検索装置、方法及びプログラム
JP2012053863A (ja) * 2010-08-06 2012-03-15 Nippon Telegr & Teleph Corp <Ntt> 情報推薦処理装置とそのプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG201200161012; 佐藤 妙: 'ユーザの興味と情報発信者からの影響度を融合した情報パーソナライズ方法の提案' 電子情報通信学会技術研究報告 Vol.111 No.470, 20120301, 73-78ページ, 社団法人電子情報通信学会 *
JPN6014055063; 佐藤 妙: 'ユーザの興味と情報発信者からの影響度を融合した情報パーソナライズ方法の提案' 電子情報通信学会技術研究報告 Vol.111 No.470, 20120301, 73-78ページ, 社団法人電子情報通信学会 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017146683A (ja) * 2016-02-16 2017-08-24 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
JP2020129409A (ja) * 2016-02-16 2020-08-27 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
JP2017151867A (ja) * 2016-02-26 2017-08-31 ヤフー株式会社 更新装置、更新方法、及び更新プログラム
CN107483613A (zh) * 2017-08-31 2017-12-15 江西博瑞彤芸科技有限公司 一种信息推送方法
CN107483613B (zh) * 2017-08-31 2020-07-14 江西博瑞彤芸科技有限公司 一种信息推送方法
JP2021149553A (ja) * 2020-03-19 2021-09-27 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP7189905B2 (ja) 2020-03-19 2022-12-14 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
CN113592589A (zh) * 2021-07-27 2021-11-02 上海致景信息科技有限公司 纺织原料推荐方法、装置及处理器
CN113592589B (zh) * 2021-07-27 2024-03-29 上海致景信息科技有限公司 纺织原料推荐方法、装置及处理器

Also Published As

Publication number Publication date
JP5723835B2 (ja) 2015-05-27

Similar Documents

Publication Publication Date Title
EP3779841B1 (en) Method, apparatus and system for sending information, and computer-readable storage medium
CN106156127B (zh) 选择数据内容向终端推送的方法及装置
JP5962926B2 (ja) レコメンダシステム、レコメンド方法、及びプログラム
TWI636416B (zh) 內容個人化之多相排序方法和系統
JP5723835B2 (ja) 興味分析方法、興味分析装置及びそのプログラム
CN103106285B (zh) 一种基于信息安全专业社交网络平台的推荐算法
WO2018040069A1 (zh) 信息推荐系统及方法
JP5615857B2 (ja) 分析装置、分析方法及び分析プログラム
CN108846097B (zh) 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
CN105976161A (zh) 一种基于时间轴上的智能推荐日历及基于用户的呈现方法
JP5668010B2 (ja) 情報推薦方法、装置及びプログラム
JP5668007B2 (ja) 興味分析方法、装置及びプログラム
US20130110803A1 (en) Search driven user interface for navigating content and usage analytics
CN113850649A (zh) 一种基于多平台用户数据的定制化推荐方法及推荐系统
CN103235822A (zh) 数据库的生成及查询方法
JP5836210B2 (ja) 影響力推定方法、装置及びプログラム
JP5667959B2 (ja) 影響度分析方法、影響度分析装置及びそのプログラム
CN115827956A (zh) 一种数据信息检索方法、装置、电子设备及存储介质
JP5504213B2 (ja) 興味分析方法及び興味分析装置
CN113761084B (zh) 一种poi搜索排序模型训练方法、排序装置与方法及介质
CN106021423A (zh) 基于群组划分的元搜索引擎个性化结果推荐方法
CN105389714A (zh) 一种从行为数据识别用户特性的方法
CN105590234A (zh) 一种向目标用户推荐商品的方法和系统
CN110309406B (zh) 点击率预估方法、装置、设备及存储介质
CN113704617A (zh) 物品推荐方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140625

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150324

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150330

R150 Certificate of patent or registration of utility model

Ref document number: 5723835

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees