JP6450203B2

JP6450203B2 - 個人プロファイル生成装置及びそのプログラム、並びに、コンテンツ推薦装置

Info

Publication number: JP6450203B2
Application number: JP2015013057A
Authority: JP
Inventors: 苗村　昌秀; 昌秀苗村; 山内　結子; 結子山内
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2015-01-27
Filing date: 2015-01-27
Publication date: 2019-01-09
Anticipated expiration: 2035-01-27
Also published as: JP2016139229A

Description

本願発明は、キーワード同士がリンクされたリンク付きコーパスから、個人の嗜好に適応した個人プロファイルを生成する個人プロファイル生成装置及びそのプログラム、並びに、コンテンツ推薦装置に関する。

従来より、番組やＷｅｂページなどのコンテンツへのアクセス履歴から、個人の嗜好をモデル化した個人プロファイルを生成し、個人の嗜好に応じたコンテンツを推薦する技術が提案されている。

例えば、特許文献１に記載の発明は、コンテンツに関するキーワードについての嗜好度を個別に計算し、視聴中に特化した番組推薦を行うものである。このとき、特許文献１に記載の発明では、視聴中のコンテンツだけではなく、視聴していない裏番組から抽出したキーワードとの相対関係から、キーワードについての嗜好度の精度を向上させている。

また、特許文献２に記載の発明は、視聴者のニッチな嗜好を反映したコンテンツを推薦するため、番組の出演者情報を解析して出演者間の関係度合いを算出し、登場が少ない出演者にも視聴者の嗜好を反映させている。

また、特許文献３に記載の発明は、視聴者の嗜好を反映したコンテンツ推薦を行うため、アクセスしたコンテンツから抽出したキーワード毎にヒストグラムを算出し、そのヒストグラムに基づいてコンテンツを推薦するものである。

特開２００６−２５９８９７号公報特開２００８−１９９４０６号公報特開２０１１−１０７８６９号公報

前記した従来技術は、視聴者がアクセスしたコンテンツに関するキーワードを抽出して、それらキーワードに基づいて推薦を行っている。つまり、従来技術では、抽出したキーワードの意味を解釈せずに単なるシンボルとして処理するため、概念空間へのマッピングが伴っていない。
なお、概念空間とは、物事や事象の概念が付与された疑似的な空間である。

このため、従来技術では、抽出されたキーワードと概念的に同一であるが、抽出されなかった未知のキーワードを扱うことができない。その結果、従来技術では、広範な視聴者の嗜好が反映された個人プロファイルを生成できず、視聴者の嗜好に適したコンテンツを推薦できていないという問題がある。

そこで、本願発明は、広範な個人の嗜好が反映された個人プロファイルを生成できる個人プロファイル生成装置及びそのプログラム、並びに、コンテンツ推薦装置を提供することを課題とする。

前記した課題に鑑みて、本願発明に係る個人プロファイル生成装置は、第１キーワード同士がリンクされたリンク付きコーパスから、個人の嗜好に適応した個人プロファイルを生成する個人プロファイル生成装置であって、初期グラフ生成手段と、グループ化手段と、グループ木構造グラフ生成手段と、プロファイル生成手段と、を備える構成とした。

かかる構成によれば、個人プロファイル生成装置は、初期グラフ生成手段によって、リンク付きコーパスの第１キーワードをノードとして、リンクされた第１キーワード同士をエッジとして接続した第１初期グラフを生成する。
個人プロファイル生成装置は、グループ化手段によって、予め設定された終了条件を満たすまで第１初期グラフを再帰的にグループ化することで、木構造におけるノードの位置を表した位置情報が付加された第１グループ化グラフを生成する。
個人プロファイル生成装置は、グループ木構造グラフ生成手段によって、位置情報に基づいて第１グループ化グラフの各ノードを配置することで、第１グループ化グラフから、上位概念及び下位概念となるノード同士が木構造で階層化された第１グループ木構造グラフを生成する。

このように、個人プロファイル生成装置は、リンク付きコーパスの第１キーワードが表す概念を階層的にグループ化することで、第１グループ木構造グラフを生成する。言い換えるなら、個人プロファイル生成装置は、キーワードの意味するところをシンボル化して、擬似的な概念空間にキーワードをマッピングする。このようにして、個人プロファイル生成装置は、従来技術で困難であった概念空間までの拡張を実現している。

個人プロファイル生成装置は、プロファイル生成手段によって、個人が興味を持つコンテンツの内容を表した個人興味情報に基づいて、個人の嗜好を表す重みを第１グループ木構造グラフのノードに伝搬させることで、個人プロファイルを生成する。

また、本願発明に係るコンテンツ推薦装置は、本願発明の個人プロファイル生成装置と、個人プロファイルと推薦対象プロファイルとの一致度を算出し、算出した一致度の閾値判定によって、推薦対象のコンテンツを個人に推薦するか否かを判定するコンテンツ推薦手段と、を備える構成とした。

本願発明によれば、以下のような優れた効果を奏する。
本願発明に係る個人プロファイル生成装置は、擬似的な概念空間にキーワードをマッピングし、概念空間まで個人プロファイルを拡張できるので、広範な個人の嗜好が反映された個人プロファイルを生成することができる。
本願発明に係るコンテンツ推薦装置は、個人プロファイル生成装置が生成した個人プロファイルを用いて、視聴者の嗜好に適したコンテンツを推薦することができる。

本願発明の実施形態において、リンク付きコーパスを説明する説明図である。本願発明の実施形態に係るコンテンツ推薦装置の構成を示すブロック図である。本願発明の実施形態において、初期グラフの生成を説明する説明図である。本願発明の実施形態において、初期グラフの初期化を説明する説明図である。本願発明の実施形態において、１回目のグループ化処理を説明する説明図である。本願発明の実施形態において、２回目のグループ化処理を説明する説明図である。本願発明の実施形態において、グループ木構造グラフの生成を説明する説明図である。本願発明の実施形態において、個人プロファイルの生成を説明する説明図である。図２の個人プロファイル生成装置によるグループ木構造グラフ生成処理を示すフローチャートである。図２の個人プロファイル生成装置によるプロファイル生成処理を示すフローチャートである。図２のコンテンツ推薦装置によるコンテンツ推薦処理を示すフローチャートである。

以下、本願発明の実施形態について、適宜図面を参照しながら詳細に説明する。
まず、本願発明の実施形態に係るコンテンツ推薦装置２で利用されるリンク付きコーパスを説明した後、コンテンツ推薦装置２の構成を説明する。

［リンク付きコーパス］
リンク付きコーパスとは、キーワード同士がリンク付けられた辞書コーパスのことである。リンク付きコーパスの代表例としては、ウィキペディアがあげられる。ウィキペディアは、キーワード間のリンク、及び、カテゴリに属する上位概念や下位概念のキーワードが管理されているので、リンク付きコーパスとして簡単に利用できる。

例えば、ウィキペディアには、俳優“○○○○”に関するページがある。図１のように、俳優“○○○○”のページの下部には、この俳優が属するカテゴリのキーワードとして、“日本の俳優”、“日本の歌手”、“△△市出身の人物”などが表示されている。

ここで、各カテゴリでは、そのカテゴリに含まれる、上位概念又は下位概念となるキーワード同士がリンクされている。例えば、カテゴリのキーワード“日本の俳優”をクリックすると、“主要カテゴリ＞…＞俳優＞各国の俳優＞日本の俳優”と、“主要カテゴリ＞…＞日本の人物＞日本の芸能人＞日本の俳優”とが表示される。

主要カテゴリの不等号“＞”は、左側のキーワードが右側のキーワードの上位概念であることを表す。１つ目のカテゴリでは、キーワード“俳優”及び“各国の俳優”が上位概念及び下位概念の関係でリンクされ、キーワード“各国の俳優”及び“日本の俳優”も上位概念及び下位概念の関係でリンクされている。また、２つ目のカテゴリでは、キーワード“日本の人物”及び“日本の芸能人”が上位概念及び下位概念の関係でリンクされ、キーワード“日本の芸能人”及び“日本の俳優”も上位概念及び下位概念の関係でリンクされている。

また、例えば、カテゴリのキーワード“△△市出身の人物”をクリックすると、“主要カテゴリ＞…＞△△県出身の人物＞△△市出身の人物＞△△市出身の力士”が表示される。つまり、キーワード“△△市出身の人物”は、“△△県出身の人物”という上位概念のキーワードにリンクされている。さらに、キーワード“△△市出身の人物”は、“△△市出身の力士”という下位概念のキーワードにリンクされている。

なお、ある主要カテゴリでは、上位概念及び下位概念となるキーワード同士が、別の主要カテゴリでは反対にリンクされることもある。このように、ウィキペディアでは、上位概念及び下位概念の関係に曖昧さが残り、擬似的な概念空間にキーワードをマッピングする際の妨げとなる。

［コンテンツ推薦装置の概略］
図２を参照し、コンテンツ推薦装置２の概略について説明する。
コンテンツ推薦装置２は、個人プロファイル生成装置１がリンク付きコーパスから個人プロファイルを生成し、生成した個人プロファイルに基づいて、コンテンツの推薦を行うものである。

コンテンツ推薦装置２では、大きく分けて、３つの処理が行われる。まず、個人プロファイル生成装置１は、リンク付きコーパスをグラフ化し、それを木構造グラフに変換する（グループ木構造グラフ生成処理）。このとき、個人プロファイル生成装置１は、グラフ解析における連結程度の粗密具合を判定するグループ化処理（コミュニティ検出）を再帰的に施す。

次に、個人プロファイル生成装置１は、各視聴者の嗜好を木構造グラフに反映した個人プロファイルを生成する（プロファイル生成処理）。このとき、コンテンツ推薦装置２は、木構造グラフを構成するノードに一致するキーワードを抽出し、そのノードに重みを加算すると同時に、木構造に沿ってその重みを伝搬する。これによって、各視聴者に適応した重み付き木構造グラフが生成され、個人プロファイルとして扱うことができる。

最後に、コンテンツ推薦装置２は、個人プロファイル生成装置１が生成した個人プロファイルを用いて、コンテンツの推薦を行う（コンテンツ推薦処理）。このとき、コンテンツ推薦装置２は、新たに生成した推薦対象プロファイルがどの程度個人プロファイルに一致しているかどうかで、推薦の可否を判定する。

［コンテンツ推薦装置の構成］
続いて、コンテンツ推薦装置２の構成について説明する。
図２のように、コンテンツ推薦装置２は、個人プロファイル生成装置１と、コンテンツ推薦手段７０とを備える。
個人プロファイル生成装置１は、初期グラフ生成手段１０と、グループ化手段２０と、グループ木構造グラフ生成手段３０と、グループ木構造グラフＤＢ４０と、プロファイル生成手段５０と、プロファイルＤＢ６０とを備える。

初期グラフ生成手段１０は、リンク付きコーパスが入力され、入力されたリンク付きコーパスのキーワード（第１キーワード）をノードとし、リンクされたキーワード同士をエッジとして接続した初期グラフ（第１初期グラフ、g_cat）を生成するものである。

＜初期グラフの生成＞
図１，図３を参照し、初期グラフの生成について、詳細に説明する（適宜図２参照）。
この例では、ウィキペディアにおける俳優“○○○○”のページから、初期グラフＡを生成することとする。例えば、初期グラフ生成手段１０は、俳優“○○○○”のページのＨＴＭＬ（Hyper Text Markup Language）を解析し、このページの下部に表示されているカテゴリのキーワードを取得する。ここでは、初期グラフ生成手段１０は、カテゴリのキーワードとして、“日本の俳優”、“△△市出身の人物”を取得したこととし、“日本の歌手”については説明を省略する。

図１のように、初期グラフ生成手段１０は、カテゴリのキーワード“日本の俳優”のリンクを辿り、２つのカテゴリから、キーワード“俳優”、“各国の俳優”、“日本の人物”、“日本の芸能人”を取得する。さらに、初期グラフ生成手段１０は、カテゴリのキーワード“△△市出身の人物”のリンクを辿り、キーワード“△△県出身の人物”、“△△市出身の力士”を取得する。

この場合、図３のように、キーワード“俳優”、“各国の俳優”、“日本の人物”、“日本の芸能人”、“日本の俳優”、“△△県出身の人物”、“△△市出身の人物”、“△△市出身の力士”のそれぞれがノードとなる。

また、キーワード“俳優”と“各国の俳優”とのリンク、及び、キーワード“各国の俳優”と“日本の俳優”とのリンクがエッジとなる。また、キーワード“日本の人物”と“日本の芸能人”とのリンク、及び、キーワード“日本の芸能人”と“日本の俳優”とのリンクがエッジとなる。さらに、キーワード“△△県出身の人物”と“△△市出身の人物” とのリンク、及び、キーワード“△△市出身の人物”と“△△市出身の力士”とのリンクがエッジとなる。

この他、別の主要カテゴリにおいて、キーワード“各国の俳優”と“日本の人物”とのリンク、キーワード“日本の人物”と“△△県出身の人物”のリンクが存在していたので、これらリンクもエッジとなる。
従って、初期グラフ生成手段１０は、前記したノードのそれぞれをエッジで接続し、図３のような初期グラフＡを生成する。

図２に戻り、初期グラフ生成手段１０について、説明を続ける。
また、初期グラフ生成手段１０は、推薦対象情報が入力され、入力された推薦対象情報にキーワード抽出処理（例えば、形態素解析処理）を施し、推薦対象情報からキーワード（第３キーワード）を抽出する。そして、初期グラフ生成手段１０は、推薦対象情報の第３キーワードのうち、リンク付きコーパスのキーワードに一致するものを抽出する（名寄せ処理）。

なお、推薦対象情報とは、推薦対象となるコンテンツの内容を表す情報である。例えば、推薦対象情報としては、推薦対象となる放送番組について、ＥＰＧの番組内容情報又は字幕情報があげられる。

さらに、初期グラフ生成手段１０は、抽出された第３キーワードをノードとして、リンク付きコーパスにおけるキーワード同士のリンクにより、第３キーワード同士をエッジとして接続した第２初期グラフを生成する。このとき、初期グラフ生成手段１０は、リンク付きコーパスのキーワードに一致する第３キーワードのみを抽出したため、リンク付きコーパスにおけるキーワード同士のリンクを利用して、第３キーワード同士を接続できる。
その後、初期グラフ生成手段１０は、生成した初期グラフＡ及び第２初期グラフをグループ化手段２０に出力する。

グループ化手段２０は、初期グラフ生成手段１０から入力された初期グラフＡを再帰的にグループ化することで、位置情報が付加されたグループ化グラフ（第１グループ化グラフ、g_cat_tree）を生成するものである。

具体的には、グループ化手段２０は、ノード間の連結粗密情報による再帰的グループ化処理を初期グラフＡに施す。このとき、グループ化手段２０は、再帰的グループ化処理によって、後記する位置情報を各ノードに付加する。この再帰的グループ化処理は、下記の参考文献に記載されている。
参考文献：Vincent D Blondel et.al,“Fast unfolding of communities in large networks”,“Journal of Statistical Mechanics:Theory and Experiment 2008(10),P10008(12pp)”

なお、連結粗密情報とは、対象となるノードが属するグループを表す指標であり、ノード同士の類似度と言うこともできる。前記参考文献に記載の手法では、連結粗密情報として、モジュラリティ（modularity）と呼ばれる指標を用いて、コミュニティ検出を行っている。

＜再帰的グループ化処理＞
図４〜図６を参照し、再帰的グループ化処理について、詳細に説明する（適宜図２参照）。
図４のように、グループ化手段２０は、図３の初期グラフＡのグループを初期化する。初期化された初期グラフＡでは、全てのノードが同一のグループＧ_１に属する。

次に、グループ化手段２０は、図４の初期グラフＡに対し、グループＧ_１を親グループとして、１回目のグループ化処理を施す。このとき、グループ化手段２０は、各グループの親子関係（従属関係）を抽出し、連結部分が密なノード同士を子グループとして纏める。

図５のように、グループ化手段２０は、親グループＧ_１を、ノード“俳優”、“各国の俳優”、“日本の人物”、“日本の芸能人”、“日本の俳優”が纏まった子グループＧ_２と、ノード“△△県出身の人物”、“△△市出身の人物”、“△△市出身の力士”が纏まった子グループＧ_３とに分割する。

次に、グループ化手段２０は、図５の初期グラフＡに対し、子グループであったグループＧ_２，Ｇ_３をそれぞれ親グループとして更新し、２回目のグループ化処理を施す。図６のように、グループ化手段２０は、親グループＧ_２を、ノード“俳優”、“各国の俳優”が纏まった子グループＧ_２１と、ノード“日本の人物”、“日本の芸能人”、“日本の俳優”が纏まった子グループＧ_２２とに分割する。
なお、グループＧ_３は、分割されなかったこととする。

このように、グループ化手段２０は、予め設定された終了条件を満たすまでグループ化処理を再帰的に施し、グループ化グラフＢを生成する。このとき、グループ化手段２０は、グループ化グラフＢのグループ数を、後記するグループ木構造グラフの階層数以下にしたい。そこで、終了条件は、グループ化処理の実行回数が予め設定された回数（例えば、グループ木構造グラフの最大階層数）を超えた場合、グループ化処理を終了するという条件で設定される。

図２に戻り、グループ化手段２０について、説明を続ける。
また、グループ化手段２０は、初期グラフ生成手段１０から入力された第２初期グラフを再帰的にグループ化することで、位置情報が付加された第２グループ化グラフを生成する。ここで、グループ化手段２０は、グループ化グラフＢと同様の手順で、第２グループ化グラフを生成できるため、説明を省略する。
その後、グループ化手段２０は、生成したグループ化グラフＢ及び第２グループ化グラフをグループ木構造グラフ生成手段３０に出力する。

グループ木構造グラフ生成手段３０は、グループ化手段２０から入力されたグループ化グラフＢの各ノードに付加された位置情報に基づいて、各視聴者（各個人）に共通するグループ木構造グラフ（第１グループ木構造グラフ）を１つ生成するものである。
なお、グループ木構造グラフは、上位概念及び下位概念となるノード同士が木構造で階層化されたグラフである。

＜グループ木構造グラフの生成＞
以下、図７を参照し、グループ木構造グラフの生成について、説明する（適宜図２参照）。

前記したように、グループ化グラフＢの各ノードには、再帰的グループ化処理により、位置情報が付加されている。この位置情報は、グループ木構造グラフにおけるノードの位置を表す情報であり、例えば、タプル形式で表される。タプル形式の位置情報は、左から順にカッコ内の各数値が、グループ木構造グラフの階層毎に辿るノードの位置を表している。

例えば、あるノードの位置情報が（０，２，２５，１１，２）であることとする。この場合、位置情報の先頭は、常にグループ木構造グラフのルートノードを表すため、‘０’になる。また、位置情報は、２番目の数値が‘２’であることから、グループ木構造グラフでルートノードから１つ下となる第１階層において、左から‘２’個目のノードを表す。また、位置情報は、３番目の数値が‘２５’であることから、グループ木構造グラフの第２階層において、左から‘２５’個目のノードを表す。また、位置情報は、４番目の数値が‘１１’であることから、グループ木構造グラフの第３階層において、左から‘１１’個目のノードを表す。また、位置情報は、５番目の数値が‘２’であることから、グループ木構造グラフの第４階層において、左から‘２’個目のノードを表す。

以上より、位置情報は、このノードが、第４階層に位置することを表す。そして、位置情報は、このノードが、ルートノード、第１階層で左から‘２’個目のノード、第２階層で左から‘２５’個目のノード、第３階層で左から‘１１’個目のノードを順に経由して、第４階層で左から‘２’個目のノードであることを表す。
なお、各ノードの位置情報は、グループ木構造グラフ内で異なる位置を表し、重複しない。

そこで、グループ木構造グラフ生成手段３０は、グループ化グラフＢの各ノードに付加された位置情報が示す位置にそのノードを配置する。このようにして、グループ木構造グラフ生成手段３０は、図６のグループ化グラフＢを、図７のようなグループ木構造グラフＣに変換できる。

前記したように、ウィキペディアでは、上位概念及び下位概念の関係に曖昧さが残る。そこで、個人プロファイル生成装置１は、ウィキペディアの各キーワードを概念的に類似するキーワード同士でグループ化し、グループ木構造グラフＣを生成する。このグループ木構造グラフＣは、全ノードで木構造が保たれているため、上位概念及び下位概念の関係に曖昧さが残っていない。

図２に戻り、グループ木構造グラフ生成手段３０について、説明を続ける。
また、グループ木構造グラフ生成手段３０は、グループ化手段２０から入力された第２グループ化グラフの各ノードに付加された位置情報に基づいて、第２グループ木構造グラフを生成する。ここで、第２グループ木構造グラフは、グループ木構造グラフＣと同様の手順で生成できるため、説明を省略する。
その後、グループ木構造グラフ生成手段３０は、グループ木構造グラフＣ及び第２グループ木構造グラフをグループ木構造グラフＤＢ４０に書き込む。

グループ木構造グラフＤＢ４０は、グループ木構造グラフＣ及び第２グループ木構造グラフを記憶するデータベースである。このグループ木構造グラフＤＢ４０は、後記するプロファイル生成手段５０により、参照される。

プロファイル生成手段５０は、アクセス履歴情報（個人興味情報）が入力され、入力されたアクセス履歴情報に基づいて、視聴者の嗜好を表した重みをグループ木構造グラフＣのノードに伝搬させることで、視聴者毎に個人プロファイル（base_tree）を生成するものである。

ここで、アクセス履歴情報とは、視聴者が興味を持つコンテンツの内容を表す情報であり、各視聴者がコンテンツにアクセスした履歴である。例えば、アクセス履歴情報としては、各視聴者が視聴した放送番組について、ＥＰＧ（Electronic Program Guide）の番組内容情報又は字幕情報があげられる。
なお、個人プロファイルは、グループ木構造グラフＣを各視聴者に適応させたものであるから、個人適応型グループ木構造グラフと呼ぶこともできる。

＜個人プロファイルの生成＞
図８を参照し、個人プロファイルの生成について、詳細に説明する（適宜図２参照）。
まず、プロファイル生成手段５０は、アクセス履歴情報にキーワード抽出処理（例えば、形態素解析処理）を施し、アクセス履歴情報からキーワード（第２キーワード）を抽出する。次に、プロファイル生成手段５０は、抽出した各キーワードに一致するグループ木構造グラフＣのノードを探索する。そして、プロファイル生成手段５０は、この探索されたノード（基準ノード）に予め設定された重みを加える。
なお、この重みは、任意の値に設定することができる。

続いて、プロファイル生成手段５０は、基準ノードから各ノードに到るまで階層が１つ上がる毎に上位係数αと階層が１つ下がる毎に下位係数βとが乗じられた重みを算出する。ここで、上位係数α及び下位係数βは、１以下の値で予め設定される。そして、プロファイル生成手段５０は、算出した重みが予め設定された閾値以下になるまで、算出した重みを各ノードに加える。すなわち、プロファイル生成手段５０は、上位係数α及び下位係数βが１の場合を除き、基準ノードから階層が離れる程に重みを小さくしながら、重みを伝搬させる。

例えば、アクセス履歴情報から“日本の俳優”というキーワードが抽出された場合を考える。この場合、プロファイル生成手段５０は、図８のように、グループ木構造グラフＣのノード“日本の俳優”を基準ノードとして探索する。そして、プロファイル生成手段５０は、基準ノード“日本の俳優”に重みを加える。
なお、図８では、ａｃｃｕｍが重みを表す。

次に、プロファイル生成手段５０は、基準ノード“日本の俳優”からノード“日本の芸能人”まで階層が１つ上がるので、ノード“日本の芸能人”に重み×上位係数αを加算する。そして、プロファイル生成手段５０は、基準ノード“日本の俳優”からノード“日本の人物”まで階層が２つ上がるので、ノード“日本の人物”に重み×上位係数α^２を加算する。さらに、プロファイル生成手段５０は、基準ノード“日本の俳優”からノード“△△県出身の人物”まで階層が２つ上がった後に１つ下がるので、ノード“△△県出身の人物”に重み×上位係数α^２×下位係数βを加算する。

ここで、プロファイル生成手段５０は、重みが予め設定された閾値以下になるまで、算出した重みを各ノードに加算する。言い換えるなら、プロファイル生成手段５０は、重みが閾値を超える範囲のノードには重みを加算し、重みが閾値以下になる範囲のノードには重みを加算しない。例えば、プロファイル生成手段５０は、ノード“△△市出身の人物”では、重み×上位係数α^２×下位係数β^２の値が閾値以下になるので、ノード“△△市出身の人物”に重みを加算しない。

このようにして、プロファイル生成手段５０は、各視聴者に最適化された個人プロファイルを生成する。これにより、個人プロファイル生成装置１は、キーワードの数が少なくても、視聴者の嗜好を表すキーワードの上位概念を見つけることが可能となる。

なお、プロファイル生成手段５０は、ある視聴者がコンテンツを視聴する都度、視聴されたコンテンツのアクセス履歴情報が入力される。従って、プロファイル生成手段５０は、アクセス履歴情報が入力される都度、前記手順でプロファイルＤＢ６０の個人プロファイルに反映させてもよい。

図２に戻り、プロファイル生成手段５０について、説明を続ける。
また、プロファイル生成手段５０は、第２グループ木構造グラフのノードに重み付けを行うことで、推薦対象プロファイル(target_tree)を生成する。ここで、プロファイル生成手段５０は、第２グループ木構造グラフのノードに、任意の手法で重み付けを行うことができる。例えば、プロファイル生成手段５０は、ｔｆ−ｉｄｆ（Term Frequency-Inverse Document Frequency）法で重み付けを行ってもよい。また、プロファイル生成手段５０は、第２グループ木構造グラフのノードが固有名詞のときは一般名詞よりも大きく重み付けを行い、そのノードが一般名詞のときは固有名詞よりも小さく重み付けを行ってもよい。

その後、プロファイル生成手段５０は、生成した個人プロファイル及び推薦対象プロファイルをプロファイルＤＢ６０に書き込む。
なお、推薦対象プロファイルは、個人プロファイルと同一の木構造を有するが、各ノードの重みが個人プロファイルで同一位置のノードと異なる。

プロファイルＤＢ６０は、個人プロファイル及び推薦対象プロファイルを記憶するデータベースである。このプロファイルＤＢ６０は、後記するコンテンツ推薦手段７０により、参照される。

コンテンツ推薦手段７０は、個人プロファイルと推薦対象プロファイルとの一致度を算出し、算出した一致度の閾値判定によって、推薦対象のコンテンツを視聴者に推薦するか否かを判定するものである。

＜コンテンツの推薦＞
以下、コンテンツの推薦について、詳細に説明する（適宜図２参照）。
本実施形態では、コンテンツ推薦手段７０は、個人プロファイルと推薦対象プロファイルとの一致度として、推薦対象プロファイルが個人プロファイルにどの程度含まれているかを表す包含係数を算出する。

ここで、コンテンツ推薦手段７０は、推薦対象プロファイル（target_tree）において、重みが‘０’を超えるリーフノードを全て抽出する。なお、リーフノードとは、推薦対象プロファイル及び個人プロファイルで最下層に位置するノードのことである。

また、コンテンツ推薦手段７０は、抽出された各リーフノードを起点として、ルートノードまでの重みを表したベクトルｔａｒｇｅｔ＿ｖｅｃ[ｉ]を算出する。ここで、ｉは、リーフノードの番号を表す１以上の整数である。例えば、ｉ番目のリーフノードの位置情報が（０，１，２，３，４）であることとする。この場合、コンテンツ推薦手段７０は、ベクトルｔａｒｇｅｔ＿ｖｅｃ[ｉ]として、[（０，１，２，３，４）＿ａｃｃｕｍ，（０，１，２，３）＿ａｃｃｕｍ，（０，１，２）＿ａｃｃｕｍ，（０，１）＿ａｃｃｕｍ，（０）＿ａｃｃｕｍ]という５次元のベクトルを算出する。
なお、ａｃｃｕｍの前に各ノードの位置情報を記載した。例えば、（０，１，２，３，４）＿ａｃｃｕｍがｉ番目のリーフノードの重みを表し、（０）＿ａｃｃｕｍがルートノードの重みを表す。

続いて、コンテンツ推薦手段７０は、個人プロファイル（base_tree）において、重みが‘０’を超えるリーフノードを全て抽出し、抽出した各リーフノードを起点として、ルートノードまでの重みを表したベクトルｂａｓｅ＿ｖｅｃ[ｉ]を算出する。ここで、コンテンツ推薦手段７０は、ベクトルｂａｓｅ＿ｖｅｃ[ｉ]を、ベクトルｔａｒｇｅｔ＿ｖｅｃ[ｉ]と同様に算出するため、説明を省略する。

そして、コンテンツ推薦手段７０は、ベクトルｂａｓｅ＿ｖｅｃ[ｉ]の各要素を、個人プロファイルを生成したときの補正係数を用いて平準化する。例えば、コンテンツ推薦手段７０は、補正係数が個人プロファイルのキーワード総数の場合、ベクトルｂａｓｅ＿ｖｅｃ[ｉ]の各要素をキーワード総数で除算する。
なお、コンテンツ推薦手段７０は、ベクトルｔａｒｇｅｔ＿ｖｅｃ[ｉ]の各要素を平準化してもよいし、平準化しなくともよい。

続いて、コンテンツ推薦手段７０は、ベクトルｔａｒｇｅｔ＿ｖｅｃ[ｉ]とベクトルｂａｓｅ＿ｖｅｃ[ｉ]との内積をベクトル類似度として算出する。さらに、コンテンツ推薦手段７０は、包含係数として、ｉ個のベクトル類似度の平均値を算出する。つまり、コンテンツ推薦手段７０は、同じリーフノードからルートノードまでの経路で生成したベクトルの内積により、各経路の重なり具合を表した指標を算出する。

続いて、コンテンツ推薦手段７０は、包含係数（一致度）が予め設定された閾値以上であるか否かを判定する。
包含係数が閾値以上の場合、コンテンツ推薦手段７０は、推薦対象となるコンテンツを視聴者に推薦するという判定結果を出力する。
包含係数が閾値未満の場合、コンテンツ推薦手段７０は、推薦対象となるコンテンツを視聴者に推薦しないという判定結果を出力する。

［個人プロファイル生成装置の動作：グループ木構造グラフ生成処理］
図９を参照し、個人プロファイル生成装置１のグループ木構造グラフ生成処理について、詳細に説明する（適宜図２参照）。

個人プロファイル生成装置１は、初期グラフ生成手段１０によって、リンク付きコーパスのキーワードをノードとし、リンクされたキーワード同士をエッジとして接続した初期グラフＡを生成する（ステップＳ１）。

個人プロファイル生成装置１は、グループ化手段２０によって、全てのノードが同一の親グループに属するように、初期グラフＡのグループを初期化する（ステップＳ２）。
個人プロファイル生成装置１は、グループ化手段２０によって、ノード間の連結粗密情報に基づいて、親グループを２以上の子グループに分割する（ステップＳ３）。

個人プロファイル生成装置１は、グループ化手段２０によって、各グループの親子関係を抽出する（ステップＳ４）。
個人プロファイル生成装置１は、グループ化手段２０によって、終了条件を満たすか否かを判定する（ステップＳ５）。

終了条件を満たさない場合（ステップＳ５でＮｏ）、個人プロファイル生成装置１は、グループ化手段２０によって、ステップＳ４で抽出した子グループを親グループに更新し（ステップＳ６）、ステップＳ３の処理に戻る。

終了条件を満たす場合（ステップＳ５でＹｅｓ）、個人プロファイル生成装置１は、グループ木構造グラフ生成手段３０によって、ステップＳ２〜Ｓ４の処理で生成されたグループ化グラフＢにおいて、位置情報が示す位置に各ノードを配置することで、グループ木構造グラフＣを生成する（ステップＳ７）。
以上の手順により、個人プロファイル生成装置１は、グループ木構造グラフＣを生成できる。

なお、個人プロファイル生成装置１は、推薦対象情報にキーワード抽出処理を施し、リンク付きコーパスにおけるキーワード同士のリンクを利用することで、第２初期グラフを生成できる（ステップＳ１Ａ）。
以後、個人プロファイル生成装置１は、ステップＳ２〜Ｓ４と同様の処理で第２グループ木構造グラフを生成できるため、説明を省略する。

［個人プロファイル生成装置の動作：プロファイル生成処理］
図１０を参照し、個人プロファイル生成装置１のプロファイル生成処理について、詳細に説明する（適宜図２参照）。
個人プロファイル生成装置１は、プロファイル生成手段５０によって、アクセス履歴情報からキーワードを抽出する（ステップＳ１１）。

個人プロファイル生成装置１は、プロファイル生成手段５０によって、抽出したキーワードに一致するグループ木構造グラフＣのノードを探索し、探索された基準ノードに重みを加える。
個人プロファイル生成装置１は、プロファイル生成手段５０によって、上位係数αと下位係数βとが乗じられた重みが閾値以下になるまで、その重みをグループ木構造グラフＣのノードに加える（ステップＳ１２）。

ここで、個人プロファイル生成装置１は、アクセス履歴情報から抽出した全てのキーワードについて、ステップＳ１１，Ｓ１２の処理を行う。
以上の手順により、個人プロファイル生成装置１は、個人プロファイルを生成できる。

なお、個人プロファイル生成装置１は、ステップＳ１１の処理を行わずに、第２グループ木構造グラフの各ノードに任意の手法で重み付けを行うことで、推薦対象プロファイルを生成できる（ステップＳ１２Ａ）。

［コンテンツ推薦装置の動作：コンテンツ推薦処理］
図１１を参照し、コンテンツ推薦装置２のコンテンツ推薦処理について、詳細に説明する（適宜図２参照）。

コンテンツ推薦装置２は、コンテンツ推薦手段７０によって、個人プロファイルと推薦対象プロファイルとをベクトル化する（ステップＳ２１）。
コンテンツ推薦装置２は、コンテンツ推薦手段７０によって、ステップＳ２１でベクトル化された個人プロファイルと推薦対象プロファイルとの一致度を算出する（ステップＳ２２）。
コンテンツ推薦装置２は、コンテンツ推薦手段７０によって、ステップＳ２２で算出した一致度が閾値以上であるか否かを判定する（ステップＳ２３）。

一致度が閾値以上の場合（ステップＳ２３でＹｅｓ）、コンテンツ推薦手段７０は、推薦対象となるコンテンツを推薦する（ステップＳ２４）。
一致度が閾値未満の場合（ステップＳ２３でＮｏ）、又は、ステップＳ２４の処理後、コンテンツ推薦手段７０は、処理を終了する。
以上の手順により、コンテンツ推薦装置２は、コンテンツを推薦できる。

本願発明の実施形態に係るコンテンツ推薦装置２は、擬似的な概念空間にキーワードをマッピングするので、概念空間まで個人プロファイルを拡張可能とし、広範な視聴者の嗜好が反映された個人プロファイルを生成することができる。

すなわち、コンテンツ推薦装置２は、概念的な領域まで踏み込んで、視聴者の嗜好を個人プロファイル化することができる。その結果、コンテンツ推薦装置２は、表層的なキーワードでのマッチング処理で困難であったグループ単位での概念を基にした情報推薦が可能となり、未知のキーワードが出現しても、的確に視聴者の嗜好に応じたコンテンツを推薦できる。

以上、本願発明の各実施形態を詳述してきたが、本願発明は前記した実施形態に限られるものではなく、本願発明の要旨を逸脱しない範囲の設計変更なども含まれる。

前記した実施形態では、キーワードを扱って説明したが、本願発明は、キーワードに限られず画像特徴量などの情報リソースにも適用することができる。
また、前記した実施形態では、番組に関するコンテンツを推薦することとして説明したが、本願発明による個人プロファイルを用いて、番組以外のコンテンツ、例えばイベント情報、商品情報などを推薦することもできる。

前記した実施形態では、リンク付きコーパスがウィキペディアであることとして説明したが、本願発明は、これに限定されない。例えば、本願発明は、リンク付きコーパスとして、リンクが張られたホームページや、学術論文の引用情報も利用することができる。

前記した実施形態では、一致度の閾値判定により推薦の可否を判定したが、本願発明は、これに限定されない。例えば、本願発明は、推薦対象となるコンテンツ毎に一致度を算出し、一致度が高い順に視聴者に推薦してもよい。

前記した実施形態では、個人プロファイル生成装置１を独立したハードウェアとして説明したが、本願発明は、これに限定されない。例えば、個人プロファイル生成装置１は、コンピュータが備えるＣＰＵ、メモリ、ハードディスクなどのハードウェア資源を、前記した各手段として協調動作させる個人プロファイル生成プログラムで実現することもできる。このプログラムは、通信回線を介して配布してもよく、ＣＤ−ＲＯＭやフラッシュメモリなどの記録媒体に書き込んで配布してもよい。

１個人プロファイル生成装置
２コンテンツ推薦装置
１０初期グラフ生成手段
２０グループ化手段
３０グループ木構造グラフ生成手段
４０グループ木構造グラフＤＢ
５０プロファイル生成手段
６０プロファイルＤＢ
７０コンテンツ推薦手段

Claims

第１キーワード同士がリンクされたリンク付きコーパスから、個人の嗜好に適応した個人プロファイルを生成する個人プロファイル生成装置であって、
前記リンク付きコーパスの第１キーワードをノードとして、リンクされた前記第１キーワード同士をエッジとして接続した第１初期グラフを生成する初期グラフ生成手段と、
予め設定された終了条件を満たすまで前記第１初期グラフを再帰的にグループ化することで、木構造における前記ノードの位置を表した位置情報が付加された第１グループ化グラフを生成するグループ化手段と、
前記位置情報に基づいて前記第１グループ化グラフの各ノードを配置することで、前記第１グループ化グラフから、上位概念及び下位概念となる前記ノード同士が木構造で階層化された第１グループ木構造グラフを生成するグループ木構造グラフ生成手段と、
前記個人が興味を持つコンテンツの内容を表す個人興味情報に基づいて、前記個人の嗜好を表した重みを前記第１グループ木構造グラフのノードに伝搬させることで、前記個人プロファイルを生成するプロファイル生成手段と、を備えることを特徴とする個人プロファイル生成装置。
前記グループ化手段は、前記ノード間の連結粗密情報による再帰的グループ化処理を前記第１初期グラフに施すことを特徴とする請求項１に記載の個人プロファイル生成装置。
前記プロファイル生成手段は、
前記個人興味情報に含まれる第２キーワードを抽出し、
抽出した前記第２キーワードに一致する前記第１グループ木構造グラフのノードである基準ノードに所定の重みを加え、
前記基準ノードから前記第１グループ木構造グラフの各ノードに到るまで階層が１つ上がる毎に予め設定された１以下の上位係数と前記階層が１つ下がる毎に予め設定された１以下の下位係数とが乗じられた重みを算出し、
算出した当該重みが予め設定された閾値以下になるまで、算出した当該重みを前記第１グループ木構造グラフの各ノードに加えることを特徴とする請求項１又は請求項２に記載の個人プロファイル生成装置。
前記初期グラフ生成手段は、推薦対象となるコンテンツの内容を表す推薦対象情報に含まれる第３キーワードのうち、前記第１キーワードに一致するものを抽出し、抽出された前記第３キーワードをノードとして、前記第１キーワード同士のリンクにより前記第３キーワード同士をエッジとして接続した第２初期グラフを生成し、
前記グループ化手段は、前記終了条件を満たすまで前記第２初期グラフを再帰的にグループ化することで、前記位置情報が付加された第２グループ化グラフを生成し、
前記グループ木構造グラフ生成手段は、前記位置情報に基づいて前記第２グループ化グラフの各ノードを配置することで、前記第２グループ化グラフから、上位概念及び下位概念となる前記ノード同士が木構造で階層化された第２グループ木構造グラフを生成し、
前記プロファイル生成手段は、前記第２グループ木構造グラフのノードに重み付けを行うことで、推薦対象プロファイルを生成することを特徴とする請求項１から請求項３の何れか一項に記載の個人プロファイル生成装置。
請求項４に記載の個人プロファイル生成装置と、
前記個人プロファイルと前記推薦対象プロファイルとの一致度を算出し、算出した前記一致度の閾値判定によって、前記推薦対象のコンテンツを前記個人に推薦するか否かを判定するコンテンツ推薦手段と、を備えることを特徴とするコンテンツ推薦装置。
コンピュータを、請求項１から請求項４の何れか一項に記載の個人プロファイル生成装置として機能させるための個人プロファイル生成プログラム。